CN111209394A - 文本分类处理方法和装置 - Google Patents

文本分类处理方法和装置 Download PDF

Info

Publication number
CN111209394A
CN111209394A CN201911360673.7A CN201911360673A CN111209394A CN 111209394 A CN111209394 A CN 111209394A CN 201911360673 A CN201911360673 A CN 201911360673A CN 111209394 A CN111209394 A CN 111209394A
Authority
CN
China
Prior art keywords
training
model
text
corpus
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911360673.7A
Other languages
English (en)
Inventor
张禄
及洪泉
姚晓明
胡彩娥
丁屹峰
王培祎
马龙飞
陆斯悦
王健
徐蕙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911360673.7A priority Critical patent/CN111209394A/zh
Priority to PCT/CN2020/092099 priority patent/WO2021128721A1/zh
Publication of CN111209394A publication Critical patent/CN111209394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类处理方法和装置。其中,该方法包括:获取待分类的文本;将待分类的文本输入到模型当中,其中,模型为使用训练数据通过机器学习训练所得到的;将从模型中获取的输出作为待分类的文本对应的类别;保存待分类的文本和其对应的类别。本发明解决了现有技术依靠人工方式对文本进行分类的技术问题。

Description

文本分类处理方法和装置
技术领域
本发明涉及文本分类领域,具体而言,涉及一种文本分类处理方法和装置。
背景技术
在泛在电力物联网的大背景下,95598客户服务系统作为泛在电力物联网应用的重要组成部分,登记了海量客户信息。当前主要依靠人工统计工单分析,产生效率不足等相关问题。由于在95598客户诉求数据量较大,人工分类效率低,无法做到精准高效分类。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本分类处理方法和装置,以至少解决现有技术依靠人工方式对文本进行分类的技术问题。
根据本发明实施例的一个方面,提供了一种文本分类处理方法,包括:获取待分类的文本;将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;将从所述模型中获取的输出作为所述待分类的文本对应的类别;保存所述待分类的文本和其对应的类别。
可选地,在获取所述待分类的文本之前,所述方法还包括:使用多组训练数据通过机器学习进行训练得到所述模型。
可选地,通过机器学习进行训练得到所述模型包括:使用第一语料集进行预训练得到第一模型;使用第二语料集对所述第一模型进行迭代训练得到所述模型,其中,所述第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。
可选地,使用所述第一语料集进行预训练得到第一模型包括:通过BERT使用所述第一语料集进行训练得到所述第一模型,其中,在所述训练中掩盖语料集中的每一条语料的部分内容,所述训练用于预测所掩盖的内容。
可选地,所述文本包括工单文本,所述类别包括:工单的类型,其中,所述类型包括至少一类。
根据本发明实施例的另一方面,还提供了一种文本分类处理装置,包括:获取模块,用于获取待分类的文本;输入模块,用于将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;输出模块,用于将从所述模型中获取的输出作为所述待分类的文本对应的类别;保存模块,用于保存所述待分类的文本和其对应的类别。
可选地,还包括:训练模块,用于使用多组训练数据通过机器学习进行训练得到所述模型。
可选地,所述训练模块包括:第一训练单元,用于使用第一语料集进行预训练得到第一模型;第二训练单元,用于使用第二语料集对所述第一模型进行迭代训练得到所述模型,其中,所述第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。
可选地,所述第一训练单元用于:通过BERT使用所述第一语料集进行训练得到所述第一模型,其中,在所述训练中掩盖语料集中的每一条语料的部分内容,所述训练用于预测所掩盖的内容。
可选地,所述文本包括工单文本,所述类别包括:工单的类型,其中,所述类型包括至少一类。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的文本分类处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的文本分类处理方法。
在本发明实施例中,采用获取待分类的文本;将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;将从所述模型中获取的输出作为所述待分类的文本对应的类别;保存所述待分类的文本和其对应的类别的方式,通过机器学习训练得到的模型识别待分类的文本对应的类别,并进行保存,达到了快速、准确进行分类的目的,从而实现了提高文本分类效率的技术效果,进而解决了现有技术依靠人工方式对文本进行分类技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的文本分类处理方法的流程图;
图2是根据本发明可选实施例的分类模型的训练的流程图;
图3是根据本发明实施例的文本分类处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文本分类处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的文本分类处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取待分类的文本;
上述待分类的文本包括但不限于工单,其中,可以通过多种方式获取待分类的文本,例如,利用爬取软件、人工录入等。在具体实施过程中,利用多种方式获取待分类的文本,可以扩展待分类的文本来源,以适用于多种应用场景。
步骤S104,将待分类的文本输入到模型当中,其中,模型为使用训练数据通过机器学习训练所得到的;
在上述模型为分类模型时,可以通过该模型对待分类的文本进行处理。可选地,该模型为工单分类模型。需要说明的是,上述模型是使用训练数据通过机器学习训练所得到的,可以实现文本的自动分类。
步骤S106,将从模型中获取的输出作为待分类的文本对应的类别;
通过上述模型可以将输入的待分类的文本,对应输出其对应的类别,该模型可以有效提高分类精度,提高文本分类效率。
步骤S108,保存待分类的文本和其对应的类别。
作为一种可选的实施例,可以将待分类的文本和其对应的类别以预定格式进行保存,其中,该预定格式包括文本属性和类别属性,可以将待分类的文本保存在文本属性的位置,将待分类的文本对应的类别保存在类别属性的位置。需要说明的是,在具体实施过程中,并不仅限于上述方式。
通过上述步骤,可以通过机器学习训练得到的模型识别待分类的文本对应的类别,并进行保存,达到了快速、准确进行分类的目的,从而实现了提高文本分类效率的技术效果,进而解决了现有技术依靠人工方式对文本进行分类技术问题。
可选地,在获取待分类的文本之前,方法还包括:使用多组训练数据通过机器学习进行训练得到模型。
上述使用多组训练数据也就是使用大量的训练数据,因此,基于大量的训练数据通过机器学习训练得到的模型,该模型的识别或者预测效果更好、使得分类精度、准确度得到很大的提升。
作为一种可选的实施例,在训练模型过程中,可以利用Transformer中的attention机制代替原本的循环神经网络(Recurrent Neural Network,简称为RNN),而RNN在训练的时候,当前步的计算要依赖于上一步的隐含状态,也就是说这是一个序列的过程,每次计算都要等之前的计算完成才能展开。而Transformer不用RNN,所有的计算都可以并行进行,从而提高的训练的速度。
另外,在RNN里,如果第一帧要和第十帧建立依赖,那么第一帧的数据要依次经过第二三四五...九帧传给第十帧,进而产生二者的计算。而在这个传递的过程中,可能第一帧的数据已经产生了偏差,因此这个交互的速度和准确性都没有保障,而在Transformer中,由于有self attention的存在,任意两帧之间都有直接的交互,从而建立了直接的依赖,无论二者距离多远,这样可以提高训练的准确性。
可选地,通过机器学习进行训练得到模型包括:使用第一语料集进行预训练得到第一模型;使用第二语料集对第一模型进行迭代训练得到模型,其中,第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。
可以通过第一语料集以及第二语料集分别对第一模型进行预训练、迭代训练得到最终的模型。无论是第一语料集,还是第二语料集均包括多组数据,每一组数据均包括文本以及该文本所对应的类别。通过上述的不同的训练方式,能够不断对模型进行调优与更新,有效提高模型的稳定性。
可选地,使用第一语料集进行预训练得到第一模型包括:通过BERT使用第一语料集进行训练得到第一模型,其中,在训练中掩盖语料集中的每一条语料的部分内容,训练用于预测所掩盖的内容。
上述BERT包括Transformer编码器,其中,在用于预测所掩盖的内容时,掩盖与屏蔽词对应的所有标记。同时在保证整体掩蔽率保持不变的情况下,第一模型可以独立地预测每个掩蔽词的标记。
可选地,文本包括工单文本,类别包括:工单的类型,其中,类型包括至少一类。
上述单文本可以包括但不限于95598工单,其中,工单的类型可以根据应用需求进行划分,比如,可以根据距离、录入时间、工单级别等划分不同的工单类型。
下面对本发明一种可选的实施方式进行说明。
以95598工单为例,图2是根据本发明可选实施例的分类模型的训练的流程图,如图2所示,在客服接入时,客服将工单内容人工录入类别与文本两个部分,在对类别与文本分别做相应的清洗校对工作后,文本内容进入已经训练好的分类模型中。随后将分类模型的预测数据与人工录入的类别进行比对,得到当前模型的评价指标用以评估当前模型性能。
同时通过当前模型性能判断是否需要使用新的比对结果与文本内容继续对模型进行调优与更新。这样可以确保模型的实时效果,避免出现不确定的模型偏差,并且为模型提供了持续使用及优化的可能性。
需要说明的是,在上述实施过程中,可以为95598工单提供自动化的基于文本内容的分类功能;具有模型性能的实时监控与显示功能,为模型维护提供便利;模型具备持续更新优化的能力,能够在实际业务过程中不断调优;针对文本工单的趋势变化,具备一定的适应能力;模型在实际业务过程中的使用方式。
另外,通过上述工单分类模型,不仅提高了预测精度,还能够实现业务中要求的工单分类功能。
实施例2
根据本发明实施例的另外一个方面,还提供了一种用于执行上述实施例1中的文本分类处理方法的装置实施例,图3是根据本发明实施例的文本分类处理装置的示意图,如图3所示,该文本分类处理装置包括:获取模块302,输入模块304,输出模块306以及保存模块308。下面对该文本分类处理装置进行详细说明。
获取模块302,用于获取待分类的文本;
输入模块304,连接至上述获取模块302,用于将待分类的文本输入到模型当中,其中,模型为使用训练数据通过机器学习训练所得到的;
输出模块306,连接至上述输入模块304,用于将从模型中获取的输出作为待分类的文本对应的类别;
保存模块308,连接至上述输出模块306,用于保存待分类的文本和其对应的类别。
上述装置可以通过机器学习训练得到的模型识别待分类的文本对应的类别,并进行保存,达到了快速、准确进行分类的目的,从而实现了提高文本分类效率的技术效果,进而解决了现有技术依靠人工方式对文本进行分类技术问题。
此处需要说明的是,上述获取模块302,输入模块304,输出模块306以及保存模块308对应于实施例1中的步骤S102至S108,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
可选地,还包括:训练模块,用于使用多组训练数据通过机器学习进行训练得到模型。
上述使用多组训练数据也就是使用大量的训练数据,因此,基于大量的训练数据通过机器学习训练得到的模型,该模型的识别或者预测效果更好、使得分类精度、准确度得到很大的提升。
作为一种可选的实施例,在训练模型过程中,可以利用Transformer中的attention机制代替原本的RNN,而RNN在训练的时候,当前步的计算要依赖于上一步的隐含状态,也就是说这是一个序列的过程,每次计算都要等之前的计算完成才能展开。而Transformer不用RNN,所有的计算都可以并行进行,从而提高的训练的速度。
另外,在RNN里,如果第一帧要和第十帧建立依赖,那么第一帧的数据要依次经过第二三四五...九帧传给第十帧,进而产生二者的计算。而在这个传递的过程中,可能第一帧的数据已经产生了偏差,因此这个交互的速度和准确性都没有保障,而在Transformer中,由于有self attention的存在,任意两帧之间都有直接的交互,从而建立了直接的依赖,无论二者距离多远,这样可以提高训练的准确性。
可选地,训练模块包括:第一训练单元,用于使用第一语料集进行预训练得到第一模型;第二训练单元,用于使用第二语料集对第一模型进行迭代训练得到模型,其中,第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。
可以通过第一语料集以及第二语料集分别对第一模型进行预训练、迭代训练得到最终的模型。无论是第一语料集,还是第二语料集均包括多组数据,每一组数据均包括文本以及该文本所对应的类别。通过上述的不同的训练方式,能够不断对模型进行调优与更新,有效提高模型的稳定性。
可选地,第一训练单元用于:通过BERT使用第一语料集进行训练得到第一模型,其中,在训练中掩盖语料集中的每一条语料的部分内容,训练用于预测所掩盖的内容。
上述BERT的全称为Bidirection Encoder Representations fromTransformers,可以通过训练Masked Language Model和预测下一句任务得到相应的模型。
上述BERT包括Transformer编码器,其中,在用于预测所掩盖的内容时,掩盖与屏蔽词对应的所有标记。同时在保证整体掩蔽率保持不变的情况下,第一模型可以独立地预测每个掩蔽词的标记。
可选地,文本包括工单文本,类别包括:工单的类型,其中,类型包括至少一类。
上述单文本可以包括但不限于95598工单,其中,工单的类型可以根据应用需求进行划分,比如,可以根据距离、录入时间、工单级别等划分不同的工单类型。
实施例3
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述中任意一项的文本分类处理方法。
实施例4
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的文本分类处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本分类处理方法,其特征在于,包括:
获取待分类的文本;
将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;
将从所述模型中获取的输出作为所述待分类的文本对应的类别;
保存所述待分类的文本和其对应的类别。
2.根据权利要求1所述的方法,其特征在于,在获取所述待分类的文本之前,所述方法还包括:
使用多组训练数据通过机器学习进行训练得到所述模型。
3.根据权利要求2所述的方法,其特征在于,通过机器学习进行训练得到所述模型包括:
使用第一语料集进行预训练得到第一模型;
使用第二语料集对所述第一模型进行迭代训练得到所述模型,其中,所述第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。
4.根据权利要求3所述的方法,其特征在于,使用所述第一语料集进行预训练得到第一模型包括:
通过BERT使用所述第一语料集进行训练得到所述第一模型,其中,在所述训练中掩盖语料集中的每一条语料的部分内容,所述训练用于预测所掩盖的内容。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述文本包括工单文本,所述类别包括:工单的类型,其中,所述类型包括至少一类。
6.一种文本分类处理装置,其特征在于,包括:
获取模块,用于获取待分类的文本;
输入模块,用于将所述待分类的文本输入到模型当中,其中,所述模型为使用训练数据通过机器学习训练所得到的;
输出模块,用于将从所述模型中获取的输出作为所述待分类的文本对应的类别;
保存模块,用于保存所述待分类的文本和其对应的类别。
7.根据权利要求6所述的装置,其特征在于,还包括:
训练模块,用于使用多组训练数据通过机器学习进行训练得到所述模型。
8.根据权利要求7所述的装置,其特征在于,所述训练模块包括:
第一训练单元,用于使用第一语料集进行预训练得到第一模型;
第二训练单元,用于使用第二语料集对所述第一模型进行迭代训练得到所述模型,其中,所述第二语料集包括多组数据,每一组数据均包括文本以及该文本所对应的类别。
9.根据权利要求8所述的装置,其特征在于,所述第一训练单元用于:
通过BERT使用所述第一语料集进行训练得到所述第一模型,其中,在所述训练中掩盖语料集中的每一条语料的部分内容,所述训练用于预测所掩盖的内容。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述文本包括工单文本,所述类别包括:工单的类型,其中,所述类型包括至少一类。
CN201911360673.7A 2019-12-25 2019-12-25 文本分类处理方法和装置 Pending CN111209394A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911360673.7A CN111209394A (zh) 2019-12-25 2019-12-25 文本分类处理方法和装置
PCT/CN2020/092099 WO2021128721A1 (zh) 2019-12-25 2020-05-25 文本分类处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911360673.7A CN111209394A (zh) 2019-12-25 2019-12-25 文本分类处理方法和装置

Publications (1)

Publication Number Publication Date
CN111209394A true CN111209394A (zh) 2020-05-29

Family

ID=70786462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911360673.7A Pending CN111209394A (zh) 2019-12-25 2019-12-25 文本分类处理方法和装置

Country Status (2)

Country Link
CN (1) CN111209394A (zh)
WO (1) WO2021128721A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861201A (zh) * 2020-07-17 2020-10-30 南京汇宁桀信息科技有限公司 一种基于大数据分类算法的政务智能派单的方法
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213860A (zh) * 2018-07-26 2019-01-15 中国科学院自动化研究所 融合用户信息的文本情感分类方法及装置
CN109670167A (zh) * 2018-10-24 2019-04-23 国网浙江省电力有限公司 一种基于Word2Vec的电力客服工单情感量化分析方法
CN109710825A (zh) * 2018-11-02 2019-05-03 成都三零凯天通信实业有限公司 一种基于机器学习的网页有害信息识别方法
US10354203B1 (en) * 2018-01-31 2019-07-16 Sentio Software, Llc Systems and methods for continuous active machine learning with document review quality monitoring
CN110032644A (zh) * 2019-04-03 2019-07-19 人立方智能科技有限公司 语言模型预训练方法
CN110489521A (zh) * 2019-07-15 2019-11-22 北京三快在线科技有限公司 文本类别检测方法、装置、电子设备和计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354203B1 (en) * 2018-01-31 2019-07-16 Sentio Software, Llc Systems and methods for continuous active machine learning with document review quality monitoring
CN109213860A (zh) * 2018-07-26 2019-01-15 中国科学院自动化研究所 融合用户信息的文本情感分类方法及装置
CN109670167A (zh) * 2018-10-24 2019-04-23 国网浙江省电力有限公司 一种基于Word2Vec的电力客服工单情感量化分析方法
CN109710825A (zh) * 2018-11-02 2019-05-03 成都三零凯天通信实业有限公司 一种基于机器学习的网页有害信息识别方法
CN110032644A (zh) * 2019-04-03 2019-07-19 人立方智能科技有限公司 语言模型预训练方法
CN110489521A (zh) * 2019-07-15 2019-11-22 北京三快在线科技有限公司 文本类别检测方法、装置、电子设备和计算机可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861201A (zh) * 2020-07-17 2020-10-30 南京汇宁桀信息科技有限公司 一种基于大数据分类算法的政务智能派单的方法
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置

Also Published As

Publication number Publication date
WO2021128721A1 (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
CN105389307A (zh) 语句意图类别识别方法及装置
CN107451153A (zh) 输出结构化查询语句的方法和装置
CN108304468A (zh) 一种文本分类方法以及文本分类装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN110555205A (zh) 否定语义识别方法及装置、电子设备、存储介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN116663664A (zh) 一种基于nlp算法的客户营销场景数据分析系统及方法
CN108536673B (zh) 新闻事件抽取方法及装置
CN113312468A (zh) 基于对话模式的话术推荐方法、装置、设备及介质
CN111209394A (zh) 文本分类处理方法和装置
CN111143571A (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN112069315A (zh) 提取文本多维度信息方法、装置、服务器及存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN111951079B (zh) 一种基于知识图谱的信用评级方法、装置及电子设备
CN111274791B (zh) 一种线上家装场景下用户流失预警模型的建模方法
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116090450A (zh) 一种文本处理方法及计算设备
CN112328812B (zh) 基于自调参数的领域知识抽取方法与系统、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200529