CN111198948A

CN111198948A - 文本分类校正方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111198948A
Application number: CN202010017109.1A
Authority: CN
Inventors: 陈希蔓
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-05-26
Anticipated expiration: 2040-01-08
Also published as: CN111198948B

Abstract

本发明涉及金融科技技术领域，公开了一种文本分类校正方法、装置、设备及计算机可读存储介质。该文本分类校正方法包括：获取待复核文本及其分类标签；对所述待复核文本进行分词处理，得到分词文本；将所述分词文本输入至预先训练好的文本分类模型，得到文本分类结果；根据所述文本分类结果对所述待复核文本的分类标签进行校正。本发明能够实现文本分类标签的智能复核校正。

Description

文本分类校正方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种文本分类校正方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

在某些金融场景中，会存在一些短文本以及短文本对应的分类。其中文本的分类体系是预先根据需要的情况制定好的，文本和原始分类是人为录入的，由于原始的分类标签是录入人根据自己理解选择的分类标签，可能存在错误，会给后续的工作带来困难。因此，如何对文本的分类标签进行智能复核校正，以避免错误分类标签对后续工作的不良影响，是目前亟需解决的问题。

发明内容

本发明的主要目的在于提供一种文本分类校正方法、装置、设备及计算机可读存储介质，旨在实现文本分类标签的智能复核校正。

为实现上述目的，本发明提供一种文本分类校正方法，所述文本分类校正方法包括：

获取待复核文本及其分类标签；

对所述待复核文本进行分词处理，得到分词文本；

将所述分词文本输入至预先训练好的文本分类模型，得到文本分类结果；

根据所述文本分类结果对所述待复核文本的分类标签进行校正。

可选地，所述对所述待复核文本进行分词处理，得到分词文本的步骤之前，还包括：

按预设匹配规则对所述待复核文本中的敏感词进行匹配，得到第一匹配结果；

根据所述第一匹配结果将所述待复核文本中的敏感词替换成对应的第一目标词，得到替换后的待复核文本；

所述对所述待复核文本进行分词处理，得到分词文本的步骤包括：

对所述替换后的待复核文本进行分词处理，得到分词文本。

可选地，所述获取待复核文本及其分类标签的步骤之前，还包括：

获取训练样本集，其中，所述训练样本集包括训练样本文本及第一标注标签；

将所述训练样本集作为预设文本分类模型的输入，训练得到初始文本分类模型；

将所述训练样本文本输入至所述初始文本分类模型，得到第一预测标签；

基于所述第一预测标签对所述第一标注标签进行更新，得到更新后的训练样本集，并基于所述更新后的训练样本集对所述初始文本分类模型进行更新训练；

依此类推，直至更新训练后的初始文本分类模型所得到的预测标签符合预设条件，得到所述预先训练好的文本分类模型。

可选地，所述获取训练样本集，其中，所述训练样本集包括训练样本文本及第一标注标签的步骤包括：

获取初始样本文本，并按所述预设匹配规则对所述初始样本文本中的敏感词进行匹配，得到第二匹配结果；

根据所述第二匹配结果将所述初始样本文本中的敏感词替换成对应的第二目标词，得到替换后的初始样本文本；

对所述替换后的初始样本文本进行分词处理，得到训练样本文本；

基于所述初始样本文本发送标签标注指令至预设工作端，并接收所述预设工作端返回的第一标注标签；

根据所述训练样本文本和所述第一标注标签，得到训练样本集。

可选地，所述文本分类校正方法还包括：

对目标文本进行抽样，得到抽样样本文本；

将所述抽样样本文本输入至所述预先训练好的文本分类模型，得到第二预测标签；

获取所述抽样样本文本对应的初始标签和第二标注标签，并根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息，所述准确率信息包括各类标签的标注准确率和模型预测准确率。

可选地，所述根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息的步骤之前，还包括：

检测所述初始标签和所述第二标注标签中是否存在不规范的分类标签；

若存在，则根据检测结果对所述初始标签和所述第二标注标签进行校正处理，得到校正后的初始标签和校正后的第二标注标签；

所述根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息的步骤包括：

根据所述校正后的初始标签、所述校正后的第二标注标签和所述第二预测标签，计算得到准确率信息。

根据所述准确率信息，确定所述分类标签对应的目标标注准确率和目标模型预测准确率，并检测所述目标标注准确率是否大于目标模型预测准确率；

若所述目标标注准确率大于目标模型预测准确率，则确定所述待复核文本的真实标签为所述分类标签；

若所述目标标注准确率小于或等于目标模型预测准确率，则执行步骤：对所述待复核文本进行分词处理，得到分词文本。

此外，为实现上述目的，本发明还提供一种文本分类校正装置，所述文本分类校正装置包括：

第一获取模块，用于获取待复核文本及其分类标签；

分词处理模块，用于对所述待复核文本进行分词处理，得到分词文本；

第一输入模块，用于将所述分词文本输入至预先训练好的文本分类模型，得到文本分类结果；

第一校正模块，用于根据所述文本分类结果对所述待复核文本的分类标签进行校正。

此外，为实现上述目的，本发明还提供一种文本分类校正设备，所述文本分类校正设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类校正程序，所述文本分类校正程序被所述处理器执行时实现如上所述的文本分类校正方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有文本分类校正程序，所述文本分类校正程序被处理器执行时实现如上所述的文本分类校正方法的步骤。

本发明提供一种文本分类校正方法、装置、设备及计算机可读存储介质，通过获取待复核文本及其分类标签，对待复核文本进行分词处理，得到分词文本；然后，将分词文本输入至预先训练好的文本分类模型，得到文本分类结果；进而根据文本分类结果对待复核文本的分类标签进行校正。通过上述方式，可基于预先训练好的文本分类模型得到待复核文本对应的文本分类结果，进而根据文本分类结果对待复核文本的分类标签进行校正，从而可实现文本分类标签的智能复核校正，相比于人工复核，可大大提高复核效率，节省人力资源，同时，本发明可避免人工复核时造成的失误，从而可提高复核校正结果的准确性。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明文本分类校正方法第一实施例的流程示意图；

图3为本发明文本分类校正方法第二实施例的流程示意图；

图4为本发明文本分类校正装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例文本分类校正设备可以是服务器，也可以是PC(PersonalComputer，个人计算机)、平板电脑、便携计算机等终端设备。

如图1所示，该文本分类校正设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的文本分类校正设备结构并不构成对文本分类校正设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本分类校正程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的文本分类校正程序，并执行以下文本分类校正方法的各个步骤。

基于上述硬件结构，提出本发明文本分类校正方法的各实施例。

本发明提供一种文本分类校正方法。

参照图2，图2为本发明文本分类校正方法第一实施例的流程示意图。

在本实施例中，该文本分类校正方法包括：

步骤S10，获取待复核文本及其分类标签；

本实施例的文本分类校正方法是由文本分类校正设备实现的，该设备以服务器为例进行说明。在本实施例中，先获取待复核文本及其分类标签，其中，该分类标签即为普通工作人员在记录文本的过程中设置的。

步骤S20，对所述待复核文本进行分词处理，得到分词文本；

然后，对待复核文本进行分词处理，得到分词文本。其中，分词处理过程可采用对应的分词工具实现，例如汉语词法分析系统ICTCLAS，清华大学中文词法分析程序THULAC，语言技术平台LTP等。

需要说明的是，为避免场景中的一些特定词汇被分词工具拆分、影响分类结果的准确性，可以在现有分词库的基础上添加一场景分词库，其中，该场景分词库包括场景的一些常见词语。

为进一步提高文本分类结果的准确性，在对待复核本文进行分词处理后，还可以去除分词文本中的停用词，进而，将去除停用词后的分词文本输入至预先训练好的文本分类模型，以得到分本分类结果。其中，停用词主要包括两类：第一类是使用过于频繁的一些单词，例如“我”，“就”等，这类词几乎在每个文本中均会出现；第二类是在文本中出现频率很高，但无实际意义的单词，这类词只有将其放入一个完整的句子中才有一定作用，包括语气助词、副词、介词、连接词等，如“的”、“在”，“接着”等。通过去除停用词，可有利于提高关键词的密度，避免停用词影响文本分类结果，有利于提高文本分类结果的准确性。

步骤S30，将所述分词文本输入至预先训练好的文本分类模型，得到文本分类结果；

在分词处理后，将得到的分词文本输入至预先训练好的文本分类模型，得到文本分类结果。其中，预先训练好的文本分类模型训练方式可以为：获取训练样本集，其中，训练样本集包括训练样本文本及第一标注标签；将训练样本集作为预设文本分类模型的输入，训练得到初始文本分类模型；将训练样本文本输入至初始文本分类模型，得到第一预测标签；基于第一预测标签对第一标注标签进行更新，得到更新后的训练样本集，并基于更新后的训练样本集对初始文本分类模型进行更新训练；依此类推，直至更新训练后的初始文本分类模型所得到的预测标签符合预设条件，得到预先训练好的文本分类模型。文本分类模型的具体训练过程可参照下述第三实施例，此处不作赘述。

该文本分类模型的类型可以包括但不限于fasttext(快速文本分类)模型、word2vec(word to vector，用来产生词向量的相关模型)模型等，优选地，选择fasttext模型来训练文本分类模型，fasttext模型可在保持高精度的情况下加快了训练速度，其计算时间要远远小于深度学习模型，同时，fasttext模型不需要预训练好词向量，fasttext会自己训练词向量。

步骤S40，根据所述文本分类结果对所述待复核文本的分类标签进行校正。

在得到文本分类结果之后，根据文本分类结果对待复核文本的分类标签进行校正。例如，若待复核文本的分类标签为A时，而文本分类结果显示待复核文本的分类为B，则对待复核文本的分类标签进行校正，确定待复核文本的真实标签为B。若待复核文本的分类标签为A时，文本分类结果显示待复核文本的分类为A，则无需对待复核文本的分类标签进行校正，直接确定待复核文本的真实标签为A。

本发明实施例提供一种文本分类校正方法，通过获取待复核文本及其分类标签，对待复核文本进行分词处理，得到分词文本；然后，将分词文本输入至预先训练好的文本分类模型，得到文本分类结果；进而根据文本分类结果对待复核文本的分类标签进行校正。通过上述方式，可基于预先训练好的文本分类模型得到待复核文本对应的文本分类结果，进而根据文本分类结果对待复核文本的分类标签进行校正，从而可实现文本分类标签的智能复核校正，相比于人工复核，可大大提高复核效率，节省人力资源，同时，本发明实施例可避免人工复核时造成的失误，从而可提高复核校正结果的准确性。。

进一步的，参照图3，图3为本发明文本分类校正方法第二实施例的流程示意图。

在本实施例中，在上述步骤S20之前，该文本分类校正方法还包括：

步骤S50，按预设匹配规则对所述待复核文本中的敏感词进行匹配，得到第一匹配结果；

步骤S60，根据所述第一匹配结果将所述待复核文本中的敏感词替换成对应的第一目标词，得到替换后的待复核文本；

由于原始的待复核文本中可能存在大量的敏感信息，如客户账号、手机号、微信号、邮箱等，这些敏感信息涉及用户隐私，而且这些敏感信息中包括大量的数字和字符，会影响文本分类模型的分类结果，因此，为保证用户隐私信息的安全性，同时避免这些敏感信息影响分类结果的准确性，在本实施例中，在获取到待复核文本之后，对待复核文本中敏感信息进行了匹配和替换处理。

具体的，在获取到待复核文本之后，先按预设匹配规则对待复核文本中的敏感词进行匹配，得到第一匹配结果。其中，预设匹配规则可以根据所需匹配的敏感词的特征进行设定，匹配方式可以为正则表达式。例如，对于手机号，可以检测是否存在连续的11位数字；对于微信号，可以检测是否存在字符、和/或数字、和/或特定符号结合的字符串；对于邮箱，可以检测是否存在预设邮箱后缀，如@163.com、@qq.com。

然后，根据第一匹配结果将待复核文本中的敏感词替换成对应的第一目标词，得到替换后的待复核文本。例如，若检测到手机号这一类型的敏感词，可以将手机号对应的字符串替换成“手机号”这一目标词；若检测到微信号这一类型的敏感词，可以将微信号对应的字符串替换成“微信号”这一目标词。

此时，步骤S20包括：

步骤S21，对所述替换后的待复核文本进行分词处理，得到分词文本。

在对待复核文本进行敏感词替换后，对替换后的待复核文本进行分词处理，得到分词文本，进而执行后续步骤，具体的执行过程可参照上述第一实施例，此处不作赘述。

在本实施例中，通过对待复核文本中的敏感词进行匹配替换，可避免敏感信息影响分类结果的准确性，同时可避免用户隐私信息的泄露、保障用户隐私信息的安全性。

进一步的，基于图2所示的第一实施例，提出本发明文本分类校正方法的第三实施例。

在本实施例中，在上述步骤S10之前，该文本分类校正方法还包括：

步骤A，获取训练样本集，其中，所述训练样本集包括训练样本文本及第一标注标签；

在本实施例中，提供了文本分类模型的训练过程。具体的，先获取训练样本集，其中，该训练样本集包括训练样本文本及第一标注标签，训练样本文本是对普通工作人员记录的初始样本文本处理后的得到的，第一标注标签是专业工作人员对训练样本文本进行标注得到的，当然，可以理解，训练样本集中还可以包括训练样本文本对应的经普通工作人员初始标注的标签。

具体的，步骤A包括：

步骤A1，获取初始样本文本，并按所述预设匹配规则对所述初始样本文本中的敏感词进行匹配，得到第二匹配结果；

步骤A2，根据所述第二匹配结果将所述初始样本文本中的敏感词替换成对应的第二目标词，得到替换后的初始样本文本；

步骤A3，对所述替换后的初始样本文本进行分词处理，得到训练样本文本；

步骤A4，基于所述初始样本文本发送标签标注指令至预设工作端，并接收所述预设工作端返回的第一标注标签；

步骤A5，根据所述训练样本文本和所述第一标注标签，得到训练样本集。

具体的，训练样本集的获取过程如下：

先获取初始样本文本，其中，初始样本文本即为收集的普通工作人员在工作过程中所记录的文本。然后，按预设匹配规则对初始样本文本中的敏感词进行匹配，得到第二匹配结果，其中，预设匹配规则可以根据所需匹配的敏感词的特征进行设定，匹配方式可以为正则表达式。例如，对于手机号，可以检测是否存在连续的11位数字；对于微信号，可以检测是否存在字符、和/或数字、和/或特定符号结合的字符串；对于邮箱，可以检测是否存在预设邮箱后缀，如@163.com、@qq.com。

然后，根据第二匹配结果将初始样本文本中的敏感词替换成对应的第二目标词，得到替换后的初始样本文本。具体的替换过程可参照上述第二实施例，此处不再赘述。在对初始样本文本进行敏感词替换后，对替换后的初始样本文本进行分词处理，得到训练样本文本，分词处理过程可参照上述第一实施例。

进而，基于初始样本文本发送标签标注指令至预设工作端，以使得专业的工作人员(即熟悉分类规则的工作人员)对初始样本文本进行标注，进而接收预设工作端返回的第一标注标签。最后，可根据训练样本文本和第一标注标签，得到训练样本集。

需要说明的是，由于专业的工作人员也可能存在失误，即第一标注标签里也可能存在形式错误，即存在不规范的分类标签，对应的，在接收到预设工作端返回的第一标注标签之后，可以先检测第一标注标签中是否存在不规范的分类标签，若存在，则对不规范的第一标注标签进行校正处理，进而基于训练样本文本和校正后的第一标注标签，得到训练样本集。其中，不规范分类标签的检测规则和校正规则可参照下述第四实施例，此处不作赘述。

步骤B，将所述训练样本集作为预设文本分类模型的输入，训练得到初始文本分类模型；

在获取到训练样本集后，将训练样本集作为预设文本分类模型的输入，训练得到初始文本分类模型。其中，预设文本分类模型的类型可以包括但不限于fasttext(快速文本分类)模型、word2vec(word to vector，用来产生词向量的相关模型)模型等，优选地，选择fasttext模型来训练文本分类模型，fasttext模型可在保持高精度的情况下加快了训练速度，其计算时间要远远小于深度学习模型，同时，fasttext模型不需要预训练好词向量，fasttext会自己训练词向量。在本实施例中，以预设文本分类模型为fasttext模型为例进行说明，fasttext模型包括输入层、单层隐藏层和输出层，是有监督学习，具体的训练过程可参照现有技术。

步骤C，将所述训练样本文本输入至所述初始文本分类模型，得到第一预测标签；

步骤D，基于所述第一预测标签对所述第一标注标签进行更新，得到更新后的训练样本集，并基于所述更新后的训练样本集对所述初始文本分类模型进行更新训练；

由于专业的工作人员也可能存在失误，即第一标注标签里也可能有错误的分类标签，为减少这部分标注错误的标签对文本分类模型拟合和准确率带来的影响，进一步地提高分类结果的准确性，在本实施例中，在训练得到初始文本分类模型之后，还需对初始文本分类模型进行反复训练，迭代使用文本分类模型预测概率高的标签替换错误的第一标注标签，多次重复该过程，直至第一标注标签里不存在错误的标签。

具体的，可以将训练样本文本输入至初始文本分类模型，得到第一预测标签；需要说明的是，初始文本分类模型会输出训练样本文本所对应各类标签的概率，第一预测标签即为概率最高值所对应的分类标签。在得到第一预测标签之后，基于第一预测标签对第一标注标签进行更新，即获取第一预测标签的概率，将概率大于预设阈值(为预先设定的，如可以设为0.6)的第一预测标签与第一标注标签进行比对，若发现不一致的标签，则将该不一致的概率大于预设阈值的第一标注标签替换成对应的第一预测标签，从而可以得到更新后的训练样本集，然后，再基于更新后的训练样本集对初始文本分类模型进行更新训练，继而得到更新训练后的初始文本分类模型。

步骤E，依此类推，直至更新训练后的初始文本分类模型所得到的预测标签符合预设条件，得到所述预先训练好的文本分类模型。

反复重复上述步骤，即再将训练样本文本输入更新训练后的初始文本分类模型中，得到更新后的第一预测标签，再将更新后的概率大于预设阈值的第一预测标签与更新后的第一标注标签进行比对，若完全相同，则结束训练，得到预先训练好的文本分类模型；若存在不同的，则基于更新后的第一预测标签对更新后的第一标注标签进行更新，进而继续对模型进行更新训练，直至更新训练后的初始文本分类模型所得到的预测标签符合预设条件，此时，则停止训练，得到预先训练好的文本分类模型。其中，预设条件即为更新训练后的初始文本分类模型所得到的预测标签中大于预设阈值的预测标签与对应的更新后的第一标注标签相同。

当然，可以理解，在具体实施时，为减少数据计算量，提高模型训练效率，在训练得到初始文本分类模型之后，可以从训练样本文本中随机抽取预设数量的样本文本，记为第三样本文本，并将第三样本文本输入至所述初始文本分类模型，得到第三预测标签。其中，第三预测标签即为第三样本文本输入至初始文本分类模型中得到的分类标签及其概率中、概率最高值所对应的分类标签。进而基于第三预测标签对第三样本文本对应的第三标注标签进行更新，得到更新后的训练样本集，并基于所述更新后的训练样本集对初始文本分类模型进行更新训练，得到更新训练后的初始文本分类模型；然后，继续随机抽取预设数量的样本文本，记为第四样本文本，并将第四样本文本输入至更新训练后的初始文本分类模型，得到第四预测标签；进而基于第四预测标签对第四样本文本对应的第四标注标签进行更新，从而再次对训练样本集进行更新，重复上述过程，直至随机抽取的样本文本输入更新训练后的初始文本分类模型后所得到的预测标签符合预设条件，即更新训练后的初始文本分类模型所得到的预测标签中大于预设阈值的预测标签与更新后的标注标签相同，此时，则停止训练，得到预先训练好的文本分类模型。

本实施例中，通过循环迭代训练预设文本分类模型，根据模型得到的预测标签来替换错误的第一标注标签，然后反复迭代训练，直至第一标注标签中不存在错误的标签，从而可减少错误的第一标注标签对文本分类模型拟合和准确率带来的影响，进一步地提高分类结果的准确性。

进一步的，基于上述各实施例，提出本发明文本分类校正方法的第四实施例。

在本实施例中，在上述步骤E之后，该文本分类校正方法还包括：

步骤F，对目标文本进行抽样，得到抽样样本文本；

由于训练样本文本中，某些分类的样本文本数量可能较少，会影响该类样本文本分类的准确性，导致模型对该分类样本文本的预测准确率甚至比人工分类的准确性还低。因此，本实施例中，可对目标文本进行抽样，以计算各类标签的人工标注的准确率(即普通工作人员分类的准确率)和模型预测的准确率，以便于后续选择准确率较高的方式所对应的标签作为真实标签，从而可使得由于样本较少等原因导致的模型预测结果较差的分类、其校正结果的准确率也较高。其中，目标文本可以为当前的待复核文本，还可以为历史已复核文本、或训练样本。其中，历史已复核文本可以为上一周期(如上个月)所复核的文本。优选地，目标文本为待复核文本，可更有针对性，对待复核文本进行抽样，相比于对历史已复核文本或训练样本进行抽样，所得到的分类结果的准确性更高。

在得到预先训练好的文本分类模型之后，可对目标文本进行抽样，得到抽样样本文本。其中，抽样方式可以为随机抽样，也可以为分层抽样，优选地，可以选择分层抽样的方式，以免某些分类的样本文本无法被抽取到、或抽取数量过少，而导致准确率信息的计算结果准确性较差。

步骤G，将所述抽样样本文本输入至所述预先训练好的文本分类模型，得到第二预测标签；

然后，将抽样样本文本输入至预先训练好的文本分类模型，得到第二预测标签。需要说明的是，预先训练好的文本分类模型会输出抽样样本文本所对应各类标签的概率，第二预测标签即为概率最高值所对应的分类标签。

步骤H，获取所述抽样样本文本对应的初始标签和第二标注标签，并根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息，所述准确率信息包括各类标签的标注准确率和模型预测准确率。

在得到第二预测标签之后，获取抽样样本文本对应的初始标签和第二标注标签，其中，初始标签即为普通工作人员在记录文本的过程中设置的，第二标注标签即为专业工作人员对抽样样本文本标注得到的。

进而，根据初始标签、第二标注标签和第二预测标签，计算得到准确率信息，准确率信息包括各类标签的标注准确率和模型预测准确率。具体的计算规则可根据实际情况进行设定，此处不作限定。

进一步地，在步骤“根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息”之前，该文本分类校正方法还可以包括：

步骤I，检测所述初始标签和所述第二标注标签中是否存在不规范的分类标签；

步骤J，若存在，则根据检测结果对所述初始标签和所述第二标注标签进行校正处理，得到校正后的初始标签和校正后的第二标注标签；

此时，步骤“根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息”包括：根据所述校正后的初始标签、所述校正后的第二标注标签和所述第二预测标签，计算得到准确率信息。

进一步地，在获取到抽样样本文本对应的初始标签和第二标注标签之后，可以检测初始标签和第二标注标签中是否存在不规范的分类标签，其中，不规范分类标签的检测方法可以为检测初始标签和第二标注标签是否均与预设的分类标签集中的任一预设分类标签相匹配。

若检测初始标签中存在不规范的分类标签，则根据检测结果对初始标签和第二标注标签进行校正处理，得到校正后的初始标签。具体的校正过程可以为：分别获取与不规范的初始标签和不规范的第二标注标签相似度最大的预设分类标签，记为第一预设分类标签和第二预设分类标签，例如只有一个字符不同的预设分类标签，然后，分别检测相似度最大的第一预设分类标签和第二预设分类标签为一个还是多个，若第一预设分类标签/第二预设分类标签为一个，则直接将该不规范的初始标签/第二标注标签校正为该相似度最大的第一/第二预设分类标签；若第一预设分类标签/第二预设分类标签为多个，则从相似度最大的第一/第二预设分类标签中选取使用频率最高的标签，以对不规范的初始标签/第二标注标签进行校正。然后，根据校正后的初始标签、校正后的第二标注标签和第二预测标签，计算得到准确率信息。其中，对于校正过程，还可以采用最小编辑距离的方法进行校正。其中，最小编辑距离是用以衡量两个字符串之间的相似度，是两个字符串之间的最小操作数，即从一个字符转换成另一个字符所需要的操作数，包括插入、删除和置换。

此外，还需要说明的是，在计算得到准确率信息之后，检测准确率信息中各类标签的模型预测准确率是否符合预设的重新训练条件，其中，预设的重新训练条件是预先设定的，可以包括但不限于：检测各类标签的模型预测准确率是否下降，或检测各类标签的模型预测准确率是否低于预设阈值。若符合预设的重新训练条件，则说明样本分布出现迁移，该预先训练好的文本分类模型的准确性较差，需重新进行训练。

进一步地，基于上述第四实施例，提出本发明文本分类校正方法的第五实施例。

步骤K，根据所述准确率信息，确定所述分类标签对应的目标标注准确率和目标模型预测准确率，并检测所述目标标注准确率是否大于目标模型预测准确率；

在本实施例中，在获取到待复核文本及其分类标签之后，可根据准确率信息，确定分类标签对应的目标标注准确率和目标模型预测准确率，然后检测目标标注准确率是否大于目标模型预测准确率。

若所述目标标注准确率大于目标模型预测准确率，则执行步骤L：确定所述待复核文本的真实标签为所述分类标签；

若所述目标标注准确率小于或等于目标模型预测准确率，则执行步骤S20：对所述待复核文本进行分词处理，得到分词文本。

若目标标注准确率大于目标模型预测准确率，则确定待复核文本的真实标签为分类标签；若目标标注准确率小于或等于目标模型预测准确率，则对待复核文本进行分词处理，得到分词文本，进而执行后续步骤，具体的执行过程可参照上述第一实施例，此处不再赘述。

当然，可以理解，在本实施例中，在上述步骤S20之前，即对待复核文本进行分词处理之前，还可以先对待复核文本进行敏感词匹配，以替换待复核文本中的敏感词，然后对替换后的待复核文本进行分词处理，得到分词文本。其中，敏感词匹配和替换的过程可参照上述第二实施例，此处不作赘述。

本实施例中，通过对训练样本进行抽样，以计算各类标签的人工标注的准确率(即普通工作人员分类的准确率)和模型预测的准确率，进而在获取到待复核文本及其分类标签后，通过比较对应的目标标注准确率和目标模型预测准确率，进而选择准确率较高的方式所对应的标签作为真实标签，从而可进一步提高校正结果的准确性。

本发明还提供一种文本分类校正装置。

参照图4，图4为本发明文本分类校正装置第一实施例的功能模块示意图。

如图4所示，所述文本分类校正装置包括：

第一获取模块10，用于获取待复核文本及其分类标签；

分词处理模块20，用于对所述待复核文本进行分词处理，得到分词文本；

第一输入模块30，用于将所述分词文本输入至预先训练好的文本分类模型，得到文本分类结果；

第一校正模块40，用于根据所述文本分类结果对所述待复核文本的分类标签进行校正。

进一步地，所述文本分类校正装置还包括：

匹配模块，用于按预设匹配规则对所述待复核文本中的敏感词进行匹配，得到第一匹配结果；

替换模块，用于根据所述第一匹配结果将所述待复核文本中的敏感词替换成对应的第一目标词，得到替换后的待复核文本；

所述第一分词模块20，具体用于对所述替换后的待复核文本进行分词处理，得到分词文本。

进一步地，所述文本分类校正装置还包括：

第二获取模块，用于获取训练样本集，其中，所述训练样本集包括训练样本文本及第一标注标签；

模型训练模块，用于将所述训练样本集作为预设文本分类模型的输入，训练得到初始文本分类模型；

第二输入模块，用于将所述训练样本文本输入至所述初始文本分类模型，得到第一预测标签；

更新训练模块，用于基于所述第一预测标签对所述第一标注标签进行更新，得到更新后的训练样本集，并基于所述更新后的训练样本集对所述初始文本分类模型进行更新训练；

第三获取模块，用于依此类推，直至更新训练后的初始文本分类模型所得到的预测标签符合预设条件，得到所述预先训练好的文本分类模型。

进一步地，所述第二获取模块包括：

匹配单元，用于获取初始样本文本，并按所述预设匹配规则对所述初始样本文本中的敏感词进行匹配，得到第二匹配结果；

替换单元，用于根据所述第二匹配结果将所述初始样本文本中的敏感词替换成对应的第二目标词，得到替换后的初始样本文本；

分词单元，用于对所述替换后的初始样本文本进行分词处理，得到训练样本文本；

接收单元，用于基于所述初始样本文本发送标签标注指令至预设工作端，并接收所述预设工作端返回的第一标注标签；

获取单元，用于根据所述训练样本文本和所述第一标注标签，得到训练样本集。

进一步地，所述文本分类校正装置还包括：

抽样模块，用于对目标文本进行抽样，得到抽样样本文本；

第三输入模块，用于将所述抽样样本文本输入至所述预先训练好的文本分类模型，得到第二预测标签；

计算模块，用于获取所述抽样样本文本对应的初始标签和第二标注标签，并根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息，所述准确率信息包括各类标签的标注准确率和模型预测准确率。

进一步地，所述文本分类校正装置还包括：

第一检测模块，用于检测所述初始标签和所述第二标注标签中是否存在不规范的分类标签；

第二校正模块，用于若存在不规范的分类标签，则根据检测结果对所述初始标签和所述第二标注标签进行校正处理，得到校正后的初始标签和校正后的第二标注标签；

所述计算模块，具体用于根据所述校正后的初始标签、所述校正后的第二标注标签和所述第二预测标签，计算得到准确率信息。

进一步地，所述文本分类校正装置还包括：

第二检测模块，用于根据所述准确率信息，确定所述分类标签对应的目标标注准确率和目标模型预测准确率，并检测所述目标标注准确率是否大于目标模型预测准确率；

确定模块，用于若所述目标标注准确率大于目标模型预测准确率，则确定所述待复核文本的真实标签为所述分类标签；

所述分词处理模块20，具体用于若所述目标标注准确率小于或等于目标模型预测准确率，则对所述待复核文本进行分词处理，得到分词文本。

其中，上述文本分类校正装置中各个模块的功能实现与上述文本分类校正方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有文本分类校正程序，所述文本分类校正程序被处理器执行时实现如以上任一项实施例所述的文本分类校正方法的步骤。

本发明计算机可读存储介质的具体实施例与上述文本分类校正方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本分类校正方法，其特征在于，所述文本分类校正方法包括：

获取待复核文本及其分类标签；

对所述待复核文本进行分词处理，得到分词文本；

2.如权利要求1所述的文本分类校正方法，其特征在于，所述对所述待复核文本进行分词处理，得到分词文本的步骤之前，还包括：

对所述替换后的待复核文本进行分词处理，得到分词文本。

3.如权利要求2所述的文本分类校正方法，其特征在于，所述获取待复核文本及其分类标签的步骤之前，还包括：

4.如权利要求3所述的文本分类校正方法，其特征在于，所述获取训练样本集，其中，所述训练样本集包括训练样本文本及第一标注标签的步骤包括：

5.如权利要求1至4中任一项所述的文本分类校正方法，其特征在于，所述文本分类校正方法还包括：

对目标文本进行抽样，得到抽样样本文本；

6.如权利要求5所述的文本分类校正方法，其特征在于，所述根据所述初始标签、所述第二标注标签和所述第二预测标签，计算得到准确率信息的步骤之前，还包括：

7.如权利要求5所述的文本分类校正方法，其特征在于，所述对所述待复核文本进行分词处理，得到分词文本的步骤之前，还包括：

8.一种文本分类校正装置，其特征在于，所述文本分类校正装置包括：

第一获取模块，用于获取待复核文本及其分类标签；

9.一种文本分类校正设备，其特征在于，所述文本分类校正设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类校正程序，所述文本分类校正程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本分类校正方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本分类校正程序，所述文本分类校正程序被处理器执行时实现如权利要求1至7中任一项所述的文本分类校正方法的步骤。