CN113434675A

CN113434675A - 一种标签修正的方法及系统

Info

Publication number: CN113434675A
Application number: CN202110710971.5A
Authority: CN
Inventors: 简仁贤; 佘昌宪
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24

Abstract

本发明公开了一种标签修正的方法及系统，方法包括以下步骤：S1：获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本；S2：采用交互验证方法对所有文本进行预测，得到预测结果；S3：根据预测结果计算准确度；S4：对每个文本的预测结果进行处理；S5：重复执行所述步骤S2至S4，直到计算得到的准确度数值不变，得到修正后的标签及对应的文本。该方法采用语义分类模型和交互验证方法对文本的标注标签进行分析，若标签发生错误时会进行修正，修正过程减少人工参与，并能快速修护错误标签同时优化文本不平衡的问题。

Description

一种标签修正的方法及系统

技术领域

本发明涉及数据处理方法技术领域，具体涉及一种标签修正的方法及系统。

背景技术

训练语义分类模型时经常会遇到标签错误的文本，进而影响模型准确度。然而，人工审查重新标注文本需花费大量人力和时间。因此亟需自动化修复标签错误的方法。

发明内容

针对现有技术中的缺陷，本发明提供一种标签修正的方法及系统，采用语义分类模型和交互验证方法对文本的标注标签进行分析，对错误标签进行修正，修正过程减少人工参与，并能快速修护错误标签同时优化文本不平衡的问题。

第一方面，本发明实施例提供的一种标签修正的方法，包括以下步骤：

S1：获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本；

S2：采用交互验证方法对所有文本进行预测，得到预测结果；

S3：根据预测结果计算准确度；

S4：对每个文本的预测结果进行处理；

S5：重复执行所述步骤S2至S4，直到计算得到的准确度数值不变，得到修正后的标签及对应的文本。

可选地，步骤S2具体包括：

S21:根据标签对应的文本数量比例进行切分，将所有文本分成k份，k为整数，k≥2；

S22:每次取一份作为验证集，将剩下的k-1份作为训练集进行训练，获得语义分类模型；

S23:使用所述语义分类模型对所述验证集进行预测；

S24:将所述步骤S22至S23重复执行k次，得到k份验证集的预测结果。

可选地，预测结果包括k份验证集的原始标签、预测标签和信心分数。

可选地，使用所述语义分类模型对所述验证集进行预测，包括：

使用语义分类模型计算验证集的信心分数，所述信心分数表示语义分类模模型预测的机率，信心分数的取值范围为0-1，信心分数的高低表示语义分类模型对预测结果正确的信心高低。

可选地，使用所述语义分类模型对所述验证集进行预测，还包括：

将信心分数最高的验证集所对应的标签作为预测标签。

可选地，所述使用语义分类模型计算验证集的信心分数，包括:计算验证集信心分数的公式为：

其中，P_j为第j类标签的信心分数，h为标签类别，c为标签类别总数，x为文字的特征向量，x^T为x的转置矩阵，w为语义分类模型参数，且

可选地，根据预测结果计算准确度的公式为：

其中，D为准确度，n为文本总数，y_i为第i个文本的原始标签，y_i′为第i个文本的预测标签。

可选地，对每个文本的预测结果进行处理，具体包括：

若预测结果正确且信心分数大于等于0.5的文本，则保留原始标签；

若预测结果正确且信心分数小于0.5的文本，则进行文本增强；

若预测结果错误且信心分数大于等于0.85的文本，则将原始标签修改成预测标签；

若预测结果错误且信心分数大于等于0.5且小于等于0.85的文本，则进行人工审查；

若预测结果错误且信心分数小于0.5的文本，则不修改。

可选地，当原始标签与预测标签相等时，预测结果正确；当原始标签和预测标签不相等时，预测结果错误。

第二方面，本发明实施例提供的一种标签修正的系统，获取模块、预测模块、计算模块、分析模块和结果输出模块，

所述获取模块用于获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本；

所述预测模块采用交互验证方法对所有文本进行预测，得到预测结果；

所述计算模块根据预测结果计算准确度；

所述分析模块用于对每个文本的预测结果进行处理；

所述结果输出模块用于在计算得到的准确度数值不变，得到修正后的标签及对应的文本。

本发明的有益效果：

本发明公开了一种标签修正的方法及系统，采用语义分类模型和交互验证方法对文本进行分析，若标签发生错误时会进行修正，修正过程减少人工参与，并能快速修护错误标签同时优化文本不平衡的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明第一实施例所提供的一种标签修正的方法的流程图；

图2示出了本发明第二实施例所提供的一种标签修正的系统的结构框图；

图3示出了本发明第三实施例所提供的一种用于标签修正的智能终端的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，示出了本发明第一实施例所提供的一种标签修正的方法的流程图，方法包括以下步骤：

S1：获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本。

S2：采用交互验证方法对所有文本进行预测，得到预测结果。

具体地，采用分层k折交互验证(Stratified k-fold cross validation)，k大于等于每个标签的文本量，即k≥2，本实施例采用k＝10。步骤S2包括以下步骤：

S21:根据标签对应的文本数量比例进行切分，将所有的文本分成k份，k为整数，k≥2。具体地，例如：文本总数为10句话，对应的A标签有8句，B标签有2句，做k-fold，k＝2，将文本切分为2份，即每份为5句话，依标签比例做分层切分，每份5句话里面要有4句是A标签，1句是B标签，分层切分确保训练集、验证集中各类别样本的比例与原始数据集中相同。

S22:每次取一份作为验证集(不重复选取)，将剩下的k-1份作为训练集进行训练，获得语义分类模型。

S23:使用所述语义分类模型对所述验证集进行预测。

S24:将所述步骤S22至S23重复执行k次，得到k份验证集的预测结果。预测结果包括k份验证集的原始标签、预测标签和信心分数。

使用语义分类模型计算信心分数，信心分数表示模型预测的机率，信心分数的取值范围为0-1，信心分数的高低表示语义分类模型对预测结果正确的信心高低，将信心分数最高的作为预测标签。

记录验证集的原始标签、预测标签和信心分数，若原始标签与预测标签相等，则说明预测结果正确，若原始标签和预测标签不相等，则说明预测结果错误。

语义分类模型可以采用SVM、Logistic regresion，这些语义分类模型会对验证集每个类别标签计算信心分数，并选择分数最高的作为预测标签。信心分数表示语义分类模型预测的机率，计算验证集信心分数的公式为：

其中，P_j为第j类的标签的信心分数，h为标签类别，c为标签类别总数，x为文字的特征向量，x^T为x的转置矩阵，w为模型参数，且

S3：根据预测结果计算准确度。

具体地，完成k-fold后合并k份验证集的预测结果并计算准确度。计算准确度的公式为：

其中，D为准确度，n为文本总数，y_i为第i个文本的原始标签，y_i′为第i个文本的预测标签。y_i＝y_i′表示模型预测结果正确，反之，则表示预测结果错误。

S4：对每个文本的预测结果进行处理。

具体地，对每个文本依据预测结果有以下五种处理方式：

1、若预测结果正确且信心分数大于等于0.5的文本，则保留原始标签。

2、若预测结果正确且信心分数小于0.5的文本，则进行文本增强。

预测结果正确但信心分数低通常表示此文本原始标签正确，但相似类型文本太少或标签不平衡，因此通过文本增强方法来增加信心分数。以句子文本为例的文本增强方法包括：随机替换(插入)句中的同义词、随机互换两个词的位置、随机删除词；或语言模型生成相似句。

3、若预测结果错误且信心分数大于等于0.85的文本，则将原始标签修改成预测标签。

4、若预测结果错误且信心分数大于等于0.5且小于等于0.85的文本，则进行人工审查。

5、若预测结果错误且信心分数小于0.5的文本，则不修改。

本发明实施例提供的一种标签修正的方法，采用语义分类模型和交互验证方法对文本标签进行分析，若标签发生错误时会进行修正，修正过程减少人工参与，并能快速修护错误标签同时优化文本不平衡的问题。

以下采用2个具体的实际例子对上述方法进行详细说明：

例1

一种标签修正的方法包括以下步骤：

步骤S1:

获取所有文本：[“上海天气”,“深圳天气”,“北京天气”,“放首歌”,“想听歌”]；

所有文本原始标签：[“查天气”,“查天气”,“听音乐”,“听音乐”,“听音乐”]。

步骤S2:

设k＝2，执行2-fold交互验证。

fold 1:

训练文本：[“深圳天气”,“北京天气”,“想听歌”]；

训练文本原始标签：[“查天气”,“听音乐”,“听音乐”]；

验证文本：[“上海天气”,“放首歌”]，验证文本原始标签：[“查天气”,“听音乐”]。

训练模型并预测验证文本

验证文本预测标签：[“查天气”,“听音乐”]；

根据信心分数计算公式计算得到的验证文本预测标签的信心分数为：[0.89,0.98]。

fold 2:

训练文本：[“上海天气”,“放首歌”]，训练文本原始标签：[“查天气”,“听音乐”]；

验证文本：[“深圳天气”,“北京天气”,“想听歌”]；

验证文本原始标签：[“查天气”,“听音乐”,“听音乐”]。

训练模型并预测验证文本

验证文本预测标签：[“查天气”,“查天气”,“听音乐”]；

根据信心分数计算公式计算得到的验证文本预测标签的信心分数为：[0.97,0.96,0.99]。

步骤S3:

合并2-fold交互验证的所有结果：

验证文本：[“上海天气”,“深圳天气”,“北京天气”,“放首歌”,“想听歌”]；

验证文本原始标签：[“查天气”,“查天气”,“听音乐”,“听音乐”,“听音乐”]；

验证文本预测标签：[“查天气”,“查天气”,“查天气”,“听音乐”,“听音乐”]。

根据信心分数计算公式计算得到的验证文本预测标签的信心分数为：[0.89,0.97,0.98,0.98,0.99]；

根据准确度计算公式计算得到验证集准确度：80％。

步骤S4:

“北京天气”这个文本预测结果错误且分数≥0.85，标签改为预测的“查天气”。

步骤S5:

重复执行步骤S2-S4，直到交互验证准确度不在提升，得到修正后的文本标签和对应文本：

所有文本：[“上海天气”,“深圳天气”,“北京天气”,“放首歌”,“想听歌”]；

所有文本标签：[“查天气”,“查天气”,“查天气”,“听音乐”,“听音乐”]。

例2

步骤1：

所有文本：[“有趣”,“快乐”,“态度很差”,“不开心”]；

所有文本原始标签：[“高兴”,“高兴”,“不满”,“不满”]。

步骤2：

设k＝2，执行2-fold交互验证。

fold 1:

训练文本：[“有趣”,“态度很差”]；

训练文本原始标签：[“高兴”,“不满”]；

验证文本：[“快乐”,“不开心”]；

验证文本原始标签：[“高兴”,“不满”]；

训练模型并预测验文本

验证文本预测标签：[“高兴”,“不满”]；

根据信心分数计算公式计算得到的验证文本预测标签的信心分数为：

[0.95,0.93]。

fold 2:

训练文本：[“快乐”,“不开心”]；

训练文本原始标签：[“高兴”,“不满”]；

验证文本：[“有趣”,“态度很差”]；

验证文本原始标签：[“高兴”,“不满”]；

训练模型并预测验文本

验证文本预测标签：[“高兴”,“不满”]；

根据信心分数计算公式计算得到的验证文本预测标签的信心分数为：[0.91,0.47]。

步骤3：

合并2-fold交互验证的所有结果：

验证文本：[“有趣”,“快乐”,“态度很差”,“不开心”]；

验证文本原始标签：[“高兴”,“高兴”,“不满”,“不满”]；

验证文本预测标签：[“高兴”,“高兴”,“不满”,“不满”]；

根据信心分数计算公式计算得到的验证文本预测标签的信心分数为：[0.95,0.91,0.47,0.93]；

根据准确度计算公式计算得到验证集准确度：100％。

步骤4：

“态度很差”这个文本预测正确且分数<0.5，产生增强文本：“很差态度”，标签：“不满”。

步骤5：

重复执行步骤S2-S4，直到交互验证准确度不在提升，得到修正后的标签和对应的文本：

训练文本：[“有趣”,“快乐”,“态度很差”,“不开心”,“很差态度”]；

训练文本标签：[“高兴”,“高兴”,“不满”,“不满”,“不满”]。

如图2所示，示出了本发明第二实施例提供的一种标签修正的系统的结构框图，该系统包括：获取模块、预测模块、计算模块、分析模块和结果输出模块，获取模块用于获取所有文本及每个文本的原始标签，每个标签至少有2个对应的文本；预测模块采用交互验证方法对所有文本进行预测，得到预测结果；计算模块根据预测结果计算准确度；分析模块用于对每个文本的预测结果进行处理；结果输出模块用于在计算得到的准确度数值不变，得到修正后的标签及对应的文本。

在本实施例中，预测模块包括文本切分单元、训练单元、预测单元、计算单元和记录单元，文本切分单元根据标签对应文本数量比例进行切分，将所有的文本分成k份，k为整数，k≥2；训练单元用于每次取一份作为验证集，将剩下的k-1份作为训练集进行训练得到语义分类模型；预测单元使用语义分类模块对验证集进行预测，在经过k次重复验证，得到k份验证集的预测结果；计算单元使用语义分类模型计算信心分数，所述信心分数表示模型预测的机率，信心分数的取值范围为0-1，信心分数的高低表示语义分类模型对预测结果正确的信心高低，将信心分数最高的作为预测标签；记录单元用于记录验证集的原始标签、预测标签和信心分数，若原始标签与预测标签相等，则说明预测结果正确，若原始标签和预测标签不相等，则说明预测结果错误。

使用语义分类模型计算验证集每个类别标签的信心分数具体包括:计算信心分数的公式为：

根据预测结果计算准确度的公式为：

在本实施例中，分析模块对每个文本的预测结果进行处理，具体包括：

若预测结果正确且信心分数大于等于0.5的文本，则保留原始标签。

若预测结果正确且信心分数小于0.5的文本，则进行文本增强。预测正确但信心分数低通常表示此个文本原始标签正确，但相似类型文本太少或标签不平衡，因此通过文本增强方法来增加信心分数。以句子文本为例的文本增强方法包括：随机替换(插入)句中的同义词、随机互换两个词的位置、随机删除词；或语言模型生成相似句。

若预测结果错误且信心分数大于等于0.85的文本，则将原始标签修改成预测标签。

若预测结果错误且信心分数大于等于0.5且小于等于0.85的文本，则进行人工审查。

若预测结果错误且信心分数小于0.5的文本，则不修改。

本发明实施例提供的一种标签修正的系统，采用语义分类模型和交互验证方法对文本进行分析，若标签发生错误时会进行修正，修正过程减少人工参与，并能快速修护错误标签同时优化文本不平衡的问题。

如图3所示，示出了本发明第三实施例还提供一种用于修正标签的智能终端的结构示意图，该终端包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述实施例描述的方法。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备可以包括显示器(LCD等)、扬声器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器、输入设备、输出设备可执行本发明实施例提供的方法实施例所描述的实现方式，也可执行本发明实施例所描述的系统实施例的实现方式，在此不再赘述。

在本发明还提供一种计算机可读存储介质的实施例，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

所述计算机可读存储介质可以是前述实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种标签修正的方法，其特征在于，包括以下步骤：

S3：根据预测结果计算准确度；

S4：对每个文本的预测结果进行处理；

2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：

S23:使用所述语义分类模型对所述验证集进行预测；

3.根据权利要求2所述的方法，其特征在于，所述预测结果包括k份验证集的原始标签、预测标签和信心分数。

4.根据权利要求3所述的方法，其特征在于，使用所述语义分类模型对所述验证集进行预测，包括：

5.根据权利要求4所述的方法，其特征在于，使用所述语义分类模型对所述验证集进行预测，还包括：

将信心分数最高的验证集所对应的标签作为预测标签。

6.根据权利要求5所述的方法，其特征在于，所述使用语义分类模型计算验证集的信心分数，包括:计算验证集信心分数的公式为：

7.根据权利要求6所述的方法，其特征在于，所述根据预测结果计算准确度的公式为：

其中，D为准确度，n为文本总数，y_i为第i个文本的原始标签，y_i’为第i个文本的预测标签。

8.根据权利要求7所述的方法，其特征在于，所述对每个文本的预测结果进行处理，具体包括：

若预测结果错误且信心分数小于0.5的文本，则不修改。

9.根据权利要求8所述的方法，其特征在于，当原始标签与预测标签相等时，预测结果正确；当原始标签和预测标签不相等时，预测结果错误。

10.一种标签修正的系统，其特征在于，包括：获取模块、预测模块、计算模块、分析模块和结果输出模块，

所述计算模块根据预测结果计算准确度；

所述分析模块用于对每个文本的预测结果进行处理；