CN111897953B

CN111897953B - 一种网络媒体平台评论文本分类标注数据纠正方法

Info

Publication number: CN111897953B
Application number: CN202010648943.0A
Authority: CN
Inventors: 刘春�; 聂烜; 郑江滨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2022-12-30
Anticipated expiration: 2040-07-08
Also published as: CN111897953A

Abstract

本发明公开了一种网络媒体平台评论文本分类标注数据纠正方法，首先获取文本的词项序列，与其他标注文本进行词项匹配获得初步候选相似标注文本集合；然后定义基于词频、词性和词语长度的词项权重度量方法，获得词项权重向量，实现候选相似标注文本集合的粗提取，实现标注数据的粗纠正；对于经过粗纠正处理步骤的标注文本，若标注文本未进行纠正且存在初步候选相似标注文本集合，则使用深度学习语言模型提取文本的语义向量，计算语义向量相似度，实现标注数据的精细纠正。采用本发明方法能够实现对错误标注数据的自动精确识别和纠正，大量减少人工处理，提高了标注数据的质量。

Description

一种网络媒体平台评论文本分类标注数据纠正方法

技术领域

本发明属于自然语言处理领域，具体涉及一种文本标注数据自动纠错方法。

背景技术

大规模深度神经网络在自然语言处理领域的应用带来了文本序列标注、文本分类、问答对话系统等任务性能的飞跃提升。网络媒体平台，如短视频、直播、电商、音乐平台等的用户评论文本分类对于识别用户意图、打击恶意用户具有重要意义。基于大规模深度神经网络的文本分类方法能够充分利用网络媒体平台评论文本数据量大、覆盖面广的特点，实现更加精确的分类。然而深度神经网络模型性能依赖于标注数据的数量和准确性，但人工标注数据往往存在偏差，因此研究自动识别人工标注数据错误的方法具有重要意义。

特定类型的文本分类任务人工标注数据的特点是通常存在大量含义相同或相似的文本，一种有效的人工标注数据纠正方法是提取出相似的标注文本并比较其标注数据，进而筛选出标注数据与其相似标注文本不一致的标注子集进行人工或自动纠正。传统的文本相似性度量方法包括基于字符编辑距离、基于tfidf词项向量、基于主题建模LDA、基于doc2vec句向量等方法。现有的基于词项权重或基于语义特征的文本相似度方法都未能充分挖掘文本的词项和语义特征，不适用于网络媒体平台评论文本覆盖面大、长度短、口语化的特点，进而难以采用这些相似度识别出错误标注的数据。

发明内容

本发明提供了一种网络媒体平台评论文本分类标注数据纠正方法，对于特定标注文本，首先对文本进行词性标注，与词语组合获得文本的词项序列，与其他标注文本进行词项匹配获得该标注文本的初步候选相似标注文本集合；然后定义基于词频、词性和词语长度的词项权重度量方法，获得该标注文本和初步候选相似标注文本的词项权重向量，使用改进词项权重向量匹配方法实现候选相似标注文本集合的粗提取，定义基于相似文本的标注置信度计算方法并根据置信度实现标注数据的粗纠正；对于经过粗纠正处理步骤的标注文本，若标注文本未进行纠正且存在初步候选相似标注文本集合，则使用深度学习语言模型提取文本的语义向量，计算待标注文本与候选相似标注文本的语义向量相似度，根据相似文本的标注置信度计算方法计算标注置信度实现标注数据的精细纠正。

本发明主要包括以下步骤：

步骤1：确定初步候选相似标注文本集合

对文本进行词性标注，将标注文本中的词语和该词语的词性组合构成词项，获得标注文本的词项序列；

对于两条不同的标注文本，使用Jaccard距离度量两条标注文本词项序列的初步相似度；如果两条标注文本的Jaccard距离大于等于1/3，则两条标注文本初步相似；如果两条标注文本的Jaccard距离小于1/3，则两条标注文本不相似；

对所有标注文本两两计算初步相似度，找到与每条标注文本初步相似的其它标注文本，构成每条标注文本的初步候选相似文本集合；

步骤2：计算标注文本的匹配相似度

标注文本中词项的词项权重由下式计算：

w_full＝w_t*w_c*(1+log₁₀(L)) (1)

式中，w_full表示词项权重，w_t表示词语频率权重，w_c表示词性权重，L表示词语长度；

标注文本的匹配相似度定义如下：

式中，S₂表示两条标注文本的匹配相似度，λ为权重系数，s_i表示标注文本1的词项权重向量，由标注文本1中各词项通过公式(1)计算的结果组成，n表示标注文本1中的词项数量；t_i表示标注文本2的词项权重向量，由标注文本2中各词项通过公式(1)计算的结果组成，m表示标注文本2中的词项数量；r_i表示标注文本1和标注文本2中相同词项的词项权重向量，l表示相同词项的数量；标注文本1和标注文本2表示任意两条不同的标注文本；

步骤3：错误标注数据粗纠正

步骤3-1：定义标注类别总数为N_c，标注文本为u，原标注数据为l_u，初步候选相似文本集合为W＝(w₁，w₂，......，w_N)，初步候选相似文本集合中的标注文本对应的标注数据为(l₁，l₂，......，l_N)，N为初步候选相似文本集合中的标注文本总数，l₁，l₂，......，l_N∈{1，2，......，N_c}；

步骤3-2：采用公式(2)计算标注文本u与其初步候选相似文本集合W中的每个标注文本之间的匹配相似度v_i，并将匹配相似度v_i与相似度阈值th0比较，若v_i＞th0，则初步候选标注文本w_i与标注文本u相似；若v_i≤th0，则初步候选标注文本w_i与标注文本u不相似；

步骤3-3：定义所有与标注文本u相似的初步候选标注文本为候选相似文本集合，按从大到小的顺序表示为

候选相似文本对应的匹配相似度和原标注数据分别为(v₁，v₂，......，v_e)和

e为与标注文本u相似的初步候选标注文本数量；

步骤3-4：定义标注文本u的标注数据置信度为：

若γ＜th1，th1为置信度阈值，则标注文本u原标注数据l_u错误；统计候选相似文本对应的原标注数据

中的标注数据出现频次，若存在频次高于1的标注数据，则将标注文本u的标注数据变为频次最高的标注数据；否则，若没有频次高于1的标注数据，则将标注文本u的标注数据变为

若γ≥th1，标注文本u标注数据不变；

步骤3-5：重复步骤3-2到步骤3-4，对每个标注文本进行处理，完成错误标注数据粗纠正；

步骤4：错误标注数据精细纠正

步骤4-1：将所有标注文本输入深度学习语言神经网络模型得到每个标注文本的深度语义向量；

步骤4-2：如果标注文本经过步骤3处理后标注数据未变化并且该标注文本的初步候选相似文本集合不为空，称为未粗纠正标注文本z；对z进行下述处理：

使用余弦距离度量出z的深度语义向量与z的初步候选相似文本集合中的每个标注文本的深度语义向量之间距离，将此距离定义为深度匹配相似度x_i；

步骤4-3：将步骤4-2中得到的深度匹配相似度x_i与深度相似度阈值th2比较，若x_i＞th2，则初步候选标注文本w_i与z深度相似；若x_i≤th2，则初步候选标注文本w_i与z不相似；

步骤4-4：定义所有与z深度相似的初步候选标注文本为候选深度相似文本集合，按从大到小的顺序表示为

候选深度相似文本对应的匹配相似度和原标注数据分别为(x₁，x₂，......，x_f)和

f为与z相似的初步候选标注文本数量；

步骤4-5：定义标注文本z的标注数据深度置信度为：

式中，l_z为z的原标注数据；

若β＜th3，th3为深度置信度阈值，则z原标注数据l_z错误；统计候选相似文本对应的原标注数据

中的标注数据出现频次，若存在频次高于1的标注数据，则将z的标注数据变为频次最高的标注数据；否则，若没有频次高于1的标注数据，则将z的标注数据变为

若β≥th3，z的标注数据不变；

步骤4-6：重复步骤4-3到步骤4-5，对每个未粗纠正标注文本进行处理，完成错误标注数据精细纠正。

优选地，步骤1中对文本进行词性标注的方法为条件随机场序列标注方法。

优选地，步骤2中的词语频率权重的计算采用正向逆向频率法。

优选地，步骤2中的词性权重确定方法如表1：

表1词性等级与权重表

优选地，在步骤2中，对于否定词，包括但不限于“不”、“不是”、“没”、“没有”、“非”，其词项权重设定为大于99％的词项的词项权重。

优选地，步骤2中的权重系数λ的值为0.5。

优选地，步骤4中所采用的深度学习语言神经网络模型为BERT神经网络或LSTM神经网络或Transformer神经网络或Elmo神经网络。

本发明的有益效果是：由于采用了本发明提出的一种网络媒体平台评论文本分类标注数据纠正方法，能够实现对错误标注数据的自动精确识别和纠正，大量减少人工处理，提高了标注数据的质量。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明提出了一种网络媒体平台评论文本分类标注数据纠正方法，实施例如下：

以表2标注文本集合为例说明错误标注数据筛选及纠正流程，对于表2列出的8条标注文本{1,2,3,4,5,6,7,8}，文本4和文本5标注错误。

表2标注文本集合示例(其中“/”表示未纠正)

步骤1：确定初步候选相似标注文本集合

对于两条不同的标注文本，使用Jaccard距离度量这两条标注文本词项序列的初步相似度；如果这两条标注文本的Jaccard距离大于等于1/3，则这两条标注文本初步相似；如果这两条标注文本的Jaccard距离小于1/3，则这两条标注文本不相似；

对所有标注文本两两计算初步相似度，找到与每条标注文本初步相似的其它标注文本，这些其它标注文本构成每条标注文本的初步候选相似文本集合；

如对表2中的各条文本进行步骤1处理时，文本4的词性标注数据为

对应的词项序列为

由此得到文本4的初步候选相似文本集合为{1，2，3，5，6，7}，文本5的初步候选相似文本集合为{1，2，3，4，6，7}；

步骤2：计算标注文本的匹配相似度

标注文本中词项的词项权重由下式计算：

w_full＝w_t*w_c*(1+log₁₀(L)) (1)

其中，词语频率权重的计算采用正向逆向频率法(tfidf法)；

词语词性的重要程度与语言结构有关，需要根据经验进行指定。根据不同词性词语在文本中的成分差异，将词性分为如表3 P1-P4四个等级，并分别指定权重为3.5(3.0)、2.5、1.0、0.1。

表3词性等级与权重表

部分词语对于文本含义有决定性的影响，如“不”，“不是”，“没”，“没有”，“非”等否定词。而部分词语涉及敏感信息，对于文本含义同样至关重要。对于这些特殊类型的词项，其词项权重设定为大于99％的词项的词项权重。

如对于表2文本4的词项序列中的“你的心/n”词项，其中词频权重为1.86，词性“n”权重为3.5，长度权重为1+log₁₀(2)，词项权重最终计算为8.47。

标注文本的匹配相似度定义如下：

式中，S₂表示两条标注文本的匹配相似度，λ为权重系数，s_i表示标注文本1的词项权重向量，由标注文本1中各词项通过公式1计算的结果组成，n表示标注文本1中的词项数量；t_i表示标注文本2的词项权重向量，由标注文本2中各词项通过公式1计算的结果组成，m表示标注文本2中的词项数量；r_i表示标注文本1和标注文本2中相同词项的词项权重向量，l表示相同词项的数量；

采用公式(2)计算出每条标注文本与自身的初步候选相似文本集合中的所有标注文本之间的匹配相似度；

权重系数λ的值设定为0.5；

如文本4与初步候选相似文本集合{1，2，3，5，6，7}中各条文本的匹配相似度为[0.999，0.903，0.747，0.852，0.999，0.510]；

步骤3：错误标注数据粗纠正

步骤3-2：将步骤2中得到标注文本u与其初步候选相似文本集合W中的每个标注文本之间的匹配相似度v_i与相似度阈值th0比较，若v_i＞th0，则初步候选标注文本w_i与标注文本u相似；若v_i≤th0，则初步候选标注文本w_i与标注文本u不相似；

这些候选相似文本对应的匹配相似度和原标注数据分别为(v₁，v₂，......，v_e)和

e为与标注文本u相似的初步候选标注文本数量；

步骤3-4：定义标注文本u的标注数据置信度为：

若γ＜th1，，th1为置信度阈值，则标注文本u原标注数据l_u错误；统计候选相似文本对应的原标注数据

若γ≥th1，标注文本u标注数据不变；

其中相似度阈值th0设置为0.9，置信度阈值th1设置为0.4。

如对表2中文本4进行粗纠正，文本1，2，6与文本4的匹配相似度高于0.9，得到相似文本集合{1，2，6}；最后根据公式(3)可得该标注的置信度γ为0.345小于th1，该样本为疑似错误标注文本，按照纠正方法将文本4的标注数据纠正为“白”。

按照同样的流程对文本5进行判断，经过词项初步匹配，文本5的初步候选相似文本集合为{1，2，3，4，6，7}。对初步候选集计算词项权重和匹配相似度，未发现词项权重向量匹配相似度高于0.9的文本。

步骤4：错误标注数据精细纠正

步骤4-2：如果标注文本经过步骤3处理后标注数据未变化并且其初步候选相似文本集合不为空，称为未粗纠正标注文本z；对z进行下述处理：

使用余弦距离度量出z的深度语义向量与其初步候选相似文本集合中的每个标注文本的深度语义向量之间距离，将此距离定义为深度匹配相似度x_i；

这些候选深度相似文本对应的匹配相似度和原标注数据分别为(x₁，x₂，......，x_f)和

f为与z相似的初步候选标注文本数量；

步骤4-5：定义标注文本z的标注数据深度置信度为：

式中，l_z为z的原标注数据；

若β≥th3，z的标注数据不变；

步骤4-6：重复步骤4-3到步骤4-5，对每个未粗纠正标注文本进行处理，完成错误标注数据精细纠正；

其中深度学习语言模型采用BERT神经网络或LSTM神经网络或Transformer神经网络或Elmo神经网络。深度匹配相似度阈值th2设置为0.85，深度置信度阈值th3设置为0.4。

如对表2中未粗纠正的文本5进行处理，经过计算，文本5与初步候选相似文本集合各条文本的深度匹配相似度为[0.953，0.942，0.945，0.953，0.967，0.927]，标注置信度为0.15，按照纠正方法将标注数据纠正为“白”。

而对于经过粗纠正处理后的文本4，其与各初步候选相似文本的神经网络匹配相似度为[0.996，0.986，0.969，0.953，0.978，0.938]，标注置信度为0.86，若对其进行精细纠正，其纠正结果与粗纠正结果一致。

对800万条短视频平台用户评论文本标注数据进行错误纠正，经过基于词项向量相似文本错误标注筛选共纠正疑似错误标注文本20万条，对疑似错误标注文本进行抽样及人工判断，发现粗纠正正确率达90％。使用1亿条评论使用Google的12/24层BERT模型进行语言模型的训练，输出语义向量长度设为768。对经过粗纠正处理的标注文本进行基于BERT语义向量匹配相似文本的纠正，共纠正疑似错误标注文本100万条。从100万条错误标注数据中随机抽取10万条进行人工判断，共发现8万条错误标注数据，精细筛选正确率高于80％。充分说明了本发明方法的有效性。