CN111897953B - 一种网络媒体平台评论文本分类标注数据纠正方法 - Google Patents

一种网络媒体平台评论文本分类标注数据纠正方法 Download PDF

Info

Publication number
CN111897953B
CN111897953B CN202010648943.0A CN202010648943A CN111897953B CN 111897953 B CN111897953 B CN 111897953B CN 202010648943 A CN202010648943 A CN 202010648943A CN 111897953 B CN111897953 B CN 111897953B
Authority
CN
China
Prior art keywords
text
data
texts
labeled
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010648943.0A
Other languages
English (en)
Other versions
CN111897953A (zh
Inventor
刘春�
聂烜
郑江滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010648943.0A priority Critical patent/CN111897953B/zh
Publication of CN111897953A publication Critical patent/CN111897953A/zh
Application granted granted Critical
Publication of CN111897953B publication Critical patent/CN111897953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络媒体平台评论文本分类标注数据纠正方法,首先获取文本的词项序列,与其他标注文本进行词项匹配获得初步候选相似标注文本集合;然后定义基于词频、词性和词语长度的词项权重度量方法,获得词项权重向量,实现候选相似标注文本集合的粗提取,实现标注数据的粗纠正;对于经过粗纠正处理步骤的标注文本,若标注文本未进行纠正且存在初步候选相似标注文本集合,则使用深度学习语言模型提取文本的语义向量,计算语义向量相似度,实现标注数据的精细纠正。采用本发明方法能够实现对错误标注数据的自动精确识别和纠正,大量减少人工处理,提高了标注数据的质量。

Description

一种网络媒体平台评论文本分类标注数据纠正方法
技术领域
本发明属于自然语言处理领域,具体涉及一种文本标注数据自动纠错方法。
背景技术
大规模深度神经网络在自然语言处理领域的应用带来了文本序列标注、文本分类、问答对话系统等任务性能的飞跃提升。网络媒体平台,如短视频、直播、电商、音乐平台等的用户评论文本分类对于识别用户意图、打击恶意用户具有重要意义。基于大规模深度神经网络的文本分类方法能够充分利用网络媒体平台评论文本数据量大、覆盖面广的特点,实现更加精确的分类。然而深度神经网络模型性能依赖于标注数据的数量和准确性,但人工标注数据往往存在偏差,因此研究自动识别人工标注数据错误的方法具有重要意义。
特定类型的文本分类任务人工标注数据的特点是通常存在大量含义相同或相似的文本,一种有效的人工标注数据纠正方法是提取出相似的标注文本并比较其标注数据,进而筛选出标注数据与其相似标注文本不一致的标注子集进行人工或自动纠正。传统的文本相似性度量方法包括基于字符编辑距离、基于tfidf词项向量、基于主题建模LDA、基于doc2vec句向量等方法。现有的基于词项权重或基于语义特征的文本相似度方法都未能充分挖掘文本的词项和语义特征,不适用于网络媒体平台评论文本覆盖面大、长度短、口语化的特点,进而难以采用这些相似度识别出错误标注的数据。
发明内容
本发明提供了一种网络媒体平台评论文本分类标注数据纠正方法,对于特定标注文本,首先对文本进行词性标注,与词语组合获得文本的词项序列,与其他标注文本进行词项匹配获得该标注文本的初步候选相似标注文本集合;然后定义基于词频、词性和词语长度的词项权重度量方法,获得该标注文本和初步候选相似标注文本的词项权重向量,使用改进词项权重向量匹配方法实现候选相似标注文本集合的粗提取,定义基于相似文本的标注置信度计算方法并根据置信度实现标注数据的粗纠正;对于经过粗纠正处理步骤的标注文本,若标注文本未进行纠正且存在初步候选相似标注文本集合,则使用深度学习语言模型提取文本的语义向量,计算待标注文本与候选相似标注文本的语义向量相似度,根据相似文本的标注置信度计算方法计算标注置信度实现标注数据的精细纠正。
本发明主要包括以下步骤:
步骤1:确定初步候选相似标注文本集合
对文本进行词性标注,将标注文本中的词语和该词语的词性组合构成词项,获得标注文本的词项序列;
对于两条不同的标注文本,使用Jaccard距离度量两条标注文本词项序列的初步相似度;如果两条标注文本的Jaccard距离大于等于1/3,则两条标注文本初步相似;如果两条标注文本的Jaccard距离小于1/3,则两条标注文本不相似;
对所有标注文本两两计算初步相似度,找到与每条标注文本初步相似的其它标注文本,构成每条标注文本的初步候选相似文本集合;
步骤2:计算标注文本的匹配相似度
标注文本中词项的词项权重由下式计算:
wfull=wt*wc*(1+log10(L)) (1)
式中,wfull表示词项权重,wt表示词语频率权重,wc表示词性权重,L表示词语长度;
标注文本的匹配相似度定义如下:
Figure GDA0003893616930000021
式中,S2表示两条标注文本的匹配相似度,λ为权重系数,si表示标注文本1的词项权重向量,由标注文本1中各词项通过公式(1)计算的结果组成,n表示标注文本1中的词项数量;ti表示标注文本2的词项权重向量,由标注文本2中各词项通过公式(1)计算的结果组成,m表示标注文本2中的词项数量;ri表示标注文本1和标注文本2中相同词项的词项权重向量,l表示相同词项的数量;标注文本1和标注文本2表示任意两条不同的标注文本;
步骤3:错误标注数据粗纠正
步骤3-1:定义标注类别总数为Nc,标注文本为u,原标注数据为lu,初步候选相似文本集合为W=(w1,w2,......,wN),初步候选相似文本集合中的标注文本对应的标注数据为(l1,l2,......,lN),N为初步候选相似文本集合中的标注文本总数,l1,l2,......,lN∈{1,2,......,Nc};
步骤3-2:采用公式(2)计算标注文本u与其初步候选相似文本集合W中的每个标注文本之间的匹配相似度vi,并将匹配相似度vi与相似度阈值th0比较,若vi>th0,则初步候选标注文本wi与标注文本u相似;若vi≤th0,则初步候选标注文本wi与标注文本u不相似;
步骤3-3:定义所有与标注文本u相似的初步候选标注文本为候选相似文本集合,按从大到小的顺序表示为
Figure GDA0003893616930000031
候选相似文本对应的匹配相似度和原标注数据分别为(v1,v2,......,ve)和
Figure GDA0003893616930000032
e为与标注文本u相似的初步候选标注文本数量;
步骤3-4:定义标注文本u的标注数据置信度为:
Figure GDA0003893616930000033
若γ<th1,th1为置信度阈值,则标注文本u原标注数据lu错误;统计候选相似文本对应的原标注数据
Figure GDA0003893616930000034
中的标注数据出现频次,若存在频次高于1的标注数据,则将标注文本u的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将标注文本u的标注数据变为
Figure GDA0003893616930000035
若γ≥th1,标注文本u标注数据不变;
步骤3-5:重复步骤3-2到步骤3-4,对每个标注文本进行处理,完成错误标注数据粗纠正;
步骤4:错误标注数据精细纠正
步骤4-1:将所有标注文本输入深度学习语言神经网络模型得到每个标注文本的深度语义向量;
步骤4-2:如果标注文本经过步骤3处理后标注数据未变化并且该标注文本的初步候选相似文本集合不为空,称为未粗纠正标注文本z;对z进行下述处理:
使用余弦距离度量出z的深度语义向量与z的初步候选相似文本集合中的每个标注文本的深度语义向量之间距离,将此距离定义为深度匹配相似度xi
步骤4-3:将步骤4-2中得到的深度匹配相似度xi与深度相似度阈值th2比较,若xi>th2,则初步候选标注文本wi与z深度相似;若xi≤th2,则初步候选标注文本wi与z不相似;
步骤4-4:定义所有与z深度相似的初步候选标注文本为候选深度相似文本集合,按从大到小的顺序表示为
Figure GDA0003893616930000041
候选深度相似文本对应的匹配相似度和原标注数据分别为(x1,x2,......,xf)和
Figure GDA0003893616930000042
f为与z相似的初步候选标注文本数量;
步骤4-5:定义标注文本z的标注数据深度置信度为:
Figure GDA0003893616930000043
式中,lz为z的原标注数据;
若β<th3,th3为深度置信度阈值,则z原标注数据lz错误;统计候选相似文本对应的原标注数据
Figure GDA0003893616930000044
中的标注数据出现频次,若存在频次高于1的标注数据,则将z的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将z的标注数据变为
Figure GDA0003893616930000046
若β≥th3,z的标注数据不变;
步骤4-6:重复步骤4-3到步骤4-5,对每个未粗纠正标注文本进行处理,完成错误标注数据精细纠正。
优选地,步骤1中对文本进行词性标注的方法为条件随机场序列标注方法。
优选地,步骤2中的词语频率权重的计算采用正向逆向频率法。
优选地,步骤2中的词性权重确定方法如表1:
表1词性等级与权重表
Figure GDA0003893616930000045
优选地,在步骤2中,对于否定词,包括但不限于“不”、“不是”、“没”、“没有”、“非”,其词项权重设定为大于99%的词项的词项权重。
优选地,步骤2中的权重系数λ的值为0.5。
优选地,步骤4中所采用的深度学习语言神经网络模型为BERT神经网络或LSTM神经网络或Transformer神经网络或Elmo神经网络。
本发明的有益效果是:由于采用了本发明提出的一种网络媒体平台评论文本分类标注数据纠正方法,能够实现对错误标注数据的自动精确识别和纠正,大量减少人工处理,提高了标注数据的质量。
附图说明
图1是本发明方法的流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明提出了一种网络媒体平台评论文本分类标注数据纠正方法,实施例如下:
以表2标注文本集合为例说明错误标注数据筛选及纠正流程,对于表2列出的8条标注文本{1,2,3,4,5,6,7,8},文本4和文本5标注错误。
表2标注文本集合示例(其中“/”表示未纠正)
Figure GDA0003893616930000051
步骤1:确定初步候选相似标注文本集合
对文本进行词性标注,将标注文本中的词语和该词语的词性组合构成词项,获得标注文本的词项序列;
对于两条不同的标注文本,使用Jaccard距离度量这两条标注文本词项序列的初步相似度;如果这两条标注文本的Jaccard距离大于等于1/3,则这两条标注文本初步相似;如果这两条标注文本的Jaccard距离小于1/3,则这两条标注文本不相似;
对所有标注文本两两计算初步相似度,找到与每条标注文本初步相似的其它标注文本,这些其它标注文本构成每条标注文本的初步候选相似文本集合;
如对表2中的各条文本进行步骤1处理时,文本4的词性标注数据为
Figure GDA0003893616930000061
Figure GDA0003893616930000062
对应的词项序列为
Figure GDA0003893616930000063
由此得到文本4的初步候选相似文本集合为{1,2,3,5,6,7},文本5的初步候选相似文本集合为{1,2,3,4,6,7};
步骤2:计算标注文本的匹配相似度
标注文本中词项的词项权重由下式计算:
wfull=wt*wc*(1+log10(L)) (1)
式中,wfull表示词项权重,wt表示词语频率权重,wc表示词性权重,L表示词语长度;
其中,词语频率权重的计算采用正向逆向频率法(tfidf法);
词语词性的重要程度与语言结构有关,需要根据经验进行指定。根据不同词性词语在文本中的成分差异,将词性分为如表3 P1-P4四个等级,并分别指定权重为3.5(3.0)、2.5、1.0、0.1。
表3词性等级与权重表
Figure GDA0003893616930000064
部分词语对于文本含义有决定性的影响,如“不”,“不是”,“没”,“没有”,“非”等否定词。而部分词语涉及敏感信息,对于文本含义同样至关重要。对于这些特殊类型的词项,其词项权重设定为大于99%的词项的词项权重。
如对于表2文本4的词项序列中的“你的心/n”词项,其中词频权重为1.86,词性“n”权重为3.5,长度权重为1+log10(2),词项权重最终计算为8.47。
标注文本的匹配相似度定义如下:
Figure GDA0003893616930000071
式中,S2表示两条标注文本的匹配相似度,λ为权重系数,si表示标注文本1的词项权重向量,由标注文本1中各词项通过公式1计算的结果组成,n表示标注文本1中的词项数量;ti表示标注文本2的词项权重向量,由标注文本2中各词项通过公式1计算的结果组成,m表示标注文本2中的词项数量;ri表示标注文本1和标注文本2中相同词项的词项权重向量,l表示相同词项的数量;
采用公式(2)计算出每条标注文本与自身的初步候选相似文本集合中的所有标注文本之间的匹配相似度;
权重系数λ的值设定为0.5;
如文本4与初步候选相似文本集合{1,2,3,5,6,7}中各条文本的匹配相似度为[0.999,0.903,0.747,0.852,0.999,0.510];
步骤3:错误标注数据粗纠正
步骤3-1:定义标注类别总数为Nc,标注文本为u,原标注数据为lu,初步候选相似文本集合为W=(w1,w2,......,wN),初步候选相似文本集合中的标注文本对应的标注数据为(l1,l2,......,lN),N为初步候选相似文本集合中的标注文本总数,l1,l2,......,lN∈{1,2,......,Nc};
步骤3-2:将步骤2中得到标注文本u与其初步候选相似文本集合W中的每个标注文本之间的匹配相似度vi与相似度阈值th0比较,若vi>th0,则初步候选标注文本wi与标注文本u相似;若vi≤th0,则初步候选标注文本wi与标注文本u不相似;
步骤3-3:定义所有与标注文本u相似的初步候选标注文本为候选相似文本集合,按从大到小的顺序表示为
Figure GDA0003893616930000072
这些候选相似文本对应的匹配相似度和原标注数据分别为(v1,v2,......,ve)和
Figure GDA0003893616930000073
e为与标注文本u相似的初步候选标注文本数量;
步骤3-4:定义标注文本u的标注数据置信度为:
Figure GDA0003893616930000074
若γ<th1,,th1为置信度阈值,则标注文本u原标注数据lu错误;统计候选相似文本对应的原标注数据
Figure GDA0003893616930000081
中的标注数据出现频次,若存在频次高于1的标注数据,则将标注文本u的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将标注文本u的标注数据变为
Figure GDA0003893616930000082
若γ≥th1,标注文本u标注数据不变;
步骤3-5:重复步骤3-2到步骤3-4,对每个标注文本进行处理,完成错误标注数据粗纠正;
其中相似度阈值th0设置为0.9,置信度阈值th1设置为0.4。
如对表2中文本4进行粗纠正,文本1,2,6与文本4的匹配相似度高于0.9,得到相似文本集合{1,2,6};最后根据公式(3)可得该标注的置信度γ为0.345小于th1,该样本为疑似错误标注文本,按照纠正方法将文本4的标注数据纠正为“白”。
按照同样的流程对文本5进行判断,经过词项初步匹配,文本5的初步候选相似文本集合为{1,2,3,4,6,7}。对初步候选集计算词项权重和匹配相似度,未发现词项权重向量匹配相似度高于0.9的文本。
步骤4:错误标注数据精细纠正
步骤4-1:将所有标注文本输入深度学习语言神经网络模型得到每个标注文本的深度语义向量;
步骤4-2:如果标注文本经过步骤3处理后标注数据未变化并且其初步候选相似文本集合不为空,称为未粗纠正标注文本z;对z进行下述处理:
使用余弦距离度量出z的深度语义向量与其初步候选相似文本集合中的每个标注文本的深度语义向量之间距离,将此距离定义为深度匹配相似度xi
步骤4-3:将步骤4-2中得到的深度匹配相似度xi与深度相似度阈值th2比较,若xi>th2,则初步候选标注文本wi与z深度相似;若xi≤th2,则初步候选标注文本wi与z不相似;
步骤4-4:定义所有与z深度相似的初步候选标注文本为候选深度相似文本集合,按从大到小的顺序表示为
Figure GDA0003893616930000083
这些候选深度相似文本对应的匹配相似度和原标注数据分别为(x1,x2,......,xf)和
Figure GDA0003893616930000084
f为与z相似的初步候选标注文本数量;
步骤4-5:定义标注文本z的标注数据深度置信度为:
Figure GDA0003893616930000091
式中,lz为z的原标注数据;
若β<th3,th3为深度置信度阈值,则z原标注数据lz错误;统计候选相似文本对应的原标注数据
Figure GDA0003893616930000092
中的标注数据出现频次,若存在频次高于1的标注数据,则将z的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将z的标注数据变为
Figure GDA0003893616930000093
若β≥th3,z的标注数据不变;
步骤4-6:重复步骤4-3到步骤4-5,对每个未粗纠正标注文本进行处理,完成错误标注数据精细纠正;
其中深度学习语言模型采用BERT神经网络或LSTM神经网络或Transformer神经网络或Elmo神经网络。深度匹配相似度阈值th2设置为0.85,深度置信度阈值th3设置为0.4。
如对表2中未粗纠正的文本5进行处理,经过计算,文本5与初步候选相似文本集合各条文本的深度匹配相似度为[0.953,0.942,0.945,0.953,0.967,0.927],标注置信度为0.15,按照纠正方法将标注数据纠正为“白”。
而对于经过粗纠正处理后的文本4,其与各初步候选相似文本的神经网络匹配相似度为[0.996,0.986,0.969,0.953,0.978,0.938],标注置信度为0.86,若对其进行精细纠正,其纠正结果与粗纠正结果一致。
对800万条短视频平台用户评论文本标注数据进行错误纠正,经过基于词项向量相似文本错误标注筛选共纠正疑似错误标注文本20万条,对疑似错误标注文本进行抽样及人工判断,发现粗纠正正确率达90%。使用1亿条评论使用Google的12/24层BERT模型进行语言模型的训练,输出语义向量长度设为768。对经过粗纠正处理的标注文本进行基于BERT语义向量匹配相似文本的纠正,共纠正疑似错误标注文本100万条。从100万条错误标注数据中随机抽取10万条进行人工判断,共发现8万条错误标注数据,精细筛选正确率高于80%。充分说明了本发明方法的有效性。

Claims (6)

1.一种网络媒体平台评论文本分类标注数据纠正方法,其特征在于,包括以下步骤:
步骤1:确定初步候选相似标注文本集合
对文本进行词性标注,将标注文本中的词语和该词语的词性组合构成词项,获得标注文本的词项序列;
对于两条不同的标注文本,使用Jaccard距离度量两条标注文本词项序列的初步相似度;如果两条标注文本的Jaccard距离大于等于1/3,则两条标注文本初步相似;如果两条标注文本的Jaccard距离小于1/3,则两条标注文本不相似;
对所有标注文本两两计算初步相似度,找到与每条标注文本初步相似的其它标注文本,构成每条标注文本的初步候选相似文本集合;
步骤2:计算标注文本的匹配相似度
标注文本中词项的词项权重由下式计算:
wfull=wt*wc*(1+log10(L)) (1)
式中,wfull表示词项权重,wt表示词语频率权重,wc表示词性权重,L表示词语长度;
标注文本的匹配相似度定义如下:
Figure FDA0003893616920000011
式中,S2表示两条标注文本的匹配相似度,λ为权重系数,si表示标注文本1的词项权重向量,由标注文本1中各词项通过公式(1)计算的结果组成,n表示标注文本1中的词项数量;ti表示标注文本2的词项权重向量,由标注文本2中各词项通过公式(1)计算的结果组成,m表示标注文本2中的词项数量;ri表示标注文本1和标注文本2中相同词项的词项权重向量,l表示相同词项的数量;标注文本1和标注文本2表示任意两条不同的标注文本;
步骤3:错误标注数据粗纠正
步骤3-1:定义标注类别总数为Nc,标注文本为u,原标注数据为lu,初步候选相似文本集合为W=(w1,w2,......,wN),初步候选相似文本集合中的标注文本对应的标注数据为(l1,l2,......,lN),N为初步候选相似文本集合中的标注文本总数,l1,l2,......,lN∈{1,2,......,Nc};
步骤3-2:采用公式(2)计算标注文本u与其初步候选相似文本集合W中的每个标注文本之间的匹配相似度vi,并将匹配相似度vi与相似度阈值th0比较,若vi>th0,则初步候选标注文本wi与标注文本u相似;若vx≤th0,则初步候选标注文本wi与标注文本u不相似;
步骤3-3:定义所有与标注文本u相似的初步候选标注文本为候选相似文本集合,按从大到小的顺序表示为
Figure FDA0003893616920000021
候选相似文本对应的匹配相似度和原标注数据分别为(v1,v2,......,ve)和
Figure FDA0003893616920000022
e为与标注文本u相似的初步候选标注文本数量;
步骤3-4:定义标注文本u的标注数据置信度为:
Figure FDA0003893616920000023
若γ<th1,th1为置信度阈值,则标注文本u原标注数据lu错误;统计候选相似文本对应的原标注数据
Figure FDA0003893616920000024
中的标注数据出现频次,若存在频次高于1的标注数据,则将标注文本u的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将标注文本u的标注数据变为
Figure FDA0003893616920000025
若γ≥th1,标注文本u标注数据不变;
步骤3-5:重复步骤3-2到步骤3-4,对每个标注文本进行处理,完成错误标注数据粗纠正;
步骤4:错误标注数据精细纠正
步骤4-1:将所有标注文本输入深度学习语言神经网络模型得到每个标注文本的深度语义向量;
步骤4-2:如果标注文本经过步骤3处理后标注数据未变化并且该标注文本的初步候选相似文本集合不为空,称为未粗纠正标注文本z;对z进行下述处理:
使用余弦距离度量出z的深度语义向量与z的初步候选相似文本集合中的每个标注文本的深度语义向量之间距离,将此距离定义为深度匹配相似度xi
步骤4-3:将步骤4-2中得到的深度匹配相似度xi与深度相似度阈值th2比较,若xi>th2,则初步候选标注文本wi与z深度相似;若xi≤th2,则初步候选标注文本wi与z不相似;
步骤4-4:定义所有与z深度相似的初步候选标注文本为候选深度相似文本集合,按从大到小的顺序表示为
Figure FDA0003893616920000031
候选深度相似文本对应的匹配相似度和原标注数据分别为(x1,x2,......,xf)和
Figure FDA0003893616920000032
f为与z相似的初步候选标注文本数量;
步骤4-5:定义标注文本z的标注数据深度置信度为:
Figure FDA0003893616920000033
式中,lz为z的原标注数据;
若β<th3,th3为深度置信度阈值,则z原标注数据lz错误;统计候选相似文本对应的原标注数据
Figure FDA0003893616920000034
中的标注数据出现频次,若存在频次高于1的标注数据,则将z的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将z的标注数据变为
Figure FDA0003893616920000035
若β≥th3,z的标注数据不变;
步骤4-6:重复步骤4-3到步骤4-5,对每个未粗纠正标注文本进行处理,完成错误标注数据精细纠正。
2.如权利要求1所述的一种网络媒体平台评论文本分类标注数据纠正方法,其特征在于,步骤1中对文本进行词性标注的方法为条件随机场序列标注方法。
3.如权利要求1所述的一种网络媒体平台评论文本分类标注数据纠正方法,其特征在于,步骤2中的词语频率权重的计算采用正向逆向频率法。
4.如权利要求1所述的一种网络媒体平台评论文本分类标注数据纠正方法,其特征在于,在步骤2中,对于否定词,包括但不限于“不”、“不是”、“没”、“没有”、“非”,其词项权重设定为大于99%的词项的词项权重。
5.如权利要求1所述的一种网络媒体平台评论文本分类标注数据纠正方法,其特征在于,步骤2中的权重系数λ的值为0.5。
6.如权利要求1所述的一种网络媒体平台评论文本分类标注数据纠正方法,其特征在于,步骤4中所采用的深度学习语言神经网络模型为BERT神经网络或LSTM神经网络或Transformer神经网络或Elmo神经网络。
CN202010648943.0A 2020-07-08 2020-07-08 一种网络媒体平台评论文本分类标注数据纠正方法 Active CN111897953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010648943.0A CN111897953B (zh) 2020-07-08 2020-07-08 一种网络媒体平台评论文本分类标注数据纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010648943.0A CN111897953B (zh) 2020-07-08 2020-07-08 一种网络媒体平台评论文本分类标注数据纠正方法

Publications (2)

Publication Number Publication Date
CN111897953A CN111897953A (zh) 2020-11-06
CN111897953B true CN111897953B (zh) 2022-12-30

Family

ID=73191652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010648943.0A Active CN111897953B (zh) 2020-07-08 2020-07-08 一种网络媒体平台评论文本分类标注数据纠正方法

Country Status (1)

Country Link
CN (1) CN111897953B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559749B (zh) * 2020-12-18 2024-04-09 深圳赛安特技术服务有限公司 在线教育师生智能匹配方法、装置及存储介质
CN114386407B (zh) * 2021-12-23 2023-04-11 北京金堤科技有限公司 文本的分词方法及装置
CN115146622B (zh) * 2022-07-21 2023-05-05 平安科技(深圳)有限公司 数据标注纠错方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
EP3144822A1 (en) * 2015-09-21 2017-03-22 Tata Consultancy Services Limited Tagging text snippets
CN110110327A (zh) * 2019-04-26 2019-08-09 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备
WO2019153996A1 (zh) * 2018-02-09 2019-08-15 叶伟 一种语音识别文本纠错方法及装置
CN110781684A (zh) * 2018-07-26 2020-02-11 国际商业机器公司 验证和校正用于文本分类的训练数据

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
EP3144822A1 (en) * 2015-09-21 2017-03-22 Tata Consultancy Services Limited Tagging text snippets
WO2019153996A1 (zh) * 2018-02-09 2019-08-15 叶伟 一种语音识别文本纠错方法及装置
CN110781684A (zh) * 2018-07-26 2020-02-11 国际商业机器公司 验证和校正用于文本分类的训练数据
CN110110327A (zh) * 2019-04-26 2019-08-09 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dynamic label correcting for distant supervision relation extracting via semantic similarity;Xinyu Zhu等;《Natural Language Processing and Chinese Computering》;20190930;第16-27页 *
利用人类计算技术的语音语料库标注方法及其实现;沈映泉等;《智能系统学报》;20090630;第4卷(第03期);第270-277 页 *
老挝语分词和词性标注方法研究;杨蓓;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215(第02期);第I138-4463页 *

Also Published As

Publication number Publication date
CN111897953A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN111897953B (zh) 一种网络媒体平台评论文本分类标注数据纠正方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
US10515292B2 (en) Joint acoustic and visual processing
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
WO2021212801A1 (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN107943786B (zh) 一种中文命名实体识别方法及系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN109165382A (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
Zhu et al. Catslu: The 1st chinese audio-textual spoken language understanding challenge
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111091009A (zh) 一种基于语义分析的文档关联审核方法
CN110866087B (zh) 一种基于主题模型的面向实体的文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant