CN111737475B - 一种无监督的网络舆情垃圾长文本识别方法 - Google Patents

一种无监督的网络舆情垃圾长文本识别方法 Download PDF

Info

Publication number
CN111737475B
CN111737475B CN202010702630.9A CN202010702630A CN111737475B CN 111737475 B CN111737475 B CN 111737475B CN 202010702630 A CN202010702630 A CN 202010702630A CN 111737475 B CN111737475 B CN 111737475B
Authority
CN
China
Prior art keywords
sentence
text
model
public opinion
junk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010702630.9A
Other languages
English (en)
Other versions
CN111737475A (zh
Inventor
王义真
杜向阳
吴明勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aegis Information Technology Co ltd
Original Assignee
Nanjing Aegis Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aegis Information Technology Co ltd filed Critical Nanjing Aegis Information Technology Co ltd
Priority to CN202010702630.9A priority Critical patent/CN111737475B/zh
Publication of CN111737475A publication Critical patent/CN111737475A/zh
Application granted granted Critical
Publication of CN111737475B publication Critical patent/CN111737475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

本发明公开了一种无监督的网络舆情垃圾长文本识别方法,其识别方法包括如下步骤:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本,利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性,将两者相结合来完成长文本的垃圾文本识别任务,能够在自动识别出垃圾文本信息的同时,大大降低因获取监督数据所产生的成本,可以让一个没有监督数据的系统从一开始就能够识别出垃圾文本。

Description

一种无监督的网络舆情垃圾长文本识别方法
技术领域
本发明涉及信息处理技术领域,具体为一种无监督的网络舆情垃圾长文本识别方法。
背景技术
网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。对于网络舆情文本数据爬虫系统,不可避免地会采集到不少的垃圾文本信息,不同来源(如新闻、论坛、微博、贴吧、微信等等)的文本数据所含有的垃圾文本信息又往往有着或大或小的差异,这些信息严重影响后续对爬取的数据的利用。
现有舆情网络文本爬虫系统会实时从互联网进行数据采集,系统往往是根据实际需要,把相关网站的相关内容统一利用一定的规则进行采集。在实际中可以发现,爬虫系统总是不可避免地会采集到不少的舆情垃圾文本信息,这些信息严重影响后续对爬取数据的使用效果。通过观察总结可以发现,垃圾文本信息主要分为以下几类:标题和正文毫不相关;正文杂乱无章,上下文没有逻辑关系;正文含有大量垃圾文本字符;广告、彩票等垃圾文本信息。
目前的处理方法主要分为两类,第一类是利用传统的机器学习或者深度学习模型,在监督数据上进行训练得到的分类模型。第二类利用人工设定阈值的方式,通过无监督的方式判断文本是否是垃圾文本。对于第一类方法,一方面依赖于模型本身,另一方面依赖于监督数据。但是在实际情况中,获取大量监督数据的成本非常高昂,当没有监督数据或者监督数据较少的时候,这类模型或者方法的效果就会大打折扣甚至根本无法使用。对于第二类方法,在判断长文本是否是垃圾文本的时候,准确性往往会比较低。
发明内容
本发明的目的在于提供一种无监督的网络舆情垃圾长文本识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将待预测的网络舆情长文本用于判断一类垃圾文本,即文本中句子不通顺,带有杂乱字符,这类文本的困惑度高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
优选的,所述步骤(X1)中,统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,…,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元,即字或者词。
3.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X1)中,假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型。
优选的,所述步骤(X1)中,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型。
优选的,所述步骤(X2)中,通过计算最大似然估计构造语言模型,这是对训练数据的最佳估计,公式如下:
Figure GDA0002985826390000041
其中count(wi-1,wi)表示句子单元,wi-1和wi表示在语料中相邻出现的频次,count(wi-1)表示句子单元wi-1在语料中出现的频次。
优选的,所述步骤(X3)中,困惑度指标的公式如下:
Figure GDA0002985826390000042
其中PP(S)表示句子S的困惑度,N表示该句子所含最小单元数,利用链式法则,变形得到:
Figure GDA0002985826390000043
对于bi-gram模型来说,困惑度公式退化为:
Figure GDA0002985826390000044
优选的,所述步骤(X3)中,判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
Figure GDA0002985826390000051
其中PP1,…,PPn表示每个句子的困惑度,
Figure GDA0002985826390000052
表示模型的参数;
S3:设定一个困惑度阈值η,当句子的困惑度大于η时,认为这个句子是“垃圾”句子,然后计算垃圾句子的占比,当这个占比大于一定阈值γ的时候,即当
Figure GDA0002985826390000053
时,认为这个文本是垃圾文本,其中
Figure GDA0002985826390000054
优选的,所述步骤(Y1)中,构建训练数据依次遍历语料中的每个文档,选取文档中的相邻两个句子作为正例,随机选取语料中的两个句子作为负例。
优选的,所述步骤(Y1)中,微调fine tune,即把文本输入BERT后得到文本的表示,然后将这个表示输入到一个分类模型,即得到用于判断两个句子是否是相邻的上下文相关的模型。
优选的,所述步骤(Y2)中,判断上下句不成文比例的方法包括:
S1:基于自己构建的大量数据,训练下一句预测模型NextSentence;
S2:对于需要判断是否是垃圾信息的文本,分句后再构建句子对,即:pairs=[(sentence1,sentence2),…,(sentencen-1,sentencen)],然后将其输入到模型NextSentence中,得到每个句子对是上下文相关的概率为:[pair1,…,pairn-1]=NextSentence(pairs;θNextSentence),其中pair1,…,pairn-1表示每个句子对的是上下文相关的概率,θNextSentence表示模型的参数;
S3:当句子对是上下文的概率大于η时,计算句子对的占比,当这个占比大于一个设定的阈值γ,即当
Figure GDA0002985826390000061
时,认为这个文本是垃圾文本,其中
Figure GDA0002985826390000062
与现有技术相比,本发明的有益效果如下:
本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本,利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性,将两者相结合来完成长文本的垃圾文本识别任务,能够在自动识别出垃圾文本信息的同时,大大降低因获取监督数据所产生的成本,让一个没有监督数据的系统从一开始就能够识别出垃圾文本。
具体实施方式
下面将结合本发明中的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种无监督的网络舆情垃圾长文本识别方法,其特征在于:待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将待预测的网络舆情长文本用于判断一类垃圾文本,即文本中句子不通顺,带有杂乱字符,这类文本的困惑度高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
实施例一:
一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,...,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元,即字或者词,假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将其用于判断一类垃圾文本,即文本中句子不通顺,带有一些杂乱字符,这类文本的困惑度都会高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
实施例二:
一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,...,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元(字或者词),假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型;
(X2)构造语言模型;
通过计算最大似然估计构造语言模型,这是对训练数据的最佳估计,公式如下:
Figure GDA0002985826390000101
其中count(wi-1,wi)表示句子单元,wi-1和wi表示在语料中相邻出现的频次,count(wi-1)表示句子单元wi-1在语料中出现的频次;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将其用于判断一类垃圾文本,即文本中句子不通顺,带有一些杂乱字符,这类文本的困惑度都会高,当困惑度达到一定阈值的时候,认为其非常能是垃圾文本;
困惑度指标的公式如下:
Figure GDA0002985826390000111
其中PP(S)表示句子S的困惑度,N表示该句子所含最小单元数,利用链式法则,变形得到:
Figure GDA0002985826390000112
对于bi-gram模型来说,困惑度公式退化为:
Figure GDA0002985826390000113
判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
Figure GDA0002985826390000114
其中PP1,…,PPn表示每个句子的困惑度,
Figure GDA0002985826390000115
表示模型的参数;
S3:设定一个困惑度阈值η,当句子的困惑度大于η时,认为这个句子是“垃圾”句子,然后计算垃圾句子的占比,当这个占比大于一定阈值γ的时候,即当
Figure GDA0002985826390000116
时,认为这个文本是垃圾文本,其中
Figure GDA0002985826390000117
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本极有能是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
实施例三:
一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,...,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元(字或者词),假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型;
(X2)构造语言模型;
通过计算最大似然估计构造语言模型,这是对训练数据的最佳估计,公式如下:
Figure GDA0002985826390000131
其中count(wi-1,wi)表示句子单元,wi-1和wi表示在语料中相邻出现的频次,count(wi-1)表示句子单元wi-1在语料中出现的频次;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将其用于判断一类垃圾文本,即文本中句子不通顺,带有一些杂乱字符,这类文本的困惑度都会高,当困惑度达到一定阈值的时候,认为其非常能是垃圾文本;
困惑度指标的公式如下:
Figure GDA0002985826390000132
其中PP(S)表示句子S的困惑度,N表示该句子所含最小单元数,利用链式法则,变形得到:
Figure GDA0002985826390000141
对于bi-gram模型来说,困惑度公式退化为:
Figure GDA0002985826390000142
判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
Figure GDA0002985826390000143
其中PP1,…,PPn表示每个句子的困惑度,
Figure GDA0002985826390000144
表示模型的参数;
S3:设定一个困惑度阈值η,当句子的困惑度大于η时,认为这个句子是“垃圾”句子,然后计算垃圾句子的占比,当这个占比大于一定阈值γ的时候,即当
Figure GDA0002985826390000145
时,认为这个文本是垃圾文本,其中
Figure GDA0002985826390000146
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子,构建训练数据依次遍历语料中的每个文档,选取文档中的相邻两个句子作为正例,随机选取语料中的两个句子作为负例,微调fine tune,即把文本输入BERT后得到文本的表示,然后将这个表示输入到一个分类模型,即得到用于判断两个句子是否是相邻的上下文相关的模型;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本极有能是垃圾文本;
判断上下句不成文比例的方法包括:
S1:基于自己构建的大量数据,训练下一句预测模型NextSentence;
S2:对于需要判断是否是垃圾信息的文本,分句后再构建句子对,即:pairs=[(sentence1,sentence2),…,(sentencen-1,sentencen)],然后将其输入到模型NextSentence中,得到每个句子对是上下文相关的概率为:[pair1,…,pairn-1]=NextSentence(pairs;θNextSentence),其中pair1,…,pairn-1表示每个句子对的是上下文相关的概率,θNextSentence表示模型的参数;
S3:当句子对是上下文的概率大于η时,计算句子对的占比,当这个占比大于一个设定的阈值γ,即当
Figure GDA0002985826390000151
时,认为这个文本是垃圾文本,其中
Figure GDA0002985826390000152
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本,利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性,将两者相结合来完成长文本的垃圾文本识别任务,能够在自动识别出垃圾文本信息的同时,大大降低因获取监督数据所产生的成本,让一个没有监督数据的系统从一开始就能够识别出垃圾文本。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种无监督的网络舆情垃圾长文本识别方法,其特征在于:待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将待预测的网络舆情长文本用于判断一类垃圾文本,即文本中句子不通顺,带有杂乱字符,这类文本的困惑度高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
2.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X1)中,统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,…,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元,即字或者词。
3.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X1)中,假设下一个词的出现依赖它前面的一个词,则有:
Figure FDA0002985826380000021
模型。
4.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X1)中,假设下一个词的出现依赖它前面的两个词,则有:
Figure FDA0002985826380000022
此时该模型称为tri-gram模型。
5.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X2)中,通过计算最大似然估计构造语言模型,这是对训练数据的最佳估计,公式如下:
Figure FDA0002985826380000031
其中count(wi-1,wi)表示句子单元,wi-1和wi表示在语料中相邻出现的频次,count(wi-1)表示句子单元wi-1在语料中出现的频次。
6.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X3)中,困惑度指标的公式如下:
Figure FDA0002985826380000032
其中PP(S)表示句子S的困惑度,N表示该句子所含最小单元数,利用链式法则,变形得到:
Figure FDA0002985826380000033
对于bi-gram模型来说,困惑度公式退化为:
Figure FDA0002985826380000034
7.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X3)中,判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
Figure FDA0002985826380000035
其中PP1,…,PPn表示每个句子的困惑度,
Figure FDA0002985826380000041
表示模型的参数;
S3:设定一个困惑度阈值η,当句子的困惑度大于η时,认为这个句子是“垃圾”句子,然后计算垃圾句子的占比,当这个占比大于一定阈值γ的时候,即当
Figure FDA0002985826380000042
时,认为这个文本是垃圾文本,其中
Figure FDA0002985826380000043
8.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(Y1)中,构建训练数据依次遍历语料中的每个文档,选取文档中的相邻两个句子作为正例,随机选取语料中的两个句子作为负例。
9.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(Y1)中,微调fine tune,即把文本输入BERT后得到文本的表示,然后将这个表示输入到一个分类模型,即得到用于判断两个句子是否是相邻的上下文相关的模型。
10.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(Y2)中,判断上下句不成文比例的方法包括:
S1:基于自己构建的大量数据,训练下一句预测模型NextSentence;
S2:对于需要判断是否是垃圾信息的文本,分句后再构建句子对,即:pairs=[(sentence1,sentence2),…,(sentencen-1,sentencen)],然后将其输入到模型NextSentence中,得到每个句子对是上下文相关的概率为:[pair1,…,pairn-1]=NextSentence(pairs;θNextSentence),其中pair1,…,pairn-1表示每个句子对的是上下文相关的概率,θNextSentence表示模型的参数;
S3:当句子对是上下文的概率大于η时,计算句子对的占比,当这个占比大于一个设定的阈值γ,即当
Figure FDA0002985826380000051
时,认为这个文本是垃圾文本,其中
Figure FDA0002985826380000052
CN202010702630.9A 2020-07-21 2020-07-21 一种无监督的网络舆情垃圾长文本识别方法 Active CN111737475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010702630.9A CN111737475B (zh) 2020-07-21 2020-07-21 一种无监督的网络舆情垃圾长文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010702630.9A CN111737475B (zh) 2020-07-21 2020-07-21 一种无监督的网络舆情垃圾长文本识别方法

Publications (2)

Publication Number Publication Date
CN111737475A CN111737475A (zh) 2020-10-02
CN111737475B true CN111737475B (zh) 2021-06-22

Family

ID=72656049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010702630.9A Active CN111737475B (zh) 2020-07-21 2020-07-21 一种无监督的网络舆情垃圾长文本识别方法

Country Status (1)

Country Link
CN (1) CN111737475B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114298012B (zh) * 2021-12-31 2022-10-25 中国电子科技集团公司电子科学研究院 生成长文本科技情报模型的优化方法
CN116384388B (zh) * 2023-02-14 2024-02-02 上海熙瑾信息技术有限公司 反向识别ai智能写作的方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012142941A (ja) * 2010-12-28 2012-07-26 Silicon Works Co Ltd ビットエラー率テスト機能が追加されたタイミングコントローラとソースドライバの間のデータ伝送方法及び装置
CN110442717A (zh) * 2019-08-08 2019-11-12 深巨科技(北京)有限公司 一种适应性情感分析系统及其方法
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN111177376A (zh) * 2019-12-17 2020-05-19 东华大学 一种基于bert与cnn层级连接的中文文本分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502643A (zh) * 2019-08-28 2019-11-26 南京璇玑信息技术有限公司 一种基于bert模型的预测下一句模型自动构建技术
CN111079410B (zh) * 2019-12-23 2023-12-22 五八有限公司 文本识别方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012142941A (ja) * 2010-12-28 2012-07-26 Silicon Works Co Ltd ビットエラー率テスト機能が追加されたタイミングコントローラとソースドライバの間のデータ伝送方法及び装置
CN110442717A (zh) * 2019-08-08 2019-11-12 深巨科技(北京)有限公司 一种适应性情感分析系统及其方法
CN110532557A (zh) * 2019-08-29 2019-12-03 北京计算机技术及应用研究所 一种无监督的文本相似度计算方法
CN111177376A (zh) * 2019-12-17 2020-05-19 东华大学 一种基于bert与cnn层级连接的中文文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The Automatic Text Classification Method Based on BERT and Feature Union;Wenting Li等;《2019 IEEE 25th International Conference on Parallel and Distributed Systems (ICPADS)》;20200130;第1-4页 *
面向微博新媒体的公共事件及其社会舆论分析技术研究;邓镭;《中国博士学位论文全文数据库 信息科技辑》;20160115(第1期);第I139-27页 *

Also Published As

Publication number Publication date
CN111737475A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
US7873584B2 (en) Method and system for classifying users of a computer network
CN111008274B (zh) 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN111125334A (zh) 一种基于预训练的搜索问答系统
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN103034626A (zh) 情感分析系统及方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111737475B (zh) 一种无监督的网络舆情垃圾长文本识别方法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
Perry et al. Scaling text with the class affinity model
CN111460158A (zh) 一种基于情感分析的微博话题公众情感预测方法
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Lubis et al. spelling checking with deep learning model in analysis of Tweet data for word classification process
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
GB2572320A (en) Hate speech detection system for online media content
CN112417088A (zh) 一种社群内文本价值的评估方法及装置
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN112507115B (zh) 一种弹幕文本中情感词的分类方法、装置及存储介质
CN115269833A (zh) 基于深度语义和多任务学习的事件信息抽取方法及系统
CN114461760A (zh) 案件事实与法条匹配的方法及装置
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN113688633A (zh) 一种提纲确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant