CN111737475B

CN111737475B - 一种无监督的网络舆情垃圾长文本识别方法

Info

Publication number: CN111737475B
Application number: CN202010702630.9A
Authority: CN
Inventors: 王义真; 杜向阳; 吴明勇
Original assignee: Nanjing Aegis Information Technology Co ltd
Current assignee: Nanjing Aegis Information Technology Co ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2021-06-22
Anticipated expiration: 2040-07-21
Also published as: CN111737475A

Abstract

本发明公开了一种无监督的网络舆情垃圾长文本识别方法，其识别方法包括如下步骤：从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据；分别构建两个模型，包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型，将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中；本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本，利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性，将两者相结合来完成长文本的垃圾文本识别任务，能够在自动识别出垃圾文本信息的同时，大大降低因获取监督数据所产生的成本，可以让一个没有监督数据的系统从一开始就能够识别出垃圾文本。

Description

一种无监督的网络舆情垃圾长文本识别方法

技术领域

本发明涉及信息处理技术领域，具体为一种无监督的网络舆情垃圾长文本识别方法。

背景技术

网络舆情是指在一定的社会空间内，通过网络围绕中介性社会事件的发生、发展和变化，民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速，对社会影响巨大。随着因特网在全球范围内的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”，网络成为反映社会舆情的主要载体之一。对于网络舆情文本数据爬虫系统，不可避免地会采集到不少的垃圾文本信息，不同来源(如新闻、论坛、微博、贴吧、微信等等)的文本数据所含有的垃圾文本信息又往往有着或大或小的差异，这些信息严重影响后续对爬取的数据的利用。

现有舆情网络文本爬虫系统会实时从互联网进行数据采集，系统往往是根据实际需要，把相关网站的相关内容统一利用一定的规则进行采集。在实际中可以发现，爬虫系统总是不可避免地会采集到不少的舆情垃圾文本信息，这些信息严重影响后续对爬取数据的使用效果。通过观察总结可以发现，垃圾文本信息主要分为以下几类：标题和正文毫不相关；正文杂乱无章，上下文没有逻辑关系；正文含有大量垃圾文本字符；广告、彩票等垃圾文本信息。

目前的处理方法主要分为两类，第一类是利用传统的机器学习或者深度学习模型，在监督数据上进行训练得到的分类模型。第二类利用人工设定阈值的方式，通过无监督的方式判断文本是否是垃圾文本。对于第一类方法，一方面依赖于模型本身，另一方面依赖于监督数据。但是在实际情况中，获取大量监督数据的成本非常高昂，当没有监督数据或者监督数据较少的时候，这类模型或者方法的效果就会大打折扣甚至根本无法使用。对于第二类方法，在判断长文本是否是垃圾文本的时候，准确性往往会比较低。

发明内容

本发明的目的在于提供一种无监督的网络舆情垃圾长文本识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种无监督的网络舆情垃圾长文本识别方法，待预测的网络舆情长文本识别方法包括如下步骤：

(1)语料获取：从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据；

(2)模型训练：分别构建两个模型，包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型，将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中；

语言模型的判断流程如下：

(X1)统计语言模型；

(X2)构造语言模型；

(X3)判断文本困惑度：利用困惑度评价指标的特点，将待预测的网络舆情长文本用于判断一类垃圾文本，即文本中句子不通顺，带有杂乱字符，这类文本的困惑度高，当困惑度达到一定阈值的时候，认为其是垃圾文本；

BERT下一句预测模型的判断流程如下：

(Y1)下一句预测模型：在BERT的基础上，利用自有的语料构建训练数据，然后进行微调fine tune，即得到一个句子对分类模型，用来判断两个句子是否是上下文相关的句子；

(Y2)判断上下句不成文比例：基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例，当一个文本的这个一定比例达到阈值的时候，认为这个文本是垃圾文本；

(3)模型预测：通过语言模型输出垃圾句子占比，通过BERT下一句预测模型输出不连贯上下句占比；

(4)文本判断：将语言模型和BERT下一句预测模型两个子模型相结合，如果第一个模型判断整个长文本是垃圾文本，同时第二个模型也判断整个长文本是垃圾文本，则判断出这个长文本是垃圾文本。

优选的，所述步骤(X1)中，统计语言模型是用来计算一个句子S是正常句子的概率，形式化p(S)＝p(w₁,w₂,…,w_n),其中p(S)表示句子S的概率，w_i表示这个句子中的第i个最小单元，即字或者词。

3.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法，其特征在于：所述步骤(X1)中，假设下一个词的出现依赖它前面的一个词，则有：p(S)＝p(w₁)p(w₂|w₁)p(w₃|w₁,w₂)…p(w_n|w₁,w₂,...,w_n-1)

＝p(w₁)p(w₂|w₁)p(w₃|w₂)…p(w_n|w_n-1)，此时该模型称为bi-gram模型。

优选的，所述步骤(X1)中，假设下一个词的出现依赖它前面的两个词，则有：p(S)＝p(w₁)p(w₂|w₁)p(w₃|w₁,w₂)…p(w_n|w₁,w₂,...,w_n-1)

＝p(w₁)p(w₂|w₁)p(w₃|w₁,w₂)…p(w_n|w_n-1,w_n-2)，此时该模型称为tri-gram模型。

优选的，所述步骤(X2)中，通过计算最大似然估计构造语言模型，这是对训练数据的最佳估计，公式如下：

其中count(w_i-1,w_i)表示句子单元，w_i-1和w_i表示在语料中相邻出现的频次，count(w_i-1)表示句子单元w_i-1在语料中出现的频次。

优选的，所述步骤(X3)中，困惑度指标的公式如下：

其中PP(S)表示句子S的困惑度，N表示该句子所含最小单元数，利用链式法则，变形得到：

对于bi-gram模型来说，困惑度公式退化为：

优选的，所述步骤(X3)中，判断文本困惑度的方法包括：

S1：基于大量语料，使用上述方法训练一个语言模型Model_Language；

S2：基于训练好的语言模型Model_Language，将需要判断是否是垃圾信息的文本分句，即：text＝[sentence₁,…,sentence_n]，然后将句子集合输入到Model_Language中，得到每个句子的困惑度，即

其中PP₁,…,PP_n表示每个句子的困惑度，

表示模型的参数；

S3：设定一个困惑度阈值η，当句子的困惑度大于η时，认为这个句子是“垃圾”句子，然后计算垃圾句子的占比，当这个占比大于一定阈值γ的时候，即当

时，认为这个文本是垃圾文本，其中

优选的，所述步骤(Y1)中，构建训练数据依次遍历语料中的每个文档，选取文档中的相邻两个句子作为正例，随机选取语料中的两个句子作为负例。

优选的，所述步骤(Y1)中，微调fine tune，即把文本输入BERT后得到文本的表示，然后将这个表示输入到一个分类模型，即得到用于判断两个句子是否是相邻的上下文相关的模型。

优选的，所述步骤(Y2)中，判断上下句不成文比例的方法包括：

S1：基于自己构建的大量数据，训练下一句预测模型NextSentence；

S2：对于需要判断是否是垃圾信息的文本，分句后再构建句子对，即：pairs＝[(sentence₁,sentence₂),…,(sentence_n-1,sentence_n)]，然后将其输入到模型NextSentence中，得到每个句子对是上下文相关的概率为：[pair₁,…,pair_n-1]＝NextSentence(pairs；θ_NextSentence)，其中pair₁,…,pair_n-1表示每个句子对的是上下文相关的概率，θ_NextSentence表示模型的参数；

S3：当句子对是上下文的概率大于η时，计算句子对的占比，当这个占比大于一个设定的阈值γ，即当

时，认为这个文本是垃圾文本，其中

与现有技术相比，本发明的有益效果如下：

本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本，利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性，将两者相结合来完成长文本的垃圾文本识别任务，能够在自动识别出垃圾文本信息的同时，大大降低因获取监督数据所产生的成本，让一个没有监督数据的系统从一开始就能够识别出垃圾文本。

具体实施方式

下面将结合本发明中的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种无监督的网络舆情垃圾长文本识别方法，其特征在于：待预测的网络舆情长文本识别方法包括如下步骤：

语言模型的判断流程如下：

(X1)统计语言模型；

(X2)构造语言模型；

BERT下一句预测模型的判断流程如下：

实施例一：

一种无监督的网络舆情垃圾长文本识别方法，待预测的网络舆情长文本识别方法包括如下步骤：

语言模型的判断流程如下：

(X1)统计语言模型；

统计语言模型是用来计算一个句子S是正常句子的概率，形式化p(S)＝p(w₁,w₂,...,w_n),其中p(S)表示句子S的概率，w_i表示这个句子中的第i个最小单元，即字或者词，假设下一个词的出现依赖它前面的一个词，则有：p(S)＝p(w₁)p(w₂|w₁)p(w₃|w₁,w₂)…p(w_n|w₁,w₂,...,w_n-1)

＝p(w₁)p(w₂|w₁)p(w₃|w₁,w₂)…p(w_n|w_n-1,w_n-2)，此时该模型称为tri-gram模型；

(X2)构造语言模型；

(X3)判断文本困惑度：利用困惑度评价指标的特点，将其用于判断一类垃圾文本，即文本中句子不通顺，带有一些杂乱字符，这类文本的困惑度都会高，当困惑度达到一定阈值的时候，认为其是垃圾文本；

BERT下一句预测模型的判断流程如下：

实施例二：

语言模型的判断流程如下：

(X1)统计语言模型；

统计语言模型是用来计算一个句子S是正常句子的概率，形式化p(S)＝p(w₁,w₂,...,w_n),其中p(S)表示句子S的概率，w_i表示这个句子中的第i个最小单元(字或者词)，假设下一个词的出现依赖它前面的一个词，则有：p(S)＝p(w₁)p(w₂|w₁)p(w₃|w₁,w₂)…p(w_n|w₁,w₂,...,w_n-1)

(X2)构造语言模型；

通过计算最大似然估计构造语言模型，这是对训练数据的最佳估计，公式如下：

其中count(w_i-1,w_i)表示句子单元，w_i-1和w_i表示在语料中相邻出现的频次，count(w_i-1)表示句子单元w_i-1在语料中出现的频次；

(X3)判断文本困惑度：利用困惑度评价指标的特点，将其用于判断一类垃圾文本，即文本中句子不通顺，带有一些杂乱字符，这类文本的困惑度都会高，当困惑度达到一定阈值的时候，认为其非常能是垃圾文本；

困惑度指标的公式如下：

对于bi-gram模型来说，困惑度公式退化为：

判断文本困惑度的方法包括：

其中PP₁,…,PP_n表示每个句子的困惑度，

表示模型的参数；

时，认为这个文本是垃圾文本，其中

BERT下一句预测模型的判断流程如下：

(Y2)判断上下句不成文比例：基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例，当一个文本的这个一定比例达到阈值的时候，认为这个文本极有能是垃圾文本；

实施例三：

语言模型的判断流程如下：

(X1)统计语言模型；

(X2)构造语言模型；

困惑度指标的公式如下：

对于bi-gram模型来说，困惑度公式退化为：

判断文本困惑度的方法包括：

其中PP₁,…,PP_n表示每个句子的困惑度，

表示模型的参数；

时，认为这个文本是垃圾文本，其中

BERT下一句预测模型的判断流程如下：

(Y1)下一句预测模型：在BERT的基础上，利用自有的语料构建训练数据，然后进行微调fine tune，即得到一个句子对分类模型，用来判断两个句子是否是上下文相关的句子，构建训练数据依次遍历语料中的每个文档，选取文档中的相邻两个句子作为正例，随机选取语料中的两个句子作为负例，微调fine tune，即把文本输入BERT后得到文本的表示，然后将这个表示输入到一个分类模型，即得到用于判断两个句子是否是相邻的上下文相关的模型；

判断上下句不成文比例的方法包括：

时，认为这个文本是垃圾文本，其中

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。