CN111737475B - 一种无监督的网络舆情垃圾长文本识别方法 - Google Patents
一种无监督的网络舆情垃圾长文本识别方法 Download PDFInfo
- Publication number
- CN111737475B CN111737475B CN202010702630.9A CN202010702630A CN111737475B CN 111737475 B CN111737475 B CN 111737475B CN 202010702630 A CN202010702630 A CN 202010702630A CN 111737475 B CN111737475 B CN 111737475B
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- model
- public opinion
- junk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Abstract
本发明公开了一种无监督的网络舆情垃圾长文本识别方法,其识别方法包括如下步骤:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本,利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性,将两者相结合来完成长文本的垃圾文本识别任务,能够在自动识别出垃圾文本信息的同时,大大降低因获取监督数据所产生的成本,可以让一个没有监督数据的系统从一开始就能够识别出垃圾文本。
Description
技术领域
本发明涉及信息处理技术领域,具体为一种无监督的网络舆情垃圾长文本识别方法。
背景技术
网络舆情是指在一定的社会空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大。随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。对于网络舆情文本数据爬虫系统,不可避免地会采集到不少的垃圾文本信息,不同来源(如新闻、论坛、微博、贴吧、微信等等)的文本数据所含有的垃圾文本信息又往往有着或大或小的差异,这些信息严重影响后续对爬取的数据的利用。
现有舆情网络文本爬虫系统会实时从互联网进行数据采集,系统往往是根据实际需要,把相关网站的相关内容统一利用一定的规则进行采集。在实际中可以发现,爬虫系统总是不可避免地会采集到不少的舆情垃圾文本信息,这些信息严重影响后续对爬取数据的使用效果。通过观察总结可以发现,垃圾文本信息主要分为以下几类:标题和正文毫不相关;正文杂乱无章,上下文没有逻辑关系;正文含有大量垃圾文本字符;广告、彩票等垃圾文本信息。
目前的处理方法主要分为两类,第一类是利用传统的机器学习或者深度学习模型,在监督数据上进行训练得到的分类模型。第二类利用人工设定阈值的方式,通过无监督的方式判断文本是否是垃圾文本。对于第一类方法,一方面依赖于模型本身,另一方面依赖于监督数据。但是在实际情况中,获取大量监督数据的成本非常高昂,当没有监督数据或者监督数据较少的时候,这类模型或者方法的效果就会大打折扣甚至根本无法使用。对于第二类方法,在判断长文本是否是垃圾文本的时候,准确性往往会比较低。
发明内容
本发明的目的在于提供一种无监督的网络舆情垃圾长文本识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将待预测的网络舆情长文本用于判断一类垃圾文本,即文本中句子不通顺,带有杂乱字符,这类文本的困惑度高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
优选的,所述步骤(X1)中,统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,…,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元,即字或者词。
3.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X1)中,假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型。
优选的,所述步骤(X1)中,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型。
优选的,所述步骤(X2)中,通过计算最大似然估计构造语言模型,这是对训练数据的最佳估计,公式如下:其中count(wi-1,wi)表示句子单元,wi-1和wi表示在语料中相邻出现的频次,count(wi-1)表示句子单元wi-1在语料中出现的频次。
优选的,所述步骤(X3)中,判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage;
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
优选的,所述步骤(Y1)中,构建训练数据依次遍历语料中的每个文档,选取文档中的相邻两个句子作为正例,随机选取语料中的两个句子作为负例。
优选的,所述步骤(Y1)中,微调fine tune,即把文本输入BERT后得到文本的表示,然后将这个表示输入到一个分类模型,即得到用于判断两个句子是否是相邻的上下文相关的模型。
优选的,所述步骤(Y2)中,判断上下句不成文比例的方法包括:
S1:基于自己构建的大量数据,训练下一句预测模型NextSentence;
S2:对于需要判断是否是垃圾信息的文本,分句后再构建句子对,即:pairs=[(sentence1,sentence2),…,(sentencen-1,sentencen)],然后将其输入到模型NextSentence中,得到每个句子对是上下文相关的概率为:[pair1,…,pairn-1]=NextSentence(pairs;θNextSentence),其中pair1,…,pairn-1表示每个句子对的是上下文相关的概率,θNextSentence表示模型的参数;
与现有技术相比,本发明的有益效果如下:
本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本,利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性,将两者相结合来完成长文本的垃圾文本识别任务,能够在自动识别出垃圾文本信息的同时,大大降低因获取监督数据所产生的成本,让一个没有监督数据的系统从一开始就能够识别出垃圾文本。
具体实施方式
下面将结合本发明中的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种无监督的网络舆情垃圾长文本识别方法,其特征在于:待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将待预测的网络舆情长文本用于判断一类垃圾文本,即文本中句子不通顺,带有杂乱字符,这类文本的困惑度高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
实施例一:
一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,...,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元,即字或者词,假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将其用于判断一类垃圾文本,即文本中句子不通顺,带有一些杂乱字符,这类文本的困惑度都会高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
实施例二:
一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,...,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元(字或者词),假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型;
(X2)构造语言模型;
通过计算最大似然估计构造语言模型,这是对训练数据的最佳估计,公式如下:其中count(wi-1,wi)表示句子单元,wi-1和wi表示在语料中相邻出现的频次,count(wi-1)表示句子单元wi-1在语料中出现的频次;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将其用于判断一类垃圾文本,即文本中句子不通顺,带有一些杂乱字符,这类文本的困惑度都会高,当困惑度达到一定阈值的时候,认为其非常能是垃圾文本;
判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage;
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本极有能是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
实施例三:
一种无监督的网络舆情垃圾长文本识别方法,待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,...,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元(字或者词),假设下一个词的出现依赖它前面的一个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1),此时该模型称为bi-gram模型,假设下一个词的出现依赖它前面的两个词,则有:p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|wn-1,wn-2),此时该模型称为tri-gram模型;
(X2)构造语言模型;
通过计算最大似然估计构造语言模型,这是对训练数据的最佳估计,公式如下:其中count(wi-1,wi)表示句子单元,wi-1和wi表示在语料中相邻出现的频次,count(wi-1)表示句子单元wi-1在语料中出现的频次;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将其用于判断一类垃圾文本,即文本中句子不通顺,带有一些杂乱字符,这类文本的困惑度都会高,当困惑度达到一定阈值的时候,认为其非常能是垃圾文本;
判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage;
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子,构建训练数据依次遍历语料中的每个文档,选取文档中的相邻两个句子作为正例,随机选取语料中的两个句子作为负例,微调fine tune,即把文本输入BERT后得到文本的表示,然后将这个表示输入到一个分类模型,即得到用于判断两个句子是否是相邻的上下文相关的模型;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本极有能是垃圾文本;
判断上下句不成文比例的方法包括:
S1:基于自己构建的大量数据,训练下一句预测模型NextSentence;
S2:对于需要判断是否是垃圾信息的文本,分句后再构建句子对,即:pairs=[(sentence1,sentence2),…,(sentencen-1,sentencen)],然后将其输入到模型NextSentence中,得到每个句子对是上下文相关的概率为:[pair1,…,pairn-1]=NextSentence(pairs;θNextSentence),其中pair1,…,pairn-1表示每个句子对的是上下文相关的概率,θNextSentence表示模型的参数;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
本发明通过利用语言模型困惑度指标评价句子内部是否是垃圾文本,利用BERT下一句预测模型来评价文本的句子与句子之间的上下文连贯性,将两者相结合来完成长文本的垃圾文本识别任务,能够在自动识别出垃圾文本信息的同时,大大降低因获取监督数据所产生的成本,让一个没有监督数据的系统从一开始就能够识别出垃圾文本。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种无监督的网络舆情垃圾长文本识别方法,其特征在于:待预测的网络舆情长文本识别方法包括如下步骤:
(1)语料获取:从现有的内部系统获取相应带有标记的舆情垃圾文本和正常文本的数据;
(2)模型训练:分别构建两个模型,包括基于网络舆情文本训练的语言模型和基于网络舆情文本的BERT下一句预测模型,将待预测的网络舆情长文本分别输入到上述语言模型和BERT下一句预测模型中;
语言模型的判断流程如下:
(X1)统计语言模型;
(X2)构造语言模型;
(X3)判断文本困惑度:利用困惑度评价指标的特点,将待预测的网络舆情长文本用于判断一类垃圾文本,即文本中句子不通顺,带有杂乱字符,这类文本的困惑度高,当困惑度达到一定阈值的时候,认为其是垃圾文本;
BERT下一句预测模型的判断流程如下:
(Y1)下一句预测模型:在BERT的基础上,利用自有的语料构建训练数据,然后进行微调fine tune,即得到一个句子对分类模型,用来判断两个句子是否是上下文相关的句子;
(Y2)判断上下句不成文比例:基于BERT训练的下一句预测模型来判断文本中这种上下句不成上下文关系的句子对的比例,当一个文本的这个一定比例达到阈值的时候,认为这个文本是垃圾文本;
(3)模型预测:通过语言模型输出垃圾句子占比,通过BERT下一句预测模型输出不连贯上下句占比;
(4)文本判断:将语言模型和BERT下一句预测模型两个子模型相结合,如果第一个模型判断整个长文本是垃圾文本,同时第二个模型也判断整个长文本是垃圾文本,则判断出这个长文本是垃圾文本。
2.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X1)中,统计语言模型是用来计算一个句子S是正常句子的概率,形式化p(S)=p(w1,w2,…,wn),其中p(S)表示句子S的概率,wi表示这个句子中的第i个最小单元,即字或者词。
7.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(X3)中,判断文本困惑度的方法包括:
S1:基于大量语料,使用上述方法训练一个语言模型ModelLanguage;
S2:基于训练好的语言模型ModelLanguage,将需要判断是否是垃圾信息的文本分句,即:text=[sentence1,…,sentencen],然后将句子集合输入到ModelLanguage中,得到每个句子的困惑度,即
8.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(Y1)中,构建训练数据依次遍历语料中的每个文档,选取文档中的相邻两个句子作为正例,随机选取语料中的两个句子作为负例。
9.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(Y1)中,微调fine tune,即把文本输入BERT后得到文本的表示,然后将这个表示输入到一个分类模型,即得到用于判断两个句子是否是相邻的上下文相关的模型。
10.根据权利要求1所述的一种无监督的网络舆情垃圾长文本识别方法,其特征在于:所述步骤(Y2)中,判断上下句不成文比例的方法包括:
S1:基于自己构建的大量数据,训练下一句预测模型NextSentence;
S2:对于需要判断是否是垃圾信息的文本,分句后再构建句子对,即:pairs=[(sentence1,sentence2),…,(sentencen-1,sentencen)],然后将其输入到模型NextSentence中,得到每个句子对是上下文相关的概率为:[pair1,…,pairn-1]=NextSentence(pairs;θNextSentence),其中pair1,…,pairn-1表示每个句子对的是上下文相关的概率,θNextSentence表示模型的参数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010702630.9A CN111737475B (zh) | 2020-07-21 | 2020-07-21 | 一种无监督的网络舆情垃圾长文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010702630.9A CN111737475B (zh) | 2020-07-21 | 2020-07-21 | 一种无监督的网络舆情垃圾长文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737475A CN111737475A (zh) | 2020-10-02 |
CN111737475B true CN111737475B (zh) | 2021-06-22 |
Family
ID=72656049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010702630.9A Active CN111737475B (zh) | 2020-07-21 | 2020-07-21 | 一种无监督的网络舆情垃圾长文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737475B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298012B (zh) * | 2021-12-31 | 2022-10-25 | 中国电子科技集团公司电子科学研究院 | 生成长文本科技情报模型的优化方法 |
CN116384388B (zh) * | 2023-02-14 | 2024-02-02 | 上海熙瑾信息技术有限公司 | 反向识别ai智能写作的方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012142941A (ja) * | 2010-12-28 | 2012-07-26 | Silicon Works Co Ltd | ビットエラー率テスト機能が追加されたタイミングコントローラとソースドライバの間のデータ伝送方法及び装置 |
CN110442717A (zh) * | 2019-08-08 | 2019-11-12 | 深巨科技(北京)有限公司 | 一种适应性情感分析系统及其方法 |
CN110532557A (zh) * | 2019-08-29 | 2019-12-03 | 北京计算机技术及应用研究所 | 一种无监督的文本相似度计算方法 |
CN111177376A (zh) * | 2019-12-17 | 2020-05-19 | 东华大学 | 一种基于bert与cnn层级连接的中文文本分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502643A (zh) * | 2019-08-28 | 2019-11-26 | 南京璇玑信息技术有限公司 | 一种基于bert模型的预测下一句模型自动构建技术 |
CN111079410B (zh) * | 2019-12-23 | 2023-12-22 | 五八有限公司 | 文本识别方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-21 CN CN202010702630.9A patent/CN111737475B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012142941A (ja) * | 2010-12-28 | 2012-07-26 | Silicon Works Co Ltd | ビットエラー率テスト機能が追加されたタイミングコントローラとソースドライバの間のデータ伝送方法及び装置 |
CN110442717A (zh) * | 2019-08-08 | 2019-11-12 | 深巨科技(北京)有限公司 | 一种适应性情感分析系统及其方法 |
CN110532557A (zh) * | 2019-08-29 | 2019-12-03 | 北京计算机技术及应用研究所 | 一种无监督的文本相似度计算方法 |
CN111177376A (zh) * | 2019-12-17 | 2020-05-19 | 东华大学 | 一种基于bert与cnn层级连接的中文文本分类方法 |
Non-Patent Citations (2)
Title |
---|
The Automatic Text Classification Method Based on BERT and Feature Union;Wenting Li等;《2019 IEEE 25th International Conference on Parallel and Distributed Systems (ICPADS)》;20200130;第1-4页 * |
面向微博新媒体的公共事件及其社会舆论分析技术研究;邓镭;《中国博士学位论文全文数据库 信息科技辑》;20160115(第1期);第I139-27页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737475A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
US7873584B2 (en) | Method and system for classifying users of a computer network | |
CN111008274B (zh) | 特征扩展卷积神经网络的案件微博观点句识别构建方法 | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN103034626A (zh) | 情感分析系统及方法 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111737475B (zh) | 一种无监督的网络舆情垃圾长文本识别方法 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
Perry et al. | Scaling text with the class affinity model | |
CN111460158A (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
Lubis et al. | spelling checking with deep learning model in analysis of Tweet data for word classification process | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
GB2572320A (en) | Hate speech detection system for online media content | |
CN112417088A (zh) | 一种社群内文本价值的评估方法及装置 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN112507115B (zh) | 一种弹幕文本中情感词的分类方法、装置及存储介质 | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
CN114461760A (zh) | 案件事实与法条匹配的方法及装置 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN113688633A (zh) | 一种提纲确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |