CN114443829A - 一种基于关键句组、新闻原文的新闻评论过滤方法及系统 - Google Patents
一种基于关键句组、新闻原文的新闻评论过滤方法及系统 Download PDFInfo
- Publication number
- CN114443829A CN114443829A CN202111616647.3A CN202111616647A CN114443829A CN 114443829 A CN114443829 A CN 114443829A CN 202111616647 A CN202111616647 A CN 202111616647A CN 114443829 A CN114443829 A CN 114443829A
- Authority
- CN
- China
- Prior art keywords
- news
- key sentence
- sentence group
- comments
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008451 emotion Effects 0.000 claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 claims abstract description 23
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012552 review Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于关键句组、新闻原文的新闻评论过滤方法及系统,包括:获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。本发明对新闻原文对应的关键句组进行依次选取并生成多个新闻评论,丰富了新闻评论的多样性,并且对生成的新闻评论进行情感分析和语义匹配,以过滤与新闻原文情感和语义不匹配的新闻评论。
Description
技术领域
本发明涉及信息交互技术领域,尤其涉及一种基于关键句组、新闻原文的新闻评论过滤方法及系统。
背景技术
自然语言生成是将非文本数据通过计算机处理生成文本数据的过程。文本自动生成是以文本、图像、数据等为输入,通过计算机处理输出文本的过程,自然语言生成仅包含数据到文本的生成过程。例如,问题生成、文本摘要生成、评论生成等。因此,文本生成技术必然会给新闻媒体提供强有力的帮助。随着互联网和新闻行业的发展,各式各样的新闻发布在网络中,海量的新闻评论随之产生。新闻评论供了广泛的信息和丰富的个人观点,用户不仅可以发表自己的观点,还能阅读别人的观点,这能吸引用户的注意力,鼓励用户之间的互动。
目前,自动评论生成任务是文本生成中的常见任务,它与文本摘要任务有着相似的目标,即根据长文本生成与之相关的短文本,但自动评论生成任务不要求生成概括,而是生成和长文本有一定的相关性,同时能从长文本的语义中发散出一些新的语义信息的评论更符合自动评论生成任务需要的结果。应用较广泛的有基于Pointer-Generator Network(指针生成网络)的摘要生成模型。它结合了Seq2Seq模型的生成能力和Pointer Network模型的复制单词能力,解决了生成的文本难以准确复述原文的事实细节、无法处理原文中的未登录词(OOV)的问题。同时,还提出一种覆盖机制,解决了生成的摘要中存在重复的片段的问题。此外,Attention机制在文本生成领域中也被广泛应用,现有的模型是基于深度双向Transformer编码器的预训练模型(BERT模型)。它是在基于所有层的左、右语境来预训练深度双向表征,所以得到的特征向量具有上下文的信息,更好的理解文本。结合BeamSearch算法对候选文本进行解码分析,得到生成的文本。但是,由于BERT预训练任务中的特殊[MASK]标记在实际预测中不会出现,造成了预训练和微调之间的不匹配,影响模型的性能。并且,BERT在分词时切成更细粒度的WordPiece,解决OOV问题,与此同时,在对[MASK]部分进行预测时也可能只[MASK]标记了词的一部分,也影响模型的性能。
将上述两种经典模型应用于新闻评论生成任务中,对于基于指针生成网络的摘要生成模型,它虽然能很好的解决生成的评论表达意思模糊,单词重复的问题,但是仍然没有去聚焦源文本的核心内容,反而概括了一些不太重要的信息,甚至出现语义与新闻内容无关的情况。并且,语句有些也无法表达通顺。对于BERT模型,它虽然能很好的把握新闻原文的语义,理解新闻的意思,但是它并不能很好的去生成文本,因为它是由多个双向的编码器组成,导致生成的新闻评论出现单词重复的情况。并且也有生成的语句不通顺的情况。除此之外,上述的模型也无法做到生成的新闻评论情感与原文相符合,而且也无法做到生成的新闻评论具有多样性。
发明内容
本发明提供了一种基于新闻原文的新闻评论过滤方法及其装置,以解决新闻评论与原文情感、语义不匹配的技术问题。
为了解决上述技术问题,本发明实施例提供了一种基于关键句组的新闻评论过滤方法,包括:
获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
进一步地,所述获取新闻原文对应的一个关键句组,具体为:
对所述新闻原文进行预处理,得到向量化的文本;
通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组;
根据选取顺序,从所述多个关键句组中,依次提取一个关键句组。
进一步地,所述根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论,具体为:
根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵;
根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
进一步,所述根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论,具体为:
根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
进一步地,所述对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,具体为:
根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论。
为了解决相同的技术问题,本发明还提供了一种基于新闻原文的新闻评论过滤方法,包括:
获取新闻原文,并提取所述新闻原文中的多个关键句组;
根据以上所述的一种基于关键句组的新闻评论过滤方法,依次对所述多个关键句组进行新闻评论过滤,获得每个关键句组对应的新闻评论;
将所有所述关键句组对应的新闻评论,作为所述新闻原文的新闻评论,完成所述新闻原文的新闻评论过滤。
为了解决相同的技术问题,本发明还提供了一种基于关键句组的新闻评论过滤系统,包括:
新闻评论生成模块,用于获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
情感分析模块,用于根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
语义匹配模块,用于对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
进一步地,所述新闻评论生成模块,还包括:
预处理单元,用于对所述新闻原文进行预处理,得到向量化的文本;
划分单元,用于通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
排序拼接单元,用于将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
选取单元,用于通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组,并根据选取顺序,从所述多个关键句组中,依次提取一个关键句组;
新闻评论生成单元,用于根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵,并根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
进一步地,所述情感分析模块,还包括:
情感分析单元,用于根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
第一过滤单元,用于将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
进一步地,所述语义匹配模块,还包括:
特征向量获取单元,用于根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
第二过滤单元,用于根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
相比于现有技术,本发明实施例具有如下有益效果:
选取新闻原文对应的关键句组,利用GPT-2模型生成关键句组对应的多个新闻评论,避免读取到与核心意思无关的文本,并通过RoBERTa模型对关键句组和对应的多个新闻评论进行情感分析,以过滤与新闻原文情感不匹配的新闻评论。同时,对通过情感分析的新闻评论进行语义匹配,解决生成的新闻评论跟新闻原文意思不贴切的问题。
进一步地,当关键句组对应的多个新闻评论的情感分析和语义匹配完成之后,重新根据新闻原文进行关键句组的选取,迭代完成所有新闻评论的生成与过滤,在提升新闻评论的聚焦性的同时,还丰富了新闻评论的多样性。
附图说明
图1:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的流程示意图;
图2:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的滑动窗口算法的示意图;
图3:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的GPT-2模型的结构示意图;
图4:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的多头自注意力机制的结构示意图;
图5:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的多层双向Transformer编码器的结构示意图;
图6:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的BERT模型的结构示意图;
图7:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的RoBERTa模型和Sentence-BERT模型的结构示意图;
图8:为本发明提供的一种基于新闻原文的新闻评论过滤方法的一种实施例的流程示意图;
图9:为本发明提供的一种基于关键句组的新闻评论过滤系统的结构示意图;
图10:为本发明提供的一种基于关键句组的新闻评论过滤系统的新闻评论生成模块的结构示意图;
图11:为本发明提供的一种基于关键句组的新闻评论过滤系统的情感分析模块的结构示意图;
图12:为本发明提供的一种基于关键句组的新闻评论过滤系统的语义匹配模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参照图1,为本发明实施例提供的一种基于关键句组的新闻评论过滤方法,包括:
S1:获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到关键句组对应的多个第一新闻评论;其中,一个关键句组对应多个第一新闻评论。
S11:对新闻原文进行预处理,得到向量化的文本。
在本实施例中,具体地,对新闻原文进行的预处理包括:
①中英文处理:对于新闻原文,若是中文则在字与字之间添加空格,若是英文和数字则不做处理;②空格分词:按空格对中文和英文进行分词,但如果是英文还要通过Wordpiece将单词划分成一组有限的公共子词单元;③添加标记:添加特殊token,如[CLS]和[SEP],得到输入形式“[CLS]新闻原文[SEP]”;④词映射ID:根据词表,将所有的词映射成对应的词表索引的ID;⑤截断/填充处理:如果新闻原文中的句子长度大于指定的长度(512),则需要截断到指定的长度,如果句子长度不够指定的长度(512),则填充到指定的长度,保证输入的一致性;⑥向量化:对句子进行向量化。
经过上述预处理之后,得到向量化的文本。
S12:通过TextRank算法,将向量化的文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个句子对应一个重要度。
在本实施例中,具体地,把向量化的文本按照文本中的完整句子进行划分,得到对应的句子集T,其中句子集T包含n个句子。
T=[S1,S2,…Sn] (1)
按照式(3),计算相邻句子之间的相似度,其中默认所有的句子都相邻。
其中,wk表示候选关键词,|Si|表示句子Si的词的总数量,|Sj|表示句子Sj的词的总数量。
构建图G=(V,E),其中V为句子集T,E为式(3)计算所得的句子相似度,从而得到一个无向有权图。
根据式(4),迭代传播权重计算n个句子的重要值。
其中,wji表示句子Si和句子Sj之间的相似度,wjk表示句子Sj和句子Sk之间的相似度,Vi表示节点Vi(即句子Si),Vj表示节点Vj(即句子Sj),Vk表示节点Vk(即句子Sk),d表示阻尼系数,取值范围为[0,1],In(Vi)表示指向Vi的集合,Out(Vj)表示Vj指出的集合。
S13:将重要度按从大到小的顺序排序,获取排序前M个重要度,并按照新闻原文的顺序,将前M个重要度对应的M个句子拼接起来。
在本实施例中,M=6,其中前6个重要度对应的6个句子作为新闻原文的关键句。
S14:通过滑动窗口算法,依次对拼接后的M个句子进行选取,得到新闻原文对应的多个关键句组。
在本实施例中,具体地,请参照图2,通过滑动窗口机制对拼接后的6个关键句进行关键句组的选取,从而让机器模拟人的阅读习惯去“读”关键句。滑动窗口这样选取,更有利于聚焦滑动窗口选取的内容,从而生成与之相关的新闻评论。同时,也有利于多方面生成新闻评论。滑动窗口算法(Sliding WindowAlgorithm),是通过使用规定好大小的子窗口,在遍历整个列表的同时进行特定操作,以达到降低了循环的嵌套深度。在本文中,设定的滑动窗口大小为2,即每一次只选取2个关键句,作为关键句组,在关键句列表中进行滑窗操作,选取出的关键句组输入到后面的模型中。
S15:根据选取顺序,从多个关键句组中,依次提取一个关键句组。
S16:根据关键句组,计算得到对应的词嵌入矩阵和位置矩阵。
在本实施例中,具体地,根据式(5),利用关键句组计算得到的GPT-2模型的输入X为:
X=wte+wpe (5)
S17:根据词嵌入矩阵和位置矩阵,结合GPT-2模型的层归一化处理和解码器模块,计算得到关键句组对应的多个第一新闻评论。
在本实施例中,请参照图3,GPT-2模型由N(本实施例使用小模型,故N=12)个解码器模块组成,每个解码器模块主要由两个部分组成,一部分是带掩码的多头自注意力层,请参照图4,多头自注意力机制不仅扩展了模型关注不同位置的能力,还增强了注意力机制对句子内部词与词之间的表达能力。掩码则可以在自注意力计算的时候屏蔽了来自当前计算位置右边所有单词的信息,防止干扰自注意力的计算。另一部分是前馈网络层,强化表征能力。
在本实施例中,具体地,把X输入到层归一化后,再进行带掩码的自注意力计算。根据式(6)、(7)、(8)、(9)、(10)可知,它是Query向量和Key向量的转置相乘表示输入的字向量在句子中各个字向量的关注度,再按位乘以Mask矩阵遮挡住每一个单词之后的信息,从而防止对未来的单词产生依赖性。最后残差连接相加得到输出Z,防止梯度消失。
Z=X+MutiHead(Q,K,V) (6)
MutiHead(Q,K,V)=Concat(head1,head2,…,headh)WO (7)
Q,K,V=LayerNorm(X)WQ,LayerNorm(X)WK,LayerNorm(X)WV (8)
headi=Attention(QWi Q,KWi K,VWi V) (9)
其中,WO是附加权重矩阵,能使多头拼接的结果压缩成符合前馈网络层输入的维度;Q、K、V表示经过层归一化的输入的Query,Key,Value向量,WQ、WK、WV是它们的权重矩阵,而Wi Q、Wi K、Wi V是每个头映射的权重矩阵;Mask是掩码矩阵,是一个下三角矩阵;dk是Q、K向量的维度。
根据式(11),把Z输入到层归一化后,得到的结果再经过前馈网络层,它是由两个全连接层组成,再通过激活函数的方式,来强化特征的表达能力。最后残差连接相加得到解码器模块的输出FFN(Z)。
FFN(Z)=max(0,LayerNorm(Z)W1+b1)W2+b2 (11)
其中,W1、b1、W2、b2是全连接层的权重参数。
最后,根据式(12),解码器模块的输出FFN(Z)再经过层归一化,得到GPT-2模型的输出output。
output=LayerNorm(FFN(Z)) (12)
S2:根据RoBERTa模型,对关键句组以及对应的第一新闻评论进行情感分析,得到关键句组对应的第二新闻评论。
S21:根据RoBERTa模型,分别计算关键句组的第一情感分数,以及每一个第一新闻评论的第二情感分数。
在本实施例中,将GPT-2模型输出的多个第一新闻评论分别与对应的关键句组作为RoBERTa模型的输入,经过BPE处理方式得到词序列,然后得到词向量矩阵(TE)、句向量矩阵(SE)、位置向量矩阵(PE)。三个向量矩阵叠加后,得到最终的词嵌入矩阵,表示为:
content=TEcontent+SEcontent+PEcontent (13)
comment=TEcomment+SEcomment+PEcomment (14)
经过多层双向Transformer编码器后,请参照图5,分别得到关键句组的第一情感分数scorecontent和对应的每一个第一新闻评论的第二情感分数scorecomment,表示为:
scorecontent=RoBERTa(content) (15)
scorecomment=RoBERTa(comment) (16)
其中,score表示RoBERTa模型最后一层隐藏层的输出向量。
S22:将第二情感分数与第一情感分数相同的所有第一新闻评论,作为关键句组对应的第二新闻评论。
在本实施例中,具体地,匹配关键句的第一情感分数与第一新闻评论的第二情感分数是否相同,若是则保留该第一新闻评论,否则丢弃,并将第二情感分数与第一情感分数相同的所有第一新闻评论,作为关键句组对应的第二新闻评论。
S3:对关键句组以及对应的第二新闻评论进行语义匹配,得到关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
S31:根据Sentence-BERT模型,获取关键句组的第一特征向量和对应的第二新闻评论的第二特征向量。
在本实施例中,具体地,将经过情感分析过滤后的新闻评论与对应的关键句组输入到Sentence-BERT模型中。首先,取BERT模型中的[CLS]位置输出的向量作为关键句组的特征向量,其中,BERT模型的结构请参照图6。
S32:根据第一特征向量和第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有第二新闻评论,作为关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
在本实施例中,具体地,根据关键句组的第一特征向量和对应的第二新闻评论的第二特征向量,经过平均池化层,进行余弦相似度的计算。表示为:
similarity=cosine_sim(u,v) (17)
其中,u表示关键句的特征向量,v表示新闻评论的特征向量。
最后,若余弦相似度的值大于预设的阈值则保留该第二新闻评论,作为关键句组对应的第三新闻评论,否则丢弃。
在本实施例中,RoBERTa模型是BERT模型的强化版本,其模型结构与BERT一致,但在三个方面做了调整。其一是训练时间更长,批次更大,还使用BPE处理数据,增长了词表大小。其二是动态调整Masking机制,使得每轮的Mask的情况都不同,更方便和节省内存。其三是移除了NSP部分。而Sentence-BERT也是解决BERT模型的不足,通过孪生网络模型的框架,输入到参数共享的BERT模型,得到句子表征向量,然后用于余弦相似度计算进行语义匹配。参数的减少让Sentence-BERT模型的速度上升,对于工业界很有实用价值。RoBERTa模型和Sentence-BERT模型的具体结构请参照图7。
在本实施例中,具体地,GPT-2模型是在BERT模型的基础上,通过训练集训练获得的;其中,训练集包括多个初始新闻原文和对应的多个初始新闻评论,并在利用训练集对模型进行训练之前,对训练集进行预处理,预处理包括:①HTML处理:去除HTML标签的影响;②去除无意义的长数字串;③特殊字符处理:对\u、\n、 等特殊字符进行过滤;④去除空新闻、空评论;⑤过滤短新闻:过滤掉新闻原文长度小于20的数据,减少噪声;⑥中英文处理:对于新闻原文,若是中文则在字与字之间添加空格,若是英文和数字则不做处理;⑦空格分词:按空格对中文和英文进行分词,但如果是英文还要通过Wordpiece将单词划分成一组有限的公共子词单元;⑧拼接新闻、评论:添加特殊token,如[CLS]和[SEP],并拼接新闻原文和新闻评论,得到输入形式“[CLS]新闻原文[SEP]新闻评论[SEP]”;⑨词映射ID:根据词表,将所有的词映射成对应的词表索引的ID;⑩截断/填充处理:如果新闻原文中的句子长度大于指定的长度(512),则需要截断到指定的长度,如果句子长度不够指定的长度(512),则填充到指定的长度,保证输入的一致性;向量化:对句子进行向量化。
实施例二:
请参照图8,为本发明实施例提供的一种基于新闻原文的新闻评论过滤方法,包括:
S4:获取新闻原文,并提取新闻原文中的多个关键句组。
S5:根据实施例一所述的一种基于关键句组的新闻评论过滤方法,依次对多个关键句组进行新闻评论过滤,获得每个关键句组对应的新闻评论。
S6:将所有关键句组对应的新闻评论,作为新闻原文的新闻评论,完成新闻原文的新闻评论过滤。
在本实施例中,具体地,根据实施例一所述的一种基于关键句组的新闻评论过滤方法,每一次都通过滑动窗口算法选取一个关键句组,并根据该关键句组生成对应的新闻评论,对生成的新闻评论进行情感分析与语义匹配之后,得到过滤完成后的该关键句组对应的新闻评论,然后再通过滑动窗口算法选取下一个关键句组,循环上述步骤,直至新闻原文的所有关键句组对应的新闻评论都过滤完成。
实施例三:
请参照图9,为本发明实施例提供的一种基于关键句组的新闻评论过滤系统,包括:
新闻评论生成模块1,用于获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到关键句组对应的多个第一新闻评论;其中,一个关键句组对应多个第一新闻评论。
情感分析模块2,用于根据RoBERTa模型,对关键句组以及对应的第一新闻评论进行情感分析,得到关键句组对应的第二新闻评论。
语义匹配模块3,用于对关键句组以及对应的第二新闻评论进行语义匹配,得到关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
进一步地,请参照图10,新闻评论生成模块1,还包括:
预处理单元,用于对新闻原文进行预处理,得到向量化的文本;
划分单元,用于通过TextRank算法,将文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个句子对应一个重要度;
排序拼接单元,用于将重要度按从大到小的顺序排序,获取排序前M个重要度,并按照新闻原文的顺序,将前M个重要度对应的M个句子拼接起来;
选取单元,用于通过滑动窗口算法,依次对拼接后的M个句子进行选取,得到新闻原文对应的多个关键句组,并根据选取顺序,从多个关键句组中,依次提取一个关键句组;
新闻评论生成单元,用于根据关键句组,计算得到对应的词嵌入矩阵和位置矩阵,并根据词嵌入矩阵和位置矩阵,结合GPT-2模型的层归一化处理和解码器模块,计算得到关键句组对应的多个第一新闻评论。
进一步地,请参照图11,情感分析模块2,还包括:
情感分析单元,用于根据RoBERTa模型,分别计算关键句组的第一情感分数,以及每一个第一新闻评论的第二情感分数;
第一过滤单元,用于将第二情感分数与第一情感分数相同的所有第一新闻评论,作为关键句组对应的第二新闻评论。
进一步地,请参照图12,所述语义匹配模块3,还包括:
特征向量获取单元,用于根据Sentence-BERT模型,获取第一关键句的第一特征向量和对应的第二新闻评论的第二特征向量;
第二过滤单元,用于根据第一特征向量和第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有第二新闻评论,作为关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
相比于现有技术,本发明的所有实施例具有如下有益效果:
选取新闻原文对应的关键句组,利用GPT-2模型生成关键句组对应的多个新闻评论,避免读取到与核心意思无关的文本,并通过RoBERTa模型对关键句组和对应的多个新闻评论进行情感分析,以过滤与新闻原文情感不匹配的新闻评论。同时,对通过情感分析的新闻评论进行语义匹配,解决生成的新闻评论跟新闻原文意思不贴切的问题。
进一步地,当关键句组对应的多个新闻评论的情感分析和语义匹配完成之后,重新根据新闻原文进行关键句组的选取,迭代完成所有新闻评论的生成与过滤,在提升新闻评论的聚焦性的同时,还丰富了新闻评论的多样性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于关键句组的新闻评论过滤方法,其特征在于,包括:
获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
2.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述获取新闻原文对应的一个关键句组,具体为:
对所述新闻原文进行预处理,得到向量化的文本;
通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组;
根据选取顺序,从所述多个关键句组中,依次提取一个关键句组。
3.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论,具体为:
根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵;
根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
4.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论,具体为:
根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
5.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,具体为:
根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论。
6.一种基于新闻原文的新闻评论过滤方法,其特征在于,包括:
获取新闻原文,并提取所述新闻原文中的多个关键句组;
根据权利要求1至5任意一项所述的基于关键句组的新闻评论过滤方法,依次对所述多个关键句组进行新闻评论过滤,获得每个关键句组对应的新闻评论;
将所有所述关键句组对应的新闻评论,作为所述新闻原文的新闻评论,完成所述新闻原文的新闻评论过滤。
7.一种基于关键句组的新闻评论过滤系统,其特征在于,包括:
新闻评论生成模块,用于获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
情感分析模块,用于根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
语义匹配模块,用于对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
8.如权利要求7所述的一种基于关键句组的新闻评论过滤系统,其特征在于,所述新闻评论生成模块,还包括:
预处理单元,用于对所述新闻原文进行预处理,得到向量化的文本;
划分单元,用于通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
排序拼接单元,用于将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
选取单元,用于通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组,并根据选取顺序,从所述多个关键句组中,依次提取一个关键句组;
新闻评论生成单元,用于根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵,并根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
9.如权利要求7所述的一种基于关键句组的新闻评论过滤系统,其特征在于,所述情感分析模块,还包括:
情感分析单元,用于根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
第一过滤单元,用于将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
10.如权利要求7所述的一种基于关键句组的新闻评论过滤系统,其特征在于,所述语义匹配模块,还包括:
特征向量获取单元,用于根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
第二过滤单元,用于根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111616647.3A CN114443829A (zh) | 2021-12-27 | 2021-12-27 | 一种基于关键句组、新闻原文的新闻评论过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111616647.3A CN114443829A (zh) | 2021-12-27 | 2021-12-27 | 一种基于关键句组、新闻原文的新闻评论过滤方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114443829A true CN114443829A (zh) | 2022-05-06 |
Family
ID=81366491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111616647.3A Pending CN114443829A (zh) | 2021-12-27 | 2021-12-27 | 一种基于关键句组、新闻原文的新闻评论过滤方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443829A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402064A (zh) * | 2023-06-09 | 2023-07-07 | 北京搜狐新媒体信息技术有限公司 | 一种评论生成方法、系统、存储介质及电子设备 |
-
2021
- 2021-12-27 CN CN202111616647.3A patent/CN114443829A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402064A (zh) * | 2023-06-09 | 2023-07-07 | 北京搜狐新媒体信息技术有限公司 | 一种评论生成方法、系统、存储介质及电子设备 |
CN116402064B (zh) * | 2023-06-09 | 2023-09-12 | 北京搜狐新媒体信息技术有限公司 | 一种评论生成方法、系统、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heinz | On the role of locality in learning stress patterns | |
CN108733653A (zh) | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 | |
Esmaeilzadeh et al. | Neural abstractive text summarization and fake news detection | |
CN111401077A (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN110633359B (zh) | 语句等价性判断方法和装置 | |
Svoboda et al. | New word analogy corpus for exploring embeddings of Czech words | |
Ramina et al. | Topic level summary generation using BERT induced Abstractive Summarization Model | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
Gao et al. | Generating natural adversarial examples with universal perturbations for text classification | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114398900A (zh) | 一种基于RoBERTa模型的长文本语义相似度计算方法 | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN114282592A (zh) | 一种基于深度学习的行业文本匹配模型方法及装置 | |
CN114443829A (zh) | 一种基于关键句组、新闻原文的新闻评论过滤方法及系统 | |
KR102418260B1 (ko) | 고객 상담 기록 분석 방법 | |
Seifossadat et al. | Stochastic Data-to-Text Generation Using Syntactic Dependency Information | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
CN115238711A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
Alissa et al. | Text simplification using transformer and BERT | |
Choi et al. | Neural attention model with keyword memory for abstractive document summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |