CN114443829A - 一种基于关键句组、新闻原文的新闻评论过滤方法及系统 - Google Patents

一种基于关键句组、新闻原文的新闻评论过滤方法及系统 Download PDF

Info

Publication number
CN114443829A
CN114443829A CN202111616647.3A CN202111616647A CN114443829A CN 114443829 A CN114443829 A CN 114443829A CN 202111616647 A CN202111616647 A CN 202111616647A CN 114443829 A CN114443829 A CN 114443829A
Authority
CN
China
Prior art keywords
news
key sentence
sentence group
comments
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111616647.3A
Other languages
English (en)
Inventor
王越超
袁炜东
陈平华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou City Polytechnic
Original Assignee
Guangzhou City Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou City Polytechnic filed Critical Guangzhou City Polytechnic
Priority to CN202111616647.3A priority Critical patent/CN114443829A/zh
Publication of CN114443829A publication Critical patent/CN114443829A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于关键句组、新闻原文的新闻评论过滤方法及系统,包括:获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。本发明对新闻原文对应的关键句组进行依次选取并生成多个新闻评论,丰富了新闻评论的多样性,并且对生成的新闻评论进行情感分析和语义匹配,以过滤与新闻原文情感和语义不匹配的新闻评论。

Description

一种基于关键句组、新闻原文的新闻评论过滤方法及系统
技术领域
本发明涉及信息交互技术领域,尤其涉及一种基于关键句组、新闻原文的新闻评论过滤方法及系统。
背景技术
自然语言生成是将非文本数据通过计算机处理生成文本数据的过程。文本自动生成是以文本、图像、数据等为输入,通过计算机处理输出文本的过程,自然语言生成仅包含数据到文本的生成过程。例如,问题生成、文本摘要生成、评论生成等。因此,文本生成技术必然会给新闻媒体提供强有力的帮助。随着互联网和新闻行业的发展,各式各样的新闻发布在网络中,海量的新闻评论随之产生。新闻评论供了广泛的信息和丰富的个人观点,用户不仅可以发表自己的观点,还能阅读别人的观点,这能吸引用户的注意力,鼓励用户之间的互动。
目前,自动评论生成任务是文本生成中的常见任务,它与文本摘要任务有着相似的目标,即根据长文本生成与之相关的短文本,但自动评论生成任务不要求生成概括,而是生成和长文本有一定的相关性,同时能从长文本的语义中发散出一些新的语义信息的评论更符合自动评论生成任务需要的结果。应用较广泛的有基于Pointer-Generator Network(指针生成网络)的摘要生成模型。它结合了Seq2Seq模型的生成能力和Pointer Network模型的复制单词能力,解决了生成的文本难以准确复述原文的事实细节、无法处理原文中的未登录词(OOV)的问题。同时,还提出一种覆盖机制,解决了生成的摘要中存在重复的片段的问题。此外,Attention机制在文本生成领域中也被广泛应用,现有的模型是基于深度双向Transformer编码器的预训练模型(BERT模型)。它是在基于所有层的左、右语境来预训练深度双向表征,所以得到的特征向量具有上下文的信息,更好的理解文本。结合BeamSearch算法对候选文本进行解码分析,得到生成的文本。但是,由于BERT预训练任务中的特殊[MASK]标记在实际预测中不会出现,造成了预训练和微调之间的不匹配,影响模型的性能。并且,BERT在分词时切成更细粒度的WordPiece,解决OOV问题,与此同时,在对[MASK]部分进行预测时也可能只[MASK]标记了词的一部分,也影响模型的性能。
将上述两种经典模型应用于新闻评论生成任务中,对于基于指针生成网络的摘要生成模型,它虽然能很好的解决生成的评论表达意思模糊,单词重复的问题,但是仍然没有去聚焦源文本的核心内容,反而概括了一些不太重要的信息,甚至出现语义与新闻内容无关的情况。并且,语句有些也无法表达通顺。对于BERT模型,它虽然能很好的把握新闻原文的语义,理解新闻的意思,但是它并不能很好的去生成文本,因为它是由多个双向的编码器组成,导致生成的新闻评论出现单词重复的情况。并且也有生成的语句不通顺的情况。除此之外,上述的模型也无法做到生成的新闻评论情感与原文相符合,而且也无法做到生成的新闻评论具有多样性。
发明内容
本发明提供了一种基于新闻原文的新闻评论过滤方法及其装置,以解决新闻评论与原文情感、语义不匹配的技术问题。
为了解决上述技术问题,本发明实施例提供了一种基于关键句组的新闻评论过滤方法,包括:
获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
进一步地,所述获取新闻原文对应的一个关键句组,具体为:
对所述新闻原文进行预处理,得到向量化的文本;
通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组;
根据选取顺序,从所述多个关键句组中,依次提取一个关键句组。
进一步地,所述根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论,具体为:
根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵;
根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
进一步,所述根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论,具体为:
根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
进一步地,所述对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,具体为:
根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论。
为了解决相同的技术问题,本发明还提供了一种基于新闻原文的新闻评论过滤方法,包括:
获取新闻原文,并提取所述新闻原文中的多个关键句组;
根据以上所述的一种基于关键句组的新闻评论过滤方法,依次对所述多个关键句组进行新闻评论过滤,获得每个关键句组对应的新闻评论;
将所有所述关键句组对应的新闻评论,作为所述新闻原文的新闻评论,完成所述新闻原文的新闻评论过滤。
为了解决相同的技术问题,本发明还提供了一种基于关键句组的新闻评论过滤系统,包括:
新闻评论生成模块,用于获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
情感分析模块,用于根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
语义匹配模块,用于对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
进一步地,所述新闻评论生成模块,还包括:
预处理单元,用于对所述新闻原文进行预处理,得到向量化的文本;
划分单元,用于通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
排序拼接单元,用于将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
选取单元,用于通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组,并根据选取顺序,从所述多个关键句组中,依次提取一个关键句组;
新闻评论生成单元,用于根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵,并根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
进一步地,所述情感分析模块,还包括:
情感分析单元,用于根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
第一过滤单元,用于将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
进一步地,所述语义匹配模块,还包括:
特征向量获取单元,用于根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
第二过滤单元,用于根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
相比于现有技术,本发明实施例具有如下有益效果:
选取新闻原文对应的关键句组,利用GPT-2模型生成关键句组对应的多个新闻评论,避免读取到与核心意思无关的文本,并通过RoBERTa模型对关键句组和对应的多个新闻评论进行情感分析,以过滤与新闻原文情感不匹配的新闻评论。同时,对通过情感分析的新闻评论进行语义匹配,解决生成的新闻评论跟新闻原文意思不贴切的问题。
进一步地,当关键句组对应的多个新闻评论的情感分析和语义匹配完成之后,重新根据新闻原文进行关键句组的选取,迭代完成所有新闻评论的生成与过滤,在提升新闻评论的聚焦性的同时,还丰富了新闻评论的多样性。
附图说明
图1:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的流程示意图;
图2:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的滑动窗口算法的示意图;
图3:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的GPT-2模型的结构示意图;
图4:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的多头自注意力机制的结构示意图;
图5:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的多层双向Transformer编码器的结构示意图;
图6:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的BERT模型的结构示意图;
图7:为本发明提供的一种基于关键句组的新闻评论过滤方法的一种实施例的RoBERTa模型和Sentence-BERT模型的结构示意图;
图8:为本发明提供的一种基于新闻原文的新闻评论过滤方法的一种实施例的流程示意图;
图9:为本发明提供的一种基于关键句组的新闻评论过滤系统的结构示意图;
图10:为本发明提供的一种基于关键句组的新闻评论过滤系统的新闻评论生成模块的结构示意图;
图11:为本发明提供的一种基于关键句组的新闻评论过滤系统的情感分析模块的结构示意图;
图12:为本发明提供的一种基于关键句组的新闻评论过滤系统的语义匹配模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参照图1,为本发明实施例提供的一种基于关键句组的新闻评论过滤方法,包括:
S1:获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到关键句组对应的多个第一新闻评论;其中,一个关键句组对应多个第一新闻评论。
S11:对新闻原文进行预处理,得到向量化的文本。
在本实施例中,具体地,对新闻原文进行的预处理包括:
①中英文处理:对于新闻原文,若是中文则在字与字之间添加空格,若是英文和数字则不做处理;②空格分词:按空格对中文和英文进行分词,但如果是英文还要通过Wordpiece将单词划分成一组有限的公共子词单元;③添加标记:添加特殊token,如[CLS]和[SEP],得到输入形式“[CLS]新闻原文[SEP]”;④词映射ID:根据词表,将所有的词映射成对应的词表索引的ID;⑤截断/填充处理:如果新闻原文中的句子长度大于指定的长度(512),则需要截断到指定的长度,如果句子长度不够指定的长度(512),则填充到指定的长度,保证输入的一致性;⑥向量化:对句子进行向量化。
经过上述预处理之后,得到向量化的文本。
S12:通过TextRank算法,将向量化的文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个句子对应一个重要度。
在本实施例中,具体地,把向量化的文本按照文本中的完整句子进行划分,得到对应的句子集T,其中句子集T包含n个句子。
T=[S1,S2,…Sn] (1)
对n个句子进行分词、去除停用词,每个句子对应m个候选关键词
Figure BDA0003435453800000071
Figure BDA0003435453800000072
其中,
Figure BDA0003435453800000073
Si表示第i个句子,Sj表示第j个句子。
按照式(3),计算相邻句子之间的相似度,其中默认所有的句子都相邻。
Figure BDA0003435453800000074
其中,wk表示候选关键词,|Si|表示句子Si的词的总数量,|Sj|表示句子Sj的词的总数量。
构建图G=(V,E),其中V为句子集T,E为式(3)计算所得的句子相似度,从而得到一个无向有权图。
根据式(4),迭代传播权重计算n个句子的重要值。
Figure BDA0003435453800000081
其中,wji表示句子Si和句子Sj之间的相似度,wjk表示句子Sj和句子Sk之间的相似度,Vi表示节点Vi(即句子Si),Vj表示节点Vj(即句子Sj),Vk表示节点Vk(即句子Sk),d表示阻尼系数,取值范围为[0,1],In(Vi)表示指向Vi的集合,Out(Vj)表示Vj指出的集合。
S13:将重要度按从大到小的顺序排序,获取排序前M个重要度,并按照新闻原文的顺序,将前M个重要度对应的M个句子拼接起来。
在本实施例中,M=6,其中前6个重要度对应的6个句子作为新闻原文的关键句。
S14:通过滑动窗口算法,依次对拼接后的M个句子进行选取,得到新闻原文对应的多个关键句组。
在本实施例中,具体地,请参照图2,通过滑动窗口机制对拼接后的6个关键句进行关键句组的选取,从而让机器模拟人的阅读习惯去“读”关键句。滑动窗口这样选取,更有利于聚焦滑动窗口选取的内容,从而生成与之相关的新闻评论。同时,也有利于多方面生成新闻评论。滑动窗口算法(Sliding WindowAlgorithm),是通过使用规定好大小的子窗口,在遍历整个列表的同时进行特定操作,以达到降低了循环的嵌套深度。在本文中,设定的滑动窗口大小为2,即每一次只选取2个关键句,作为关键句组,在关键句列表中进行滑窗操作,选取出的关键句组输入到后面的模型中。
S15:根据选取顺序,从多个关键句组中,依次提取一个关键句组。
S16:根据关键句组,计算得到对应的词嵌入矩阵和位置矩阵。
在本实施例中,具体地,根据式(5),利用关键句组计算得到的GPT-2模型的输入X为:
X=wte+wpe (5)
其中,
Figure BDA0003435453800000091
表示词嵌入矩阵,k是词表大小,demb是词向量维度,
Figure BDA0003435453800000092
表示位置矩阵,l是文本长度。
S17:根据词嵌入矩阵和位置矩阵,结合GPT-2模型的层归一化处理和解码器模块,计算得到关键句组对应的多个第一新闻评论。
在本实施例中,请参照图3,GPT-2模型由N(本实施例使用小模型,故N=12)个解码器模块组成,每个解码器模块主要由两个部分组成,一部分是带掩码的多头自注意力层,请参照图4,多头自注意力机制不仅扩展了模型关注不同位置的能力,还增强了注意力机制对句子内部词与词之间的表达能力。掩码则可以在自注意力计算的时候屏蔽了来自当前计算位置右边所有单词的信息,防止干扰自注意力的计算。另一部分是前馈网络层,强化表征能力。
在本实施例中,具体地,把X输入到层归一化后,再进行带掩码的自注意力计算。根据式(6)、(7)、(8)、(9)、(10)可知,它是Query向量和Key向量的转置相乘表示输入的字向量在句子中各个字向量的关注度,再按位乘以Mask矩阵遮挡住每一个单词之后的信息,从而防止对未来的单词产生依赖性。最后残差连接相加得到输出Z,防止梯度消失。
Z=X+MutiHead(Q,K,V) (6)
MutiHead(Q,K,V)=Concat(head1,head2,…,headh)WO (7)
Q,K,V=LayerNorm(X)WQ,LayerNorm(X)WK,LayerNorm(X)WV (8)
headi=Attention(QWi Q,KWi K,VWi V) (9)
Figure BDA0003435453800000093
其中,WO是附加权重矩阵,能使多头拼接的结果压缩成符合前馈网络层输入的维度;Q、K、V表示经过层归一化的输入的Query,Key,Value向量,WQ、WK、WV是它们的权重矩阵,而Wi Q、Wi K、Wi V是每个头映射的权重矩阵;Mask是掩码矩阵,是一个下三角矩阵;dk是Q、K向量的维度。
根据式(11),把Z输入到层归一化后,得到的结果再经过前馈网络层,它是由两个全连接层组成,再通过激活函数的方式,来强化特征的表达能力。最后残差连接相加得到解码器模块的输出FFN(Z)。
FFN(Z)=max(0,LayerNorm(Z)W1+b1)W2+b2 (11)
其中,W1、b1、W2、b2是全连接层的权重参数。
最后,根据式(12),解码器模块的输出FFN(Z)再经过层归一化,得到GPT-2模型的输出output。
output=LayerNorm(FFN(Z)) (12)
S2:根据RoBERTa模型,对关键句组以及对应的第一新闻评论进行情感分析,得到关键句组对应的第二新闻评论。
S21:根据RoBERTa模型,分别计算关键句组的第一情感分数,以及每一个第一新闻评论的第二情感分数。
在本实施例中,将GPT-2模型输出的多个第一新闻评论分别与对应的关键句组作为RoBERTa模型的输入,经过BPE处理方式得到词序列,然后得到词向量矩阵(TE)、句向量矩阵(SE)、位置向量矩阵(PE)。三个向量矩阵叠加后,得到最终的词嵌入矩阵,表示为:
content=TEcontent+SEcontent+PEcontent (13)
comment=TEcomment+SEcomment+PEcomment (14)
其中,
Figure BDA0003435453800000101
h表示隐藏层的维度。
经过多层双向Transformer编码器后,请参照图5,分别得到关键句组的第一情感分数scorecontent和对应的每一个第一新闻评论的第二情感分数scorecomment,表示为:
scorecontent=RoBERTa(content) (15)
scorecomment=RoBERTa(comment) (16)
其中,score表示RoBERTa模型最后一层隐藏层的输出向量。
S22:将第二情感分数与第一情感分数相同的所有第一新闻评论,作为关键句组对应的第二新闻评论。
在本实施例中,具体地,匹配关键句的第一情感分数与第一新闻评论的第二情感分数是否相同,若是则保留该第一新闻评论,否则丢弃,并将第二情感分数与第一情感分数相同的所有第一新闻评论,作为关键句组对应的第二新闻评论。
S3:对关键句组以及对应的第二新闻评论进行语义匹配,得到关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
S31:根据Sentence-BERT模型,获取关键句组的第一特征向量和对应的第二新闻评论的第二特征向量。
在本实施例中,具体地,将经过情感分析过滤后的新闻评论与对应的关键句组输入到Sentence-BERT模型中。首先,取BERT模型中的[CLS]位置输出的向量作为关键句组的特征向量,其中,BERT模型的结构请参照图6。
S32:根据第一特征向量和第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有第二新闻评论,作为关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
在本实施例中,具体地,根据关键句组的第一特征向量和对应的第二新闻评论的第二特征向量,经过平均池化层,进行余弦相似度的计算。表示为:
similarity=cosine_sim(u,v) (17)
其中,u表示关键句的特征向量,v表示新闻评论的特征向量。
最后,若余弦相似度的值大于预设的阈值则保留该第二新闻评论,作为关键句组对应的第三新闻评论,否则丢弃。
在本实施例中,RoBERTa模型是BERT模型的强化版本,其模型结构与BERT一致,但在三个方面做了调整。其一是训练时间更长,批次更大,还使用BPE处理数据,增长了词表大小。其二是动态调整Masking机制,使得每轮的Mask的情况都不同,更方便和节省内存。其三是移除了NSP部分。而Sentence-BERT也是解决BERT模型的不足,通过孪生网络模型的框架,输入到参数共享的BERT模型,得到句子表征向量,然后用于余弦相似度计算进行语义匹配。参数的减少让Sentence-BERT模型的速度上升,对于工业界很有实用价值。RoBERTa模型和Sentence-BERT模型的具体结构请参照图7。
在本实施例中,具体地,GPT-2模型是在BERT模型的基础上,通过训练集训练获得的;其中,训练集包括多个初始新闻原文和对应的多个初始新闻评论,并在利用训练集对模型进行训练之前,对训练集进行预处理,预处理包括:①HTML处理:去除HTML标签的影响;②去除无意义的长数字串;③特殊字符处理:对\u、\n、&nbsp等特殊字符进行过滤;④去除空新闻、空评论;⑤过滤短新闻:过滤掉新闻原文长度小于20的数据,减少噪声;⑥中英文处理:对于新闻原文,若是中文则在字与字之间添加空格,若是英文和数字则不做处理;⑦空格分词:按空格对中文和英文进行分词,但如果是英文还要通过Wordpiece将单词划分成一组有限的公共子词单元;⑧拼接新闻、评论:添加特殊token,如[CLS]和[SEP],并拼接新闻原文和新闻评论,得到输入形式“[CLS]新闻原文[SEP]新闻评论[SEP]”;⑨词映射ID:根据词表,将所有的词映射成对应的词表索引的ID;⑩截断/填充处理:如果新闻原文中的句子长度大于指定的长度(512),则需要截断到指定的长度,如果句子长度不够指定的长度(512),则填充到指定的长度,保证输入的一致性;
Figure BDA0003435453800000121
向量化:对句子进行向量化。
实施例二:
请参照图8,为本发明实施例提供的一种基于新闻原文的新闻评论过滤方法,包括:
S4:获取新闻原文,并提取新闻原文中的多个关键句组。
S5:根据实施例一所述的一种基于关键句组的新闻评论过滤方法,依次对多个关键句组进行新闻评论过滤,获得每个关键句组对应的新闻评论。
S6:将所有关键句组对应的新闻评论,作为新闻原文的新闻评论,完成新闻原文的新闻评论过滤。
在本实施例中,具体地,根据实施例一所述的一种基于关键句组的新闻评论过滤方法,每一次都通过滑动窗口算法选取一个关键句组,并根据该关键句组生成对应的新闻评论,对生成的新闻评论进行情感分析与语义匹配之后,得到过滤完成后的该关键句组对应的新闻评论,然后再通过滑动窗口算法选取下一个关键句组,循环上述步骤,直至新闻原文的所有关键句组对应的新闻评论都过滤完成。
实施例三:
请参照图9,为本发明实施例提供的一种基于关键句组的新闻评论过滤系统,包括:
新闻评论生成模块1,用于获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到关键句组对应的多个第一新闻评论;其中,一个关键句组对应多个第一新闻评论。
情感分析模块2,用于根据RoBERTa模型,对关键句组以及对应的第一新闻评论进行情感分析,得到关键句组对应的第二新闻评论。
语义匹配模块3,用于对关键句组以及对应的第二新闻评论进行语义匹配,得到关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
进一步地,请参照图10,新闻评论生成模块1,还包括:
预处理单元,用于对新闻原文进行预处理,得到向量化的文本;
划分单元,用于通过TextRank算法,将文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个句子对应一个重要度;
排序拼接单元,用于将重要度按从大到小的顺序排序,获取排序前M个重要度,并按照新闻原文的顺序,将前M个重要度对应的M个句子拼接起来;
选取单元,用于通过滑动窗口算法,依次对拼接后的M个句子进行选取,得到新闻原文对应的多个关键句组,并根据选取顺序,从多个关键句组中,依次提取一个关键句组;
新闻评论生成单元,用于根据关键句组,计算得到对应的词嵌入矩阵和位置矩阵,并根据词嵌入矩阵和位置矩阵,结合GPT-2模型的层归一化处理和解码器模块,计算得到关键句组对应的多个第一新闻评论。
进一步地,请参照图11,情感分析模块2,还包括:
情感分析单元,用于根据RoBERTa模型,分别计算关键句组的第一情感分数,以及每一个第一新闻评论的第二情感分数;
第一过滤单元,用于将第二情感分数与第一情感分数相同的所有第一新闻评论,作为关键句组对应的第二新闻评论。
进一步地,请参照图12,所述语义匹配模块3,还包括:
特征向量获取单元,用于根据Sentence-BERT模型,获取第一关键句的第一特征向量和对应的第二新闻评论的第二特征向量;
第二过滤单元,用于根据第一特征向量和第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有第二新闻评论,作为关键句组对应的第三新闻评论,完成对关键句组的新闻评论过滤。
相比于现有技术,本发明的所有实施例具有如下有益效果:
选取新闻原文对应的关键句组,利用GPT-2模型生成关键句组对应的多个新闻评论,避免读取到与核心意思无关的文本,并通过RoBERTa模型对关键句组和对应的多个新闻评论进行情感分析,以过滤与新闻原文情感不匹配的新闻评论。同时,对通过情感分析的新闻评论进行语义匹配,解决生成的新闻评论跟新闻原文意思不贴切的问题。
进一步地,当关键句组对应的多个新闻评论的情感分析和语义匹配完成之后,重新根据新闻原文进行关键句组的选取,迭代完成所有新闻评论的生成与过滤,在提升新闻评论的聚焦性的同时,还丰富了新闻评论的多样性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于关键句组的新闻评论过滤方法,其特征在于,包括:
获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
2.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述获取新闻原文对应的一个关键句组,具体为:
对所述新闻原文进行预处理,得到向量化的文本;
通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组;
根据选取顺序,从所述多个关键句组中,依次提取一个关键句组。
3.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论,具体为:
根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵;
根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
4.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论,具体为:
根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
5.如权利要求1所述的一种基于关键句组的新闻评论过滤方法,其特征在于,所述对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,具体为:
根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论。
6.一种基于新闻原文的新闻评论过滤方法,其特征在于,包括:
获取新闻原文,并提取所述新闻原文中的多个关键句组;
根据权利要求1至5任意一项所述的基于关键句组的新闻评论过滤方法,依次对所述多个关键句组进行新闻评论过滤,获得每个关键句组对应的新闻评论;
将所有所述关键句组对应的新闻评论,作为所述新闻原文的新闻评论,完成所述新闻原文的新闻评论过滤。
7.一种基于关键句组的新闻评论过滤系统,其特征在于,包括:
新闻评论生成模块,用于获取新闻原文对应的一个关键句组,并根据GPT-2模型,计算得到所述关键句组对应的多个第一新闻评论;其中,一个所述关键句组对应多个所述第一新闻评论;
情感分析模块,用于根据RoBERTa模型,对所述关键句组以及对应的所述第一新闻评论进行情感分析,得到所述关键句组对应的第二新闻评论;
语义匹配模块,用于对所述关键句组以及对应的所述第二新闻评论进行语义匹配,得到所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
8.如权利要求7所述的一种基于关键句组的新闻评论过滤系统,其特征在于,所述新闻评论生成模块,还包括:
预处理单元,用于对所述新闻原文进行预处理,得到向量化的文本;
划分单元,用于通过TextRank算法,将所述文本划分为多个句子,并分别计算得到多个句子的重要度;其中,一个所述句子对应一个所述重要度;
排序拼接单元,用于将所述重要度按从大到小的顺序排序,获取排序前M个重要度,并按照所述新闻原文的顺序,将所述前M个重要度对应的M个所述句子拼接起来;
选取单元,用于通过滑动窗口算法,依次对拼接后的M个所述句子进行选取,得到所述新闻原文对应的多个关键句组,并根据选取顺序,从所述多个关键句组中,依次提取一个关键句组;
新闻评论生成单元,用于根据所述关键句组,计算得到对应的词嵌入矩阵和位置矩阵,并根据所述词嵌入矩阵和所述位置矩阵,结合所述GPT-2模型的层归一化处理和解码器模块,计算得到所述关键句组对应的多个第一新闻评论。
9.如权利要求7所述的一种基于关键句组的新闻评论过滤系统,其特征在于,所述情感分析模块,还包括:
情感分析单元,用于根据RoBERTa模型,分别计算所述关键句组的第一情感分数,以及每一个所述第一新闻评论的第二情感分数;
第一过滤单元,用于将所述第二情感分数与所述第一情感分数相同的所有所述第一新闻评论,作为所述关键句组对应的第二新闻评论。
10.如权利要求7所述的一种基于关键句组的新闻评论过滤系统,其特征在于,所述语义匹配模块,还包括:
特征向量获取单元,用于根据Sentence-BERT模型,获取所述关键句组的第一特征向量和对应的所述第二新闻评论的第二特征向量;
第二过滤单元,用于根据所述第一特征向量和所述第二特征向量,计算得到对应的余弦相似度,并将余弦相似度大于预设阈值的所有所述第二新闻评论,作为所述关键句组对应的第三新闻评论,完成对所述关键句组的新闻评论过滤。
CN202111616647.3A 2021-12-27 2021-12-27 一种基于关键句组、新闻原文的新闻评论过滤方法及系统 Pending CN114443829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111616647.3A CN114443829A (zh) 2021-12-27 2021-12-27 一种基于关键句组、新闻原文的新闻评论过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111616647.3A CN114443829A (zh) 2021-12-27 2021-12-27 一种基于关键句组、新闻原文的新闻评论过滤方法及系统

Publications (1)

Publication Number Publication Date
CN114443829A true CN114443829A (zh) 2022-05-06

Family

ID=81366491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111616647.3A Pending CN114443829A (zh) 2021-12-27 2021-12-27 一种基于关键句组、新闻原文的新闻评论过滤方法及系统

Country Status (1)

Country Link
CN (1) CN114443829A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402064A (zh) * 2023-06-09 2023-07-07 北京搜狐新媒体信息技术有限公司 一种评论生成方法、系统、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402064A (zh) * 2023-06-09 2023-07-07 北京搜狐新媒体信息技术有限公司 一种评论生成方法、系统、存储介质及电子设备
CN116402064B (zh) * 2023-06-09 2023-09-12 北京搜狐新媒体信息技术有限公司 一种评论生成方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
Heinz On the role of locality in learning stress patterns
CN108733653A (zh) 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
Esmaeilzadeh et al. Neural abstractive text summarization and fake news detection
CN111401077A (zh) 语言模型的处理方法、装置和计算机设备
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN110633359B (zh) 语句等价性判断方法和装置
Svoboda et al. New word analogy corpus for exploring embeddings of Czech words
Ramina et al. Topic level summary generation using BERT induced Abstractive Summarization Model
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114398900A (zh) 一种基于RoBERTa模型的长文本语义相似度计算方法
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN114443829A (zh) 一种基于关键句组、新闻原文的新闻评论过滤方法及系统
KR102418260B1 (ko) 고객 상담 기록 분석 방법
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
CN112949293A (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN115238711A (zh) 数据处理方法、装置、设备、程序产品及存储介质
Alissa et al. Text simplification using transformer and BERT
Choi et al. Neural attention model with keyword memory for abstractive document summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination