CN114492407A - 一种新闻评论生成方法、系统、设备及存储介质 - Google Patents

一种新闻评论生成方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114492407A
CN114492407A CN202210093011.3A CN202210093011A CN114492407A CN 114492407 A CN114492407 A CN 114492407A CN 202210093011 A CN202210093011 A CN 202210093011A CN 114492407 A CN114492407 A CN 114492407A
Authority
CN
China
Prior art keywords
vector
word
representing
symbol
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210093011.3A
Other languages
English (en)
Other versions
CN114492407B (zh
Inventor
毛震东
张勇东
顾培健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210093011.3A priority Critical patent/CN114492407B/zh
Publication of CN114492407A publication Critical patent/CN114492407A/zh
Application granted granted Critical
Publication of CN114492407B publication Critical patent/CN114492407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Abstract

本发明公开了一种新闻评论生成方法、系统、设备及存储介质,通过立场符号、立场提示模板与新闻文本一同进行编码,训练阶段能够加强立场与相应立场评论的联系,使得立场符号的向量表征能够带有相应立场的语义信息,从而控制生成评论的立场,而且通过引入立场提示模板,利用预训练语言模型的语言理解能力显式地控制生成评论的立场,本发明能够生成带有指定立场地评论,具有良好地应用前景和社会效益。

Description

一种新闻评论生成方法、系统、设备及存储介质
技术领域
本发明涉及自然语言生成技术领域,尤其涉及一种新闻评论生成方法、系统、设备及存储介质。
背景技术
随着科技不断发展,新闻在网络平台上的传播使得用户通过评论可以发表自己的观点。新闻评论一方面可以对新闻内容做进一步的解释,另一方面可以吸引更多用户的讨论。针对新闻评论的生成方法可以针对一则特定新闻生成评论,激发用户交流回复的热情,从而增加新闻的热度,甚至还能够发挥到舆论导向的作用,使得社会更加稳定和谐。目前阶段新闻评论自动生成技术的相关研究十分稀少,相关课题具有非常大的研究价值。
现有的新闻评论生成技术多采用基于预训练语言模型进行微调的方法,但往往面临着一个问题:生成的评论难以控制。现有模型生成评论的过程中,无法控制所得评论的立场、情感、语言风格等,导致对于某些新闻生成出不合时宜的评论,因此,有必要对现有的新闻评论生成技术进行改进。
发明内容
本发明的目的是提供一种新闻评论生成方法、系统、设备及存储介质,能够生成带有指定立场地评论,并实现评论生成的多样性,具有良好地应用前景。
本发明的目的是通过以下技术方案实现的:
一种新闻评论生成方法,包括:
训练阶段:将当前新闻文本与给定的立场符号及立场提示模板拼接,构成第一输入数据,将当前新闻已生成的评论文本作为第二输入数据;其中,所述立场符号用于表示立场类型,所述立场提示模板包含与给定的立场符号相同立场类型的自然语言文本;通过嵌入层,分别获得所述第一输入数据对应的第一表示向量,以及所述第二输入数据对应的第二表示向量;通过编码器对所述第一表示向量进行编码,通过解码器结合编码器输出的编码结果对所述第二表示向量进行解码,获得解码向量,根据解码向量预测当前新闻已生成的评论文本中的下一个词的概率分布,并且利用给定的立场符号预测每个词的概率分布;基于预测出每个词的两类概率分布构建总损失函数,对所述嵌入层、编码器与解码器进行训练;
预测阶段,将待生成评论的新闻文本与指定的立场符号及立场提示模板拼接,构成预测数据,通过训练后的嵌入层、编码器与解码器,预测出评论文本。
一种新闻评论生成系统,包括:嵌入层、编码器与解码器;
训练阶段:将当前新闻文本与给定的立场符号及立场提示模板拼接,构成第一输入数据,将当前新闻已生成的评论文本作为第二输入数据;其中,所述立场符号用于表示立场类型,所述立场提示模板包含与给定的立场符号相同立场类型的自然语言文本;通过嵌入层,分别获得所述第一输入数据对应的第一表示向量,以及所述第二输入数据对应的第二表示向量;通过编码器对所述第一表示向量进行编码,通过解码器结合编码器输出的编码结果对所述第二表示向量进行解码,获得解码向量,根据解码向量预测当前新闻已生成的评论文本中的下一个词的概率分布,并且利用给定的立场符号预测每个词的概率分布;基于预测出每个词的两类概率分布构建总损失函数,对所述嵌入层、编码器与解码器进行训练;
预测阶段,将待生成评论的新闻文本与指定的立场符号及立场提示模板拼接,构成预测数据,通过训练后的嵌入层、编码器与解码器,预测出评论文本。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,通过立场符号、立场提示模板与新闻文本一同进行编码,训练阶段能够加强立场与相应立场评论的联系,使得立场符号的向量表征能够带有相应立场的语义信息,从而控制生成评论的立场,而且通过引入立场提示模板,利用预训练语言模型的语言理解能力显式地控制生成评论的立场,本发明能够生成带有指定立场地评论,具有良好地应用前景和社会效益。本发明上述方案同样可以适用于情感、语言风格的控制,在具体实施时将相应的立场符号与提示模版改为与情感、语言风格相关的控制信息即可。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种新闻评论生成方法的框架图;
图2为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
如背景技术所述,现有的新闻评论生成技术难以控制生成的评论,而不合时宜的评论会影响人们对其的认同感,降低该评论的社会影响力。对于某些新闻甚至有可能会生成出带有不良舆论导向的评论,带来不好的社会影响。因此,本发明实施例提供的新闻评论生成方案,从数据处理层面进行改进,从而控制生成评论的立场。本发明将评论立场分为正面、中立和负面三类,通过两种技术手段对生成评论的立场加以控制,一种是引入立场符号:对每种立场使用一个特殊符号进行标识,并在向量空间上进行编码映射,通过将对应立场的符号的向量表征与当前新闻的文本向量表征相连,在评论生成的过程中融合立场信息,实现对生成评论的立场控制。另一种是立场提示模板:在生成评论前直接添加对应立场的文本提示模板,利用语言模型理解捕捉文本提示中的立场信息,从而控制生成评论的立场。最终,给定一条新闻报道和评论所处立场,通过本发明提供的新闻评论生成方案可以生成与该新闻相关的,符合给定立场的文本评论。
下面对本发明所提供的新闻评论生成方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
如图1所示,为一种新闻评论生成方法的框架图,本发明在Transformer模型的基础上进行模型设计以实现评论生成技术。对于给定新闻,本发明使用编码器对新闻文本、给定的立场符号以及相应的立场提示模板进行编码,通过立场符号与立场提示模板双重控制,生成符合给定立场的评论。主要说明如下:
训练阶段:将当前新闻文本与给定的立场符号及立场提示模板拼接,构成第一输入数据,将当前新闻已生成的评论文本作为第二输入数据;其中,所述立场符号用于表示立场类型,所述立场提示模板包含与给定的立场符号相同立场类型的自然语言文本;通过嵌入层,分别获得所述第一输入数据对应的第一表示向量,以及所述第二输入数据对应的第二表示向量;通过编码器对所述第一表示向量进行编码,通过解码器结合编码器输出的编码结果对所述第二表示向量进行解码,获得解码向量,根据解码向量预测当前新闻已生成的评论文本的下一个词的概率分布,并且利用给定的立场符号预测每个词的概率分布;基于预测出每个词的两类概率分布构建总损失函数,对所述嵌入层、编码器与解码器进行训练;
预测阶段,将待生成评论的新闻文本与指定的立场符号及立场提示模板拼接,构成预测数据,通过训练后的嵌入层、编码器与解码器,预测出评论文本。
为了便于理解,下面针对本发明上述方法所涉及的数据、模型结构原理以及训练时的总损失函数与预测过程做详细的介绍。
一、输入数据。
如之前所述,本发明训练阶段涉及两类输入数据,一类输入数据提供给所述编码器(即第一输入数据),另一类输入数据提供给所述解码器(即第二输入数据)。
1、第一输入数据。
本发明实施例中,第一输入数据包含三部分,分别为:立场符号、新闻文本与立场提示模板。
1)新闻文本。
新闻文本可以表示为:
Figure BDA0003489833900000051
其中,T1,T2,...,
Figure BDA0003489833900000052
表示新闻文本的词序列,LT表示词的数量,开始符号[CLS]和分隔符号[SEP]标记开始和结尾。
2)立场符号。
为了控制生成评论的立场,本发明引入了特定的立场符号。针对正面,中立和负面这三种立场,使用Spositive,Sneutral和Sneagtive分别进行指代,并通过随机初始化得到每种符号的向量表示。对于给定的立场,如正面立场,将立场符号和输入文本进行连接操作,作为编码器新的输入,公式表示如下:
Figure BDA0003489833900000053
其中,S∈(Spositive,Sneutral,Sneagtive)表示给定的立场符号。
本领域技术人员可以理解,正面立场表示肯定或是表达积极的观点,与正面的情感有些类似,例如,“中国奥运健儿加油!”这类,负面立场表达否定或是表达消极的观点,中立立场为理性客观的分析。
3)立场提示模板。
为了充分利用预训练语言模型的语言理解能力,本发明设计了由自然语言构成的立场提示模板,例如“生成上述新闻的正面立场的评论”。通过立场提示模板,使得模型能够显式获得相关立场的信息,并且更好理解新闻评论生成这个任务。对于正面,中立和负面这三种立场,本发明采用了“生成上述新闻的{__}立场的评论”的模板,在{__}中填入与立场符号相同类型的立场即可获得相应的立场提示模板。将立场提示模板的词序列表示为P1,P2,...,
Figure BDA0003489833900000054
LP表示立场提示模板的词数量。
将上述三部分拼接,构成了第一输入数据,表示为:
Figure BDA0003489833900000055
其中,LT表示当前新闻文本的词数量,LP表示立场提示模板的词数量。
如之前所述,本发明也可以应用于情感、语言风格的控制,立场符号与提示模版改为与情感、语言风格相关的控制信息即可。
2、第二输入数据。
训练阶段,使用当前新闻已生成的评论文本作为第二输入数据,第二输入数据中单个词记为Cj
本发明实施例中,评论文本是是逐字生成的,首先是输入一个开始符号,然后将生成的字与符号连接,作为下一次生成的输入。例如已有“<CLS>奥运”这几个字,当前步骤则可以生成“会”。所以对于当前生成步来说,“奥运”二字即为以生成的评论文本。训练时,整个评论文本是已知的,将整个评论作为输入,但是,加入了掩码来保证每个位置生成字的不被后续位置干扰。
需要说明的是,图1底部所示的两类输入数据中所提供的新闻文本的词数目、立场提示模版的词数目、第二输入数据中的词数目、以及立场符号的类型均为举例,并非构成限制。
二、模型结构原理。
本发明实施例中,所述模型主要是指实现新闻评论生成方法的模型,包括:嵌入层、编码器与解码器。
1、嵌入层(Embedding Layer)。
前述两类输入数据,均通过所述嵌入层获得相应的表示向量,具体的:所述第一输入数据与所述第二输入数据中,每个词以及词的位置都通过嵌入层获得对应的词嵌入向量Embword与位置嵌入向量Embpos;将词嵌入向量与位置嵌入向量相加作为每个词的表示向量Emb:Embl=Embword+Embpos。所述第一输入数据中立场符号以及所有词的表示向量连接构成第一表示向量Emb1,所述第二输入数据中所有词的表示向量连接构成第二表示向量Emb2
本领域技术人员可以理解,词嵌入向量指一个词根据其在整个词表中的序号映射得到的一个可训练的向量,位置嵌入向量指一个词按其在文本中的位置映射得到的一个可训练的向量。
2、编码器。
如图1所示,所述编码器包括依次连接的N层的Transformer模块(TransformerBlock),每一层的Transformer模块包括一系列的多头自注意力机制及前馈网络,并配有残差连接及层归一化方法;第i层的Transformer模块输入为第i-1层Transformer模块输出的表征向量Xi-1,当i=1时,X0=Emb1,即将第一表示向量Emb1作为编码器的输入;第i层的Transformer模块输出的表征向量通过下述方式得到:
Figure BDA0003489833900000071
Figure BDA0003489833900000072
Figure BDA0003489833900000073
其中,
Figure BDA0003489833900000074
表示计算得到的注意力向量,Xi表示数据在编码器中第i层的隐向量(即编码器中第i层的Transformer模块输出的表征向量),
Figure BDA0003489833900000075
Figure BDA0003489833900000076
分别表示编码器中第k个注意力头中的Query矩阵,Key矩阵和Value矩阵,函数Concat表示执行连接操作,de表示表征向量的维度;T表示矩阵转置符号;
Figure BDA0003489833900000077
是表示对表征向量Xi-1进行多头自注意力机制处理与层归一化处理后得到的中间表征向量,LN表示层归一化操作,FFN表示前馈网络。
将第N层的Transformer模块输出的表征向量XN作为编码器输出的编码结果Hencoder
3、解码器。
如图1所示,所述解码器与所述编码器类似,同样包括依次连接的N层的Transformer模块,每一层的Transformer模块包括一系列的多头注意力机制及前馈网络,并配有残差连接及层归一化方法。
每层Transformer模块中,输入的表征向量首先经过多头自注意力机制和前馈网络。由于评论生成的单向自回归的性质,在自注意力机制中加入掩码机制,保证当前词无法获得位置在其之后词的信息。加入掩码机制后的自注意力公式表示为:
Figure BDA0003489833900000078
其中,
Figure BDA0003489833900000079
表示计算得到的注意力向量,Yi-1表示输入至第i层Transformer模块的表征向量,即第i-1层Transformer模块输出的表征向量,当i=1时,Y0=Emb2,即将第二表示向量Emb2作为编码器的输入;
Figure BDA00034898339000000710
Figure BDA00034898339000000711
分别表示解码器中第k个注意力头中的Query矩阵,Key矩阵和Value矩阵,de表示向量表征的维度;M为一个下三角元素为0,其余元素为-inf的矩阵,保证了当前位置对其后位置的注意力权重为0,-inf表示负无穷大,可以是绝对值较大的负数,例如-1e10。
结合加入掩码机制后的自注意力,通过前馈网络、残差连接与前馈网络获得自注意力机制的计算结果
Figure BDA0003489833900000081
Figure BDA0003489833900000082
Figure BDA0003489833900000083
其中,
Figure BDA0003489833900000084
是表示对表征向量Yi-1进行多头自注意力机制处理与层归一化处理后得到的中间表征向量,LN表示层归一化操作,FFN表示前馈网络,两个式子中括号内的Yi-1
Figure BDA0003489833900000085
与后续部分相加均表示残差连接。
之后,经过和编码器输出之间的注意力模块,融合编码器信息,表示为:
Figure BDA0003489833900000086
Figure BDA0003489833900000087
Figure BDA0003489833900000088
其中,
Figure BDA0003489833900000089
Figure BDA00034898339000000810
分别表示解码器和编码器输出之间的注意力模块中第k个注意力头中的Query矩阵,Key矩阵和Value矩阵,Hencoder表示编码器输出的编码结果,
Figure BDA00034898339000000811
表示融合编码器信息时获得的中间表征向量,Yi表示第i层Transformer模块输出的表征向量,T表示矩阵转置符号。
将第N层Transformer模块输出的表征向量YN作为解码向量Hdecoder。解码器的末端设有一个多层感知器(MLP),多层感知器将解码向量Hdecoder与一个可学习的词向量矩阵Wvocab相乘,得到在词表中的得分矩阵Hlogits。公式表示如下:
Figure BDA00034898339000000812
上述计算中,多层感知器是通过对解码向量进行矩阵计算,从而得到各位置在词表上的概率。训练时可以并行扩展到多个位置上,例如一个评论的向量是L*de维度,经过MLP后是L*V维度,L是输入长度,V是词表大小。
此部分的原理可以理解为:输入至解码器的信息包含评论文本的表示向量以及一个开始符号[CLS],以图1所示内容为例,评论文本包含两个词C1与C2;多层感知器输出包含两个词C1与C2,以及一个分隔符号[SEP](标记结尾)。此部分中每一次都是预测当前新闻已生成的评论文本的下一个词的概率分布,即输入与输出错位对应,对照图1来说,输入至解码器中的开始符号[CLS]对应多层感知器输出的词C1,输入至解码器中的词C1对应多层感知器输出的词C2,输入中的词C2对应多层感知器输出的词分隔符号[SEP]。
三、模型训练的总损失函数。
本发明实施例中,考虑两部分损失函数,由两部分损失函数共同构成模型训练的总损失函数。
1、第一部分损失函数。
此部分中,根据解码向量预测当前新闻已生成的评论文本中下一个词的的概率分布,具体的:对于当前新闻已生成的评论文本中的下一个词Cj,取其前一个词Cj-1位置[j-1]处的得分向量Hlogits[j-1],经过Softmax层后输出位置j处生成词的概率分布P(Cj),表示为:
P(Cj)=softmax(Hlogits[j-11)
其中,得分向量Hlogits[j-1]通过所述解码向量Hdecoder计算出的在词表中的得分矩阵Hlogits确定,具体的Hlogits[j-1]为得分矩阵的第j-1的向量。训练阶段,此部分也可以在多层感知器中完成计算。
损失函数通过预测的每个词的概率分布P(Cj)和真实数据的负对数似然计算,表示为:
Figure BDA0003489833900000091
其中,Lc表示当前新闻已生成的评论文本中的词数量;真实数据为网络输入的评论文本,对于所述生成的下一个词Cj,所述当前新闻已生成的评论文本即为输入的评论文本中首个位置至位置j-1的文本。
2、第二部分损失函数。
为了训练立场控制符号,通过给定的立场符号预测相应立场类型下评论中的每个词的概率分布,加强立场符号对相应评论立场的表征能力。每个词的概率分布通过下式计算:
Figure BDA0003489833900000092
Figure BDA0003489833900000093
其中,P′(Cl)表示预测的第l个词的概率分布,Cl∈C,C表示输入的评论文本(也即之前提到的真实数据,它是训练时的已知信息);HS表示编码器Encoder编码后的立场符号结合可学习的词向量矩阵Wvocab计算出的矩阵。
损失函数采用BagofWords损失函数,表示为:
Figure BDA0003489833900000101
其中,C表示对应立场评论文本。
总损失函数表示为:
Lossfinal=Losscomment+LossS
基于上述总损失函数对模型进行训练,直至满足停止条件(例如,训练次数达到规定次数,或者生成评论的效果满足设定要求等),具体的训练流程可参照常规技术,本发明不做赘述。
四、预测过程。
预测过程中,选择一条新闻并指定一个立场符号输入训练后的模型中。生成过程中,通过对生成词的概率分布进行TopK筛选,并进行采样选择,实现了评论生成的多样性。评论中的每个词依次生成,最终连接组成一个带有指定立场的评论。
此部分流程与训练过程类似,在初始阶段,第一输入数据包含新闻、指定的立场符号以及立场提示模板,第二输入数据为一个开始符号[CLS];这两类数据经训练后的嵌入层,获得的相应的第一表示向量与第二表示向量;第一表示向量输入至训练后的编码器,第二表示向量输入至训练后的解码器,最终由解码器生成第一个词;下一步中,第二输入数据为一个开始符号[CLS]与生成的第一个词,经过训练后的嵌入层与解码器,生成第二个词;不断重复,直至解码器生成分隔符号[SEP],获得完整评论文本。
上述生成过程中,生成词的概率分布,即为前述第一部分损失函数部分介绍的P(Cj),TopK筛选即为从概率分布中选出概率值最大的K(K的具体数目可自行设定)个词,再从中采样一个词,作为当前步生成的词;每一步都是如此操作,最终按照时间顺序,将每一步生成的词连接,构成一条评论文本。
本发明实施例上述方案,通过立场符号、立场提示模板与新闻文本一同进行编码,训练阶段能够加强立场与相应立场评论的联系,使得立场符号的向量表征能够带有相应立场的语义信息,从而控制生成评论的立场,而且通过引入立场提示模板,利用预训练语言模型的语言理解能力显式地控制生成评论的立场,本发明能够生成带有指定立场地评论,具有良好地应用前景和社会效益。
实施例二
本发明还提供一种新闻评论生成系统,其主要基于前述实施例一提供的方法实现,同样可参见图1,该系统主要包括:嵌入层、编码器与解码器;
训练阶段:将当前新闻文本与给定的立场符号及立场提示模板拼接,构成第一输入数据,将当前新闻已生成的评论文本作为第二输入数据;其中,所述立场符号用于表示立场类型,所述立场提示模板包含与给定的立场符号相同立场类型的自然语言文本;通过嵌入层,分别获得所述第一输入数据对应的第一表示向量,以及所述第二输入数据对应的第二表示向量;通过编码器对所述第一表示向量进行编码,通过解码器结合编码器输出的编码结果对所述第二表示向量进行解码,获得解码向量,根据解码向量预测当前新闻已生成的评论文本中的下一个词的概率分布,并且利用给定的立场符号预测每个词的概率分布;基于预测出每个词的两类概率分布构建总损失函数,对所述嵌入层、编码器与解码器进行训练;
预测阶段,将待生成评论的新闻文本与指定的立场符号拼接,构成预测数据,通过训练后的嵌入层、编码器与解码器,预测出评论文本。
需要说明的是,由于该系统基于前述实施例一的方法实现,因此,所涉及的主要技术原理可参见前述实施例一中的介绍,此处不再赘述。
实施例三
本发明还提供一种处理设备,如图2所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种新闻评论生成方法,其特征在于,包括:
训练阶段:将当前新闻文本与给定的立场符号及立场提示模板拼接,构成第一输入数据,将当前新闻已生成的评论文本作为第二输入数据;其中,所述立场符号用于表示立场类型,所述立场提示模板包含与给定的立场符号相同立场类型的自然语言文本;通过嵌入层,分别获得所述第一输入数据对应的第一表示向量,以及所述第二输入数据对应的第二表示向量;通过编码器对所述第一表示向量进行编码,通过解码器结合编码器输出的编码结果对所述第二表示向量进行解码,获得解码向量,根据解码向量预测当前新闻已生成的评论文本中的下一个词的概率分布,并且利用给定的立场符号预测每个词的概率分布;基于预测出每个词的两类概率分布构建总损失函数,对所述嵌入层、编码器与解码器进行训练;
预测阶段,将待生成评论的新闻文本与指定的立场符号及立场提示模板拼接,构成预测数据,通过训练后的嵌入层、编码器与解码器,预测出评论文本。
2.根据权利要求1所述的一种新闻评论生成方法,其特征在于,所述将当前新闻文本与给定的立场符号及立场提示模板拼接,构成第一输入数据包括:
将符号[CLS]作为开始符号,将符号[SEP]作为分隔符号,给定的立场符号表示为S,当前新闻文本的词序列表示为
Figure FDA0003489833890000011
立场提示模板的词序列表示为
Figure FDA0003489833890000012
第一输入数据表示为:
Figure FDA0003489833890000013
其中,LT表示当前新闻文本的词数量,LP表示立场提示模板的词数量。
3.根据权利要求1所述的一种新闻评论生成方法,其特征在于,所述编码器包括依次连接的N层的Transformer模块,每一层的Transformer模块包括一系列的多头自注意力机制及前馈网络;第i层的Transformer模块输入为第i-1层Transformer模块输出的表征向量Xi-1,当i=1时,X0=Emb1,所述Emb1表示第一表示向量;第i层的Transformer模块输出的表征向量通过下述方式得到:
Figure FDA0003489833890000014
Figure FDA0003489833890000021
Figure FDA0003489833890000022
其中,
Figure FDA0003489833890000023
表示计算得到的注意力向量,Xi表示第i层的Transformer模块输出的表征向量,
Figure FDA0003489833890000024
Figure FDA0003489833890000025
分别表示编码器中第k个注意力头中的Query矩阵,Key矩阵和Value矩阵,de表示向量表征的维度;T表示矩阵转置符号;
Figure FDA0003489833890000026
是表示对表征向量Xi-1进行多头自注意力机制处理与层归一化处理后得到的中间表征向量,LN表示层归一化操作,FFN表示前馈网络;
将N层的Transformer模块输出的表征向量XN作为编码器输出的编码结果Hencoder
4.根据权利要求1所述的一种新闻评论生成方法,其特征在于,所述解码器包括依次连接的N层的Transformer模块,每一层的Transformer模块包括一系列的多头自注意力机制及前馈网络;
在自注意力机制中加入掩码机制,表示为:
Figure FDA0003489833890000027
其中,
Figure FDA0003489833890000028
表示计算得到的注意力向量,Yi-1表示输入至第i层Transformer模块的表征向量,即第i-1层Transformer模块输出的表征向量,当i=1时,Y0=Emb2,所述Emb2表示第二表示向量;
Figure FDA0003489833890000029
Figure FDA00034898338900000210
分别表示解码器中第k个注意力头中的Query矩阵,Key矩阵和Value矩阵,de表示向量表征的维度;M为一个下三角元素为0,其余元素为-inf的矩阵,-inf表示负无穷大;
结合加入掩码机制后的自注意力,通过前馈网络、残差连接与前馈网络获得自注意力机制的计算结果
Figure FDA00034898338900000211
Figure FDA00034898338900000212
Figure FDA00034898338900000213
其中,
Figure FDA00034898338900000214
是表示对表征向量Yi-1进行多头自注意力机制处理与层归一化处理后得到的中间表征向量,LN表示层归一化操作,FFN表示前馈网络;
之后,经过和编码器输出之间的注意力模块,融合编码器信息,表示为:
Figure FDA0003489833890000031
Figure FDA0003489833890000032
Figure FDA0003489833890000033
其中,
Figure FDA0003489833890000034
Figure FDA0003489833890000035
分别表示解码器和编码器输出之间的注意力模块中第k个注意力头中的Query矩阵,Key矩阵和Value矩阵,Hencoder表示编码器输出的编码结果,
Figure FDA0003489833890000036
表示融合编码器信息时获得的中间表征向量,Yi表示第i层Transformer模块输出的表征向量,T表示矩阵转置符号;
将第N层Transformer模块输出的表征向量YN作为解码向量Hdecoder
5.根据权利要求1所述的一种新闻评论生成方法,其特征在于,所述根据解码向量预测当前新闻已生成的评论文本中下一个词的概率分布包括:
对于当前新闻已生成的评论文本中的下一个词Cj,取其前一个词Cj-1位置[i-1]处的得分向量Hlogits[j-1],经过Softmax层后输出位置j处生成词的概率分布P(Cj),表示为:
P(Cj)=softmax(Hlogits[j-1])
其中,得分向量Hlogits[j-1]通过解码向量Hdecoder计算出的得分矩阵Hlogits确定,得分矩阵Hlogits通过下式计算:
Figure FDA0003489833890000037
其中,Hdecoder表示解码器输出的解码结果,Wvocab表示可学习的词向量矩阵,T表示矩阵转置符号,Hlogits[j-1]为得分矩阵的第j-1的向量。
6.根据权利要求1所述的一种新闻评论生成方法,其特征在于,所述利用给定的立场符号预测每个词的概率分布包括:
通过给定的立场符号预测相应立场类型下评论中的每个词的概率分布,记给定的立场符号为S,每个词的概率分布通过下式计算:
Figure FDA0003489833890000038
P′(Cl)=Softmax(HS)
其中,P′(Cl)表示预测的第l个词的概率分布,Cl∈C,C表示训练时的评论文本;HS表示利用编码后的立场符号结合可学习的词向量矩阵Wvocab计算出的矩阵。
7.根据权利要求1或5或6所述的一种新闻评论生成方法,其特征在于,所述基于预测出每个词的两类概率分布构建总损失函数包括:
将根据解码结果预测当前新闻已生成的评论文本中的下一个词的概率分布记为P(Cj),相应损失函数通过预测的概率分布P(Cj)和真实数据的负对数似然计算,表示为:
Figure FDA0003489833890000041
其中,Lc表示当前新闻已生成的评论文本中的词数量;真实数据为输入的评论文本C,对于所述生成的下一个词Cj,所述当前新闻已生成的评论文本即为输入的评论文本中首个位置至位置j-1的文本;
将利用给定的立场符号预测每个词的概率分布记为P′(Cl),损失函数采用BagofWords损失函数,表示为:
Figure FDA0003489833890000042
其中,C表示输入的评论文本;
总损失函数表示为:
Lossfinal=Losscomment+LossS
8.一种新闻评论生成系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:嵌入层、编码器与解码器;
训练阶段:将当前新闻文本与给定的立场符号及立场提示模板拼接,构成第一输入数据,将当前新闻已生成的评论文本作为第二输入数据;其中,所述立场符号用于表示立场类型,所述立场提示模板包含与给定的立场符号相同立场类型的自然语言文本;通过嵌入层,分别获得所述第一输入数据对应的第一表示向量,以及所述第二输入数据对应的第二表示向量;通过编码器对所述第一表示向量进行编码,通过解码器结合编码器输出的编码结果对所述第二表示向量进行解码,获得解码向量,根据解码向量预测当前新闻已生成的评论文本中的下一个词的概率分布,并且利用给定的立场符号预测每个词的概率分布;基于预测出每个词的两类概率分布构建总损失函数,对所述嵌入层、编码器与解码器进行训练;
预测阶段,将待生成评论的新闻文本与指定的立场符号及立场提示模板拼接,构成预测数据,通过训练后的嵌入层、编码器与解码器,预测出评论文本。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202210093011.3A 2022-01-26 2022-01-26 一种新闻评论生成方法、系统、设备及存储介质 Active CN114492407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210093011.3A CN114492407B (zh) 2022-01-26 2022-01-26 一种新闻评论生成方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210093011.3A CN114492407B (zh) 2022-01-26 2022-01-26 一种新闻评论生成方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114492407A true CN114492407A (zh) 2022-05-13
CN114492407B CN114492407B (zh) 2022-12-30

Family

ID=81474289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210093011.3A Active CN114492407B (zh) 2022-01-26 2022-01-26 一种新闻评论生成方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114492407B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187334A (zh) * 2023-04-20 2023-05-30 山东齐鲁壹点传媒有限公司 一种基于mt5模型融合ner实体识别的评论生成方法
CN116402064A (zh) * 2023-06-09 2023-07-07 北京搜狐新媒体信息技术有限公司 一种评论生成方法、系统、存储介质及电子设备
CN117112757A (zh) * 2023-08-23 2023-11-24 人民网股份有限公司 一种基于贴文数据的评论生成方法和装置
CN117591948A (zh) * 2024-01-19 2024-02-23 北京中科闻歌科技股份有限公司 评论生成模型训练方法和装置、信息生成方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670036A (zh) * 2018-12-17 2019-04-23 广州大学 一种新闻评论自动生成方法及其装置
CN111310474A (zh) * 2020-01-20 2020-06-19 桂林电子科技大学 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
US20200372225A1 (en) * 2019-05-22 2020-11-26 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN112364225A (zh) * 2020-09-30 2021-02-12 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN112836487A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质
CN113158075A (zh) * 2021-03-30 2021-07-23 昆明理工大学 融合评论的多任务联合谣言检测方法
CN113268667A (zh) * 2021-05-28 2021-08-17 汕头大学 一种基于中文评论情感引导的序列推荐方法及系统
CN113420129A (zh) * 2021-05-08 2021-09-21 天津大学 一种基于大型通用预训练模型控制对话生成的方法
CN113535889A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 一种评论分析方法及装置
CN113868386A (zh) * 2021-09-18 2021-12-31 天津大学 一种可控情感对话生成的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670036A (zh) * 2018-12-17 2019-04-23 广州大学 一种新闻评论自动生成方法及其装置
US20200372225A1 (en) * 2019-05-22 2020-11-26 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN111310474A (zh) * 2020-01-20 2020-06-19 桂林电子科技大学 基于激活-池化增强bert模型的在线课程评论情感分析方法
CN113535889A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 一种评论分析方法及装置
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112364225A (zh) * 2020-09-30 2021-02-12 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN112836487A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质
CN113158075A (zh) * 2021-03-30 2021-07-23 昆明理工大学 融合评论的多任务联合谣言检测方法
CN113420129A (zh) * 2021-05-08 2021-09-21 天津大学 一种基于大型通用预训练模型控制对话生成的方法
CN113268667A (zh) * 2021-05-28 2021-08-17 汕头大学 一种基于中文评论情感引导的序列推荐方法及系统
CN113868386A (zh) * 2021-09-18 2021-12-31 天津大学 一种可控情感对话生成的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI,ET AL: "《Attention Is All You Need》", 《ARXIV:1706.03762V5》 *
于尊瑞等: "《.基于预训练语言模型的关键词感知问题生成》", 《计算机工程》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187334A (zh) * 2023-04-20 2023-05-30 山东齐鲁壹点传媒有限公司 一种基于mt5模型融合ner实体识别的评论生成方法
CN116187334B (zh) * 2023-04-20 2023-07-25 山东齐鲁壹点传媒有限公司 一种基于mt5模型融合ner实体识别的评论生成方法
CN116402064A (zh) * 2023-06-09 2023-07-07 北京搜狐新媒体信息技术有限公司 一种评论生成方法、系统、存储介质及电子设备
CN116402064B (zh) * 2023-06-09 2023-09-12 北京搜狐新媒体信息技术有限公司 一种评论生成方法、系统、存储介质及电子设备
CN117112757A (zh) * 2023-08-23 2023-11-24 人民网股份有限公司 一种基于贴文数据的评论生成方法和装置
CN117112757B (zh) * 2023-08-23 2024-03-08 人民网股份有限公司 一种基于贴文数据的评论生成方法和装置
CN117591948A (zh) * 2024-01-19 2024-02-23 北京中科闻歌科技股份有限公司 评论生成模型训练方法和装置、信息生成方法和装置

Also Published As

Publication number Publication date
CN114492407B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN114492407B (zh) 一种新闻评论生成方法、系统、设备及存储介质
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
Kim et al. Gated embeddings in end-to-end speech recognition for conversational-context fusion
CN112765333B (zh) 基于情感与提示词结合的自动对话生成方法及系统
CN111611346A (zh) 一种基于动态语义编码和双注意力的文本匹配方法及装置
CN111382257A (zh) 一种生成对话下文的方法和系统
Tada et al. Robust understanding of robot-directed speech commands using sequence to sequence with noise injection
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN112216267A (zh) 一种韵律预测的方法、装置、设备及存储介质
CN115563290A (zh) 一种基于语境建模的智能情感识别方法
CN113450758B (zh) 语音合成方法、装置、设备及介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
Kang et al. Video2Music: Suitable music generation from videos using an Affective Multimodal Transformer model
CN116052621A (zh) 一种基于语言模型的音乐创作辅助方法
CN117980915A (zh) 用于端到端自监督预训练的对比学习和掩蔽建模
CN111554300B (zh) 音频数据处理方法、装置、存储介质及设备
CN113889130A (zh) 一种语音转换方法、装置、设备及介质
CN116704980B (zh) 音乐作品的生成方法、音乐生成模型的训练方法及其设备
CN116108856B (zh) 基于长短回路认知与显隐情感交互的情感识别方法及系统
CN113593520B (zh) 歌声合成方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant