CN117112757B

CN117112757B - 一种基于贴文数据的评论生成方法和装置

Info

Publication number: CN117112757B
Application number: CN202311068975.3A
Authority: CN
Inventors: 张凯; 白昊鹏; 轩占伟; 崔向阳; 王鑫; 杨松
Original assignee: People Co Ltd
Current assignee: Konami Sports Club Co Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2024-03-08
Anticipated expiration: 2043-08-23
Also published as: CN117112757A

Abstract

本发明公开了一种基于贴文数据的评论生成方法和装置，该方法包括：获取贴文评论文件、角色信息图谱以及新闻事件知识库；针对贴文评论文件中的每个贴文数据，利用角色信息抽取模型抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型抽取与该贴文数据相匹配的知识数据，为贴文数据确定对应的目标评论立场，生成该贴文数据对应的增强提示数据；利用增强提示数据和评论数据，训练得到评论生成模型；根据评论生成模型，为待处理贴文数据生成对应的评论数据。本发明通过增强提示数据训练评论生成模型，构建更稳定、可控的评论生成策略，输出符合目标评论立场的评论数据，以便更好的理解和体现不同用户群体对贴文文本和新闻主题的观点。

Description

一种基于贴文数据的评论生成方法和装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于贴文数据的评论生成方法和装置。

背景技术

在信息时代，在线社交媒体成为了一个重要的信息提供平台和传播载体，用户可以通过发布贴文的方式，来表达自身对某一新闻事件的立场、观点和看法；同时，用户也可以通过评论的方式，来对贴文内容进行解读与阐述。

通过应用评论生成技术，可以对贴文内容所表达的信息进行多角度解读，目前根据贴文内容生成评论的方法主要基于简单的序列生成模型(如循环神经网络)，通过关键词触发，从有限的选择中生成针对某篇贴文的评论，这种方法容易受到训练数据的影响，生成的文本质量难以把控。

如何在贴文评论中进行稳定可控地内容输出，从而恰当地模拟不同用户的角度表达观点，是亟待解决的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于贴文数据的评论生成方法和装置。

根据本发明的一个方面，提供了一种基于贴文数据的评论生成方法，包括：

获取贴文评论文件、角色信息图谱以及新闻事件知识库；其中，贴文评论文件包括多个贴文数据以及多个贴文数据的评论数据；

针对贴文评论文件中的每个贴文数据，利用角色信息抽取模型从角色信息图谱中抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型从新闻事件知识库中抽取与该贴文数据相匹配的知识数据，为贴文数据确定对应的目标评论立场，并根据该贴文数据、与该贴文数据相匹配的人物角色数据、与该贴文数据相匹配的知识数据、目标评论立场以及该贴文数据的评论数据得到该贴文数据对应的增强提示数据；

利用多个贴文数据对应的增强提示数据和多个贴文数据的评论数据，训练得到评论生成模型；

根据评论生成模型，为待处理贴文数据生成对应的评论数据。

根据本发明的另一方面，提供了一种基于贴文数据的评论生成装置，包括：

数据准备模块，用于获取贴文评论文件、角色信息图谱以及新闻事件知识库；其中，贴文评论文件包括多个贴文数据以及多个贴文数据的评论数据；

增强提示数据构建模块，用于针对贴文评论文件中的每个贴文数据，利用角色信息抽取模型从角色信息图谱中抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型从新闻事件知识库中抽取与该贴文数据相匹配的知识数据，为贴文数据确定对应的目标评论立场，并根据该贴文数据、与该贴文数据相匹配的人物角色数据、与该贴文数据相匹配的知识数据、目标评论立场以及该贴文数据的评论数据得到该贴文数据对应的增强提示数据；

模型训练模块，用于利用多个贴文数据对应的增强提示数据和多个贴文数据的评论数据，训练得到评论生成模型；

评论生成模块，用于根据评论生成模型，为待处理贴文数据生成对应的评论数据。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述一种基于贴文数据的评论生成方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述一种基于贴文数据的评论生成方法对应的操作。

根据本发明的一种基于贴文数据的评论生成方法和装置，通过获取贴文评论文件、角色信息图谱以及新闻事件知识库；其中，贴文评论文件包括多个贴文数据以及多个贴文数据的评论数据；针对贴文评论文件中的每个贴文数据，利用角色信息抽取模型从角色信息图谱中抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型从新闻事件知识库中抽取与该贴文数据相匹配的知识数据，为贴文数据确定对应的目标评论立场，并根据该贴文数据、与该贴文数据相匹配的人物角色数据、与该贴文数据相匹配的知识数据、目标评论立场以及该贴文数据的评论数据得到该贴文数据对应的增强提示数据；利用多个贴文数据对应的增强提示数据和多个贴文数据的评论数据，训练得到评论生成模型；根据评论生成模型，为待处理贴文数据生成对应的评论数据。该方法通过构建主题立场检测模块与评论生成模块的解耦结构，使得评论生成模型专注于生成通用的评论数据，同时构建可更新的主题立场检测模型，使得评论生成模型具有更高的鲁棒性和泛化性，避免了可能出现的贴文立场与评论立场不匹配的问题；通过构建新闻事件知识库和角色信息图谱，为贴文数据的发帖方构建更详细的人物画像，同时也为评论生成模型提供更丰富的事实支撑，能够生成更为精确的、与贴文文本、新闻主题相匹配的评论文本，提升生成评论质量，保障评论内容与贴文数据对应的新闻事件信息的相关性。该方法的应用价值主要体现在自动化生成对新闻贴文的解读、阐述，提高新闻解读的准确性和可靠性，从而更有效地对新闻事件的信息内容进行说明。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于贴文数据的评论生成方法流程图；

图2示出了本发明实施例提供的评论生成模型应用示意图；

图3示出了本发明实施例提供的一种基于贴文数据的评论生成装置的结构示意图；

图4示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明一种基于贴文数据的评论生成方法实施例的流程图，如图1所示，该方法包括以下步骤：

步骤S110：获取贴文评论文件、角色信息图谱以及新闻事件知识库。

为了精确地生成具有特定立场的评论，提高新闻解读的准确性和可靠性，从而更有效地对新闻事件的信息内容进行说明，本实施例对初始评论生成模型通过增强提示数据进行Prompt增强，构建更可控的评论生成模型，输出带有指定立场的评论，以便更好地理解不同用户群体的观点。

其中，贴文评论文件包括多个贴文数据以及多个贴文数据的评论数据，在贴文评论文件中，每一行为一条社交平台的贴文数据及其评论数据，采集的数据项依次为新闻主题、贴文ID、贴文文本、贴文立场、评论文本、评论立场，其中，新闻主题、贴文ID、贴文文本以及贴文立场属于贴文数据，评论文本和评论立场属于评论数据，贴文立场指的是贴文文本对新闻主题的立场，对新闻主题持支持立场，则标记为1，对新闻主题持反对立场，则标记为0；评论立场指的是评论文本对贴文文本的立场，若支持则标记为1，若反对则标记为0；这些数据项可以从媒体网络、社交平台等中采样而来，通过采样高质量、多样化的评论数据保障评论生成模型的高拟人化特征。

进一步地，角色信息图谱是预先构建的，需要依靠角色信息抽取模型做人物角色信息与贴文数据的匹配，从而提取出与贴文数据相关的人物角色数据；角色信息图谱包括多个人物角色数据；每个人物角色数据对应一个人物角色，人物角色数据的数据形式为包含有多个数据项的多元组，针对一个人物角色数据，其数据形式可以表示为人物角色信息ID：(des，relation，attr)；其中，des是人物角色描述，例如“一个计算机专业的学生”；relation是关系类别，可以包括特征，用于描述该人物角色的内在特质；习惯，用于描述该人物角色的外在表现；目标计划，用于描述该人物角色的内心想法；经历，用于描述该人物角色做过的事；关联对象，用于描述与该人物角色存在交互的其它角色；attr是属性值，可以用于对该人物角色关系类别的补全。以“一个小有名气的男歌手A”为例，其(des，relation，attr)信息的三元组可能存在如下内容：(A，特征，擅长唱歌)、(A，习惯，经常写歌)、(A，目标计划，想举办全国巡演)、(A，经历，曾在酒吧做驻唱)、(A，关联对象，一个狂热的歌迷)等。

新闻事件知识库包括各个新闻事件对应的多个知识数据；知识数据包括各个新闻事件的背景知识，每一条背景知识的数据项依次为新闻主题和知识数据；这些知识数据可以是事实性的文本，如新闻报道、百科记录等；以“投资更多资源到可再生资源”新闻事件为例，其对应的知识数据包括可再生资源使用现状、种类介绍、主要政策、环境影响等信息；需要说明的是，新闻事件知识库需要动态更新维护以保证评论生成模型的准确性和实时性。

步骤S120：针对贴文评论文件中的每个贴文数据，利用角色信息抽取模型从角色信息图谱中抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型从新闻事件知识库中抽取与该贴文数据相匹配的知识数据，为贴文数据确定对应的目标评论立场，并根据该贴文数据、与该贴文数据相匹配的人物角色数据、与该贴文数据相匹配的知识数据、目标评论立场以及该贴文数据的评论数据得到该贴文数据对应的增强提示数据。

在一种可选的方式中，步骤S120进一步包括：将该贴文数据中的贴文文本和角色信息图谱中的多个人物角色数据输入至角色信息抽取模型中，通过角色信息抽取模型计算贴文文本与多个人物角色数据之间的匹配概率；按照匹配概率从高到低的顺序对多个人物角色数据进行排列得到第一排列结果，从第一排列结果中选取排列靠前的第一预设数量的人物角色数据作为与该贴文数据相匹配的人物角色数据。

具体地说，角色信息抽取模型的目标是基于贴文文本与角色信息图谱中的多个人物角色数据的匹配概率来为贴文文本找到最匹配的人物角色数据；具体地，设贴文文本为T＝t₁,t₂,…,t_n，t_i为贴文文本中的分词，i为1～n；角色信息图谱中的各个人物角色数据表示为R＝r₁,r₂,…,r_m，其中，r_j的形式为(des,relation,attr)三元组，j为1～m，角色信息抽取模型以(T,r_j)作为输入，来预测贴文文本T和每一个人物角色数据r_j的匹配概率p(r_j∣T,r_j)得到贴文文本与所有人物角色数据的匹配概率，按照匹配概率从高到低的顺序对多个人物角色数据进行排列得到第一排列结果，从第一排列结果中选取排列靠前的第一预设数量的人物角色数据作为与该贴文数据相匹配的人物角色数据，在本实施例中，取第一预设数量为3，即从第一排列结果中选取排列靠前的前三名的人物角色数据为最终输出，作为与该贴文数据相匹配的人物角色数据。

在一种可选的方式中，角色信息抽取模型的训练过程包括：从贴文评论文件中提取贴文数据，从角色信息图谱中提取人物角色数据并将人物角色数据由多元组形式转换为预设文本形式得到转换描述文本；将贴文数据中的贴文文本和转换描述文本作为第一样本数据输入至初始角色信息抽取模型中，通过初始角色信息抽取模型计算贴文文本与转换描述文本之间的匹配程度并通过归一化指数函数得到匹配概率计算值；根据匹配概率计算值和第一样本数据的预设样本标签，计算损失函数，根据损失函数调整初始角色信息抽取模型的权重参数，直至满足迭代结束条件，得到经过训练的角色信息抽取模型。

具体地说，角色信息抽取模型可以通过初始角色信息抽取模型，例如语言表示模型(Bidirectional Encoder Representations from Transformers，BERT)等编码模型(Encoder)进行训练，人物角色数据由多元组形式转换为预设文本形式得到转换描述文本，这里的预设文本形式可以是自然语言文本形式，以人物角色数据的多元组形式为：(一个计算机专业的学生，目标，独立开发一个游戏)为例，转换为自然语言文本形式则为“一个计算机专业的学生的目标是独立开发一个游戏”；将贴文数据中的贴文文本和转换描述文本作为第一样本数据，并作为Encoder模型的直接输入，计算贴文文本与转换描述文本之间的匹配程度，通过归一化(softmax)函数转化为匹配概率计算值输出；对第一样本数据中人物角色数据进行随机采样，根据第一样本数据的预设样本标签，预设样本标签包括匹配标签和不匹配标签，0代表不匹配，1代表匹配，模型训练的目标是将原数据集中贴文文本与转换描述文本之间的正样本的匹配概率p(r_j∣T,r_j)最大化，采样的负样本最小化，并使用二值交叉熵(Binary Cross-Entropy，BCE)作为损失函数，损失函数表达如下式(1)：

其中，y代表贴文文本与转换描述文本是否匹配的样本标签，样本标签包括0和1，0代表不匹配，1代表匹配；p(y)是输出属于y标签的概率。

根据损失函数调整初始角色信息抽取模型的权重参数，其中可采用Adam算法来优化模型权重参数，直至满足迭代结束条件，例如达到指定的迭代次数等，迭代结束得到经过训练的角色信息抽取模型。

在一种可选的方式中，步骤S120进一步包括：根据该贴文数据中的新闻主题确定目标新闻事件，从新闻事件知识库中提取目标新闻事件对应的多个知识数据；利用事件知识抽取模型，计算该贴文数据中的贴文文本的embedding向量以及目标新闻事件对应的每个知识数据的embedding向量；计算贴文文本的embedding向量与每个知识数据的embedding向量之间的相似度；按照相似度从高到低的顺序对目标新闻事件对应的多个知识数据进行排列得到第二排列结果，从第二排列结果中选取排列靠前的第二预设数量的知识数据作为与该贴文数据相匹配的知识数据。

事件知识抽取模型可无需进行训练，其依赖于预训练好的Encoder模型，目标是从新闻事件知识库中为贴文文本匹配最相关的知识数据，由于大语言模型的上下文记忆能力有限，因此评论生成模型需要提取出最相关的知识数据来作为输入，以便辅助评论生成，事件知识抽取模型首先对贴文文本T和目标新闻事件对应的每个知识数据k₁,k₂,…,k_n进行向量化(embedding)处理，将贴文文本和知识数据分别编码为固定长度的连续向量，得到embedding向量，在将贴文文本和目标新闻事件对应的每个知识数据转换到同一向量空间后，这些embedding向量能够捕获文本的语义和上下文信息，相似的文本会被映射到向量空间中的相近位置。进一步地，利用余弦相似度公式对贴文文本和目标新闻事件对应的每个知识数据间的相似度进行计算，按照相似度从高到低的顺序对目标新闻事件对应的多个知识数据进行排列得到第二排列结果，从第二排列结果中选取排列靠前的第二预设数量的知识数据作为与该贴文数据相匹配的知识数据，在本实施例中，以第二预设数量为3为例，即从第二排列结果取最相关的排名前三的知识数据作为事件知识抽取模型的输出作为与该贴文数据相匹配的知识数据。这个过程是数据检索的过程，起到快速定位知识数据的目的。

在一种可选的方式中，步骤S120进一步包括：对贴文数据中的贴文文本进行文本分词处理，得到多个分词；对多个分词分别进行标记处理和位置编码后，输入主题立场检测模型得到多个分词的特征向量，并根据多个分词的特征向量确定贴文文本的特征向量；通过全连接层和归一化指数函数对贴文文本的特征向量进行主题立场检测，得到贴文立场；依据贴文立场和预设评论立场生成规则，生成目标评论立场。

主题立场检测模型的训练过程类似于角色信息抽取模型，其目标是检测贴文对于特定新闻事件的立场(支持/反对)，主题立场检测模型为每个新闻事件构建单独的、可替换的立场检测分类器与后续评论生成模型生成带立场的评论内容相解耦合。具体地，主题立场检测模型可以为BERT模型，将贴文文本输入Encoder利用分词算法，如WordPiece算法对贴文文本进行文本分词处理，将单词分解为子词或者单个字符，得到多个分词(tokens)，随后对得到的tokens进行标记处理，并添加位置编码，将处理后的数据输入主题立场检测模型得到多个tokens的特征向量，如高维向量表示；而通过池化层pooling操作，则能够得到整个贴文文本的特征向量，对贴文文本的特征向量e利用全连接层和softmax指数函数进行预测，得到贴文立场S，其中，损失函数可以选用交叉熵函数，训练的目标是最小化预测立场和实际立场之间的差异，可以采用随机梯度下降算法进行目标优化。

得到贴文立场之后，依据贴文立场和预设评论立场生成规则，生成目标评论立场S′，在本实施例中，预设评论立场生成规则可以依据实际应用场景进行设置，一般来说，贴文立场包括支持和反对，获取贴文立场S后，再决定目标评论立场S′是支持或反对贴文立场S。比如，针对某个新闻主题，预设评论立场生成规则设置为：如果贴文立场S对新闻主题是支持的，目标评论立场S′就设为支持贴文文本T；贴文文本T反对该新闻主题，目标评论立场S′则设为反对贴文文本T。

在本步骤中，针对每个贴文数据，根据该贴文数据的贴文文本T、与该贴文数据相匹配的人物角色数据(r₁,r₂,r₃)、与该贴文数据相匹配的知识数据(k₁,k₂,k₃)、目标评论立场S′以及该贴文数据的评论数据C得到该贴文数据对应的增强提示数据Prompt P＝[T,(r₁,r₂,r₃),(k₁,k₂,k₃),S^′,C]。具体地，利用Prompt模板将贴文数据的贴文文本T、与该贴文数据相匹配的人物角色数据(r₁,r₂,r₃)、与该贴文数据相匹配的知识数据(k₁,k₂,k₃)、目标评论立场S′以及该贴文数据的评论数据C结合起来，得到增强提示数据。

步骤S130：利用多个贴文数据对应的增强提示数据和多个贴文数据的评论数据，训练得到评论生成模型。

本实施例的评论生成模型的目标是针对贴文文本，生成带目标评论立场的评论数据，在本步骤中，对初始评论生成模型应用自回归训练方式进行训练，得到评论生成模型。

在一种可选的方式中，步骤S130进一步包括：针对每个贴文数据，对该贴文数据对应的增强提示数据中的评论数据的部分数据进行掩码处理，得到掩码增强提示数据，将掩码增强提示数据和该贴文数据的评论数据作为第二样本数据；将第二样本数据中的掩码增强提示数据输入至初始评论生成模型中，通过初始评论生成模型学习掩码增强提示数据的上下文信息，对已掩码的评论数据进行填充，得到评论生成数据；通过最大化评论生成数据与第二样本数据中的评论数据之间的对数似然函数训练得到评论生成模型。

具体地，针对每个贴文数据，对该贴文数据对应的增强提示数据中的评论数据的部分数据进行掩码处理(mask)，得到掩码增强提示数据P_masked＝[T,(r₁,r₂,r₃),(k₁,k₂,k₃),S^′,C_masked]。

将掩码增强提示数据和该贴文数据的评论数据作为第二样本数据；将第二样本数据中的掩码增强提示数据输入至初始评论生成模型中，通过初始评论生成模型学习掩码增强提示数据的上下文信息，通过未被mask的部分预测被mask的内容，使得初始评论生成模型能够学习语言的上下文信息，根据上下文和周围的文本来填充被掩码的评论数据，得到评论生成数据，为评论生成提供基础，掩码处理公式如下式(2):

P_masked＝Mask(P,M)； (2)

其中，M是一个二进制序列，指示哪些部分应该被掩码；Mask(·)为Mask函数，P指完整的Prompt。

将P_masked作为初始评论生成模型的输入，通过最大化评论生成数据与第二样本数据中的评论数据即被掩码的真实评论之间的对数似然函数，训练得到评论生成模型，评论生成模型更新后的参数如下式(3)：

其中，f_θ代表参数为θ的模型；代表第i个输出样本；C⁽ⁱ⁾是第i个样本中mask的真实评论内容；/>是模型的预测值；L是损失函数，用于衡量预测值与真实内容之间的差异，θ^*是模型更新后的参数。

通过该训练过程，可以完成评论生成数据与被掩码处理的评论数据的对齐。利用增强提示数据对模型进行带立场的评论数据生成任务微调，以生成高质量的评论文本。

步骤S140：根据评论生成模型，为待处理贴文数据生成对应的评论数据。

图2示出了本发明实施例提供的评论生成模型应用示意图，如图2所示，角色信息抽取模型和主题立场检测模型需要在评论生成模型之前完成训练及推理过程，新闻事件知识库是一个信息检索的过程，可以快速定位贴文文本对应的知识数据，从而为评论生成模型的Prompt构建数据。在步骤S140中，利用角色信息抽取模型从角色信息图谱中抽取与待处理贴文数据相匹配的人物角色数据，利用事件知识抽取模型从新闻事件知识库中抽取与待处理贴文数据相匹配的知识数据，为待处理贴文数据确定对应的目标评论立场，并根据待处理贴文数据、与待处理贴文数据相匹配的人物角色数据、与待处理贴文数据相匹配的知识数据、目标评论立场得到待处理贴文数据对应的增强提示数据；将待处理贴文数据对应的增强提示数据输入至评论生成模型中，通过评论生成模型进行处理，为待处理贴文数据生成对应的评论数据。

在评论生成模型应用过程中，如果需要更新数据，只需要重新训练新的新闻主题下的主题立场检测模型，而不需要再对其他模型进行训练，实现了评论生成模型应用的泛化性。该方法也可以应用于情感、语言风格的可控生成，在具体实施时将相应的目标评论立场与Prompt增强模版改为与情感、语言风格相关的内容即可。

应用本实施例提供的上述方法，生成评论的示例如下：

待处理贴文数据的贴文文本：我认为应该投资更多的资源到可再生能源上，而不能一直依赖化石燃料。

利用角色信息抽取模型从角色信息图谱中抽取与待处理贴文数据相匹配的人物角色数据：

是一名环保主义者，习惯是经常开展环保活动，目标计划是实现可持续发展，关联对象是环保组织。

利用事件知识抽取模型从新闻事件知识库中抽取与待处理贴文数据相匹配的知识数据：

知识数据1：根据全球能源观察杂志的报告，2021年全球可再生能源产量已经超过化石燃料，显示出可再生能源技术的进步和成本的降低。

知识数据2：可再生能源是指那些能源获取和使用过程中可以自我再生，不会耗尽的能源，如太阳能、风能、水能和地热能。

知识数据3：根据最新的报告，全球气候变暖的主要原因之一是化石燃料的过度使用，这导致了大量温室气体排放。报告指出，转向可再生能源是减缓全球气候变化的有效策略。

目标评论立场：支持。

生成评论：不能再同意！你的发声太重要了，一定要让更多人看到！化石燃料的过度使用会导致大量的温室气体排放，导致全球气候变化！对生态系统带来危害。我们必须共同努力，才能实现可持续发展目标！

采用本实施例的方法，通过对初始评论生成模型的任务微调及Prompt增强，使其能够以目标评论立场对贴文文本进行回复，从而完成新闻主题解读、阐述的目的；该方法通过构建主题立场检测模块与评论生成模块的解耦结构，使得评论生成模型专注于生成通用的评论数据，同时构建可更新的主题立场检测模型，使得评论生成模型具有更高的鲁棒性和泛化性，避免了可能出现的贴文立场与评论立场不匹配的问题；通过构建新闻事件知识库和角色信息图谱，为贴文数据的发帖方构建更详细的人物画像，同时也为评论生成模型提供更丰富的事实支撑，能够生成更为精确的、与贴文文本、新闻主题相匹配的评论文本，提升生成评论质量，保障评论内容与贴文数据对应的新闻事件信息的相关性。该方法的应用价值主要体现在自动化生成对新闻贴文的解读、阐述，提高新闻解读的准确性和可靠性，从而更有效地对新闻事件的信息内容进行说明。

图3示出了本发明一种基于贴文数据的评论生成装置实施例的结构示意图。如图3所示，该装置包括：数据准备模块310、增强提示数据构建模块320、模型训练模块330和评论生成模块340。

数据准备模块310，用于获取贴文评论文件、角色信息图谱以及新闻事件知识库；其中，贴文评论文件包括多个贴文数据以及多个贴文数据的评论数据。

增强提示数据构建模块320，用于针对贴文评论文件中的每个贴文数据，利用角色信息抽取模型从角色信息图谱中抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型从新闻事件知识库中抽取与该贴文数据相匹配的知识数据，为贴文数据确定对应的目标评论立场，并根据该贴文数据、与该贴文数据相匹配的人物角色数据、与该贴文数据相匹配的知识数据、目标评论立场以及该贴文数据的评论数据得到该贴文数据对应的增强提示数据。

在一种可选的方式中，角色信息图谱包括多个人物角色数据；增强提示数据构建模块320进一步用于：将该贴文数据中的贴文文本和角色信息图谱中的多个人物角色数据输入至角色信息抽取模型中，通过角色信息抽取模型计算贴文文本与多个人物角色数据之间的匹配概率；按照匹配概率从高到低的顺序对多个人物角色数据进行排列得到第一排列结果，从第一排列结果中选取排列靠前的第一预设数量的人物角色数据作为与该贴文数据相匹配的人物角色数据。

在一种可选的方式中，人物角色数据的数据形式为包含有多个数据项的多元组；角色信息抽取模型的训练过程包括：从贴文评论文件中提取贴文数据，从角色信息图谱中提取人物角色数据并将人物角色数据由多元组形式转换为预设文本形式得到转换描述文本；将贴文数据中的贴文文本和转换描述文本作为第一样本数据输入至初始角色信息抽取模型中，通过初始角色信息抽取模型计算贴文文本与转换描述文本之间的匹配程度并通过归一化指数函数得到匹配概率计算值；根据匹配概率计算值和第一样本数据的预设样本标签，计算损失函数，根据损失函数调整初始角色信息抽取模型的权重参数，直至满足迭代结束条件，得到经过训练的角色信息抽取模型。

在一种可选的方式中，新闻事件知识库包括各个新闻事件对应的多个知识数据；增强提示数据构建模块320进一步用于：根据该贴文数据中的新闻主题确定目标新闻事件，从新闻事件知识库中提取目标新闻事件对应的多个知识数据；利用事件知识抽取模型，计算该贴文数据中的贴文文本的embedding向量以及目标新闻事件对应的每个知识数据的embedding向量；计算贴文文本的embedding向量与每个知识数据的embedding向量之间的相似度；按照相似度从高到低的顺序对目标新闻事件对应的多个知识数据进行排列得到第二排列结果，从第二排列结果中选取排列靠前的第二预设数量的知识数据作为与该贴文数据相匹配的知识数据。

在一种可选的方式中，增强提示数据构建模块320进一步用于：对贴文数据中的贴文文本进行文本分词处理，得到多个分词；对多个分词分别进行标记处理和位置编码后，输入主题立场检测模型得到多个分词的特征向量，并根据多个分词的特征向量确定贴文文本的特征向量；通过全连接层和归一化指数函数对贴文文本的特征向量进行主题立场检测，得到贴文立场；依据贴文立场和预设评论立场生成规则，生成目标评论立场。

模型训练模块330，用于利用多个贴文数据对应的增强提示数据和多个贴文数据的评论数据，训练得到评论生成模型。

在一种可选的方式中，模型训练模块330进一步用于：针对每个贴文数据，对该贴文数据对应的增强提示数据中的评论数据的部分数据进行掩码处理，得到掩码增强提示数据，将掩码增强提示数据和该贴文数据的评论数据作为第二样本数据；将第二样本数据中的掩码增强提示数据输入至初始评论生成模型中，通过初始评论生成模型学习掩码增强提示数据的上下文信息，对已掩码的评论数据进行填充，得到评论生成数据；通过最大化评论生成数据与第二样本数据中的评论数据之间的对数似然函数训练得到评论生成模型。

评论生成模块340，用于根据评论生成模型，为待处理贴文数据生成对应的评论数据。

在一种可选的方式中，评论生成模块340进一步用于：利用角色信息抽取模型从角色信息图谱中抽取与待处理贴文数据相匹配的人物角色数据，利用事件知识抽取模型从新闻事件知识库中抽取与待处理贴文数据相匹配的知识数据，为待处理贴文数据确定对应的目标评论立场，并根据待处理贴文数据、与待处理贴文数据相匹配的人物角色数据、与待处理贴文数据相匹配的知识数据、目标评论立场得到待处理贴文数据对应的增强提示数据；将待处理贴文数据对应的增强提示数据输入至评论生成模型中，通过评论生成模型进行处理，为待处理贴文数据生成对应的评论数据。

采用本实施例的装置，通过对初始评论生成模型的任务微调及Prompt增强，使其能够以目标评论立场对贴文文本进行回复，从而完成新闻主题解读、阐述的目的；该装置通过构建主题立场检测模块与评论生成模块的解耦结构，使得评论生成模型专注于生成通用的评论数据，同时构建可更新的主题立场检测模型，使得评论生成模型具有更高的鲁棒性和泛化性，避免了可能出现的贴文立场与评论立场不匹配的问题；通过构建新闻事件知识库和角色信息图谱，为贴文数据的发帖方构建更详细的人物画像，同时也为评论生成模型提供更丰富的事实支撑，能够生成更为精确的、与贴文文本、新闻主题相匹配的评论文本，提升生成评论质量，保障评论内容与贴文数据对应的新闻事件信息的相关性。

本发明实施例提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的一种基于贴文数据的评论生成方法。

可执行指令具体可以用于使得处理器执行以下操作：

图4示出了本发明计算设备实施例的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：

处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。

其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口，用于与其它设备比如客户端或其它服务器等的网元通信。处理器，用于执行程序，具体可以执行上述一种基于贴文数据的评论生成方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器可能是中央处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序具体可以用于使得处理器执行以下操作：

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种基于贴文数据的评论生成方法，其特征在于，包括：

获取贴文评论文件、角色信息图谱以及新闻事件知识库；其中，所述贴文评论文件包括多个贴文数据以及多个贴文数据的评论数据；

针对所述贴文评论文件中的每个贴文数据，利用角色信息抽取模型从所述角色信息图谱中抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型从所述新闻事件知识库中抽取与该贴文数据相匹配的知识数据，为所述贴文数据确定对应的目标评论立场，并根据该贴文数据、与该贴文数据相匹配的人物角色数据、与该贴文数据相匹配的知识数据、所述目标评论立场以及该贴文数据的评论数据得到该贴文数据对应的增强提示数据；

将待处理贴文数据对应的增强提示数据输入至所述评论生成模型中，通过所述评论生成模型进行处理，为待处理贴文数据生成对应的评论数据；

其中，所述利用多个贴文数据对应的增强提示数据和多个贴文数据的评论数据，训练得到评论生成模型进一步包括：

针对每个贴文数据，对该贴文数据对应的增强提示数据中的评论数据的部分数据进行掩码处理，得到掩码增强提示数据，将所述掩码增强提示数据和该贴文数据的评论数据作为第二样本数据；

将所述第二样本数据中的掩码增强提示数据输入至初始评论生成模型中，通过所述初始评论生成模型学习所述掩码增强提示数据的上下文信息，对已掩码的评论数据进行填充，得到评论生成数据；

通过最大化所述评论生成数据与所述第二样本数据中的评论数据之间的对数似然函数训练得到评论生成模型。

2.根据权利要求1所述的方法，其特征在于，所述角色信息图谱包括多个人物角色数据；

所述利用角色信息抽取模型从所述角色信息图谱中抽取与该贴文数据相匹配的人物角色数据进一步包括：

将该贴文数据中的贴文文本和所述角色信息图谱中的多个人物角色数据输入至所述角色信息抽取模型中，通过所述角色信息抽取模型计算所述贴文文本与多个人物角色数据之间的匹配概率；

按照匹配概率从高到低的顺序对多个人物角色数据进行排列得到第一排列结果，从所述第一排列结果中选取排列靠前的第一预设数量的人物角色数据作为与该贴文数据相匹配的人物角色数据。

3.根据权利要求1所述的方法，其特征在于，所述人物角色数据的数据形式为包含有多个数据项的多元组；

所述角色信息抽取模型的训练过程包括：

从贴文评论文件中提取贴文数据，从所述角色信息图谱中提取人物角色数据并将所述人物角色数据由多元组形式转换为预设文本形式得到转换描述文本；

将所述贴文数据中的贴文文本和所述转换描述文本作为第一样本数据输入至初始角色信息抽取模型中，通过所述初始角色信息抽取模型计算所述贴文文本与所述转换描述文本之间的匹配程度并通过归一化指数函数得到匹配概率计算值；

根据所述匹配概率计算值和所述第一样本数据的预设样本标签，计算损失函数，根据所述损失函数调整所述初始角色信息抽取模型的权重参数，直至满足迭代结束条件，得到经过训练的角色信息抽取模型。

4.根据权利要求1所述的方法，其特征在于，所述新闻事件知识库包括各个新闻事件对应的多个知识数据；

所述利用事件知识抽取模型从所述新闻事件知识库中抽取与该贴文数据相匹配的知识数据进一步包括：

根据该贴文数据中的新闻主题确定目标新闻事件，从所述新闻事件知识库中提取所述目标新闻事件对应的多个知识数据；

利用所述事件知识抽取模型，计算该贴文数据中的贴文文本的embedding向量以及所述目标新闻事件对应的每个知识数据的embedding向量；

计算所述贴文文本的embedding向量与每个知识数据的embedding向量之间的相似度；

按照相似度从高到低的顺序对所述目标新闻事件对应的多个知识数据进行排列得到第二排列结果，从所述第二排列结果中选取排列靠前的第二预设数量的知识数据作为与该贴文数据相匹配的知识数据。

5.根据权利要求1所述的方法，其特征在于，所述为所述贴文数据确定对应的目标评论立场进一步包括：

对所述贴文数据中的贴文文本进行文本分词处理，得到多个分词；

对多个分词分别进行标记处理和位置编码后，输入主题立场检测模型得到多个分词的特征向量，并根据多个分词的特征向量确定所述贴文文本的特征向量；

通过全连接层和归一化指数函数对所述贴文文本的特征向量进行主题立场检测，得到贴文立场；

依据所述贴文立场和预设评论立场生成规则，生成所述目标评论立场。

6.一种基于贴文数据的评论生成装置，其特征在于，包括：

数据准备模块，用于获取贴文评论文件、角色信息图谱以及新闻事件知识库；其中，所述贴文评论文件包括多个贴文数据以及多个贴文数据的评论数据；

增强提示数据构建模块，用于针对所述贴文评论文件中的每个贴文数据，利用角色信息抽取模型从所述角色信息图谱中抽取与该贴文数据相匹配的人物角色数据，利用事件知识抽取模型从所述新闻事件知识库中抽取与该贴文数据相匹配的知识数据，为所述贴文数据确定对应的目标评论立场，并根据该贴文数据、与该贴文数据相匹配的人物角色数据、与该贴文数据相匹配的知识数据、所述目标评论立场以及该贴文数据的评论数据得到该贴文数据对应的增强提示数据；

评论生成模块，用于将待处理贴文数据对应的增强提示数据输入至所述评论生成模型中，通过所述评论生成模型进行处理，为待处理贴文数据生成对应的评论数据；

其中，所述模型训练模块进一步用于：

7.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的一种基于贴文数据的评论生成方法对应的操作。

8.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-5中任一项所述的一种基于贴文数据的评论生成方法对应的操作。