CN116186420B

CN116186420B - 一种基于用户偏好的个性化新闻标题生成方法

Info

Publication number: CN116186420B
Application number: CN202310485640.5A
Authority: CN
Inventors: 张莹; 于胜龙; 郭文雅; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-06-27
Anticipated expiration: 2043-05-04
Also published as: CN116186420A

Abstract

本发明涉及大数据技术领域，提供一种基于用户偏好的个性化新闻标题生成方法，该方法包括：采集用户浏览记录，抽取所述浏览记录中的实体信息；抽取所述浏览记录中包括用户偏好的文字特征信息；将所述实体信息和所述文字特征信息融合并引入所需生成标题的新闻内容建模，获得生成模型，通过所述生成模型生成原始标题；强化学习所述生成模型，通过强化学习后的生成模型生成个性化标题。该方法能够基于用户偏好使用生成模型来为用户提供个性化的新闻标题，有效地利用了用户的偏好信息，同时平衡了个性化信息与标题，生成的标题更加符合用户的口味，另外也拥有了更高的准确率和流畅度。

Description

一种基于用户偏好的个性化新闻标题生成方法

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于用户偏好的个性化新闻标题生成方法。

背景技术

现代社会之中，新闻已经成为人们获取信息的重要途径之一，也是人们了解社会、了解世界的重要方式之一。然而，由于新闻数量过多，且每个人的阅读兴趣不同，使得用户很难找到自己感兴趣的新闻。因此，如何为用户提供个性化的新闻推荐服务成为了一个研究热点。而新闻标题作为新闻的重要组成部分之一，不仅可以概括新闻的主题，还可以吸引用户的注意力。因此，如何生成符合用户口味的新闻标题也成为了一个研究热点。

目前，已有一些研究通过分析用户的行为、兴趣等信息，为用户提供个性化的新闻推荐服务。例如，可以根据用户的点击历史、搜索历史、社交网络历史等信息，推荐用户可能感兴趣的新闻。然而，这种方法并不能完全解决问题。首先，用户的点击、搜索和社交网络历史不能完全反映用户的兴趣，因为用户可能没有点击、搜索或分享他们真正感兴趣的新闻，或者用户的行为数据并不充分。其次，即使给用户推荐了一些新闻，如果新闻标题不能吸引用户的注意力，用户也不会去点击查看。因此，如何生成符合用户口味的新闻标题仍然是一个挑战。

在现有方法中，大部分方法未考虑用户的个性化信息，为所有用户产生一致的标题，该标题仅仅与新闻陈述的事实有关，概括了新闻的主要内容，而没有着重突出新闻中用户感兴趣的部分。仅有的部分考虑个性化标题生成任务的模型未能明确的捕捉到用户对新闻标题的偏好，这些方法统一建模了新闻事实与用户偏好，导致两类信息相互混淆，对生成标题的质量产生了影响。此外，当前的个性化标题生成技术仍存在一些挑战和问题，不能在生成过程中充分考虑用户的兴趣偏好和新闻内容的细节，同时也不能平衡标题生成的准确性和可读性，也无法保证生成的速度与质量。

发明内容

为此，本发明提供一种基于用户偏好的个性化新闻标题生成方法，利用用户的偏好信息，生成与用户偏好匹配的标题。

本发明提供一种基于用户偏好的个性化新闻标题生成方法，包括如下步骤：

S100：采集用户的浏览记录，抽取所述浏览记录中的实体信息；

S200：抽取所述浏览记录中包括用户偏好的文字特征信息；

S300：将所述实体信息和所述文字特征信息融合并引入所需生成标题的新闻内容建模，获得生成模型，通过所述生成模型生成原始标题；

S400：强化学习所述生成模型，通过强化学习后的生成模型生成个性化标题。

根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法，步骤S100包括：

S111：采集用户浏览记录；

S112：通过自然语言处理技术在所述浏览记录中分离实体词汇，生成实体信号；

S113：计算所有所述实体信号的嵌入平均值，生成实体级别用户表征；

S114：计算所述浏览记录中所述实体级别用户表征的平均值，生成实体信息。

根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法，所述文字特征信息包括语法信息，抽取所述语法信息的步骤如下：

S211：分离所述浏览记录中的语法结构，生成语法信号；

S212：识别所述语法信号中各单词间的依赖关系，生成语法信息。

根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法，所述文字特征信息包括语言风格信息，抽取所述语言风格信息的步骤如下：

S221：分离所述浏览记录中的语言风格词汇；

S222：基于语料库预训练语言风格分类模型，通过所述语言风格分类模型训练所述语言风格词汇，生成语言风格信号；

S223：计算所述语言风格信号在用户阅读历史中占比平均值，生成语言风格信息。

根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法，步骤S300中通过所述生成模型生成原始标题时还包括，使用非确定性的实体标签替换所述原始标题中的实体词汇。

根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法，步骤S300中通过基于指针的生成式网络，将所述实体信息和所述文字特征信息融合。

根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法，步骤S400中强化学习所述生成模型包括：

S411：对所述原始标题进行质量评估，获得与所述原始标题对应的第一质量评估指标；

S412：融合所述第一质量评估指标和所述文字特征信息，获得第二质量评估指标；

S413：通过所述第二质量评估指标对所述生成模型生成的中间文本进行监督，通过监督反馈的信号，调整所述生成模型的参数，以获得所述生成模型最大化期望的总回报。

根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法，步骤S413中，任一所述中间文本生成后，所述中间文本的个性化奖励表示如下：

其中，

为中间文本的个性化奖励，/>

为通过实体信息和中间文本实体级别的相似度计算得到的奖励，/>

为通过语法信息和中间文本语法结构的相似度计算得到的奖励，/>

为通过语言风格信息和中间文本语言风格结构的相似度计算得到的奖励。

本发明提供的一种基于用户偏好的个性化新闻标题生成方法，通过抽取用户的浏览历史中对实体、语法和语言风格的偏好，基于用户偏好使用生成模型来为用户提供个性化的新闻标题，有效地利用了用户的偏好信息，同时平衡了个性化信息与标题，生成的标题更加符合用户的口味，另外也拥有了更高的准确率和流畅度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于用户偏好的个性化新闻标题生成方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

在本发明实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1描述本发明提供的实施例。

其中，步骤S100包括：

S111：采集用户浏览记录；

在一些实施例中，本发明对于每个用户抽取实体信号，使用标题中出现的所有实体词汇嵌入的平均值代表新闻的实体级别用户表征，而实体信息则被计算为阅读历史中实体级别的平均值，直观地说，实体信息表示用户在实体层面上对新闻事实的关注分布。

在一些实施例中，预训练一个分类模型，以计算源新闻中实体出现在标题当中的概率，对于一篇文章和其非个性化标题，本发明使用SpacyNER模型分别得到该文章对应的标签和该非个性化标题对应的标签，能够表示文章和标题中对应位置的词汇是否为实体。

在一些实施例中，在预训练中，实体信息被替换为一个全句向量，全句向量是所有用户实体信号向量的平均值，使用预训练的BERT模型作为编码器编码文章并得到隐藏层，之后使用线性层计算实体出现在非个性化标题中的概率，计算公式表示如下：

其中，

为计算得到的实体出现在非个性化标题中出现的概率，/>

为sigmiod函数，/>

为编码文章得到的隐藏层，/>

为非个性化标题的标签，/>

实体信号，/>

为第一可训练参数，/>

为第二可训练参数，/>

为第三可训练参数，/>

为第四可训练参数。

S200：抽取所述浏览记录中包括用户偏好的文字特征信息；

其中，所述文字特征信息包括语法信息，抽取所述语法信息的步骤如下：

S211：分离所述浏览记录中的语法结构，生成语法信号；

在一些实施例中，从阅读历史中提取语法信息来建模用户的偏好，并将该语法信息注入到生成模型中，本发明首先通过使用预训练语言模型将标题编码至句向量，获得新闻的语法向量，然后，用户的语法信息被表示为阅读历史中新闻语法向量的平均值。

其中，所述文字特征信息包括语言风格信息，抽取所述语言风格信息的步骤如下：

S221：分离所述浏览记录中的语言风格词汇；

在一些实施例中，除了语法信息外，用户偏好还包括关于标题的语言风格信息。为了生成用户特定风格的标题，本发明提出了一个由语言标题风格信息指导的双解码器方法，在额外语料库的基础上，本发明训练了语言风格分类模型，该模型由预训练的BERT编码器加上线性层组成，利用语言风格分类模型来获得标题的语言风格代表语言风格信号，其中语言风格信号为分类器的输出，可以代表标题语言中不同风格的百分比，用户的语言风格信息可以表示为阅读历史中标题信号的平均值。

S300：将所述实体信息、所述语法信息和所述语言风格信息融合并引入所需生成标题的新闻内容建模，获得生成模型，通过所述生成模型生成原始标题；

其中，步骤S300中通过所述生成模型生成原始标题时还包括，使用非确定性的实体标签替换所述原始标题中的实体词汇。

其中，步骤S300中通过基于指针的生成式网络，将所述实体信息和所述文字特征信息融合。

进一步的，为了尽可能消除实体的影响，使生成模型更专注于标题的语法结构，使用实体的标签替换对应实体，例如詹姆斯在打篮球，会被替换为某人在打篮球，这样一来语法信息有能力显示用户在语法结构方面的偏好，并有助于引导生成模型产生特定结构的标题。

在一些实施例中，使用transformer模型作为编码器将所需生成标题的新闻内容进行编码，可以得到隐藏层向量，对于解码步骤而言，解码器隐藏向量，由当前步骤的输入词汇得到，同时本发明采取了多种融合方式，将实体信息、语法信息和语言风格信息融合至生成模型中，在互不影响的同时能够生成个性化的新闻标题，使用注意力机制融合的过程表示为：

其中，

为第一计算中间值，/>

为第五可训练参数，/>

为所需生成标题的新闻内容编码得到的隐藏层向量，/>

为第六可训练参数，/>

为第七可训练参数，/>

为解码器在/>

时刻的输入，/>

为第八可训练参数，/>

为语法信息，/>

为第九可训练参数，/>

为注意力向量中/>

维度的值，/>

为步骤/>

时的内容定量。

在一些实施例中，为了生成不同风格的标题，本发明提出了一种双解码器方法，解码器词汇分布的产生通过如下公式计算：

其中，

为第二计算中间值，/>

为第十可训练参数，/>

为第十一可训练参数，/>

为/>

时刻的第二计算中间值的结果，/>

为/>

时刻的第二计算中间值的结果，/>

为生成模型中生成词作为结果的概率,[]为拼接运算，/>

为语言风格信息，

为第十二可训练参数，/>

为第十三可训练参数。

在一些实施例中，最终的词汇分布通过如下公式计算：

其中，

为生成模型中非复制的生成次作为结果的概率，/>

为第十四可训练参数，/>

为生成模型中生成词成为部分标题的概率，/>

生成模型中的生成词。

其中，步骤S400中强化学习所述生成模型包括：

S412：融合所述第一质量评估指标、实体信息和所述文字特征信息，获得第二质量评估指标；

S413：通过所述第二质量评估指标对所述生成模型生成的中间文本进行监督，通过所述监督反馈的信号，调整所述生成模型的参数，以获得所述生成模型最大化期望的总回报。

其中，步骤S413中，任一所述中间文本生成后，所述中间文本的个性化奖励表示如下：

其中，

为中间文本的个性化奖励，/>

在一些实施例中，基线奖励被用来减少奖励的方差。本发明使用一个线性模型来估计，强化学习中的反射损失的计算方法是：

其中，

为强化学习中反射损失，/>

为组成标题中生成词的个数，/>

强化学习中基线奖励。

在一些实施例中，为了在保证生成的标题可读性的同时尽可能实现个性化，在训练过程中把多种结合起来，最终的损失函数是：

其中，

为最大似然损失，/>

强化学习中最终损失，/>

为超参数。

在一些实施例中，在训练时，生成模型首先利用最大似然估计损失进行预训练以生成原始标题，然后在强化学习阶段生成个性化的标题，预训练的目的是最小化生成原始标题的负对数似然函数，强化学习的目的在此基础上生成个性化的标题。

在一些实施例中，在实施阶段采用的数据集是PENS数据集，该数据集是由微软研究所发布的大型专门用于个性化标题生成任务的数据集，其中包含了来自新浪网的用户阅读新闻和其它信息的记录，该数据集包括共计978个用户的16680次操作记录。PENS数据集提供了包括用户ID、文章ID、时间戳、用户浏览和点击行为以及文章分类信息等多种类型的数据，这使得它可以被用于各种不同的推荐系统研究，如基于内容的推荐、协同过滤、深度学习模型。PENS数据集中的每篇新闻都包含了新闻正文和其原始标题，其中，PENS训练集记录了用户的阅读历史，测试集包含了用户的阅读历史和用户人工标注形成的个性化标题，在评估过程中，将人工标注的个性化标题作为模型的生成目标。

在一些实施例中，对于信号提取过程,本发明预先以

学习率训练一个基于Bert模型的实体分类模型，作为实体预测器，生成实体先验概率，对于语言风格信息，在额外的语言风格相关语料库上以学习率/>

训练了对应的分类器，对于语法信息，本发明使用SimCSE预训练模型来提取语法信号。对于标题的生成，在预训练阶段，本发明通过最大化文章原始标题出现的可能性来训练生成器，学习率被设置为/>

，在强化学习阶段，本发明通过最小化目标函数来训练生成器，学习率被定为/>

，其中的超参数/>

则被设置为0.5，在所有的训练过程中，使用Adam优化器进行模型优化。

本发明提供的一种基于用户偏好的个性化新闻标题生成方法，可以由用户的历史浏览记录中抽取多种信息，以判断用户的兴趣和偏好，基于用户偏好，本发明使用生成式模型来生成个性化的标题，其中生成模型采用了基于注意力机制的神经网络，从而能够有效地利用用户偏好信息，生成与用户偏好匹配的标题，此外，本发明还能够平衡个性化信息与标题的流畅度，且融合了各类型的偏好信息，具有良好的有效性和优越性，可以生成更符合用户口味的标题，也具有更高的准确率和流畅度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。