CN116186420B - 一种基于用户偏好的个性化新闻标题生成方法 - Google Patents
一种基于用户偏好的个性化新闻标题生成方法 Download PDFInfo
- Publication number
- CN116186420B CN116186420B CN202310485640.5A CN202310485640A CN116186420B CN 116186420 B CN116186420 B CN 116186420B CN 202310485640 A CN202310485640 A CN 202310485640A CN 116186420 B CN116186420 B CN 116186420B
- Authority
- CN
- China
- Prior art keywords
- information
- entity
- user
- personalized
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000013441 quality evaluation Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000001303 quality assessment method Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 235000019640 taste Nutrition 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及大数据技术领域,提供一种基于用户偏好的个性化新闻标题生成方法,该方法包括:采集用户浏览记录,抽取所述浏览记录中的实体信息;抽取所述浏览记录中包括用户偏好的文字特征信息;将所述实体信息和所述文字特征信息融合并引入所需生成标题的新闻内容建模,获得生成模型,通过所述生成模型生成原始标题;强化学习所述生成模型,通过强化学习后的生成模型生成个性化标题。该方法能够基于用户偏好使用生成模型来为用户提供个性化的新闻标题,有效地利用了用户的偏好信息,同时平衡了个性化信息与标题,生成的标题更加符合用户的口味,另外也拥有了更高的准确率和流畅度。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于用户偏好的个性化新闻标题生成方法。
背景技术
现代社会之中,新闻已经成为人们获取信息的重要途径之一,也是人们了解社会、了解世界的重要方式之一。然而,由于新闻数量过多,且每个人的阅读兴趣不同,使得用户很难找到自己感兴趣的新闻。因此,如何为用户提供个性化的新闻推荐服务成为了一个研究热点。而新闻标题作为新闻的重要组成部分之一,不仅可以概括新闻的主题,还可以吸引用户的注意力。因此,如何生成符合用户口味的新闻标题也成为了一个研究热点。
目前,已有一些研究通过分析用户的行为、兴趣等信息,为用户提供个性化的新闻推荐服务。例如,可以根据用户的点击历史、搜索历史、社交网络历史等信息,推荐用户可能感兴趣的新闻。然而,这种方法并不能完全解决问题。首先,用户的点击、搜索和社交网络历史不能完全反映用户的兴趣,因为用户可能没有点击、搜索或分享他们真正感兴趣的新闻,或者用户的行为数据并不充分。其次,即使给用户推荐了一些新闻,如果新闻标题不能吸引用户的注意力,用户也不会去点击查看。因此,如何生成符合用户口味的新闻标题仍然是一个挑战。
在现有方法中,大部分方法未考虑用户的个性化信息,为所有用户产生一致的标题,该标题仅仅与新闻陈述的事实有关,概括了新闻的主要内容,而没有着重突出新闻中用户感兴趣的部分。仅有的部分考虑个性化标题生成任务的模型未能明确的捕捉到用户对新闻标题的偏好,这些方法统一建模了新闻事实与用户偏好,导致两类信息相互混淆,对生成标题的质量产生了影响。此外,当前的个性化标题生成技术仍存在一些挑战和问题,不能在生成过程中充分考虑用户的兴趣偏好和新闻内容的细节,同时也不能平衡标题生成的准确性和可读性,也无法保证生成的速度与质量。
发明内容
为此,本发明提供一种基于用户偏好的个性化新闻标题生成方法,利用用户的偏好信息,生成与用户偏好匹配的标题。
本发明提供一种基于用户偏好的个性化新闻标题生成方法,包括如下步骤:
S100:采集用户的浏览记录,抽取所述浏览记录中的实体信息;
S200:抽取所述浏览记录中包括用户偏好的文字特征信息;
S300:将所述实体信息和所述文字特征信息融合并引入所需生成标题的新闻内容建模,获得生成模型,通过所述生成模型生成原始标题;
S400:强化学习所述生成模型,通过强化学习后的生成模型生成个性化标题。
根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法,步骤S100包括:
S111:采集用户浏览记录;
S112:通过自然语言处理技术在所述浏览记录中分离实体词汇,生成实体信号;
S113:计算所有所述实体信号的嵌入平均值,生成实体级别用户表征;
S114:计算所述浏览记录中所述实体级别用户表征的平均值,生成实体信息。
根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法,所述文字特征信息包括语法信息,抽取所述语法信息的步骤如下:
S211:分离所述浏览记录中的语法结构,生成语法信号;
S212:识别所述语法信号中各单词间的依赖关系,生成语法信息。
根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法,所述文字特征信息包括语言风格信息,抽取所述语言风格信息的步骤如下:
S221:分离所述浏览记录中的语言风格词汇;
S222:基于语料库预训练语言风格分类模型,通过所述语言风格分类模型训练所述语言风格词汇,生成语言风格信号;
S223:计算所述语言风格信号在用户阅读历史中占比平均值,生成语言风格信息。
根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法,步骤S300中通过所述生成模型生成原始标题时还包括,使用非确定性的实体标签替换所述原始标题中的实体词汇。
根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法,步骤S300中通过基于指针的生成式网络,将所述实体信息和所述文字特征信息融合。
根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法,步骤S400中强化学习所述生成模型包括:
S411:对所述原始标题进行质量评估,获得与所述原始标题对应的第一质量评估指标;
S412:融合所述第一质量评估指标和所述文字特征信息,获得第二质量评估指标;
S413:通过所述第二质量评估指标对所述生成模型生成的中间文本进行监督,通过监督反馈的信号,调整所述生成模型的参数,以获得所述生成模型最大化期望的总回报。
根据本发明提供的一种基于用户偏好的个性化新闻标题生成方法,步骤S413中,任一所述中间文本生成后,所述中间文本的个性化奖励表示如下:
其中,为中间文本的个性化奖励,/>为通过实体信息和中间文本实体级别的相似度计算得到的奖励,/>为通过语法信息和中间文本语法结构的相似度计算得到的奖励,/>为通过语言风格信息和中间文本语言风格结构的相似度计算得到的奖励。
本发明提供的一种基于用户偏好的个性化新闻标题生成方法,通过抽取用户的浏览历史中对实体、语法和语言风格的偏好,基于用户偏好使用生成模型来为用户提供个性化的新闻标题,有效地利用了用户的偏好信息,同时平衡了个性化信息与标题,生成的标题更加符合用户的口味,另外也拥有了更高的准确率和流畅度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于用户偏好的个性化新闻标题生成方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
下面结合图1描述本发明提供的实施例。
本发明提供一种基于用户偏好的个性化新闻标题生成方法,包括如下步骤:
S100:采集用户的浏览记录,抽取所述浏览记录中的实体信息;
其中,步骤S100包括:
S111:采集用户浏览记录;
S112:通过自然语言处理技术在所述浏览记录中分离实体词汇,生成实体信号;
S113:计算所有所述实体信号的嵌入平均值,生成实体级别用户表征;
S114:计算所述浏览记录中所述实体级别用户表征的平均值,生成实体信息。
在一些实施例中,本发明对于每个用户抽取实体信号,使用标题中出现的所有实体词汇嵌入的平均值代表新闻的实体级别用户表征,而实体信息则被计算为阅读历史中实体级别的平均值,直观地说,实体信息表示用户在实体层面上对新闻事实的关注分布。
在一些实施例中,预训练一个分类模型,以计算源新闻中实体出现在标题当中的概率,对于一篇文章和其非个性化标题,本发明使用SpacyNER模型分别得到该文章对应的标签和该非个性化标题对应的标签,能够表示文章和标题中对应位置的词汇是否为实体。
在一些实施例中,在预训练中,实体信息被替换为一个全句向量,全句向量是所有用户实体信号向量的平均值,使用预训练的BERT模型作为编码器编码文章并得到隐藏层,之后使用线性层计算实体出现在非个性化标题中的概率,计算公式表示如下:
其中,为计算得到的实体出现在非个性化标题中出现的概率,/>为sigmiod函数,/>为编码文章得到的隐藏层,/>为非个性化标题的标签,/>实体信号,/>为第一可训练参数,/>为第二可训练参数,/>为第三可训练参数,/>为第四可训练参数。
S200:抽取所述浏览记录中包括用户偏好的文字特征信息;
其中,所述文字特征信息包括语法信息,抽取所述语法信息的步骤如下:
S211:分离所述浏览记录中的语法结构,生成语法信号;
S212:识别所述语法信号中各单词间的依赖关系,生成语法信息。
在一些实施例中,从阅读历史中提取语法信息来建模用户的偏好,并将该语法信息注入到生成模型中,本发明首先通过使用预训练语言模型将标题编码至句向量,获得新闻的语法向量,然后,用户的语法信息被表示为阅读历史中新闻语法向量的平均值。
其中,所述文字特征信息包括语言风格信息,抽取所述语言风格信息的步骤如下:
S221:分离所述浏览记录中的语言风格词汇;
S222:基于语料库预训练语言风格分类模型,通过所述语言风格分类模型训练所述语言风格词汇,生成语言风格信号;
S223:计算所述语言风格信号在用户阅读历史中占比平均值,生成语言风格信息。
在一些实施例中,除了语法信息外,用户偏好还包括关于标题的语言风格信息。为了生成用户特定风格的标题,本发明提出了一个由语言标题风格信息指导的双解码器方法,在额外语料库的基础上,本发明训练了语言风格分类模型,该模型由预训练的BERT编码器加上线性层组成,利用语言风格分类模型来获得标题的语言风格代表语言风格信号,其中语言风格信号为分类器的输出,可以代表标题语言中不同风格的百分比,用户的语言风格信息可以表示为阅读历史中标题信号的平均值。
S300:将所述实体信息、所述语法信息和所述语言风格信息融合并引入所需生成标题的新闻内容建模,获得生成模型,通过所述生成模型生成原始标题;
其中,步骤S300中通过所述生成模型生成原始标题时还包括,使用非确定性的实体标签替换所述原始标题中的实体词汇。
其中,步骤S300中通过基于指针的生成式网络,将所述实体信息和所述文字特征信息融合。
进一步的,为了尽可能消除实体的影响,使生成模型更专注于标题的语法结构,使用实体的标签替换对应实体,例如詹姆斯在打篮球,会被替换为某人在打篮球,这样一来语法信息有能力显示用户在语法结构方面的偏好,并有助于引导生成模型产生特定结构的标题。
在一些实施例中,使用transformer模型作为编码器将所需生成标题的新闻内容进行编码,可以得到隐藏层向量,对于解码步骤而言,解码器隐藏向量,由当前步骤的输入词汇得到,同时本发明采取了多种融合方式,将实体信息、语法信息和语言风格信息融合至生成模型中,在互不影响的同时能够生成个性化的新闻标题,使用注意力机制融合的过程表示为:
其中,为第一计算中间值,/>为第五可训练参数,/>为所需生成标题的新闻内容编码得到的隐藏层向量,/>为第六可训练参数,/>为第七可训练参数,/>为解码器在/>时刻的输入,/>为第八可训练参数,/>为语法信息,/>为第九可训练参数,/>为注意力向量中/>维度的值,/>为步骤/>时的内容定量。
在一些实施例中,为了生成不同风格的标题,本发明提出了一种双解码器方法,解码器词汇分布的产生通过如下公式计算:
其中,为第二计算中间值,/>为第十可训练参数,/>为第十一可训练参数,/>为/>时刻的第二计算中间值的结果,/>为/>时刻的第二计算中间值的结果,/>为生成模型中生成词作为结果的概率,[]为拼接运算,/>为语言风格信息,为第十二可训练参数,/>为第十三可训练参数。
在一些实施例中,最终的词汇分布通过如下公式计算:
S400:强化学习所述生成模型,通过强化学习后的生成模型生成个性化标题。
其中,步骤S400中强化学习所述生成模型包括:
S411:对所述原始标题进行质量评估,获得与所述原始标题对应的第一质量评估指标;
S412:融合所述第一质量评估指标、实体信息和所述文字特征信息,获得第二质量评估指标;
S413:通过所述第二质量评估指标对所述生成模型生成的中间文本进行监督,通过所述监督反馈的信号,调整所述生成模型的参数,以获得所述生成模型最大化期望的总回报。
其中,步骤S413中,任一所述中间文本生成后,所述中间文本的个性化奖励表示如下:
其中,为中间文本的个性化奖励,/>为通过实体信息和中间文本实体级别的相似度计算得到的奖励,/>为通过语法信息和中间文本语法结构的相似度计算得到的奖励,/>为通过语言风格信息和中间文本语言风格结构的相似度计算得到的奖励。
在一些实施例中,基线奖励被用来减少奖励的方差。本发明使用一个线性模型来估计,强化学习中的反射损失的计算方法是:
在一些实施例中,为了在保证生成的标题可读性的同时尽可能实现个性化,在训练过程中把多种结合起来,最终的损失函数是:
在一些实施例中,在训练时,生成模型首先利用最大似然估计损失进行预训练以生成原始标题,然后在强化学习阶段生成个性化的标题,预训练的目的是最小化生成原始标题的负对数似然函数,强化学习的目的在此基础上生成个性化的标题。
在一些实施例中,在实施阶段采用的数据集是PENS数据集,该数据集是由微软研究所发布的大型专门用于个性化标题生成任务的数据集,其中包含了来自新浪网的用户阅读新闻和其它信息的记录,该数据集包括共计978个用户的16680次操作记录。PENS数据集提供了包括用户ID、文章ID、时间戳、用户浏览和点击行为以及文章分类信息等多种类型的数据,这使得它可以被用于各种不同的推荐系统研究,如基于内容的推荐、协同过滤、深度学习模型。PENS数据集中的每篇新闻都包含了新闻正文和其原始标题,其中,PENS训练集记录了用户的阅读历史,测试集包含了用户的阅读历史和用户人工标注形成的个性化标题,在评估过程中,将人工标注的个性化标题作为模型的生成目标。
在一些实施例中,对于信号提取过程,本发明预先以学习率训练一个基于Bert模型的实体分类模型,作为实体预测器,生成实体先验概率,对于语言风格信息,在额外的语言风格相关语料库上以学习率/>训练了对应的分类器,对于语法信息,本发明使用SimCSE预训练模型来提取语法信号。对于标题的生成,在预训练阶段,本发明通过最大化文章原始标题出现的可能性来训练生成器,学习率被设置为/>,在强化学习阶段,本发明通过最小化目标函数来训练生成器,学习率被定为/>,其中的超参数/>则被设置为0.5,在所有的训练过程中,使用Adam优化器进行模型优化。
本发明提供的一种基于用户偏好的个性化新闻标题生成方法,可以由用户的历史浏览记录中抽取多种信息,以判断用户的兴趣和偏好,基于用户偏好,本发明使用生成式模型来生成个性化的标题,其中生成模型采用了基于注意力机制的神经网络,从而能够有效地利用用户偏好信息,生成与用户偏好匹配的标题,此外,本发明还能够平衡个性化信息与标题的流畅度,且融合了各类型的偏好信息,具有良好的有效性和优越性,可以生成更符合用户口味的标题,也具有更高的准确率和流畅度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于用户偏好的个性化新闻标题生成方法,其特征在于,包括如下步骤:
S100:采集用户的浏览记录,抽取所述浏览记录中的实体信息;
S200:抽取所述浏览记录中包括用户偏好的文字特征信息;
S300:将所述实体信息和所述文字特征信息融合并引入所需生成标题的新闻内容建模,获得生成模型,通过所述生成模型生成原始标题;
S400:强化学习所述生成模型,通过强化学习后的生成模型生成个性化标题。
2.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S100包括:
S111:采集用户浏览记录;
S112:通过自然语言处理技术在所述浏览记录中分离实体词汇,生成实体信号;
S113:计算所有所述实体信号的嵌入平均值,生成实体级别用户表征;
S114:计算所述浏览记录中所述实体级别用户表征的平均值,生成实体信息。
3.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,所述文字特征信息包括语法信息,抽取所述语法信息的步骤如下:
S211:分离所述浏览记录中的语法结构,生成语法信号;
S212:识别所述语法信号中各单词间的依赖关系,生成语法信息。
4.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,所述文字特征信息包括语言风格信息,抽取所述语言风格信息的步骤如下:
S221:分离所述浏览记录中的语言风格词汇;
S222:基于语料库预训练语言风格分类模型,通过所述语言风格分类模型训练所述语言风格词汇,生成语言风格信号;
S223:计算所述语言风格信号在用户阅读历史中占比平均值,生成语言风格信息。
5.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S300中通过所述生成模型生成原始标题时还包括,使用非确定性的实体标签替换所述原始标题中的实体词汇。
6.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S300中通过基于指针的生成式网络,将所述实体信息和所述文字特征信息融合。
7.根据权利要求1所述的一种基于用户偏好的个性化新闻标题生成方法,其特征在于,步骤S400中强化学习所述生成模型包括:
S411:对所述原始标题进行质量评估,获得与所述原始标题对应的第一质量评估指标;
S412:融合所述第一质量评估指标、实体信息和所述文字特征信息,获得第二质量评估指标;
S413:通过所述第二质量评估指标对所述生成模型生成的中间文本进行监督,通过监督反馈的信号,调整所述生成模型的参数,以获得所述生成模型最大化期望的总回报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485640.5A CN116186420B (zh) | 2023-05-04 | 2023-05-04 | 一种基于用户偏好的个性化新闻标题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485640.5A CN116186420B (zh) | 2023-05-04 | 2023-05-04 | 一种基于用户偏好的个性化新闻标题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116186420A CN116186420A (zh) | 2023-05-30 |
CN116186420B true CN116186420B (zh) | 2023-06-27 |
Family
ID=86446663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310485640.5A Active CN116186420B (zh) | 2023-05-04 | 2023-05-04 | 一种基于用户偏好的个性化新闻标题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186420B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9697544B1 (en) * | 2003-07-16 | 2017-07-04 | Carfax, Inc. | System and method for generating information relating to a vehicle's history |
CN107944063A (zh) * | 2018-01-16 | 2018-04-20 | 马上消费金融股份有限公司 | 一种基于主题模型与用户群组的新闻推荐方法及系统 |
CN110334202A (zh) * | 2019-03-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 |
CN111241816A (zh) * | 2020-01-22 | 2020-06-05 | 北京工业大学 | 一种新闻标题自动生成方法 |
CN111949761A (zh) * | 2020-07-06 | 2020-11-17 | 合肥工业大学 | 考虑情感和主题的对话问题生成方法和系统、存储介质 |
CN112015882A (zh) * | 2020-08-22 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 文言文题目自动生成方法和系统 |
WO2022116536A1 (zh) * | 2020-12-04 | 2022-06-09 | 上海帜讯信息技术股份有限公司 | 信息服务提供方法、装置、电子设备和存储介质 |
CN114880461A (zh) * | 2022-06-02 | 2022-08-09 | 大连理工大学 | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 |
-
2023
- 2023-05-04 CN CN202310485640.5A patent/CN116186420B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9697544B1 (en) * | 2003-07-16 | 2017-07-04 | Carfax, Inc. | System and method for generating information relating to a vehicle's history |
CN107944063A (zh) * | 2018-01-16 | 2018-04-20 | 马上消费金融股份有限公司 | 一种基于主题模型与用户群组的新闻推荐方法及系统 |
CN110334202A (zh) * | 2019-03-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 |
CN111241816A (zh) * | 2020-01-22 | 2020-06-05 | 北京工业大学 | 一种新闻标题自动生成方法 |
CN111949761A (zh) * | 2020-07-06 | 2020-11-17 | 合肥工业大学 | 考虑情感和主题的对话问题生成方法和系统、存储介质 |
CN112015882A (zh) * | 2020-08-22 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 文言文题目自动生成方法和系统 |
WO2022116536A1 (zh) * | 2020-12-04 | 2022-06-09 | 上海帜讯信息技术股份有限公司 | 信息服务提供方法、装置、电子设备和存储介质 |
CN114880461A (zh) * | 2022-06-02 | 2022-08-09 | 大连理工大学 | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116186420A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950296B (zh) | 一种基于bert微调模型的评论目标情感分析 | |
CN111930918B (zh) | 一种跨模态的双边个性化人机社交对话生成方法及系统 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN112257661A (zh) | 低俗图像的识别方法、装置、设备及计算机可读存储介质 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN112133406B (zh) | 基于情感图谱的多模态情感引导方法和系统、存储介质 | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN115311465A (zh) | 一种基于双注意力模型的图像描述方法 | |
CN114840747A (zh) | 一种基于对比学习的新闻推荐方法 | |
CN116186420B (zh) | 一种基于用户偏好的个性化新闻标题生成方法 | |
CN114049501A (zh) | 融合集束搜索的图像描述生成方法、系统、介质及设备 | |
CN113961706A (zh) | 一种基于神经网络自注意力机制的精确文本表示方法 | |
CN112801217A (zh) | 文本相似度判断方法、装置、电子设备以及可读存储介质 | |
CN110287799B (zh) | 基于深度学习的视频ucl语义标引方法与装置 | |
CN111680190A (zh) | 一种融合视觉语义信息的视频缩略图推荐方法 | |
CN114021581B (zh) | 一种基于回复增强的隐式个性化对话生成方法 | |
CN116579348A (zh) | 基于不确定语义融合的虚假新闻检测方法及系统 | |
CN110046239A (zh) | 基于情感编辑的对话方法 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN113204670B (zh) | 一种基于注意力模型的视频摘要描述生成方法及装置 | |
CN115169297A (zh) | 文本改写方法、装置、电子设备和存储介质 | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 | |
CN114912512A (zh) | 一种对图像描述的结果进行自动评估的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |