CN113515935B

CN113515935B - 一种标题生成方法、装置、终端及介质

Info

Publication number: CN113515935B
Application number: CN202010705253.4A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2023-11-07
Anticipated expiration: 2040-07-21
Also published as: CN113515935A

Abstract

本申请实施例涉及人工智能技术领域，公开了一种标题生成方法、装置、终端及介质，其中方法包括：获取待生成标题的目标文本，从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合，进一步地，可以根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题，并输出类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题。可以通过目标标题生成模型生成类别、以及与正文关键词集合之间的相似度均满足标题生成条件的标题，使得标题与对应文本的正文内容关联性更强，有利于提高标题生成的准确性。

Description

一种标题生成方法、装置、终端及介质

技术领域

本申请涉及互联网技术领域，具体涉及人工智能技术领域，尤其涉及一种标题生成方法、一种标题生成装置、一种终端及一种计算机存储介质。

背景技术

随着互联网资讯平台的发展，用户可以在各种在线资讯平台阅读相关的文章，例如，用户可以在医疗资讯平台阅读医疗科普类文章。当一篇文章编写完毕，如何给其写一个合适的标题对很多作者来说是一个较大的挑战。由于很多作者往往不了解互联网的资讯传播方式，其手工给出的标题一般会偏向平铺直叙或者过于专业，学术化，导致上传到资讯平台后，不能够有效吸引用户的关注，进而得到的点击量较少。

为了解决这一问题，目前生成标题的方式，除了将给文章打标题这类工作交给既懂相关领域(例如医疗领域)又懂互联网的行业编辑人员人工撰写以外，更偏向于参考自动标题生成领域，由资讯平台事先收集平台上已有的相关领域的资讯标题作为训练语料，构建相关领域的自动标题生成模型，后续基于该标题生成模型自动为文章打标题。但是，由于当前资讯平台使用标题党骗取用户点击阅读的行为泛滥(例如图1所示的标题党标题)，尤其是一些文不对题型的标题党将会严重影响用户体验，通过这些标题党标题作为训练语料生成的新的标题准确性无法得到保证，容易出现文不对题的问题。因此，如何使得所生成标题与对应文本的正文内容关联性更强，提高标题生成的准确性，成为一个亟待解决的问题。

发明内容

本申请实施例提供了一种标题生成方法、装置、终端及介质，可以通过目标标题生成模型生成类别、以及与正文关键词集合之间的相似度均满足标题生成条件的标题，使得标题与对应文本的正文内容关联性更强，有利于提高标题生成的准确性。

一方面，本申请实施例提供了一种标题生成方法，该方法包括：

获取待生成标题的目标文本；

从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合；

根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题；其中，目标标题生成模型是对N个子模型进行联合训练得到的，预测标题是指根据目标标题生成模型生成的类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题，N为大于1的整数；

输出目标文本的预测标题。

另一方面，本申请实施例提供了一种标题生成装置，该标题生成装置包括：

获取模块，用于获取待生成标题的目标文本；

处理模块，用于从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合；

处理模块，还用于根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题；其中，目标标题生成模型是对N个子模型进行联合训练得到的，预测标题是指根据目标标题生成模型生成的类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题，该N为大于1的整数；

输出模块，用于输出目标文本的预测标题。

相应地，本申请实施例还提供了一种终端，该终端包括输出设备、处理器和存储装置；存储装置，用于存储程序指令；处理器，用于调用程序指令并执行上述的标题生成方法。

相应地，本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述的标题生成方法。

相应地，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述提供的标题生成方法。

本申请实施例中，终端可获取待生成标题的目标文本，从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合，进一步地，可以根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题，并输出类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题。通过实施本申请实施例，可以通过目标标题生成模型生成类别、以及与正文关键词集合之间的相似度均满足标题生成条件的标题，使得标题与对应文本的正文内容关联性更强，有利于提高标题生成的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种标题党标题的场景示意图；

图2a是本申请实施例提供的一种目标标题生成模型的结构示意图；

图2b是本申请实施例提供的一种语言模型的结构示意图；

图2c是本申请实施例提供的一种标题类别识别模型的结构示意图；

图2d是本申请实施例提供的一种标题正文相似度模型的结构示意图；

图3是本申请实施例提供的一种标题生成方法的流程示意图；

图4a～图4b是本申请实施例提供的一种标题生成方法的场景示意图；

图5是本申请实施例提供的一种优化目标标题生成模型的流程示意图；

图6是本申请实施例提供的一种文本展示的场景示意图；

图7是本申请实施例提供的一种损失函数与余弦相似度之间的关系曲线图；

图8是本申请实施例提供的一种标题生成装置的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

AI(Artificial Intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，NLP(Nature Language processing，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

ML(Machine Learning，机器学习)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术。具体通过如下实施例进行说明：

为了提高生成标题的准确度，本申请实施例构建了一种包括N(N为大于1的整数)个子模型的目标标题生成模型，为便于阐述，后续以标题生成模型包括3个子模型为例，对该目标标题生成模型的具体结构进行阐述。参见图2a所示：目标标题生成模型可包括语言模型、标题类别识别模型和标题正文相似度模型和Transformer解码部分；其中，Transformer解码部分为3个子模型共同使用的共享模块，用于提取一些通用特征(例如中高维度的语义特征)。

语言模型可用于生成符合标题书写方式，又符合基本文法通顺的候选标题，该语言模型例如可以为OpenAI提出的GPT(Generative Pre-Training，生成式的预训练)模型，GPT模型是基于Transformer的语言模型，利用Transformer的结构来进行单向语言模型的训练，其标准模型结构如图2b所示。

标题类别识别模型可用于确定候选标题的类别，该类别包括文不对题型的标题党类和非标题党类，该标题类别识别模型例如可以为利用卷积神经网络对文本进行分类的文本分类算法Text CNN模型，其网络结构可如图2c所示。

标题正文相似度模型可用于确定候选标题与输入模型的正文关键词集合之间相似度的标题正文相似度，该标题正文相似度模型例如可以为NLP中的孪生网络，在NLP中孪生网络一般可用于计算两个句子的相似度，其一般网络结构如图2d所示。从图2d可以看出，孪生神经网络有两个输入(输入1和输入2),两个输入进入两个神经网络(网络1和网络2)，这两个神经网络分别将输入映射到新的空间，形成输入在新的空间中的表示，通过损失的计算，确定两个输入的相似度。在本申请实施例中孪生网络使用的网络1和网络2例如可以为LSTM(Long Short-Term Memory，长短期记忆网络)。

需要说明的是，图2a只是示意性地表征目标标题生成模型的模型结构，并不对本申请实施例所提出的目标标题生成模型的模型结构进行限定。例如，目标标题生成模型所包括的网络模型的数量并不局限于图2a所示的3个，也可以包括更多的网络模型，如4个网络模型、10个网络模型等等。上述语言模型及LSTM可以分别替换为BERT及其他GRU(GatedRecurrent Unit，门控单元网络)模型等等，本申请对此不作具体限定。

基于上述的目标标题生成模型的模型结构，本申请实施例提出了一种如图3所示的一种标题生成方法，该标题生成方法可以由终端执行，此处的终端可以包括但不限于：平板电脑、膝上计算机、笔记本电脑以及台式电脑，等等。请参见图3所示，该标题生成方法可包括以下步骤S301-S304：

S301，获取待生成标题的目标文本。

终端可以实时或周期检测是否存在生成标题的触发事件；在检测到生成标题的触发事件后，可响应于该触发事件，获取待生成标题的目标文本。其中，生成标题的触发事件可以包括以下任一种：用户上传目标文本的事件、用户上传目标文本并执行生成标题的确认操作的事件(如上传目标文本并点击终端界面中的标题生成确认按钮(如图4a中的“确定”按钮)的事件)，等等。

示例性地，当用户想要通过终端自动生成目标文本的标题时，用户可以通过终端打开如图4a左图所示的标题生成页面，在该标题生成页面上传待生成标题的目标文本，当用户上传成功后，若检测到用户点击图4a右图中的“确定”按钮，则可以获取该目标文本。

其中，该目标文本可以属于指定的领域，该领域例如可以为医疗领域、科技领域、财经领域、科技领域、娱乐领域等等，以医疗领域为例，该目标文本可以指待生成医疗标题的医疗文本。

S302，从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合。

在具体实施过程中，可以调用关键词提取算法对目标文本对应的正文内容进行解析，并从正文内容中提取多个正文关键词，得到包括多个正文关键词的正文关键词集合。其中，上述关键词提取算法可以为PageRank和TextRank等等。

S303，根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题，其中，预测标题是指根据目标标题生成模型生成的类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题，该N为大于1的整数。

其中，目标标题生成模型包括N个子模型。示例性地，目标标题生成模型的模型结构可以如图2a所示，N个子模型从左至右包括用于生成候选标题的语言模型、用于确定候选标题的类别的标题类别识别模型和用于确定候选标题与上述正文关键词集合之间相似度的标题正文相似度模型。该类别可以包括文不对题型的标题党类别和非标题党类别，该相似度的取值范围可以为[0,1]，上述标题生成条件可以为候选标题的类别为非标题党类别，且该候选标题与正文关键词集合之间的相似度大于或者等于相似度阈值，该相似度阈值为基于实验测算数据预先设置的，例如可以为1。

这种情况下，终端可以将正文关键字集合输入目标标题生成模型，调用目标标题生成模型对正文关键字集合进行数据处理，数据处理过程中，通过目标标题生成模型中的语言模型生成符合标题书写方式，又符合基本文法通顺的候选标题，通过标题类别识别模型识别候选标题的类别，通过标题正文相似度模型确定候选标题与上述正文关键词集合之间相似度，从而得到目标文本的预测标题，该预测标题为非标题党类，符合标题书写方式和基本文法通顺，且与正文关键词集合之间的相似度大于或者等于相似度阈值。可以看出，目标标题生成模型生成目标文本的预测标题的过程中，可以在标题自动生成阶段杜绝标题党以及文不对题型等问题，所生成的标题与正文内容关联性强，有利于提高生成标题的准确度。

S304，输出目标文本的预测标题。

在得到目标文本的预测标题之后，可以在结果展示页面显示该目标文本的预测标题。示例性地，假设该预测标题为“什么时候摘口罩”，结果展示页面可以如图4b所示。

其中，目标标题生成模型是对N个子模型进行联合训练得到的，在执行S203调用目标标题生成模型对目标文本进行标题预测之前，需要对目标标题生成模型进行训练优化，达到优化目标，该优化目标可以为目标标题生成模型的总损失函数值最小。请参见图5，本申请实施例中优化目标标题生成模型的流程可以分为三部分，第一部分为训练样本选取，第二部分为标题关键词提取，第三部分为联合训练各个子模型。

在训练样本选取部分，原有标题生成算法强依赖于训练语言模型时训练语料选取的“优质”标准定得高不高，该“优质”标准兼顾来源权威度和流行度。以应用于医疗领域为例，为了防止训练语料中混入大量标题党性质的标题语料，则会在训练样本选取阶段，可以从一些口碑较好的大医疗平台，选取权威医生(例如来自三甲医院的医生)发表的阅读数大于某个特定较大阈值的文章标题作为训练语料。由于三甲医生的稀缺性，且大量全科类疾病实际一般非三甲类医生的文章权威性，质量包括用户阅读数往往也不低(虽然其又存在更高的可能会存在标题党，甚至文不对题现象)，而如果按照原有准入标准，这类更海量的标题语料是无法进入到后续模型训练中去的。由于过高的准入标准，不仅导致大量优质标题语料不能入选，还使得某些领域的标题语料严重不足。

本申请实施例由于后续模型引入了标题类别识别模型+标题正文相似度模型的联合训练，可以大大降低训练样本的准入门槛，选入更多优质的标题语料，大大缓解某些领域的标题语料严重不足的情况。因此，在本申请实施例中，选取的训练语料可以仅考虑流行度(即阅读量大于阅读量阈值K)较高的文本都可用于后续模型训练，例如图6所示的文本。

作为一种可行的方式，训练样本选取阶段的具体实施方式可以为：从资讯平台获取已发布文本的文本数据，该文本数据包括已发布文本的正文内容、标题以及阅读量。进一步地，可以依照阅读量从已发布文本中筛选文本样本(例如从已发布文本中将阅读量大于阅读量阈值K筛选为文本样本)，将文本样本对应的标题确定为标题样本，并对标题样本添加样本标签，确定文本样本的正文内容的正文关键词集合，进一步地，可以将文本样本的正文内容、正文关键词集合、文本样本的标题样本和标题样本的样本标签作为后续模型训练的训练样本，关联存储至语料库。

本申请实施例可以应用于不同的领域，例如医疗领域、科技领域、财经领域、科技领域、娱乐领域等等，以医疗领域为例，上述资讯平台可以为医疗资讯平台，已发布文本可以为医疗资讯平台发布的医疗文本，例如医疗资讯平台发布的医疗科普类文章。

其中，上述对标题样本添加样本标签的具体方式可以为：通过人工标注的形式，对各标题样本添加样本标签，该样本标签指示了对应标题样本所属的类别。例如，对于标题党类的标题样本可以添加标题党标签，对于非标题党类的标题样本可以添加非标题党标签。上述确定文本样本的正文内容的正文关键词集合的具体实施方式可以为：可以调用关键词提取算法对文本样本的正文内容进行解析，并从该正文内容中提取多个正文关键词，从而得到文本样本对应的正文关键词集合。

在标题关键词提取部分，由于后续主要学习标题的行文方式，且一般文章正文主题可能较为分散，直接提取正文关键词不够聚焦，故本申请实施中可以提取标题中的关键词。作为一种可行的方式，终端可以在将文本样本的正文内容、正文关键词集合、文本样本的标题样本和标题样本的样本标签关联存储至语料库之后，对文本样本的标题样本和正文内容进行分词处理，得到标题样本对应的标题分词和正文内容对应的正文分词。进一步地，可以通过关键词提取算法计算标题样本中标题分词的权重分数，将权重分数最大的标题分词确定为标题样本对应的标题关键词，并在语料库中将标题关键词与对应的标题样本关联存储。

或者，终端也可以在依照阅读量从已发布文本中筛选出文本样本，将文本样本对应的标题确定为标题样本之后，在将文本样本的正文内容、正文关键词集合、文本样本的标题样本和标题样本的样本标签关联存储至语料库之前，依照上述方法提取标题样本对应的标题关键词，后续可以将文本样本的正文内容、正文关键词集合、文本样本的标题样本、标题样本的样本标签和该标题样本对应的标题关键词一起关联存储至语料库，本申请对此不作具体限定。

由于标题属于短文本，一般关键词提取领域里的算法如TD-IDF只在标题中使用往往并不适用。本申请实施例的关键词提取算法可以为基于不同区域设置有不同权重的TD-IDF算法。TF-IDF中TF指词频，IDF指逆向文件频率，TF表示词条在文档中出现的频率，IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，可以选取为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处，在一份给定的文件里，TF指的是某一个给定的词语在该文件中出现的频率，这个数字是对词数的归一化，以防止它偏向长的文件，同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否，对于在某一特定文件里的词语来说，它的重要性可表示为：

式1.1中分子是词条在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。

IDF是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。该IDF的计算公式可以参见式1.2，式1.2中|D|为语料库中的文件总数。

假设上述不同区域包括标题区域和正文区域，那么基于不同区域设置有不同权重的TD-IDF算法可以如式1.3所示，其中，为了防止偏向长文本，为标题区域中词设置的权重weight可以为正文区域中词的权重weight的s倍，该s可以为大于1的整数，例如为5。

权重分数＝weight区域*TF*IDF式1.3

终端可以依照式1.3计算所有标题分词的权重分数，并将权重分数最大的标题分词确定为标题样本对应的标题关键词，以便于后续训练语言模型。

此处，之所以不用更多关键词约束的原因是使得该语言模型具有较少的上下文限制，这样可以得到更丰富多样的语言表达方式。

在联合训练各个子模型部分，联合训练是多任务学习的重要阶段，多任务学习是指同时学习多个相关任务，让这些任务在学习过程中共享知识，利用多个任务之间的相关性来改进模型在每个任务上的性能和泛化能力。多任务学习可以看作是一种归纳迁移学习即通过利用包含在相关任务中的信息作为归纳偏置来提高泛化能力。

在多任务学习中，每个任务都可以有自己单独的训练集。为了让所有任务同时学习，可以通过交替训练的方式来“近似”地实现同时学习。

假设有M个相关任务，第m个任务的训练集为D_m，包含N_m个样本。

其中，x(m，n)和y(m，n)表示第m个任务中的第n个样本以及它的标签。

假设这M个任务对应的模型分别为f_m(x；θ)，1≤m≤M，多任务学习的联合目标函数为所有任务损失函数的线性加权。

其中，L_m()为第m个任务的损失函数，η_m是第m个任务的权重，θ表示包含了共享模块和私有模块在内的所有参数。权重可以根据不同任务的重要程度来赋值，也可以根据任务的难易程度来赋值。

在本申请实施例中，对N个子模型中各个子模型进行联合训练之前，可以从语料库中获取指定数据集，该指定数据集包括所N个子模型中各个子模型各自对应的子数据集，一个子模型单独对应一个数据集。进一步地，可以通过各个子模型各自对应的子数据集对各个子模型进行联合训练，得到达到优化目标的目标标题生成模型，该优化目标为目标标题生成模型的总损失函数值最小。

在一个实施例中，参见图2a所示，目标标题生成模型包括用于生成候选标题的语言模型、用于确定候选标题的类别的标题类别识别模型和用于确定候选标题与正文关键词集合之间相似度的标题正文相似度模型。这种情况下，上述N个子模型中各个子模型各自对应的子数据集包括用于训练语言模型的第一数据集、用于训练标题类别识别模型的第二数据集和用于训练标题正文识别模型的第三数据集。第一数据集包括通过标题样本和标题样本对应的标题关键词构建的句子，第二数据集包括标题样本和标题样本的样本标签，第三数据集包括通过标题样本和标题样本对应文本样本的正文关键词集合构成的句子对，以及句子对的相似度标签。样本标签用于指示标题样本的类别，类别包括标题党类和非标题党类，相似度标签用于指示句子对中标题样本与正文关键词集合之间的相似度。

进一步地，目标标题生成模型的总损失函数值可以为目标标题生成模型中语言模型的掩码损失函数L₁、标题类别识别模型中分类器的交叉熵损失函数L₂和标题正文相似度模型的损失函数L_w进行线性加权求和得到的。示例性地，该总损失函数可以如式1.6所示，式1.6中α+β+γ＝1，α、β和γ的大小可以根据不同任务的重要程度来赋值，具体地，侧重于所生成的标题更符合标题书写方式和基本文法通顺，那么可以将α的值设置得较大，β和γ的值设置的相对较小。例如，α设置为0.6，β和γ分别设置为0.2。

L总＝αL₁+βL₂+γL_w式1.6

通过式1.6可知，在对各个子模型进行联合训练的过程中，为了达到上述优化目标(目标标题生成模型的总损失函数值最小)，可以通过各个子模型的数据集交替训练各个子模型，使得各个子模型的损失函数得到最小值。其中，所谓的交替训练，例如可以为按照从左至右或者从右至左的顺序，通过各自对应的数据集对各个子模型进行循环训练的过程。

进一步地，上述通过各个子模型各自对应的子数据集对各个子模型进行联合训练，得到达到优化目标的目标标题生成模型的具体实施方式可以为：通过第一数据集对语言模型进行训练，直至语言模型的掩码损失函数值最小；通过第二数据集对标题类别识别模型进行训练，直至标题类别识别模型中分类器的交叉熵损失函数值最小；通过第三数据集对标题正文识别模型进行训练，直至标题正文相似度模型的损失函数值最小。

本申请实施例中，训练完成的目标标题生成模型可以在标题自动生成阶段杜绝标题党以及文不对题型等问题，后续可以基于该目标标题生成模型生成非标题党类别、符合标题书写方式和基本文法通顺，且与正文关键词集合之间的相似度大于或者等于相似度阈值的标题，有利于提高生成标题的准确度。

在一个实施例中，第一数据集可表示为U(U＝[u1,u2,...,u_i])，u_i为通过标题样本和标题样本对应的标题关键词构建的句子，这种情况下，可以将似然函数作为目标函数，通过U对语言模型进行训练，直至最大化似然函数，则停止对语言模型的训练。在最大化似然函数的情况下，语言模型的损失函数L₁取得最小值，该似然函数可以如式1.7。

L₁(U)＝∑_ilogP(u_i|u_i-k,…,u_i-1；θ) 式1.7

在一个实施例中，标题类别识别模型可以为Text CNN模型，其网络结构可如图2c所示，卷积层使用2*2卷积，通过第二数据集对标题类别识别模型进行训练过程中，经过对卷积特征做池化后，可以将若干个池化后的特征做关联，

并在关联后，结合标题类别识别模型中分类器的交叉熵损失函数L₂，确定分类器的交叉熵，进一步地，在模型训练过程中不断调整自身的模型参数，直至交叉熵损失函数L₂取得最小值，则停止对标题类别识别模型的训练。该交叉熵损失函数L₂可以如式1.8。

L₂＝-∑_iy_ilog(p_i) 式1.8

在一个实施例中，第三数据集包括通过标题样本和标题样本对应文本样本的正文关键词集合构成的句子对，以及句子对的相似度标签。示例性地，该句子对的关系可以看作一个二分类问题，该二分类问题可以为：句子对中的标题样本与对应的正文关键词相似或者不相似，若相似，那么，该句子对的相似度标签可以设置为1；若不相似，那么，该句子对的相似度标签可以设置为0。第三数据集中的一个数据样本可以表示为[x1，x2，y]，y的取值可以为[0，1]，y为预先标注的x1和x2之间的相似度，其中，x1和x2分别表示句子对中标题样本和对应的正文关键词集合。

衡量x1和x2之间相似度的表达式可以如式1.9的余弦相似度函数，E_W(x1，x2)表征x1和x2之间的余弦相似度。以图2a为例，式1.9中f_w(x1)和,f_w(x2)分别表示句子对中标题样本和对应的正文关键词集合经过Lstm编码后的向量表示。

标题正文识别模型的损失函数定义如下：

从损失函数L_w形式看，L类似于二元交叉熵函数，定义如下：

其中，L+表示正样本损失函数，即表示句子对中标题样本和对应的正文关键词集合相似；L_表示负样本损失函数，即表示句子对中标题样本和对应的正文关键词集合不相似，m表示句子对中标题样本和对应的正文关键词集合之间的相似度阈值。

损失函数L_w与E_W之间的关系，可以参见如图7所示的曲线图，从图7可以看出如果预测E_W接近于1，相当于x1和x2相似(即文题相似度高)，则此时标题正文识别模型的整体损失很小；若预测E_W接近于-1，相当于x1和x2很不相似(也就意味着文不对题)，则标题正文识别模型的整体损失较大。

由上述可知，当通过第三数据集中每一个数据样本[x1，x2，y]对标题正文识别模型进行训练的过程中，均可以计算一次当前输入的x1和x2之间的余弦相似度E_W，并通过调整自身的模型参数，使得E_W接近于1，直至标题正文识别模型的损失函数L_w取得最小值，则停止对该标题正文识别模型的训练。

本申请实施例中，终端获取待生成标题的目标文本，从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合，进一步地，可以根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题，并输出类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题。通过实施本申请实施例，可以使得生成的标题与对应文本的正文内容关联性更强，提高生成标题的准确性。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再请参见图8，是本申请实施例的一种标题生成装置的结构示意图，本申请实施例的标题生成装置可以设置在上述终端中，也可以为运行于终端中的一个计算机程序(包括程序代码)。

本申请实施例的装置的一个实现方式中，装置包括如下结构。

获取模块80，用于获取待生成标题的目标文本；

处理模块81，用于从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合；

处理模块81，还用于根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题；其中，目标标题生成模型是对N个子模型进行联合训练得到的，预测标题是指根据目标标题生成模型生成的类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题，该N为大于1的整数；

输出模块82，用于输出目标文本的预测标题。

在一个实施例中，处理模块81，还用于：

从语料库中获取指定数据集，指定数据集包括N个子模型中各个子模型各自对应的子数据集；

通过各个子模型各自对应的子数据集对各个子模型进行联合训练，得到达到优化目标的目标标题生成模型，优化目标为目标标题生成模型的总损失函数值最小。

在一个实施例中，N个子模型包括用于生成候选标题的语言模型、用于确定候选标题的类别的标题类别识别模型和用于确定候选标题与正文关键词集合之间相似度的标题正文相似度模型。

在一个实施例中，N个子模型中各个子模型各自对应的子数据集包括用于训练语言模型的第一数据集、用于训练标题类别识别模型的第二数据集和用于训练标题正文识别模型的第三数据集。

第一数据集包括通过标题样本和标题样本对应的标题关键词构建的句子，第二数据集包括标题样本和标题样本的样本标签，第三数据集包括通过标题样本和标题样本对应文本样本的正文关键词集合构成的句子对，以及句子对的相似度标签；样本标签用于指示标题样本的类别，该类别包括标题党类和非标题党类；相似度标签用于指示句子对中标题样本与正文关键词集合之间的相似度。

在一个实施例中，目标标题生成模型的总损失函数值为目标标题生成模型中语言模型的掩码损失函数、标题类别识别模型中分类器的交叉熵损失函数和标题正文相似度模型的损失函数进行线性加权求和得到的。

在一个实施例中，处理模块81，具体用于：

通过第一数据集对语言模型进行训练，直至语言模型的掩码损失函数值最小；

通过第二数据集对标题类别识别模型进行训练，直至标题类别识别模型中分类器的交叉熵损失函数值最小；

通过第三数据集对标题正文识别模型进行训练，直至标题正文相似度模型的损失函数值最小。

在一个实施例中，处理模块81，还用于：

从资讯平台获取已发布文本的文本数据，该文本数据包括已发布文本的正文内容、标题以及阅读量；

依照阅读量从已发布文本中筛选文本样本，将文本样本对应的标题确定为标题样本；

对标题样本添加样本标签，以及确定文本样本的正文内容的正文关键词集合；

将文本样本的正文内容、正文关键词集合、文本样本的标题样本和标题样本的样本标签关联存储至语料库。

在一个实施例中，处理模块81，还用于对文本样本的标题样本和正文内容进行分词处理，得到标题样本对应的标题分词和正文内容对应的正文分词；

通过关键词提取算法计算所述标题样本中所述标题分词的权重分数；将权重分数最大的标题分词确定为标题样本对应的标题关键词，并在语料库中将标题关键词与对应的标题样本关联存储。

在一个实施例中，关键词提取算法为基于不同区域设置有不同权重的TD-IDF算法，不同区域包括标题区域和正文区域。

在一个实施例中，资讯平台包括医疗资讯平台，已发布文本包括医疗资讯平台发布的医疗文本，目标文本包括待生成医疗标题的医疗文本。

在本申请实施例中，上述各个模块的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。

本申请实施例中的标题生成装置可获取待生成标题的目标文本，从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合，进一步地，可以根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题，并输出类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题。通过实施本申请实施例，可以使得生成的标题与对应文本的正文内容关联性更强，提高生成标题的准确性。

再请参见图9，是本申请实施例的一种终端的结构示意图，本申请实施例的终端包括供电模块等结构，并包括处理器90、存储装置91以及输出设备92。处理器90、存储装置91以及输出设备92之间可以交互数据，由处理器90实现相应的标题生成功能。

存储装置91可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置91也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置91还可以包括上述种类的存储器的组合。

处理器90可以是中央处理器90(central processing unit，CPU)。在一个实施例中，处理器90还可以是图形处理器90(Graphics Processing Unit，GPU)。处理器90也可以是由CPU和GPU的组合。在终端中，可以根据需要包括多个CPU和GPU进行相应的标题生成。

输出设备92可以包括显示器(LCD等)、扬声器等。

在一个实施例中，存储装置91用于存储程序指令。处理器90可以调用程序指令，实现如本申请实施例中上述涉及的各种方法。

在第一个可能的实施方式中，终端的处理器90，调用存储装置91中存储的程序指令，用于获取待生成标题的目标文本，从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合，根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题，其中，目标标题生成模型是对N个子模型进行联合训练得到的，预测标题是指根据目标标题生成模型生成的类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题，N为大于1的整数；通过输出设备92输出目标文本的预测标题。

在一个实施例中，处理器90，还用于：

在一个实施例中，处理器90，具体用于：

在一个实施例中，处理器90，还用于：

在一个实施例中，处理器90，还用于对文本样本的标题样本和正文内容进行分词处理，得到标题样本对应的标题分词和正文内容对应的正文分词；

在本申请实施例中，上述处理器90的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。

本申请实施例中的终端可获取待生成标题的目标文本，从目标文本对应的正文内容中提取正文关键词，得到包括正文关键词的正文关键词集合，进一步地，可以根据正文关键词集合，调用目标标题生成模型对目标文本进行标题预测，得到目标文本的预测标题，并输出类别、以及与正文关键词集合之间的相似度均满足标题生成条件的候选标题。通过实施本申请实施例，可以使得生成的标题与对应文本的正文内容关联性更强，提高生成标题的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所描述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种标题生成方法，其特征在于，包括：

获取待生成标题的目标文本；

从所述目标文本对应的正文内容中提取正文关键词，得到包括所述正文关键词的正文关键词集合；

根据所述正文关键词集合，调用目标标题生成模型对所述目标文本进行标题预测，得到所述目标文本的预测标题；其中，所述目标标题生成模型是对N个子模型进行联合训练得到的，所述N个子模型包括语言模型、标题类别识别模型和标题正文相似度模型；所述联合训练包括采用各个子模型的数据集交替训练各个子模型，使各个子模型的损失函数得到最小值的过程；所述预测标题是指根据所述目标标题生成模型生成的类别、以及与所述正文关键词集合之间的相似度均满足标题生成条件的候选标题，所述N为大于1的整数；

输出所述目标文本的预测标题。

2.如权利要求1所述的方法，其特征在于，所述根据所述正文关键词集合，调用目标标题生成模型对所述目标文本进行标题预测，得到所述目标文本的预测标题之前，所述方法还包括：

从语料库中获取指定数据集，所述指定数据集包括所述N个子模型中各个子模型各自对应的子数据集；

通过所述各个子模型各自对应的子数据集对所述各个子模型进行联合训练，得到达到优化目标的目标标题生成模型，所述优化目标为所述目标标题生成模型的总损失函数值最小。

3.如权利要求1或2所述的方法，其特征在于，所述语言模型用于生成候选标题；所述标题类别识别模型用于确定所述候选标题的类别；所述标题正文相似度模型用于确定所述候选标题与所述正文关键词集合之间相似度。

4.如权利要求3所述的方法，其特征在于，所述N个子模型中各个子模型各自对应的子数据集包括用于训练所述语言模型的第一数据集、用于训练所述标题类别识别模型的第二数据集和用于训练所述标题正文识别模型的第三数据集；

所述第一数据集包括通过标题样本和所述标题样本对应的标题关键词构建的句子，所述第二数据集包括标题样本和所述标题样本的样本标签，所述第三数据集包括通过标题样本和所述标题样本对应文本样本的正文关键词集合构成的句子对，以及所述句子对的相似度标签；所述样本标签用于指示所述标题样本的类别，所述类别包括标题党类和非标题党类；所述相似度标签用于指示所述句子对中所述标题样本与所述正文关键词集合之间的相似度。

5.如权利要求4所述的方法，其特征在于，所述目标标题生成模型的总损失函数值为所述目标标题生成模型中所述语言模型的掩码损失函数、所述标题类别识别模型中分类器的交叉熵损失函数和所述标题正文相似度模型的损失函数进行线性加权求和得到的。

6.如权利要求5所述的方法，其特征在于，所述通过所述各个子模型各自对应的子数据集对所述各个子模型进行联合训练，得到达到优化目标的目标标题生成模型，包括：

通过所述第一数据集对所述语言模型进行训练，直至所述语言模型的掩码损失函数值最小；

通过所述第二数据集对所述标题类别识别模型进行训练，直至所述标题类别识别模型中分类器的交叉熵损失函数值最小；

通过所述第三数据集对所述标题正文识别模型进行训练，直至所述标题正文相似度模型的损失函数值最小。

7.如权利要求2所述的方法，其特征在于，所述从语料库中获取指定数据集之前，所述方法还包括：

从资讯平台获取已发布文本的文本数据，所述文本数据包括所述已发布文本的正文内容、标题以及阅读量；

依照所述阅读量从所述已发布文本中筛选文本样本，将所述文本样本对应的标题确定为标题样本；

对所述标题样本添加样本标签，以及确定所述文本样本的正文内容的正文关键词集合；

将所述文本样本的正文内容、正文关键词集合、所述文本样本的标题样本和所述标题样本的样本标签关联存储至语料库。

8.如权利要求7所述的方法，其特征在于，所述将所述文本样本的正文内容、正文关键词集合、所述文本样本的标题样本和所述标题样本的样本标签关联存储至语料库之后，所述方法还包括：

对所述文本样本的标题样本和正文内容进行分词处理，得到所述标题样本对应的标题分词和所述正文内容对应的正文分词；

通过关键词提取算法计算所述标题样本中所述标题分词的权重分数；

将所述权重分数最大的标题分词确定为所述标题样本对应的标题关键词，并在所述语料库中将所述标题关键词与对应的标题样本关联存储。

9.如权利要求8所述的方法，其特征在于，所述关键词提取算法为基于不同区域设置有不同权重的TD-IDF算法，所述不同区域包括标题区域和正文区域。

10.如权利要求7所述的方法，其特征在于，所述资讯平台包括医疗资讯平台，所述已发布文本包括所述医疗资讯平台发布的医疗文本，所述目标文本包括待生成医疗标题的医疗文本。

11.一种标题生成装置，其特征在于，包括：

获取模块，用于获取待生成标题的目标文本；

处理模块，用于从所述目标文本对应的正文内容中提取正文关键词，得到包括所述正文关键词的正文关键词集合；

所述处理模块，还用于根据所述正文关键词集合，调用目标标题生成模型对所述目标文本进行标题预测，得到所述目标文本的预测标题；其中，所述目标标题生成模型是对N个子模型进行联合训练得到的，所述N个子模型包括语言模型、标题类别识别模型和标题正文相似度模型；所述联合训练包括采用各个子模型的数据集交替训练各个子模型，使各个子模型的损失函数得到最小值的过程；所述预测标题是指根据所述目标标题生成模型生成的类别、以及与所述正文关键词集合之间的相似度均满足标题生成条件的候选标题，所述N为大于1的整数；

输出模块，用于输出所述目标文本的预测标题。

12.一种终端，其特征在于，所述终端包括处理器和存储装置，所述处理器和存储装置相互连接，其中，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-10任一项所述的方法。

13.一种计算机存储介质，其特征在于，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现如权利要求1-10任一项所述的方法。