CN110866391A

CN110866391A - 标题生成方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110866391A
Application number: CN201911117433.4A
Authority: CN
Inventors: 简文军; 李超; 费志辉; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-06

Abstract

本申请涉及一种标题生成方法、装置、计算机可读存储介质和计算机设备，所述方法包括：从候选文章集中确定与目标文章对应的相似文章，并将相似文章的标题作为初步候选标题；根据初步候选标题生成候选标题模板；根据目标文章的内容，确定与各候选标题模板对应的填充词；将填充词填充至对应的候选标题模板，得到候选标题；当候选标题符合预设语句通顺条件时，根据候选标题与目标文章的匹配度，从候选标题中确定与目标文章对应的目标标题。本申请提供的方案可以在整个生成标题的过程考虑目标文章的语义，也增强了标题生成的可控性，从而使得生成的标题与目标文章更为匹配。

Description

标题生成方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种标题生成方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着互联网技术的发展，越来越多的用户可以通过终端浏览各种图文内容，为了提高用户体验，出现了标题生成技术。标题生成技术的目的是对文章进行压缩、提炼，从而生成简明扼要的文字描述，该过程可以理解成是将原文信息压缩为一个简短的标题，此过程要求尽可能的保留原文的重要信息，使得用户能通过标题快速了解到文章的信息。

目前的标题生成技术主要分为抽取式和生成式两大类。抽取式主要是从原文中抽取出相对较重要的句子作为文章标题，由于这种方式在文章语义理解方面考虑较少，无法很好的利用文章段落级别上的语义信息，导致生成的标题与文章内容不够匹配。生成式主要依赖于神经网络算法模型来处理，从文章语义层面出发，生成全新的文章标题，但到目前为止，这项技术并不太成熟，导致生成的标题可控性差。

发明内容

基于此，有必要针对现有技术中生成标题的方式与文章内容不够匹配以及可控性差的技术问题，提供一种标题生成方法、装置、计算机可读存储介质和计算机设备。

一种标题生成方法，包括：

从候选文章集中确定与目标文章对应的相似文章，并将所述相似文章的标题作为初步候选标题；

根据所述初步候选标题生成候选标题模板；

根据所述目标文章的内容，确定与各所述候选标题模板对应的填充词；

将所述填充词填充至对应的候选标题模板，得到候选标题；

当所述候选标题符合预设语句通顺条件时，根据所述候选标题与所述目标文章的匹配度，从所述候选标题中确定与所述目标文章对应的目标标题。

一种标题生成装置，所述装置包括：

初步候选标题获取模块，用于从候选文章集中确定与目标文章对应的相似文章，并将所述相似文章的标题作为初步候选标题；

候选标题模板获取模块，用于根据所述初步候选标题生成候选标题模板；

填充词获取模块，用于根据所述目标文章的内容，确定与各所述候选标题模板对应的填充词；

候选标题获取模块，用于将所述填充词填充至对应的候选标题模板，得到候选标题；

目标标题生成模块，用于当所述候选标题符合预设语句通顺条件时，根据所述候选标题与所述目标文章的匹配度，从所述候选标题中确定与所述目标文章对应的目标标题。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述标题生成方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述标题生成方法的步骤。

上述标题生成方法、装置、计算机可读存储介质和计算机设备，先基于内容相似度确定与目标文章对应的相似文章，相似文章的标题可以作为目标文章的初步候选标题，从目标文章的语义层面考虑了标题的生成过程；接着，对于依据初步候选标题生成的候选标题模板，根据目标文章的内容召回填充词，用填充词来填充候选标题模板，以替换初步候选标题中的与目标文章内容不太相关的词语，得到适于目标文章的候选标题，从而增强了生成标题的可控性；最后，再基于语句通顺性对候选标题进行筛选后按照与目标文章的匹配度确定最终的目标标题，整个生成标题的过程既考虑了目标文章的语义，也增强了标题生成的可控性，从而使得生成的标题与目标文章更为匹配。

附图说明

图1为一个实施例中标题生成方法的应用环境图；

图2为一个实施例中标题生成方法的流程示意图；

图3为一个实施例中从候选文章集中确定与目标文章对应的相似文章的流程示意图；

图4为一个实施例中根据初步候选标题生成候选标题模板的流程示意图；

图5为另一个实施例中根据初步候选标题生成候选标题模板的流程示意图；

图6为一个实施例中根据目标文章的内容，确定与各候选标题模板对应的候选填充词的流程示意图；

图7为一个实施例中确定各候选标题是否满足语句通顺条件的流程示意图；

图8为一个实施例中确定候选标题与目标文章的匹配度的流程示意图；

图9为一个实施例中基于Bert的神经网络匹配模型的网络架构示意图；

图10为一个实施例中对匹配模型进行训练时的模型网络架构示意图；

图11为一个具体的实施例中为目标文章生成标题的流程示意图；

图12为一个具体的实施例中标题生成方法的流程示意图；

图13为一个实施例中标题生成装置的结构框图；

图14为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中标题生成方法的应用环境图。参照图1，该标题生成方法应用于标题生成系统。该标题生成系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

服务器120可以从候选文章集中确定与目标文章对应的相似文章，并将相似文章的标题作为初步候选标题；根据初步候选标题生成候选标题模板；根据目标文章的内容，确定与各候选标题模板对应的填充词；将填充词填充至对应的候选标题模板，得到候选标题；当候选标题符合预设语句通顺条件时，根据候选标题与目标文章的匹配度，从候选标题中确定与目标文章对应的目标标题。

在一些实施例中，服务器120可以根据目标文章及对应的目标标题生成待推送文章，并基于待推送内容向用户推送文章。例如，在新闻客户端每天会产生大量的文章，服务器可以基于这些新增文章生成标题，便于依据标题对新增文章进行分类和分发。

需要说明的是，上述的应用环境只是一个示例，在一些实施例中，也可以直接由终端110执行上述标题生成方法的步骤。例如，终端可以利用本地配置的标题生成装置从候选文章集中确定与目标文章对应的相似文章，并将相似文章的标题作为初步候选标题；根据初步候选标题生成候选标题模板；根据目标文章的内容，确定与各候选标题模板对应的填充词；将填充词填充至对应的候选标题模板，得到候选标题；当候选标题符合预设语句通顺条件时，根据候选标题与目标文章的匹配度，从候选标题中确定与目标文章对应的目标标题。

如图2所示，在一个实施例中，提供了一种标题生成方法。本实施例以该方法应用于计算机设备(如上述图1中的终端110或服务器120)来举例说明。参照图2，该标题生成方法具体包括如下步骤S202至S210：

S202，从候选文章集中确定与目标文章对应的相似文章，并将相似文章的标题作为初步候选标题。

其中，候选文章集(Candidate Article Set)是大量候选文章的集合，候选文章集中的每一文章都存在相应的标题。目标文章(Target Article)是待生成标题的文章。相似文章是在内容上与目标文章具有相似度的文章。初步候选标题(Initial Candidate TitleSet)是与目标文章对应的各相似文章的标题，可以理解，候选文章集中与目标文章在内容上相似的相似文章越多时，目标文章的初步候选标题的数量也就越多。

具体地，服务器在为目标文章生成标题时，可以从数据库中获取预先准备的候选文章集，并基于内容相似度从候选文章集中确定目标文章对应的相似文章，相似文章的数量可以是固定的，比如，可以是内容相似度靠前的预设数量的文章；相似文章的数量也可以是不受限制的，只要满足预定相似度条件即可。服务器将确定的各个相似文章的标题作为目标文章对应的初步候选标题。

在一个实施例中，如图3所示，从候选文章集中确定与目标文章对应的相似文章，包括：

S302，获取候选文章集及待生成标题的目标文章。

S304，计算候选文章集中的各候选文章与目标文章的内容相似度。

S306，根据内容相似度确定与目标文章对应的相似文章。

其中，内容相似度可以表征任意两篇文章在文章内容上的相似度。具体地，计算机设备可以获取候选文章集及待生成标题的目标文章，依次计算目标文章与候选文章集中的各候选文章之间的内容相似度，可以将内容相似度与预设阈值进行比较，并将内容相似度大于预设阈值的候选文章作为目标文章的相似文章。

在一个实施例中，计算机设备可以采用TF-IDF(Term Frequency-InverseDocument Frequency，词频-逆向文件频率)来确定目标文章与候选文章之间的内容相似度。具体地，计算机设备查找出目标文章与候选文章中的关键词并合成关键词集合，将两个关键词集合合并得到词包，根据词包中关键词在各自文章中出现的次数统计关键词的词频，并将词频向量化生成两篇文章各自的词频向量，最终可以基于文章的词频向量来确定目标文章与候选文章之间的内容相似度，比如，可以计算两个词频向量的余弦相似度作为内容相似度，值越大就表示越相似。其中，关键词是能够反映出该篇文章的内容特点的词，可以通过一些算法来提取得到。

在一个实施例中，计算机设备可以基于内容的相似度深度学习算法模型对候选文章集进行处理，在候选文章集中筛选出与目标文章相似的文章，根据筛选出的文章获得目标文章的初步候选标题。基于内容的相似度算法模型可以是DSSM(Deep StructuredSemantic Model，基于深度网络的语义模型)。

在一个实施例中，计算机设备可以获取已生成标题的文章，作为候选文章集。比如，新闻客户端每天都会给用户推送大量的文章，这些文章都具备标题，可以将这些已生成标题的文章作为候选文章集。

可以理解的是，由于相似文章在内容上与目标文章具有相似性，因此，相似文章的标题可以作为目标文章的初步候选标题，这从目标文章的语义层面考虑了标题生成过程，能够保证生成的标题在语义上与目标文章的内容不会相去甚远。

S204，根据初步候选标题生成候选标题模板。

其中，候选标题模板(Candidate Title Template Set)是从初步候选标题中抽取出与文章内容相关性不大的词以填充符(MASK)进行填充后得到的标题模板。由于初步候选标题中可能存在与目标文章的内容相关性不太大的词，因此计算机设备需要进一步将这些非相关词进行替换后，得到候选标题模板，再对候选标题模板中的填充符进行替换得到候选标题。候选标题模板中可以包括一个或多于一个的填充符。

在一个实施例中，如图4所示，根据初步候选标题生成候选标题模板，包括：

S402，遍历目标文章中的词语，确定初步候选标题中的非相关词。

S404，将初步候选标题中的非相关词以填充符替换，得到候选标题模板。

具体地，计算机设备可以对目标文章中的句子、短语进行分词，得到目标文章中的词语，以及对每一个初步候选标题进行分词，得到初步候选标题中的词语；当遍历了目标文章中的词语后确定初步候选标题中包括不存在于目标文章中的词语时，则将初步候选标题中的该词语作为目标文章的非相关词；可选地，如果初步候选标题中某个词语在目标文章中出现了，但是出现的次数很少，说明该词语对于反应目标文章的内容特性不那么关键，基于此，计算机设备可以统计初步候选标题中的词语在目标文章中出现的频率，根据频率来判定该词语是否属于目标文章的非相关词。进一步地，计算机设备将确定的非相关词以填充符替换后，得到候选标题模板。

可以理解的是，当候选文章集中候选文章的数量越多时，目标文章对应的初步候选标题的数量也就会越多，那么得到的候选标题模板也就越多，这样可以保证基于大量的候选标题模板最终确定的目标标题是与目标文章匹配的。

在一个实施例中，如图5所示，根据初步候选标题生成候选标题模板，包括：

S502，逐步以填充符替换初步候选标题中的词语，得到初步标题模板。

在本实施例中，计算机设备可以基于初步标题模板与目标文章的匹配度来生成候选标题模板，可以理解的是，以填充符替换初步候选标题中某个词语得到的初步标题模板与目标文章的匹配度越大，代表被替换的词语与目标文章越不相关，该词语也可以称之为目标文章的非相关词，反之，匹配度越小，说明被替换的词语对于表达目标文章的内容特性较为关键，该词语是目标文章的相关词。

S504，确定初步标题模板与目标文章的第一匹配度。

S506，确定初步候选标题与目标文章的第二匹配度。

S508，当第一匹配度大于第二匹配度时，将初步标题模板作为初步候选标题对应的候选标题模板。

具体地，计算机设备可以对每一个初步候选标题进行如下处理：对初步候选标题进行分词处理，得到初步候选标题中的词语，逐步以填充符替换初步候选标题中的词语，得到初步标题模板，分别确定初步标题模板与目标文章之间的第一匹配度、初步候选标题与目标文章之间的第二匹配度，若第一匹配度大于第二匹配度，则说明以填充符替换了某个词语后得到的初步标题模板更适合目标文章，更能表现目标文章的内容，也间接地说明了被替换的该词语不适合目标文章，不是能够表现目标文章的内容的关键词，即被替换的该词语作为目标文章的非相关词。

在一些实施例中，初步标题模板还可以通过计算机设备逐步删除初步候选标题中的各个词语得到。类似地，若删除了某个词之后得到的初步标题模板与目标文章的匹配度大于初步候选标题与目标文章的匹配度，说明了被删除的该词语也属于目标文章的非相关词，计算机设备可以将删除了该词语得到的初步标题模板作为候选标题模板。

可选地，计算机设备可以将初步标题模板和目标文章输入至事先训练好的匹配模型，通过该匹配模型计算初步标题模板、目标文章之间的第一匹配度；将初步候选标题和目标文章输入至该匹配模型，通过该匹配模型计算初步候补标题、目标文章之间的第二匹配度。在一个实施例中，该匹配模型是基于Bert的神经网络匹配模型，关于该匹配模型的介绍在后文提到。

S206，根据目标文章的内容，确定与各候选标题模板对应的填充词。

其中，填充词是与填充符对应的词语，填充词可以替换掉候选标题模板中的填充符，填充词是根据目标文章的内容确定的与目标文章更为适配的词语。具体地，计算机设备可以根据目标文章的内容，来确定各候选标题模板对应的填充词。

需要说明的是，用于替换掉候选标题模板中填充符的填充词，可能包括一个词语，也可能包括多个词语。比如，初步候选标题为“超好看的彩色聊天背景图”，对应的候选标题模板为“超好看的[MASK][MASK]背景图”，用填充词填充后得到的候选标题为“超好看的图片当作背景图”。

在一个实施例中，根据目标文章的内容，确定与各候选标题模板对应的填充词，包括：根据目标文章的内容，确定与各候选标题模板对应的候选填充词；对候选填充词进行随机采样，获得与候选标题模板对应的填充词。

具体地，计算机设备首先需要构造候选填充词集，根据目标文章的内容，在目标文章中确定与各候选标题模板对应的候选填充词，然后采用词性限制、重现限制以及同义替换等方式获得该模板对应的候选填充词集，接着对候选填充词集中的各个词语进行随机采样，获得与候选标题模板对应的填充词。

在一个实施例中，计算机设备可以采用MCMC(Markov Chain Monte Carlo，马尔可夫链蒙特卡洛)采样算法对候选填充词进行随机采样，即在给定平稳的目标概率分布p(x)的情况下，确定一个符合该目标概率分布的马尔科夫链，该马尔科夫链可以用于在候选填充词中进行采样，对候选填充词进行采样获得填充词的概率分布符合给定的目标概率分布。

当然，在一些实施例中，在计算机设备计算能力与计算资源允许的情况下，计算机设备可以不对候选标题模板对应的候选填充词进行采样，而是将所有的候选填充词作为对应的填充词，一一填充至候选标题模板后，得到候选标题。

在一个实施例中，如图6所示，根据目标文章的内容，确定与各候选标题模板对应的候选填充词，包括：

S602，获取各候选标题模板对应的文本结构，文本结构通过候选标题模板中的词语以及词语在候选标题模板中位置确定。

在本实施例中，计算机设备通过重现限制的方式来确定与候选标题模板对应的候选填充词。候选标题模板对应的文本结构通过其中的词语以及词语的位置确定。比如，候选标题模板为“A B MASK C”，那么该候选标题模板对应的文本结构即一目了然地通过词语“A”、词语“B”、词语“C”以及其各自在候选标题模板中的位置来呈现。

S604，遍历目标文章，从目标文章中获取包含文本结构的短语。

具体地，计算机设备遍历目标文章，查找目标文章中包含该文本结构的短语。在上述例子中，获取的短语中应当包括词语“A”、词语“B”、任意词语“*”、词语“C”，且短语中这些词语的次序与上述文本结构一致，任意词语“*”可以是一个词与，也可以是一个以上的词语，比如可以是词语“M”或词语“N”，还可以是词语“M”与词语“N”连接在一起的两个词。这样，计算机设备在目标文章中重现候选标题模板，也就是从目标文章中找到了与候选标题模板具有相同文本结构的短语，进一步说明了候选标题模板能够在一定程度上表达目标文章的信息。

S606，获取短语中与填充符的位置对应的原文词语，作为候选标题模板对应的候选填充词。

其中，原文词语是出现中目标文章中的词语，且原文词语出现在与候选标题模板具有相同文本结构的短语中。具体地，计算机设备可以将获取的短语中与填充符的位置对应的原文词语，作为候选标题对应的候选填充词。例如，上述例子中，获取的原文词语为词语“M”，则候选填充词也包括词语“M”，若获取的原文词语为词语“N”，则候选填充词也包括词语“M”，若获取的原文词语是“M N”连接在一起的两个词，则候选填充词还包括“M N”。

在本实施例中，计算机设备在目标文章获取与候选标题模板具有相同文本结构的短语，然后基于该短语中确定候选填充词，很大可能是能够表达目标文章的内容的关键词。

在一个实施例中，上述方法还包括：从词语库中获取原文词语的同义词；将同义词作为候选标题模板对应的候选填充词。

在本实施例中，为了扩充与候选标题模板对应的候选填充词集的大小，同时提升生成候选标题的数量，以便于以不同词语替换填充符后得到多样的能够表达目标文章的候选标题，计算机设备可以获取事先生成的词语库，并从该词语库中获取原文词语的同义词，将原文词语的同义词也作为候选标题模板对应的候选填充词。

在一个实施例中，上述方法还包括：确定候选标题模板中的填充符所对应词语的词性；将原文词语转换为符合词性的适配词；将转换后的适配词作为候选标题模板对应的候选填充词。

在本实施例中，为了能够得到符合语法的目标标题，计算机设备还可以确定候选标题模板中的填充符位置所对应词语的词性，若步骤S606中获取的原文词语并不符合该词性，则计算机设备可以将该原文词语转换为符合该词性的适配词，并将转换后的适配词作为候选标题模板对应的候选填充词。

S208，将填充词填充至对应的候选标题模板，得到候选标题。

具体地，在计算机设备确定了与各候选标题模板对应的填充词之后，就可以分别将填充词填充至对应的候选标题模板，得到与目标文章对应的候选标题。前面提到，当候选文章越多，初步候选标题也会越多，那么相应的候选标题模板也就越多，根据候选标题模板生成的候选标题也就越多。因此在实际应用中，可以将已生成标题的文章均添加至数据库中，构建数据量较大的候选文章集，这样可以在一定程度上提升候选标题的数量，从而能够找到一个与目标文章匹配度较高的目标标题。

在上文中提到，与候选标题模板中填充符对应的填充词可以是一个词语，也可以多于一个词语。若填充词为一个词语，那么得到的候选标题实现了在原有的初步候选标题的基础上对与目标文章内容相关性不大的词语进行了词语替换操作，例如，初步候选标题为“超好看的彩色聊天背景图”，在此基础上生成的目标文章的候选标题为“超好看的图片当作背景图”。若填充词多于一个词语，那么得到的候选标题实现了在原有的初步候选标题的基础上对与目标文章内容相关性不大的词语进行了词语插入操作，例如，初步候选标题为“超好看的彩色聊天背景图”，在此基础上生成的目标文章的候选标题为“超好看的风景图片设置为背景图”。

在一个实施例中，上述方法还包括：当短语中不包括与填充符的位置对应的原文词语时，则从候选标题模板删除填充符，得到候选标题。

在本实施例中，若步骤S604中获取的短语中并不包括与填充符所在位置对应的原文词语，则计算机设备可以直接从候选标题模板中删除该填充符，得到候选标题。例如，候选标题模板为“A B MASK C”，从目标文章中获取的短语为“A B C”或者是“A B C D”，则计算机设备可以直接将该“A B C”作为候选标题。也就是说，这种情况下得到的候选标题实现了在原有的初步候选标题的基础上对与目标文章内容相关性不大的词语进行了词语删除操作。

S210，当候选标题符合预设语句通顺条件时，根据候选标题与目标文章的匹配度，从候选标题中确定与目标文章对应的目标标题。

其中，目标标题(Final Title)即为最终生成的目标文章的标题，对于步骤S208中获取的大量的候选标题，还需要继续按照语句通顺性、与目标文章的匹配度进行筛选后最终确定与目标文章对应的目标标题。语句通顺条件是用于约束生成的目标标题的语句通顺性的条件，候选标题的语句通顺性可以用候选标题为一个通顺句子的概率来表示，也就是候选标题对应的词序列对应一个句子的概率，概率越大则表示候选标题越通顺。候选标题与目标文章的匹配度反应了候选标题与目标文章之间的相关性，相关性越大，代表候选标题越能够表达目标文章的内容特性。

具体地，计算机设备在获得候选标题后，按照语句通顺性对候选标题进行筛选，将满足语句通顺性条件的候选标题作为最终候选标题(Final Candidate Title Set)，然后对最终候选标题按照与目标文章的匹配度进行打分排序，最后选取匹配得分最高的作为目标文章的目标标题(Final Title)。

在一个实施例中，如图7所示，上述方法还包括确定各候选标题是否满足语句通顺条件的步骤，包括如下步骤S702至步骤S704：

S702，获取候选标题对应的词序列。

具体地，计算机设备可以对获得的各候选标题进行分词处理，得到候选标题对应的词序列。例如，候选标题分词处理后得到k个词，第i个词表示为Wi，则对应的词序列S为：

S＝W1，W2，…，Wi，…，Wk.

S704，通过预定语言模型，统计词序列对应通顺语句的概率。

其中，候选标题对应通顺语句的概率，可以表示为对应的词序列的概率分布概率P，概率分布概率P越大，表示该候选标题作为一个句子来说是越合理的，从而说明候选标题越通顺。计算机设备可以获取事先训练好的预定语言模型，统计候选词序列对应通顺语句的概率。预定语言模型(例如N-Gram)在统计词序列对应通顺语句的概率时，所依据的思想是：一个词出现的概率只与它前面出现的N个词有关，通过统计词序列中各词出现的概率，就可以得到词序列对应通顺语句的概率，即：

P(S)＝P(W1)P(W2|W1)P(W3|W1W2)P(W4|W1W2W3)…P(W_k|W1,W2,…,W_k-1)；

当N为1时,则P(S)≈P(W1)P(W2|W1)P(W3|W2)P(W4|W3)…P(W_k|W_k-1)；

当N为2时,则P(S)≈P(W1)P(W2|W1)P(W3|W1W2)P(W4|W2W3)…P(W_k|W_k-1 W_k-2)；

……

以此类推，我们可以根据N的取值得到词序列对应通顺语句的概率。

在一个实施例中，计算机设备可以获取事先准备的语料库，根据语料库来统计各个词语出现的概率。语料库的总词数为T,词语Ws出现的次数为t1，在给定在前词W₀的情况下词语Ws出现的次数为t2，则：

P(Ws)＝t1/T,P(Ws|W₀)＝t2/t1。

S706，当概率大于预设阈值时，判定候选标题符合预设语句通顺条件。

具体地，计算机设备可以将词序列对应通顺语句的概率与预设阈值进行比较，将概率大于或等于预设阈值的满足预设语句通顺条件的候选标题作为最终候选标题，以进行后续的匹配度打分排序。

在本实施例中，通过对填充词填充候选标题模板后得到的候选标题进行语句通顺性的确认，能够保证填充后的候选标题的语句通顺性。

在一个实施例中，如图8所示，上述方法还包括确定候选标题与目标文章的匹配度的步骤，具体包括如下步骤S802至S806：

S802，将候选标题和目标文章输入至预定匹配模型。

其中，匹配模型可以是预先训练好的神经网络模型，计算机设备可以通过事先训练好的匹配模型对满足通顺性的候选标题进行打分，匹配模型通过训练样本进行学习而具备对输入的文章与标题之间的匹配分数进行预估的能力。计算机设备可以将候选标题和目标文章输入至匹配模型，进行后续的处理。

S804，通过预定匹配模型的语言特征表征层，分别对候选标题、目标文章进行语义编码，获得候选标题对应的第一语义编码向量以及目标文章对应的第二语义编码向量。

具体地，匹配模型包括语言特征表征层和神经网络层，其中，语言特征表征层可以根据内部的模型参数对候选标题、目标文章进行语义编码，将候选标题、目标文章转化为相应的语义编码向量。第一语义编码向量是候选标题的向量化表示，能够准确、唯一地反应候选标题在语义层面上的含义，同样地，第二语义编码向量是目标文章的内容信息的向量化表示，能够准确、唯一地表达目标文章的内容信息。

S806，通过预定匹配模型的神经网络层，基于第一语义编码向量与第二语义编码向量确定候选标题与目标文章之间的匹配度。

具体地，通过神经网络层内部训练好的模型参数，可以继续对第一语义编码向量、第二语义编码向量进行线性或非线性处理，并基于处理后的结果确定候选标题与目标文章之间的相似性得分，作为候选标题与目标文章之间的匹配度。

在一个实施例中，匹配模型是基于Bert的神经网络匹配模型，匹配模型的语言特征表征层可以为Bert Model，神经网络层可以为MLP(Multi-Layer Perceptron，多层感知器)。如图9所示，为一个实施例中基于Bert的神经网络匹配模型的网络架构示意图，参照图9，输入为候选标题与目标文章，通过Bert Model、MLP依次处理后，获得候选标题与目标文章之间的相似性得分，即为候选标题与目标文章之间的匹配度。

在一个实施例中，如图10所示，为一个实施例中对匹配模型进行训练时的模型网络架构示意图。参照图10，在训练该匹配模型时，输入数据包括训练样本集中的目标文章(Target Article)、目标文章对应的真实标题(Target Title)以及目标文章对应的候选标题(Candidate Title)，输出包括目标文章与真实标题之间的第一匹配得分(ContextScore Target with Article)、目标文章与候选标题之间的第二匹配得分(Context ScoreCandidate with Article)，再根据第一匹配得分与第二匹配得分确定的损失函数Loss来训练匹配模型。

该匹配模型通过以下步骤训练得到：获取训练样本集中的样本数据，样本数据包括目标文章、目标文章对应的真实标题以及目标文章对应的候选标题；将样本数据中的目标文章、真实标题及候选标题输入至预定匹配模型，得到目标文章与真实标题之间的第一匹配得分、目标文章与候选标题之间的第二匹配得分；根据第一匹配得分和第二匹配得分构建损失函数；将损失函数最小化时的模型参数作为预定匹配模型的最新模型参数，并返回获取训练样本集中的样本数据的步骤继续训练，直至根据最新模型参数所确定的预定匹配模型满足训练停止条件。

具体地，在训练的过程中，通过Bert Model分别对[Target Article,TargetTitle]、[Target Article,Candidate Title]进行语义编码，通过MLP层输出匹配得分。Bert Model的模型参数可以设置为默认参数并不进行更新，仅在MLP层进行模型参数的微调。

构建的损失函数Loss为：

Loss(x1,x2)＝Max(0,x2-x1+margin)

其中，x1表示目标文章与真实标题之间的第一匹配得分，x2表示目标文章与候选标题之间的第二匹配得分，margin为可容忍的第一匹配得分与第二匹配得分之间的差异，Max为取较大值函数。

需要说明的是，x2、x1的取值与模型参数相关，因此对于每一训练样本，都可以对得到的损失函数进行最小化，将最小化时的模型参数作为匹配模型的最新模型参数继续训练，直至根据最新模型参数所确定的匹配模型满足训练停止条件时，得到训练好的匹配模型。

如图11所示，为一个具体的实施例中为目标文章生成标题的流程示意图。参照图11，首先，第①步，获取待生成标题的目标文章(Target Article)及候选文章集(CandidateArticle Set)，候选文章集中各候选文章都存在各自的标题，从候选文章集中获取与目标文章在内容上具有相似度的相似文章，构成相似文章集(Similar Article)，根据相似文章集中各相似文章的标题获得初步候选标题集(Initial Candidate Title Set)；第②步，逐步排查初步候选标题中的词语，将与目标文章相关性不大的词语使用填充符(MASK)进行替换，得到候选标题模板(Candidate Title Template Set)；第③步，构造候选填充词集，在候选填充集中随机采样获得填充词，对候选标题模板中的MASK进行填充后，对填充后的候选标题按照语句通顺性条件进行筛选得到最终候选标题集(Final Candidate TitleSet)；第④步，使用基于Bert的神经网络匹配模型对各个最终候选标题进行打分排序，最后选取匹配得分最高的作为目标文章的目标标题(Final Title)。

如图12所示，在一个具体的实施例中标题生成方法具体包括以下步骤：

S1202，获取候选文章集及待生成标题的目标文章。

S1204，计算候选文章集中的各候选文章与目标文章的内容相似度。

S1206，根据内容相似度确定与目标文章对应的相似文章。

S1208，将相似文章的标题作为初步候选标题。

S1210，逐步以填充符替换初步候选标题中的词语，得到初步标题模板。

S1212，确定初步标题模板与目标文章的第一匹配度。

S1214，确定初步候选标题与目标文章的第二匹配度。

S1216，当第一匹配度大于第二匹配度时，将初步标题模板作为初步候选标题对应的候选标题模板。

S1218，获取各候选标题模板对应的文本结构，文本结构通过候选标题模板中的词语以及词语在候选标题模板中位置确定。

S1220，遍历目标文章，从目标文章中获取包含文本结构的短语。

S1222，当短语中存在与填充符的位置对应的原文词语时，将原文词语作为候选标题模板对应的候选填充词。

S1224，从词语库中获取原文词语的同义词；将同义词作为候选标题模板对应的候选填充词。

S1226，确定候选标题模板中填充符所对应词语的词性；将原文词语转换为符合词性的适配词；将转换后的适配词作为候选标题模板对应的候选填充词。

S1228，对获得的候选填充词进行随机采样，获得与候选标题模板对应的填充词。

S1230，将填充词填充至对应的候选标题模板，得到候选标题。

S1232，当短语中不包括与填充符的位置对应的原文词语时，则从候选标题模板删除填充符，得到候选标题。

S1234，获取候选标题对应的词序列。

S1236，通过预定语言模型，统计词序列对应通顺语句的概率。

S1238，当概率大于预设阈值时，将候选标题和目标文章输入至预定匹配模型。

S1240，通过预定匹配模型的语言特征表征层，分别对候选标题、目标文章进行语义编码，获得候选标题对应的第一语义编码向量以及目标文章对应的第二语义编码向量。

S1242，通过预定匹配模型的神经网络层，基于第一语义编码向量与第二语义编码向量确定候选标题与目标文章之间的匹配度。

S1244，根据候选标题与目标文章的匹配度，从候选标题中确定与目标文章对应的目标标题。

上述标题生成方法，先基于内容相似度确定与目标文章对应的相似文章，相似文章的标题可以作为目标文章的初步候选标题，从目标文章的语义层面考虑了标题的生成过程；接着，对于依据初步候选标题生成的候选标题模板，根据目标文章的内容召回填充词，用填充词来填充候选标题模板，以替换初步候选标题中的与目标文章内容不太相关的词语，得到适于目标文章的候选标题，从而增强了生成标题的可控性；最后，再基于语句通顺性对候选标题进行筛选后按照与目标文章的匹配度确定最终的目标标题，整个生成标题的过程既考虑了目标文章的语义，也增强了标题生成的可控性，从而使得生成的标题与目标文章更为匹配。

图12为一个实施例中标题生成方法的流程示意图。应该理解的是，虽然图12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图12中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图13所示，提供了一种标题生成装置1300，该装置包括初步候选标题获取模块1302、候选标题模板获取模块1304、填充词获取模块1306、候选标题获取模块1308和目标标题生成模块1310，其中：

初步候选标题获取模块1302，用于从候选文章集中确定与目标文章对应的相似文章，并将相似文章的标题作为初步候选标题；

候选标题模板获取模块1304，用于根据初步候选标题生成候选标题模板；

填充词获取模块1306，用于根据目标文章的内容，确定与各候选标题模板对应的填充词；

候选标题获取模块1308，用于将填充词填充至对应的候选标题模板，得到候选标题；

目标标题生成模块1310，用于当候选标题符合预设语句通顺条件时，根据候选标题与目标文章的匹配度，从候选标题中确定与目标文章对应的目标标题。

在一个实施例中，初步候选标题获取模块1302还用于获取候选文章集及待生成标题的目标文章；计算候选文章集中的各候选文章与目标文章的内容相似度；根据内容相似度确定与目标文章对应的相似文章。

在一个实施例中，候选标题模板获取模块1304还用于遍历目标文章中的词语，确定初步候选标题中的非相关词；将初步候选标题中的非相关词以填充符替换，得到候选标题模板。

在一个实施例中，候选标题模板获取模块1304还用于逐步以填充符替换初步候选标题中的词语，得到初步标题模板；确定初步标题模板与目标文章的第一匹配度；确定初步候选标题与目标文章的第二匹配度；当第一匹配度大于第二匹配度时，将初步标题模板作为初步候选标题对应的候选标题模板。

在一个实施例中，填充词获取模块1306还用于根据目标文章的内容，确定与各候选标题模板对应的候选填充词；对候选填充词进行随机采样，获得与候选标题模板对应的填充词。

在一个实施例中，填充词获取模块1306还用于获取各候选标题模板对应的文本结构，文本结构通过候选标题模板中的词语以及词语在候选标题模板中位置确定；遍历目标文章，从目标文章中获取包含文本结构的短语；获取短语中与填充符的位置对应的原文词语，作为候选标题模板对应的候选填充词。

在一个实施例中，填充词获取模块1306还用于从词语库中获取原文词语的同义词；将同义词作为候选标题模板对应的候选填充词。

在一个实施例中，填充词获取模块1306还用于确定候选标题模板中填充符所对应词语的词性；将原文词语转换为符合词性的适配词；将转换后的适配词作为候选标题模板对应的候选填充词。

在一个实施例中，候选标题获取模块1308还用于当短语中不包括与填充符的位置对应的原文词语时，则从候选标题模板删除填充符，得到候选标题。

在一个实施例中，标题生成装置1300还包括语句通顺性判定模块，用于获取候选标题对应的词序列；通过预定语言模型，统计词序列对应通顺语句的概率；当概率大于预设阈值时，判定候选标题符合预设语句通顺条件。

在一个实施例中，标题生成装置1300还包括匹配度确定模块，用于将候选标题和目标文章输入至预定匹配模型；通过预定匹配模型的语言特征表征层，分别对候选标题、目标文章进行语义编码，获得候选标题对应的第一语义编码向量以及目标文章对应的第二语义编码向量；通过预定匹配模型的神经网络层，基于第一语义编码向量与第二语义编码向量确定候选标题与目标文章之间的匹配度。

在一个实施例中，标题生成装置1300还包括匹配模型训练模块，用于获取训练样本集中的样本数据，样本数据包括目标文章、目标文章对应的真实标题以及目标文章对应的候选标题；将样本数据中的目标文章、真实标题及候选标题输入至预定匹配模型，得到目标文章与真实标题之间的第一匹配得分、目标文章与候选标题之间的第二匹配得分；根据第一匹配得分和第二匹配得分构建损失函数；将损失函数最小化时的模型参数作为预定匹配模型的最新模型参数，并返回获取训练样本集中的样本数据的步骤继续训练，直至根据最新模型参数所确定的预定匹配模型满足训练停止条件。

上述标题生成装置1300，先基于内容相似度确定与目标文章对应的相似文章，相似文章的标题可以作为目标文章的初步候选标题，从目标文章的语义层面考虑了标题的生成过程；接着，对于依据初步候选标题生成的候选标题模板，根据目标文章的内容召回填充词，用填充词来填充候选标题模板，以替换初步候选标题中的与目标文章内容不太相关的词语，得到适于目标文章的候选标题，从而增强了生成标题的可控性；最后，再基于语句通顺性对候选标题进行筛选后按照与目标文章的匹配度确定最终的目标标题，整个生成标题的过程既考虑了目标文章的语义，也增强了标题生成的可控性，从而使得生成的标题与目标文章更为匹配。

图14示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图14所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口，当该计算机设备为终端110时，还可以包括输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现标题生成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行标题生成方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的标题生成装置1300可以实现为一种计算机程序的形式，计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该标题生成装置1300的各个程序模块，比如，图13所示的初步候选标题获取模块1302、候选标题模板获取模块1304、填充词获取模块1306、候选标题获取模块1308和目标标题生成模块1310。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的标题生成方法中的步骤。

例如，图14所示的计算机设备可以通过如图13所示的标题生成装置1300中的初步候选标题获取模块1302执行步骤S202。计算机设备可通过候选标题模板获取模块1304执行步骤S204。计算机设备可通过填充词获取模块1306执行步骤S206。计算机设备可通过候选标题获取模块1308执行步骤S208。计算机设备可通过目标标题生成模块1310执行步骤S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述标题生成方法的步骤。此处标题生成方法的步骤可以是上述各个实施例的标题生成方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述标题生成方法的步骤。此处标题生成方法的步骤可以是上述各个实施例的标题生成方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种标题生成方法，包括：

根据所述初步候选标题生成候选标题模板；

将所述填充词填充至对应的候选标题模板，得到候选标题；

2.根据权利要求1所述的方法，其特征在于，所述从候选文章集中确定与目标文章对应的相似文章，包括：

获取候选文章集及待生成标题的目标文章；

计算所述候选文章集中的各候选文章与所述目标文章的内容相似度；

根据所述内容相似度确定与所述目标文章对应的相似文章。

3.根据权利要求1所述的方法，其特征在于，所述根据所述初步候选标题生成候选标题模板，包括：

遍历所述目标文章中的词语，确定所述初步候选标题中的非相关词；

将所述初步候选标题中的非相关词以填充符替换，得到候选标题模板。

4.根据权利要求1所述的方法，其特征在于，所述根据所述初步候选标题生成候选标题模板，包括：

逐步以填充符替换所述初步候选标题中的词语，得到初步标题模板；

确定所述初步标题模板与所述目标文章的第一匹配度；

确定所述初步候选标题与所述目标文章的第二匹配度；

当所述第一匹配度大于所述第二匹配度时，将所述初步标题模板作为所述初步候选标题对应的候选标题模板。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标文章的内容，确定与各所述候选标题模板对应的填充词，包括：

根据所述目标文章的内容，确定与各所述候选标题模板对应的候选填充词；

对所述候选填充词进行随机采样，获得与所述候选标题模板对应的填充词。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标文章的内容，确定与各所述候选标题模板对应的候选填充词，包括：

获取各所述候选标题模板对应的文本结构，所述文本结构通过所述候选标题模板中的词语以及词语在所述候选标题模板中位置确定；

遍历所述目标文章，从所述目标文章中获取包含所述文本结构的短语；

获取所述短语中与所述填充符的位置对应的原文词语，作为所述候选标题模板对应的候选填充词。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

从词语库中获取所述原文词语的同义词；

将所述同义词作为所述候选标题模板对应的候选填充词。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

确定所述候选标题模板中填充符所对应词语的词性；

将所述原文词语转换为符合所述词性的适配词；

将转换后的适配词作为所述候选标题模板对应的候选填充词。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当所述短语中不包括与所述填充符的位置对应的原文词语时，则

从所述候选标题模板删除所述填充符，得到候选标题。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述候选标题对应的词序列；

通过预定语言模型，统计所述词序列对应通顺语句的概率；

当所述概率大于预设阈值时，判定所述候选标题符合预设语句通顺条件。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述候选标题和所述目标文章输入至预定匹配模型；

通过所述预定匹配模型的语言特征表征层，分别对所述候选标题、所述目标文章进行语义编码，获得所述候选标题对应的第一语义编码向量以及所述目标文章对应的第二语义编码向量；

通过所述预定匹配模型的神经网络层，基于所述第一语义编码向量与所述第二语义编码向量确定所述候选标题与所述目标文章之间的匹配度。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述预定匹配模型通过以下步骤训练得到：

获取训练样本集中的样本数据，所述样本数据包括目标文章、所述目标文章对应的真实标题以及所述目标文章对应的候选标题；

将所述样本数据中的所述目标文章、所述真实标题及所述候选标题输入至预定匹配模型，得到所述目标文章与所述真实标题之间的第一匹配得分、所述目标文章与所述候选标题之间的第二匹配得分；

根据所述第一匹配得分和所述第二匹配得分构建损失函数；

将所述损失函数最小化时的模型参数作为所述预定匹配模型的最新模型参数，并返回所述获取训练样本集中的样本数据的步骤继续训练，直至根据最新模型参数所确定的预定匹配模型满足训练停止条件。

13.一种标题生成装置，所述装置包括：

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。