CN110968666A

CN110968666A - 基于相似度的标题生成模型的训练方法及计算设备

Info

Publication number: CN110968666A
Application number: CN201911159176.0A
Authority: CN
Inventors: 柳燕煌
Original assignee: Ireader Technology Co Ltd
Current assignee: Ireader Technology Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-07

Abstract

本发明公开了一种基于相似度的标题生成模型的训练方法及计算设备，该方法包括：从文章集合提取各个文章内容对应的标题；针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据相似度从各个组成语句中提取词语，构建对应的词语样本集合；根据各个文章内容对应的词语样本集合以及各个文章内容对应的标题，训练得到标题生成模型。该方案依据文章内容的特征向量以及各个组成语句对应的特征向量之间的相似度便捷地构建词语样本集合，所得到的标题生成模型能够快速地生成文章的标题。

Description

基于相似度的标题生成模型的训练方法及计算设备

技术领域

本发明涉及信息处理技术领域，具体涉及一种基于相似度的标题生成模型的训练方法、计算设备及存储介质。

背景技术

随着互联网技术的不断发展，越来越多的用户喜欢通过互联网阅读新闻、电子书等文章。对于文章来说，其标题十分重要，一个优质的标题既能够充分反映文章的主要内容，又能够提高用户阅读的兴趣。在现有技术中，对于文章标题的确定，大多是通过文章处理人员对文章内容进行阅读与总结的方式来确定的。以文章为电子书为例，一个电子书阅读平台中一般会存储有几十万本甚至数量更多的电子书，若依据现有的这种处理方式来确定每本电子书的标题，则需要耗费大量的人力成本和时间成本，存在着处理效率较低的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于相似度的标题生成模型的训练方法、计算设备及存储介质。

根据本发明的一个方面，提供了一种基于相似度的标题生成模型的训练方法，包括：从文章集合中提取各个文章内容对应的标题；针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

根据本发明的另一个方面，提供了一种基于相似度的标题生成方法，包括：获取待处理文章内容以及待处理文章内容的各个组成语句；对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建待处理文章内容对应的词语集合；将词语集合中的词语输入至经过训练的标题生成模型中，将标题生成模型的输出结果作为待处理文章的标题。

根据本发明的另一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行以下操作：从文章集合中提取各个文章内容对应的标题；针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

根据本发明的另一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行以下操作：获取待处理文章内容以及待处理文章内容的各个组成语句；对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建待处理文章内容对应的词语集合；将词语集合中的词语输入至经过训练的标题生成模型中，将标题生成模型的输出结果作为待处理文章的标题。

根据本发明的另一方面，提供了一种存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行以下操作：从文章集合中提取各个文章内容对应的标题；针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

根据本发明的又一方面，提供了一种存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行以下操作：获取待处理文章内容以及待处理文章内容的各个组成语句；对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建待处理文章内容对应的词语集合；将词语集合中的词语输入至经过训练的标题生成模型中，将标题生成模型的输出结果作为待处理文章的标题。

根据本发明提供的技术方案，通过对文章内容的全文以及文章内容的各个组成语句进行特征提取，能够便捷地得到文章内容的全文的特征向量以及各个组成语句对应的特征向量；依据文章内容的全文的特征向量以及各个组成语句对应的特征向量之间的相似度，能够便捷地实现对于文章内容对应的词语样本集合的构建，根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题进行训练，使得训练得到的标题生成模型能够快速、准确地为文章生成标题，有效地提高了标题的生成效率，优化了标题生成方式。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施例一的一种基于相似度的标题生成模型的训练方法的流程示意图；

图2示出了根据本发明实施例二的一种基于相似度的标题生成模型的训练方法的流程示意图；

图3示出了根据本发明实施例三的一种基于相似度的标题生成方法的流程示意图；

图4示出了根据本发明实施例四的一种基于相似度的标题生成方法的流程示意图；

图5示出了根据本发明实施例七的一种计算设备的结构示意图；

图6示出了根据本发明实施例八的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1示出了根据本发明实施例一的一种基于相似度的标题生成模型的训练方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S101，从文章集合中提取各个文章内容对应的标题。

其中，文章集合中包含有多个文章内容，文章集合中的多个文章内容可以是从互联网资讯平台等中采集得到的新闻和/或从电子书库中获取得到的电子书、电子书的章节内容等，例如电子书中的一个章节内容即可以视为一篇文章，又如，完整的一本电子书的内容也可以视为一篇文章。每个文章内容都有对应的标题，在步骤S101中从文章集合中提取各个文章内容对应的标题，以便进行标题生成模型的训练。

步骤S102，针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量。

其中，针对文章集合中的每个文章内容，可按照语句对文章内容进行拆分，得到文章内容的各个组成语句，组成语句即为文章内容中的单个语句。具体地，可利用主题模型或者神经网络等对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量。第一特征向量能够反映文章内容的全文的主题信息或者内容信息，第二特征向量能够反映对应的组成语句的主题信息或者内容信息。

步骤S103，计算第一特征向量与各个第二特征向量之间的相似度。

在得到了第一特征向量与各个第二特征向量之后，就可根据第一特征向量与各个第二特征向量，采用余弦相似度计算方式或者欧几里德距离计算方式等相似度计算方式，对第一特征向量与各个第二特征向量之间的相似度进行计算。

步骤S104，根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建文章内容对应的词语样本集合。

第一特征向量与第二特征向量之间的相似度越高，说明该第二特征向量对应的组成语句所反映的内容与该文章内容的全文所反映的内容越为接近，那么可从各个组成语句中相似度较高的至少一个组成语句中提取词语，汇总所有提取得到的词语，得到该文章内容对应的词语样本集合。

步骤S105，根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

具体地，可根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题进行模型训练，训练得到标题生成模型。利用该标题生成模型，能够快速、准确地为文章生成标题。本领域技术人员可根据实际需要确定具体训练方式，此处不做限定。

利用本实施例提供的基于相似度的标题生成模型的训练方法，通过对文章内容的全文以及文章内容的各个组成语句进行特征提取，能够便捷地得到文章内容的全文的特征向量以及各个组成语句对应的特征向量；依据文章内容的全文的特征向量以及各个组成语句对应的特征向量之间的相似度，能够便捷地实现对于文章内容对应的词语样本集合的构建，根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题进行训练，使得训练得到的标题生成模型能够快速、准确地为文章生成标题，有效地提高了标题的生成效率，优化了标题生成方式。

实施例二

图2示出了根据本发明实施例二的一种基于相似度的标题生成模型的训练方法的流程示意图，如图2所示，该方法包括如下步骤：

步骤S201，从文章集合中提取各个文章内容对应的标题。

其中，文章集合中的每个文章内容都有对应的标题，针对文章集合中的每个文章内容，可利用现有的通用识别工具等对该文章内容对应的标题进行识别，并提取所识别的标题。

步骤S202，针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量。

在一种可选的实施方式中，可利用主题模型，分别对文章内容的全文以及文章内容的各个组成语句进行主题分析，得到文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量，其中，主题模型可以为文档主题生成(Latent Dirichlet Allocation，简称LDA)模型等。具体地，可将文章内容的全文输入至主题模型中，由主题模型对文章内容的全文进行主题分析，得到文章内容的全文的第一主题向量；将各个组成语句输入至主题模型中，由主题模型对各个组成语句进行主题分析，得到各个组成语句对应的第二主题向量。所得到的第一主题向量能够有效反映文章内容的全文的主题信息，第二主题向量能够有效反映对应的组成语句的主题信息。可选地，第一主题向量和第二主题向量可以是低维的向量。

在另一种可选的实施方式中，可利用神经网络或者embedding(嵌入)方法等，分别对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。所得到的第一embedding向量能够反映文章内容的全文的内容信息，第二embedding向量能够反映对应的组成语句的内容信息。

可选地，第一特征向量和第二特征向量还可为其他能够反映主题信息或内容信息的向量，此处不做具体限定。

步骤S203，计算第一特征向量与任一第二特征向量之间的夹角的余弦值，利用余弦值确定第一特征向量与该第二特征向量之间的相似度。

在本实施例中，采用余弦相似度计算方式来确定第一特征向量与任一第二特征向量之间的相似度。具体地，利用余弦计算公式，计算第一特征向量与任一第二特征向量之间的夹角的余弦值，然后利用计算得到的余弦值确定第一特征向量与该第二特征向量之间的相似度。

步骤S204，对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果。

为了能够从文章内容的各个组成语句中快速地查找到与文章内容的全文较为相关的组成语句，在计算得到了第一特征向量与各个第二特征向量之间的相似度之后，还需对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，从而得到排列结果。

步骤S205，对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建文章内容对应的词语样本集合。

排列结果是按照第一特征向量与各个第二特征向量之间的相似度从高到低的顺序对各个第二特征向量对应的各个组成语句进行排列得到的，其中，第一特征向量与第二特征向量之间的相似度越高，说明该第二特征向量对应的组成语句所反映的内容与该文章内容的全文所反映的内容越为接近，那么排列结果中排列靠前的n个组成语句所反映的内容与该文章内容的全文所反映的内容较为相似，为该文章内容中的重要语句。因此可利用排列结果中排列靠前的n个组成语句的词语，构建文章内容对应的词语样本集合，其中，n大于1。例如，n可以为20。具体地，对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，利用所得到的词语确定词语样本，构建文章内容对应的词语样本集合。

可选地，为了实现对文章内容对应的词语样本集合的有效管理，使得词语样本集合能够更为方便地用于模型训练中，可通过预设数量阈值来对词语样本集合所包括的词语样本的最大数量进行限制。本领域技术人员可根据实际需要对预设数量阈值进行设置，例如，可将预设数量阈值设置为300。具体地，统计n个组成语句的词语的总数量；判断词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合预设数量阈值的词语，将所选取的词语作为词语样本添加至文章内容对应的词语样本集合中；若否，则将n个组成语句的词语作为词语样本添加至文章内容对应的词语样本集合中。其中，如果词语的总数量超过预设数量阈值，则可优先选取n个组成语句中排列靠前的组成语句的词语，直至所选取的词语的数量达到预设数量阈值为止。

另外，考虑到例如循环神经网络(Recurrent Neural Network，简称RNN)等训练模型对序列较为关注，为了使得利用RNN等训练模型进行训练得到的标题生成模型能够获得较好的预测效果，在构建词语样本集合时，还需考虑组成语句在文章内容中的出现顺序。具体地，获取排列结果中排列靠前的n个组成语句在文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语作为词语样本，构建文章内容对应的词语样本集合。通过上述处理，使得词语样本集合中的词语样本是按照所对应的组成语句在文章内容中的出现顺序进行排序的，有效地保留了词语在文章内容中原有的逻辑先后关系。

步骤S206，根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

具体地，可利用RNN或Transformer等模型作为训练模型，根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题对训练模型进行训练，通过不断训练确定训练模型中的参数及权重，得到标题生成模型。利用该标题生成模型，能够快速、准确地为文章生成标题。

利用本实施例提供的基于相似度的标题生成模型的训练方法，采用余弦相似度计算方式来计算文章内容的全文的特征向量以及各个组成语句对应的特征向量之间的相似度，将较高的相似度所对应的组成单元的词语作为词语样本集合中的词语样本，便捷地实现了基于文章内容中的重要语句对词语样本集合进行构建，构建得到的词语样本集合中的词语样本能够更为精准地反映文章内容中的中心内容；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题进行训练，有效地提升了训练得到的标题生成模型的准确率。

实施例三

图3示出了根据本发明实施例三的一种基于相似度的标题生成方法的流程示意图，如图3所示，该方法包括如下步骤：

步骤S301，获取待处理文章内容以及待处理文章内容的各个组成语句。

其中，可从数据库等中获取待处理文章内容，接着从待处理文章内容中获取其各个组成语句。具体地，可按照语句对待处理文章内容进行拆分，从而得到待处理文章内容的各个组成语句，组成语句为待处理文章内容中的单个语句。

步骤S302，对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量。

其中，可利用主题模型或者神经网络等对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量。第一特征向量能够反映待处理文章内容的全文的主题信息或者内容信息，第二特征向量能够反映对应的组成语句的主题信息或者内容信息。

步骤S303，计算第一特征向量与各个第二特征向量之间的相似度。

其中，可采用余弦相似度计算方式或者欧几里德距离计算方式等相似度计算方式，对第一特征向量与各个第二特征向量之间的相似度进行计算。

步骤S304，根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建待处理文章内容对应的词语集合。

第一特征向量与第二特征向量之间的相似度越高，说明该第二特征向量对应的组成语句所反映的内容与该待处理文章内容的全文所反映的内容越为接近，那么可从各个组成语句中相似度较高的至少一个组成语句中提取词语，汇总所有提取得到的词语，得到该待处理文章内容对应的词语集合。

步骤S305，将词语集合中的词语输入至经过训练的标题生成模型中，将标题生成模型的输出结果作为待处理文章的标题。

将词语集合中的词语输入至上述实施例所得到的经过训练的标题生成模型中，由经过训练的标题生成模型对词语集合中的词语进行处理，得到输出结果，将输出结果作为待处理文章的标题。

利用本实施例提供的基于相似度的标题生成方法，通过对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，能够便捷地得到待处理文章内容的全文的特征向量以及各个组成语句对应的特征向量；依据待处理文章内容的全文的特征向量以及各个组成语句对应的特征向量之间的相似度，能够便捷地实现对于待处理文章内容对应的词语集合的构建；通过将词语集合中的词语输入至经过训练的标题生成模型中，能够快速地生成待处理文章的标题，有效地提高了标题的处理效率。

实施例四

图4示出了根据本发明实施例四的一种基于相似度的标题生成方法的流程示意图，如图4所示，该方法包括如下步骤：

步骤S401，获取待处理文章内容以及待处理文章内容的各个组成语句。

步骤S402，对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量。

在一种可选的实施方式中，可利用LDA模型等主题模型，分别对待处理文章内容的全文以及待处理文章内容的各个组成语句进行主题分析，得到待处理文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量。具体地，将待处理文章内容的全文输入至主题模型中，由主题模型对待处理文章内容的全文进行主题分析，得到待处理文章内容的全文的第一主题向量；将各个组成语句输入至主题模型中，由主题模型对各个组成语句进行主题分析，得到各个组成语句对应的第二主题向量。所得到的第一主题向量能够有效反映待处理文章内容的全文的主题信息，第二主题向量能够有效反映对应的组成语句的主题信息。

在另一种可选的实施方式中，可利用神经网络或者embedding方法等，分别对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。所得到的第一embedding向量能够反映待处理文章内容的全文的内容信息，第二embedding向量能够反映对应的组成语句的内容信息。

步骤S403，计算第一特征向量与任一第二特征向量之间的夹角的余弦值，利用余弦值确定第一特征向量与该第二特征向量之间的相似度。

步骤S404，对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果。

为了能够从待处理文章内容的各个组成语句中快速地查找到与待处理文章内容的全文较为相关的组成语句，在计算得到了第一特征向量与各个第二特征向量之间的相似度之后，还需对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，从而得到排列结果。

步骤S405，对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建待处理文章内容对应的词语集合。

排列结果是按照第一特征向量与各个第二特征向量之间的相似度从高到低的顺序对各个第二特征向量对应的各个组成语句进行排列得到的，其中，第一特征向量与第二特征向量之间的相似度越高，说明该第二特征向量对应的组成语句所反映的内容与该待处理文章内容的全文所反映的内容越为接近，那么排列结果中排列靠前的n个组成语句所反映的内容与该待处理文章内容的全文所反映的内容较为相似，为该待处理文章内容中的重要语句。因此可利用排列结果中排列靠前的n个组成语句的词语，构建待处理文章内容对应的词语集合，其中，n大于1。具体地，对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，利用所得到的词语确定词语样本，构建文章内容对应的词语样本集合。

可选地，通过预设数量阈值来对词语集合所包括的词语的最大数量进行限制，以实现对词语集合的有效管理，以便经过训练的标题生成模型对词语集合进行处理。具体地，统计n个组成语句的词语的总数量；判断词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合预设数量阈值的词语，将所选取的词语添加至待处理文章内容对应的词语集合中；若否，则将n个组成语句的词语添加至待处理文章内容对应的词语集合中。

考虑到经过训练的标题生成模型可能是利用RNN等关注于序列的训练模型而训练得到的，为了能够为生成较为准确的标题，在构建词语集合时，还需考虑组成语句在待处理文章内容中的出现顺序。具体地，获取排列结果中排列靠前的n个组成语句在待处理文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语，构建待处理文章内容对应的词语集合。通过上述处理，使得词语集合中的词语是按照所对应的组成语句在待处理文章内容中的出现顺序进行排序的，有效地保留了词语在待处理文章内容中原有的逻辑先后关系。

步骤S406，将词语集合中的词语输入至经过训练的标题生成模型中，将标题生成模型的输出结果作为待处理文章的标题。

利用本实施例提供的基于相似度的标题生成方法，采用余弦相似度计算方式来计算待处理文章内容的全文的特征向量以及各个组成语句对应的特征向量之间的相似度，将较高的相似度所对应的组成单元的词语作为词语集合中的词语，便捷地实现了基于待处理文章内容中的重要语句对词语集合进行构建，构建得到的词语集合中的词语能够更为精准地反映待处理文章内容中的中心内容；通过将词语集合中的词语输入至经过训练的标题生成模型中，实现了对标题的快速、精准生成，有效地提高了标题的处理效率以及准确率。

实施例五

本发明实施例五提供了一种非易失性存储介质，存储介质存储有至少一可执行指令，该可执行指令可执行上述任意方法实施例中的基于相似度的标题生成模型的训练方法。

可执行指令具体可以用于使得处理器执行以下操作：从文章集合中提取各个文章内容对应的标题；针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：对文章内容的全文以及文章内容的各个组成语句进行主题分析，得到文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建文章内容对应的词语样本集合。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：统计n个组成语句的词语的总数量；判断词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合预设数量阈值的词语，将所选取的词语作为词语样本添加至文章内容对应的词语样本集合中；若否，则将n个组成语句的词语作为词语样本添加至文章内容对应的词语样本集合中。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：获取排列结果中排列靠前的n个组成语句在文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语作为词语样本，构建文章内容对应的词语样本集合。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：计算第一特征向量与任一第二特征向量之间的夹角的余弦值，利用余弦值确定第一特征向量与该第二特征向量之间的相似度。

实施例六

本发明实施例六提供了一种非易失性存储介质，存储介质存储有至少一可执行指令，该可执行指令可执行上述任意方法实施例中的基于相似度的标题生成方法。

可执行指令具体可以用于使得处理器执行以下操作：获取待处理文章内容以及待处理文章内容的各个组成语句；对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建待处理文章内容对应的词语集合；将词语集合中的词语输入至经过训练的标题生成模型中，将标题生成模型的输出结果作为待处理文章的标题。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：对待处理文章内容的全文以及待处理文章内容的各个组成语句进行主题分析，得到待处理文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建待处理文章内容对应的词语集合。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：统计n个组成语句的词语的总数量；判断词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合预设数量阈值的词语，将所选取的词语添加至待处理文章内容对应的词语集合中；若否，则将n个组成语句的词语添加至待处理文章内容对应的词语集合中。

在一种可选的实施方式中，可执行指令进一步使处理器执行以下操作：获取排列结果中排列靠前的n个组成语句在待处理文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语，构建待处理文章内容对应的词语集合。

实施例七

图5示出了根据本发明实施例七的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。如图5所示，该计算设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。处理器502，用于执行程序510，具体可以执行上述基于相似度的标题生成模型的训练方法实施例中的相关步骤。具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific IntegratedCircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：从文章集合中提取各个文章内容对应的标题；针对文章集合中的每个文章内容，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

在一种可选的实施方式中，程序510进一步使得处理器502执行以下操作：对文章内容的全文以及文章内容的各个组成语句进行主题分析，得到文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对文章内容的全文以及文章内容的各个组成语句进行特征提取，得到文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

在一种可选的实施方式中，程序510进一步使得处理器502执行以下操作：对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建文章内容对应的词语样本集合。

在一种可选的实施方式中，程序510进一步使得处理器502执行以下操作：统计n个组成语句的词语的总数量；判断词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合预设数量阈值的词语，将所选取的词语作为词语样本添加至文章内容对应的词语样本集合中；若否，则将n个组成语句的词语作为词语样本添加至文章内容对应的词语样本集合中。

在一种可选的实施方式中，程序510进一步使得处理器502执行以下操作：获取排列结果中排列靠前的n个组成语句在文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语作为词语样本，构建文章内容对应的词语样本集合。

在一种可选的实施方式中，程序510进一步使得处理器502执行以下操作：计算第一特征向量与任一第二特征向量之间的夹角的余弦值，利用余弦值确定第一特征向量与该第二特征向量之间的相似度。

程序510中各步骤的具体实现可以参见上述基于相似度的标题生成模型的训练实施例中的相应步骤对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

实施例八

图6示出了根据本发明实施例八的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。如图6所示，该计算设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。其中：处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。通信接口604，用于与其它设备比如客户端或其它服务器等的网元通信。处理器602，用于执行程序610，具体可以执行上述基于相似度的标题生成方法实施例中的相关步骤。具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行以下操作：获取待处理文章内容以及待处理文章内容的各个组成语句；对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算第一特征向量与各个第二特征向量之间的相似度；根据第一特征向量与各个第二特征向量之间的相似度，从第二特征向量对应的各个组成语句中提取词语，构建待处理文章内容对应的词语集合；将词语集合中的词语输入至经过训练的标题生成模型中，将标题生成模型的输出结果作为待处理文章的标题。

在一种可选的实施方式中，程序610进一步使得处理器602执行以下操作：对待处理文章内容的全文以及待处理文章内容的各个组成语句进行主题分析，得到待处理文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取，得到待处理文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

在一种可选的实施方式中，程序610进一步使得处理器602执行以下操作：对第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建待处理文章内容对应的词语集合。

在一种可选的实施方式中，程序610进一步使得处理器602执行以下操作：统计n个组成语句的词语的总数量；判断词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合预设数量阈值的词语，将所选取的词语添加至待处理文章内容对应的词语集合中；若否，则将n个组成语句的词语添加至待处理文章内容对应的词语集合中。

在一种可选的实施方式中，程序610进一步使得处理器602执行以下操作：获取排列结果中排列靠前的n个组成语句在待处理文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语，构建待处理文章内容对应的词语集合。

在一种可选的实施方式中，程序610进一步使得处理器602执行以下操作：计算第一特征向量与任一第二特征向量之间的夹角的余弦值，利用余弦值确定第一特征向量与该第二特征向量之间的相似度。

通过本实施例提供的方案，依据文章内容的全文的特征向量以及各个组成语句对应的特征向量之间的相似度，能够便捷地实现对于文章内容对应的词语样本集合的构建，根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题进行训练，使得训练得到的标题生成模型能够快速、准确地生成文章的标题，有效地提高了标题的生成效率。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1.一种基于相似度的标题生成模型的训练方法，包括：从文章集合中提取各个文章内容对应的标题；针对所述文章集合中的每个文章内容，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算所述第一特征向量与各个第二特征向量之间的相似度；根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

A2.根据A1所述的方法，所述针对所述文章集合中的每个文章内容，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量进一步包括：对所述文章内容的全文以及所述文章内容的各个组成语句进行主题分析，得到所述文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

A3.根据A1所述的方法，所述根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述文章内容对应的词语样本集合进一步包括：对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合。

A4.根据A3所述的方法，所述对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合进一步包括：统计n个组成语句的词语的总数量；判断所述词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语，将所选取的词语作为词语样本添加至所述文章内容对应的词语样本集合中；若否，则将n个组成语句的词语作为词语样本添加至所述文章内容对应的词语样本集合中。

A5.根据A3或A4所述的方法，所述对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合进一步包括：获取排列结果中排列靠前的n个组成语句在所述文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语作为词语样本，构建所述文章内容对应的词语样本集合。

A6.根据A1-A5任一项所述的方法，所述计算所述第一特征向量与各个第二特征向量之间的相似度进一步包括：计算所述第一特征向量与任一第二特征向量之间的夹角的余弦值，利用所述余弦值确定所述第一特征向量与该第二特征向量之间的相似度。

本发明还公开了：B7.一种基于相似度的标题生成方法，包括：获取待处理文章内容以及所述待处理文章内容的各个组成语句；对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算所述第一特征向量与各个第二特征向量之间的相似度；根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述待处理文章内容对应的词语集合；将所述词语集合中的词语输入至经过训练的标题生成模型中，将所述标题生成模型的输出结果作为待处理文章的标题。

B8.根据B7所述的方法，所述对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量进一步包括：对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行主题分析，得到所述待处理文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

B9.根据B7所述的方法，所述根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述待处理文章内容对应的词语集合进一步包括：对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建所述待处理文章内容对应的词语集合。

B10.根据B9所述的方法，所述对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建所述待处理文章内容对应的词语集合进一步包括：统计n个组成语句的词语的总数量；判断所述词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语，将所选取的词语添加至所述待处理文章内容对应的词语集合中；若否，则将n个组成语句的词语添加至所述待处理文章内容对应的词语集合中。

B11.根据B9或B10所述的方法，所述对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建所述待处理文章内容对应的词语集合进一步包括：获取排列结果中排列靠前的n个组成语句在所述待处理文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语，构建所述待处理文章内容对应的词语集合。

B12.根据B7-B11任一项所述的方法，所述计算所述第一特征向量与各个第二特征向量之间的相似度进一步包括：计算所述第一特征向量与任一第二特征向量之间的夹角的余弦值，利用所述余弦值确定所述第一特征向量与该第二特征向量之间的相似度。

本发明还公开了：C13.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：从文章集合中提取各个文章内容对应的标题；针对所述文章集合中的每个文章内容，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算所述第一特征向量与各个第二特征向量之间的相似度；根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

C14.根据C13所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：对所述文章内容的全文以及所述文章内容的各个组成语句进行主题分析，得到所述文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

C15.根据C13所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合。

C16.根据C15所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：统计n个组成语句的词语的总数量；判断所述词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语，将所选取的词语作为词语样本添加至所述文章内容对应的词语样本集合中；若否，则将n个组成语句的词语作为词语样本添加至所述文章内容对应的词语样本集合中。

C17.根据C15或C16所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：获取排列结果中排列靠前的n个组成语句在所述文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语作为词语样本，构建所述文章内容对应的词语样本集合。

C18.根据C13-C17任一项所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：计算所述第一特征向量与任一第二特征向量之间的夹角的余弦值，利用所述余弦值确定所述第一特征向量与该第二特征向量之间的相似度。

本发明还公开了：D19.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：获取待处理文章内容以及所述待处理文章内容的各个组成语句；对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算所述第一特征向量与各个第二特征向量之间的相似度；根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述待处理文章内容对应的词语集合；将所述词语集合中的词语输入至经过训练的标题生成模型中，将所述标题生成模型的输出结果作为待处理文章的标题。

D20.根据D19所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行主题分析，得到所述待处理文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

D21.根据D19所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建所述待处理文章内容对应的词语集合。

D22.根据D21所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：统计n个组成语句的词语的总数量；判断所述词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语，将所选取的词语添加至所述待处理文章内容对应的词语集合中；若否，则将n个组成语句的词语添加至所述待处理文章内容对应的词语集合中。

D23.根据D21或D22所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：获取排列结果中排列靠前的n个组成语句在所述待处理文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语，构建所述待处理文章内容对应的词语集合。

D24.根据D19-D23任一项所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：计算所述第一特征向量与任一第二特征向量之间的夹角的余弦值，利用所述余弦值确定所述第一特征向量与该第二特征向量之间的相似度。

本发明还公开了：E25.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：从文章集合中提取各个文章内容对应的标题；针对所述文章集合中的每个文章内容，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算所述第一特征向量与各个第二特征向量之间的相似度；根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述文章内容对应的词语样本集合；根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

E26.根据E25所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：对所述文章内容的全文以及所述文章内容的各个组成语句进行主题分析，得到所述文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

E27.根据E25所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合。

E28.根据E27所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：统计n个组成语句的词语的总数量；判断所述词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语，将所选取的词语作为词语样本添加至所述文章内容对应的词语样本集合中；若否，则将n个组成语句的词语作为词语样本添加至所述文章内容对应的词语样本集合中。

E29.根据E27或E28所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：获取排列结果中排列靠前的n个组成语句在所述文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语作为词语样本，构建所述文章内容对应的词语样本集合。

E30.根据E25-E29任一项所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：计算所述第一特征向量与任一第二特征向量之间的夹角的余弦值，利用所述余弦值确定所述第一特征向量与该第二特征向量之间的相似度。

本发明还公开了：F31.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：获取待处理文章内容以及所述待处理文章内容的各个组成语句；对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；计算所述第一特征向量与各个第二特征向量之间的相似度；根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述待处理文章内容对应的词语集合；将所述词语集合中的词语输入至经过训练的标题生成模型中，将所述标题生成模型的输出结果作为待处理文章的标题。

F32.根据F31所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行主题分析，得到所述待处理文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；或者，对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

F33.根据F31所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语，构建所述待处理文章内容对应的词语集合。

F34.根据F33所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：统计n个组成语句的词语的总数量；判断所述词语的总数量是否超过预设数量阈值；若是，则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语，将所选取的词语添加至所述待处理文章内容对应的词语集合中；若否，则将n个组成语句的词语添加至所述待处理文章内容对应的词语集合中。

F35.根据F33或F34所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：获取排列结果中排列靠前的n个组成语句在所述待处理文章内容中的出现顺序；对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语，构建所述待处理文章内容对应的词语集合。

F36.根据F31-F35任一项所述的存储介质，所述可执行指令进一步使所述处理器执行以下操作：计算所述第一特征向量与任一第二特征向量之间的夹角的余弦值，利用所述余弦值确定所述第一特征向量与该第二特征向量之间的相似度。

Claims

1.一种基于相似度的标题生成模型的训练方法，包括：

从文章集合中提取各个文章内容对应的标题；

针对所述文章集合中的每个文章内容，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；

计算所述第一特征向量与各个第二特征向量之间的相似度；

根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述文章内容对应的词语样本集合；

根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题，训练得到标题生成模型。

2.根据权利要求1所述的方法，所述针对所述文章集合中的每个文章内容，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量进一步包括：

对所述文章内容的全文以及所述文章内容的各个组成语句进行主题分析，得到所述文章内容的全文的第一主题向量作为第一特征向量，得到各个组成语句对应的第二主题向量作为第二特征向量；

或者，对所述文章内容的全文以及所述文章内容的各个组成语句进行特征提取，得到所述文章内容的全文的第一embedding向量作为第一特征向量，得到各个组成语句对应的第二embedding向量作为第二特征向量。

3.根据权利要求1所述的方法，所述根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述文章内容对应的词语样本集合进一步包括：

对所述第一特征向量与各个第二特征向量之间的相似度按照从高到低的顺序进行排列，得到各个第二特征向量对应的各个组成语句的排列结果；

对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合。

4.根据权利要求3所述的方法，所述对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合进一步包括：

统计n个组成语句的词语的总数量；

判断所述词语的总数量是否超过预设数量阈值；

若是，则从n个组成语句的词语中选取数量符合所述预设数量阈值的词语，将所选取的词语作为词语样本添加至所述文章内容对应的词语样本集合中；若否，则将n个组成语句的词语作为词语样本添加至所述文章内容对应的词语样本集合中。

5.根据权利要求3或4所述的方法，所述对排列结果中排列靠前的n个组成语句进行分词处理，得到n个组成语句的词语作为词语样本，构建所述文章内容对应的词语样本集合进一步包括：

获取排列结果中排列靠前的n个组成语句在所述文章内容中的出现顺序；

对排列结果中排列靠前的n个组成语句按照从前到后的出现顺序进行排列，得到排列后的n个组成语句；

对排列后的n个组成语句进行分词处理，得到排列后的n个组成语句的有序词语作为词语样本，构建所述文章内容对应的词语样本集合。

6.一种基于相似度的标题生成方法，包括：

获取待处理文章内容以及所述待处理文章内容的各个组成语句；

对所述待处理文章内容的全文以及所述待处理文章内容的各个组成语句进行特征提取，得到所述待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量；

计算所述第一特征向量与各个第二特征向量之间的相似度；

根据所述第一特征向量与各个第二特征向量之间的相似度，从所述第二特征向量对应的各个组成语句中提取词语，构建所述待处理文章内容对应的词语集合；

将所述词语集合中的词语输入至经过训练的标题生成模型中，将所述标题生成模型的输出结果作为待处理文章的标题。

7.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

从文章集合中提取各个文章内容对应的标题；

计算所述第一特征向量与各个第二特征向量之间的相似度；

8.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

计算所述第一特征向量与各个第二特征向量之间的相似度；

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：

从文章集合中提取各个文章内容对应的标题；

计算所述第一特征向量与各个第二特征向量之间的相似度；

10.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：

计算所述第一特征向量与各个第二特征向量之间的相似度；