CN107832299B

CN107832299B - 基于人工智能的标题的改写处理方法、装置及可读介质

Info

Publication number: CN107832299B
Application number: CN201711147815.2A
Authority: CN
Inventors: 陈笑; 何径舟; 周古月; 付志宏; 袁德璋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2021-11-23
Anticipated expiration: 2037-11-17
Also published as: CN107832299A

Abstract

本发明提供一种基于人工智能的标题的改写处理方法、装置及可读介质。其方法包括：获取文章中各句子的特征表达，该句子的特征表达包括句子的信息特征以及句子与文章的原始标题的相似性特征；根据各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句；根据文章的支撑句和预先训练的标题生成模型，生成文章的支撑句对应的候选标题；根据文章的原始标题、候选标题和预先训练的点击率预估模型，确定是否利用候选标题对文章的原始标题进行改写处理。采用本发明的技术方案，可以保证在文章的标题只要被改写，就可以提高改写后的标题的质量，提高改写标题后的文章的召回率，从而满足真正的标题改写需求。

Description

基于人工智能的标题的改写处理方法、装置及可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种基于人工智能的标题的改写处理方法、装置及可读介质。

【背景技术】

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

现有技术中，互联网内容平台普遍存在提高优质内容流量的需求。在海量内容数据中，什么样的内容能够吸引用户点击和浏览，其中一个重要特征就是标题。一方面随着内容生产者的门槛降低、内容的生产速度大幅提升，标题质量难以得到保障；另一方面，单个内容生产者对用户的理解有限，难以有效评估标题对用户的吸引度。如何帮助内容生产者为优质内容生成一个优质的吸引用户点击的标题，是互联网内容平台的一个重要课题。现有的标题改写多采用人工改写的方式，将某些词语改写为同义的另一些词语，改写后的标题与原标题差别较小，具体表现为字面稍有差别、句式基本不变、语义高度一致。

但是，由于现有的标题改写处理方法为用户的手动改写，仅将标题中一个词语改写为另一词语，使得改写后的标题质量较差，无法满足真正的标题改写需求。

【发明内容】

本发明提供了一种基于人工智能的标题的改写处理方法、装置及可读介质，用于提高标题改写质量，满足真正的标题改写需求。

本发明提供一种基于人工智能的标题的改写处理方法，所述方法包括：

获取文章中各句子的特征表达，所述句子的特征表达包括所述句子的信息特征以及所述句子与所述文章的原始标题的相似性特征；

根据各所述句子的特征表达和预先训练的支撑句提取模型，从所述文章的各所述句子中提取文章的支撑句；

根据所述文章的支撑句和预先训练的标题生成模型，生成所述文章的支撑句对应的候选标题；

根据所述文章的原始标题、所述候选标题和预先训练的点击率预估模型，确定是否利用所述候选标题对所述文章的所述原始标题进行改写处理。

进一步可选地，如上所述的方法中，根据所述文章的原始标题、所述候选标题和预先训练的点击率预估模型，确定是否利用所述候选标题对所述文章的所述原始标题进行改写处理，具体包括：

根据所述文章的原始标题和预先训练的点击率预估模型，获取所述原始标题对应的预估点击率；

根据所述文章的所述候选标题和所述点击率预估模型，获取所述候选标题对应的预估点击率；

判断所述候选标题对应的预估点击率是否大于所述原始标题对应的预估点击率；

若是，利用所述候选标题对所述文章的所述原始标题进行改写处理；否则不用对所述文章的所述原始标题进行改写处理。

进一步可选地，如上所述的方法中，根据所述文章的原始标题和预先训练的点击率预估模型，获取所述原始标题对应的预估点击率，具体包括：

根据所述文章的所述原始标题和预先训练的点击率预估模型，预测所述原始标题对应的拟合点击率；

根据所述原始标题对应的拟合点击率和预设的缩放因子，获取所述原始标题对应的预估点击率；

根据所述文章的所述候选标题和所述点击率预估模型，获取所述候选标题对应的预估点击率，具体包括：

根据所述文章的所述候选标题和预先训练的点击率预估模型，预测所述候选标题对应的拟合点击率；

根据所述候选标题对应的拟合点击率和预设的缩放因子，获取所述候选标题对应的预估点击率。

进一步可选地，如上所述的方法中，根据所述文章的原始标题和预先训练的点击率预估模型，获取所述原始标题对应的预估点击率之前，所述方法包括：

采集数个训练标题；

获取各所述训练标题的点击数和未点击数；

根据所述预设的缩放因子、各所述训练标题的所述点击数和所述未点击数，获取各所述训练标题的拟合点击率；

根据各所述训练标题以及各所述训练标题的拟合点击率，训练所述点击率预估模型。

进一步可选地，如上所述的方法中，获取文章中各句子的特征表达，具体包括：

获取所述文章中各所述句子的信息特征；

获取各所述句子与所述文章的原始标题的相似性特征；

将各所述句子的信息特征、以及对应的所述句子与所述文章的原始标题的相似性特征拼接，得到对应的所述句子的特征表达。

进一步可选地，如上所述的方法中，获取所述文章中各所述句子的信息特征，包括如下至少一种：

获取所述文章中各所述句子的长度特征；

获取各所述句子的位置特征；以及

获取各所述句子的重要性特征。

进一步可选地，如上所述的方法中，获取各所述句子与所述文章的原始标题的相似性特征，包括：

获取各所述句子与所述文章的原始标题的字面相似性特征；

获取各所述句子与所述文章的原始标题的语义相似性特征；

将各所述句子与所述文章的原始标题的字面相似性特征、和对应的所述句子与所述文章的原始标题的语义相似性特征拼接，得到对应的所述句子与所述文章的原始标题的相似性特征。

进一步可选地，如上所述的方法中，获取各所述句子与所述文章的原始标题的字面相似性特征，具体包括：

获取各所述句子与所述文章的原始标题的原始字面相似性特征，所述原始字面相似性特征包括对应的所述句子与所述文章的原始标题的共现词个数、所述共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及所述idf加权的共现词的比例中的至少一个；

判断各所述句子与所述文章的原始标题中是否存在同义词；

若存在，根据对应的所述句子与所述文章的原始标题中的同义词，将对应的所述句子进行同义对齐处理，得到对应的同义句子；

获取各所述同义句子与所述文章的原始标题的同义字面相似性特征，所述同义字面相似性特征包括对应的所述同义句子与所述文章的原始标题的共现词个数、所述共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及所述idf加权的共现词的比例中的至少一个；

将各所述句子对应的所述原始字面相似性特征以及所述同义字面相似性特征拼接，得到对应的所述句子的所述字面相似性特征。

进一步可选地，如上所述的方法中，根据各所述句子的特征表达和预先训练的支撑句提取模型，从所述文章的各所述句子中提取文章的支撑句之前，所述方法还包括：

采集数篇训练文章中的数条训练句子以及各所述训练文章的原始标题，所述数条训练句子中包括支撑句和非支撑句；

基于采集的各所述训练文章中的各所述训练句子以及各所述训练文章的原始标题，获取各所述训练句子的特征表达；

根据各所述训练句子的特征表达，训练所述支撑句提取模型。

进一步可选地，如上所述的方法中，根据所述文章的支撑句和预先训练的标题生成模型，生成所述文章的支撑句对应的候选标题之前，所述方法包括：

采集数条训练支撑句和各所述训练支撑句对应的训练标题；

根据各所述训练支撑句和各所述训练支撑句对应的所述训练标题，训练所述标题生成模型。

本发明提供一种基于人工智能的标题的改写处理装置，所述装置包括：

特征获取模块，用于获取文章中各句子的特征表达，所述句子的特征表达包括所述句子的信息特征以及所述句子与所述文章的原始标题的相似性特征；

提取模块，用于根据各所述句子的特征表达和预先训练的支撑句提取模型，从所述文章的各所述句子中提取文章的支撑句；

生成模块，用于根据所述文章的支撑句和预先训练的标题生成模型，生成所述文章的支撑句对应的候选标题；

改写处理模块，用于根据所述文章的原始标题、所述候选标题和预先训练的点击率预估模型，确定是否利用所述候选标题对所述文章的所述原始标题进行改写处理。

进一步可选地，如上所述的装置中，所述改写处理模块，具体包括：

点击率获取单元，用于根据所述文章的原始标题和预先训练的点击率预估模型，获取所述原始标题对应的预估点击率；

所述点击率获取单元，还用于根据所述文章的所述候选标题和所述点击率预估模型，获取所述候选标题对应的预估点击率；

判断单元，用于判断所述候选标题对应的预估点击率是否大于所述原始标题对应的预估点击率；

处理单元，用于若所述判断单元确定所述候选标题对应的预估点击率大于所述原始标题对应的预估点击率，利用所述候选标题对所述文章的所述原始标题进行改写处理；否则不用对所述文章的所述原始标题进行改写处理。

进一步可选地，如上所述的装置中，所述点击率获取单元，具体用于：

所述点击率获取单元，具体还用于：

进一步可选地，如上所述的装置中，还包括：

采集模块，用于采集数个训练标题；

训练数据获取模块，用于获取各所述训练标题的点击数和未点击数；

所述训练数据获取模块，还用于根据所述预设的缩放因子、各所述训练标题的所述点击数和所述未点击数，获取各所述训练标题的拟合点击率；

训练模块，用于根据各所述训练标题以及各所述训练标题的拟合点击率，训练所述点击率预估模型。

进一步可选地，如上所述的装置中，特征获取模块，具体包括：

句子特征获取单元，用于获取所述文章中各所述句子的信息特征；

相似性特征获取单元，用于获取各所述句子与所述文章的原始标题的相似性特征；

拼接单元，用于将各所述句子的信息特征、以及对应的所述句子与所述文章的原始标题的相似性特征拼接，得到对应的所述句子的特征表达。

进一步可选地，如上所述的装置中，所述句子特征获取单元，具体执行如下至少一种操作：

获取所述文章中各所述句子的长度特征；

获取各所述句子的位置特征；以及

获取各所述句子的重要性特征。

进一步可选地，如上所述的装置中，所述相似性特征获取单元，具体用于：

获取各所述句子与所述文章的原始标题的字面相似性特征；

获取各所述句子与所述文章的原始标题的语义相似性特征；

判断各所述句子与所述文章的原始标题中是否存在同义词；

进一步可选地，如上所述的装置中，所述采集模块，还用于采集数篇训练文章中的数条训练句子以及各所述训练文章的原始标题，所述数条训练句子中包括支撑句和非支撑句；

所述训练数据获取模块，还用于基于采集的各所述训练文章中的各所述训练句子以及各所述训练文章的原始标题，获取各所述训练句子的特征表达；

所述训练模块，还用于根据各所述训练句子的特征表达，训练所述支撑句提取模型。

进一步可选地，如上所述的装置中，所述采集模块，还用于采集数条训练支撑句和各所述训练支撑句对应的训练标题；

所述训练模块，还用于根据各所述训练支撑句和各所述训练支撑句对应的所述训练标题，训练所述标题生成模型。

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于人工智能的标题的改写处理方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于人工智能的标题的改写处理方法。

本发明的基于人工智能的标题的改写处理方法、装置及可读介质，通过获取文章中各句子的特征表达，该句子的特征表达包括句子的信息特征以及句子与文章的原始标题的相似性特征；根据各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句；根据文章的支撑句和预先训练的标题生成模型，生成文章的支撑句对应的候选标题；根据文章的原始标题、候选标题和预先训练的点击率预估模型，确定是否利用候选标题对文章的原始标题进行改写处理。本发明的技术方案，通过模型智能地实现对文章的标题的改写处理，从而可以保证在文章的标题只要被改写，就可以提高改写后的标题的质量，提高改写标题后的文章的召回率，从而满足真正的标题改写需求。

【附图说明】

图1为本发明的基于人工智能的标题的改写处理方法实施例一的流程图。

图2为本发明的基于人工智能的标题的改写处理方法实施例一的流程图。

图3为本发明的基于人工智能的标题的改写处理装置实施例一的结构图。

图4为本发明的基于人工智能的标题的改写处理装置实施例二的结构图。

图5为本发明的计算机设备实施例的结构图。

图6为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的基于人工智能的标题的改写处理方法实施例一的流程图。如图1所示，本实施例的基于人工智能的标题的改写处理方法，具体可以包括如下步骤：

100、获取文章中各句子的特征表达，该句子的特征表达包括句子的信息特征以及句子与文章的原始标题的相似性特征；

本实施例的基于人工智能的标题的改写处理方法的执行主体为基于人工智能的文章标题的改写装置，该基于人工智能的文章标题的改写装置可以对互联网的内容平台中的文章的标题进行改写处理，从而提高文章的标题质量以及被点击的概率。

实际应用中，在该步骤100之前，还可以包括对待改写标题的文章，首先对文章的正文进行分句，这样该文章可以被划分为多个句子，以便于后续从划分得到的多个句子中提取与该文章的标题关联性比较强的支撑句。本实施例中对文章的正文进行分句时，根据分句的粒度的大小，可以有两种分句方式：一种是整句粒度的分句，如使用句号、问号、感叹号、省略号等表示一句话结束的标点符号进行分句；另一种是子句粒度的分句，在上一分句粒度的基础上使用逗号、冒号、空格等隔开同一句话的不同子句的标点符号进行分句。

另外，分句时需要注意但不限于以下情况：1、书名号中的标点符号不作为分句符；2、ascii码字符串不能被空格切开。

由于整句覆盖的信息更加全面，更适合用于标题生成，本实施例中优选地使用整句粒度的分句方式来分句。

本实施例的句子的特征表达可以包括句子的信息特征，以及句子与文章的原始标题的相似性特征的信息。这样，每个句子的特征表达中不仅包括句子本身的信息，还可以包括该句子与文章的原始标题的相似性信息。

101、根据各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句；

本实施例中，预先训练有支撑句提取模型，该模型能够根据句子的特征表达，识别该句子是否为该文章的支撑句。使用时，将句子的特征表达输入至预先训练的该支撑句提取模型。由于该句子的特征表达同时包括该句子本身的信息即句子的信息特征，以及该句子与文章的原始标题的相似性信息即句子与文章的原始标题的相似性特征的信息。该支撑句提取模型根据句子的特征表达中的这两方面信息可以识别句子是否为文章的支撑句。根据该步骤，该支撑句提取模型可以对文章中的每一个句子进行识别，从而可以从文章的多个句子中提取文章的支撑句。实际应用中，一篇文章中可以提取多句文章的支撑句，例如3句或者2句或者其他数量的文章支撑句。

102、根据文章的支撑句和预先训练的标题生成模型，生成文章的支撑句对应的候选标题；

本实施例中，还预先训练有标题生成模型，该标题生成模型为一种端到端的模型，使用时，向该标题生成模型输入一个文章的支撑句，该标题支撑模型可以根据该文章的支撑句，生成一个高质量的候选标题。

103、根据文章的原始标题、候选标题和预先训练的点击率预估模型，确定是否利用候选标题对文章的原始标题进行改写处理。

本实施例中，还预先训练有点击率预估模型，该点击率预估模型用于预测标题的点击率。点击率高的标题在搜索中点击的概率较大，对应的文章的召回率较高，因此，点击率高的标题的质量较高。例如根据文章的原始标题和点击率预估模型，可以预测到该原始标题的预估点击率；同理，根据文章的候选标题和点击率预估模型，可以预测到该候选标题的预估点击率。如果步骤101能够提取到多个文章的支撑句，对应地，步骤102对应得到多个候选标题，这样分别根据各候选标题和该点击率预估模型中，可以分别得到多个候选标题的预估点击率。这样，根据原始标题对应的点击率以及各候选标题对应的点击率，可以确定是否利用候选标题对文章的原始标题进行改写处理。例如若多个候选标题中存在点击率大于原始标题对应的点击率的候选标题，则利用点击率大于原始标题对应的点击率的候选标题，对文章的原始标题进行改写处理，这样可以提高改写后的文章的标题的质量，进而提高改写处理的文章的召回率。

本实施例的基于人工智能的标题的改写处理方法，通过获取文章中各句子的特征表达，该句子的特征表达包括句子的信息特征以及句子与文章的原始标题的相似性特征；根据各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句；根据文章的支撑句和预先训练的标题生成模型，生成文章的支撑句对应的候选标题；根据文章的原始标题、候选标题和预先训练的点击率预估模型，确定是否利用候选标题对文章的原始标题进行改写处理。本实施例的技术方案，通过模型智能地实现对文章的标题的改写处理，从而可以保证在文章的标题只要被改写，就可以提高改写后的标题的质量，提高改写标题后的文章的召回率，从而满足真正的标题改写需求。

图2为本发明的基于人工智能的标题的改写处理方法实施例一的流程图。如图2所示，本实施例的基于人工智能的标题的改写处理方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。本实施例的基于人工智能的标题的改写处理方法，具体可以包括如下步骤：

200、获取文章中各句子的信息特征；

例如，获取文章中各句子的信息特征，具体可以包括如下至少一种：

获取文章中各句子的长度特征；

获取各句子的位置特征；以及

获取各句子的重要性特征。

实际应用中，句子的信息特征越丰富，后续识别句子是否为该文章的支撑句便越准确。因此，本实施例中，优选地，句子的信息特征，同时包括长度特征、位置特征以及重要性特征。

其中句子的长度特征用来标识句子的长度信息，例如长度特征为句子的长度，并使用句子长度的最大值进行归一化处理得到的结果。或者长度特征还可以采用句子中包括的字数的倒数来标识。

句子的位置特征用来标识句子在正文中的位置信息，如第几段第几句、是否首段首句等，可以使用但不限于如下编码方式：按首段、中间段、末段、首句、中间句、末句进行0-1方式的编码。即采用6位二进制的数字来标识，6位数字依次标识首段、中间段、末段、首句、中间句以及末句。各位数字的值均可以为0或者1。当为0时，表示当前句子不符合当前位的位置，否则符合当前位的位置。例如某个句子位于首段中的末句，则此时该句子的位置特征可以表示为100001，若某个句子位于末端中的首句，则对应的位置特征可以为001100。同理，采用该种方式可以表示标识任意一个句子的位置特征。另外，句子的位置特征也可以用全文中的第几句的倒数来表示。

句子的重要性特征可以用来标识句子在文章中的重要性，可以使用但不限于使用textrank算法来计算该句子额重要性。

201、获取各句子与文章的原始标题的相似性特征；

例如，本实施例中，获取各句子与文章的原始标题的相似性特征，具体可以包括如下步骤：

(a1)获取各句子与文章的原始标题的字面相似性特征；

(b1)获取各句子与文章的原始标题的语义相似性特征；

(c1)将各句子与文章的原始标题的字面相似性特征、和对应的句子与文章的原始标题的语义相似性特征拼接，得到对应的句子与文章的原始标题的相似性特征。

其中步骤(a1)“获取各句子与文章的原始标题的字面相似性特征”，具体可以包括如下步骤：

(a2)获取各句子与文章的原始标题的原始字面相似性特征，原始字面相似性特征包括对应的句子与文章的原始标题的共现词个数、共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、逆向文件频率(inverse document frequency；idf)加权的共现词个数以及idf加权的共现词的比例中的至少一个；

(b2)判断各句子与文章的原始标题中是否存在同义词；若存在，执行步骤(c2)；否则，结束；

(c2)根据对应的句子与文章的原始标题中的同义词，将对应的句子进行同义对齐处理，得到对应的同义句子；

(d2)获取各同义句子与文章的原始标题的同义字面相似性特征，同义字面相似性特征包括对应的同义句子与文章的原始标题的共现词个数、共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及idf加权的共现词的比例中的至少一个；

(e2)将各句子对应的原始字面相似性特征以及同义字面相似性特征拼接，得到对应的句子的字面相似性特征。

本实施例中的句子与文章的原始标题的相似性特征可以标识该句子与文章的原始标题的相似程度，可以包括但不限于字面相似性特征和语义相似性特征。其中字面相似性特征又进一步包括原始字面相似性特征和同义字面相似性特征。其中原始字面相似性特征对应地包括句子与文章的原始标题的共现词个数、共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及idf加权的共现词的比例中的至少一个；优选地，同时包括上述所有的特征，以保证字面相似性特征的丰富性。其中句子与文章的原始标题的共现词即为句子与文章的原始标题中均出现的词语。共现词比例等于共现词的个数除以句子与文章的原始标题中包括的所有词的数量。编辑距离具体可以为该句子编辑到该原始标题需要编辑的字数的多少。最大公共子串长度可以为该句子与文章的原始标题中均包括的最长的子串的长度。和最大公共子串不同的是，最大公共子串是一个连续的串，中间不能有间断；而最大公共子序列长度可以由一个、两个或多个词语按顺序排列得到的，多个词语在句子中可以是连续的，也可以是间断的。idf加权的共现词个数和之前的共现词的个数是相同的，两者可以仅保留一个。另外，idf加权的共现词的比例等于各共现词的idf权重之和，除以句子与文章的原始标题中包括的所有词的权重之和。也可以表示为

上述情况中，相当于取句子和文章的原始标题中的所有词语的并集，每个出现的词语的频率均记为1。或者还可以考虑共现词既在句子中出现，又在标题中出现，将共现词的频率记为2，而并集中的其他词语的频率记为1，来计算idf加权的共现词的比例。

另外，如果某些词语在一个句子中出现的次数大于1，此时idf加权的共现词的比例，还可以表示为：

其中，共现词的频率指的该共现词在句子和原始标题中一共出现的频率。而分母中第i个词语的频率可以为：当第i个词语仅出现在句子中，其频率就是出现在句子中的频率；当第i个词语仅出现在原始标题中，其频率就是出现在原始标题中的频率；如果都出现，就该词语就是共现词，其频率为在句子和原始标题中总共出现的频率。

另外，同义字面相似性特征是基于对句子中的某些词语做替换之后得到的同义句得到的。例如判断句子与文章的原始标题中是否存在同义词，例如开心和高兴为同义词。预先可以存储有同义词表，根据查询同义词表，可以确定句子中的某个词语与文章的原始标题中的某个词语是否属于同义词。若文章的原始标题中不存在与句子中的任何一个词语语义相同的词，此时不存在同义句。则此时字面相似性特征可以仅包括原始字面相似性特征。而若文章的原始标题中存在与句子中的某个词语语义相同的词，则可以使用原始标题中的同义词替换该句子中的语义相同的词语，则得到该句子的同义句子。然后获取同义句子与文章的原始标题的同义字面相似性特征，同理，同义字面相似性特征包括同义句子与文章的原始标题的共现词个数、共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及idf加权的共现词的比例中的至少一个，优选地，包括上述所有特征，以丰富同义字面相似性特征的信息，每个特征的物理意义可以参考上述原始字面相似性特征中对应特征的记载，在此不再赘述。实际应用中，原始字面相似性特征和同义字面相似性特征所包括的特征的数量最好相同。

另外，获取各句子与文章的原始标题的语义相似性特征时，可以使用embedding方式对分别对句子和原始标题进行编码，然后计算cosine值或者使用训练好的相似性模型计算语义相似性特征。例如，本实施例中可以使用nlpc上的wordemb算子和simnet算子来实现语义相似性特征的计算。

另外，可选地，对于语义相似性特征，除整句粒度的语义相似性特征外，还可以计算子句粒度的语义相似性特征。即对每一维语义相似性特征，计算正文句子每一子句与标题每一子句的句对相似性，使用子句的句对相似性的最大值和平均值作为样本的子句粒度的语义相似性特征。将所有子句粒度的语义相似性特征拼接，可以得到拼接的语义相似性特征。这样，最终的语义相似性特征可以等于整句的语义相似性特征以及各子句相应信息拼接的语义相似性特征拼接在一起得到的语义相似性特征。另外，对于连续值特征如重要性特征和相似性特征等，还可以增加同一篇文章中样本的特征值的排序结果作为离散化特征。

202、将各句子的信息特征、以及对应的句子与文章的原始标题的相似性特征拼接，得到对应的句子的特征表达；

对于任意一个句子，基于上述获取的句子的信息特征、以及对应的句子与文章的原始标题的相似性特征拼接，得到对应的句子的特征表达。这样得到的一个句子特征表达可以为向量的形式。

该步骤200-202为上述图1所示实施例的步骤100的一种具体实现方式。

203、根据各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句；

204、根据文章的支撑句和预先训练的标题生成模型，生成文章的支撑句对应的候选标题；

步骤203和步骤204详细可以参考上述图1所示实施例的步骤101和102的记载，在此不再赘述。

205、根据文章的原始标题和预先训练的点击率预估模型，获取原始标题对应的预估点击率；

本实施例中，该点击率预估模型可以直接预估原始标题的预估点击率，例如将该文章的原始标题输入至该点击率预估模型中，该点击率预估模型可以直接预测该原始标题的预估点击率。

但是实际应用中，同一文章的标题的点击数有时候会远远小于非点击数，这样会导致点击率过小，如果点击率预估模型都采用点击率过小的训练数据来训练，导致点击率预估模型预估的点击率的精度会不太理想。因此本实施例的步骤205，具体可以采用如下方式来实现：根据文章的原始标题和预先训练的点击率预估模型，预测原始标题对应的拟合点击率；根据原始标题对应的拟合点击率和预设的缩放因子，获取原始标题对应的预估点击率。

考虑到实际应用中，同一文章的标题的点击数有时候会远远小于非点击数，这样会导致点击率过小的问题，本实施例中，可以设置一个缩放因子t，t∈(0,1]，目的是为了使点击数和未点击数的比例不过于悬殊。本实施例，设置一个拟合点击率，表示为c＝x/(x+yt)，其中，x表示点击数，y为未点击数，t为缩放因子，以调整c至合理的范围。对应的预估点击率rc＝x/(x+y)，可以表示为rc＝ct/(ct+1-c)。例如，本实施例的点击率可以为点击通过率(Click-Through-Rate；CTR)的简称。

此时，本实施例中预先训练的点击率预估模型用于预测标题的拟合点击率，即表示预估点击率的拟合值。使用时，向该点击率预估模型输入要预测的标题，对应地，该点击率预估模型可以输出预测的拟合点击率。然后再根据预估点击率与拟合点击率的函数关系以及预设的缩放因子的数值，从而可以还原出标题对应的预估点击率，即表示真实点击率的预估值。例如，将文章的原始标题输入至预先训练的点击率预估模型中，可以预测出原始标题对应的拟合点击率；然后根据原始标题对应的拟合点击率和预设的缩放因子，可以获取到原始标题对应的预估点击率。

206、根据文章的候选标题和点击率预估模型，获取候选标题对应的预估点击率；

该步骤206的具体实现过程与上述步骤205相同，例如，该点击率预估模型可以直接预估候选标题的预估点击率，例如将该文章的候选标题输入至该点击率预估模型中，该点击率预估模型可以直接预测该候选标题的预估点击率。

或者，该步骤206，具体可以包括：根据文章的候选标题和预先训练的点击率预估模型，预测候选标题对应的拟合点击率；根据候选标题对应的拟合点击率和预设的缩放因子，获取候选标题对应的预估点击率。详细可以参考上述原始标题对应的预估点击率的获取过程，在此不再赘述。

207、判断候选标题对应的预估点击率是否大于原始标题对应的预估点击率，若候选标题对应的预估点击率大于原始标题对应的预估点击率，执行步骤208；否则，不用对文章的原始标题进行改写处理；

由于本实施例中的点击率表征的标题的质量，代表的是标题对应文章被召回的概率。因此在改写标题时，可以采用点击率高的候选标题替换点击率低的原始标题，从而可以提高标题质量，提高文章的召回率。否则若候选标题的点击率都低于原始标题的点击率，则不用对文章的原始标题改写。

208、利用候选标题对文章的原始标题进行改写处理。

该步骤205-208为上述图1所示实施例的步骤103的一种具体实现方式。

本实施例的基于人工智能的标题的改写处理方法，通过采用上述技术方案，通过模型智能地实现对文章的标题的改写处理，从而可以保证在文章的标题只要被改写，就可以提高改写后的标题的质量，提高改写标题后的文章的召回率，从而满足真正的标题改写需求。

可选地，在图2所示实施例的步骤205“根据文章的原始标题和预先训练的点击率预估模型，获取原始标题对应的预估点击率”之前，还可以包括该点击率预估模型的训练步骤，例如具体可以包括如下步骤：

(a3)采集数个训练标题；

(b3)获取各训练标题的点击数和未点击数；

(c3)根据预设的缩放因子、各训练标题的点击数和未点击数，获取各训练标题的拟合点击率；

(d3)根据各训练标题以及各训练标题的拟合点击率，训练点击率预估模型。

具体地，可以从内容发布平台中获取多个文章的标题作为训练标题，然后从内容发布平台中获取各文章的点击日志和展现日志，并从点击日志和展现日志中获取各文章在预设的统计周期内的点击数和展现数，从而采用展现数减去点击数得到未点击数。然后基于拟合点击率的计算公式c＝x/(x+yt)，获取各训练标题的拟合点击率。然后使用各训练标题以及对应的拟合点击率训练点击率预估模型。本实施例的点击率预估模型可以采用但不限于深度神经网络(Deep Neural Network；DNN)模型。训练之前，该点击率预估模型的参数设置有初始值，训练时，将训练标题输入至该点击率预估模型中，该点击率预估模型可以预测一个拟合点击率，然后比较预测的拟合点击率与真实的拟合点击率是否相同，若不相同，调整该点击率预估模型的参数，使得预测的拟合点击率靠近拟合点击率。然后使用多个训练标题和对应的拟合点击率，按照上述方式依次训练该点击率预估模型，并不断地调整点击率预估模型的参数，直至该点击率预估模型预测的拟合点击率与真实的拟合点击率的差值足够小，且无限收敛，此时确定点击率预估模型的参数，从而确定该点击率预估模型，即点击率预估模型训练完毕。

可选地，在图1所示实施例的步骤101或者图2所示实施例的步骤203“根据各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句”之前，还可以包括支撑句提取模型的训练过程，例如，具体可以包括如下步骤：

(a4)采集数篇训练文章中的数条训练句子以及各训练文章的原始标题，数条训练句子中包括支撑句和非支撑句；

(b4)基于采集的各训练文章中的各训练句子以及各训练文章的原始标题，获取各训练句子的特征表达；

(c4)根据各训练句子的特征表达，训练支撑句提取模型。

具体地，可以从内容发布平台中获取多篇已知支撑句的文章作为训练文章，并获取各训练文章的原始标题。并获取各训练文章的支撑句，同时再从训练文章中获取一个、两个或者多个非支撑句，一起构成训练句子。训练句子中的支撑句作为训练数据的正例，训练句子中的非支撑句作为训练数据的负例，训练时正例数据要多于负例数据，例如，本实施例的支撑句和非支撑句的数量比例可以为5:1或者4:1或者其他比值大于1的比例。本实施例的支撑句提取模型可以包括但不限于梯度提升决策树(Gradient Boosting DecisionTree；GBDT)模型。训练之前，按照上述实施例的方式，获取各训练句子的特征表达。并为支撑句提取模型的参数设置初始值。训练时，将作为正例的训练句子的特征表达输入至支撑句提取模型中，支撑句提取模型预测该句子是否为支撑句。由于训练句子预先是支撑句还是非支撑句时已知的。若支撑句提取模型预测错误，则调整支撑句提取模型的参数，使得预测的训练句子的是否为支撑句的结果与训练句子的已知的真实情况一致。采用多条训练句子，按照上述方式不断地训练该支撑句提取模型，不断地调整支撑句提取模型的参数，最终使得支撑句提取模型预测的结果与已知的真实情况已知，此时确定支撑句提取模型的参数，从而确定支撑句提取模型，即支撑句提取模型训练完毕。

可选地，在图1所示实施例的步骤102或者图2所示实施例的步骤204“根据文章的支撑句和预先训练的标题生成模型，生成文章的支撑句对应的候选标题”之前，还可以包括标题生成模型的训练过程，例如，具体可以包括如下步骤：

(a5)采集数条训练支撑句和各训练支撑句对应的训练标题；

(b5)根据各训练支撑句和各训练支撑句对应的训练标题，训练标题生成模型。

具体地，可以从内容发布平台中获取多篇点击率非常高的文章的标题作为训练标题，并获取训练文章的支撑句作为训练支撑句。本实施例采用的标题生成模型为一个端到端的模型，可以包括但不限于tensorflow的Seq2Seq模型，并可以在Seq2Seq模型的基础上加入coverage机制和copy机制。训练之前，可以为该标题生成模型的参数设置初始值。训练时，将各条训练数据的训练支撑句输入至该标题生成模型中，该标题生成模型预测一个标题。然后分析预测的标题与已知的训练标题是否一致，若不一致，调整标题生成模型的参数，使得标题生成模型根据训练支撑句预测的标题靠近该支撑句对应的已知标题。采用上述方式使用各条训练支撑句和各训练支撑句对应的训练标题训练该标题生成模型，不断地调整标题生成模型的参数，最终使得标题生成模型能够根据输入的训练支撑句，预测与已知的训练标题一致的预测标题，此时确定标题生成模型的参数，从而确定标题生成模型，即标题生成模型训练完毕。

需要说明的是，上述三个模型的训练时，采集的训练数据的数量越多，训练的模型的准确性越高，实际应用中可以分别采用千万级别的训练数据来训练上述模型。

图3为本发明的基于人工智能的标题的改写处理装置实施例一的结构图。如图3所示，本实施例的基于人工智能的标题的改写处理装置，具体可以包括：

特征获取模块10用于获取文章中各句子的特征表达，该句子的特征表达包括句子的信息特征以及句子与文章的原始标题的相似性特征；

提取模块11用于根据特征获取模块10获取的各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句；

生成模块12用于根据提取模块11提取的文章的支撑句和预先训练的标题生成模型，生成文章的支撑句对应的候选标题；

改写处理模块13用于根据生成模块12生成的文章的原始标题、候选标题和预先训练的点击率预估模型，确定是否利用候选标题对文章的原始标题进行改写处理。

本实施例的基于人工智能的标题的改写处理装置，通过采用上述模块实现基于人工智能的标题的改写处理的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图4为本发明的基于人工智能的标题的改写处理装置实施例二的结构图。如图4所示，本实施例的基于人工智能的标题的改写处理装置，在上述图3所示实施例的技术方案的基础上，进一步更加详细地描述本发明的技术方案。

如图4所示，本实施例的基于人工智能的标题的改写处理装置中，改写处理模块13具体包括：

点击率获取单元131用于根据文章的原始标题和预先训练的点击率预估模型，获取原始标题对应的预估点击率；

点击率获取单元131还用于根据生成模块12生成的文章的候选标题和点击率预估模型，获取候选标题对应的预估点击率；

判断单元132用于判断点击率获取单元131获取的候选标题对应的预估点击率是否大于原始标题对应的预估点击率；

处理单元133用于若判断单元132确定候选标题对应的预估点击率大于原始标题对应的预估点击率，利用候选标题对文章的原始标题进行改写处理；否则不用对文章的原始标题进行改写处理。

进一步可选地，点击率获取单元131具体用于：

根据文章的原始标题和预先训练的点击率预估模型，预测原始标题对应的拟合点击率；

根据原始标题对应的拟合点击率和预设的缩放因子，获取原始标题对应的预估点击率；

点击率获取单元131具体还用于：

根据文章的候选标题和预先训练的点击率预估模型，预测候选标题对应的拟合点击率；

根据候选标题对应的拟合点击率和预设的缩放因子，获取候选标题对应的预估点击率。

进一步可选地，如图4所示，本实施例的基于人工智能的标题的改写处理装置中，还包括：

采集模块14用于采集数个训练标题；

训练数据获取模块15用于获取各训练标题的点击数和未点击数；

训练数据获取模块15还用于根据预设的缩放因子、各训练标题的点击数和未点击数，获取各训练标题的拟合点击率；

训练模块16用于根据采集模块14采集的各训练标题以及训练数据获取模块15获取的各训练标题的拟合点击率，训练点击率预估模型。

对应地，点击率获取单元131用于根据文章的原始标题和训练模块16预先训练的点击率预估模型，获取原始标题对应的预估点击率；

以及，点击率获取单元131还用于根据生成模块12生成的文章的候选标题和训练模块16训练的点击率预估模型，获取候选标题对应的预估点击率。

进一步可选地，如图4所示，本实施例的基于人工智能的标题的改写处理装置中，特征获取模块10具体包括：

句子特征获取单元101用于获取文章中各句子的信息特征；

相似性特征获取单元102用于获取各句子与文章的原始标题的相似性特征；

拼接单元103用于将句子特征获取单元101获取的各句子的信息特征、以及相似性特征获取单元102获取的对应的句子与文章的原始标题的相似性特征拼接，得到对应的句子的特征表达。

对应地，提取模块11用于根据拼接单元103拼接得到的各句子的特征表达和预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句。

进一步可选地，其中的句子特征获取单元101具体执行如下至少一种操作：

获取文章中各句子的长度特征；

获取各句子的位置特征；以及

获取各句子的重要性特征。

进一步可选地，其中的相似性特征获取单元102具体用于：

获取各句子与文章的原始标题的字面相似性特征；

获取各句子与文章的原始标题的语义相似性特征；

将各句子与文章的原始标题的字面相似性特征、和对应的句子与文章的原始标题的语义相似性特征拼接，得到对应的句子与文章的原始标题的相似性特征。

进一步可选地，相似性特征获取单元102具体用于：

获取各句子与文章的原始标题的原始字面相似性特征，原始字面相似性特征包括对应的句子与文章的原始标题的共现词个数、共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及idf加权的共现词的比例中的至少一个；

判断各句子与文章的原始标题中是否存在同义词；

若存在，根据对应的句子与文章的原始标题中的同义词，将对应的句子进行同义对齐处理，得到对应的同义句子；

获取各同义句子与文章的原始标题的同义字面相似性特征，同义字面相似性特征包括对应的同义句子与文章的原始标题的共现词个数、共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及idf加权的共现词的比例中的至少一个；

将各句子对应的原始字面相似性特征以及同义字面相似性特征拼接，得到对应的句子的字面相似性特征。

进一步可选地，采集模块14还用于采集数篇训练文章中的数条训练句子以及各训练文章的原始标题，数条训练句子中包括支撑句和非支撑句；

训练数据获取模块15还用于基于采集模块14采集的各训练文章中的各训练句子以及各训练文章的原始标题，获取各训练句子的特征表达；

训练模块16还用于根据训练数据获取模块15获取的各训练句子的特征表达，训练支撑句提取模型。

对应地，提取模块11用于根据特征获取模块10获取的各句子的特征表达和训练模块16预先训练的支撑句提取模型，从文章的各句子中提取文章的支撑句。

进一步可选地，采集模块14还用于采集数条训练支撑句和各训练支撑句对应的训练标题；

训练模块16还用于根据采集模块14采集的各训练支撑句和各训练支撑句对应的训练标题，训练标题生成模型。

对应地，生成模块12用于根据提取模块11提取的文章的支撑句和训练模块16预先训练的标题生成模型，生成文章的支撑句对应的候选标题。

图5为本发明的计算机设备实施例的结构图。如图5所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30执行，使得一个或多个处理器30实现如上图1-图2所示实施例的基于人工智能的标题的改写处理方法。图5所示实施例中以包括多个处理器30为例。

例如，图6为本发明提供的一种计算机设备的示例图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图6显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图4各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图4各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的基于人工智能的标题的改写处理方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的基于人工智能的标题的改写处理方法。

本实施例的计算机可读介质可以包括上述图6所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于人工智能的标题的改写处理方法，其特征在于，所述方法包括：

获取文章中各句子的特征表达，所述句子的特征表达包括所述句子的信息特征以及所述句子与所述文章的原始标题的相似性特征；所述句子的信息特征包括所述句子的长度特征、所述句子的位置特征以及所述句子的重要性特征中的至少一种；

根据所述文章的原始标题、所述候选标题和预先训练的点击率预估模型，确定是否利用所述候选标题对所述文章的所述原始标题进行改写处理；所述点击率预估模型用于预估点击率的拟合值，得到拟合点击率，并进一步根据预估点击率与拟合点击率的函数关系以及预设的缩放因子的数值，获取对应的预估点击率。

2.根据权利要求1所述的方法，其特征在于，根据所述文章的原始标题、所述候选标题和预先训练的点击率预估模型，确定是否利用所述候选标题对所述文章的所述原始标题进行改写处理，具体包括：

3.根据权利要求2所述的方法，其特征在于，根据所述文章的原始标题和预先训练的点击率预估模型，获取所述原始标题对应的预估点击率，具体包括：

4.根据权利要求3所述的方法，其特征在于，根据所述文章的原始标题和预先训练的点击率预估模型，获取所述原始标题对应的预估点击率之前，所述方法包括：

采集数个训练标题；

获取各所述训练标题的点击数和未点击数；

5.根据权利要求1-4任一所述的方法，其特征在于，获取文章中各句子的特征表达，具体包括：

获取所述文章中各所述句子的信息特征；

获取各所述句子与所述文章的原始标题的相似性特征；

6.根据权利要求5所述的方法，其特征在于，获取所述文章中各所述句子的信息特征，包括如下至少一种：

获取所述文章中各所述句子的长度特征；

获取各所述句子的位置特征；以及

获取各所述句子的重要性特征。

7.根据权利要求5所述的方法，其特征在于，获取各所述句子与所述文章的原始标题的相似性特征，包括：

获取各所述句子与所述文章的原始标题的字面相似性特征；

获取各所述句子与所述文章的原始标题的语义相似性特征；

8.根据权利要求7所述的方法，其特征在于，获取各所述句子与所述文章的原始标题的字面相似性特征，具体包括：

获取各所述句子与所述文章的原始标题的原始字面相似性特征，所述原始字面相似性特征包括对应的所述句子与所述文章的原始标题的共现词个数、共现词比例、编辑距离、最大公共子串长度、最大公共子序列长度、idf加权的共现词个数以及所述idf加权的共现词的比例中的至少一个；

判断各所述句子与所述文章的原始标题中是否存在同义词；

9.根据权利要求1-4任一所述的方法，其特征在于，根据各所述句子的特征表达和预先训练的支撑句提取模型，从所述文章的各所述句子中提取文章的支撑句之前，所述方法还包括：

10.根据权利要求1-4任一所述的方法，其特征在于，根据所述文章的支撑句和预先训练的标题生成模型，生成所述文章的支撑句对应的候选标题之前，所述方法包括：

采集数条训练支撑句和各所述训练支撑句对应的训练标题；

11.一种基于人工智能的标题的改写处理装置，其特征在于，所述装置包括：

特征获取模块，用于获取文章中各句子的特征表达，所述句子的特征表达包括所述句子的信息特征以及所述句子与所述文章的原始标题的相似性特征；所述句子的信息特征包括所述句子的长度特征、所述句子的位置特征以及所述句子的重要性特征中的至少一种；

改写处理模块，用于根据所述文章的原始标题、所述候选标题和预先训练的点击率预估模型，确定是否利用所述候选标题对所述文章的所述原始标题进行改写处理；所述点击率预估模型用于预估点击率的拟合值，得到拟合点击率，并进一步根据预估点击率与拟合点击率的函数关系以及预设的缩放因子的数值，获取对应的预估点击率。

12.根据权利要求11所述的装置，其特征在于，所述改写处理模块，具体包括：

13.根据权利要求12所述的装置，其特征在于，所述点击率获取单元，具体用于：

所述点击率获取单元，具体还用于：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

采集模块，用于采集数个训练标题；

15.根据权利要求11-14任一所述的装置，其特征在于，特征获取模块，具体包括：

16.根据权利要求15所述的装置，其特征在于，所述句子特征获取单元，具体执行如下至少一种操作：

获取所述文章中各所述句子的长度特征；

获取各所述句子的位置特征；以及

获取各所述句子的重要性特征。

17.根据权利要求15所述的装置，其特征在于，所述相似性特征获取单元，具体用于：

获取各所述句子与所述文章的原始标题的字面相似性特征；

获取各所述句子与所述文章的原始标题的语义相似性特征；

18.根据权利要求17所述的装置，其特征在于，所述相似性特征获取单元，具体用于：

判断各所述句子与所述文章的原始标题中是否存在同义词；

19.根据权利要求14所述的装置，其特征在于：

所述采集模块，还用于采集数篇训练文章中的数条训练句子以及各所述训练文章的原始标题，所述数条训练句子中包括支撑句和非支撑句；

20.根据权利要求14所述的装置，其特征在于：

所述采集模块，还用于采集数条训练支撑句和各所述训练支撑句对应的训练标题；

21.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

22.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。