CN105975558A

CN105975558A - 建立语句编辑模型的方法、语句自动编辑方法及对应装置

Info

Publication number: CN105975558A
Application number: CN201610285425.0A
Authority: CN
Inventors: 黄际洲; 赵世奇; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2016-09-28
Anticipated expiration: 2036-04-29
Also published as: US10191892B2; US20180107636A1; CN105975558B

Abstract

本发明提供了一种建立语句编辑模型的方法、语句自动编辑方法及对应装置，具体包括：从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题，构成query‑title对；将各query‑title对中的title作为待编辑语句，query作为对应的编辑后语句，构成训练语料；利用所述训练语料训练翻译模型和第一语言模型，得到包含所述翻译模型和第一语言模型的语句编辑模型。获取到待编辑语句后，将所述待编辑语句输入语句编辑模型，得到各候选编辑语句的编辑得分；选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句。本发明能够实现语句的自动编辑，提高可读性，降低人力成本。

Description

建立语句编辑模型的方法、语句自动编辑方法及对应装置

【技术领域】

本发明涉及自然语言处理领域，特别涉及一种建立语句编辑模型的方法、语句自动编辑方法及对应装置。

【背景技术】

随着网络技术的迅速发展，人们通过网络能够获得多种多样的信息，各服务商除了向用户提供数量繁多的信息之外，对信息的质量要求也越来越高。同样一句话，采用不同的词语和表达方式会给用户带来不同的体验。

在很多场景下，一些信息是自动生成的。例如在一些网站或者网络服务中，对于诸如人物、动物、地点、影视等实体词的简介，是通过从网络上抓取并从中提取主要信息后自动形成的语句。但这种自动形成的语句往往可读性较差，给用户带来很差的阅读体验，更谈不上达到“信、达、雅”的要求。如果对于这些语句都由人工参与进行编辑，那么人力成本太高。

【发明内容】

有鉴于此，本发明提供了一种建立语句编辑模型的方法、语句自动编辑方法及对应装置，以便于实现语句的自动编辑，提高可读性，降低人力成本。

具体技术方案如下：

本发明提供了一种建立语句编辑模型的方法，该方法包括：

从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题，构成query-title对；

将各query-title对中的title作为待编辑语句，query作为对应的编辑后语句，构成训练语料；

利用所述训练语料训练翻译模型和第一语言模型，得到包含所述翻译模型和第一语言模型的语句编辑模型。

根据本发明一优选实施方式，所述从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题，构成query-title对包括：

从搜索日志中获取query；

利用预先训练得到的分类器对所述query进行分类，得到属于优选表达类别的query；

从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title，构成query-title对。

根据本发明一优选实施方式，所述分类器的训练包括：

从百科网页中获取词条对应的优选表达语句，或者利用优选表达语句模板从网页上获取优选表达语句；

利用获取的优选表达语句作为正样本训练所述分类器。

根据本发明一优选实施方式，从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title，构成query-title对包括：

从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title；

将获取的title拆分为一个以上的子title；

利用query及其对应的子title，分别构成query-title对。

根据本发明一优选实施方式，该方法还包括：在训练语句编辑模型之前，对所述训练语料进行以下过滤处理中的至少一种：

若query-title对中query和title没有任何词语重叠，则过滤掉该query-title对；

若query-title对中query和title完全相同，则过滤掉该query-title对；

若query-title对中query的长度不满足预设长度要求，则过滤掉该query-title对；

若query-title对中长度较短者与长度较长者之间的长度比例小于预设的比例阈值，则过滤掉该query-title对。

根据本发明一优选实施方式，利用所述训练语料训练翻译模型包括：

利用训练语料中的待编辑语句及其对应的编辑后语句，训练翻译模型，所述翻译模型用于计算各待编辑语句对应的编辑后语句的翻译得分。

根据本发明一优选实施方式，利用所述训练语料训练第一语言模型包括：

利用训练语料中的编辑后语句，训练第一语言模型，所述第一语言模型用于计算n元词组之间的搭配得分，所述n为预设的正整数。

根据本发明一优选实施方式，所述语句编辑模型还包括长度模型，所述长度模型用于计算不同长度的语句的长度得分。

根据本发明一优选实施方式，所述语句编辑模型还包括第二语言模型；

该方法还包括：利用新闻标题作为训练语料，训练第二语言模型，所述第二语言模型用于计算m元词组之间的搭配得分，所述m为预设的正整数。

根据本发明一优选实施方式，所述语句编辑模型还包括句法结构模型；

该方法还包括：将人工编辑的语句作为训练样本，训练句法结构模型，所述句法结构模型用于计算各语句与人工编辑的语句在句法结构上的相似度评分。

根据本发明一优选实施方式，所述语句编辑模型为其所包含各模型进行加权融合后得到的模型。

本发明还提供了一种语句自动编辑方法，该方法包括：

获取待编辑语句；

将所述待编辑语句输入语句编辑模型，得到各候选编辑语句的编辑得分；

选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句；

其中所述语句编辑模型利用上述建立语句编辑模型的方法建立。

根据本发明一优选实施方式，所述待编辑语句为针对实体词的描述语句；

所述编辑后的语句为：所述实体词作为搜索结果页中query对应的推荐实体词的推荐理由。

本发明还提供了一种建立语句编辑模型的装置，该装置包括：

语料获取单元，用于从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题，构成query-title对；将各query-title对中的title作为待编辑语句，query作为对应的编辑后语句，构成训练语料；

模型训练单元，用于利用所述训练语料训练翻译模型和第一语言模型，得到包含所述翻译模型和第一语言模型的语句编辑模型。

根据本发明一优选实施方式，所述语料获取单元包括：

第一获取子单元，用于从搜索日志中获取query；

分类子单元，用于利用预先训练得到的分类器对所述query进行分类，得到属于优选表达类别的query；

第二获取子单元，用于从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title，构成query-title对。

根据本发明一优选实施方式，所述语料获取单元还包括：

训练子单元，用于从百科网页中获取词条对应的优选表达语句，或者利用优选表达语句模板从网页上获取优选表达语句；利用获取的优选表达语句作为正样本训练所述分类器。

根据本发明一优选实施方式，所述第二获取子单元，具体执行：

将获取的title拆分为一个以上的子title；

利用query及其对应的子title，分别构成query-title对。

根据本发明一优选实施方式，该装置还包括：

过滤处理单元，用于对所述训练语料进行以下过滤处理中的至少一种：

根据本发明一优选实施方式，所述模型训练单元包括：

翻译模型训练子单元，用于利用训练语料中的待编辑语句及其对应的编辑后语句，训练翻译模型，所述翻译模型用于计算各待编辑语句对应的编辑后语句的翻译得分。

根据本发明一优选实施方式，所述模型训练单元包括：

第一语言模型训练子单元，用于利用训练语料中的编辑后语句，训练第一语言模型，所述第一语言模型用于计算n元词组之间的搭配得分，所述n为预设的正整数。

所述模型训练单元包括：

第二语言模型训练子单元，用于利用新闻标题作为训练语料，训练第二语言模型，所述第二语言模型用于计算m元词组之间的搭配得分，所述m为预设的正整数。

所述模型训练单元包括：

句法模型训练子单元，用于将人工编辑的语句作为训练样本，训练句法结构模型，所述句法结构模型用于计算各语句与人工编辑的语句在句法结构上的相似度评分。

根据本发明一优选实施方式，所述模型训练单元包括：

模型融合子单元，用于将语句编辑模型所包含的各模型进行加权融合，得到语句编辑模型。

本发明还提供了一种语句自动编辑装置，该装置包括：

输入获取单元，用于获取待编辑语句；

得分获取单元，用于将所述待编辑语句输入语句编辑模型，得到各候选编辑语句的编辑得分；

语句输出单元，用于选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句；

其中所述语句编辑模型利用上述建立语句编辑模型的装置建立。

将所述编辑后的语句为：所述实体词作为搜索结果页中query对应的推荐实体词的推荐理由。

由以上技术方案可以看出，本发明能够从搜索日志获取由query以及query对应的被点击搜索结果的标题构成的query-title对，并将其中的title作为待编辑语句，可读性较高的query作为对应的编辑后语句进行语句编辑模型的训练，并基于该语句编辑模型进行语句的自动编辑，提高可读性，降低人力成本。

【附图说明】

图1为本发明实施例提供的主要方法流程图；

图2为本发明实施例提供的获得训练语料的方法流程图；

图3为本发明实施例提供的建立语句编辑模型的装置；

图4为本发明实施例提供的一种语句自动编辑装置；

图5为本发明实施例提供的一个应用场景的实例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1为本发明实施例提供的主要方法流程图，在本实施例中主要包括两个阶段：第一个阶段是模型建立阶段，第二个阶段为语句编辑阶段。本发明通过建立一个语句编辑模型来实现语句的自动编辑，如图1中所示，该方法可以主要包括以下步骤：

在101中，从搜索日志中获取query(搜索关键词)以及query对应的被点击搜索结果的title(标题)，构成query-title对。

为了训练语句编辑模型，需要一个大规模的单语平行语料。所谓平行语料指的是由两个平行对应的语句构成的语料，这两个语句表达相同含义，可能采用不同的词汇或表达方式。平行语料可以包括双语/多语平行语料、单语平行语料。其中，双语/多语平行语料多用于不同语言的翻译，由于本发明涉及的是同一语言下的语句编辑，因此采用的是单语平行语料，即语料中两个语句是相同的语言。

经过观察和研究论证后发现，用户在搜索引擎进行搜索时，往往会采用较为精简、清楚的query，并且该query是通常是用户手工输入的，更接近于人的实际表达，可读性往往很高。当用户获取到与该query对应的搜索结果页后，点击的搜索结果通常是与该query非常相关的搜索结果，该搜索结果的标题所表述的含义可以认为与该query非常接近，但并没有query简明，因此可以将query看做该被点击搜索结果的简明描述，即可读性更高的描述。因此，query-title对构成的语料是很好的单语平行语料源。基于上述理由，在本发明实施例中可以将从搜索引擎的点击数据中获取的query-title对来生成训练语料。

在本发明实施例中提供一种本步骤的优选实现方式，如图2所示，获得query-title对可以包括以下步骤：

在201中，从搜索日志中获取query。

在202中，利用预先训练得到的分类器对201获取的query进行分类，得到属于优选表达类别的query。

由于query的数量巨大，且质量参差不齐，需要从这些query中进行筛选。在筛选时可以采用分类器，即预先训练一个分类器，该分类器能够将query至少分成两类：优选表达类别和非优选表达类别。将从搜索日志中获取的query送入该分类器进行分类，然后获取属于优选表达类别的query。

对于分类器的训练，可以预先选择一些优选表达的语句作为训练语料来训练。在选择训练语料时，可以从百科网页中获取词条对应的优选表达语句，或者利用优选表达语句模板从网页上获取与模板匹配的优选表达语句，所述优选表达语句模板可以采用例如：【实体词】是/即/为【优选表达语句】。

举个例子，语句：刘德华是影视歌多栖发展艺人。

该语句正好与上述模板匹配，那么就可以将“影视歌多栖发展艺人”作为优选表达语句提取出来。

在203中，从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title，构成query-title对。

在本步骤中，可以直接将query对应的被点击搜索结果的title构成query-title对。但由于模型训练采用的训练样本越多，训练得到的模型越准确，因此为了提高语句编辑模型的准确性，可以在本步骤中进行扩展。在从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title后，可以将获取的title拆分成一个以上的子title，例如基于标点进行拆分，利用query及其对应的各子title，分别构成query-title对。

继续参见图1。

在102中，将各query-title对中的title作为待编辑语句，query作为对应的编辑后语句构成训练语料。

在执行本步骤之前，还可以进一步对得到的query-title对进行过滤，采用的过滤原则可以包括但不限于以下几种：

第一种过滤：若title和query没有任何词语重叠，则过滤掉该query-title对。

第二种过滤：若title和query完全相同，则过滤掉该query-title对。

第三种过滤：query的长度不满足预设要求，则过滤掉该query-title对。这种过滤的目的是对编辑后语句的长度进行限制，使其在一定长度范围内，例如如果query的长度大于10个字符或者小于6个字符，则过滤掉该query-title对。

第四种过滤：若query和title中长度较短者与长度较长者之间的长度比例小于预设的比例阈值，例如小于则过滤掉该query-title对。

在103中，利用训练语料训练翻译模型和第一语言模型，得到包含翻译模型和语言模型的语句编辑模型。

本发明所建立的语句编辑模型可以包括翻译模型和语言模型，还可以进一步包括长度模型和吸引力模型，其中翻译模型用于对待编辑语句进行同义改写，提高语句的精确性，语言模型用于提高语句的流畅性，长度模型用于提高语句的精简度，吸引力模型是用于使语句表达更加生动、有趣，即对用户而言更有吸引力。吸引力模型可以具体包括两个模型：语言模型和句法结构模型。上述的两个语言模型所采用的训练语料并不相同，因此产生的效果也不相同，为了对两个语言模型进行区分，将这两个语言模型分别称为第一语言模型和第二语言模型。下面对语句编辑模型包含的上述模型进行详细描述：

1)翻译模型。

翻译模型有很多种，本发明实施例中优选统计翻译模型(SMT)，SMT是目前非限定领域翻译模型中性能较佳的一种。统计翻译的基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。

本发明中涉及的是单语的翻译，即输入语言和目标语言是同一种语言。那么采用的平行语料也是单语平行语料，在本发明实施例中可以利用训练语料中的待编辑语句及其对应的编辑后语句(即title-query对)，训练翻译模型，训练得到的翻译模型包括各待编辑语句对应的编辑后语句的翻译得分。

翻译模型的工作原理是：输入的句子s(对应于待编辑的语句)被分割成各片段构成的序列然后各片段分别被翻译后构成序列将作为一组翻译单元，利用函数计算该翻译单元的翻译似然值，然后按照下面的公式得到s和e之间的翻译得分

其中，是中的第i个片段，是对应的翻译片段，l是语句s被分割得到的片段数量，λ_tm是翻译模型的权重参数。

2)第一语言模型。

语言模型描述给定词序列在语言中出现的概率分布，主要用于计算一个给定语句片段成为流畅、通顺句子的概率。通常可以体现为n元词组之间的搭配得分，所述n为预设的正整数。n元词组即n-gram，指的是n个词语按顺序组合成的词组。在本发明实施例中，可以利用训练语料中的编辑后语句，训练第一语言模型，在本发明实施例中n优选3，即构建三元语言模型，对于编辑后的语句e的打分得到的搭配得分p_lm(e)可以采用如下公式：

其中，J为e中的词语数量，e_j是e的第j个词语，λ_lm是第一语言模型的权重参数。

3)长度模型。

设置长度模型，是为了使得编辑后的语句能够尽可能在一定长度范围内，从而尽量精简。长度模型包括不同长度的语句的长度得分，在本发明实施例中，可以采用长度惩罚机制来实现长度模型。长度模型对编辑后的语句e进行打分得到的长度得分可以采用如下公式：

p_{l f} (e) = \{\begin{matrix} N, & N \leq L_{t h} \\ \frac{1}{N - L_{t h}}, & N > L_{t h} \end{matrix} - - - (3)

其中，N为e中的字符数量，L_th为预设的长度阈值，例如选择10，将编辑后的语句尽可能控制在10个中文字符之内。

4)第二语言模型。

这里的第二语言模型与第一语言模型的机制是相同的，都是为了体现语句的搭配得分，即第二语言模型包括m元词组之间的搭配得分，m为预设的正整数。不同的是两者的目的不同，采用的训练语料不同。第二语言模型也可以计算一个给定语句片段成为流畅、通顺的句子的概率，但更偏重于计算一个给定语句片段成为有吸引力的句子的概率。对于上面的翻译模型而言，其实现的是编辑的“信”，即精确性，对于第一语言模型而言，其实现的是编辑的“达”，即流畅性，对于第二语言模型而言，其实现的是编辑的“雅”，即表述的更加优雅，更美，从而能够吸引用户进行阅读。因此，在训练第二语言模型时，采用的训练语料应该是表述比较吸引人的语句。经过观察和研究发现，通常新闻编辑人员在编辑新闻标题时，会尽可能做到新闻标题非常精简有趣，从而吸引用户进行点击和阅读。因此，在本发明实施例中，可以采用新闻标题作为训练语料训练第二语言模型。其模型与第一语言模型类似，在本发明实施例中n优选3，即构建三元语言模型，对于编辑后的语句e的打分得到的搭配得分p_hl(e)可以采用如下公式：

其中，L为e中的词语数量，e_l是e的第l个词语，λ_hl是第二语言模型的权重参数。

5)句法结构模型。

句法结构模型同样是为了实现编辑的“雅”，从而吸引用户阅读，通过句法结构模型能够将语句编辑为更符合人表达方式的句法结构。在训练句法结构模型时，可以将人工编辑的语句作为训练样本，例如可以采用众包的方式将一些待编辑语句提供给编辑者，多个编辑者对同一个待编辑语句分别进行编辑，然后再由多个编辑者分别对各编辑后的语句进行评分，将评分情况满足要求的语句作为训练样本。

最终训练得到的句法结构模型主要用于计算语句与人工编辑的语句在句法结构上的相似度评分。在句法结构模型中，编辑后的语句e与人工编辑的语句在句法结构上的相似度评分可以采用如下公式：

P_{ss} (e) = \max (K (T_{e}, {T_{t}}_{i})) - - - (5)

其中，T_x表示语句x的依存句法树，t_i为人工标注的推荐理由，K(·,·)为依存句法树的核函数，其体现语句之间的在句法结构上的相似度。

最终得到的语句编辑模型可以为其所包含各模型进行加权融合后得到的模型。若加权融合方式采用对数线性关系，则可以得到如下的语句编辑模型：

\begin{matrix} P (e | s) = λ_{t m} Σ_{i = 1}^{l} {logφ}_{t m} ({\overset{&OverBar;}{s}}_{i}, {\overset{&OverBar;}{e}}_{i}) + λ_{l m} Σ_{j = 1}^{J} \log p (e_{j} | e_{j - 2} e_{j - 1}) + λ_{l f} \log p_{l f} (e) \\ + λ_{h l} Σ_{l = 1}^{L} \log p (e_{l} | e_{l - 2} e_{l - 1}) + λ_{s s} \log p_{s s} (e) \end{matrix} - - - (6)

其中，P(e|s)为e作为语句s的编辑后语句的编辑得分，λ_lf是长度模型的权重参数，λ_ss是句法结构模型的权重参数。

各模型的权重参数λ_tm、λ_lm、λ_lf、λ_hl和λ_ss可以采用预设值，该预设值可以是经验值、试验值等，并且可以灵活调整。在确定权重参数时，可以采用最小错误率训练(MERT，Minimum Error Rate Training)的方式。

以上为模型建立阶段的流程，是预先执行的线下过程，也就是说，预先建立语句编辑模型。当有语句需要进行编辑时，可以针对待编辑语句执行以下步骤。

在104中，获取待编辑语句。

在105中，将待编辑语句输入语句编辑模型，得到各候选编辑语句的编辑得分。

当获取到待编辑语句后，利用语句编辑模型就能够得到各候选编辑语句以及各候选编辑语句的编辑得分。由上述公式(6)可以看出，各候选编辑语句的编辑得分可以由翻译模型、第一语言模型、长度模型、第二语言模型和句法结构模型共同决定，综合考虑了各候选编辑语句在准确度、流畅度、长度、吸引程度等几个因素，得到的综合评分。

在106中，选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句。

在选择编辑后的语句时，可以依据编辑得分选择编辑得分超过预设阈值的语句，或者选择编辑得分排在前N个的语句，其中N为预设的正整数。例如，选择编辑得分最高的一个候选编辑语句作为编辑后的语句，该编辑后的语句尽可能达到“信、达、雅”的要求。

以上是对本发明所提供方法进行的详细描述，下面结合实施例对本发明所提供的装置进行详细描述。

图3为本发明实施例提供的建立语句编辑模型的装置，如图3所示，该装置可以包括：语料获取单元00和模型训练单元10，还可以进一步包括过滤处理单元20。各单元的组成和主要功能如下：

语料获取单元00负责从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题，构成query-title对；将各query-title对中的title作为待编辑语句，query作为对应的编辑后语句，构成训练语料。

模型训练单元10负责利用训练语料训练翻译模型和第一语言模型，得到包含翻译模型和第一语言模型的语句编辑模型。该语言编辑模型还可以进一步包含长度模型、第二语言模型和/或句法结构模型。

为了训练语句编辑模型，需要一个大规模的单语平行语料。其中，语料获取单元00可以包括：第一获取子单元01、分类子单元02和第二获取子单元03，还可以进一步包括训练子单元04。

第一获取子单元01负责从搜索日志中获取query。

分类子单元02负责利用预先训练得到的分类器对query进行分类，得到属于优选表达类别的query。对query进行分类的目的在于搜索日志中query的质量参差不起，需要对作为训练语料的query进行筛选，从中找到优选表达的query。

第二获取子单元03负责从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title，构成query-title对。

训练子单元04负责从百科网页中获取词条对应的优选表达语句，或者利用优选表达语句模板从网页上获取与模板匹配的优选表达语句，所述优选表达语句模板可以采用例如：【实体词】是/即/为【优选表达语句】；利用获取的优选表达语句作为正样本训练分类器。

由于模型训练采用的训练样本越多，训练得到的模型越准确，因此为了提高语句编辑模型的准确性，可以通过第二获取子单元03进行扩展。第二获取子单元03，具体执行：从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title；将获取的title拆分为一个以上的子title；利用query及其对应的子title，分别构成query-title对。

另外，对于得到的query-title对可以进行进一步过滤，由过滤处理单元20将过滤后的query-title对作为训练样本，采用的过滤原则可以包括但不限于以下几种：

上述的模型训练单元10可以包括：翻译模型训练子单元11和第一语言模型训练子单元12，还可以进一步包括：第二语言模型训练子单元13、句法模型训练子单元14和模型融合子单元15中的一个或多个。

翻译模型训练子单元11负责利用训练语料中的待编辑语句及其对应的编辑后语句，训练翻译模型，翻译模型用于对待编辑语句进行同义词改写，其用于计算各待编辑语句对应的编辑后语句的翻译得分，翻译得分可以采用如上述方法实施例中所述的公式(1)。

第一语言模型训练子单元12负责利用训练语料中的编辑后语句，训练第一语言模型，第一语言模型用于计算n元词组之间的搭配得分，n为预设的正整数，即主要用于计算一个给定语句片段成为流畅、通顺句子的概率。搭配得分可以采用如上述方法实施例中所述的公式(2)。

语句编辑模型还可以包括长度模型，长度模型用于计算不同长度的语句的长度得分，长度得分可以采用如上述方法实施例中所述的公式(3)。

第二语言模型训练子单元13负责利用新闻标题作为训练语料，训练第二语言模型，第二语言模型用于计算m元词组之间的搭配得分，m为预设的正整数，第二语言模型也可以计算一个给定语句片段成为流畅、通顺的句子的概率，但更偏重于计算一个给定语句片段成为有吸引力的句子的概率。搭配得分可以采用如上述方法实施例中所述的公式(4)。

句法模型训练子单元14负责将人工编辑的语句作为训练样本，训练句法结构模型，句法结构模型用于计算各语句与人工编辑的语句在句法结构上的相似度评分，相似度评分可以采用如上述方法实施例中所述的公式(5)。

模型融合子单元15负责将语句编辑模型所包含的各模型进行加权融合，得到语句编辑模型。加权融合方式采用对数线性关系，则可以得到如公式(6)的推荐理由生成模型。

图4为本发明实施例提供的一种语句自动编辑装置，该语句自动编辑装置基于上述语句自动编辑模型实现语句的自动编辑。如图4所示，该装置可以包括：输入获取单元21、得分获取单元22和语句输出单元23，其中各组成单元的主要功能如下：

输入获取单元21负责获取待编辑语句。

得分获取单元22负责将待编辑语句输入语句编辑模型，得到各候选编辑语句的编辑得分。

语句输出单元23负责选取编辑得分满足预设要求的候选编辑语句作为编辑后的语句。在选择编辑后的语句时，可以依据编辑得分选择编辑得分超过预设阈值的语句，或者选择编辑得分排在前N个的语句，其中N为预设的正整数。例如，选择编辑得分最高的一个候选编辑语句作为编辑后的语句。

本发明提供的方式对领域和语言并不加以限制，因为所采用的各模型和特征是与语言不相关的。不同语言或不同类型的实体均适用。在本发明实施例中均以中文为例。

本发明实施例提供的上述方法和装置可以应用于多种应用场景，在此举一个上述方法和装置的应用场景实例：

在过去的几年中，网络搜索引擎通过向用户提供实体推荐极大地丰富和改进了用户体验。当用户在搜索引擎输入搜索关键词时，搜索引擎会向用户提供与该搜索关键词相关的实体推荐，并在搜索结果的旁边展示推荐的实体词，如图5中所示。当用户向搜索引擎输入搜索关键词“奥巴马”时，会在搜索结果的右侧(图中的相关人物部分)展示一系列人名作为“奥巴马”的推荐实体词，使得用户能够快速访问其感兴趣的推荐实体词，从而提高用户信息发现的体验。

实体推荐已经成为当今网络搜索的关键技术。尽管推荐实体词是与用户输入的搜索关键词相关的，但很多情况下，如果用户没有对关于实体推荐词的相关背景知识的了解，很可能会因为不能够明白为何会推荐该实体词而产生困惑，并不会使用该推荐实体词。为了帮助用户快速获知推荐实体词是否以及如何满足其兴趣，进一步向用户提供推荐实体词的推荐理由是很有必要的。例如图5中所示，对于推荐实体词“吴韩马”，如果用户对其并不了解，根本不明白为何会存在该推荐实体词，若在“吴韩马”的下方展示推荐理由“韩国为奥巴马起韩语名”，则会给用户带来很好的体验。

目前针对推荐实体词的推荐理由，一种方式是通过人工标注，但这种方式工作量太大，人工成本高；另一种方式是从百科这类页面中抽取结构化数据作为推荐理由，但这种方式覆盖率太低，有很多推荐实体词完全无法覆盖到。但若采用本发明实施例中提供的方式，可以获取针对实体词的描述语句，采用本发明提供的上述方法和装置，可以对该针对实体词的描述语句进行编辑，得到编辑后的语句。当该实体词作为搜索结果页中query对应的推荐实体词时，该编辑后的语句就可以作为推荐实体词的推荐理由。

通过上述方式得到的推荐实体词的推荐理由可以达到如下效果：1)推荐理由准确地描述该实体词；2)推荐理由的表达较为流畅；3)推荐理由足够简明以能够在有限的区域展现；4)推荐理由的表达能够吸引用户浏览和点击对应的推荐实体词。

举个例子，针对“吴韩马”的一个描述语句为s，将其进行编辑后形成e。

s：韩国为美国第44任总统奥巴马起的一个韩语名字。

e：韩国为奥巴马起韩语名。

可以看出，后者更加简明、流畅和吸引人。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立语句编辑模型的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从搜索日志中获取搜索关键词query以及query对应的被点击搜索结果的标题，构成query-title对包括：

从搜索日志中获取query；

3.根据权利要求2所述的方法，其特征在于，所述分类器的训练包括：

利用获取的优选表达语句作为正样本训练所述分类器。

4.根据权利要求2所述的方法，其特征在于，从搜索日志中获取属于优选表达类别的query对应的被点击搜索结果的title，构成query-title对包括：

将获取的title拆分为一个以上的子title；

利用query及其对应的子title，分别构成query-title对。

5.根据权利要求1所述的方法，其特征在于，该方法还包括：在训练语句编辑模型之前，对所述训练语料进行以下过滤处理中的至少一种：

6.根据权利要求1所述的方法，其特征在于，利用所述训练语料训练翻译模型包括：

7.根据权利要求1所述的方法，其特征在于，利用所述训练语料训练第一语言模型包括：

8.根据权利要求1所述的方法，其特征在于，所述语句编辑模型还包括长度模型，所述长度模型用于计算不同长度的语句的长度得分。

9.根据权利要求1所述的方法，其特征在于，所述语句编辑模型还包括第二语言模型；

10.根据权利要求1所述的方法，其特征在于，所述语句编辑模型还包括句法结构模型；

11.根据权利要求1所述的方法，其特征在于，所述语句编辑模型为其所包含各模型进行加权融合后得到的模型。

12.一种语句自动编辑方法，其特征在于，该方法包括：

获取待编辑语句；

其中所述语句编辑模型利用如权利要求1至11任一权项所述的方法建立。

13.根据权利要求12所述的方法，其特征在于，所述待编辑语句为针对实体词的描述语句；

14.一种建立语句编辑模型的装置，其特征在于，该装置包括：

15.根据权利要求14所述的装置，其特征在于，所述语料获取单元包括：

第一获取子单元，用于从搜索日志中获取query；

16.根据权利要求15所述的装置，其特征在于，所述语料获取单元还包括：

17.根据权利要求15所述的装置，其特征在于，所述第二获取子单元，具体执行：

将获取的title拆分为一个以上的子title；

利用query及其对应的子title，分别构成query-title对。

18.根据权利要求14所述的装置，其特征在于，该装置还包括：

19.根据权利要求14所述的装置，其特征在于，所述模型训练单元包括：

20.根据权利要求14所述的装置，其特征在于，所述模型训练单元包括：

21.根据权利要求14所述的装置，其特征在于，所述语句编辑模型还包括长度模型，所述长度模型用于计算不同长度的语句的长度得分。

22.根据权利要求14所述的装置，其特征在于，所述语句编辑模型还包括第二语言模型；

所述模型训练单元包括：

23.根据权利要求14所述的装置，其特征在于，所述语句编辑模型还包括句法结构模型；

所述模型训练单元包括：

24.根据权利要求14所述的装置，其特征在于，所述模型训练单元包括：

25.一种语句自动编辑装置，其特征在于，该装置包括：

输入获取单元，用于获取待编辑语句；

其中所述语句编辑模型利用如权利要求14至24任一权项所述的装置建立。