CN104484377A

CN104484377A - 替换词典生成方法及装置

Info

Publication number: CN104484377A
Application number: CN201410746317.XA
Authority: CN
Inventors: 石磊; 李朋凯; 曾增烽; 林英展
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2015-04-01
Anticipated expiration: 2034-12-09
Also published as: CN104484377B

Abstract

本发明公开了一种替换词典生成方法及装置，其中方法包括：获取句对资源，利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典；对所述句对资源中的剩余语料，利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典，其中，所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语；根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典，提高了替换词典的准确率和召回率。

Description

替换词典生成方法及装置

技术领域

本发明实施例涉及数据搜索技术，尤其涉及一种替换词典生成方法及装置。

背景技术

搜索引擎在对用户输入的语句进行检索时，为了能够返回更多的搜索结果，需要对语句中的关键词进行同义替换，然后利用替换后的同义词进行检索。在搜索引擎中，由改写模块根据替换词典负责对语句中的关键词进行同义替换。因此，替换词典的质量直接决定着检索的效果，提高替换词典的准确率和召回率直接会带来相关性收益。

目前，生成替换词典的常用方法是：对于句对资源，先利用IBM模型做统计对齐，生成一份替换词典，然后利用语言先验知识和IBM模型对替换词典做一次最佳对齐，生成线上可用的替换词典。

上述做法的最大缺点是：直接利用IBM模型生成替换词典，导致生成的替换词典准确率和召回率较低。

发明内容

本发明提供一种替换词典生成方法及装置，能够生成准确率和召回率较高的替换词典。

第一方面，本发明实施例提供了一种替换词典生成方法，包括：

获取句对资源；

利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典；

对所述句对资源中的剩余语料，利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典，其中，所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语；

根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。

进一步的，所述利用语言先验知识对所述句对资源做规则对齐之前，还包括：

对所述句对资源进行预处理。

进一步的，所述预处理包括以下处理方法中的至少一种：

纠错处理、分词处理、分词修正处理和数据归一化处理。

进一步的，所述规则对齐包括以下对齐方法中的至少一种：

相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。

进一步的，所述对所述句对资源中的剩余语料，利用融合了语言先验知识的IBM模型做统计对齐，生成第二替换词典，包括：

根据替换概率、反向概率、词向量和编辑距离中的至少一个特征，确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率；

根据所述后验概率的IBM模型生成所述第二替换词典。

进一步的，所述根据替换概率、反向概率、词向量和编辑距离中的至少一个特征，确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率，包括：

利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率：

P_{θ_{k - 1}} ({f_{i}}^{(n)} | e_{j}^{(n)}) = (w_{origin} p_{θ_{k - 1}} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{reverse} P_{θ_{k - 1}} ({e_{j}}^{(n)} | {f_{i}}^{(n)}) + w_{edit} P_{edit} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{wordvec} P_{wordvec} ({f_{i}}^{(n)} | {e_{j}}^{(n)})) / Z

其中，e表示用户输入的查询问题，f为与所述查询问题对应的用户点击标题部分词语；

w_origin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重；

w_reverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重；

w_edit为所述剩余语料中的词语的词语之间编辑距离的权重；

w_wordvec为所述剩余语料中的词语利用词向量距离的权重；

为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率；

为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率；

P_edit(f_i ⁽ⁿ⁾|e_j ⁽ⁿ⁾)为仅考虑编辑距离的情况下，第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率；

P_wordvec(f_i ⁽ⁿ⁾|e_j ⁽ⁿ⁾)为仅考虑词向量的情况下，第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。

进一步的，根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典，包括：

根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐，得到对齐矩阵；

利用所述对齐矩阵生成所述第三替换词典。

进一步的，所述根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐，包括：

基于所述第一替换词典和所述第二替换词典，采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。

进一步的，利用所述对齐矩阵生成所述第三替换词典包括：

对所述对所述对齐矩阵进行短语抽取，得到短语替换对；

利用所述短语替换对生成所述第三替换词典。

进一步的，对所述对齐矩阵进行短语抽取，得到短语替换对，包括：

枚举所述对齐矩阵中所有可能的对齐短语对；

判断所述所有可能的对齐短语对是否满足对齐一致性；

将满足对齐一致性的对齐短语对作为所述短语替换对。

进一步的，利用所述短语替换对生成所述第三替换词典，包括：

对所述短语替换对进行过滤处理后，生成所述第三替换词典。

进一步的，对所述短语替换对进行过滤处理，包括：

基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。

第二方面，本发明实施例还提供了一种替换词典生成装置，包括：

获取模块，用于获取句对资源；

规则对齐模块，用于利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典；

统计对齐模块，用于对所述句对资源中的剩余语料，利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典；其中，所述剩余语料为所述句对资源中经所述规则对齐模块进行规则对齐后剩余的词语；

生成模块，用于根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。

进一步的，所述装置还包括：

预处理模块，用于在所述规则对齐模块利用语言先验知识对所述句对资源做规则对齐之前，对所述句对资源进行预处理。

进一步的，所述预处理模块，具体用于采用以下处理方法中的至少一种对所述句对资源进行预处理：

纠错处理、分词处理、分词修正处理和数据归一化处理。

进一步的，所述规则对齐模块，具体用于采用以下对齐方法中的至少一种对所述句对资源做规则对齐：

进一步的，所述统计对齐模块，包括：

概率确定子模块，用于根据替换概率、反向概率、词向量和编辑距离中的至少一个特征，确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率；

生成子模块，用于根据所述后验概率的IBM模型生成所述第二替换词典。

进一步的，所述概率确定子模块具体用于：

P_{θ_{k - 1}} ({f_{i}}^{(n)} | e_{j}^{(n)}) = (w_{origin} p_{θ_{k - 1}} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{reverse} P_{θ_{k - 1}} ({e_{j}}^{(n)} | {f_{i}}^{(n)}) + w_{edit} P_{edit} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{wordvec} P_{wordvec} ({f_{i}}^{(n)} | {e_{j}}^{(n)})) / Z

w_edit为所述剩余语料中的词语的词语之间编辑距离的权重；

w_wordvec为所述剩余语料中的词语利用词向量距离的权重；

进一步的，所述生成模块包括：

最佳对齐子模块，用于根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐，得到对齐矩阵；

第一生成子模块，用于利用所述对齐矩阵生成所述第三替换词典。

进一步的，所述最佳对齐子模块具体用于：

进一步的，所述第一生成子模块包括：

短语抽取子模块，用于对所述对齐矩阵进行短语抽取，得到短语替换对；

第二生成子模块，用于利用所述短语替换对生成所述第三替换词典。

进一步的，所述短语抽取子模块具体用于：

枚举所述对齐矩阵中所有可能的对齐短语对；

判断所述所有可能的对齐短语对是否满足对齐一致性；

将满足对齐一致性的对齐短语对作为所述短语替换对。

进一步的，所述第二生成子模块具体用于：

本发明实施例提供的替换词典生成方法及装置，通过先利用语言先验知识对句对资源做规则对齐，生成第一替换词典，再通过对所述句对资源中的剩余词语利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典，最后根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典，提高了替换词典的准确率和召回率。

附图说明

图1为本发明实施例一提供的替换词典生成方法流程示意图；

图2为本发明实施例提供的替换词典生成方法中对句对资源做规则对齐的对齐结果示意图；

图3为本发明实施例二提供的替换词典生成方法流程示意图；

图4a为本发明实施例提供的替换词典生成方法中满足对齐一致性的对齐短语对的判断结果示意图；

图4b为本发明实施例提供的替换词典生成方法中不满足对齐一致性的对齐短语对的判断结果示意图；

图4c为本发明实施例提供的替换词典生成方法中满足对齐一致性的对齐短语对的判断结果示意图；

图5为本发明实施例三提供的替换词典生成装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

参见图1，本实施例提供的替换词典生成方法具体包括：操作101～操作104。

操作101中，获取句对资源。

具体的，所述句对资源由用户输入的查询问题语句和与所述查询问题对应的用户点击标题(title)部分(这里为加粗字体)词语组成。这些句对资源可以在网络上获取。例如，采用百度搜索工具，用户输入teen movie，百度展现了以下结果：

Top 10teenage moviesfor girls of all time 2014–Squidoo

www.Squidoo.com>…>Movies>Blockbuster Movies^▼翻译此页

These are my favorite high school movies.It’s probably a bit juvenile of me.but I always lovea good teenagemovie.And since I’m a girl.Iguess……

Ranking the 10Best Teen Films of 2013Thus Far|BlackBook

www.bbook.com/ranking-the-10-best-teen-films-of-2013-thus-…^▼翻译此页

So with that in mind.We decided to take a look back at some of the other teen filmsfrom the year.From Olivier Assayas’melancholic and delightful something in……

那么，用户输入的查询问题与这些被标记用户点击标题(这里为加粗字体)数词语就组成了如下句对资源：

操作102中，利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典。

具体的，在获取句对资源之后，利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典。

示例性的，采用的规则对齐方法可以为以下对齐方法中的至少一种：相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。

例如，对于以下句对资源：

查询语句：abaixar videos happy a lot of cliper da music sertanejo

用户点击标题词语：Video clip sertanejo download musíc merry lots of依次采用相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记进行处理，得到如图2所示的第一替换词典，即videos-Video、happy-merry、a lot of-lots of、cliper-clip、music-musíc、sertanejo-sertanejo。

具体的，用户查询语句里的词语集合用e表示，用户点击标题词语的集合用hl表示。采用相同词对齐，如果词语W₁∈e，词语W₂∈hl，并且W₁＝＝W₂，则这两个词语直接对齐，例如，图2中的词语sertanejo-sertanejo。采用同义词对齐，如果词语W₁∈e，词语W₂∈hl，并且W₁和W₂在人工标注的同义词典中，则这两个词语直接对齐，例如，图2中的词语happy-merry。采用归一化对齐，如果词语W₁∈e，词语W₂∈hl，W₁归一化为W₂归一化为如果则这两个词语直接对齐。对于阿拉伯语、葡萄牙语、泰语等语言中都携带声调字母，这些声调一般不会造成转义。例如葡语estimá，会被归一化到estima、图2中的music-musíc。采用Stemming对齐，如果词语W₁∈e，W₁的词根为S₁，词语W₂∈hl，W₂的词根为S₂，且S₁＝＝S₂，则这两个词语直接对齐，例如图2中的videos-video和cliper-clipe。采用转音词对齐，如果词语W₁∈e，W₂∈hl，并且这两个词语意义和用法均相同，则这两个词语直接对齐，例如图2中的a lot of-lots of。采用停用词标记，停用词不参与后续对齐，由于停用词出现次数较多，且没有实际意思，去掉停用词可增加统计对齐的准确率。例如图2中的da。

示例性的，所述利用语言先验知识对所述句对资源做规则对齐之前，还包括：

对所述句对资源进行预处理。

示例性的，所述预处理包括以下处理方法中的至少一种：

纠错处理、分词处理、分词修正处理和数据归一化处理。

操作103中，对所述句对资源中的剩余语料，利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典，其中，所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语。

具体的，在利用语言先验知识对所述句对资源做规则对齐之后，对所述句对资源中的剩余语料利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典。例如，图2中的剩余语料为abaixar，利用融合有语言先验知识的IBM模型对abaixar做统计对齐，得到abaixar的替换词语，由abaixar和与其对应的替换词语组成的词典，即为第二替换词典。

示例性的，所述对所述句对资源中的剩余语料，利用融合了语言先验知识的IBM模型做统计对齐，生成第二替换词典，包括：

根据所述后验概率的IBM模型生成所述第二替换词典。

示例性的，所述根据替换概率、反向概率、词向量和编辑距离中的至少一个特征，确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率，包括：

P_{θ_{k - 1}} ({f_{i}}^{(n)} | e_{j}^{(n)}) = (w_{origin} p_{θ_{k - 1}} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{reverse} P_{θ_{k - 1}} ({e_{j}}^{(n)} | {f_{i}}^{(n)}) + w_{edit} P_{edit} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{wordvec} P_{wordvec} ({f_{i}}^{(n)} | {e_{j}}^{(n)})) / Z

w_edit为所述剩余语料中的词语的词语之间编辑距离的权重；

w_wordvec为所述剩余语料中的词语利用词向量距离的权重；

操作104中，根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。

具体的，根据操作102生成第一替换词典，例如如图2所示，videos-Video、happy-merry、a lot of-lots of、cliper-clip、music-musíc、sertanejo-sertanejo，根据操作103生成第二替换词典，例如，abaixar和与其对应的替换词语组成的词典，最后根据第一替换词典和第二替换词典生成线上可用的第三替换词典，这里可以将第一替换词典和第二替换词典进行简单组合，生成第三替换词典，例如生成的第三替换词典为videos-Video、happy-merry、a lot of-lots of、cliper-clip、music-musíc、sertanejo-sertanejo，abaixar和与其对应的替换词语。

示例性的，所述根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典，包括：

利用所述对齐矩阵生成所述第三替换词典。

示例性的，所述根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐，包括：

示例性的，利用所述对齐矩阵生成所述第三替换词典，包括：

对所述对齐矩阵进行短语抽取，得到短语替换对；

利用所述短语替换对生成所述第三替换词典。

示例性的，对所述对齐矩阵进行短语抽取，得到短语替换对，包括：

枚举所述对齐矩阵中所有可能的对齐短语对；

判断所述所有可能的对齐短语对是否满足对齐一致性；

将满足对齐一致性的对齐短语对作为所述短语替换对。

示例性的，利用所述短语替换对生成所述第三替换词典，包括：

示例性的，对所述短语替换对进行过滤处理，包括：

本发明实施例通过先利用语言先验知识对句对资源做规则对齐，生成第一替换词典，再通过对所述句对资源中经所述规则对齐后剩余的词语利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典，最后根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典，有效地提高了替换词典的准确率和召回率，且生成的替换词典便于后续优化。并且，采用上述实施例的技术方案生成的替换词典进行同义词替换后，搜索引擎返回更多的搜索结果。

实施例二

基于上述实施例，本实施例提供了另一种替换词典生成方法。

参见图3，本实施例提供的替换词典生成方法具体包括：操作201～操作208。

操作201中，获取句对资源，详见上述实施例一中的说明，这里不再赘述。

操作202中，对所述句对资源进行预处理。

本操作对句对资源进行纠错处理、分词处理、词性标注、专名识别、分词修正处理和数据归一化处理。通过上述预处理可以过滤掉句对资源中较多错误的数据，避免部分分词错误引起的对齐错误。例如，在分词处理之前首先对句对资源进行纠错处理，然后采用基本词粒度作为分词粒度，对纠错后的句对资源进行分词处理。最后进行分词修正处理和数据归一化处理。

例如，对于用户输入错误或者未登录词，很容易被切成多个词，导致查询语句和用户点击标题词语中切分不一致。具体地，如查询语句中的词语hani可能被切成ha||ni，而用户点击标题词语中的词语hany却不会被切散。或者，分词错误造成的句对两端分词结果不一致，例如查询语句中的词语fontamarhotel，用户点击标题词语中的fontamar hotel，查询语句和用户点击标题词语中的分词结果分别为fonta||mar||hotel和font||amar||hotel。针对上述两种情况下，查询语句和用户点击标题词语切分不一致带来的错误和风险，通过分词修正处理可以很好的解决。具体的，如果利用编辑距离将切散的词合回来，对于上述的hany，ha和ni合在一起与hany的编辑距离更小，可以将ha和ni用新词hani代替。例如可以采用局部贪心的搜索方法，固定查询语句中的词语W，如果发现用户点击标题词语中连续的两个词W₁，W₂合为词与W编辑距离更小，再次判断与W₃合为新的是否与W的编辑距离变得更小，依次类推，直到编辑距离不再减小时，如果满足<预设阈值(例如0.3)，则最终判定由w作为新词取代原来的分词结果。通过上述处理可以将用户点击标题词语中的切散词语合并回来，采取类似的处理方式也可以将查询语句中的被切散词合并回来。

对于阿拉伯语，由于阿拉伯语中存在与表达意思无关的延长符号“-”，需要对其进行数据归一化处理，将单词中的延长符去掉。

操作203中，利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典，具体详见上述实施例一中的说明，这里不再赘述。

操作204中，对所述句对资源中的剩余语料，利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典，其中，所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语。

本操作根据替换概率、反向概率、词向量和编辑距离确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率，然后根据所述后验概率的IBM模型生成所述第二替换词典。例如，利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率：

P_{θ_{k - 1}} ({f_{i}}^{(n)} | e_{j}^{(n)}) = (w_{origin} p_{θ_{k - 1}} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{reverse} P_{θ_{k - 1}} ({e_{j}}^{(n)} | {f_{i}}^{(n)}) + w_{edit} P_{edit} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{wordvec} P_{wordvec} ({f_{i}}^{(n)} | {e_{j}}^{(n)})) / Z

w_edit为所述剩余语料中的词语的词语之间编辑距离的权重；

w_wordvec为所述剩余语料中的词语利用词向量距离的权重；

操作205中，根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐，得到对齐矩阵。

具体的，基于所述第一替换词典和所述第二替换词典，采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。

操作206中，对对齐矩阵进行短语抽取，得到短语替换对。

具体的，在对所述句对资源做最佳对齐后，获取对齐矩阵，在对齐矩阵上进行短语抽取。例如，枚举所述对齐矩阵中所有可能的对齐短语对，判断所述所有可能的对齐短语对是否满足对齐一致性，将满足对齐一致性的对齐短语对作为所述短语替换对。其中，满足对齐一致性的对齐短语对的判断如图4a、4b及4c所示，横、纵格子分别代表一对句对资源上的词语，灰色矩形框代表对齐短语对，黑色方框表示词语的对齐信息。当且仅当同一个黑色方框没有跨越灰、白区域时，对齐短语对具有对齐一致性。通过句对资源上的词语的正向对齐和反向对齐，可以获得一对多、多对一和多对多的短语替换对，减少了IBM模型短语对齐的同义挖掘的错误，有效地控制了单纯词替换带来的转义风险。

操作207中，对得到的所述短语替换对进行过滤处理，生成线上可用的第三替换词典。

具体的，通过上述操作之后，得到了短语替换对。为了保持替换词典的高精度，需要对短语替换对通过过滤策略进行提纯。例如，采用基于多种不同特征的决策树模型对得到的所述短语替换对进行过滤处理。这里，主要使用的特征如下：

1、共现比，比值越大越需要过滤掉，主要用来识别经常一起出现却很少能够对齐的词对。2、全局概率，比值越小越需要过滤，主要用来识别热门词对齐到自身的情况，降低其对齐到其他词的概率。

3：IBM模型概率，比值越小越需要过滤，从统计上衡量各个替换词对之间的强度。

4：

accuracy (W_{1}, W_{2}) = \frac{count (W_{1} &RightArrow; W_{2})}{cooc - count (W_{1} &RightArrow; W_{2})},

当原词与替换词对应出现在查询语句和用户点击标题词语中时，能够对齐的次数比例，比例越小，越需要过滤。

5、紧密度，紧密度越高，可替换的程度越低，越需要过滤。

6、概率语言模型(Probability Latent Semantic Analysis，PLSA)词向量，使用PLSA生成的n(例如200)维级别的词向量模型，计算原词与替换词之间的cosine值，cosine值越低，越需要过滤。

7、替换词列表的相似度，直接获取每个原词在IBM模型中所生成替换词列表中的前预设数值(例如100)个词语，加上原词自身，构成一个新的替换词列表，计算该列表的cosine值，cosine值越低，越需要过滤。

上述特征中，bi-cooc-count(W₁,W₂)＝|{parallel-sentence:W₁∈S₁,W₁∈S₂,W₂∈S₁,W₂∈S₂}|；

count(W₁->W₂)表示词W₁对齐到词W₂的次数；

count_global(W)＝count_stat_align(W)+count_rule_align(W)+count_self_align(W)；

count_stat_align (W) = \underset{W &NotEqual; W_{i}}{Σ} count (W - > W_{i}),

表示IBM模型统计到的W对齐到其他词(不包括自身)的次数；

cooc-count(W₁,W₂)＝|{parallel-sentence:W₁∈S₁&&W₂∈S₂}|,注意cooc-count(W₁,W₂)≠cooc-count(W₂,W₁)。

本实施例提供的替换词典生成方法通过先利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典，再通过对所述句对资源中经所述规则对齐后剩余的词语利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典，最后通过根据所述第一替换词典和第二替换词典对句对资源做最佳对齐、短语抽取及过滤处理后，生成线上可用的第三替换词典，进一步提高了替换词典的准确度和精度，且生成的替换词典便于后续优化。并且，采用上述实施例的技术方案生成的替换词典进行同义词替换后，搜索引引擎返回更多更准确的搜索结果。

实施例三

参见图5，本实施例提供的替换词典生成装置具体包括：获取模块11、规则对齐模块12、统计对齐模块13和生成模块14。

获取模块11用于获取句对资源；

规则对齐模块12用于利用语言先验知识对所述句对资源做规则对齐，生成第一替换词典；

统计对齐模块13用于对所述句对资源中的剩余语料，利用融合有语言先验知识的IBM模型做统计对齐，生成第二替换词典；其中，所述剩余语料为所述句对资源中经所述规则对齐模块进行规则对齐后剩余的词语；

生成模块14用于根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。

示例性的，所述装置还包括：

预处理模块15用于在所述规则对齐模块12利用语言先验知识对所述句对资源做规则对齐之前，对所述句对资源进行预处理。

示例性的，所述预处理模块15具体用于采用以下处理方法中的至少一种对所述句对资源进行预处理：纠错处理、分词处理、分词修正处理和数据归一化处理。

示例性的，所述规则对齐模块12具体用于采用以下对齐方法中的至少一种对所述句对资源做规则对齐：相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。

示例性的，所述统计对齐模块13包括：

概率确定子模块131，用于根据替换概率、反向概率、词向量和编辑距离中的至少一个特征，确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率；

生成子模块132具体用于根据所述后验概率的IBM模型生成所述第二替换词典。

示例性的，所述概率确定子模块131具体用于利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率：

P_{θ_{k - 1}} ({f_{i}}^{(n)} | e_{j}^{(n)}) = (w_{origin} p_{θ_{k - 1}} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{reverse} P_{θ_{k - 1}} ({e_{j}}^{(n)} | {f_{i}}^{(n)}) + w_{edit} P_{edit} ({f_{i}}^{(n)} | {e_{j}}^{(n)}) + w_{wordvec} P_{wordvec} ({f_{i}}^{(n)} | {e_{j}}^{(n)})) / Z

w_edit为所述剩余语料中的词语的词语之间编辑距离的权重；

w_wordvec为所述剩余语料中的词语利用词向量距离的权重；

示例性的，所述生成模块14包括：

最佳对齐子模块141用于根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐，得到对齐矩阵；

第一生成子模块142用于利用所述对齐矩阵生成所述第三替换词典。

示例性的，所述最佳对齐子模块141具体用于基于所述第一替换词典和所述第二替换词典，采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。

示例性的，所述第一生成子模块142包括：

短语抽取子模块1421用于对所述对齐矩阵进行短语抽取，得到短语替换对；

第二生成子模块1422用于利用所述短语替换对生成所述第三替换词典。

示例性的，所述短语抽取模块1421具体用于枚举所述对齐矩阵中所有可能的对齐短语对，判断所述所有可能的对齐短语对是否满足对齐一致性，将满足对齐一致性的对齐短语对作为所述短语替换对。

示例性的，所述第二生成子模块1422具体用于对所述短语替换对进行过滤处理后，生成所述第三替换词典。

示例性的，所述第二生成子模块1422具体用于基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。

本实施例所述的替换词典生成装置用于执行如图1和图3所示的替换词典生成方法的相关步骤，其技术原理和产生的技术效果类似，具体参见如图1和图3所示实施例的相关描述，这里不再累述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种替换词典生成方法，其特征在于，包括：

获取句对资源；

2.根据权利要求1所述的方法，其特征在于，所述利用语言先验知识对所述句对资源做规则对齐之前，还包括：

对所述句对资源进行预处理。

3.根据权利要求2所述的方法，其特征在于，所述预处理包括以下处理方法中的至少一种：

纠错处理、分词处理、分词修正处理和数据归一化处理。

4.根据权利要求1～3任一项所述的方法，其特征在于，所述规则对齐包括以下对齐方法中的至少一种：

5.根据权利要求1～3任一项所述的方法，其特征在于，所述对所述句对资源中的剩余语料，利用融合了语言先验知识的IBM模型做统计对齐，生成第二替换词典，包括：

根据所述后验概率的IBM模型生成所述第二替换词典。

6.根据权利要求5所述的方法，其特征在于，根据替换概率、反向概率、词向量和编辑距离中的至少一个特征，确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率，包括：

P_{θ_{k - 1}} (f_{i}^{(n)} | e_{j}^{(n)}) = (w_{origin} p_{θ_{k - 1}} (f_{i}^{(n)} | e_{j}^{(n)}) + w_{reverse} P_{θ_{k - 1}} (e_{j}^{(n)} | f_{i}^{(n)}) + w_{edit} P_{edit} (f_{i}^{(n)} | e_{j}^{(n)}) + w_{wordvec} P_{wordvec} (f_{i}^{(n)} | e_{j}^{(n)})) / Z

w_edit为所述剩余语料中的词语的词语之间编辑距离的权重；

w_wordvec为所述剩余语料中的词语利用词向量距离的权重；

为仅考虑编辑距离的情况下，第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率；

为仅考虑词向量的情况下，第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。

7.根据权利要求1～3任一项所述的方法，其特征在于，根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典，包括：

利用所述对齐矩阵生成所述第三替换词典。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐，包括：

9.根据权利要求7所述的方法，其特征在于，利用所述对齐矩阵生成所述第三替换词典，包括：

对所述对齐矩阵进行短语抽取，得到短语替换对；

利用所述短语替换对生成所述第三替换词典。

10.根据权利要求9所述的方法，其特征在于，对所述对齐矩阵进行短语抽取，得到短语替换对，包括：

枚举所述对齐矩阵中所有可能的对齐短语对；

判断所述所有可能的对齐短语对是否满足对齐一致性；

将满足对齐一致性的对齐短语对作为所述短语替换对。

11.根据权利要求9所述的方法，其特征在于，利用所述短语替换对生成所述第三替换词典，包括：

12.根据权利要求11所述的方法，其特征在于，所述对得到的所述短语替换对进行过滤处理，包括：

13.一种替换词典生成装置，其特征在于，包括：

获取模块，用于获取句对资源；

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

15.根据权利要求14所述的装置，其特征在于，所述预处理模块具体用于采用以下处理方法中的至少一种对所述句对资源进行预处理：

纠错处理、分词处理、分词修正处理和数据归一化处理。

16.根据权利要求13～15任一项所述的装置，其特征在于，所述规则对齐模块具体用于采用以下对齐方法中的至少一种对所述句对资源做规则对齐：

17.根据权利要求13～15任一项所述的装置，其特征在于，所述统计对齐模块包括：

18.根据权利要求17所述的装置，其特征在于，所述概率确定子模块具体用于：

P_{θ_{k - 1}} (f_{i}^{(n)} | e_{j}^{(n)}) = (w_{origin} p_{θ_{k - 1}} (f_{i}^{(n)} | e_{j}^{(n)}) + w_{reverse} P_{θ_{k - 1}} (e_{j}^{(n)} | f_{i}^{(n)}) + w_{edit} P_{edit} (f_{i}^{(n)} | e_{j}^{(n)}) + w_{wordvec} P_{wordvec} (f_{i}^{(n)} | e_{j}^{(n)})) / Z

w_edit为所述剩余语料中的词语的词语之间编辑距离的权重；

w_wordvec为所述剩余语料中的词语利用词向量距离的权重；

19.根据权利要求13～15任一项所述的装置，其特征在于，所述生成模块包括：

20.根据权利要求19所述的装置，其特征在于，所述最佳对齐子模块具体用于：

21.根据权利要求19所述的装置，其特征在于，所述第一生成子模块包括：

22.根据权利要求21所述的装置，其特征在于，所述短语抽取子模块具体用于：

枚举所述对齐矩阵中所有可能的对齐短语对；

判断所述所有可能的对齐短语对是否满足对齐一致性；

将满足对齐一致性的对齐短语对作为所述短语替换对。

23.根据权利要求21所述的装置，其特征在于，所述第二生成子模块具体用于：

24.根据权利要求23所述的装置，其特征在于，所述第二生成子模块具体用于：