CN104484377A - 替换词典生成方法及装置 - Google Patents

替换词典生成方法及装置 Download PDF

Info

Publication number
CN104484377A
CN104484377A CN201410746317.XA CN201410746317A CN104484377A CN 104484377 A CN104484377 A CN 104484377A CN 201410746317 A CN201410746317 A CN 201410746317A CN 104484377 A CN104484377 A CN 104484377A
Authority
CN
China
Prior art keywords
alignment
word
resource
replace
residue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410746317.XA
Other languages
English (en)
Other versions
CN104484377B (zh
Inventor
石磊
李朋凯
曾增烽
林英展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410746317.XA priority Critical patent/CN104484377B/zh
Publication of CN104484377A publication Critical patent/CN104484377A/zh
Application granted granted Critical
Publication of CN104484377B publication Critical patent/CN104484377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种替换词典生成方法及装置,其中方法包括:获取句对资源,利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语;根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,提高了替换词典的准确率和召回率。

Description

替换词典生成方法及装置
技术领域
本发明实施例涉及数据搜索技术,尤其涉及一种替换词典生成方法及装置。
背景技术
搜索引擎在对用户输入的语句进行检索时,为了能够返回更多的搜索结果,需要对语句中的关键词进行同义替换,然后利用替换后的同义词进行检索。在搜索引擎中,由改写模块根据替换词典负责对语句中的关键词进行同义替换。因此,替换词典的质量直接决定着检索的效果,提高替换词典的准确率和召回率直接会带来相关性收益。
目前,生成替换词典的常用方法是:对于句对资源,先利用IBM模型做统计对齐,生成一份替换词典,然后利用语言先验知识和IBM模型对替换词典做一次最佳对齐,生成线上可用的替换词典。
上述做法的最大缺点是:直接利用IBM模型生成替换词典,导致生成的替换词典准确率和召回率较低。
发明内容
本发明提供一种替换词典生成方法及装置,能够生成准确率和召回率较高的替换词典。
第一方面,本发明实施例提供了一种替换词典生成方法,包括:
获取句对资源;
利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;
对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语;
根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。
进一步的,所述利用语言先验知识对所述句对资源做规则对齐之前,还包括:
对所述句对资源进行预处理。
进一步的,所述预处理包括以下处理方法中的至少一种:
纠错处理、分词处理、分词修正处理和数据归一化处理。
进一步的,所述规则对齐包括以下对齐方法中的至少一种:
相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。
进一步的,所述对所述句对资源中的剩余语料,利用融合了语言先验知识的IBM模型做统计对齐,生成第二替换词典,包括:
根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率;
根据所述后验概率的IBM模型生成所述第二替换词典。
进一步的,所述根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率,包括:
利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
P θ k - 1 ( f i ( n ) | e j ( n ) ) = ( w origin p θ k - 1 ( f i ( n ) | e j ( n ) ) + w reverse P θ k - 1 ( e j ( n ) | f i ( n ) ) + w edit P edit ( f i ( n ) | e j ( n ) ) + w wordvec P wordvec ( f i ( n ) | e j ( n ) ) ) / Z
其中,e表示用户输入的查询问题,f为与所述查询问题对应的用户点击标题部分词语;
worigin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重;
wreverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重;
wedit为所述剩余语料中的词语的词语之间编辑距离的权重;
wwordvec为所述剩余语料中的词语利用词向量距离的权重;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率;
Pedit(fi (n)|ej (n))为仅考虑编辑距离的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
Pwordvec(fi (n)|ej (n))为仅考虑词向量的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。
进一步的,根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,包括:
根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,得到对齐矩阵;
利用所述对齐矩阵生成所述第三替换词典。
进一步的,所述根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,包括:
基于所述第一替换词典和所述第二替换词典,采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。
进一步的,利用所述对齐矩阵生成所述第三替换词典包括:
对所述对所述对齐矩阵进行短语抽取,得到短语替换对;
利用所述短语替换对生成所述第三替换词典。
进一步的,对所述对齐矩阵进行短语抽取,得到短语替换对,包括:
枚举所述对齐矩阵中所有可能的对齐短语对;
判断所述所有可能的对齐短语对是否满足对齐一致性;
将满足对齐一致性的对齐短语对作为所述短语替换对。
进一步的,利用所述短语替换对生成所述第三替换词典,包括:
对所述短语替换对进行过滤处理后,生成所述第三替换词典。
进一步的,对所述短语替换对进行过滤处理,包括:
基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。
第二方面,本发明实施例还提供了一种替换词典生成装置,包括:
获取模块,用于获取句对资源;
规则对齐模块,用于利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;
统计对齐模块,用于对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典;其中,所述剩余语料为所述句对资源中经所述规则对齐模块进行规则对齐后剩余的词语;
生成模块,用于根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。
进一步的,所述装置还包括:
预处理模块,用于在所述规则对齐模块利用语言先验知识对所述句对资源做规则对齐之前,对所述句对资源进行预处理。
进一步的,所述预处理模块,具体用于采用以下处理方法中的至少一种对所述句对资源进行预处理:
纠错处理、分词处理、分词修正处理和数据归一化处理。
进一步的,所述规则对齐模块,具体用于采用以下对齐方法中的至少一种对所述句对资源做规则对齐:
相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。
进一步的,所述统计对齐模块,包括:
概率确定子模块,用于根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率;
生成子模块,用于根据所述后验概率的IBM模型生成所述第二替换词典。
进一步的,所述概率确定子模块具体用于:
利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
P θ k - 1 ( f i ( n ) | e j ( n ) ) = ( w origin p θ k - 1 ( f i ( n ) | e j ( n ) ) + w reverse P θ k - 1 ( e j ( n ) | f i ( n ) ) + w edit P edit ( f i ( n ) | e j ( n ) ) + w wordvec P wordvec ( f i ( n ) | e j ( n ) ) ) / Z
其中,e表示用户输入的查询问题,f为与所述查询问题对应的用户点击标题部分词语;
worigin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重;
wreverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重;
wedit为所述剩余语料中的词语的词语之间编辑距离的权重;
wwordvec为所述剩余语料中的词语利用词向量距离的权重;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率;
Pedit(fi (n)|ej (n))为仅考虑编辑距离的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
Pwordvec(fi (n)|ej (n))为仅考虑词向量的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。
进一步的,所述生成模块包括:
最佳对齐子模块,用于根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,得到对齐矩阵;
第一生成子模块,用于利用所述对齐矩阵生成所述第三替换词典。
进一步的,所述最佳对齐子模块具体用于:
基于所述第一替换词典和所述第二替换词典,采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。
进一步的,所述第一生成子模块包括:
短语抽取子模块,用于对所述对齐矩阵进行短语抽取,得到短语替换对;
第二生成子模块,用于利用所述短语替换对生成所述第三替换词典。
进一步的,所述短语抽取子模块具体用于:
枚举所述对齐矩阵中所有可能的对齐短语对;
判断所述所有可能的对齐短语对是否满足对齐一致性;
将满足对齐一致性的对齐短语对作为所述短语替换对。
进一步的,所述第二生成子模块具体用于:
对所述短语替换对进行过滤处理后,生成所述第三替换词典。
进一步的,所述第二生成子模块具体用于:
基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。
本发明实施例提供的替换词典生成方法及装置,通过先利用语言先验知识对句对资源做规则对齐,生成第一替换词典,再通过对所述句对资源中的剩余词语利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,最后根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,提高了替换词典的准确率和召回率。
附图说明
图1为本发明实施例一提供的替换词典生成方法流程示意图;
图2为本发明实施例提供的替换词典生成方法中对句对资源做规则对齐的对齐结果示意图;
图3为本发明实施例二提供的替换词典生成方法流程示意图;
图4a为本发明实施例提供的替换词典生成方法中满足对齐一致性的对齐短语对的判断结果示意图;
图4b为本发明实施例提供的替换词典生成方法中不满足对齐一致性的对齐短语对的判断结果示意图;
图4c为本发明实施例提供的替换词典生成方法中满足对齐一致性的对齐短语对的判断结果示意图;
图5为本发明实施例三提供的替换词典生成装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
参见图1,本实施例提供的替换词典生成方法具体包括:操作101~操作104。
操作101中,获取句对资源。
具体的,所述句对资源由用户输入的查询问题语句和与所述查询问题对应的用户点击标题(title)部分(这里为加粗字体)词语组成。这些句对资源可以在网络上获取。例如,采用百度搜索工具,用户输入teen movie,百度展现了以下结果:
Top 10teenage moviesfor girls of all time 2014–Squidoo
www.Squidoo.com>…>Movies>Blockbuster Movies翻译此页
These are my favorite high school movies.It’s probably a bit juvenile of me.but I always lovea good teenagemovie.And since I’m a girl.Iguess……
Ranking the 10Best Teen Films of 2013Thus Far|BlackBook
www.bbook.com/ranking-the-10-best-teen-films-of-2013-thus-…翻译此页
So with that in mind.We decided to take a look back at some of the other teen filmsfrom the year.From Olivier Assayas’melancholic and delightful something in……
那么,用户输入的查询问题与这些被标记用户点击标题(这里为加粗字体)数词语就组成了如下句对资源:
操作102中,利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典。
具体的,在获取句对资源之后,利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典。
示例性的,采用的规则对齐方法可以为以下对齐方法中的至少一种:相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。
例如,对于以下句对资源:
查询语句:abaixar videos happy a lot of cliper da music sertanejo
用户点击标题词语:Video clip sertanejo download musíc merry lots of依次采用相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记进行处理,得到如图2所示的第一替换词典,即videos-Video、happy-merry、a lot of-lots of、cliper-clip、music-musíc、sertanejo-sertanejo。
具体的,用户查询语句里的词语集合用e表示,用户点击标题词语的集合用hl表示。采用相同词对齐,如果词语W1∈e,词语W2∈hl,并且W1==W2,则这两个词语直接对齐,例如,图2中的词语sertanejo-sertanejo。采用同义词对齐,如果词语W1∈e,词语W2∈hl,并且W1和W2在人工标注的同义词典中,则这两个词语直接对齐,例如,图2中的词语happy-merry。采用归一化对齐,如果词语W1∈e,词语W2∈hl,W1归一化为W2归一化为如果则这两个词语直接对齐。对于阿拉伯语、葡萄牙语、泰语等语言中都携带声调字母,这些声调一般不会造成转义。例如葡语estimá,会被归一化到estima、图2中的music-musíc。采用Stemming对齐,如果词语W1∈e,W1的词根为S1,词语W2∈hl,W2的词根为S2,且S1==S2,则这两个词语直接对齐,例如图2中的videos-video和cliper-clipe。采用转音词对齐,如果词语W1∈e,W2∈hl,并且这两个词语意义和用法均相同,则这两个词语直接对齐,例如图2中的a lot of-lots of。采用停用词标记,停用词不参与后续对齐,由于停用词出现次数较多,且没有实际意思,去掉停用词可增加统计对齐的准确率。例如图2中的da。
示例性的,所述利用语言先验知识对所述句对资源做规则对齐之前,还包括:
对所述句对资源进行预处理。
示例性的,所述预处理包括以下处理方法中的至少一种:
纠错处理、分词处理、分词修正处理和数据归一化处理。
操作103中,对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语。
具体的,在利用语言先验知识对所述句对资源做规则对齐之后,对所述句对资源中的剩余语料利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典。例如,图2中的剩余语料为abaixar,利用融合有语言先验知识的IBM模型对abaixar做统计对齐,得到abaixar的替换词语,由abaixar和与其对应的替换词语组成的词典,即为第二替换词典。
示例性的,所述对所述句对资源中的剩余语料,利用融合了语言先验知识的IBM模型做统计对齐,生成第二替换词典,包括:
根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率;
根据所述后验概率的IBM模型生成所述第二替换词典。
示例性的,所述根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率,包括:
利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
P θ k - 1 ( f i ( n ) | e j ( n ) ) = ( w origin p θ k - 1 ( f i ( n ) | e j ( n ) ) + w reverse P θ k - 1 ( e j ( n ) | f i ( n ) ) + w edit P edit ( f i ( n ) | e j ( n ) ) + w wordvec P wordvec ( f i ( n ) | e j ( n ) ) ) / Z
其中,e表示用户输入的查询问题,f为与所述查询问题对应的用户点击标题部分词语;
worigin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重;
wreverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重;
wedit为所述剩余语料中的词语的词语之间编辑距离的权重;
wwordvec为所述剩余语料中的词语利用词向量距离的权重;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率;
Pedit(fi (n)|ej (n))为仅考虑编辑距离的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
Pwordvec(fi (n)|ej (n))为仅考虑词向量的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。
操作104中,根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。
具体的,根据操作102生成第一替换词典,例如如图2所示,videos-Video、happy-merry、a lot of-lots of、cliper-clip、music-musíc、sertanejo-sertanejo,根据操作103生成第二替换词典,例如,abaixar和与其对应的替换词语组成的词典,最后根据第一替换词典和第二替换词典生成线上可用的第三替换词典,这里可以将第一替换词典和第二替换词典进行简单组合,生成第三替换词典,例如生成的第三替换词典为videos-Video、happy-merry、a lot of-lots of、cliper-clip、music-musíc、sertanejo-sertanejo,abaixar和与其对应的替换词语。
示例性的,所述根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,包括:
根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,得到对齐矩阵;
利用所述对齐矩阵生成所述第三替换词典。
示例性的,所述根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,包括:
基于所述第一替换词典和所述第二替换词典,采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。
示例性的,利用所述对齐矩阵生成所述第三替换词典,包括:
对所述对齐矩阵进行短语抽取,得到短语替换对;
利用所述短语替换对生成所述第三替换词典。
示例性的,对所述对齐矩阵进行短语抽取,得到短语替换对,包括:
枚举所述对齐矩阵中所有可能的对齐短语对;
判断所述所有可能的对齐短语对是否满足对齐一致性;
将满足对齐一致性的对齐短语对作为所述短语替换对。
示例性的,利用所述短语替换对生成所述第三替换词典,包括:
对所述短语替换对进行过滤处理后,生成所述第三替换词典。
示例性的,对所述短语替换对进行过滤处理,包括:
基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。
本发明实施例通过先利用语言先验知识对句对资源做规则对齐,生成第一替换词典,再通过对所述句对资源中经所述规则对齐后剩余的词语利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,最后根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,有效地提高了替换词典的准确率和召回率,且生成的替换词典便于后续优化。并且,采用上述实施例的技术方案生成的替换词典进行同义词替换后,搜索引擎返回更多的搜索结果。
实施例二
基于上述实施例,本实施例提供了另一种替换词典生成方法。
参见图3,本实施例提供的替换词典生成方法具体包括:操作201~操作208。
操作201中,获取句对资源,详见上述实施例一中的说明,这里不再赘述。
操作202中,对所述句对资源进行预处理。
本操作对句对资源进行纠错处理、分词处理、词性标注、专名识别、分词修正处理和数据归一化处理。通过上述预处理可以过滤掉句对资源中较多错误的数据,避免部分分词错误引起的对齐错误。例如,在分词处理之前首先对句对资源进行纠错处理,然后采用基本词粒度作为分词粒度,对纠错后的句对资源进行分词处理。最后进行分词修正处理和数据归一化处理。
例如,对于用户输入错误或者未登录词,很容易被切成多个词,导致查询语句和用户点击标题词语中切分不一致。具体地,如查询语句中的词语hani可能被切成ha||ni,而用户点击标题词语中的词语hany却不会被切散。或者,分词错误造成的句对两端分词结果不一致,例如查询语句中的词语fontamarhotel,用户点击标题词语中的fontamar hotel,查询语句和用户点击标题词语中的分词结果分别为fonta||mar||hotel和font||amar||hotel。针对上述两种情况下,查询语句和用户点击标题词语切分不一致带来的错误和风险,通过分词修正处理可以很好的解决。具体的,如果利用编辑距离将切散的词合回来,对于上述的hany,ha和ni合在一起与hany的编辑距离更小,可以将ha和ni用新词hani代替。例如可以采用局部贪心的搜索方法,固定查询语句中的词语W,如果发现用户点击标题词语中连续的两个词W1,W2合为词与W编辑距离更小,再次判断与W3合为新的是否与W的编辑距离变得更小,依次类推,直到编辑距离不再减小时,如果满足<预设阈值(例如0.3),则最终判定由w作为新词取代原来的分词结果。通过上述处理可以将用户点击标题词语中的切散词语合并回来,采取类似的处理方式也可以将查询语句中的被切散词合并回来。
对于阿拉伯语,由于阿拉伯语中存在与表达意思无关的延长符号“-”,需要对其进行数据归一化处理,将单词中的延长符去掉。
操作203中,利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典,具体详见上述实施例一中的说明,这里不再赘述。
操作204中,对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语。
本操作根据替换概率、反向概率、词向量和编辑距离确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率,然后根据所述后验概率的IBM模型生成所述第二替换词典。例如,利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
P &theta; k - 1 ( f i ( n ) | e j ( n ) ) = ( w origin p &theta; k - 1 ( f i ( n ) | e j ( n ) ) + w reverse P &theta; k - 1 ( e j ( n ) | f i ( n ) ) + w edit P edit ( f i ( n ) | e j ( n ) ) + w wordvec P wordvec ( f i ( n ) | e j ( n ) ) ) / Z
其中,e表示用户输入的查询问题,f为与所述查询问题对应的用户点击标题部分词语;
worigin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重;
wreverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重;
wedit为所述剩余语料中的词语的词语之间编辑距离的权重;
wwordvec为所述剩余语料中的词语利用词向量距离的权重;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率;
Pedit(fi (n)|ej (n))为仅考虑编辑距离的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
Pwordvec(fi (n)|ej (n))为仅考虑词向量的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。
操作205中,根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,得到对齐矩阵。
具体的,基于所述第一替换词典和所述第二替换词典,采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。
操作206中,对对齐矩阵进行短语抽取,得到短语替换对。
具体的,在对所述句对资源做最佳对齐后,获取对齐矩阵,在对齐矩阵上进行短语抽取。例如,枚举所述对齐矩阵中所有可能的对齐短语对,判断所述所有可能的对齐短语对是否满足对齐一致性,将满足对齐一致性的对齐短语对作为所述短语替换对。其中,满足对齐一致性的对齐短语对的判断如图4a、4b及4c所示,横、纵格子分别代表一对句对资源上的词语,灰色矩形框代表对齐短语对,黑色方框表示词语的对齐信息。当且仅当同一个黑色方框没有跨越灰、白区域时,对齐短语对具有对齐一致性。通过句对资源上的词语的正向对齐和反向对齐,可以获得一对多、多对一和多对多的短语替换对,减少了IBM模型短语对齐的同义挖掘的错误,有效地控制了单纯词替换带来的转义风险。
操作207中,对得到的所述短语替换对进行过滤处理,生成线上可用的第三替换词典。
具体的,通过上述操作之后,得到了短语替换对。为了保持替换词典的高精度,需要对短语替换对通过过滤策略进行提纯。例如,采用基于多种不同特征的决策树模型对得到的所述短语替换对进行过滤处理。这里,主要使用的特征如下:
1、共现比,比值越大越需要过滤掉,主要用来识别经常一起出现却很少能够对齐的词对。2、全局概率,比值越小越需要过滤,主要用来识别热门词对齐到自身的情况,降低其对齐到其他词的概率。
3:IBM模型概率,比值越小越需要过滤,从统计上衡量各个替换词对之间的强度。
4: accuracy ( W 1 , W 2 ) = count ( W 1 &RightArrow; W 2 ) cooc - count ( W 1 &RightArrow; W 2 ) , 当原词与替换词对应出现在查询语句和用户点击标题词语中时,能够对齐的次数比例,比例越小,越需要过滤。
5、紧密度,紧密度越高,可替换的程度越低,越需要过滤。
6、概率语言模型(Probability Latent Semantic Analysis,PLSA)词向量,使用PLSA生成的n(例如200)维级别的词向量模型,计算原词与替换词之间的cosine值,cosine值越低,越需要过滤。
7、替换词列表的相似度,直接获取每个原词在IBM模型中所生成替换词列表中的前预设数值(例如100)个词语,加上原词自身,构成一个新的替换词列表,计算该列表的cosine值,cosine值越低,越需要过滤。
上述特征中,bi-cooc-count(W1,W2)=|{parallel-sentence:W1∈S1,W1∈S2,W2∈S1,W2∈S2}|;
count(W1->W2)表示词W1对齐到词W2的次数;
count_global(W)=count_stat_align(W)+count_rule_align(W)+count_self_align(W);
count _ stat _ align ( W ) = &Sigma; W &NotEqual; W i count ( W - > W i ) , 表示IBM模型统计到的W对齐到其他词(不包括自身)的次数;
cooc-count(W1,W2)=|{parallel-sentence:W1∈S1&&W2∈S2}|,注意cooc-count(W1,W2)≠cooc-count(W2,W1)。
本实施例提供的替换词典生成方法通过先利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典,再通过对所述句对资源中经所述规则对齐后剩余的词语利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,最后通过根据所述第一替换词典和第二替换词典对句对资源做最佳对齐、短语抽取及过滤处理后,生成线上可用的第三替换词典,进一步提高了替换词典的准确度和精度,且生成的替换词典便于后续优化。并且,采用上述实施例的技术方案生成的替换词典进行同义词替换后,搜索引引擎返回更多更准确的搜索结果。
实施例三
参见图5,本实施例提供的替换词典生成装置具体包括:获取模块11、规则对齐模块12、统计对齐模块13和生成模块14。
获取模块11用于获取句对资源;
规则对齐模块12用于利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;
统计对齐模块13用于对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典;其中,所述剩余语料为所述句对资源中经所述规则对齐模块进行规则对齐后剩余的词语;
生成模块14用于根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。
示例性的,所述装置还包括:
预处理模块15用于在所述规则对齐模块12利用语言先验知识对所述句对资源做规则对齐之前,对所述句对资源进行预处理。
示例性的,所述预处理模块15具体用于采用以下处理方法中的至少一种对所述句对资源进行预处理:纠错处理、分词处理、分词修正处理和数据归一化处理。
示例性的,所述规则对齐模块12具体用于采用以下对齐方法中的至少一种对所述句对资源做规则对齐:相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。
示例性的,所述统计对齐模块13包括:
概率确定子模块131,用于根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率;
生成子模块132具体用于根据所述后验概率的IBM模型生成所述第二替换词典。
示例性的,所述概率确定子模块131具体用于利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
P &theta; k - 1 ( f i ( n ) | e j ( n ) ) = ( w origin p &theta; k - 1 ( f i ( n ) | e j ( n ) ) + w reverse P &theta; k - 1 ( e j ( n ) | f i ( n ) ) + w edit P edit ( f i ( n ) | e j ( n ) ) + w wordvec P wordvec ( f i ( n ) | e j ( n ) ) ) / Z
其中,e表示用户输入的查询问题,f为与所述查询问题对应的用户点击标题部分词语;
worigin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重;
wreverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重;
wedit为所述剩余语料中的词语的词语之间编辑距离的权重;
wwordvec为所述剩余语料中的词语利用词向量距离的权重;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率;
Pedit(fi (n)|ej (n))为仅考虑编辑距离的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
Pwordvec(fi (n)|ej (n))为仅考虑词向量的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。
示例性的,所述生成模块14包括:
最佳对齐子模块141用于根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,得到对齐矩阵;
第一生成子模块142用于利用所述对齐矩阵生成所述第三替换词典。
示例性的,所述最佳对齐子模块141具体用于基于所述第一替换词典和所述第二替换词典,采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。
示例性的,所述第一生成子模块142包括:
短语抽取子模块1421用于对所述对齐矩阵进行短语抽取,得到短语替换对;
第二生成子模块1422用于利用所述短语替换对生成所述第三替换词典。
示例性的,所述短语抽取模块1421具体用于枚举所述对齐矩阵中所有可能的对齐短语对,判断所述所有可能的对齐短语对是否满足对齐一致性,将满足对齐一致性的对齐短语对作为所述短语替换对。
示例性的,所述第二生成子模块1422具体用于对所述短语替换对进行过滤处理后,生成所述第三替换词典。
示例性的,所述第二生成子模块1422具体用于基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。
本实施例所述的替换词典生成装置用于执行如图1和图3所示的替换词典生成方法的相关步骤,其技术原理和产生的技术效果类似,具体参见如图1和图3所示实施例的相关描述,这里不再累述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (24)

1.一种替换词典生成方法,其特征在于,包括:
获取句对资源;
利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;
对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语;
根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。
2.根据权利要求1所述的方法,其特征在于,所述利用语言先验知识对所述句对资源做规则对齐之前,还包括:
对所述句对资源进行预处理。
3.根据权利要求2所述的方法,其特征在于,所述预处理包括以下处理方法中的至少一种:
纠错处理、分词处理、分词修正处理和数据归一化处理。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述规则对齐包括以下对齐方法中的至少一种:
相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述对所述句对资源中的剩余语料,利用融合了语言先验知识的IBM模型做统计对齐,生成第二替换词典,包括:
根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率;
根据所述后验概率的IBM模型生成所述第二替换词典。
6.根据权利要求5所述的方法,其特征在于,根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率,包括:
利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
P &theta; k - 1 ( f i ( n ) | e j ( n ) ) = ( w origin p &theta; k - 1 ( f i ( n ) | e j ( n ) ) + w reverse P &theta; k - 1 ( e j ( n ) | f i ( n ) ) + w edit P edit ( f i ( n ) | e j ( n ) ) + w wordvec P wordvec ( f i ( n ) | e j ( n ) ) ) / Z
其中,e表示用户输入的查询问题,f为与所述查询问题对应的用户点击标题部分词语;
worigin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重;
wreverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重;
wedit为所述剩余语料中的词语的词语之间编辑距离的权重;
wwordvec为所述剩余语料中的词语利用词向量距离的权重;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率;
为仅考虑编辑距离的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为仅考虑词向量的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。
7.根据权利要求1~3任一项所述的方法,其特征在于,根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典,包括:
根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,得到对齐矩阵;
利用所述对齐矩阵生成所述第三替换词典。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,包括:
基于所述第一替换词典和所述第二替换词典,采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。
9.根据权利要求7所述的方法,其特征在于,利用所述对齐矩阵生成所述第三替换词典,包括:
对所述对齐矩阵进行短语抽取,得到短语替换对;
利用所述短语替换对生成所述第三替换词典。
10.根据权利要求9所述的方法,其特征在于,对所述对齐矩阵进行短语抽取,得到短语替换对,包括:
枚举所述对齐矩阵中所有可能的对齐短语对;
判断所述所有可能的对齐短语对是否满足对齐一致性;
将满足对齐一致性的对齐短语对作为所述短语替换对。
11.根据权利要求9所述的方法,其特征在于,利用所述短语替换对生成所述第三替换词典,包括:
对所述短语替换对进行过滤处理后,生成所述第三替换词典。
12.根据权利要求11所述的方法,其特征在于,所述对得到的所述短语替换对进行过滤处理,包括:
基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。
13.一种替换词典生成装置,其特征在于,包括:
获取模块,用于获取句对资源;
规则对齐模块,用于利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;
统计对齐模块,用于对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典;其中,所述剩余语料为所述句对资源中经所述规则对齐模块进行规则对齐后剩余的词语;
生成模块,用于根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
预处理模块,用于在所述规则对齐模块利用语言先验知识对所述句对资源做规则对齐之前,对所述句对资源进行预处理。
15.根据权利要求14所述的装置,其特征在于,所述预处理模块具体用于采用以下处理方法中的至少一种对所述句对资源进行预处理:
纠错处理、分词处理、分词修正处理和数据归一化处理。
16.根据权利要求13~15任一项所述的装置,其特征在于,所述规则对齐模块具体用于采用以下对齐方法中的至少一种对所述句对资源做规则对齐:
相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。
17.根据权利要求13~15任一项所述的装置,其特征在于,所述统计对齐模块包括:
概率确定子模块,用于根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率;
生成子模块,用于根据所述后验概率的IBM模型生成所述第二替换词典。
18.根据权利要求17所述的装置,其特征在于,所述概率确定子模块具体用于:
利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
P &theta; k - 1 ( f i ( n ) | e j ( n ) ) = ( w origin p &theta; k - 1 ( f i ( n ) | e j ( n ) ) + w reverse P &theta; k - 1 ( e j ( n ) | f i ( n ) ) + w edit P edit ( f i ( n ) | e j ( n ) ) + w wordvec P wordvec ( f i ( n ) | e j ( n ) ) ) / Z
其中,e表示用户输入的查询问题,f为与所述查询问题对应的用户点击标题部分词语;
worigin为IBM模型上一轮迭代生成的所述剩余语料中的词语的替换概率的权重;
wreverse为IBM模型上一轮迭代生成的所述剩余语料中的词语的反向替换概率的权重;
wedit为所述剩余语料中的词语的词语之间编辑距离的权重;
wwordvec为所述剩余语料中的词语利用词向量距离的权重;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为第k-1轮迭代得到的第n个句对资源对应的剩余语料中用户点击标题部分词语的第i个词语替换查询问题的第j个词语的概率;
为仅考虑编辑距离的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率;
为仅考虑词向量的情况下,第n个句对资源对应的剩余语料中查询问题的第j个词语替换用户点击标题部分词语的第i个词语的概率。
19.根据权利要求13~15任一项所述的装置,其特征在于,所述生成模块包括:
最佳对齐子模块,用于根据所述第一替换词典和所述第二替换词典对所述句对资源做最佳对齐,得到对齐矩阵;
第一生成子模块,用于利用所述对齐矩阵生成所述第三替换词典。
20.根据权利要求19所述的装置,其特征在于,所述最佳对齐子模块具体用于:
基于所述第一替换词典和所述第二替换词典,采用二分图最优匹配算法或viterbi算法对所述句对资源做最佳对齐。
21.根据权利要求19所述的装置,其特征在于,所述第一生成子模块包括:
短语抽取子模块,用于对所述对齐矩阵进行短语抽取,得到短语替换对;
第二生成子模块,用于利用所述短语替换对生成所述第三替换词典。
22.根据权利要求21所述的装置,其特征在于,所述短语抽取子模块具体用于:
枚举所述对齐矩阵中所有可能的对齐短语对;
判断所述所有可能的对齐短语对是否满足对齐一致性;
将满足对齐一致性的对齐短语对作为所述短语替换对。
23.根据权利要求21所述的装置,其特征在于,所述第二生成子模块具体用于:
对所述短语替换对进行过滤处理后,生成所述第三替换词典。
24.根据权利要求23所述的装置,其特征在于,所述第二生成子模块具体用于:
基于多种不同特征的决策树模型对所述短语替换对进行过滤处理。
CN201410746317.XA 2014-12-09 2014-12-09 替换词典生成方法及装置 Active CN104484377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410746317.XA CN104484377B (zh) 2014-12-09 2014-12-09 替换词典生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410746317.XA CN104484377B (zh) 2014-12-09 2014-12-09 替换词典生成方法及装置

Publications (2)

Publication Number Publication Date
CN104484377A true CN104484377A (zh) 2015-04-01
CN104484377B CN104484377B (zh) 2017-11-03

Family

ID=52758918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410746317.XA Active CN104484377B (zh) 2014-12-09 2014-12-09 替换词典生成方法及装置

Country Status (1)

Country Link
CN (1) CN104484377B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN106383872A (zh) * 2016-09-06 2017-02-08 北京百度网讯科技有限公司 基于人工智能的信息处理方法及装置
CN106610930A (zh) * 2015-10-22 2017-05-03 科大讯飞股份有限公司 外语写作自动纠错方法及系统
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN109815396A (zh) * 2019-01-16 2019-05-28 北京搜狗科技发展有限公司 搜索词权重确定方法及装置
CN110287493A (zh) * 2019-06-28 2019-09-27 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN111222336A (zh) * 2019-12-25 2020-06-02 北京明略软件系统有限公司 一种识别未知实体的方法及装置
CN112199965A (zh) * 2020-08-28 2021-01-08 北京中科凡语科技有限公司 机器翻译结果的词对齐方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004863A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
CN101989261A (zh) * 2009-08-01 2011-03-23 中国科学院计算技术研究所 统计机器翻译短语抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004863A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
CN101989261A (zh) * 2009-08-01 2011-03-23 中国科学院计算技术研究所 统计机器翻译短语抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONGGANG DENG ET AL: "Guiding Statistical Word Alignment Models With Prior Knowledge", 《45TH ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS》 *
吕政华: "基于特征融合的单语词对齐方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610930B (zh) * 2015-10-22 2019-09-03 科大讯飞股份有限公司 外语写作自动纠错方法及系统
CN106610930A (zh) * 2015-10-22 2017-05-03 科大讯飞股份有限公司 外语写作自动纠错方法及系统
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN105701089A (zh) * 2015-12-31 2016-06-22 成都数联铭品科技有限公司 一种机器翻译错词修正的后编辑处理方法
CN106383872A (zh) * 2016-09-06 2017-02-08 北京百度网讯科技有限公司 基于人工智能的信息处理方法及装置
CN107451212A (zh) * 2017-07-14 2017-12-08 北京京东尚科信息技术有限公司 基于相关搜索的同义挖掘方法和装置
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN109815396A (zh) * 2019-01-16 2019-05-28 北京搜狗科技发展有限公司 搜索词权重确定方法及装置
CN109815396B (zh) * 2019-01-16 2021-09-21 北京搜狗科技发展有限公司 搜索词权重确定方法及装置
CN110287493A (zh) * 2019-06-28 2019-09-27 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110287493B (zh) * 2019-06-28 2023-04-18 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN111222336A (zh) * 2019-12-25 2020-06-02 北京明略软件系统有限公司 一种识别未知实体的方法及装置
CN111222336B (zh) * 2019-12-25 2023-11-07 北京明略软件系统有限公司 一种识别未知实体的方法及装置
CN112199965A (zh) * 2020-08-28 2021-01-08 北京中科凡语科技有限公司 机器翻译结果的词对齐方法、装置、电子设备及存储介质
CN112199965B (zh) * 2020-08-28 2021-08-17 北京中科凡语科技有限公司 机器翻译结果的词对齐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104484377B (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
CN104484377B (zh) 替换词典生成方法及装置
CN108509425B (zh) 一种基于新颖度的中文新词发现方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN105512245A (zh) 一种基于回归模型建立企业画像的方法
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
Liu et al. A user-centered concept mining system for query and document understanding at tencent
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110059163B (zh) 生成模板的方法和装置、电子设备、计算机可读介质
CN104199875A (zh) 一种搜索推荐方法及装置
CN104008106A (zh) 一种获取热点话题的方法及装置
CN103838798A (zh) 页面分类系统及页面分类方法
CN103593431A (zh) 网络舆情分析方法和装置
CN109062904A (zh) 逻辑谓词提取方法和装置
Gibbs Grounded theory, coding and computer-assisted analysis
Tang et al. Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching
Kmail et al. MatchingSem: online recruitment system based on multiple semantic resources
Wijeratne et al. Sinhala language corpora and stopwords from a decade of sri lankan facebook
CN106021413B (zh) 基于主题模型的自展式特征选择方法及系统
WO2023083176A1 (zh) 样本处理方法、设备及计算机可读存储介质
CN112257442A (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
El-Barbary Arabic news classification using field association words
CN103646017A (zh) 用于命名的缩略词生成系统及其工作方法
Bartička et al. Evaluating attribution methods for explainable nlp with transformers
Horák et al. Slovak national corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant