CN101763402B

CN101763402B - 多语言信息检索一体化检索方法

Info

Publication number: CN101763402B
Application number: CN2009102174628A
Authority: CN
Inventors: 郑德权; 朱红垒; 赵铁军
Original assignee: Harbin Institute of Technology
Current assignee: Harbin University of technology high tech Development Corporation
Priority date: 2009-12-30
Filing date: 2009-12-30
Publication date: 2012-07-04
Anticipated expiration: 2029-12-30
Also published as: CN101763402A

Abstract

多语言信息检索一体化检索方法，涉及多语言信息检索方法，解决了现有分离模式的多语言信息检索造成的源语言信息流失、带来大量噪声和检索结果准确性低地问题，具体步骤如下：一、将用户输入的源语言查询关键词翻译成目标语言的关键词；二、目标语言的关键词根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式：精确匹配模式、共现模式和独立模式；三、求得在查询文档D中精确匹配模式的条件概率，共现模式的条件概率，独立模式的条件概率；四、计算在查询文档D中的文档生成查询概率；五、计算源语言查询关键词和查询文档特征向量的相似性；六、计算多语言信息检索的条件概率；七、返回检索结果。本发明适用于跨语言信息检索。

Description

多语言信息检索一体化检索方法

技术领域

本发明涉及信息技术领域，具体涉及多语言信息检索方法。

背景技术

伴随着Intemet中各类信息不断爆炸性增长的同时，互联网中书写信息所使用的语言呈现日益的国际化，人们对信息检索提出了更高的要求，即不再满足于在同一语种文档集中检索，而要求在检索结果中包含多语种信息。用户所面对的查询一个多语种文档集的情形变得越来越普遍，为了获得更多、更全面、更准确的信息，同时为了跨越语言障碍，人们希望能够以自己最熟悉的一种语言(如：汉语、英语)描述用户查询，而同时将其它语言(如：英语、汉语)书写的文档集在检索结果中呈现出来，即进行两两语种之间的跨语言信息检索(Cross-Language Information Retrieval，CLIR)，从而实现多语种信息检索(Multi-Lingual Information Retrieval，MLIR)。在当今信息社会中，多语种之间的信息检索已经越来越成为世界范围内一个极需解决的关键问题，这也是Intemet的全球信息基本结构造成了针对多语种信息检索系统的迫切需要，从而使得国内外越来越多的研究团体深入研究多语种信息检索问题，并探索实现多语言信息检索的不同方法、技术路线等。目前，多语言信息检索研究的任务主要可分为以下两个步骤：(1)将用户输入的查询需求描述成目标语言的表示形式，即机器翻译阶段；(2)在多语言文档集中进行信息检索。整个过程可以简述为：首先使用翻译工具(翻译方法)将源语言的用户查询条件转化为目标语言的形式，然后用正确的目标语译词组成查询条件，最后再直接使用单语检索工具获得最终结果。可以看出，查询翻译和单语检索事实上是两个相互独立的过程，之间没有任何联系。这种分离模式的工作前提是认为多语言信息检索和单语检索唯一的区别是查询条件的表现形式不同，因此在将源语查询转化为目标语后就和单语检索没有任何区别了。这种假设显然过于简单，多语言检索之所以能单独作为一个研究方向，必然存在它的独特性。这种独特性主要体现在从源语言查询过渡到目标语言查询后由于两种(多种)语言的表现形式不同，必然会发生信息流失。例如，“安理会”的英文翻译为“Security Council”，在中文里它是一个独立的词，在英文里却是两个独立词的组合，并且只有这两个词相邻时才具有源语的语义。因此，即使一篇文档中包含“Security”和“Council”这两个词，但是这两个词相距却较远，则不能说明这篇文档一定和“安理会”相关。再例如，“银行”的英文翻译为“bank”，但是“bank”一词本身具有歧义，它在文档中的出现并不能代表就是“银行”的出现。通过这两个例子可以看出，将源语言查询翻译为目标语后，如果直接使用传统的单语检索模型很有可能会造成源语言信息流失，进而带来大量噪音，降低检索结果的准确性。

发明内容

本发明为了解决现有分离模式的多语言信息检索造成的源语言信息流失、带来大量噪声和检索结果准确性低地问题，提供一种多语言信息检索一体化检索方法。

多语言信息检索一体化检索方法具体步骤如下：

步骤一、将用户输入的源语言查询关键词q_i翻译成目标语言的关键词t_ij，其中t_ij表示源语言查询关键词q_i的第j个合理翻译；

步骤二、将步骤一获得的目标语言的关键词t_ij根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式：精确匹配模式、共现模式和独立模式，所述精确匹配模式为词组的各单词必须按次序相邻出现；所述共现模式为组成词组的若干单词在预设的窗口内共现即代表这个词组的出现；所述独立模式为词组中由一个或并列的几个核心词组成，词组中的几个单词没有相互修饰关系；

步骤三、求得在查询文档D中精确匹配模式的条件概率P(t_ij|D，θ_Ex)，共现模式的条件概率P(t_ij|D，θ_Co)，独立模式的条件概率P(t_ij|D，θ_Un)，其中θ_Ex表示精确匹配模型，θ_Co表示共现模型，θ_Un表示独立模型；

步骤四、根据公式

P(t_ij|D)＝μ_Ex×P(t_ij|D，θ_Ex)+μ_Co×P(t_ij|D，θ_CO)+μ_Un×P(t_ij|D，θ_Un)

计算在查询文档D中出现关键词t_ij的文档生成查询概率P(t_ij|D)，其中μ_Ex+μ_Co+μ_Un＝1；

步骤五、根据公式

P(q_i|t_ij，D)∝r(q_i，t_ij+V_D)∝sim(q_i，t_ij+V_D)

将计算在查询文档D中目标语言的关键词t_ij能够翻译成源语言查询关键词q_i的条件概率P(q_i|t_ij，D)的问题转化为计算sim(q_i，t_ij+V_D)的问题，其中，r(q_i，t_ij+V_D)和sim(q_i，t_ij+V_D)分别是源语言查询关键词q_i和查询文档D的特征向量V_D的相关性以及相似性；

步骤六、根据公式

p (Q | D) = \prod_{i = 1}^{m} P (q_{i} | D) = \prod_{i = 1}^{m} Σ_{j = 1}^{k_{i}} P (q_{i}, t_{ij} | D)

= \prod_{i = 1}^{m} Σ_{j = 1}^{k_{i}} P (q_{i} | t_{ij}, D) \times P (t_{ij} | D)

计算多语言信息检索的条件概率p(Q|D)，其中，Q表示源语言查询关键词集，D表示查询文档，i表示源语言查询关键词的个数，j表示对应的该源语言查询关键词的目标语翻译的个数，t_ij表示源语言查询关键词q_i的第j个合理翻译；

步骤七、按照步骤六获得的多语言信息检索的条件概率p(Q|D)从大到小的顺序返回检索结果，所述检索结果包括源语言的检索结果和目标语言的检索结果。

本发明通过源语言信息将用户查询翻译和对目标语的单语检索有机地结合在一个统一的过程中，从而大大减少信息流失给检索带来的噪音，提高检索结果的准确率。实验结果证明，和传统的将用户查询翻译和对目标语的单语检索独立开来处理的分离模式相比，本发明方法具有较大的优势，更加适用于跨语言信息检索。

附图说明

图1为输入汉语“医疗改革”输出全部源语言和目标语言的检索结果的平面截图。图2为输入汉语“经济危机”仅输出目标语言的检索结果的平面截图。图3为输入汉语“经济危机”仅输出源语言的检索结果的平面截图。图4为输入汉语“医疗改革”输出全部源语言和目标语言的聚类显示该类别的检索结果的平面截图。图5为输入汉语“医疗改革”输出全部源语言和目标语言聚类显示该类别的检索结果的平面截图。

具体实施方式

具体实施方式一、多语言信息检索一体化检索方法具体步骤如下：

步骤四、根据公式

P(t_ij|D)＝μ_Ex×P(t_ji|D，θ_Ex)+μ_Co×P(t_ij|D，θ_CO)+μ_Un×P(t_ij|D，θ_Un)

步骤五、根据公式

P(q_i|t_ij，D)∝r(q_i，t_ij+V_D)∝sim(q_i，t_ij+V_D)

步骤六、根据公式

p (Q | D) = \prod_{i = 1}^{m} P (q_{i} | D) = \prod_{i = 1}^{m} Σ_{j = 1}^{k_{i}} P (q_{i}, t_{ij} | D)

= \prod_{i = 1}^{m} Σ_{j = 1}^{k_{i}} P (q_{i} | t_{ij}, D) \times P (t_{ij} | D)

对于步骤二中，精确匹配模式，词组的各单词必须按次序相邻出现才能保持原义。例如，“安理会”的翻译为“Security Council”，这两个单词一旦发生词序变化或者在中间加入其它单词，整个词组的修饰关系就会发生变化，语义也会变化。事实上人名，地名以及机构名等基本都具有这种性质。例如，“朝鲜”的翻译为“North Korea”，“刘德华”的翻译为“Liu Dehua”。例如一篇有关西游记演员马德华(Ma Dehua)和某个姓刘(Liu)的人的英文文章在独立语言模型中很有可能被判定为是和刘德华相关的；例如一篇介绍韩国北部的英文文章在独立语言模型中很有可能被判定为是在介绍朝鲜(北韩)。

共现模式，组成词组的若干单词在预设的窗口内共现即代表这个词组的出现，搭配模式则转化为共现模式，而按照共现模式生成一个词组的过程称为共现模型。

独立模式词组往往有一个或者并列的几个核心词，只要这些核心词出现即可以代表整个词组的出现。例如，“安适”的翻译为“peaceful and comfortable”，该词组中的几个词显然没有必要相互修饰，而完全可以按照独立模型进行处理。

对于步骤五中，经过分析得出，当查询条件是“银行”，翻译为“bank”的时候，大部分和“银行”相关的英文文档都包含“money”，“economic”，“commerce”，“interest”，“capital”，“account”等和金钱，商业有关的词汇，如果一篇文档包含“bank”，但是文档中的词汇大部分都是“river”，“mound”，“shore”，“water”，“swim”等词汇时并不认为该文档和“银行”是相关的，而很有可能是和“岸边”相关的。不失一般性，如果一篇目标语文档和源语言关键词相关，那么该文档的特征词大部分应该也和该源语言关键词相关，且具有较高的相似性，用特征向量V_D表示文档D，因此得到

P(q_i|t_ij，D)∝r(q_i，t_ij+V_D)∝sim(q_i，t_ij+V_D)

对于步骤七的检索结果一般为查询文档D的链接。

具体实施方式二、本实施方式与具体实施方式一的不同之处在于步骤三中求得在查询文档D中精确匹配模式的条件概率P(t_ij|D，θ_Ex)具体为：对于精确匹配模式，可以将整个词组视为一个独立的词汇，采用极大似然估计进行统计，其计算过程表述为：

\begin{matrix} P (t_{ij} | D, θ_{Ex}) = \frac{Len (t_{ij}) \times tf (t_{ij})}{| D |} / \frac{df (t_{ij}) \times δ}{| C |} \\ = \frac{tf (t_{ij}) \times | C | \times Len (t_{ij})}{df (t_{ij}) \times | D | \times δ} \end{matrix}

Len(t_ij)表示词组长度，即单词个数，tf()和df()为词组在查询文档和文档集中的出现频率，|D|为查询文档D的长度，|C|表示文档集的大小，δ是一个平滑因子，主要用以调节该过程的作用，由于精确匹配模式是三个模式中要求最为严格的模式，因此对于该模型并不采取任何平滑算法，对于tf()为0的词组，使得P(t_ij，θ_Ex|D)＝0。

具体实施方式三、本实施方式与具体实施方式一或二的不同之处在于步骤三中求得在查询文档D中共现模式的条件概率P(t_ij|D，θ_Co)具体为：通过统计文档中预设窗口范围内单词的共同出现的次数，结合跨语言检索中词组的特点得到了如下所示的共现模式：

P (t_{ij} | D, θ_{Co}) = \frac{Σ_{s = 1}^{n - 1} Σ_{t = s + 1}^{n} Co (t_{ijs}, t_{ijt} | W, D)}{Σ_{s = 1}^{n} \underset{w &Element; D & w &NotEqual; t_{ijs}}{Σ} Co (t_{ijs}, w | W, D)} / \frac{δ \times Σ_{s = 1}^{n - 1} Σ_{t = s + 1}^{n} Co (t_{ijs}, t_{ijt} | W, C)}{Σ_{s = 1}^{n} \underset{w &Element; D & w &NotEqual; t_{ijs}}{Σ} Co (t_{ijs}, w | W, C)}

其中，t_ij表示源语言查询关键词q_i的第j个合理翻译，t_ijs分别表示t_ij在源语言的第s个，t_ijt表示目标语言词第t个，Co(t_ijs，t_ijt|W，D)是t_ijs和t_ijt在查询文档D中的共现次数，这两个词共现的最大距离为W，Co(t_ijs，t_ijt|W，C)表示文档集C中t_ijs和t_ijt在W范围内存在共现的文档数，δ是一个平滑因子，主要用以调节该过程的作用。

具体实施方式四、本实施方式与具体实施方式一、二或三的不同之处在于步骤三中求得在查询文档D中独立模式的条件概率P(t_ij|D，D，θ_Un)具体为：在独立模型中

其中，n表示在查询文档D中t_ij共出现的次数，词组中的单词t_ijs在查询文档D中的似然概率P(t_ijs|D)可以由以下方法求得：

a、选用最大似然估计计算生成概率P(t_ijs|D)，考虑到词组往往都是有少数几个单词组成的短序列，使用dirichlet作为平滑算法，得出

p (t_{ijs} | D) = \frac{tf (t_{ijs}) + δ \times p (t_{ijs} | C)}{len (D) + δ}

b、把对数函数和P(t_ijs|D)结合在一起使用来计算最终的生成概率，于是得出

p (t_{ijs} | D) = \log [1 + tf (t_{ijs}) / (δ \times \frac{df (t_{ijs})}{| C |})]

c、整个词组在独立模型下的生成概率的计算过程为：

\log (P (t_{ij 1} t_{ij 2} . . . t_{ijn} | D)) = \log [\prod_{s = 1}^{n} P (t_{ijs} | D)]

= Σ_{s = 1}^{n} \log [P (t_{ijs} | D)]

= Σ_{s = 1}^{n} \log [1 + tf (t_{ijs}) / (δ \times \frac{df (t_{ijs})}{| C |})] + n \times \log \frac{δ}{δ + | D |}

δ是一个平滑因子，主要用以调节该过程的作用。

经过实验证明，方法b和方法c的效果方法a的效果好一些，因此在计算精确匹配模型，共现模型的时候都和方法b或方法c结合使用。

具体实施方式五、本实施方式与具体实施方式一、二、三或四的不同之处在于步骤四中μ_Ex，μ_Co，μ_Un三个参数的具体确定方法为：选用EM算法估计三个参数的具体值，通过不断迭代以使文档生成查询概率P(t_ij|D)达到最大化。

具体实施方式六、本实施方式与具体实施方式一、二、三、四或五的不同之处在于步骤五中计算sim(q_i，t_ij+V_D)具体如下：用c(q_i，t_ij)表示q_i和t_ij在HowNet中组成的概念，得出sim(q_i，t_ij+V_D)＝sim(c(q_i，t_ij)，V_D)，如下式计算一个概念和一个单语词汇向量的相似度：

sim (c (q_{i}, t_{ij}), V_{D}) = \frac{Σ_{m = 1}^{| V_{D} |} val (w_{m}) \times \max (sim (c (q_{i}, t_{ij}), c (w_{mn})))}{Σ_{m = 1}^{| V_{D} |} val (w_{m})}

val(w_m)是特征向量V_D的第m个特征词的权重，用TF-IDF计算权重大小，由于w_m是一个单语的词汇，因此它和一个概念的相似度就是w_m的各个概念和这个概念相似度的最大值，其中c(w_mn)表示w_m的第n个概念。

HowNet的一个基本单元是一个完整的概念，有中文意，英文意和语义描述等几部分。HowNet通过义原和义原关系来描述一个概念的语义，所有的义原按不同类别组成几棵义原层次树，而义原关系则组成一个庞大而复杂的关系网络，由此可以得出HowNet中两个概念的相似度计算方法：

sim (c 1, c 2) = sim (p 1, p 2) = \frac{α}{spd (p 1, p 2) + α}

p1和p2是概念c1和c2在HowNet中的第一义原，spd(p1，p2)为两个义原在义原关系树中的距离，α是一个可调节参数。由于t_ij是HowNet中q_i的一个合理翻译，因此用c(q_i，t_ij)表示q_i和t_ij在HowNet中组成的概念，于是可以得出sim(q_i，t_ij+V_D)＝sim(c(q_i，t_ij)，V_D)。

最终本发明通过各特征项和c(q_i，t_ij)的相似度的加权平均来计算一个概念和一个单语词汇向量间的相似度，实验证明这要比简单的加和求平均效果好。

具体实施方式七、结合图1、图2、图3、图4和图5说明本实施方式，本实施方式是应用本发明的方法搜索关键词并显示结果，图1为在该实验平台输入汉语“医疗改革”，选择输出全部源语言和目标语言的检索结果的平面截图。该实验平台主要用于测试本发明在多语言信息检索中的应用效果，用户可输入源语言或目标语查询条件，可以选择检索源语言信息、目标语信息、全部多语言信息等几种模式，可以实现在多语言文档集中进行检索并返回相关度最大的前100个结果，分10页显示。除此之外，检索出的每篇文档均给出其单文档文摘，全部检索结果进行自动聚类显示，用户可同时单击相关链接打开目标文件。

图2为在该实验平台中输入汉语“经济危机”，选择仅输出目标语言的检索结果，目标语言的检索结果按最终排列显示，并显示Top 100的检索结果。

图3为在该实验平台中输入汉语“经济危机”，选择仅输出源语言的检索结果，源语言的检索结果按最终排列显示，并显示Top 100的检索结果。

图4为输入汉语“医疗改革”，选择输出全部源语言和目标语言，单击聚类标签“reform health”后，显示该类别的检索结果，两种语言的检索结果按最终排列穿插显示，显示该类别共有4页的检索结果。

图5为输入汉语“医疗改革”，选择输出全部源语言和目标语言，单击聚类标签“medical policy”后，显示该类别的检索结果，两种语言的检索结果按最终排列穿插显示，单击“NCNP Issue Medical reform Policy”标题，显示该文档内容的结果。

Claims

1.多语言信息检索一体化检索方法，其特征在于具体步骤如下：

步骤四、根据公式

步骤五、根据公式

P(q_i|t_ij，D)∝r(q_i，t_ij+V_D)∝sim(q_i，t_ij+V_D)

将计算在查询文档D中目标语言的关键词t_ij能够翻译成源语言查询关键词q_i的条件概率P(q_i|t_ij，D)的问题转化为计算sim(q_i，t_ij+V_D)的问题，其中，r(q_i，t_ij+V_D)和sim(qi，t_ij+V_D)分别是源语言查询关键词q_i和查询文档D的特征向量V_D的相关性以及相似性；

步骤六、根据公式

p (Q | D) = Π_{i = 1}^{m} P (q_{i} | D) = Π_{i = 1}^{m} Σ_{j = 1}^{k_{i}} P (q_{i}, t_{ij} | D)

= Π_{i = 1}^{m} Σ_{j = 1}^{k_{i}} P (q_{i} | t_{ij}, D) \times P (t_{ij} | D)

步骤七、按照步骤六获得的多语言信息检索的条件概率p(Q|D)从大到小的顺序返回检索结果，所述检索结果包括源语言的检索结果和目标语言的检索结果；

步骤三中求得在查询文档D中精确匹配模式的条件概率P(t_ij|D，θ_Ex)具体为：对于精确匹配模式，可以将整个词组视为一个独立的词汇，采用极大似然估计进行统计，其计算过程表述为：

P (t_{ij} | D, θ_{Ex}) = \frac{Len (t_{ij}) \times tf (t_{ij})}{| D |} / \frac{df (t_{ij}) \times δ}{| C |}

= \frac{tf (t_{ij}) \times | C | \times Len (t_{ij})}{df (t_{ij}) \times | D | \times δ}

Len(t_ij)表示词组长度，即单词个数，tf()和df()为词组在查询文档和文档集中的出现频率，|D|为查询文档D的长度，|C|表示文档集的大小，δ是一个平滑因子，主要用以调节该过程的作用，由于精确匹配模式是三个模式中要求最为严格的模式，因此对于该精确匹配模式并不采取任何平滑算法，对于tf()为0的词组，使得P(t_ij，θ_Ex|D)＝0；

步骤三中求得在查询文档D中共现模式的条件概率P(t_ij|D，θ_Co)的过程具体为：通过统计文档中预设窗口范围内单词的共同出现的次数，结合跨语言检索中词组的特点得到了如下所示的共现模式：

其中，t_ij表示源语言查询关键词q_i的第j个合理翻译，t_ijs分别表示t_ij在源语言的第s个，t_ijt表示目标语言词第t个，Co(t_ijs，t_ijt|W，D)是t_ijs和t_ijt在查询文档D中的共现次数，这两个词共现的最大距离为W，Co(t_ijs，t_ijt|W，C)表不文档集C中t_ijs和t_ijt在W范围内存在共现的文档数，δ是一个平滑因子，主要用以调节该过程的作用；

步骤三中求得在查询文档D中独立模式的条件概率P(t_ij|D，θ_Un)具体为：在独立模式中

P (t_{ij} | D, θ_{Un}) = P (t_{ij 1} t_{ij 2} \cdot \cdot \cdot t_{ijn} | D) = Π_{s = 1}^{n} P (t_{ijs} | D),

其中，n表示在查询文档D中t_ij共出现的次数。

2.根据权利要求1所述的多语言信息检索一体化检索方法，其特征在于词组中的单词t_ijs在查询文档D中的似然概率P(t_ijs|D)可以由以下方法求得：

选用最大似然估计计算生成概率P(t_ijs |D)，考虑到词组往往都是有少数几个单词组成的短序列，使用dirichlet作为平滑算法，得出

p (t_{ijs} | D) = \frac{tf (t_{ijs}) + δ \times p (t_{ijs} | C)}{len (D) + δ}

δ是一个平滑因子，主要用以调节该方法的作用。

3.根据权利要求1所述的多语言信息检索一体化检索方法，其特征在于词组中的单词t_ijs在查询文档D中的似然概率P(t_ijs|D)可以由以下方法求得：

把对数函数和P(t_ijs|D)结合在一起使用来计算最终的生成概率，于是得出

p (t_{ijs} | D) = \log [1 + tf (t_{ijs}) / (δ \times \frac{df (t_{ijs})}{| C |})]

δ是一个平滑因子，主要用以调节该方法的作用。

4.根据权利要求1所述的多语言信息检索一体化检索方法，其特征在于词组中的单词t_ijs在查询文档D中的似然概率P(t_ijs|D)可以由以下方法求得：

整个词组在独立模型下的生成概率的计算过程为：

\log (P (t_{ij 1} t_{ij 2} \cdot \cdot \cdot t_{ijn} | D)) = \log [Π_{s = 1}^{n} P (t_{ijs} | D)]

= Σ_{s = 1}^{n} \log [P (t_{ijs} | D)]

= Σ_{s = 1}^{n} \log [1 + tf (t_{ijs}) / (δ \times \frac{df (t_{ijs})}{| C |})] + n \times \log \frac{δ}{δ + | D |}

δ是一个平滑因子，主要用以调节该过程的作用。

5.根据权利要求1所述的多语言信息检索一体化检索方法，其特征在于步骤四中μ_Ex，μ_Co，μ_Un三个参数的具体确定方法为：选用EM算法估计三个参数的具体值，通过不断迭代以使文档生成查询概率P(t_ij|D)达到最大化。

6.根据权利要求1所述的多语言信息检索一体化检索方法，其特征在于步骤五中计算sim(q_i，t_ij+V_D)具体如下：用c(q_i，t_ij)表示q_i和t_ij在HowNet中组成的概念，得出sim(q_i，t_ij+V_D)＝sim(c(q_i，t_ij)，V_D)，如下式计算一个概念和一个单语词汇向量的相似度：

sim (c (q_{i}, t_{ij}), V_{D}) = \frac{Σ_{m = 1}^{| V_{D} |} val (w_{m}) \times \max (sim (c (q_{i}, t_{ij}), c (w_{mn})))}{Σ_{m = 1}^{| V_{D} |} val (w_{m})}