CN101763402B - 多语言信息检索一体化检索方法 - Google Patents

多语言信息检索一体化检索方法 Download PDF

Info

Publication number
CN101763402B
CN101763402B CN2009102174628A CN200910217462A CN101763402B CN 101763402 B CN101763402 B CN 101763402B CN 2009102174628 A CN2009102174628 A CN 2009102174628A CN 200910217462 A CN200910217462 A CN 200910217462A CN 101763402 B CN101763402 B CN 101763402B
Authority
CN
China
Prior art keywords
ijs
retrieval
language
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009102174628A
Other languages
English (en)
Other versions
CN101763402A (zh
Inventor
郑德权
朱红垒
赵铁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of technology high tech Development Corporation
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2009102174628A priority Critical patent/CN101763402B/zh
Publication of CN101763402A publication Critical patent/CN101763402A/zh
Application granted granted Critical
Publication of CN101763402B publication Critical patent/CN101763402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

多语言信息检索一体化检索方法,涉及多语言信息检索方法,解决了现有分离模式的多语言信息检索造成的源语言信息流失、带来大量噪声和检索结果准确性低地问题,具体步骤如下:一、将用户输入的源语言查询关键词翻译成目标语言的关键词;二、目标语言的关键词根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式:精确匹配模式、共现模式和独立模式;三、求得在查询文档D中精确匹配模式的条件概率,共现模式的条件概率,独立模式的条件概率;四、计算在查询文档D中的文档生成查询概率;五、计算源语言查询关键词和查询文档特征向量的相似性;六、计算多语言信息检索的条件概率;七、返回检索结果。本发明适用于跨语言信息检索。

Description

多语言信息检索一体化检索方法
技术领域
本发明涉及信息技术领域,具体涉及多语言信息检索方法。
背景技术
伴随着Intemet中各类信息不断爆炸性增长的同时,互联网中书写信息所使用的语言呈现日益的国际化,人们对信息检索提出了更高的要求,即不再满足于在同一语种文档集中检索,而要求在检索结果中包含多语种信息。用户所面对的查询一个多语种文档集的情形变得越来越普遍,为了获得更多、更全面、更准确的信息,同时为了跨越语言障碍,人们希望能够以自己最熟悉的一种语言(如:汉语、英语)描述用户查询,而同时将其它语言(如:英语、汉语)书写的文档集在检索结果中呈现出来,即进行两两语种之间的跨语言信息检索(Cross-Language Information Retrieval,CLIR),从而实现多语种信息检索(Multi-Lingual Information Retrieval,MLIR)。在当今信息社会中,多语种之间的信息检索已经越来越成为世界范围内一个极需解决的关键问题,这也是Intemet的全球信息基本结构造成了针对多语种信息检索系统的迫切需要,从而使得国内外越来越多的研究团体深入研究多语种信息检索问题,并探索实现多语言信息检索的不同方法、技术路线等。目前,多语言信息检索研究的任务主要可分为以下两个步骤:(1)将用户输入的查询需求描述成目标语言的表示形式,即机器翻译阶段;(2)在多语言文档集中进行信息检索。整个过程可以简述为:首先使用翻译工具(翻译方法)将源语言的用户查询条件转化为目标语言的形式,然后用正确的目标语译词组成查询条件,最后再直接使用单语检索工具获得最终结果。可以看出,查询翻译和单语检索事实上是两个相互独立的过程,之间没有任何联系。这种分离模式的工作前提是认为多语言信息检索和单语检索唯一的区别是查询条件的表现形式不同,因此在将源语查询转化为目标语后就和单语检索没有任何区别了。这种假设显然过于简单,多语言检索之所以能单独作为一个研究方向,必然存在它的独特性。这种独特性主要体现在从源语言查询过渡到目标语言查询后由于两种(多种)语言的表现形式不同,必然会发生信息流失。例如,“安理会”的英文翻译为“Security Council”,在中文里它是一个独立的词,在英文里却是两个独立词的组合,并且只有这两个词相邻时才具有源语的语义。因此,即使一篇文档中包含“Security”和“Council”这两个词,但是这两个词相距却较远,则不能说明这篇文档一定和“安理会”相关。再例如,“银行”的英文翻译为“bank”,但是“bank”一词本身具有歧义,它在文档中的出现并不能代表就是“银行”的出现。通过这两个例子可以看出,将源语言查询翻译为目标语后,如果直接使用传统的单语检索模型很有可能会造成源语言信息流失,进而带来大量噪音,降低检索结果的准确性。
发明内容
本发明为了解决现有分离模式的多语言信息检索造成的源语言信息流失、带来大量噪声和检索结果准确性低地问题,提供一种多语言信息检索一体化检索方法。
多语言信息检索一体化检索方法具体步骤如下:
步骤一、将用户输入的源语言查询关键词qi翻译成目标语言的关键词tij,其中tij表示源语言查询关键词qi的第j个合理翻译;
步骤二、将步骤一获得的目标语言的关键词tij根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式:精确匹配模式、共现模式和独立模式,所述精确匹配模式为词组的各单词必须按次序相邻出现;所述共现模式为组成词组的若干单词在预设的窗口内共现即代表这个词组的出现;所述独立模式为词组中由一个或并列的几个核心词组成,词组中的几个单词没有相互修饰关系;
步骤三、求得在查询文档D中精确匹配模式的条件概率P(tij|D,θEx),共现模式的条件概率P(tij|D,θCo),独立模式的条件概率P(tij|D,θUn),其中θEx表示精确匹配模型,θCo表示共现模型,θUn表示独立模型;
步骤四、根据公式
P(tij|D)=μEx×P(tij|D,θEx)+μCo×P(tij|D,θCO)+μUn×P(tij|D,θUn)
计算在查询文档D中出现关键词tij的文档生成查询概率P(tij|D),其中μExCoUn=1;
步骤五、根据公式
P(qi|tij,D)∝r(qi,tij+VD)∝sim(qi,tij+VD)
将计算在查询文档D中目标语言的关键词tij能够翻译成源语言查询关键词qi的条件概率P(qi|tij,D)的问题转化为计算sim(qi,tij+VD)的问题,其中,r(qi,tij+VD)和sim(qi,tij+VD)分别是源语言查询关键词qi和查询文档D的特征向量VD的相关性以及相似性;
步骤六、根据公式
p ( Q | D ) = ∏ i = 1 m P ( q i | D ) = ∏ i = 1 m Σ j = 1 k i P ( q i , t ij | D )
= ∏ i = 1 m Σ j = 1 k i P ( q i | t ij , D ) × P ( t ij | D )
计算多语言信息检索的条件概率p(Q|D),其中,Q表示源语言查询关键词集,D表示查询文档,i表示源语言查询关键词的个数,j表示对应的该源语言查询关键词的目标语翻译的个数,tij表示源语言查询关键词qi的第j个合理翻译;
步骤七、按照步骤六获得的多语言信息检索的条件概率p(Q|D)从大到小的顺序返回检索结果,所述检索结果包括源语言的检索结果和目标语言的检索结果。
本发明通过源语言信息将用户查询翻译和对目标语的单语检索有机地结合在一个统一的过程中,从而大大减少信息流失给检索带来的噪音,提高检索结果的准确率。实验结果证明,和传统的将用户查询翻译和对目标语的单语检索独立开来处理的分离模式相比,本发明方法具有较大的优势,更加适用于跨语言信息检索。
附图说明
图1为输入汉语“医疗改革”输出全部源语言和目标语言的检索结果的平面截图。图2为输入汉语“经济危机”仅输出目标语言的检索结果的平面截图。图3为输入汉语“经济危机”仅输出源语言的检索结果的平面截图。图4为输入汉语“医疗改革”输出全部源语言和目标语言的聚类显示该类别的检索结果的平面截图。图5为输入汉语“医疗改革”输出全部源语言和目标语言聚类显示该类别的检索结果的平面截图。
具体实施方式
具体实施方式一、多语言信息检索一体化检索方法具体步骤如下:
步骤一、将用户输入的源语言查询关键词qi翻译成目标语言的关键词tij,其中tij表示源语言查询关键词qi的第j个合理翻译;
步骤二、将步骤一获得的目标语言的关键词tij根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式:精确匹配模式、共现模式和独立模式,所述精确匹配模式为词组的各单词必须按次序相邻出现;所述共现模式为组成词组的若干单词在预设的窗口内共现即代表这个词组的出现;所述独立模式为词组中由一个或并列的几个核心词组成,词组中的几个单词没有相互修饰关系;
步骤三、求得在查询文档D中精确匹配模式的条件概率P(tij|D,θEx),共现模式的条件概率P(tij|D,θCo),独立模式的条件概率P(tij|D,θUn),其中θEx表示精确匹配模型,θCo表示共现模型,θUn表示独立模型;
步骤四、根据公式
P(tij|D)=μEx×P(tji|D,θEx)+μCo×P(tij|D,θCO)+μUn×P(tij|D,θUn)
计算在查询文档D中出现关键词tij的文档生成查询概率P(tij|D),其中μExCoUn=1;
步骤五、根据公式
P(qi|tij,D)∝r(qi,tij+VD)∝sim(qi,tij+VD)
将计算在查询文档D中目标语言的关键词tij能够翻译成源语言查询关键词qi的条件概率P(qi|tij,D)的问题转化为计算sim(qi,tij+VD)的问题,其中,r(qi,tij+VD)和sim(qi,tij+VD)分别是源语言查询关键词qi和查询文档D的特征向量VD的相关性以及相似性;
步骤六、根据公式
p ( Q | D ) = ∏ i = 1 m P ( q i | D ) = ∏ i = 1 m Σ j = 1 k i P ( q i , t ij | D )
= ∏ i = 1 m Σ j = 1 k i P ( q i | t ij , D ) × P ( t ij | D )
计算多语言信息检索的条件概率p(Q|D),其中,Q表示源语言查询关键词集,D表示查询文档,i表示源语言查询关键词的个数,j表示对应的该源语言查询关键词的目标语翻译的个数,tij表示源语言查询关键词qi的第j个合理翻译;
步骤七、按照步骤六获得的多语言信息检索的条件概率p(Q|D)从大到小的顺序返回检索结果,所述检索结果包括源语言的检索结果和目标语言的检索结果。
对于步骤二中,精确匹配模式,词组的各单词必须按次序相邻出现才能保持原义。例如,“安理会”的翻译为“Security Council”,这两个单词一旦发生词序变化或者在中间加入其它单词,整个词组的修饰关系就会发生变化,语义也会变化。事实上人名,地名以及机构名等基本都具有这种性质。例如,“朝鲜”的翻译为“North Korea”,“刘德华”的翻译为“Liu Dehua”。例如一篇有关西游记演员马德华(Ma Dehua)和某个姓刘(Liu)的人的英文文章在独立语言模型中很有可能被判定为是和刘德华相关的;例如一篇介绍韩国北部的英文文章在独立语言模型中很有可能被判定为是在介绍朝鲜(北韩)。
共现模式,组成词组的若干单词在预设的窗口内共现即代表这个词组的出现,搭配模式则转化为共现模式,而按照共现模式生成一个词组的过程称为共现模型。
独立模式词组往往有一个或者并列的几个核心词,只要这些核心词出现即可以代表整个词组的出现。例如,“安适”的翻译为“peaceful and comfortable”,该词组中的几个词显然没有必要相互修饰,而完全可以按照独立模型进行处理。
对于步骤五中,经过分析得出,当查询条件是“银行”,翻译为“bank”的时候,大部分和“银行”相关的英文文档都包含“money”,“economic”,“commerce”,“interest”,“capital”,“account”等和金钱,商业有关的词汇,如果一篇文档包含“bank”,但是文档中的词汇大部分都是“river”,“mound”,“shore”,“water”,“swim”等词汇时并不认为该文档和“银行”是相关的,而很有可能是和“岸边”相关的。不失一般性,如果一篇目标语文档和源语言关键词相关,那么该文档的特征词大部分应该也和该源语言关键词相关,且具有较高的相似性,用特征向量VD表示文档D,因此得到
P(qi|tij,D)∝r(qi,tij+VD)∝sim(qi,tij+VD)
对于步骤七的检索结果一般为查询文档D的链接。
具体实施方式二、本实施方式与具体实施方式一的不同之处在于步骤三中求得在查询文档D中精确匹配模式的条件概率P(tij|D,θEx)具体为:对于精确匹配模式,可以将整个词组视为一个独立的词汇,采用极大似然估计进行统计,其计算过程表述为:
P ( t ij | D , θ Ex ) = Len ( t ij ) × tf ( t ij ) | D | / df ( t ij ) × δ | C | = tf ( t ij ) × | C | × Len ( t ij ) df ( t ij ) × | D | × δ
Len(tij)表示词组长度,即单词个数,tf()和df()为词组在查询文档和文档集中的出现频率,|D|为查询文档D的长度,|C|表示文档集的大小,δ是一个平滑因子,主要用以调节该过程的作用,由于精确匹配模式是三个模式中要求最为严格的模式,因此对于该模型并不采取任何平滑算法,对于tf()为0的词组,使得P(tij,θEx|D)=0。
具体实施方式三、本实施方式与具体实施方式一或二的不同之处在于步骤三中求得在查询文档D中共现模式的条件概率P(tij|D,θCo)具体为:通过统计文档中预设窗口范围内单词的共同出现的次数,结合跨语言检索中词组的特点得到了如下所示的共现模式:
P ( t ij | D , θ Co ) = Σ s = 1 n - 1 Σ t = s + 1 n Co ( t ijs , t ijt | W , D ) Σ s = 1 n Σ w ∈ D & w ≠ t ijs Co ( t ijs , w | W , D ) / δ × Σ s = 1 n - 1 Σ t = s + 1 n Co ( t ijs , t ijt | W , C ) Σ s = 1 n Σ w ∈ D & w ≠ t ijs Co ( t ijs , w | W , C )
其中,tij表示源语言查询关键词qi的第j个合理翻译,tijs分别表示tij在源语言的第s个,tijt表示目标语言词第t个,Co(tijs,tijt|W,D)是tijs和tijt在查询文档D中的共现次数,这两个词共现的最大距离为W,Co(tijs,tijt|W,C)表示文档集C中tijs和tijt在W范围内存在共现的文档数,δ是一个平滑因子,主要用以调节该过程的作用。
具体实施方式四、本实施方式与具体实施方式一、二或三的不同之处在于步骤三中求得在查询文档D中独立模式的条件概率P(tij|D,D,θUn)具体为:在独立模型中
Figure G2009102174628D00063
其中,n表示在查询文档D中tij共出现的次数,词组中的单词tijs在查询文档D中的似然概率P(tijs|D)可以由以下方法求得:
a、选用最大似然估计计算生成概率P(tijs|D),考虑到词组往往都是有少数几个单词组成的短序列,使用dirichlet作为平滑算法,得出
p ( t ijs | D ) = tf ( t ijs ) + δ × p ( t ijs | C ) len ( D ) + δ
b、把对数函数和P(tijs|D)结合在一起使用来计算最终的生成概率,于是得出
p ( t ijs | D ) = log [ 1 + tf ( t ijs ) / ( δ × df ( t ijs ) | C | ) ]
c、整个词组在独立模型下的生成概率的计算过程为:
log ( P ( t ij 1 t ij 2 . . . t ijn | D ) ) = log [ ∏ s = 1 n P ( t ijs | D ) ]
= Σ s = 1 n log [ P ( t ijs | D ) ]
= Σ s = 1 n log [ 1 + tf ( t ijs ) / ( δ × df ( t ijs ) | C | ) ] + n × log δ δ + | D |
δ是一个平滑因子,主要用以调节该过程的作用。
经过实验证明,方法b和方法c的效果方法a的效果好一些,因此在计算精确匹配模型,共现模型的时候都和方法b或方法c结合使用。
具体实施方式五、本实施方式与具体实施方式一、二、三或四的不同之处在于步骤四中μEx,μCo,μUn三个参数的具体确定方法为:选用EM算法估计三个参数的具体值,通过不断迭代以使文档生成查询概率P(tij|D)达到最大化。
具体实施方式六、本实施方式与具体实施方式一、二、三、四或五的不同之处在于步骤五中计算sim(qi,tij+VD)具体如下:用c(qi,tij)表示qi和tij在HowNet中组成的概念,得出sim(qi,tij+VD)=sim(c(qi,tij),VD),如下式计算一个概念和一个单语词汇向量的相似度:
sim ( c ( q i , t ij ) , V D ) = Σ m = 1 | V D | val ( w m ) × max ( sim ( c ( q i , t ij ) , c ( w mn ) ) ) Σ m = 1 | V D | val ( w m )
val(wm)是特征向量VD的第m个特征词的权重,用TF-IDF计算权重大小,由于wm是一个单语的词汇,因此它和一个概念的相似度就是wm的各个概念和这个概念相似度的最大值,其中c(wmn)表示wm的第n个概念。
HowNet的一个基本单元是一个完整的概念,有中文意,英文意和语义描述等几部分。HowNet通过义原和义原关系来描述一个概念的语义,所有的义原按不同类别组成几棵义原层次树,而义原关系则组成一个庞大而复杂的关系网络,由此可以得出HowNet中两个概念的相似度计算方法:
sim ( c 1 , c 2 ) = sim ( p 1 , p 2 ) = α spd ( p 1 , p 2 ) + α
p1和p2是概念c1和c2在HowNet中的第一义原,spd(p1,p2)为两个义原在义原关系树中的距离,α是一个可调节参数。由于tij是HowNet中qi的一个合理翻译,因此用c(qi,tij)表示qi和tij在HowNet中组成的概念,于是可以得出sim(qi,tij+VD)=sim(c(qi,tij),VD)。
最终本发明通过各特征项和c(qi,tij)的相似度的加权平均来计算一个概念和一个单语词汇向量间的相似度,实验证明这要比简单的加和求平均效果好。
具体实施方式七、结合图1、图2、图3、图4和图5说明本实施方式,本实施方式是应用本发明的方法搜索关键词并显示结果,图1为在该实验平台输入汉语“医疗改革”,选择输出全部源语言和目标语言的检索结果的平面截图。该实验平台主要用于测试本发明在多语言信息检索中的应用效果,用户可输入源语言或目标语查询条件,可以选择检索源语言信息、目标语信息、全部多语言信息等几种模式,可以实现在多语言文档集中进行检索并返回相关度最大的前100个结果,分10页显示。除此之外,检索出的每篇文档均给出其单文档文摘,全部检索结果进行自动聚类显示,用户可同时单击相关链接打开目标文件。
图2为在该实验平台中输入汉语“经济危机”,选择仅输出目标语言的检索结果,目标语言的检索结果按最终排列显示,并显示Top 100的检索结果。
图3为在该实验平台中输入汉语“经济危机”,选择仅输出源语言的检索结果,源语言的检索结果按最终排列显示,并显示Top 100的检索结果。
图4为输入汉语“医疗改革”,选择输出全部源语言和目标语言,单击聚类标签“reform health”后,显示该类别的检索结果,两种语言的检索结果按最终排列穿插显示,显示该类别共有4页的检索结果。
图5为输入汉语“医疗改革”,选择输出全部源语言和目标语言,单击聚类标签“medical policy”后,显示该类别的检索结果,两种语言的检索结果按最终排列穿插显示,单击“NCNP Issue Medical reform Policy”标题,显示该文档内容的结果。

Claims (6)

1.多语言信息检索一体化检索方法,其特征在于具体步骤如下:
步骤一、将用户输入的源语言查询关键词qi翻译成目标语言的关键词tij,其中tij表示源语言查询关键词qi的第j个合理翻译;
步骤二、将步骤一获得的目标语言的关键词tij根据各单词的词序、各单词的修饰和搭配关系、各单词的词距划分为三种关系模式:精确匹配模式、共现模式和独立模式,所述精确匹配模式为词组的各单词必须按次序相邻出现;所述共现模式为组成词组的若干单词在预设的窗口内共现即代表这个词组的出现;所述独立模式为词组中由一个或并列的几个核心词组成,词组中的几个单词没有相互修饰关系;
步骤三、求得在查询文档D中精确匹配模式的条件概率P(tij|D,θEx),共现模式的条件概率P(tij|D,θCo),独立模式的条件概率P(tij|D,θUn),其中θEx表示精确匹配模型,θCo表示共现模型,θUn表示独立模型;
步骤四、根据公式
P(tij|D)=μEx×P(tij|D,θEx)+μCo×P(tij|D,θCo)+μUn×P(tij|D,θUn)
计算在查询文档D中出现关键词tij的文档生成查询概率P(tij|D),其中μExCoUn=1;
步骤五、根据公式
P(qi|tij,D)∝r(qi,tij+VD)∝sim(qi,tij+VD)
将计算在查询文档D中目标语言的关键词tij能够翻译成源语言查询关键词qi的条件概率P(qi|tij,D)的问题转化为计算sim(qi,tij+VD)的问题,其中,r(qi,tij+VD)和sim(qi,tij+VD)分别是源语言查询关键词qi和查询文档D的特征向量VD的相关性以及相似性;
步骤六、根据公式
p ( Q | D ) = Π i = 1 m P ( q i | D ) = Π i = 1 m Σ j = 1 k i P ( q i , t ij | D )
= Π i = 1 m Σ j = 1 k i P ( q i | t ij , D ) × P ( t ij | D )
计算多语言信息检索的条件概率p(Q|D),其中,Q表示源语言查询关键词集,D表示查询文档,i表示源语言查询关键词的个数,j表示对应的该源语言查询关键词的目标语翻译的个数,tij表示源语言查询关键词qi的第j个合理翻译;
步骤七、按照步骤六获得的多语言信息检索的条件概率p(Q|D)从大到小的顺序返回检索结果,所述检索结果包括源语言的检索结果和目标语言的检索结果;
步骤三中求得在查询文档D中精确匹配模式的条件概率P(tij|D,θEx)具体为:对于精确匹配模式,可以将整个词组视为一个独立的词汇,采用极大似然估计进行统计,其计算过程表述为:
P ( t ij | D , θ Ex ) = Len ( t ij ) × tf ( t ij ) | D | / df ( t ij ) × δ | C |
= tf ( t ij ) × | C | × Len ( t ij ) df ( t ij ) × | D | × δ
Len(tij)表示词组长度,即单词个数,tf()和df()为词组在查询文档和文档集中的出现频率,|D|为查询文档D的长度,|C|表示文档集的大小,δ是一个平滑因子,主要用以调节该过程的作用,由于精确匹配模式是三个模式中要求最为严格的模式,因此对于该精确匹配模式并不采取任何平滑算法,对于tf()为0的词组,使得P(tij,θEx|D)=0;
步骤三中求得在查询文档D中共现模式的条件概率P(tij|D,θCo)的过程具体为:通过统计文档中预设窗口范围内单词的共同出现的次数,结合跨语言检索中词组的特点得到了如下所示的共现模式:
Figure FSB00000655100700023
其中,tij表示源语言查询关键词qi的第j个合理翻译,tijs分别表示tij在源语言的第s个,tijt表示目标语言词第t个,Co(tijs,tijt|W,D)是tijs和tijt在查询文档D中的共现次数,这两个词共现的最大距离为W,Co(tijs,tijt|W,C)表不文档集C中tijs和tijt在W范围内存在共现的文档数,δ是一个平滑因子,主要用以调节该过程的作用;
步骤三中求得在查询文档D中独立模式的条件概率P(tij|D,θUn)具体为:在独立模式中 P ( t ij | D , θ Un ) = P ( t ij 1 t ij 2 · · · t ijn | D ) = Π s = 1 n P ( t ijs | D ) , 其中,n表示在查询文档D中tij共出现的次数。
2.根据权利要求1所述的多语言信息检索一体化检索方法,其特征在于词组中的单词tijs在查询文档D中的似然概率P(tijs|D)可以由以下方法求得:
选用最大似然估计计算生成概率P(tijs |D),考虑到词组往往都是有少数几个单词组成的短序列,使用dirichlet作为平滑算法,得出
p ( t ijs | D ) = tf ( t ijs ) + δ × p ( t ijs | C ) len ( D ) + δ
δ是一个平滑因子,主要用以调节该方法的作用。
3.根据权利要求1所述的多语言信息检索一体化检索方法,其特征在于词组中的单词tijs在查询文档D中的似然概率P(tijs|D)可以由以下方法求得:
把对数函数和P(tijs|D)结合在一起使用来计算最终的生成概率,于是得出
p ( t ijs | D ) = log [ 1 + tf ( t ijs ) / ( δ × df ( t ijs ) | C | ) ]
δ是一个平滑因子,主要用以调节该方法的作用。
4.根据权利要求1所述的多语言信息检索一体化检索方法,其特征在于词组中的单词tijs在查询文档D中的似然概率P(tijs|D)可以由以下方法求得:
整个词组在独立模型下的生成概率的计算过程为:
log ( P ( t ij 1 t ij 2 · · · t ijn | D ) ) = log [ Π s = 1 n P ( t ijs | D ) ]
= Σ s = 1 n log [ P ( t ijs | D ) ]
= Σ s = 1 n log [ 1 + tf ( t ijs ) / ( δ × df ( t ijs ) | C | ) ] + n × log δ δ + | D |
δ是一个平滑因子,主要用以调节该过程的作用。
5.根据权利要求1所述的多语言信息检索一体化检索方法,其特征在于步骤四中μEx,μCo,μUn三个参数的具体确定方法为:选用EM算法估计三个参数的具体值,通过不断迭代以使文档生成查询概率P(tij|D)达到最大化。
6.根据权利要求1所述的多语言信息检索一体化检索方法,其特征在于步骤五中计算sim(qi,tij+VD)具体如下:用c(qi,tij)表示qi和tij在HowNet中组成的概念,得出sim(qi,tij+VD)=sim(c(qi,tij),VD),如下式计算一个概念和一个单语词汇向量的相似度:
sim ( c ( q i , t ij ) , V D ) = Σ m = 1 | V D | val ( w m ) × max ( sim ( c ( q i , t ij ) , c ( w mn ) ) ) Σ m = 1 | V D | val ( w m )
val(wm)是特征向量VD的第m个特征词的权重,用TF-IDF计算权重大小,由于wm是一个单语的词汇,因此它和一个概念的相似度就是wm的各个概念和这个概念相似度的最大值,其中c(wmn)表示wm的第n个概念。
CN2009102174628A 2009-12-30 2009-12-30 多语言信息检索一体化检索方法 Active CN101763402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102174628A CN101763402B (zh) 2009-12-30 2009-12-30 多语言信息检索一体化检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102174628A CN101763402B (zh) 2009-12-30 2009-12-30 多语言信息检索一体化检索方法

Publications (2)

Publication Number Publication Date
CN101763402A CN101763402A (zh) 2010-06-30
CN101763402B true CN101763402B (zh) 2012-07-04

Family

ID=42494566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102174628A Active CN101763402B (zh) 2009-12-30 2009-12-30 多语言信息检索一体化检索方法

Country Status (1)

Country Link
CN (1) CN101763402B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541960A (zh) * 2010-12-31 2012-07-04 北大方正集团有限公司 一种模糊检索的方法及装置
CN102654867B (zh) * 2011-03-02 2013-12-11 北京百度网讯科技有限公司 一种跨语言搜索中的网页排序方法和系统
CN102360372B (zh) * 2011-10-09 2013-01-30 北京航空航天大学 一种跨语种的文档相似性检测方法
CN104794110B (zh) * 2014-01-20 2018-11-23 腾讯科技(深圳)有限公司 机器翻译方法及装置
CN104573019B (zh) * 2015-01-12 2019-04-02 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN106202068B (zh) * 2016-07-25 2019-01-22 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
CN106372187B (zh) * 2016-08-31 2019-12-17 中译语通科技股份有限公司 一种面向大数据的跨语言检索方法
JP6678834B2 (ja) * 2017-10-26 2020-04-08 三菱電機株式会社 単語意味関係推定装置および単語意味関係推定方法
CN108776673B (zh) * 2018-05-23 2020-08-18 哈尔滨工业大学 关系模式的自动转换方法、装置及存储介质
CN110895559B (zh) * 2018-09-12 2023-06-20 阿里巴巴集团控股有限公司 模型训练、文本处理方法、装置以及设备
CN109992647B (zh) * 2019-04-04 2021-11-12 鼎富智能科技有限公司 一种内容搜索方法及装置
CN110232080B (zh) * 2019-05-23 2021-06-29 智慧谷(厦门)物联科技有限公司 一种基于区块链的快速检索方法
CN114691826B (zh) * 2022-03-10 2022-12-09 南京云设智能科技有限公司 基于共现分析和谱聚类的医疗数据信息检索方法
CN117493585B (zh) * 2023-12-29 2024-03-22 安徽大学 一种基于大语言模型的数据检索系统

Also Published As

Publication number Publication date
CN101763402A (zh) 2010-06-30

Similar Documents

Publication Publication Date Title
CN101763402B (zh) 多语言信息检索一体化检索方法
Khan et al. Extractive based text summarization using k-means and tf-idf
Maekawa et al. Balanced corpus of contemporary written Japanese
CN102253930B (zh) 一种文本翻译的方法及装置
Shekarpour et al. Keyword query expansion on linked data using linguistic and semantic features
Biswas et al. A framework for restricted domain Question Answering System
Yu et al. Question classification based on MAC-LSTM
Baykara et al. Abstractive text summarization and new large-scale datasets for agglutinative languages Turkish and Hungarian
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
Tripathi et al. Word sense disambiguation in Hindi language using score based modified lesk algorithm
Karpagam et al. A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet
Steffek et al. Terminological entrepreneurs and discursive shifts in International Relations: how a discipline invented the “international regime”
Haque et al. Approaches and trends of automatic bangla text summarization: challenges and opportunities
Madnani et al. Multiple alternative sentence compressions for automatic text summarization
Wang et al. A joint chinese named entity recognition and disambiguation system
Mohnot et al. Hybrid approach for Part of Speech Tagger for Hindi language
CN103235833B (zh) 一种借助统计机器翻译的答案检索方法及装置
Patel et al. An automatic text summarization: A systematic review
Rosset et al. The LIMSI participation in the QAst track
Thaker et al. Domain specific ontology based query processing system for Urdu language
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
Ngo et al. Ontology-based query expansion with latently related named entities for semantic text search
Seo et al. Performance Comparison of Passage Retrieval Models according to Korean Language Tokenization Methods
Kupiyalova et al. Semantic search using Natural Language Processing
German et al. Information extraction method from a resume (CV)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200401

Address after: 150001 No. 118 West straight street, Nangang District, Heilongjiang, Harbin

Patentee after: Harbin University of technology high tech Development Corporation

Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right