CN101571852B - 词典生成装置以及信息检索装置 - Google Patents

词典生成装置以及信息检索装置 Download PDF

Info

Publication number
CN101571852B
CN101571852B CN200810091300XA CN200810091300A CN101571852B CN 101571852 B CN101571852 B CN 101571852B CN 200810091300X A CN200810091300X A CN 200810091300XA CN 200810091300 A CN200810091300 A CN 200810091300A CN 101571852 B CN101571852 B CN 101571852B
Authority
CN
China
Prior art keywords
entry
word frequency
language
contrast
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810091300XA
Other languages
English (en)
Other versions
CN101571852A (zh
Inventor
夏迎炬
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN200810091300XA priority Critical patent/CN101571852B/zh
Publication of CN101571852A publication Critical patent/CN101571852A/zh
Application granted granted Critical
Publication of CN101571852B publication Critical patent/CN101571852B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及词典生成装置以及信息检索装置。所述词典生成装置包括:词频统计部,用于统计在包括关注语言和对比语言的多语语料中,所述关注语言的关注词条的词频以及所述关注词条的对比词条的词频,所述对比词条是所述关注词条的所述对比语言的翻译词;词频相似度计算单元,计算所述关注词条的词频和所述对比词条的词频的词频相似度;以及词条选择单元,根据所述词频相似度计算单元计算出的词频相似度,确定字典用词条。

Description

词典生成装置以及信息检索装置
技术领域
本发明涉及词典编辑及信息检索领域,具体而言,涉及使用多语信息生成词典,以及在信息检索装置中使用该词典构建特征向量的方法。
背景技术
随着互联网的发展和存储技术的提高,计算机可读的文本信息也越来越多。其海量的信息一方面给人们获取自身感兴趣信息带来机会,另一方面也迫使人们往往要花费大量的人力和物力在信息的汪洋大海中查找有用信息。信息检索技术正是为了解决这一需求而产生的。在信息检索系统中,为了进行快速检索,或者获得更多的信息(如词性、同现频率、命名实体等),或者对关键词进行评估,通常使用词典来辅助信息检索过程。关于词典的生成和编辑,有很多文献,例如:
“Dictionary memory for text processing using word frequency and wordrecency occurrence information”,美国专利公开号:US 5,652,898;
“System for creating a dictionary”,美国专利公开号:US 6,192,333;
“Dictionary and index creating system and document retrieval system”,美国专利公开号:US 6,493,713;
“Key word dictionary producing method and apparatus”,美国专利公开号:US 6,948,121;
“Method and apparatus for adapting a class entity dictionary used withlanguage models”,美国专利公开号:US 7,124,080;
《词典、分段和语言模型联合优化的系统和迭代方法》(专利号:CN1387651A);以及
《用于调试与语言模型一起使用的类实体词典的方法和设备》(专利号:CN1419184A)。
在信息检索中,使用合适的词典,特别是使用和检索模型密切相关的词典将会对检索系统的性能带来很大的帮助。在信息检索的向量空间模型中,词典对于向量的构造更是起到了关键的作用。向量空间模型采用TF-IDF(Term-Frequency Inverse-Document-Frequency)将文档转化为向量形式,通过计算相似度,得到与用户检索相关的结果。在构造向量的过程中,参与向量构造的词汇将对系统的性能起很大的作用。关于向量空间模型,有很多现有的专利文献进行了探讨,如:
《信息检索系统》(专利号:CN1324046A);
《文档和信息检索方法及设备》(专利号:CN1507596A);以及
《文本检索装置及方法》(专利号:CN1741012A)。
上述文献主要集中在项的表示、权重的计算等方面。事实上,由于在构建文档向量过程中,除少数禁用词不参与向量构建以外。文档中其它的词都将参与向量的构建。这样一方面给向量带来了大量的噪声,另一方面也会造成向量维数过高,在文档较长的情况下会给运算造成困难。另外,向量中的噪声过多,会造成检索系统的性能下降,而且由于过多的噪声导致的向量维数过高也严重影响了系统的速度。但是目前的信息检索系统却没有有效的方法来解决这一问题。
发明内容
本发明鉴于以上情况作出,提出了一种词典建立方法以及使用这种词典的信息检索装置,用于解决或缓解现有技术中存在的一种或更多种缺点,至少提供一种有益的选择。
为了实现上述目的,本申请提供了以下的发明:
发明1、一种词典生成装置,其特征在于,所述词典生成装置包括:词频统计部,用于统计在包括关注语言和对比语言的多语语料中,所述关注语言的关注词条的词频以及所述关注词条的对比词条的词频,所述对比词条是所述关注词条的所述对比语言的翻译词;词频相似度计算单元,用于计算所述关注词条的词频和所述对比词条的词频的词频相似度;以及词条选择单元,根据所述词频相似度计算单元计算出的词频相似度,确定字典用词条。
发明2、根据发明1所述的词典生成装置,其特征在于,所述双语语料或多语语料是多语对齐语料。
发明3、根据发明1所述的词典生成装置,其特征在于,所述词频相似度计算单元依据以下方法之一计算所述词频相似度:
方法1:
将所述关注词条的词频与所述对比词条的词频之差作为所述词频相似度;
方法2:
将所述关注词条的词频与所述对比词条的词频的比值和所述比值的倒数这两者中较大的一个作为所述词频相似度;
方法3:
将所述关注词条的词频的对数与所述对比词条的词频的对数的比值和该比值的倒数这两者中较大的一个作为所述词频相似度。
发明4、根据发明1所述的词典生成装置,其特征在于,所述装置还包括以下单元中的一个或更多个:
一词多译处理单元,用于在所述关注词条具有两个或更多个对比词条时,根据预定的标准选择预定数目的对比词条;
词频调整单元,用于判断所述关注语言中的所有所述关注词条的词频在整体上是否明显高于或低于所述对比语言中的所有所述对比词条的词频,如果明显高于或低于,则进行词频调整,使所述关注语言中的所有所述关注词条的词频在整体上与所述对比语言中的所有所述对比词条的词频在整体上相接近;以及
词条选择条件处理单元,用于确定所述词条选择单元确定出的字典用词条的多少。
发明5、根据发明1所述的词典生成装置,其特征在于,所述词条选择单元根据以下标准选择字典用词条:
所述词频相似度在预定的阈值范围内。
发明6、根据发明1所述的词典生成装置,其特征在于,所述词典生成装置还包括趋势确定单元,所述趋势确定单元根据所述关注词条的词频,对所述关注词条与所述对比词条组成的翻译词对进行排序;
词条选择单元根据以下标准选择字典用词条:
所述翻译词对的词频相似度在预定的阈值范围内;并且
排序在后的翻译词对的词频相似度小于排序在前的翻译词对的词频相似度。
发明7、根据发明1所述的词典生成装置,其特征在于,所述多语语料涉及三种或更多种语言,所述词典生成装置还包括对比语言设置单元,所述对比语言设置单元将所述多语材料所涉及的语言中所述关注语言之外的语言集总地设为对比语言,所述对比词条的词频是指所述关注词条在各种对比语言中的对比词条的词频的和。
发明8、根据发明1所述的词典生成装置,其特征在于,所述多语语料涉及三种或更多种语言,所述词典生成装置还包括对比语言设置单元,所述对比语言设置单元逐一将所述多语材料所涉及的语言中所述关注语言之外的语言设置为对比语言,所述词条选择单元将针对各对比语言选出的各关注词条集合中所共有的关注词条设为最终的关注词条。
发明9、根据发明4所述的词典生成装置,其特征在于,所述一词多译处理单元依据下列排序方法中的一种或更多种对所述关注词条和所述对比词条组成的翻译词对进行排序,并选取排序最前的翻译词对中的词条作为字典用词条:
排序方法1:根据所述对比词条的词频,词频高的排在前面;
排序方法2:根据所述翻译词对的词频相似度,词频相似度高的排在前面;
排序方法3:根据所述翻译词对中的所述关注词条和所述对比词条的共现频率,共现频率高的排在前面;
排序方法4:根据所述对比词条在所述多语语料中出现的先后顺序,先出现的排在前面;以及
排序方法5:根据所述翻译词对中的所述关注词条和所述对比词条的词性相同与否,词性相同的排在前面。
发明10、一种信息检索装置,所述信息检索装置包括:
检索条件输入单元,用于输入信息检索的检索条件;
搜索引擎,用于根据所述检索条件输入单元输入的所述检索条件进行信息检索,返回检索结果;
存储部,存储有发明1-9任一发明所述的词典生成装置所生成的字典;
特征向量生成部,根据所述字典生成所述检索条件和所述检索结果的特征向量;以及
检索结果过滤部,根据所述特征向量生成部所生成的所述检索条件的特征向量和所述检索结果的特征向量对搜索结果进行过滤。
发明11、一种信息检索装置,所述信息检索装置包括:
检索条件输入单元,用于输入信息检索的检索条件;
搜索引擎,用于根据所述检索条件输入单元输入的所述检索条件进行信息检索,返回检索结果;
发明1-9任一发明所述的词典生成装置,用于生成特征向量生成用字典用的词条;
特征向量生成部,根据所述特征向量生成用字典中的词条生成所述检索条件的特征向量和所述检索结果的特征向量;以及
搜索结果过滤部,根据所述特征向量生成部所生成的所述检索条件的特征向量和所述检索结果的特征向量对搜索结果进行过滤。
发明12、根据发明10或发明11所述的信息检索装置,其特征在于,
所述信息检索装置还包括词汇列表生成部,所述词汇列表生成部根据所述特征向量生成用字典中的词条和与所述检索条件或检索结果相关的特定词汇生成词汇列表;以及
所述特征向量生成部根据所述词汇列表生成所述检索条件和所述检索结果的特征向量。
发明13、根据发明10或发明11所述的信息检索装置,其特征在于,
所述信息检索装置还包括查询表示生成部,所述查询表示生成部根据所述查询条件以及用户的其它输入信息,生成查询表示;
所述特征向量生成部生成所述查询表示的特征向量和所述检索结果的特征向量;以及
所述搜索结果过滤部根据所述特征向量生成部所生成的所述查询表示的特征向量和所述检索结果的特征向量对搜索结果进行过滤。
发明14、根据发明12所述的信息检索装置,其特征在于,所述特定词汇为所述检索条件或用户输入的检索辅助信息中出现的词或检索结果中包含的以下内容中的一种或更多种:人名、地名、机构名、产品名、商标名、标题词。
发明15、一种计算机程序,该计算机程序在被CPU或其它逻辑部件执行时或在经解释或编译后被CPU或其它逻辑部件执行时,使所述CPU或其它逻辑部件实现:时词频统计部,用于统计在包括关注语言和对比语言的多语语料中,所述关注语言的关注词条的词频以及所述关注词条的对比词条的词频,所述对比词条是所述关注词条的所述对比语言的翻译词;词频相似度计算单元,用于计算所述关注词条的词频和所述对比词条的词频的词频相似度;以及词条选择单元,根据所述词频相似度计算单元计算出的词频相似度,确定字典用词条。
发明16、一种计算机可读存储介质,所述计算机可读存储介质存储上述发明15所述的计算机程序。所述计算机可读存储介质例如可以是CD、DVD、软盘、磁带、硬盘驱动器、闪存、ROM、RAM等。
利用本发明的词典来对构建向量的词汇进行约束,去除了构造文档向量过程中产生的噪声,可以提高系统的性能;或者降低了向量的维数,提高了系统的处理速度。
附图说明
所包括的附图用于进一步理解本发明,其并入并构成了本申请的一部分,示出了本发明的实施方式,并与说明书一起用于解释本发明的原理。在附图中:
图1给出了依据本发明的第一实施方式的词典生成装置的示意图;
图2给出了依据本发明的第二实施方式的词典生成装置的示意图;
图3给出了依据本发明的第三实施方式的词典生成装置的示意图;
图4给出了依据本发明的第四实施方式的词典生成装置的示意图;
图5和图6以图示的方式给出了本发明的一种具体的词条选择示意图;
图7给出了依据本发明的第五实施方式的词典生成装置的示意图;
图8示出了依据本发明一种实施方式的词典生成方法的流程图;
图9示出了根据本发明一种实施方式的信息检索体系结构的系统示意框图;
图10示出了根据本发明一种实施方式的对用户输入的处理示意框图;
图11示出了根据本发明一种实施方式的特征向量生成部的示意框图;
图12到图14示出了使用本发明中所示的词典的信息检索系统的实验结果;以及
图15给出了系统的处理速度和F值之间的关系曲线。
具体实施方式
在向量空间模型中,特征向量的构造、相似度的计算都基于词汇的统计信息。词汇统计信息(TF-IDF)在计算项的权重时起着至关重要的作用。因而,如何有效地利用词汇统计信息是本领域中所关注的重要问题,也是本发明重点要解决的问题。
词汇的统计信息(如词频)的计算是和语言无关的。无论针对哪一种语言,在使用向量空间模型的时候,都是基于词汇的统计信息来判断文档的相似度的。
设在某种语言i(比如中文)下使用的一组关键词k对一组示例文本(Ti)进行检索得到的结果为Ri。并假设在将该种语言的关键词和示例文本翻译成另一种语言j(比如英语)后,利用翻译后的关键词k1对翻译后的示例文本(Tj)进行检索得到的结果为Rj。理想的情况是:Ri和Rj是同一内容的不同语言版本。在达不到理想情况下,也希望Ri和Rj实际所表达的内容接近一致。Ri是在语言i的情况下,使用基于示例文本Ti的统计信息进行计算得来的。而Rj是在语言j情况下,使用基于示例文本Tj的统计信息进行计算得来的。如果要求Ri和Rj接近一致的话,就要要求Ti和Tj的统计信息在某种约束下是一致的。这样的一致性约束也可以作为Ti和Tj中词条的选择标准。这也是本发明生成和编辑词典的依据。
下面结合附图,详细描述本发明的具体实施方式。
图1给出了依据本发明的第一实施方式的词典生成装置的示意图。如图1所示,依据本发明的第一实施方式的词典生成装置包括词频统计部11、词频相似度计算单元12和词条选择单元13。
词频统计部11对输入的多语语料中的词汇的词频进行统计。所输入的多语语料可为包含两种不同语言的文档的资料,该两种不同语言的文档彼此对应(也称双语语料)。所输入的多语语料也可为包含3种或3种以上不同语言的文档的资料,所述多种不同语言的文档彼此对应。双语语料的示例例如同时包含国际专利申请的英文国际公开和其进入中国后的中文的公开文本等的资料。优选地,这里说的对应是指语料中的不同语言的文档中的语句也是一一对应的。这种语料称为多语对齐语料(含两种语言时,也称双语对齐语料)。但这里的对应并不限于该种情况。所说的对应可以是指一种语言的文档和另一种语言的该文档的摘要翻译或对该文档的非对应性的翻译。即并不要求该同一文章的语句都是一一对应的,只要它们描述的是相同的内容或者说提供了相同的信息即可。对语料的数目没有特别的限制,可以有很多篇。
应该说明的是,本发明中,多语语料的用法除非在上下文中特指,其不仅包括涉及三种语言及多语三种语言的情况,也包括仅涉及两种语言的情况。即多语语料的范围包括了双语语料。
在双语语料的情况下,词频统计部140获得第一种语言的词条在第一种语言中的词频,以及该词条的第二语言的翻译词在第二种语言中的词频。在多语语料的情况下,还获得该词条的其它语言的翻译词在该其它语言中的词频。为说明方便,在以下的说明中,仅针对双语语料的情况进行说明。在本文中,该第一语言的词条称为原始词条,该原始词条在第二语言中的翻译词称为对比词条。根据上下文,词条一词可以指原始词条或对比词条中的一个,或者指它们两者。有时,原始词条和其对比词条一起称为翻译词对。另外,在本文中,在双语语料的情况下,将第一语言称为关注语言,将第二语言称为对比语言。在多语语料的情况下,第一语言称为关注语言,可以将其它语言通称为对比语言或将逐一将其它的语言指定为对比语言。
语料主要用于得到翻译词对所对应的词汇统计信息。假定对于某一种语言i(例如中文)有一个词汇列表:Ti={ti 1,ti 2,…,ti n},下标1、2…n表示词条的编号,n为任意正整数,ti n表示语言i的第n个词条。对于任意一个词条ti k∈Ti(k为1到n中的任意一个整数),设Sj ik={tj k1,tj k2,…,tj kr}为ti k在语言j下的所有翻译词条(tj k1表示词条ti k在j语言下的第一个翻译词条,其余的依此类推,r为任意整数),Fji k={Fj k1,fj k2,…,fj kr}为{tj k1,tj k2,…,tj kr}在语言j下对应的词频(符号fj k1表示j语言下词条tj k1出现的频率)。fi k为ti k在语言i下的词频。
在词频统计部11获得某一原始词条在第一种语言中的词频(原始词条的词频)以及该原始词条的对比词条在第二种语言中的词频之后(对比词条的词频),由词频相似度计算单元12计算该第一种语言的词条(原始词条)的词频和该词条的第二语言的翻译词(对比词条)的词频之间的词频相似度。该词频相似度即某一词条在两个语种之间的出现词频相似度。
用D(ti,tj)来表示原始词条ti和对比词条tj之间的词频相似度,设ti,tj的词频分别为fi,fj。在本发明的具体实施方式中可使用以下公式1到3的任一方法来计算词频相似度。
D(ti,tj)=fi-fj                            (1)
即词频相似度为原始词条在第一语言中的词频与该原始词条的对比词条在第二语言中的词频之差。
D(ti,tj)=max(fi/fj,fj/fi)                 (2)
即词频相似度是该原始词条在第一语言中的词频与该原始词条的对比词条在第二语言中的词频的比值和所述比值的倒数这两者中较大的一个。
D(ti,tj)=max(log(fi)/log(fj),log(fj)/log(fi))  (3)
即词频相似度为该原始词条在第一语言中的词频的对数与该原始词条的对比词条在第二语言中的词频的对数之比和该原始词条的对比词条在第二语言中的词频的对数与该原始词条在第一语言中的词频的对数的比这两个比值中较大的一个。
此处log表示对数,例如以e为底或以10为底的对数。
在实际应用中,可以根据具体的情况选择上述公式中的一个作为词频相似度的计算函数。
在词频相似度计算单元12计算出各翻译词对的词频相似度之后,由词条选择单元13用于判断各翻译词条对是否是可以用于词典的翻译词条对,将可以用于词典的翻译词条对中的词条选择为词典用词条。
具体地,词条选择单元13根据以下公式4选择词典用词条。
|D(ti,tj)|<δ                     (4)
将选出的翻译词对(即符合公式4的翻译词条对)中的原始词条列入第一词典中。可以将选出的翻译词对中的翻译词条也列入所述第一词典中,或者列入与所述第一词典分开的另一词典中。
虽然在以上的说明中,在词频相似度计算单元12计算出所有翻译词对的词频相似度之后才由词条选择单元13进行词典用词条的选择,但可以在词频相似度计算单元12每计算出一个翻译词对的词频相似度之后就判断其是否是词典用词条。
在一种语言到另一种语言的翻译过程中,所述一种语言中的某个词(字)会翻译成另一种语言中的多个词(字)。即一个原始词条可能对应于多个翻译词条。在第一实施方式中,将同一原始词条与其不同的翻译词条构成的各翻译词对看作是不同的翻译词对。有时,这样的处理可能并不是有利的。
图2给出了依据本发明的第二实施方式的词典生成装置的示意图。图2所示的词典生成装置与图1所示的第一实施方式的词典生成装置相比,除增加了一词多译处理单元14外,其余的均相同。为了说明简洁,省略了对相同部分的重复描述。
如图2所示,一词多译处理单元14可以用于确定一词多译情况的发生,在实际处理中可以根据现有的翻译词典或在多语语料中直接统计的方法得到一词多译的词对。对于一词多译的情况,一词多译处理单元114按照以下的方法进行排序处理,并选取排序后的预定个数的翻译词对。
在本发明的一种具体实施方式中,一词多译处理单元114按照翻译词对的共现频率来对翻译词对进行排序。共现频率即翻译词对中的原始词条和对比词条在多语语料或双语语料中同时出现的频率。具体说来就是,如果对于语言i中的一个词条ti k,对应于语言j中的有若干个翻译tj k1,tj k2,…tj kn,那么就统计在双语语料中(ti k,tj k1),(ti k,tj k2),…(ti k,tj kn)出现的频率(即共现频率),按共现频率大小进行排序。然后选取共现频率较大的若干个翻译词对。在一种实施方式中,仅选取共现频率最大的翻译词对。
共现频率的计算或统计可以由词频统计部11来完成。
在本发明的另一种具体实施方式中,一词多译处理单元114按照翻译词对中对比词条的词频对翻译词对进行排序。具体地,仅仅使用tj k1,tj k2,…tj kn在语言j的出现频率(fj k1,fj k2,…fj kn)来对各翻译词对排序,然后选取排序靠前的若干个翻译词对。在一种实施方式中,仅选取最前面的一个翻译词对。
在本发明的另一种具体实施方式中,一词多译处理单元114按照各翻译词条中原始词条和对比词条的词频相似度(D(ti k,tj k1),D(ti k,tj k2),…,D(ti k,tj kn))来对翻译词对进行排序,选取词频相似度较大的若干翻译词对。在一种实施方式中,仅选取词频相似度最大的一个翻译词对。
在本发明的另一种具体实施方式中,一词多译处理单元114按照各翻译词对中原始词条和对比词条的词性对各翻译词对进行排序。原始词条和对比词条词性相同的翻译词对排在前面。
在本发明的另一种具体实施方式中,一词多译处理单元114根据翻译词对在多语词典中出现的先后顺序进行排序,出现在前的排在前面。然后选取排序靠前的若干个翻译词对。在一种实施方式中,仅选取最前面的一个翻译词对。
以上的几种方式可以混合使用,例如在共现频率相同的情况下,根据词性、出现顺序、或对比词条的词频等进行进一步的排序。
在第一种实施方式和第二种实施方式中,词条选择单元13仅根据公式4进行词典用词条的选择,这种选择标准还是比较宽松的,可能还会留有一些噪声。因而根据需要,有时需要词条选择单元13根据更严格的标准来选择词典用词条。
图3给出了依据本发明的第三实施方式的词典生成装置的示意图。图3所示的词典生成装置与图2所示的第二实施方式的词典生成装置相比,增加了趋势确定单元15。为了说明简洁,省略了对相同部分的重复描述。但应该注意,在第三实施方式中也可以省略一词多译处理单元14,这样第三实施方式的词典生成装置与第一实施方式的词典生成装置的差别就仅在于趋势确定单元15了。因而,在图3中,一词多译处理单元14以虚框示出。
在本发明的第三实施方式中,趋势确定单元15首先根据各翻译词对中原始词条在第一种语言中的词频对翻译词对进行排序,将原始词条在第一种语言中的词频高的翻译词对排在前面。然后词条选择单元13不仅根据公式4还根据以下公式5来选择可用于词典的词条。
D(ti 1,tj 1)≤D(ti 2,tj 2)≤…≤D(ti n,tj n)      (5)
应该注意,公式5中的ti 1、ti 2、ti n等是按词频排序后的原始词条。
公式5保证了各词条在各语言中出现的频率的趋势保持一致。一般而言,在一种语言中出现频率高的词,其另一种的翻译词在该另一种语言中出现的频率也是高的。
图4给出了依据本发明的第四实施方式的词典生成装置的示意图。图4所示的词典生成装置与图3所示的第三实施方式的词典生成装置相比,增加了词频调整单元16。为了说明简洁,省略了对相同部分的重复描述。但应该注意,在第四实施方式中也可以省略趋势确定单元15。因而,在图4中,趋势确定单元15也以虚框示出。
在第四实施方式中,词频调整单元16判断翻译词对中原始词条的词频和对比词条的词频整体大小(在一种具体的实施方式中,可以采用计算对比词条的移动平均值(该词条附近N个点的平均值,N是可选的整数值)的方法来获得对比词条的整体频率趋势),当判断出原始词条的词频整体上明显高于或低于对比词条的词频时,对原始词条的词频进行调整,使原始词条的词频与对比词条的词频相接近。在一种实施方式中,可以将所有的原始词条的词频增加或减少一预定值。在另一种实施方式中,可以将所有的原始词条的词频乘以一个预定系数。然后再计算词频相似度以及进行词条选择。当然,词频调整单元16也可以不对原始词条的词频进行调整,而对对比词条的词频进行调整,或者对原始词条的词频和对比词条的词频两者进行调整。在对原始词条的词频和对比词条的词频两者进行调整时,例如可以分别乘以预定的系数,或者分别增加或减少预定值。
词频相似度计算单元12根据调整后的词频,进行词频相似度计算。例如在增加或减少预定值H的情况下,词频相似度计算单元12此时计算词频相似度D(ti 1+H,tj 1)。
在不存在趋势确定单元15的情况下,词条选择单元13例如根据以下公式6进行词条选择。
|D(ti 1+H,tj 1)|<δ                              (6)
公式6也是以增加预定值为示例进行说明的,如上所述,可以采用其它的方式。
在存在趋势确定单元15的情况下,词条选择单元13例如根据公式6和以下公式7进行词条选择。
D(ti 1+H,tj 1)≤D(ti 2+H,tj 2)≤…≤D(ti n+H,tj n)   (7)
公式7也是以增加预定值为示例进行说明的,如上所述,可以采用词频相似度计算其它的方式。
图5和图6以图示的方式给出了本发明的一种具体的词条选择示意图。在图中,x轴为翻译词对,Y轴为词频的对数。粗实线(210和310)对应的曲线是在第一语言条件下该翻译词对的原始词条的词频对数曲线,细实线对应的曲线(220和320)是第二语言下该翻译词对的对比词条的词频对数曲线。在本实施例中,使用的词频相似度函数为式(2)所示。
在图5中,如果使用式(4)作为约束条件,则在曲线220上的处于虚线230和240之间的点所对应的翻译词对将被保留。如果使用式(4)和式(5)作为约束条件,则在曲线220上处于线250和260之间的点所对应的翻译词对将被保留。
图6示出了具体应用中的另一种情况,在图中第二语言的整体词频明显高于第一语言的词条的词频,也即第二语言的词条的词频总体上处于曲线310的上方。这时,采用将曲线310整体上移的方法。在图3中上移后的曲线表现为曲线330。
如果使用式(6)作为约束条件,则在曲线320上的点处于虚线340和350之间的将被保留。如果使用式(6)和式(7)作为约束条件,则在曲线320上的点处于线360和370之间的将被保留。
从上面的叙述中,可以看出δ的选择很重要,不同的δ值将导致最终筛选出来的词汇量大小的变化。在实际应用中,可以通过设置不同的δ值来获得不同规模的词汇列表。通过δ值来控制最终生成的词典的规模。
图7给出了依据本发明的第五实施方式的词典生成装置的示意图。图7所示的词典生成装置与图4所示的第四实施方式的词典生成装置相比,增加了词条选择阈值处理单元17。为了说明简洁,省略了对相同部分的重复描述。
如图7所示,词条选择阈值处理单元17根据来自训练系统的实际检索的效果来设置不同的δ值,并使训练系统达到最优的检索效果的δ值传输给词条选择单元13,从而对词条选择单元13所选出的词条的数目进行控制。另外,其也可直接确定出所选的词条的数目。
上述的是两种语言之间的对应关系。在多语(语言的数目>2)的情况下,对每种语言组合都进行如上的操作,确定出符合条件的翻译词对,综合这些已选好的词对最终对每种语言生成词典。
具体地,在一种实施方式中,词典生成装置还包括对比语言设置单元。在一种实施方式中,该对比语言设置单元将多语语料所涉及的语言中除关注语言之外的所有语言都设置为对比语言。词频统计部11将多语语料中的翻译词条的词频相加作为对比词频,然后词频相似度计算单元12计算原始词条的词频和所有翻译词条的词频的和之间的词频相似度,然后词条选择单元13根据计算出的词频相似度进行选择。
在这种情况下,当存在一词多译的情况时,仍可按照各对比语言确定合适数目(例如1个)的翻译词条,并将所确定出的翻译词条在其本语言中的词频相加,并进而与其它对比语言的翻译词条的词频相加,作为对比词频。
另外,在另一种实施方式中,该对比语言设置单元将多语语料所涉及的语言中出关注语言之外的语言逐一设置为对比语言。词频统计部11、词频相似度计算单元12、词条选择单元13等完全按照两种语言的模式进行操作,即分别将第二种语言、第三种语言、…、第n种语言作为对比语言分别得出各自的第一语言的词典。然后选择各第一语言的词典中都包含的共有词条作为最终的词条。或者也可将各第一语言的词典中的各词条组合起来。
图8示出了依据本发明一种实施方式的词典生成方法的流程图。
如图8所示,依据本发明一种实施方式的词典生成方法,首先在步骤801进行词频统计,即例如在双语语料的情况下,统计第一种语言(关注语言)的词条(原始词条)的词频,并统计该原始词条的第二种语言的翻译词(对比词条)在第二种语言中词频。然后在步骤802中进行一词多译处理,例如从在一词多译的情况下出现的包含相同的原始词条的翻译词对中,依据对比词条的词频选取适当个数的翻译词对。接着,在步骤803中进行词频调整,即在原始词条的词频和对比词条的词频整体趋势相差明显时,进行词频调整。在步骤804中,进行词频相似度计算,计算各翻译词对中,原始词条的词频与对比词条的词频的词频相似度。接着在步骤805,进行趋势确定,根据原始词条的词频,对翻译词对进行排序。而后在步骤806中,根据公式6和7进行词条的选择。另外,可以根据系统的反馈,在步骤807中调整词条选择中所使用的阈值,从而重新进行选择。
以上的方法示例仅仅是示例性的。本领域技术人员完全可以根据前面的说明对其进行各种改变。例如去除步骤802和/或805、调整步骤802的位置、以及改变词条选择步骤806中使用的方法等。
图9是使用该词典的信息检索装置的系统示意框图。如图9所示,依据本发明一种实施方式的信息检索装置包括用户界面部400、特征向量生成部416、搜索引擎420、搜索结果过滤部413、查询表示生成部415、以及排序优化部414。
用户界面400用于和用户交互,获取用户输入411、将经搜索结果过滤部413以及排序优化部414处理过的检索结果417返回给用户、获得用户的反馈、获取用户的交互动作等。用户界面400可对应于本发明的检索条件输入单元。如图10所示,用户输入411包括关键词511、用户给定的描述文本512、历史信息514、用户提供的正例文本和/或反例文本515等。关键词就是用户输入的查询词。用户描述为用户提供的有助于优化检索结果、表达检索目的的进一步的详细信息,比如,当用户输入关键词“苹果”以后,可以加入一段描述:“我想了解最新苹果PC电脑产品的型号、报价、参数、评测、图片等信息,以及苹果PC电脑新闻资讯、行情、评测、经销商”。历史信息包括用户常用的查询词、经常浏览的网页、上网时间、上网地点、阅读习惯等信息。用户的正例文本就是用户提供的和其查询词相关的文本,反例文本就是用户提供的和其查询词不相关的文本。虽然这些信息并不完全都是用户直接输入的,部分是根据用户的输入所概括总结出来的,但由于它们与用户的输入有非常大的关联,因而仍然将它们称为用户输入。在本文中,将检索条件(关键词)以外的以上输入称为用户的其它输入信息或检索辅助信息。
另外,在具体的实施方式中,用户还指定或选择知识库。即输入对知识库的指定412,这可以是提供外部的知识库,也可以在系统提供的知识库中进行选定。这里的知识库包括词典和/或多语语料等。这里的词典是使用以上的方法和装置生成的词典,可以是包括多种语言的词条的单个多语词典,也可是分别包括一种语言的词条的多个单独的词典,或者是单个只包含一种语言的词条的词典。这里的知识库可以只包括所述的词典。另外,在提供了多语语料的情况下,可以随时根据所提供的多语语料生成典编辑方法构造所述的词典,在这种情况下,这里的知识库可以不包括所述的词典,但需要包括上文所述的词典生成装置。
在具体实现时,可以无需用户对知识库的指定412。
在接收到了用户输入之后,查询表示生成单元415得到搜索引擎420可以用以进行查询的查询表示(查询的表达形式)。查询表示生成单元415可以根据查询条件(例如关键词511)以及用户输入的其它信息(如用户描述、正例、反例、历史信息等)生成查询表示。
此外,在具体实现时,查询表示生成单元415的属性列表生成部521(见图10)还可根据用户输入生成属性列表531。
搜索引擎420根据查询表示生成单元415生成的查询表示进行搜索。搜索引擎420可以搜索存储在本地的资源,或在网络上进行实时搜索。搜索结束以后得到的一组搜索结果417,将搜索结果417送给特征向量生成部416。
特征向量生成部416根据词汇列表604(见图11)计算搜索结果中的各结果的特征向量,并计算查询表示生成单元415生成的查询表示的特征向量。在计算特征向量时,特征向量生成部416可以参照属性列表531(如果生成了的话)。
搜索结果过滤部413通过计算搜索结果文档的特征向量和根据用户的查询表示构建的特征向量之间的向量相似度,做出是否保留该文档的判定。具体地,首先对每一个搜索结果文档,计算其与用户模型向量之间的相似度。在本发明的一个具体示例中,其计算方法采用传统的向量夹角余弦的方法。计算的结果与相似度阈值进行比较,如果某个文档和用户模型的相似度大于阈值,则认为该文档和用户模型相关,即为满足用户需求的文档。如果某个文档和用户模型的相似度低于阈值,则认为其与用户模型不相关。在系统的处理过程中,还涉及到对相似度阈值进行动态调整的过程。该过程利用检索结果、用户反馈、相似度计算结果等信息对阈值进行调整。该过程可以采用的方法很多,例如,可以使用机器学习技术来进行阈值的动态调整。通过这样的步骤,可以对使用搜索引擎用关键词搜索得来的大量的结果文档进行筛选,得到更符合用户需求的一个较小的子集。
最终被保留的搜索结果文档经排序优化部414处理以后,通过用户界面400提交给用户。排序优化部414可以依据相似度计算的结果对文档进行排序,将和用户模型相似度最大的文档排在前面,从而方便用户查找符合需求的信息,将用户从翻阅大量搜索结果的繁重任务中解脱出来。在具体实现时,根据情况,也可以省略排序优化部414。
在可以得到用户反馈或者可以得到用户的处理动作(比如鼠标点击、翻页、打开链接、阅读文档的时间)的情况下,将这些信息收集起来反馈给处理部410,处理部410在得到这些信息以后,可以进一步的修改用户查询表示以及对搜索结果进行再处理,以期最终提供给用户满意的结果。
在以上处理过程中,文档向量的构建是系统的关键步骤。在本发明的检索系统中,使用特征向量生成部416来生成向量,特征向量生成部416具体的框图见图11。图11中左边虚线框部分600主要用来生成词汇列表604,该词汇列表被用来限制向量生成过程中使用的词汇。
应该注意到,图11示出的特征向量生成部416的结构仅仅是示例性的。在特征向量生成部包含存储有上文生成的字典时,可以省略例如词典生成部601和词典调整部602(对应于词条选择阈值处理单元807)。也就是说,可以由一个存储单元代替图11中所示的词典生成部601和词典调整部602。另外,如后文所述,也可省略词汇列表生成部603。
在构造向量空间模型时,只有出现在该词汇列表604中的词才可以参加向量的构建。由于该词汇列表是对现有的词汇根据向量空间模型在词频统计上的特点进行了约束而得到的,词表中的词汇对向量而言的区分度大大增加;而且由于这样的词汇限制,参与构建向量的词条变少,从而使得构建好的向量的平均维数大大减少,这在另一方面也提高了系统的处理速度。
但是,由于本方法从现有的翻译词对中进行筛选,势必会造成其词汇量的覆盖面不全的问题。主要是对于用户输入和文档中出现的特定词汇等,包括但不限于人名、地名、机构名、产品名、商标名、标题词等。现有的翻译词对不可能一一列举这些特定的词汇,但其重要性却是不容忽视的。在本发明中,词汇列表生成部603要对字典生成部所生成的字典(字典可以是即时生成的,也可以是预先生成并存储在存储单元中的,可以是本地生成的,也可以是远程生成的)中的词汇列表进行动态调整。比如在具体的实施例中,对于用户输入的关键词(检索条件中的词),要判断是否出现在词汇列表604中,如果未出现在词汇列表604中,则将其添加进去。对用户输入的描述信息和正例文本、反例文本中出现的特定词汇,系统一一判断其是否出现在词汇列表604中,如否,也将其加入。对于从用户反馈得到的文本,也依此处理。这样的过程保证了用户输入的关键信息不被丢失。
当然,在词汇列表中加入特定词汇的步骤仅仅是优选的,可以省略该步骤,而仅仅使用前面所述词典生成装置生成的词典(该词典也可称为特征向量生成用字典)中的词条。在这种情况下,可以省略词汇列表生成部603。
在获得了词汇列表604之后,图11中右边的虚线框610中的词汇筛选部630要采用词汇列表生成部603所获得的词汇列表604对查询表示和搜索结果进行词汇筛选。如上所述,只有出现在该词汇列表中的词才可以参加向量的构建。
词汇筛选部630对查询表述和搜索结果进行处理,得到其中的词汇信息,此后,使用权重计算部640对选中的词汇计算权重,然后由向量获得部650根据权重计算部640计算出的权重,得到最终的向量。
权重计算部640计算权重的处理和向量获得部650获得向量的具体计算方法详见下面的叙述。
在本发明的一种实施方式中,采用的模型是向量空间模型(VSM)。向量空间模型是最简便高效的文本表示模型,其基本概念包括文档、项、向量、相似度。其中文档的定义是泛指一般的文本或文本中的片断(段落、句群或句子),一般指一篇文章。尽管文档可以是多媒体对象,但为了简便,在本文的讨论中,假定该文档是文本对象,并且对文本与文档不加以区别。向量空间模型中的项的概念则是指文档中的基本语言单位(字、词、词组或短语等),这些基本的语言单位统称为项,即文档可以用项集(Term List)表示为D(t1,t2,…,tN),其中tk是项,1≤k≤N。而项的权重则是指:对于含有N个项的文档D(t1,t2,…,tN),项tk常常被赋予一定的权重wk,表示它们在文档D中的重要程度,即:D=D(t1,w1;t2,w2;…;tN,wN),简记为D=D(w1,w2,…,wN),这时说项tk的权重为wk,1≤k≤N。给定一自然语言文档D=D(t1,t2,…,tn),由于tk在文档中既可以重复出现又应该有先后次序的关系,分析起来仍有一定的难度。为了简化分析,可以暂不考虑tk在文档中的先后顺序并要求tk互异(即没有重复)。这时可以把t1,t2,…,tN看成一个N维的坐标系,而w1,w2,…,wN为相应的坐标值,因而D(w1,w2,…,wN)被看成是N维空间中的一个向量。称D(w1,w2,…,wN)为文档D的向量表示或向量空间模型,这就是向量空间模型中向量或特征向量的概念。另一个重要概念相似度是指两个文档D1和D2之间的(内容)相关程度(Degree of Relevance),常常用Sim(D1,D2)来表示。当文档被表示为VSM,可以借助于向量之间的某种距离来表示文档间的相似度,比如向量之间的内积来计算: Sim ( D 1 , D 2 ) = Σ k = 1 N w 1 k * w 2 k ,
或用夹角余弦值来表示: Sim ( D 1 , D 2 ) = cos θ Σ k = 1 N w 1 k * w 2 k ( Σ k = 1 N w 1 k 2 ) ( Σ k = 1 N w 2 k 2 )
除此之外,还有一些其他的文档距离计算公式:比如数量积法、相关系数法、指数相似系数法、最大一最小法、几何平均最小法、算术平均最小法等。
VSM的优点在于它把文档内容简化为特征项及其权重的向量表示,把对文档内容的处理简化为向量空间中向量的运算,使问题的繁杂性大为降低。
在向量空间模型中,基本的问题就是如何表达项,用来表示文档内容的项可以是各种类别,常用的有字、词、短语等。项的选择是由处理速度、精度、存储空间等方面的具体要求来决定。目前大多数的向量空间模型都是使用词作为项,另外由于词还有词性、语法功能、语义信息等特征,在向量空间模型中常常将这些信息也包含进去,作为附加信息来调整基本的项的权重,例如在本发明的系统的一种实施方式中,项的权重可以由下式来计算:
Wi’=Wi*Ai
其中Wi是项的基本权重,对于每一个项ti,计算如下:
W(ti)=log(TF(ti,d)+1)*log(N/DF(ti,d))+1)
其中词频TF(ti,d)为项ti在文档d中的出现频度,文档频率DF(ti,d)为ti在其中至少出现一次的文档的数目,N为总文档数。W(ti)刻画了项ti区分文档属性的能力。是项的权重的主要部分。
Ai用来表示项的其它属性,用来辅助项的权重计算,这主要是基于对一些特殊的词,比如命名实体、描述语句中出现的词、示例文本中的词、标题和正文中出现的词,希望借助Ai来调整其相应的权重。Ai由这些属性综合来计算,作为调整系数来调整项的基本权重。在系统中,使用属性列表生成部521来生成用户模型的属性列表。
从以上的叙述可以看出,向量空间模型中项的选择非常关键。如果项的区分性能不强的话,将会影响相似度的计算结果,从而影响系统的性能;另外一方面,如果文档向量中的项过多的话,将会造成向量的维数过大,导致严重影响系统的处理速度。目前现有的信息检索系统主要用禁用词表过滤禁用词,禁用词主要包括没有实际意义的一些介词、连词、冠词等,比如汉语中“的”、英语中的“of”等。这样的初步过滤能去掉一定的噪声信息,对提高系统的性能有一定的帮助。但是由于禁用词占全部词条的比例往往非常小,造成使用禁用词的方法对系统性能提升起到的作用很有限。而且在目前的情况下,禁用词表主要是沿用传统的数据库检索中使用的词表,没有系统的有效的生成方法。这些情况使得在向量空间模型中,需要更好的方法来对项进行选择。如在本文开始部分所述的,本发明采用翻译词对在多语语料中的统计信息来对词条进行选择。由于在向量空间模型中,项的基本权重的计算主要与其对应的词汇统计相关。那么使用词汇统计信息作为主要的筛选条件是可行的。这也是本发明生成和编辑词典的依据。
应该注意到,上面对权重计算部640和向量获得部650的描述是示例性的,本领域的技术人员可以在本发明的精神和范围内对其进行各种变型。
图12、图13和图14示出了本发明方法的具体的实施例的实验结果。图中示出了使用本发明的基于多语信息词典的选词方法,根据不同的约束条件得到的不同的词汇列表所对应系统性能。对应的横轴是词汇列表的大小,也即参与向量构建的词条数目。纵轴是系统的F值。图12中的词汇列表是从中-英对齐语料中得来的。图13中的词汇列表则是从中-日对齐语料中得来的,图14中的词汇列表是从中-英-日三语中得到。在图中的710、810和910是不使用任何词汇列表得到系统的F1值,在这种情况下,可参与向量构建的词汇数目有15867个。实验中使用的多语对齐语料是来自中文语言资源联盟(ChineseLDC)的编号为2004-863-009的三语对齐语料。该语料是汉语、英语、日语三种语言的对译平行语料库。语料库中每个领域包含汉英日平行语料44万余字,共计220余万字。语料库加工到句子层次对齐,共计包含52227个三语句对。测试集是来自中文语言资源联盟的863信息检索评测语料,编号为2003-863-006。共包含20个主题和2077篇文档。系统采用的评价指标如下:
正确率(P)=系统返回结果中正确答案的个数/系统返回结果总数
召回率(R)=系统返回结果中正确答案的个数/正确答案的总数
F1=2PR/P+R
F1是系统综合性能评价。也是信息检索系统的中普遍采用的评测指标,本实验也是采用该指标作为系统性能的综合评价。
从图中可以看出,使用本发明所示的方法,大大缩小了系统的向量的维数,从15867减少到几千直至几百。同时系统的性能得到大幅的提高。在本实验例中,从中-英对齐语料中得来的词汇列表在规模为3024情况下,从中-日对齐语料中得来的词汇列表在规模为3826情况下,从中-英-日语料中得来的词汇列表规模为3026情况下,系统性能达到最高。在此基准下,加强和放宽约束条件,系统的性能都有所下降。这主要是由于在放宽约束的情况下,会使一些噪声也加入进来;而加强约束的话,则会导致某些有用信息的丢失,系统的性能在特定大小的词汇列表情况会达到极值。三种情况下系统都是在词汇列表规模在3、4千左右的时候达到最大的F值。最大的F值是由中-英-日抽取的词汇列表产生。但系统的最大F值之间的差距并不显著。图15给出了系统的处理速度和F值之间的关系曲线。横轴为系统的速度,单位为系统每秒种处理的文档数(本实验使用的计算机配置为:pentium(R)4,CPU:2.8GHz),纵轴为系统的F值。其中1010、1020、1030分别是中-英词汇列表、中-日词汇列表、中-英-日词汇列表所对应的曲线。从图15中可以看出,在系统的速度逐渐提高的过程中,中-英-日词汇列表表现最好,保持了最好的系统性能,中-日词汇列表次之,中-英词汇列表在速度大幅提高以后,系统的性能下降较快。图中的最低速度是在词汇列表为5000左右时得到的。这种情况下的速度是不使用词汇列表的速度的两倍。由此可见,本发明有效地缩小了向量的维数,同时提高了系统的性能。
应该注意,本发明的词条应作宽泛的解释,其包括一个字(如China、虎等)、多个字组成的词汇(如中国人民解放军、united states等)、缩略语(如CPI、UK等),也包括多个词组成的短语或成语(三人成虎、一石两鸟、一箭双雕等)。
以上描述了本发明的特定的实施例。当然,本领域的普通技术人员明白本发明的更多的排列和组合是可能的。因此,所有在本发明权利要求书精神和范围内的变更、修改和变化都应归于本发明的保护范围之中。

Claims (9)

1.一种信息检索装置,所述信息检索装置包括:
检索条件输入单元(400),用于输入信息检索的检索条件;
搜索引擎(420),用于根据所述检索条件输入单元输入的所述检索条件进行信息检索,返回检索结果;
词典生成装置,用于生成字典用词条,所述字典用词条被特征向量生成用字典所采用;
特征向量生成部(416),根据所述特征向量生成用字典中的字典用词条生成所述检索条件的特征向量和所述检索结果的特征向量;以及
检索结果过滤部(413),根据所述特征向量生成部所生成的所述检索条件的特征向量和所述检索结果的特征向量对检索结果进行过滤,
其中,所述词典生成装置包括:
词频统计部(11),用于统计在包括关注语言和对比语言的多语语料中,所述关注语言的关注词条的词频以及所述关注词条的对比词条的词频,所述对比词条是所述关注词条的所述对比语言的翻译词;
词频相似度计算单元(12),用于计算所述关注词条的词频和所述对比词条的词频的词频相似度;以及
词条选择单元(13),根据所述词频相似度计算单元(12)计算出的词频相似度,确定所述字典用词条。
2.根据权利要求1所述的信息检索装置,其特征在于,所述多语语料是多语对齐语料。
3.根据权利要求1所述的信息检索装置,其特征在于,所述词频相似度计算单元(12)依据以下方法之一计算所述词频相似度:
方法1:
将所述关注词条的词频与所述对比词条的词频之差作为所述词频相似度;
方法2:
将所述关注词条的词频与所述对比词条的词频的比值和所述比值的倒数这两者中较大的一个作为所述词频相似度;
方法3:
将所述关注词条的词频的对数与所述对比词条的词频的对数的比值和该比值的倒数这两者中较大的一个作为所述词频相似度。
4.根据权利要求1所述的信息检索装置,其特征在于,所述词典生成装置还包括:一词多译处理单元,用于在所述关注词条具有两个或更多个对比词条时,根据预定的标准选择预定数目的对比词条;
词频调整单元,用于判断所述关注语言中的所有所述关注词条的词频在整体上是否明显高于或低于所述对比语言中的所有所述对比词条的词频,如果明显高于或低于所述对比语言中的所有所述对比词条的词频,则进行词频调整,使所述关注语言中的所有所述关注词条的词频在整体上与所述对比语言中的所有所述对比词条的词频在整体上相接近;以及
词条选择条件处理单元(807),用于确定所述词条选择单元(13)确定出的字典用词条的多少。
5.根据权利要求1所述的信息检索装置,其特征在于,所述词条选择单元(13)根据以下标准选择字典用词条:
所述词频相似度在预定的阈值范围内。
6.根据权利要求1所述的信息检索装置,其特征在于,所述词典生成装置还包括趋势确定单元(15),所述趋势确定单元根据所述关注词条的词频,对所述关注词条与所述对比词条组成的翻译词对进行排序;
词条选择单元(13)根据以下标准选择字典用词条:
所述翻译词对的词频相似度在预定的阈值范围内;并且
排序在后的翻译词对的词频相似度小于排序在前的翻译词对的词频相似度。
7.根据权利要求1所述的信息检索装置,其特征在于,所述多语语料涉及三种或更多种语言,所述词典生成装置还包括对比语言设置单元,所述对比语言设置单元将所述多语语料所涉及的语言中所述关注语言之外的语言集总地设为对比语言,所述对比词条的词频是指所述关注词条在各种对比语言中的对比词条的词频的和。
8.根据权利要求1所述的信息检索装置,其特征在于,所述多语语料涉及三种或更多种语言,所述词典生成装置还包括对比语言设置单元,所述对比语言设置单元逐一将所述多语语料所涉及的语言中所述关注语言之外的语言设置为对比语言,所述词条选择单元将针对各对比语言选出的各关注词条集合中所共有的关注词条设为最终的关注词条。
9.根据权利要求1所述的信息检索装置,其特征在于,所述词典生成装置包括一词多译处理单元,所述一词多译处理单元用于在所述关注词条具有两个或更多个对比词条时,根据预定的标准选择预定数目的对比词条,其中,所述一词多译处理单元依据下列排序方法中的一种或更多种对所述关注词条和所述对比词条组成的翻译词对进行排序,并选取排序最前的翻译词对中的词条作为字典用词条:
排序方法1:根据所述对比词条的词频,词频高的排在前面;
排序方法2:根据所述翻译词对的词频相似度,词频相似度高的排在前面;
排序方法3:根据所述翻译词对中的所述关注词条和所述对比词条的共现频率,共现频率高的排在前面;
排序方法4,根据所述对比词条在所述多语语料中出现的先后顺序,先出现的排在前面;以及
排序方法5,根据所述翻译词对中的所述关注词条和所述对比词条的词性相同与否,词性相同的排在前面。
CN200810091300XA 2008-04-28 2008-04-28 词典生成装置以及信息检索装置 Expired - Fee Related CN101571852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810091300XA CN101571852B (zh) 2008-04-28 2008-04-28 词典生成装置以及信息检索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810091300XA CN101571852B (zh) 2008-04-28 2008-04-28 词典生成装置以及信息检索装置

Publications (2)

Publication Number Publication Date
CN101571852A CN101571852A (zh) 2009-11-04
CN101571852B true CN101571852B (zh) 2011-04-20

Family

ID=41231211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810091300XA Expired - Fee Related CN101571852B (zh) 2008-04-28 2008-04-28 词典生成装置以及信息检索装置

Country Status (1)

Country Link
CN (1) CN101571852B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375839A (zh) * 2010-08-17 2012-03-14 富士通株式会社 从候选数据集获取目标数据集的方法和装置以及翻译机器
CN102779135B (zh) * 2011-05-13 2015-07-01 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN105608083B (zh) * 2014-11-13 2019-09-03 北京搜狗科技发展有限公司 获得输入库的方法、装置及电子设备
CN106844516A (zh) * 2016-12-28 2017-06-13 中央民族大学 一种热点词的提取方法及系统
CN107992509B (zh) * 2017-10-12 2022-05-13 如是人力科技集团股份有限公司 职位词典信息的生成方法及装置
CN109284502B (zh) * 2018-09-13 2024-02-13 广州财盟科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN109271520B (zh) * 2018-10-25 2022-02-08 北京星选科技有限公司 数据提取方法、数据提取装置、存储介质和电子设备
CN109885696A (zh) * 2019-02-01 2019-06-14 杭州晶一智能科技有限公司 一种基于自学习的外语联想词库构建方法
CN113435426B (zh) * 2021-08-27 2021-11-16 珠海亿智电子科技有限公司 用于ocr识别的数据增广方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6216102B1 (en) * 1996-08-19 2001-04-10 International Business Machines Corporation Natural language determination using partial words
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6216102B1 (en) * 1996-08-19 2001-04-10 International Business Machines Corporation Natural language determination using partial words
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Also Published As

Publication number Publication date
CN101571852A (zh) 2009-11-04

Similar Documents

Publication Publication Date Title
CN101571852B (zh) 词典生成装置以及信息检索装置
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
Kokalj et al. BERT meets shapley: Extending SHAP explanations to transformer-based classifiers
CN106294639B (zh) 基于语义的跨语言专利新创性预判分析方法
Harb et al. Web Opinion Mining: How to extract opinions from blogs?
CN100433007C (zh) 提供搜索结果的方法
CN101634983A (zh) 一种文本分类方法和装置
Sarkar Sentence clustering-based summarization of multiple text documents
CN102708100A (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
Lalmas XML retrieval
CN101650729B (zh) 一种Web服务构件库动态构造方法及其服务检索方法
CN102890711A (zh) 一种检索排序方法及系统
CN104765779A (zh) 一种基于YAGO2s的专利文档查询扩展方法
CN112818661B (zh) 一种专利技术关键词非监督提取方法
Selvaretnam et al. Natural language technology and query expansion: issues, state-of-the-art and perspectives
Wang et al. Improving short text classification through better feature space selection
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
Juan An effective similarity measurement for FAQ question answering system
Chen et al. Adding new concepts on the domain ontology based on semantic similarity
Morita et al. DODDLE-OWL: a domain ontology construction tool with OWL
CN113111653B (zh) 一种基于Word2Vec和句法依存树的文本特征构造方法
Zeng Exploration and study of multilingual thesauri automation construction for digital libraries in China
Xu et al. Incorporating semantic word representations into query expansion for microblog information retrieval
Li et al. An improved weighted-removal sentence embedding based approach for service recommendation
Li et al. Research on a new topic crawler based on HITS algorithm and semantic fusion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110420

Termination date: 20180428

CF01 Termination of patent right due to non-payment of annual fee