CN100535895C - 文本检索装置及方法 - Google Patents

文本检索装置及方法 Download PDF

Info

Publication number
CN100535895C
CN100535895C CNB2004100572115A CN200410057211A CN100535895C CN 100535895 C CN100535895 C CN 100535895C CN B2004100572115 A CNB2004100572115 A CN B2004100572115A CN 200410057211 A CN200410057211 A CN 200410057211A CN 100535895 C CN100535895 C CN 100535895C
Authority
CN
China
Prior art keywords
proper vector
weight
semantic
text
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2004100572115A
Other languages
English (en)
Other versions
CN1741012A (zh
Inventor
王洪涛
孙茂松
刘绍明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to CNB2004100572115A priority Critical patent/CN100535895C/zh
Publication of CN1741012A publication Critical patent/CN1741012A/zh
Application granted granted Critical
Publication of CN100535895C publication Critical patent/CN100535895C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种文本检索装置和方法,其对传统的检索手段进行改良,引入自然语言深层的语义信息进行信息比较及检索。本发明采用将语义信息同向量空间模型相结合的方法,通过赋予语义信息附加的权重来改进向量空间模型的向量特征值,以提高向量特征值同文本语义之间的相关度,实现高精度的信息比较及检索。由于采用向量特征值之间的相似度(距离)来衡量文本之间的相似度,所以其比较及检索速度等同于向量空间模型。

Description

文本检索装置及方法
技术领域
本发明涉及用于进行文本检索的装置和方法,具体而言,涉及考虑了语义信息的文本检索装置和方法。
背景技术
随着信息技术的发展、互联网的出现与发展,各类信息资源以惊人的速度增长。如何快速而准确地检索出自己所需要的信息,避免陷入浩瀚的信息海洋已经成为摆在人们面前的一个难题。
传统的信息存储方法主要以纸为载体,这种手段不仅耗费巨大的空间,而且查找信息极为困难,需要浪费大量的人力、物力、财力去进行各种目录的编撰。基于计算机的信息检索(Information Retrieval)技术的出现解决了这一难题。
通俗地讲,信息检索技术就是接受用户查询(query),从文档集合中查询出最贴近用户需求的文档,一个信息检索模型实际上可以看成是一个四元组:<D,Q,F,R(q,d)>,其中
1)D表示文档集合
2)Q表示用户的查询集合
3)F表示文档集合、查询集合以及相互关系的框架
4)R(q,d)是一个文档排序函数,对于每个q∈Q,d∈D,函数R(q,d)都会产生一个实数,依据该函数值对查询文档进行排序
检索的相关度实际上是信息检索技术最为看重的指标之一,多年来相关学者提出了很多改进的检索模型以期望提高检索结果的相关度:
1)Boolean检索模型(理论基础是集合论)
在此基础上提出的改进的模型主要有
a)在Boolean模型基础上,提出了基于模糊集(Fuzzy Set)的检索模型
b)扩展的Boolean检索模型
2)向量空间模型(基于线性代数理论)
在此基础上提出的改进模型主要有
a)一般化的向量空间模型(Generalized Vector Space Model)
b)潜在语义标引(Latent Semantic Index)
c)神经网络模型
3)概率模型
在此基础上提出的改进模型主要有
a)贝叶斯网络(Bayesian Networks)
b)推理网络模型(Inference Network Model)
c)信念网络模型(Belief Network Model)
其中最著名的当属向量空间模型(Vector Space Model,VSM)。Salton在20世纪60年代就开始了信息检索的理论研究,经过二十多年的努力,提出了一套系统的理论框架:用向量空间模型进行特征表达,用TF*IDF(Term Frequency&Invert Document Frequency)进行特征项赋权,用倒排文档(Invert Document)进行索引,用余弦(Cosine)夹角进行距离度量,用查全率(Recall rate)和查准率(Precision rate)评价检索系统性能。这些成果被成功地运用到基于字和词的英文信息检索中,到现在仍然是信息检索领域的研究基础。
随着人们需要处理的信息的急剧增加,绝大多数检索模型在检索结果都接近其检索性能的极限。尽管众多学者采用各种方法来改进传统的检索模型,依然无法取得令人满意的效果。可以说传统的基于自然语言表层信息的检索手段已经越来越接近其性能的极限,引入自然语言深层的语义信息很可能将是信息检索技术的发展趋势。
由于语义信息描述了句子最本质的内容,不受句子结构、形式变换的影响,因此前人在基于语义信息的检索方面作了大量的探索工作。由于完整的语义关系信息很难同传统的VSM模型相结合,因此没有人将语义信息同TF*IDF方法相结合,前人的工作几乎都是将语义关系融合到新的检索模型中,但是其检索性能却并不比传统的向量空间模型好。
前人在基于语义信息的信息检索研究中提出了以下三类有代表性的解决方案。
Lu(1990)利用格语法(Fillmore,1968;Somers,1987)来描述句子的语义关系,例如对于句子“Harry loves Sally”其中Harry与love之间是施事语义关系(experiencer),Sally与love之间是受事语义关系(patient)这里面语义关系都是围绕谓词展开的。Lu利用树匹配算法去匹配语义关系,其实验结果反而不如基于关键字的向量空间模型。一方面实验中的语义关系是程序自动发现的,存在着大量的错误判断;另一方面,他使用的树匹配方法对于信息检索来说可能并非最优,因此他的试验结果可能并没有反映语义关系匹配的真正能力。
Liu(1997)采用了部分关系匹配的方法将词汇的语义关系同向量空间模型结合起来,与其他学者尽力去匹配完整的关系不同,Liu匹配单个词汇的概念,索引的基本元素是文档中出现的概念,即对于表达同一个概念的词汇他认为是相同的索引单元。但是他的实验结果表明这种方法仅仅对长的查询有效,该检索模型在5079篇日文文档集合中同传统的VSM进行对比测试,比较两种检索模型的召回率和精确率,结果发现在召回率方面SVSM胜过传统的VSM模型,然后其精确率却低于VSM模型,二者的F值接近。
Khoo(1999)利用文档中词汇之间的因果关系进行检索,过程如下:首先通过自动抽取文档中具有因果关系的全部词汇对,然后提取Query中具有因果关系的词汇对进行查询。例如对于因果关系的词汇对:cigarettesmoking->lung cancer,可以分解成
Cigarette->lung
Cigarette->cancer
Smoking->lung
Smoking->cancer
查询的时候实际上是查询三元组(两个关键字+因果关系)。
Khoo实验结果表明在一般情况下,引入因果关系并没有得到比关键字匹配更好的结果。
总结前人的研究成果,我们发现引入语义(语法)关系并没有能够给信息检索带来更好的检索性能,但这并不能说语义信息对信息检索无效,可能只是还没有找到比较好的结合点,没有找到好的方法来更好地利用语义信息。
非专利文献1
Lu,X.(1990).An application of case relations to documentretrieval(Doctoral dissertation,University of Western Ontario,1990).Dissertation Abstracts International,52-10,3464A
非专利文献2
Fillmore,C.(1968).The Case for Case.In E.Bach&E.Harms(ed.)University in Linguistic Theory.New York:Holt,Rinehart&Winston.
非专利文献3
Liu,G.Z.(1997).Semantic Vector Space Model:Implementationand Evaluation.Journal of the American Society for InformationScience,48(5),395-417
非专利文献4
Khoo,Christopher Soo-Guan(1997).The Use of Relation Matchingin Information Retrieval.Electronic Journal ISSN 1058-6768
发明内容
由于传统的向量空间模型以及TF*IDF权重计算公式经过长时间的发展已经相对比较成熟,在此模型基础上进行改进完全可以获得比较好的检索性能。因此,本发明的目的是将语义信息同向量空间模型结合起来,通过赋予语义信息附加的权重来改进TF*IDF公式,利用文档相似度计算方法,实现高精度地实时进行文本之间的语义比较,文本信息检索。
根据本发明的一个方面,提供了一种检索文本信息的方法,包括以下步骤:对查询文本和目标文本进行语义分析,确定文本中各个单词对语义的重要程度;利用向量空间模型的方法,根据上述语义分析的结果确定查询文本和目标文本的特征向量;计算所述查询文本和目标文本的特征向量之间的相似度;以及基于上述相似度的计算结果来确定检索结果。
优选地,本发明的方法还包括:对查询文本和目标文本进行中心词分析,确定中心词所在的语义块的重要程度;并且根据语义分析和中心词分析两者的结果来确定查询文本和目标文本的特征向量。
优选地,本发明利用格语法对查询文本和目标文本进行语义分析。
根据本发明的另一个方面,提供了一种文本检索装置,包括:语义分析部,其对所输入的查询文本和目标文本进行语义分析,确定各个单词对语义的重要程度;特征向量生成部,其根据所述语义分析部的分析结果,基于向量空间模型生成查询文本和目标文本的特征向量;相似度计算部,其计算查询文本和目标文本的特征向量之间的相似度;以及目标文本提取部,其根据所述相似度计算部的计算结果提取特定的目标文本作为检索结果。
优选地,本发明的文本检索装置根据格语法对查询文本和目标文本进行语法语义分析。
优选地,本发明的文本检索装置还包括中心词分析部,其对查询文本和目标文本进行中心词分析,确定中心词所在的语义块的重要程度,并且特征向量生成部根据语法分析部和中心词分析部两者的分析结果来生成查询文本和目标文本的特征向量。
附图说明
图1示出了本发明的方法的总体流程;
图2示出了本发明第一实施例的方法中确定特征向量的流程;
图3示出了本发明第一实施例的方法的效果示例;
图4示出了本发明第二实施例的方法中确定特征向量的流程;
图5示出了本发明第二实施例的方法的效果示例;
图6示出了语义权重和中心词权重的效果比较;
图7示出了本发明第三实施例的文本检索系统的示意框图;
图8示出了本发明第三实施例的文本检索装置的示意框图。
具体实施方式
本发明将语义信息同向量空间模型结合,利用语义信息来对向量空间模型进行修正,即利用语义分析得到的附加权重来修正向量空间模型的特征向量TF*IDF。
在本发明的语义分析中可以使用各种语义分析方法,包括但不限于格语法。在下面以格语法为例对本发明进行说明。
在对本发明的实施例进行说明之前,先介绍向量空间模型和格语法。
向量空间模型
向量空间模型(VSM:Vector Space Model)方法是在文本中提取其特征项组成特征向量,并以某种方式为特征项赋权,如:文档D可表示成D(t1,t2,…,tn),其中ti是特征项,1=<i<=n。由于特征项的重要程度不同,可用附加权重Wk来进行量化,这样文档D可表示为(t1,W1;t2,W2;…;tn,Wn),简记为D(W1,W2,…,Wn),这时说项tk的权重为Wk。
最为常用的权重计算公式是TF*IDF,TF表示单词出现频次(TermFrequency),IDF表示单词在全体文档中的分布情况(基本的IDF公式为:idf=log(N/n),其中N表示文档总数,n表示包含该单词的文档数目)。
向量空间模型是指给定一自然语言文档D=D(t1,W1;t2,W2;…;tn,Wn),在暂不考虑t在文档中的先后顺序并要求互异(即没有重复)时,可以把t1,t2,…,tn看成一个n维的坐标系,而W1,W2,…,Wn为相应的坐标值,因而D(W1,W2,…,Wn)被看成是n维空间中的一个向量。称D(W1,W2,…,Wn)为文档的向量表示或向量空间模型。即,在忽略特征项之间的相关信息后,一个文本就可以用一个特征向量来表示;而一个文本集可以表示成一个矩阵,也就是特征项空间中的一些点的集合。向量空间模型中的另一个概念是相似度:相似度Sim(D1,D2)用于度量两个文档D1和D2之间的内容相关程度。当文档被表示为文档空间的向量,就可以利用向量之间的距离计算公式来表示文档间的相似度。常用的距离有向量的内积距离:
Sim ( D 1 , D 2 ) = &Sigma; k = 1 N W 1 k * W 2 k - - - ( 1 )
或者是夹角余弦距离:
Sim ( D 1 , D 2 ) = &Sigma; k = 1 N W 1 k * W 2 k ( &Sigma; k = 1 N W 1 k 2 ) * ( &Sigma; k = 1 N W 2 k 2 ) - - - ( 2 )
或者是欧氏距离(Euclid distance):
Dist ( D 1 , D 2 ) = &Sigma; k = 1 N ( W 1 k - W 2 k ) 2 - - - ( 3 )
格语法
美国语言学家菲尔默(C.J.Fillmore)在60年代中期提出的格语法(CASE GRAMMAR)是研究句子的核心谓词与周围体词的关系,是一切语言的普遍现象。在本发明中,可以利用格语法来描述句子的语义关系。
施事:事件中自发动作行为或状态的主体。
一是与人有关的比较典型的施事。例如:[S肯尼亚恩戈尼]S夺得金牌。
二是自然力方面的。例如:[洪水]S冲走了庄稼。
当事:事件中非自发动作行为或状态以及″是″字句的主体。例如:
1)[S目标]D是进入前8名。
2)[S获得第二名[的]h]D是英国选手伯克利。
受事:事件中自发动作行为所涉及的已存在的直接客体。例如:
1)唐琳/nr闯进/v[O女子78公斤级柔道半决赛]O。
2)34岁的  泽莱兹尼保持着[O男子标枪98米48的世界纪录]O。
客事:事件中非自发动作所涉及的已存在的直接客体。例如:
1)书记觉出[O他有些思想问题]K。他[D把钱]K丢了。
共事:事件中有利害关系或所伴随或排除的的间接客体。例如:
1)[S他家]Y昨晚跑掉了两只兔子。
2)[S王冕]Y七岁上死了父亲。
3)我们递给[O他]Y一根香烟。
4)他[D替我]Y请了假。
5)老师[D跟他]Y[P说了。
6)[D除了他]Y别人都知道。
7)我们要团结[O群众]Y。
系事:事件主体的类别、身份或角色以及″是″所涉及的直接客体。例如:
1)中国选手是[O张军、高棱]X。
类别:事件中动作行为所涉及的比赛项目。例如,
1)他打[O羽毛球]B。
对象:比赛中谓语动词所涉及处于宾语位置的参赛一方。例如:
1)中国队打败了[O美国队]T。
2)中国选手首盘负于[O印尼组合]T。
结果:事件中自发动作行为所产生、引起或达成的结局。例如:
1)肯尼亚拉戈特摘取了[O铜牌]R。
2)他的成绩是[O 89米 85]R。
3)捷克选手泽莱兹尼实现了[O奥运金牌的三连冠]R。
4)田亮,胡佳分别以206.61和200.45分排列[O第一,第二]R。
5)男子10米跳台半决赛[S田亮、胡佳居[O前两名]R。
6)我国选手张军高凌获得[O冠军决赛权]R。
方式:事件中所采用的方法或形式。例如:
1)俄罗斯选手马克洛夫[D以88米67]Q获得铜牌。
2)我国选手张军高凌[D以2:/w 1]Q击败丹麦选手。
数量:事件中相关的数量或频度。例如:
1)他[D 6次]N1试投,成功了[O 3次]N2。
范围:事件中所关涉的领域及所伴随的状况。例如:
1)[D北京时间周五晚刚刚结束的女子蹦床决赛上]E,俄罗斯卡拉沃娃夺得金牌。
时间:事件发生的时点或持续的时段。例如:
1)[D 2000年9月22日]H,乌克兰齐乌莱娃获得银牌。
2)泽莱兹尼[D早在1988年奥运会上]H就获得了这个项目的银牌。
领事:事件中有领属关系的主体。例如:
1)[S我]L有三本书。[S他]L长着一双大眼睛。
分事:事件领事的组成部分或所属动词″有″所涉及的客体。例如:
1)他长着[O一双大眼睛]F。我有[O三本书]F
基准:事件中进行比较所参照的间接客体。例如:
1)我吵不过[O你]J。他[D比我]J跑得快。
工具:事件中所用的器具。在事件中保持不变。例如:
1)[S刀子]I一刀一刀地刻。她[D用笔]I写字。我吃[O小碗]I。
材料:事件中所用的材料或耗费的物资。在事件中发生变化,即材料转化为新的物质形态或是材料耗费了。例如:
1)[S一挑西红柿]M卖十八块钱。
2)[D用小米]M煮稀饭。
3)[把钱]M都买了书。
4)水[D由氢和氧]M组成。
处所:事件发生的场所、境况或经过的途径。例如:
1)[S外边]p下着雨。
2)我们来[C自五湖四海]P。
3)跳[O墙]P。跳[O河]P。
方向:事件中的时空趋向。例如:
1)他环顾[O四方]O。
2)走向[O胜利]O
依据:事件中所遵照或指靠的根据。例如:
1)我们[D靠谁]W办学?[D凭票]W入场。
2)鸡蛋[论斤]W卖。
3)[根据报导]W日本有个人脑研究所。
4)乘客[按先后顺序]W上。
原因:引起事件的原因。例如:
1)妈妈[D因女儿工作问题]C跑了一整天。
2)[这个消息]C把他急坏了。
3)[D什么事]C又开会?躲[O警报]C。
4)哭[战友]C。
目的:事件所要达到的目标。例如:
1)考[O王力先生的研究生]G。
2)庆祝[O国庆]G。
3)跑[O钢材]G。
4)[为了女儿的幸福]G,
5)她什么都可以放弃。
语义格及标记符号:
  语义格   标记符号
  施事   S
  当事   D
  领事   L
  受事   O
  客事   K
  共事   Y
  系事   X
  类别   B
  对象   T
  结果   R
  方式   Q
  数量   N
  范围   E
  时间   H
  分事   F
  基准   J
  工具   I
  材料   M
  处所   P
  方向   A
  依据   W
  原因   C
  目的   G
在林杏光著的“词汇语义和计算语言学”一书中对格语法有详细的描述(北京,语文出版社,1999)。
第一实施例
本实施例的检索方法基于句子检索,即查询与答案都是以句子为单位。
图1示出了本发明的文本检索方法的处理流程。如图1所示,首先,在步骤11,扫描查询句(Query),生成相应的特征向量,即查询向量。在步骤12,扫描待处理的句子,生成相应的特征向量。在步骤13,利用向量夹角余弦公式计算两个向量之间的相似度。重复上述步骤,直至所有的待查询句子处理完毕。在步骤14,按照向量相似度从小到大排序,并根据预定的标准提取出特定句子作为检索结果。
图2示出了本发明第一实施例的特征向量生成处理的流程。如图2所示,在步骤21中,统计句子中出现的单词作为基本权重。在步骤22,根据语法语义的分析结果确定语义块边界和类型。在步骤23,确定语义块中的单词的语义权重。在步骤24,计算最终的单词权重。最后,在步骤25,生成句子的特征向量。
在第一实施例的方法中,利用向量空间模型来计算句子相似度。采用改进的TF*IDF方法来计算句子中词汇的权重,其中综合考虑了词频、语义格重要程度等相关因素对语义权重的影响。
由于格关系在语义方面的重要性并不是一致的,因此在计算句子语义相似度过程中,根据其不同的地位赋予不同的权重,分别对待:对于重要的语义格,如果没有匹配,则认为参与匹配的两个句子的差别比较大;对于不重要的格,如果没有匹配,则认为参与匹配的两个句子的差别比较小。在本发明中,认为角色类语义格对句子语义的作用比情景类语义格要大的多,为此对语义格的重要程度进行了分级,划分标准如下(按照重要程度依次递减)。
语义格重要程度分级
  级别   语义格
  第一级   S施事D当事L领事
  第二级   O受事R结果X系事F分事T对象B类别
  第三级   V动作
  第四级   Y共事K客事J基准
  第五级   I工具M材料P处所A方向W依据C原因G目的Q方式N数量E范围H时间
根据级别赋予不同的权重Chunk_Weight,即语义格权重。
  级别   权重
  1   a+0.4
  2   a+0.3
  3   a+0.2
  4   a+0.1
  5   a+0
通过语义格权重Chunk_Weight对TF进行修正,称之为TF’:
TF’=TF+Chunk_Weight (4)
IDF=log(N/n+c)       (5)
其中,N表示全部的句子总数,n表示包含该单词的文档数。TF即词频,单词每出现一次则权重加1。a,b,c为预定的常数。
在本实施例中,设定为a=0,b=0,c=0.01。
由此分别计算出查询句和目标句的特征向量Dq、Dd
Dq=(Wq1,Wq2,...,WqN),Wqk=TF′qk*IDFqk
Dd=(Wd1,Wd2,...,WdN),Wdk=TF′dk*IDFdk
计算出这两个向量之间的向量夹角余弦距离(相似度):
Sim ( D q , D q ) = &Sigma; k = 1 N W qk * W dk ( &Sigma; k = 1 N W qk 2 ) * ( &Sigma; k = 1 N W dk 2 ) - - - ( 6 )
若查询句和目标句的特征向量Dq、Dd之间的相似度小于一个预定的阈值,则认为查询句和目标句匹配,并提取该目标句作为与该查询句相应的检索结果。
图3示出了本发明第一实施例的方法与传统的向量空间模型方法之间的比较结果。
在比较中,数据库内容是7662个带有语义块标记的句子,测试查询句集合为100个句子。以传统的TF*IDF作为比较的基准,同第一实施例的检索方法进行比较。由图3可见,与传统方法相比,本发明第一实施例的检索方法的检索性能得到了提高。
第一变型例
下面对本发明第一实施例的变型例进行说明。在此,只对这些变型例与第一实施例之间的不同部分进行描述,而省略了相同部分的重复描述。
在第一变型例中,由以下的公式计算特征向量中各个特征项的值:
TF*log(N/n+c)*Chunk_Weight    (7)
其后的处理则和上述第一实施例完全相同。
第二实施例
现在对本发明的第二实施例进行详细说明。其中只对第二实施例与第一实施例之间的不同部分进行描述,而不对相同部分进行重复描述。
在第二实施例中,进一步考虑了语义块中心词的影响。
第二实施例的方法的总体流程如图4所示,在此不再进行重复的说明。
图4示出了本发明第一实施例的特征向量生成处理的流程。如图4所示,在步骤41中,统计句子中出现的单词作为基本权重。在步骤42,根据语法语义的分析结果确定语义块边界和类型。在步骤43,确定语义块中的单词的语义权重。在步骤44,根据语法分析抽取语义块中心词。在步骤45,根据语义块的重要性确定中心词权重。在步骤46,计算最终的单词权重。最后,在步骤47,生成句子的特征向量。
通常句子中的每个语义块都包含若干个词,这些词的语义重要程度是不同的,其中有一个(或者几个)中心词-Head。例如(Head标记为粗体,每个语义块用“[]”标记):
例如:
[S中国/ns 选手/n 龚智超/nr]S1S2 [D周五/t]H [D在/p 奥运会/j 羽毛球/n 女单/j 决赛/vn 中/f]E,/w [D以/p 2/m:/w 0/m]Q [P战胜/v]V1 [O前/f 世界/n 排名/v 第一/m 的/u丹麦/ns 名将/n 马尔廷/nr]T1,/w [D为/p 中国/ns 代表团/n]Y2 [P夺得/v]V2 [O本届/r 奥运会/j 上/f 的/u 第14/m块/q 金牌/n]R2。/w
中的“[S中国/ns 选手/n 龚智超/nr]S1S2”为一个语义块,“龚智超”为中心词(Head)。
在本发明的第二实施例中,对语义块中的中心词赋予比普通词更高的权重,以体现其语义重要程度。
语义块中心词权重分布
  级别   权重
  1   b+0.4
  2   b+0.3
  3   b+0.2
  4   b+0.1
  5   b+0
通过语义格权重Chunk_Weight和中心词权重Head_Weight对TF进行修正:
TF’=TF+Chunk_Weight+Head_Weight    (8)
IDF=log(N/n+c),(9)
其中,N表示全部的句子总数,n表示包含该单词的文档数。TF即词频,单词每出现一次则权重加1。a,b,c为预定的常数。
在本实施例中,设定为a=0,b=0,c=0.01。
由此分别计算出查询句和目标句的特征向量Dq、Dd
Dq=(Wq1,Wq2,...,WqN),Wqk=TF′qk*IDFqk
Dd=(Wd1,Wd2,...,WdN),Wdk=TF′dk*IDFdk
计算出这两个向量之间的向量夹角余弦距离(相似度):
Sim ( D q , D q ) = &Sigma; k = 1 N W qk * W dk ( &Sigma; k = 1 N W qk 2 ) * ( &Sigma; k = 1 N W dk 2 ) - - - ( 10 )
若查询句和目标句的特征向量Dq、Dd之间的相似度小于一个预定的阈值,则认为查询句和目标句匹配,并提取该目标句作为与该查询句相应的检索结果。
下面是本发明第二实施例的一个应用示例。例如输入查询句:
[D 2000年/t 9月/t 25日/t]H,/w [D北京/ns 时间/n 周一/t下午/t 刚刚/d 结束/v 的/u 女子/n 400/m 米/q 决赛/vn 上/f]E,/w[S澳大利亚/ns 名将/n 弗里曼/nr]S [P夺得/v]V [O金牌/n]R。/w
其中一条目标句为:
[S 澳大利亚/ns 名将/n 弗里曼/nr]S [P夺得/v]V [O女子/n400/m 米/q 金牌/n]R</w//w Title/n>/w
首先分别扫描两个句子,产生特征向量。
对于查询句中每个单词的TF’分布如下表所示。
  单词   TF’   单词   TF’
  2000年   1   结束   1
  25日   1   金牌   1.6
  400   1   决赛   1
  9月   1   米   1
  澳大利亚   1.4   名将   1.4
  北京   1   女子   1
  的   1   上   1
  夺得   1.4   时间   1
  弗里曼   1.8   下午   1
  刚刚   1   周一   1
对于目标句中每个单词的TF’分布如下表所示。
  单词   TF’   单词   TF’
  400   1   金牌   1.6
  澳大利亚   1.4   米   1
  夺得   1.4   名将   1.4
  弗里曼   1.8   女子   1.3
查询句中每个单词的权重分布如下表所示。
  单词   TF’*IDF   单词   TF’*IDF
  2000年   4.455508   结束   3.342263
  25日   5.333159   金牌   3.167019
  400   5.333159   决赛   2.466368
  9月   3.100934   米   2.768789
  澳大利亚   5.244075   名将   5.796233
  北京   4.243692   女子   2.198726
  的   0.084008   上   2.196381
  夺得   3.824903   时间   3.676423
  弗里曼   11.954621   下午   4.640060
  刚刚   3.920346   周一   6.053680
目标句中每个单词的权重分布如下表所示。
  单词   TF’*IDF   单词   TF’*IDF
  400   5.333159   金牌   3.167019
  澳大利亚   5.244075   米   2.768789
  夺得   3.824903   名将   5.796233
  弗里曼   11.954621   女子   2.858344
利用向量夹角余弦计算公式计算出两个句子之间的相似度为0.769003(1表示完全相同),而利用传统的TF*IDF公式计算出两个句子的相似度为0.631161。
图5示出了第二实施例的检索方法的检索效果对比。
可见,引入中心词权重后再次提高了检索性能,在10个Recall点上的平均值改进的后的方法比TF*IDF的准确率提高了3.7%,在20%、50%、80%三个Recall点上,平均的准确率提高了3.56%。
第一变型例
下面对本发明第二实施例的变型例进行说明。同样,只对这些变型例与第二实施例之间的不同部分进行描述,而省略了相同部分的重复描述。
在第一变型例中,由以下的公式计算特征向量中各个特征项的值:
TF*log(N/n+c)*(Chunk_Weight+Head_Weight)/2    (11)
其后的处理则和第二实施例完全相同。
第二变型例
在第二变型例中,由以下的公式计算特征向量中各个特征项的值:
TF*log(N/n+c)*Chunk_Weight*Head_Weight    (12)
其后的处理则和第二实施例完全相同。
第三变型例
在第三变型例中,仅考虑中心词对特征向量的影响。由以下的公式计算特征向量中各个特征项的值:
(TF+Head_Weight)*log(N/n+c)      (13)
其后的处理则和第二实施例完全相同。
第四变型例
在第四变型例中,也仅考虑了中心词对特征向量的影响。由以下的公式计算特征向量中各个特征项的值:
TF*log(N/n+c)*Head_Weight    (14)
其后的处理则和第二实施例完全相同。
图6示出了语义块权重、语义块中心词权重对检索性能促进作用的对比。
可见,语义块权重对检索性能的提高要强于语义块中心词的作用,在10个召回率点(10%-100%)上计算精确率的平均值语义块权重比中心词权重提高了2.96%。
第三实施例
本发明的第三实施例是一种文本检索装置。
图6示出了本发明的文本检索系统的示意图。本发明的文本检索系统可以在计算机网络系统上实现,也可以在个人计算机系统、掌上电脑或微处理器系统等中实现。
如图6所示,本发明的文本检索系统可以包括外部存储装置21、输入装置22,例如键盘、输出装置23,例如显示器、以及文本检索模块24。键盘22为用户用于输入数据,命令等。也可增加其他输入设备。显示器23用于显示输入数据,命令,中间计算结果,检索结果等。也可增加其他输出设备。文本检索模快24实现文本检索的核心处理。
图7示出了文本检索模块24的详细框图。如图7所示,文本检索模块24可以包括分词标注部2、语法语义分析部3、特征量生成部4、相似度(距离)计算部5。
外部存储装置21用于存放查询检索数据,统计数据部6中的特征量生成4所须的数据,数据库部8中的检索对象文本数据,用于存放检索结果,中间计算结果,基于语义信息的文本信息检索软件等。存储器7,存储器8-存储器12为其中一部分。
文本检索模块24执行本发明的文本检索方法。例如,可以执行本发明第一或第二实施例的方法。在此不再进行重复的说明。
查询检索数据存放于外部存储装置1中,查询检索时,从外部存储装置1中取出查询数据并存放于存储器9中。
分词标注部2从存储器9中取出查询数据,进行分词标注处理。处理的结果存放于存储器10中。例如,分词标注部2可采用清华大学的汉语分词标注系统。也可采用任何其他的汉语分词标注系统。
语法语义分析部3从存储器10中取出分词标注的处理结果,进行语法语义分析处理。其处理的结果存放于存储器11中。例如,语法语义分析部3可采用清华大学同富示施乐公司共同研制的汉语语法语义分析系统。也可采用任何其他的汉语语法语义分析系统。
特征量生成4从存储器11中取出语法语义分析处理结果,计算和生成查询数据的特征量,并把生成的查询数据特征量放于存储器12中。
相似度(距离)计算部5从存储器12中取出查询数据特征量,同数据库部8中的数据文本进行比较。把最相似的数据文本输出到存储器7中。
统计数据部6,用于存放特征量生成4所须的数据。例如,全部文本总数N,包含各单词的文档数n,各单词的TF词频,Chunk_Weight语义格权重,Head_Weight语义块中心词权重等数据。
数据库部8用于存放检索对象文本数据。
通过第三实施例的文本检索装置,可以获得和上述第一或第二实施例同样的效果。
从上面实施例的说明中可以看出,本发明的方法和装置具有很好的检索性能,在召回率的各个百分点上均表现出比传统的TF*IDF更好的检索效果。
本发明的文本检索装置和方法可以应用于各种信息检索领域,包括数字图书馆、文献检索、企业文档管理系统、知识管理系统、网页搜索引擎系统等。

Claims (23)

1.一种检索文本信息的方法,包括以下步骤:
对查询文本和目标文本进行语义分析,确定文本中各个单词对语义的重要程度;
利用向量空间模型的方法,根据上述语义分析的结果确定查询文本和目标文本的特征向量;
计算所述查询文本和目标文本的特征向量之间的相似度;以及
基于上述相似度的计算结果来确定检索结果;
其中所述的语义分析是基于格语法进行的;
所述的语义分析的步骤包括:根据语义格的重要程度分配不同的语义权重,并且
所述确定特征向量的步骤包括:通过所述的语义权重对所述特征向量进行修正。
2.如权利要求1所述的方法,还包括以下步骤:
对所述查询文本和目标文本进行中心词分析;并且
所述确定特征向量的步骤根据所述语义分析的结果和所述中心词分析的结果确定查询文本和目标文本的特征向量。
3.如权利要求1所述的方法,其中所述相似度是根据向量内积距离、夹角余弦距离和欧氏距离中的任何一种来计算的。
4.如权利要求2所述的方法,其中
所述中心词分析的步骤包括:
确定句子中的中心词;
根据中心词对于语义块的重要程度为中心词分配不同的中心词权重,并且
所述确定特征向量的步骤包括:
通过所述的中心词权重对所述特征向量进行修正。
5.如权利要求2所述的方法,基中
根据所述的语义分析步骤获取到的语义权重,并根据所述中心词分析的步骤获取到的中心词权重对特征向量进行修正。
6.如权利要求1所述的方法,其中,由下述公式计算所述特征向量的各个特征项的值:
(TF+Chunk_Weight)*log(N/n+c)。
7.如权利要求1所述的方法,其中,由下述公式计算所述特征向量的各个特征项的值:
TF*log(N/n+c)*Chunk_Weight。
8.如权利要求4所述的方法,其中,由下述公式计算所述特征向量的各个特征项的值:
(TF+Head_Weight)*log(N/n+c)。
9.如权利要求4所述的方法,其中,由下述公式计算所述特征向量的各个特征项的值:
TF*log(N/n+c)*Head_Weight。
10.如权利要求4所述的方法,其中,由下述公式计算所述特征向量的各个特征项的值:
(TF+Chunk_Weight+Head_Weight)*log(N/n+c)。
11.如权利要求5所述的方法,其中,由下述公式计算所述特征向量的各个特征项的值:
(TF*log(N/n+c))*(Chunk_Weight+Head_Weight)/2。
12.如权利要求5所述的方法,其中,由下述公式计算所述特征向量的各个特征项的值:
(TF*log(N/n+c))*Chunk_Weight*Head_Weight。
13.一种文本信息检索装置,包括:
语义分析部,其对所输入的查询句和目标句进行语义分析,确定各个单词对语义的重要程度;
特征向量生成部,其利用向量空间模型的方法,根据所述语义分析部的分析结果,生成查询句和目标句的特征向量;
相似度计算部,其计算查询句和目标句的特征向量之间的相似度;以及
目标句提取部,其根据所述相似度计算部的计算结果提取特定的目标句作为检索结果;
其中,所述语义分析部基于格语法进行分析,并且包括根据语义格的重要程度分配不同的语义权重的语义格分析部,并且
所述特征向量生成部根据所述语义权重对特征向量进行修正。
14.根据权利要求13所述的文本检索装置,还包括:
中心词分析部,其对所述查询句和目标句进行中心词分析,确定句中的中心词,并且根据中心词对于语义块的重要程度为中心词分配不同的中心词权重,并且
所述特征向量生成部根据所述语法分析部和中心词分析部的分析结果,生成查询句和目标句的特征向量,通过所述中心词权重对所述特征向量进行修正。
15.如权利要求13所述的文本信息检索装置,其中,所述特征向量生成部通过下述公式计算所述特征向量的各个特征项的值:
(TF+Chunk_Weight)*log(N/n+c)。
16.如权利要求13所述的文本信息检索装置,其中,所述特征向量生成部通过下述公式生成所述特征向量的各个特征项的值:
TF*log(N/n+c)*Chunk_Weight。
17.如权利要求13所述的文本信息检索装置,其中,所述特征向量生成部通过下述公式生成所述特征向量的各个特征项的值:
(TF+Head_Weight)*log(N/n+c)。
18.如权利要求13所述的文本信息检索装置,其中,所述特征向量生成部通过下述公式生成所述特征向量的各个特征项的值:
TF*log(N/n+c)*Head_Weight。
19.如权利要求15所述的文本信息检索装置,其中,所述特征向量生成部通过下述公式生成所述特征向量的各个特征项的值:
(TF+Chunk_Weight+Head_Weight)*log(N/n+c)。
20.如权利要求15所述的文本信息检索装置,其中,所述特征向量生成部通过下述公式生成所述特征向量的各个特征项的值:
(TF*log(N/n+c))*(Chunk_Weight+Head_Weight)/2。
21.如权利要求15所述的文本信息检索装置,其中,所述特征向量生成部通过下述公式生成所述特征向量的各个特征项的值:
(TF*log(N/n+c))*Chunk_Weight*Head_Weight。
22.根据权利要求13所述的文本信息检索装置,其中所述相似度计算部根据向量内积距离、夹角余弦距离和欧氏距离中的任何一种来计算查询句和目标句的特征向量之间的相似度。
23.根据权利要求13所述的文本信息检索装置,还包括分词标注部,其对查询句和目标句进行分词标注处理。
CNB2004100572115A 2004-08-23 2004-08-23 文本检索装置及方法 Active CN100535895C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100572115A CN100535895C (zh) 2004-08-23 2004-08-23 文本检索装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100572115A CN100535895C (zh) 2004-08-23 2004-08-23 文本检索装置及方法

Publications (2)

Publication Number Publication Date
CN1741012A CN1741012A (zh) 2006-03-01
CN100535895C true CN100535895C (zh) 2009-09-02

Family

ID=36093402

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100572115A Active CN100535895C (zh) 2004-08-23 2004-08-23 文本检索装置及方法

Country Status (1)

Country Link
CN (1) CN100535895C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922486B2 (en) 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079025B (zh) * 2006-06-19 2010-06-16 腾讯科技(深圳)有限公司 一种文档相关度计算系统和方法
CN101079024B (zh) * 2006-06-19 2010-06-16 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN101119326B (zh) * 2006-08-04 2010-07-28 腾讯科技(深圳)有限公司 一种即时通信会话记录的管理方法及装置
US8171029B2 (en) * 2007-10-05 2012-05-01 Fujitsu Limited Automatic generation of ontologies using word affinities
CN101446970B (zh) * 2008-12-15 2012-07-04 腾讯科技(深圳)有限公司 一种对用户发布的文本内容审核处理的方法及其装置
CN101788988B (zh) * 2009-01-22 2012-06-27 蔡亮华 信息抓取方法
CN102117283A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种基于语义索引的数据检索方法
CN102117285B (zh) * 2009-12-30 2015-01-07 安世亚太科技股份有限公司 一种基于语义索引的检索方法
CN102955772B (zh) * 2011-08-17 2015-11-25 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN103246681B (zh) * 2012-02-13 2018-10-26 深圳市世纪光速信息技术有限公司 一种搜索方法及装置
CN102902714A (zh) * 2012-08-21 2013-01-30 盘古文化传播有限公司 一种检测内容变更的方法和装置
CN104850537B (zh) * 2014-02-17 2017-12-15 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN105224555B (zh) * 2014-06-12 2019-12-10 北京搜狗科技发展有限公司 一种搜索的方法、装置和系统
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置
CN106557476A (zh) * 2015-09-24 2017-04-05 北京奇虎科技有限公司 相关信息的获取方法及装置
CN105279264B (zh) * 2015-10-26 2018-07-03 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN110909021A (zh) * 2018-09-12 2020-03-24 北京奇虎科技有限公司 查询改写模型的构建方法、装置及其应用
CN111428123A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 查询方法和装置
CN110309263B (zh) * 2019-06-06 2021-12-17 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种基于向量空间模型的文本分类方法. 李雪蕾,张冬荣.计算机工程,第29卷第17期. 2003
一种基于向量空间模型的文本分类方法. 李雪蕾,张冬荣.计算机工程,第29卷第17期. 2003 *
基于潜在语义分析的信息检索. 盖杰,王怡,武港山.计算机工程,第30卷第2期. 2004
基于潜在语义分析的信息检索. 盖杰,王怡,武港山.计算机工程,第30卷第2期. 2004 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922486B2 (en) 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing

Also Published As

Publication number Publication date
CN1741012A (zh) 2006-03-01

Similar Documents

Publication Publication Date Title
CN100535895C (zh) 文本检索装置及方法
Singh et al. Relevance feedback based query expansion model using Borda count and semantic similarity approach
Alguliev et al. DESAMC+ DocSum: Differential evolution with self-adaptive mutation and crossover parameters for multi-document summarization
Jafari et al. Automatic text summarization using fuzzy inference
Baralis et al. Mwi-sum: A multilingual summarizer based on frequent weighted itemsets
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
CN101655857A (zh) 基于关联规则挖掘技术挖掘建设法规领域数据的方法
TW200426627A (en) Information retrieval and text mining using distributed latent semantic indexing
CN109783806B (zh) 一种利用语义解析结构的文本匹配方法
Qiu et al. A survey on neural machine reading comprehension
CN104484380A (zh) 个性化搜索方法及装置
US20220318317A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN103646099A (zh) 一种基于多层图的论文推荐方法
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Alami et al. Arabic text summarization based on graph theory
Hao et al. BertNet: Harvesting knowledge graphs with arbitrary relations from pretrained language models
Oh et al. Combining global and local information for enhanced deep classification
González-Ledesma et al. A strong baseline for question relevancy ranking
Kumar et al. Fuzzy logic based hybrid model for automatic extractive text summarization
Bhavani et al. An efficient clustering approach for fair semantic web content retrieval via tri-level ontology construction model with hybrid dragonfly algorithm
Blair-Goldensohn et al. A hybrid approach for answering definitional questions
CN107203632A (zh) 基于相似关系和共现关系的话题流行度预测方法
Alharahseheh et al. A survey on textual entailment: Benchmarks, approaches and applications
Chen et al. PSG: a two-layer graph model for document summarization
Hu A study on question answering system using integrated retrieval method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Tokyo

Patentee after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo

Patentee before: Fuji Xerox Co.,Ltd.