CN102117285A

CN102117285A - 一种基于语义索引的检索方法

Info

Publication number: CN102117285A
Application number: CN2009102439949A
Authority: CN
Inventors: 高建忠; 赵琦; 王永刚; 范祝满
Original assignee: PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Current assignee: PERA GLOBAL TECHNOLOGY (BEIJING) Co Ltd
Priority date: 2009-12-30
Filing date: 2009-12-30
Publication date: 2011-07-06
Anticipated expiration: 2029-12-30
Also published as: CN102117285B

Abstract

本发明提供一种基于语义索引的检索方法，包括下列步骤：10)提取用户请求的候选动宾结构并进行筛选，获得合法动宾结构；20)匹配所述合法动宾结构和文档的动宾结构，其中所述文档的动宾结构是对文档进行提取并筛选所获得。上述检索方法，更精确地理解了用户的目的，有效提高了检索的查准率。

Description

一种基于语义索引的检索方法

技术领域

本发明涉及数据检索领域，更具体地，涉及一种基于语义索引的数据检索方法。

背景技术

基于计算机系统的文档搜索处理器(即搜索引擎)已广泛地用于对互联网上的文档执行关键词搜索。

用关键词在网络上进行搜索，固然会给用户提供很大帮助，具备较高的价值，但该方法本身也存在着一个先天的不足，以至于在很大程度上影响着这种价值的发挥。具体地说，由于网络上的可用信息是海量的，而关键词搜索仅仅依据关键词匹配就将所得到的结果提交给了用户，以至于产生了大量的下载信息，这其中的绝大多数是与用户所想要的信息无关的或不重要的。

基于关键词检索方法所存在的问题在科学技术领域也广泛地存在。随着越来越多的研究机构、大学、图书馆、专利部门以及其他可供网络访问的技术和科学信息的增加，该问题显得尤为严峻。科研人员被太多的报章、专利以及关于他们所感兴趣的主题的一般性信息所淹没。

与之形成巨大的反差的是，在实际查询中，用户所需要的仅仅是和某一特定请求相关的若干篇文章。面对上述查准率较低的情况，用户在检查检索结果以确定其与用户查询的相关性时目前只有两个选择——一种选择是读取摘要，另一种是浏览全文以确定是否保存或打印出该检索到的文章。而实际上，由于很多摘要并不全面，所以其常常不能反映出用户真正感兴趣的特定主题或以不全面的方式论述该主题。因此，浏览摘要可能几乎没有价值。而浏览全文则需要用户花费过多的时间。

目前已有多种尝试，试图提高搜索的查准率，但这些方法仅仅依赖于基于关键词的变化或所谓短语理解的各种技术进行的关键词或短语搜索，其仍然需要用户耗费太多的精力和时间来确定真正需要的文档。

发明内容

本发明的目的在于提供一种查准率较高的基于语义索引的检索方法。

为实现上述目的，根据本发明的一个方面，提供了一种基于语义索引的检索方法，包括下列步骤：

10)提取用户请求的候选动宾结构并进行筛选，获得合法动宾结构；

20)匹配所述合法动宾结构和文档的动宾结构，其中所述文档的动宾结构是对文档进行提取并筛选所获得。

在上述方法中，所述筛选进一步包括下列步骤：

100)采用动宾结构实例匹配进行所述候选动宾结构的筛选。

在上述方法中，所述筛选进一步包括下列步骤：

101)采用动宾结构语义匹配进行所述候选动宾结构的筛选。

在上述方法中，所述步骤101)中所说动宾结构语义匹配进一步包括下列步骤：

将待筛选的动宾结构表示为具体动词W1和具体名词W2；

利用搭配知识词典的动宾搭配实例，选取能够和所述具体名词W2搭配的动词概念VC2；

利用语义限制词典的动词概念关系，获得所述具体动词W1的动词概念VC1；

将所述动词概念VC1和所述动词概念VC2相匹配。

在上述方法中，所述提取进一步包括下列步骤：

分词和词性标注；

进行动词短语、名词短语的句法分析。

在上述方法中，所述步骤10)后还包括：

11)将所述合法动宾结构进行同义扩展，生成查询表达式；

所述步骤20)还包括：

201)匹配所述查询表达式和所述文档的动宾结构。

在上述方法中，所述步骤201)后还包括步骤：

202)对于所述文档的动宾结构与所述合法动宾结构相同的情况，则所述文档在检索结果中居前，对于所述文档的动宾结构与所述查询表达式相同的情况，则所述文档在所述检索结果中居后。

在上述方法中，对于所述合法动宾结构为多个的情况，所述步骤202)中居后的文档根据下述规则排序：

对于所述合法动宾结构的查询表达式的个数最少的，将所述居后的文档居于所述检索结果中的最后。

本发明的技术效果在于根据本发明的检索方法，对用户输入的问句进行预处理后执行问题识别，更精确地理解问句，提高了检索的查准率；进一步地，还可以对识别的问题进行查询扩展，从而提高检索的查全率。

附图说明

图1是根据本发明优选实施例的基于语义索引的检索方法的流程图；

图2是根据本发明优选实施例的提取候选动宾结构并进行筛选的流程图；

图3是根据本发明优选实施例的动宾结构语义匹配的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明实施例的基于语义索引的检索方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

根据本发明的优选实施例，该方法开始于与用户希望获取的文档概念相关的自然语言文本的用户请求，例如一个自然语言问句。解析该用户请求，以识别和存储用户请求中的动词及其宾语所构成的候选动宾结构：对用户请求进行中文分词、词性标记；一旦该请求中的所有词都被标记，则执行语义分析，在一个示例中，该语义分析包括识别用户请求中的动词短语，然后识别用户请求中的名词短语。对此候选动宾结构进行筛选，获得合法动宾结构。采用该合法动宾结构及其同义扩展作为查询表达式来搜索。对文档集合也提取动宾结构并据此建立文档语义索引，通过将查询表达式与文档语义索引进行匹配，并对匹配成功的文档加以排序，使得只有满足查询表达式的少量文档返回给用户。

图1示出了根据本发明的优选实施例的检索方法的流程图，如其所示，本发明的检索方法包括下列步骤：

步骤10，首先提取用户请求的候选动宾结构并进行筛选，获得合法动宾结构，也即问题识别，该合法动宾结构有效表示了用户请求的意图。图2示出了该步骤10的详细流程，该过程将在后面详细描述。

步骤11，将上述步骤10所提取的用户请求的合法动宾结构进行同义扩展，生成查询表达式。同义扩展可以利用同义动宾结构数据库，该数据库集中了同义的动宾结构的实例，例如“加热(动词)—水(宾语)”的同义组合可以是“提高(动词)—水温(宾语)”等，该数据库中的每一条记录均按照动作-宾语格式存储，具有相同含义的动宾结构被赋以相同的标识符(ID)。将所提取的动宾结构与该数据库中记录进行匹配，若数据库中存在与之相同的记录，则依据该记录的ID执行同义扩展。由此，生成代表用户请求的查询表达式。

步骤12，与对用户请求提取动宾结构类似，对文档集合中的文档进行动宾结构提取和筛选。

步骤13，存储步骤12所提取的动宾结构作为文档语义索引。

步骤14，匹配用户请求的合法动宾结构和步骤11所生成的查询表达式二者与文档语义索引，获取匹配成功的文档构成匹配文档集合。

步骤15，对步骤14获得的匹配文档集合中的匹配文档执行结果排序。更具体地，若匹配文档的语义索引与用户请求的动宾结构完全相同，则该匹配文档排序居前，若匹配文档的语义索引与步骤11所生成的查询表达式相同，则该匹配文档排序靠后。更优选地，对于可能出现的用户请求的合法动宾结构不唯一的情况，按照其查询表达式的个数对靠后的文档加以排序，即：设若用户请求为S，经提取得到动宾结构A和B，动宾结构A经过同义扩展，得到N_A篇文档，而动宾结构B经过同义扩展，得到N_B篇文档，若N_B＞N_A，则排序时将N_B篇文档置于N_A篇文档前。

图2示出了根据本发明优选实施例的提取候选动宾结构并进行筛选的流程图。下面将根据图2详细描述该过程：

步骤20，对用户请求执行分词和词性标注，即词法分析，将用户请求切分成若干词语构成的词串，并对各个词语标示词性。分词和词性标注属于常用技术，例如可以采用正向最大匹配分词算法进行分词，采用863词性标注集进行词性标注，此处不详细说明。例如，用户请求为“如何去除食用油中的游离脂肪酸？”，经过词法分析得到如下分析结果：

如何/r 去除/v 食用油/n 中/nd 的/u 游离/v 脂肪酸/n ？/wp

表1给出863词性标注集及含义，说明了上述分析结果中的词性标注标识及其含义。

表1 863词性标注集及含义

标识

含义

示例

标识

含义

示例

a	形容词	美丽	ni	机构名	保险公司
						b	其它名词修饰语	大型，西式	n1	地点名词	城郊
c	连词	和，虽然	ns	地理名词	北京
						d	副词	很	nt	时间名词	近日，明代
e	感叹词	哎	nz	其他专有名词	诺贝尔奖
						g	词素	茨，甥	o	拟声词	哗啦
h	词头	阿，伪	p	介词	在，把
						i	成语	百花齐放	q	量词	个
j	缩写	公检法	r	代词	我们
						k	词尾	界，率	u	助词	的，地
m	数字	一，第一	v	动词	跑，学习
						n	一般名词	苹果	wp	标点符号	，。！
nd	方向名词	右侧	ws	外来词	CPU
						nh	人名	杜甫，汤姆	x	非词素	萄，翱

步骤21，对上述结果进行动词短语、名词短语的句法分析，识别出句子中的动词短语和名词短语。

步骤22，由动词短语和名词短语构建候选动宾结构。通常，一个用户请求中存在一个或多个这样的候选动宾结构。示例1：对于以下已进行词法分析和句法分析的句子构建候选动宾结构：

探索/v 建立/v 适应/v 社会主义/n 市场/n 经济/n 要求/n 的/* 现代/* 企业/n 制度/n 的/* 有效/* 途径/n；/；

构建的动宾结构：

探索...要求，探索...制度，探索...途径，

建立...要求，建立...制度，建立...途径，

适应...要求，适应...制度，适应...途径。

从上述示例1可以理解，所构建的候选动宾结构通常存在大量的组配错误，需要对其加以筛选，保留合法动宾结构作为用户请求的语义表示

步骤23，采用动宾结构实例匹配进行候选动宾结构筛选。采用例如《现代汉语辞海》的搭配知识词典对所得到的候选动宾结构进行初步筛选，排除明显不是动宾关系的候选动宾结构。其中，《现代汉语辞海》是一部词语搭配词典，共收入词条7781条，搭配实例约77万个。在每个词条下面分若干个义项(总计13292个义项)，在每个义项下有前搭配词、后搭配词。本领域普通技术人员可以理解，搭配知识词典也可以选用非《现代汉语辞海》的其他可用资源。

如果一个候选动宾结构能够与搭配知识词典中的动宾搭配实例相匹配，则输出该候选动宾结构作为合法动宾结构，同时删除与该合法动宾结构相冲突的所有候选动宾结构；否则，进入步骤24。与该合法动宾结构相冲突的候选动宾结构指，包含与该合法动宾结构中相同“动词”或者“宾语”的其他候选动宾结构。

对于上面所述示例1，首先利用搭配知识词典中的动宾搭配实例直接进行匹配，第一次匹配，得到合法动宾结构“探索...途径”，删除与该合法动宾结构相冲突的候选动宾结构：(1)“探索...要求”、“探索...制度”；它们的“动词”均为“探索”，与得到的合法动宾结构“探索...途径”中的动词“探索”相同，与该合法动宾结构相冲突，因此是需要被删除的候选动宾结构。(2)“建立...途径”和“适应...途径”；它们的“宾语”均为“途径”，与得到的合法动宾结构“探索...途径”中的宾语“途径”相同，与该合法动宾结构相冲突，因此也是需要被删除的候选动宾结构。

第二次匹配，得到合法动宾结构“建立...制度”，类似地删除与该合法动宾结构相冲突的候选动宾结构：“建立...要求”、“适应...制度”。

此时，全部候选动宾结构中仅剩“适应...要求”，且该动宾结构不在搭配知识词典中的动宾搭配实例内，可以根据下面的动宾结构语义匹配进行筛选。

步骤24，采用动宾结构语义匹配进行候选动宾结构筛选。

该步骤基于以下假设：任何构成搭配动宾结构的内部成分之间在意义上都是存在某种关联的，这种关联用语义概念进行描述，就构成了一种语义组合知识，或称组合型语义关系知识。这种组合知识在用于选择、判断两个词是否构成搭配动宾结构时，就是语义限制条件。本步骤以名词为出发点，利用名词对能与之构成动宾搭配的动词的概念规约，检验某一动词是否能和该名词组合为合法动宾结构。当某一动词满足该名词对搭配动词的语义要求时，即为合法的。

本步骤24可以利用到“搭配知识词典”和例如《知网》的“语义限制词典”。

知网(Hownet)是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库，是目前一种重要的用于文本语义分析的中文语义资源。计算机化是知网的重要特色。作为一个知识系统，知网着力反映了概念的共性和个性，例如：对于“医生”和“患者”，“人”是它们的共性，而前者的个性是他是“医治”的施事，而“患者”的个性是他是“患病”的经验者。知网描述的关系类型有：上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-角色关系。事件类(运动类)概念在知网中备受重视，其总数为813个，占整个知网特征总数的一半以上；而事物类概念描述层次较浅。本发明主要使用了知网的事件类(运动类)概念。

本步骤24的具体实现如下：

首先，将步骤23筛选不成功的候选动宾结构，其“动词”表示为W1(具体动词)，“宾语”表示为W2(具体名词)。

利用搭配知识词典的动宾搭配实例，选取所有能和该候选动宾结构的“宾语”W2搭配的“动词概念”VC2(动词概念)。

利用语义限制词典的动词概念关系，获得候选动宾结构中的“动词”W1(具体动词)的动词概念VC1(动词概念)。例如：在知网中，“冷却”和“制冷”，二者的关系即为具体动词和动词概念之间的关系。

将利用搭配知识词典获得的与候选动宾结构的“宾语”W2搭配的“动词概念”VC2与利用语义限制词典获得的候选动宾结构的“动词”W1的“动词概念”VC1进行比较，如果可以匹配，则说明该候选动宾结构的“动词”W1满足其“宾语”W2对搭配动词的语义要求，是合法动宾结构；否则不输出该候选动宾结构。

对于上述示例1，全部候选动宾结构中仅剩“适应...要求”，且该动宾结构不在搭配知识词典中的动宾搭配实例内，需调用语义信息进行筛选。

在搭配知识词典的动宾搭配实例内，搜索到与候选动宾结构的“宾语”“要求”(W2)搭配的全部动词概念(VC2)，有“提出”、“告诉”、“说明”、“实现”、“适合”、“违背”等17个；而候选动宾结构的“动词”“适应”(W1)的动词概念是“适合”(VC1)，其符合候选动宾结构的“宾语”“要求”(W2)对所搭配动词的语义限制。

由此，全部候选动宾结构都进行了筛选，该句得到的合法动宾结构是：

“探索(动词)+途径(宾语)”、

“建立(动词)+制度(宾语)”、

“适应(动词)+要求(宾语)”。

应当指出的是，本发明所采用的语义资源《现代汉语辞海》、《知网》都是作为本发明所述方法的基础资源而存在，方法本身并不排斥通过自定义方式对《现代汉语辞海》、《知网》进行修正和补充，以适应新情况、新问题。

步骤25，输出合法动宾结构。

本领域普通技术人员可以理解，上述优选实施例中采用了动宾结构实例匹配和动宾结构语义匹配，但是在实际应用中，还可以采用其他的匹配方法进行筛选，也可以在匹配方法中择一进行筛选。上述同义扩展的步骤是为了提高检索的查全率。当然，也可以不执行该步骤，进而在步骤14中也不执行查询表达式与文档语义索引的匹配，同样可以实现本发明的基本效果。上述优选实施例还包含排序的步骤，其更好地为用户提供了检索服务。

本发明可以应用到工程、科学和医学领域，同样可以应用到使用书面语言的任何领域。应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种基于语义索引的检索方法，包括下列步骤：

2.根据权利要求1所述的方法，其特征在于，所述筛选进一步包括下列步骤：

100)采用动宾结构实例匹配进行所述候选动宾结构的筛选。

3.根据权利要求1所述的方法，其特征在于，所述筛选进一步包括下列步骤：

101)采用动宾结构语义匹配进行所述候选动宾结构的筛选。

4.根据权利要求2所述的方法，其特征在于，所述步骤100)后包括下列步骤：

101)采用动宾结构语义匹配进行未通过所述步骤100)筛选的候选动宾结构的筛选。

5.根据权利要求3或4所述的方法，其特征在于，所述步骤101)中所说动宾结构语义匹配进一步包括下列步骤：

将待筛选的动宾结构表示为具体动词W1和具体名词W2；

将所述动词概念VC1和所述动词概念VC2相匹配。

6.根据权利要求1所述的方法，其特征在于，所述提取进一步包括下列步骤：

分词和词性标注；

进行动词短语、名词短语的句法分析。

7.根据权利要求1所述的方法，其特征在于，所述步骤10)后还包括：

11)将所述合法动宾结构进行同义扩展，生成查询表达式；

所述步骤20)还包括：

201)匹配所述查询表达式和所述文档的动宾结构。

8.根据权利要求7所述的方法，其特征在于，所述步骤201)后还包括步骤：

9.根据权利要求8所述的方法，其特征在于，对于所述合法动宾结构为多个的情况，所述步骤202)中居后的文档根据下述规则排序：