CN102799677A

CN102799677A - 一种基于语义的水利领域信息检索系统及方法

Info

Publication number: CN102799677A
Application number: CN2012102538823A
Authority: CN
Inventors: 冯钧; 唐志贤; 卞一路; 徐黎明; 付言章; 盛震宇; 任锋; 王祥忠; 朱忠华; 朱祖会; 史涯晴; 胥世民
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2012-07-20
Filing date: 2012-07-20
Publication date: 2012-11-28
Anticipated expiration: 2032-07-20
Also published as: CN102799677B

Abstract

本发明公开一种基于语义的水利领域信息检索系统及方法。系统包括如下模块：信息获取与存储模块，用于从互联网获取水利主题信息，存储到水利主题资源库并构建索引；语义本体模块，用于存储水利领域本体和知网语义本体，并完成领域词汇相似度的计算；语义查询处理模块。方法利用模糊资源描述框架对领域信息进行描述，采用Lucene对水利信息资源构建索引；以水利公文主题词表为基础构建出利领域本体，通过Jena推理机结合水利本体对水利专业词汇进行语义扩展，以Hownet为基础实现对通用词汇进行语义扩展；利用改进的知网语义词汇相似度计算方法计算扩展词汇与检索词的相关度。本发明对检索词进行语义扩展，提高了信息的查全率和查准率。

Description

一种基于语义的水利领域信息检索系统及方法

技术领域

本发明涉及一种基于语义的水利领域信息检索系统及方法，属于智能信息检索领域。

背景技术

传统的水利领域信息搜索引擎对数据集中的关键词建立索引，当用户向搜索引擎提交关键词查询请求时，搜索引擎通过关键词匹配方式在数据库中检索用户查询请求的数据集，将结果反馈给用户。这种搜索引擎对查询的处理局限于词的表面形式，使得传统的Web搜索引擎存在着“忠实表达”问题、“表达差异”问题、“词汇孤岛”问题等方面的缺陷，降低了用户在检索结果方面的查全率和查准率。

如何在水利领域信息资源中找到有价值的信息，并从中提取出知识内的内容已经成为目前信息检索和知识管理等研究领域的重要课题。目前水利信息资源还没有提供计算机可以理解的语义信息，计算机还不能自动地识别，只能供用户直接阅读和处理，限制了计算机在水利信息检索领域的自动分析和智能化处理的能力，直接制约了水利信息化的发展进程和水利行业社会服务能力。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于语义的水利领域信息检索系统及方法，将语义搜索技术引入水利领域，以提高对水利领域信息查全率和查准率。

本发明的思路是：利用水利主题爬虫抓取互联网上的水利主题信息，并采用FRDF进行描述，基于Lucene构建索引，通过构建Jena模糊推理机结合水利领域本体和知网语义本体进行水利领域语义扩展和通用语义扩展，并通过定义语义相似度阈值和选择方法防止“语义飘移”，保证检索的查全率和查准率。

技术方案：一种基于语义的水利领域信息检索系统，包括如下模块：信息获取与存储模块，用于从互联网获取水利主题信息，存储到水利主题资源库并构建索引；语义本体模块，用于存储水利领域本体和知网语义本体，并完成领域词汇相似度的计算；语义查询处理模块，用于从获取用户查询请求进行查询处理，并按语义相关度排序返回给用户。

所述信息获取与处理模块，包含水利主题爬虫单元、水利主题网页处理单元、Lucene索引单元、水利主题词库、水利主题资源库和水利资源索引库；其中水利主题爬虫利用水利主题词库过滤非水利主题网页；水利主题网页处理单元用于将水利主题爬虫单元抽取的信息以模糊资源描述（FRDF）的形式存储到水利主题资源库；Lucene索引单元采用Lucene技术对水利主题资源库的水利主题信息资源构建倒排索引以加快检索速度。

所述语义本体模块，包括水利本体库、知网本体库和语义词汇相似度计算单元；其中水利本体库用于存储水利领域本体及其词汇的相似度；知网本体库用于存储知网本体词汇及子网词汇相似度；所述水利本体库中的水利本体是模糊本体；所述词汇相似度均由语义词汇相似度计算单元计算。

所述语义查询处理模块，包括查询请求处理单元、模糊语义推理单元、Lucene检索单元和检索结果排序单元；其中查询请求处理单元，用于获取用户的查询请求，并进行分词处理形成查询词集合；模糊语义推理单元，用于结合水利领域本体和知网本体进行语义扩展，形成语义扩展查询词集合；所述Lucene检索单元，用于从水利资源索引库中检索满足查询词集合和语义扩展查询词集合的水利主题资源，形成语义检索结果集合；所述检索结果排序单元，按照语义扩展查询词汇于查询词集合中词汇的语义相似度对语义检索结果进行排序，按照降序将查询结果返回用户。

一种基于语义的水利领域信息检索方法，包含如下步骤：

步骤S-1：根据水利主题词库对互联网上的水利主题资源进行抽取，具体包含如下步骤：

步骤S-1-1：初始化需要抓取的URL种子队列；

步骤S-1-2：判断URL种子队列是中的URL是否为空，若为非空，转向步骤S-1-3，否则，转向步骤S-2；

步骤S-1-3：从队列中取出一个URL种子，从互联网下载对应的网页信息，若下载成功则转向步骤S-1-4，否则，转向步骤S-1-2；

步骤S-1-4：判断下载网页是否与主题相关，若相关，则转入步骤S-1-5；否则，转向步骤S-1-6；

S-1-5：采用FRDF对网页进行描述，并将描述信息存入水利主题资源库；

S-1-6：判断网页中是否新URL，若有，抽取网页中的URL，并将其加入URL种子队列，转向步骤S-1-2，若无，直接转向步骤S-1-2。

S-2：利用FRDF对抽取的信息资源进行规范化描述，形成水利主题资源库并构建倒排索引；

S-3：获取用户的查询请求，并进行分词处理，形成查询词集合；

S-4：进行语义扩展处理形成语义扩展词集合，并计算扩展词语查询词间的语义相似度，具体包括如下步骤：

S-4-1：判断查询词集合中的查询词是否有未处理的查询词，若有，则转向步骤S-4-2，否则，转向步骤S-5；

步骤S-4-2：从查询词集合中取出一个未处理的查询词，判断其是否为水利本体库中的词汇，若是，则转向步骤S-4-3，否则转向步骤S-4-4；

步骤S-4-3：结合水利领域本体进行水利领域语义扩展，具体包含如下步骤：

步骤S-4-3-1：利用模糊推理单元推理出与该查询词具有相关关系的领域词汇集合；

步骤S-4-3-2：判断领域相关词汇集合是否还有未处理的相关领域词汇，若有转向步骤S-4-3-3，否则，转向步骤S-4-1：

步骤S-4-3-3：判断该相关领域词汇与查询词的相似度是否存储水利领域本体库中，若否，在则转向步骤S-4-3-4，否则，转向步骤S-4-3-5；

步骤S-4-3-4：利用语义词汇相似度计算单元计算相关度，并存入水利领域本体库；

步骤S-4-3-5：判断语义相似度是否大于阈值0.05，若大于，则将该领域词汇加入语义扩展词汇集合，否则，转向步骤S-4-3-2；

步骤S-4-4：结合知网语义本体进行通用语义扩展，并将扩展的通用语义词汇加入扩展词汇集合；

S-5：根据查询词集合与语义扩展词集合在索引库中进行查询，并对查询结果进行排名，将查询结果返回用户。

所述步骤S-1-4中，网页信息T的水利主题相关度Cor(T)的计算方法如下：

Cor (T) = Σ_{i = 0}^{norm (T)} hash ({word}_{i}) / norm (T) - - - (1)

其中norm(T)为网页文本内容T进行最大分词后词汇(word_i)集合的大小。hash(word_i)=(1-0.3)/n为根据词汇的主题相关值，n为水利主题词表中主题词的等级，若word_i不在索引中，则值为0；若Cor(T)大于阈值（0.05）则相关，否则不相关。

所述步骤S-4-3-4水利领域本体词汇间相似度定义如表1所示，其中β为整体相似度。

表1

相关关系	含义	权值
			superClassOf	上位关系	07*β
subClassOf	下位关系	08*β
			use	使用关系	10*β
replace	代替关系	10*β
			note	注释关系	10*β
brother	兄弟关系（通过推理）	09*β
			sametype	相同类型关系（通过推理）	10*β

所述步骤S-4-4知网本体词汇间相似度计算过程中，义原语义相似度为0.5时的义原语义距离为1.6；概率语义相似度的调节因子：β₁、β₂、β₃、β₄分别取0.5、0.2、0.17和0.13。

本发明采用上述技术方案，具有以下有益效果：采用领域本体对背景知识进行表示，对网页内容进行面向主题的采集，对采集的主题网页进行索引，并对用户输入的检索语句进行专业知识语义扩展和通用词扩展，解决水利信息检索过程中缺乏语义的问题。

附图说明

图1为本发明实施例的基于语义的水利领域信息检索系统功能模块图；

图2为本发明实施例的模糊推理机的推理机制；

图3为本发明实施例的基于语义的水利领域信息检索方法的流程图；

图4为本发明实施例的基于水利领域本体词汇相似度的语义扩展流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于语义的水利领域信息检索系统由信息获取与存储模块、语义本体模块和语义查询处理模块组成。

语义本体模块，包括水利本体库、知网本体库和语义词汇相似度计算单元。本体是智能信息检索系统的信息组织框架，查询扩展和查询结果排序都需要以本体作为依据。本体在建立完成之后并不是一层不变的，而是根据领域研究的不断深入而不断改进的；在建立基本的领域本体之后，领域工程师还可以根据需要要对其进行维护。

语义词汇相似度计算单元用以计算词汇间的相似度，本发明定义的语义关系如表1所示。

知网语义相似度计算，本发明改进知网语义两种相似性度量，义原语义和概念对语义相似度。其中义原语义相似度定义为：

Sim (p_{1}, p_{2}) = \frac{α}{d + α} - - - (2)

其中p₁和p₂表示两个义原（Primitive），d是p₁和p₂在义原层次体系结构中的路径长度，是一个正整数。α是一个可调节参数，即语义相似度为0.5时的义原语义的距离值，本发明取值1.6

概念对相似度整体相似度定义为：

Sim（S₁,S₂）=β₁Sim₁(S₁,S₂)+β₂Sim₂(S₁,S₂)+β₃Sim₃(S₁,S₂)+β₄Sim₄(S₁,S₂) （3）

其中，是β_i（1≤i≤4）是可调节因子，且有β₁+β₂+β₃+β₄=1，β₁>β₂>β₃>β₄，本发明中β₁=0.5，β₂=0.2，β₃=0.17，β₄=0.13。

信息资源库是信息检索系统的基础设施之一，在信息检索时，首先要确保信息库中存在足够多的可供检索信息，同时还要确保这些信息是对检索有用的。本发明利用水利主题词指导水利主题爬虫对水利信息资源的获取，具体处理过程如算法1所示，可以有效地过滤广告网站、无关链接、与主题不相关或弱相关的网页，防止主题漂移。

算法1 水利主题爬虫处理流程

语义查询处理模块指在本体的支持下，把与原查询相关的词语或者与原查询语义相关联的概念添加到查询词汇集合中，得到比原查询更丰富的新查询，然后检索文档，以改善信息检索的查全率与查准率，解决长期困扰水利信息检索领域的“机械匹配”问题。本发明构造Jena模糊推理机用以实现查询词的扩展，其推理机制如图2所示；利用推理机制可以有效的实现查询词的扩展，表3为我们做的一次实验的结果。

表3

基于语义的水利领域信息检索方法的按如下步骤进行实施：

S-1：根据水利主题词库对互联网上的水利主题资源进行抽取，具体包含如下步骤：

S-1-1：初始化需要抓取的URL种子队列，将需要抓取的网页URL加入队列形成初始队列。

S-1-2：判断URL种子队列是中的URL是否为空，若为非空，转向步骤S-1-3，否则，转向步骤S-2。

S-1-3：从队列中取出一个URL种子，从互联网下载对应的网页信息，若下载成功则转向步骤S-1-4，否则，转向步骤S-1-2。

S-1-4：判断下载网页是否与主题相关，相关度采用式-（1）计算，阈值取0.05，若相关，则转入步骤S-1-5；否则，转向步骤S-1-6。

S-1-5：采用FRDF对网页进行描述，并将描述信息存入水利主题资源库。

S-2：利用FRDF对抽取的信息资源进行规范化描述，形成水利主题资源库并构建倒排索引。

为了能够利用模糊推理机更加全面的进行查询词扩展，我们在RDF的三元组（主体，谓词，客体）中的谓词加入一个表示谓词的模糊性的权值，发明了模糊资源描述框架（FRDF），FRDF用四元组（主体、（谓词、权值）、客体）来描述Web上的资源及其关系。

为了加快查询处理的效率，我们对水利主题信息资源构建倒排索引，在语义扩展的基础上进行关键词查询，降低检索的处理时间。

为了能够更好的处理查询请求，我们采用字符串匹配算法(BM法)作为Lucene中文分词的核心算法结合现代汉语词典2010版对用户的查询请求进行分词形成查询词集合。

S-4：进行语义扩展处理形成语义扩展词集合，并计算扩展词语查询词间的语义相似度，如图4所示为为语义扩展的流程，具体包括如下步骤：

S-4-2：从查询词集合中取出一个未处理的查询词，判断其是否为水利本体库中的词汇，若是，则转向步骤S-4-3，否则转向步骤S-4-4；

S-4-3：结合水利领域本体进行水利领域语义扩展，算法2所示，分别为水利领域语义扩展算法，具体包含如下步骤：

S-4-3-1：利用模糊推理单元推理出与该查询词具有相关关系的领域词汇集合；

S-4-3-2：判断领域相关词汇集合是否还有未处理的相关领域词汇，若有转向步骤S-4-3-3，否则，转向步骤：

S-4-3-3：判断该相关领域词汇与查询词的相似度是否存储水利领域本体库中，若否，在则转向步骤S-4-3-4，否则，转向步骤S-4-3-5；

S-4-3-4：利用语义词汇相似度计算单元计算相关度，并存入水利领域本体库；

S-4-3-5：判断语义相似度是否大于阈值0.05，若大于，则将该领域词汇加入语义扩展词汇集合，否则，转向步骤S-4-3-2；

算法2 基于水利本体的语义扩展

S-4-4：结合知网语义本体进行通用语义扩展，并将扩展的通用语义词汇加入扩展词汇集合；

为了应对非水利专业用户的查询请求，在无水利领域扩展词汇的情况下结合知网语义本体进行通用语义扩展，我们在计算义原相似度和概念对相似度基础计算两个词汇间的相似度。对于两个词语W₁和W₂，如果W₁的n个义项（概念）：S₁₁，S₁₂，S₁₂，…，S_1n,W₂中有m个义项—S₂₁，S₂₂，…，S_2m，W₁和W₂的相似度定义为：

Sim (W_{1}, W_{2}) = \min_{i = 1 . . . n, j = 1 . . . m} Sim (S_{1 i}, S_{2 j}) - - - (4)

为减少扩展查询的语义漂移，使扩展查询时扩展词尽量与原检索词相似，我们采用概念对的最小值来表示两个词的相似度。

为了保证查全率，基于Lucene中文分词结合水文主题词对水利信息资源进行分词，采用全文查询的方式对水利领域信息进行检索。

Claims

1.一种基于语义的水利领域信息检索系统，其特征在于，包括如下模块：信息获取与存储模块，用于从互联网获取水利主题信息，存储到水利主题资源库并构建索引；语义本体模块，用于存储水利领域本体和知网语义本体，并完成领域词汇相似度的计算；语义查询处理模块，用于从获取用户查询请求进行查询处理，并按语义相关度排序返回给用户；

所述信息获取与处理模块，包含水利主题爬虫单元、水利主题网页处理单元、Lucene索引单元、水利主题词库、水利主题资源库和水利资源索引库；其中水利主题爬虫单元利用水利主题词库过滤非水利主题网页；水利主题网页处理单元用于将水利主题爬虫单元抽取的信息以模糊资源描述的形式存储到水利主题资源库；Lucene索引单元采用Lucene技术对水利主题资源库的水利主题信息资源构建倒排索引；

所述语义本体模块，包括水利本体库、知网本体库和语义词汇相似度计算单元；其中水利本体库用于存储水利领域本体及其词汇的相似度；知网本体库用于存储知网本体词汇及子网词汇相似度；所述水利本体库中的水利领域本体是模糊本体；所述词汇相似度均由语义词汇相似度计算单元计算；

2.一种基于语义的水利领域信息检索方法，其特征在于，包含如下步骤：

S-1：根据水利主题词库对互联网上的水利主题资源进行抽取；

S-4：进行语义扩展处理形成语义扩展词集合，并计算扩展词语查询词间的语义相似度；

3.如权利要求书2所述的基于语义的水利领域信息检索方法，其特征在于：所述步骤S-1具体包含如下实施步骤：

步骤S-1-1：初始化需要抓取的URL种子队列；

步骤S-1-2：判断URL种子队列是中的URL是否为空，若为非空，转向步骤S-1-3，否则，结束抽取；

S-1-5：采用FRDF对下载网页进行描述，并将描述信息存入水利主题资源库；

S-1-6：判断下载网页中是否新URL，若有，抽取网页中的URL，并将其加入URL种子队列，转向步骤S-1-2，若无，直接转向步骤S-1-2。

4.如权利要求书2所述基于语义的水利领域信息检索方法，其特征在于：所述步骤S-4具体包含如下实施步骤：

S-4-1：判断查询词集合中的查询词是否有未处理的查询词，若有，则转向步骤S-4-2，否则，转向步骤S-4-5；

步骤S-4-5：结束。

5.如权利要求书4所述的基于语义的水利领域信息检索方法，其特征在于：步骤S-4-3-4水利领域本体词汇间相似度定义为a*β，其中β为整体相似度，取0.9，a是取值为正小数的系数。

6.如权利要求书4所述的基于语义的水利领域信息检索方法，其特征在于：步骤S-4-4知网本体词汇间相似度计算过程中，义原语义相似度为0.5时的义原语义距离为1.6；概率语义相似度的调节因子：β₁、β₂、β₃、β₄分别取0.5、0.2、0.17和0.13。