CN104239513A

CN104239513A - 一种面向领域数据的语义检索方法

Info

Publication number: CN104239513A
Application number: CN201410471778.0A
Authority: CN
Inventors: 宋胜利; 高海昌; 覃桂敏; 褚华
Original assignee: Xidian University
Current assignee: Shaanxi Shuhui Yunyu Technology Co ltd
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2014-12-24
Anticipated expiration: 2034-09-16
Also published as: CN104239513B

Abstract

本发明公开了一种面向领域数据的语义检索方法，利用本体来描述某个领域的语义信息，使得计算机更准确得理解用户查询内容，进而实现语义层面的检索，在分析现有技术的基础上，结合语义网本体的结构特点，提出了一种面向领域数据的语义索引模型，模型根据关键词在本体中的位置推断关键词与不同实例之间的语义相关度，将相关度权重写入关键词对应的实例倒排列表，降低了语义检索时相似度计算的复杂度，提高了检索的效率。本发明所述方法将检索从关键字简单匹配的语法层次提高到计算机可以理解的语义层次，使计算机能够读懂输入的关键词，从而实现了检索的智能化。

Description

一种面向领域数据的语义检索方法

技术领域

本发明涉及一种智能检索方法，具体是一种面向领域数据的语义检索方法。

背景技术

互联网是当今最主要的网络信息集散地，汇聚了海量信息，同时信息数量还在以惊人的速度增长，信息检索技术作为一种便捷的信息查看方式在信息获取的过程中占据着越来越重要的位置。传统的搜索引擎大多使用的是基于关键词匹配的方式，缺乏必要的语义信息，不能很好地理解用户需求，常常得到大量不相关的信息，为了突破这些限制，大量的研究工作开始转向搜索领域的语义化，即语义网和网络搜索两个领域最热的研究方向之一。

当前实用化的信息检索系统在信息的语义解释上有一定局限性，计算机无法通过几个关键字完全理解用户的需求。首先是由于不同的用户对同一个概念的表示方法不同，也就是没有统一的信息表示规范，其次是因为同一个关键字在不同的上下文表示不同的概念，即存在一词多义的情况。造成这些局限的最主要问题是不能很好地处理概念、标识之间的各种联系和推理关系。

语义检索利用语义技术将信息检索的过程从关键词匹配提升到语义概念（或知识）匹配的层面。本体是一种重要的知识表示方式，它描述了概念的内涵以及不同概念之间的关系，具有良好的概念层次结构，同时还提供对逻辑推理的支持，很多研究人员尝试将本体技术应用到基于知识的检索中。在语义检索应用中，本体技术主要用于不同的应用系统之间的信息理解、使用和分享，基于本体的语义标注技术能够在现实互联网中的网络文档和各个领域的本体模型之间建立关联，给原本没有语义概念的信息赋予语义的内涵，建立语义数据库。将语义数据库应用到信息检索领域中能够避免关键词匹配技术的不足，提升信息检索的效率。

近年来，国外针对语义信息检索的研究比较活跃，相当一部分研究是利用本体技术提高特定领域的信息检索效果。其中比较知名的语义检索系统有：SHOE、Swoogle、Corese等。

SHOE是最早对网络资源进行语义查询的语义检索系统，它的主要组成部分有网页标注工具、网页抓取器、信息查询工具、推理机等。Swoogle是一个针对互联网上的语义网文档、术语以及数据的搜索引擎。它可以像Google一样在互联网上爬行，收集各类Meta信息，并将信息存入信息库中，之后在此基础上创建索引实现信息检索。Corese系统是一个基于本体的语义搜索引擎。在查询的过程中使用基于RDF(S)的查询语言对使用相同标准标注过的网络资源进行搜索。该系统的相似度算法的设计主要是依据推理规则以及语义网中实体之间的语义距离，例如概念之间、属性之间、概念与属性之间等。从这个意义上讲，该系统更容易检索到那些在概念和语义关系上接近用户查询的资源。

国内对语义网的研究更多停留在理论层面，将语义网和本体技术应用于信息检索领域的研究起步较晚，借鉴国外经验较多，成熟的应用较少。虽然取得了一些研究进展，但与国外尤其是发达国家相比还是有一定的差距，主要还是因为我国缺少相关的政府组织或强有力的民间组织来推动语义网的研究，也缺少从战略层面对互联网的规划和设计，但是人工智能、信息管理等多领域的学者专家一直在对语义网、本体技术、语义检索等方面进行着研究探索，并取得了一定成果。

发明内容

本发明的目的在于提供一种把当前的信息检索技术从关键字匹配方式提高到计算机可理解的语义检索方式的面向领域数据的语义检索方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种面向领域数据的语义检索方法，包括以下步骤：（1）借助本体管理工具完成本体概念库的构建，利用语义标注工具进行标注得到实例数据集；（2）根据本体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重，遍历实例数据集，构建语义数据索引；（3）用户输入查询语句，利用分词工具对用户查询语句进行分词处理；（4）利用本体概念连通图和上下文分析对用户查询进行语义扩展，形成新的单词集合；（5）用新的单词集合作为原始词，进行语义检索，得到相关实例集合；（6）将检索得到的实例集合按照相关度权值大小进行排序；（7）将检索结果返回给用户。

作为本发明进一步的方案：所述构建语义数据索引的步骤包括：（1）对实例数据集中的所有实例以及实例对应的资源进行编号；（2）遍历实例数据集中所有实例，访问实例所属的概念、包含的属性以及相关的概念和实例，查表得到与实例相关的所有实体的相关度权值，将实例编号和权重存入实体名称对应的倒排列表；（3）遍历所有的实体名称，对每个实体名称进行分词处理；（4）合并每个单词对应的倒排列表，得到语义索引。

作为本发明进一步的方案：所述的利用本体概念连通图进行语义扩展的算法包括如下步骤：（1）输入语义实例数据索引库，输出本体概念连通图，顶点为概念，边的权重为概念之间的关联程度；（3）初始化本体概念连通图CM；（4）访问语义实例数据库，获取具有概念的文档集合D；（5）对于每一个具有概念的文档集合Di中所出现的任意两个概念C_j和C_k，取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合D_i中的频数f；（6）如果概念C_j和概念C_k在本体概念图中是连通的并且权重不为0，就将频数f累加权重；（7）如果C_j和C_k不连通，则在图中连通C_j和C_k，并为其赋值为f；（8）对图中所有边的频数f取最大值作为分母进行归一化处理，得到连通概念C_j和C_k的边权重W_j，k；

作为本发明进一步的方案：所述的利用上下文分析进行语义扩展的算法包括如下步骤：（1）输入单词序列q₁、q₂、…、q_n，输出每个单词的扩展概念；（2）使用简单查询方式获得每个单词序列q_i的相关文档集合D_i；（3）统计文档集合D_i中出现的本体概念，对每个概念出现次数进行统计；（4）统计每篇文档集合Di中出现单词序列q_i的次数；（5）综合考虑概念以及单词序列q_i出现的频率，取前K个概念作为q_i的扩展概念；（6）对K个概念一并提取其属性描述作为扩展向量内容，初始化每个单词序列q_i的候选概念列表。

作为本发明再进一步的方案：所述的对用户输入的查询语句进行语义检索的步骤包括：（1）预处理用户输入的查询语句，消除无效字符，利用分词工具对用户输入查询语句进行分词处理；（2）利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩展，得到扩展后的单词集合；（3）依次查找扩展后的单词集中每个单词对应的实例倒排列表，整合所有的倒排列表，得到用户查询对应的实例列表；（4）根据实例对应的相关度权重，对实例列表进行排序，得到用户查询对应的最终倒排列表。

与现有技术相比，本发明的有益效果是：

本发明在本体技术的支持下，通过对本体中属性关系的应用实现了实例的准确查找，使信息检索的查准率比现有技术有所提高；本发明所述方法将检索从关键字简单匹配的语法层次提高到计算机可以理解的语义层次，使计算机能够读懂输入的关键词，从而实现了检索的智能化。

附图说明

图1为本发明中一个本体实例的结构示意图。

图2为本发明中以事件为主题的本体结构示意图。

图3为本发明中创建语义索引的流程图。

图4为本发明中通过索引查询数据的流程图。

图5为本发明中本体概念连通图。

图6为本发明中用户查询扩展的流程图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

请参阅图1-6，一种面向领域数据的语义检索方法，包括以下步骤：（1）借助本体管理工具完成本体概念库的构建，利用语义标注工具进行标注得到实例数据集，图1中张三所属的概念是学生，雁塔区所属的概念是地区，对象属性表示与其他实例之间的关系，张三家住在雁塔区，那么“张三”就是该人的实例名称，“家住在”是对象属性，而“雁塔区”是对应于该实例的对象属性的值，数据属性表明实例具有的字面量、数字等属性值，张三的体重为60kg，“体重为”就是张三对应的数据属性，60kg就是该数据属性对应的值；（2）根据本体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重，遍历实例数据集，构建语义数据索引；（3）用户输入查询语句，利用分词工具对用户查询语句进行分词处理；（4）利用本体概念连通图和上下文分析对用户查询进行语义扩展，形成新的单词集合；（5）用新的单词集合作为原始词，进行语义检索，得到相关实例集合；（6）将检索得到的实例集合按照相关度权值大小进行排序；（7）将检索结果返回给用户。

构建语义数据索引的步骤包括：（1）对实例数据集中的所有实例以及实例对应的资源进行编号；（2）遍历实例数据集中所有实例，访问实例所属的概念、包含的属性以及相关的概念和实例，查表得到与实例相关的所有实体的相关度权值，将实例编号和权重存入实体名称对应的倒排列表；（3）遍历所有的实体名称，对每个实体名称进行分词处理；（4）合并每个单词对应的倒排列表，得到语义索引。

利用本体概念连通图进行语义扩展的算法包括如下步骤：（1）输入语义实例数据索引库，输出本体概念连通图，顶点为概念，边的权重为概念之间的关联程度；（3）初始化本体概念连通图CM；（4）访问语义实例数据库，获取具有概念的文档集合D；（5）对于每一个具有概念的文档集合Di中所出现的任意两个概念C_j和C_k，取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合D_i中的频数f；（6）如果概念C_j和概念C_k在本体概念图中是连通的并且权重不为0，就将频数f累加权重；（7）如果C_j和C_k不连通，则在图中连通C_j和C_k，并为其赋值为f；（8）对图中所有边的频数f取最大值作为分母进行归一化处理，得到连通概念C_j和C_k的边权重W_j，k；

利用上下文分析进行语义扩展的算法包括如下步骤：（1）输入单词序列q₁、q₂、…、q_n，输出每个单词的扩展概念；（2）使用简单查询方式获得每个单词序列q_i的相关文档集合D_i；（3）统计文档集合D_i中出现的本体概念，对每个概念出现次数进行统计；（4）统计每篇文档集合Di中出现单词序列q_i的次数；（5）综合考虑概念以及单词序列q_i出现的频率，取前K个概念作为q_i的扩展概念；（6）对K个概念一并提取其属性描述作为扩展向量内容，初始化每个单词序列q_i的候选概念列表。

对用户输入的查询语句进行语义检索的步骤包括：（1）预处理用户输入的查询语句，消除无效字符，利用分词工具对用户输入查询语句进行分词处理；（2）利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩展，得到扩展后的单词集合；（3）依次查找扩展后的单词集中每个单词对应的实例倒排列表，整合所有的倒排列表，得到用户查询对应的实例列表；（4）根据实例对应的相关度权重，对实例列表进行排序，得到用户查询对应的最终倒排列表。

请参阅图2，本发明实施例中，一种面向领域数据的语义检索方法，包括以下步骤：

（1）创建一个以事件为主题的本体结构，进行语义标注得到本体实例集，图中带圆圈的图标都是“事件”领域的概念，带菱形的图标都是从文件标注得到的实例数据，例如“军事事件”是“事件”的子概念，“东海舰队举行大规模海上演练”是“军事事件”的实例。

（2）对本体实例集中的所有的实例进行编号，如表1所示。

表1-本体实例集中的所有实例编号列表

编号	实例名称	详细信息
			1	日企走下家电神坛	…
2	日系车巨头领衔日企业绩大滑坡	…
			3	东海舰队举行大规模海上演练	…
4	日本GDP再收缩，经济重陷衰退几成定局	…

(3)表1中记录了每个实例的编号、名称以及详细信息，详细信息包括实例所属概念、相关资源、数据属性及属性值、对象属性及属性值等，所属概念代表了实例在本体层次结构中的分类信息，相关资源是实例的来源，包括视频、图像、文本等多种类型的文件，一个实例可能和多个资源相关，因为多个资源可能描述的是同一个实例，相互补充实例的属性信息使得实例记录更完善，数据属性和对象属性都是从资源文件中抽取来的，用于详细描述实例的相关信。

(4)针对“事件”本体创建相关实例列表，如表2所示。

表2-本体实例集中的事件本体的实例列表

编号	实体名称	相关实例列表	关联类型
				1	事件(本体名称)	1<0.1>，2<0.1>，3<0.1>，4<0.1>，5<0.1>	2
2	事件(概念名称)	1<0.2>，2<0.2>，3<0.2>，4<0.2>，5<0.2>	6
				3	经济事件	1<0.5>，2<0.5>，4<0.5>	3
4	军事事件	3<0.5>	3
				5	行动	5<0.5>	3
6	事件	1<0.2>，2<0.2>，3<0.2>，4<0.2>，5<0.2>	6
				7	日企走下家电神坛	1<1.0>，2<0.1>，4<0.1>	1、8
8	日系车巨头领衔…	2<1.0>，1<0.1>，4<0.1>	1、8
				9	东海舰队举行大…	3<1.0>	1
10	日本GDP再收缩…	4<1.0>，1<0.1>，2<0.1>	1、8
				11	…	…	…

(5)表2展示了事件概念中部分节点名称及对应的相关实例列表，最左边是概念名称，中间是对应的相关实例列表及权值，最右边是涉及的关联类型，例如对于实例名称“日企走下家电神坛”，它有两种关联类型：1和8，首先是和自身的关联1<1.0>，实例编号为1，权值为1.0，然后是和同类型的另外两个实例的关联：2<0.1>，4<0.1>，关联度权值都为0.1。

（6）在本体的相关实例列表中，实体名称都不是单个单词，而是由多个单词组成的短语，这样在进行用户输入匹配的时候，会出现匹配率非常低的情况，为了解决这个问题，需要对每个节点名称进行分词处理，将其转化成单词序列。节点名称对应的相关实例列表则复制给每个单词，然后对每个单词的实例列表进行合并处理，将相同实例的权值加合起来，就形成了最终的语义索引结构。下表展示了“事件”本体对应的索引列表。

表3-本体实例集中的事件本体对应的索引列表

编号	关键词	相关实例列表
			1	事件	1<1.0>，2<1.0>，3<0.5>，4<1.0>，5<0.5>
2	经济	1<0.6>，2<0.6>，4<1.5>
			3	军事	3<0.5>
4	行动	5<0.5>
			5	日企	1<1.1>，2<1.1>，4<0.2>
6	家电	1<1.0>，2<0.1>，4<0.1>
			7	神坛	1<1.0>，2<0.1>，4<0.1>
8	日系车	2<1.0>，1<0.1>，4<0.1>
			9	巨头	2<1.0>，1<0.1>，4<0.1>
10	业绩	2<1.0>，1<0.1>，4<0.1>
			11	大滑坡	2<1.0>，1<0.1>，4<0.1>
12	领衔	2<1.0>，1<0.1>，4<0.1>
			…	…	…

（7）表3所示的语义索引结构包含三列数据：编号、关键词和相关实例列表，可以直接通过关键词得到与之相关的所有实例，以及与每个实例的相关度权值。在进行语义检索的时候，只需要将用户查询短语进行分词，找到每个单词对应相关实例列表，然后将列表数据合并即可得到最终的相关实例列表，例如当用户输入“日企巨头”，会分别找到“日企”和“巨头”的相关实例列表：1<1.1>，2<1.1>，4<0.2>和2<1.0>，1<0.1>，4<0.1>，合并之后得到1<1.2>，2<2.1>，4<0.3>，可以得知相关的实例有1，2，4，而最相关的实例是实例2。

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims

1.一种面向领域数据的语义检索方法，其特征在于，包括以下步骤：（1）借助本体管理工具完成本体概念库的构建，利用语义标注工具进行标注得到实例数据集；（2）根据本体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重，遍历实例数据集，构建语义数据索引；（3）用户输入查询语句，利用分词工具对用户查询语句进行分词处理；（4）利用本体概念连通图和上下文分析对用户查询进行语义扩展，形成新的单词集合；（5）用新的单词集合作为原始词，进行语义检索，得到相关实例集合；（6）将检索得到的实例集合按照相关度权值大小进行排序；（7）将检索结果返回给用户。

2.根据权利1所述的面向领域数据的语义检索方法，其特征在于，所述构建语义数据索引的步骤包括：（1）对实例数据集中的所有实例以及实例对应的资源进行编号；（2）遍历实例数据集中所有实例，访问实例所属的概念、包含的属性以及相关的概念和实例，查表得到与实例相关的所有实体的相关度权值，将实例编号和权重存入实体名称对应的倒排列表；（3）遍历所有的实体名称，对每个实体名称进行分词处理；（4）合并每个单词对应的倒排列表，得到语义索引。

3.根据权利1所述的面向领域数据的语义检索方法，其特征在于，所述的利用本体概念连通图进行语义扩展的算法包括如下步骤：（1）输入语义实例数据索引库，输出本体概念连通图，顶点为概念，边的权重为概念之间的关联程度；（3）初始化本体概念连通图CM；（4）访问语义实例数据库，获取具有概念的文档集合D；（5）对于每一个具有概念的文档集合Di中所出现的任意两个概念C_j和C_k，取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合D_i中的频数f；（6）如果概念C_j和概念C_k在本体概念图中是连通的并且权重不为0，就将频数f累加权重；（7）如果C_j和C_k不连通，则在图中连通C_j和C_k，并为其赋值为f；（8）对图中所有边的频数f取最大值作为分母进行归一化处理，得到连通概念C_j和C_k的边权重W_j，k。

4.根据权利1所述的面向领域数据的语义检索方法，其特征在于，所述的利用上下文分析进行语义扩展的算法包括如下步骤：（1）输入单词序列q₁、q₂、…、q_n，输出每个单词的扩展概念；（2）使用简单查询方式获得每个单词序列q_i的相关文档集合D_i；（3）统计文档集合D_i中出现的本体概念，对每个概念出现次数进行统计；（4）统计每篇文档集合Di中出现单词序列q_i的次数；（5）综合考虑概念以及单词序列q_i出现的频率，取前K个概念作为q_i的扩展概念；（6）对K个概念一并提取其属性描述作为扩展向量内容，初始化每个单词序列q_i的候选概念列表。

5.根据权利1所述的面向领域数据的语义检索方法，其特征在于，所述的对用户输入的查询语句进行语义检索的步骤包括：（1）预处理用户输入的查询语句，消除无效字符，利用分词工具对用户输入查询语句进行分词处理；（2）利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩展，得到扩展后的单词集合；（3）依次查找扩展后的单词集中每个单词对应的实例倒排列表，整合所有的倒排列表，得到用户查询对应的实例列表；（4）根据实例对应的相关度权重，对实例列表进行排序，得到用户查询对应的最终倒排列表。