CN104239513A - 一种面向领域数据的语义检索方法 - Google Patents
一种面向领域数据的语义检索方法 Download PDFInfo
- Publication number
- CN104239513A CN104239513A CN201410471778.0A CN201410471778A CN104239513A CN 104239513 A CN104239513 A CN 104239513A CN 201410471778 A CN201410471778 A CN 201410471778A CN 104239513 A CN104239513 A CN 104239513A
- Authority
- CN
- China
- Prior art keywords
- concept
- semantic
- retrieval
- user
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 239000012141 concentrate Substances 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000037396 body weight Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013549 information retrieval technique Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000013550 semantic technology Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向领域数据的语义检索方法,利用本体来描述某个领域的语义信息,使得计算机更准确得理解用户查询内容,进而实现语义层面的检索,在分析现有技术的基础上,结合语义网本体的结构特点,提出了一种面向领域数据的语义索引模型,模型根据关键词在本体中的位置推断关键词与不同实例之间的语义相关度,将相关度权重写入关键词对应的实例倒排列表,降低了语义检索时相似度计算的复杂度,提高了检索的效率。本发明所述方法将检索从关键字简单匹配的语法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了检索的智能化。
Description
技术领域
本发明涉及一种智能检索方法,具体是一种面向领域数据的语义检索方法。
背景技术
互联网是当今最主要的网络信息集散地,汇聚了海量信息,同时信息数量还在以惊人的速度增长,信息检索技术作为一种便捷的信息查看方式在信息获取的过程中占据着越来越重要的位置。传统的搜索引擎大多使用的是基于关键词匹配的方式,缺乏必要的语义信息,不能很好地理解用户需求,常常得到大量不相关的信息,为了突破这些限制,大量的研究工作开始转向搜索领域的语义化,即语义网和网络搜索两个领域最热的研究方向之一。
当前实用化的信息检索系统在信息的语义解释上有一定局限性,计算机无法通过几个关键字完全理解用户的需求。首先是由于不同的用户对同一个概念的表示方法不同,也就是没有统一的信息表示规范,其次是因为同一个关键字在不同的上下文表示不同的概念,即存在一词多义的情况。造成这些局限的最主要问题是不能很好地处理概念、标识之间的各种联系和推理关系。
语义检索利用语义技术将信息检索的过程从关键词匹配提升到语义概念(或知识)匹配的层面。本体是一种重要的知识表示方式,它描述了概念的内涵以及不同概念之间的关系,具有良好的概念层次结构,同时还提供对逻辑推理的支持,很多研究人员尝试将本体技术应用到基于知识的检索中。在语义检索应用中,本体技术主要用于不同的应用系统之间的信息理解、使用和分享,基于本体的语义标注技术能够在现实互联网中的网络文档和各个领域的本体模型之间建立关联,给原本没有语义概念的信息赋予语义的内涵,建立语义数据库。将语义数据库应用到信息检索领域中能够避免关键词匹配技术的不足,提升信息检索的效率。
近年来,国外针对语义信息检索的研究比较活跃,相当一部分研究是利用本体技术提高特定领域的信息检索效果。其中比较知名的语义检索系统有:SHOE、Swoogle、Corese等。
SHOE是最早对网络资源进行语义查询的语义检索系统,它的主要组成部分有网页标注工具、网页抓取器、信息查询工具、推理机等。Swoogle是一个针对互联网上的语义网文档、术语以及数据的搜索引擎。它可以像Google一样在互联网上爬行,收集各类Meta信息,并将信息存入信息库中,之后在此基础上创建索引实现信息检索。Corese系统是一个基于本体的语义搜索引擎。在查询的过程中使用基于RDF(S)的查询语言对使用相同标准标注过的网络资源进行搜索。该系统的相似度算法的设计主要是依据推理规则以及语义网中实体之间的语义距离,例如概念之间、属性之间、概念与属性之间等。从这个意义上讲,该系统更容易检索到那些在概念和语义关系上接近用户查询的资源。
国内对语义网的研究更多停留在理论层面,将语义网和本体技术应用于信息检索领域的研究起步较晚,借鉴国外经验较多,成熟的应用较少。虽然取得了一些研究进展,但与国外尤其是发达国家相比还是有一定的差距,主要还是因为我国缺少相关的政府组织或强有力的民间组织来推动语义网的研究,也缺少从战略层面对互联网的规划和设计,但是人工智能、信息管理等多领域的学者专家一直在对语义网、本体技术、语义检索等方面进行着研究探索,并取得了一定成果。
发明内容
本发明的目的在于提供一种把当前的信息检索技术从关键字匹配方式提高到计算机可理解的语义检索方式的面向领域数据的语义检索方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种面向领域数据的语义检索方法,包括以下步骤:(1)借助本体管理工具完成本体概念库的构建,利用语义标注工具进行标注得到实例数据集;(2)根据本体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重,遍历实例数据集,构建语义数据索引;(3)用户输入查询语句,利用分词工具对用户查询语句进行分词处理;(4)利用本体概念连通图和上下文分析对用户查询进行语义扩展,形成新的单词集合;(5)用新的单词集合作为原始词,进行语义检索,得到相关实例集合;(6)将检索得到的实例集合按照相关度权值大小进行排序;(7)将检索结果返回给用户。
作为本发明进一步的方案:所述构建语义数据索引的步骤包括:(1)对实例数据集中的所有实例以及实例对应的资源进行编号;(2)遍历实例数据集中所有实例,访问实例所属的概念、包含的属性以及相关的概念和实例,查表得到与实例相关的所有实体的相关度权值,将实例编号和权重存入实体名称对应的倒排列表;(3)遍历所有的实体名称,对每个实体名称进行分词处理;(4)合并每个单词对应的倒排列表,得到语义索引。
作为本发明进一步的方案:所述的利用本体概念连通图进行语义扩展的算法包括如下步骤:(1)输入语义实例数据索引库,输出本体概念连通图,顶点为概念,边的权重为概念之间的关联程度;(3)初始化本体概念连通图CM;(4)访问语义实例数据库,获取具有概念的文档集合D;(5)对于每一个具有概念的文档集合Di中所出现的任意两个概念Cj和Ck,取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合Di中的频数f;(6)如果概念Cj和概念Ck在本体概念图中是连通的并且权重不为0,就将频数f累加权重;(7)如果Cj和Ck不连通,则在图中连通Cj和Ck,并为其赋值为f;(8)对图中所有边的频数f取最大值作为分母进行归一化处理,得到连通概念Cj和Ck的边权重Wj,k;
作为本发明进一步的方案:所述的利用上下文分析进行语义扩展的算法包括如下步骤:(1)输入单词序列q1、q2、…、qn,输出每个单词的扩展概念;(2)使用简单查询方式获得每个单词序列qi的相关文档集合Di;(3)统计文档集合Di中出现的本体概念,对每个概念出现次数进行统计;(4)统计每篇文档集合Di中出现单词序列qi的次数;(5)综合考虑概念以及单词序列qi出现的频率,取前K个概念作为qi的扩展概念;(6)对K个概念一并提取其属性描述作为扩展向量内容,初始化每个单词序列qi的候选概念列表。
作为本发明再进一步的方案:所述的对用户输入的查询语句进行语义检索的步骤包括:(1)预处理用户输入的查询语句,消除无效字符,利用分词工具对用户输入查询语句进行分词处理;(2)利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩展,得到扩展后的单词集合;(3)依次查找扩展后的单词集中每个单词对应的实例倒排列表,整合所有的倒排列表,得到用户查询对应的实例列表;(4)根据实例对应的相关度权重,对实例列表进行排序,得到用户查询对应的最终倒排列表。
与现有技术相比,本发明的有益效果是:
本发明在本体技术的支持下,通过对本体中属性关系的应用实现了实例的准确查找,使信息检索的查准率比现有技术有所提高;本发明所述方法将检索从关键字简单匹配的语法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了检索的智能化。
附图说明
图1为本发明中一个本体实例的结构示意图。
图2为本发明中以事件为主题的本体结构示意图。
图3为本发明中创建语义索引的流程图。
图4为本发明中通过索引查询数据的流程图。
图5为本发明中本体概念连通图。
图6为本发明中用户查询扩展的流程图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1-6,一种面向领域数据的语义检索方法,包括以下步骤:(1)借助本体管理工具完成本体概念库的构建,利用语义标注工具进行标注得到实例数据集,图1中张三所属的概念是学生,雁塔区所属的概念是地区,对象属性表示与其他实例之间的关系,张三家住在雁塔区,那么“张三”就是该人的实例名称,“家住在”是对象属性,而“雁塔区”是对应于该实例的对象属性的值,数据属性表明实例具有的字面量、数字等属性值,张三的体重为60kg,“体重为”就是张三对应的数据属性,60kg就是该数据属性对应的值;(2)根据本体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重,遍历实例数据集,构建语义数据索引;(3)用户输入查询语句,利用分词工具对用户查询语句进行分词处理;(4)利用本体概念连通图和上下文分析对用户查询进行语义扩展,形成新的单词集合;(5)用新的单词集合作为原始词,进行语义检索,得到相关实例集合;(6)将检索得到的实例集合按照相关度权值大小进行排序;(7)将检索结果返回给用户。
构建语义数据索引的步骤包括:(1)对实例数据集中的所有实例以及实例对应的资源进行编号;(2)遍历实例数据集中所有实例,访问实例所属的概念、包含的属性以及相关的概念和实例,查表得到与实例相关的所有实体的相关度权值,将实例编号和权重存入实体名称对应的倒排列表;(3)遍历所有的实体名称,对每个实体名称进行分词处理;(4)合并每个单词对应的倒排列表,得到语义索引。
利用本体概念连通图进行语义扩展的算法包括如下步骤:(1)输入语义实例数据索引库,输出本体概念连通图,顶点为概念,边的权重为概念之间的关联程度;(3)初始化本体概念连通图CM;(4)访问语义实例数据库,获取具有概念的文档集合D;(5)对于每一个具有概念的文档集合Di中所出现的任意两个概念Cj和Ck,取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合Di中的频数f;(6)如果概念Cj和概念Ck在本体概念图中是连通的并且权重不为0,就将频数f累加权重;(7)如果Cj和Ck不连通,则在图中连通Cj和Ck,并为其赋值为f;(8)对图中所有边的频数f取最大值作为分母进行归一化处理,得到连通概念Cj和Ck的边权重Wj,k;
利用上下文分析进行语义扩展的算法包括如下步骤:(1)输入单词序列q1、q2、…、qn,输出每个单词的扩展概念;(2)使用简单查询方式获得每个单词序列qi的相关文档集合Di;(3)统计文档集合Di中出现的本体概念,对每个概念出现次数进行统计;(4)统计每篇文档集合Di中出现单词序列qi的次数;(5)综合考虑概念以及单词序列qi出现的频率,取前K个概念作为qi的扩展概念;(6)对K个概念一并提取其属性描述作为扩展向量内容,初始化每个单词序列qi的候选概念列表。
对用户输入的查询语句进行语义检索的步骤包括:(1)预处理用户输入的查询语句,消除无效字符,利用分词工具对用户输入查询语句进行分词处理;(2)利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩展,得到扩展后的单词集合;(3)依次查找扩展后的单词集中每个单词对应的实例倒排列表,整合所有的倒排列表,得到用户查询对应的实例列表;(4)根据实例对应的相关度权重,对实例列表进行排序,得到用户查询对应的最终倒排列表。
请参阅图2,本发明实施例中,一种面向领域数据的语义检索方法,包括以下步骤:
(1)创建一个以事件为主题的本体结构,进行语义标注得到本体实例集,图中带圆圈的图标都是“事件”领域的概念,带菱形的图标都是从文件标注得到的实例数据,例如“军事事件”是“事件”的子概念,“东海舰队举行大规模海上演练”是“军事事件”的实例。
(2)对本体实例集中的所有的实例进行编号,如表1所示。
表1-本体实例集中的所有实例编号列表
编号 | 实例名称 | 详细信息 |
1 | 日企走下家电神坛 | … |
2 | 日系车巨头领衔日企业绩大滑坡 | … |
3 | 东海舰队举行大规模海上演练 | … |
4 | 日本GDP再收缩,经济重陷衰退几成定局 | … |
(3)表1中记录了每个实例的编号、名称以及详细信息,详细信息包括实例所属概念、相关资源、数据属性及属性值、对象属性及属性值等,所属概念代表了实例在本体层次结构中的分类信息,相关资源是实例的来源,包括视频、图像、文本等多种类型的文件,一个实例可能和多个资源相关,因为多个资源可能描述的是同一个实例,相互补充实例的属性信息使得实例记录更完善,数据属性和对象属性都是从资源文件中抽取来的,用于详细描述实例的相关信。
(4)针对“事件”本体创建相关实例列表,如表2所示。
表2-本体实例集中的事件本体的实例列表
编号 | 实体名称 | 相关实例列表 | 关联类型 |
1 | 事件(本体名称) | 1<0.1>,2<0.1>,3<0.1>,4<0.1>,5<0.1> | 2 |
2 | 事件(概念名称) | 1<0.2>,2<0.2>,3<0.2>,4<0.2>,5<0.2> | 6 |
3 | 经济事件 | 1<0.5>,2<0.5>,4<0.5> | 3 |
4 | 军事事件 | 3<0.5> | 3 |
5 | 行动 | 5<0.5> | 3 |
6 | 事件 | 1<0.2>,2<0.2>,3<0.2>,4<0.2>,5<0.2> | 6 |
7 | 日企走下家电神坛 | 1<1.0>,2<0.1>,4<0.1> | 1、8 |
8 | 日系车巨头领衔… | 2<1.0>,1<0.1>,4<0.1> | 1、8 |
9 | 东海舰队举行大… | 3<1.0> | 1 |
10 | 日本GDP再收缩… | 4<1.0>,1<0.1>,2<0.1> | 1、8 |
11 | … | … | … |
(5)表2展示了事件概念中部分节点名称及对应的相关实例列表,最左边是概念名称, 中间是对应的相关实例列表及权值,最右边是涉及的关联类型,例如对于实例名称“日企走下家电神坛”,它有两种关联类型:1和8,首先是和自身的关联1<1.0>,实例编号为1,权值为1.0,然后是和同类型的另外两个实例的关联:2<0.1>,4<0.1>,关联度权值都为0.1。
(6)在本体的相关实例列表中,实体名称都不是单个单词,而是由多个单词组成的短语,这样在进行用户输入匹配的时候,会出现匹配率非常低的情况,为了解决这个问题,需要对每个节点名称进行分词处理,将其转化成单词序列。节点名称对应的相关实例列表则复制给每个单词,然后对每个单词的实例列表进行合并处理,将相同实例的权值加合起来,就形成了最终的语义索引结构。下表展示了“事件”本体对应的索引列表。
表3-本体实例集中的事件本体对应的索引列表
编号 | 关键词 | 相关实例列表 |
1 | 事件 | 1<1.0>,2<1.0>,3<0.5>,4<1.0>,5<0.5> |
2 | 经济 | 1<0.6>,2<0.6>,4<1.5> |
3 | 军事 | 3<0.5> |
4 | 行动 | 5<0.5> |
5 | 日企 | 1<1.1>,2<1.1>,4<0.2> |
6 | 家电 | 1<1.0>,2<0.1>,4<0.1> |
7 | 神坛 | 1<1.0>,2<0.1>,4<0.1> |
8 | 日系车 | 2<1.0>,1<0.1>,4<0.1> |
9 | 巨头 | 2<1.0>,1<0.1>,4<0.1> |
10 | 业绩 | 2<1.0>,1<0.1>,4<0.1> |
11 | 大滑坡 | 2<1.0>,1<0.1>,4<0.1> |
12 | 领衔 | 2<1.0>,1<0.1>,4<0.1> |
… | … | … |
(7)表3所示的语义索引结构包含三列数据:编号、关键词和相关实例列表,可以直接通过关键词得到与之相关的所有实例,以及与每个实例的相关度权值。在进行语义检索的时候,只需要将用户查询短语进行分词,找到每个单词对应相关实例列表,然后将列表数据合并即可得到最终的相关实例列表,例如当用户输入“日企巨头”,会分别找到“日企”和“巨头”的相关实例列表:1<1.1>,2<1.1>,4<0.2>和2<1.0>,1<0.1>,4<0.1>,合并之后得到1<1.2>,2<2.1>,4<0.3>,可以得知相关的实例有1,2,4,而最相关的实例是实例2。
本发明在本体技术的支持下,通过对本体中属性关系的应用实现了实例的准确查找,使信息检索的查准率比现有技术有所提高;本发明所述方法将检索从关键字简单匹配的语法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了检索的智能化。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各种变化。
Claims (5)
1.一种面向领域数据的语义检索方法,其特征在于,包括以下步骤:(1)借助本体管理工具完成本体概念库的构建,利用语义标注工具进行标注得到实例数据集;(2)根据本体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重,遍历实例数据集,构建语义数据索引;(3)用户输入查询语句,利用分词工具对用户查询语句进行分词处理;(4)利用本体概念连通图和上下文分析对用户查询进行语义扩展,形成新的单词集合;(5)用新的单词集合作为原始词,进行语义检索,得到相关实例集合;(6)将检索得到的实例集合按照相关度权值大小进行排序;(7)将检索结果返回给用户。
2.根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述构建语义数据索引的步骤包括:(1)对实例数据集中的所有实例以及实例对应的资源进行编号;(2)遍历实例数据集中所有实例,访问实例所属的概念、包含的属性以及相关的概念和实例,查表得到与实例相关的所有实体的相关度权值,将实例编号和权重存入实体名称对应的倒排列表;(3)遍历所有的实体名称,对每个实体名称进行分词处理;(4)合并每个单词对应的倒排列表,得到语义索引。
3.根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述的利用本体概念连通图进行语义扩展的算法包括如下步骤:(1)输入语义实例数据索引库,输出本体概念连通图,顶点为概念,边的权重为概念之间的关联程度;(3)初始化本体概念连通图CM;(4)访问语义实例数据库,获取具有概念的文档集合D;(5)对于每一个具有概念的文档集合Di中所出现的任意两个概念Cj和Ck,取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合Di中的频数f;(6)如果概念Cj和概念Ck在本体概念图中是连通的并且权重不为0,就将频数f累加权重;(7)如果Cj和Ck不连通,则在图中连通Cj和Ck,并为其赋值为f;(8)对图中所有边的频数f取最大值作为分母进行归一化处理,得到连通概念Cj和Ck的边权重Wj,k。
4.根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述的利用上下文分析进行语义扩展的算法包括如下步骤:(1)输入单词序列q1、q2、…、qn,输出每个单词的扩展概念;(2)使用简单查询方式获得每个单词序列qi的相关文档集合Di;(3)统计文档集合Di中出现的本体概念,对每个概念出现次数进行统计;(4)统计每篇文档集合Di中出现单词序列qi的次数;(5)综合考虑概念以及单词序列qi出现的频率,取前K个概念作为qi的扩展概念;(6)对K个概念一并提取其属性描述作为扩展向量内容,初始化每个单词序列qi的候选概念列表。
5.根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述的对用户输入的查询语句进行语义检索的步骤包括:(1)预处理用户输入的查询语句,消除无效字符,利用分词工具对用户输入查询语句进行分词处理;(2)利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩展,得到扩展后的单词集合;(3)依次查找扩展后的单词集中每个单词对应的实例倒排列表,整合所有的倒排列表,得到用户查询对应的实例列表;(4)根据实例对应的相关度权重,对实例列表进行排序,得到用户查询对应的最终倒排列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410471778.0A CN104239513B (zh) | 2014-09-16 | 2014-09-16 | 一种面向领域数据的语义检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410471778.0A CN104239513B (zh) | 2014-09-16 | 2014-09-16 | 一种面向领域数据的语义检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104239513A true CN104239513A (zh) | 2014-12-24 |
CN104239513B CN104239513B (zh) | 2019-03-08 |
Family
ID=52227572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410471778.0A Active CN104239513B (zh) | 2014-09-16 | 2014-09-16 | 一种面向领域数据的语义检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104239513B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016009321A1 (en) * | 2014-07-14 | 2016-01-21 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices |
CN105589976A (zh) * | 2016-03-08 | 2016-05-18 | 重庆文理学院 | 基于语义相关度的目标实体确定方法及装置 |
CN106156143A (zh) * | 2015-04-13 | 2016-11-23 | 富士通株式会社 | 网页处理装置和网页处理方法 |
CN106610941A (zh) * | 2016-08-11 | 2017-05-03 | 四川用联信息技术有限公司 | 一种改进的基于信息论的概念语义相似度计算方法 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN107704453A (zh) * | 2017-10-23 | 2018-02-16 | 深圳市前海众兴电子商务有限公司 | 一种文字语义分析方法、文字语义分析终端及存储介质 |
CN107818144A (zh) * | 2017-10-17 | 2018-03-20 | 郑州云海信息技术有限公司 | 一种基于Solr对多数据源数据进行整合的方法 |
CN107918607A (zh) * | 2017-12-02 | 2018-04-17 | 北京工业大学 | 一种基于语义信息的数字档案查询与排序方法 |
WO2018161516A1 (zh) * | 2017-03-07 | 2018-09-13 | 京东方科技集团股份有限公司 | 用于自动发现医学知识的方法和装置 |
CN108733759A (zh) * | 2017-04-25 | 2018-11-02 | 松下知识产权经营株式会社 | 单词扩展方法、单词扩展装置以及程序 |
CN109033272A (zh) * | 2018-07-10 | 2018-12-18 | 广州极天信息技术股份有限公司 | 一种基于概念的知识自动关联方法及装置 |
CN109214004A (zh) * | 2018-09-06 | 2019-01-15 | 广州知弘科技有限公司 | 基于机器学习的大数据处理方法 |
CN109670102A (zh) * | 2018-12-29 | 2019-04-23 | 北京神舟航天软件技术有限公司 | 基于词表模型的用户检索意图判断方法 |
CN110019418A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 对象描述方法及装置、标识体系、电子设备和存储介质 |
US10496683B2 (en) | 2014-07-14 | 2019-12-03 | International Business Machines Corporation | Automatically linking text to concepts in a knowledge base |
US10503762B2 (en) | 2014-07-14 | 2019-12-10 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
US10572521B2 (en) | 2014-07-14 | 2020-02-25 | International Business Machines Corporation | Automatic new concept definition |
CN110866177A (zh) * | 2018-08-27 | 2020-03-06 | 中国石油化工股份有限公司 | 化工事故新闻采集方法及机器可读存储介质 |
CN112084774A (zh) * | 2020-09-08 | 2020-12-15 | 百度在线网络技术(北京)有限公司 | 数据搜索方法、装置、系统、设备和计算机可读存储介质 |
CN113505600A (zh) * | 2021-06-21 | 2021-10-15 | 广东工业大学 | 一种基于语义概念空间的工业产业链的分布式索引方法 |
WO2022227171A1 (zh) * | 2021-04-25 | 2022-11-03 | 平安科技(深圳)有限公司 | 关键信息提取方法、装置、电子设备及介质 |
CN118333173A (zh) * | 2024-06-14 | 2024-07-12 | 中国特种设备检测研究院 | 基于知识本体的hazop语义推理检索方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566988A (zh) * | 2008-04-24 | 2009-10-28 | 华为技术有限公司 | 一种模糊语义搜索方法、系统及设备 |
CN102081668A (zh) * | 2011-01-24 | 2011-06-01 | 熊晶 | 基于领域本体的信息检索优化方法 |
CN103440314A (zh) * | 2013-08-27 | 2013-12-11 | 北京工业大学 | 一种基于Ontology的语义检索方法 |
-
2014
- 2014-09-16 CN CN201410471778.0A patent/CN104239513B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566988A (zh) * | 2008-04-24 | 2009-10-28 | 华为技术有限公司 | 一种模糊语义搜索方法、系统及设备 |
CN102081668A (zh) * | 2011-01-24 | 2011-06-01 | 熊晶 | 基于领域本体的信息检索优化方法 |
CN103440314A (zh) * | 2013-08-27 | 2013-12-11 | 北京工业大学 | 一种基于Ontology的语义检索方法 |
Non-Patent Citations (2)
Title |
---|
王进: "基于本体的语义信息检索研究", 《中国博士学位论文全文数据库信息科技辑》 * |
裴帅帅: "基于本体的语义数据搜索的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956461B2 (en) | 2014-07-14 | 2021-03-23 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
US10503762B2 (en) | 2014-07-14 | 2019-12-10 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
WO2016009321A1 (en) * | 2014-07-14 | 2016-01-21 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices |
US10503761B2 (en) | 2014-07-14 | 2019-12-10 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
US10496684B2 (en) | 2014-07-14 | 2019-12-03 | International Business Machines Corporation | Automatically linking text to concepts in a knowledge base |
US10572521B2 (en) | 2014-07-14 | 2020-02-25 | International Business Machines Corporation | Automatic new concept definition |
US10496683B2 (en) | 2014-07-14 | 2019-12-03 | International Business Machines Corporation | Automatically linking text to concepts in a knowledge base |
CN106156143A (zh) * | 2015-04-13 | 2016-11-23 | 富士通株式会社 | 网页处理装置和网页处理方法 |
CN105589976A (zh) * | 2016-03-08 | 2016-05-18 | 重庆文理学院 | 基于语义相关度的目标实体确定方法及装置 |
CN105589976B (zh) * | 2016-03-08 | 2019-03-12 | 重庆文理学院 | 基于语义相关度的目标实体确定方法及装置 |
CN106610941A (zh) * | 2016-08-11 | 2017-05-03 | 四川用联信息技术有限公司 | 一种改进的基于信息论的概念语义相似度计算方法 |
WO2018161516A1 (zh) * | 2017-03-07 | 2018-09-13 | 京东方科技集团股份有限公司 | 用于自动发现医学知识的方法和装置 |
US11455546B2 (en) | 2017-03-07 | 2022-09-27 | Beijing Boe Technology Development Co., Ltd. | Method and apparatus for automatically discovering medical knowledge |
CN108733759A (zh) * | 2017-04-25 | 2018-11-02 | 松下知识产权经营株式会社 | 单词扩展方法、单词扩展装置以及程序 |
CN107491547B (zh) * | 2017-08-28 | 2020-11-10 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN107818144A (zh) * | 2017-10-17 | 2018-03-20 | 郑州云海信息技术有限公司 | 一种基于Solr对多数据源数据进行整合的方法 |
CN107704453A (zh) * | 2017-10-23 | 2018-02-16 | 深圳市前海众兴电子商务有限公司 | 一种文字语义分析方法、文字语义分析终端及存储介质 |
CN107918607A (zh) * | 2017-12-02 | 2018-04-17 | 北京工业大学 | 一种基于语义信息的数字档案查询与排序方法 |
CN107918607B (zh) * | 2017-12-02 | 2020-05-08 | 北京工业大学 | 一种基于语义信息的数字档案查询与排序方法 |
CN110019418B (zh) * | 2018-01-02 | 2021-09-14 | 中国移动通信有限公司研究院 | 对象描述方法及装置、标识体系、电子设备和存储介质 |
CN110019418A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 对象描述方法及装置、标识体系、电子设备和存储介质 |
CN109033272A (zh) * | 2018-07-10 | 2018-12-18 | 广州极天信息技术股份有限公司 | 一种基于概念的知识自动关联方法及装置 |
CN110866177B (zh) * | 2018-08-27 | 2022-07-01 | 中国石油化工股份有限公司 | 化工事故新闻采集方法及机器可读存储介质 |
CN110866177A (zh) * | 2018-08-27 | 2020-03-06 | 中国石油化工股份有限公司 | 化工事故新闻采集方法及机器可读存储介质 |
CN109214004A (zh) * | 2018-09-06 | 2019-01-15 | 广州知弘科技有限公司 | 基于机器学习的大数据处理方法 |
CN109670102A (zh) * | 2018-12-29 | 2019-04-23 | 北京神舟航天软件技术有限公司 | 基于词表模型的用户检索意图判断方法 |
CN109670102B (zh) * | 2018-12-29 | 2023-07-28 | 北京神舟航天软件技术有限公司 | 基于词表模型的用户检索意图判断方法 |
CN112084774A (zh) * | 2020-09-08 | 2020-12-15 | 百度在线网络技术(北京)有限公司 | 数据搜索方法、装置、系统、设备和计算机可读存储介质 |
US11636155B2 (en) | 2020-09-08 | 2023-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for data search, system, device and computer readable storage medium |
WO2022227171A1 (zh) * | 2021-04-25 | 2022-11-03 | 平安科技(深圳)有限公司 | 关键信息提取方法、装置、电子设备及介质 |
CN113505600A (zh) * | 2021-06-21 | 2021-10-15 | 广东工业大学 | 一种基于语义概念空间的工业产业链的分布式索引方法 |
CN113505600B (zh) * | 2021-06-21 | 2023-05-23 | 广东工业大学 | 一种基于语义概念空间的工业产业链的分布式索引方法 |
CN118333173A (zh) * | 2024-06-14 | 2024-07-12 | 中国特种设备检测研究院 | 基于知识本体的hazop语义推理检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104239513B (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104239513A (zh) | 一种面向领域数据的语义检索方法 | |
CN101630314B (zh) | 一种基于领域知识的语义查询扩展方法 | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN105335510A (zh) | 文本数据高效搜索方法 | |
CN107133274B (zh) | 一种基于图知识库的分布式信息检索集合选择方法 | |
An et al. | A heuristic approach on metadata recommendation for search engine optimization | |
CN105488195A (zh) | 一种基于层次结构子话题的搜索结果多样化排序方法 | |
Papapanagiotou et al. | RONTO: Relational to ontology schema matching | |
CN103136221A (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
CN107480130B (zh) | 基于web信息的关系数据的属性值同一性判定方法 | |
Le-Khac et al. | Distributed knowledge map for mining data on grid platforms | |
Hu et al. | Text mining based on domain ontology | |
Qureshi et al. | Exploiting Wikipedia to Identify Domain-Specific Key Terms/Phrases from a Short-Text Collection. | |
Rahman et al. | An efficient approach for web mining using semantic web | |
Behringer et al. | SDRank: A Deep Learning Approach for Similarity Ranking of Data Sources to Support User-Centric Data Analysis. | |
Fotsoh et al. | Retrieval of complex named entities on the web: proposals for similarity computation | |
Lima et al. | Building Geospatial Ontologies From Geographic Database Schemas In Peer Data Management Systems. | |
Lili et al. | Semantic ontology method of learning resource based on the approximate subgraph isomorphism | |
Li et al. | Research on computer science domain ontology construction and information retrieval | |
Tiwari et al. | Towards important issues of pattern retrieval: pattern warehouse | |
Yu et al. | Intelligent fuzzy information retrieval based on ontology knowledge-base | |
Feng et al. | Research on Faceted Search Method for Water Data Catalogue Service | |
Ruggero | Entity search: How to build virtual documents leveraging on graph embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240806 Address after: Room 013, F2003, 20th Floor, Building 4-A, Xixian Financial Port, Fengdong New City Energy Trade Zone, Xixian New Area, Xi'an City, Shaanxi Province, 710086 Patentee after: Shaanxi Shuhui Yunyu Technology Co.,Ltd. Country or region after: China Address before: No.2, Taibai South Road, Yanta District, Xi'an City, Shaanxi Province Patentee before: XIDIAN University Country or region before: China |