CN101388026A - 一种基于领域本体的语义索引方法 - Google Patents
一种基于领域本体的语义索引方法 Download PDFInfo
- Publication number
- CN101388026A CN101388026A CNA2008101213669A CN200810121366A CN101388026A CN 101388026 A CN101388026 A CN 101388026A CN A2008101213669 A CNA2008101213669 A CN A2008101213669A CN 200810121366 A CN200810121366 A CN 200810121366A CN 101388026 A CN101388026 A CN 101388026A
- Authority
- CN
- China
- Prior art keywords
- document
- matrix
- semantic
- word
- notional word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 60
- 238000010276 construction Methods 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 6
- 238000000354 decomposition reaction Methods 0.000 abstract 1
- 239000003814 drug Substances 0.000 description 10
- OEYQBKYISMRWQB-UHFFFAOYSA-N Santal Chemical compound C=1C(OC)=CC(O)=C(C2=O)C=1OC=C2C1=CC=C(O)C(O)=C1 OEYQBKYISMRWQB-UHFFFAOYSA-N 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 244000020518 Carthamus tinctorius Species 0.000 description 4
- 235000003255 Carthamus tinctorius Nutrition 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 206010015037 epilepsy Diseases 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001550 time effect Effects 0.000 description 3
- 210000003462 vein Anatomy 0.000 description 3
- 206010004542 Bezoar Diseases 0.000 description 2
- 208000007333 Brain Concussion Diseases 0.000 description 2
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 2
- 206010008190 Cerebrovascular accident Diseases 0.000 description 2
- 241000756943 Codonopsis Species 0.000 description 2
- 244000119298 Emblica officinalis Species 0.000 description 2
- 235000015489 Emblica officinalis Nutrition 0.000 description 2
- 235000016623 Fragaria vesca Nutrition 0.000 description 2
- 240000009088 Fragaria x ananassa Species 0.000 description 2
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 2
- 206010019468 Hemiplegia Diseases 0.000 description 2
- 244000153234 Hibiscus abelmoschus Species 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 2
- 208000012902 Nervous system disease Diseases 0.000 description 2
- 208000025966 Neurological disease Diseases 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 2
- 208000006011 Stroke Diseases 0.000 description 2
- 244000223014 Syzygium aromaticum Species 0.000 description 2
- 235000016639 Syzygium aromaticum Nutrition 0.000 description 2
- 240000004824 Trimezia steyermarkii Species 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000009136 dragon's blood Substances 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 244000138993 panchioli Species 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 241001591024 Samea Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于领域本体的语义索引方法,包括步骤如下:(1)利用奇异值分解对单词-文档矩阵进行分解处理得到概念词-文档矩阵;(2)首先建立该领域的基本本体知识库,利用该本体知识库构建一个基于领域本体的动态语义模板库;(3)语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引。本发明的有益效果:能很好的解决关键字索引的难于解决识别同义词的缺点,能够获得语义相同或关联的信息;本体的相关陈述的二级索引,能够精化搜索粒度,为搜索结果提供更高的准确度和效率,向用户提供更高级的搜索功能。
Description
技术领域
本发明涉及语义搜索,语义网络领域,特别是涉及一种基于领域本体的语义索引方法。
背景技术
随着网络信息的膨胀和网络用户的增长,人们对信息的利用方式和迫切需求,正逐渐在发生改变,从以前的人工搜索,到现在的Google,Baidu等搜索引擎的使用。但是由于关键字搜索仍然存在着很多缺点,对搜索的准确度和性能难于满足高级用户的需求,基于此我们提出了基于语义的索引技术。可以看出,传统的基于关键词匹配的搜索引擎普遍存在以下几个问题。
(1)高查全率与低准确性并存。尽管内容高度相关的网页已包含在检索结果中,但有价值的信息被掺杂在数以万计的其他相关度低,甚至不相关的文档中,无法起到其应有的作用;
(2)查询结果对关键词的高度敏感。通常用户最先选择的关键词并不能产生期望的查询结果。这是由于某些网页中使用了与我们所选用的关键词不相同的术语,如同义词,近义词等。但用户所希望的是:语义相同的查询能够返回相同的结果;
(3)查询的结果之间缺乏语义关联。如果用户需要的信息分散在许多不同的网络文档中,用户必须构造多个查询来获取所需要的文档,然后手工提取和融合文档里的部分信息,增加了用户相应操作和处理的负担。
产生这些问题的主要原因是目前互联网上的大部分内容还只适合人来进行阅读和处理,现代计算机在语句理解和信息自动抽取方面的能力还十分有限,本发明就是利用语义索引的语义相关性的特点,对文档建立语义索引,消除关键词搜索所存在的这些问题。
发明内容
本发明的目的在于克服上述技术的缺陷,而提供一种基于领域本体的语义索引方法。
本发明的目的是通过以下技术方案来实现的。这种基于领域本体的语义索引方法,包括以下步骤:
(1)利用奇异值分解对单词-文档矩阵进行分解处理。将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,这样一方面能得到最能描述该文档的概念词信息,若以这些概念词建立索引,能够更准确地表述文档信息,提高查询的准确程度;另一方面也能得到文档之间的语义关联信息,从而能够克服单纯的关键字搜索带来的漏查包含同义词的语义相关的文档;
(2)基于本体的动态语义模版。首先由领域专家建立该领域的基本本体知识库(该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,如在中医药领域,包含了药物和疾病本体,及药物和疾病的不同表述及层次关系,但缺少药物和疾病的关系),利用该本体知识库构建一个基于领域本体的动态语义模板库。其中的动态语义模板库的含义在于基本本体知识库的基础之上,我们通过不断地处理该领域的文档,能够识别新的本体及陈述,不断丰富本体知识库,得到更完整的语义模板,提高对文档概念词匹配的命中率,提高建立索引的质量和性能。
(3)基于本体及其相关陈述的二级索引。与传统的搜索引擎中的基于关键字的索引不同,语义索引是基于本体及其相关陈述进行的二级索引。该二级索引的特点在于利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构,这样对陈述的检索只需要常数的时间,对搜索响应时间影响很小,但是却提供了更高级的查询功能,提供了更准确的搜索方法。
本发明中步骤(1)中利用奇异值分解对语义分词得到的单词-文档矩阵进行处理,得到新的概念词-文档矩阵,添加了文档之间的语义关联,同时也去除了与文档语义相关小的概念词,减少文档的概念词空间,提高了建立索引的性能。
奇异值分解的计算公式如下:
Mt×d=Kt×r*Sr×r*Dr×d T
其中:Mt×d矩阵为步骤(1)中分词之后得到单词-文档矩阵。
Kt×r矩阵通过求Mt×d·Mt×d T的特征向量得到。
Sr×r矩阵为一个r×r的以降序存储奇异值的对角矩阵。
Dr×d T矩阵通过求Mt×d T·Mt×d的特征向量得到。
利用奇异值分解,可以将单词-文档矩阵Mt×d分解为较小的三个矩阵,Kt×r,Sr×r,Dr×d T,这三个矩阵都有比较清晰的物理意义,Kt×r矩阵的每一行表示意思相关的的一类词,即其中的每个非零元素表示这类词中每个词的重要性(或者说相关性);Dr×d T矩阵的每一个列表示相关的一类文档,其中的每个非零元素表示该文档的重要性(或者说相关性);Sr×r矩阵表示概念词和文档之间的相关性。这样我们可以利用Sr×r矩阵可以得到我们需要的概念词文档矩阵,同时通过选择适当的r可以大大减少文档的概念词空间,从而剔除了大量的与文档相关性较小的概念词,提高概念词与文档语义上的内聚性,提高建立索引的性能。
本发明中步骤(2)中的基于本体的动态语义模板对文档抽取本体及其陈述:在利用奇异值分解得到了概念词-文档矩阵后,对每一个文档中的概念词,在语义模板库中查找匹配该概念词,如果找到,则在该概念词出现的上下文中(一般指同一句话中),根据本体的三元组的模式,查找概念词-谓词-概念词的陈述,如果该陈述在语义模板库中不存在,则添加进入语义模板库,同时将概念词(本体)及其陈述添加到索引中,并记录本体及其陈述的信息,如出现的文档,频率,属于哪个本体等。同时如果该概念词不在语义模板库中,则将该概念词及其上下文中的三元组陈述添加到一个临时的语义模板库中,并将其出现次数加1,若在一定数量的文档中,其出现频率超过上限阀值,则将其从临时语义模板库中添加到动态语义模板库中,否则若其出现频率低于下限阀值,将其从临时语义模板库中删除,表示该概念词不属于该领域的本体。否则,统计信息清零,重新计数。具体算法如下:
for doc in概念词-文档矩阵中的文档
for ontology in概念词-文档矩阵中的doc文档的概念词
if(ontology is in语义模板库)
{
添加该ontology到索引中
While(在该ontology的上下文中)
{
查找概念词-谓词-概念词的陈述;
添加该陈述到ontology的二级索引中
If(该陈述is not in语义模板库)
添加该陈述到语义模板库
};
}
else{
添加到临时语义模板库中;
if(该ontology频率超过上限阀值)
{
添加到动态语义模板库;
添加到索引节点中;
}
else if(该ontolgoy频率低于下限阀值)
从临时语义模板库中删除;
Else
统计信息清零;
}
本发明中步骤(3)中的基于本体及相关陈述的二级索引方法:利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的陈述建立二级索引,由于陈述的模式固定为三元组形式(S,P,O),故第二级索引结构采用Tri树结构,这样对陈述的检索只需要常数的时间,对搜索响应时间影响很小,但是却提供了更高级的查询功能,提供了更准确的搜索方法。该基于本体及其相关陈述的二级索引同一般的基于关键字的索引的不同点在于,第一,索引结构,一般关键字为一级索引,无法提供语义相关的本体陈述的二级索引;第二,索引节点包含的内容,一般的关键字索引仅仅包含出现的文档信息,如出现的文档,位置,频率等,但与其他的索引节点没有语义关系;但是在本体索引中,其不仅包括本体出现的文档信息,更重要的是利用本体知识库的本体知识,添加相关的本体信息,例如等价本体,子类本体,超类本体,相近类本体,不相交类本体等。本发明的有益效果:该索引结构有助于改善搜索的效率和搜索结果的质量,第一,关键字的索引不能够体现关键字之间的语义关系,而基于本体及其相关陈述的二级索引能够利用本体语言,如RDFS,OWL提供的equivalentClass,subClassOf,sameAs,superClassOf等描述提供本体之间的语义关系,能很好的解决关键字索引的难于解决识别同义词的缺点,能够获得语义相同或关联的信息;也能够利用本体语言的推理机制,为进一步开发出知识系统提供方便。第二,本体的相关陈述的二级索引,能够精化搜索粒度,为搜索结果提供更高的准确度和效率,向用户提供更高级的搜索功能。
附图说明
图1为本发明中基于动态语义模板抽取本体和建立语义索引的流程图;
图2为本发明中基于本体及相关陈述的二级索引结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述:
本发明实施的关键有四点:领域基本本体知识库的建立,对单词-文档矩阵的奇异值分解,本体及相关陈述的抽取,建立本体及相关陈述的二级索引。其中领域基本本体知识库,本体及相关陈述抽取,本体及相关陈述的二级索引建立是本发明实施的关键。
本发明所述的这种基于领域本体的语义索引方法,具体包括以下步骤:
1.利用奇异值分解对语义分词得到的单词-文档矩阵进行处理,得到新的概念词-文档矩阵,添加了文档之间的语义关联,同时也去除了与文档语义相关性较小的概念词,减少文档的概念词空间,提高了建立索引的性能。
奇异值分解的计算公式如下:
Mt×d=Kt×r *Sr×r *Dr×d T
其中:Mt×d矩阵为步骤(1)中分词之后得到单词-文档矩阵。
Kt×r矩阵通过求Mt×d·Mt×d T的特征向量得到。
Sr×r矩阵为一个r×r的以降序存储奇异值的对角矩阵。
Dr×d T矩阵通过求Mt×d T·Mr×d的特征向量得到。
Sr×r矩阵表示概念词和文档之间的相关性。选取其中对角的前s个最大值,我们可以得到奇异值对角矩阵Ss×s,其中Ss×s矩阵即是我们需要的概念词-文档矩阵。
利用奇异值分解,我们可以将单词-文档矩阵Mt×d分解为较小的三个矩阵,Kt×r,Sr×r,Dr×d T,这三个矩阵都有比较清晰的物理意义,Kt×r矩阵的每一行表示意思相关的的一类词,即其中的每个非零元素表示这类词中每个词的重要性(或者说相关性);Dr×d T矩阵的每一个列表示相关的一类文档,其中的每个非零元素表示该文档的重要性(或者说相关性);Sr×r矩阵表示概念词和文档之间的相关性。这样我们可以利用Sr×r矩阵可以得到我们需要的概念词-文档矩阵,同时通过选择适当的r可以大大减少文档的概念词空间,从而剔除了大量的与文档相关性较小的概念词,提高概念词与文档语义上的内聚性,提高建立索引的性能。
2.步骤(2)中的动态语义模板库的建立是本发明的关键技术之一,它必须由该领域的本体专家利用领域的专业知识来建立基本本体知识库,由该基本本体知识库构成最初的动态语义模板库。其中基本的本体知识库的建立关系到以后动态语义模板库的成长以及对领域本体的识别的正确性以及准确性,所以这一步骤必须由领域的多位专家以及本体专家共同完成。其内容主要包括该领域内的基本上所有的本体以及本体之间的关系,这里的关系指等价,超类,子类关系,其中也可以包含一定的陈述关系(属性关系)。如在中医药领域,包含了药物和疾病本体,及药物和疾病的不同表述,但缺少大部分药物和疾病之间的关系。
3.步骤(3)中的利用动态语义模板对文档中的本体及其相关陈述进行抽取是本发明的关键技术之一,在(1)利用奇异值分解得到了概念词-文档矩阵后,对每一个文档中的概念词,在语义模板库中查找匹配该概念词,如果找到,则在该概念词出现的上下文中(一般指同一句话中),根据本体的三元组的模式,查找概念词-谓词-概念词的陈述,如果该陈述在语义模板库中不存在,则添加进入语义模板库,同时将概念词(本体)及其陈述添加到索引中,并记录本体及其陈述的信息,如出现的文档,频率,属于哪个本体等。同时如果该概念词不在语义模板库中,则将该概念词及其上下文中的三元组陈述添加到一个临时的语义模板库中,并将其出现次数加1,若在一定数量的文档中,其出现频率超过上限阀值,则将其从临时语义模板库中添加到动态语义模板库中,否则若其出现频率低于下限阀值,将其从临时语义模板库中删除,表示该概念词不属于该领域的本体。否则,统计信息清零,重新计数。
具体算法如下:
for doc in概念词-文档矩阵中的文档
for ontology in概念词-文档矩阵中的doc文档的概念词
if(ontology is in语义模板库)
{
添加该ontology到索引中
While(在该ontology的上下文中)
{
查找概念词-谓词-概念词的陈述;
添加该陈述到ontology的二级索引中
If(该陈述is not in语义模板库)
添加该陈述到语义模板库
};
}
else{
添加到临时语义模板库中;
if(该ontology频率超过上限阀值)
{
添加到动态语义模板库;
添加到索引节点中;
}
else if(该ontolgoy频率低于下限阀值)
从临时语义模板库中删除;
Else
统计信息清零;
}
例如,对于有如下一段原始文本资料:
本药品成方于公元八世纪,原系藏医经典方剂二十五味珍珠母丸,始载于藏医古典巨著《四部医典》中……药物组成为:珍珠、九眼石、西红花、檀香、降香、丁香、余甘子、草莓、高山党参、相额尔、牛黄、麝香等70味。功能主治包括:安神、镇静、通经活络、调和气血、醒脑开窍。用于“黑白脉病”,“龙血”不调;中风,瘫痪、半身不遂、癫痫、脑溢血、脑震荡、心脏病、高血压及神经性障碍。用法用量……
假设我们的语义模板中中有(二十五味珍珠母丸,组成包括,珍珠),(二十五味珍珠母丸,组成包括,西红花)......;(二十五味珍珠母丸,主治,醒脑开窍),(二十五味珍珠母丸,主治,黑白脉病)......。对该文档得到的概念词有二十五味珍珠母丸,珍珠、九眼石、西红花、檀香、降香、丁香、余甘子、草莓、高山党参、相额尔、牛黄、麝香,安神、镇静、通经活络、调和气血、醒脑开窍,黑白脉病,龙血不调;中风,瘫痪、半身不遂、癫痫、脑溢血、脑震荡、心脏病、高血压,神经性障碍。那么我们可以对文档的概念词进行一一匹配,如二十五味珍珠母丸,我们可以在语义模板中匹配到,那么我们可以在其上下文中得到(二十五味珍珠母丸,组成包括,九眼石),(二十五味珍珠母丸,组成包括,檀香)......(二十五味珍珠母丸,主治,癫痫)等陈述。对未匹配的概念词,如九眼石,西红花等,我们将其添加到临时的语义模板中,并更新其统计信息。这样我们不仅发现了本体“二十五味珍珠母丸”的新的陈述,也能够通过临时的语义模板库的动态计数及其上下限阀值得到新的本体以及去除与领域不相关的概念词。
4.步骤(4)中的基于本体及相关陈述的二级索引方法是本发明的关键技术之一,其特点在于利用了步骤(3)添加到动态语义模板库的概念词,即本体对文档建立B+树结构的倒排索引,并利用本体知识库的知识,在本体索引中记录与该概念词相关的本体信息,其不仅包括本体出现的文档信息,更重要的是利用本体知识库的本体知识,添加相关的本体信息,例如等价本体,子类本体,超类本体,相近类本体,不相交类本体等;同时在每一个本体之下对其出现的陈述建立二级索引,其记录的信息主要为出现的文档信息。由于陈述的模式固定为三元组形式(S,P,O),故第二级索引结构采用Tri树结构,该Tri树结构最多只有两层,P层和O层。这样对陈述的检索只需要常数的时间,对搜索响应时间影响很小,但是却提供了更高级的查询功能,提供了更准确的搜索方法。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (3)
1.一种基于领域本体的语义索引方法,其特征在于:包括以下步骤:
(1)、利用奇异值分解对单词-文档矩阵进行分解处理:将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,得到最能描述该文档的概念词信息和文档之间的语义关联信息;
(2)、基于本体的动态语义模版:首先建立该领域的基本本体知识库,该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,利用该本体知识库构建一个基于领域本体的动态语义模板库;其中的动态语义模板库的含义在于基本本体知识库的基础之上,通过处理该领域的文档,识别新的本体及陈述,丰富本体知识库,得到更完整的语义模板;
(3)、基于本体及其相关陈述的二级索引:语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构。
2.根据权利要求1所述的基于领域本体的语义索引方法,其特征在于:步骤(1)中利用奇异值分解对语义分词得到的单词-文档矩阵进行处理,得到新的概念词-文档矩阵;
奇异值分解的计算公式如下:
Mt×d=Kt×r*Sr×r*Dr×d T
其中:Mt×d矩阵为步骤(1)中分词之后得到单词-文档矩阵
Kt×r矩阵通过求Mt×d·Mt×d T的特征向量得到
Sr×r矩阵为一个r×r的以降序存储奇异值的对角矩阵
Dr×d T矩阵通过求Mt×d T·Mt×d的特征向量得到
利用奇异值分解,将单词-文档矩阵Mt×d分解为较小的三个矩阵,Kt×r,Sr×r,Dr×d T,Kt×r矩阵的每一行表示意思相关的的一类词,即其中的每个非零元素表示这类词中每个词的重要性或者说相关性;Dr×d T矩阵的每一个列表示相关的一类文档,其中的每个非零元素表示该文档的重要性或者说相关性;Sr×r矩阵表示概念词和文档之间的相关性;利用Sr×r矩阵得到需要的概念词文档矩阵,同时通过选择适当的r减少文档的概念词空间。
3.根据权利要求1中所述的基于领域本体的语义索引方法,其特征在于:步骤(2)中的基于本体的动态语义模板对文档抽取本体及其陈述:在利用奇异值分解得到了概念词-文档矩阵后,对每一个文档中的概念词,在语义模板库中查找匹配该概念词,如果找到,则在该概念词出现的上下文中,根据本体的三元组的模式,查找概念词-谓词-概念词的陈述,如果该陈述在语义模板库中不存在,则添加进入语义模板库,同时将概念词及其陈述添加到索引中,并记录本体及其陈述的信息,如果该概念词不在语义模板库中,则将该概念词及其上下文中的三元组陈述添加到一个临时的语义模板库中,并将其出现次数加1,若在一定数量的文档中,其出现频率超过上限阀值,则将其从临时语义模板库中添加到动态语义模板库中,否则若其出现频率低于下限阀值,将其从临时语义模板库中删除,表示该概念词不属于该领域的本体。否则,统计信息清零,重新计数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101213669A CN101388026A (zh) | 2008-10-09 | 2008-10-09 | 一种基于领域本体的语义索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101213669A CN101388026A (zh) | 2008-10-09 | 2008-10-09 | 一种基于领域本体的语义索引方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101388026A true CN101388026A (zh) | 2009-03-18 |
Family
ID=40477450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101213669A Pending CN101388026A (zh) | 2008-10-09 | 2008-10-09 | 一种基于领域本体的语义索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101388026A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎系统 |
CN102200975A (zh) * | 2010-03-25 | 2011-09-28 | 北京师范大学 | 一种利用语义分析的垂直搜索引擎系统与方法 |
CN102402605A (zh) * | 2010-11-22 | 2012-04-04 | 微软公司 | 用于搜索引擎索引的混合分布模型 |
CN102648464A (zh) * | 2009-09-30 | 2012-08-22 | 思科技术公司 | 用于从网络数据中生成词汇的系统和方法 |
CN102681982A (zh) * | 2012-03-15 | 2012-09-19 | 上海云叟网络科技有限公司 | 可让计算机理解的自然语言句子的自动语义识别的方法 |
CN102789464A (zh) * | 2011-05-20 | 2012-11-21 | 陈伯妤 | 基于语意识别的自然语言处理方法、装置和系统 |
CN102929925A (zh) * | 2012-09-20 | 2013-02-13 | 百度在线网络技术(北京)有限公司 | 一种基于浏览内容的搜索方法及装置 |
CN103038764A (zh) * | 2010-04-14 | 2013-04-10 | 惠普发展公司,有限责任合伙企业 | 用于关键字提取的方法 |
CN103034734A (zh) * | 2012-12-27 | 2013-04-10 | 上海顶竹通讯技术有限公司 | 文件存储查询代理以及信息查找方法与系统 |
US8620907B2 (en) | 2010-11-22 | 2013-12-31 | Microsoft Corporation | Matching funnel for large document index |
US8713024B2 (en) | 2010-11-22 | 2014-04-29 | Microsoft Corporation | Efficient forward ranking in a search engine |
CN103838815A (zh) * | 2012-11-26 | 2014-06-04 | 波音公司 | 用于减少搜索过程中无关信息的系统和方法 |
CN104657345A (zh) * | 2013-11-20 | 2015-05-27 | 国际商业机器公司 | 提供同义词的上下文验证的方法和系统 |
US9195745B2 (en) | 2010-11-22 | 2015-11-24 | Microsoft Technology Licensing, Llc | Dynamic query master agent for query execution |
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
US9342582B2 (en) | 2010-11-22 | 2016-05-17 | Microsoft Technology Licensing, Llc | Selection of atoms for search engine retrieval |
CN105677864A (zh) * | 2016-01-08 | 2016-06-15 | 国网冀北电力有限公司 | 电网调度结构化数据的检索方法及装置 |
CN105989097A (zh) * | 2015-02-12 | 2016-10-05 | 北京仿真中心 | 一种基于本体的知识库查询方法及系统 |
US9529908B2 (en) | 2010-11-22 | 2016-12-27 | Microsoft Technology Licensing, Llc | Tiering of posting lists in search engine index |
CN107239552A (zh) * | 2017-06-08 | 2017-10-10 | 上海德衡数据科技有限公司 | 一种针对关键词的网络文档语义检索方法 |
CN107291828A (zh) * | 2017-05-27 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN107330052A (zh) * | 2017-06-29 | 2017-11-07 | 上海德衡数据科技有限公司 | 一种基于语义的网络文档智能检索原型 |
CN107330044A (zh) * | 2017-06-29 | 2017-11-07 | 上海德衡数据科技有限公司 | 一种基于语义的网络文档智能检索架构 |
CN109471923A (zh) * | 2018-10-15 | 2019-03-15 | 电子科技大学 | 一种基于同义词扩充的客服聊天机器人本体半自动构建的方法 |
CN110704642A (zh) * | 2019-10-12 | 2020-01-17 | 浙江大学 | 基于本体的多层次科技资源管理方法 |
-
2008
- 2008-10-09 CN CNA2008101213669A patent/CN101388026A/zh active Pending
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102648464B (zh) * | 2009-09-30 | 2015-06-10 | 思科技术公司 | 用于从网络数据中生成词汇的系统和方法 |
CN102648464A (zh) * | 2009-09-30 | 2012-08-22 | 思科技术公司 | 用于从网络数据中生成词汇的系统和方法 |
CN102200975A (zh) * | 2010-03-25 | 2011-09-28 | 北京师范大学 | 一种利用语义分析的垂直搜索引擎系统与方法 |
CN102200975B (zh) * | 2010-03-25 | 2013-12-11 | 北京师范大学 | 一种利用语义分析的垂直搜索引擎系统 |
CN103038764A (zh) * | 2010-04-14 | 2013-04-10 | 惠普发展公司,有限责任合伙企业 | 用于关键字提取的方法 |
US9529908B2 (en) | 2010-11-22 | 2016-12-27 | Microsoft Technology Licensing, Llc | Tiering of posting lists in search engine index |
US9424351B2 (en) | 2010-11-22 | 2016-08-23 | Microsoft Technology Licensing, Llc | Hybrid-distribution model for search engine indexes |
US10437892B2 (en) | 2010-11-22 | 2019-10-08 | Microsoft Technology Licensing, Llc | Efficient forward ranking in a search engine |
US9342582B2 (en) | 2010-11-22 | 2016-05-17 | Microsoft Technology Licensing, Llc | Selection of atoms for search engine retrieval |
CN102402605A (zh) * | 2010-11-22 | 2012-04-04 | 微软公司 | 用于搜索引擎索引的混合分布模型 |
US8620907B2 (en) | 2010-11-22 | 2013-12-31 | Microsoft Corporation | Matching funnel for large document index |
US8713024B2 (en) | 2010-11-22 | 2014-04-29 | Microsoft Corporation | Efficient forward ranking in a search engine |
US9195745B2 (en) | 2010-11-22 | 2015-11-24 | Microsoft Technology Licensing, Llc | Dynamic query master agent for query execution |
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎系统 |
CN102789464B (zh) * | 2011-05-20 | 2017-11-17 | 陈伯妤 | 基于语意识别的自然语言处理方法、装置和系统 |
CN102789464A (zh) * | 2011-05-20 | 2012-11-21 | 陈伯妤 | 基于语意识别的自然语言处理方法、装置和系统 |
WO2012159558A1 (zh) * | 2011-05-20 | 2012-11-29 | 陈伯妤 | 基于语意识别的自然语言处理方法、装置和系统 |
CN102681982A (zh) * | 2012-03-15 | 2012-09-19 | 上海云叟网络科技有限公司 | 可让计算机理解的自然语言句子的自动语义识别的方法 |
CN102929925A (zh) * | 2012-09-20 | 2013-02-13 | 百度在线网络技术(北京)有限公司 | 一种基于浏览内容的搜索方法及装置 |
CN103838815A (zh) * | 2012-11-26 | 2014-06-04 | 波音公司 | 用于减少搜索过程中无关信息的系统和方法 |
CN103838815B (zh) * | 2012-11-26 | 2019-06-14 | 波音公司 | 用于减少搜索过程中无关信息的系统和方法 |
CN103034734A (zh) * | 2012-12-27 | 2013-04-10 | 上海顶竹通讯技术有限公司 | 文件存储查询代理以及信息查找方法与系统 |
CN104657345A (zh) * | 2013-11-20 | 2015-05-27 | 国际商业机器公司 | 提供同义词的上下文验证的方法和系统 |
CN104657345B (zh) * | 2013-11-20 | 2018-06-12 | 国际商业机器公司 | 提供同义词的上下文验证的方法和系统 |
CN105989097A (zh) * | 2015-02-12 | 2016-10-05 | 北京仿真中心 | 一种基于本体的知识库查询方法及系统 |
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN105117487B (zh) * | 2015-09-19 | 2018-11-16 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN105677864A (zh) * | 2016-01-08 | 2016-06-15 | 国网冀北电力有限公司 | 电网调度结构化数据的检索方法及装置 |
CN107291828B (zh) * | 2017-05-27 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN107291828A (zh) * | 2017-05-27 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN107239552A (zh) * | 2017-06-08 | 2017-10-10 | 上海德衡数据科技有限公司 | 一种针对关键词的网络文档语义检索方法 |
CN107330052A (zh) * | 2017-06-29 | 2017-11-07 | 上海德衡数据科技有限公司 | 一种基于语义的网络文档智能检索原型 |
CN107330044A (zh) * | 2017-06-29 | 2017-11-07 | 上海德衡数据科技有限公司 | 一种基于语义的网络文档智能检索架构 |
CN109471923A (zh) * | 2018-10-15 | 2019-03-15 | 电子科技大学 | 一种基于同义词扩充的客服聊天机器人本体半自动构建的方法 |
CN110704642A (zh) * | 2019-10-12 | 2020-01-17 | 浙江大学 | 基于本体的多层次科技资源管理方法 |
CN110704642B (zh) * | 2019-10-12 | 2022-02-01 | 浙江大学 | 基于本体的多层次科技资源管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101388026A (zh) | 一种基于领域本体的语义索引方法 | |
Bizer et al. | The meaningful use of big data: four perspectives--four challenges | |
Sudeepthi et al. | A survey on semantic web search engine | |
CN101334784B (zh) | 计算机辅助报告与知识库产生的方法 | |
Devi et al. | ADANS: An agriculture domain question answering system using ontologies | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
Kejriwal et al. | Investigative knowledge discovery for combating illicit activities | |
Steinmetz et al. | From natural language questions to SPARQL queries: a pattern-based approach | |
Zhang et al. | Information distance from a question to an answer | |
Arabzadeh et al. | LaQuE: Enabling Entity Search at Scale | |
Cheng et al. | Predicting the effectiveness of keyword queries on databases | |
US11768846B2 (en) | Search guidance | |
Mulay et al. | SPOVC: a scalable RDF store using horizontal partitioning and column oriented DBMS | |
CN114691845B (zh) | 语义搜索方法、装置、电子设备、存储介质及产品 | |
Kargar et al. | eGraphSearch: Effective keyword search in graphs | |
Chen et al. | A semantic query approach to personalized e-Catalogs service system | |
Unni et al. | Overview of approaches to semantic web search | |
Yang et al. | An online retrieval question answering system for featured snippets triggering | |
Nadig et al. | Database search vs. information retrieval: A novel method for studying natural language querying of semi-structured data | |
Liu et al. | A query suggestion method based on random walk and topic concepts | |
Han et al. | Querying RDF data with text annotated graphs | |
Bradeško et al. | Contextualized question answering | |
Almuntashiri et al. | A Taxonomy of Dataset Search | |
Lakshmi et al. | Dynamic Tree Based Classification of Web Queries Using B-Tree and Simple Ordinal Classification Algorithm. | |
Popov et al. | Co-occurrence and ranking of entities based on semantic annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20090318 |