CN105117397B - 一种基于本体的医学文档语义关联检索方法 - Google Patents
一种基于本体的医学文档语义关联检索方法 Download PDFInfo
- Publication number
- CN105117397B CN105117397B CN201510344332.6A CN201510344332A CN105117397B CN 105117397 B CN105117397 B CN 105117397B CN 201510344332 A CN201510344332 A CN 201510344332A CN 105117397 B CN105117397 B CN 105117397B
- Authority
- CN
- China
- Prior art keywords
- document
- logical file
- ontology
- feature words
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000003860 storage Methods 0.000 claims abstract description 8
- 239000011435 rock Substances 0.000 claims abstract description 5
- 241001269238 Data Species 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims 1
- 239000008280 blood Substances 0.000 description 8
- 210000004369 blood Anatomy 0.000 description 8
- 239000003814 drug Substances 0.000 description 7
- 239000008103 glucose Substances 0.000 description 7
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 238000013549 information retrieval technique Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000291 postprandial effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于本体的医学文档语义关联检索方法,包括以下步骤:A、对XML文档进行解析,识别XML文档标记;B、使用基于链接的Rock分类算法对文档标记进行分类,并以本体语言OWL描述分类结果,构建XML文档聚类本体;C、利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类本体的实例,以语义网资源描述框架三元组形式存储;D、使用基于简单路径Xpath的向量检索算法进行检索。本方案能够实现全文的相似性检索以及对检索结果的相关性估计,用户不需要对文档结构非常了解,即可获取经过完整、准确的查询结果。本方案适用于医学文档的存储和检索处理。
Description
技术领域
本发明涉及医学文档分析和检索领域,尤其是涉及一种基于本体的医学文档语义关联检索方法。
背景技术
本体(Ontology),知识本体是领域概念及概念之间关系的规范化描述,这种描述是规范的、明确的、形式化的,可共享的。“明确”意味着所采用概念的类型和它们应用的约束实行明确的定义。“形式化”指知识本体是计算机可读的(即能被计算机处理);“共享”反映知识本体应捕捉该领域中一致公认的知识,反映的是相关领域中公认的概念集,即知识本体针对的是团体而非个体的共识。知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。
网络本体语言(Web Ontology Language,OWL),一种用于描述语义网上本体论关系的语言,由W3C制定。
可拓展标记语言(Extensible Markup Language,XML),一种用于标记电子文件使其具有结构性的标记语言。
随着信息技术在医疗卫生领域的不断推广、数字化医院建设的不断深入,医院信息系统数据量快速膨胀,同时产生了大量医学文档,然而由于我国目前医疗健康信息化建设检索效率并未相应提高,存在于这些文档中的大量患者健康信息、临床诊断和治疗信息、临床研究信息、药品和医疗设备信息、医院管理等其他医学相关信息尚未得到有效利用,无法转化为可以指导临床实践的知识。为此,有必要研究高效的医学文档检索方法,使有关医护人员能够及时获取所需的文档资源,实现文档数据的二次应用,改善医疗质量,提高医疗效率。
目前,大多数医学结构化文档以XML文档格式存在,常用的检索方法有两类,一类是基于XML查询语言的方法,如XQL、XML-QL、XML-GL、Quilt、XQuery等;另一类是基于传统的信息检索算法的方法,如布尔逻辑模型算法、概率模型算法、向量空间模型(VSM)算法等。
单纯使用XML查询语言体现出以下几点不足:
(1)为了实现精确的查询需要最终用户非常熟悉查询语言的语法;
(2)需要用户对文档结构有全面而彻底的了解;
(3)查询实现的仅仅是精确的布尔逻辑的匹配;
(4)不支持对查询结果进行文档相关性估计。
基于传统的信息检索算法的查询可以在一定程度上弥补单纯XML查询语言查询的上述缺陷,具有更强的通用性和更优越的检索性能,而传统的信息检索技术仅把文档简单地看成是一系列关键词的集合,不考虑或很少考虑XML文档特有的结构信息以及医学文档特殊的语义信息,因此直接用于医学XML文档的检索效果不佳。
发明内容
本发明主要是解决现有技术所存在的对用户要求高、检索结果不够智能、无法对查询结果进行文档相关性估计等的技术问题,提供一种可以兼顾到XML文档特有的结构信息以及医学文档特殊的语义信息,具有良好的检索效果的基于本体的医学文档语义关联检索方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于本体的医学文档语义关联检索方法,包括以下步骤:
A、对XML文档进行解析,识别文档标记,组成XML文档的元素由文档标记进行定义,一个元素由起始标记、元素内容和结束标记组成,其语法是:<标记名>元素内容</标记名>;元素的内容可以由字符数据、字符引用、实体引用等,可为空;
B、使用基于链接的Rock分类算法对文档标记进行分类,即对所有语义相近的标记和一组上下文相似的标记,计算其分类良好度,使最终分类结果中每一类文档标记都满足分类基准方程取到最大值;最后以本体语言OWL描述分类结果,构建XML文档聚类本体;
C、利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类本体的实例,以语义网资源描述框架三元组形式存储;
D、使用基于简单路径Xpath的向量检索算法进行检索。
作为优选,所述步骤A具体为:
A01、对XML文档进行解析,输出文档DOM(文档对象模型,Document Object Model)树;
A02、对DOM树的文本节点和属性节点进行数据分词处理,并统计节点中的特征词出现的次数;
A03、将同一元素或属性中的所有内容特征词都作为一个叶子节点,建立XML文档树;
A04、对所有物理文档重复步骤A01至A03。
XML文档的解析采用DOM解析器来进行解析,解析器参照DOM规范处理XML文档并生成可编程的DOM树接口,实质上是一个词法分析程序。对于解析后的DOM树中所有的文本内容节点和属性值节点进行分词处理,并重建XML文档树。分词后的每一个特征词都作为XML文档树中的叶子节点,实现XML文档向XML文档树的映射。
作为优选,步骤D具体为:
D01、对物理文档以及解析后的文档标记树的内部节点和叶子节点都分别建立索引,记载文档结构信息和内容信息以及文档信息;
D02、对查询进行解析和优化处理,从而决定逻辑文档集,并计算逻辑文档的总数;
D03、对每一个逻辑文档,进行路径匹配并计算特征词在逻辑文档中出现的次数;
D04、对每一个逻辑文档,计算文档特征词的权重以及文档向量与查询向量的相似性;
D05、将结果逻辑文档集按照相关性从大到小返回给用户。
作为优选,步骤D之后还包括以下步骤:
E、用户查询扩展器解析用户给定的查询,根据文档聚类本体,将路径中的标记用相近的本体类表示,并根据本体中定义的类层级结构及语义关联,查找所有相关概念,从而对于特征词路径进行扩展,形成除了原始查询以外的几个子查询,然后提交给文档检索器进行检索。
查询拓展能够解决医学文档抽象知识与具体关键词粒度不一致的检索问题,实现医学标准化知识的个性化检索。
作为优选,步骤D02中,优化处理和决定逻辑文档集具体为:
把解析的结果存在一个二维数组q[i][j]和一个变量p中,其中q[i][1]到q[i][j]存储从第i个查询特征词到查询起始节点所经过的一系列节点名,q[i][0]存储第i个查询特征词的权重,p为存储查询的类型,即起始节点二该算法查找文档结构索引表中的所有类型为p的逻辑文档,对于同一逻辑文档中出现的具有祖孙关系的元素节点,只选择祖先节点作为逻辑文档的根,并且返回所有逻辑文档组成的逻辑文档表。
作为优选,步骤D03具体为:
设逻辑文档的起始节点为pre,终止节点为bound,特征词为pre(t),物理文档为D,物理文档类型定义为DTD(Document Type Definition),对于一个给定的特征词,查找逻辑文档表中DID和特征词相同,且pre(d)<pre<=bound的逻辑文档,若找到的话,寻找从特征词到D的根节点的路径是否匹配,若匹配就算特征词在逻辑文档中出现,并将出现频率值赋予逻辑文档表中的频率属性。
作为优选,步骤D04中,计算特征词在文档中的权重具体为:
设d是一个类型为p的逻辑文档,则一个特征词t在d中的权重定义为:
|Cp|是物理文档集C中文档类型为p的逻辑文档的总数,nt为出现特征词t的逻辑文档d的总数。
作为优选,步骤D04中,文档向量为一个逻辑文档d的权重向量vd,定义vd=(wt1,wt2,…,wtn),wk1为文档自身的第1个特征词k1在逻辑文档d中的权重,wk2为文档自身的第2个特征词k2在逻辑文档d中的权重,wk3至wkn以此类推,文档自身的特征词由文档解析时得到;查询向量为一个查询q的权重向量vq,定义vq=(wt1,wt2,…,wtn),wt1为查询的第1个特征词t1在逻辑文档d中的权重,wt2至wtn以此类推,如果tn在q中出现,则wtn≥0,否则wtn=0。
作为优选,步骤D04中,文档向量与查询向量的相似性按如下方式计算:
设q是一个查询向量为vq的查询,设d是一个文档向量为vd的逻辑文档,则查询q与文档d的相似性定义为查询向量vq与文档向量vd的矢量积,即:
本发明带来的实质性效果是,将传统的信息检索技术和XML文档的结构化查询语言有机结合,同时利用本体技术存储文档,增强文档语义,拓展用户查询,从而既能有效利用文档的结构信息和固有的语义信息,又能拓展医学领域相关语义信息,实现全文的相似性检索以及对检索结果的相关性估计,最终实现优化的医学XML文档个性化检索,用户不需要对文档结构非常了解,即可获取经过完整、准确的查询结果。
附图说明
图1是本发明的一种流程图;
图2是本发明的一种扩展查询示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的基于本体的医学文档语义关联检索方法,如图1所示,算法流程主要由四个环节组成:文档分析、文档存储、查询关联和文档检索。其中文档分析环节主要由XML文档解析、D2R语义转换以及XML文档结构分析三部分组成;文档存储环节主要进行XML文档聚类本体的构建;查询关联环节包括用户查询建立和用户查询拓展两个部分;文档检索环节负责本研究核心任务,即XML文档检索。以下将对各部分进行详细描述,首先对方法中使用的符号约定及含义进行说明。
符号约定及含义:
1.由所有的物理意义上的文档组成的文档集,记为C;
2.每一个物理意义上存在的XML文档,记为D;
3.文档D中的一个逻辑文档,即该文档D所对应的树T的一颗子树,记为d;
4.文档D中元素(属性)所包含内的文本数据(或属性值)经分词处理后的每一个单独的特征词,对应于文档树T中的叶子节点,记为t;
5.特征词在父元素中的频率,一记为freqt(e);
6.从根节点或从其祖先节点出发到达特征词t的路径,记为p;
7.查询,即由带路径的特征词组成的向量,其中所有路径都有相同的起始节点,称为查询的起始根节点,记为q=(pt1[t1],pt2[t2],…,ptn[tn]),其中start(q)=start(p1)=start(p2)=…=start(pn);
8.文档或查询的类型,由文档树的根或者是查询的根节点的标签决定,记为type(d)=label(root(d))或type(q)=label(root(q));
9.一个查询q的可采纳文档集,即物理文档集C中的所有类型与查询相同的逻辑文档,记为Ctype(q)={d<D∧D∈C∧type(d)=type(q)};
10.对于带路径的特征词pt[t],若在逻辑文档d中存在一条从pt的起始节点到t的一条路径,则称为pt[t]在逻辑文档d中出现一次,特征词在逻辑文档中出现的次数等于匹配路径的所有同名特征词在其父元素中的频率(也就是出现次数)之和;
14.文档向量,一个逻辑文档d的权重向量vd定义为:vd=(wt1,wt2,…,wtn);
15.查询向量,一个查询q的权重向量vq定义为:vq=(wt1,wt2,…,wtn),如果tn在q中出现,则wtn≥0,否则wtn=0;
17.ROCK分类算法相关约定:
(1)对于一对点pi,pj,定义其相似度函数为sim(pi,pj),函数取值范围为[0,1],给定阈值θ,若满足sim(pi,pj)≥θ,则认为pi,pj为邻居点。
(2)pi,pj之间共同邻居点数,定义为link(pi,pj)。
计算过程如下:
1. XML解析
XML文档的解析采用DOM解析器来进行解析,解析器参照DOM规范处理XML文档并生成可编程的DOM树接口,实质上是一个词法分析程序。对于解析后的DOM树中所有的文本内容节点和属性值节点进行分词处理,并重建XML文档树。分词后的每一个特征词都作为XML文档树中的叶子节点,实现XML文档向XML文档树的映射。
具体步骤如下:
(1)对XML文档进行解析,输出文档DOM树;
(2)对DOM树的文本节点和属性节点进行数据分词处理,并统计节点中的特征词中出现的次数;
(3)将同一元素(或属性)中的所有内容特征词都作为一个叶子节点,建XML文档树。
对所有的物理文档都重复以上步骤。
2. XML文档结构分析
本发明使用基于链接的Rock分类算法对文档标记进行分类,即对所有语义相近的标记和一组上下文相似的标记,计算其分类良好度,使最终分类结果中每一类文档标记都满足分类基准方程取到最大值。最后以本体语言OWL描述分类结果,构建XML文档聚类本体。
3. D2R语义转换
利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类本体的实例,以语义网资源描述框架(Resource Description Framework,RDF)三元组形式存储。
4.基于简单路径Xpath的向量检索算法的实现
算法的实现分以下几个步骤:
(1)对解析后的文档标记树的内部节点(即结构部分)、叶子节点(即内容部分)分别建立索引,还有物理文档也建立索引,分别记载文档结构信息和内容信息以及文档信息;
(2)对查询进行解析和优化处理,从而决定逻辑文档集,也就是检索的对象,并计算逻辑文档的总数。在进行查询处理时首先要解析查询,把解析的结果存在一个二维数组q[i][j]和一个变量p中,其中q[i][1]到q[i][j]存储从第i个查询特征词到查询起始节点所经过的一系列节点名,q[i][0]存储第i个查询特征词的权重,p为存储查询的类型,即起始节点二该算法查找文档结构索引表中的所有类型为p的逻辑文档,对于同一逻辑文档中出现的具有祖孙关系的元素节点,只选择祖先节点作为逻辑文档的根,并且返回所有逻辑文档组成的逻辑文档表。
(3)对每一个逻辑文档,进行路径匹配以及计算特征词在逻辑文档中出现的次数。路径匹配首先要考虑特征词是否属于逻辑文档,如果特征词属于逻辑文档,然后再进行路径匹配,计算特征词在逻辑文档中出现的次数;如果特征词不属于逻辑文档,则特征词肯定不在逻辑文档中出现,不必进行路径匹配。
设逻辑文档的起始节点为pre,终止节点为bound,特征词为pre(t),若pre<pre(t)<bound,则特征词属于逻辑文档。对于一个给定的特征词,查找逻辑文档表中DID和特征词相同,且pre(d)<pre<=bound的逻辑文档,若找到的话,寻找从term到D的根节点的路径是否匹配,若匹配就算term在逻辑文档中出现,并将freq值赋予逻辑文档表中的频率属性。
(4)对于每一个逻辑文档,计算文档特征词的权重,以及文档向量与查询向量的相似性;为了计算特征词在每个逻辑文档中的权重,需要计算以下几个值:
1)计算|Cp|,物理文档集C中文档类型为p的逻辑文档的总数;
2)计算nt,出现特征词t的逻辑文档d的总数;
3)计算freqt(d),特征词t在逻辑文档d中出现的次数;
4)计算maxfreq(d),任一特征词在逻辑文档d中出现的最大次数;
从逻辑文档表和特征词表中读取这些值,从而计算查询向量中出现的每一个特征词在每个逻辑文档中的权重和计算文档权重向量与查询权重向量的相似性;
(5)将结果逻辑文档集按照相关性从大到小返回给用户。
5. XML文档检索用户查询的扩展
用户查询扩展器解析用户给定的查询,根据文档聚类本体,将路径中的标记用相近的本体类表示,并根据本体中定义的类层级结构及语义关联,查找所有相关概念,从而对于特征词路径进行扩展,形成除了原始查询以外的几个子查询,然后提交给文档检索器进行检索。查询拓展能够解决医学文档抽象知识与具体关键词粒度不一致的检索问题,实现医学标准化知识的个性化检索。具体流程如图2所示。
以血糖监测查询为例,由于数据库存储格式的约束,传统的查询算法只能进行当前检索词确定的单一查询,如“餐后血糖”、“空腹血糖”或“餐后2和血糖”,为实现完整血糖查询,用户需要进行多次独立检索,无法保证查询结果的完整性,且需要添加复杂的处理算法优化查询结果;本发明通过查询扩展器解析用户查询,抽取检索词“血糖”,根据文档聚类本体,用“血糖”类表示,并根据本体中定义的类层级结构及语义关联,查找所有血糖相关概念,如血糖相关诊断、症状,形成除原始查询以外的几个子查询,然后提交给文档检索器进行检索。用户可根据需要对查询结果进行任意维度的拓展,从而实现优化的医学文档检索。
本发明把传统的信息检索技术和XML文档的结构化查询语言有机的结合起来,同时利用本体技术存储文档,增强文档语义,拓展用户查询,从而既能有效利用文档的结构信息和固有的语义信息,又能拓展医学领域知识特定的语义信息,实现全文的相似性检索以及对检索结果的相关性估计,以及标准医学知识的个性化检索,从而克服了传统信息检索技术和XML文档查询语言的缺陷,最终实现优化的医学结构化文档检索。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了逻辑文档、特征词、权重等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (8)
1.一种基于本体的医学文档语义关联检索方法,其特征在于,包括以下步骤:
A、对XML文档进行解析,识别XML文档标记;
B、使用基于链接的Rock分类算法对文档标记进行分类,即对所有语义相近的标记和一组上下文相似的标记,计算其分类良好度,使最终分类结果中每一类文档标记都满足分类基准方程取到最大值;最后以本体语言OWL描述分类结果,构建XML文档聚类本体;
C、利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类本体的实例,以语义网资源描述框架三元组形式存储;
D、使用基于简单路径Xpath的向量检索算法进行检索;
步骤D具体为:
D01、对物理文档以及解析后的文档标记树的内部节点和叶子节点都分别建立索引,记载文档结构信息和内容信息以及文档信息;
D02、对查询进行解析和优化处理,从而决定逻辑文档集,并计算逻辑文档的总数;
D03、对每一个逻辑文档,进行路径匹配并计算特征词在逻辑文档中出现的次数;
D04、对每一个逻辑文档,计算文档特征词的权重以及文档向量与查询向量的相似性;
D05、将结果逻辑文档集按照相关性从大到小返回给用户。
2.根据权利要求1所述的一种基于本体的医学文档语义关联检索方法,其特征在于,所述步骤A具体为:
A01、对XML文档进行解析,输出文档DOM树;
A02、对DOM树的文本节点和属性节点进行数据分词处理,并统计节点中的特征词出现的次数;
A03、将同一元素或属性中的所有内容特征词都作为一个叶子节点,建立XML文档树;
A04、对所有物理文档重复步骤A01至A03。
3.根据权利要求1或2所述的一种基于本体的医学文档语义关联检索方法,其特征在于,步骤D之后还包括以下步骤:
E、用户查询扩展器解析用户给定的查询,根据文档聚类本体,将路径中的标记用相近的本体类表示,并根据本体中定义的类层级结构及语义关联,查找所有相关概念,从而对于特征词路径进行扩展,形成除了原始查询以外的几个子查询,然后提交给文档检索器进行检索。
4.根据权利要求1所述的一种基于本体的医学文档语义关联检索方法,其特征在于,步骤D02中,优化处理和决定逻辑文档集具体为:
把解析的结果存在一个二维数组q[i][j]和一个变量p中,其中q[i][1]到q[i][j]存储从第i个查询特征词到查询起始节点所经过的一系列节点名,q[i][0]存储第i个查询特征词的权重,p为存储查询的类型,即起始节点二该算法查找文档结构索引表中的所有类型为p的逻辑文档,对于同一逻辑文档中出现的具有祖孙关系的元素节点,只选择祖先节点作为逻辑文档的根,并且返回所有逻辑文档组成的逻辑文档表。
5.根据权利要求1所述的一种基于本体的医学文档语义关联检索方法,其特征在于,步骤D03具体为:
设逻辑文档的起始节点为pre(d),终止节点为bound,特征词为pre(t),物理文档为D,物理文档类型定义为DTD,对于一个给定的特征词,查找逻辑文档表中DID和特征词相同,且pre(d)<pre(t)<=bound的逻辑文档,若找到的话,寻找从特征词到D的根节点的路径是否匹配,若匹配就算特征词在逻辑文档中出现,并将出现频率值赋予逻辑文档表中的频率属性。
6.根据权利要求1或4或5所述的一种基于本体的医学文档语义关联检索方法,其特征在于,步骤D04中,计算特征词在文档中的权重具体为:
设d是一个类型为p的逻辑文档,则一个特征词t在d中的权重定义为:wt=tft(d)·idft p;
式中,tft(d)为特征词t在逻辑文档d中的频率;idft p为特征词t的逆文档频率,定义:
|Cp|是物理文档集C中文档类型为p的逻辑文档的总数,nt为出现特征词t的逻辑文档d的总数。
7.根据权利要求6所述的一种基于本体的医学文档语义关联检索方法,其特征在于,步骤D04中,文档向量为一个逻辑文档d的权重向量vd,定义vd=(wk1,wk2,…,wkn),wk1为文档自身的第1个特征词k1在逻辑文档d中的权重,wk2为文档自身的第2个特征词k2在逻辑文档d中的权重,wk3至wkn以此类推;查询向量为一个查询q的权重向量vq,定义vq=(wt1,wt2,…,wtn),wt1为查询的第1个特征词t1在逻辑文档d中的权重,wt2至wtn以此类推,如果tn在q中出现,则wtn≥0,否则wtn=0。
8.根据权利要求7所述的一种基于本体的医学文档语义关联检索方法,其特征在于,步骤D04中,文档向量与查询向量的相似性按如下方式计算:
设q是一个查询向量为vq的查询,设d是一个文档向量为vd的逻辑文档,则查询q与文档d的相似性定义为查询向量vq与文档向量vd的矢量积,即:
type(q)为查询q的类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510344332.6A CN105117397B (zh) | 2015-06-18 | 2015-06-18 | 一种基于本体的医学文档语义关联检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510344332.6A CN105117397B (zh) | 2015-06-18 | 2015-06-18 | 一种基于本体的医学文档语义关联检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105117397A CN105117397A (zh) | 2015-12-02 |
CN105117397B true CN105117397B (zh) | 2018-08-28 |
Family
ID=54665389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510344332.6A Active CN105117397B (zh) | 2015-06-18 | 2015-06-18 | 一种基于本体的医学文档语义关联检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105117397B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550189A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 基于本体的信息安全事件智能检索系统 |
BR112018074148A8 (pt) * | 2016-05-27 | 2023-01-31 | Koninklijke Philips Nv | Sistema configurado e método para modelar documentos clínicos de texto livre e sistema destinado a executar o método |
CN106528784B (zh) * | 2016-11-08 | 2020-04-03 | 杭州电子科技大学 | 一种基于本体的量纲齐次性检查方法 |
CN108268431B (zh) * | 2016-12-30 | 2019-12-03 | 北京国双科技有限公司 | 段落向量化的方法和装置 |
CN109165373B (zh) * | 2018-09-14 | 2022-04-22 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
CN109271528A (zh) * | 2018-09-30 | 2019-01-25 | 税友软件集团股份有限公司 | 一种基于税务语义的结果查询方法、装置和存储介质 |
CN110245209B (zh) * | 2019-06-20 | 2022-09-23 | 贵州电网有限责任公司 | 一种从海量文本中抽取里程碑事件的方法 |
CN113204579B (zh) * | 2021-04-29 | 2024-06-07 | 北京金山数字娱乐科技有限公司 | 内容关联方法、系统、装置、电子设备及存储介质 |
CN114428834B (zh) * | 2021-12-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 检索方法、装置、电子设备及存储介质 |
CN114882985B (zh) * | 2022-07-11 | 2022-10-18 | 北京泽桥医疗科技股份有限公司 | 基于数据库和ai算法识别的医药多媒体管理系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN102810114A (zh) * | 2012-06-13 | 2012-12-05 | 天津大学 | 基于本体的个人计算机资源管理系统 |
-
2015
- 2015-06-18 CN CN201510344332.6A patent/CN105117397B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN102810114A (zh) * | 2012-06-13 | 2012-12-05 | 天津大学 | 基于本体的个人计算机资源管理系统 |
Non-Patent Citations (2)
Title |
---|
An automatic method for deriving OWL ontologies from XML documents;A.Minutolo 等;《2014 Ninth International Conference on P2P,Parallel,Grid,Cloud and Internet Computing》;20150109;426-431 * |
An XPath-based OWL storage model for effective ontology management in Semantic Web environment;Jinhyung KIM 等;《Journal of Zhejiang University(Science A:An International Applied Physics & Engineering Journal)》;20090615(第6期);843-857 * |
Also Published As
Publication number | Publication date |
---|---|
CN105117397A (zh) | 2015-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105117397B (zh) | 一种基于本体的医学文档语义关联检索方法 | |
EP1736901B1 (en) | Method for classifying sub-trees in semi-structured documents | |
US9715493B2 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
US6463433B1 (en) | Distributed computer database system and method for performing object search | |
US8676815B2 (en) | Suffix tree similarity measure for document clustering | |
Malik et al. | Big-data: transformation from heterogeneous data to semantically-enriched simplified data | |
Trillo et al. | Using semantic techniques to access web data | |
Prudhomme et al. | Interpretation and automatic integration of geospatial data into the Semantic Web: Towards a process of automatic geospatial data interpretation, classification and integration using semantic technologies | |
Dasgupta et al. | Analytics-driven data ingestion and derivation in the AWESOME polystore | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
CN103425740A (zh) | 一种面向物联网的基于语义聚类的物资信息检索方法 | |
Amolochitis et al. | A heuristic hierarchical scheme for academic search and retrieval | |
Al_Janabi et al. | Multi-level network construction based on intelligent big data analysis | |
CN110970112A (zh) | 一种面向营养健康的知识图谱构建方法和系统 | |
Juršič et al. | Bridging concept identification for constructing information networks from text documents | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
Durao et al. | SimSpectrum: a similarity based spectral clustering approach to generate a tag cloud | |
Ontrup et al. | A mesh term based distance measure for document retrieval and labeling assistance | |
CN110188169A (zh) | 一种基于简化标签的知识匹配方法、系统及设备 | |
Siddiqui et al. | CoRank: a clustering cum graph ranking approach for extractive summarization | |
Sauvagnat et al. | Irit at inex 2003 | |
Al Hamad | Xml-based data exchange in the heterogeneous databases (xdehd) | |
Deepa | SABC-SBC: a hybrid ontology based image and webpage retrieval for datasets | |
Guo et al. | An extended vector space model for xml information retrieval | |
Urkude et al. | A novel semantic representation approach for web documents using deep entity linking and multidocument support |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Jinsong Inventor after: Zhang Yifan Inventor after: Tian Yu Inventor after: Gou Ling Inventor after: Li Pengfei Inventor before: Li Jinsong Inventor before: Wang Yu Inventor before: Zhou Tianshu Inventor before: Tian Yu Inventor before: Tong Danyang |
|
COR | Change of bibliographic data | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |