CN105117397B

CN105117397B - 一种基于本体的医学文档语义关联检索方法

Info

Publication number: CN105117397B
Application number: CN201510344332.6A
Authority: CN
Inventors: 李劲松; 张艺帆; 田雨; 苟玲; 李鹏飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2018-08-28
Anticipated expiration: 2035-06-18
Also published as: CN105117397A

Abstract

本发明公开了一种基于本体的医学文档语义关联检索方法，包括以下步骤：A、对XML文档进行解析，识别XML文档标记；B、使用基于链接的Rock分类算法对文档标记进行分类，并以本体语言OWL描述分类结果，构建XML文档聚类本体；C、利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类本体的实例，以语义网资源描述框架三元组形式存储；D、使用基于简单路径Xpath的向量检索算法进行检索。本方案能够实现全文的相似性检索以及对检索结果的相关性估计，用户不需要对文档结构非常了解，即可获取经过完整、准确的查询结果。本方案适用于医学文档的存储和检索处理。

Description

一种基于本体的医学文档语义关联检索方法

技术领域

本发明涉及医学文档分析和检索领域，尤其是涉及一种基于本体的医学文档语义关联检索方法。

背景技术

本体(Ontology)，知识本体是领域概念及概念之间关系的规范化描述，这种描述是规范的、明确的、形式化的，可共享的。“明确”意味着所采用概念的类型和它们应用的约束实行明确的定义。“形式化”指知识本体是计算机可读的(即能被计算机处理)；“共享”反映知识本体应捕捉该领域中一致公认的知识，反映的是相关领域中公认的概念集，即知识本体针对的是团体而非个体的共识。知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。

网络本体语言(Web Ontology Language,OWL)，一种用于描述语义网上本体论关系的语言，由W3C制定。

可拓展标记语言(Extensible Markup Language,XML),一种用于标记电子文件使其具有结构性的标记语言。

随着信息技术在医疗卫生领域的不断推广、数字化医院建设的不断深入，医院信息系统数据量快速膨胀，同时产生了大量医学文档，然而由于我国目前医疗健康信息化建设检索效率并未相应提高，存在于这些文档中的大量患者健康信息、临床诊断和治疗信息、临床研究信息、药品和医疗设备信息、医院管理等其他医学相关信息尚未得到有效利用，无法转化为可以指导临床实践的知识。为此，有必要研究高效的医学文档检索方法，使有关医护人员能够及时获取所需的文档资源，实现文档数据的二次应用,改善医疗质量,提高医疗效率。

目前,大多数医学结构化文档以XML文档格式存在,常用的检索方法有两类，一类是基于XML查询语言的方法,如XQL、XML-QL、XML-GL、Quilt、XQuery等；另一类是基于传统的信息检索算法的方法，如布尔逻辑模型算法、概率模型算法、向量空间模型(VSM)算法等。

单纯使用XML查询语言体现出以下几点不足：

(1)为了实现精确的查询需要最终用户非常熟悉查询语言的语法；

(2)需要用户对文档结构有全面而彻底的了解；

(3)查询实现的仅仅是精确的布尔逻辑的匹配；

(4)不支持对查询结果进行文档相关性估计。

基于传统的信息检索算法的查询可以在一定程度上弥补单纯XML查询语言查询的上述缺陷,具有更强的通用性和更优越的检索性能，而传统的信息检索技术仅把文档简单地看成是一系列关键词的集合，不考虑或很少考虑XML文档特有的结构信息以及医学文档特殊的语义信息，因此直接用于医学XML文档的检索效果不佳。

发明内容

本发明主要是解决现有技术所存在的对用户要求高、检索结果不够智能、无法对查询结果进行文档相关性估计等的技术问题，提供一种可以兼顾到XML文档特有的结构信息以及医学文档特殊的语义信息，具有良好的检索效果的基于本体的医学文档语义关联检索方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于本体的医学文档语义关联检索方法，包括以下步骤：

A、对XML文档进行解析，识别文档标记，组成XML文档的元素由文档标记进行定义，一个元素由起始标记、元素内容和结束标记组成，其语法是：<标记名>元素内容</标记名>；元素的内容可以由字符数据、字符引用、实体引用等,可为空；

B、使用基于链接的Rock分类算法对文档标记进行分类，即对所有语义相近的标记和一组上下文相似的标记，计算其分类良好度，使最终分类结果中每一类文档标记都满足分类基准方程取到最大值；最后以本体语言OWL描述分类结果，构建XML文档聚类本体；

C、利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类本体的实例，以语义网资源描述框架三元组形式存储；

D、使用基于简单路径Xpath的向量检索算法进行检索。

作为优选，所述步骤A具体为：

A01、对XML文档进行解析，输出文档DOM(文档对象模型，Document Object Model)树；

A02、对DOM树的文本节点和属性节点进行数据分词处理，并统计节点中的特征词出现的次数；

A03、将同一元素或属性中的所有内容特征词都作为一个叶子节点，建立XML文档树；

A04、对所有物理文档重复步骤A01至A03。

XML文档的解析采用DOM解析器来进行解析，解析器参照DOM规范处理XML文档并生成可编程的DOM树接口，实质上是一个词法分析程序。对于解析后的DOM树中所有的文本内容节点和属性值节点进行分词处理，并重建XML文档树。分词后的每一个特征词都作为XML文档树中的叶子节点，实现XML文档向XML文档树的映射。

作为优选，步骤D具体为：

D01、对物理文档以及解析后的文档标记树的内部节点和叶子节点都分别建立索引，记载文档结构信息和内容信息以及文档信息；

D02、对查询进行解析和优化处理，从而决定逻辑文档集，并计算逻辑文档的总数；

D03、对每一个逻辑文档，进行路径匹配并计算特征词在逻辑文档中出现的次数；

D04、对每一个逻辑文档，计算文档特征词的权重以及文档向量与查询向量的相似性；

D05、将结果逻辑文档集按照相关性从大到小返回给用户。

作为优选，步骤D之后还包括以下步骤：

E、用户查询扩展器解析用户给定的查询，根据文档聚类本体,将路径中的标记用相近的本体类表示，并根据本体中定义的类层级结构及语义关联，查找所有相关概念，从而对于特征词路径进行扩展，形成除了原始查询以外的几个子查询，然后提交给文档检索器进行检索。

查询拓展能够解决医学文档抽象知识与具体关键词粒度不一致的检索问题，实现医学标准化知识的个性化检索。

作为优选，步骤D02中，优化处理和决定逻辑文档集具体为：

把解析的结果存在一个二维数组q[i][j]和一个变量p中,其中q[i][1]到q[i][j]存储从第i个查询特征词到查询起始节点所经过的一系列节点名，q[i][0]存储第i个查询特征词的权重，p为存储查询的类型，即起始节点二该算法查找文档结构索引表中的所有类型为p的逻辑文档，对于同一逻辑文档中出现的具有祖孙关系的元素节点，只选择祖先节点作为逻辑文档的根，并且返回所有逻辑文档组成的逻辑文档表。

作为优选，步骤D03具体为：

设逻辑文档的起始节点为pre，终止节点为bound，特征词为pre(t)，物理文档为D,物理文档类型定义为DTD(Document Type Definition)，对于一个给定的特征词，查找逻辑文档表中DID和特征词相同，且pre(d)<pre<＝bound的逻辑文档，若找到的话,寻找从特征词到D的根节点的路径是否匹配，若匹配就算特征词在逻辑文档中出现，并将出现频率值赋予逻辑文档表中的频率属性。

作为优选，步骤D04中，计算特征词在文档中的权重具体为：

设d是一个类型为p的逻辑文档,则一个特征词t在d中的权重定义为:

|C^p|是物理文档集C中文档类型为p的逻辑文档的总数，n_t为出现特征词t的逻辑文档d的总数。

作为优选，步骤D04中，文档向量为一个逻辑文档d的权重向量v_d，定义v_d＝(w_t1,w_t2,…,w_tn)，w_k1为文档自身的第1个特征词k1在逻辑文档d中的权重，w_k2为文档自身的第2个特征词k2在逻辑文档d中的权重，w_k3至w_kn以此类推，文档自身的特征词由文档解析时得到；查询向量为一个查询q的权重向量v_q，定义v_q＝(w_t1,w_t2,…,w_tn)，w_t1为查询的第1个特征词t1在逻辑文档d中的权重，w_t2至w_tn以此类推，如果tn在q中出现,则w_tn≥0,否则w_tn＝0。

作为优选，步骤D04中，文档向量与查询向量的相似性按如下方式计算：

设q是一个查询向量为v_q的查询，设d是一个文档向量为v_d的逻辑文档，则查询q与文档d的相似性定义为查询向量v_q与文档向量v_d的矢量积，即：

本发明带来的实质性效果是，将传统的信息检索技术和XML文档的结构化查询语言有机结合，同时利用本体技术存储文档，增强文档语义，拓展用户查询，从而既能有效利用文档的结构信息和固有的语义信息，又能拓展医学领域相关语义信息，实现全文的相似性检索以及对检索结果的相关性估计，最终实现优化的医学XML文档个性化检索，用户不需要对文档结构非常了解，即可获取经过完整、准确的查询结果。

附图说明

图1是本发明的一种流程图；

图2是本发明的一种扩展查询示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的基于本体的医学文档语义关联检索方法，如图1所示，算法流程主要由四个环节组成：文档分析、文档存储、查询关联和文档检索。其中文档分析环节主要由XML文档解析、D2R语义转换以及XML文档结构分析三部分组成；文档存储环节主要进行XML文档聚类本体的构建；查询关联环节包括用户查询建立和用户查询拓展两个部分；文档检索环节负责本研究核心任务，即XML文档检索。以下将对各部分进行详细描述，首先对方法中使用的符号约定及含义进行说明。

符号约定及含义:

1.由所有的物理意义上的文档组成的文档集,记为C；

2.每一个物理意义上存在的XML文档，记为D；

3.文档D中的一个逻辑文档，即该文档D所对应的树T的一颗子树，记为d；

4.文档D中元素(属性)所包含内的文本数据(或属性值)经分词处理后的每一个单独的特征词，对应于文档树T中的叶子节点，记为t；

5.特征词在父元素中的频率,一记为freq_t(e)；

6.从根节点或从其祖先节点出发到达特征词t的路径,记为p；

7.查询，即由带路径的特征词组成的向量，其中所有路径都有相同的起始节点,称为查询的起始根节点,记为q＝(p_t1[t₁],p_t2[t₂],…,p_tn[t_n])，其中start(q)＝start(p₁)＝start(p₂)＝…＝start(p_n)；

8.文档或查询的类型，由文档树的根或者是查询的根节点的标签决定，记为type(d)＝label(root(d))或type(q)＝label(root(q))；

9.一个查询q的可采纳文档集，即物理文档集C中的所有类型与查询相同的逻辑文档,记为C^type(q)＝{d<D∧D∈C∧type(d)＝type(q)}；

10.对于带路径的特征词p_t[t]，若在逻辑文档d中存在一条从p_t的起始节点到t的一条路径，则称为p_t[t]在逻辑文档d中出现一次，特征词在逻辑文档中出现的次数等于匹配路径的所有同名特征词在其父元素中的频率(也就是出现次数)之和；

14.文档向量，一个逻辑文档d的权重向量v_d定义为:v_d＝(w_t1,w_t2,…,w_tn)；

15.查询向量，一个查询q的权重向量v_q定义为:v_q＝(w_t1,w_t2,…,w_tn)，如果t_n在q中出现,则w_tn≥0,否则w_tn＝0；

17.ROCK分类算法相关约定：

(1)对于一对点p_i，p_j，定义其相似度函数为sim(p_i,p_j)，函数取值范围为[0,1]，给定阈值θ，若满足sim(p_i,p_j)≥θ，则认为p_i，p_j为邻居点。

(2)p_i，p_j之间共同邻居点数，定义为link(p_i,p_j)。

计算过程如下：

1. XML解析

具体步骤如下：

(1)对XML文档进行解析,输出文档DOM树；

(2)对DOM树的文本节点和属性节点进行数据分词处理,并统计节点中的特征词中出现的次数；

(3)将同一元素(或属性)中的所有内容特征词都作为一个叶子节点，建XML文档树。

对所有的物理文档都重复以上步骤。

2. XML文档结构分析

本发明使用基于链接的Rock分类算法对文档标记进行分类，即对所有语义相近的标记和一组上下文相似的标记，计算其分类良好度，使最终分类结果中每一类文档标记都满足分类基准方程取到最大值。最后以本体语言OWL描述分类结果，构建XML文档聚类本体。

3. D2R语义转换

利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类本体的实例，以语义网资源描述框架(Resource Description Framework,RDF)三元组形式存储。

4.基于简单路径Xpath的向量检索算法的实现

算法的实现分以下几个步骤:

(1)对解析后的文档标记树的内部节点(即结构部分)、叶子节点(即内容部分)分别建立索引，还有物理文档也建立索引，分别记载文档结构信息和内容信息以及文档信息；

(2)对查询进行解析和优化处理，从而决定逻辑文档集，也就是检索的对象，并计算逻辑文档的总数。在进行查询处理时首先要解析查询,把解析的结果存在一个二维数组q[i][j]和一个变量p中,其中q[i][1]到q[i][j]存储从第i个查询特征词到查询起始节点所经过的一系列节点名，q[i][0]存储第i个查询特征词的权重，p为存储查询的类型，即起始节点二该算法查找文档结构索引表中的所有类型为p的逻辑文档，对于同一逻辑文档中出现的具有祖孙关系的元素节点，只选择祖先节点作为逻辑文档的根，并且返回所有逻辑文档组成的逻辑文档表。

(3)对每一个逻辑文档,进行路径匹配以及计算特征词在逻辑文档中出现的次数。路径匹配首先要考虑特征词是否属于逻辑文档，如果特征词属于逻辑文档，然后再进行路径匹配，计算特征词在逻辑文档中出现的次数；如果特征词不属于逻辑文档，则特征词肯定不在逻辑文档中出现，不必进行路径匹配。

设逻辑文档的起始节点为pre，终止节点为bound，特征词为pre(t)，若pre<pre(t)<bound，则特征词属于逻辑文档。对于一个给定的特征词，查找逻辑文档表中DID和特征词相同，且pre(d)<pre<＝bound的逻辑文档，若找到的话,寻找从term到D的根节点的路径是否匹配，若匹配就算term在逻辑文档中出现，并将freq值赋予逻辑文档表中的频率属性。

(4)对于每一个逻辑文档,计算文档特征词的权重，以及文档向量与查询向量的相似性；为了计算特征词在每个逻辑文档中的权重，需要计算以下几个值:

1)计算|C^p|，物理文档集C中文档类型为p的逻辑文档的总数；

2)计算n_t，出现特征词t的逻辑文档d的总数；

3)计算freq_t(d)，特征词t在逻辑文档d中出现的次数；

4)计算maxfreq(d)，任一特征词在逻辑文档d中出现的最大次数；

从逻辑文档表和特征词表中读取这些值，从而计算查询向量中出现的每一个特征词在每个逻辑文档中的权重和计算文档权重向量与查询权重向量的相似性；

(5)将结果逻辑文档集按照相关性从大到小返回给用户。

5. XML文档检索用户查询的扩展

用户查询扩展器解析用户给定的查询，根据文档聚类本体,将路径中的标记用相近的本体类表示，并根据本体中定义的类层级结构及语义关联，查找所有相关概念，从而对于特征词路径进行扩展，形成除了原始查询以外的几个子查询，然后提交给文档检索器进行检索。查询拓展能够解决医学文档抽象知识与具体关键词粒度不一致的检索问题，实现医学标准化知识的个性化检索。具体流程如图2所示。

以血糖监测查询为例,由于数据库存储格式的约束，传统的查询算法只能进行当前检索词确定的单一查询,如“餐后血糖”、“空腹血糖”或“餐后2和血糖”，为实现完整血糖查询，用户需要进行多次独立检索，无法保证查询结果的完整性，且需要添加复杂的处理算法优化查询结果；本发明通过查询扩展器解析用户查询，抽取检索词“血糖”，根据文档聚类本体,用“血糖”类表示，并根据本体中定义的类层级结构及语义关联，查找所有血糖相关概念，如血糖相关诊断、症状，形成除原始查询以外的几个子查询，然后提交给文档检索器进行检索。用户可根据需要对查询结果进行任意维度的拓展，从而实现优化的医学文档检索。

本发明把传统的信息检索技术和XML文档的结构化查询语言有机的结合起来，同时利用本体技术存储文档，增强文档语义，拓展用户查询，从而既能有效利用文档的结构信息和固有的语义信息，又能拓展医学领域知识特定的语义信息，实现全文的相似性检索以及对检索结果的相关性估计，以及标准医学知识的个性化检索，从而克服了传统信息检索技术和XML文档查询语言的缺陷，最终实现优化的医学结构化文档检索。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了逻辑文档、特征词、权重等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于本体的医学文档语义关联检索方法，其特征在于，包括以下步骤：

A、对XML文档进行解析，识别XML文档标记；

D、使用基于简单路径Xpath的向量检索算法进行检索；

步骤D具体为：

D05、将结果逻辑文档集按照相关性从大到小返回给用户。

2.根据权利要求1所述的一种基于本体的医学文档语义关联检索方法，其特征在于，所述步骤A具体为：

A01、对XML文档进行解析，输出文档DOM树；

A04、对所有物理文档重复步骤A01至A03。

3.根据权利要求1或2所述的一种基于本体的医学文档语义关联检索方法，其特征在于，步骤D之后还包括以下步骤：

E、用户查询扩展器解析用户给定的查询，根据文档聚类本体，将路径中的标记用相近的本体类表示，并根据本体中定义的类层级结构及语义关联，查找所有相关概念，从而对于特征词路径进行扩展，形成除了原始查询以外的几个子查询，然后提交给文档检索器进行检索。

4.根据权利要求1所述的一种基于本体的医学文档语义关联检索方法，其特征在于，步骤D02中，优化处理和决定逻辑文档集具体为：

把解析的结果存在一个二维数组q[i][j]和一个变量p中，其中q[i][1]到q[i][j]存储从第i个查询特征词到查询起始节点所经过的一系列节点名，q[i][0]存储第i个查询特征词的权重，p为存储查询的类型，即起始节点二该算法查找文档结构索引表中的所有类型为p的逻辑文档，对于同一逻辑文档中出现的具有祖孙关系的元素节点，只选择祖先节点作为逻辑文档的根，并且返回所有逻辑文档组成的逻辑文档表。

5.根据权利要求1所述的一种基于本体的医学文档语义关联检索方法，其特征在于，步骤D03具体为：

设逻辑文档的起始节点为pre(d)，终止节点为bound，特征词为pre(t)，物理文档为D，物理文档类型定义为DTD，对于一个给定的特征词，查找逻辑文档表中DID和特征词相同，且pre(d)＜pre(t)＜＝bound的逻辑文档，若找到的话，寻找从特征词到D的根节点的路径是否匹配，若匹配就算特征词在逻辑文档中出现，并将出现频率值赋予逻辑文档表中的频率属性。

6.根据权利要求1或4或5所述的一种基于本体的医学文档语义关联检索方法，其特征在于，步骤D04中，计算特征词在文档中的权重具体为：

设d是一个类型为p的逻辑文档，则一个特征词t在d中的权重定义为：w_t＝tf_t(d)·idf_t ^p；

式中，tf_t(d)为特征词t在逻辑文档d中的频率；idf_t ^p为特征词t的逆文档频率，定义：

7.根据权利要求6所述的一种基于本体的医学文档语义关联检索方法，其特征在于，步骤D04中，文档向量为一个逻辑文档d的权重向量v_d，定义v_d＝(w_k1，w_k2，…，w_kn)，w_k1为文档自身的第1个特征词k1在逻辑文档d中的权重，w_k2为文档自身的第2个特征词k2在逻辑文档d中的权重，w_k3至w_kn以此类推；查询向量为一个查询q的权重向量v_q，定义v_q＝(w_t1，w_t2，…，w_tn)，w_t1为查询的第1个特征词t1在逻辑文档d中的权重，w_t2至w_tn以此类推，如果tn在q中出现，则w_tn≥0，否则w_tn＝0。

8.根据权利要求7所述的一种基于本体的医学文档语义关联检索方法，其特征在于，步骤D04中，文档向量与查询向量的相似性按如下方式计算：

type(q)为查询q的类型。