CN105608091B

CN105608091B - 一种动态医疗知识库的构建方法及装置

Info

Publication number: CN105608091B
Application number: CN201410675866.2A
Authority: CN
Inventors: 吴娜; 许利群
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2019-02-05
Anticipated expiration: 2034-11-21
Also published as: CN105608091A

Abstract

本发明提供了一种动态医疗知识库的构建方法及装置，该方法包括：获取患者的个人信息及体征数据；获取医生依据患者的个人信息以及体征数据给予的干预指导意见；将患者的个人信息、体征数据及对应的医生干预指导意见，按照医疗领域的专业词典及模式库生成规则知识；根据获取的规则知识，更新医疗知识库。本发明的方案将结构化信息—量化体征数据与非结构化信息—医生的干预指导意见进行关联分析，建立可动态更新的医疗知识库，提高对用户数据的挖掘维度，产生的知识可为专家系统进行个性化数据分析提供决策支撑。

Description

一种动态医疗知识库的构建方法及装置

技术领域

本发明涉及移动健康管理技术领域，尤其涉及一种动态医疗知识库的构建方法及装置。

背景技术

移动医疗/健康(Mobile Healthcare)作为一个新兴的交叉学科和跨界产业领域，较之于传统的以医院内就诊为主的医疗模式，移动医疗/健康更加关注院前和院后的健康关爱，可以有效地引导人们养成良好的生活习惯，防患未然，变治病为防病。

典型的移动健康/医疗服务系统是通过随身佩戴/携带的移动(感知)终端，实现多模态生命体征和情境数据的采集、实时记录、分析以及异常情况下的医生干预指导。

理想情况是无需医生介入，采集体征数据后，经记录分析后，由专家系统结合知识库自动给出建议指导。

其中，专家系统是一类具有专门知识和经验的计算机智能程序系统，一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能解决的复杂问题，知识库用来存放专家提供的知识。因此，知识库是专家系统质量是否优越的关键所在。一般来说，专家系统中的知识库与专家系统程序是相互独立的，用户可以通过改变、完善知识库中的知识内容来提高专家系统的性能。

移动健康/医疗系统的知识库是基于领域的专业知识，提供疾病的症状描述、对应疾病康复的饮食、运动建议和用药等知识，为用户提供治疗指引。在知识库的构建方法方面，除了通过人工方式基于领域专业知识构建静态的知识库外，还存在一种智能地更新专家规则库和领域知识库的方法。

例如，一种基于即时消息的肝病专家系统，该系统通过领域知识驱动垂直搜素引擎，将互联网上的相关领域知识更新到领域知识库中，或是将人工医生解答生成规则。

然而，现有技术中的知识库的构建方法中，人工方式需要耗费大量人力、物力，上述基于即时消息的肝病专家系统，通过从互联网中直接提取专家知识，但没有明确如何从互联网的海量内容中筛选知识，同时，由医生解答提取规则没有基于用户的量化体征数据构建，也没有提及具体实现方法，所以使得医疗知识库的知识覆盖度低，更新周期长，独立存储的领域知识也具有一定的知识冗余，此外，更加缺少针对量化数据的相关知识，无法为专家系统提供良好的决策支撑。

发明内容

本发明要解决的技术问题是提供一种动态医疗知识库的构建方法及装置，将结构化信息—量化体征数据与非结构化信息—医生干预指导进行关联分析，提高对用户的量化数据挖掘维度，为专家系统进行个性化数据分析提供决策支撑。

为了解决上述技术问题，本发明采用如下技术方案：

依据本发明的一个方面，提供了一种动态医疗知识库的构建方法，该方法包括：

获取患者的个人信息及体征数据；

获取医生依据患者的个人信息以及体征数据给予的干预指导意见；

将所述患者的个人信息、体征数据及对应的医生干预指导意见，按照医疗领域的专业词典及模式库生成规则知识并保存；

根据获取的所述规则知识，更新医疗知识库。

其中，获取医生依据患者的个人信息以及体征数据给予的干预指导意见的步骤包括：

若所述体征数据存在异常，则获取医生依据患者的个人信息以及体征数据给予的干预指导意见。

其中，将所述患者的个人信息、体征数据及对应的医生干预指导意见，按照所述医疗领域的专业词典及模式库生成规则知识并保存的步骤包括：

获取医疗领域的专业词典及模式库，所述模式库中存储有具有预设格式的医生的干预指导意见；

采用基于词典匹配的方法和基于统计机器学习相结合的方法，依据所述医疗领域的专业词典，对所述医生干预指导意见进行分词处理；

采用基于最大熵模型的最大生成树算法，依据所述模式库对进行分词处理后的所述医生干预指导意见进行句法分析，获得医疗专业知识；

将所述患者的个人信息、体征数据及获得的医疗专业知识进行关联，生成规则知识并保存。

其中，根据获取的所述规则知识，更新医疗知识库的步骤包括：

将获取的所述规则知识进行分词处理，并过滤停用词，获得所述规则知识的文本内容特征；

利用网页去重(SimHash)算法对所述规则知识的文本内容特征进行处理，获得所述规则知识的语义指纹；

比较获得的所述规则知识的语义指纹与所述医疗知识库中已有的聚类类型的聚类中心文本的语义指纹值的海明距离，获得海明距离的最小值及对应的聚类类别；

比较所述海明距离的最小值与预设阈值，并根据比较结果对所述规则知识进行处理。

其中，比较所述海明距离的最小值与预设阈值，并根据比较结果对所述规则知识进行处理的步骤包括：

若海明距离的最小值小于或等于预设阈值，将所述规则知识加入到与海明距离的最小值对应的聚类类别的内容文本集中。

若海明距离的最小值大于预设阈值，新建一个聚类类别，并将所述规则知识保存在新建的聚类类别的聚类中心文本中。

其中，获取医疗领域的专业词典及模式库的步骤包括：

通过导入的方式或基于一个医疗领域的专业词汇扩展其他词汇的方法构建医疗领域的专业词典；

依据构建的专业词典，收集多种医生的干预指导意见，并进行词性标注，句法依存关系标注，获得多种具有预设格式的医生的干预指导意见，并保存在模式库中。

其中，所述规则知识包括前提及结论两部分内容，其中，所述前提部分包括所述患者的个人信息及体征数据，所述结论部分包括所述患者的病情描述及与病情相关的建议信息。

依据本发明的另一个方面，还提供了一种动态医疗知识库的构建装置，包括：

第一获取模块，用于获取患者的个人信息及体征数据；

第二获取模块，用于获取医生依据患者的个人信息以及体征数据给予的干预指导意见；

规则知识生成模块，用于将所述患者的个人信息、体征数据及对应的医生干预指导意见，按照医疗领域的专业词典及模式库生成规则知识并保存；

更新模块，用于根据获取的所述规则知识，更新医疗知识库。

其中，所述第二获取模块进一步用于：若所述体征数据存在异常，则获取医生依据患者的个人信息以及体征数据给予的干预指导意见。

其中，所述规则知识生成模块包括：

专业词典及模式库获取单元，用于获取医疗领域的专业词典及模式库，所述模式库中存储有具有预设格式的医生的干预指导意见；

分词处理单元，用于采用基于词典匹配的方法和基于统计机器学习相结合的方法，依据所述医疗领域的专业词典，对所述医生干预指导意见进行分词处理；

句法分析单元，用于采用基于最大熵模型的最大生成树算法，依据所述模式库对进行分词处理后的所述医生干预指导意见进行句法分析，获得医疗专业知识；

关联单元，用于将所述患者的个人信息、体征数据及获得的医疗专业知识进行关联，生成规则知识并保存。

其中，所述更新模块包括：

文本内容特征获取单元，用于将获取的所述规则知识进行分词处理，并过滤停用词，获得所述规则知识的文本内容特征；

语义指纹生成单元，用于利用SimHash算法对所述规则知识的文本内容特征进行处理，获得所述规则知识的语义指纹；

比较单元，用于比较获得的所述规则知识的语义指纹与所述医疗知识库中已有的聚类类型的聚类中心文本的语义指纹值的海明距离，获得海明距离的最小值及对应的聚类类别；

处理单元，用于比较所述海明距离的最小值与预设阈值，并根据比较结果对所述规则知识进行处理。

其中，所述处理单元进一步用于：

其中，处理单元进一步用于：

若海明距离的最小值大于预设阈值，新建一个聚类类别，并将所述规则知识保存在新建的聚类类别的聚类中心文本中_。

其中，所述专业词典及模式库获取单元进一步用于：

本发明的有益效果是：

本发明的动态医疗知识库的构建方法，通过获取患者的个人信息、体征数据及医生依据患者的个人信息及体征数据给予的干预指导意见，并将结构化信息—量化体征数据与非结构化信息—医生指导进行关联分析，生成规则知识并保存，并依据获取的规则知识对医疗知识库进行更新，拓宽了动态医疗知识库的知识覆盖度，缩短了更新周期，并针对量化数据的相关知识，为专家系统提供了良好的决策支撑。

附图说明

图1表示本发明实施例的动态医疗知识库的构建方法的流程示意图；

图2表示本发明实施例的动态医疗知识库的构建装置的结构示意图；

图3表示规则知识生成模块的结构示意图；

图4表示更新模块的结构示意图；

图5表示本发明的具体实施例中医生的干预指导意见的第一句的句法分析原理图；

图6表示表示本发明的具体实施例中医生的干预指导意见的第二句的句法分析原理图；

图7表示表示本发明的具体实施例中医生的干预指导意见的第三句的句法分析原理图；

图8表示表示本发明的具体实施例中医生的干预指导意见的第四句的句法分析原理图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

依据本发明实施例的一个方面，提供了一种动态医疗知识库的构建方法，该方法首先，获取患者的个人信息及体征数据；接着，获取医生依据患者的个人信息以及体征数据给予的干预指导意见；再次，将所述患者的个人信息、体征数据及对应的医生干预指导意见，按照医疗领域的专业词典及模式库生成规则知识并保存；最后，根据获取的所述规则知识，更新医疗知识库。

如图1所示，该方法包括：

步骤S101、获取患者的个人信息及体征数据。

其中，患者的个人信息包括患者的性别、年龄及既往病史等，体征数据包括患者的血压、血糖、运动、睡眠等多项体征数据，且这些体征数据大多通过随身佩戴/携带的移动(感知)终端，实现多模态生命体征和情境数据的采集。

步骤S103、获取医生依据患者的个人信息以及体征数据给予的干预指导意见。

可选地，当患者的体征数据存在异常时，即获取的患者的体征数据与静态知识库中保存的各项体征数据的正常指标对比，存在异常，医生则会针对该异常情况给予相应的干预指导意见。

步骤S105、将所述患者的个人信息、体征数据及对应的医生干预指导意见，按照医疗领域的专业词典及模式库生成规则知识并保存。

可选地，所述规则知识包括前提及结论两部分内容，其中，所述前提部分包括所述患者的个人信息及体征数据，所述结论部分包括所述患者的病情描述及与病情相关的建议信息。

可选地，步骤S105包括：

其中，医疗领域的专业词典及模式库的获取，可首先通过导入的方式或基于一个医疗领域的专业词汇扩展其他词汇的方法构建医疗领域的专业词典，进而依据构建的专业词典，从互联网的医患互动网站收集大量的医生干预指导意见，筛选出较规范的表达，对其进行词性标注，句法依存关系标注，从而生成模式库。

具体地，当某一患者的个人信息及体征数据如下时：

患者：性别，男；年龄，41岁；生活一直很有规律，不吸烟，不喝酒，晚上正常10点多一点睡觉，早上6点钟起床；

体征数据采集：血压：210/130毫米汞柱(mmHg)(即收缩压为210mmHg，舒张压为130mmHg)。

由于静态知识库中保存有如下关于高血压的知识：

高血压是最常见的慢性病，也是心脑血管病最主要的危险因素，脑卒中、心肌梗死、心力衰竭及慢性肾脏病是其主要并发症。在未用抗高血压药情况下，收缩压≥140mmHg和/或舒张压≥90mmHg，按血压水平将高血压分为1，2，3级。收缩压≥140mmHg和舒张压<90mmHg单列为单纯性收缩期高血压。患者既往有高血压史，目前正在用抗高血压药，血压虽然低于140/90mmHg，亦应该诊断为高血压。

对比上述高血压的相关知识可知，该患者的血压超过了正常血压阈值(收缩压140--90mmHg舒张压90--60mmHg)，则医生会针对该患者的血压异常情况给予干预指导意见：

该患者属于三级高血压，高危险组。请去医院检查尿常规、血脂、血糖、心电图等，排除继发性高血压。注意宜低盐低脂、清淡饮食，适当做运动、减体重。保持心情舒畅。监测血压，在医生指导下服用长效降压药，管理好血压。

针对医生给予的干预指导意见，首先要进行分词处理，一般采用基于词典匹配的方法和基于统计机器学习相结合的方法，并依据理疗领域的专业词典进行分词处理。例如对于“请去医院检查尿常规、血脂、血糖、心电图等，排除继发性高血压”中的“尿常规”词语的划分，若不依据专业词典，则可能将“尿常规”这一个词语拆分成“尿”和“常规”，所以在进行分词处理的过程中，有必要参照医疗领域的专业词典。该医生的干预指导意见最后的分词处理结果如下：

属于/v三级/b高血压/n，/wp高/a危险组/n。/wp

请/v去/v医院/n检查/v血/n、/wp尿常规/n、/wp血脂/n、/wp血糖/n、/wp心电图/n等/u，/wp排除/v继发性高血压/n。/wp

注意/v宜/a低/a盐/n低/a脂/n、/wp清淡/a饮食/n，/wp适当/a做/v运动/v减/v体重/n。/wp保持/v心情/n舒畅/a。/wp

监测/v血压/n，/wp在/p医生/n指导/v下/nd服用/v长效/n降压药/v，/wp管理/v好/a血压/n。/wp

其中的字母表示的具体含义如下所示：

v：动词；b：连词；a:形容词；wp:标点符号(逗号、句号、感叹号)；n名词；u:助动词；nd:方向名词；p:介词。

其次，对经过分词处理的医生的干预指导意见进行句法分析。如图5～8所示，采用基于最大熵模型的最大生成树算法，依据表1中字母符号表示的分词之间的具体关系，基于领域专业词典和模式库进行比对，即可从医生的干预指导意见中获得医疗专业知识，其中，图5～8中显示了每一句话基于最大生成树算法生成的依存句法树，指出了词语之间在句法上的语义搭配关系和层次，依此划分便于进行句法分析。

表1字母符号表示的分词之间的具体关系

其中，获得的医疗专业知识如下：

属于三级高血压，高危险组。

请去医院检查尿常规、血脂、血糖、心电图等

排除继发性高血压。

注意宜低盐低脂、清淡饮食，

适当做运动、减体重。

保持心情舒畅。

监测血压，在医生指导下服用长效降压药，管理好血压。

最后，将获得的医疗专业知识与患者的个人信息和特征数据，即量化体征数据、年龄、性别、既往病史等数量属性和类别属性，进行关联，生成规则知识。该规则知识包括：

前提：血压：210/130mmHg(参考：年龄——41岁，性别——男)。

疾病描述：属于三级高血压，高危险组。

建议：请去医院检查尿常规、血脂、血糖、心电图等，排除继发性高血压。注意宜低盐低脂、清淡饮食，适当做运动、减体重。保持心情舒畅。监测血压，在医生指导下服用长效降压药，管理好血压。

步骤S107、根据获取的所述规则知识，更新医疗知识库。

可选地，步骤S107包括：

利用SimHash算法对所述规则知识的文本内容特征进行处理，获得所述规则知识的语义指纹；例如，当将获取的规则知识的文本内容特征以n维特征向量v＝{w1，w2，…，wn}，作为Hash函数的输入，其中w1，w2，…，wn分别是文本内容特征v1，v2，…，vn的权重，则Hash函数会输出一个b(＝64)位的语义指纹f＝{f1，f2，…，fb}，其中f1，f2，…，fb取值为0或1。

其中，预设阈值根据经验来设定，一般可设为3。若海明距离的最小值小于或等于预设阈值，将所述规则知识加入到与海明距离的最小值对应的聚类类别的内容文本集中；

最后加入到知识库中的规则知识还需要进过专家的审核才能最终通过。

实施例二

依据本发明实施例的另一个方面，还提供了一种动态医疗知识库的构建装置，如图2所示，该装置200包括：

第一获取模块201，用于获取患者的个人信息及体征数据；

第二获取模块203，用于获取医生依据患者的个人信息以及体征数据给予的干预指导意见；

规则知识生成模块205，用于将所述患者的个人信息、体征数据及对应的医生干预指导意见，按照医疗领域的专业词典及模式库生成规则知识并保存；

更新模块207，用于根据获取的所述规则知识，更新医疗知识库。

可选地，第二获取模块203进一步用于：若所述体征数据存在异常，则获取医生依据患者的个人信息以及体征数据给予的干预指导意见。

可选地，所述规则知识生成模块205包括：

专业词典及模式库获取单元2051，用于获取医疗领域的专业词典及模式库，所述模式库中存储有具有预设格式的医生的干预指导意见；

分词处理单元2053，用于采用基于词典匹配的方法和基于统计机器学习相结合的方法，依据所述医疗领域的专业词典，对所述医生干预指导意见进行分词处理；

句法分析单元2055，用于采用基于最大熵模型的最大生成树算法，依据所述模式库对进行分词处理后的所述医生干预指导意见进行句法分析，获得医疗专业知识；

关联单元2057，用于将所述患者的个人信息、体征数据及获得的医疗专业知识进行关联，生成规则知识并保存。

可选地，所述更新模块207包括：

文本内容特征获取单元2071，用于将获取的所述规则知识进行分词处理，并过滤停用词，获得所述规则知识的文本内容特征；

语义指纹生成单元2073，用于利用SimHash算法对所述规则知识的文本内容特征进行处理，获得所述规则知识的语义指纹；

比较单元2075，用于比较获得的所述规则知识的语义指纹与所述医疗知识库中已有的聚类类型的聚类中心文本的语义指纹值的海明距离，获得海明距离的最小值及对应的聚类类别；

处理单元2077，用于比较所述海明距离的最小值与预设阈值，并根据比较结果对所述规则知识进行处理。

可选地，所述处理单元2077进一步用于：

所述处理单元2077进一步用于：

可选地，所述专业词典及模式库获取单元2051进一步用于：

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种动态医疗知识库的构建方法，其特征在于，包括：

获取患者的个人信息及体征数据；

根据获取的所述规则知识，更新医疗知识库；

采用基于词典匹配的方法和基于统计机器学习相结合的方法，依据所述医疗领域的专业词典，对所述医生的干预指导意见进行分词处理；

采用基于最大熵模型的最大生成树算法，依据所述模式库对进行分词处理后的所述医生的干预指导意见进行句法分析，获得医疗专业知识；

将所述患者的个人信息、体征数据及获得的医疗专业知识进行关联，生成规则知识并保存；

其中，获取医疗领域的专业词典及模式库的步骤包括：

基于一个医疗领域的专业词汇扩展其他词汇的方法构建医疗领域的专业词典；

2.如权利要求1所述的方法，其特征在于，获取医生依据患者的个人信息以及体征数据给予的干预指导意见的步骤包括：

3.如权利要求1所述的方法，其特征在于，根据获取的所述规则知识，更新医疗知识库的步骤包括：

利用网页去重SimHash算法对所述规则知识的文本内容特征进行处理，获得所述规则知识的语义指纹；

4.如权利要求3所述的方法，其特征在于，比较所述海明距离的最小值与预设阈值，并根据比较结果对所述规则知识进行处理的步骤包括：

5.如权利要求3所述的方法，其特征在于，比较所述海明距离的最小值与预设阈值，并根据比较结果对所述规则知识进行处理的步骤包括：

6.如权利要求1所述的方法，其特征在于，所述规则知识包括前提及结论两部分内容，其中，所述前提部分包括所述患者的个人信息及体征数据，所述结论部分包括所述患者的病情描述及与病情相关的建议信息。

7.一种动态医疗知识库的构建装置，其特征在于，包括：

第一获取模块，用于获取患者的个人信息及体征数据；

更新模块，用于根据获取的所述规则知识，更新医疗知识库；

其中，所述规则知识生成模块包括：

关联单元，用于将所述患者的个人信息、体征数据及获得的医疗专业知识进行关联，生成规则知识并保存

其中，所述专业词典及模式库获取单元进一步用于：

8.如权利要求7所述的装置，其特征在于，所述第二获取模块进一步用于：若所述体征数据存在异常，则获取医生依据患者的个人信息以及体征数据给予的干预指导意见。

9.如权利要求7所述的装置，其特征在于，所述更新模块包括：

语义指纹生成单元，用于利用网页去重SimHash算法对所述规则知识的文本内容特征进行处理，获得所述规则知识的语义指纹；

10.如权利要求9所述的装置，其特征在于，所述处理单元进一步用于：

11.如权利要求9所述的装置，其特征在于，所述处理单元进一步用于：

12.如权利要求7所述的装置，其特征在于，所述规则知识包括前提及结论两部分内容，其中，所述前提部分包括所述患者的个人信息及体征数据，所述结论部分包括所述患者的病情描述及与病情相关的建议信息。