CN112233736A - 一种知识库的构建方法和系统 - Google Patents
一种知识库的构建方法和系统 Download PDFInfo
- Publication number
- CN112233736A CN112233736A CN202011106914.8A CN202011106914A CN112233736A CN 112233736 A CN112233736 A CN 112233736A CN 202011106914 A CN202011106914 A CN 202011106914A CN 112233736 A CN112233736 A CN 112233736A
- Authority
- CN
- China
- Prior art keywords
- unit
- literature
- effect
- relational
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种知识库的构建方法和系统,其步骤包括:文献单元构建原始文献库,所述构建方法的相关文献分类至少包括以下步骤:所述文献单元(1)计算所述单词/所述词组的关联性强度并基于所述关联性强度修正所述联合出现概率以获取该文献的关联约化坐标;所述文献单元(1)构建所述文献的关联约化坐标,并基于全部的所述相关文献的所述关联约化坐标和所述关联性强度构建的分类函数将所述相关文献按照迭代算法的形式进行分类以形成若干所述文献单元体,其中。所述分类函数能够基于所述相关文献的样本量进行深度学习,从而增强所述文献单元(1)的精度。本发明实现病症之间的因果分析推理,用以分析病症之间的因果关系。
Description
本发明是申请号为201910034537.2,申请日为2019年01月15日,申请类型为发明,申请名称为一种面向健康领域的因果关系知识库的构建方法和系统的分案申请。
技术领域
本发明涉及医疗信息化技术领域,尤其涉及一种知识库的构建方法和系统。
背景技术
在科学研究的过程中,文献是一种记录科研成果最具备说服力和信服力的载体。毫无疑义的说,文献中记录了科研活动的大部分的内容。大量的文献记载了病症之间的关联,但是医生需要查阅大量的文献去研究并病症之间的因果关系是十分的困难。如,在医学界,合并症和并发症均是在发生了一种疾病之后,跟随这种疾病发生了另外一种或者多种疾病。其中,合并症和并发症是一个复杂的临床医学概念。并发症指一种疾病在发展过程中引起另一种疾病或症状的发生;而合并症是指在诊疗护理过程中,病人由患一种疾病合并发生了与这种疾病有关的另一种或几种疾病。在医学界,医学研究强调的是因果关系而不是关联关系。而在合并症和并发症症之间,并发症与原发疾病之间有因果关系,而合并症与主要疾病之间无因果关系。因此,医生能够从众多文献中找到病症之间的是否为因果关系是需要解决的技术问题。
例如,公开号为CN107145712A的中国专利公开的一种合并症与并发症的病历统计分析系统。该系统包括诊断代码维护单元、病历计数单元、2×2交叉分类资料的卡方检验单元以及报表生成单元,维护各个ID与诊断之间的映射关系,并建立诊断ID诊断统计表;其中,诊断ID统计表的纵列对应病历首页出院诊断中的其他诊断;再通过数据接口导入医院历史病历k份,根据诊断ID统计表,将病历出院诊断中的主要诊断和其他诊断转换为ID诊断,然后通过2×2交叉分类资料的卡方检验计算出与主要诊断与各种诊断对应的卡方值,并进行排序,如此,能够利用计算机高速运算迅速分析出与选定主要诊断可能有因果关系的合并症与并发症,达到速度更好的有益效果。
例如,公开号为CN107799182A的中国专利公开的一种合并症及并发症影响因子的估算方法和电子设备。该方法通过优算算法求取影响因子向量,以使得诊断向量与影响因子向量的内积最为接近资源消耗水平参数,从而可以获取到一个诊断相关分组下的每一种合并症和并发症的出现是否或严重程度对于医疗资源消耗水平的影响权重。该影响权重可以精确地估计每一种合并症和并发症的出现与否或严重程度对于医疗资源消耗水平的影响。
例如,公开号为CN106407686A的中国专利公开的一种评估慢性病费用建模方法。该方法首先通过样本筛选和特征选择,再采用回归模型,得到各影响因子对慢性疾病费用的影响。该发明能够直接量化出慢性病的并发症合并症对其资料费用的影响程度,为慢性并的医疗控费提供依据。
例如,公开号为CN105046406A的中国专利公开的一种住院病人医疗管理质量评估方法,该方法包括:历史性数据筛选与建模;数据鉴别与清理;疾病诊断相关分组DRG和模型的归类;入院时ICD合并发症及其其他变量的归类集合;入院及合并发症变量的统计检验与筛选;数学建模的建立和质量验证;当前数据筛选与预值计算;计算病人入院的风险预测值,实现对每个入院病人在死亡率、住院天数和医疗成本的入院风险预测。该发明通过大数据分析、数学统计学和机器学习等方法实现了医疗数据从数据到解决方案的有效转化,实现了数据价值。解决了医疗数据之间不可比的难题,不仅能够实现病种之间的医疗质量评估,还可实现医生之间、医院科室之间、医院之间在住院病人疾病治疗管理的绩效合理性评价。
例如,公开号为CN102542153B公开的一种引入生物辐射敏感性参数对正常组织并发症概率影响的方法。该方法基于简单正常组织器官模型,计算得到器官模型的剂量和生物有效剂量BED分布,归箱处理BED分布计算得到总生存分数SF,利用SF计算得到器官模型有效均匀剂量EUD,将NTCPLKB模型50%并发症对应的广义有效均匀剂量EUD,利用EUD模型中包含的多种辐射敏感性参数,引入辐射敏感性参数对正常组织并发症概率的影响。
例如,公开号为CN106295187A的中国专利公开的一种面向智能临床辅助决策支持系统的知识库构建方法和系统,该方法包括获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树、提取所述关系依赖树中的概念、实体、实体修饰语;并根据所述概念、所述实体、所述实体修饰语,通过关系语义定义规则,获取所述关系依赖树中各所述实体之间的关系;设置扩展三元组,通过所述扩展三元组将所述关系依赖树中各所述实体之间的关系进行存储,以完成构建知识库。该发明可用于临床实例多且特征多的情况,对于病历表述信息可实现灵活拓展。但是,该申请仅通过识别表达语义关系的短语来抽取实体之间的关系,并且关系侧重于相关关系,而相关关系不一定为因果关系,因此该专利所获取的因果关系不可靠。
例如,公开号为CN106667443A的中国专利公开的一种先天性白内障术候并发症预测方法和系统。该方法通过临床信息获取预测因子;将预测因子通过朴素贝叶斯算法,得到预测结果;呈现预测结果;根据预测结果获取对应的随访信息,从而可以准确预测并发症的发生。
通过以上的现有技术调研可以发现,对于病症之间是否构成合并症和并发症的现有技术远远不足,仅有的公开号为CN107145712A仅能通过简单的数理统计来进行判定,并且是以独立性假定来判定,仅仅能够说明病症之间的关联性,并不能说明病症之间的因果性,这不足以量化病症之间的因果关系。
发明内容
针对现有技术之不足,本发明提供了一种面向健康领域的因果关系知识库的构建方法,涉及一种基于文献检索的多种病症之间是否构成并发症或合并症的知识库的构建方法,其步骤包括:文献单元构建原始文献库;数据单元构建数据集;因果单元病症之间的因果关系;知识单元存储所述原始文献库、所述数据集和/或所述平均因果效应以构建能够读取和/或显示的所述知识库,以数据量化的形式提供给医疗工作者参考、学习和/或决策;所述文献单元能够获取众多含有多种病症的相关文献并对其进行分类形成若干文献单元体以构建原始文献库,以使得所述数据单元能够基于所述文献单元体获取主要特征参数并基于所述主要特征参数构建数据集,所述因果单元基于所述主要特征参数和所述数据集构建贝叶斯网络,以通过数据模式分析病症之间的平均因果效应,从而所述知识单元能够基于所述相关文献以形成所述病症之间及所述病症之间的所述平均因果效应的对应关系的方式构建所述知识库。本发明是通过将文献中记录的原始数据形成一种知识库,并不涉及疾病的诊断和治疗方法。
根据一种优选的实施方式,所述相关文献分类按照如下方式进行:所述文献单元统计每一个文献中单词/词组的频率,按照独立性假设获取所述单词/所述词组的联合出现概率;所述文献单元计算所述单词/所述词组的关联性强度,并基于所述关联性强度修正所述联合出现概率以获取该文献的关联约化坐标;所述文献单元构建所述文献的关联约化坐标,并基于全部的所述相关文献的所述关联约化坐标和所述关联性强度构建的分类函数将所述相关文献按照迭代算法的形式进行分类以形成若干所述文献单元体;其中,所述分类函数能够基于所述相关文献的样本量进行深度学习,从而增强所述文献单元的精度。
根据一种优选的实施方式,在所述数据单元获取了所述文献单元体的情况下,所述数据单元按照病症对配对的方式获取所述数据集;所述数据单元对每一个所述相关文献以自然语言处理的句法分析方式提取其中病症对之间的关系,用以建立所述病症对的关系知识库,所述病症对之间的关系包括正向关系、反向关系和垂直关系;并且,所述数据单元基于关系知识表在所述文献单元体内对包含有所述病症对的文献进行检索以融合的方式获取所述病症对的关系信度值用以建立所述病症对的关系信度值库,所述病症对之间的关系包括正向关系信度值、反向关系信度值和垂直关系信度值;从而,所述数据单元基于对所有病症之间按照两两配对的方式建立的所述关系知识库和关系信度值库构建所述数据集。
根据一种优选的实施方式,所述因果单元3按照如下方式构建贝叶斯网络,S31:基于所述关系知识库构建贝叶斯网络评价函数:
logP(G,D,KL)=logP(G)+logP(D|G)+logP(KL|G)
S32:基于所述关系知识库构建无向图结构约束;对于所述数据集D,对所述数据集D中的任意病症对Lm和Ln,通过检索病症对所述关系知识库获得属性对Lm和Ln的病症对编号,根据所述病症对编号检索文献中病症对Lm和Ln关系信度值表中的Lm→Ln的关系信度值和Ln→Lm的关系信度值,
S33:基于所述贝叶斯网络评价函数和所述无向图结构约束构建贝叶斯网络。
根据一种优选的实施方式,所述因果单元基于所述贝叶斯网络和Pearl原理计算各病症对之间的平均因果效应,在所述平均因果效应超过设定的因果效应阈值时,病症之间构成并发症;在所述平均因果效应不超过设定的因果效应阈值时,病症之间构成合并症。
根据一种优选的实施方式,对于病症Lm,通过遍历的形式基于所述无向图结构约束获取与病症Lm相连接的节点构成其节点集;并逐次计算每个节点与病症Lm之间的相关性,并从中选取相关性最大的节点进行独立性假定,删除在给定数据集D下与Lm独立的节点;
病症Ln与病症Lm之间的独立性通过互信息度量:
在所述互信息超出了互信息的阈值时,则病症Ln与病症Lm具有相关性,不大独立;在所述互信息不超出了互信息的所述阈值,则病症Ln与病症Lm不具有相关性,独立。
根据一种优选的实施方式,本发明还公开了一种面向健康领域的因果关系知识库的构建系统,该系统包括文献单元:用于构建原始文献库;数据单元:用于构建数据集;因果单元:用于病症之间的平均因果效应;和知识单元:用于存储所述原始文献库、所述数据集和/或所述平均因果效应以构建能够读取和/或显示的所述知识库,以数据量化的形式提供给医疗工作者参考、学习和/或决策;所述文献单元能够基于用户定义的请求获取众多含有多种病症的相关文献并对其进行分类形成若干文献单元体以构建原始文献库,以使得所述数据单元能够基于所述文献单元体获取主要特征参数并基于所述主要特征参数构建数据集,以降低众多所述相关文献形成的众多特征参数对于病症之间因果关系的干扰并提高原始文献库的利用价值;所述因果单元基于所述主要特征参数和所述数据集构建贝叶斯网络,以通过数据模式挖掘病症之间的平均因果效应,从而能够根据所述平均因果效应病症之间是否构成并发症或合并症。
根据一种优选的实施方式,所述文献单元统计每一个文献中单词/词组的频率,按照独立性假设获取所述单词/所述词组的联合出现概率;所述文献单元计算所述单词/所述词组的关联性强度,并基于所述关联性强度修正所述联合出现概率以获取该文献的关联约化坐标;所述文献单元构建所述文献的关联约化坐标,并基于全部的所述相关文献的所述关联约化坐标和所述关联性强度构建的分类函数将所述相关文献按照迭代算法的形式进行分类以形成若干所述文献单元体;其中,所述分类函数能够基于所述相关文献的样本量进行深度学习,从而增强所述文献单元的精度。
根据一种优选的实施方式,在所述数据单元获取了所述文献单元体的情况下,所述数据单元按照病症对配对的方式获取所述数据集:所述数据单元对每一个所述相关文献以自然语言处理的句法分析方式提取其中病症对之间的关系,用以建立所述病症对的关系知识库,所述病症对之间的关系包括正向关系、反向关系和垂直关系;并且,所述数据单元基于关系知识表在所述文献单元体内对包含有所述病症对的文献进行检索以融合的方式获取所述病症对的关系信度值用以建立所述病症对的关系信度值库,所述病症对之间的关系包括正向关系信度值、反向关系信度值和垂直关系信度值;从而,所述数据单元基于对所有病症之间按照两两配对的方式建立的所述关系知识库和关系信度值库构建所述数据集。
根据一种优选的实施方式,所述因果单元按照如下方式构建贝叶斯网络,S31:基于所述关系知识库构建贝叶斯网络评价函数:
logP(G,D,KL)=logP(G)+log(D|G)+logP(KL|G)
S32:基于所述关系知识库构建无向图结构约束;对所述数据集D,对所述数据集D中的任意病症对Lm和Ln,通过检索病症对所述关系知识库获得属性对Lm和Ln的病症对编号,根据所述病症对编号检索文献中病症对Lm和Ln关系信度值表中的Lm→Ln的关系信度值和Ln→Lm的关系信度值,
S33:基于所述贝叶斯网络评价函数和所述无向图结构约束构建贝叶斯网络。
本发明提供一种面向健康领域的因果关系知识库的构建系统,本发明基于已有的并发症/合并症领域的文献资料,构建了原始文献库,并设计贝叶斯网络评价函数,并构建贝叶斯网络的无向图约束,然后构建贝叶斯网络,实现病症之间的因果分析推理,用以分析病症之间的因果关系。
附图说明
图1是本发明提供的构建方法的一种优选的流程示意图;和
图2是本发明提供的构建系统的一种优选的模块示意图。
附图标记列表
1:文献单元 2:数据单元
3:因果单元 4:知识单元
具体实施方式
下面结合附图1和2进行详细说明。
本发明的描述中,术语“第一”、“第二”、“第三”和仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”和的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1
在科学研究的过程中,文献是一种记录科研成果最具备说服力和信服力的载体。毫无疑义的说,文献中记录了科研活动的大部分的内容。大量的文献记载了病症之间的关联,但是医生需要查阅大量的文献去研究并病症之间的因果关系是十分的困难。例如,在医学界,合并症的病症之间并没有因果关系,而并发症的病症之间具有因果关系。基于此本发明通过对含有多种病症之间的文献进行收集、分离、参数提取和判定等过程,以通过量化的方式提供一种并发症或合并症的知识库的构建方法,能够为医生在治疗手段的决策时通过“数据说话”的方式提供有力的参考。本发明中,仅仅是为了从众多分散的文献中,研究文献提及的病症之间的因果关系,以此基于检索的形成一种知识库。该构建系统并非是一种疾病诊断和/或治疗方法。
本实施例公开了一种面向健康领域的因果关系知识库的构建方法,在不造成冲突或者矛盾的情况下,其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。优选地,该方法可以由本发明的方法和/或其他可替代的模块实现。
一种基于文献检索的多种病症之间是否构成并发症或合并症的知识库的构建方法,如图1所示,其步骤包括:
S1:文献单元1构建原始文献库;
S2:数据单元2构建数据集;
S3:因果单元3病症之间的因果关系;
S4:知识单元4存储所述原始文献库、所述数据集和/或所述平均因果效应以构建能够读取和/或显示的所述知识库。从而知识库4提供的信息能够以数据量化的形式提供给医疗工作者参考、学习和/或决策。
为了能够降低众多相关文献形成的众多特征参数对于病症对之间因果关系的干扰并提高原始文献库的利用价值。优选地,文献单元能够获取众多含有多种病症的相关文献并对其进行分类形成若干文献单元体以构建原始文献库,以使得数据单元能够基于文献单元体获取主要特征参数并基于主要特征参数构建数据集。
优选地,因果单元基于主要特征参数和数据集构建贝叶斯网络,以通过数据模式分析病症之间的平均因果效应,从而知识单元能够基于相关文献以形成病症之间及病症之间的平均因果效应的对应关系的方式构建知识库。例如,病症之间的平均因果效应能够反映出病症之间是否是构成并发症和合并症。
优选地,文献单元1基于获取的众多含有多种病症的相关文献。文献单元1对相关文献进行分类形成若干文献单元体以构建原始文献库。该相关文献包括就诊病历、研究报告、会议文献、期刊文献、书籍、学术论文和专利。在如此大量的文献的情况下,其需要按照一定的方法进行分类。进行文献分类是为了能够有效的观察病症之间的关联以及减小系统的负荷。例如可以按照消化道疾病、心血管疾病和神经科疾病等进行分类。也可以按照学术领域进行分类,例如康复学和心理学等等进行分类。不过,在大量文献的严峻形式下,其准确高效的分类会直接影响并发症和合并症的区别。优选地,文献分来可以采用贝叶斯法、SVM方法和k-NN法。
优选地,相关文献分类按照如下方式进行:S11:文献单元1统计每一个文献中单词/词组的频率,按照独立性假设获取单词/词组的联合出现概率。例如,对于一个具体的文献,其联合出现概率分布可以按照朴素贝叶斯方法计算。
S12:文献单元1计算单词/词组的关联性强度。通过关联性强度的计算,能够反映单词/词组的关联性,对于文献的分类是适宜的。优选地,在分类时,定义N为文献样本的集合,V是文献类型的集合,Vi是第i个文献类型的子集。W是单词/词组集合,Wi是第i个单词/词组的子集。在Vi中含有Sj个样本,其中第p个样本的关联约化坐标Tp是一个n维数组:
在Vi的关联向量是所有Vi中样本关联约化坐标的平均,该值反映了文献中单词/词组的关联性强度即:
S13:文献单元1获取文献的关联约化坐标,并基于全部的相关文献的关联约化坐标构建的分类函数将相关文献按照迭代算法的形式进行分类以形成若干文献单元体。优选地,对于任意文献其关联约化坐标为:
式中,qi是文献中第i个单词出现的次数。在进行分类是,待分类文献与每一类文献Vi的支撑点(b1,b2,…,bn)的距离记为:
根据关联性强度,构建文献分类函数:
式中,γi与关联性强度相关。
优选地,迭代算法可以采用最小化迭代算法、极小优化迭代算法和期望最大迭代算法。优选地,分类函数能够基于相关文献的样本量进行深度学习,从而增强文献单元1的精度。
优选地,数据单元2能够基于文献单元体获取主要特征参数并基于主要特征参数构建数据集。以降低众多相关文献形成的众多特征参数对于病症之间因果关系的干扰并提高原始文献库的利用价值。优选地,在数据单元2获取了文献单元体的情况下,数据单元2按照病症对配对的方式获取数据集。数据单元2对每一个相关文献以自然语言处理的句法分析方式提取其中病症对之间的关系,用以建立病症对的关系知识库,病症对之间的关系包括正向关系、反向关系和垂直关系。并且,数据单元2基于关系知识表在文献单元体内对包含有病症对的文献进行检索以融合的方式获取病症对的关系信度值用以建立病症对的关系信度值库,病症对之间的关系包括正向关系信度值、反向关系信度值和垂直关系信度值。从而,数据单元2基于对所有病症之间按照两两配对的方式建立的关系知识库和关系信度值库构建数据集。例如,在相关文献中,获取了病症L1和病症L2。病症L1和病症L2出现的关系可能为正向关系,即病症L1影响病症L2,记为L1→L2。病症L1和病症L2能够出现的关系为可能为反向关系,即病症L2影响病症L1,记为L2→L1。病症L1和病症L2出现的关系可能为垂直关系,即病症L2与病症L1互不影响L1⊥L2。由于并发症或者合并症是多种的,还可以包含病症L3和病症L4等若干病症。按照以上构建病症的关系,可以构建出病症L1和病症L3的关系知识库、病症L2和病症L3的关系知识库,依次类推。然后在单元文献体内,根据不同文献中的内容基于上述关系知识库构建关系信度值库。优选地,正向关系信度值、反向关系信度值和垂直关系信度值三者之和按照归一化处理。即在单元文献体内,对所有的文献进行遍历查询,对正向关系信度值、反向关系信度值和垂直关系信度值按照频率赋予权重。数据单元2将上述关系知识库和关系信度值库构建数据集输入因果单元3中,进行下一步地。
优选地,对于期刊文献,L1→L2的正向关系信度值还可以按照如下定义:
其中,C(Xi)为文献Xi的可信度,公式为:C(Xi)=(IFi+1)×(CIi+1),Xi表示第i篇文献,IFi为文献Xi所在期刊的标准化后的影响因子,CIi为标准化后的引用量。若没有文献存在L1和L2的关系,则则KL(L1→L2)=0,KL(L2→L1)=0,KL(L1⊥L2)=1。其他类型的文献可以采用同样的方式定义,例如病历可以根据医生的权威性进行定义。对于会议文章,可以根据会议的权威性进行定义等等。
优选地,因果单元3基于主要特征参数和数据集构建贝叶斯网络。优选地,主要特征参数包括了正向关系信度值、反向关系信度值和垂直关系信度值。所述因果单元3按照如下方式构建贝叶斯网络:
S31:优选地,定义数据集D=(D1,D2……Di)为若干组病症,L=(L1,L2……Ln)某一组病症的具体病症集合。基于所述关系知识库构建贝叶斯网络评价函数:
logP(G,D,KL)=logP(G)+logP(D|G)+logP(KL|G)
式中,G为贝叶斯网格,其取值包括了以L=(L1,L2……Ln)某一组病症的具体病症集合为节点的有向无环图。其中,P(G)为先验分布。根据现有知识可知,logP(G)+logP(D|G)的最大值等价于logP(G|D)。logP(G|D)可以根据贝叶斯信息标准BIC评分。式中,
S32:基于所述关系知识库构建无向图结构约束;对于给定数据集D,对D中的任意病症对Lm和Ln,通过检索病症对所述关系知识库获得属性对Lm和Ln的病症对编号,根据所述病症对编号检索文献中病症对Lm和Ln关系信度值表中的Lm→Ln的关系信度值和Ln→Lm的关系信度值。若L1影响L2,则其连接关系是L1连线L2并指向L2,构建L1与L2的有向边,并赋予正向关系信度值。若L2影响L1,则其连接关系是L2连线L1并指向L2,构建L2与L1的有向边,并赋予负向关系信度值。若L2互不影响L1,则两者不连线,并赋予垂直关系信度值。
S33:基于所述贝叶斯网络评价函数和所述无向图结构约束构建贝叶斯网络。确定贝叶斯网络的无向图结构约束后,可执行启发式搜索算法,如K2算法,寻求评分函数最优的网络结构。一般步骤为:从初始模型开始搜索,在搜索的每一步,首先用搜索算子对当前模型进行局部修改,得到一系列候选模型,然后计算每个候选模型的评分,并将最优候选模型与当前模型比较。若最优候选模型的评分大,则它作为下一个当前模型,继续搜索;否则停止搜索,返回当前模型。根据贝叶斯原理,评分最大的候选模型即为贝叶斯网络。优选地,依据根据建立的贝叶斯网络以及贝叶斯规则构建贝叶斯网络评价函数。贝叶斯网络评价函数能够根据经典启发式结构学习算法构建,例如K2算法、Max-Min Parents and Children算法和马尔可夫链蒙特卡洛搜索等等
因果单元3基于以通过数据模式挖掘病症之间的平均因果效应,从而能够根据平均因果效应病症之间是否构成并发症或合并症。在平均因果效应时,因果单元3基于Pearl原理和贝叶斯网络结构对病症之间平均因果效应进行计算。Pearl在探索事件X是否为事件Y的原因时,需要通过干预X实行X事件,计算E(Y|do(X)),即事件Y在干预X的情况下,其变化的平均情况大于显著性水平,则认为X是Y的原因。具体地,在给定数据集D或Di中,首先筛选出需要研究的病症,这些病症包括目标病症以及影响该目标病症的其他病症。例如,需要研究病症L1是否是病症L2的并发症,截断所有指向L1的病症的边,此时观察病症L1与病症L2的平均因果效应,如果这种变化大于了设定因果效应阈值,则认为病症L1与病症L2构成了并发症,反之,构成合并症。
在因果单元3基于以通过数据模式挖掘病症之间的平均因果效应时,由于文献量的巨大,从而造成贝叶斯网格的巨大,因此,采用后门准则计算平均因果效应。后门准则是指,贝叶斯网格G是一个有向无环图,(Lm,Ln)是G的一对节点,节点Z集合是(Lm,Ln)的后门,其中,Z中所有的节点都不是Z的后代并且Z阻断了所有指向Lm的连接Lm到Ln的路径。因此,可以通过后门原则来推理病症对Lm和Ln的因果关系。
实施例2
本实施例作为实施例1的补充。为了能够在不影响病症对之间的因果关系的情况下,因果单元3通过独立性检验简化无向图约束。例如,独立性检验可以采用卡方独立性检验。
在本发明中,独立性检验还可以采用如下方式:
对于病症Lm,通过编列的形式基于构建的无向图获取与Lm相连接的节点构成其节点集。并逐次计算每个节点与病症Lm之间的相关性,并从中选取相关性最大的节点进行独立性假定,删除在给定子集D下与Lm独立的节点。在本发明中,采用熵来度量随机变量对Lm的不确定性。在给定随机变量Lm的情况下,随机变量Ln的不确定性可用条件熵如下方式度量:
随机变量Ln与Lm之间的相关程度可以通过互信息度量:
如果互信息超出了互信息的阈值,则认为Ln与Lm具有相关性。如果互信息不超出了互信息的阈值,则认为Ln与Lm不具备相关性。
实施例3
本实施例公开了一种面向健康领域的因果关系知识库的构建系统,在不造成冲突或者矛盾的情况下,其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。优选地,该方法可以由本发明的方法和/或其他可替代的模块实现。
如图2所示,该系统主要包括文献单元1、数据单元2、因果单元3和知识单元4。文献单元1被配置于用于构建原始文献库。数据单元被配置于2用于构建数据集。因果单元3被配置于用于病症之间的平均因果效应。知识单元4被配置于用于存储所述原始文献库、所述数据集和/或所述平均因果效应以构建能够读取和/或显示的所述知识库,以数据量化的形式提供给医疗工作者参考、学习和/或决策。优选地,文献单元1能够基于用户定义的请求获取众多含有多种病症的相关文献并对其进行分类形成若干文献单元体以构建原始文献库,以使得数据单元2能够基于文献单元体获取主要特征参数并基于主要特征参数构建数据集,以降低众多相关文献形成的众多特征参数对于病症之间因果关系的干扰并提高原始文献库的利用价值。因果单元3基于主要特征参数和数据集构建贝叶斯网络,以通过数据模式挖掘病症之间的平均因果效应,从而能够根据平均因果效应病症之间是否构成并发症或合并症。
优选地,文献单元1统计每一个文献中单词/词组的频率,按照独立性假设获取单词/词组的联合出现概率。文献单元1计算单词/词组的关联性强度,并基于关联性强度修正联合出现概率以获取该文献的关联约化坐标。文献单元1基于全部的相关文献的关联约化坐标构建的分类函数将相关文献按照迭代算法的形式进行分类以形成若干文献单元体。其中,分类函数能够基于相关文献的样本量进行深度学习,从而增强文献单元1的精度。
优选地,在数据单元2获取了文献单元体的情况下,数据单元2按照病症对配对的方式获取数据集。数据单元2对每一个相关文献以自然语言处理的句法分析方式提取其中病症对之间的关系,用以建立病症对的关系知识库,病症对之间的关系包括正向关系、反向关系和垂直关系。并且,数据单元2基于关系知识表在文献单元体内对包含有病症对的文献进行检索以融合的方式获取病症对的关系信度值用以建立病症对的关系信度值库,病症对之间的关系包括正向关系信度值、反向关系信度值和垂直关系信度值。从而,数据单元2基于对所有病症之间按照两两配对的方式建立的关系知识库和关系信度值库构建数据集。
因果单元按照如下方式构建贝叶斯网络,S31:基于关系知识库构建贝叶斯网络评价函数:
logP(G,D,KL)=logP(G)+log(D|G)+logP(KL|G)
S32:基于关系知识库构建无向图结构约束。对数据集D,对数据集D中的任意病症对Lm和Ln,通过检索病症对关系知识库获得属性对Lm和Ln的病症对编号,根据病症对编号检索文献中病症对Lm和Ln关系信度值表中的Lm→Ln的关系信度值和Ln→Lm的关系信度值。
S33:基于贝叶斯网络评价函数和无向图结构约束构建贝叶斯网络。
优选地,在本发明中,文献单元1、数据单元2、因果单元3和知识单元4均是一种具有运算功能的微处理器。例如,本发明中采用的文献单元1是具有搜索引擎的并且具有运算功能的服务器。数据单元2是具有运算功能的数据服务器。因果单元3是具有运算功能的数据服务器。知识单元4是具有存取功能的存储器,如RAM\ROM\磁盘\云盘中的至少一种。文献单元1、数据单元2、因果单元3和知识单元4相互之间通过光纤、数据线、蓝牙、wifi和/或4G等有线、无线方式通信连接。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (10)
1.一种知识库的构建方法,其步骤至少包括:文献单元(1)构建原始文献库,其特征在于,
所述构建方法的相关文献分类至少包括以下步骤:
所述文献单元(1)计算所述单词/所述词组的关联性强度并基于所述关联性强度修正所述联合出现概率以获取该文献的关联约化坐标;
所述文献单元(1)构建所述文献的关联约化坐标,并基于全部的所述相关文献的所述关联约化坐标和所述关联性强度构建的分类函数将所述相关文献按照迭代算法的形式进行分类以形成若干所述文献单元体,其中,所述分类函数能够基于所述相关文献的样本量进行深度学习,从而增强所述文献单元(1)的精度。
2.如权利要求1所述的构建方法,其特征在于,所述决策支持系统还包括用于构建数据集的数据单元(2)、用于计算病症之间的平均因果效应的因果单元(3)和用于存储所述原始文献库、所述数据集和/或所述平均因果效应以构建能够读取和/或显示的所述知识库的知识单元(4)。
3.如权利要求2所述的构建方法,其特征在于,所述文献单元(1)能够获取众多含有多种病症的相关文献并对其进行分类形成若干文献单元体以构建原始文献库,以使得所述数据单元(2)能够基于所述文献单元体获取主要特征参数并基于所述主要特征参数构建数据集。
4.如权利要求3所述的构建方法,其特征在于,所述因果单元(3)基于所述主要特征参数和所述数据集构建贝叶斯网络,以通过数据模式分析病症之间的平均因果效应,从而所述知识单元(4)能够基于所述相关文献以形成所述病症之间的所述平均因果效应的对应关系的方式构建所述知识库。
5.如权利要求4所述的构建方法,其特征在于,在所述数据单元(2)获取了所述文献单元体的情况下,所述数据单元(2)按照病症对配对形成所述病症对的方式获取所述数据集;所述数据单元(2)对每一个所述相关文献以自然语言处理的句法分析方式提取所述病症对之间的关系,用以建立所述病症对的关系知识库,所述病症对之间的关系包括正向关系、反向关系和垂直关系。
6.如权利要求5所述的构建方法,其特征在于,所述数据单元(2)基于关系知识表在所述文献单元体内对包含有所述病症对的文献进行检索以融合的方式获取所述病症对的关系信度值用以建立所述病症对的关系信度值库,其中,所述病症对之间的关系包括正向关系信度值、反向关系信度值和垂直关系信度值。
7.如权利要求6所述的构建方法,其特征在于,所述因果单元(3)按照如下方式构建贝叶斯网络,
S31:基于所述关系知识库构建贝叶斯网络评价函数:
logP(G,D,KL)=logP(G)+logP(D|G)+logP(KL|G)
其中,G为贝叶斯网格,其取值包括了以L=(L1,L2……Ln)某一组病症的具体病症集合为节点的有向无环图,P(G)为先验分布,
S32:基于所述关系知识库构建无向图结构约束;对于所述数据集D,对所述数据集D中的任意病症对Lm和Ln,通过检索病症对所述关系知识库获得属性对Lm和Ln的病症对编号,根据所述病症对编号检索文献中病症对Lm和Ln关系信度值表中的Lm→Ln的关系信度值和Ln→Lm的关系信度值,
S33:基于所述贝叶斯网络评价函数和所述无向图结构约束构建贝叶斯网络。
8.如权利要求7所述的构建方法,其特征在于,所述因果单元(3)被配置于基于所述贝叶斯网络和Pearl原理计算各病症对之间的平均因果效应,在所述平均因果效应超过设定的因果效应阈值时,病症之间构成并发症;在所述平均因果效应不超过设定的因果效应阈值时,病症之间构成合并症。
9.如权利要求8所述的构建方法,其特征在于,所述因果单元(3)基于以通过数据模式挖掘病症之间的平均因果效应,从而能够根据平均因果效应病症之间是否构成并发症或合并症;在不影响病症对之间的因果关系的情况下,所述因果单元(3)通过独立性检验简化无向图约束。
10.如权利要求9所述的构建方法,其特征在于,在所述数据单元(2)基于关系知识表在所述文献单元体内对包含有所述病症对的文献进行检索以融合的方式获取所述病症对的关系信度值用的情况下,所述数据单元(2)基于对所有病症之间按照两两配对的方式建立的关系知识库和关系信度值库构建数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011106914.8A CN112233736B (zh) | 2019-01-15 | 2019-01-15 | 一种知识库的构建方法和系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011106914.8A CN112233736B (zh) | 2019-01-15 | 2019-01-15 | 一种知识库的构建方法和系统 |
CN201910034537.2A CN109801687B (zh) | 2019-01-15 | 2019-01-15 | 一种面向健康领域的因果关系知识库的构建方法和系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910034537.2A Division CN109801687B (zh) | 2019-01-15 | 2019-01-15 | 一种面向健康领域的因果关系知识库的构建方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233736A true CN112233736A (zh) | 2021-01-15 |
CN112233736B CN112233736B (zh) | 2022-09-16 |
Family
ID=66558921
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011106914.8A Active CN112233736B (zh) | 2019-01-15 | 2019-01-15 | 一种知识库的构建方法和系统 |
CN202011106913.3A Active CN112151130B (zh) | 2019-01-15 | 2019-01-15 | 一种基于文献检索的决策支持系统和构建方法 |
CN201910034537.2A Active CN109801687B (zh) | 2019-01-15 | 2019-01-15 | 一种面向健康领域的因果关系知识库的构建方法和系统 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011106913.3A Active CN112151130B (zh) | 2019-01-15 | 2019-01-15 | 一种基于文献检索的决策支持系统和构建方法 |
CN201910034537.2A Active CN109801687B (zh) | 2019-01-15 | 2019-01-15 | 一种面向健康领域的因果关系知识库的构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN112233736B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538178A (zh) * | 2021-06-10 | 2021-10-22 | 北京易创新科信息技术有限公司 | 知识产权价值评价方法、装置、电子设备及可读存储介质 |
CN117891959A (zh) * | 2024-03-15 | 2024-04-16 | 中国标准化研究院 | 一种基于贝叶斯网络的文献元数据储存方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463973B (zh) * | 2019-09-06 | 2024-07-26 | 医渡云(北京)技术有限公司 | 医学知识图谱的构建方法、装置、介质及电子设备 |
CN111949792B (zh) * | 2020-08-13 | 2022-05-31 | 电子科技大学 | 一种基于深度学习的药物关系抽取方法 |
CN114664452B (zh) * | 2022-05-20 | 2022-09-23 | 之江实验室 | 一种基于因果校验数据生成的全科多疾病预测系统 |
CN114864099B (zh) * | 2022-07-05 | 2022-11-01 | 浙江大学 | 一种基于因果关系挖掘的临床数据自动化生成方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855398A (zh) * | 2012-08-28 | 2013-01-02 | 中国科学院自动化研究所 | 基于多源信息融合的疾病潜在关联基因的获取方法 |
US20160171383A1 (en) * | 2014-09-11 | 2016-06-16 | Berg Llc | Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data |
CN106667443A (zh) * | 2017-01-10 | 2017-05-17 | 中山大学中山眼科中心 | 先天性白内障术后并发症预测方法和系统 |
CN107145712A (zh) * | 2017-04-06 | 2017-09-08 | 广州慧扬信息系统科技有限公司 | 合并症与并发症的病历统计分析系统 |
CN108986871A (zh) * | 2018-08-27 | 2018-12-11 | 东北大学 | 一种智慧医疗知识图谱的构建方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644053B2 (en) * | 2004-03-03 | 2010-01-05 | The Boeing Company | System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support |
US20110202486A1 (en) * | 2009-07-21 | 2011-08-18 | Glenn Fung | Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions |
CN101763528A (zh) * | 2009-12-25 | 2010-06-30 | 深圳大学 | 基于贝叶斯网络的基因调控网络构建方法 |
CN104361033B (zh) * | 2014-10-27 | 2017-06-09 | 深圳职业技术学院 | 一种癌症相关信息自动收集方法及系统 |
CN106295187A (zh) * | 2016-08-11 | 2017-01-04 | 中国科学院计算技术研究所 | 面向智能临床辅助决策支持系统的知识库构建方法与系统 |
CN107887036A (zh) * | 2017-11-09 | 2018-04-06 | 北京纽伦智能科技有限公司 | 临床决策辅助系统的构建方法、装置及临床决策辅助系统 |
-
2019
- 2019-01-15 CN CN202011106914.8A patent/CN112233736B/zh active Active
- 2019-01-15 CN CN202011106913.3A patent/CN112151130B/zh active Active
- 2019-01-15 CN CN201910034537.2A patent/CN109801687B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855398A (zh) * | 2012-08-28 | 2013-01-02 | 中国科学院自动化研究所 | 基于多源信息融合的疾病潜在关联基因的获取方法 |
US20160171383A1 (en) * | 2014-09-11 | 2016-06-16 | Berg Llc | Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data |
CN106667443A (zh) * | 2017-01-10 | 2017-05-17 | 中山大学中山眼科中心 | 先天性白内障术后并发症预测方法和系统 |
CN107145712A (zh) * | 2017-04-06 | 2017-09-08 | 广州慧扬信息系统科技有限公司 | 合并症与并发症的病历统计分析系统 |
CN108986871A (zh) * | 2018-08-27 | 2018-12-11 | 东北大学 | 一种智慧医疗知识图谱的构建方法 |
Non-Patent Citations (5)
Title |
---|
WANG, LIMIN: "Mining causal relationships among clinical variables for cancer diagnosis based on Bayesian analysis", 《BIODATA MINING 》 * |
廉彬: "基于文献的阿尔兹海默症因果分析", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
张润梅: "基于贝叶斯网络的复杂系统", 《中国博士学位论文全文数据库 (基础科学辑)》 * |
林春漪等: "基于模糊贝叶斯网络的星形细胞瘤分级预测与知识表达", 《中国生物医学工程学报》 * |
谢雁鸣等: "基于因果模型的中医临床疗效评价方法探讨", 《中国中医基础医学杂志》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538178A (zh) * | 2021-06-10 | 2021-10-22 | 北京易创新科信息技术有限公司 | 知识产权价值评价方法、装置、电子设备及可读存储介质 |
CN117891959A (zh) * | 2024-03-15 | 2024-04-16 | 中国标准化研究院 | 一种基于贝叶斯网络的文献元数据储存方法及系统 |
CN117891959B (zh) * | 2024-03-15 | 2024-05-10 | 中国标准化研究院 | 一种基于贝叶斯网络的文献元数据储存方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112233736B (zh) | 2022-09-16 |
CN112151130B (zh) | 2022-11-04 |
CN112151130A (zh) | 2020-12-29 |
CN109801687A (zh) | 2019-05-24 |
CN109801687B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112233736B (zh) | 一种知识库的构建方法和系统 | |
Wang et al. | Risk assessment of coronary heart disease based on cloud-random forest | |
Suresh et al. | A hybrid approach to medical decision-making: diagnosis of heart disease with machine-learning model | |
CN117854665A (zh) | 儿科患者电子健康记录系统 | |
CN109155152B (zh) | 临床报告检索和/或比较 | |
Pokharel et al. | Temporal tree representation for similarity computation between medical patients | |
CN114091675A (zh) | 一种溯因推理方法和系统 | |
Mandal | Machine learning algorithms for the creation of clinical healthcare enterprise systems | |
Chen et al. | Unmasking bias and inequities: A systematic review of bias detection and mitigation in healthcare artificial intelligence using electronic health records | |
Mansour et al. | The Role of data mining in healthcare Sector | |
Rao et al. | Medical Big Data Analysis using LSTM based Co-Learning Model with Whale Optimization Approach. | |
Navaz et al. | The use of data mining techniques to predict mortality and length of stay in an ICU | |
Takke et al. | Medical disease prediction using machine learning algorithms | |
Thangamayan et al. | Comparative Study on Different Machine Learning Algorithms for Neonatal Diabetes Detection | |
Kennedy et al. | Using a gradient boosted model for case ascertainment from free-text veterinary records | |
Alsubait et al. | Measuring conceptual similarity in ontologies: how bad is a cheap measure? | |
M Ranjit et al. | Diabetes Mellitius Detection and Self Management based on Machine Learning | |
Luciani et al. | Finding the needle by modeling the haystack: Pulmonary embolism in an emergency patient with cardiorespiratory manifestations | |
Samet et al. | Mining over a reliable evidential database: Application on amphiphilic chemical database | |
Tomović | Patient length of stay analysis with machine learning algorithms | |
Woltmann | A Systematic Literature Review of Machine Learning Applications for Community-Acquired Pneumonia | |
Bhatnagar et al. | An Efficient Techniques For Disease Prediction From Medical Data Using Data Mining And Machine Learning | |
Apandi et al. | Data Analytics Approach for Heart Disease Prediction | |
Scientific | INTELLIGENT ALZHEIMER’S DISEASE PREDICTION USING EXPLAINABLE BOOSTING MACHINE | |
Agrawal et al. | An Efficient Techniques For Disease Prediction From Medical Data Using Data Mining And Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230516 Address after: Room 215-E, 2nd Floor, Podium Building, No. 33 Yueming Road, Xixing Street, Binjiang District, Hangzhou City, Zhejiang Province, 310000 China (Zhejiang) Free Trade Pilot Zone Patentee after: Hangzhou Zhilan health Co.,Ltd. Address before: 230009 No. 193, Tunxi Road, Hefei, Anhui Patentee before: Hefei University of Technology |
|
TR01 | Transfer of patent right |