CN111192680A - 一种基于深度学习和集成分类的智能辅助诊断方法 - Google Patents

一种基于深度学习和集成分类的智能辅助诊断方法 Download PDF

Info

Publication number
CN111192680A
CN111192680A CN201911353290.7A CN201911353290A CN111192680A CN 111192680 A CN111192680 A CN 111192680A CN 201911353290 A CN201911353290 A CN 201911353290A CN 111192680 A CN111192680 A CN 111192680A
Authority
CN
China
Prior art keywords
label
topic
model
weight
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911353290.7A
Other languages
English (en)
Other versions
CN111192680B (zh
Inventor
樊昭磊
吴军
杨万春
张伯政
孙钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyang Health Technology Group Co ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN201911353290.7A priority Critical patent/CN111192680B/zh
Publication of CN111192680A publication Critical patent/CN111192680A/zh
Application granted granted Critical
Publication of CN111192680B publication Critical patent/CN111192680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于深度学习和集成分类的智能辅助诊断方法。通过命名实体识别和关系抽取,准确提取出了主诉和现病史中的实体和属性,去除了无效信息。在标签主题模型中,加入了特征词的位置权重,提高了关键位置特征词的占比。在多层感知机模型的损失函数中加入了调整参数,解决样本分布不均匀造成的问题。针对相同样本,不同的分类方法得到的分类边界不同,故采用堆叠集成方法将标签主题模型和多层感知机模型进行了集成,提升了疾病的预测准确度。

Description

一种基于深度学习和集成分类的智能辅助诊断方法
技术领域
本发明涉及医疗信息化技术领域及人工智能技术领域,设计了一种基于深度学习和集成分类的智能辅助诊断方法。
背景技术
随着信息技术和互联网技术的高速发展,在医院信息化、数字化建设中起到核心作用的电子病历,在不断地优化和改善。电子病历中包含了病患症状描述信息,可以辅助医生在面对具有相似症状的患者时,快速作出病情的初步诊断。这对于疑难杂症的初诊或者急症病患的快速查因具有重要的指导意义,同时也有利于通过共享医生的诊疗经验,提高医生的诊断能力。面对大量的医疗电子病历文本数据,发掘其中有价值的症状与诊断结论之间的关联规律,可辅助相关医务人员提高临床诊疗的效率。
临床辅助决策大多基于临床指南等医学知识,并根据这些知识转换成的规则提供决策支持服务,然而维护和更新知识库需要巨大的投入和消耗。随着人工智能技术的发展,通过对大规模数据的文本挖掘,可以不断发现新的知识,得到症状和诊断的相关性。临床辅助决策应用于临床实践还有很多问题有待解决。首先需要能够准确提取出病历文本中的症状体征等命名实体,而信息的提取需要命名实体抽取技术的支持,现阶段基于深度学习的命名实体提取技术还存在识别效率不高、性能不够好等问题。对于医疗实体,由于表述的不规范性,需要结合知识库进行实体内容的标准化。采用机器学习算法对样本向量进行分类,不同的方法得到的分类边界不同,需要综合多种机器学习算法的结果,利用人工智能技术开发智能诊断辅助功能。
目前,在医学领域利用人工智能技术开发智能诊断,已经成为辅助临床诊疗技术研究的方向。因此,通过对电子病历文本信息的自然语言处理,本发明提出一种深度学习和集成分类的医疗智能辅助诊断方法。
发明内容
本发明给出了一套深度学习和集成分类的智能辅助诊断方法。具体的步骤如下:
a-1)获取住院记录中的入院记录数据,入院记录中包含了年龄、性别、主诉、现病史、既往史,主诊断等信息。利用命名实体识别和关系抽取技术提取相应实体和实体的属性。构建字向量的高维语义表示,采用双向Transformer作为编码器,基于注意力机制来对一段文本进行建模。采用图神经网络得到实体关系。采用B I O E S方案来进行实体标注。
在主诉和现病史中获取症状和属性的方法步骤如下:
步骤1:采用命名实体和关系抽取技术,提取出主诉和现病史中的实体,标记出否定症状;
步骤2:以身体部位、症状体征、体格指标、样本作为枢轴实体,确定枢轴实体的属性;
步骤3:对于提取的实体及属性,进行合并和去重处理。
a-2)利用知识库对提取实体中的诊断和症状进行标准化。知识库包含诊断标准知识库和症状标准知识库,其中诊断标准知识库采用ICD-10编码。
a-3)利用带标签的主题模型进行分类,预测疾病。疾病诊断可看作样本的主题。在主题模型(LDA)的基础上,增加了一层标签集,将主题与类别标签一一映射。主诉中描述了患者的主要症状,现病史是对症状表达内容的进一步补充。针对上述问题,根据特征词在文本中的位置,特征词对类别贡献度构造权值。
该模型中的符号定义如下:
D是m篇样本文档组成的矩阵D={d1,d2,...,dm},dm表示文档第m篇文档。文档d是由n个词组成的向量d={w1d,w2d,...,wnd},元素wnd表示文档d中的第n个词。类别C是文档集合类别向量C={1,2,...,c},表示文档分为c组类别。W是目标文档的词向量空间。模型参数α是文档主题分布的狄利克雷参数,按类别分为C组,α={α1,α2,...,αc},向量αc的元素αck表示类别c的第k个主题的先验概率。模型参数β是主题词语分布相关的狄利克雷超参数,按类别分为C组,β={β1,β2,...,βc},向量βc的元素βcij表示类别c的第i个主题生成词j的概率。模型参数θ是目标文档在主题上的分布,也按照类别分为c组。
标签主题模型的训练步骤:
步骤1对训练集文本进行处理,初始化主题和词变量矩阵,对于主题向量 K∈{1,2,...,k},生成狄利克雷先验概率矩阵β={βk,1,βk,2,...,βk,v}。主诉中的特征词权重为log0.5θ,θ∈(0.5,1),现病史中的特征词权重为 (1-log0.5θ),且主诉中的特征词权重高于现病史中的特征词权重,特征词的权重根据其在主诉和现病史中的分布来调整;
步骤2对于每一个样本,初始化样本主题变量α,生成向量α(d)和θ(d),其中α(d)=L(d)*α,矩阵L(d)是文档标签矩阵。使用带特征词权重的Gibbs抽样方法来采集词的主题,
Figure RE-GDA0002394539860000031
其中
Figure RE-GDA0002394539860000032
表示主题j中在主诉中的特征词i的数量,
Figure RE-GDA0002394539860000033
表示主题j中在现病史中的特征词i的数量,αj表示类别的主题先验概率,βτ表示类别的生成词概率;
步骤3对上述步骤进行迭代,直到Gibbs抽样收敛;
步骤4统计样本集中标签主题的分布和主题词矩阵,根据Gibbs抽样矩阵选取主题下权重系数超过阈值的词作为主题特征。
标签主题模型的分类步骤:
在分类过程中对词在文本中的位置进行权重处理,突出位置的重要性,提升分类的准确性。
具体分类过程如下:
步骤1采用命名实体识别模块处理样本,对提取的症状实体做加权,得到特征词权重;
步骤2把处理好的样本d放入训练模型中,将特征词权重与Gibbs采样相结合。初始化测试文档的标签主题,标签主题的参数分布均为超参数的狄利克雷分布;
步骤3在模型上使用带特征词权重的Gibbs抽样进行更新采样,其中主题与词的后验估计β已经训练完毕,只需挖掘待测文本标签主题分布α;
步骤4重复步骤3,直到抽样算法收敛;
步骤5统计待测样本中主题、标签的分布,获取被分配最大份额的标签样本类别作为待测样本的标签。
a-5)利用多层感知机分类进行分类,预测疾病。
多层感知机的左侧单元是输入层,在这一层,有多少个输入就有多少个神经元。中间单元是隐藏层,可设置多层。隐藏层在输入层和输出层之间,将输入映射到输出。输出层对应不同疾病的分类。
步骤1初始化各个权重值,计算每个样本实例的输出。计算每一层每个神经元的触值。触值是通过计算连接这个神经元的前一层的所有神经元的值与相应的权重的乘机之和得到;
步骤2利用反向传播算法更新MLP网络权值。反向传递算法使用梯度下降更新规则。计算从输出神经元开始往回直到输入层的每个神经元的局部梯度下降。输出神经元的误差就是神经网络的输出与实际输出的差别。具体过程如下:
步骤2.1创建多层感知机神经网络,包括nin个输入,nhidden个隐藏层单元以及nout个输出单元,η是学习速率。设定xji是单元i到单元j的输出,wji是相应的权值;
步骤2.2初始化所有连接的权值;
步骤2.3在满足终止条件前,对于训练集中的样本<x,t>。把实例x输入网络,并计算网络中每个单元u的输出ou。对于网络中的每个输出单元k,计算其误差项δk,t是预期的输出。对于网络中的每个隐藏单元h,计算其误差项δh,其误差来自所有与其相连的输出单元。更新每个网络连接的权值wji,其中第n次迭代的权值更新依赖于第n-1次迭代的更新。在计算梯度下降的损失值时,考虑样本分布不均匀造成的问题,采用
Figure RE-GDA0002394539860000041
来计算损失值。其中βt是类别t样本在所有样本中占的比例,k是样本的分类数,pt是预测值,值γ=2。
a-6)将上述两个分类器的分类结果进行集成,构建集成分类器。采用堆叠(stacking)集成方法对模型进行集成。
本发明的有益效果是:通过上述方法,准确提取出了主诉和现病史中的实体和属性,去除了无效信息。相比现有的标签主题模型,加入了特征词的位置权重,提高了关键位置特征词的占比。相比现有的多层感知机模型,在损失函数中加入了调整参数,解决样本分布不均匀造成的问题。针对相同样本,不同的分类方法得到的分类边界不同,故采用堆叠集成方法将标签主题模型和多层感知机模型进行了集成,提升了疾病的预测准确度。
具体实施方式
下面对本发明做进一步说明:
本发明给出了一套深度学习和集成分类的智能辅助诊断方法。包括模型学习与模型使用,具体的模型学习包括如下步骤:
a-1)获取住院记录中的入院记录数据,入院记录中包含了年龄、性别、主诉、现病史、既往史,主诊断等信息。利用命名实体识别和关系抽取技术提取相应实体和实体的属性。构建字向量的高维语义表示,采用双向Transformer作为编码器,基于注意力机制来对一段文本进行建模。采用图神经网络得到实体关系。采用B I O E S方案来进行实体标注,其中B 标签表示标注实体最开始的一个字符,I标签表示标注实体的中间部分的字符,E标签表示标注实体最后一个字符,S标签表示一个字符单独构成一个标注实体,O标签表示非标注实体字符。标注实体类型标签主要有:身体部位(B)、症状体征(Z)、体格指标(T)、方位(W)、疾病(D)、样本(Y)、变化描述(C)、属性形状(S)、诱因(R)、时间(Ti)程度(Dg),其中症状或体征的标注实体类型前面可以加–号,以表示该患者不具有该症状或体征。实体之间的关系采用有序对的方式来表示。
在主诉和现病史中获取症状和属性的方法步骤如下:
步骤1:采用命名实体和关系抽取技术,提取出主诉和现病史中的实体,标记出否定症状;
步骤2:以身体部位、症状体征、体格指标、样本作为枢轴实体,确定枢轴实体的属性;
步骤2.1围绕身体部位实体,提取身体部位的方位,症状属性;
步骤2.2围绕症状体征实体,提取时间、样本、程度、变化描述及诱因属性;
步骤2.3围绕体格指标实体,提取变化描述及诱因属性;
步骤2.4围绕样本实体,提取属性形状及诱因属性;
步骤3:对于提取的实体及属性,进行合并和去重处理。
例如在主诉和现病史中,提取实体和实体关系。围绕“胸痛”这个症状,提取出症状的持续时间,例如“胸痛3天”;提取出症状的性质,例如“胸痛呈持续性”;提取出症状的变化描述,例如“休息后缓解”。围绕“痰”这个样本,提取出痰的属性形状“黄白色”。
a-2)利用知识库对医生的输入诊断和症状进行标准化。对输入的诊断数据和症状数据进行标准化输出,包含诊断标准知识库和症状标准知识库,其中诊断标准知识库采用ICD- 10编码。医学领域概念节点与其他的医学领域概念节点连接,每个医学领域概念节点又与自身的病种概念表现形成节点连接。知识库中主要包括等价关系和上下位关系。
例如疾病“冠心病”是“冠状动脉粥样硬化性心脏病”的简写,属于等价关系。症状“肢体乏力”和“肢体无力”是一个意思,属于等价关系。“乙型肝炎”是“肝炎”的子类,属于上下位关系。在知识库中建立对应关系,通过标准化,使症状和诊断的描述统一起来,有助于下一步的模型分类。
a-3)利用带标签的主题模型进行分类,预测疾病。疾病诊断可看作样本的主题。在主题模型(LDA)的基础上,增加了一层标签集,将主题与类别标签一一映射,可以利用人工在文档上的标签标记,将其应用于病历文本多分类。标签主题模型在训练过程中,主题会偏向在文本中出现频数高的词,通过对病历文本分析发现,主诉中描述了患者的主要症状,现病史是对症状表达内容的进一步补充。针对上述问题,根据特征词在文本中的位置,特征词对类别贡献度构造权值。
该模型中的符号定义如下:
D是m篇样本文档组成的矩阵D={d1,d2,...,dm},dm表示文档第m篇文档。文档d是由n个词组成的向量d={w1d,w2d,...,wnd},元素wnd表示文档d中的第n个词。类别C是文档集合类别向量C={1,2,...,c},表示文档分为c组类别。W是目标文档的词向量空间。模型参数α是文档主题分布的狄利克雷参数,按类别分为C组,α={α1,α2,...,αc},向量αc的元素αck表示类别c的第k个主题的先验概率。模型参数β是主题词语分布相关的狄利克雷超参数,按类别分为C组,β={β1,β2,...,βc},向量βc的元素βcij表示类别c的第i个主题生成词j的概率。模型参数θ是目标文档在主题上的分布,也按照类别分为c组。
标签主题模型的训练步骤:
步骤1对训练集文本进行处理,初始化主题和词变量矩阵,对于主题向量 K∈{1,2,...,k},生成狄利克雷先验概率矩阵β={βk,1,βk,2,...,βk,v}。主诉中的特征词权重为log0.5θ,θ∈(0.5,1),现病史中的特征词权重为(1- log0.5θ),且主诉中的特征词权重高于现病史中的特征词权重,特征词的权重根据其在主诉和现病史中的分布来调整;
步骤2对于每一个样本,初始化样本主题变量α,生成向量α(d)和θ(d),其中α(d)=L(d)*α,矩阵L(d)是文档标签矩阵。使用带特征词权重的Gibbs抽样方法来采集词的主颗,
Figure RE-GDA0002394539860000061
其中
Figure RE-GDA0002394539860000062
表示主题j中在主诉中的特征词i的数量,
Figure RE-GDA0002394539860000063
表示主题j中在现病史中的特征词i的数量,αj表示类别的主题先验概率,βτ表示类别的生成词概率;
步骤3对上述步骤进行迭代,直到Gibbs抽样收敛;
步骤4统计样本集中标签主题的分布和主题词矩阵,根据Gibbs抽样矩阵选取主题下权重系数超过阈值的词作为主题特征。
标签主题模型的分类步骤:
在分类过程中对词在文本中的位置进行权重处理,突出位置的重要性,提升分类的准确性。
具体分类过程如下:
步骤1采用命名实体识别模块处理样本,对提取的症状实体做加权,得到特征词权重;
步骤2把处理好的样本d放入训练模型中,将特征词权重与Gibbs抽样相结合。初始化测试文档的标签主题,标签主题的参数分布均为超参数的狄利克雷分布;
步骤3在模型上使用带特征词权重的Gibbs抽样进行更新采样,其中主题与词的后验估计β已经训练完毕,只需挖掘待测文本标签主题分布α;
步骤4重复步骤3,直到抽样算法收敛;
步骤5统计待测样本中主题、标签的分布,获取被分配最大份额的标签样本类别作为待测样本的标签。
取心内科的一个入院病历为例,其主题为冠心病,提取该入院病历中的主诉和现病史。主诉中的特征词有:心慌、胸闷。现病史中的特征词有:憋喘、咳嗽、休息缓解、乏力、呼吸困难。设定θ=0.8,则主诉中的特征词权重为log0.5θ,现病史的特征词权重为(1-log0.5θ)。文档d形成向量d={心慌、胸闷、憋喘、咳嗽、休息缓解、乏力、呼吸困难}。使用带特征词权重的Gibbs抽样进行参数估计,估计出文档-主题概率分布和主题-词项概率分布。Gibbs抽样每次选择概率向量的某个维度,在其它维度的变量值已给定的前提下计算该维度的值,不断重复,直到待估计的参数收敛。预测过程与训练过程基本一致。在预测过程中,每一个测试文档对应着一种疾病主题,假定训练得到的模型在Gibbs采用中保持稳定,仅重新采样测试文档即可。
a-5)利用多层感知机分类进行分类,预测疾病。
多层感知机的左侧单元是输入层,在这一层,有多少个输入就有多少个神经元。中间单元是隐藏层,可设置多层。隐藏层在输入层和输出层之间,将输入映射到输出。输出层对应不同疾病的分类。
步骤1初始化各个权重值,计算每个样本实例的输出。计算每一层每个神经元的触值。触值是通过计算连接这个神经元的前一层的所有神经元的值与相应的权重的乘机之和得到;
步骤2利用反向传播算法更新MLP网络权值。反向传递算法使用梯度下降更新规则。具体过程如下:
步骤2.1创建多层感知机神经网络,包括nin个输入,nhidden个隐藏层单元以及nout个输出单元,η是学习速率。设定xji是单元i到单元j的输出,wji是相应的权值;
步骤2.2初始化所有连接的权值;
步骤2.3在满足终止条件前,对于训练集中的样本<x,t>。把实例x输入网络,并计算网络中每个单元u的输出ou。对于网络中的每个输出单元k,计算其误差项δk,t是预期的输出。对于网络中的每个隐藏单元h,计算其误差项δh,其误差来自所有与其相连的输出单元。更新每个网络连接的权值wji,其中第n次迭代的权值更新依赖于第n-1次迭代的更新。在计算梯度下降的损失值时,考虑样本分布不均匀造成的问题,采用
Figure RE-GDA0002394539860000081
来计算损失值。其中βt是类别t样本在所有样本中占的比例,k是样本的分类数,pt是预测值,值γ=2。
建立三层的神经网络结构,输入层、隐藏层和输出层。输入的是症状及症状的属性,构成一个向量,如{心慌、胸闷、憋喘、咳嗽、休息缓解、乏力、呼吸困难};隐藏层采用全连接形式,输出层是疾病的类别。从而建立了病历与疾病分类之间的对应关系。
梯度下降算法计算从输出神经元开始往回直到输入层的每个神经元的局部梯度下降。输出神经元的误差就是神经网络的输出与实际输出的差别。在计算梯度下降的损失值时,需要考虑样本分布不均衡的问题。例如有2种疾病{冠状动脉粥样硬化性心脏病,心律失常},其中冠状动脉粥样硬化性心脏病的病历样本数为400份,心律失常的病历样本数为100份。若病历中的特征词只有“心悸”,则该病历对应的疾病应该为心律失常,但由于“心悸”这个症状在冠状动脉粥样硬化性心脏病的样本中出现的次数多,故会把该病历归为冠状动脉粥样硬化性心脏病,出现偏差。采用系数
Figure RE-GDA0002394539860000082
来对损失值进行调整,冠状动脉粥样硬化性心脏病对应的系数为0.3,心律失常对应的系数为0.7,样本数越多对应的该系数越小,从而解决了样本不均衡的问题。
a-6)将上述两个分类器的分类结果进行集成,构建集成分类器。采用堆叠(stacking)集成方法对模型进行集成。该方法并行地学习异质学习器,并通过训练一个元模型将它们组合起来,根据不同模型的预测结果输出一个最终的预测结果。
步骤1将训练集分为2部分,分别用于让2个分类器(标签主题模型与多层感知机)进行学习和拟合;
步骤2将2个分类器预测得到的结果作为下一层分类器(元分类器)的输入;
步骤3将下一层分类器(元分类器)得到的结果作为最终的预测结果。
训练了标签主题模型和多层感知机模型,若标签主题模型在某些疾病(例如冠状动脉粥样硬化性心脏病)的预测上高于多层感知机,则采用标签主题模型来预测该类疾病;反之亦然。通过集成方式,可以对两种分类器取长补短,获得最优的分类效果。

Claims (1)

1.一种深度学习和集成分类的智能辅助诊断方法,其特征在于包括模型学习与模型使用两部分,具体的模型学习采用以下步骤:
(1.1)获取住院记录中的入院记录数据,入院记录中包含了年龄、性别、主诉、现病史、既往史,主诊断等信息;利用命名实体识别和关系抽取技术提取相应实体和实体的属性;构建字向量的高维语义表示,采用双向Transformer作为编码器,基于注意力机制来对一段文本进行建模;采用图神经网络得到实体关系,采用BIOES方案来进行实体标注,其中B标签表示标注实体最开始的一个字符,I标签表示标注实体的中间部分的字符,E标签表示标注实体最后一个字符,S标签表示一个字符单独构成一个标注实体,O标签表示非标注实体字符;标注实体类型标签主要有:身体部位(B)、症状体征(Z)、体格指标(T)、方位(W)、疾病(D)、样本(Y)、变化描述(C)、属性形状(S)、诱因(R)、时间(Ti)程度(Dg),其中症状或体征的标注实体类型前面可以加–号,以表示该患者不具有该症状或体征,实体之间的关系采用有序对的方式来表示;
在主诉和现病史中获取症状和属性的方法步骤如下:
步骤1:采用命名实体和关系抽取技术,提取出主诉和现病史中的实体,标记出否定症状;
步骤2:以身体部位、症状体征、体格指标、样本作为枢轴实体,确定枢轴实体的属性;
步骤2.1围绕身体部位实体,提取身体部位的方位,症状属性;
步骤2.2围绕症状体征实体,提取时间、样本、程度、变化描述及诱因属性;
步骤2.3围绕体格指标实体,提取变化描述及诱因属性;
步骤2.4围绕样本实体,提取属性形状及诱因属性;
步骤3:对于提取的实体及属性,进行合并和去重处理;
(1.2)利用知识库对医生的输入诊断和症状进行标准化
对输入的诊断数据和症状数据进行标准化输出,包含诊断标准知识库和症状标准知识库,其中诊断标准知识库采用ICD-10编码;医学领域概念节点与其他的医学领域概念节点连接,每个医学领域概念节点又与自身的病种概念表现形成节点连接;
知识库中主要包括等价关系和上下位关系;
(1.3)利用带标签的主题模型进行分类,预测疾病
疾病诊断可看作样本的主题;在主题模型(LDA)的基础上,增加了一层标签集,将主题与类别标签一一映射,可以利用人工在文档上的标签标记,将其应用于病历文本多分类;标签主题模型在训练过程中,主题会偏向在文本中出现频数高的词,通过对病历文本分析发现,主诉中描述了患者的主要症状,现病史是对症状表达内容的进一步补充,针对上述问题,根据特征词在文本中的位置,特征词对类别贡献度构造权值;
该模型中的符号定义如下:
D是m篇样本文档组成的矩阵D={d1,d2,...,dm},dm表示文档第m篇文档,文档d是由n个词组成的向量d={w1d,w2d,...,wnd},元素wnd表示文档d中的第n个词,类别C是文档集合类别向量C={1,2,...,c},表示文档分为c组类别,W是目标文档的词向量空间,模型参数α是文档主题分布的狄利克雷参数,按类别分为C组,α={α12,...,αc},向量αc的元素αck表示类别c的第k个主题的先验概率;模型参数β是主题词语分布相关的狄利克雷超参数,按类别分为C组;β={β12,...,βc},向量βc的元素βcij表示类别c的第i个主题生成词j的概率,模型参数θ是目标文档在主题上的分布,也按照类别分为c组;
(1.4)标签主题模型的训练步骤:
步骤1对训练集文本进行处理,初始化主题和词变量矩阵,对于主题向量K∈{1,2,...,k},生成狄利克雷先验概率矩阵β={βk,1k,2,...,βk,v},
主诉中的特征词权重为log0.5θ,θ∈(0.5,1),现病史中的特征词权重为(1-log0.5θ),且主诉中的特征词权重高于现病史中的特征词权重,特征词的权重根据其在主诉和现病史中的分布来调整;
步骤2对于每一个样本,初始化样本主题变量α,生成向量α(d)和θ(d),其中α(d)=L(d)*α,矩阵L(d)是文档标签矩阵,使用带特征词权重的Gibbs抽样方法来采集词的主题;
Figure RE-FDA0002394539850000021
其中
Figure RE-FDA0002394539850000022
表示主题j中在主诉中的特征词i的数量,
Figure RE-FDA0002394539850000023
表示主题j中在现病史中的特征词i的数量,αj表示类别的主题先验概率,βτ表示类别的生成词概率;
步骤3对上述步骤进行迭代,直到Gibbs抽样收敛;
步骤4统计样本集中标签主题的分布和主题词矩阵,根据Gibbs抽样矩阵选取主题下权重系数超过阈值的词作为主题特征;
标签主题模型的分类步骤:
在分类过程中对词在文本中的位置进行权重处理,突出位置的重要性,提升分类的准确性,具体分类过程如下:
步骤1采用命名实体识别模块处理样本,对提取的症状实体做加权,得到特征词权重;
步骤2把处理好的样本d放入训练模型中,将特征词权重与Gibbs抽样相结合,初始化测试文档的标签主题,标签主题的参数分布均为超参数的狄利克雷分布;
步骤3在模型上使用带特征词权重的Gibbs抽样进行更新采样,其中主题与词的后验估计β已经训练完毕,只需挖掘待测文本标签主题分布α;
步骤4重复步骤3,直到抽样算法收敛;
步骤5统计待测样本中主题、标签的分布,获取被分配最大份额的标签样本类别作为待测样本的标签;
(1.5)利用多层感知机分类进行分类,预测疾病
多层感知机的左侧单元是输入层,在这一层,有多少个输入就有多少个神经元,中间单元是隐藏层,可设置多层;隐藏层在输入层和输出层之间,将输入映射到输出,输出层对应不同疾病的分类;
步骤1初始化各个权重值,计算每个样本实例的输出;计算每一层每个神经元的触值;触值是通过计算连接这个神经元的前一层的所有神经元的值与相应的权重的乘机之和得到;
步骤2利用反向传播算法更新MLP网络权值,反向传递算法使用梯度下降更新规则;具体过程如下:
步骤2.1创建多层感知机神经网络,包括nin个输入,nhidden个隐藏层单元以及nout个输出单元,η是学习速率,设定xji是单元i到单元j的输出,wji是相应的权值;
步骤2.2初始化所有连接的权值;
步骤2.3在满足终止条件前,对于训练集中的样本<x,t>,把实例x输入网络,并计算网络中每个单元u的输出ou,对于网络中的每个输出单元k,计算其误差项δk,t是预期的输出;对于网络中的每个隐藏单元h,计算其误差项δh,其误差来自所有与其相连的输出单元,更新每个网络连接的权值wji,其中第n次迭代的权值更新依赖于第n-1次迭代的更新;在计算梯度下降的损失值时,考虑样本分布不均匀造成的问题,采用
Figure RE-FDA0002394539850000031
来计算损失值,其中βt是类别t样本在所有样本中占的比例,k是样本的分类数,pt是预测值,值γ=2;
1.6)将上述两个分类器的分类结果进行集成,构建集成分类器,采用堆叠(stacking)集成方法对模型进行集成,该方法并行地学习异质学习器,并通过训练一个元模型将它们组合起来,根据不同模型的预测结果输出一个最终的预测结果;
步骤1将训练集分为2部分,分别用于让2个分类器(标签主题模型与多层感知机)进行学习和拟合;
步骤2将2个分类器预测得到的结果作为下一层分类器(元分类器)的输入;
步骤3将下一层分类器(元分类器)得到的结果作为最终的预测结果。
CN201911353290.7A 2019-12-25 2019-12-25 一种基于深度学习和集成分类的智能辅助诊断方法 Active CN111192680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911353290.7A CN111192680B (zh) 2019-12-25 2019-12-25 一种基于深度学习和集成分类的智能辅助诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911353290.7A CN111192680B (zh) 2019-12-25 2019-12-25 一种基于深度学习和集成分类的智能辅助诊断方法

Publications (2)

Publication Number Publication Date
CN111192680A true CN111192680A (zh) 2020-05-22
CN111192680B CN111192680B (zh) 2021-06-01

Family

ID=70707569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911353290.7A Active CN111192680B (zh) 2019-12-25 2019-12-25 一种基于深度学习和集成分类的智能辅助诊断方法

Country Status (1)

Country Link
CN (1) CN111192680B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151188A (zh) * 2020-10-19 2020-12-29 科技谷(厦门)信息技术有限公司 一种基于医疗知识图谱的智能疾病预测系统
CN112182168A (zh) * 2020-11-27 2021-01-05 北京惠及智医科技有限公司 病历文本分析方法、装置、电子设备及存储介质
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与系统、电子设备
CN112381216A (zh) * 2021-01-14 2021-02-19 蚂蚁智信(杭州)信息技术有限公司 混合图神经网络模型的训练、预测方法和装置
CN112686306A (zh) * 2020-12-29 2021-04-20 山东众阳健康科技集团有限公司 基于图神经网络的icd手术分类自动匹配方法及系统
CN112700866A (zh) * 2021-01-07 2021-04-23 北京左医科技有限公司 基于transformer模型的智能交互方法及系统
CN112712893A (zh) * 2021-01-04 2021-04-27 山东众阳健康科技集团有限公司 一种提升计算机临床辅助诊断效果的方法
CN113057589A (zh) * 2021-03-17 2021-07-02 上海电气集团股份有限公司 器官衰竭感染病症的预测、预测模型的训练方法及系统
CN113080993A (zh) * 2021-03-30 2021-07-09 北京芯动卫士科技有限公司 一种基于改进多基分类器集成的自动心律失常分析方法
CN113221555A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于多任务模型的关键词识别方法、装置及设备
CN113642330A (zh) * 2021-07-19 2021-11-12 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN113724861A (zh) * 2021-09-06 2021-11-30 汤学民 基于深度学习的初步诊断生成方法、装置及计算机设备
CN113744873A (zh) * 2021-11-08 2021-12-03 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN113806547A (zh) * 2021-10-15 2021-12-17 南京大学 一种基于图模型的深度学习多标签文本分类方法
CN113838579A (zh) * 2021-09-29 2021-12-24 平安医疗健康管理股份有限公司 一种医疗数据的异常检测方法、装置、设备及存储介质
CN113903422A (zh) * 2021-09-09 2022-01-07 北京邮电大学 医疗影像诊断报告实体提取方法、装置及设备
CN114048320A (zh) * 2022-01-12 2022-02-15 成都信息工程大学 一种基于课程学习的多标签国际疾病分类训练方法
CN115101182A (zh) * 2022-06-28 2022-09-23 上海人工智能创新中心 基于qmr信念网络的导诊方法
CN116206755A (zh) * 2023-05-06 2023-06-02 之江实验室 一种基于神经主题模型的疾病检测与知识发现装置
CN116738323A (zh) * 2023-08-08 2023-09-12 北京全路通信信号研究设计院集团有限公司 铁路信号设备的故障诊断方法、装置、设备及介质
CN117271804A (zh) * 2023-11-21 2023-12-22 之江实验室 一种共病特征知识库生成方法、装置、设备及介质
CN117668499A (zh) * 2024-01-31 2024-03-08 平潭综合实验区智慧岛投资发展有限公司 一种基于机器学习的海洋公益诉讼线索研判方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080731A1 (en) * 2007-09-26 2009-03-26 Siemens Medical Solutions Usa, Inc. System and Method for Multiple-Instance Learning for Computer Aided Diagnosis
WO2016192612A1 (zh) * 2015-06-02 2016-12-08 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪
EP3255573A1 (en) * 2016-06-10 2017-12-13 Electronics and Telecommunications Research Institute Clinical decision supporting ensemble system and clinical decison supporting method using the same
CN107833629A (zh) * 2017-10-25 2018-03-23 厦门大学 基于深度学习的辅助诊断方法及系统
CN108597614A (zh) * 2018-04-12 2018-09-28 上海熙业信息科技有限公司 一种基于中文电子病历的辅助诊断决策方法
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置
CN109949929A (zh) * 2019-03-19 2019-06-28 挂号网(杭州)科技有限公司 一种基于深度学习大规模病历的辅助诊断系统
CN110459282A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080731A1 (en) * 2007-09-26 2009-03-26 Siemens Medical Solutions Usa, Inc. System and Method for Multiple-Instance Learning for Computer Aided Diagnosis
WO2016192612A1 (zh) * 2015-06-02 2016-12-08 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪
EP3255573A1 (en) * 2016-06-10 2017-12-13 Electronics and Telecommunications Research Institute Clinical decision supporting ensemble system and clinical decison supporting method using the same
CN107833629A (zh) * 2017-10-25 2018-03-23 厦门大学 基于深度学习的辅助诊断方法及系统
CN108597614A (zh) * 2018-04-12 2018-09-28 上海熙业信息科技有限公司 一种基于中文电子病历的辅助诊断决策方法
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置
CN109949929A (zh) * 2019-03-19 2019-06-28 挂号网(杭州)科技有限公司 一种基于深度学习大规模病历的辅助诊断系统
CN110459282A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯霄雄等: "基于AlexNet 和集成分类器的乳腺癌计算机辅助诊断方法", 《山东大学学报》 *
曾安等: "基于卷积神经网络和集成学习的阿尔茨海默症早期诊断", 《生物医学工程学杂志》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151188A (zh) * 2020-10-19 2020-12-29 科技谷(厦门)信息技术有限公司 一种基于医疗知识图谱的智能疾病预测系统
CN112182168A (zh) * 2020-11-27 2021-01-05 北京惠及智医科技有限公司 病历文本分析方法、装置、电子设备及存储介质
CN112686306A (zh) * 2020-12-29 2021-04-20 山东众阳健康科技集团有限公司 基于图神经网络的icd手术分类自动匹配方法及系统
CN112686306B (zh) * 2020-12-29 2023-03-24 山东众阳健康科技集团有限公司 基于图神经网络的icd手术分类自动匹配方法及系统
CN112712893A (zh) * 2021-01-04 2021-04-27 山东众阳健康科技集团有限公司 一种提升计算机临床辅助诊断效果的方法
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与系统、电子设备
CN112700866A (zh) * 2021-01-07 2021-04-23 北京左医科技有限公司 基于transformer模型的智能交互方法及系统
CN112381216A (zh) * 2021-01-14 2021-02-19 蚂蚁智信(杭州)信息技术有限公司 混合图神经网络模型的训练、预测方法和装置
CN113057589A (zh) * 2021-03-17 2021-07-02 上海电气集团股份有限公司 器官衰竭感染病症的预测、预测模型的训练方法及系统
CN113080993A (zh) * 2021-03-30 2021-07-09 北京芯动卫士科技有限公司 一种基于改进多基分类器集成的自动心律失常分析方法
CN113080993B (zh) * 2021-03-30 2023-02-03 北京芯动卫士科技有限公司 一种基于改进多基分类器集成的自动心律失常分析方法
CN113221555B (zh) * 2021-05-07 2023-11-14 支付宝(杭州)信息技术有限公司 一种基于多任务模型的关键词识别方法、装置及设备
CN113221555A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于多任务模型的关键词识别方法、装置及设备
CN113642330A (zh) * 2021-07-19 2021-11-12 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN113642330B (zh) * 2021-07-19 2024-04-30 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN113724861A (zh) * 2021-09-06 2021-11-30 汤学民 基于深度学习的初步诊断生成方法、装置及计算机设备
CN113903422A (zh) * 2021-09-09 2022-01-07 北京邮电大学 医疗影像诊断报告实体提取方法、装置及设备
CN113838579A (zh) * 2021-09-29 2021-12-24 平安医疗健康管理股份有限公司 一种医疗数据的异常检测方法、装置、设备及存储介质
CN113806547B (zh) * 2021-10-15 2023-08-11 南京大学 一种基于图模型的深度学习多标签文本分类方法
CN113806547A (zh) * 2021-10-15 2021-12-17 南京大学 一种基于图模型的深度学习多标签文本分类方法
WO2023078025A1 (zh) * 2021-11-08 2023-05-11 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN113744873B (zh) * 2021-11-08 2022-02-11 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN113744873A (zh) * 2021-11-08 2021-12-03 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN114048320B (zh) * 2022-01-12 2022-03-29 成都信息工程大学 一种基于课程学习的多标签国际疾病分类训练方法
CN114048320A (zh) * 2022-01-12 2022-02-15 成都信息工程大学 一种基于课程学习的多标签国际疾病分类训练方法
CN115101182A (zh) * 2022-06-28 2022-09-23 上海人工智能创新中心 基于qmr信念网络的导诊方法
CN116206755A (zh) * 2023-05-06 2023-06-02 之江实验室 一种基于神经主题模型的疾病检测与知识发现装置
CN116206755B (zh) * 2023-05-06 2023-08-22 之江实验室 一种基于神经主题模型的疾病检测与知识发现装置
CN116738323B (zh) * 2023-08-08 2023-10-27 北京全路通信信号研究设计院集团有限公司 铁路信号设备的故障诊断方法、装置、设备及介质
CN116738323A (zh) * 2023-08-08 2023-09-12 北京全路通信信号研究设计院集团有限公司 铁路信号设备的故障诊断方法、装置、设备及介质
CN117271804A (zh) * 2023-11-21 2023-12-22 之江实验室 一种共病特征知识库生成方法、装置、设备及介质
CN117271804B (zh) * 2023-11-21 2024-03-01 之江实验室 一种共病特征知识库生成方法、装置、设备及介质
CN117668499A (zh) * 2024-01-31 2024-03-08 平潭综合实验区智慧岛投资发展有限公司 一种基于机器学习的海洋公益诉讼线索研判方法
CN117668499B (zh) * 2024-01-31 2024-05-14 平潭综合实验区智慧岛投资发展有限公司 一种基于机器学习的海洋公益诉讼线索研判方法、系统、设备及介质

Also Published As

Publication number Publication date
CN111192680B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN111192680B (zh) 一种基于深度学习和集成分类的智能辅助诊断方法
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN110555083B (zh) 一种基于zero-shot无监督实体关系抽取方法
Shen et al. CBN: Constructing a clinical Bayesian network based on data from the electronic medical record
CN110297908A (zh) 诊疗方案预测方法及装置
CN107193919A (zh) 一种电子病历的检索方法及系统
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
CN110427493B (zh) 电子病历处理方法、模型训练方法及相关装置
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN110838368A (zh) 一种基于中医临床知识图谱的机器人主动问诊方法
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测系统
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN106909783A (zh) 一种基于时间线的病历文本医学知识发现方法
CN111859938B (zh) 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法
CN113764112A (zh) 一种在线医疗问答方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
CN115831380A (zh) 一种基于医疗知识图谱的智能医疗数据管理系统及方法
Soriano et al. Snomed2Vec: Representation of SNOMED CT terms with Word2Vec
Hsu et al. Multi-label classification of ICD coding using deep learning
CN113643781B (zh) 基于时序预警信号的健康干预方案个性化推荐方法及系统
CN117194604B (zh) 一种智慧医疗病患问诊语料库构建方法
CN114496231A (zh) 基于知识图谱的体质识别方法、装置、设备和存储介质
Alwan et al. Diabetes diagnosis system using modified Naive Bayes classifier
CN116403706A (zh) 一种融合知识扩展和卷积神经网络的糖尿病预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee after: Zhongyang Health Technology Group Co.,Ltd.

Address before: 12 / F, building 1, Aosheng building, 1166 Xinluo street, high tech Zone, Jinan City, Shandong Province

Patentee before: SHANDONG MSUNHEALTH TECHNOLOGY GROUP Co.,Ltd.