CN112927797A - 一种基于贝叶斯概率推断的急诊临床诊断分析系统 - Google Patents

一种基于贝叶斯概率推断的急诊临床诊断分析系统 Download PDF

Info

Publication number
CN112927797A
CN112927797A CN202110317885.8A CN202110317885A CN112927797A CN 112927797 A CN112927797 A CN 112927797A CN 202110317885 A CN202110317885 A CN 202110317885A CN 112927797 A CN112927797 A CN 112927797A
Authority
CN
China
Prior art keywords
data
probability
bayesian
gaussian
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110317885.8A
Other languages
English (en)
Inventor
蒋理
利节
张祥
朱文文
吴凯
高敏
廖宏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Science and Technology
First Affiliated Hospital of Chongqing Medical University
Original Assignee
Chongqing University of Science and Technology
First Affiliated Hospital of Chongqing Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Science and Technology, First Affiliated Hospital of Chongqing Medical University filed Critical Chongqing University of Science and Technology
Priority to CN202110317885.8A priority Critical patent/CN112927797A/zh
Publication of CN112927797A publication Critical patent/CN112927797A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Pathology (AREA)
  • Algebra (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及医学智能临床诊断分析技术领域,具体公开了一种基于贝叶斯概率推断的急诊临床诊断分析系统,设置信息获取单元采集医学急诊临床过程中患者的电子医疗病历(EMR)数据,设置实体提取单元及数据整合单元将这些多源数据先进行整合,然后设置文本特征提取单元将整合后的多维异构数据放入ALBERT模型中训练以提取电子病例的文本特征,而后设置贝叶斯概率推算模块给文本特征加之以DNF模型(区分式生成模型)概率映射到贝叶斯空间以构建贝叶斯概率模型,通过概率推算得出诊断和急诊处理措施的最优概率以提供急诊临床诊断支持(最终概率推断结果分别取Top‑1和Top‑3),可应用在各类疾病的急诊临床诊断中以作参考。

Description

一种基于贝叶斯概率推断的急诊临床诊断分析系统
技术领域
本发明涉及医学智能分析技术领域,尤其涉及一种基于贝叶斯概率推断的急诊临床诊断分析系统。
背景技术
目前中国人口众多,面临医生数量和人口数量不成正比的问题,且急诊科医生数量少,看病时间成本高,但急诊又讲求时间迅速。针对于此,智能诊断应运而生,但基于病历文本的自动诊断对于临床仍是一项艰巨的任务,因为其需要在准确性与可解释性之间取得适当的平衡,对所诊断疾病缺乏解释性,为其诊断疾病预测做到可解释,还是一个很难解决的问题。目前中国有14亿人口,但只有200万基层医生,对于基层医生来说,最缺的便是医疗专家的经验和智慧,而在有了智能医疗的辅助后,其可以把专家的经验和智慧进行大规模的复制,让这些成为基层医生的教练,让基层医生的医术得到提高,通过提高量变引发质变,真正地促进医疗水平的提升,但目前并没有这样一种成熟的基于病历文本的急诊临床自动诊断技术。
发明内容
本发明提供一种基于贝叶斯概率推断的急诊临床诊断分析系统,解决的技术问题在于:目前缺乏一种基于病历文本的急诊临床自动诊断技术,能够在准确性与可解释性之间取得平衡。
为解决以上技术问题,本发明提供一种基于贝叶斯概率推断的急诊临床诊断分析系统,包括预训练处理模块、文本特征提取模块及贝叶斯概率推算模块;
所述预训练处理模块包括信息获取单元、实体提取单元及数据整合单元;所述信息获取单元用于获取急诊的临床电子医疗病例文档即EMR文档数据;所述实体提取单元用于对所述EMR文档数据进行实体命名识别,提取出相关病症及临床表征的实体,得到多维异构数据;所述数据整合单元用于对所述多维异构数据进行整合,并利用向量空间法得到维度相同的语义向量;
所述文本特征提取模块包括语义空间整合单元及归一化单元;所述语义空间整合单元用于将所述语义向量的相关记忆向量加权平均起来做内积分,而将所有所述语义向量整合在一个语义空间上;所述归一化单元用于对整合的数据归一化为神经网络处理分布,再将归一化的神经网络处理分布转换为高斯分布;
所述贝叶斯概率推算模块用于将高斯分布的文本特征借助区分式生成模型而概率映射到贝叶斯空间中以构建贝叶斯概率模型,并通过所述贝叶斯概率模型推算得出诊断和急诊处理措施的最优概率。
优选地,所述实体获取单元包括分组子单元、预处理子单元及实体命名提取子单元;
所述分组子单元用于对不同急诊的EMR文档数据进行分组编号;
所述预处理子单元用于分别采取不同的n-gram内核对分组编号后的EMR文档数据进行预处理,得到分组后的文本数据;
所述实体命名提取子单元用于基于先进中文识别模型对分组后的文本数据进行实体命名提取,提取出相关病症及临床表征的实体,得到多维异构数据。
优选地,所述数据整合单元基于再生核希尔伯特空间对所述多维异构数据进行处理,得到维度相同的语义向量。
优选地,所述数据整合单元包括特征提取子单元、特征分割子单元及Transformer处理单元;
所述特征提取子单元用于将所述多维异构数据中的每个元素x经过一个头结构Hi()变换为文本特征fH=Hi(x),fH∈RH×C×W
所述特征分割子单元用于将得到的文本特征fH,按照P×P的大小切割成W块,再将每一个特征块拉平为维度为P2×C的向量,得到特征向量
Figure BDA0002991937630000021
Figure BDA0002991937630000022
所述Transformer处理单元用于将所有的特征向量送入Transformer进行处理,得到维度相同的语义向量
Figure BDA0002991937630000031
优选地,所述语义空间整合单元进行加权平均所采取的公式为:
Figure BDA0002991937630000032
其中,w(i;j)表示权重,n(i,j)表示实体i和正确答案j同时出现的次数,i=1,2,…,N,N表示代表按概率排序的前top-N预测。
优选地,所述贝叶斯概率推算模块的最终概率推断结果分别取Top-1和Top-3,Top-1为概率最高的贝叶斯概率推断类别为正确诊断,Top-3为三个贝叶斯概率推断类别里包含正确诊断。
优选地,所述归一化单元采取的神经网络处理分布为ALBERT神经网络处理分布。
优选地,所述归一化单元将归一化的神经网络处理分布转换为高斯分布的公式为:
Figure BDA0002991937630000033
Figure BDA0002991937630000034
其中,式(2)为标准高斯分布,式(3)为转换为标准高斯分布的映射函数,p(x)代表高斯分布,π(z)代表原分布;式(3)采取逆矩阵G-1形式,其中x=G(z),z=G-1(x)。
优选地,所述归一化单元通过下式改进独立同分布的高斯密度函数:
Figure BDA0002991937630000035
Figure BDA0002991937630000036
Figure BDA0002991937630000037
其中,式(4)为混合高斯概率密度,式(5)为独立同分布高斯密度函数,式(6)为每个高斯分量的后验概率分布;x表示数据集样本中的单个样本数据对象;i表示高斯分布的序号;k表示高斯分布的个数,也是聚类组的个数,每个聚类样本均为高斯分布;ωi是权重系数,表示第i个高斯模型的重要程度,重要的分布全重大,不重要的分布权重小;g(x|μi,∑i)是高斯模型的概率密度函数;μi是高斯模型的均值;∑i是高斯模型的方差;Vardata和Varmodel分别表示真实的数据变量和于模型训练所得的数据变量;O={o1,o2,…,oT}为一个文本矢量特征,ot(t=1,2,…,T)为O中第t个元素;γ={ωj,μj,∑j|j=1,2,…,M},共有M阶高斯分量;式(6)表示数据固定不变,调整高斯模型N~(0,σ)参数去拟合数据。
优选地,所述贝叶斯概率推算模块根据所述贝叶斯概率模型进行贝叶斯概率分布的公式为:
Figure BDA0002991937630000041
其中,p(x1,x2,…,xn)表示样本的后验概率,p(z1,z2,…,zn)表示样本的先验概率,
Figure BDA0002991937630000042
表示条件概率;式(7)表示在z空间中建立线性高斯模型,并转移到贝叶斯概率模型中。
本发明提供的一种基于贝叶斯概率推断的急诊临床诊断分析系统,设置信息获取单元采集医学急诊临床过程中患者的电子医疗病历(EMR)数据,设置实体提取单元及数据整合单元将这些多源数据(比如高血压脑出血类患者,该数据包括患者基本信息、病史、体格检查及头颅CT结果)先进行整合,然后设置文本特征提取单元将整合后的多维异构数据放入ALBERT模型中训练以提取电子病例的文本特征,而后设置贝叶斯概率推算模块给文本特征加之以DNF模型(区分式生成模型)概率映射到贝叶斯空间以构建贝叶斯概率模型,通过概率推算得出诊断和急诊处理措施的最优概率以提供急诊临床诊断支持(最终概率推断结果分别取Top-1和Top-3),可应用在各类疾病的急诊临床诊断中以作参考。本发明作为面向基层医师的临床诊断辅助产品,结合深度学习网络与贝叶斯概率的可解释性的优势,来获得更可靠的诊断结果,为医生提供临床诊断参考,让基层医生的医术得到提高,通过提高量变引发质变,真正地促进医疗水平的提升。
附图说明
图1是本发明实施例提供的一种基于贝叶斯概率推断的急诊临床诊断分析系统的模块结构图;
图2是本发明实施例提供的一种基于贝叶斯概率推断的急诊临床诊断分析系统的框架示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
本实施例采用的EMR文档数据中包含了多种病人信息,包含有病人基本信息(姓名、年龄、性别等)、现病史、病人主诉、查体结果、复查结果等,而且不同医院对于病例的描述很可能方式不同,这种数据在预处理过程中,存在多元离散数据之间的耦合关联问题;并且数据来自实际,存在各种不确定性因素会对模型的稳定性和精确性提出很高的要求,特征学习难度大,同时之前所做的研究大都缺乏可解释性。
针对于此,参考图1所示的模块结构图和图2所示的框架图,本发明实施例提供一种基于贝叶斯概率推断的急诊临床诊断分析系统,该系统包括预训练处理模块、文本特征提取模块及贝叶斯概率推算模块。本实施例所提出的系统基于EMR文档文本特征提取过程中的多维异构数据S在客观要求及病症d∈D上输出的贝叶斯概率分布Pr(d|S),若应用在产品中,可作为一个独立的设备,也可与其他设备相融合,该设备与医院的业务系统相通,在医生的操作下,可自动获取病人的临床电子医疗病例文档,并进行后续的自动化处理,最后输出诊断和急诊处理措施的最优概率,供医生参考。
在本发明中,S对应EMR文档文本特征提取过程中所产生的多维异构数据,即S由少部分文本、图像和一些结构化数据组成,比如HICH(高血压脑出血)病症的S主要包含:患者基本信息、病史、体格检查及头颅CT结果。
现实生活中,在进行一个工程项目的验收时,为了保证公正性与客观性,往往需要专业的第三方机构介入,并且以第三方机构的评估结果作为该项目的衡量标准。本发明借鉴了这种思想,引入了第三方评估的机制,即通过不同的分类模型,利用其分类准确率这一指标来反映样本质量。
下面针对各模块作详细说明。
预训练处理模块包括信息获取单元、实体提取单元及数据整合单元;信息获取单元用于获取急诊的临床电子医疗病例文档即EMR文档数据;实体提取单元用于对EMR文档数据进行实体命名识别,提取出相关病症及临床表征的实体,得到多维异构数据;数据整合单元用于对多维异构数据进行整合,并利用向量空间法得到维度相同的语义向量。
具体的,实体获取单元包括分组子单元、预处理子单元及实体命名提取子单元;
分组子单元用于对不同急诊的EMR文档数据进行分组编号;
预处理子单元用于分别采取不同的n-gram内核对分组编号后的EMR文档数据进行预处理,得到分组后的文本数据;
实体命名提取子单元用于基于先进中文识别模型对分组后的文本数据进行实体命名提取,提取出相关病症及临床表征的实体,得到多维异构数据。
在将实时提取数据抛入神经网络之前,首先需要做的是本发明所提出框架的基本组成部分——实体命名识别。实体命名识别从文本句子中提取实体及其类型,对于捕获文本的关键信息非常重要。本系统所使用的是改进的传统NER,集成了先进的中文NER模型,从中提取出病症及临床表征的实体,在其中添加实体的极性(“+”、“-”、或“?”,分别表示“相关”、“不相关”和“不明确”)来客观地表示给定的EMR文档数据中是否存在所提取的实体。它可以与基于规则的系统一起使用,该系统使用带有否定中文单词的词汇表以及极性检测模型。并提取了实施提取过程中相关内容当中的实体。为确保其准确性,将NER系统做F1分数评估,并由专业医学医师对EMR文档文本特征提取过程中的重复数据删除语句进行单独评估。
另外,本实施例数据整合单元基于再生核希尔伯特空间H对多维异构数据进行处理,得到维度相同的语义向量,便于后续进行语义空间整合。
具体的,数据整合单元包括特征提取子单元、特征分割子单元及Transformer处理单元;
特征提取子单元用于将多维异构数据中的每个元素x经过一个头结构Hi()变换为文本特征fH=Hi(x),fH∈RH×C×W
特征分割子单元用于将得到的文本特征fH,按照P×P的大小切割成W块,再将每一个特征块拉平为维度为P2×C的向量,得到特征向量
Figure BDA0002991937630000071
Figure BDA0002991937630000072
Transformer处理单元用于将所有的特征向量送入Transformer进行处理,得到维度相同的语义向量
Figure BDA0002991937630000073
在本实施例中,文本特征提取模块包括语义空间整合单元及归一化单元;语义空间整合单元用于将语义向量的相关记忆向量加权平均起来做内积分,而将所有语义向量整合在一个语义空间上;归一化单元用于对整合的数据归一化为神经网络处理分布,再将归一化的神经网络处理分布转换为高斯分布。
具体的,语义空间整合单元进行加权平均所采取的公式为:
Figure BDA0002991937630000074
其中,w(i;j)表示权重,n(i,j)表示实体i和正确答案j同时出现的次数,i=1,2,…,N,N表示代表按概率排序的前top-N预测。
具体的,归一化单元采取的神经网络处理分布为ALBERT神经网络处理分布。ALBERT神经网络是BERT网络的升级版,训练更加快速和高效,且做了模型轻量化处理,砍掉了一半参数但准确率并没有下降,在自然语义处理NER上,是不二之选。
具体的,归一化单元将归一化的神经网络处理分布转换为高斯分布的公式为:
Figure BDA0002991937630000081
Figure BDA0002991937630000082
其中,式(2)为标准高斯分布,式(3)为转换为标准高斯分布的映射函数,p(x)代表高斯分布,π(z)代表原分布;式(3)采取逆矩阵G-1形式,其中x=G(z),z=G-1(x)。式(3)所示的概率分布转换函数是可逆的,在对边缘数据的更优处理的同时可以保留数据的完整性,因此采取可逆矩阵的转换形式,即是概率处理过程的映射函数是可逆的。
考虑到隐空间的单高斯假设没有区分性、低维空间中概率密度与概率质量基本一致,但高维空间中概率密度与概率质量不一样,因此归一化单元改进独立同分布的高斯密度函数:
Figure BDA0002991937630000083
Figure BDA0002991937630000084
Figure BDA0002991937630000085
其中,式(4)为混合高斯概率密度,式(5)为独立同分布高斯密度函数,式(6)为每个高斯分量的后验概率分布;x表示数据集样本中的单个样本数据对象;i表示高斯分布的序号;k表示高斯分布的个数,也是聚类组的个数,每个聚类样本均为高斯分布;ωi是权重系数,表示第i个高斯模型的重要程度,重要的分布全重大,不重要的分布权重小;g(x|μi,∑i)是高斯模型的概率密度函数;μi是高斯模型的均值;∑i是高斯模型的方差;Vardata和Varmodel分别表示真实的数据变量和于模型训练所得的数据变量;O={o1,o2,…,oT}为一个文本矢量特征,ot(t=1,2,…,T)为O中第t个元素;γ={ωjj,∑j|j=1,2,…,M},共有M阶高斯分量;式(6)表示数据固定不变,调整高斯模型N~(0,σ)参数去拟合数据,目的是为了检验神经网络模型训练的鲁棒性。
数据预处理过程采取多种方式以确保每种类型的预处理效果最佳,相对于EMR文档文本特征提取过程更具针对性,且采取实体提取与高斯映射的方式将EMR文档文本特征提取过程所收集的多维异构数据进行综合性整合,以使智能时代下的急诊临床诊断更具准确性与可解释性。
在本实施例中,贝叶斯概率推算模块用于将高斯分布的文本特征借助区分式生成模型(Discriminative Normalization Flow,DNF)而概率映射到贝叶斯空间中以构建贝叶斯概率模型,并通过贝叶斯概率模型推算得出诊断和急诊处理措施的最优概率。
DNF模型基于归一化流(NF),这是一种简单而强大的密度估计架构。使用此模型,可以将复杂的分布转换为简单的各向同性高斯分布(通常称为先验分布)。DNF模型允许特定于类的先验分布,这使其能够对具有不同但均质各向同性高斯分布的多个词向量进行建模。DNF模型可以很好地将神经网络的提取特征归一化到语义空间,可以更好地应用于分类和识别。
具体的,贝叶斯概率推算模块的最终概率推断结果分别取Top-1和Top-3,Top-1为概率最高的贝叶斯概率推断类别为正确诊断,Top-3为三个贝叶斯概率推断类别里包含正确诊断。
具体的,贝叶斯概率推算模块根据贝叶斯概率模型进行贝叶斯概率分布的公式为:
Figure BDA0002991937630000101
其中,p(x1,x2,…,xn)表示样本的后验概率,p(z1,z2,…,zn)表示样本的先验概率,
Figure BDA0002991937630000102
表示条件概率;式(7)表示在z空间中建立线性高斯模型,并转移到贝叶斯概率模型中,要注意其过程是可逆的,减少了边缘数据的损失,以增加准确度与可靠度。
综上,本发明实施例提供的一种基于贝叶斯概率推断的急诊临床诊断分析系统,设置信息获取单元采集医学急诊临床过程中患者的电子医疗病历(EMR)数据,设置实体提取单元及数据整合单元将这些多源数据(比如高血压脑出血类患者,该数据包括患者基本信息、病史、体格检查及头颅CT结果)先进行整合,然后设置文本特征提取单元将整合后的多维异构数据放入ALBERT模型中训练以提取电子病例的文本特征,而后设置贝叶斯概率推算模块给文本特征加之以DNF模型(区分式生成模型)概率映射到贝叶斯空间以构建贝叶斯概率模型,通过概率推算得出诊断和急诊处理措施的最优概率以提供急诊临床诊断支持(最终概率推断结果分别取Top-1和Top-3),可应用在各类疾病的急诊临床诊断中以作参考。本系统作为面向基层医师的临床诊断辅助产品,结合深度学习网络与贝叶斯概率的可解释性的优势,来获得更可靠的诊断结果,为医生提供临床诊断参考,让基层医生的医术得到提高,通过提高量变引发质变,真正地促进医疗水平的提升。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,包括预训练处理模块、文本特征提取模块及贝叶斯概率推算模块;
所述预训练处理模块包括信息获取单元、实体提取单元及数据整合单元;所述信息获取单元用于获取急诊的临床电子医疗病例文档即EMR文档数据;所述实体提取单元用于对所述EMR文档数据进行实体命名识别,提取出相关病症及临床表征的实体,得到多维异构数据;所述数据整合单元用于对所述多维异构数据进行整合,并利用向量空间法得到维度相同的语义向量;
所述文本特征提取模块包括语义空间整合单元及归一化单元;所述语义空间整合单元用于将所述语义向量的相关记忆向量加权平均起来做内积分,而将所有所述语义向量整合在一个语义空间上;所述归一化单元用于对整合的数据归一化为神经网络处理分布,再将归一化的神经网络处理分布转换为高斯分布;
所述贝叶斯概率推算模块用于将高斯分布的文本特征借助区分式生成模型而概率映射到贝叶斯空间中以构建贝叶斯概率模型,并通过所述贝叶斯概率模型推算得出诊断和急诊处理措施的最优概率。
2.如权利要求1所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述实体获取单元包括分组子单元、预处理子单元及实体命名提取子单元;
所述分组子单元用于对不同急诊的EMR文档数据进行分组编号;
所述预处理子单元用于分别采取不同的n-gram内核对分组编号后的EMR文档数据进行预处理,得到分组后的文本数据;
所述实体命名提取子单元用于基于先进中文识别模型对分组后的文本数据进行实体命名提取,提取出相关病症及临床表征的实体,得到多维异构数据。
3.如权利要求2所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于:所述数据整合单元基于再生核希尔伯特空间对所述多维异构数据进行处理,得到维度相同的语义向量。
4.如权利要求3所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述数据整合单元包括特征提取子单元、特征分割子单元及Transformer处理单元;
所述特征提取子单元用于将所述多维异构数据中的每个元素x经过一个头结构Hi()变换为文本特征fH=Hi(x),fH∈RH×C×W
所述特征分割子单元用于将得到的文本特征fH,按照P×P的大小切割成W块,再将每一个特征块拉平为维度为P2×C的向量,得到特征向量
Figure FDA0002991937620000021
Figure FDA0002991937620000022
所述Transformer处理单元用于将所有的特征向量送入Transformer进行处理,得到维度相同的语义向量
Figure FDA0002991937620000023
5.如权利要求1所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述语义空间整合单元进行加权平均所采取的公式为:
Figure FDA0002991937620000024
其中,w(i;j)表示权重,n(i,j)表示实体i和正确答案j同时出现的次数,i=1,2,…,N,N表示代表按概率排序的前top-N预测。
6.如权利要求1所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述贝叶斯概率推算模块的最终概率推断结果分别取Top-1和Top-3,Top-1为概率最高的贝叶斯概率推断类别为正确诊断,Top-3为三个贝叶斯概率推断类别里包含正确诊断。
7.如权利要求1所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述归一化单元采取的神经网络处理分布为ALBERT神经网络处理分布。
8.如权利要求7所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述归一化单元将归一化的神经网络处理分布转换为高斯分布的公式为:
Figure FDA0002991937620000031
Figure FDA0002991937620000032
其中,式(2)为标准高斯分布,式(3)为转换为标准高斯分布的映射函数,p(x)代表高斯分布,π(z)代表原分布;式(3)采取逆矩阵G-1形式,其中x=G(z),z=G-1(x)。
9.如权利要求8所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述归一化单元通过下式改进独立同分布的高斯密度函数:
Figure FDA0002991937620000033
Figure FDA0002991937620000034
Figure FDA0002991937620000035
其中,式(4)为混合高斯概率密度,式(5)为独立同分布高斯密度函数,式(6)为每个高斯分量的后验概率分布;x表示数据集样本中的单个样本数据对象;i表示高斯分布的序号;k表示高斯分布的个数,也是聚类组的个数,每个聚类样本均为高斯分布;ωi是权重系数,表示第i个高斯模型的重要程度,重要的分布全重大,不重要的分布权重小;g(x|μi,∑i)是高斯模型的概率密度函数;μi是高斯模型的均值;∑i是高斯模型的方差;Vardata和Varmodel分别表示真实的数据变量和于模型训练所得的数据变量;O={o1,o2,…,oT}为一个文本矢量特征,ot(t=1,2,…,T)为O中第t个元素;γ={ωjj,∑j|j=1,2,…,M},共有M阶高斯分量;式(6)表示数据固定不变,调整高斯模型N~(0,σ)参数去拟合数据。
10.如权利要求8所述的一种基于贝叶斯概率推断的急诊临床诊断分析系统,其特征在于,所述贝叶斯概率推算模块根据所述贝叶斯概率模型进行贝叶斯概率分布的公式为:
Figure FDA0002991937620000041
其中,p(x1,x2,…,xn)表示样本的后验概率,p(z1,z2,…,zn)表示样本的先验概率,
Figure FDA0002991937620000042
表示条件概率;式(7)表示在z空间中建立线性高斯模型,并转移到贝叶斯概率模型中。
CN202110317885.8A 2021-03-25 2021-03-25 一种基于贝叶斯概率推断的急诊临床诊断分析系统 Withdrawn CN112927797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110317885.8A CN112927797A (zh) 2021-03-25 2021-03-25 一种基于贝叶斯概率推断的急诊临床诊断分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110317885.8A CN112927797A (zh) 2021-03-25 2021-03-25 一种基于贝叶斯概率推断的急诊临床诊断分析系统

Publications (1)

Publication Number Publication Date
CN112927797A true CN112927797A (zh) 2021-06-08

Family

ID=76175980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110317885.8A Withdrawn CN112927797A (zh) 2021-03-25 2021-03-25 一种基于贝叶斯概率推断的急诊临床诊断分析系统

Country Status (1)

Country Link
CN (1) CN112927797A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373553A (zh) * 2021-12-20 2022-04-19 中国科学院苏州生物医学工程技术研究所 基于多标签预测模型的医疗处置措施预测系统及其应用
CN116612521A (zh) * 2023-06-15 2023-08-18 山东睿芯半导体科技有限公司 一种人脸识别方法、装置、芯片及终端
CN117219284A (zh) * 2023-09-11 2023-12-12 广东德澳智慧医疗科技有限公司 一种具有时序性智慧医疗大数据管理的系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373553A (zh) * 2021-12-20 2022-04-19 中国科学院苏州生物医学工程技术研究所 基于多标签预测模型的医疗处置措施预测系统及其应用
CN116612521A (zh) * 2023-06-15 2023-08-18 山东睿芯半导体科技有限公司 一种人脸识别方法、装置、芯片及终端
CN117219284A (zh) * 2023-09-11 2023-12-12 广东德澳智慧医疗科技有限公司 一种具有时序性智慧医疗大数据管理的系统
CN117219284B (zh) * 2023-09-11 2024-05-07 湖北中医药大学 一种具有时序性智慧医疗大数据管理的系统

Similar Documents

Publication Publication Date Title
RU2703679C2 (ru) Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов
CN106874643B (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
Williamson et al. Tracking depression severity from audio and video based on speech articulatory coordination
Salido et al. Using deep learning to detect melanoma in dermoscopy images
CN112927797A (zh) 一种基于贝叶斯概率推断的急诊临床诊断分析系统
CN112712879B (zh) 医学影像报告的信息提取方法、装置、设备及存储介质
US20220115135A1 (en) Machine Learning Systems and Methods for Assessing Medical Interventions for Utilization Review
Carchiolo et al. Medical prescription classification: a NLP-based approach
López-Úbeda et al. Automatic medical protocol classification using machine learning approaches
CN117077786A (zh) 一种基于知识图谱的数据知识双驱动智能医疗对话系统和方法
CN110097955B (zh) 一种基于支持向量机分类器的儿科智能急诊预检分诊系统
TWI723868B (zh) 一種抽樣後標記應用在類神經網絡訓練模型之方法
CN114512228A (zh) 一种中医疾病辅助诊断系统、设备及存储介质
Alsharid et al. Gaze-assisted automatic captioning of fetal ultrasound videos using three-way multi-modal deep neural networks
RU2720363C2 (ru) Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта
Amjoud et al. Automatic generation of chest x-ray reports using a transformer-based deep learning model
Lu et al. Speech depression recognition based on attentional residual network
CN111128388A (zh) 一种值域数据匹配方法、装置及相关产品
CN117672445A (zh) 基于大数据的糖尿病衰弱现状分析方法及系统
Patil Features and methods of human age estimation: Opportunities and challenges in medical image processing
CN115036034B (zh) 一种基于患者表征图的相似患者识别方法及系统
CN110633368A (zh) 早期结直肠癌非结构化数据的深度学习分类方法
Rocha et al. A speech-to-text interface for mammoclass
CN113077874B (zh) 基于红外热像的脊椎疾病康复智能辅助诊疗系统及方法
Lee et al. Region-based contrastive pretraining for medical image retrieval with anatomic query

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210608

WW01 Invention patent application withdrawn after publication