CN116580849A - 医疗数据的采集分析系统及其方法 - Google Patents

医疗数据的采集分析系统及其方法 Download PDF

Info

Publication number
CN116580849A
CN116580849A CN202310623484.4A CN202310623484A CN116580849A CN 116580849 A CN116580849 A CN 116580849A CN 202310623484 A CN202310623484 A CN 202310623484A CN 116580849 A CN116580849 A CN 116580849A
Authority
CN
China
Prior art keywords
feature
semantic
patient
classification
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310623484.4A
Other languages
English (en)
Other versions
CN116580849B (zh
Inventor
郑栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huachuang Tiancheng Technology Co ltd
Original Assignee
Hangzhou Yichu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yichu Technology Co ltd filed Critical Hangzhou Yichu Technology Co ltd
Priority to CN202310623484.4A priority Critical patent/CN116580849B/zh
Publication of CN116580849A publication Critical patent/CN116580849A/zh
Application granted granted Critical
Publication of CN116580849B publication Critical patent/CN116580849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及数据分析领域,其具体地公开了一种医疗数据的采集分析系统及其方法,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。

Description

医疗数据的采集分析系统及其方法
技术领域
本申请涉及数据分析领域,且更为具体地,涉及一种医疗数据的采集分析系统及其方法。
背景技术
随着医疗信息化的推进,越来越多的医疗数据被采集和存储。这些数据包含了大量的医疗信息,为医疗机构和相关研究提供了宝贵的资源。其中,针对糖尿病等慢性病进行数据分析可以帮助医疗机构和医生更好地了解疾病的发展规律以及预测其风险等级,针对不同阶段的患者进行精准干预和治疗,从而提高患者的生活质量和延长其寿命。
然而,传统的医疗数据采集分析方案需要人工进行录入分析,这种方式易受人为因素的干扰,且效率低下,并且目前的医疗数据采集分析方案主要仅支持基本统计和应用,无法更深层次地分析数据背后的价值,导致无法帮助医疗机构和医生更有效地进行患者的病情分析干预和治疗。
因此,期望一种优化的医疗数据的采集分析系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种医疗数据的采集分析系统及其方法,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
根据本申请的一个方面,提供了一种医疗数据的采集分析系统,其包括:患者相关数据采集模块,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;患者相关信息语义理解模块,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;患者信息语义关联模块,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;体检数据采集模块,用于获取待诊断患者的体检数据;体检语义理解模块,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;查询模块,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;特征优化模块,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及患病风险预警模块,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
在上述医疗数据的采集分析系统中,所述患者相关信息语义理解模块,包括:第一分词单元,用于对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;第一词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第一上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,第一级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。
在上述医疗数据的采集分析系统中,所述第一上下文编码单元,包括:查询向量构造子单元,用于将所述词嵌入向量的序列进行一维排列以得到全局特征向量;自注意子单元,用于计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,级联子单元,用于将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在上述医疗数据的采集分析系统中,所述患者信息语义关联模块,用于:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
在上述医疗数据的采集分析系统中,所述体检语义理解模块,包括:第二分词单元,用于对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;第二词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第二上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,第二级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
在上述医疗数据的采集分析系统中,所述查询模块,用于:以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
在上述医疗数据的采集分析系统中,所述特征优化模块,用于:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
在上述医疗数据的采集分析系统中,所述患病风险预警模块,包括:全连接编码单元,用于使用所述分类器的多个全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类结果生成单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一方面,提供了一种医疗数据的采集分析方法,其包括:
获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;获取待诊断患者的体检数据;将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的医疗数据的采集分析方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的医疗数据的采集分析方法。
与现有技术相比,本申请提供的一种医疗数据的采集分析系统及其方法,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的医疗数据的采集分析系统的框图。
图2为根据本申请实施例的医疗数据的采集分析系统的系统架构图。
图3为根据本申请实施例的医疗数据的采集分析系统中患者相关信息语义理解模块的框图。
图4为根据本申请实施例的医疗数据的采集分析系统中卷积神经网络编码的流程图。
图5为根据本申请实施例的医疗数据的采集分析方法的流程图。
图6为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述:如上所述,传统的医疗数据采集分析方案需要人工进行录入分析,这种方式易受人为因素的干扰,且效率低下,并且目前的医疗数据采集分析方案主要仅支持基本统计和应用,无法更深层次地分析数据背后的价值,导致无法帮助医疗机构和医生更有效地进行患者的病情分析干预和治疗。因此,期望一种优化的医疗数据的采集分析系统。
相应地,考虑到在实际进行糖尿病风险预测评估时,由于糖尿病与家族史、地区等因素有关,因此,在本申请的技术方案中,期望利用医疗数据采集分析系统对某个地区的糖尿病患者进行数据分析。首先,该系统从各类医疗信息系统和数据库中采集关于该地区糖尿病患者的相关数据,如年龄、性别、家族史、治疗记录等。然后,数据分析模块利用机器学习算法对这些数据进行多维度、多层次、多角度的分析,并使用分类模型来预测患者是否会发展为糖尿病并进行风险评估。在此过程中,还考虑到由于某地区的糖尿病患者的相关数据具有着相互的语义关联关系,并且待诊断患者的体检数据也就有着语义理解特征信息。因此,关键和难点在于如何进行所述某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征分布信息,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录。接着,考虑到由于所述某一地区的所有糖尿病患者的相关数据中的各个数据项有着上下文的语义关联关系,为了能够对于所述某一地区的所有糖尿病患者的相关数据进行语义理解,在本申请的技术方案中,进一步将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器中进行编码,以提取出每个所述糖尿病患者的相关数据中的各个数据项基于全局的上下文语义关联特征信息,从而得到多个糖尿病患者语义理解特征向量。
然后,为了探究该地区的所有糖尿病患者的相关数据之间的语义关联特性,以帮助医疗机构和医生更好地了解该地区的糖尿病的发展规律以及预测其风险等级,在本申请的技术方案中,进一步将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型中进行特征挖掘,以提取出该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息,从而得到糖尿病患者间语义关联特征矩阵。
在实际进行待诊断患者的糖尿病风险检测评估时,首先,获取待诊断患者的体检数据,并将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器中进行编码,以提取出所述待诊断患者的体检数据中基于全局的上下文语义关联特征信息,从而得到待诊断患者体检数据语义理解特征向量。
进一步地,以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量,以此来将所述待诊断患者体检数据语义理解特征向量映射到所述糖尿病患者间语义关联特征矩阵的高维空间中,以刻画出在以所述该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息为背景基础下的关于所述待诊断患者的体检数据语义理解特征信息。
接着,将所述分类特征向量通过分类器中进行分类处理,以得到用于表示待诊断患者发展为糖尿病的风险等级的分类结果。也就是,在本申请的技术方案中,所述分类器的标签为所述待诊断患者发展为糖尿病的风险等级标签,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。因此,在得到所述分类结果后,可基于所述分类结果来帮助医疗机构和医生更好地了解该地区糖尿病的发展规律以及预测患者的风险等级,进而针对不同阶段的患者进行精准干预和治疗。
特别地,在本申请的技术方案中,所述糖尿病患者间语义关联特征矩阵表达多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征,而由于各个所述糖尿病患者的相关数据可能存在的对于分类任务的意义差异和样本数目导致的数据语义关联度分布不均匀,当将所述多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征映射到所述待诊断患者体检数据语义理解特征向量所表达的单个患者的体检数据语义特征空间内后,会存在所得到的所述分类特征向量在高维特征空间内的概率密度表示下的维度区分度不够,影响所述分类特征向量在分类任务下的类概率表达,降低了所述分类特征向量通过分类器得到的分类结果的准确性。
因此,本申请的申请人对所述分类特征向量进行高斯概率密度的流形曲面维度正交化,具体表示为:/>其中/>和/>是特征值集合的均值和标准差,且/>是优化后的所述分类特征向量的第/>个位置的特征值。
这里,通过以表达流形曲面的高维特征集合的均值和标准差的平方根来表征曲面单位切向量模长和单位法向量模长,可以将所述分类特征向量的高维特征流形的流形曲面在切平面和法平面上进行基于单位模长的正交投影,从而基于高斯特征流形几何的基本结构进行高维特征的概率密度的维度重整,以通过提升概率密度的维度正交化来提升优化后的分类特征向量在分类任务下的类概率表达的准确性,从而改进优化后的所述分类特征向量通过分类器得到的分类结果的准确性。这样,能够有效地进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
基于此,本申请提出了一种医疗数据的采集分析系统,其包括:患者相关数据采集模块,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;患者相关信息语义理解模块,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;患者信息语义关联模块,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;体检数据采集模块,用于获取待诊断患者的体检数据;体检语义理解模块,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;查询模块,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;特征优化模块,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及,患病风险预警模块,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统:图1为根据本申请实施例的医疗数据的采集分析系统的框图。如图1所示,根据本申请实施例的医疗数据的采集分析系统300,包括:患者相关数据采集模块310;患者相关信息语义理解模块320;患者信息语义关联模块330;体检数据采集模块340;体检语义理解模块350;查询模块360;特征优化模块370;以及,患病风险预警模块380。
其中,所述患者相关数据采集模块310,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;所述患者相关信息语义理解模块320,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;所述患者信息语义关联模块330,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;所述体检数据采集模块340,用于获取待诊断患者的体检数据;所述体检语义理解模块350,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;所述查询模块360,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;所述特征优化模块370,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及,所述患病风险预警模块380,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
图2为根据本申请实施例的医疗数据的采集分析系统的系统架构图。如图2所示,在该网络架构中,首先通过所述患者相关数据采集模块310获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;接着,所述患者相关信息语义理解模块320将各个所述患者相关数据采集模块310获得的糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;所述患者信息语义关联模块330将所述患者相关信息语义理解模块320得到的多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;然后,所述体检数据采集模块340获取待诊断患者的体检数据;所述体检语义理解模块350将所述体检数据采集模块340获取的待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;所述查询模块360以所述体检语义理解模块350得到的待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述患者信息语义关联模块330得到的糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;所述特征优化模块370对所述查询模块360得到的分类特征向量进行特征分布优化以得到优化分类特征向量;进而,所述患病风险预警模块380将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患者相关数据采集模块310和所述体检数据采集模块340,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;以及,获取待诊断患者的体检数据。应可以理解,在实际进行糖尿病风险预测评估时,考虑到糖尿病与家族史、地区等因素有关,因此,可利用医疗数据采集分析系统对某个地区的糖尿病患者进行数据分析。还考虑到由于某地区的糖尿病患者的相关数据具有着相互的语义关联关系,并且待诊断患者的体检数据也就有着语义理解特征信息。因此,在本申请的技术方案中,可通过所述某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征进行挖掘和分析,以此来进行糖尿病患者的风险等级评估预测。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患者相关信息语义理解模块320,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量。考虑到由于所述某一地区的所有糖尿病患者的相关数据中的各个数据项有着上下文的语义关联关系,为了能够对于所述某一地区的所有糖尿病患者的相关数据进行语义理解,在本申请的技术方案中,进一步将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器中进行编码,以提取出每个所述糖尿病患者的相关数据中的各个数据项基于全局的上下文语义关联特征信息,从而得到多个糖尿病患者语义理解特征向量。
图3为根据本申请实施例的医疗数据的采集分析系统中患者相关信息语义理解模块的框图。如图3所示,所述患者相关信息语义理解模块320,包括:第一分词单元321,用于对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;第一词嵌入单元322,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第一上下文编码单元323,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,第一级联单元324,用于将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。其中,所述第一上下文编码单元323,包括:查询向量构造子单元,用于将所述词嵌入向量的序列进行一维排列以得到全局特征向量;自注意子单元,用于计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,级联子单元,用于将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患者信息语义关联模块330,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵。为了探究该地区的所有糖尿病患者的相关数据之间的语义关联特性,以帮助医疗机构和医生更好地了解该地区的糖尿病的发展规律以及预测其风险等级,在本申请的技术方案中,进一步将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型中进行特征挖掘,以提取出该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息,从而得到糖尿病患者间语义关联特征矩阵。在一个具体示例中,所述卷积神经网络包括相互级联的多个神经网络层,其中各个神经网络层包括卷积层、池化层和激活层。其中,在所述卷积神经网络的编码过程中,所述卷积神经网络的各层在层的正向传递过程中对输入数据使用所述卷积层进行基于卷积核的卷积处理、使用所述池化层对由所述卷积层输出的卷积特征图进行池化处理和使用所述激活层对由所述池化层输出的池化特征图进行激活处理。
图4为根据本申请实施例的医疗数据的采集分析系统中卷积神经网络编码的流程图。如图4所示,在所述卷积神经网络的编码过程中,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:S210,对输入数据进行卷积处理以得到卷积特征图;S220,对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,S230,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述体检语义理解模块350,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量。也就是,将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器中进行编码,以提取出所述待诊断患者的体检数据中基于全局的上下文语义关联特征信息,从而得到待诊断患者体检数据语义理解特征向量。具体地,在本申请的一个具体示例中,将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量,包括:对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述查询模块360,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量。也就是,在得到所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵后,进一步计算两者的矩阵乘积以此来将所述待诊断患者体检数据语义理解特征向量映射到所述糖尿病患者间语义关联特征矩阵的高维空间中,以刻画出在以所述该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息为背景基础下的关于所述待诊断患者的体检数据语义理解特征信息。更具体地,以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述特征优化模块370,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量。考虑到所述糖尿病患者间语义关联特征矩阵表达多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征,而由于各个所述糖尿病患者的相关数据可能存在的对于分类任务的意义差异和样本数目导致的数据语义关联度分布不均匀,当将所述多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征映射到所述待诊断患者体检数据语义理解特征向量所表达的单个患者的体检数据语义特征空间内后,会存在所得到的所述分类特征向量在高维特征空间内的概率密度表示下的维度区分度不够,影响所述分类特征向量在分类任务下的类概率表达,降低了所述分类特征向量通过分类器得到的分类结果的准确性。因此,本申请的申请人对所述分类特征向量进行高斯概率密度的流形曲面维度正交化,具体表示为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。这里,通过以表达流形曲面的高维特征集合的均值和标准差的平方根来表征曲面单位切向量模长和单位法向量模长,可以将所述分类特征向量/>的高维特征流形的流形曲面在切平面和法平面上进行基于单位模长的正交投影,从而基于高斯特征流形几何的基本结构进行高维特征的概率密度的维度重整,以通过提升概率密度的维度正交化来提升优化后的分类特征向量在分类任务下的类概率表达的准确性,从而改进优化后的所述分类特征向量通过分类器得到的分类结果的准确性。这样,能够有效地进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患病风险预警模块380,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。也就是,在得到所述优化分类特征向量后,进一步将其作为分类特征向量通过分类器以得到用于表示待诊断患者发展为糖尿病的风险等级的分类结果。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,使用所述分类器的多个全连接层对所述优化分类特征向量进行多次全连接编码以得到优化编码分类特征向量;进而,将所述优化编码分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到分类标签。在本申请的技术方案中,所述分类器的标签为所述待诊断患者发展为糖尿病的风险等级标签,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。因此,在得到所述分类结果后,可基于所述分类结果来帮助医疗机构和医生更好地了解该地区糖尿病的发展规律以及预测患者的风险等级,进而针对不同阶段的患者进行精准干预和治疗。
综上,根据本申请实施例的医疗数据的采集分析系统300被阐明,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
如上所述,根据本申请实施例的医疗数据的采集分析系统可以实现在各种终端设备中。在一个示例中,根据本申请实施例的医疗数据的采集分析系统300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该医疗数据的采集分析系统300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该医疗数据的采集分析系统300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该医疗数据的采集分析系统300与该终端设备也可以是分立的设备,并且该医疗数据的采集分析系统300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法:图5为根据本申请实施例的医疗数据的采集分析方法的流程图。如图5所示,根据本申请实施例的医疗数据的采集分析方法,包括步骤:S110,获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;S120,将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;S130,将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;S140,获取待诊断患者的体检数据;S150,将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;S160,以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;S170,对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及,S180,将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S120,包括:对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。其中,使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:将所述词嵌入向量的序列进行一维排列以得到全局特征向量;计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S130,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S150,包括:对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S160,包括:以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S170,包括:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S180,包括:使用所述分类器的多个全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的医疗数据的采集分析方法被阐明,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
示例性电子设备:下面,参考图6来描述根据本申请实施例的电子设备。
图6图示了根据本申请实施例的电子设备的框图。
如图6所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的医疗数据的采集分析系统中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如分类特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质:除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的医疗数据的采集分析方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的医疗数据的采集分析方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种医疗数据的采集分析系统,其特征在于,包括:患者相关数据采集模块,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;患者相关信息语义理解模块,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;患者信息语义关联模块,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;体检数据采集模块,用于获取待诊断患者的体检数据;体检语义理解模块,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;查询模块,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;特征优化模块,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及患病风险预警模块,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
2.根据权利要求1所述的医疗数据的采集分析系统,其特征在于,所述患者相关信息语义理解模块,包括:第一分词单元,用于对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;第一词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第一上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及第一级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。
3.根据权利要求2所述的医疗数据的采集分析系统,其特征在于,所述第一上下文编码单元,包括:查询向量构造子单元,用于将所述词嵌入向量的序列进行一维排列以得到全局特征向量;自注意子单元,用于计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及级联子单元,用于将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
4.根据权利要求3所述的医疗数据的采集分析系统,其特征在于,所述患者信息语义关联模块,用于:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
5.根据权利要求4所述的医疗数据的采集分析系统,其特征在于,所述体检语义理解模块,包括:第二分词单元,用于对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;第二词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第二上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及第二级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
6.根据权利要求5所述的医疗数据的采集分析系统,其特征在于,所述查询模块,用于:以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
7.根据权利要求6所述的医疗数据的采集分析系统,其特征在于,所述特征优化模块,用于:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
8.根据权利要求7所述的医疗数据的采集分析系统,其特征在于,所述患病风险预警模块,包括:全连接编码单元,用于使用所述分类器的多个全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及分类结果生成单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
9.一种医疗数据的采集分析方法,其特征在于,包括:获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;获取待诊断患者的体检数据;将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
10.根据权利要求9所述的一种医疗数据的采集分析方法,其特征在于,对所述分类特征向量进行特征分布优化以得到优化分类特征向量,包括:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
CN202310623484.4A 2023-05-30 2023-05-30 医疗数据的采集分析系统及其方法 Active CN116580849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310623484.4A CN116580849B (zh) 2023-05-30 2023-05-30 医疗数据的采集分析系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310623484.4A CN116580849B (zh) 2023-05-30 2023-05-30 医疗数据的采集分析系统及其方法

Publications (2)

Publication Number Publication Date
CN116580849A true CN116580849A (zh) 2023-08-11
CN116580849B CN116580849B (zh) 2024-01-12

Family

ID=87543936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310623484.4A Active CN116580849B (zh) 2023-05-30 2023-05-30 医疗数据的采集分析系统及其方法

Country Status (1)

Country Link
CN (1) CN116580849B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251699A (zh) * 2023-11-17 2023-12-19 北京无极慧通科技有限公司 基于人工智能的医疗大数据分析方法及系统
CN117457229A (zh) * 2023-12-26 2024-01-26 吉林大学 基于人工智能的麻醉深度监测系统及方法
CN117637153A (zh) * 2024-01-23 2024-03-01 吉林大学 患者安全护理的信息化管理系统及方法
CN117710166A (zh) * 2024-02-06 2024-03-15 吉林大学 用于小儿神经护理的教学指导检测系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN115547466A (zh) * 2022-09-05 2022-12-30 西安启玥华辰软件咨询开发有限公司 基于大数据的医疗机构登记评审系统及其方法
CN115719625A (zh) * 2022-08-29 2023-02-28 南京邮电大学 融合知识图谱和深度学习的糖尿病预测方法及系统
CN115796173A (zh) * 2023-02-20 2023-03-14 杭银消费金融股份有限公司 针对监管报送需求的数据处理方法和系统
CN115830718A (zh) * 2023-02-14 2023-03-21 福建中医药大学 基于步态识别预测康复训练效果的数据处理系统
CN115983984A (zh) * 2023-02-20 2023-04-18 杭银消费金融股份有限公司 一种多模型融合的客户风险评级方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN115719625A (zh) * 2022-08-29 2023-02-28 南京邮电大学 融合知识图谱和深度学习的糖尿病预测方法及系统
CN115547466A (zh) * 2022-09-05 2022-12-30 西安启玥华辰软件咨询开发有限公司 基于大数据的医疗机构登记评审系统及其方法
CN115830718A (zh) * 2023-02-14 2023-03-21 福建中医药大学 基于步态识别预测康复训练效果的数据处理系统
CN115796173A (zh) * 2023-02-20 2023-03-14 杭银消费金融股份有限公司 针对监管报送需求的数据处理方法和系统
CN115983984A (zh) * 2023-02-20 2023-04-18 杭银消费金融股份有限公司 一种多模型融合的客户风险评级方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIELA G. CALÓ: "Finding Relevant Linear Manifolds in Classification by Gaussian Mixtures", COMMUNICATIONS IN STATISTICS - THEORY AND METHODS, pages 3040 - 3053 *
吴明娟;: "人工智能在糖尿病临床诊断中的应用", 电脑编程技巧与维护, no. 05 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251699A (zh) * 2023-11-17 2023-12-19 北京无极慧通科技有限公司 基于人工智能的医疗大数据分析方法及系统
CN117251699B (zh) * 2023-11-17 2024-02-02 北京无极慧通科技有限公司 基于人工智能的医疗大数据分析方法及系统
CN117457229A (zh) * 2023-12-26 2024-01-26 吉林大学 基于人工智能的麻醉深度监测系统及方法
CN117457229B (zh) * 2023-12-26 2024-03-08 吉林大学 基于人工智能的麻醉深度监测系统及方法
CN117637153A (zh) * 2024-01-23 2024-03-01 吉林大学 患者安全护理的信息化管理系统及方法
CN117637153B (zh) * 2024-01-23 2024-03-29 吉林大学 患者安全护理的信息化管理系统及方法
CN117710166A (zh) * 2024-02-06 2024-03-15 吉林大学 用于小儿神经护理的教学指导检测系统及方法

Also Published As

Publication number Publication date
CN116580849B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN116580849B (zh) 医疗数据的采集分析系统及其方法
El-Shafiey et al. A hybrid GA and PSO optimized approach for heart-disease prediction based on random forest
US20200303072A1 (en) Method and system for supporting medical decision making
Bashir et al. BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting
Padula et al. Machine learning methods in health economics and outcomes research—the PALISADE checklist: a good practices report of an ISPOR task force
WO2020198855A1 (en) Method and system for mapping text phrases to a taxonomy
CN111914562B (zh) 电子信息分析方法、装置、设备及可读存储介质
CN117251699B (zh) 基于人工智能的医疗大数据分析方法及系统
US11720751B2 (en) Global, model-agnostic machine learning explanation technique for textual data
US20170228651A1 (en) Data driven featurization and modeling
CN110428907A (zh) 一种基于非结构化电子病历的文本挖掘方法及系统
Jensen et al. Approaching the accuracy–cost conflict in embedded classification system design
Assari et al. Heart disease diagnosis using data mining techniques
CN114358169B (zh) 一种基于XGBoost的结直肠癌检测系统
Ansari et al. Performance evaluation of machine learning techniques (MLT) for heart disease prediction
AlZu’Bi et al. transfer learning enabled CAD system for monkey pox classification
CN117316462A (zh) 一种医疗数据管理方法
Singh et al. An analysis of detection and diagnosis of different classes of skin diseases using artificial intelligence-based learning approaches with hyper parameters
CN117271777A (zh) 医疗美容数据分类处理方法及系统
CN113241198B (zh) 用户数据处理方法、装置、设备及存储介质
CN114974554A (zh) 融合图谱知识强化病历特征的方法、装置及存储介质
Zhu et al. Surrogate-assisted firefly algorithm for breast cancer detection
CN113436725A (zh) 数据处理方法、系统、计算机设备及计算机可读存储介质
Zhao et al. Protein function prediction with functional and topological knowledge of gene ontology
Cruz et al. Data Mining Techniques for Early Detection of Breast Cancer.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231220

Address after: No. 805, D-12 Workshop, No. 1986, Mount Taishan Road, Tianyuan District, Zhuzhou City, Hunan Province, 412000

Applicant after: Huachuang Tiancheng Technology Co.,Ltd.

Address before: Floor 7, No. 668 Jianshe Third Road, Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province, 310000

Applicant before: Hangzhou Yichu Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant