CN116580849A - 医疗数据的采集分析系统及其方法 - Google Patents
医疗数据的采集分析系统及其方法 Download PDFInfo
- Publication number
- CN116580849A CN116580849A CN202310623484.4A CN202310623484A CN116580849A CN 116580849 A CN116580849 A CN 116580849A CN 202310623484 A CN202310623484 A CN 202310623484A CN 116580849 A CN116580849 A CN 116580849A
- Authority
- CN
- China
- Prior art keywords
- feature
- semantic
- patient
- classification
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims description 27
- 239000013598 vector Substances 0.000 claims description 286
- 206010012601 diabetes mellitus Diseases 0.000 claims description 93
- 239000011159 matrix material Substances 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000005457 optimization Methods 0.000 claims description 26
- 238000011282 treatment Methods 0.000 claims description 21
- 229940050561 matrix product Drugs 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 201000010099 disease Diseases 0.000 claims description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000013480 data collection Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及数据分析领域,其具体地公开了一种医疗数据的采集分析系统及其方法,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
Description
技术领域
本申请涉及数据分析领域,且更为具体地,涉及一种医疗数据的采集分析系统及其方法。
背景技术
随着医疗信息化的推进,越来越多的医疗数据被采集和存储。这些数据包含了大量的医疗信息,为医疗机构和相关研究提供了宝贵的资源。其中,针对糖尿病等慢性病进行数据分析可以帮助医疗机构和医生更好地了解疾病的发展规律以及预测其风险等级,针对不同阶段的患者进行精准干预和治疗,从而提高患者的生活质量和延长其寿命。
然而,传统的医疗数据采集分析方案需要人工进行录入分析,这种方式易受人为因素的干扰,且效率低下,并且目前的医疗数据采集分析方案主要仅支持基本统计和应用,无法更深层次地分析数据背后的价值,导致无法帮助医疗机构和医生更有效地进行患者的病情分析干预和治疗。
因此,期望一种优化的医疗数据的采集分析系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种医疗数据的采集分析系统及其方法,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
根据本申请的一个方面,提供了一种医疗数据的采集分析系统,其包括:患者相关数据采集模块,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;患者相关信息语义理解模块,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;患者信息语义关联模块,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;体检数据采集模块,用于获取待诊断患者的体检数据;体检语义理解模块,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;查询模块,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;特征优化模块,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及患病风险预警模块,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
在上述医疗数据的采集分析系统中,所述患者相关信息语义理解模块,包括:第一分词单元,用于对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;第一词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第一上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,第一级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。
在上述医疗数据的采集分析系统中,所述第一上下文编码单元,包括:查询向量构造子单元,用于将所述词嵌入向量的序列进行一维排列以得到全局特征向量;自注意子单元,用于计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,级联子单元,用于将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在上述医疗数据的采集分析系统中,所述患者信息语义关联模块,用于:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
在上述医疗数据的采集分析系统中,所述体检语义理解模块,包括:第二分词单元,用于对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;第二词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第二上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,第二级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
在上述医疗数据的采集分析系统中,所述查询模块,用于:以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
在上述医疗数据的采集分析系统中,所述特征优化模块,用于:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
在上述医疗数据的采集分析系统中,所述患病风险预警模块,包括:全连接编码单元,用于使用所述分类器的多个全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类结果生成单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一方面,提供了一种医疗数据的采集分析方法,其包括:
获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;获取待诊断患者的体检数据;将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的医疗数据的采集分析方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的医疗数据的采集分析方法。
与现有技术相比,本申请提供的一种医疗数据的采集分析系统及其方法,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的医疗数据的采集分析系统的框图。
图2为根据本申请实施例的医疗数据的采集分析系统的系统架构图。
图3为根据本申请实施例的医疗数据的采集分析系统中患者相关信息语义理解模块的框图。
图4为根据本申请实施例的医疗数据的采集分析系统中卷积神经网络编码的流程图。
图5为根据本申请实施例的医疗数据的采集分析方法的流程图。
图6为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述:如上所述,传统的医疗数据采集分析方案需要人工进行录入分析,这种方式易受人为因素的干扰,且效率低下,并且目前的医疗数据采集分析方案主要仅支持基本统计和应用,无法更深层次地分析数据背后的价值,导致无法帮助医疗机构和医生更有效地进行患者的病情分析干预和治疗。因此,期望一种优化的医疗数据的采集分析系统。
相应地,考虑到在实际进行糖尿病风险预测评估时,由于糖尿病与家族史、地区等因素有关,因此,在本申请的技术方案中,期望利用医疗数据采集分析系统对某个地区的糖尿病患者进行数据分析。首先,该系统从各类医疗信息系统和数据库中采集关于该地区糖尿病患者的相关数据,如年龄、性别、家族史、治疗记录等。然后,数据分析模块利用机器学习算法对这些数据进行多维度、多层次、多角度的分析,并使用分类模型来预测患者是否会发展为糖尿病并进行风险评估。在此过程中,还考虑到由于某地区的糖尿病患者的相关数据具有着相互的语义关联关系,并且待诊断患者的体检数据也就有着语义理解特征信息。因此,关键和难点在于如何进行所述某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征分布信息,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录。接着,考虑到由于所述某一地区的所有糖尿病患者的相关数据中的各个数据项有着上下文的语义关联关系,为了能够对于所述某一地区的所有糖尿病患者的相关数据进行语义理解,在本申请的技术方案中,进一步将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器中进行编码,以提取出每个所述糖尿病患者的相关数据中的各个数据项基于全局的上下文语义关联特征信息,从而得到多个糖尿病患者语义理解特征向量。
然后,为了探究该地区的所有糖尿病患者的相关数据之间的语义关联特性,以帮助医疗机构和医生更好地了解该地区的糖尿病的发展规律以及预测其风险等级,在本申请的技术方案中,进一步将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型中进行特征挖掘,以提取出该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息,从而得到糖尿病患者间语义关联特征矩阵。
在实际进行待诊断患者的糖尿病风险检测评估时,首先,获取待诊断患者的体检数据,并将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器中进行编码,以提取出所述待诊断患者的体检数据中基于全局的上下文语义关联特征信息,从而得到待诊断患者体检数据语义理解特征向量。
进一步地,以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量,以此来将所述待诊断患者体检数据语义理解特征向量映射到所述糖尿病患者间语义关联特征矩阵的高维空间中,以刻画出在以所述该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息为背景基础下的关于所述待诊断患者的体检数据语义理解特征信息。
接着,将所述分类特征向量通过分类器中进行分类处理,以得到用于表示待诊断患者发展为糖尿病的风险等级的分类结果。也就是,在本申请的技术方案中,所述分类器的标签为所述待诊断患者发展为糖尿病的风险等级标签,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。因此,在得到所述分类结果后,可基于所述分类结果来帮助医疗机构和医生更好地了解该地区糖尿病的发展规律以及预测患者的风险等级,进而针对不同阶段的患者进行精准干预和治疗。
特别地,在本申请的技术方案中,所述糖尿病患者间语义关联特征矩阵表达多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征,而由于各个所述糖尿病患者的相关数据可能存在的对于分类任务的意义差异和样本数目导致的数据语义关联度分布不均匀,当将所述多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征映射到所述待诊断患者体检数据语义理解特征向量所表达的单个患者的体检数据语义特征空间内后,会存在所得到的所述分类特征向量在高维特征空间内的概率密度表示下的维度区分度不够,影响所述分类特征向量在分类任务下的类概率表达,降低了所述分类特征向量通过分类器得到的分类结果的准确性。
因此,本申请的申请人对所述分类特征向量进行高斯概率密度的流形曲面维度正交化,具体表示为:/>其中/>和/>是特征值集合的均值和标准差,且/>是优化后的所述分类特征向量的第/>个位置的特征值。
这里,通过以表达流形曲面的高维特征集合的均值和标准差的平方根来表征曲面单位切向量模长和单位法向量模长,可以将所述分类特征向量的高维特征流形的流形曲面在切平面和法平面上进行基于单位模长的正交投影,从而基于高斯特征流形几何的基本结构进行高维特征的概率密度的维度重整,以通过提升概率密度的维度正交化来提升优化后的分类特征向量在分类任务下的类概率表达的准确性,从而改进优化后的所述分类特征向量通过分类器得到的分类结果的准确性。这样,能够有效地进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
基于此,本申请提出了一种医疗数据的采集分析系统,其包括:患者相关数据采集模块,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;患者相关信息语义理解模块,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;患者信息语义关联模块,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;体检数据采集模块,用于获取待诊断患者的体检数据;体检语义理解模块,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;查询模块,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;特征优化模块,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及,患病风险预警模块,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统:图1为根据本申请实施例的医疗数据的采集分析系统的框图。如图1所示,根据本申请实施例的医疗数据的采集分析系统300,包括:患者相关数据采集模块310;患者相关信息语义理解模块320;患者信息语义关联模块330;体检数据采集模块340;体检语义理解模块350;查询模块360;特征优化模块370;以及,患病风险预警模块380。
其中,所述患者相关数据采集模块310,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;所述患者相关信息语义理解模块320,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;所述患者信息语义关联模块330,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;所述体检数据采集模块340,用于获取待诊断患者的体检数据;所述体检语义理解模块350,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;所述查询模块360,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;所述特征优化模块370,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及,所述患病风险预警模块380,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
图2为根据本申请实施例的医疗数据的采集分析系统的系统架构图。如图2所示,在该网络架构中,首先通过所述患者相关数据采集模块310获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;接着,所述患者相关信息语义理解模块320将各个所述患者相关数据采集模块310获得的糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;所述患者信息语义关联模块330将所述患者相关信息语义理解模块320得到的多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;然后,所述体检数据采集模块340获取待诊断患者的体检数据;所述体检语义理解模块350将所述体检数据采集模块340获取的待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;所述查询模块360以所述体检语义理解模块350得到的待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述患者信息语义关联模块330得到的糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;所述特征优化模块370对所述查询模块360得到的分类特征向量进行特征分布优化以得到优化分类特征向量;进而,所述患病风险预警模块380将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患者相关数据采集模块310和所述体检数据采集模块340,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;以及,获取待诊断患者的体检数据。应可以理解,在实际进行糖尿病风险预测评估时,考虑到糖尿病与家族史、地区等因素有关,因此,可利用医疗数据采集分析系统对某个地区的糖尿病患者进行数据分析。还考虑到由于某地区的糖尿病患者的相关数据具有着相互的语义关联关系,并且待诊断患者的体检数据也就有着语义理解特征信息。因此,在本申请的技术方案中,可通过所述某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征进行挖掘和分析,以此来进行糖尿病患者的风险等级评估预测。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患者相关信息语义理解模块320,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量。考虑到由于所述某一地区的所有糖尿病患者的相关数据中的各个数据项有着上下文的语义关联关系,为了能够对于所述某一地区的所有糖尿病患者的相关数据进行语义理解,在本申请的技术方案中,进一步将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器中进行编码,以提取出每个所述糖尿病患者的相关数据中的各个数据项基于全局的上下文语义关联特征信息,从而得到多个糖尿病患者语义理解特征向量。
图3为根据本申请实施例的医疗数据的采集分析系统中患者相关信息语义理解模块的框图。如图3所示,所述患者相关信息语义理解模块320,包括:第一分词单元321,用于对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;第一词嵌入单元322,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第一上下文编码单元323,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,第一级联单元324,用于将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。其中,所述第一上下文编码单元323,包括:查询向量构造子单元,用于将所述词嵌入向量的序列进行一维排列以得到全局特征向量;自注意子单元,用于计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,级联子单元,用于将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患者信息语义关联模块330,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵。为了探究该地区的所有糖尿病患者的相关数据之间的语义关联特性,以帮助医疗机构和医生更好地了解该地区的糖尿病的发展规律以及预测其风险等级,在本申请的技术方案中,进一步将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型中进行特征挖掘,以提取出该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息,从而得到糖尿病患者间语义关联特征矩阵。在一个具体示例中,所述卷积神经网络包括相互级联的多个神经网络层,其中各个神经网络层包括卷积层、池化层和激活层。其中,在所述卷积神经网络的编码过程中,所述卷积神经网络的各层在层的正向传递过程中对输入数据使用所述卷积层进行基于卷积核的卷积处理、使用所述池化层对由所述卷积层输出的卷积特征图进行池化处理和使用所述激活层对由所述池化层输出的池化特征图进行激活处理。
图4为根据本申请实施例的医疗数据的采集分析系统中卷积神经网络编码的流程图。如图4所示,在所述卷积神经网络的编码过程中,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:S210,对输入数据进行卷积处理以得到卷积特征图;S220,对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,S230,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述体检语义理解模块350,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量。也就是,将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器中进行编码,以提取出所述待诊断患者的体检数据中基于全局的上下文语义关联特征信息,从而得到待诊断患者体检数据语义理解特征向量。具体地,在本申请的一个具体示例中,将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量,包括:对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述查询模块360,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量。也就是,在得到所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵后,进一步计算两者的矩阵乘积以此来将所述待诊断患者体检数据语义理解特征向量映射到所述糖尿病患者间语义关联特征矩阵的高维空间中,以刻画出在以所述该地区整体的关于所述各个糖尿病患者的相关数据的语义理解特征之间的关联性特征信息为背景基础下的关于所述待诊断患者的体检数据语义理解特征信息。更具体地,以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述特征优化模块370,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量。考虑到所述糖尿病患者间语义关联特征矩阵表达多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征,而由于各个所述糖尿病患者的相关数据可能存在的对于分类任务的意义差异和样本数目导致的数据语义关联度分布不均匀,当将所述多个糖尿病患者的相关数据的局部数据语义-样本维度关联特征映射到所述待诊断患者体检数据语义理解特征向量所表达的单个患者的体检数据语义特征空间内后,会存在所得到的所述分类特征向量在高维特征空间内的概率密度表示下的维度区分度不够,影响所述分类特征向量在分类任务下的类概率表达,降低了所述分类特征向量通过分类器得到的分类结果的准确性。因此,本申请的申请人对所述分类特征向量进行高斯概率密度的流形曲面维度正交化,具体表示为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。这里,通过以表达流形曲面的高维特征集合的均值和标准差的平方根来表征曲面单位切向量模长和单位法向量模长,可以将所述分类特征向量/>的高维特征流形的流形曲面在切平面和法平面上进行基于单位模长的正交投影,从而基于高斯特征流形几何的基本结构进行高维特征的概率密度的维度重整,以通过提升概率密度的维度正交化来提升优化后的分类特征向量在分类任务下的类概率表达的准确性,从而改进优化后的所述分类特征向量通过分类器得到的分类结果的准确性。这样,能够有效地进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
具体地,在所述医疗数据的采集分析系统300的运行过程中,所述患病风险预警模块380,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。也就是,在得到所述优化分类特征向量后,进一步将其作为分类特征向量通过分类器以得到用于表示待诊断患者发展为糖尿病的风险等级的分类结果。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,使用所述分类器的多个全连接层对所述优化分类特征向量进行多次全连接编码以得到优化编码分类特征向量;进而,将所述优化编码分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到分类标签。在本申请的技术方案中,所述分类器的标签为所述待诊断患者发展为糖尿病的风险等级标签,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。因此,在得到所述分类结果后,可基于所述分类结果来帮助医疗机构和医生更好地了解该地区糖尿病的发展规律以及预测患者的风险等级,进而针对不同阶段的患者进行精准干预和治疗。
综上,根据本申请实施例的医疗数据的采集分析系统300被阐明,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
如上所述,根据本申请实施例的医疗数据的采集分析系统可以实现在各种终端设备中。在一个示例中,根据本申请实施例的医疗数据的采集分析系统300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该医疗数据的采集分析系统300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该医疗数据的采集分析系统300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该医疗数据的采集分析系统300与该终端设备也可以是分立的设备,并且该医疗数据的采集分析系统300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法:图5为根据本申请实施例的医疗数据的采集分析方法的流程图。如图5所示,根据本申请实施例的医疗数据的采集分析方法,包括步骤:S110,获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;S120,将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;S130,将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;S140,获取待诊断患者的体检数据;S150,将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;S160,以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;S170,对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及,S180,将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S120,包括:对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。其中,使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量,包括:将所述词嵌入向量的序列进行一维排列以得到全局特征向量;计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及,将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S130,包括:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S150,包括:对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S160,包括:以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S170,包括:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
在一个示例中,在上述医疗数据的采集分析方法中,所述步骤S180,包括:使用所述分类器的多个全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的医疗数据的采集分析方法被阐明,其通过采用基于机器学习算法挖掘出某地区的糖尿病患者的相关数据中各个数据项的上下文语义关联特征和所述待诊断患者的体检数据语义理解特征之间的映射关联特征,以此来进行糖尿病患者的风险等级评估预测,以帮助医疗机构和医生针对不同阶段的患者进行干预和治疗。
示例性电子设备:下面,参考图6来描述根据本申请实施例的电子设备。
图6图示了根据本申请实施例的电子设备的框图。
如图6所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的医疗数据的采集分析系统中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如分类特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质:除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的医疗数据的采集分析方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的医疗数据的采集分析方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种医疗数据的采集分析系统,其特征在于,包括:患者相关数据采集模块,用于获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;患者相关信息语义理解模块,用于将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;患者信息语义关联模块,用于将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;体检数据采集模块,用于获取待诊断患者的体检数据;体检语义理解模块,用于将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;查询模块,用于以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;特征优化模块,用于对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及患病风险预警模块,用于将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
2.根据权利要求1所述的医疗数据的采集分析系统,其特征在于,所述患者相关信息语义理解模块,包括:第一分词单元,用于对各个所述糖尿病患者的相关数据进行分词处理以将各个所述糖尿病患者的相关数据转化为由多个词组成的词序列;第一词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第一上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及第一级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述多个糖尿病患者语义理解特征向量。
3.根据权利要求2所述的医疗数据的采集分析系统,其特征在于,所述第一上下文编码单元,包括:查询向量构造子单元,用于将所述词嵌入向量的序列进行一维排列以得到全局特征向量;自注意子单元,用于计算所述全局特征向量与所述词嵌入向量的序列中各个词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词嵌入向量的序列中各个词嵌入向量进行加权以得到所述多个上下文语义特征向量;以及级联子单元,用于将所述多个上下文语义特征向量进行级联以得到所述多个全局上下文语义特征向量。
4.根据权利要求3所述的医疗数据的采集分析系统,其特征在于,所述患者信息语义关联模块,用于:使用所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的卷积神经网络的最后一层的输出为所述糖尿病患者间语义关联特征矩阵,所述作为特征提取器的卷积神经网络的第一层的输入为所述多个糖尿病患者语义理解特征向量排列得到的二维特征矩阵。
5.根据权利要求4所述的医疗数据的采集分析系统,其特征在于,所述体检语义理解模块,包括:第二分词单元,用于对所述待诊断患者的体检数据进行分词处理以将所述待诊断患者的体检数据转化为由多个词组成的词序列;第二词嵌入单元,用于使用所述包含嵌入层的语义编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;第二上下文编码单元,用于使用所述包含嵌入层的语义编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及第二级联单元,用于将所述多个全局上下文语义特征向量进行级联以得到所述待诊断患者体检数据语义理解特征向量。
6.根据权利要求5所述的医疗数据的采集分析系统,其特征在于,所述查询模块,用于:以如下公式计算所述待诊断患者体检数据语义理解特征向量和所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;其中,所述公式为:,其中/>表示所述待诊断患者体检数据语义理解特征向量,/>表示所述糖尿病患者间语义关联特征矩阵,/> 表示所述分类特征向量。
7.根据权利要求6所述的医疗数据的采集分析系统,其特征在于,所述特征优化模块,用于:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
8.根据权利要求7所述的医疗数据的采集分析系统,其特征在于,所述患病风险预警模块,包括:全连接编码单元,用于使用所述分类器的多个全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量;以及分类结果生成单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
9.一种医疗数据的采集分析方法,其特征在于,包括:获取某一地区的所有糖尿病患者的相关数据,其中,所述相关数据包括年龄、性别、家族史和治疗记录;将各个所述糖尿病患者的相关数据分别通过包含词嵌入层的语义编码器以得到多个糖尿病患者语义理解特征向量;将所述多个糖尿病患者语义理解特征向量排列为二维特征矩阵后通过作为特征提取器的卷积神经网络模型以得到糖尿病患者间语义关联特征矩阵;获取待诊断患者的体检数据;将所述待诊断患者的体检数据通过所述包含词嵌入层的语义编码器以得到待诊断患者体检数据语义理解特征向量;以所述待诊断患者体检数据语义理解特征向量作为查询特征向量,计算其与所述糖尿病患者间语义关联特征矩阵之间的矩阵乘积以得到分类特征向量;对所述分类特征向量进行特征分布优化以得到优化分类特征向量;以及将所述优化分类特征向量通过分类器以得到分类结果,所述分类结果用于表示待诊断患者发展为糖尿病的风险等级。
10.根据权利要求9所述的一种医疗数据的采集分析方法,其特征在于,对所述分类特征向量进行特征分布优化以得到优化分类特征向量,包括:以如下优化公式对所述分类特征向量进行高斯概率密度的流形曲面维度正交化以得到所述优化分类特征向量;其中,所述优化公式为:,其中/>是所述分类特征向量的第/>个位置的特征值, />和/>分别是所述分类特征向量中各个位置特征值集合的均值和标准差,且/>是所述优化分类特征向量的第/>个位置的特征值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310623484.4A CN116580849B (zh) | 2023-05-30 | 2023-05-30 | 医疗数据的采集分析系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310623484.4A CN116580849B (zh) | 2023-05-30 | 2023-05-30 | 医疗数据的采集分析系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116580849A true CN116580849A (zh) | 2023-08-11 |
CN116580849B CN116580849B (zh) | 2024-01-12 |
Family
ID=87543936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310623484.4A Active CN116580849B (zh) | 2023-05-30 | 2023-05-30 | 医疗数据的采集分析系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580849B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251699A (zh) * | 2023-11-17 | 2023-12-19 | 北京无极慧通科技有限公司 | 基于人工智能的医疗大数据分析方法及系统 |
CN117457229A (zh) * | 2023-12-26 | 2024-01-26 | 吉林大学 | 基于人工智能的麻醉深度监测系统及方法 |
CN117637153A (zh) * | 2024-01-23 | 2024-03-01 | 吉林大学 | 患者安全护理的信息化管理系统及方法 |
CN117710166A (zh) * | 2024-02-06 | 2024-03-15 | 吉林大学 | 用于小儿神经护理的教学指导检测系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022134575A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
CN115547466A (zh) * | 2022-09-05 | 2022-12-30 | 西安启玥华辰软件咨询开发有限公司 | 基于大数据的医疗机构登记评审系统及其方法 |
CN115719625A (zh) * | 2022-08-29 | 2023-02-28 | 南京邮电大学 | 融合知识图谱和深度学习的糖尿病预测方法及系统 |
CN115796173A (zh) * | 2023-02-20 | 2023-03-14 | 杭银消费金融股份有限公司 | 针对监管报送需求的数据处理方法和系统 |
CN115830718A (zh) * | 2023-02-14 | 2023-03-21 | 福建中医药大学 | 基于步态识别预测康复训练效果的数据处理系统 |
CN115983984A (zh) * | 2023-02-20 | 2023-04-18 | 杭银消费金融股份有限公司 | 一种多模型融合的客户风险评级方法 |
-
2023
- 2023-05-30 CN CN202310623484.4A patent/CN116580849B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022134575A1 (zh) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
CN115719625A (zh) * | 2022-08-29 | 2023-02-28 | 南京邮电大学 | 融合知识图谱和深度学习的糖尿病预测方法及系统 |
CN115547466A (zh) * | 2022-09-05 | 2022-12-30 | 西安启玥华辰软件咨询开发有限公司 | 基于大数据的医疗机构登记评审系统及其方法 |
CN115830718A (zh) * | 2023-02-14 | 2023-03-21 | 福建中医药大学 | 基于步态识别预测康复训练效果的数据处理系统 |
CN115796173A (zh) * | 2023-02-20 | 2023-03-14 | 杭银消费金融股份有限公司 | 针对监管报送需求的数据处理方法和系统 |
CN115983984A (zh) * | 2023-02-20 | 2023-04-18 | 杭银消费金融股份有限公司 | 一种多模型融合的客户风险评级方法 |
Non-Patent Citations (2)
Title |
---|
DANIELA G. CALÓ: "Finding Relevant Linear Manifolds in Classification by Gaussian Mixtures", COMMUNICATIONS IN STATISTICS - THEORY AND METHODS, pages 3040 - 3053 * |
吴明娟;: "人工智能在糖尿病临床诊断中的应用", 电脑编程技巧与维护, no. 05 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251699A (zh) * | 2023-11-17 | 2023-12-19 | 北京无极慧通科技有限公司 | 基于人工智能的医疗大数据分析方法及系统 |
CN117251699B (zh) * | 2023-11-17 | 2024-02-02 | 北京无极慧通科技有限公司 | 基于人工智能的医疗大数据分析方法及系统 |
CN117457229A (zh) * | 2023-12-26 | 2024-01-26 | 吉林大学 | 基于人工智能的麻醉深度监测系统及方法 |
CN117457229B (zh) * | 2023-12-26 | 2024-03-08 | 吉林大学 | 基于人工智能的麻醉深度监测系统及方法 |
CN117637153A (zh) * | 2024-01-23 | 2024-03-01 | 吉林大学 | 患者安全护理的信息化管理系统及方法 |
CN117637153B (zh) * | 2024-01-23 | 2024-03-29 | 吉林大学 | 患者安全护理的信息化管理系统及方法 |
CN117710166A (zh) * | 2024-02-06 | 2024-03-15 | 吉林大学 | 用于小儿神经护理的教学指导检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116580849B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116580849B (zh) | 医疗数据的采集分析系统及其方法 | |
El-Shafiey et al. | A hybrid GA and PSO optimized approach for heart-disease prediction based on random forest | |
US20200303072A1 (en) | Method and system for supporting medical decision making | |
Bashir et al. | BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting | |
Padula et al. | Machine learning methods in health economics and outcomes research—the PALISADE checklist: a good practices report of an ISPOR task force | |
WO2020198855A1 (en) | Method and system for mapping text phrases to a taxonomy | |
CN111914562B (zh) | 电子信息分析方法、装置、设备及可读存储介质 | |
CN117251699B (zh) | 基于人工智能的医疗大数据分析方法及系统 | |
US11720751B2 (en) | Global, model-agnostic machine learning explanation technique for textual data | |
US20170228651A1 (en) | Data driven featurization and modeling | |
CN110428907A (zh) | 一种基于非结构化电子病历的文本挖掘方法及系统 | |
Jensen et al. | Approaching the accuracy–cost conflict in embedded classification system design | |
Assari et al. | Heart disease diagnosis using data mining techniques | |
CN114358169B (zh) | 一种基于XGBoost的结直肠癌检测系统 | |
Ansari et al. | Performance evaluation of machine learning techniques (MLT) for heart disease prediction | |
AlZu’Bi et al. | transfer learning enabled CAD system for monkey pox classification | |
CN117316462A (zh) | 一种医疗数据管理方法 | |
Singh et al. | An analysis of detection and diagnosis of different classes of skin diseases using artificial intelligence-based learning approaches with hyper parameters | |
CN117271777A (zh) | 医疗美容数据分类处理方法及系统 | |
CN113241198B (zh) | 用户数据处理方法、装置、设备及存储介质 | |
CN114974554A (zh) | 融合图谱知识强化病历特征的方法、装置及存储介质 | |
Zhu et al. | Surrogate-assisted firefly algorithm for breast cancer detection | |
CN113436725A (zh) | 数据处理方法、系统、计算机设备及计算机可读存储介质 | |
Zhao et al. | Protein function prediction with functional and topological knowledge of gene ontology | |
Cruz et al. | Data Mining Techniques for Early Detection of Breast Cancer. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231220 Address after: No. 805, D-12 Workshop, No. 1986, Mount Taishan Road, Tianyuan District, Zhuzhou City, Hunan Province, 412000 Applicant after: Huachuang Tiancheng Technology Co.,Ltd. Address before: Floor 7, No. 668 Jianshe Third Road, Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province, 310000 Applicant before: Hangzhou Yichu Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |