CN114708976A - 辅助诊断技术的方法、装置、设备及存储介质 - Google Patents

辅助诊断技术的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114708976A
CN114708976A CN202210242276.5A CN202210242276A CN114708976A CN 114708976 A CN114708976 A CN 114708976A CN 202210242276 A CN202210242276 A CN 202210242276A CN 114708976 A CN114708976 A CN 114708976A
Authority
CN
China
Prior art keywords
data
fusion
text
information
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210242276.5A
Other languages
English (en)
Inventor
李镒冲
韩桂圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwai Hospital of CAMS and PUMC
Original Assignee
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwai Hospital of CAMS and PUMC filed Critical Fuwai Hospital of CAMS and PUMC
Priority to CN202210242276.5A priority Critical patent/CN114708976A/zh
Publication of CN114708976A publication Critical patent/CN114708976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请实施例公开了一种辅助诊断技术的方法、装置、设备及存储介质,所述方法包括以下步骤:基于区块链技术,获取所有与用户相关的电子病历数据,将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,所述第一数据集包括预设数量个医院的检验生命体征数据和检验检查指标数据;将所述文本数据转换为文本向量表示,所述文本向量表示包括文本信息,将所述结构化数据转换为结构化向量表示,所述结构化向量表示包括结构化信息;将所述文本信息与所述结构化信息融合得到融合向量表示,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类。采用本申请,能够大幅度提升疾病分类的效率。

Description

辅助诊断技术的方法、装置、设备及存储介质
技术领域
本申请涉及医疗诊断领域,主要涉及了一种辅助诊断技术的方法、装置、设备及存储介质。
背景技术
目前,随着大量不同模态的电子病历数据的积累和病人对于高质量医疗服务需求的不断增加,需要快速根据病人多模态的病历数据得到疾病诊断。因此,人们需要越来越高效的数据融合和疾病辅助诊断手段。
现有技术中,医疗人员通过对病人的病历数据的分析和判断,得到疾病分类,耗费了大量时间和人力资源,且鉴于人类疾病的复杂程度以及医疗人员(尤其是基层医疗卫生机构)专业能力的参差不齐,疾病诊断的准确性也高低不一。因此,如何快速准确地进行病人疾病诊断,帮助医生提高诊疗效率,实现医疗智能化显得尤为重要。
发明内容
本申请的一个目的在于提供了一种辅助诊断技术的方法、装置、设备及存储介质,其优势在于,大幅度提升疾病分类的效率。
为实现上述目的,第一方面,本申请实施例提供一种辅助诊断技术的方法,其中包括:
基于区块链技术,获取所有与用户相关的电子病历数据,将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,所述第一数据集包括预设数量个医院的检验生命体征数据和检验检查指标数据;
将所述文本数据转换为文本向量表示,所述文本向量表示包括文本信息,将所述结构化数据(如生命体征、检验检查指标)转换为结构化向量表示,所述结构化向量表示包括结构化信息;
将所述文本信息与所述结构化信息融合得到融合向量表示,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类。
可以理解,通过将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,将所述文本信息与所述结构化信息融合得到融合向量表示,从而大幅度提升疾病分类的效率。
在一个可能的示例中,所述文本数据包括卷积神经网络的文本分类模型数据、快速文本分类数据和基于转换器的双向编码表征数据中的至少一项。
可以理解,所述文本数据包括卷积神经网络的文本分类模型数据、快速文本分类数据和基于转换器的双向编码表征数据中的至少一项,能够优化文本数据的提取效率。
在一个可能的示例中,所述结构化数据包括词向量数据、全局词向量数据和自编码器数据中的至少一项。
可以理解,所述结构化数据包括词向量数据、全局词向量数据和自编码器数据中的至少一项,能够优化结构化数据的提取效率。
在一个可能的示例中,所述检验检查指标数据包括各项检验数据和各项检验的正常值范围数据。
可以理解,所述检验检查指标数据包括各项检验数据和各项检验的正常值范围数据,优化了检验检查指标数据的提取效率。
在一个可能的示例中,所述将所述文本信息与所述结构化信息融合包括以下步骤:
通过度量矩阵、双线性池化、注意力机制和张量融合中的至少一种方法,将所述文本信息与所述结构化信息进行融合。
可以理解,将所述文本信息与所述结构化信息进行融合,能够优化信息融合效率。
在一个可能的示例中,所述将所述文本信息与所述结构化信息融合得到融合向量表示包括语义融合、语境融合和文本融合中的至少一项。
可以理解,通过采用语义融合、语境融合和文本融合中的至少一项方法,能够优化信息融合过程。
在一个可能的示例中,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类包括:
所述融合向量表示通过对疾病分类的预测与真实分类的差距进行更新。
可以理解,通过对疾病分类的预测与真实分类的差距进行更新,能够提升疾病分类的准确度。
第二方面,一种辅助诊断的装置,其特征在于,包括用于执行如权利要求1-7中任一项所述的方法。
第三方面,一种辅助诊断技术的设备,其特征在于,包括处理器、存储器以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-7中任一项所述方法中的指令。
第四方面,一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-7中任一项所述的方法。
实施本申请实施例,将具有如下有益效果:
获取电子病历数据,将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,所述第一数据集包括生命体征数据和检验检查指标数据;将所述文本数据转换为文本向量表示,所述文本向量表示包括文本信息,将所述结构化数据转换为结构化向量表示,所述结构化向量表示包括结构化信息;将所述文本信息与所述结构化信息融合得到融合向量表示,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。其中:
图1为本申请实施例提供的一种辅助诊断技术的应用场景图;
图2为本申请实施例提供的一种辅助诊断技术的流程示意图;
图3为本申请实施例提供的一种辅助诊断装置的结构示意图;
图4为本申请实施例提供的一种辅助诊断设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参见图1,图1为本申请实施例提供的一种辅助诊断技术的应用场景图。如图1所示,该应用场景图包括用户101、电子设备102、服务器103。需要说明的是,电子设备与服务器通过网络进行通讯,图1所示的系统中的各个设备的数量、各个设备的形态和用户的数量用于举例,并不构成对本申请实施例的限定,一个用户可以使用多个电子设备。
其中,用户101是实际操作电子设备102的用户,以控制电子设备102执行相应的操作。电子设备102可以是图1所示的智能手机,还可以是个人计算机(personal computer,PC)、笔记本电脑、一体机、掌上电脑、平板电脑(pad)、智能电视播放终端和便捷式设备等。PC端的电子设备,例如一体机等,其操作系统可以包括但不限于Linux系统、Unix系统、Windows系列系统(例如Windows xp、Windows 7等)等操作系统。移动端的电子设备,例如智能手机等,其操作系统可以包括但不限于安卓系统、IOS(苹果手机的操作系统)、Window系统等操作系统。在以下申请文件中,以电子设备为手机终端进行举例描述。
接下来,对于图1所示辅助诊断技术的应用场景进行说明,举例而言,当用户小王是医生时,服务器的辅助诊断系统获取病人的所有电子病历数据,所述所有电子病历数据可能来自小王去过的多个医院,接着,服务器对所有电子病历数据进行分析和处理,然后,将分析和处理的结果发送给小王医生的手机,小王医生通过手机上辅助诊断系统的应用,结合自身专业知识和临床诊疗经验,给出最后的疾病诊断结果,手机上的辅助诊断系统将所述疾病分类结果上传给服务器。
当用户小李是病人时,病人将与自己相关的所有医院的电子病历数据通过手机上传至辅助诊断系统,辅助诊断系统对所有电子病历数据进行分析和处理,医生通过结合该辅助诊断系统给出的建议以及自身的专业知识和临床经验,给出最后的诊断结果,并将详细的分析结果发送至小李的手机上,小李打开手机,点开该分析结果,手机的显示屏显示,小李属于上呼吸道感染疾病。
下面介绍本申请实施例提供的辅助诊断技术的方法,该方法可以由辅助诊断装置执行,该装置可由软件和/或硬件实现,一般可集成在电子设备或服务器中。
请参照图2,图2为本申请实施例提供的一种辅助诊断技术的流程示意图。以该方法应用于辅助诊断过程进行举例说明,该辅助诊断装置可以包括服务器或电子设备,该方法包括如下步骤S201-S203。
S201:基于区块链技术,获取所有与用户相关的电子病历数据,将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,所述第一数据集包括预设数量个医院的检验生命体征数据和检验检查指标数据。
为便于理解,在此对于本实施例中使用的区块链技术进行介绍,区块链是一个信息技术领域的术语。从本质上讲,它是一个共享数据库,存储于其中的数据或信息,具有不可伪造、全程留痕、可以追溯、公开透明和集体维护等特征。基于这些特征,区块链技术奠定了坚实的“信任”基础,创造了可靠的“合作”机制。结合本实施例的应用场景,一般情况下,病人在A医院做的病历数据,去B医院进行检查时,由于信息的封闭,导致A医院的电子病历数据不能导入到B医院的系统中,在A医院所做的检验生命体征数据和检验检查指标数据并不能够在B医院使用,这限制了病历数据的获取,并且使得看病成本大幅度提升。而基于区块链技术获取所有与用户相关的电子病历数据,能够使得病人在预设数量个医院的电子病历数据得到有效使用,即任一家医院的电子病历数据能够被系统获取并综合应用。例如,使用区块链哈希技术,区块链中会对区块头进行哈希计算,得出该区块的哈希值,该哈希值会作为下一个区块的一部分被保存,所以该哈希值起到了一个指针的作用,将各个区块链接起来,这保证了每个区块被加入链后不可被修改,即将各个区块的信息链接起来。在本实施例中,即使用区块链技术获取病人在多家医院的电子病历数据,使得所有与病人相关的有效信息均得以被应用。
S202:将所述文本数据转换为文本向量表示,所述文本向量表示包括文本信息,将所述结构化数据转换为结构化向量表示,所述结构化向量表示包括结构化信息。
S203:将所述文本信息与所述结构化信息融合得到融合向量表示,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类。
该辅助诊断技术融合了文本信息和结构化数据,大幅度提升了疾病分类的效率。
请参见图3,图3为本申请实施例提供的一种辅助诊断装置的结构示意图。基于上述的系统架构,该装置300可以为服务器,也可以为服务器中的模块。该装置300,至少包括:采集单元301、处理单元302;其中:
采集单元301用于获取所有与用户相关的电子病历数据,将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,所述第一数据集包括预设数量个医院的检验生命体征数据和检验检查指标数据;
处理单元302用于将所述文本数据转换为文本向量表示,所述文本向量表示包括文本信息,将所述结构化数据转换为结构化向量表示,所述结构化向量表示包括结构化信息;将所述文本信息与所述结构化信息融合得到融合向量表示,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类。
在一个可能的示例中,所述处理单元302获取的所述文本数据,包括卷积神经网络的文本分类模型数据、快速文本分类数据和基于转换器的双向编码表征数据中的至少一项。
在本申请实施例中,卷积神经网络的文本分类模型数据对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快,一般是首选。其可以识别出当前任务中具有预言性的n元语法;它的卷积结构还允许有相似成分的n元语法分享预测行为,即使在预测过程中遇见未登录的特定n元语法;它具有层次化的特点,每层有效着眼于句子中更长的n元语法,使得模型还可以对非连续n元语法敏感卷积神经网络的文本分类模型数据使用预先训练好的词向量作嵌入层(embeddinglayer),对于数据集里的所有词,因为每个词都可以表征成一个向量,因此我们可以得到一个嵌入矩阵MM,MM里的每一行都是词向量,这个MM可以是静态的,可以是非静态的,也就是可以根据反向传播进行更新。
而快速文本分类算法结合了自然语言处理和机器学习中最成功的理念,这些包括了使用词袋以及子字信息,并通过隐藏表征在类别间共享信息。在其进行使用过程中,模型输入一个词的序列、一段文本或者一句话,输出这个词序列属于不同类别的概率,序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签,它在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。此外,快速文本分类算法也利用了类别不均衡这个事实(一些类别出现次数比其他的更多),建立表征类别的树形结构,进一步而言,频繁出现类别的树形结构的深度要比不频繁出现类别的树形结构的深度要小,这也使得进一步的计算效率更高。它具备的上述特点,使得它在保持高精度的情况下,加快了训练速度和测试速度,并且,它不需要预训练好的词向量,会自己训练词向量。
在本申请实施例中,基于转换器的双向编码表征数据(BERT)的本质,是在海量的语料基础上运行自监督学习方法,为单词学习一个好的特征表示,所谓自监督学习是在没有人工标注的数据上运行的监督学习。可以直接使用BERT的特征表示作为该任务的词嵌入特征,所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调整或者固定之后作为特征提取器。BERT的网络架构使用的是多层结构,通过注意力机制(Attention)将任意位置的两个单词的距离转换成1,有效的解决了长期依赖问题。BERT的输入的编码向量(长度是512)是3个嵌入特征的单位和,其嵌入特征包括词条嵌入(WordPiece),WordPiece是指将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡。位置嵌入(Position Embedding)是指将单词的位置信息编码成特征向量,位置嵌入是向模型中引入单词位置关系的至关重要的一环。分割嵌入(Segment Embedding)用于区分两个句子,例如B是否是A的下文(对话场景、问答场景等)。
在一个可能的示例中,所述处理单元302获取的所述结构化数据,包括词向量数据(word2vec)、全局词向量数据和自编码器数据中的至少一项。
在本申请实施例中,word2vec是一种高效训练词向量的模型,基本出发点是上下文相似的两个词,它们的词向量也应该相似,比如香蕉和梨在句子中可能经常出现在相同的上下文中,因此这两个词的表示向量应该就比较相似。word2vec的最终目的不是为了得到一个语言模型,也不是要把模型训练得多么完美,而是只关心模型训练完后的词向量矩阵。而全局词向量本质上以加权最小二乘为目标的对数双线性模型,该模型的直观感觉是:一个词语与另外两个不同的词语共现的概率之比可以编码该词的意义。全局词向量进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息,它基于语料库构建词的共现矩阵,然后基于共现矩阵和模型学习词向量,具备查找词语最近邻和学习线性子结构的特点。在运行过程中,其模型要求输入为词共现计数矩阵,因此在输入语料后,预处理代码首先统计词语共现计数矩阵,之后将词共现矩阵输入到其核心训练代码,核心训练代码进行训练。
在本申请的实施例中,自编码器是一种无监督学习技术,利用神经网络进行表征学习。也就是说,我们设计一个在网络中施加“瓶颈”,迫使原始输入压缩知识表示的神经网络架构。如果输入特征彼此独立,则该压缩和随后的重构将是非常困难的任务,但是,如果数据中存在某种结构(即输入特征之间存在相关性),则可以学习这种结构,并在强制输入通过网络的瓶颈时使用。举例而言:即输入的特征X1、X2和Xn之间存在某种特殊的联系,但是这些联系不需要人为的进行特征提取,而是放到网络内进行学习,最终浓缩为更精炼、数量更少的特征h1、h2和hm,其中m<n,这里的Xn就是输入数据,hm就是所谓的编码,也就是所谓的“瓶颈数据”。这个网络可以通过最小化重构误差-原始输入和重构之间差异的度量进行训练,瓶颈是我们网络设计的关键属性,如果没有信息瓶颈,网络就会将这些值通过网络传递,并且只学会记住输入值。自编码器具有两个重要特征,其中一个是,压缩编码的数据维度一定要比原始输入数据更少,也就是所谓的要具有一定的“瓶颈限制”,如果压缩编码的数据维度更多,那就达不到数据降维的目的了。另外一个是,不管是编码器,还是解码器,本质上都是神经网络层,神经网络层一定要具有一定的“容量”。即一定要不止一个神经网络层,神经网络层数意味着对数据的隐含特征进行提取,如果向上面的只有一个中间的压缩编码数据层,此时数据输入层与编码输出层是直接相连接的,如果在神经元节点上不使用非线性激活函数,将会得到降维效果。所以,需要多添加网络层,来储存输入数据之间的隐含关系,存储它们的潜在特征和关联。
在一个可能的示例中,所述处理单元302获取的所述检验检查指标数据,包括各项检验数据和各项检验的正常值范围数据。
举例而言,用户小李的病历数据中,其平均血小板体的检验结果为9.3fL,平均血小板体的正常值范围数据为6.0fL-11.5fL,小李的血小板分布宽为15.8%,血小板分布宽的正常值范围数据为9.0%-17.0%,小李的大型血小板比为27%,大型血小板比的正常值范围数据为20%-58%。
在一个可能的示例中,所述处理单元302通过度量矩阵(如典型相关分析)、双线性池化、注意力机制和张量融合(Tensor fusion)中的至少一种方法,将所述文本信息与所述结构化信息进行融合。
在本申请实施例中,注意力机制能够根据图片生成一段描述性语句、梗概一段文字的内容。其让解码器(decoder)从多个上下文向量(context vector)中选取需要的部分,使得编码器(encoder)从只能将上下文信息压缩到固定长度向量的局限中解放出来,进而可以表示更多的信息。注意力机制能够将源(Source)序列的每个词(通过encoder的隐藏层输出)和目标(target)序列的每个词建立联系。使得在翻译每个词的时候,都有一个语义向量,而这个语义向量是Source序列每个词通过encoder之后的隐藏层的加权和,由此可以得到一个Source序列和target序列的对齐矩阵,通过可视化这个矩阵,可以看出在翻译一个词的时候,Source序列的每个词对当前要翻译词的重要性分布。目标句子生成的每个单词对应输入句子单词的概率分布,可以理解为输入句子单词和这个目标生成单词的对齐概率,这在机器翻译语境下是非常直观的。传统的统计机器翻译一般在做的过程中会专门有一个短语对齐的步骤,而注意力模型起到了相同的作用。由于注意力机制的应用,在某种程度上,缓解了源序列和目标序列由于距离限制而难以建模依赖关系的问题。
在本申请实施例中,双线性池化主要用于融合视觉特征向量和文本特征向量来获得一个联合表征空间,方法是计算两者的外积,这种办法可以利用两者向量元素的所有的交互作用。其与简单地向量组合操作(假设每个模态的特征向量有n个元素)不一样的是,简单操作(如加权求和、按位操作和拼接)都会生成一个n或者2n维度的表征向量,而双线性池化则会产生一个n平方维度的表征,通过将外积生成的矩阵线性化成一个向量表示,这意味着这种方法更有表现力。双线性表示方法常常通过一个二维权重矩阵来转化为相应的输出向量。在计算外积时,每个特征向量可以加一个1,以在双线性表示中保持单模态输入特征。然而,基于它的高维数(通常是几十万到几百万维的数量级),双线性池通常需要对权值张量进行分解,才可以适当和有效地训练相关的模型。
在本申请实施例中,多模态融合是多模态研究中非常关键的研究点,它将抽取自不同模态的信息整合成一个稳定的多模态表征。多模态融合和表征有着明显的联系,如果一个过程是专注于使用某种架构来整合不同单模态的表征,那么就被归类于融合(fusion)类。而fusion方法又可以根据出现的不同位置而分为晚期融合和早期融合。因为早期和晚期融合会抑制模内或者模间的交互作用,所以现在的研究主要集中于中间的融合方法,让这些fusion操作可以放置于深度学习模型的多个层之中,其中,张量融合(Tensor fusion)方法是融合文本和图像的方法之一。一般而言,模态是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合,对每一种信息的来源或者形式,都可以称为一种模态,目前研究领域中主要是对图像、文本和语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉(所以存在信息冗余)和互补(所以比单特征更优秀)的现象,甚至模态间可能还存在多种不同的信息交互,如果能合理的处理多模态信息,就能得到丰富特征信息。
在一个可能的示例中,所述处理单元302将所述文本信息与所述结构化信息融合得到融合向量表示,包括语义融合、语境融合和文本融合中的至少一项。
在一个可能的示例中,所述处理单元302处理融合向量表示时,通过对疾病分类的预测与真实分类的差距进行更新。
请参见图4,图4为本申请实施例提供的一种辅助诊断设备的结构图。如图4所示,该设备400包括处理器401、存储器402、通信接口404以及一个或至少一个程序403。上述一个或至少一个程序403被存储在上述存储器402中,并且被配置由上述处理器401执行,上述程序403包括用于执行以下步骤的指令:
基于区块链技术,获取所有与用户相关的电子病历数据,将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,所述第一数据集包括预设数量个医院的检验生命体征数据和检验检查指标数据;
将所述文本数据转换为文本向量表示,所述文本向量表示包括文本信息,将所述结构化数据转换为结构化向量表示,所述结构化向量表示包括结构化信息;
将所述文本信息与所述结构化信息融合得到融合向量表示,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
提取卷积神经网络的文本分类模型数据和基于转换器的双向编码表征数据(BERT)中的至少一项。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
提取词向量数据、全局词向量数据和自编码器数据中的至少一项。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
提取所述检验检查指标数据包括各项检验数据和各项检验的正常值范围数据。
在一个可能的示例中,在所述将所述文本信息与所述结构化信息融合方面,所述程序403具体用于执行以下步骤的指令:
通过度量矩阵、双线性池化、注意力机制和张量融合中的至少一种方法,将所述文本信息与所述结构化信息进行融合。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
采用语义融合、语境融合和文本融合中的至少一项融合方法,融合所述文本信息与所述结构化信息。
在一个可能的示例中,在所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类方面,所述程序403具体用于执行以下步骤的指令:
所述融合向量表示通过对疾病分类的预测与真实分类的差距进行更新。
本领域技术人员可以理解,为了便于说明,图4中仅示出了一个存储器402和处理器401。在实际的终端或服务器中,可以存在多个处理器和存储器,存储器也可以称为存储介质或者存储设备等,本申请实施例对此不做限制。
应理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器还可以采用通用的微处理器、图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例所需执行的功能。
处理器401还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的各个步骤可以通过处理器401中硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成本申请实施例的方法、装置及存储介质包括的单元所需执行的功能。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccess Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DR RAM)。该存储器还可以是只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码,并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起,存储器可以存储程序,当存储器中存储的程序被处理器执行时,处理器用于执行本申请上述实施例中确定方法的各个步骤。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block,简称ILB)和步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机编程的程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在处理器上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输,也可以从一个网站站点、计算机、服务器或数据中心通过有线方式向手机处理器进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种辅助诊断技术的方法,其特征在于,包括以下步骤:
基于区块链技术,获取所有与用户相关的电子病历数据,将所述电子病历数据的文字提取为文本数据,将所述电子病历数据中第一数据集提取为结构化数据,所述第一数据集包括预设数量个医院的检验生命体征数据和检验检查指标数据;
将所述文本数据转换为文本向量表示,所述文本向量表示包括文本信息,将所述结构化数据转换为结构化向量表示,所述结构化向量表示包括结构化信息;
将所述文本信息与所述结构化信息融合得到融合向量表示,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类。
2.根据权利要求1所述的方法,其特征在于,所述文本数据包括卷积神经网络的文本分类模型数据、快速文本分类数据和基于转换器的双向编码表征数据中的至少一项。
3.根据权利要求1或2所述的方法,其特征在于,所述结构化数据包括词向量数据、全局词向量数据和自编码器数据中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述检验检查指标数据包括各项检验数据和各项检验的正常值范围数据。
5.根据权利要求1所述的方法,其特征在于,所述将所述文本信息与所述结构化信息融合包括以下步骤:
通过度量矩阵、双线性池化、注意力机制和张量融合中的至少一种方法,将所述文本信息与所述结构化信息进行融合。
6.根据权利要求1所述的方法,其特征在于,所述将所述文本信息与所述结构化信息融合得到融合向量表示包括语义融合、语境融合和文本融合中的至少一项。
7.根据权利要求1所述的方法,其特征在于,所述融合向量表示包括融合数据,使用所述融合数据辅助疾病分类包括:
所述融合向量表示通过对疾病分类的预测与真实分类的差距进行更新。
8.一种辅助诊断的装置,其特征在于,包括用于执行如权利要求1-7中任一项所述的方法。
9.一种辅助诊断技术的设备,其特征在于,包括处理器、存储器以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-7中任一项所述方法中的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-7中任一项所述的方法。
CN202210242276.5A 2022-03-11 2022-03-11 辅助诊断技术的方法、装置、设备及存储介质 Pending CN114708976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210242276.5A CN114708976A (zh) 2022-03-11 2022-03-11 辅助诊断技术的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210242276.5A CN114708976A (zh) 2022-03-11 2022-03-11 辅助诊断技术的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114708976A true CN114708976A (zh) 2022-07-05

Family

ID=82168251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210242276.5A Pending CN114708976A (zh) 2022-03-11 2022-03-11 辅助诊断技术的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114708976A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662562A (zh) * 2022-11-08 2023-01-31 北京健康在线技术开发有限公司 病历诊疗数据管理方法、装置、设备及存储介质
CN116680423A (zh) * 2023-08-03 2023-09-01 国网浙江浙电招标咨询有限公司 电力供应链多源异构数据的管理方法、装置、设备及介质
CN118098482A (zh) * 2024-04-22 2024-05-28 吉林大学 基于5g技术的智慧医疗管理系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662562A (zh) * 2022-11-08 2023-01-31 北京健康在线技术开发有限公司 病历诊疗数据管理方法、装置、设备及存储介质
CN116680423A (zh) * 2023-08-03 2023-09-01 国网浙江浙电招标咨询有限公司 电力供应链多源异构数据的管理方法、装置、设备及介质
CN116680423B (zh) * 2023-08-03 2023-10-20 国网浙江浙电招标咨询有限公司 电力供应链多源异构数据的管理方法、装置、设备及介质
CN118098482A (zh) * 2024-04-22 2024-05-28 吉林大学 基于5g技术的智慧医疗管理系统及方法
CN118098482B (zh) * 2024-04-22 2024-06-28 吉林大学 基于5g技术的智慧医疗管理系统及方法

Similar Documents

Publication Publication Date Title
JP7100087B2 (ja) 情報を出力する方法および装置
CN111316281B (zh) 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
CN111666477B (zh) 一种数据处理方法、装置、智能设备及介质
CN114708976A (zh) 辅助诊断技术的方法、装置、设备及存储介质
CN112100406B (zh) 数据处理方法、装置、设备以及介质
CN113707299B (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
WO2023165012A1 (zh) 问诊方法和装置、电子设备及存储介质
EP4361843A1 (en) Neural network searching method and related device
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112613322B (zh) 文本处理方法、装置、设备及存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
WO2023029501A1 (zh) 智能问诊方法、装置、电子设备及存储介质
CN117149998B (zh) 基于多目标优化的智能就诊推荐方法及系统
CN112614559A (zh) 病历文本处理方法、装置、计算机设备和存储介质
CN115859914A (zh) 基于病历语义理解的诊断icd自动编码方法及系统
Gong et al. Prognosis analysis of heart failure based on recurrent attention model
CN113571184A (zh) 一种用于精神健康测评的对话交互设计方法及系统
CN115659987A (zh) 基于双通道的多模态命名实体识别方法、装置以及设备
CN116994695A (zh) 报告生成模型的训练方法、装置、设备及存储介质
CN113421646B (zh) 患病持续时长预测方法、装置、计算机设备及存储介质
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
Yang et al. Enhancing multimodal depression diagnosis through representation learning and knowledge transfer
CN117350291A (zh) 一种电子病历命名实体识别方法、装置、设备及存储介质
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination