CN114334159A - 一种术后风险预测自然语言数据增强模型及方法 - Google Patents

一种术后风险预测自然语言数据增强模型及方法 Download PDF

Info

Publication number
CN114334159A
CN114334159A CN202210256548.7A CN202210256548A CN114334159A CN 114334159 A CN114334159 A CN 114334159A CN 202210256548 A CN202210256548 A CN 202210256548A CN 114334159 A CN114334159 A CN 114334159A
Authority
CN
China
Prior art keywords
vector
features
embedding
model
discrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210256548.7A
Other languages
English (en)
Other versions
CN114334159B (zh
Inventor
郝学超
王亚强
杨潇
朱涛
舒红平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
West China Hospital of Sichuan University
Original Assignee
Chengdu University of Information Technology
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology, West China Hospital of Sichuan University filed Critical Chengdu University of Information Technology
Priority to CN202210256548.7A priority Critical patent/CN114334159B/zh
Publication of CN114334159A publication Critical patent/CN114334159A/zh
Application granted granted Critical
Publication of CN114334159B publication Critical patent/CN114334159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种术后风险预测自然语言数据增强模型及方法,将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,本发明首次地将自然语言数据纳入到了对术后风险预测的任务中来。

Description

一种术后风险预测自然语言数据增强模型及方法
技术领域
本发明涉及信息处理技术领域,具体的说,涉及一种术后风险预测自然语言数据增强模型及方法。
背景技术
术后风险预估通常被视为一个二分类的任务。统计机器学习模型被广泛地应用来解决这个问题,例如逻辑回归(Logistic Regression,ession,LR)和极致梯度提升(eXtreme Gradient Boosting,XGBoost)。基于向量的LR方法将离散型和连续型变量都进行标准化处理后输入到模型,基于树模型的XGBoost模型直接利用结构化的数据进行训练。
在最近的研究工作中,因为深度学习其自身的复杂的特征表达能力和预测性能,有许多研究人员开始利用深度学习来解决预测病人术后风险的问题。在这些研究当中,围术期的表格数据是主要的数据来源,它包含了患者的基本信息、实验室检查值以及许多其他的离散型和数值型特征。通常对于离散型变量的处理是进行向量化处理将其变成独热向量或者分布式向量,对于连续型则是进行一个批标准化的处理方式。最后将连续型和离散型一起拼接输入到深度神经网络中进行训练。其中连续型变量作为单纯的数值型数值并未包含医学上的语义,例如“收缩压156”不能体现出高血压的语义。因此,对于连续型的处理通常会进行离散化的操作将其变为离散型变量。
但是,文本数据,例如术前诊断在目前的预测方法中没有得到充分的应用。实际上,术前诊断信息对于患者的术后风险评估相当重要。例如,术前诊断中含有“癌”和“高危”字样的患者相比于其他患者有更大的概率产生术后风险。为了更好地利用文本数据,通常采用词嵌入的方式来将文本数据转换为向量,而目前主流的研究方法则是采用预训练模型来获取基于上下文语义的动态词嵌入,例如BERT。为了得到整体的句子嵌入,通常采用池化方式来处理词嵌入,常用方法有平均池化、最大池化和取CLS向量。一般选取平均池化方式,因为其既快速又有效的特点。而有研究表明,不同领域数据训练得到的BERT对于不同领域的效果也不一样,用医学语料集训练得到的MedBERT在医学领域下的性能更优秀。
在不同类型的数据融合技术方面,许多简单且朴素的方法是采用直接拼接的方式。而直接拼接的向量会存在信息冗余的问题,当含有无关信息的向量具有高纬度,而含有重要信息的向量具有低纬度时,拼接他们会使得冗余的信息占据大部分,导致真正关键的重要信息被忽略。
发明内容
本发明的目的在于克服背景技术所提出的技术问题,提出了一种术后风险预测自然语言数据增强模型及方法。本发明主要基于在临床医疗领域内,利用深度学习模型,采用了医疗诊断文本记录以及实验室术前检查数据来对病人的术后风险做出评估,从而决定是否要为病人安排重症监护室床位以及其他医疗资源的分配,从而有效地减轻医院的医疗负担以及使得患者因术后并发症的死亡概率下降。
本发明的具体技术方案如下:
根据本发明的第一技术方案,提供了一种术后风险预测自然语言数据增强模型,其特征在于,所述模型包括:
离散化层,被配置为:将围术期下的表格数据的连续型特征转化为分类型特征;
列嵌入层,被配置为:将围术期下的表格数据的离散型特征转换为离散型特征向 量,以及将所述分类型特征转换为分类型特征向量,获得向量嵌入
Figure 143712DEST_PATH_IMAGE001
,其中
Figure 393690DEST_PATH_IMAGE002
指代离散 型特征向量和分类型特征向量,
Figure 335101DEST_PATH_IMAGE003
的范围属于1到m + n,m为连续型特征数量,n为离散型特 征数量;
文本嵌入层,被配置为:基于术前诊断文本上下文来确定词嵌入;并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;
特征交互层,被配置为:通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
优选的,所述三个向量矩阵均由查询向量、键向量和值向量组成。
优选的,所述离散化层,被配置为:根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
优选的,所述文本嵌入层,被配置为:基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
优选的,所述模型还包括多层感知机,所述多层感知机被配置为:根据所述语义向量来得到术后风险的预测结果。
根据本发明的第二技术方案,提供了一种术后风险预测自然语言数据增强方法, 所述方法包括:将围术期下的表格数据的连续型特征转化为分类型特征;将围术期下的表 格数据的离散型特征转换为离散型特征向量,以及将所述分类型特征转换为分类型特征向 量,获得向量嵌入
Figure 510867DEST_PATH_IMAGE001
,其中
Figure 763994DEST_PATH_IMAGE002
指代离散型特征向量和分类型特征向量,
Figure 457144DEST_PATH_IMAGE003
的范围属于1到 m + n,m为连续型特征数量,n为离散型特征数量;基于术前诊断文本上下文来确定词嵌入, 并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;通过拼接将所述向 量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述 三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
优选的,所述三个向量矩阵均由由查询向量、键向量和值向量组成。
优选的,所述将连续型特征转化为分类型特征,具体包括:根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
优选的,所述基于术前诊断文本上下文来确定词嵌入,具体包括:基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
优选的,在得到一个语义向量后,还包括步骤,根据所述语义向量来得到术后风险的预测结果。
根据本发明实施例的术后风险预测自然语言数据增强模型及方法,将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,首次地将自然语言数据纳入到了对术后风险预测的任务中来。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了根据本发明实施例的一种术后风险预测自然语言数据增强方法的流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
本发明实施例提供一种术后风险预测自然语言数据增强模型。该模型主要包含了 离散化层、列嵌入层、文本嵌入层、连接层、特征交互层以及一个多层感知机。本文中,定义
Figure 377695DEST_PATH_IMAGE004
作为特征目标对。其中
Figure 865308DEST_PATH_IMAGE005
包含有
Figure 372775DEST_PATH_IMAGE006
Figure 604037DEST_PATH_IMAGE007
Figure 113515DEST_PATH_IMAGE008
.
Figure 991604DEST_PATH_IMAGE006
指代数量为m的连续型特 征,
Figure 219323DEST_PATH_IMAGE007
指代数量为n的离散型特征,
Figure 378909DEST_PATH_IMAGE008
指代长度为l的术前诊断语句。
围术期下的表格数据中的某一特征通常含有医学上的语义。而数值型的特征,在 医学领域内可能有不同的离散化区间标准。本发明实施例根据数值特征的最大值
Figure 618260DEST_PATH_IMAGE009
和 最小值
Figure 837889DEST_PATH_IMAGE010
将连续值划分为数量为B的离散值区间。这个离散化层的作用将连续型特征 转化为分类型特征,使得特征含有了医学语义,并将转换后的特征定义为
Figure 54369DEST_PATH_IMAGE011
.
列嵌入层的作用是将离散型特征转换为向量。本发明实施例中,不仅将离散型变 量
Figure 361853DEST_PATH_IMAGE012
转换为向量
Figure 111504DEST_PATH_IMAGE013
,同时也将转换后的
Figure 377400DEST_PATH_IMAGE011
转换为
Figure 314132DEST_PATH_IMAGE013
’,
Figure 300673DEST_PATH_IMAGE013
Figure 152435DEST_PATH_IMAGE013
’都是维度为d的向量。定 义
Figure 448287DEST_PATH_IMAGE001
为向量嵌入,其中
Figure 13260DEST_PATH_IMAGE002
指代
Figure 882121DEST_PATH_IMAGE013
Figure 340784DEST_PATH_IMAGE013
’具体的特征向量,
Figure 807538DEST_PATH_IMAGE003
的范围属于1到m + n。
文本嵌入层的作用是将非结构化的文本数据转换为向量的形式,方便深度学习模 型利用。目前的最前沿获取文本嵌入的方法是利用预训练模型获取基于上下文语义的动态 词嵌入,其中最具代表性的便是BERT模型。BERT模型是在一个非常巨大的语料库上通过无 监督的预训练得到的,可以用来生成基于上下文语义的词嵌入。除此之外,通过微调的方式 可以大大提高预训练模型在特定领域下的词嵌入质量。因此,本发明可以利用在临床诊疗 过程中产生的临床记录对通用领域的BERT进行微调,获得针对医学领域的MedBERT。本发明 实施例利用MedBERT来获取d ’维度的基于上下文的词嵌入
Figure 859808DEST_PATH_IMAGE014
Figure 391414DEST_PATH_IMAGE015
是指术前诊断文本中 的第k个单词,k的范围是1到l。这些基于术前诊断文本获取的动态词嵌入通过一个平均池 化的方式,最终得到一个完整的代表术前诊断的句子嵌入
Figure 704584DEST_PATH_IMAGE016
.
在进入到特征交互层之前,表格数据的嵌入
Figure 483184DEST_PATH_IMAGE001
都会通过列嵌入层得到,文本数 据的嵌入
Figure 383269DEST_PATH_IMAGE016
通过文本嵌入得到。接着通过拼接的操作将他们组合成一组向量
Figure 905517DEST_PATH_IMAGE017
。将输入的向量
Figure 73193DEST_PATH_IMAGE018
映射成三个矩阵Q, K和V.,这三个向量矩阵分别是由查询向量k、键 向量q和值向量v组成 。将其输入到注意力层中来获取两两特征之间注意力权重,在这个过 程中,会有多个注意力头同时计算。通过计算,会将术前诊断中的语义信息和表格数据中的 信息融合在一起,得到一个由文本数据信息增强的语义向量,再将其输入到一个多层感知 机当中来得到术后风险的预测结果。
表格数据通常分为连续型和离散型,在医学领域中,连续型变量不能准确地反映出医学上的语义。因此,本发明实施例选择了采用离散化的方式将连续型变量转换为离散型变量,从而让每一个特征都展现出医学上的语义。本发明实施例实验了等距、等频和K-Means三种离散化方式,等距离散化指依据最大值和最小值然后划分指定区间,等频离散化指离散化后每个区间的实例数量保持一致,K-Means离散化指采用K-Means聚类算法来将数据进行离散化。通过实验,发现离散化会赋予数据医学语义,同时使得数据更符合模型的输入形式,提升了模型的性能。通过实验比较发现,等距离散化是提升效果最大的离散化方式。
为了给表格数据补充其他语义信息,同时采用未被充分利用的自然语言数据信息。本发明实施例将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,可以选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,首次地将自然语言数据纳入到了对术后风险预测的任务中来。
图1示出了根据本发明实施例的一种术后风险预测自然语言数据增强方法的流程图。如图1所示,本发明实施例提供一种术后风险预测自然语言数据增强方法。该方法包括以下步骤:
S100、将围术期下的表格数据的连续型特征转化为分类型特征。
在一些实施例中,根据数值特征的最大值和最小值将连续型特征转化为分类型特 征
Figure 147329DEST_PATH_IMAGE011
S200、将围术期下的表格数据的离散型特征转换为离散型特征向量,以及将所述 分类型特征转换为分类型特征向量,获得向量嵌入
Figure 643032DEST_PATH_IMAGE001
,其中
Figure 93605DEST_PATH_IMAGE002
指代离散型特征向量和分 类型特征向量,
Figure 617253DEST_PATH_IMAGE003
的范围属于1到m + n,m为连续型特征数量,n为离散型特征数量。
S300、基于术前诊断文本上下文来确定词嵌入,并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入。
在一些实施例中,基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
S400、通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
在一些实施例中,在得到一个语义向量后,还包括步骤,根据所述语义向量来得到术后风险的预测结果。
本发明实施例中方法的各个步骤所能达到的技术效果与模型的效果一致,在此不再累述。
本发明实施例针对于三个不同的术后风险分别进行了实验,分别是:肺部并发症、心血管不良和ICU入室。首先在机器学习模型上进行了增加文本实验,两个机器学习模型分别是逻辑回归模型(Logistic Regression, LR)和极致梯度提升模型(eXtreme GradientBoosting,XGB)。接着在深度学习模型实现了离散化和加入文本实验,WD指深度学习模型WideDeep模型,同时为了检验本发明实施例模型方法的有效性,剔除了自身离散化方法和加入文本方法来进行实验。实验结果如表1所示,通过实验可以看出,在基于向量的方法的LR、WD和NET中,加入文本都会提升模型的性能,但是在基于树模型的XGB中,加入文本反而会使得模型的效果下降。最终,通过实验结果的比较可以看出我们的NET模型的效果是最好的。
表1 实验结果表
Figure 472076DEST_PATH_IMAGE019
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种术后风险预测自然语言数据增强模型,其特征在于,所述模型包括:
离散化层,被配置为,将围术期下的表格数据的连续型特征转化为分类型特征;
列嵌入层,被配置为,将围术期下的表格数据的离散型特征转换为离散型特征向量,以 及将所述分类型特征转换为分类型特征向量,获得向量嵌入
Figure 87086DEST_PATH_IMAGE001
,其中
Figure 585938DEST_PATH_IMAGE002
指代离散型 特征向量和分类型特征向量,
Figure 663615DEST_PATH_IMAGE003
的范围属于1到m + n,m为连续型特征数量,n为离散型特征 数量;
文本嵌入层,被配置为,基于术前诊断文本上下文来确定词嵌入;并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;
特征交互层,被配置为,通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
2.根据权利要求1所述的模型,其特征在于,所述三个向量矩阵均由查询向量、键向量和值向量组成。
3.根据权利要求1所述的模型,其特征在于,所述离散化层,被配置为,根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
4.根据权利要求1所述的模型,其特征在于,所述文本嵌入层,被配置为,基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
5.根据权利要求1所述的模型,其特征在于,所述模型还包括多层感知机,所述多层感知机被配置为,根据所述语义向量来得到术后风险的预测结果。
6.一种术后风险预测自然语言数据增强方法,其特征在于,所述方法包括:
将围术期下的表格数据的连续型特征转化为分类型特征;
将围术期下的表格数据的离散型特征转换为离散型特征向量,以及将所述分类型特征 转换为分类型特征向量,获得向量嵌入
Figure 40370DEST_PATH_IMAGE001
,其中
Figure 519893DEST_PATH_IMAGE002
指代离散型特征向量和分类型 特征向量,
Figure 956690DEST_PATH_IMAGE003
的范围属于1到m + n,m为连续型特征数量,n为离散型特征数量;
基于术前诊断文本上下文来确定词嵌入,并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;
通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
7.据权利要求6所述的方法,其特征在于,所述三个向量矩阵均由由查询向量、键向量和值向量组成。
8.根据权利要求6所述的方法,其特征在于,所述将连续型特征转化为分类型特征,具体包括:
根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
9.根据权利要求6所述的方法,其特征在于,所述基于术前诊断文本上下文来确定词嵌入,具体包括:
基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
10.根据权利要求6所述的方法,其特征在于,在得到一个语义向量后,还包括步骤,根据所述语义向量来得到术后风险的预测结果。
CN202210256548.7A 2022-03-16 2022-03-16 一种术后风险预测自然语言数据增强模型及方法 Active CN114334159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210256548.7A CN114334159B (zh) 2022-03-16 2022-03-16 一种术后风险预测自然语言数据增强模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210256548.7A CN114334159B (zh) 2022-03-16 2022-03-16 一种术后风险预测自然语言数据增强模型及方法

Publications (2)

Publication Number Publication Date
CN114334159A true CN114334159A (zh) 2022-04-12
CN114334159B CN114334159B (zh) 2022-06-17

Family

ID=81033555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210256548.7A Active CN114334159B (zh) 2022-03-16 2022-03-16 一种术后风险预测自然语言数据增强模型及方法

Country Status (1)

Country Link
CN (1) CN114334159B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862875A (zh) * 2023-02-27 2023-03-28 四川大学华西医院 基于多类型特征融合的术后肺部并发症预测方法及系统
CN116777507A (zh) * 2023-06-23 2023-09-19 青岛中沃兴牧食品科技有限公司 一种基于lstm模型的猪肉专卖网点各类猪肉销售量的预测方法
CN117350276A (zh) * 2023-12-05 2024-01-05 卓世未来(天津)科技有限公司 一种数据增强方法及系统
CN116777507B (zh) * 2023-06-23 2024-05-28 青岛中沃兴牧食品科技有限公司 一种基于lstm模型的猪肉专卖网点各类猪肉销售量的预测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090247083A1 (en) * 2008-03-31 2009-10-01 Nellcor Puritan Bennett Llc Wavelength Selection And Outlier Detection In Reduced Rank Linear Models
CN109299976A (zh) * 2018-09-07 2019-02-01 深圳大学 点击率预测方法、电子装置及计算机可读存储介质
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110032739A (zh) * 2019-04-18 2019-07-19 清华大学 中文电子病历命名实体抽取方法及系统
CN112001186A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种利用图卷积神经网络和中文句法的情感分类方法
CN112527959A (zh) * 2020-12-11 2021-03-19 重庆邮电大学 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
US20210109958A1 (en) * 2019-10-14 2021-04-15 Stacks LLC Conceptual, contextual, and semantic-based research system and method
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN113255908A (zh) * 2021-05-27 2021-08-13 支付宝(杭州)信息技术有限公司 基于事件序列进行业务预测的方法、神经网络模型和装置
CN113517046A (zh) * 2021-04-15 2021-10-19 中南大学 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质
CN113688600A (zh) * 2021-09-08 2021-11-23 北京邮电大学 一种基于主题感知注意力网络的信息传播预测方法
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN113919344A (zh) * 2021-09-26 2022-01-11 腾讯科技(深圳)有限公司 文本处理方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090247083A1 (en) * 2008-03-31 2009-10-01 Nellcor Puritan Bennett Llc Wavelength Selection And Outlier Detection In Reduced Rank Linear Models
CN109299976A (zh) * 2018-09-07 2019-02-01 深圳大学 点击率预测方法、电子装置及计算机可读存储介质
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110032739A (zh) * 2019-04-18 2019-07-19 清华大学 中文电子病历命名实体抽取方法及系统
US20210109958A1 (en) * 2019-10-14 2021-04-15 Stacks LLC Conceptual, contextual, and semantic-based research system and method
CN112001186A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种利用图卷积神经网络和中文句法的情感分类方法
CN112527959A (zh) * 2020-12-11 2021-03-19 重庆邮电大学 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN113517046A (zh) * 2021-04-15 2021-10-19 中南大学 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质
CN113255908A (zh) * 2021-05-27 2021-08-13 支付宝(杭州)信息技术有限公司 基于事件序列进行业务预测的方法、神经网络模型和装置
CN113761936A (zh) * 2021-08-19 2021-12-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN113688600A (zh) * 2021-09-08 2021-11-23 北京邮电大学 一种基于主题感知注意力网络的信息传播预测方法
CN113919344A (zh) * 2021-09-26 2022-01-11 腾讯科技(深圳)有限公司 文本处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALFRED_LV: "利用BERT模型解析电子病历", 《HTTPS://SEGMENTFAULT.COM/A/1190000037711872》 *
LAILA RASMY等: "Med-BERT: pretrained contextualized embeddings on largescale structured electronic health records for disease prediction", 《NPJ DIGITAL MEDICINE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862875A (zh) * 2023-02-27 2023-03-28 四川大学华西医院 基于多类型特征融合的术后肺部并发症预测方法及系统
CN115862875B (zh) * 2023-02-27 2024-02-09 四川大学华西医院 基于多类型特征融合的术后肺部并发症预测方法及系统
CN116777507A (zh) * 2023-06-23 2023-09-19 青岛中沃兴牧食品科技有限公司 一种基于lstm模型的猪肉专卖网点各类猪肉销售量的预测方法
CN116777507B (zh) * 2023-06-23 2024-05-28 青岛中沃兴牧食品科技有限公司 一种基于lstm模型的猪肉专卖网点各类猪肉销售量的预测方法
CN117350276A (zh) * 2023-12-05 2024-01-05 卓世未来(天津)科技有限公司 一种数据增强方法及系统
CN117350276B (zh) * 2023-12-05 2024-02-13 卓世未来(天津)科技有限公司 一种数据增强方法及系统

Also Published As

Publication number Publication date
CN114334159B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
Zhang et al. The comparison of LightGBM and XGBoost coupling factor analysis and prediagnosis of acute liver failure
CN114334159B (zh) 一种术后风险预测自然语言数据增强模型及方法
CN110210037B (zh) 面向循证医学领域的类别检测方法
An et al. Chinese clinical named entity recognition via multi-head self-attention based BiLSTM-CRF
JP2019536137A (ja) 知識グラフベースの臨床診断支援
JP6787087B2 (ja) データプロパティ認識のための装置、方法及びプログラム
KR102298330B1 (ko) 음성인식과 자연어 처리 알고리즘을 통해 의료 상담 요약문과 전자 의무 기록을 생성하는 시스템
JP7257585B2 (ja) 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法
CN111370102A (zh) 科室导诊方法、装置以及设备
CN112700865A (zh) 一种基于综合推理的智能分诊方法
WO2024001104A1 (zh) 一种图文数据互检方法、装置、设备及可读存储介质
Shen et al. A novel deep-learning-based model for medical text classification
An et al. MAIN: multimodal attention-based fusion networks for diagnosis prediction
Niu et al. Deep multi-modal intermediate fusion of clinical record and time series data in mortality prediction
Zhao et al. Knowledge guided feature aggregation for the prediction of chronic obstructive pulmonary disease with Chinese EMRs
CN116881336A (zh) 一种用于医学大数据的高效多模态对比深度哈希检索方法
Chen et al. A multi-channel convolutional neural network for ICD coding
US11809826B2 (en) Assertion detection in multi-labelled clinical text using scope localization
Song et al. Translate and summarize complaints of patient to electronic health record by BiLSTM-CNN attention model
Li et al. Envelope multi-type transformation ensemble algorithm of Parkinson speech samples
CN114997155A (zh) 一种基于表格检索和实体图推理的事实验证方法与装置
Hu et al. Contextual-aware information extractor with adaptive objective for chinese medical dialogues
Baruah Predicting Hospital Readmission using Unstructured Clinical Note Data
Cui et al. Automated fusion of multimodal electronic health records for better medical predictions
Ati et al. Multi Artificial Intelligence Approaches Comparisons for Chronic Disease Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant