CN114334159A - 一种术后风险预测自然语言数据增强模型及方法 - Google Patents
一种术后风险预测自然语言数据增强模型及方法 Download PDFInfo
- Publication number
- CN114334159A CN114334159A CN202210256548.7A CN202210256548A CN114334159A CN 114334159 A CN114334159 A CN 114334159A CN 202210256548 A CN202210256548 A CN 202210256548A CN 114334159 A CN114334159 A CN 114334159A
- Authority
- CN
- China
- Prior art keywords
- vector
- features
- embedding
- model
- discrete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002980 postoperative effect Effects 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000011176 pooling Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 239000007787 solid Substances 0.000 abstract description 3
- 238000010882 preoperative diagnosis Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 238000007477 logistic regression Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000035965 Postoperative Complications Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种术后风险预测自然语言数据增强模型及方法,将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,本发明首次地将自然语言数据纳入到了对术后风险预测的任务中来。
Description
技术领域
本发明涉及信息处理技术领域,具体的说,涉及一种术后风险预测自然语言数据增强模型及方法。
背景技术
术后风险预估通常被视为一个二分类的任务。统计机器学习模型被广泛地应用来解决这个问题,例如逻辑回归(Logistic Regression,ession,LR)和极致梯度提升(eXtreme Gradient Boosting,XGBoost)。基于向量的LR方法将离散型和连续型变量都进行标准化处理后输入到模型,基于树模型的XGBoost模型直接利用结构化的数据进行训练。
在最近的研究工作中,因为深度学习其自身的复杂的特征表达能力和预测性能,有许多研究人员开始利用深度学习来解决预测病人术后风险的问题。在这些研究当中,围术期的表格数据是主要的数据来源,它包含了患者的基本信息、实验室检查值以及许多其他的离散型和数值型特征。通常对于离散型变量的处理是进行向量化处理将其变成独热向量或者分布式向量,对于连续型则是进行一个批标准化的处理方式。最后将连续型和离散型一起拼接输入到深度神经网络中进行训练。其中连续型变量作为单纯的数值型数值并未包含医学上的语义,例如“收缩压156”不能体现出高血压的语义。因此,对于连续型的处理通常会进行离散化的操作将其变为离散型变量。
但是,文本数据,例如术前诊断在目前的预测方法中没有得到充分的应用。实际上,术前诊断信息对于患者的术后风险评估相当重要。例如,术前诊断中含有“癌”和“高危”字样的患者相比于其他患者有更大的概率产生术后风险。为了更好地利用文本数据,通常采用词嵌入的方式来将文本数据转换为向量,而目前主流的研究方法则是采用预训练模型来获取基于上下文语义的动态词嵌入,例如BERT。为了得到整体的句子嵌入,通常采用池化方式来处理词嵌入,常用方法有平均池化、最大池化和取CLS向量。一般选取平均池化方式,因为其既快速又有效的特点。而有研究表明,不同领域数据训练得到的BERT对于不同领域的效果也不一样,用医学语料集训练得到的MedBERT在医学领域下的性能更优秀。
在不同类型的数据融合技术方面,许多简单且朴素的方法是采用直接拼接的方式。而直接拼接的向量会存在信息冗余的问题,当含有无关信息的向量具有高纬度,而含有重要信息的向量具有低纬度时,拼接他们会使得冗余的信息占据大部分,导致真正关键的重要信息被忽略。
发明内容
本发明的目的在于克服背景技术所提出的技术问题,提出了一种术后风险预测自然语言数据增强模型及方法。本发明主要基于在临床医疗领域内,利用深度学习模型,采用了医疗诊断文本记录以及实验室术前检查数据来对病人的术后风险做出评估,从而决定是否要为病人安排重症监护室床位以及其他医疗资源的分配,从而有效地减轻医院的医疗负担以及使得患者因术后并发症的死亡概率下降。
本发明的具体技术方案如下:
根据本发明的第一技术方案,提供了一种术后风险预测自然语言数据增强模型,其特征在于,所述模型包括:
离散化层,被配置为:将围术期下的表格数据的连续型特征转化为分类型特征;
列嵌入层,被配置为:将围术期下的表格数据的离散型特征转换为离散型特征向
量,以及将所述分类型特征转换为分类型特征向量,获得向量嵌入 ,其中指代离散
型特征向量和分类型特征向量, 的范围属于1到m + n,m为连续型特征数量,n为离散型特
征数量;
文本嵌入层,被配置为:基于术前诊断文本上下文来确定词嵌入;并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;
特征交互层,被配置为:通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
优选的,所述三个向量矩阵均由查询向量、键向量和值向量组成。
优选的,所述离散化层,被配置为:根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
优选的,所述文本嵌入层,被配置为:基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
优选的,所述模型还包括多层感知机,所述多层感知机被配置为:根据所述语义向量来得到术后风险的预测结果。
根据本发明的第二技术方案,提供了一种术后风险预测自然语言数据增强方法,
所述方法包括:将围术期下的表格数据的连续型特征转化为分类型特征;将围术期下的表
格数据的离散型特征转换为离散型特征向量,以及将所述分类型特征转换为分类型特征向
量,获得向量嵌入 ,其中 指代离散型特征向量和分类型特征向量,的范围属于1到
m + n,m为连续型特征数量,n为离散型特征数量;基于术前诊断文本上下文来确定词嵌入,
并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;通过拼接将所述向
量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述
三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
优选的,所述三个向量矩阵均由由查询向量、键向量和值向量组成。
优选的,所述将连续型特征转化为分类型特征,具体包括:根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
优选的,所述基于术前诊断文本上下文来确定词嵌入,具体包括:基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
优选的,在得到一个语义向量后,还包括步骤,根据所述语义向量来得到术后风险的预测结果。
根据本发明实施例的术后风险预测自然语言数据增强模型及方法,将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,首次地将自然语言数据纳入到了对术后风险预测的任务中来。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了根据本发明实施例的一种术后风险预测自然语言数据增强方法的流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
现在结合说明书附图对本发明做进一步的说明。
本发明实施例提供一种术后风险预测自然语言数据增强模型。该模型主要包含了
离散化层、列嵌入层、文本嵌入层、连接层、特征交互层以及一个多层感知机。本文中,定义作为特征目标对。其中包含有、和.指代数量为m的连续型特
征,指代数量为n的离散型特征,指代长度为l的术前诊断语句。
围术期下的表格数据中的某一特征通常含有医学上的语义。而数值型的特征,在
医学领域内可能有不同的离散化区间标准。本发明实施例根据数值特征的最大值 和
最小值 将连续值划分为数量为B的离散值区间。这个离散化层的作用将连续型特征
转化为分类型特征,使得特征含有了医学语义,并将转换后的特征定义为 .
列嵌入层的作用是将离散型特征转换为向量。本发明实施例中,不仅将离散型变
量转换为向量,同时也将转换后的转换为’,和 ’都是维度为d的向量。定
义为向量嵌入,其中指代和’具体的特征向量,的范围属于1到m + n。
文本嵌入层的作用是将非结构化的文本数据转换为向量的形式,方便深度学习模
型利用。目前的最前沿获取文本嵌入的方法是利用预训练模型获取基于上下文语义的动态
词嵌入,其中最具代表性的便是BERT模型。BERT模型是在一个非常巨大的语料库上通过无
监督的预训练得到的,可以用来生成基于上下文语义的词嵌入。除此之外,通过微调的方式
可以大大提高预训练模型在特定领域下的词嵌入质量。因此,本发明可以利用在临床诊疗
过程中产生的临床记录对通用领域的BERT进行微调,获得针对医学领域的MedBERT。本发明
实施例利用MedBERT来获取d ’维度的基于上下文的词嵌入,是指术前诊断文本中
的第k个单词,k的范围是1到l。这些基于术前诊断文本获取的动态词嵌入通过一个平均池
化的方式,最终得到一个完整的代表术前诊断的句子嵌入 .
在进入到特征交互层之前,表格数据的嵌入都会通过列嵌入层得到,文本数
据的嵌入通过文本嵌入得到。接着通过拼接的操作将他们组合成一组向量。将输入的向量 映射成三个矩阵Q, K和V.,这三个向量矩阵分别是由查询向量k、键
向量q和值向量v组成 。将其输入到注意力层中来获取两两特征之间注意力权重,在这个过
程中,会有多个注意力头同时计算。通过计算,会将术前诊断中的语义信息和表格数据中的
信息融合在一起,得到一个由文本数据信息增强的语义向量,再将其输入到一个多层感知
机当中来得到术后风险的预测结果。
表格数据通常分为连续型和离散型,在医学领域中,连续型变量不能准确地反映出医学上的语义。因此,本发明实施例选择了采用离散化的方式将连续型变量转换为离散型变量,从而让每一个特征都展现出医学上的语义。本发明实施例实验了等距、等频和K-Means三种离散化方式,等距离散化指依据最大值和最小值然后划分指定区间,等频离散化指离散化后每个区间的实例数量保持一致,K-Means离散化指采用K-Means聚类算法来将数据进行离散化。通过实验,发现离散化会赋予数据医学语义,同时使得数据更符合模型的输入形式,提升了模型的性能。通过实验比较发现,等距离散化是提升效果最大的离散化方式。
为了给表格数据补充其他语义信息,同时采用未被充分利用的自然语言数据信息。本发明实施例将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,可以选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,首次地将自然语言数据纳入到了对术后风险预测的任务中来。
图1示出了根据本发明实施例的一种术后风险预测自然语言数据增强方法的流程图。如图1所示,本发明实施例提供一种术后风险预测自然语言数据增强方法。该方法包括以下步骤:
S100、将围术期下的表格数据的连续型特征转化为分类型特征。
S200、将围术期下的表格数据的离散型特征转换为离散型特征向量,以及将所述
分类型特征转换为分类型特征向量,获得向量嵌入,其中指代离散型特征向量和分
类型特征向量,的范围属于1到m + n,m为连续型特征数量,n为离散型特征数量。
S300、基于术前诊断文本上下文来确定词嵌入,并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入。
在一些实施例中,基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
S400、通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
在一些实施例中,在得到一个语义向量后,还包括步骤,根据所述语义向量来得到术后风险的预测结果。
本发明实施例中方法的各个步骤所能达到的技术效果与模型的效果一致,在此不再累述。
本发明实施例针对于三个不同的术后风险分别进行了实验,分别是:肺部并发症、心血管不良和ICU入室。首先在机器学习模型上进行了增加文本实验,两个机器学习模型分别是逻辑回归模型(Logistic Regression, LR)和极致梯度提升模型(eXtreme GradientBoosting,XGB)。接着在深度学习模型实现了离散化和加入文本实验,WD指深度学习模型WideDeep模型,同时为了检验本发明实施例模型方法的有效性,剔除了自身离散化方法和加入文本方法来进行实验。实验结果如表1所示,通过实验可以看出,在基于向量的方法的LR、WD和NET中,加入文本都会提升模型的性能,但是在基于树模型的XGB中,加入文本反而会使得模型的效果下降。最终,通过实验结果的比较可以看出我们的NET模型的效果是最好的。
表1 实验结果表
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种术后风险预测自然语言数据增强模型,其特征在于,所述模型包括:
离散化层,被配置为,将围术期下的表格数据的连续型特征转化为分类型特征;
列嵌入层,被配置为,将围术期下的表格数据的离散型特征转换为离散型特征向量,以
及将所述分类型特征转换为分类型特征向量,获得向量嵌入 ,其中指代离散型
特征向量和分类型特征向量,的范围属于1到m + n,m为连续型特征数量,n为离散型特征
数量;
文本嵌入层,被配置为,基于术前诊断文本上下文来确定词嵌入;并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;
特征交互层,被配置为,通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
2.根据权利要求1所述的模型,其特征在于,所述三个向量矩阵均由查询向量、键向量和值向量组成。
3.根据权利要求1所述的模型,其特征在于,所述离散化层,被配置为,根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
4.根据权利要求1所述的模型,其特征在于,所述文本嵌入层,被配置为,基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
5.根据权利要求1所述的模型,其特征在于,所述模型还包括多层感知机,所述多层感知机被配置为,根据所述语义向量来得到术后风险的预测结果。
6.一种术后风险预测自然语言数据增强方法,其特征在于,所述方法包括:
将围术期下的表格数据的连续型特征转化为分类型特征;
将围术期下的表格数据的离散型特征转换为离散型特征向量,以及将所述分类型特征
转换为分类型特征向量,获得向量嵌入,其中 指代离散型特征向量和分类型
特征向量, 的范围属于1到m + n,m为连续型特征数量,n为离散型特征数量;
基于术前诊断文本上下文来确定词嵌入,并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;
通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。
7.据权利要求6所述的方法,其特征在于,所述三个向量矩阵均由由查询向量、键向量和值向量组成。
8.根据权利要求6所述的方法,其特征在于,所述将连续型特征转化为分类型特征,具体包括:
根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
9.根据权利要求6所述的方法,其特征在于,所述基于术前诊断文本上下文来确定词嵌入,具体包括:
基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。
10.根据权利要求6所述的方法,其特征在于,在得到一个语义向量后,还包括步骤,根据所述语义向量来得到术后风险的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256548.7A CN114334159B (zh) | 2022-03-16 | 2022-03-16 | 一种术后风险预测自然语言数据增强模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256548.7A CN114334159B (zh) | 2022-03-16 | 2022-03-16 | 一种术后风险预测自然语言数据增强模型及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114334159A true CN114334159A (zh) | 2022-04-12 |
CN114334159B CN114334159B (zh) | 2022-06-17 |
Family
ID=81033555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210256548.7A Active CN114334159B (zh) | 2022-03-16 | 2022-03-16 | 一种术后风险预测自然语言数据增强模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114334159B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862875A (zh) * | 2023-02-27 | 2023-03-28 | 四川大学华西医院 | 基于多类型特征融合的术后肺部并发症预测方法及系统 |
CN116777507A (zh) * | 2023-06-23 | 2023-09-19 | 青岛中沃兴牧食品科技有限公司 | 一种基于lstm模型的猪肉专卖网点各类猪肉销售量的预测方法 |
CN117350276A (zh) * | 2023-12-05 | 2024-01-05 | 卓世未来(天津)科技有限公司 | 一种数据增强方法及系统 |
CN118098602A (zh) * | 2024-04-24 | 2024-05-28 | 四川大学华西医院 | 一种术后并发症风险的多任务联合优化预测方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090247083A1 (en) * | 2008-03-31 | 2009-10-01 | Nellcor Puritan Bennett Llc | Wavelength Selection And Outlier Detection In Reduced Rank Linear Models |
CN109299976A (zh) * | 2018-09-07 | 2019-02-01 | 深圳大学 | 点击率预测方法、电子装置及计算机可读存储介质 |
CN109754852A (zh) * | 2019-01-08 | 2019-05-14 | 中南大学 | 基于电子病历的心血管疾病风险预测方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN110032739A (zh) * | 2019-04-18 | 2019-07-19 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN112001186A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种利用图卷积神经网络和中文句法的情感分类方法 |
CN112527959A (zh) * | 2020-12-11 | 2021-03-19 | 重庆邮电大学 | 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 |
US20210109958A1 (en) * | 2019-10-14 | 2021-04-15 | Stacks LLC | Conceptual, contextual, and semantic-based research system and method |
CN112732916A (zh) * | 2021-01-11 | 2021-04-30 | 河北工业大学 | 一种基于bert的多特征融合模糊文本分类模型 |
CN113255908A (zh) * | 2021-05-27 | 2021-08-13 | 支付宝(杭州)信息技术有限公司 | 基于事件序列进行业务预测的方法、神经网络模型和装置 |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN113688600A (zh) * | 2021-09-08 | 2021-11-23 | 北京邮电大学 | 一种基于主题感知注意力网络的信息传播预测方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN113919344A (zh) * | 2021-09-26 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 文本处理方法和装置 |
-
2022
- 2022-03-16 CN CN202210256548.7A patent/CN114334159B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090247083A1 (en) * | 2008-03-31 | 2009-10-01 | Nellcor Puritan Bennett Llc | Wavelength Selection And Outlier Detection In Reduced Rank Linear Models |
CN109299976A (zh) * | 2018-09-07 | 2019-02-01 | 深圳大学 | 点击率预测方法、电子装置及计算机可读存储介质 |
CN109754852A (zh) * | 2019-01-08 | 2019-05-14 | 中南大学 | 基于电子病历的心血管疾病风险预测方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN110032739A (zh) * | 2019-04-18 | 2019-07-19 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
US20210109958A1 (en) * | 2019-10-14 | 2021-04-15 | Stacks LLC | Conceptual, contextual, and semantic-based research system and method |
CN112001186A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种利用图卷积神经网络和中文句法的情感分类方法 |
CN112527959A (zh) * | 2020-12-11 | 2021-03-19 | 重庆邮电大学 | 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 |
CN112732916A (zh) * | 2021-01-11 | 2021-04-30 | 河北工业大学 | 一种基于bert的多特征融合模糊文本分类模型 |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN113255908A (zh) * | 2021-05-27 | 2021-08-13 | 支付宝(杭州)信息技术有限公司 | 基于事件序列进行业务预测的方法、神经网络模型和装置 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN113688600A (zh) * | 2021-09-08 | 2021-11-23 | 北京邮电大学 | 一种基于主题感知注意力网络的信息传播预测方法 |
CN113919344A (zh) * | 2021-09-26 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 文本处理方法和装置 |
Non-Patent Citations (2)
Title |
---|
ALFRED_LV: "利用BERT模型解析电子病历", 《HTTPS://SEGMENTFAULT.COM/A/1190000037711872》 * |
LAILA RASMY等: "Med-BERT: pretrained contextualized embeddings on largescale structured electronic health records for disease prediction", 《NPJ DIGITAL MEDICINE》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862875A (zh) * | 2023-02-27 | 2023-03-28 | 四川大学华西医院 | 基于多类型特征融合的术后肺部并发症预测方法及系统 |
CN115862875B (zh) * | 2023-02-27 | 2024-02-09 | 四川大学华西医院 | 基于多类型特征融合的术后肺部并发症预测方法及系统 |
CN116777507A (zh) * | 2023-06-23 | 2023-09-19 | 青岛中沃兴牧食品科技有限公司 | 一种基于lstm模型的猪肉专卖网点各类猪肉销售量的预测方法 |
CN116777507B (zh) * | 2023-06-23 | 2024-05-28 | 青岛中沃兴牧食品科技有限公司 | 一种基于lstm模型的猪肉专卖网点各类猪肉销售量的预测方法 |
CN117350276A (zh) * | 2023-12-05 | 2024-01-05 | 卓世未来(天津)科技有限公司 | 一种数据增强方法及系统 |
CN117350276B (zh) * | 2023-12-05 | 2024-02-13 | 卓世未来(天津)科技有限公司 | 一种数据增强方法及系统 |
CN118098602A (zh) * | 2024-04-24 | 2024-05-28 | 四川大学华西医院 | 一种术后并发症风险的多任务联合优化预测方法及系统 |
CN118098602B (zh) * | 2024-04-24 | 2024-07-02 | 四川大学华西医院 | 一种术后并发症风险的多任务联合优化预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114334159B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114334159B (zh) | 一种术后风险预测自然语言数据增强模型及方法 | |
Zhang et al. | The comparison of LightGBM and XGBoost coupling factor analysis and prediagnosis of acute liver failure | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
JP2019536137A (ja) | 知識グラフベースの臨床診断支援 | |
CN110570920B (zh) | 一种基于集中注意力模型的实体、关系联合学习方法 | |
KR102298330B1 (ko) | 음성인식과 자연어 처리 알고리즘을 통해 의료 상담 요약문과 전자 의무 기록을 생성하는 시스템 | |
JP6787087B2 (ja) | データプロパティ認識のための装置、方法及びプログラム | |
JP7257585B2 (ja) | 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法 | |
Jiang et al. | KSCB: A novel unsupervised method for text sentiment analysis | |
WO2021114635A1 (zh) | 患者分群模型构建方法、患者分群方法及相关设备 | |
CN111370102A (zh) | 科室导诊方法、装置以及设备 | |
WO2024001104A1 (zh) | 一种图文数据互检方法、装置、设备及可读存储介质 | |
Shen et al. | A novel deep-learning-based model for medical text classification | |
Niu et al. | Deep multi-modal intermediate fusion of clinical record and time series data in mortality prediction | |
US11809826B2 (en) | Assertion detection in multi-labelled clinical text using scope localization | |
Li et al. | Envelope multi-type transformation ensemble algorithm of Parkinson speech samples | |
Chen et al. | A multi-channel convolutional neural network for ICD coding | |
Jun et al. | Hierarchical multiples self-attention mechanism for multi-modal analysis | |
Song et al. | Translate and summarize complaints of patient to electronic health record by BiLSTM-CNN attention model | |
Ogunleye et al. | Integrated learning via randomized forests and localized regression with application to medical diagnosis | |
CN114997155A (zh) | 一种基于表格检索和实体图推理的事实验证方法与装置 | |
Cui et al. | Automated fusion of multimodal electronic health records for better medical predictions | |
Zhang et al. | Clinical short text classification method based on ALBERT and GAT | |
Wen et al. | TWACapsNet: a capsule network with two-way attention mechanism for speech emotion recognition | |
Gagnon et al. | Comparison of convolutional neural network architectures and their influence on patient classification tasks relating to altered mental status |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |