CN112712118A - 一种面向医疗文本数据的过滤方法及系统 - Google Patents
一种面向医疗文本数据的过滤方法及系统 Download PDFInfo
- Publication number
- CN112712118A CN112712118A CN202011605648.3A CN202011605648A CN112712118A CN 112712118 A CN112712118 A CN 112712118A CN 202011605648 A CN202011605648 A CN 202011605648A CN 112712118 A CN112712118 A CN 112712118A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- word
- model
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001914 filtration Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 116
- 230000007246 mechanism Effects 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 30
- 238000002372 labelling Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 230000014509 gene expression Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 238000005065 mining Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000000844 transformation Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical class CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 3
- 238000013077 scoring method Methods 0.000 claims description 3
- 206010011224 Cough Diseases 0.000 description 6
- 206010037660 Pyrexia Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 206010014561 Emphysema Diseases 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 230000006793 arrhythmia Effects 0.000 description 3
- 206010003119 arrhythmia Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 208000032376 Lung infection Diseases 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000288140 Gruiformes Species 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 206010037833 rales Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种面向医疗文本数据的过滤方法,其具体步骤如下:获取未标注医疗类别标签的医疗记录数据集S,输入训练好的DSSM‑C‑BiLSTM模型,输出数据集S的预测医疗类别标签Label,通过标签Label进行数据过滤;所述DSSM‑C‑BiLSTM模型训练过程如下:(1)收集医疗记录数据集A,并对医疗记录数据集A进行数据预处理,得到数据集B,并将数据集B划分为训练集和测试集;(2)构建DSSM‑C‑BiLSTM模型,将数据集B的训练集输入到DSSM‑C‑BiLSTM模型中进行训练学习,并将数据集B的测试集输入到训练好的DSSM‑C‑BiLSTM模型中,得到医疗类别标签概率;(3)根据预测医疗类别标签和真实医疗类别标签进行模型评价指标计算,当模型评价指标满足条件后,模型训练完成。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种面向医疗文本数据的过滤方法及系统。
背景技术
随着互联网技术的飞速发展,医院存储海量的医疗信息和资源,但受到健康医疗大数据领域法律相关规则的滞后性,数据没有得到充分的挖掘和利用,相关发展受到制约。近些年来,健康医疗大数据相关产业已经被列入国家大数据战略布局,和医疗健康大数据相关的政策频出,以及人工智能技术的发展进步,利用机器学习算法充分挖掘医疗数据中有用信息成为研究的热点。
而医疗数据中最为核心、数据量最多且最有价值的数据为电子病历,是患者就医过程中所产生的数据,主要包括患者的基本信息和医疗记录数据。其中医疗记录数据包括患者病史、体格检查、辅助检查以及初步诊断结果,成为数据挖掘的主要方向。越来越多的研究者利用医学自然语言理解技术,特别是机器学习相关算法对医疗数据进行挖掘。
但医疗记录的文本序列长度远大于深度神经网络所能处理的序列长度,导致神经网络不能够很好的获取整个文本序列信息,训练得到最优模型,故需要对医疗数据进行压缩过滤。
发明内容
针对上述背景技术介绍中存在的问题,本发明的目的在于提供了一种面向医疗文本数据的过滤方法及系统,通过对医疗记录按句分割,统计句子频率并排序等数据预处理操作,得到可训练数据集,然后通过多种基模型对数据进行训练,并融合投票机制对预测结果进行投票,再对错误的预测结果进行反馈修正,最后根据最终预测结果过滤掉数据。
本发明采用的技术方案是:
一种面向医疗文本数据的过滤方法,其具体步骤如下:
获取未标注医疗类别标签的医疗记录数据集S,输入训练好的DSSM-C-BiLSTM模型,输出数据集S的预测医疗类别标签Label,通过标签Label进行数据过滤;所述DSSM-C-BiLSTM模型训练过程如下:
(1)收集医疗记录数据集A,并对医疗记录数据集A进行数据预处理,得到数据集B,并将数据集B划分为训练集和测试集;
(2)构建DSSM-C-BiLSTM模型,将数据集B的训练集输入到DSSM-C-BiLSTM模型中进行训练学习,并将数据集B的测试集输入到训练好的DSSM-C-BiLSTM模型中,得到医疗类别标签概率;
(3)根据预测医疗类别标签和真实医疗类别标签进行模型评价指标计算,当模型评价指标满足条件后,模型训练完成。
进一步,步骤(2)还包括步骤:
构建多个基础模型,将数据集B的训练集输入到1个或多个基础模型中进行训练学习,并将将数据集B的测试集输入到训练好的1个或多个基础模型中,得到医疗类别标签概率,输出预测医疗类别标签;
采用投票机制对所有模型得到的预测医疗类别标签进行投票融合,得到预测医疗类别标签;
所述基础模型包括以下一种或多种:CNN模型、LSTM模型、BiLSTM模型、C-BiLSTM模型。
进一步,步骤(1)中对医疗记录数据集A进行数据预处理的具体步骤如下:
(1.1)获取数据:收集医疗记录数据集A,数据集A包括N条医疗记录,医疗记录数据主要病历特征,拟诊讨论以及医疗计划,数据集A的形式为A={text1,text2,…,textn,…,textN},其中textn表示第n条医疗记录,textn={wordn1,wordn2,…,wordnm,…,wordnlen(n)},其中wordnm表示第n条医疗记录第m个词,len(n)为第n条医疗记录的长度,表示第n条医疗记录的词语个数;
(1.2)数据清洗:根据步骤(1.1)中获取的数据,对其进行数据清洗,包括以下一种或几种处理:相似文本去重,缺失的文本去除,以及对短的文本进行删除;
(1.3)正则提取:对医疗记录数据集A进行正则提取医疗记录中病例特征部分,得到新的医疗记录数据集A′;
(1.4)分词:利用jieba分词对数据集A′进行分词,并建立停用词典,移除掉语气词、标点符号、数字以及特殊符号;
(1.5)获取标注数据:对数据集A′按句分割,得到新的数据集B,并对数据集B标注医疗记录的医疗类别,标签Label表示医疗记录的医疗类别,其中医疗类别标签具体分为Label1,Label2,Label3三种标签极性,对应的标签分别为1,-1,0。对于未标注待预测的数据集记为S。
进一步,步骤(1.5)中的数据标注采用人工标注或半自动化标注;标注方法是
1)统计数据集B每个句子出现的频率,并对句频进行降序操作,对句频较高的数据进行半自动化标注;
或者是
2)采用频繁项集挖掘算法,基于已标注医疗类别的医疗记录数据集C挖掘频繁出现的某一医疗类别的模式,当数据集B也包含该医疗类别的模式,则可标注数据集B的标签Label为该医疗类别的模式对应的标签;若数据集B无法标注任一医疗类别,则进行人工标注;若数据集B标注出现两个及以上医疗类别,则进行人工标注。
或者是
3)采用词汇打分方法,基于已标注医疗类别的医疗记录数据集C为词表V中的医疗领域专业词汇打分,识别数据集B的词汇,给其句子中对应词汇打分,计算分值,若满足设定阈值,则标注相应的类别标签,若不满足阈值,则进行人工标注;若数据集B出现无对应分数的词汇,则不打分。
进一步,步骤(2)中的DSSM-C-BiLSTM模型由6个连续的层组成,分别为
DSSM词嵌入层,用于对输入的数据集B的每个词汇使用DSSM文本嵌入式表示方法输出DSSM词向量B_DSSM;
卷积层,用于对DSSM词嵌入层输出的DSSM词向量B_DSSM进行卷积计算,输出卷积层学习特征向量B_CNN;
空间注意力机制层,用于对卷积层输出的卷积层学习特征向量B_CNN进行空间注意力分配,对连续输入的序列中的每一时刻输入文本位置向量进行特征提取,并根据卷积层层级中的隐藏状态以及相似特征词向量,计算每一时刻的注意力权重,并加权后输出新的特征向量
双向LSTM层,用于对空间注意力机制层输出的特征向量进行编码,提取序列特征输出给时间注意力机制层,并对时间注意力机制层输出的特征向量et和前一次解码生成的输出序列进行解码输出本次的特征向量yt给全连接层;
时间注意力机制层,用于将双向LSTM层编码后得到的数据向量进行时间注意力分配,对每一时刻输入文本位置向量进行特征提取,并根据LSTM编码层级中的隐藏状态以及相似特征词向量,计算每一时刻的注意力权重,并加权后输出的特征向量et;
全连接层,用于对输入的特征向量yt进行整合,使用softmax函数进行归一化,输出文本中属于不同类别的概率。
进一步,DSSM词嵌入层的文本嵌入的具体步骤如下:
数据集B为B={(term1,label1),(term2,label2),…,(termn,labeln),…,(termN,labelN)},termn={wordn1,wordn2,…,wordnd,…wordnct_n},其中N为样本个数,nct_n为第n条训练数据的词汇个数;
对于输入训练文本中的每个词汇wordnd,使用DSSM文本嵌入式表示方法,维度为d,由于卷积层需要固定长度的输入,因此在每个输入文本的开头和结尾都用特殊符号填充表示未登录词,以确保长度等于限定的最大长度maxlen,如果nct_n小于maxlen,填充至maxlen;输入训练文本中的每个词汇经过下面公式(1)-(4)计算,最终输出低维的词向量,得到数据集B的DSSM向量表示为:B_DSSM={(W1,lable1),(W2,lable2),…,(Wn,lablen)},其中,Wn={w1,w2,…,wi,…,wmaxlen},wi∈Rd是输入文本中第i个词在d维上的DSSM向量表示;
其中DSSM词嵌入层包括:输入层、隐藏层、输出层,首先对词表V中的|V|个词语进行one-hot编码,得到1*|V|的矩阵M,将其输入到DSSM模型中进行迭代训练,并经过relu函数计算得到低维语义向量;那么隐藏层则为|V|*d的向量矩阵,其中隐藏层的矩阵用N表示,|V|代表词表的大小,d代表词向量的维度,最后得到每个词语的词向量:Q=M*N;
其中输出DSSM向量y表示为:
l1=u1x (1)
li=f(uili-1+bi),i=2,...,d-1 (2)
y=f(udld-1+bd) (3)
其中,x为输入DSSM的one-hot高维向量,ui表示第i层的权值矩阵,bi表示第i层的bias项;第一隐层向量l1,偏置为0,第i个隐层向量li;
在每次卷积运算之后加入激活函数relu进行非线性变换,其表达式如下:
relu(x)=max(0,x) (4)
如果输入的x小于0,则令输出等于0;如果输入的x大于0,则令输出等于输入;
假设输入训练语料termn={wordn1,wordn2,…,wordnd,…wordnct_n},若输入termn中的词汇个数小于maxlen,则填充至maxlen,其中每个输入词汇向量表示w=maxlen*d,则输入序列向量为W=(w1,w2,…,wn,…,wmaxlen)。
进一步,卷积层由三个连续的卷积和非线性变换来进行特征表示,令k×l为Rk×l的二维卷积过滤器的大小,则每个过滤器都会产生一个特征图v∈R(maxlen-k+1)×(d-l+1);若过滤器filter数量为n,则将n个过滤器的特征进行组合,用集合C表示,C=[v1,v2,…,vn];
经卷积层学习特征表示为:
B_CNN=C={(c1,label1),(c2,label2),…,(cn,labeln),…,(cN,labelN)}
其中,cn={c1,c2,…,cmaxlen-k+1},cj∈Rd-l+1。
进一步,空间注意力机制层对输入向量序列C的每一时刻ct进行注意力权重计算,具体计算方式如下:
其中(ht-1,st-1)为上一时刻的隐藏状态和上一个状态st-1的级联函数,Om,Pm,Qm为不断更新的三个权重矩阵,为向量c的相似特征词向量求和取平均,为在t时刻第j个输入向量特征的空间注意力权重,代表输入Tc序列的长度,则空间注意力权重分配后输出结果为:
经空间注意力机制学习特征得到新的特征表示为:
其中ht-1为上一时刻的隐藏状态,f1为非线性激活函数;
其次,再使用BiLSTM网络对不同时刻的隐藏状态进行更新,LSTM神经网络中包含遗忘门ft、输入门it、输出门ot三种门限结构,每个LSTM单元在时间t处具有记忆的存储单元st,状态ht的更新方法如下:
ft=σ(Wf·[ht-1,ct]+bf) (9)
it=σ(Wi·[ht-1,ct]+bi) (10)
st=ft·st-1+it·tanh(Wx·[ht-1,ct]+bc) (11)
ot=σ(Wo·[ht-1,ct]+bo) (12)
ht=ot·tanh(st) (13)
其中Wf、Wi、Wc、Wo分别为遗忘门、输入门、候选值向量、输出门的参数矩阵,bf、bi、bc、bo分别为相对应的偏置值,σ(·)为sigmoid函数。
其中(h′t-1,s′t-1)为编码层上一时刻的隐藏状态和上一个状态s′t-1的级联函数,On,Pn,Qn为不断更新的三个权重矩阵,βt j为在t时刻第j个输入向量特征的空间注意力权重,Tc代表输入序列的长度;
再次,将上一步骤得到的时间注意力分配后的数据权重进行计算,得到语义向量et,具体表达式如下:
其中hj为隐藏层状态,et为解码器LSTM单元的输入;
解码器隐藏层状态在t时刻的更新根据如下方程进行更新:
h(t)=f(h(t-1),yt-1,et-1) (17)
在双向LSTM层的解码端,由编码器最终输出的语义编码et和前一次解码器生成的输出序列[y0,y1,…,yt-1]计算本次的输出yt;解码器需要经过一个输出层softmax,来计算解码时刻输出序列所对应于词表V中每个单词的概率,其表达式为:
P(yt|yt-1,yt-2,…,y1,et)=g(h(t),yt-1,et) (18)
对于整个输入编码和解码过程中,使用梯度优化算法以及最大似然条件概率为损失函数来进行模型的训练和优化,其表达式为:
其中θ为相应模型中的参数,cn为输入序列,yn为输出的序列。
进一步,全连接层的表达式如下:
其中zi为第i个节点的输出值,F为输出节点的个数,即分类的类别个数,通过softmax函数就可以将多分类的输出值转换为范围在[0,1]且和为1的概率分布。
进一步,步骤(3)中模型评价指标计算,将训练集划分为K等份,以其中一份作为测试数据,其他的K-1份数据作为训练数据进行模型训练,每次训练都是从K个部分选取一份不同的数据部分作为测试数据,剩下的K-1个当作训练数据,进行交叉验证,最后把得到的K个实验结果进行平分,得到最优的结果;具体步骤如下:
(a)初始化原始训练集:T={(c1,y1),(c2,y2),…,(cn,yn)}其中cn为输入的训练文本,yn为对应的训练标签;
(b)将原始训练集T划分为K(K<n)等份,每次从K等份中选取1份作为测试集,K-1份作为训练集,从而得到新的训练集T和相对应的测试集;
(c)再将新的训练集T输入到构造的基模型中进行训练,得到学习模型Mt;
(d)不断迭代步骤(b)(c),得到新的基模型,加入到组合模型中并进行拟合;
(e)利用可决系数法检测学习模型Mt的拟合优度,若拟合优度大于设定阈值,则认为组合模型拟合较优,进而停止迭代;
其中利用可决系数法检查模型拟合的优度,具体表达式如下:
其中,yi表示真实的观测值,用y表示真实观测值的平均值,用表示拟合值,SSR为回归平方和,SST为总离差平方和;一般情况下,z2在0到1的闭区间上取值,可决系数越大,表明模型拟合越好,反之,则拟合越差,当模型评价指标满足条件后,模型训练完成。
进一步,所述采用投票机制对所有模型得到的预测医疗类别标签进行投票融合,具体为:将同一测试集输给每个基模型,并将各个基模型算法输出的类频率进行类标签的选择,根据每个类的类的统计频率,值大的类对应标签则为最终的输出类别,从而提高了标签预测的准确率;计算每一测试集的标签类别统计频率P公式如下:
P=sort(countLabel1,countLabel2,…,countLabeli) (22)
其中sort()为排序函数,countLabeli为预测的Labeli的频率。
实现上述过滤方法的一种面向医疗文本数据的过滤系统,包括:
数据预处理模块,用于数据预处理,包括获取医疗领域病人的医疗记录语料作为训练语料,数据清洗、正则提取、按句分割、文本分词,文本标注;
模型训练模块,用于在2种模型结构基础上构建的5种基模型,并进行训练,得到预测概率;
融合投票机制模块,用于根据预测标签对所有基模型进行投票,选择基模型输出最多的标签;
反馈修正模块,用于将预测结果与实际结果进行对比,对预测不准确的标签对应的数据进行反馈修正,对修正后的数据进行数据过滤,
所述数据预处理模块、模型训练模块、融合投票机制模块以及反馈修正模块依次连接。
本发明与现有技术相比,其显著优点包括:
(1)本发明根据训练文本序列冗余度高,采用DSSM-C-BiLSTM模型结构提取文本特征,能够很好的预测文本标签Label极性,通过标签Label极性进行数据筛选过滤,从而降低文本序列的冗余度;
(2)本发明融合投票机制,对多种基模型的预测结果进行投票,选择票数最多的标签,同时将该标签与实际标签进行对比,对预测不准确的标签进行反馈修正,提高了预测准确度,从而提高了数据过滤质量;
(3)本发明根据训练文本序列长度远大于深度神经网络所能处理序列长度,采用相关算法达到数据过滤的效果,从而可以使神经网络能很好的获取整个文本序列信息,训练得到最优模型;
(4)本发明数据过滤效率的提高,有利于减小训练内存开销,从而提高训练速度。
(5)本发明构建基于DSSM-C-BiLSTM的多时空多特征深度学习算法模型,其中DSSM模型使用低维语义向量表达,提高文本表征准确度;CNN与传统的卷积神经网络有一些区别与改进,去掉最大池化层,而是由三个连续的卷积和非线性变换来达到最终特征表示,这样就避免减少下一层的参数和计算量,从而是卷积层充分表征了文本语义;同时引入长短时记忆神经网络BiLSTM,用于对卷积后维度不变的数据进行空间和时间上注意力分配,以及相似词特征向量加权并进行编码和解码,得到高度抽象化的语义特征,提高了文本分类准确度,从而提高了数据过滤质量。
附图说明
图1是本发明的结构示意图。
图2是本发明的总体流程图。
图3是本发明的数据预处理流程示意图。
图4是本发明的DSSM-C-BiLSTM模型架构示意图。
图5是本发明的BiLSTM网络模型示意图。
图6是本发明的基模型投票机制示意图。
图7是本发明的数据过滤流程示意图。
具体实施方式
下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
如图1所示,本实施例提供了一种面向医疗文本数据的过滤系统,包括数据预处理模块、模型训练模块、融合投票机制模块以及反馈修正模块。所述数据预处理模块用于数据预处理,包括获取医疗领域病人的医疗记录语料作为训练语料,数据清洗、正则提取、按句分割、文本分词,文本标注;所述模型训练模块是在卷积神经网络CNN和长短时记忆网络LSTM这2种模型结构基础上构建的5种基模型,包括CNN、LSTM、BiLSTM、C-BiLSTM以及DSSM-C-BiLSTM,并进行训练,得到预测概率;所述融合投票机制模块用于根据预测标签对所有基模型进行投票,选择基模型输出最多的标签;所述反馈修正模块用于将预测结果与实际结果进行对比,对预测不准确的标签对应的数据进行反馈修正,对修正后的数据进行数据过滤。
如图2所示,一种面向医疗文本数据的过滤方法包括如下步骤:
(1)收集医疗记录数据集A,并对医疗记录数据集A进行数据预处理,得到可训练数据;
本实施例中,数据集A是某医院病人病程的医疗记录数据,该医疗记录主要包括病例特点、拟诊讨论以及医疗计划三个部分。其中病例特点包括病人病史、体格检查以及辅助检查,拟诊讨论包括诊判依据、初步诊断以及鉴别诊断,医疗计划包括检查计划、治疗计划以及其他计划。该数据集共有105262条医疗记录,且医疗记录的平均长度为1460个字符。
如图3所示,数据预处理步骤如下:
(1.1)获取数据:收集医疗记录数据集A。数据集A包括N条医疗记录,医疗记录数据主要包括病历特征,拟诊讨论以及医疗计划,医疗记录数据形式为长度不一的文本,其中文本中包含患者的医疗字符数据。数据集A的形式为A={text1,text2,…,textn,…,textN},其中textn表示第n条医疗记录,textn={wordn1,wordn2,…,wordnm,…,wordnlen(n)},其中wordnm表示第n条医疗记录第m个词,len(n)为第n条医疗记录的长度,表示第n条医疗记录的词语个数。
(1.2)数据清洗:根据步骤(1.1)中获取的数据,对其进行数据清洗,包括以下一种或几种处理:相似文本去重,缺失的文本去除,以及对短的文本进行删除等处理。其中文本相似去除采用杰卡德相似度算法进行去重,相似值超出阈值的两个文本,去除文本长度短的文本,两个文本长度相同时,随机去除一个文本。在本实施例中,相似阈值设为0.8。
相似文本去重:两条医疗记录一一比对,采用杰卡德相似度算法进行文本相似值计算,文本相似值为两条医疗记录中同时出现的且不重复的文字或字符个数和两条医疗记录中包括的不重复的文字或字符个数的比值。
sim(textn,textr)=1-(textn∩textr/textn∪textr)
例如:textn={你,好,么},textr={你,还,好,吧}
其中,textn∩textr=2,分别为:你、好;textn∪textr=5,分别为:你、好、么、还、吧,则sim(textn,textr)=1-2/5=0.6。
缺失文本去除:去除文字或字符空缺个数和文本长度的比值超出缺失度阈值的文本。一个实施例中,缺失度阈值设为5%。
短文本去除:去除不超出文本长度阈值的文本。在本实施例中,文本长度阈值设为100。
(1.3)正则提取:对医疗记录数据集A进行正则提取,患者病程记录中主要包括三大部分,分别为病历特征,拟诊讨论以及医疗计划,其中病例特征是获取患者的个人健康信息和疾病情况高效途径,对数据挖掘具有重要意义。故正则提取医疗记录中病例特征部分,得到新的医疗记录数据集A′。
根据医疗数据文本格式和结构、医疗领域专业词汇和特有描述等情况,编制正则提取公式,A′=fz(A),fz为正则提取公式,A为输入文本,A′为输出文本。将多种表达的文本进行规则统一。在本实施例中,正则提取采用现有的工具,如Python的re模块。
(1.4)分词:利用jieba分词对数据集A′进行分词,并建立停用词典,移除掉语气词、标点符号、数字以及特殊符号等;建立医疗领域的自定义词典,使其能够分出原始词库中没有的词以及优先分出一些词,提高分词质量。并对分词后的结果进行词频统计,得到词表V,词表大小为|V|,一个实施例中,|V|为56K。
(1.5)获取标注数据:对数据集A′按句分割,得到新的数据集B,并对数据集B标注医疗记录的医疗类别,标签Label表示医疗记录的医疗类别,类别个数可以为2、3、4、5…等,一个实施例中,类别个数为3,其中医疗类别标签具体分为Label1,Label2,Label3三种标签极性,对应的标签分别为1,-1,0。
A={text1,text2,…,textn,…,textN},其中textn表示第n条医疗记录,
textn={termn1,termn2,…,termnd,…,termnct_n},termnd表示第n条医疗记录第d个句子,ct_n为第n条医疗记录的句子个数。
termnd={wordnd1,wordnd2,…,wordndm,…,wordndct_nd},wordndm表示第n条医疗记录第d个句子中的第m个词汇,ct_nd为第n条医疗记录第d个句子的词汇个数。
标注方式采用人工标注或半自动化标注。可采用的方法:
1)统计数据集B每个句子出现的频率,并对句频进行降序操作,对句频较高的数据进行半自动化标注,比如最高频率的句子出现了1000次,可以人工标注1次,对其他999次进行半自动化标注。方法如下:
2)可以采用预设的标注规则进行半自动化标注,原理:基于标注医疗类别的医疗记录数据集C,建立医疗记录和医疗标注的对应关系;采用频繁项集挖掘算法,基于数据集C挖掘频繁出现在某一医疗类别的模式,如[心律齐、无杂音、无压痛]这一组term模式对应医疗类别Label1极性标签,当数据集B也包含[心律齐、无杂音、无压痛],则可以标注该医疗类别Label为Label1极性标签。同理,如[咳嗽、发热、肺部感染、呼吸音粗、气肿]则可以标注该医疗类别为Label2极性标签。
若数据集B无法标注任一医疗类别,则进行人工标注。若数据集B标注出现两个及以上医疗类别,则进行人工标注。
频繁项集挖掘算法可以是FPTree算法、Apriori算法等。
Apriori算法实现过程:首先,找出所有的频繁项集,再从频繁项集中找出符合最小置信度的项集,最终便得到有强规则的项集。其中的相关概念:
项集:即项的集合,以一个词汇term作为一个项。[咳嗽]为一个项,[发热]为一个项,[咳嗽,发热]为一个项集。
支持度:项集AA、BB同时发生的概率称之为关联规则的支持度。AA为项集[咳嗽,发热],BB为项集[感染,气肿],数据集C包含NUM条医疗记录,其中医疗类别为Label2的有NUM_2条医疗记录,项集AA、BB同时发生的概率:[咳嗽,发热]、[感染,气肿]同时在NUM_2条医疗记录中出现的次数占NUM_2条医疗记录数量的比重。
置信度:项集AA发生的情况下,则项集BB发生的概率为关联规则的置信度。AA项集在NUM_2条里出现NUM_AA次,项集AA发生的情况下,则项集BB发生的概率:在出现项集[咳嗽,发热]的NUM_AA次医疗记录中出现[感染,气肿]的次数占NUM_AA的比重。
最小支持度:最小支持度就是预设的阈值,表示项集在统计意义上的最低重要性。
最小置信度:最小置信度也是预设的阈值,表示关联规则最低可靠性。
如果支持度与置信度同时达到最小支持度与最小置信度,则此关联规则为强规则。
频繁项集:满足最小支持度的所有项集,称作频繁项集。
3)词汇打分方法,基于数据集C为词表V中的医疗领域专业词汇打分,如:score_term[肺部感染]=0.9,score_term[两肺气肿]=0.7,score_term[干湿性罗音]=0.3,score_term[心律齐]=0,基于数据集B调整确定某些词汇的分数score_sum,以及医疗类别对应的总分值阈值score_S。
识别数据集B的词汇,给其句子中对应词汇打分,计算分值,若满足阈值,则标注相应的类别。若不满足阈值,人工标注。若数据集B出现无对应分数的词汇,不打分。
本实施例中,数据的语料为Label1极性数据643条,Label2极性数据577条,Label3极性数据486条。预处理后的医疗记录数据集A按照9:1的比例进行划分,分别为训练集和测试集。
本实施例中,训练语料示例如下表所示:
(2)本发明提出DSSM-C-BiLSTM模型的架构如图4所示,步骤(1)获得了数据集B形成的训练数据集,数据形式:B={(term1,label1),(term2,label2),…,(termn,labeln),…,(termN,labelN)},termn={wordn1,wordn2,…,wordnd,…wordnct_n},包含N个样本,一个样本包括:用一组词汇word表示一条训练语料、一个医疗类别标签,将输入训练数据集作为DSSM-C-BiLSTM模型的输入,训练DSSM-C-BiLSTM模型学习医疗记录和医疗类别的关系,当输入新的医疗记录进入训练好的DSSM-C-BiLSTM模型,可以得到该新输入医疗记录的医疗类别标签概率。
DSSM-C-BiLSTM由6个连续的层组成,分别为DSSM词嵌入层、卷积(CONV)层、空间注意力机制层、双向LSTM(BiLSTM)层、时间注意力机制层以及全连接(FC)层。本实施例将DSSM词向量作为卷积层的输入并对其进行卷积计算,得到语义特征向量作为输出数据,用于提取输入数据时间维度中的每一时刻的上下文依赖关系,以及通过卷积操作来捕获基础空间特征;再引入长短时记忆神经网络BiLSTM如图5所示,用于对卷积后维度不变的数据进行空间和时间上注意力分配,以及相似词特征向量加权并进行编码和解码;最后,将解码后特征向量经过FC层,对输入的高度抽象化特征进行整合,然后使用softmax函数进行归一化,输出文本中属于不同类别的概率。从而得到预测标签。具体实施步骤如下:
(2.1)文本嵌入:根据步骤(1)进行按句分割后得到的训练集,B={(term1,label1),(term2,label2),…,(termn,labeln),…,(termN,labelN)},termn={wordn1,wordn2,…,wordnd,…wordnct_n},其中N为样本个数,nct_n为第n条训练数据的词汇个数。
对于输入训练文本中的每个词汇wordnd,使用DSSM文本嵌入式表示方法,维度为d,本实施例中d为300,也可以取其他值。由于卷积层需要固定长度的输入,因此在每个输入文本的开头和结尾都用特殊符号填充表示未登录词,以确保长度等于限定的最大长度maxlen,在本实施例中maxlen为128,也可以取其他值。如果nct_n小于maxlen,填充至maxlen。本实施例从均匀分布[-0.25,0.25]中随机初始化来填充未知词的DSSM词向量,输入训练文本中的每个词汇经过公式(1)-(4)计算,最终输出低维的词向量。
DSSM词嵌入层包括:输入层、隐藏层、输出层。首先对词表V中的|V|个词语进行one-hot编码,得到1*|V|的矩阵M,将其输入到DSSM模型中进行迭代训练,并经过relu函数计算得到低维语义向量。在本实施例中,将每个词表示为一个维度为300的向量,即每个词语有300个特征,那么隐藏层则为|V|*d的向量矩阵,其中隐藏层的矩阵用N表示,|V|代表词表的大小,d代表词向量的维度。最后得到每个词语的词向量:Q=M*N。
其中输出DSSM向量y表示为:
l1=u1x (1)
li=f(uili-1+bi),i=2,...,d-1 (2)
y=f(udld-1+bd) (3)
其中,x为输入DSSM的one-hot高维向量,ui表示第i层的权值矩阵,bi表示第i层的bias项。第一隐层向量l1,偏置为0,第i个隐层向量li。
为了简化反向传播,防止梯度消失和加快训练速度,在每次卷积运算之后加入激活函数relu进行非线性变换,最终输出300维的低维语义向量,其表达式如下:
relu(x)=max(0,x) (4)
如果输入的x小于0,则令输出等于0;如果输入的x大于0,则令输出等于输入。
假设输入训练语料termn={wordn1,wordn2,…,wordnd,…wordnct_n},若输入termn中的词汇个数小于maxlen,则填充至maxlen,其中每个输入词汇向量表示w=maxlen*d=128*300,则输入序列向量为W=(w1,w2,…,wn,…,wmaxlen)。
(2.2)使用卷积层学习特征表示:
B={(term1,label1),(term2,label2),…,(termn,labeln),…,(termN,labelN)},termn={wordn1,wordn2,…,wordnd,…wordnct_n},其中N为样本个数,nct_n为第n条训练数据的词汇个数。数据集B的DSSM向量表示为:B_DSSM={(W1,lable1),(W2,lable2),…,(Wn,lablen)},其中,Wn={w1,w2,…,wi,…,wmaxlen},wi∈Rd是输入文本中第i个词在d维上的DSSM向量表示。
本实施例中,卷积层与传统的卷积神经网络有一些区别与改进,去掉最大池化层,而是由三个连续的卷积和非线性变换来进行特征表示。令k×l为Rk×l的二维卷积过滤器的大小,则每个过滤器都会产生一个特征图v∈R(maxlen-k+1)×(d-l+1)。若过滤器filter数量为n,则将n个过滤器的特征进行组合,用集合C表示,C=[v1,v2,…,vn]。
在本实施例中,输入层为一个128*300的矩阵,代表最大文本长度maxlen为128,每个词向量有300维。而卷积核是一个5*25的权值矩阵。卷积核以步长为1向下移动,每个过滤器都会产生一个特征图v∈R(maxlen-k+1)×(d-l+1),最后经过三个连续的卷积和非线性变换来达到最终特征表示,其尺寸为122×228。
其中,本实施例中文本按句分割后的长度一般小于设定阈值128,对于输入文本长度小于设定阈值的,用<TAD>进行补全;相反,对于大于设定阈值的,则进行截断。
同时,本实施例中,为了简化反向传播,防止梯度消失和加快训练速度,在每次卷积运算之后加入激活函数relu进行非线性变换。
经卷积层学习特征表示为:
B_CNN=C={(c1,label1),(c2,label2),…,(cn,labeln),…,(cN,labelN)}
其中,cn={c1,c2,…,cmaxlen-k+1},cj∈Rd-l+1
卷积层学习特征表示,将DSSM向量表示通过滤波器的处理后,加强了词汇在医疗记录中位置的特征学习,同时卷积层实现参数共享,提高了计算效率,在不断迭代训练中,提取到的特征就越全局化。
(2.3)空间注意力机制层
来自前一个卷积层的122×228特征C表示作为输入序列,并对其进行空间注意力分配,对连续输入的序列中的每一时刻输入文本位置向量进行特征提取,并根据CNN层级中的隐藏状态以及相似特征词向量csim,计算每一时刻的注意力权重。其中csim根据步骤(1)中同义词表Vsim中的词汇c对应的同义词汇经过DSSM训练得到的,其向量维度与卷积层输入的向量维度一致。
对输入向量序列C的每一时刻ct进行注意力权重计算,具体计算方式如下:
其中(ht-1,st-1)为上一时刻的隐藏状态和上一个状态st-1的级联函数,Om,Pm,Qm为不断更新的三个权重矩阵,为向量c的相似特征词向量求和取平均,为在t时刻第j个输入向量特征的空间注意力权重,代表输入Tc序列的长度,则空间注意力权重分配后输出结果为:
经空间注意力机制学习特征得到新的特征表示为:
(2.4)双向长短时记忆网络BiLSTM层:
再将上述公式(22)输出结果作为双向长短时记忆网络BiLSTM的输入,LSTM神经单元状态随着时间的推移动态求和,记忆长期依赖关系,容易克服无法捕捉长距离输入之间依赖的缺陷,对处理序列问题效果明显。BiLSTM方法对输入向量进行编码,提取序列特征。
其中ht-1为上一时刻的隐藏状态,f1为非线性激活函数。
其次,再使用BiLSTM网络对不同时刻的隐藏状态进行更新,LSTM神经网络中包含遗忘门ft、输入门it、输出门ot三种门限结构,每个LSTM单元在时间t处具有记忆的存储单元st,状态ht的更新方法如下:
ft=σ(Wf·[ht-1,ct]+bf) (9)
it=σ(Wi·[ht-1,ct]+bi) (10)
st=ft·st-1+it·tanh(Wx·[ht-1,ct]+bc) (11)
ot=σ(Wo·[ht-1,ct]+bo) (12)
ht=ot·tanh(st) (13)
其中Wf、Wi、Wc、Wo分别为遗忘门、输入门、候选值向量、输出门的参数矩阵,bf、bi、bc、bo分别为相对应的偏置值,σ(·)为sigmoid函数。
(2.5)时间注意力机制层
通过引入时间注意力机制,将BiLSTM编码后得到的数据向量进行时间注意力分配,对每一时刻输入文本位置向量进行特征提取,并根据LSTM编码层级中的隐藏状态以及相似特征词向量,计算每一时刻的注意力权重。对输入数据向量的每一时刻的进行注意力权重计算,具体计算方式如下:
其中(h′t-1,s′t-1)为编码层上一时刻的隐藏状态和上一个状态s′t-1的级联函数,On,Pn,Qn为不断更新的三个权重矩阵,为在t时刻第j个输入向量特征的空间注意力权重,Tc代表输入序列的长度。
再次,将上一步骤得到的时间注意力分配后的数据权重进行计算,得到语义向量et,具体表达式如下:
其中hj为隐藏层状态,et为解码器LSTM单元的输入。
解码器隐藏层状态在t时刻的更新根据如下方程进行更新:
h(t)=f(h(t-1),yt-1,et-1) (17)
在解码端,由编码器最终输出的语义编码et和前一次解码器生成的输出序列[y0,y1,…,yt-1]计算本次的输出yt。解码器需要经过一个输出层softmax,来计算解码时刻输出序列所对应于词表V中每个单词的概率。其表达式为:
P(yt|yt-1,yt-2,…,y1,et)=g(h(t),yt-1,et) (18)
对于整个输入编码和解码过程中,本发明使用梯度优化算法以及最大似然条件概率为损失函数来进行模型的训练和优化。其表达式为:
其中θ为相应模型中的参数,cn为输入序列,yn为输出的序列。
BiLSTM的正向和反向LSTM网络中的LSTM单元按正向和反向顺序读取词级序列表示形式,并且每个单词输出16维表示形式,然后将其组合以生成32维特征表示形式。
(2.6)全连接层FC:
BiLSTM层32维特征向量的输出作为全连接层FC的输入,该层对输入的高度抽象化特征进行整合,然后使用softmax函数进行归一化,输出文本中属于不同类别的概率。其表达式如下:
其中zi为第i个节点的输出值,F为输出节点的个数,即分类的类别个数。通过softmax函数就可以将多分类的输出值转换为范围在[0,1]且和为1的概率分布。
(2.7)对DSSM-C-BiLSTM模型进行评估;
根据模型评价指标准确率(Precision)、召回率(Recall)以及F1值对模型的优劣进行评估。
本实施例中,为了准确评估算法性能的好坏,采用K折交叉验证,其中K的取值为10,在一定程度上有效防止训练集和测试集选择不佳而导致不能很好的反映算法的性能。
本实施例中,将训练集划分为K等份,以其中一份作为测试数据,其他的K-1份数据作为训练数据进行模型训练,这样每次训练都是从K个部分选取一份不同的数据部分作为测试数据(保证K个部分的数据都分别做过测试数据),剩下的K-1个当作训练数据,进行交叉验证,最后把得到的K个实验结果进行平分,得到最优的结果。其具体详细步骤如下:
(a)初始化原始训练集:T={(c1,y1),(c2,y2),…,(cn,yn)}其中cn为输入的训练文本,yn为对应的训练标签;
(b)将原始训练集T划分为K(K<n)等份,每次从K等份中选取1份作为测试集,K-1份作为训练集,从而得到新的训练集T和相对应的测试集;
(c)再将新的训练集T输入到构造的基模型中进行训练,得到学习模型Mt;
(d)不断迭代步骤(b)(c),得到新的基模型,加入到组合模型中并进行拟合;
(e)利用可决系数法检测学习模型Mt的拟合优度,若拟合优度大于设定阈值,则认为组合模型拟合较优,进而停止迭代。
本实施例中,利用可决系数法检查模型拟合的优度,具体表达式如下:
其中,yi表示真实的观测值,用y表示真实观测值的平均值,用表示拟合值,SSR为回归平方和,SST为总离差平方和。一般情况下,z2在0到1的闭区间上取值,可决系数越大,表明模型拟合越好,反之,则拟合越差。通常z2≥0.85,认为模型总体上拟合较好。
当模型评价指标满足条件后,模型训练完成。
(3)本实施例中,可以基于多个DSSM-C-BiLSTM模型,采用投票机制进行医疗标签预测:通过以卷积神经网络(CNN)模型、长短时记忆网络(LSTM)模型作为基础模型,将训练语料输出到模型进行训练,得到每个模型预测标签,融合投票机制按照少数服从多数的原则决定最终结果。
(3.1)通过多种基模型进行训练,得到预测概率:通过以卷积神经网络(CNN)模型、长短时记忆网络(LSTM)模型作为基础模型,将训练语料输出到模型进行训练,从而得到每个预测模型。验证集调整后,所有模型的最佳超参数集如下表:
Paramter | CNN | LSTM | BiLSTM | C-BiLSTM | DSSM-C-BiLSTM |
Batch size | 256 | 256 | 256 | 256 | 256 |
Max len | 128 | 128 | 128 | 128 | 128 |
wordvecdim | 300 | 300 | 300 | 300 | 300 |
cnn depth | 4 | NA | NA | 3 | 3 |
Filter size | 2*20 | NA | NA | 3*25 | 5*25 |
lstm cell | NA | 40 | 40 | 32 | 32 |
nonlinearity | Relu | NA | NA | Relu | Relu |
optimizer | Adagrad | Adagrad | Adagrad | Adagrad | Adagrad |
Learning rate | 0.01 | 0.05 | 0.05 | 0.05 | 0.05 |
(3.2)融合多轮投票机制:如图6所示,与普通的投票机制不同,在所有基模型中根据结果相似度和提交的F1分值选择2或3个基模型一起投票,在对基模型投票时结果相似度越低收益越大,再对投票之后的结果进行再次投票,再次投票时选择结果相似度较低F1分数较高的模型进行投票,不断重复这个投票过程直至发现投票结果和所有基模型的结果相似度都较高,则认为模型融合结果已经将所有基模型的结果都学习到,获得最大收益。
(3.3)将同一测试集输给每个基模型,并将各个基模型算法输出的类频率进行类标签的选择,根据每个类的类的统计频率,值大的类对应标签则为最终的输出类别,从而提高了标签预测的准确率。计算每一测试集的标签类别统计频率P公式如下:
P=sort(countLabel1,countLabel2,…,countLabeli) (22)
其中sort()为排序函数,countLabel1为预测的Label1极性的频率,countLabel2为Label2极性的频率,countLabel3为Label3极性的频率,其三者统计频率为[0,5]。
本实施例中,在投票时把较高票的标签对应概率平均,如果碰到平票的情况根据结果统计频率加权平均,平票情况时高分的模型结果参考性更大,会对高分模型加大权重。
本实施例中,共有5种基模型是在2种模型结构的基础上通过使用不同的数据处理方式以及不同的参数获得的。融合基模型投票机制的预测结果准确度为92.46。
(4)将预测结果与实际结果进行对比,对预测不准确的数据进行反馈修正,再根据反馈修正后的数据,对未标注的数据集S进行过滤。具体步骤如图7所示。
一个实施例,为了提取负向极性Label2的数据,步骤如下:
(4.1)反馈修正:将根据步骤(3)的测试集预测结果与实际结果进行对比,对预测不准确的标签对应的数据进行反馈修正再返回步骤(2)进行训练。
(4.2)数据过滤:将未标注的文本进行按句分割记为数据集S1,并将步骤(4.1)修正后标签为-1即负向极性Label2的数据记为P2,遍历数据集S1,如果数据P2在数据集S1中,则保留该句子并添加至Label2集合;标签为1即正向极性Label1的数据记为P1,遍历数据集S1,如果数据P1在数据集S1中,则保留该句子并添加至Label1集合;Label3极性对应的数据进行删除。最后提取出负向极性Label2对应的数据集合,从而达到数据过滤的目的。
S1为未标注的数据集,根据模型对未标注的数据集进行预测。根据预测结果分为P1即正向极性Label1,P2即负向极性Label2,P3对应标签Label3需直接剔除,即无关的语料。
数据过滤的目的是需将负向极性Label2的数据提取出来,形成患者负向极性数据与患者的特征形成数据标签对,用于训练,便于更好的挖掘患者负向极性数据与患者特征之间的关系。
Claims (11)
1.一种面向医疗文本数据的过滤方法,其具体步骤如下:
获取未标注医疗类别标签的医疗记录数据集S,输入训练好的DSSM-C-BiLSTM模型,输出数据集S的预测医疗类别标签Label,通过标签Label进行数据过滤;所述DSSM-C-BiLSTM模型训练过程如下:
(1)收集医疗记录数据集A,并对医疗记录数据集A进行数据预处理,得到数据集B,并将数据集B划分为训练集和测试集;
(2)构建DSSM-C-BiLSTM模型,将数据集B的训练集输入到DSSM-C-BiLSTM模型中进行训练学习,并将数据集B的测试集输入到训练好的DSSM-C-BiLSTM模型中,得到医疗类别标签概率,输出预测医疗类别标签;
(3)根据预测医疗类别标签和真实医疗类别标签进行模型评价指标计算,当模型评价指标满足条件后,模型训练完成。
2.根据权利要求1所述的一种面向医疗文本数据的过滤方法,其特征在于:步骤(2)还包括步骤:
构建多个基础模型,将数据集B的训练集输入到1个或多个基础模型中进行训练学习,并将将数据集B的测试集输入到训练好的1个或多个基础模型中,得到医疗类别标签概率,输出预测医疗类别标签;
采用投票机制对所有模型得到的预测医疗类别标签进行投票融合,得到预测医疗类别标签;
所述基础模型包括以下一种或多种:CNN模型、LSTM模型、BiLSTM模型、C-BiLSTM模型。
3.根据权利要求1所述的一种面向医疗文本数据的过滤方法,其特征在于:步骤(1)中对医疗记录数据集A进行数据预处理的具体步骤如下:
(1.1)获取数据:收集医疗记录数据集A,数据集A包括N条医疗记录,医疗记录数据主要病历特征,拟诊讨论以及医疗计划,数据集A的形式为A={text1,text2,…,textn,…,textN},其中textn表示第n条医疗记录,textn={wordn1,wordn2,…,wordnm,…,wordnlen(n)},其中wordnm表示第n条医疗记录第m个词,len(n)为第n条医疗记录的长度,表示第n条医疗记录的词语个数;
(1.2)数据清洗:根据步骤(1.1)中获取的数据,对其进行数据清洗,包括以下一种或几种处理:相似文本去重,缺失的文本去除,以及对短的文本进行删除;
(1.3)正则提取:对医疗记录数据集A进行正则提取医疗记录中病例特征部分,得到新的医疗记录数据集A′;
(1.4)分词:利用jieba分词对数据集A′进行分词,并建立停用词典,移除掉语气词、标点符号、数字以及特殊符号;
(1.5)获取标注数据:对数据集A′按句分割,得到新的数据集B,并对数据集B标注医疗记录的医疗类别,标签Label表示医疗记录的医疗类别。
4.根据权利要求3所述的一种面向医疗文本数据的过滤方法,其特征在于:步骤(1.5)中的数据标注采用人工标注或半自动化标注;标注方法是
1)统计数据集B每个句子出现的频率,并对句频进行降序操作,对句频较高的数据进行半自动化标注;
或者是
2)采用频繁项集挖掘算法,基于已标注医疗类别的医疗记录数据集C挖掘频繁出现的某一医疗类别的模式,当数据集B也包含该医疗类别的模式,则可标注数据集B的标签Label为该医疗类别的模式对应的标签;若数据集B无法标注任一医疗类别,则进行人工标注;若数据集B标注出现两个及以上医疗类别,则进行人工标注。
或者是
3)采用词汇打分方法,基于已标注医疗类别的医疗记录数据集C为词表V中的医疗领域专业词汇打分,识别数据集B的词汇,给其句子中对应词汇打分,计算分值,若满足设定阈值,则标注相应的类别标签,若不满足阈值,则进行人工标注;若数据集B出现无对应分数的词汇,则不打分。
5.根据权利要求1所述的一种面向医疗文本数据的过滤方法,其特征在于:步骤(2)中的DSSM-C-BiLSTM模型由6个连续的层组成,分别为
DSSM词嵌入层,用于对输入的数据集B的每个词汇使用DSSM文本嵌入式表示方法输出DSSM词向量B_DSSM;
卷积层,用于对DSSM词嵌入层输出的DSSM词向量B_DSSM进行卷积计算,输出卷积层学习特征向量B_CNN;
空间注意力机制层,用于对卷积层输出的卷积层学习特征向量B_CNN进行空间注意力分配,对连续输入的序列中的每一时刻输入文本位置向量进行特征提取,并根据卷积层层级中的隐藏状态以及相似特征词向量,计算每一时刻的注意力权重,并加权后输出新的特征向量
双向LSTM层,用于对空间注意力机制层输出的特征向量进行编码,提取序列特征输出给时间注意力机制层,并对时间注意力机制层输出的特征向量et和前一次解码生成的输出序列进行解码输出本次的特征向量yt给全连接层;
时间注意力机制层,用于将双向LSTM层编码后得到的数据向量进行时间注意力分配,对每一时刻输入文本位置向量进行特征提取,并根据LSTM编码层级中的隐藏状态以及相似特征词向量,计算每一时刻的注意力权重,并加权后输出的特征向量et;
全连接层,用于对输入的特征向量yt进行整合,使用softmax函数进行归一化,输出文本中属于不同类别的概率。
6.根据权利要求5所述的一种面向医疗文本数据的过滤方法,其特征在于:DSSM词嵌入层的文本嵌入的具体步骤如下:
数据集B为B={(term1,label1),(term2,label2),…,(termn,labeln),…,(termN,labelN)},termn={wordn1,wordn2,…,wordnd,…wordnct_n},其中N为样本个数,nct_n为第n条训练数据的词汇个数;
对于输入训练文本中的每个词汇wordnd,使用DSSM文本嵌入式表示方法,维度为d,由于卷积层需要固定长度的输入,因此在每个输入文本的开头和结尾都用特殊符号填充表示未登录词,以确保长度等于限定的最大长度maxlen,如果nct_n小于maxlen,填充至maxlen;输入训练文本中的每个词汇经过下面公式(1)-(4)计算,最终输出低维的词向量,得到数据集B的DSSM向量表示为:B_DSSM={(W1,lable1),(W2,lable2),…,(Wn,lablen)},其中,Wn={w1,w2,…,wi,…,wmaxlen},wi∈Rd是输入文本中第i个词在d维上的DSSM向量表示;
其中DSSM词嵌入层包括:输入层、隐藏层、输出层,首先对词表V中的|V|个词语进行one-hot编码,得到1*|V|的矩阵M,将其输入到DSSM模型中进行迭代训练,并经过relu函数计算得到低维语义向量;那么隐藏层则为|V|*d的向量矩阵,其中隐藏层的矩阵用N表示,|V|代表词表的大小,d代表词向量的维度,最后得到每个词语的词向量:Q=M*N;
其中输出DSSM向量y表示为:
l1=u1x (1)
li=f(uili-1+bi),i=2,...,d-1 (2)
y=f(udld-1+bd) (3)
其中,x为输入DSSM的one-hot高维向量,ui表示第i层的权值矩阵,bi表示第i层的bias项;第一隐层向量l1,偏置为0,第i个隐层向量li;
在每次卷积运算之后加入激活函数relu进行非线性变换,其表达式如下:
relu(x)=max(0,x) (4)
如果输入的x小于0,则令输出等于0;如果输入的x大于0,则令输出等于输入;
假设输入训练语料termn={wordn1,wordn2,…,wordnd,…wordnct_n},若输入termn中的词汇个数小于maxlen,则填充至maxlen,其中每个输入词汇向量表示w=maxlen*d,则输入序列向量为W=(w1,w2,…,wn,…,wmaxlen)。
7.根据权利要求6所述的一种面向医疗文本数据的过滤方法,其特征在于:卷积层由三个连续的卷积和非线性变换来进行特征表示,令k×l为Rk×l的二维卷积过滤器的大小,则每个过滤器都会产生一个特征图v∈R(maxlen-k+1)×(d-l+1);若过滤器filter数量为n,则将n个过滤器的特征进行组合,用集合C表示,C=[v1,v2,…,vn];
经卷积层学习特征表示为:
B_CNN=C={(c1,label1),(c2,label2),…,(cn,labeln),…,(cN,labelN)}
其中,cn={c1,c2,…,cmaxlen-k+1},cj∈Rd-l+1;
空间注意力机制层对输入向量序列C的每一时刻ct进行注意力权重计算,具体计算方式如下:
其中(ht-1,st-1)为上一时刻的隐藏状态和上一个状态st-1的级联函数,Om,Pm,Qm为不断更新的三个权重矩阵,为向量c的相似特征词向量求和取平均,为在t时刻第j个输入向量特征的空间注意力权重,代表输入Tc序列的长度,则空间注意力权重分配后输出结果为:
经空间注意力机制学习特征得到新的特征表示为:
其中ht-1为上一时刻的隐藏状态,f1为非线性激活函数;
其次,再使用BiLSTM网络对不同时刻的隐藏状态进行更新,LSTM神经网络中包含遗忘门ft、输入门it、输出门ot三种门限结构,每个LSTM单元在时间t处具有记忆的存储单元st,状态ht的更新方法如下:
ft=σ(Wf·[ht-1,ct]+bf) (9)
it=σ(Wi·[ht-1,ct]+bi) (10)
st=ft·st-1+it·tanh(Wx·[ht-1,ct]+bc) (11)
ot=σ(Wo·[ht-1,ct]+bo) (12)
ht=ot·tanh(st) (13)
其中Wf、Wi、Wc、Wo分别为遗忘门、输入门、候选值向量、输出门的参数矩阵,bf、bi、bc、bo分别为相对应的偏置值,σ(·)为sigmoid函数;
其中(h′t-1,s′t-1)为编码层上一时刻的隐藏状态和上一个状态s′t-1的级联函数,On,Pn,Qn为不断更新的三个权重矩阵,βt j为在t时刻第j个输入向量特征的空间注意力权重,Tc代表输入序列的长度;
再次,将上一步骤得到的时间注意力分配后的数据权重进行计算,得到语义向量et,具体表达式如下:
其中hj为隐藏层状态,et为解码器LSTM单元的输入;
解码器隐藏层状态在t时刻的更新根据如下方程进行更新:
h(t)=f(h(t-1),yt-1,et-1) (17)
在双向LSTM层的解码端,由编码器最终输出的语义编码et和前一次解码器生成的输出序列[y0,y1,…,yt-1]计算本次的输出yt;解码器需要经过一个输出层softmax,来计算解码时刻输出序列所对应于词表V中每个单词的概率,其表达式为:
P(yt|yt-1,yt-2,…,y1,et)=g(h(t),yt-1,et) (18)
对于整个输入编码和解码过程中,使用梯度优化算法以及最大似然条件概率为损失函数来进行模型的训练和优化,其表达式为:
其中θ为相应模型中的参数,cn为输入序列,yn为输出的序列;
全连接层的表达式如下:
其中zi为第i个节点的输出值,F为输出节点的个数,即分类的类别个数,通过softmax函数就可以将多分类的输出值转换为范围在[0,1]且和为1的概率分布。
9.根据权利要求1所述的一种面向医疗文本数据的过滤方法,其特征在于:步骤(3)所述模型评价指标计算,将训练集划分为K等份,以其中一份作为测试数据,其他的K-1份数据作为训练数据进行模型训练,每次训练都是从K个部分选取一份不同的数据部分作为测试数据,剩下的K-1个当作训练数据,进行交叉验证,最后把得到的K个预测结果进行平分,得到最优的结果;具体步骤如下:
(a)初始化原始训练集:T={(c1,y1),(c2,y2),…,(cn,yn)}其中cn为输入的训练文本,yn为对应的训练标签;
(b)将原始训练集T划分为K(K<n)等份,每次从K等份中选取1份作为测试集,K-1份作为训练集,从而得到新的训练集T和相对应的测试集;
(c)再将新的训练集T输入到构造的模型中进行训练,得到学习模型Mt;
(d)不断迭代步骤(b)(c),得到新的模型,加入到组合模型中并进行拟合;
(e)利用可决系数法检测学习模型Mt的拟合优度,若拟合优度大于设定阈值,则认为组合模型拟合较优,进而停止迭代;
其中利用可决系数法检查模型拟合的优度,具体表达式如下:
10.根据权利要求2所述的一种面向医疗文本数据的过滤方法,其特征在于:所述采用投票机制对所有模型得到的预测医疗类别标签进行投票融合,具体为:将同一测试集输给每个基模型,并将各个基模型算法输出的类频率进行类标签的选择,根据每个类的类的统计频率,值大的类对应标签则为最终的输出类别;计算每一测试集的标签类别统计频率P公式如下:
P=sort(countLabel1,countLabel2,…,countLabeli) (22)
其中sort()为排序函数,countLabeli为预测的Labeli的频率。
11.实现权利要求1至10任意一项所述的过滤方法的一种面向医疗文本数据的过滤系统,包括:
数据预处理模块,用于数据预处理,包括获取医疗领域病人的医疗记录语料作为训练语料,数据清洗、正则提取、按句分割、文本分词,文本标注;
模型训练模块,用于在2种模型结构基础上构建的5种基模型,并进行训练,得到预测概率;
融合投票机制模块,用于根据预测标签对所有基模型进行投票,选择基模型输出最多的标签;
反馈修正模块,用于将预测结果与实际结果进行对比,对预测不准确的标签对应的数据进行反馈修正,对修正后的数据进行数据过滤,
所述数据预处理模块、模型训练模块、融合投票机制模块以及反馈修正模块依次连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011605648.3A CN112712118B (zh) | 2020-12-29 | 2020-12-29 | 一种面向医疗文本数据的过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011605648.3A CN112712118B (zh) | 2020-12-29 | 2020-12-29 | 一种面向医疗文本数据的过滤方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712118A true CN112712118A (zh) | 2021-04-27 |
CN112712118B CN112712118B (zh) | 2024-06-21 |
Family
ID=75547109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011605648.3A Active CN112712118B (zh) | 2020-12-29 | 2020-12-29 | 一种面向医疗文本数据的过滤方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712118B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127607A (zh) * | 2021-06-18 | 2021-07-16 | 贝壳找房(北京)科技有限公司 | 文本数据标注方法、装置、电子设备及可读存储介质 |
CN113380363A (zh) * | 2021-06-24 | 2021-09-10 | 湖南创星科技股份有限公司 | 基于人工智能的医疗数据质量评价方法及系统 |
CN113486173A (zh) * | 2021-06-11 | 2021-10-08 | 南京邮电大学 | 文本标注神经网络模型及其标注方法 |
CN113672711A (zh) * | 2021-08-09 | 2021-11-19 | 之江实验室 | 一种服务型机器人意图识别装置及其训练、识别方法 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN114090769A (zh) * | 2021-10-14 | 2022-02-25 | 深圳追一科技有限公司 | 实体挖掘方法、装置、计算机设备和存储介质 |
CN114139531A (zh) * | 2021-11-30 | 2022-03-04 | 哈尔滨理工大学 | 一种基于深度学习的医疗实体预测方法及系统 |
CN114338070A (zh) * | 2021-09-03 | 2022-04-12 | 中国电子科技集团公司第三十研究所 | 基于协议属性的Shadowsocks(R)识别方法 |
CN114464283A (zh) * | 2022-02-10 | 2022-05-10 | 上海市精神卫生中心(上海市心理咨询培训中心) | 基于icd-10抑郁症诊疗标准访谈文本的手工标注处理方法、装置、处理器及存储介质 |
CN114792085A (zh) * | 2022-06-22 | 2022-07-26 | 中科雨辰科技有限公司 | 一种标注文本纠错的数据处理系统 |
CN115295134A (zh) * | 2022-09-30 | 2022-11-04 | 北方健康医疗大数据科技有限公司 | 医学模型评价方法、装置和电子设备 |
CN115658886A (zh) * | 2022-09-20 | 2023-01-31 | 广东技术师范大学 | 基于语义文本的智能肝癌分期方法、系统及介质 |
CN115952854A (zh) * | 2023-03-14 | 2023-04-11 | 杭州太美星程医药科技有限公司 | 文本脱敏模型的训练方法、文本脱敏方法及应用 |
CN117520817A (zh) * | 2023-11-08 | 2024-02-06 | 广州水沐青华科技有限公司 | 一种电力指纹识别模型训练方法、装置、设备及存储介质 |
CN117910467A (zh) * | 2024-03-15 | 2024-04-19 | 成都启英泰伦科技有限公司 | 一种离线语音识别过程中的分词处理方法 |
CN117952089A (zh) * | 2024-03-26 | 2024-04-30 | 广州源高网络科技有限公司 | 一种用于真实世界临床研究的智能化数据处理方法及系统 |
CN118551053A (zh) * | 2024-07-30 | 2024-08-27 | 江西师范大学 | 一种基于基学习器和元学习器的医疗文本分类方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968408A (zh) * | 2012-11-23 | 2013-03-13 | 西安电子科技大学 | 识别用户评论的实体特征方法 |
CN106294330A (zh) * | 2015-05-11 | 2017-01-04 | 清华大学 | 一种科技文本挑选方法及装置 |
CN108132947A (zh) * | 2016-12-01 | 2018-06-08 | 百度在线网络技术(北京)有限公司 | 实体挖掘系统和方法 |
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
CN109829156A (zh) * | 2019-01-18 | 2019-05-31 | 北京惠每云科技有限公司 | 医学文本识别方法及装置 |
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
WO2020253055A1 (zh) * | 2019-06-19 | 2020-12-24 | 山东大学 | 一种基于遗传算法和机器学习的并行模拟电路优化方法 |
-
2020
- 2020-12-29 CN CN202011605648.3A patent/CN112712118B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968408A (zh) * | 2012-11-23 | 2013-03-13 | 西安电子科技大学 | 识别用户评论的实体特征方法 |
CN106294330A (zh) * | 2015-05-11 | 2017-01-04 | 清华大学 | 一种科技文本挑选方法及装置 |
CN108132947A (zh) * | 2016-12-01 | 2018-06-08 | 百度在线网络技术(北京)有限公司 | 实体挖掘系统和方法 |
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN108538395A (zh) * | 2018-04-02 | 2018-09-14 | 上海市儿童医院 | 一种通用的医疗专病数据系统的构建方法 |
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109829156A (zh) * | 2019-01-18 | 2019-05-31 | 北京惠每云科技有限公司 | 医学文本识别方法及装置 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
WO2020253055A1 (zh) * | 2019-06-19 | 2020-12-24 | 山东大学 | 一种基于遗传算法和机器学习的并行模拟电路优化方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486173A (zh) * | 2021-06-11 | 2021-10-08 | 南京邮电大学 | 文本标注神经网络模型及其标注方法 |
CN113486173B (zh) * | 2021-06-11 | 2023-09-12 | 南京邮电大学 | 文本标注神经网络模型及其标注方法 |
CN113127607A (zh) * | 2021-06-18 | 2021-07-16 | 贝壳找房(北京)科技有限公司 | 文本数据标注方法、装置、电子设备及可读存储介质 |
CN113380363A (zh) * | 2021-06-24 | 2021-09-10 | 湖南创星科技股份有限公司 | 基于人工智能的医疗数据质量评价方法及系统 |
CN113672711A (zh) * | 2021-08-09 | 2021-11-19 | 之江实验室 | 一种服务型机器人意图识别装置及其训练、识别方法 |
CN113672711B (zh) * | 2021-08-09 | 2024-01-19 | 之江实验室 | 一种服务型机器人意图识别装置及其训练、识别方法 |
CN114338070B (zh) * | 2021-09-03 | 2023-05-30 | 中国电子科技集团公司第三十研究所 | 基于协议属性的Shadowsocks(R)识别方法 |
CN114338070A (zh) * | 2021-09-03 | 2022-04-12 | 中国电子科技集团公司第三十研究所 | 基于协议属性的Shadowsocks(R)识别方法 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN113901207B (zh) * | 2021-09-15 | 2024-04-26 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN114090769A (zh) * | 2021-10-14 | 2022-02-25 | 深圳追一科技有限公司 | 实体挖掘方法、装置、计算机设备和存储介质 |
CN114139531A (zh) * | 2021-11-30 | 2022-03-04 | 哈尔滨理工大学 | 一种基于深度学习的医疗实体预测方法及系统 |
CN114139531B (zh) * | 2021-11-30 | 2024-05-14 | 哈尔滨理工大学 | 一种基于深度学习的医疗实体预测方法及系统 |
CN114464283A (zh) * | 2022-02-10 | 2022-05-10 | 上海市精神卫生中心(上海市心理咨询培训中心) | 基于icd-10抑郁症诊疗标准访谈文本的手工标注处理方法、装置、处理器及存储介质 |
CN114792085A (zh) * | 2022-06-22 | 2022-07-26 | 中科雨辰科技有限公司 | 一种标注文本纠错的数据处理系统 |
CN114792085B (zh) * | 2022-06-22 | 2022-09-16 | 中科雨辰科技有限公司 | 一种标注文本纠错的数据处理系统 |
CN115658886A (zh) * | 2022-09-20 | 2023-01-31 | 广东技术师范大学 | 基于语义文本的智能肝癌分期方法、系统及介质 |
CN115295134A (zh) * | 2022-09-30 | 2022-11-04 | 北方健康医疗大数据科技有限公司 | 医学模型评价方法、装置和电子设备 |
CN115295134B (zh) * | 2022-09-30 | 2023-03-24 | 北方健康医疗大数据科技有限公司 | 医学模型评价方法、装置和电子设备 |
CN115952854B (zh) * | 2023-03-14 | 2023-06-16 | 杭州太美星程医药科技有限公司 | 文本脱敏模型的训练方法、文本脱敏方法及应用 |
CN115952854A (zh) * | 2023-03-14 | 2023-04-11 | 杭州太美星程医药科技有限公司 | 文本脱敏模型的训练方法、文本脱敏方法及应用 |
CN117520817A (zh) * | 2023-11-08 | 2024-02-06 | 广州水沐青华科技有限公司 | 一种电力指纹识别模型训练方法、装置、设备及存储介质 |
CN117910467A (zh) * | 2024-03-15 | 2024-04-19 | 成都启英泰伦科技有限公司 | 一种离线语音识别过程中的分词处理方法 |
CN117910467B (zh) * | 2024-03-15 | 2024-05-10 | 成都启英泰伦科技有限公司 | 一种离线语音识别过程中的分词处理方法 |
CN117952089A (zh) * | 2024-03-26 | 2024-04-30 | 广州源高网络科技有限公司 | 一种用于真实世界临床研究的智能化数据处理方法及系统 |
CN118551053A (zh) * | 2024-07-30 | 2024-08-27 | 江西师范大学 | 一种基于基学习器和元学习器的医疗文本分类方法 |
CN118551053B (zh) * | 2024-07-30 | 2024-09-27 | 江西师范大学 | 一种基于基学习器和元学习器的医疗文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112712118B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712118B (zh) | 一种面向医疗文本数据的过滤方法及系统 | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN109670177A (zh) | 一种基于lstm实现医学语义归一化的控制方法及控制装置 | |
CN111276258B (zh) | 一种基于领域知识的药物致病关系抽取方法 | |
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
CN112735597A (zh) | 半监督自学习驱动的医学文本病症辨识方法 | |
CN115249539B (zh) | 一种多模态小样本抑郁症预测模型构建方法 | |
CN109036577A (zh) | 糖尿病并发症分析方法及装置 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN115186665B (zh) | 一种基于语义的无监督学术关键词提取方法及设备 | |
CN112784532A (zh) | 用于短文本情感分类的多头注意力记忆网络 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN114188022A (zh) | 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统 | |
CN112925918A (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN111859938B (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN114492444A (zh) | 一种中文电子病例医疗实体词类标注方法 | |
CN118171653B (zh) | 一种基于深度神经网络的健康体检文本治理方法 | |
CN116168825A (zh) | 基于知识图谱增强的自动可解释性疾病自动诊断装置 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN114860952A (zh) | 一种基于数据统计和知识指导的图拓扑学习方法及系统 | |
CN117688944A (zh) | 基于多粒度卷积特征融合的中文情感分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |