CN114049926A - 一种电子病历文本分类方法 - Google Patents

一种电子病历文本分类方法 Download PDF

Info

Publication number
CN114049926A
CN114049926A CN202111254783.2A CN202111254783A CN114049926A CN 114049926 A CN114049926 A CN 114049926A CN 202111254783 A CN202111254783 A CN 202111254783A CN 114049926 A CN114049926 A CN 114049926A
Authority
CN
China
Prior art keywords
word
neural network
output
text
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111254783.2A
Other languages
English (en)
Inventor
李超凡
马凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN202111254783.2A priority Critical patent/CN114049926A/zh
Publication of CN114049926A publication Critical patent/CN114049926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

一种电子病历文本分类方法,对原始电子病历文本数据集进行预处理操作,形成原始语料库,将原始语料库转换为词表T1,利用词向量工具训练词表T1,将词训练表示为低维稠密的词向量,形成词表T2;然后将文本数据集的每条数据以词编号的形式,对应转换为词向量序列作为输入,以CNN‑Attention神经网络和BiLSTM‑Attention神经网络的双通道结构训练文本特征向量,再将双通道结构的输出进行拼接,作为神经网络的总体输出,最后使用softmax分类器计算文本所属标签类别的概率;本发明能够统筹电子病历文本数据集的局部和全局文本特征,具备较好的稳定性和鲁棒性,有效的提升电子病历文本分类模型的效果。

Description

一种电子病历文本分类方法
技术领域
本发明涉及一种分类方法,具体是一种电子病历文本分类方法,属于自然语言处理应用到医疗电子病例技术领域。
背景技术
文本分类是指建立文本与类别之间的关系模型,作为自然语言处理的基础性任务之一,在情感分析、社交平台舆论监测、垃圾邮件识别等方面都具有重大意义。文本分类的主要算法模型,基本上可分为三类:第一类是基于规则、第二类是基于统计和机器学习、第三类是基于深度学习的方法。
第一类基于规则的方法借助于专业人员的帮助,为预定义类别制定大量判定规则,与特定规则的匹配程度作为文本的特征表达,但是受限于人为主观性、规则模板的全面性和可扩展性,最主要的是规则模板完全不具备可迁移性,所以基于规则制定进行文本分类模型并没有得到有效的进展。
第二类基于统计和机器学习的文本分类算法主要包括决策树法(Decision Tree,DT)、朴素贝叶斯算法(Naive Bayesian,NB)、支持向量机算法(SVM)、K-邻近法(K-NearestNeighbors,KNN)等算法。机器学习模型虽然一定程度上提高了文本分类的效果,但是仍需要人为的进行特征选择与特征提取,忽略了特征之间的关联性,通用性以及扩展性较差。
第三类基于深度学习的文本分类算法主要包括卷积神经网络(ConvolutionalNeural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)等,以及各类神经网络模型的变种融合;随着词向量模型的引入,可以将词序列转换为低维稠密的词向量,并包含丰富的语义信息,使得神经网络模型在文本分类任务得到广泛应用。注意力机制的引入,更加有效的对神经网络输出进行特征筛选与特征加权,降低噪声特征的干扰,获取文本的重要特征。目前应用神经网络组合模型的电子病历文本分类,受限于电子病历高维稀疏的文本特征、文本术语密集、语句成分缺失等问题,会造成模型收敛速度较慢、分类效果不佳的问题。
发明内容
本发明的目的是提供一种电子病历文本分类方法,能够统筹电子病历文本数据集的局部和全局文本特征,具备较好的稳定性和鲁棒性,有效的提升电子病历文本分类模型的效果。
为了实现上述目的,本发明提供一种电子病历文本分类方法,包括以下步骤:
步骤1:对原始电子病历文本数据集进行预处理操作,包括句子分词、去除停用词、低频词,从而形成含有文本条目的原始语料库;
步骤2:将原始语料库转换为包括词编号与词的词表T1,利用词向量工具训练词表T1,将词训练表示为低维稠密的词向量,形成包含词编号和词向量的词表T2;
步骤3:利用步骤2中的词表T1将步骤1的原始语料库的文本条目转换为词编号序列,再利用步骤2中的词表T2将步骤1的原始语料库的文本条目转换为词向量序列;
步骤4:利用步骤3所得的词向量序列作为并行结构的CNN-Attention神经网络和BiLSTM-Attention神经网络的输入,训练文本特征向量;
步骤5:拼接步骤4中CNN-Attention神经网络和BiLSTM-Attention神经网络的输出,作为神经网络的整体输出;
步骤6:连接两个全连接层对步骤5的整体输出进行降维,并使用softmax分类器计算文本所属标签类别的概率,直接输出文本类别的预测结果。
本发明针对原始语料库的任意句子S,结合所述的词表T1与词表T2,得到S在词表T1的转换下为词编号序列S1=(x1,x2,…,xn),在词表T2的转换下为词向量序列S2=(w1,w2,…,wn),其中,xi是词,wi是对应的词向量。
本发明的CNN-Attention神经网络采用三层并行式结构,对于词向量序列S2=(w1,w2,…,wn)的输入,三层并行式结构中每层输出分别为C1、C2与C3,则对于三层并行式结构的整体输出C表示为:
C=concatenate([C1,C2,C3],axis=-1)
其中,concatenate表示concatenate()函数,axis表示维度拼接的方式。
本发明采用Attention机制对三层并行式结构的整体输出C进行特征加权,计算注意力权重得分,并使用softmax函数对注意力权重得分计算权重向量a,对于词向量序列S2=(w1,w2,…,wn)的任意位置词向量wi,将对应的权重向量ai与输出向量Ci进行点乘与累加,形成CNN-Attention神经网络的输出AttCNN
Figure BDA0003323529000000021
本发明的BiLSTM-Attention神经网络采用双向LSTM神经网络,对于词向量序列S2=(w1,w2,…,wn)的输入,对于S2=(w1,w2,…,wn)的任意位置的词向量wi,单向LSTM神经网络进行文本特征训练可获得输出
Figure BDA0003323529000000031
,则BiLSTM神经网络的输出H由双向LSTM神经网络的输出拼接得到:
Figure BDA0003323529000000032
本发明采用Attention机制对BiLSTM神经网络的输出H进行特征加权,计算注意力权重得分,并使用softmax函数对注意力权重得分计算权重向量b,对于词向量序列S2=(w1,w2,…,wn)的任意位置的词向量wi,将对应的权重向量bi与输出向量Hi进行点乘与累加,形成BiLSTM-Attention神经网络的输出AttBiLSTM
Figure BDA0003323529000000033
结合CNN-Attention神经网络的输出AttCNN和BiLSTM-Attention神经网络的输出AttBiLSTM,则双通道神经网络的整体输出Output表示为:
Output=concatenate([AttCNN,AttBiLSTM],axis=1)。
本发明采用softmax分类器计算文本所属标签类别的概率,对于词编号序列S1=(x1,x2,…,xn),对于任意xi所在的原始语料库中的句子S,模型整体上计算句子S所属标签概率的损失函数Loss可表示为:
Figure BDA0003323529000000034
其中,
Figure BDA0003323529000000035
为softmax函数计算得到标签概率的归一化,y为真实标签分布的概率。
本发明的词向量工具为word2vec,默认skip-gram模型。
与现有技术相比,本发明首先对原始电子病历文本数据集进行预处理操作,从而形成原始语料库,通过词向量工具word2vec训练原始语料库,默认skip-gram模型,得到低维稠密的词向量,然后将文本数据集的每条数据以词编号的形式,对应转换为词向量序列作为输入,以CNN-Attention神经网络和BiLSTM-Attention神经网络的双通道结构训练文本特征向量,再将双通道结构的输出进行拼接,作为神经网络的总体输出,最后使用softmax分类器计算文本所属标签类别的概率;本发明提取了文本的局部特征和上下文关联信息,然后以注意力机制对各通道的输出信息进行特征加权,凸显特征词在上下文信息的重要程度,最后将输出结果进行融合,获取更为全面的文本特征,互补了CNN和BiLSTM提取特征的缺点,有效的缓解了因CNN丢失词序信息和BiLSTM处理文本序列的梯度问题;本发明能够统筹电子病历文本数据集的局部和全局文本特征,具备较好的稳定性和鲁棒性,有效的提升电子病历文本分类模型的效果。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种电子病历文本分类方法,包括以下步骤:
步骤1:对原始电子病历文本数据集进行预处理操作,包括句子分词、去除停用词、低频词,从而形成包含文本条目的原始语料库;
步骤2:将原始语料库转换为包括词编号与词的词表T1,通过词向量工具word2vec训练原始语料库,默认skip-gram模型,得到低维稠密的词向量,训练词表T1,将词训练表示为低维稠密的词向量,形成包含词编号和词向量的词表T2;
步骤3:利用步骤2中的词表T1将步骤1的原始语料库的文本条目转换为词编号序列,再利用步骤2中的词表T2将步骤1的原始语料库的文本条目转换为词向量序列;
步骤4:利用步骤3所得的词向量序列作为并行结构的CNN-Attention神经网络和BiLSTM-Attention神经网络的输入,训练文本特征向量;
步骤5:拼接步骤4中CNN-Attention神经网络和BiLSTM-Attention神经网络的输出,作为神经网络的整体输出;
步骤6:连接两个全连接层对步骤5的整体输出进行降维,并使用softmax分类器计算文本所属标签类别的概率,直接输出文本类别的预测结果。
实施例
首先,收集并构造原始电子病历文本数据集,实验数据集来自徐州医科大学附属医院真实电子病历文本,对数据集进行脱敏处理后,从入院记录、病程记录与诊疗计划等方面,合理筛选包含疾病与诊断、症状与体征与治疗方面的1000条病历描述句,包含500条糖尿病数据与500条帕金森病数据。
对于原始电子病历数据集,首先利用Jieba分词模块以精确模式对文本序列进行分词处理,在分词任务结束后,结合停用词表遍历分词结果,去除停用词,形成原始语料库。
将原始语料库转换为词表T1,包括词编号与词,利用word2vec词向量工具训练词表T1,默认skip-gram模型,将词训练表示为低维稠密的词向量,形成词表T2,包含词编号和词向量。
针对原始语料库的任意句子S,结合所述的词表T1与词表T2,得到S在词表T1的转换下为词编号序列S1=(x1,x2,…,xn),在词表T2的转换下为词向量序列S2=(w1,w2,…,wn),其中,xi是词,wi是对应的词向量。
本发明的CNN-Attention神经网络采用三层并行式结构,对于词向量序列S2=(w1,w2,…,wn)的输入,三层并行式结构中每层输出分别为C1、C2与C3,则对于三层并行式结构的整体输出C表示为:
C=concatenate([C1,C2,C3],axis=-1)
其中,concatenate表示concatenate()函数,axis表示维度拼接的方式。
本发明采用Attention机制对三层并行式结构的整体输出C进行特征加权,计算注意力权重得分,并使用softmax函数对注意力权重得分计算权重向量a,对于词向量序列S2=(w1,w2,…,wn)的任意位置词向量wi,将对应的权重向量ai与输出向量Ci进行点乘与累加,形成CNN-Attention神经网络的输出AttCNN
Figure BDA0003323529000000051
本发明的BiLSTM-Attention神经网络采用双向LSTM神经网络,对于词向量序列S2=(w1,w2,…,wn)的输入,对于S2=(w1,w2,…,wn)的任意位置的词向量wi,单向LSTM神经网络进行文本特征训练可获得输出
Figure BDA0003323529000000052
,则BiLSTM神经网络的输出H由双向LSTM神经网络的输出拼接得到:
Figure BDA0003323529000000053
本发明采用Attention机制对BiLSTM神经网络的输出H进行特征加权,计算注意力权重得分,并使用softmax函数对注意力权重得分计算权重向量b,对于词向量序列S2=(w1,w2,…,wn)的任意位置的词向量wi,将对应的权重向量bi与输出向量Hi进行点乘与累加,形成BiLSTM-Attention神经网络的输出AttBiLSTM
Figure BDA0003323529000000061
结合CNN-Attention神经网络的输出AttCNN和BiLSTM-Attention神经网络的输出AttBiLSTM,则双通道神经网络的整体输出Output表示为:
Output=concatenate([AttCNN,AttBiLSTM],axis=1)。
本发明采用softmax分类器计算文本所属标签类别的概率,对于词编号序列S1=(x1,x2,…,xn),对于任意xi所在的原始语料库中的句子S,模型整体上计算句子S所属标签概率的损失函数Loss可表示为:
Figure BDA0003323529000000062
其中,
Figure BDA0003323529000000063
为softmax函数计算得到标签概率的归一化,y为真实标签分布的概率。
本发明实验软件环境为Window10操作系统,Python3.6编程语言,深度学习框架Tensorflow1.14.0,Keras2.2.5,分词工具jieba0.42;电子病历文本数据集采用交叉验证的方式进行实验,按照3:1:1的比例划分训练集、验证集与测试集;常采用精确率(Preciscion,P)、召回率(Recall,R)及F1值(F-measure)作为评价文本分类模型性能的指标:
Figure BDA0003323529000000064
Figure BDA0003323529000000065
Figure BDA0003323529000000066
其中,TP为正确文本预测为正确类别数目;FP为错误文本预测为正确类数目,FN为正确文本预测为错误类数目,F1值即为精确率与召回率的调和平均值。
为了验证本发明所提方法的有效性,设置了四组对比实验:
(1)CNN-Attention:先利用CNN提取输入序列的局部特征,Attention机制对文本特征进行特征加权,降低噪声特征对分类效果的影响;
(2)BiLSTM-Attention:BiLSTM对输入序列构造前后文语义信息,提取病历文本的高层特征,Attention机制对文本特征进行特征加权,降低噪声特征对分类效果的影响;
(3)CNN-BiLSTM-Attention:先利用CNN提取输入序列的局部特征,再利用BiLSTM提取CNN输出的前后向语义信息,进一步构建病历文本的特征表达,然后使用Attention机制对文本特征进行特征加权,降低噪声特征对分类效果的影响。
(4)本发明的分类方法
经多轮实验,并对实验结果进行交叉验证,各类方法的模型评价结果如下表所示,
表1四种不同方法模型的文本分类结果(单位:%)
模型 精确率P 召回率R F1值
(1) 96.82 96.68 96.75
(2) 95.09 94.92 95.00
(3) 98.02 97.78 97.90
(4) 98.84 98.87 98.85
通过上表的实验结果可以得出,本发明的分类方法在评价指标结果中取得了最优异的效果,由此可以得到本发明分类方法在文本分类任务中的优越性。

Claims (9)

1.一种电子病历文本分类方法,其特征在于,包括以下步骤:
步骤1:对原始电子病历文本数据集进行预处理操作,包括句子分词、去除停用词、去除低频词,从而形成含有文本条目的原始语料库;
步骤2:将原始语料库转换为包括词编号与词的词表T1,利用词向量工具训练词表T1,将词训练表示为低维稠密的词向量,形成包含词编号和词向量的词表T2;
步骤3:利用步骤2中的词表T1将步骤1的原始语料库的文本条目转换为词编号序列,再利用步骤2中的词表T2将步骤1的原始语料库的文本条目转换为词向量序列;
步骤4:利用步骤3所得的词向量序列作为并行结构的CNN-Attention神经网络和BiLSTM-Attention神经网络的输入,训练文本特征向量;
步骤5:拼接步骤4中CNN-Attention神经网络和BiLSTM-Attention神经网络的输出,作为神经网络的整体输出;
步骤6:连接两个全连接层对步骤5的整体输出进行降维,并使用softmax分类器计算文本所属标签类别的概率,直接输出文本类别的预测结果。
2.根据权利要求1所述的一种电子病历文本分类方法,其特征在于,针对原始语料库的任意句子S,结合所述的词表T1与词表T2,得到S在词表T1的转换下为词编号序列S1=(x1,x2,…,xn),在词表T2的转换下为词向量序列S2=(w1,w2,…,wn),其中,xi是词,wi是对应的词向量。
3.根据权利要求2所述的一种电子病历文本分类方法,其特征在于,CNN-Attention神经网络采用三层并行式结构,对于词向量序列S2=(w1,w2,…,wn)的输入,三层并行式结构中每层输出分别为C1、C2与C3,则对于三层并行式结构的整体输出C表示为:
C=concatenate([C1,C2,C3],axis=-1)
其中,concatenate表示concatenate()函数,axis表示维度拼接的方式。
4.根据权利要求3所述的一种电子病历文本分类方法,其特征在于,采用Attention机制对三层并行式结构的整体输出C进行特征加权,计算注意力权重得分,并使用softmax函数对注意力权重得分计算权重向量a,对于词向量序列S2=(w1,w2,…,wn)的任意位置词向量wi,将对应的权重向量ai与输出向量Ci进行点乘与累加,形成CNN-Attention神经网络的输出AttCNN
Figure FDA0003323528990000021
5.根据权利要求4所述的一种电子病历文本分类方法,其特征在于,BiLSTM-Attention神经网络采用双向LSTM神经网络,对于词向量序列S2=(w1,w2,…,wn)的输入,对于S2=(w1,w2,…,wn)的任意位置的词向量wi,单向LSTM神经网络进行文本特征训练可获得输出
Figure FDA0003323528990000022
则BiLSTM神经网络的输出H由双向LSTM神经网络的输出拼接得到:
Figure FDA0003323528990000023
6.根据权利要求4所述的一种电子病历文本分类方法,其特征在于,采用Attention机制对BiLSTM神经网络的输出H进行特征加权,计算注意力权重得分,并使用softmax函数对注意力权重得分计算权重向量b,对于词向量序列S2=(w1,w2,…,wn)的任意位置的词向量wi,将对应的权重向量bi与输出向量Hi进行点乘与累加,形成BiLSTM-Attention神经网络的输出AttBiLSTM
Figure FDA0003323528990000024
7.根据权利要求6所述的一种电子病历文本分类方法,其特征在于,结合CNN-Attention神经网络的输出AttCNN和BiLSTM-Attention神经网络的输出AttBiLSTM,则双通道神经网络的整体输出Output表示为:
Output=concatenate([AttCNN,AttBiLSTM],axis=1)。
8.根据权利要求6所述的一种电子病历文本分类方法,其特征在于,采用softmax分类器计算文本所属标签类别的概率,对于词编号序列S1=(x1,x2,…,xn),对于任意xi所在的原始语料库中的句子S,模型整体上计算句子S所属标签概率的损失函数Loss可表示为:
Figure FDA0003323528990000025
其中,
Figure FDA0003323528990000026
为softmax函数计算得到标签概率的归一化,y为真实标签分布的概率。
9.根据权利要求6所述的一种电子病历文本分类方法,其特征在于,词向量工具为word2vec,默认skip-gram模型。
CN202111254783.2A 2021-10-27 2021-10-27 一种电子病历文本分类方法 Pending CN114049926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111254783.2A CN114049926A (zh) 2021-10-27 2021-10-27 一种电子病历文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111254783.2A CN114049926A (zh) 2021-10-27 2021-10-27 一种电子病历文本分类方法

Publications (1)

Publication Number Publication Date
CN114049926A true CN114049926A (zh) 2022-02-15

Family

ID=80206072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111254783.2A Pending CN114049926A (zh) 2021-10-27 2021-10-27 一种电子病历文本分类方法

Country Status (1)

Country Link
CN (1) CN114049926A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580430A (zh) * 2022-02-24 2022-06-03 大连海洋大学 一种基于神经网络的鱼病描述情感词的提取方法
CN115269838A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分类方法
CN116429710A (zh) * 2023-06-15 2023-07-14 武汉大学人民医院(湖北省人民医院) 一种药物组分检测方法、装置、设备及可读存储介质
CN116777034A (zh) * 2023-03-28 2023-09-19 北京金禾天成科技有限公司 一种基于物联网的小麦赤霉病预测系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580430A (zh) * 2022-02-24 2022-06-03 大连海洋大学 一种基于神经网络的鱼病描述情感词的提取方法
CN114580430B (zh) * 2022-02-24 2024-04-05 大连海洋大学 一种基于神经网络的鱼病描述情感词的提取方法
CN115269838A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分类方法
CN115269838B (zh) * 2022-07-20 2023-06-23 北京新纽科技有限公司 一种电子病历的分类方法
CN116777034A (zh) * 2023-03-28 2023-09-19 北京金禾天成科技有限公司 一种基于物联网的小麦赤霉病预测系统及方法
CN116429710A (zh) * 2023-06-15 2023-07-14 武汉大学人民医院(湖北省人民医院) 一种药物组分检测方法、装置、设备及可读存储介质
CN116429710B (zh) * 2023-06-15 2023-09-26 武汉大学人民医院(湖北省人民医院) 一种药物组分检测方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN114049926A (zh) 一种电子病历文本分类方法
Mukhtar et al. Urdu sentiment analysis using supervised machine learning approach
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN108108354A (zh) 一种基于深度学习的微博用户性别预测方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN110222192A (zh) 语料库建立方法及装置
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
Arora et al. Comparative question answering system based on natural language processing and machine learning
CN113268974B (zh) 多音字发音标注方法、装置、设备及存储介质
CN116719936B (zh) 一种基于集成学习的网络不可靠信息早期检测方法
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及系统
CN112989830A (zh) 一种基于多元特征和机器学习的命名实体识别方法
Qutab et al. Sentiment analysis for roman urdu text over social media, a comparative study
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN113468874B (zh) 一种基于图卷积自编码的生物医学关系抽取方法
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
CN112465054A (zh) 一种基于fcn的多变量时间序列数据分类方法
CN110737781A (zh) 一种基于多层知识门的法条与事实关系计算方法
CN117194604B (zh) 一种智慧医疗病患问诊语料库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination