CN112699241B - 一种可追溯的病历分类方法 - Google Patents

一种可追溯的病历分类方法 Download PDF

Info

Publication number
CN112699241B
CN112699241B CN202110010118.2A CN202110010118A CN112699241B CN 112699241 B CN112699241 B CN 112699241B CN 202110010118 A CN202110010118 A CN 202110010118A CN 112699241 B CN112699241 B CN 112699241B
Authority
CN
China
Prior art keywords
medical record
matrix
model
value
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110010118.2A
Other languages
English (en)
Other versions
CN112699241A (zh
Inventor
张伯政
吴军
樊昭磊
何彬彬
桑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyang Health Technology Group Co ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN202110010118.2A priority Critical patent/CN112699241B/zh
Publication of CN112699241A publication Critical patent/CN112699241A/zh
Application granted granted Critical
Publication of CN112699241B publication Critical patent/CN112699241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种可追溯的病历分类方法,通过使用语言模型,对病历中所有文字的上下文信息进行语义整合,最终通过门控机制,压制无意义文字对分类结果的影响,提升了分类模型中间数据的信噪比,继而提升了病历文本的分类准确度。同时对分类结果有意义的文字得以通过门控值进行追溯。最终实现了高准确率的病历分类的同时,输出文字的门控值,并通过文字的门控值实现了病历分类的文字依据的追溯。

Description

一种可追溯的病历分类方法
技术领域
本发明涉及一种医疗信息处理技术领域,具体涉及一种可追溯的病历分类方法。
背景技术
病历的分类对于当前医疗卫生统计以及疾病编码质控以及DRGs和医保审核等等领域都有着非常广泛的应用。但现如今,病历的分类无法做到百分百准确,而医疗行业又由于其严谨性等特征,所以如何能够对分类的病历文本中的判据进行追溯,继而提升人在使用病历分类的后继产品时的人机协同体验显得尤为重要。传统的病历分类方法主要有两种技术方案:
基于统计语言处理的方法:例如TF-IDF、BM25、N-GRAM、隐语义分析、主题模型等等,这些方法共同的特点,是从统计学的角度出发,抽取出病历文本中的文本特征信息,并将文本特征信息使用统计学分类模型,例如逻辑回归、KNN、SVM等等模型,或者是使用MLP等深度学习模型,针对病历文本中抽取出来的特征信息进行分类。这些方法有很多明显短板:1.在通过统计语言处理方法来抽取病历文本特征的时候,破坏了原来文本的序列结构,虽然分类的过程解释性较强,但是病历的特征与病历文本信息仅仅存在统计学意义上的相关,并不存在一一对照的相关性,所以无法追溯。2.由于基于统计语言处理的方法抽取的病历文本的文本特征皆流于字面的统计,无法深入到每个字的语义层面的信息,所以分类的准确度不高。
基于深度学习的方法:该类方法使用深度神经网络,例如CNN、RNN、Transformer等等,对文本进行分类,虽然其分类准确度较高,但由于深度学习方法属于明显的黑盒机制,且近期有很多的文献以及研究指出,深度学习的追溯尤其是基于Attention机制的追溯都存在无法解释等问题,虽然可以采取例如敏感性分析等等方法进行追溯,但是此类方法只能够对文本中的单字进行追溯,追溯过程中无法结合全文信息。
所以设计一种可以在对病历进行高准确度的分类的同时,能够对文本中的分类判据信息进行精准追溯的方法显得尤为关键。
发明内容
本发明为了克服以上技术的不足,提供了一种对病历进行高准确度分类且能对文本中的分类判据信息进行精准追溯的病历分类方法。
本发明克服其技术问题所采用的技术方案是:
一种可追溯的病历分类方法,包括:
a)获取病历数据,将其表示为集合{(D1,L1),(D2,L2),...,(Dn,Ln)},集合中有n个数据,D1为第1个数据中的病历文本,L1为第1个数据中的病历文本对应的类别标签,所有标签中类别个数为m;
b)随机初始化可训练的标签嵌入矩阵,表示为K,该矩阵大小为m行h列;
c)使用预训练好的语言模型,输入一个病历文本,将其输出的数据表示为矩阵U,其大小为l行h列;
d)随机初始化一个多层感知机,表示为MLP1,其输入维度为h,其输出维度为1;
e)通计算得到每个字的门控值矩阵G,矩阵G为一个l行m列的矩阵,其第i行j列的值表示模型在做预测时,病历中的第i个字在对第j个类别作预测时的相关度;
f)通过计算得到模型预测结果概率矩阵
Figure BDA0002881571760000021
矩阵
Figure BDA0002881571760000022
为一个m行l列的矩阵,每行的数值表示该病历输入该行对应的类别的概率;
g)计算最终的损失值loss;
h)使用Adam或N-Adam优化器依照损失值loss优化语言模型、矩阵K、多层感知机MLP1中的参数;
i)不断变换输入的病历数据,优化模型中的参数,优化完成后,得到最终的病历分类模型;
j)获取待分类的病历D,将病历D输入给步骤h)中优化后语言模型中,得到矩阵U,通过步骤e)计算得到每个字的门控值矩阵G,通过步骤f)计算得到模型预测结果概率矩阵
Figure BDA0002881571760000023
模型预测结果概率矩阵
Figure BDA0002881571760000024
中,最大的值对应的病历分类即为模型最终预测的类别;
k)对第j个类别做预测时,病历中第i个字的相关度为门控值矩阵G中第i行j列的值。
进一步的,步骤c)中的语言模型为BERT或RoBERTa模型或ALBERT模型或XL-NET模型。
进一步的,步骤e)中通过公式G=sigmoid[U×KT]计算得到每个字的门控值矩阵G,式中sigmoid[]为sigmoid函数,KT表示对矩阵K进行转置。
进一步的,步骤f)中通过公式
Figure BDA0002881571760000031
计算得到模型预测结果概率矩阵
Figure BDA0002881571760000032
式中softmax[]为softmax函数,
Figure BDA0002881571760000033
T为转置。
进一步的,步骤g)中通过公式loss=∑[-L*ln(P)]+γ∑[Relu(G-λ)]计算得到最终的损失值loss,式中λ为不可训练的预设参数,λ取值范围在0到1之间,∑[Relu(G-λ)]为门控值正则项,Relu()为Relu函数,γ为门控值的平衡权重,γ的取值大于零,L为输入的病历文本对应的类别标签。
进一步的,λ取值为0.1。
本发明的有益效果是:通过使用语言模型,对病历中所有文字的上下文信息进行语义整合,最终通过门控机制,压制无意义文字对分类结果的影响,提升了分类模型中间数据的信噪比,继而提升了病历文本的分类准确度。同时对分类结果有意义的文字得以通过门控值进行追溯。最终实现了高准确率的病历分类的同时,输出文字的门控值,并通过文字的门控值实现了病历分类的文字依据的追溯。
具体实施方式
下面对本发明做进一步说明。
一种可追溯的病历分类方法,包括:
a)获取病历数据,将其表示为集合{(D1,L1),(D2,L2),...,(Dn,Ln)},集合中有n个数据,D1为第1个数据中的病历文本,L1为第1个数据中的病历文本对应的类别标签,所有标签中类别个数为m。
b)随机初始化可训练的标签嵌入矩阵,表示为K,该矩阵大小为m行h列。其每行数据对应某一个固定的病历类别。
c)使用预训练好的语言模型,输入一个病历文本,将其输出的数据表示为矩阵U,其大小为l行h列,其中l表示输入的病历的文本的长度,其每行数据与病历中的每个文字一一对应。
d)随机初始化一个多层感知机,表示为MLP1,其输入维度为h,其输出维度为1。
e)通计算得到每个字的门控值矩阵G,矩阵G为一个l行m列的矩阵,其第i行j列的值表示模型在做预测时,病历中的第i个字在对第j个类别作预测时的相关度。
f)通过计算得到模型预测结果概率矩阵
Figure BDA0002881571760000041
矩阵
Figure BDA0002881571760000042
为一个m行l列的矩阵,每行的数值表示该病历输入该行对应的类别的概率。
g)计算最终的损失值loss。
h)使用Adam或N-Adam优化器依照损失值loss优化语言模型、矩阵K、多层感知机MLP1中的参数。
i)不断变换输入的病历数据,优化模型中的参数,优化完成后,得到最终的病历分类模型。
j)获取待分类的病历D,将病历D输入给步骤h)中优化后语言模型中,得到矩阵U,通过步骤e)计算得到每个字的门控值矩阵G,通过步骤f)计算得到模型预测结果概率矩阵
Figure BDA0002881571760000043
模型预测结果概率矩阵
Figure BDA0002881571760000044
中,最大的值对应的病历分类即为模型最终预测的类别。
k)对第j个类别做预测时,病历中第i个字的相关度为门控值矩阵G中第i行j列的值。
通过使用语言模型,对病历中所有文字的上下文信息进行语义整合,最终通过门控机制,压制无意义文字对分类结果的影响,提升了分类模型中间数据的信噪比,继而提升了病历文本的分类准确度。同时对分类结果有意义的文字得以通过门控值进行追溯。最终实现了高准确率的病历分类的同时,输出文字的门控值,并通过文字的门控值实现了病历分类的文字依据的追溯。
进一步的,步骤c)中的语言模型为BERT或RoBERTa模型或ALBERT模型或XL-NET模型。
进一步的,步骤e)中通过公式G=sigmoid[U×KT]计算得到每个字的门控值矩阵G,式中sigmoid[]为sigmoid函数,KT表示对矩阵K进行转置。
步骤f)中通过公式
Figure BDA0002881571760000051
计算得到模型预测结果概率矩阵
Figure BDA0002881571760000052
式中softmax[]为softmax函数,
Figure BDA0002881571760000053
T为转置。进一步的,步骤g)中通过公式loss=∑[-L*ln(P)]+γ∑[Relu(G-λ)]计算得到最终的损失值loss,式中λ为不可训练的预设参数,λ取值范围在0到1之间,∑[Relu(G-λ)]为门控值正则项,Relu()为Relu函数,γ为门控值的平衡权重,γ的取值大于零,L为输入的病历文本对应的类别标签。
优选的,步骤g)中λ取值为0.1。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种可追溯的病历分类方法,其特征在于,包括:
a)获取病历数据,将其表示为集合{(D1,L1),(D2,L2),...,(Dn,Ln)},集合中有n个数据,D1为第1个数据中的病历文本,L1为第1个数据中的病历文本对应的类别标签,所有标签中类别个数为m;
b)随机初始化可训练的标签嵌入矩阵,表示为K,该矩阵大小为m行h列;
c)使用预训练好的语言模型,输入一个病历文本,将其输出的数据表示为矩阵U,其大小为l行h列;
d)随机初始化一个多层感知机,表示为MLP1,其输入维度为h,其输出维度为1;
e)通计算得到每个字的门控值矩阵G,矩阵G为一个l行m列的矩阵,其第i行j列的值表示模型在做预测时,病历中的第i个字在对第j个类别作预测时的相关度;
f)通过计算得到模型预测结果概率矩阵
Figure FDA0002881571750000011
矩阵
Figure FDA0002881571750000012
为一个m行l列的矩阵,每行的数值表示该病历输入该行对应的类别的概率;
g)计算最终的损失值loss;
h)使用Adam或N-Adam优化器依照损失值loss优化语言模型、矩阵K、多层感知机MLP1中的参数;
i)不断变换输入的病历数据,优化模型中的参数,优化完成后,得到最终的病历分类模型;
j)获取待分类的病历D,将病历D输入给步骤h)中优化后语言模型中,得到矩阵U,通过步骤e)计算得到每个字的门控值矩阵G,通过步骤f)计算得到模型预测结果概率矩阵
Figure FDA0002881571750000013
模型预测结果概率矩阵
Figure FDA0002881571750000014
中,最大的值对应的病历分类即为模型最终预测的类别;
k)对第j个类别做预测时,病历中第i个字的相关度为门控值矩阵G中第i行j列的值。
2.根据权利要求1所述的可追溯的病历分类方法,其特征在于:步骤c)中的语言模型为BERT或RoBERTa模型或ALBERT模型或XL-NET模型。
3.根据权利要求1所述的可追溯的病历分类方法,其特征在于:步骤e)中通过公式G=sigmoid[U×KT]计算得到每个字的门控值矩阵G,式中sigmoid[]为sigmoid函数,KT表示对矩阵K进行转置。
4.根据权利要求1所述的可追溯的病历分类方法,其特征在于:步骤f)中通过公式
Figure FDA0002881571750000021
计算得到模型预测结果概率矩阵
Figure FDA0002881571750000022
式中softmax[]为softmax函数,
Figure FDA0002881571750000023
T为转置。
5.根据权利要求1所述的可追溯的病历分类方法,其特征在于:步骤g)中通过公式loss=∑[-L*ln(P)]+γ∑[Relu(G-λ)]计算得到最终的损失值loss,式中λ为不可训练的预设参数,λ取值范围在0到1之间,∑[Relu(G-λ)]为门控值正则项,Relu()为Relu函数,γ为门控值的平衡权重,γ的取值大于零,L为输入的病历文本对应的类别标签。
6.根据权利要求5所述的可追溯的病历分类方法,其特征在于:λ取值为0.1。
CN202110010118.2A 2021-01-04 2021-01-04 一种可追溯的病历分类方法 Active CN112699241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110010118.2A CN112699241B (zh) 2021-01-04 2021-01-04 一种可追溯的病历分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110010118.2A CN112699241B (zh) 2021-01-04 2021-01-04 一种可追溯的病历分类方法

Publications (2)

Publication Number Publication Date
CN112699241A CN112699241A (zh) 2021-04-23
CN112699241B true CN112699241B (zh) 2022-08-26

Family

ID=75514772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110010118.2A Active CN112699241B (zh) 2021-01-04 2021-01-04 一种可追溯的病历分类方法

Country Status (1)

Country Link
CN (1) CN112699241B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020248471A1 (zh) * 2019-06-14 2020-12-17 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020248471A1 (zh) * 2019-06-14 2020-12-17 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于BERT的中文电子病历命名实体识别;李灵芳等;《内蒙古科技大学学报》;20200315(第01期);全文 *
基于BERT的医疗电子病历命名实体识别;梁文桐等;《湖南工业大学学报》;20200715(第04期);全文 *
整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别;李纲等;《现代情报》;20200330(第04期);全文 *
文本词向量与预训练语言模型研究;徐菲菲等;《上海电力大学学报》;20200815(第04期);全文 *

Also Published As

Publication number Publication date
CN112699241A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
Adoma et al. Comparative analyses of bert, roberta, distilbert, and xlnet for text-based emotion recognition
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN110347837B (zh) 一种心血管疾病非计划再住院风险预测方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN110348227A (zh) 一种软件漏洞的分类方法及系统
Sadr et al. Convolutional neural network equipped with attention mechanism and transfer learning for enhancing performance of sentiment analysis
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
Gong et al. What does a TextCNN learn?
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN114357284B (zh) 基于深度学习的众包任务个性化推荐方法和系统
CN117688944B (zh) 基于多粒度卷积特征融合的中文情感分析方法及系统
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
Marerngsit et al. A two-stage text-to-emotion depressive disorder screening assistance based on contents from online community
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN115795037B (zh) 一种基于标签感知的多标签文本分类方法
CN114388108A (zh) 一种基于多任务学习的用户反馈分析方法
CN112699241B (zh) 一种可追溯的病历分类方法
CN109902174B (zh) 一种基于方面依赖的记忆网络的情感极性检测方法
Zim et al. Exploring word2vec embedding for sentiment analysis of bangla raw and romanized text
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
Li Textual Data Mining for Financial Fraud Detection: A Deep Learning Approach
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee after: Zhongyang Health Technology Group Co.,Ltd.

Address before: 12 / F, building 1, Aosheng building, 1166 Xinluo street, high tech Zone, Jinan City, Shandong Province

Patentee before: SHANDONG MSUNHEALTH TECHNOLOGY GROUP Co.,Ltd.

CP03 Change of name, title or address