CN116719945B - 一种医学短文本的分类方法、装置、电子设备及存储介质 - Google Patents
一种医学短文本的分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116719945B CN116719945B CN202310987662.1A CN202310987662A CN116719945B CN 116719945 B CN116719945 B CN 116719945B CN 202310987662 A CN202310987662 A CN 202310987662A CN 116719945 B CN116719945 B CN 116719945B
- Authority
- CN
- China
- Prior art keywords
- model
- neural network
- medical
- network layer
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 120
- 230000006870 function Effects 0.000 claims description 112
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000009533 lab test Methods 0.000 claims description 5
- 238000001356 surgical procedure Methods 0.000 claims description 5
- 208000024891 symptom Diseases 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000018706 hematopoietic system disease Diseases 0.000 description 1
- 230000002440 hepatic effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种医学短文本的分类方法、装置、电子设备及存储介质,包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。这样,通过本申请提供的技术方案,可有效的提高推理速度,并且可以应用到医院场景中。
Description
技术领域
本申请涉及医疗数据处理技术领域,尤其是涉及一种医学短文本的分类方法、装置、电子设备及存储介质。
背景技术
随着医院信息化的飞速发展,医学临床数据呈现出指数级的增长,其中绝大多数为非结构化的文本数据。基于自然语言技术可以从大量的医疗数据挖掘知识,并应用于临床决策辅助系统、药物临床试验项目等。近年来,预训练模型(BERT模型)在自然语言处理领域得到广泛应用、模型越来越大、效果越来越好。但是BERT模型结构复杂、参数量非常多、推理速度慢,并且对相应的软硬件配置要求较高,这对软硬件资源不充分的医院或科研机构极其不友好,相应的应用也很难落地。
发明内容
有鉴于此,本申请的目的在于提供一种医学短文本的分类方法、装置、电子设备及存储介质,可有效的提高推理速度,并且可以应用到医院场景中。
本申请实施例提供了一种医学短文本的分类方法,所述分类方法包括:
获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;
将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。
可选的,通过以下步骤构建所述文本分类模型:
获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;
将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;
基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;
基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
可选的,所述基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值,包括:
使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗BERT模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;
使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;
使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;
使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;
使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
可选的,所述第四损失函数值为交叉熵损失函数值。
可选的,通过以下步骤构建所述教师模型:
获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;
基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始BERT模型进行预训练,得到所述医疗BERT模型;
获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗BERT模型以及相连接的多个全连接层进行微调,得到所述教师模型。
可选的,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。
可选的,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。
本申请实施例还提供了一种医学短文本的分类装置,所述分类装置包括:
获取模块,用于获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;
分类模块,用于将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。
可选的,所述分类装置还包括文本分类模型构建模块,所述文本分类模型构建模块用于:
获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;
将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;
基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;
基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
可选的,所述文本分类模型构建模块在用于基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值时,所述文本分类模型构建模块用于:
使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗BERT模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;
使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;
使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;
使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;
使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
可选的,所述第四损失函数值为交叉熵损失函数值。
可选的,所述分类装置还包括教师模型构建模块,所述教师模型构建模块用于:
获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;
基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始BERT模型进行预训练,得到所述医疗BERT模型;
获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗BERT模型以及相连接的多个全连接层进行微调,得到所述教师模型。
可选的,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。
可选的,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的分类方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的分类方法的步骤。
本申请实施例提供的一种医学短文本的分类方法、装置、电子设备及存储介质,包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。
这样,本申请通过采用知识蒸馏的方式训练出的学生模型,可以学到更多的医学知识,效果比单独训练的学生模型效果更好;所设计的学生模型采用并行的CNN结构,可使推理速度加快,并且可以在医院场景落地;此外本发明提供的教师模型和学生模型结构,教师模型可以分阶段把知识教给学生模型,可以更好的拟合学生模型,多层结构也可以防止过拟合,保证了医学短文本分类效果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种医学短文本的分类方法的流程图;
图2为本申请提供的一种教师模型的结构示意图;
图3为本申请提供的一种学生模型的结构示意图;
图4为本申请提供的构建文本分类模型的原理示意图;
图5为本申请实施例所提供的一种医学短文本的分类装置的结构示意图之一;
图6为本申请实施例所提供的一种医学短文本的分类装置的结构示意图之二;
图7为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
随着医院信息化的飞速发展,医学临床数据呈现出指数级的增长,其中绝大多数为非结构化的文本数据。基于自然语言技术可以从大量的医疗数据挖掘知识,并应用于临床决策辅助系统、药物临床试验项目等。近年来,预训练模型(BERT模型)在自然语言处理领域得到广泛应用、模型越来越大、效果越来越好。但是BERT模型结构复杂、参数量非常多、推理速度慢,并且对相应的软硬件配置要求较高,这对软硬件资源不充分的医院或科研机构极其不友好,相应的应用也很难落地。
基于此,本申请实施例提供了一种医学短文本的分类方法、装置、电子设备及存储介质,可有效的提高推理速度,并且可以应用到医院场景中。
请参阅图1,图1为本申请实施例所提供的一种医学短文本的分类方法的流程图。如图1中所示,本申请实施例提供的分类方法,包括:
S101、获取电子病历数据中的待分类短文本。
这里,所述待分类短文本为非结构化文本,所述待分类短文本为医学短文本。
示例的,通过以下6个示例展示6种不同类型的待分类短文本:“严重的听力或者视力损害”,“患有严重的心脑血管、肝、肾、造血系统疾病”,“血红蛋白≥100 g/L”,“Karnofsky评分<50%”,“注意保暖、避免受凉,加强营养,避免感染”,“进行颅脑神经外科手术”。其中,所述待分类短文本还可以为其他类型或其他表达形式。
S102、将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型。
这里,其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。
其中,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。所述医疗BERT模型和多个全连接层串联。
示例的,请参阅图2、图3所示,图2为本申请提供的一种教师模型的结构示意图,图3为本申请提供的一种学生模型的结构示意图。如图2所示,教师模型中的全连接层N中设置有激活函数,所述激活函数可采用Softmax,全连接层N也是教师模型的输出层。其中,通过实验验证,N取2时,教师模型的性能最优。其中第一层全连接(FC)是为了提取教师模型的高维的特征表示,第二层是为了提取教师模型低维的更细的特征表示,两层比一层有更多的参数,可表征的语义更全,也能更好的辅导学生模型,相当于多次辅导。
如图3所示,学生模型中的全连接层中也设置有激活函数,所述激活函数也可以为Softmax,所述学生模型中的全连接层也是学生模型的输出层。通过实验验证,M取3时,学生模型的性能最优。
每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络,示例的,以第一层卷积神经网络为例,当M取3时,卷积神经网络11(CNN)的卷积核设置为2,卷积神经网络12(CNN)的卷积核设置为3、卷积神经网络13(CNN)的卷积核设置为4,这样,通过设计不同的卷积核,可以捕捉输入数据的不同局部特征,并通过组合这些特征来建立更高级别的表征,以支持卷积神经网络更好表征医学短文本语义。
示例的,所述文本类型可包括:症状、疾病、实验室检验、评估表以及手术。
在本申请提供的一种实施方式,通过以下步骤构建所述文本分类模型:
S201、获取多个第一待训练医学短文本数据。
这里,待训练医学短文本数据为添加有真实文本类型标签的数据。
示例的,请参阅表1,表1中记录有第一待训练医学短文本数据以及对应的标签。
表1:
S202、将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果。
该步骤中,将所述多个第一待训练医学短文本数据依次分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层对输入的待训练医学短文本数据识别后的输出结果以及所述初始学生模型中每个神经网络层对输入的待训练医学短文本数据识别后的输出结果。
示例的,请参阅图4,图4为本申请提供的构建文本分类模型的原理示意图,如图4所示,假设教师模型中设置两个全连接层,对应的学生模型中也设置两个多层卷积神经网络,对于多层卷积神经网络,这里设置有3个卷积神经网络。
当设置教师模型中的医疗BERT模型的输出维度是768,第一个全连接层的输出维度为384;第二个全连接层的输出维度为128;最后结果的输出维度为6(六种结果,其中,所述六种结果包括上述5种指定类型以及其他类型,所述其他类型是指当识别均不上述5种指定类型时输出的结果)。对应的,设置学生模型的第一个多层卷积神经网络中有三个CNN,卷积核分别是2、3、4,输出维度分别是128、256、384;三个CNN的输出合并一起,输出维度为768;第二个多层卷积神经网络中也有三个CNN,卷积核分别是2、3、4,输出维度分别是64、128、192;三个CNN的输出合并一起,输出维度为384;相连的全连接层输出维度为128,最后结果的输出维度为6。
需要说明的,教师模型使用两个全连接层,是为了更好的把知识分步骤拟合到学生模型。学生模型如果使用单个多层卷积神经网络结构蒸馏教师模型,很容易过拟合,因此本发明采用两个多层卷积神经网络结构,每层有3个并行的CNN,并行的CNN可以提升计算速度,从而解决推理速度慢的问题。
S203、基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值。
该步骤中,每个第一待训练医学短文本数据均对应有一个目标损失函数值。也就是说,每将一个第一待训练医学短文本数据输入至模型中(教师模型和学生模型)中,均可确定出目标损失函数值。
在一种实施方式中,所述基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值,包括:
S2031、使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值。
这里,所述教师模型中的第一个神经网络层为医疗BERT模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络。每个第一待训练医学短文本数据具有一个对应的第一损失函数值。
示例的,请继续参阅图4,如图4所示,所述第一损失函数值为使用医疗BERT模型的输出数据和学生模型中的第一个多层卷积神经网络的输出数据进行均方误差计算得到的,即所述第一损失函数为MSELoss。
S2032、使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值。
这里,所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层。每个第一待训练医学短文本数据具有一个对应的第二损失函数值。
示例的,请继续参阅图4,如图4所示,当教师模型中仅包括两个全连接层,学生模型中仅包括两个多层卷积神经网络时,所述教师模型中的中间神经网络层为第一个全连接层,所述初始学生模型中的中间神经网络层为第二个多层卷积神经网络。这样,所述第二损失函数值为使用教师模型中的第一个全连接层的输出数据和学生模型中的第二个多层卷积神经网络的输出数据进行均方误差计算得到的,即所述第二损失函数也为MSELoss。
其中,使用MSELoss用于中间层的误差计算,可以帮忙学生模型更好的学习到教师模型的知识。
S2033、使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值。
每个第一待训练医学短文本数据具有一个对应的第三损失函数值。
示例的,请继续参阅图4,如图4所示,所述第三损失函数值为使用教师模型中的第二个全连接层的输出数据和学生模型中的全连接层的输出数据进行均方误差计算得到的,这里所述第三损失函数可以为KLDivLoss。其中,所述第三损失函数值代表教师模型的输出结果与学生模型的输出结果之间的误差值。
S2034、使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值。
每个第一待训练医学短文本数据具有一个对应的第四损失函数值。
示例的,请继续参阅图4,如图4所示,所述第四损失函数值为使用所述初始学生模型中的全连接层的输出数据和对应的第一待训练医学短文本数据的真实文本类型标签进行误差计算得到的,这里所述第四损失函数可以为交叉熵损失函数,故,所述第四损失函数值为交叉熵损失函数值。
S2035、使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
这里,根据实际情况,预先指定每种损失函数的权重系数。
S204、基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
该步骤中,每确定出一个第一待训练医学短文本数据对应的目标损失函数值后,就对所述初始学生模型的模型参数更新一次。
这里,对所述初始学生模型的模型参数更新包括对所述学生模型中的每个卷积神经网络的网络参数进行更新,以及对所述初始学生模型中的全连接层的网络参数进行更新。
其中,所述文本分类模型为训练完成的学生模型。
在本申请提供的一种实施方式中,所述通过以下步骤构建所述教师模型:
S301、获取多个公开医学文本数据。
这里,所述多个公开医学文本数据为无标签数据。
S302、基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始BERT模型进行预训练,得到所述医疗BERT模型。
这里,使用所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始BERT模型进行预训练,为无监督训练。
需要说明的是,现有技术所使用的预训练完成的BERT进行医学文本分类识别时,该BERT模型预训练所使用的数据多为多个不同领域的文本数据。而本方案,使用大量公开医学文本数据训练得到的医疗BERT模型,可提升模型在医疗领域的泛化能力,利于后续精准分类预测。
S303、获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗BERT模型以及相连接的多个全连接层进行微调,得到所述教师模型。
这里,所述第二待训练医学短文本数据可以与第一待训练医学短文本数据相同,也可以不同。
其中,可使用反向传播算法对教师模型中的神经网络层的网络参数进行微调。
本申请实施例提供的一种医学短文本的分类方法,包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。
这样,本申请通过采用知识蒸馏的方式训练出的学生模型,可以学到更多的医学知识,效果比单独训练的学生模型效果更好;所设计的学生模型采用并行的CNN结构,可使推理速度加快,并且可以在医院场景落地;此外本发明提供的教师模型和学生模型结构,教师模型可以分阶段把知识教给学生模型,可以更好的拟合学生模型,多层结构也可以防止过拟合,保证了医学短文本分类效果。
请参阅图5、图6,图5为本申请实施例所提供的一种医学短文本的分类装置的结构示意图之一,图6为本申请实施例所提供的一种医学短文本的分类装置的结构示意图之二。如图5中所示,所述分类装置500包括:
获取模块510,用于获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;
分类模块520,用于将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。
可选的,如图6所示,所述分类装置500还包括文本分类模型构建模块530,所述文本分类模型构建模块530用于:
获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;
将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;
基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;
基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
可选的,所述文本分类模型构建模块530在用于基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值时,所述文本分类模型构建模块530用于:
使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗BERT模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;
使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;
使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;
使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;
使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
可选的,所述第四损失函数值为交叉熵损失函数值。
可选的,所述分类装置500还包括教师模型构建模块540,所述教师模型构建模块540用于:
获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;
基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始BERT模型进行预训练,得到所述医疗BERT模型;
获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗BERT模型以及相连接的多个全连接层进行微调,得到所述教师模型。
可选的,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。
可选的,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。
请参阅图7,图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括处理器710、存储器720和总线730。
所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图1以及图4所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图4所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种医学短文本的分类方法,其特征在于,所述分类方法包括:
获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;
将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层;所述医疗BERT模型和多个全连接层依次串联;所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同;
通过以下步骤构建所述文本分类模型:
获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;
将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;
基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;
基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型;
所述基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值,包括:
使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗BERT模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;
使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;
使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;
使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;
使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
2.根据权利要求1所述的分类方法,其特征在于,所述第四损失函数值为交叉熵损失函数值。
3.根据权利要求1所述的分类方法,其特征在于,通过以下步骤构建所述教师模型:
获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;
基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始BERT模型进行预训练,得到所述医疗BERT模型;
获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗BERT模型以及相连接的多个全连接层进行微调,得到所述教师模型。
4.根据权利要求1所述的分类方法,其特征在于,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。
5.一种医学短文本的分类装置,其特征在于,所述分类装置包括:
获取模块,用于获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;
分类模块,用于将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层;所述医疗BERT模型和多个全连接层依次串联;所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同;
所述分类装置还包括文本分类模型构建模块,所述文本分类模型构建模块用于:
获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;
将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;
基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;
基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型;
所述文本分类模型构建模块在用于基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值时,所述文本分类模型构建模块用于:
使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗BERT模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;
使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;
使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;
使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;
使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
6.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至4任一所述的分类方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4任一所述的分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310987662.1A CN116719945B (zh) | 2023-08-08 | 2023-08-08 | 一种医学短文本的分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310987662.1A CN116719945B (zh) | 2023-08-08 | 2023-08-08 | 一种医学短文本的分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116719945A CN116719945A (zh) | 2023-09-08 |
CN116719945B true CN116719945B (zh) | 2023-10-24 |
Family
ID=87870049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310987662.1A Active CN116719945B (zh) | 2023-08-08 | 2023-08-08 | 一种医学短文本的分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719945B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313732B (zh) * | 2023-11-29 | 2024-03-26 | 南京邮电大学 | 一种医疗命名实体识别方法、装置及存储介质 |
CN117455421B (zh) * | 2023-12-25 | 2024-04-16 | 杭州青塔科技有限公司 | 科研项目的学科分类方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611377A (zh) * | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
US10853449B1 (en) * | 2016-01-05 | 2020-12-01 | Deepradiology, Inc. | Report formatting for automated or assisted analysis of medical imaging data and medical diagnosis |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN113360643A (zh) * | 2021-05-27 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于短文本分类的电子病历数据质量评价方法 |
CN113704396A (zh) * | 2021-07-25 | 2021-11-26 | 浙江工业大学之江学院 | 短文本分类方法、装置、设备及存储介质 |
CN114020914A (zh) * | 2021-11-03 | 2022-02-08 | 北京中科凡语科技有限公司 | 医疗文本分类方法、装置、电子设备及存储介质 |
CN114023354A (zh) * | 2021-08-24 | 2022-02-08 | 上海师范大学 | 基于聚焦损失函数的指导型声学事件检测模型训练方法 |
CN114049513A (zh) * | 2021-09-24 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于多学生讨论的知识蒸馏方法和系统 |
CN114595325A (zh) * | 2021-12-04 | 2022-06-07 | 电子科技大学长三角研究院(湖州) | 一种基于蒸馏bert的中文短文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7475105B2 (ja) * | 2020-06-22 | 2024-04-26 | パナソニックオートモーティブシステムズ株式会社 | 学習装置、学習方法及びプログラム |
-
2023
- 2023-08-08 CN CN202310987662.1A patent/CN116719945B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10853449B1 (en) * | 2016-01-05 | 2020-12-01 | Deepradiology, Inc. | Report formatting for automated or assisted analysis of medical imaging data and medical diagnosis |
CN111611377A (zh) * | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN113360643A (zh) * | 2021-05-27 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于短文本分类的电子病历数据质量评价方法 |
CN113704396A (zh) * | 2021-07-25 | 2021-11-26 | 浙江工业大学之江学院 | 短文本分类方法、装置、设备及存储介质 |
CN114023354A (zh) * | 2021-08-24 | 2022-02-08 | 上海师范大学 | 基于聚焦损失函数的指导型声学事件检测模型训练方法 |
CN114049513A (zh) * | 2021-09-24 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于多学生讨论的知识蒸馏方法和系统 |
CN114020914A (zh) * | 2021-11-03 | 2022-02-08 | 北京中科凡语科技有限公司 | 医疗文本分类方法、装置、电子设备及存储介质 |
CN114595325A (zh) * | 2021-12-04 | 2022-06-07 | 电子科技大学长三角研究院(湖州) | 一种基于蒸馏bert的中文短文本分类方法 |
Non-Patent Citations (2)
Title |
---|
DistillBIGRU:基于知识蒸馏的文本分类模型;黄友文 等;中文信息学报;第36卷(第4期);第81-89页 * |
Harnessing Deep Neural Networks with Logic Rules;Zhiting Hu 等;Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics;第2410-2420页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116719945A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uçar et al. | The effect of training and testing process on machine learning in biomedical datasets | |
CN116719945B (zh) | 一种医学短文本的分类方法、装置、电子设备及存储介质 | |
Xia et al. | Complete random forest based class noise filtering learning for improving the generalizability of classifiers | |
Qiu et al. | Convolutional neural tensor network architecture for community-based question answering | |
CN109918528A (zh) | 一种基于语义保护的紧凑的哈希码学习方法 | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
Wu et al. | Differential evolution based layer-wise weight pruning for compressing deep neural networks | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
CN111782826A (zh) | 知识图谱的信息处理方法、装置、设备及存储介质 | |
CN110837570A (zh) | 对图像数据进行无偏见分类的方法 | |
Hasan et al. | Integrating text embedding with traditional nlp features for clinical relation extraction | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
Jabir et al. | Dropout, a basic and effective regularization method for a deep learning model: a case study | |
CN112182168A (zh) | 病历文本分析方法、装置、电子设备及存储介质 | |
CN117171554A (zh) | 一种模型训练方法及相关设备 | |
Lee et al. | Improved recurrent generative adversarial networks with regularization techniques and a controllable framework | |
Lu | Multifeature fusion human motion behavior recognition algorithm using deep reinforcement learning | |
Xu et al. | Deep Multi‐Scale Residual Connected Neural Network Model for Intelligent Athlete Balance Control Ability Evaluation | |
Kamimura et al. | Teacher-directed learning: information-theoretic competitive learning in supervised multi-layered networks | |
Yousif | Classification of mental disorders figures based on soft computing methods | |
CN116843961A (zh) | 图像分类方法、系统、介质及电子设备 | |
Menon et al. | Clustering of words using dictionary-learnt word representations | |
Liu et al. | Enhancing clinical predictive modeling through model complexity-driven class proportion tuning for class imbalanced data: an empirical study on opioid overdose prediction | |
Duong et al. | HateNet: A graph convolutional network approach to hate speech detection | |
CN116453143A (zh) | 文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |