CN112365993A

CN112365993A - 一种针对少样本公众健康问句的分类方法及系统

Info

Publication number: CN112365993A
Application number: CN202011395411.7A
Authority: CN
Inventors: 杨兰; 孙锐; 展华益; 周兴发; 饶璐; 谭斌; 方凡
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-02-12

Abstract

本发明公开了一种针对少样本公众健康问句的分类方法，包括：采集医疗领域数据；基于采集的数据，利用自监督学习方法进行基础模型的预训练得到预训练模型；获取健康查询数据作为样本，并对其中部分样本数据进行标注；基于预训练模型构造基于迁移学习的健康查询问句分类网络模型；利用标注后的样本训练所述健康查询问句分类网络模型；利用所述健康查询问句分类网络模型对未标注样本数据进行标注；利用已完成标注的样本数据对所述健康查询问句分类网络模型进行迭代训练。本发明的方法可解决由于医学领域知识的复杂性造成文本数据标注困难，特征工程建立困难，进而导致医学领域数据分类任务性能不佳的问题。

Description

一种针对少样本公众健康问句的分类方法及系统

技术领域

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种针对少样本公众健康问句的分类方法及系统。

背景技术

近年来，智能医疗的广阔前景吸引了大量研究人员和医疗从业人员的注意，其相关技术也成为了研究热点。随着智能医疗的发展以及云计算、物联网、移动智能等技术在智能医疗领域的广泛应用，在医疗服务、健康保健和卫生管理过程中产生了海量数据集，形成了医学大数据。医学大数据挖掘能为疾病研究、临床及管理决策、医疗服务个性化及图像识别等众多领域带来更多支持，具有巨大的研究和应用价值。面对急剧增长的医学数据集，医学信息系统必须用更准确和高效的手段来管理和组织这些数据，而作为文本数据挖掘技术中的关键手段，文本分类技术可以在一定程度上解决医学数据杂乱无序的现象。

文本分类的方法主要有基于传统的机器学习方法和基于深度学习的方法两种。传统的文本分类方法是将文本表示为稀疏的词汇特征，例如词袋特征和n-gram特征，基于这些特征，利用贝叶斯、逻辑回归或SVM等机器学习模型对文本进行分类。随着深度学习技术的发展，基于神经网络的文本分类模型不断发展，取得了较多的成果，并成为了文本分类的主流方法。在医疗文本分类任务中，通常需要对文本进行预处理和特征工程的建模，然而医学文本中存在的大量领域知识和专业术语，因此大大增加了文本预处理和特征构建的难度；另一个难点是医学领域知识的高门槛造成数据标注困难，导致训练样本通常较为缺乏，从而影响了神经网络的训练效果。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种针对少样本公众健康问句的分类方法及系统，可解决由于医学领域知识的复杂性造成文本数据标注困难，特征工程建立困难，进而导致医学领域数据分类任务性能不佳的问题。

为了达到上述的技术效果，本发明采取以下技术方案：

一种针对少样本公众健康问句的分类方法，包括：

步骤1.采集医疗领域数据；

步骤2.基于采集的数据，利用自监督学习方法进行基础模型的预训练得到预训练模型；

步骤3.获取健康查询数据作为样本，并对其中部分样本数据进行标注；

步骤4.基于预训练模型构造基于迁移学习的健康查询问句分类网络模型；

步骤5.利用标注后的样本训练所述健康查询问句分类网络模型；

步骤6.利用所述健康查询问句分类网络模型对未标注样本数据进行标注；

步骤7.利用已完成标注的样本数据对所述健康查询问句分类网络模型进行迭代训练，提升模型性能；

通过本发明的方法可以实现将样本重新输入模型训练，在迭代过程中，实现标注样本数量不断增加，同时，模型性能不断提升。

进一步地，所述步骤1中具体是利用数据采集工具来获取网络上的公共健康医疗信息数据，具体的，数据信息来源包括有：医学领域相关的期刊、论文、专利、百科、词典，网站中数据信息，和从医疗行业相关的组织机构中获取的信息。

进一步地，所述步骤2中进行基础模型的预训练前还包括构建预训练任务，并通过预训练任务从医疗领域数据中挖掘数据自身信息。

进一步地，所述预训练任务包括基于上下文信息构造的预训练任务或基于时序信息构造的预训练任务或基于对比学习的方式构造的预训练任务。

进一步地，所述步骤3中，样本数据标注的方法包含但不限于以下方法：采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典的方法对数据进行全自动标注的方法。

进一步地，所述健康查询问句分类网络模型包括预训练模型模块、语义特征提取模块、分类模块。

进一步地，所述语义特征提取模块由以下神经网络实现：卷积神经网络、循环神经网络或Transformer网络。

进一步地，所述分类模块包含多标签分类模块和多类别分类模块。

进一步地，所述步骤5中训练模型的方法包括基于半监督的学习方法或基于主动学习的迭代式训练方法。

同时，本发明还公开了一种针对少样本公众健康问句的分类系统，包括：

数据采集模块，用于采集医疗领域数据；

模型预训练模块，用于基于采集的数据，利用自监督学习方法进行基础模型的预训练得到预训练模型；

样本标注模块，用于获取健康查询数据作为样本并对其中部分样本数据进行标注；

分类模型构造模块，用于基于预训练模型构造基于迁移学习的健康查询问句分类网络模型；

模型训练模块，用于利用标注后的样本训练所述健康查询问句分类网络模型。

本发明与现有技术相比，具有以下的有益效果：

本发明的针对少样本公众健康问句的分类方法及系统，可以实现利用未标注数据通过自监督学习方法，挖掘医学数据信息知识，基于迁移学习的方法构造文本分类任务，可以解决特征工程构建难的问题，采用基于半监督或者主动学习的模型训练方法，可以摆脱医学文本标注难的困境，获取更多的机器标注样本和性能更佳的分类模型。

附图说明

图1是本发明的针对少样本公众健康问句的分类方法的流程示意图。

图2是本发明的针对少样本公众健康问句的分类系统的示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例：

实施例一：

如图1所示，一种针对少样本公众健康问句的分类方法，具体包括以下步骤：

步骤1.采集医疗领域数据。

具体的，采集数据时，具体是利用数据采集工具来获取网络上的公共健康医疗信息数据，本实施例中，数据信息来源包括有：医学领域相关的期刊、论文、专利、百科、词典，网站中数据信息，和从医疗行业相关的组织机构中获取的信息。

步骤2.基于采集的数据，利用自监督学习方法进行基础模型的预训练得到预训练模型。

具体的，进行基础模型的预训练前还包括构建预训练任务，并通过预训练任务从医疗领域数据中挖掘数据自身信息。本实施例中的基础模型为BERT模型结构。

本实施例中，所述预训练任务包括基于上下文信息构造的预训练任务，比如：掩码语言模型；或基于时序信息构造的预训练任务比如：“Next Sentence Prediction”任务；或基于对比学习的方式构造的预训练任务。

步骤3.获取健康查询数据作为样本，并对其中部分样本数据进行标注。

具体的，样本数据标注的方法包含但不限于以下方法：采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典的方法对数据进行全自动标注的方法。

步骤4.基于预训练模型构造基于迁移学习的健康查询问句分类网络模型。

所述健康查询问句分类网络模型包括预训练模型模块、语义特征提取模块、分类模块。

其中，所述语义特征提取模块由以下神经网络实现：卷积神经网络、循环神经网络或Transformer网络。所述分类模块包含多标签分类模块和多类别分类模块。

步骤5.利用标注后的样本训练所述健康查询问句分类网络模型。

具体的，训练模型的方法包括基于半监督的学习方法，比如:MixText，或者通过对数据添加对抗噪声进行一致性训练，或者通过对数据采用数据增强手段再进行一致性训练；

训练模型的方法还包括基于主动学习的迭代式训练方法，则模型通过合适的策略筛选出最具有价值的样本进行标注，并将样本重新输入模型训练，在迭代过程中，实现标注样本数量不断增加，模型性能不断提升。

实施例二

一种针对少样本公众健康问句的分类系统，如图2所示，具体包括：数据采集模块、模型预训练模块、样本标注模块、分类模型构造模块及模型训练模块。

具体的，数据采集模块用于采集医疗领域数据；模型预训练模块用于基于采集的数据，利用自监督学习方法进行基础模型的预训练得到预训练模型；样本标注模块用于获取健康查询数据作为样本并对其中部分样本数据进行标注；分类模型构造模块用于基于预训练模型构造基于迁移学习的健康查询问句分类网络模型；模型训练模块用于利用标注后的样本训练所述健康查询问句分类网络模型，且还可通过对数据添加对抗噪声进行一致性训练，或者通过对数据采用数据增强手段再进行一致性训练，其中，训练分类模型方法包括基于半监督的学习方法或基于主动学习的迭代式训练方法，模型通过合适的策略筛选出最具有价值的样本进行标注，并将样本重新输入模型训练，在迭代过程中，实现标注样本数量不断增加，模型性能不断提升。

具体的，本实施例的针对少样本公众健康问句的分类系统的具体工作流程如实施例一的针对少样本公众健康问句的分类方法的流程，此处不再赘述。

综上可知，本实施例的针对少样本公众健康问句的分类系统可以实现利用未标注数据通过自监督学习方法，挖掘医学数据信息知识，基于迁移学习的方法构造文本分类任务，可以解决特征工程构建难的问题，采用基于半监督或者主动学习的模型训练方法，可以摆脱医学文本标注难的困境，获取更多的机器标注样本和性能更佳的分类模型。

实施例三

本实施例中公开了一种计算机设备，该计算机设备可以是服务器，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储针对少样本公众健康问句的分类方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现针对少样本公众健康问句的分类方法。

在另一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例一中针对少样本公众健康问句的分类方法的步骤，或者，处理器执行计算机程序时实现上述实施例二的针对少样本公众健康问句的分类系统的各模块的功能。为避免重复，这里不再赘述。

在另一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例一中针对少样本公众健康问句的分类方法的步骤，或者，处理器执行计算机程序时实现上述实施例二的针对少样本公众健康问句的分类系统的各模块的功能。为避免重复，这里不再赘述。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种针对少样本公众健康问句的分类方法，其特征在于，包括：

步骤1.采集医疗领域数据；

步骤7.利用已完成标注的样本数据对所述健康查询问句分类网络模型进行迭代训练，提升模型性能。

2.根据权利要求1所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述步骤1中具体是利用数据采集工具来获取网络上的公共健康医疗信息数据。

3.根据权利要求1所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述步骤2中进行基础模型的预训练前还包括构建预训练任务，并通过预训练任务从医疗领域数据中挖掘数据自身信息。

4.根据权利要求3所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述预训练任务包括基于上下文信息构造的预训练任务或基于时序信息构造的预训练任务或基于对比学习的方式构造的预训练任务。

5.根据权利要求1所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述步骤3中，样本数据标注的方法包含但不限于以下方法：采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典的方法对数据进行全自动标注的方法。

6.根据权利要求1所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述健康查询问句分类网络模型包括预训练模型模块、语义特征提取模块、分类模块。

7.根据权利要求6所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述语义特征提取模块由以下神经网络实现：卷积神经网络、循环神经网络或Transformer网络。

8.根据权利要求6所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述分类模块包含多标签分类模块和多类别分类模块。

9.根据权利要求1至8中任一所述的一种针对少样本公众健康问句的分类方法，其特征在于，所述步骤5中训练模型的方法包括基于半监督的学习方法或基于主动学习的迭代式训练方法。

10.一种针对少样本公众健康问句的分类系统，其特征在于，包括：

数据采集模块，用于采集医疗领域数据；