CN112365993A - 一种针对少样本公众健康问句的分类方法及系统 - Google Patents
一种针对少样本公众健康问句的分类方法及系统 Download PDFInfo
- Publication number
- CN112365993A CN112365993A CN202011395411.7A CN202011395411A CN112365993A CN 112365993 A CN112365993 A CN 112365993A CN 202011395411 A CN202011395411 A CN 202011395411A CN 112365993 A CN112365993 A CN 112365993A
- Authority
- CN
- China
- Prior art keywords
- training
- data
- model
- sample
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对少样本公众健康问句的分类方法,包括:采集医疗领域数据;基于采集的数据,利用自监督学习方法进行基础模型的预训练得到预训练模型;获取健康查询数据作为样本,并对其中部分样本数据进行标注;基于预训练模型构造基于迁移学习的健康查询问句分类网络模型;利用标注后的样本训练所述健康查询问句分类网络模型;利用所述健康查询问句分类网络模型对未标注样本数据进行标注;利用已完成标注的样本数据对所述健康查询问句分类网络模型进行迭代训练。本发明的方法可解决由于医学领域知识的复杂性造成文本数据标注困难,特征工程建立困难,进而导致医学领域数据分类任务性能不佳的问题。
Description
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种针对少样本公众健康问句的分类方法及系统。
背景技术
近年来,智能医疗的广阔前景吸引了大量研究人员和医疗从业人员的注意,其相关技术也成为了研究热点。随着智能医疗的发展以及云计算、物联网、移动智能等技术在智能医疗领域的广泛应用,在医疗服务、健康保健和卫生管理过程中产生了海量数据集,形成了医学大数据。医学大数据挖掘能为疾病研究、临床及管理决策、医疗服务个性化及图像识别等众多领域带来更多支持,具有巨大的研究和应用价值。面对急剧增长的医学数据集,医学信息系统必须用更准确和高效的手段来管理和组织这些数据,而作为文本数据挖掘技术中的关键手段,文本分类技术可以在一定程度上解决医学数据杂乱无序的现象。
文本分类的方法主要有基于传统的机器学习方法和基于深度学习的方法两种。传统的文本分类方法是将文本表示为稀疏的词汇特征,例如词袋特征和n-gram特征,基于这些特征,利用贝叶斯、逻辑回归或SVM等机器学习模型对文本进行分类。随着深度学习技术的发展,基于神经网络的文本分类模型不断发展,取得了较多的成果,并成为了文本分类的主流方法。在医疗文本分类任务中,通常需要对文本进行预处理和特征工程的建模,然而医学文本中存在的大量领域知识和专业术语,因此大大增加了文本预处理和特征构建的难度;另一个难点是医学领域知识的高门槛造成数据标注困难,导致训练样本通常较为缺乏,从而影响了神经网络的训练效果。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种针对少样本公众健康问句的分类方法及系统,可解决由于医学领域知识的复杂性造成文本数据标注困难,特征工程建立困难,进而导致医学领域数据分类任务性能不佳的问题。
为了达到上述的技术效果,本发明采取以下技术方案:
一种针对少样本公众健康问句的分类方法,包括:
步骤1.采集医疗领域数据;
步骤2.基于采集的数据,利用自监督学习方法进行基础模型的预训练得到预训练模型;
步骤3.获取健康查询数据作为样本,并对其中部分样本数据进行标注;
步骤4.基于预训练模型构造基于迁移学习的健康查询问句分类网络模型;
步骤5.利用标注后的样本训练所述健康查询问句分类网络模型;
步骤6.利用所述健康查询问句分类网络模型对未标注样本数据进行标注;
步骤7.利用已完成标注的样本数据对所述健康查询问句分类网络模型进行迭代训练,提升模型性能;
通过本发明的方法可以实现将样本重新输入模型训练,在迭代过程中,实现标注样本数量不断增加,同时,模型性能不断提升。
进一步地,所述步骤1中具体是利用数据采集工具来获取网络上的公共健康医疗信息数据,具体的,数据信息来源包括有:医学领域相关的期刊、论文、专利、百科、词典,网站中数据信息,和从医疗行业相关的组织机构中获取的信息。
进一步地,所述步骤2中进行基础模型的预训练前还包括构建预训练任务,并通过预训练任务从医疗领域数据中挖掘数据自身信息。
进一步地,所述预训练任务包括基于上下文信息构造的预训练任务或基于时序信息构造的预训练任务或基于对比学习的方式构造的预训练任务。
进一步地,所述步骤3中,样本数据标注的方法包含但不限于以下方法:采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典的方法对数据进行全自动标注的方法。
进一步地,所述健康查询问句分类网络模型包括预训练模型模块、语义特征提取模块、分类模块。
进一步地,所述语义特征提取模块由以下神经网络实现:卷积神经网络、循环神经网络或Transformer网络。
进一步地,所述分类模块包含多标签分类模块和多类别分类模块。
进一步地,所述步骤5中训练模型的方法包括基于半监督的学习方法或基于主动学习的迭代式训练方法。
同时,本发明还公开了一种针对少样本公众健康问句的分类系统,包括:
数据采集模块,用于采集医疗领域数据;
模型预训练模块,用于基于采集的数据,利用自监督学习方法进行基础模型的预训练得到预训练模型;
样本标注模块,用于获取健康查询数据作为样本并对其中部分样本数据进行标注;
分类模型构造模块,用于基于预训练模型构造基于迁移学习的健康查询问句分类网络模型;
模型训练模块,用于利用标注后的样本训练所述健康查询问句分类网络模型。
本发明与现有技术相比,具有以下的有益效果:
本发明的针对少样本公众健康问句的分类方法及系统,可以实现利用未标注数据通过自监督学习方法,挖掘医学数据信息知识,基于迁移学习的方法构造文本分类任务,可以解决特征工程构建难的问题,采用基于半监督或者主动学习的模型训练方法,可以摆脱医学文本标注难的困境,获取更多的机器标注样本和性能更佳的分类模型。
附图说明
图1是本发明的针对少样本公众健康问句的分类方法的流程示意图。
图2是本发明的针对少样本公众健康问句的分类系统的示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
实施例一:
如图1所示,一种针对少样本公众健康问句的分类方法,具体包括以下步骤:
步骤1.采集医疗领域数据。
具体的,采集数据时,具体是利用数据采集工具来获取网络上的公共健康医疗信息数据,本实施例中,数据信息来源包括有:医学领域相关的期刊、论文、专利、百科、词典,网站中数据信息,和从医疗行业相关的组织机构中获取的信息。
步骤2.基于采集的数据,利用自监督学习方法进行基础模型的预训练得到预训练模型。
具体的,进行基础模型的预训练前还包括构建预训练任务,并通过预训练任务从医疗领域数据中挖掘数据自身信息。本实施例中的基础模型为BERT模型结构。
本实施例中,所述预训练任务包括基于上下文信息构造的预训练任务,比如:掩码语言模型;或基于时序信息构造的预训练任务比如:“Next Sentence Prediction”任务;或基于对比学习的方式构造的预训练任务。
步骤3.获取健康查询数据作为样本,并对其中部分样本数据进行标注。
具体的,样本数据标注的方法包含但不限于以下方法:采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典的方法对数据进行全自动标注的方法。
步骤4.基于预训练模型构造基于迁移学习的健康查询问句分类网络模型。
所述健康查询问句分类网络模型包括预训练模型模块、语义特征提取模块、分类模块。
其中,所述语义特征提取模块由以下神经网络实现:卷积神经网络、循环神经网络或Transformer网络。所述分类模块包含多标签分类模块和多类别分类模块。
步骤5.利用标注后的样本训练所述健康查询问句分类网络模型。
具体的,训练模型的方法包括基于半监督的学习方法,比如:MixText,或者通过对数据添加对抗噪声进行一致性训练,或者通过对数据采用数据增强手段再进行一致性训练;
训练模型的方法还包括基于主动学习的迭代式训练方法,则模型通过合适的策略筛选出最具有价值的样本进行标注,并将样本重新输入模型训练,在迭代过程中,实现标注样本数量不断增加,模型性能不断提升。
步骤6.利用所述健康查询问句分类网络模型对未标注样本数据进行标注;
步骤7.利用已完成标注的样本数据对所述健康查询问句分类网络模型进行迭代训练,提升模型性能;
通过本发明的方法可以实现将样本重新输入模型训练,在迭代过程中,实现标注样本数量不断增加,同时,模型性能不断提升。
实施例二
一种针对少样本公众健康问句的分类系统,如图2所示,具体包括:数据采集模块、模型预训练模块、样本标注模块、分类模型构造模块及模型训练模块。
具体的,数据采集模块用于采集医疗领域数据;模型预训练模块用于基于采集的数据,利用自监督学习方法进行基础模型的预训练得到预训练模型;样本标注模块用于获取健康查询数据作为样本并对其中部分样本数据进行标注;分类模型构造模块用于基于预训练模型构造基于迁移学习的健康查询问句分类网络模型;模型训练模块用于利用标注后的样本训练所述健康查询问句分类网络模型,且还可通过对数据添加对抗噪声进行一致性训练,或者通过对数据采用数据增强手段再进行一致性训练,其中,训练分类模型方法包括基于半监督的学习方法或基于主动学习的迭代式训练方法,模型通过合适的策略筛选出最具有价值的样本进行标注,并将样本重新输入模型训练,在迭代过程中,实现标注样本数量不断增加,模型性能不断提升。
具体的,本实施例的针对少样本公众健康问句的分类系统的具体工作流程如实施例一的针对少样本公众健康问句的分类方法的流程,此处不再赘述。
综上可知,本实施例的针对少样本公众健康问句的分类系统可以实现利用未标注数据通过自监督学习方法,挖掘医学数据信息知识,基于迁移学习的方法构造文本分类任务,可以解决特征工程构建难的问题,采用基于半监督或者主动学习的模型训练方法,可以摆脱医学文本标注难的困境,获取更多的机器标注样本和性能更佳的分类模型。
实施例三
本实施例中公开了一种计算机设备,该计算机设备可以是服务器,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储针对少样本公众健康问句的分类方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现针对少样本公众健康问句的分类方法。
在另一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例一中针对少样本公众健康问句的分类方法的步骤,或者,处理器执行计算机程序时实现上述实施例二的针对少样本公众健康问句的分类系统的各模块的功能。为避免重复,这里不再赘述。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例一中针对少样本公众健康问句的分类方法的步骤,或者,处理器执行计算机程序时实现上述实施例二的针对少样本公众健康问句的分类系统的各模块的功能。为避免重复,这里不再赘述。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种针对少样本公众健康问句的分类方法,其特征在于,包括:
步骤1.采集医疗领域数据;
步骤2.基于采集的数据,利用自监督学习方法进行基础模型的预训练得到预训练模型;
步骤3.获取健康查询数据作为样本,并对其中部分样本数据进行标注;
步骤4.基于预训练模型构造基于迁移学习的健康查询问句分类网络模型;
步骤5.利用标注后的样本训练所述健康查询问句分类网络模型;
步骤6.利用所述健康查询问句分类网络模型对未标注样本数据进行标注;
步骤7.利用已完成标注的样本数据对所述健康查询问句分类网络模型进行迭代训练,提升模型性能。
2.根据权利要求1所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述步骤1中具体是利用数据采集工具来获取网络上的公共健康医疗信息数据。
3.根据权利要求1所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述步骤2中进行基础模型的预训练前还包括构建预训练任务,并通过预训练任务从医疗领域数据中挖掘数据自身信息。
4.根据权利要求3所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述预训练任务包括基于上下文信息构造的预训练任务或基于时序信息构造的预训练任务或基于对比学习的方式构造的预训练任务。
5.根据权利要求1所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述步骤3中,样本数据标注的方法包含但不限于以下方法:采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典的方法对数据进行全自动标注的方法。
6.根据权利要求1所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述健康查询问句分类网络模型包括预训练模型模块、语义特征提取模块、分类模块。
7.根据权利要求6所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述语义特征提取模块由以下神经网络实现:卷积神经网络、循环神经网络或Transformer网络。
8.根据权利要求6所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述分类模块包含多标签分类模块和多类别分类模块。
9.根据权利要求1至8中任一所述的一种针对少样本公众健康问句的分类方法,其特征在于,所述步骤5中训练模型的方法包括基于半监督的学习方法或基于主动学习的迭代式训练方法。
10.一种针对少样本公众健康问句的分类系统,其特征在于,包括:
数据采集模块,用于采集医疗领域数据;
模型预训练模块,用于基于采集的数据,利用自监督学习方法进行基础模型的预训练得到预训练模型;
样本标注模块,用于获取健康查询数据作为样本并对其中部分样本数据进行标注;
分类模型构造模块,用于基于预训练模型构造基于迁移学习的健康查询问句分类网络模型;
模型训练模块,用于利用标注后的样本训练所述健康查询问句分类网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395411.7A CN112365993A (zh) | 2020-12-03 | 2020-12-03 | 一种针对少样本公众健康问句的分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395411.7A CN112365993A (zh) | 2020-12-03 | 2020-12-03 | 一种针对少样本公众健康问句的分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112365993A true CN112365993A (zh) | 2021-02-12 |
Family
ID=74536622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011395411.7A Pending CN112365993A (zh) | 2020-12-03 | 2020-12-03 | 一种针对少样本公众健康问句的分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365993A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239191A (zh) * | 2021-04-27 | 2021-08-10 | 北京妙医佳健康科技集团有限公司 | 一种基于小样本数据的人工辅助文本标注方法及装置 |
CN113673201A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 一种文本表示向量生成方法、装置、存储介质及电子设备 |
CN114357144A (zh) * | 2022-03-09 | 2022-04-15 | 北京大学 | 基于小样本的医疗数值抽取和理解方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN111966831A (zh) * | 2020-08-18 | 2020-11-20 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、文本分类方法、装置及网络模型 |
-
2020
- 2020-12-03 CN CN202011395411.7A patent/CN112365993A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN111966831A (zh) * | 2020-08-18 | 2020-11-20 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、文本分类方法、装置及网络模型 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239191A (zh) * | 2021-04-27 | 2021-08-10 | 北京妙医佳健康科技集团有限公司 | 一种基于小样本数据的人工辅助文本标注方法及装置 |
CN113673201A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 一种文本表示向量生成方法、装置、存储介质及电子设备 |
CN114357144A (zh) * | 2022-03-09 | 2022-04-15 | 北京大学 | 基于小样本的医疗数值抽取和理解方法及装置 |
CN114357144B (zh) * | 2022-03-09 | 2022-08-09 | 北京大学 | 基于小样本的医疗数值抽取和理解方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A review on entity relation extraction | |
Vahdat | Toward robustness against label noise in training deep discriminative neural networks | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN112365993A (zh) | 一种针对少样本公众健康问句的分类方法及系统 | |
CN105404632B (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
WO2018218708A1 (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
WO2022222300A1 (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN112214995A (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN110826303A (zh) | 一种基于弱监督学习的联合信息抽取方法 | |
CN113434858B (zh) | 基于反汇编代码结构和语义特征的恶意软件家族分类方法 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN113707339B (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
Jiang et al. | Combining embedding-based and symbol-based methods for entity alignment | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
CN117407532A (zh) | 一种利用大模型与协同训练进行数据增强的方法 | |
KR102275658B1 (ko) | 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템 | |
VeeraSekharReddy et al. | Named Entity Recognition using CRF with Active Learning Algorithm in English Texts | |
CN117474010A (zh) | 面向电网语言模型的输变电设备缺陷语料库构建方法 | |
Mao et al. | Uncertainty-guided mutual consistency training for semi-supervised biomedical relation extraction | |
CN113626596A (zh) | 基于深度学习的地铁设计规范文本分析和语料库构建方法 | |
Yang et al. | Named entity recognition of power substation knowledge based on transformer-BiLSTM-CRF network | |
CN115048521B (zh) | 一种基于半监督的图神经网络的案件争议焦点识别方法及装置 | |
CN116069946A (zh) | 一种基于深度学习的生物医学知识图谱构建方法 | |
CN113722431B (zh) | 命名实体关系识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210212 |
|
RJ01 | Rejection of invention patent application after publication |