CN112800766B - 基于主动学习的中文医疗实体识别标注方法及系统 - Google Patents

基于主动学习的中文医疗实体识别标注方法及系统 Download PDF

Info

Publication number
CN112800766B
CN112800766B CN202110108397.6A CN202110108397A CN112800766B CN 112800766 B CN112800766 B CN 112800766B CN 202110108397 A CN202110108397 A CN 202110108397A CN 112800766 B CN112800766 B CN 112800766B
Authority
CN
China
Prior art keywords
score
training
named entity
recognition model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110108397.6A
Other languages
English (en)
Other versions
CN112800766A (zh
Inventor
涂思强
孙庆华
王聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110108397.6A priority Critical patent/CN112800766B/zh
Publication of CN112800766A publication Critical patent/CN112800766A/zh
Application granted granted Critical
Publication of CN112800766B publication Critical patent/CN112800766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主动学习的中文医疗实体识别标注方法及系统,该方法包括以下步骤:预训练步骤;第一主动学习步骤:构造第一命名实体识别模型,基于训练集进行训练学习,基于验证集进行验证,根据第一验证结果调整学习过程;第二主动学习步骤:结合文本向量和转移分数筛选出待标注数据,整理数据集,对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,对第二命名实体识别模型进行验证,根据第二验证结果调整重新训练的过程;识别步骤:基于第三命名实体识别模型对待识别的中文医疗文本进行识别。本发明采用的主动学习结合了文本向量和转移分数,筛选出来的文本差异度更高,减少了标注成本,并通过专家标注及时纠正输出的错误。

Description

基于主动学习的中文医疗实体识别标注方法及系统
技术领域
本发明属于医学文本标注技术领域,具体涉及一种基于主动学习的中文医疗实体识别标注方法及系统。
背景技术
随着医疗领域检测技术和疾病诊断方式的发展,医生们更倾向于使用电子文档记录病人的相关信息以及疾病的各项表征数据。日益增长的医疗数据规模使得人们对于医疗数据的分析处理技术需求愈加迫切,如何高效准确地从成千上万的文本数据中抽取出有效信息,如何高质量地存储病人及疾病的专业知识,如何使得医护人员能够方便快捷地使用医疗数据分析系统,都是现今人工智能领域所面临的重要问题。面对信息量繁杂的医院门诊和住院报告文本信息,医生必须快速有效地提取出对于病情诊断来说最为有效的信息,例如,疾病名称、发病的部位、对应的症状以及发病程度等内容。但是在医疗电子报告中通常会包含一些相关度较低的信息,所以开发有关技术帮助医生们快速地排除无关信息的干扰以及抽取有效信息是十分必要的。
其中,中文电子病历的命名实体识别工作是医疗信息处理的基础。命名实体识别是指识别出文本中具有特定意义的实体,在中文电子病历中,命名实体主要指与患者接受医疗诊治相关的实体,如疾病、症状等。以往的预训练模型采用通用的语料预训练,无法较好地解决疾病领域中存在专业术语多、实体嵌套等问题。
另外,由于经过实体标注的中文电子病历资源目前十分稀缺,基于小训练样本的机器学习方法成为当前的热点方向,其中主动学习是机器学习的一个子领域。现有的标注系统中存在采用半监督学习,达到了标注的效率,但无法及时纠正系统中自己的错误,主动学习的思想是通过对语料中数据的选择性学习来提高机器学习效率。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供了一种基于主动学习的中文医疗实体识别标注方法,该方法采用一种结合文本向量的选择策略,筛选出质量高的数据进行人工标注,最大程度的减少标注成本。
本发明的第二目的在于提供一种基于主动学习的中文医疗实体识别标注系统。
为了达到上述目的,本发明采用以下技术方案:
一种基于主动学习的中文医疗实体识别标注方法,包括以下步骤:
预训练步骤:基于医疗领域文本预训练得到预训练模型;
第一主动学习步骤:构造第一命名实体识别模型,基于训练集对所述第一命名实体识别模型进行训练学习,基于验证集对所述第一命名实体识别模型进行验证,根据第一验证结果调整学习过程,若所述第一验证结果满足第一验证要求,则停止学习过程并将所述第一命名实体识别模型作为第三命名实体识别模型,否则继续执行第二主动学习步骤;
第二主动学习步骤:结合文本向量和转移分数筛选出待标注数据,对待标注数据进行标注后整理数据集,对所述第一命名实体识别模型进行重新训练得到第二命名实体识别模型,对所述第二命名实体识别模型进行验证,根据第二验证结果调整重新训练的过程,当所述第二验证结果满足第二验证要求时得到第三命名实体识别模型;
识别步骤:基于第三命名实体识别模型对待识别的中文医疗文本进行识别。
作为优选的技术方案,所述预训练步骤,具体包括以下步骤:
获取医疗领域文本作为医疗领域数据集;
数据预处理,将收集到的医疗领域数据按照标点符号切分为单个句子,抽取医疗领域数据集中共现的单词或词组进行屏蔽;
使用中文BERT模型对预处理后的数据集进行屏蔽语言模型的训练,通过预测被屏蔽的词语获得预训练模型。
作为优选的技术方案,所述医疗领域文本采用中文医典、中文医疗学术文章、临床诊疗文献、中文医疗电子病历中任一个或任意组合。
作为优选的技术方案,所述第一主动学习步骤,具体包括以下步骤:
从需要标注的病历数据库中随机选取部分数据进行标注,将已标注数据划分为训练集和验证集;
加载所述预训练模型,结合预训练模型和条件随机场构造第一命名实体识别模型,所述第一命名实体识别模型根据已标注的训练集数据进行训练后,通过验证集进行验证得到第一验证结果,所述结合预训练模型和条件随机场构造第一命名实体识别模型,具体为通过归一化层分别连接预训练模型、条件随机场,预训练模型用于接收输入数据并进行学习,归一化层用于对预训练模型的输出进行归一化处理得到归一化得分,条件随机场用于生成各标签之间的转移得分,基于归一化得分与转移得分将分数转换为概率进行建模,然后在所有的标签序列中,选取一个最优输出识别结果,所述输入数据包括字编码、段编码、位置编码,所述识别结果包括预测过程的标签结果;
采用验证集进行验证,得到第一验证分数F1,若第一验证分数F1达到第一指定阈值,则停止学习过程并将所述第一命名实体识别模型作为第三命名实体识别模型,否则继续执行第二主动学习步骤;
其中F1的计算公式如下:
其中真正例是指真实值和预测值都为正的样本,P表示真正例占预测值为正的样本的比例,R表示真正例占真实值为正的样本的比例。
作为优选的技术方案,所述从需要标注的病历数据库中随机选取部分数据进行标注,具体为:对需要标注实体部分打上标签形成一个标签预测集合,所述标签预测集合包括第一标注实体标识字符、第二标注实体标识字符、第三标注实体标识字符,其中第一标注实体标识字符表示标注实体的开始字符,第二标注实体标识字符表示标注实体的非开始字符,第三标注实体标识字符表示非标注实体字符。
作为优选的技术方案,所述基于归一化得分与转移得分将分数转换为概率进行建模,具体包括以下步骤:
根据归一化层进行归一化处理得到归一化得分;
根据条件随机场基于转移矩阵得到转移得分,其中条件随机场的参数是一个(k+2)×(k+2)的转移矩阵A,令Ast表示从第s个标签到第t个标签的转移得分;
结合归一化得分与转移得分得到综合打分:令一个标签长度等于句子长度的标签序列y=(y1,y2,...,yn),y1、y2、yn分别表示该标签序列中的第1个标签、第2个标签、第n个标签,模型对于句子x的标签等于标签序列y的综合打分为:
整个序列的打分等于各个位置的打分之和,而每个位置的打分包括预训练模型结合归一化层的输出、由条件随机场的转移矩阵A决定的输出,表示归一化层输出第yi个标签的得分,/>表示从第yi-1个标签到第yi个标签的转移得分,其中i、n为正整数;
利用分数转换为概率:
其中P9y|x)表示模型对于句子x的标签等于标签序列y的打分经过转换后的概率,exp表示以自然常数e为底的指数函数,score(x,y)表示对于句子x的标签等于y的综合打分,y表示当前输入x对应的特定序列,y′表示当前输入x对应所有可能序列,∑y′exp(score(x,y′))表示当前语句x对应的所有标签序列y′的exp(score(x,y′))之和。
作为优选的技术方案,所述第二主动学习步骤,具体包括以下步骤:
采用所述第一命名实体识别模型对未标注的数据进行测试,得到每一个文本的最大转移分数和文本向量;
选择策略,筛选出待标注数据:选择策略为通过长度归一化文本的转移分数,选出分数最少的前K个文本,然后计算文本向量的余弦距离得到选中文本的文本相似度,选出余弦距离最大的前K*80%个文本作为需要标注的文本,即待标注数据;
采用归一化的公式:
其中,scoreold表示归一化处理前的打分,scorenew表示归一化处理后的打分,texti表示第i个文本,len(texti)表示第i个文本的长度,i为正整数;
采用余弦距离的计算方式:
其中a,b分别为第一文本向量、第二文本向量,||为第一文本向量的模,||为第二文本向量的模,bT表示第二文本向量的转置形式;
通过专家对待标注数据进行标注得到标注数据,将标注数据加入到已标注数据集,将标注数据从未标注数据集移除;
对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,基于验证集进行验证并记录第二验证分数,根据第二验证分数是否满足第二验证要求进行调整重新训练的过程,若第二验证分数达到第二指定阈值,则停止学习过程得到第三命名实体识别模型,允许专家进行微调,若第二验证分数未到达第二指定阈值,则继续重复第二主动学习步骤。
为了达到上述第二目的,本发明采用以下技术方案:
一种基于主动学习的中文医疗实体识别标注系统,包括:医疗领域预训练模块、第一主动学习模块、第二主动学习模块和识别模块;
所述医疗领域预训练模块用于将搜集到的医疗领域数据集对中文BERT模型进行预训练;
所述第一主动学习模块用于标注数据,将已标注数据划分为训练集和验证集,结合预训练模型和条件随机场构造第一命名实体识别模型,基于训练集对所述第一命名实体识别模型进行训练学习,基于验证集对所述第一命名实体识别模型进行验证,根据第一验证结果调整学习过程,若第一验证结果满足第一验证要求,则停止学习过程并将第一命名实体识别模型作为第三命名实体识别模型,否则启用第二主动学习模块;
所述第二主动学习模块用于对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,对第二命名实体识别模型进行验证,根据第二验证结果调整重新训练的过程,当第二验证结果满足第二验证要求时得到第三命名实体识别模型;
所述识别模块用于基于第三命名实体识别模型对待识别的中文医疗文本进行识别。
作为优选的技术方案,所述医疗领域预训练模块设有数据获取单元、预处理单元、预训练单元;
所述数据获取单元用于获取医疗领域文本作为医疗领域数据集,所述医疗领域文本采用中文医典、中文医疗学术文章、临床诊疗文献、中文医疗电子病历中任一个或任意组合;
所述预处理单元用于数据预处理,将收集到的医疗领域数据按照标点符号切分为单个句子,抽取医疗领域数据集中共现的单词或词组进行屏蔽;
所述预训练单元用于使用中文BERT模型对预处理后的数据集进行屏蔽语言模型训练,通过预测被屏蔽的词语获得预训练模型。
作为优选的技术方案,所述第一主动学习模块设有标注单元,所述标注单元用于对标签选择、标签自定义、对需要标注部分的文字打上标签。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用中文医典、中文医疗学术文章、临床诊疗文献、中文医疗电子病历中任一个或任意组合作为语料进行预训练,获得疾病领域的字符向量(字编码)表示和中文领域的BERT预训练模型,使得本发明的标注系统具有更丰富更专业的领域疾病字符表示。
(2)本发明采用的主动学习结合了命名实体识别模块输出的文本向量和转移分数,筛选出来的文本差异度更高,更具有代表性,进一步减少了标注成本。
(3)本发明通过标注模块实现标签选择和标签自定义,使得整个系统在操作上的可视化效果更便于技术人员使用,使得整个标注过程更简单直观、高效方便,进而实现高效快速的文本标注以提高技术人员研究的效率。
(4)本发明在主动学习中利用机器学习方法训练模型,选择器在未标注数据中选择信息量较大的数据,交给人类专家标注,并将标注好的数据加入到训练集中,进行下一次模型训练,本发明在训练过程中通过专家标注及时纠正输出中存在的错误。
附图说明
图1为本发明实施例1中的基于主动学习的中文医疗实体识别标注方法的步骤流程图;
图2为本发明实施例1中主动学习的具体步骤流程图;
图3为本发明实施例1中的中文领域的BERT预训练模型的示意图;
图4为本发明实施例2中的基于主动学习的中文医疗实体识别标注系统的模块示意图。
具体实施方式
在本公开的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在该词前面的元素或者物件涵盖出现在该词后面列举的元素或者物件及其等同,而不排除其他元素或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
实施例1
如图1所示,本实施例提供一种基于主动学习的中文医疗实体识别标注方法,该方法包括以下步骤:
S1预训练,基于医疗领域文本预训练得到预训练模型;
S2第一主动学习,标注数据,将已标注数据划分为训练集和验证集,结合预训练模型和条件随机场构造第一命名实体识别模型,基于训练集对第一命名实体识别模型进行训练学习,基于验证集对第一命名实体识别模型进行验证,根据第一验证结果调整学习过程,若第一验证结果满足第一验证要求,则停止学习过程并将第一命名实体识别模型作为第三命名实体识别模型,否则继续执行步骤S3;
S3第二主动学习,结合文本向量和转移分数筛选出待标注数据,对待标注数据进行标注后整理数据集,对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,对第二命名实体识别模型进行验证,根据第二验证结果调整重新训练的过程,当第二验证结果满足第二验证要求时得到第三命名实体识别模型;
S4识别,基于第三命名实体识别模型对待识别的中文医疗文本进行识别。
在本实施例中,预训练,具体包括以下步骤:
S1.1获取医疗领域文本作为医疗领域数据集,在本实施例中医疗领域文本来源于中文医典、中文医疗学术文章、临床诊疗文献、中文医疗电子病历,实际应用时,采用任一个或任意组合作为语料;
S1.2数据预处理,将收集到的医疗领域数据按照标点符号切分为单个句子,抽取医疗领域数据集中共现的单词或词组进行屏蔽;
S1.3使用中文BERT模型对预处理后的数据集进行屏蔽语言模型的训练,通过预测被屏蔽的词语获得预训练模型,使预训练模型学习到中文医疗领域的先验知识,其中预训练模型为中文领域的BERT预训练模型。
如图2所示,主动学习包括第一主动学习、第二主动学习;
在本实施例中,第一主动学习,具体包括以下步骤:
S2.1从需要标注的病历数据库中随机选取部分数据进行标注,将已标注数据划分为训练集和验证集,其中随机选取部分数据进行标注具体为:对需要标注实体部分打上标签,标签预测集合为{B,I,O},其中B代表这个字符是标注实体的开始字符,I代表这个字符是标注实体的非开始字符,O代表这个字符是非标注实体字符;实际应用时,标签预测集合用于求解模型的损失来调整模型的训练,对比学习效果。
S2.2加载步骤S1中的预训练模型,结合预训练模型和条件随机场构造第一命名实体识别模型,第一命名实体识别模型根据已标注的训练集数据进行训练后,通过验证集进行验证得到第一验证结果;
如图3所示,在本实施例中结合预训练模型和条件随机场构造第一命名实体识别模型,具体为通过归一化层Softmax分别连接预训练模型、条件随机场,预训练模型用于接收输入数据并进行学习,归一化层Softmax用于对预训练模型的输出进行归一化处理得到归一化得分,条件随机场用于生成各标签之间的转移得分,基于归一化得分与转移得分将分数转换为概率进行建模,然后在所有的标签序列中,选取一个最优输出识别结果,其中输入数据包括字编码、段编码、位置编码,位置编码是各输入字符的位置表示,段编码是各输入字符所在文本切割后第几句的表示,字编码是预训练模型中的字符转数字的表示,将三个编码相加后的结果作为每个字符的输入,将预测过程(解码)的标签结果作为输出;
S2.3采用验证集进行验证,得到第一验证分数F1,若第一验证分数F1达到第一指定阈值,则停止学习过程并将第一命名实体识别模型作为第三命名实体识别模型,否则继续执行步骤S3;
其中F1的计算公式如下:
其中真正例是指真实值和预测值都为正的样本,P表示真正例占预测值为正的样本的比例,R表示真正例占真实值为正的样本的比例。
结合3所示,基于归一化得分与转移得分将分数转换为概率进行建模,具体包括以下步骤:
根据归一化层Softmax进行归一化处理得到归一化得分;
根据条件随机场基于转移矩阵得到转移得分;其中第一命名实体识别模型的条件随机场的参数是一个(k+2)×(k+2)的转移矩阵A,令Ast表示从第s个标签到第t个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态;
结合归一化得分与转移得分得到综合打分:令一个标签长度等于句子长度的标签序列y=(y1,y2,...,yn),y1、y2、yn分别表示该标签序列中的第1个标签、第2个标签、第n个标签;模型对于句子x的标签等于标签序列y的综合打分为:
整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由步骤S1中的预训练模型结合归一化层Softmax输出的Pi决定,另一部分则由条件随机场的转移矩阵A决定,表示归一化层Softmax输出第yi个标签的得分,/>表示从第yi-1个标签到第yi个标签的转移得分,其中i、n为正整数;
利用分数转换为概率:
其中P(y|x)表示模型对于句子x的标签等于标签序列y的打分经过转换后的概率,exp表示以自然常数e为底的指数函数,score(x,y)表示对于句子x的标签等于y的综合打分,y表示当前输入x对应的特定序列,y′表示当前输入x对应所有可能序列,∑y′exp(score(x,y′))表示当前语句x对应的所有标签序列y′的exp(score(x,y′00之和;
在本实施例中,模型训练时采用最大化对数似然函数,对一个训练样本(x,y)的对数似然为:
log P(y|x)=score(x,y)-log∑y′exp(score(x,y′)));
在本实施例中,第一命名实体识别模型在预测过程(解码)时使用动态规划的维特比算法来求解最优路径:
y*=argmax score(x,y′);
其中y*表示求解的最优路径,score(x,y′)表示对于句子x的标签等于y′的打分,argmax表示使输入参数取得最大值的自变量点或自变量集合的函数;
在本实施例中,第二主动学习,具体包括以下步骤:
S3.1采用步骤S2.2的第一命名实体识别模型对未标注的数据进行测试,得到每一个文本的最大转移分数和文本向量;
S3.2选择策略,筛选出待标注数据:选择策略为通过长度归一化文本的转移分数,选出分数最少的前K个文本,然后计算文本向量的余弦距离得到选中文本的文本相似度,选出相似度最低(即余弦距离最大)的前K*80%个文本作为需要标注的文本,即待标注数据;
其中,归一化的公式为:
其中,scoreold表示归一化处理前的打分,scorenew表示归一化处理后的打分,texti表示第i个文本,len(texti)表示第i个文本的长度,i为正整数;
余弦距离的计算方式:
其中a,b分别为第一文本向量、第二文本向量,||为第一文本向量的模,||为第二文本向量的模,bT表示第二文本向量的转置形式;
S3.3通过专家对待标注数据进行标注得到标注数据,将标注数据加入到已标注数据集,将标注数据从未标注数据集移除,其中标注数据为标注好的数据;
S3.4对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,基于验证集对第二命名实体识别模型进行验证并记录第二验证分数,根据第二验证分数是否满足第二验证要求进行调整重新训练的过程;
在本实施例中,根据第二验证分数是否满足第二验证要求进行调整重新训练的过程,具体包括以下步骤:
若第二验证分数达到第二指定阈值,则停止学习过程得到第三命名实体识别模型,将结果保存并显示在标注系统页面,允许专家进行微调;
若第二验证分数未到达第二指定阈值,则继续重复步骤S3.1到步骤S3.4。
实施例2
如图4所示,本实施例提供了一种基于主动学习的中文医疗实体识别标注系统,该系统包括:医疗领域预训练模块、第一主动学习模块、第二主动学习模块和识别模块;
在本实施例中,医疗领域预训练模块用于将搜集到的医疗领域数据集对中文BERT模型进行预训练,该模块设有数据获取单元、预处理单元、预训练单元;
数据获取单元用于获取医疗领域文本作为医疗领域数据集,其中医疗领域文本来源于中文医典、中文医疗学术文章、临床诊疗文献、中文医疗电子病历,实际应用时,采用任一个或任意组合作为语料;
预处理单元用于数据预处理,将收集到的医疗领域数据按照标点符号切分为单个句子。抽取医疗领域数据集中共现的单词或词组进行屏蔽。
预训练单元用于使用中文BERT模型对预处理后的数据集进行屏蔽语言模型训练,通过预测被屏蔽的词语获得预训练模型,使模型学习到中文医疗领域的先验知识,该预训练模型为中文领域的BERT预训练模型;
实际应用时,医疗领域预训练模块交替训练预测模型,具体为通过数据获取单元导入数据集,自动加载数据集和预训练模型,通过预处理单元预处理数据集,通过预训练单元执行训练过程。
在本实施例中,第一主动学习模块用于标注数据,将已标注数据划分为训练集和验证集,结合预训练模型和条件随机场构造第一命名实体识别模型,基于训练集对第一命名实体识别模型进行训练学习,基于验证集对第一命名实体识别模型进行验证,根据第一验证结果调整学习过程,若第一验证结果满足第一验证要求,则停止学习过程并将第一命名实体识别模型作为第三命名实体识别模型,否则启用第二主动学习模块;
在本实施例中,第一主动学习模块设有标注单元,通过标注数据从需要标注的病历数据库中随机选取部分数据进行标注,进而划分为训练集和验证集,在本实施例中,标注包括对标签选择、标签自定义、对需要标注部分的文字打上标签,通过标签选择、标签自定义达到可自定义标签可视化的颜色,使用者通过使用适合自身习惯的标签进而提高标注效率。
在本实施例中,第二主动学习模块用于对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,对第二命名实体识别模型进行验证,根据第二验证结果调整重新训练的过程,当第二验证结果满足第二验证要求时得到第三命名实体识别模型;
在本实施例中,识别模块用于基于第三命名实体识别模型对待识别的中文医疗文本进行识别。
在本实施例中,该系统采用Tornado作为系统开发的整体架构,通过连接系统的表现层和计算层来实现命名实体标注系统的可视化。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于主动学习的中文医疗实体识别标注方法,其特征在于,包括以下步骤:
预训练步骤:基于医疗领域文本预训练得到预训练模型;
第一主动学习步骤:构造第一命名实体识别模型,基于训练集对所述第一命名实体识别模型进行训练学习,基于验证集对所述第一命名实体识别模型进行验证,根据第一验证结果调整学习过程,若所述第一验证结果满足第一验证要求,则停止学习过程并将所述第一命名实体识别模型作为第三命名实体识别模型,否则继续执行第二主动学习步骤;
第二主动学习步骤:结合文本向量和转移分数筛选出待标注数据,对待标注数据进行标注后整理数据集,对所述第一命名实体识别模型进行重新训练得到第二命名实体识别模型,对所述第二命名实体识别模型进行验证,根据第二验证结果调整重新训练的过程,当所述第二验证结果满足第二验证要求时得到第三命名实体识别模型;
所述第二主动学习步骤,具体包括以下步骤:
采用所述第一命名实体识别模型对未标注的数据进行测试,得到每一个文本的最大转移分数和文本向量;
选择策略,筛选出待标注数据:选择策略为通过长度归一化文本的转移分数,选出分数最少的前K个文本,然后计算文本向量的余弦距离得到选中文本的文本相似度,选出余弦距离最大的前K*80%个文本作为需要标注的文本,即待标注数据;
采用归一化的公式:
其中,scoreold表示归一化处理前的打分,scorenew表示归一化处理后的打分,texti表示第i个文本,len(texti)表示第i个文本的长度,i为正整数;
采用余弦距离的计算方式:
其中a,b分别为第一文本向量、第二文本向量,|a|为第一文本向量的模,|b|为第二文本向量的模,bT表示第二文本向量的转置形式;
通过专家对待标注数据进行标注得到标注数据,将标注数据加入到已标注数据集,将标注数据从未标注数据集移除;
对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,基于验证集进行验证并记录第二验证分数,根据第二验证分数是否满足第二验证要求进行调整重新训练的过程,若第二验证分数达到第二指定阈值,则停止学习过程得到第三命名实体识别模型,允许专家进行微调,若第二验证分数未到达第二指定阈值,则继续重复第二主动学习步骤;
识别步骤:基于第三命名实体识别模型对待识别的中文医疗文本进行识别。
2.根据权利要求1所述的基于主动学习的中文医疗实体识别标注方法,其特征在于,所述预训练步骤,具体包括以下步骤:
获取医疗领域文本作为医疗领域数据集;
数据预处理,将收集到的医疗领域数据按照标点符号切分为单个句子,抽取医疗领域数据集中共现的单词或词组进行屏蔽;
使用中文BERT模型对预处理后的数据集进行屏蔽语言模型的训练,通过预测被屏蔽的词语获得预训练模型。
3.根据权利要求2所述的基于主动学习的中文医疗实体识别标注方法,其特征在于,所述医疗领域文本采用中文医典、中文医疗学术文章、临床诊疗文献、中文医疗电子病历中任一个或任意组合。
4.根据权利要求1所述的基于主动学习的中文医疗实体识别标注方法,其特征在于,所述第一主动学习步骤,具体包括以下步骤:
从需要标注的病历数据库中随机选取部分数据进行标注,将已标注数据划分为训练集和验证集;
加载所述预训练模型,结合预训练模型和条件随机场构造第一命名实体识别模型,所述第一命名实体识别模型根据已标注的训练集数据进行训练后,通过验证集进行验证得到第一验证结果,所述结合预训练模型和条件随机场构造第一命名实体识别模型,具体为通过归一化层分别连接预训练模型、条件随机场,预训练模型用于接收输入数据并进行学习,归一化层用于对预训练模型的输出进行归一化处理得到归一化得分,条件随机场用于生成各标签之间的转移得分,基于归一化得分与转移得分将分数转换为概率进行建模,然后在所有的标签序列中,选取一个最优输出识别结果,所述输入数据包括字编码、段编码、位置编码,所述识别结果包括预测过程的标签结果;
采用验证集进行验证,得到第一验证分数F1,若第一验证分数F1达到第一指定阈值,则停止学习过程并将所述第一命名实体识别模型作为第三命名实体识别模型,否则继续执行第二主动学习步骤;
其中F1的计算公式如下:
其中真正例是指真实值和预测值都为正的样本,P表示真正例占预测值为正的样本的比例,R表示真正例占真实值为正的样本的比例。
5.根据权利要求4所述的基于主动学习的中文医疗实体识别标注方法,其特征在于,所述从需要标注的病历数据库中随机选取部分数据进行标注,具体为:对需要标注实体部分打上标签形成一个标签预测集合,所述标签预测集合包括第一标注实体标识字符、第二标注实体标识字符、第三标注实体标识字符,其中第一标注实体标识字符表示标注实体的开始字符,第二标注实体标识字符表示标注实体的非开始字符,第三标注实体标识字符表示非标注实体字符。
6.根据权利要求4或5所述的基于主动学习的中文医疗实体识别标注方法,其特征在于,所述基于归一化得分与转移得分将分数转换为概率进行建模,具体包括以下步骤:
根据归一化层进行归一化处理得到归一化得分;
根据条件随机场基于转移矩阵得到转移得分,其中条件随机场的参数是一个(k+2)×(k+2)的转移矩阵A,令Ast表示从第s个标签到第t个标签的转移得分;
结合归一化得分与转移得分得到综合打分:令一个标签长度等于句子长度的标签序列y=(y1,y2,...,yn),y1、y2、yn分别表示该标签序列中的第1个标签、第2个标签、第n个标签,模型对于句子x的标签等于标签序列y的综合打分为:
整个序列的打分等于各个位置的打分之和,而每个位置的打分包括预训练模型结合归一化层的输出、由条件随机场的转移矩阵A决定的输出,表示归一化层输出第yi个标签的得分,/>表示从第yi-1个标签到第yi个标签的转移得分,其中i、n为正整数;
利用分数转换为概率:
其中P(y|x)表示模型对于句子x的标签等于标签序列y的打分经过转换后的概率,exp表示以自然常数e为底的指数函数,score(x,y)表示对于句子x的标签等于y的综合打分,y表示当前输入x对应的特定序列,y′表示当前输入x对应所有可能序列,∑y′exp(score(x,y′))表示当前语句x对应的所有标签序列y′的exp(score(x,y′))之和。
7.一种基于主动学习的中文医疗实体识别标注系统,其特征在于,包括:医疗领域预训练模块、第一主动学习模块、第二主动学习模块和识别模块;
所述医疗领域预训练模块用于将搜集到的医疗领域数据集对中文BERT模型进行预训练;
所述第一主动学习模块用于标注数据,将已标注数据划分为训练集和验证集,结合预训练模型和条件随机场构造第一命名实体识别模型,基于训练集对所述第一命名实体识别模型进行训练学习,基于验证集对所述第一命名实体识别模型进行验证,根据第一验证结果调整学习过程,若第一验证结果满足第一验证要求,则停止学习过程将第一命名实体识别模型作为第三命名实体识别模型,否则启用第二主动学习模块;
所述第二主动学习模块用于对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,对第二命名实体识别模型进行验证,根据第二验证结果调整重新训练的过程,当第二验证结果满足第二验证要求时得到第三命名实体识别模型;
所述第二主动学习模块用于对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,具体包括:
采用所述第一命名实体识别模型对未标注的数据进行测试,得到每一个文本的最大转移分数和文本向量;
选择策略,筛选出待标注数据:选择策略为通过长度归一化文本的转移分数,选出分数最少的前K个文本,然后计算文本向量的余弦距离得到选中文本的文本相似度,选出余弦距离最大的前K*80%个文本作为需要标注的文本,即待标注数据;
采用归一化的公式:
其中,scoreold表示归一化处理前的打分,scorenew表示归一化处理后的打分,texti表示第i个文本,len(texti)表示第i个文本的长度,i为正整数;
采用余弦距离的计算方式:
其中a,b分别为第一文本向量、第二文本向量,|a|为第一文本向量的模,|b|为第二文本向量的模,bT表示第二文本向量的转置形式;
通过专家对待标注数据进行标注得到标注数据,将标注数据加入到已标注数据集,将标注数据从未标注数据集移除;
对第一命名实体识别模型进行重新训练得到第二命名实体识别模型,基于验证集进行验证并记录第二验证分数,根据第二验证分数是否满足第二验证要求进行调整重新训练的过程,若第二验证分数达到第二指定阈值,则停止学习过程得到第三命名实体识别模型,允许专家进行微调,若第二验证分数未到达第二指定阈值,则继续重复第二主动学习步骤;
所述识别模块用于基于第三命名实体识别模型对待识别的中文医疗文本进行识别。
8.根据权利要求7所述的基于主动学习的中文医疗实体识别标注系统,其特征在于,所述医疗领域预训练模块设有数据获取单元、预处理单元、预训练单元;
所述数据获取单元用于获取医疗领域文本作为医疗领域数据集,所述医疗领域文本采用中文医典、中文医疗学术文章、临床诊疗文献、中文医疗电子病历中任一个或任意组合;
所述预处理单元用于数据预处理,将收集到的医疗领域数据按照标点符号切分为单个句子,抽取医疗领域数据集中共现的单词或词组进行屏蔽;
所述预训练单元用于使用中文BERT模型对预处理后的数据集进行屏蔽语言模型训练,通过预测被屏蔽的词语获得预训练模型。
9.根据权利要求7或8所述的基于主动学习的中文医疗实体识别标注系统,其特征在于,所述第一主动学习模块设有标注单元,所述标注单元用于对标签选择、标签自定义、对需要标注部分的文字打上标签。
CN202110108397.6A 2021-01-27 2021-01-27 基于主动学习的中文医疗实体识别标注方法及系统 Active CN112800766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110108397.6A CN112800766B (zh) 2021-01-27 2021-01-27 基于主动学习的中文医疗实体识别标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110108397.6A CN112800766B (zh) 2021-01-27 2021-01-27 基于主动学习的中文医疗实体识别标注方法及系统

Publications (2)

Publication Number Publication Date
CN112800766A CN112800766A (zh) 2021-05-14
CN112800766B true CN112800766B (zh) 2023-08-22

Family

ID=75812037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110108397.6A Active CN112800766B (zh) 2021-01-27 2021-01-27 基于主动学习的中文医疗实体识别标注方法及系统

Country Status (1)

Country Link
CN (1) CN112800766B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361278B (zh) * 2021-06-21 2022-02-15 中国人民解放军国防科技大学 一种基于数据增强与主动学习的小样本命名实体识别方法
CN113378548A (zh) * 2021-06-29 2021-09-10 哈尔滨工业大学 一种基于条件随机场的命名实体识别的主动学习方法
CN113657176A (zh) * 2021-07-22 2021-11-16 西南财经大学 一种基于主动对比学习的行人重识别实现方法
CN113988073A (zh) * 2021-10-26 2022-01-28 迪普佰奥生物科技(上海)股份有限公司 适用于生命科学的文本识别方法和系统
CN114036950B (zh) * 2021-11-10 2024-05-10 山东大学 一种医疗文本命名实体识别方法及系统
CN114218953A (zh) * 2021-12-20 2022-03-22 山东众阳健康科技集团有限公司 一种医学文本命名实体识别方法
CN115186670B (zh) * 2022-09-08 2023-01-03 北京航空航天大学 一种基于主动学习的领域命名实体识别方法及系统
CN116976351B (zh) * 2023-09-22 2024-01-23 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
WO2020211275A1 (zh) * 2019-04-18 2020-10-22 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN112131393A (zh) * 2020-08-11 2020-12-25 淮阴工学院 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
WO2020211275A1 (zh) * 2019-04-18 2020-10-22 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN112131393A (zh) * 2020-08-11 2020-12-25 淮阴工学院 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习与主动学习的中医术语识别研究;李焕;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;第2020年卷(第3期);第E056-4页 *

Also Published As

Publication number Publication date
CN112800766A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800766B (zh) 基于主动学习的中文医疗实体识别标注方法及系统
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
WO2021139424A1 (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN109710925A (zh) 命名实体识别方法及装置
CN111783466A (zh) 一种面向中文病历的命名实体识别方法
CN111651991B (zh) 一种利用多模型融合策略的医疗命名实体识别方法
US20200118682A1 (en) Medical diagnostic aid and method
CN114530223A (zh) 一种基于nlp的心血管疾病病历结构化系统
CN113204969A (zh) 医疗命名实体识别模型的生成方法、装置和计算机设备
CN113035362A (zh) 一种基于语义图网络的医疗预测方法及系统
Wang et al. A framework and its empirical study of automatic diagnosis of traditional Chinese medicine utilizing raw free-text clinical records
CN114564959A (zh) 中文临床表型细粒度命名实体识别方法及系统
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
Peng et al. A self-attention based deep learning method for lesion attribute detection from CT reports
US20220375576A1 (en) Apparatus and method for diagnosing a medical condition from a medical image
CN115630649A (zh) 一种基于生成模型的医学中文命名实体识别方法
CN111611780A (zh) 基于深度学习的消化内镜报告结构化方法与系统
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
Rodin et al. Multitask and multimodal neural network model for interpretable analysis of x-ray images
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN110569506A (zh) 一种基于医疗词典的医疗命名实体识别方法
CN116738992A (zh) 基于图注意力网络和字词融合的医疗命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant