CN111222340A - 基于多标准主动学习的乳腺电子病历实体识别系统 - Google Patents

基于多标准主动学习的乳腺电子病历实体识别系统 Download PDF

Info

Publication number
CN111222340A
CN111222340A CN202010041673.7A CN202010041673A CN111222340A CN 111222340 A CN111222340 A CN 111222340A CN 202010041673 A CN202010041673 A CN 202010041673A CN 111222340 A CN111222340 A CN 111222340A
Authority
CN
China
Prior art keywords
bigru
model
data
module
crf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010041673.7A
Other languages
English (en)
Other versions
CN111222340B (zh
Inventor
潘乔
张敬谊
陈德华
王梅
金妍红
王晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WONDERS INFORMATION CO Ltd
Donghua University
National Dong Hwa University
Original Assignee
WONDERS INFORMATION CO Ltd
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WONDERS INFORMATION CO Ltd, Donghua University filed Critical WONDERS INFORMATION CO Ltd
Priority to CN202010041673.7A priority Critical patent/CN111222340B/zh
Publication of CN111222340A publication Critical patent/CN111222340A/zh
Application granted granted Critical
Publication of CN111222340B publication Critical patent/CN111222340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多标准主动学习的乳腺电子病历实体识别系统,其特征在于,包括:预处理模块;实体识别模块;主动学习模块。本发明从标注数据量、句子标注成本、数据采样均衡性三个方面进行考虑,设计了针对文本序列标注的主动学习选择策略以减少标注总工作量。本发明一方面可用于建设乳腺疾病风险患者识别标记、疾病药物推荐、辅助决策诊断等系统,帮助医生提高乳腺疾病规范化诊疗的执行效率,予以科学的依据和建议方案;另一方面,还可以协助医生发现诊疗过程中潜在的非正常情况,降低误诊和漏诊率,提高乳腺疾病患者的治愈几率,对乳腺疾病研究的智能化发展具有重要价值。

Description

基于多标准主动学习的乳腺电子病历实体识别系统
技术领域
本发明涉及医疗自然语言处理领域,特别是涉及一种基于多标准主动学习的乳腺电子病历实体识别系统。
背景技术
随着医院信息化技术的普及与发展,已逐步形成了以电子病历系统为核心,并有效集成了多个临床信息系统的综合信息系统。在电子病历系统数几十年的使用过程中,积累了海量医疗文本数据,涌现出了许多机构和团队对医疗文本结构化展开了诸多研究。
电子病历是医疗活动过程中产生的与医学、健康密切相关的重要临床信息资源,不仅包含了丰富的医学专业知识,也反映了患者的详细健康信息。因此,对电子病历数据的信息提取显得尤为重要。但电子病历的数据并非完全结构化的形式,其中包含了自由文本及一些复杂半结构化数据,对信息的分析利用造成了障碍。因此,通过命名实体识别技术从电子病历中有效提取医疗、健康等相关概念实体,对电子病历的分析、挖掘和利用具有重要意义。
由于医疗领域实体模式之间的差异性,因此,需要针对特定疾病进行命名实体识别研究。而乳腺疾病在女性中是一种常见多发疾病,其致病因素复杂,并具有较高的风险性,如治疗不及时或治疗不当,随时可能发生病变,导致生命危险。通过对医疗数据的科学分析提取,寻找有效方式对乳腺疾病进行早期筛查、诊断治疗,降低其发病率致死率具有重大意义。
乳腺疾病电子病历是在疾病诊疗过程中产生的数据,相较于文献教材等经过整理删选而呈现出的理想化状态文本而言,它更接近医学实际应用场景,蕴含着更为丰富而真实的信息。但同样它也具有其他电子病历文本共有的复杂特性,因此,直接对其进行分析利用有一定难度。通过乳腺电子病历的命名实体识别,可提供有效方法对乳腺疾病电子病历文本数据中所蕴含的医疗实体进行精准可靠的结构化描述,有助于乳腺疾病数据的信息利用,为后续乳腺疾病的快速精准查询服务及临床决策支持等提供了坚实的基础:一方面可用于建设乳腺疾病风险患者识别标记、疾病药物推荐、辅助决策诊断等系统,帮助医生提高乳腺疾病规范化诊疗的执行效率,予以科学的依据和建议方案;另一方面,还可以协助医生发现诊疗过程中潜在的非正常情况,降低误诊和漏诊率,提高乳腺疾病患者的治愈几率,对乳腺疾病研究的智能化发展具有重要价值。
命名实体识别的概念在MUC-6(Message Understanding Conference)首次被提出后,随着其发展范围的不断扩大,针对各种特定领域的研究和应用不断被提出,逐渐也成为了医疗文本结构化领域的一项重要技术手段。针对医疗领域,该研究在医学信息学的临床决策支持、用户健康信息学的用户健康状况建模和个性化医疗服务系统中皆有应用。目前,虽然深度神经网络技术在命名实体识别的应用中取得了一定成果,但要获得较好的识别效果需建立在大量已标注数据训练的基础上。由于电子病历属于特定专业领域文本数据,其语料标注不仅需要耗费大量时间,还需要耗费具有较强医疗专业知识的人力,获得大量已标注的临床医疗数据存在困难。因此,寻找有效减少标注工作的方法,进一步加快实体识别发展也有着重要意义。
发明内容
本发明的目的是:有效减少实体识别模型对标注训练集数据量的需求,有效提高未标注数据的利用率。
为了达到上述目的,本发明的技术方案是提供了一种基于多标准主动学习的乳腺电子病历实体识别系统,其特征在于,包括:
预处理模块,用于对原始电子病历文本数据进行清洗整合,然后采用BIO标注模式对数据样本进行标注用于实体识别模块的训练,并采用Word2Vector方法将文本数据转换为字向量的表示形式,保留更多语义信息,利于后续实体识别模块学习;
实体识别模块,用GRU结构代替了实体识别模型BiLSTM-CRF中的LSTM单元,构建了BiGRU-CRF模型,BiGRU-CRF模型根据输入的字向量序列,通过双向GRU神经网络学习上下文之间的依赖关系,获得包含关联信息的隐层表示,交予softmax计算对应各实体标签的概率,并通过CRF层有效捕捉句子级别的序列标注信息,最终计算获得联合概率最大的标签序列;
主动学习模块在已标注文本集上训练实体识别模块所采用的BiGRU-CRF模型,然后使用BiGRU-CRF模型对未标注文本进行预测,根据预测结果使用选择器选出符合需求的文本进行标注,将其加入已标注文本集重新对BiGRU-CRF模型进行增量式迭代训练,直到达到指定精度或指定数据量为止,包括以下步骤:
步骤1、设置迭代次数阀值或者设置BiGRU-CRF模型的模型性能阈值,设置迭代次数初值;
步骤2、判断当前迭代次数是否达到迭代次数阀值或当前BiGRU-CRF模型的模型性能是否达到模型性能阈值,若是,则退出主动学习模块,若否,则进入步骤3;
步骤3、使用已标注样本集DL训练BiGRU-CRF模型;
步骤4、利用BiGRU-CRF模型对未标注样本集DU进行预测,依据预测结果对未标注样本集DU中的所有句子进行聚类获得聚类结果集C;
步骤5、在聚类结果集C中的每个聚类类别中计算不确定性SUncertainty及句子标注成本ScoreROI,基于不确定性SUncertainty及句子标注成本ScoreRoI计算投资回报率ScoreROI,其中:
SUncertainty=LCshort+MS
式中,
Figure BDA0002367972470000031
Figure BDA0002367972470000032
其中,first_max()表示取最大值,而second_max()表示取第二大的值,tagk表示大小为T的标签集合
Figure BDA0002367972470000033
中的第k个标签,,s[n,k]表示句末文字为标签
Figure BDA0002367972470000034
Figure BDA0002367972470000035
时可能得到的最大序列得分;
Figure BDA0002367972470000036
式中,Cr为统计所得的平均每字所花的阅读时间,Cw表示平均每字所花的标注时间,len(Sentence)表示句子长度;
Figure BDA0002367972470000037
式中,β为比例因子;
步骤6、依据上一步得到的投资回报率ScoreROI,对聚类结果集C中的每个聚类类别中的所有样本进行降序排序,选择前N个样本构成第i个聚类类别的集合Dsi
步骤7、对集合Dsi中的样本进行人工标注后,先更新用于训练的样本集DT,DT=randomN(DL)+Dsi,randomN(DL)表示从目前的已标注样本集DL中随机选择N个样本,再更新已标注样本集DL及未标注样本集DU,DL=DL+Dsi,DU=DU-Dsi
步骤8、对聚类结果集C中的每个聚类类别均实施了步骤5至步骤7的步骤后,利用样本集DT训练BiGRU-CRF模型;
步骤9、更新迭代次数或获得当前BiGRU-CRF模型的模型性能后返回步骤2。
优选地,所述预处理模块根据预定义的实体类型采用BIO标注模式对需要标注的数据标注,构建训练数据语料库,随后生成每个字符的One-hot向量,再通过输入上下文One-hot向量及预测中心字One-hot向量训练CBOW模型,得到CBOW模型收敛后的参数,即字向量。
优选地,将输入所述实体识别模块的字向量序列定义为E={emb(x1),…,emb(xi),…,emb(xn)},emb(xi)表示第i个字向量,则字向量序列E经过所述实体识别模块的BiGRU-CRF模型的双向GRU层中GRU单元的更新门、复位门生成隐层状态ht,再将隐层状态ht输入BiGRU-CRF模型的softmax层得到每个字对应每个标签的概率
Figure BDA0002367972470000041
为由softmax层所得的第i个字的标签为yi的概率,随后经过CRF层计算序列得分
Figure BDA0002367972470000042
式中,A为转移矩阵,
Figure BDA0002367972470000043
为当前标签yi的下一个标签为yi+1的转移概率,最终选择得分最大的序列。
本发明从标注数据量、句子标注成本、数据采样均衡性三个方面进行考虑,设计了针对文本序列标注的主动学习选择策略以减少标注总工作量。本发明主要由三个模块构成:数据预处理模块、实体识别模块和主动学习模块。首先,将原始医疗电子病历数据输入预处理模块,经处理后最终获得后续识别模块可处理的表示形式。然后,随机选择少量数据构成初始训练集输入实体识别模块,训练得到一个识别能力较弱的初始模型。将未标注数据输入初始模型进行预测,将预测结果反馈给主动学习模块根据选择策略进行数据筛选。对选中的数据人工对预测结果的标注进行修正。然后将其送入实体识别模块采用增量式方式进行迭代训练,直到满足终止条件。
由于采用了上述的技术方案,本发明与传统技术相比,具有以下的优点和积极效果:本发明针对乳腺疾病临床电子病历文本,利用主动学习辅助实体识别,该方法相比于传统有监督学习随机选择训练数据的方式,只使用较小的训练集就能获得较好的识别性能;本发明基于不确定性采样提高了训练集的代表性和广泛性,有效减少了数据标注量;基于句子标注成本度量提高了标注性价比,减少了数据标注成本;基于聚类方法优化了数据采样分布;仅用随机选择方法的约39.52%的数据量就可以达到相同的准确率。本发明提取出的临床医疗实体可为后续乳腺疾病的快速精准查询服务及临床决策支持等提供了坚实的基础。一方面可用于建设乳腺疾病风险患者识别标记、疾病药物推荐、辅助决策诊断等系统,帮助医生提高乳腺疾病规范化诊疗的执行效率,予以科学的依据和建议方案;另一方面,还可以协助医生发现诊疗过程中潜在的非正常情况,降低误诊和漏诊率,提高乳腺疾病患者的治愈几率,对乳腺疾病研究的智能化发展具有重要价值。
附图说明
图1为一种基于主动学习的乳腺电子病历实体识别框架;
图2为本发明中乳腺临床电子病历数据预处理过程;
图3为本发明中BiGRU-CRF实体识别模型;
图4为本发明中基于主动学习的实体识别系统工作过程;
图5为本发明中主动学习算法框架。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种利用主动学习算法进行训练数据采样,进而利用深度学习算法进行乳腺电子病历临床医疗实体提取的系统,包括:1)乳腺临床电子病历数据预处理模块:对乳腺临床电子病历数据从病历内容、结构特征、语言特征和语义特征等进行分析。根据分析结果完成对电子病历数据的清洗与整合,并完成乳腺临床实体类别定义和实体标注工作,采用Word2vector完成文本向量化处理。该模块用于将原始数据处理为系统可识别分析的表示形式;2)医疗临床实体识别模块:采用更轻量级的GRU结构代替了常用的LSTM神经网络单元,构建了BiGRU-CRF模型进行实体识别,并运用增量式训练模式加快主动学习过程中迭代训练的速度。该模块用于提取文本中的医疗概念实体;3)主动学习选择模块:从标注数据量、句子标注成本、数据采样均衡性等三个方面进行考虑,提出了一种综合性的主动学习选择策略,在聚类的基础上基于不确定性采样和句子标注成本度量进行样本选择,并提出了更适用于神经网络实体识别模型的不确定性计算方式和句子标注成本度量规则。该模块用于选择具有数据代表性高、标注性价比高、数据分布均衡等特点的训练样本集,提高未标注数据的有效利用率。
结合图1,本发明的总体框架主要分为三大模块。
1)预处理模块:由于本文所使用的乳腺电子病历文本数据为实际医疗临床工作中真实产生的记录,存在数据噪声、数据缺失、格式不统一等等问题。因此,该模块首先对原始数据进行清洗整合。然后,采用BIO标注模式对数据样本进行标注用于实体识别模型训练。并采用Word2Vector方法将文本数据转换为字向量的表示形式,保留更多语义信息,利于后续模型学习。
2)实体识别模块:由于主动学习需要迭代训练,为了提高训练效率,本模块采用BiGRU-CRF模型,其中用GRU结构代替了主流实体识别模型BiLSTM-CRF中LSTM单元,因为GRU是LSTM的一种更轻量级的变体结构。采用双向GRU(BiGRU)网络结构,以记忆长期依赖信息,捕获上下文特征。通过CRF层有效捕捉句子级别的标注序列信息。模型学习过程采用增量式训练,加快迭代速度。
3)主动学习模块:该模块一方面,采用一种更适用于神经网络实体识别模型的不确定性计算方式对数据样本的信息量进行评估;另一方面,在尽可能保证样本质量的情况下度量句子标注成本,对标注性价比进行评估;最后,对所有句子进行聚类,并分别在各自的聚类类别中基于不确定性和句子标注成本进行样本选择,以选出数据代表性高、标注性价比高、数据分布均衡的训练样本集,提高未标注数据的有效利用率。
首先,将原始医疗电子病历数据输入预处理模块,经处理后最终获得后续识别模块可处理的表示形式。然后,随机选择少量数据构成初始训练集输入实体识别模块,训练得到一个能力较弱的初始实体识别模型。将未标注数据输入初始模型进行预测,将预测结果反馈给主动学习模块根据选择策略进行数据筛选。对选中的数据人工对预测结果的标注进行修正。然后将其送入实体识别模块采用增量式方式进行迭代训练,直到满足终止条件。
在预处理过程中,从病历内容、结构特征、语言特征和语义特征等对电子病历数据进行分析,完成了数据清洗和数据标注。针对中文分词边界歧义问题,以字符为单位进行文本向量化。在实体识别训练过程中,为提高收敛速度,使用轻量级GRU结构代替LSTM构建神经网络,并采用增量式方式加快迭代训练速度。在主动学习选择过程中,针对神经网络实体识别模型提出了更适合的不确定性计算方式和句子标注成本度量规则。
结合图2,实现乳腺临床电子病历数据的预处理。由于数据的质量会影响最终模型训练的效果,需要对原始数据先进行清洗。在数据标注过程中,定义了疾病诊断、检查、检验、手术、药物、解剖部位共6类实体及其表示符,采用BIO标注模式进行标注。最后通过生成字向量获得模型可处理的文本表示形式。具体步骤如下:
步骤1:基于规则匹配XML标签,从原始XML文件中提取电子病历文本;
步骤2:依据医疗卡号选出同一患者的所有病历记录进行整合;
步骤3:删除非乳腺疾病为主要疾病的噪声数据、缺失率超多50%的数据及冗余数据;
步骤4:修正错别字、常见术语及特殊符的错误表示、异常数据等问题;并同时进入步骤5和步骤6;
步骤5:根据预定义的实体类型采用BIO标注模式对需要标注的数据标注,构建训练数据语料库;
步骤6:生成每个字符的One-hot向量;
步骤7:输入上下文One-hot向量,预测中心字One-hot向量,训练CBOW模型;
步骤8:得到CBOW模型收敛后的参数,即字向量。
结合图3,基于BiGRU-CRF的深度学习算法,实现临床实体识别。在实体识别过程中,深度学习算法根究输入的字向量序列,通过双向GRU神经网络学习上下文之间的依赖关系,获得包含关联信息的隐层表示,交予softmax计算对应各实体标签的概率。并通过CRF层有效捕捉句子级别的序列标注信息,最终计算获得联合概率最大的标签序列。具体步骤及其伪代码如下:
定义算法输入为字向量序列E={emb(x1),…,emb(xi),…,emb(xn)},emb(xi)表示第i个字向量,ht为隐层状态,
Figure BDA0002367972470000081
为由softmax所得的第i个字的标签为yi的概率,A为转移矩阵,
Figure BDA0002367972470000082
为yi的下一个标签为yi+1的转移概率,最终算法输出位一个标签序列Y={y1,y2,…,yn}。
步骤1:输入字向量序列E={emb(x1),…,emb(xi),…,emb(xn)};
步骤2:经过双向GRU层中GRU单元的更新门、复位门生成隐层状态ht
步骤3:将隐层状态ht输入softmax得到每个字对应每个标签的概率
Figure BDA0002367972470000083
步骤4:经过CRF层计算序列得分
Figure BDA0002367972470000084
最终选择得分最大的序列。
Figure BDA0002367972470000085
上述算法1中,epoch表示训练轮次,batch表示训练批次。
结合图4,基于主动学习方法,实现训练数据集合的样本选择。在已标注文本集上训练实体识别模型,然后使用模型对未标注文本进行预测,根据预测结果使用选择器选出符合需求的文本进行标注,将其加入已标注文本集进行增量式迭代训练,直到达到指定精度或指定数据量为止。具体步骤如下:
步骤1:将已标注数据集输入实体识别模型训练参数;
步骤2:将未标注数据集输入实体识别模型进行预测;
步骤3:判断准确率或已标注数据数量是否满足指定要求,若不满足,执行步骤4;若满足,结束任务;
步骤4:将预测结果反馈给主动学习选择算法,依据选择策略选择待标注样本;
步骤5:人工标注筛选出的文本,并加入训练数据集,并执行步骤
结合图5,基于多标准主动学习算法如下:
其中对主动学习算法框架的建模如下:A=(M,DU,DL,H,C,S(u,l)),其中M为使用训练数据训练所得的学习模型,DU为未标注数据集,DL为已标注数据集合,H为标注者,C为聚类算法,S为选择策略,而其中u和l分别对应不确定性和标注成本两个评估标准。
Figure BDA0002367972470000091
Figure BDA0002367972470000101
最终实验结果表明,本发明可在实际应用中有效减少建立实体识别模型所需的标注工作量,在少量已标注数据上即可获得较好性能,仅用随机选择方式的约39.52%的训练数据量就可达到相同的准确率。最终,达到有效利用未标注数据,减少人力和时间成本。

Claims (3)

1.一种基于多标准主动学习的乳腺电子病历实体识别系统,其特征在于,包括:
预处理模块,用于对原始电子病历文本数据进行清洗整合,然后采用BIO标注模式对数据样本进行标注用于实体识别模块的训练,并采用Word2Vector方法将文本数据转换为字向量的表示形式,保留更多语义信息,利于后续实体识别模块学习;
实体识别模块,用GRU结构代替了实体识别模型BiLSTM-CRF中的LSTM单元,构建了BiGRU-CRF模型,BiGRU-CRF模型根据输入的字向量序列,通过双向GRU神经网络学习上下文之间的依赖关系,获得包含关联信息的隐层表示,交予softmax计算对应各实体标签的概率,并通过CRF层有效捕捉句子级别的序列标注信息,最终计算获得联合概率最大的标签序列;
主动学习模块在已标注文本集上训练实体识别模块所采用的BiGRU-CRF模型,然后使用BiGRU-CRF模型对未标注文本进行预测,根据预测结果使用选择器选出符合需求的文本进行标注,将其加入已标注文本集重新对BiGRU-CRF模型进行增量式迭代训练,直到达到指定精度或指定数据量为止,包括以下步骤:
步骤1、设置迭代次数阀值或者设置BiGRU-CRF模型的模型性能阈值,设置迭代次数初值;
步骤2、判断当前迭代次数是否达到迭代次数阀值或当前BiGRU-CRF模型的模型性能是否达到模型性能阈值,若是,则退出主动学习模块,若否,则进入步骤3;
步骤3、使用已标注样本集DL训练BiGRU-CRF模型;
步骤4、利用BiGRU-CRF模型对未标注样本集DU进行预测,依据预测结果对未标注样本集DU中的所有句子进行聚类获得聚类结果集C;
步骤5、在聚类结果集C中的每个聚类类别中计算不确定性SUncertainty及句子标注成本ScoreROI,基于不确定性SUncertainty及句子标注成本ScoreROI计算投资回报率ScoreROI,其中:
SUncertainty=LCshort+MS
式中,
Figure FDA0002367972460000011
Figure FDA0002367972460000021
其中,first_max()表示取最大值,而second_max()表示取第二大的值,tagk表示大小为T的标签集合
Figure FDA0002367972460000022
中的第k个标签,,s[n,k]表示句末文字为标签
Figure FDA0002367972460000023
Figure FDA0002367972460000024
时可能得到的最大序列得分;
Figure FDA0002367972460000025
式中,Cr为统计所得的平均每字所花的阅读时间,Cw表示平均每字所花的标注时间,len(Sentence)表示句子长度;
Figure FDA0002367972460000026
式中,β为比例因子;
步骤6、依据上一步得到的投资回报率ScoreROI,对聚类结果集C中的每个聚类类别中的所有样本进行降序排序,选择前N个样本构成第i个聚类类别的集合Dsi
步骤7、对集合Dsi中的样本进行人工标注后,先更新用于训练的样本集DT,DT=randomN(DL)+Dsi,randomN(DL)表示从目前的已标注样本集DL中随机选择N个样本,再更新已标注样本集DL及未标注样本集DU,DL=DL+Dsi,DU=DU-Dsi
步骤8、对聚类结果集C中的每个聚类类别均实施了步骤5至步骤7的步骤后,利用样本集DT训练BiGRU-CRF模型;
步骤9、更新迭代次数或获得当前BiGRU-CRF模型的模型性能后返回步骤2。
2.如权利要求1所述的一种基于多标准主动学习的乳腺电子病历实体识别系统,其特征在于,所述预处理模块根据预定义的实体类型采用BIO标注模式对需要标注的数据标注,构建训练数据语料库,随后生成每个字符的One-hot向量,再通过输入上下文One-hot向量及预测中心字One-hot向量训练CBOW模型,得到CBOW模型收敛后的参数,即字向量。
3.如权利要求1所述的一种基于多标准主动学习的乳腺电子病历实体识别系统,其特征在于,将输入所述实体识别模块的字向量序列定义为E={emb(x1),...,emb(xi),...,emb(xn)},emb(xi)表示第i个字向量,则字向量序列E经过所述实体识别模块的BiGRU-CRF模型的双向GRU层中GRU单元的更新门、复位门生成隐层状态ht,再将隐层状态ht输入BiGRU-CRF模型的softmax层得到每个字对应每个标签的概率
Figure FDA0002367972460000031
Figure FDA0002367972460000032
为由softmax层所得的第i个字的标签为yi的概率,随后经过CRF层计算序列得分
Figure FDA0002367972460000033
式中,A为转移矩阵,
Figure FDA0002367972460000034
为当前标签yi的下一个标签为yi+1的转移概率,最终选择得分最大的序列。
CN202010041673.7A 2020-01-15 2020-01-15 基于多标准主动学习的乳腺电子病历实体识别系统 Active CN111222340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010041673.7A CN111222340B (zh) 2020-01-15 2020-01-15 基于多标准主动学习的乳腺电子病历实体识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010041673.7A CN111222340B (zh) 2020-01-15 2020-01-15 基于多标准主动学习的乳腺电子病历实体识别系统

Publications (2)

Publication Number Publication Date
CN111222340A true CN111222340A (zh) 2020-06-02
CN111222340B CN111222340B (zh) 2021-12-07

Family

ID=70827010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010041673.7A Active CN111222340B (zh) 2020-01-15 2020-01-15 基于多标准主动学习的乳腺电子病历实体识别系统

Country Status (1)

Country Link
CN (1) CN111222340B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696674A (zh) * 2020-06-12 2020-09-22 电子科技大学 一种电子病历的深度学习方法及系统
CN111710431A (zh) * 2020-06-17 2020-09-25 安徽科大讯飞医疗信息技术有限公司 一种识别同义诊断名称的方法、装置、设备及存储介质
CN112287665A (zh) * 2020-10-19 2021-01-29 南京南邮信息产业技术研究院有限公司 基于自然语言处理和集成训练的慢病数据分析方法及系统
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN113177587A (zh) * 2021-04-27 2021-07-27 西安电子科技大学 基于主动学习和变分自编码器的广义零样本目标分类方法
CN113220827A (zh) * 2021-04-23 2021-08-06 哈尔滨工业大学 一种农业语料库的构建方法及装置
CN113688632A (zh) * 2021-08-17 2021-11-23 中国人民解放军海军军医大学 一种提取疾病预后协变量的结构化数据的方法及系统
CN114861670A (zh) * 2022-07-07 2022-08-05 浙江一山智慧医疗研究有限公司 基于已知标签学习未知标签的实体识别方法、装置及应用
CN115019960A (zh) * 2022-08-01 2022-09-06 浙江大学 一种基于个性化状态空间进展模型的疾病辅助决策系统
CN116070700A (zh) * 2023-02-02 2023-05-05 北京交通大学 融合迭代式主动学习的生物医学关系抽取方法及系统
CN116246756A (zh) * 2023-01-06 2023-06-09 北京医准智能科技有限公司 模型更新方法、装置、电子设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250497A1 (en) * 2007-01-05 2010-09-30 Redlich Ron M Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor
US20110258195A1 (en) * 2010-01-15 2011-10-20 Girish Welling Systems and methods for automatically reducing data search space and improving data extraction accuracy using known constraints in a layout of extracted data elements
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
US10310760B1 (en) * 2018-05-21 2019-06-04 Pure Storage, Inc. Layering communication fabric protocols
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250497A1 (en) * 2007-01-05 2010-09-30 Redlich Ron M Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor
US20110258195A1 (en) * 2010-01-15 2011-10-20 Girish Welling Systems and methods for automatically reducing data search space and improving data extraction accuracy using known constraints in a layout of extracted data elements
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
US10310760B1 (en) * 2018-05-21 2019-06-04 Pure Storage, Inc. Layering communication fabric protocols
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO CHEN 等: ""Improving sentiment analysis via sentence type classification using BiLSTM-CRF and CNN"", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
卢鹏飞 等: ""基于SARIMA-LSTM的门诊量预测研究"", 《大数据》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696674B (zh) * 2020-06-12 2023-09-08 电子科技大学 一种电子病历的深度学习方法及系统
CN111696674A (zh) * 2020-06-12 2020-09-22 电子科技大学 一种电子病历的深度学习方法及系统
CN111710431A (zh) * 2020-06-17 2020-09-25 安徽科大讯飞医疗信息技术有限公司 一种识别同义诊断名称的方法、装置、设备及存储介质
CN111710431B (zh) * 2020-06-17 2023-12-22 讯飞医疗科技股份有限公司 一种识别同义诊断名称的方法、装置、设备及存储介质
CN112287665A (zh) * 2020-10-19 2021-01-29 南京南邮信息产业技术研究院有限公司 基于自然语言处理和集成训练的慢病数据分析方法及系统
CN112287665B (zh) * 2020-10-19 2024-05-03 南京南邮信息产业技术研究院有限公司 基于自然语言处理和集成训练的慢病数据分析方法及系统
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN113220827A (zh) * 2021-04-23 2021-08-06 哈尔滨工业大学 一种农业语料库的构建方法及装置
CN113177587A (zh) * 2021-04-27 2021-07-27 西安电子科技大学 基于主动学习和变分自编码器的广义零样本目标分类方法
CN113177587B (zh) * 2021-04-27 2023-04-07 西安电子科技大学 基于主动学习和变分自编码器的广义零样本目标分类方法
CN113688632A (zh) * 2021-08-17 2021-11-23 中国人民解放军海军军医大学 一种提取疾病预后协变量的结构化数据的方法及系统
CN114861670A (zh) * 2022-07-07 2022-08-05 浙江一山智慧医疗研究有限公司 基于已知标签学习未知标签的实体识别方法、装置及应用
CN115019960A (zh) * 2022-08-01 2022-09-06 浙江大学 一种基于个性化状态空间进展模型的疾病辅助决策系统
CN116246756A (zh) * 2023-01-06 2023-06-09 北京医准智能科技有限公司 模型更新方法、装置、电子设备及介质
CN116246756B (zh) * 2023-01-06 2023-12-22 浙江医准智能科技有限公司 模型更新方法、装置、电子设备及介质
CN116070700A (zh) * 2023-02-02 2023-05-05 北京交通大学 融合迭代式主动学习的生物医学关系抽取方法及系统

Also Published As

Publication number Publication date
CN111222340B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN111222340B (zh) 基于多标准主动学习的乳腺电子病历实体识别系统
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN110287481A (zh) 命名实体语料标注训练系统
CN110348008A (zh) 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
CN110032739A (zh) 中文电子病历命名实体抽取方法及系统
CN111312354B (zh) 基于多智能体强化学习的乳腺病历实体识别标注增强系统
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN111078875A (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN109493956A (zh) 一种导诊方法
CN112420191A (zh) 一种中医辅助决策系统及方法
CN113946685B (zh) 一种融合规则和深度学习的渔业标准知识图谱构建方法
Hsu et al. Multi-label classification of ICD coding using deep learning
CN117312493A (zh) 一种多策略知识抽取系统
CN117637175A (zh) 基于多级语义的大模型医疗训练数据生成方法和系统
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
CN113643825B (zh) 基于临床关键特征信息的医疗案例知识库构建方法和系统
CN114707615B (zh) 基于历时汉字知识图谱的古文字相似度量化方法
CN116313141A (zh) 一种基于知识图谱的不明原因发热智能问诊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant