CN115713083B - 一种中医药文本关键信息的智能抽取方法 - Google Patents

一种中医药文本关键信息的智能抽取方法 Download PDF

Info

Publication number
CN115713083B
CN115713083B CN202211475281.7A CN202211475281A CN115713083B CN 115713083 B CN115713083 B CN 115713083B CN 202211475281 A CN202211475281 A CN 202211475281A CN 115713083 B CN115713083 B CN 115713083B
Authority
CN
China
Prior art keywords
entity
chinese medicine
training
traditional chinese
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211475281.7A
Other languages
English (en)
Other versions
CN115713083A (zh
Inventor
王进
林兴
何晓莲
刘彬
孙开伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuelai Health Technology Co ltd
Yami Technology Guangzhou Co ltd
Original Assignee
Beijing Yuelai Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuelai Health Technology Co ltd filed Critical Beijing Yuelai Health Technology Co ltd
Priority to CN202211475281.7A priority Critical patent/CN115713083B/zh
Publication of CN115713083A publication Critical patent/CN115713083A/zh
Application granted granted Critical
Publication of CN115713083B publication Critical patent/CN115713083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于文本处理领域,具体涉及一种中医药文本关键信息的智能抽取方法,包括将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构,通过本发明能够准确地识别出中医药文本中的实体位置信息以及实体所属的类别。

Description

一种中医药文本关键信息的智能抽取方法
技术领域
本发明属于文本处理领域,具体涉及一种中医药文本关键信息的智能抽取方法。
背景技术
实体识别技术是自然语言处理领域中一项关键的技术,是其他自然语言处理应用的基础,旨在从文本中抽取人们所关注的实体片段,例如人名、机构名、地名等。目前,针对中文命名实体识别在一定条件下已经取得较好的性能。
随着自然语言处理技术的深入应用,以及社会各行业的发展。文本的种类也越来越多,比如广播对话、电视新闻、网络博客等。在不同的领域所定义的命名实体也不尽相同。然而,在中医药命名实体识别领域中,还面临着巨大的挑战。
为了使中医药分类识别模型的效果更好,信息提取更加的准确,再信息提取模型的训练过程中需要大量的高质量标注数据,而对中医药领域的数据标注门槛较高,需要很多专业知识,普通人无法完成,标注代价昂贵;因此,如何利用有限的数据训练出效果更好的信息提取模型是目前亟待解决的问题。
发明内容
为了解决背景技术中存在的问题,本发明提供一种中医药文本关键信息的智能抽取方法,该方法包括:将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到训练好的实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构;
对实体片段识别模型和实体类别识别模型进行训练的过程包括:
S1:获取原始中医药文本数据,采用全词掩盖策略对原始中医药文本数据进行继续预训练得到中医药文本的预训练模型M;
S2:采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集,所述标签信息包括:原始中医药文本中实体的位置信息和原始中医药文本中实体的类别信息;
S3:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体片段识别模型进行训练;
S4:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体类别识别模型进行训练。
优选的,所述采用全词掩盖策略对原始中医药文本数据进行继续预训练包括:
S11:使用Jieba分词中的隐马尔科夫分词模型对原始中医药文本进行分词;
S12:采用全词掩盖策略将原始中医药文本中20%的词语替换为等长度的“[MASK]”标记得到x*
S13:将x*输入到中文预训练模型Bert-WWM,采用MLM任务继续预训练,得到中医药文本的预训练模型M。
优选的,所述采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集包括:
S21:使用USE获取原始中医药文本的语义特征;
S22:将每个原始中医药文本的语义特征输入到K-means聚类算法进行聚类得到K个聚类簇;
S23:从每个聚类簇中随机抽取适量样本,安排专业标注人员进行标注,得到具有标签信息的训练样本集L。
优选的,所述对实体片段识别模型进行训练的具体步骤包括:
S31:采用BIO标记法对训练样本中的词进行标记,所述标记包括:当词属于实体片段开头标记为B,当词属于实体片段中间标记为I,当词属于非实体片段标记为O;
S32:采用中医药文本的预训练模型M提取训练样本中每个字符的向量得到训练样本的词向量序列;
S33:将训练样本的词向量序列线性映射后输入到CRF层根据BIO标记利用反向传播机制对实体片段识别模型的参数进行微调完成实体片段识别模型的训练。
优选的,所述对实体类别识别模型进行训练的具体步骤包括:
S41:采用中医药文本的预训练模型M作为初始化编码层对训练样本进行编码,得到训练样本的文本向量;
S42:根据训练样本实体的位置信息将每个实体片段S中所有的字符向量做平均聚合得到实体片段的词向量:
S43:根据训练样本中所有实体片段的词向量计算每个实体类别的类原型:
S44:计算训练样本中实体片段的词向量与每个实体类别类原型之间的距离;
S45:将训练样本中所有实体片段的词向量与每个实体类别类原型之间的距离输入到Softmax层进行归一化,得到训练样本中实体片段的概率分布:取概率最大的类别作为实体片段的预测输出;
S46:根据实体片段的词向量与每个实体类别类原型之间的距离和训练样本的类别信息构建损失函数,利用反向传播机制调节实体类别识别模型的参数,当损失函数小于设定阈值完成实体类别识别模型的训练。
优选地,所述损失函数包括:
其中,表示实体片段TS的词向量和第ys类类原型之间的距离,表示实体片段的真实类别和预测类别的交叉熵。
本发明至少具有以下有益效果
本发明将聚类技术和元学习技术应用到中医药命名实体识别领域中,采用聚类技术辅助选择出具有代表性的标注样本,节省标注人力的同时提升标注质量;将命名实体识别任务拆分为实体位置识别和实体类别识别两个部分,减小模型的学习难度,提升单个模型的效果。在实体类别识别模型中,设计特定的原型网络学习到各实体类别的元向量,具有泛化能力和鲁棒性。
附图说明
图1为本发明的方法流程示意图;
图2为本发明模型结构流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和图2,本发明提供一种中医药文本关键信息的智能抽取方法,该方法包括:将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到训练好的实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构;
对实体片段识别模型和实体类别识别模型进行训练的过程包括:
S1:获取原始中医药文本数据,采用全词掩盖(Whole Word Masking)策略对原始中医药文本数据进行继续预训练得到中医药文本的预训练模型M;
在本发明中采用公开的Entity Recognition of Traditional ChineseMedicine's Manual中药说明书实体识别数据集。
优选地,所述采用全词掩盖策略对原始中医药文本数据进行继续预训练包括:
S11:使用Jieba分词中的隐马尔科夫分词模型(HMM)对原始中医药文本进行分词;
S12:采用全词掩盖策略将原始中医药文本中20%的词语替换为等长度的“[MASK]”标记得到x*
S13:将x*输入到中文预训练模型Bert-WWM,采用MLM任务继续预训练,得到中医药文本的预训练模型M。
S2:采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集,所述标签信息包括:原始中医药文本实体的位置信息和原始中医药文本实体的类别信息;
S21:使用USE(Universal Sentence Encoder)获取原始中医药文本的语义特征;
S22:将每个原始中医药文本的语义特征输入到K-means聚类算法进行聚类得到K个聚类簇;
S23:从每个聚类簇中随机抽取适量样本,安排专业标注人员进行标注,得到具有标签信息的训练样本集L。
S3:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体片段识别模型进行训练;
S31:采用BIO标记法对训练样本中的词进行标记,所述标记包括:当词属于实体片段开头标记为B,当词属于实体片段中间标记为I,当词属于非实体片段标记为O;例如,训练样本为:本品为薄膜衣片用于盆腔炎,那么该样本的BIO 标记序列为:OOOBIIIOOBII,所述样例中“薄膜衣片”和“盆腔炎”两个实体分别为中医药领域中的剂型和症状。
S32:采用中医药文本的预训练模型M提取训练样本中每个字符的向量得到训练样本的词向量序列h=M(x);
S33:将训练样本的词向量序列h=M(x)线性映射后输入到CRF层根据BIO 标记利用反向传播机制对实体片段识别模型的参数进行微调完成实体片段识别模型的训练。
S4:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体类别识别模型进行训练;
S41:采用中医药文本的预训练模型M作为初始化编码层对训练样本进行编码,得到训练样本的文本向量T=M(x),Ti表示训练样本中第i个字符的向量表示;
S42:根据训练样本实体的位置信息将每个实体片段S中所有的字符向量做平均聚合得到实体片段的词向量:
其中,Tn表示训练样本中第n个字符的向量,i~j表示实体词在句子中的位置信息,TS表示实体片段的词向量。
S43:根据训练样本中所有实体片段的词向量计算每个实体类别的类原型:
其中,Ck表示第k个实体类别的类原型,yk表示包含第k类实体片段的所有实体片段集合,TS表示实体片段的词向量。
S44:计算训练样本中实体片段的词向量与每个实体类别类原型之间的距离:
其中,TS表示实体片段的词向量,Ck表示第k个实体类别的类原型,TS,i表示实体片段s的词向量中第i个值,Ck,i表示第k类实体类原型中第i个值。
S45:将训练样本中所有实体片段的词向量与每个实体类别类原型之间的距离输入到Softmax层进行归一化,得到训练样本中实体片段的概率分布:取概率最大的类别作为实体片段的预测输出;
其中,ps,k表示实体片段s属于第k类实体的概率,TS表示实体片段的词向量, Ck表示第k个实体类别的类原型。
S46:根据实体片段的词向量与每个实体类别类原型之间的距离和训练样本的类别信息构建损失函数,利用反向传播机制调节实体类别识别模型的参数,当损失函数小于设定阈值完成实体类别识别模型的训练;
其中,表示实体片段TS的词向量和第ys类类原型之间的距离,表示实体片段的真实类别和预测类别的交叉熵。
本发明将聚类技术和元学习技术应用到中医药命名实体识别领域中,采用聚类技术辅助选择出具有代表性的标注样本,节省标注人力的同时提升标注质量;将命名实体识别任务拆分为实体位置识别和实体类别识别两个部分,减小模型的学习难度,提升单个模型的效果。在实体类别识别模型中,设计特定的原型网络学习到各实体类别的元向量,具有泛化能力和鲁棒性。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种中医药文本关键信息的智能抽取方法,其特征在于,包括:将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到训练好的实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构;
对实体片段识别模型和实体类别识别模型进行训练的过程包括:
S1:获取原始中医药文本数据,采用全词掩盖策略对原始中医药文本数据进行继续预训练得到中医药文本的预训练模型M;
S2:采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集,所述标签信息包括:原始中医药文本中实体的位置信息和原始中医药文本中实体的类别信息;
S3:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体片段识别模型进行训练;
所述对实体片段识别模型进行训练的具体步骤包括:
S31:采用BIO标记法对训练样本中的词进行标记,所述标记包括:当词属于实体片段开头标记为B,当词属于实体片段中间标记为I,当词属于非实体片段标记为O;
S32:采用中医药文本的预训练模型M提取训练样本中每个字符的向量得到训练样本的词向量序列;
S33:将训练样本的词向量序列线性映射后输入到CRF层根据BIO标记利用反向传播机制对实体片段识别模型的参数进行微调完成实体片段识别模型的训练;
S4:根据中医药文本的预训练模型M、训练样本集和训练样本的标签信息利用反向传播机制对实体类别识别模型进行训练;
所述对实体类别识别模型进行训练的具体步骤包括:
S41:采用中医药文本的预训练模型M作为初始化编码层对训练样本进行编码,得到训练样本的文本向量;
S42:根据训练样本实体的位置信息将每个实体片段S中所有的字符向量做平均聚合得到实体片段的词向量:
S43:根据训练样本中所有实体片段的词向量计算每个实体类别的类原型:
S44:计算训练样本中实体片段的词向量与每个实体类别类原型之间的距离;
S45:将训练样本中所有实体片段的词向量与每个实体类别类原型之间的距离输入到Softmax层进行归一化,得到训练样本中实体片段的概率分布:取概率最大的类别作为实体片段的预测输出;
S46:根据实体片段的词向量与每个实体类别类原型之间的距离和训练样本的类别信息构建损失函数,利用反向传播机制调节实体类别识别模型的参数,当损失函数小于设定阈值完成实体类别识别模型的训练。
2.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述采用全词掩盖策略对原始中医药文本数据进行继续预训练包括:
S11:使用Jieba分词中的隐马尔科夫分词模型对原始中医药文本进行分词;
S12:采用全词掩盖策略将原始中医药文本中20%的词语替换为等长度的“[MASK]”标记得到x*
S13:将x*输入到中文预训练模型Bert-WWM,采用MLM任务继续预训练,得到中医药文本的预训练模型M。
3.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述采用基于语义聚类的分层抽样法抽取部分原始中医药文本进行人工标注生成具有标签信息的训练样本集包括:
S21:使用USE获取原始中医药文本的语义特征;
S22:将每个原始中医药文本的语义特征输入到K-means聚类算法进行聚类得到K个聚类簇;
S23:从每个聚类簇中随机抽取适量样本,安排专业标注人员进行标注,得到具有标签信息的训练样本集L。
4.根据权利要求1所属的一种中医药文本关键信息的智能抽取方法,其特征在于,所述损失函数包括:
其中,表示实体片段TS的词向量和第ys类类原型之间的距离,表示实体片段的真实类别和预测类别的交叉熵。
CN202211475281.7A 2022-11-23 2022-11-23 一种中医药文本关键信息的智能抽取方法 Active CN115713083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211475281.7A CN115713083B (zh) 2022-11-23 2022-11-23 一种中医药文本关键信息的智能抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211475281.7A CN115713083B (zh) 2022-11-23 2022-11-23 一种中医药文本关键信息的智能抽取方法

Publications (2)

Publication Number Publication Date
CN115713083A CN115713083A (zh) 2023-02-24
CN115713083B true CN115713083B (zh) 2023-12-15

Family

ID=85234366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211475281.7A Active CN115713083B (zh) 2022-11-23 2022-11-23 一种中医药文本关键信息的智能抽取方法

Country Status (1)

Country Link
CN (1) CN115713083B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN114582448A (zh) * 2022-01-05 2022-06-03 大连理工大学 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN115114926A (zh) * 2022-07-26 2022-09-27 华南农业大学 一种中文农业命名实体识别方法
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115310448A (zh) * 2022-08-10 2022-11-08 南京邮电大学 一种基于bert和字词向量结合的中文命名实体识别方法
CN115310446A (zh) * 2022-08-03 2022-11-08 湖南中医药大学 中医药古籍命名实体识别方法、装置、电子设备及存储器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN114582448A (zh) * 2022-01-05 2022-06-03 大连理工大学 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN115114926A (zh) * 2022-07-26 2022-09-27 华南农业大学 一种中文农业命名实体识别方法
CN115310446A (zh) * 2022-08-03 2022-11-08 湖南中医药大学 中医药古籍命名实体识别方法、装置、电子设备及存储器
CN115310448A (zh) * 2022-08-10 2022-11-08 南京邮电大学 一种基于bert和字词向量结合的中文命名实体识别方法
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中文电子病历多层次信息抽取方法的探索;吴骋等;《中国数字医学》;第15卷(第6期);第29-31页 *
基于BERT-BiLSTM-CRF模型的中文实体识别;谢腾;杨俊安;刘辉;;《计算机系统应用》;第29卷(第7期);第48-55页 *
基于多特征条件随机场的《金匮要略》症状药物信息抽取研究;叶辉等;《中国中医药图书情报杂志》;第40卷(第5期);第14-17页 *
采用Transformer-CRF的中文电子病历命名实体识别;李博等;《计算机工程与应用》;第56卷(第5期);第153-159页 *

Also Published As

Publication number Publication date
CN115713083A (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111626063A (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN106250915A (zh) 一种融合深度特征和语义邻域的自动图像标注方法
CN114201581A (zh) 一种基于对比学习的长文本检索模型
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN110413768A (zh) 一种文章题目自动生成方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN115687626A (zh) 一种基于提示学习融合关键词的法律文书分类方法
CN114359946A (zh) 一种基于残差注意力Transformer的光学乐谱图像识别方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Zhang et al. Image caption generation with adaptive transformer
CN113672718A (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
Jiang et al. Hadamard product perceptron attention for image captioning
CN117034921B (zh) 一种基于用户数据的提示学习训练方法、装置和介质
CN115713083B (zh) 一种中医药文本关键信息的智能抽取方法
CN116432752B (zh) 一种隐式篇章关系识别模型的构建方法及其应用
CN114048749B (zh) 一种适用于多领域的中文命名实体识别方法
CN116779177A (zh) 一种基于去偏见混合标签学习的内分泌疾病分类方法
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
Liu et al. Hierarchical component-attention based speaker turn embedding for emotion recognition
CN115587595A (zh) 一种用于病理文本命名的多粒度实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231121

Address after: 1-110, 3rd Floor, Section 1, No. 18 Huilongguan West Street, Huilongguan Town, Changping District, Beijing, 102200

Applicant after: Beijing Yuelai Health Technology Co.,Ltd.

Address before: Room 801, No. 85, Kefeng Road, Huangpu District, Guangzhou, Guangdong 510000 (office only)

Applicant before: Yami Technology (Guangzhou) Co.,Ltd.

Effective date of registration: 20231121

Address after: Room 801, No. 85, Kefeng Road, Huangpu District, Guangzhou, Guangdong 510000 (office only)

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant