CN113160917A - 一种电子病历实体关系抽取方法 - Google Patents
一种电子病历实体关系抽取方法 Download PDFInfo
- Publication number
- CN113160917A CN113160917A CN202110538637.6A CN202110538637A CN113160917A CN 113160917 A CN113160917 A CN 113160917A CN 202110538637 A CN202110538637 A CN 202110538637A CN 113160917 A CN113160917 A CN 113160917A
- Authority
- CN
- China
- Prior art keywords
- entity
- electronic medical
- medical record
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文本信息挖掘领域,具体提供了一种电子病历实体关系抽取方法,具有以下步骤:S1、数据预处理;S2、预训练语言模型训练词向量;S3、搭建多标签模型;S4、使用Bert搭建一个实体抽取模型。与现有技术相比,本发明的一种电子病历实体关系抽取方法,不需要设计较多的专业知识,不需要定制大量的规则模板和大量的特征工程,且可以充分利用文本上下文信息。
Description
技术领域
本发明涉及文本信息挖掘领域,具体提供一种电子病历实体关系抽取方法。
背景技术
医疗信息化的不断发展产生了大量的医疗数据,其中,电子病历记录了患者详细的诊疗过程,基于电子病历中的数据定制成相应疾病的专病队列,对于后续医疗工作者进行科学研究有着重要的作用。因此,如何准确快速的提取出文本中的有效数据,就需要引入数据挖掘技术。
基于模式匹配的实体关系抽取,实体关系抽取早期是通过模式匹配的方式进行的。模式匹配的过程主要运用了语言学和自然语言处理学的知识。在实体关系抽取之前,需要通过人工构造实体关系的特征词典或规则并将其存储下来。在实体关系抽取的过程中,将规则与预处理后的非结构文本相匹配,从而提取出实体关系三元组。然而,这种方法存在明显不足,该方法要求规则与词典的制定有专业的语言学基础,同时对自然语言处理学有深入的了解与研究,制定规则难度大,需要耗费大量的时间与人力,可迁移性差,无法直接植入至其他领域。
基于机器学习的实体关系抽取,该方法根据对人工语料的依赖程度,可分为有监督的实体关系抽取、半监督的实体关系抽取和无监督的实体关系抽取方法。有监督的实体关系抽取方法核心思想是对机器学习模型投入足量的已标记关系类别的训练语料,然后进行特定关系的匹配识别与抽取任务,有监督的抽取方法包括基于特征向量的方法和基于核函数的方法,但有监督的实体关系抽取方法仍需耗费大量的时间与人力对语料进行标注。
半监督的实体关系抽取方法的主要思想是根据人为预先设计好的关系类型,通过人工添加合适的少量的实体对作为训练语料,利用模式学习方式方法进行不断迭代学习,人工进行调整,最终生成关系数据集和序列模式,在一定程度上降低了对人工标注语料的依赖。目前基于板监督的实体关系抽取任务包含自举方法、标注传播算法、协同训练和主动学习方法,基于半监督的实体关系抽取方法虽然避免了耗时和繁琐的大量人工标注语料,仅需少量训练语料即可训练模型,但对储时标记数据的质量要求较高,并且迭代过程中模板的构建和优化对最后的效果有着至关重要的作用,这种方式普遍存在于训练过程中噪声引入,进而在训练过程中造成语义漂移的现象,因此该方法虽然准确率高,但是召回率低。
无监督的实体关系抽取无须进行人工标注数据,它首先利用某类聚类算法将实体上下句相似程度高的实体对聚成一类,然后选择频率最高的指代词作为该实体对的语义类别,常用的聚类算法有K-均值、自组织映射聚类算法、遗传算法,无监督的实体关系抽取虽然无须人工标注的训练语料,无须预先定义实体关系类型,可迁移性强,适合处理大规模的非结构化自然语言文本数据,但无监督式抽取需要事前定义聚类的阈值,同时无监督的实体关系抽取暂无客观的评价标准,且召回率和准确率与有监督抽取方法相比普遍较低。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的电子病历实体关系抽取方法。
本发明解决其技术问题所采用的技术方案是:
一种电子病历实体关系抽取方法,具有以下步骤:
S1、数据预处理;
S2、预训练语言模型训练词向量;
S3、搭建多标签模型;
S4、使用Bert搭建一个实体抽取模型。
进一步的,在步骤S1中,定义数据预处理类,返回关于字的数组,同时建立token到id的索引以及id到token的索引;
数据预处理后会生成训练集、验证集和测试集,方式为相应的数据集加行号,且数据转换成TfRecord格式。
进一步的,定义数据预处理类时,主要对文本数据进行unicode转换、标点符号分割、中文字符分割和去除重音符号。
作为优选,所述token指文本处理后的最小单元,中文为字,英文为词。
进一步的,在步骤S2中,获取word embedding以及position embedding,其中wordembedding可以通过加载Bert的预训练语言模型训练词向量。
进一步的,position embedding保存了单词在序列中的相对或绝对位置。
进一步的,在步骤S3中,多标签分类模型采用了Tensorflow中的tf.contrib.TPUEstimator这一高级封装的API,如果是训练过程则返回loss和train_op,如果是验证过程则返回准确率评价指标,如果是test则返回预测结果。
进一步的,在步骤S4中,使用Bert搭建一个实体抽取的模型,类别可以定义为[“[Padding]”,“[Category]”,“[##WordPiece]”,“[CLS]”,“[SEP]”,“B-SUB”,“I-SUB”,“B-OBJ”,“I-OBJ”,“O”],其中SUB对应的就是subject,B-SUB就是第一个实体开始的位置,后续的是I-SUB,OBJ是第二个实体,本质上就是预测上述每一个tokens的标示,最后可根据标示提取出实体对。
进一步的,若一句话有多个三元组,在所述模型构建时,先依据第一个模型预测出来的关系类。
本发明的一种电子病历实体关系抽取方法和现有技术相比,具有以下突出的有益效果:
本发明相较于传统的模式匹配方法,不需要设计较多的专业知识,不需要定制大量的规则模板和大量的特征工程,且可以充分利用文本上下文信息。可以弥补有监督的实体关系抽取、半监督的实体关系和无监督的实体关系抽取的缺点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种电子病历实体关系抽取方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种电子病历实体关系抽取方法,将信息提取问题转换成两个连续的文本分类问题,第一个是多标签分类模型,第二个模型是基于第一个模型的结果构建的多分类单标签模型。
具有以下步骤:
S1、数据预处理,定义数据预处理类,主要对文本数据进行unicode转换、标点符号分割、中文字符分割、去除重音符号等操作,最后返回关于字的数组,同时建立token到id的索引以及id到token的索引,这里token指的是文本处理后的最小单元,中文是字,英文是词。数据预处理后会生成训练集、验证集、测试集,这里定义的方式是相应的数据集+行号,并且为了快速的读写数据,还需要将数据转换成TfRecord格式。
S2、预训练语言模型训练词向量:
获取word embedding(词嵌入)以及position embedding(位置嵌入),其中wordembedding可以通过加载Bert的预训练语言模型训练自己的词向量,这样可以避免重新训练词向量消耗巨大的运算资源,其次为了充分利用上下文信息,本方法除了要考虑wordembedding还要考虑每个字的position embedding,因为Transformer不采用RNN结构,而是使用全局信息,不能利用单词的顺序信息,但这部分信息对于实体关系提取至关重要,所以在本方法中position embedding保存了单词在序列中的相对或绝对位置。
S3、搭建多标签模型:
多标签分类模型搭建,模型采用了Tensorflow中的tf.contrib.TPUEstimator这一高级封装的API,其内部定义了loss、预测概率以及预测结果等,这样可以针对不同的状态返回不同的结果,如果是训练过程则返回loss,train_op等,如果是验证过程则返回准确率等评价指标,如果是test则返回预测结果。
S4、使用Bert搭建一个实体抽取模型:
基于以上得到的关系和文本,使用Bert搭建一个实体抽取的模型,其也可以归为一个多分类的单标签任务,类别可以定义为[“[Padding]”,“[Category]”,“[##WordPiece]”,“[CLS]”,“[SEP]”,“B-SUB”,“I-SUB”,“B-OBJ”,“I-OBJ”,“O”],其中SUB对应的就是subject,B-SUB就是第一个实体开始的位置,后续的是I-SUB,OBJ是第二个实体,本质上就是预测上述每一个tokens的标示,最后可根据标示提取出实体对,考虑到一句话中可能有多个三元组,为此在该模型构建时,先依据第一个模型预测出来的关系类,如当前句子预测出3个关系,那么就重复该句话分成3个样本,那么3个样本就对应的时3个多分类单标签任务,为了使实体对和关系对应,所以第二个模型在计算loss的时候要综合考虑关系和token表示的预测。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种电子病历实体关系抽取方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种电子病历实体关系抽取方法,其特征在于,具有以下步骤:
S1、数据预处理;
S2、预训练语言模型训练词向量;
S3、搭建多标签模型;
S4、使用Bert搭建一个实体抽取模型。
2.根据权利要求1所述的一种电子病历实体关系抽取方法,其特征在于,在步骤S1中,定义数据预处理类,返回关于字的数组,同时建立token到id的索引以及id到token的索引;
数据预处理后会生成训练集、验证集和测试集,方式为相应的数据集加行号,且数据转换成TfRecord格式。
3.根据权利要求2所述的一种电子病历实体关系抽取方法,其特征在于,定义数据预处理类时,主要对文本数据进行unicode转换、标点符号分割、中文字符分割和去除重音符号。
4.根据权利要求3所述的一种电子病历实体关系抽取方法,其特征在于,所述token指文本处理后的最小单元,中文为字,英文为词。
5.根据权利要求1所述的一种电子病历实体关系抽取方法,其特征在于,在步骤S2中,获取word embedding以及position embedding,其中word embedding可以通过加载Bert的预训练语言模型训练词向量。
6.根据权利要求5所述的一种电子病历实体关系抽取方法,其特征在于,positionembedding保存了单词在序列中的相对或绝对位置。
7.根据权利要求1所述的一种电子病历实体关系抽取方法,其特征在于,在步骤S3中,多标签分类模型采用了Tensorflow中的tf.contrib.TPUEstimator这一高级封装的API,如果是训练过程则返回loss和train_op,如果是验证过程则返回准确率评价指标,如果是test则返回预测结果。
8.根据权利要求1所述的一种电子病历实体关系抽取方法,其特征在于,在步骤S4中,使用Bert搭建一个实体抽取的模型,类别可以定义为[“[Padding]”,“[Category]”,“[##WordPiece]”,“[CLS]”,“[SEP]”,“B-SUB”,“I-SUB”,“B-OBJ”,“I-OBJ”,“O”],其中SUB对应的就是subject,B-SUB就是第一个实体开始的位置,后续的是I-SUB,OBJ是第二个实体,本质上就是预测上述每一个tokens的标示,最后可根据标示提取出实体对。
9.根据权利要求8所述的一种电子病历实体关系抽取方法,其特征在于,若一句话有多个三元组,在所述模型构建时,先依据第一个模型预测出来的关系类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110538637.6A CN113160917B (zh) | 2021-05-18 | 2021-05-18 | 一种电子病历实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110538637.6A CN113160917B (zh) | 2021-05-18 | 2021-05-18 | 一种电子病历实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113160917A true CN113160917A (zh) | 2021-07-23 |
CN113160917B CN113160917B (zh) | 2022-11-01 |
Family
ID=76876251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110538637.6A Active CN113160917B (zh) | 2021-05-18 | 2021-05-18 | 一种电子病历实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160917B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357718A (zh) * | 2022-10-20 | 2022-11-18 | 佛山科学技术学院 | 主题集成服务重复材料发现方法、系统、设备和存储介质 |
WO2023151315A1 (zh) * | 2022-02-09 | 2023-08-17 | 浙江大学杭州国际科创中心 | 基于氨基酸知识图谱和主动学习的蛋白质改造方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717552A (zh) * | 2018-05-17 | 2018-10-30 | 南京大学 | 基于新标签发现和标签增量学习的动态多标签分类方法 |
CN110705301A (zh) * | 2019-09-30 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 实体关系抽取方法及装置、存储介质、电子设备 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111428036A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN112069328A (zh) * | 2020-09-08 | 2020-12-11 | 中国人民解放军国防科技大学 | 一种基于多标签分类的实体关系联合抽取模型的建立方法 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN112487206A (zh) * | 2020-12-09 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种自动构建数据集的实体关系抽取方法 |
-
2021
- 2021-05-18 CN CN202110538637.6A patent/CN113160917B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717552A (zh) * | 2018-05-17 | 2018-10-30 | 南京大学 | 基于新标签发现和标签增量学习的动态多标签分类方法 |
CN110705301A (zh) * | 2019-09-30 | 2020-01-17 | 京东城市(北京)数字科技有限公司 | 实体关系抽取方法及装置、存储介质、电子设备 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111428036A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN112069328A (zh) * | 2020-09-08 | 2020-12-11 | 中国人民解放军国防科技大学 | 一种基于多标签分类的实体关系联合抽取模型的建立方法 |
CN112487206A (zh) * | 2020-12-09 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种自动构建数据集的实体关系抽取方法 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
Non-Patent Citations (4)
Title |
---|
崔博文等: "自由文本电子病历信息抽取综述", 《计算机应用》 * |
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 * |
李灵芳等: "基于BERT的中文电子病历命名实体识别", 《内蒙古科技大学学报》 * |
王子牛等: "基于BERT的中文命名实体识别方法", 《计算机科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023151315A1 (zh) * | 2022-02-09 | 2023-08-17 | 浙江大学杭州国际科创中心 | 基于氨基酸知识图谱和主动学习的蛋白质改造方法 |
CN115357718A (zh) * | 2022-10-20 | 2022-11-18 | 佛山科学技术学院 | 主题集成服务重复材料发现方法、系统、设备和存储介质 |
CN115357718B (zh) * | 2022-10-20 | 2023-01-24 | 佛山科学技术学院 | 主题集成服务重复材料发现方法、系统、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113160917B (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN109766540B (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US20230016365A1 (en) | Method and apparatus for training text classification model | |
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN110502644B (zh) | 一种领域层级词典挖掘构建的主动学习方法 | |
CN112395393B (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN113160917B (zh) | 一种电子病历实体关系抽取方法 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN115392256A (zh) | 一种基于语义分割的药物不良事件关系抽取方法 | |
CN112528649A (zh) | 针对多语言混合文本的英文拼音识别方法和系统 | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN114841167A (zh) | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN113221569A (zh) | 一种毁伤试验文本信息抽取方法 | |
CN111523320A (zh) | 一种基于深度学习的中文病案分词方法 | |
CN116361454A (zh) | 一种基于Bloom分类法的课程教学案例自动评估方法 | |
CN115204142A (zh) | 开放关系抽取方法、设备及存储介质 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN112232681B (zh) | 一种面向计算分析类非选择题的智能评卷方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221010 Address after: 250100 room 3108, 31 / F, building S02, Langchao Science Park, No. 1036 Langchao Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan, Shandong Applicant after: Shandong Langchao Intelligent Medical Technology Co.,Ltd. Address before: Room 215, east block, Xiyuan building, intersection of Shun'an Road, Yantai Road, Huaiyin District, Jinan City, Shandong Province Applicant before: SHANDONG HEALTH MEDICAL BIG DATA Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |