CN115952284A - 一种融合密度聚类与ernie的医疗文本关系抽取方法 - Google Patents

一种融合密度聚类与ernie的医疗文本关系抽取方法 Download PDF

Info

Publication number
CN115952284A
CN115952284A CN202211576536.9A CN202211576536A CN115952284A CN 115952284 A CN115952284 A CN 115952284A CN 202211576536 A CN202211576536 A CN 202211576536A CN 115952284 A CN115952284 A CN 115952284A
Authority
CN
China
Prior art keywords
relation
clustering
ernie
text
medical text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211576536.9A
Other languages
English (en)
Inventor
李岫宸
朱波
邹艳华
邱兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211576536.9A priority Critical patent/CN115952284A/zh
Publication of CN115952284A publication Critical patent/CN115952284A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种融合密度聚类与ERNIE的医疗文本关系抽取方法,包括如下步骤:首先,获取非结构化的中文医疗文本,其中,对实体进行识别和标注,并对文本使用正则表达式进行清洗;然后,对标注的实体进行向量化处理,并使用HDBSCAN算法进行聚类,其中,向量化前先进行平滑处理,以更准确提取到实体的词频特征;最后,将聚类结果标注到文本中,并作为ERNIE预训练模型的输入进行关系抽取,其中,抽取采用封闭式降低未知关系造成的歧义。本发明改善了中文医疗文本词频不足的特性,通过预训练模型的运用充分挖掘了实体关系的先验知识,同时通过预训练模型强化实体在文本中的位置信息,提升关系抽取的准确性。

Description

一种融合密度聚类与ERNIE的医疗文本关系抽取方法
技术领域
本发明涉及关系抽取技术领域,具体涉及一种融合密度聚类与ERNIE的医疗文本关系抽取方法。
背景技术
在构建医疗知识图谱、开展智能诊断、病例智能分析之前,需要对非结构化的医疗文本关系抽取,以识别文本中成对实体的关系,从文本数据中自动获取结构化知识。但是由于医疗文本在构成上具有多样性、复杂性和动态性,对医疗文本关系抽取提出较大挑战。现有技术大多通过预训练模型后连接不同分类器提升关系抽取效果,并未充分使用已标注文本自身携带的先验知识,造成人工标注数据集未得到充分利用这一问题。
发明内容
为解决上述技术问题,本发明提出了一种融合密度聚类与ERNIE的医疗文本关系抽取方法,通过聚类算法提取人工标注语料中的先验知识,解决了人工标注数据集未得到充分利用这一问题,从而提升医疗文本关系抽取效果,使人工标注信息反应更多元的信息,能够降低模型对人工标注数据的依赖,并降低成本。
为了达到上述技术目的,本发明技术方案如下:
一种融合密度聚类与ERNIE的医疗文本关系抽取方法,包括如下步骤:
获取原始标注文本,将中文医疗文本数据与已标注的实体分别提取,其中,提取的非结构化文本使用正则表达式进行数据清洗,删除文本中多余的符号与网页、图片链接信息。
对已标记的实体使用HDBSCAN算法对向量化后的实体进行聚类,其中,为避免生僻字造成概率回退现象,使用平滑处理后的词向量矩阵得到聚类标签。
将聚类结果融合到中文医疗文本中输入到ERNIE预训练模型中进行关系抽取,其中,采用封闭式抽取降低未知关系造成的歧义。
优选地,还包括如下步骤:
对实体进行聚类前,剔除重复出现的实体数据;
对头实体与尾实体进行分别聚类;
创建关系数据集,用于关系抽取时确定关系分类数量;
聚类所使用词向量矩阵使用平滑处理后的TFIDF词向量矩阵,关系抽取使用Embedding词向量矩阵。
优选地,所述数据集选取部分飞桨公开的医疗文本数据集进行研究,对上述数据集采用完全随机采样策略进行划分,形成完全不相交的训练集与测试集。
优选地,所述数据集在完全随机采样前,已对其实体进行过聚类处理。
优选地,所述ERNIE医疗文本关系抽取模型损失函数Loss为:
Figure SMS_1
式中:pi为关系抽取模型输出层经过softmax输出的关系类别预测向量,y为关系类别标签的one-hot表示,N为关系类别数量。
优选地,所述融合密度聚类的ERNIE医疗文本关系抽取模型包括聚类层、词嵌入层、自注意力层。
基于上述技术方案,本发明的有益效果是:
1.本发明通过构建融合密度聚类与ERNIE的医疗文本关系抽取方法,将实体进行聚类,使得实体的词频信息得到了强化,将实体加入标签,使得待预测实体的位置信息和有向性特征得到了强化,预训练模型使用具有知识整合模块的ERNIE,使得模型能更好的学习到聚类标签与实体间的联系。
2.本发明从数据集出发,除了运用传统数据清洗方法,引入聚类算法对医疗文本数据集进行处理,以达到删除干扰信息的同时,使数据集携带更多信息的目的。
附图说明
图1是一个实施例中融合密度聚类与ERNIE的医疗文本关系抽取方法流程图:
图2是一个实施例中融合密度聚类与ERNIE的医疗文本关系抽取方法的架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,本实施例提供一种融合密度聚类与ERNIE的医疗文本关系抽取方法,包括如下步骤:
获取原始标注文本,将中文医疗文本数据与已标注的实体分别提取,其中,提取的非结构化文本使用正则表达式进行数据清洗,删除文本中多余的符号与网页、图片链接信息。
对已标记的实体使用HDBSCAN算法对向量化后的实体进行聚类,其中,为避免生僻字造成概率回退现象,使用平滑处理后的词向量矩阵得到聚类标签。
将聚类结果融合到中文医疗文本中输入到ERNIE预训练模型中进行关系抽取,其中,采用封闭式抽取降低未知关系造成的歧义。
本发明通过构建融合密度聚类与ERNIE的医疗文本关系抽取方法,将实体进行聚类,使得实体的词频信息得到了强化,将实体加入标签,使得待预测实体的位置信息和有向性特征得到了强化,将预训练模型替换为具有知识整合模块的ERNIE,使得模型能更好的学习到聚类标签与实体间的联系。
具体说明如下:
1.构建融合密度聚类的ERNIE医疗文本关系抽取模型
关系抽取任务是一种特殊的文本分类任务,而针对医疗文本数据集具有的多样性、复杂性和动态性的特点,通过融合密度聚类算法对数据集进行预处理,以提高关系抽取模型预训练下游微调任务的效果。在本专利ERNIE预训练模型Fine-tune语料中,将使用密度聚类后的语料,将融合了密度聚类信息的中文医疗文本数据集视为Fine-tune过程中的语料,如图2所示,融合了密度聚类信息的中文医疗文本数据集语料是对原始语料的进一步清洗。以达到删除干扰信息的同时,使数据集携带更多信息的目的。
对于聚类算法处理过后的数据集,标记出的实体具有了聚类信息,用于增强文本中待预测实体的位置信息与先验知识信息。
融合密度聚类的ERNIE医疗文本关系抽取模型由三个部分组成,分别是聚类层、嵌入层、自注意力机制层。
1)聚类层
医疗文本中的实体命名的多样性和关系的动态性干扰了关系的抽取。为让模型学习到三元组的有向性特征,使用特殊符号将待预测实体在文本中标记出,然后使用聚类算法挖掘实体内部语义相似度信息,为文本提供有效先验知识。因此,使用层次密度聚类算法HDBSCAN以找到最佳聚类解决方案。该算法具体分为如下步骤:
创建包含所有点的集合V={x1,x2...xn},以相互可达度量距离为边权重,得到最小生成树后构建集群层次结构。然后从根节点开始,根据树修剪的原则压缩集群层次结构。最后使用距离的倒数λ作为集群持续性指标提取稳定集群。
考虑到医疗文本会出现未登录的生僻字,会在向量化过程中产生回退值为零的情况,所以在对医疗实体进行向量化前进行平滑处理避免该现象的发生,
公式如下:
Figure SMS_2
平滑处理:
Figure SMS_3
式中:df(d,t)表示文本中所有字词的出现次数之和;nd为样本总数,FIDF为逆文档频率。
2)词嵌入层
模型认为如果在进行随机遮盖(Mask)时仅对单个字进行遮盖,会使得模型缺少对词内部关系的理解,因此,ERNIE加入了实体和短语掩码机制,通过学习大量的分词模型,短语拼接模型,命名实体识别模型,强化模型的语法学习能力。具体掩码操作如图2所示。图中,通过不同粒度的Mask操作使ERNIE具备学习先验知识的能力。其中基础掩码阶段将句子作为一个基本语言单位的序列,随机遮盖15%的基本语言单元,使用句子中的其他基本单元作为输入,训练一个转换器来进行预测。
短语掩码阶段随机在句子中选择几个短语嵌入到编码中。最后的实体掩码阶段,认为实体在句子中包含重要信息,通过短语掩蔽阶段中的命名实体,Mask并预测实体中的所有插槽。经过三个阶段的学习,ERNIE得到了一个由更丰富的语义信息增强的单词表示。
3)自注意力层
ERNIE引入诸如基于百科类、资讯类、论坛对话类等构造具有上下文关系的句子对,在词嵌入模块使用了对话语言模型(Dialogue Language Model,DLM)提升模型语义表示能力。DLM任务帮助ERNIE学习医疗文本中的内隐关系,以提高模型学习医疗文本数据的语义表征能力。使用ERNIE预训练模型还可以缓解长距离依赖对关系抽取造成的影响,对于每个字符,首先通过ERNIE嵌入层得到a1,a2,a3...,aN,分别用3个单位矩阵与之相乘得到各自的向量后经过点积放缩处理后经过Softmax函数进行归一化后与对应位置的v1,v2...,vN得到输入字对应的结果。
2.损失函数的定义
所述ERNIE医疗文本关系抽取模型损失函数Loss为:
Figure SMS_4
其中pi为关系抽取模型输出层经过softmax输出的关系类别预测向量,y为关系类别标签的one-hot表示,N为关系类别数量。
3.数据集划分
为了让模型能够学习到聚类标签与实体间的关系,且保证聚类的结果不会受聚类的样本数量的影响。首先对整个数据集的实体进行聚类。然后采用完全随机采样策略对数据集进行划分,最终得到训练集/测试集比例为8/2。
4.训练融合密度聚类的ERNIE关系抽取模型
对于已取出的实体,使用HDBSCAN算法对其聚类,其中,为体现三元组的有向性特征,对头尾实体进行分别聚类,并输出聚类结果,便于关系抽取时进行插入操作。
对于已标注的关系,创建关系类型文件,确定所有关系类别与数量,其中,增加一个“UNRELATED”关系代表未发现的关系。
对于待遇测预料,循环取出每一个训练批次的句子,将聚类标签分别插入已标注的实体前,并加入特殊符号强化待遇测实体的位置信息。具体训练过程如下:
步骤1:实体向量化表示
对于得到的实体词,首先转换为平滑处理后的TFIDF向量矩阵,使用HDBSCAN算法进行聚类,得到聚类结果标签。
步骤2:构建关系分类数据集
对于标注语料,将所有关系进行统计后形成关系分类类型,其中,为保证分类的准确性,增加一个“UNRELATED”关系代表未发现的关系。
步骤3:句子语义特征提取
将聚类结果标签融合到待遇测句子与待预测实体中,并插入特殊符号标记出实体在句子中的位置,一起作为最终训练语料输入ERNIE中进行语义特征提取,ERNIE预训练模型经过词嵌入层和自注意力层,作为ERNIE层的最终输出。
步骤4:训练关系抽取模型
将自注意力层输出的特征经过一层向量拼接和一次线性连接,进行softmax操作得到预测的向量。
步骤5:微调关系抽取模型
通过不断迭代,以损失函数变化程度最小为依据,通过调整模型学习率等其他参数对模型进行微调。
步骤6:测试模型
测试模型在已划分好的测试集上的准确率、召回率和F1值大小为依据,测试模型的整体效果。
直至模型损失函数变化程度变化微小、准确率、召回率和F1值稳定,模型训练结束。
以上所述仅为本发明所公开的融合密度聚类与ERNIE的医疗文本关系抽取方法,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。

Claims (6)

1.一种融合密度聚类与ERNIE的医疗文本关系抽取方法,其特征在于,包括如下步骤:
获取原始标注文本,将中文医疗文本数据与已标注的实体分别提取,其中,提取的非结构化文本使用正则表达式进行数据清洗,删除文本中多余的符号与网页、图片链接信息;
对已标记的实体使用HDBSCAN算法对向量化后的实体进行聚类,其中,为避免生僻字造成概率回退现象,使用平滑处理后的词向量矩阵得到聚类标签;
将聚类结果融合到中文医疗文本中输入到ERNIE预训练模型中进行关系抽取,其中,采用封闭式抽取降低未知关系造成的歧义。
2.根据权利要求1所述的一种融合密度聚类与ERNIE的医疗文本关系抽取方法,其特征在于,还包括如下步骤:
对实体进行聚类前,剔除重复出现的实体数据;
对头实体与尾实体进行分别聚类;
创建关系数据集,用于关系抽取时确定关系分类数量;
聚类所使用词向量矩阵使用平滑处理后的TFIDF词向量矩阵,关系抽取使用Embedding词向量矩阵。
3.根据权利要求1所述的一种融合密度聚类与ERNIE的医疗文本关系抽取方法,其特征在于,所述数据集选取部分飞桨公开的医疗文本数据集进行研究,对上述数据集采用完全随机采样策略进行划分,形成完全不相交的训练集与测试集。
4.根据权利要求3所述的一种融合密度聚类与ERNIE的医疗文本关系抽取方法,其特征在于,所述数据集在完全随机采样前,已对其实体进行过聚类处理。
5.根据权利要求1所述的一种融合密度聚类与ERNIE的医疗文本关系抽取方法,其特征在于,所述ERNIE医疗文本关系抽取模型损失函数Loss为:
Figure FDA0003989910550000021
式中:pi为关系抽取模型输出层经过softmax输出的关系类别预测向量,y为关系类别标签的one-hot表示,N为关系类别数量。
6.根据权利要求1所述的一种融合密度聚类与ERNIE的医疗文本关系抽取方法,其特征在于,所述融合密度聚类的ERNIE医疗文本关系抽取模型包括聚类层、词嵌入层、自注意力层。
CN202211576536.9A 2022-12-09 2022-12-09 一种融合密度聚类与ernie的医疗文本关系抽取方法 Pending CN115952284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211576536.9A CN115952284A (zh) 2022-12-09 2022-12-09 一种融合密度聚类与ernie的医疗文本关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211576536.9A CN115952284A (zh) 2022-12-09 2022-12-09 一种融合密度聚类与ernie的医疗文本关系抽取方法

Publications (1)

Publication Number Publication Date
CN115952284A true CN115952284A (zh) 2023-04-11

Family

ID=87288617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211576536.9A Pending CN115952284A (zh) 2022-12-09 2022-12-09 一种融合密度聚类与ernie的医疗文本关系抽取方法

Country Status (1)

Country Link
CN (1) CN115952284A (zh)

Similar Documents

Publication Publication Date Title
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN112632997A (zh) 基于BERT和Word2Vec向量融合的中文实体识别方法
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN109543036A (zh) 基于语义相似度的文本聚类方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN114239584A (zh) 一种基于自监督学习的命名实体识别方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置
CN113160917A (zh) 一种电子病历实体关系抽取方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN115952284A (zh) 一种融合密度聚类与ernie的医疗文本关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination