CN114861663A - 一种实体关系联合抽取方法 - Google Patents

一种实体关系联合抽取方法 Download PDF

Info

Publication number
CN114861663A
CN114861663A CN202210388465.3A CN202210388465A CN114861663A CN 114861663 A CN114861663 A CN 114861663A CN 202210388465 A CN202210388465 A CN 202210388465A CN 114861663 A CN114861663 A CN 114861663A
Authority
CN
China
Prior art keywords
entity
token
text
sequence
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210388465.3A
Other languages
English (en)
Inventor
涂俊雄
高阳
方建文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Original Assignee
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd, Nanjing University filed Critical Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Priority to CN202210388465.3A priority Critical patent/CN114861663A/zh
Publication of CN114861663A publication Critical patent/CN114861663A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种实体关系联合抽取方法,属于人工智能和医疗电子信息技术的交叉技术领域。通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告。该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中不能同时进行实体命名识别以及关系抽取的痛点问题,帮助进行高级医疗决策支持。

Description

一种实体关系联合抽取方法
技术领域
本发明涉及人工智能和医疗电子信息技术的交叉技术领域,特别涉及一种实体关系联合抽取方法。
背景技术
随着医疗健康服务不断朝着智能化方向发展,机器学习在医疗领域的应用开始成为人工智能时代的研究热点之一。非结构化医疗文档是放射科医生对影像表现的描述与总结,蕴含大量对病灶的描述。从非结构化医疗文本中提取这些重要信息,能够更好地服务于临床决策、数据挖掘等各类临床信息系统,从而减轻专业医师的工作量。
目前计算机难以从这些不规则的非结构化医疗文本数据中直接提取有价值的信息,从而无法利用ElasticSearch等搜索引擎进一步对数据进行挖掘分析。因此,如何从医学影像报告中自动、高效地提取所需信息,形成结构化的数据,并建立文本描述和影像病灶的关联,是目前智能医疗服务进程中的重要挑战之一。
发明内容
发明目的:提出一种实体关系联合抽取方法,以解决现有技术存在的上述问题。通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告。不仅提高了医务人员解读非结构化文本病历、报告的效率,还通过解决信息抽取过程中不能和关系进行联合抽取的痛点问题,帮助进行高级医疗决策支持。
技术方案:第一方面,提出了一种实体关系联合抽取方法,该方法具体包括以下步骤:
S1、确定需要进行关系分类与命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本对命名实体与关系联合抽取框架模型进行训练,从而得到优化;
S3、将测试集文本作为命名实体与关系联合抽取框架模型的输入,送入训练优化后的命名实体与关系联合抽取框架模型中进行计算得出测试集文本的实体识别以及关系分类结果。
其中,步骤S2.1还包括:
S2.1、通过训练集寻找潜在的实体集合
Figure 100002_DEST_PATH_IMAGE002
S2.2、确定实体集合
Figure 592587DEST_PATH_IMAGE002
中各个实体的类型;
S2.3、确定实体对集合
Figure 100002_DEST_PATH_IMAGE004
以及其代表的关系类型;
S2.4、对命名实体与关系联合抽取框架模型进行优化。
在第一方面的一些可实现方式中,步骤S2.1具体包括以下步骤:
S2.1.1、将训练集文本作为输入,输入到命名实体与关系联合抽取框架模型中;过预训练模型BERT对原始输入序列
Figure 100002_DEST_PATH_IMAGE006
进行计算,获得文本中的隐特征向量序列
Figure 100002_DEST_PATH_IMAGE008
,以及句特征向量cls;并通过两个不同的Sigmoid分类器对每个token进行二分类,得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE012
,其中分类器计算结果大于0.5的被分为1,小于等于0.5的被分类为0;相关表达式为:
Figure 100002_DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE020
式中,
Figure 100002_DEST_PATH_IMAGE022
Figure 100002_DEST_PATH_IMAGE024
一一对应,
Figure 100002_DEST_PATH_IMAGE026
表示
Figure 100002_DEST_PATH_IMAGE028
的嵌入向量,表示
Figure 100002_DEST_PATH_IMAGE030
的嵌入向量,
Figure 100002_DEST_PATH_IMAGE032
表示为
Figure 100002_DEST_PATH_IMAGE034
的嵌入向量;
Figure 100002_DEST_PATH_IMAGE036
表示文本中所有位置对应的隐特征向量,其中任意一个位置的隐特征向量为
Figure 100002_DEST_PATH_IMAGE038
;条件概率表达式中分母部分的e是指自然常数;
Figure 100002_DEST_PATH_IMAGE040
表示头token分类的线性变换矩阵;
Figure 100002_DEST_PATH_IMAGE042
表示尾token分类的线性变换矩阵;
步骤S2.1.2、根据边界预测模块输出的表示每个token是头token的二分类结果以及表示一个尾token的二分类结果,进一步确定潜在的实体集合
Figure 325706DEST_PATH_IMAGE002
。通过将所有头token分类为1的token以及所有尾token分类为1的token两两组合,将所有组合中尾token位置小于头token位置的组合筛除,并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合,得到最终的
Figure 698919DEST_PATH_IMAGE002
在第一方面的一些可实现方式中,步骤S2.2的具体内容为:
S2.2.1、对于实体集合
Figure 562969DEST_PATH_IMAGE002
中的每个实体
Figure 100002_DEST_PATH_IMAGE044
,从上下文特征序列
Figure 100002_DEST_PATH_IMAGE046
中提取出其Span中所有token对应的特征序列
Figure 100002_DEST_PATH_IMAGE048
,对实体特征序列进行MaxPooling操作,然后通过与句特征向量cls进行Concat操作,得到实体分类器输入的特征向量
Figure 100002_DEST_PATH_IMAGE050
,最后通过Softmax分类器计算得到每个Span所代表的实体属于第k类实体标签的条件概率
Figure 100002_DEST_PATH_IMAGE052
Figure 100002_DEST_PATH_IMAGE054
Figure 100002_DEST_PATH_IMAGE056
式中
Figure 100002_DEST_PATH_IMAGE058
表示实体
Figure 285331DEST_PATH_IMAGE044
所代表span中每个token的隐特征向量;
Figure 100002_DEST_PATH_IMAGE060
表示第k类实体类别的线性变换向量。
S2.2.2、根据条件概念
Figure 373373DEST_PATH_IMAGE052
,将条件概率结果最大的类别作为该实体的最终类别。
在第一方面的一些可实现方式中,S2.3的具体内容为:
S2.3.1、将实体集合
Figure 233882DEST_PATH_IMAGE002
中的实体两两配对,每对实体中头token位置更小的实体被称为左实体,头token位置更大的实体被称为右实体,如果左实体与右实体存在重叠部分,则将该实体对丢弃,剩下的实体对构成实体配对集合
Figure 901623DEST_PATH_IMAGE004
S2.3.2、每个实体配对集合
Figure 163977DEST_PATH_IMAGE004
中的实体配对
Figure 100002_DEST_PATH_IMAGE062
两个实体之间的token序列构成了该实体对的上下文序列
Figure 100002_DEST_PATH_IMAGE064
,其对应的隐特征序列为
Figure 688500DEST_PATH_IMAGE048
,对以上隐特征序列进行MaxPooling操作,得到了该实体对的上下文特征
Figure 100002_DEST_PATH_IMAGE066
;表达式为:
Figure 100002_DEST_PATH_IMAGE068
式中,
Figure 100002_DEST_PATH_IMAGE070
表示在原始文本序列中位于实体对
Figure 441166DEST_PATH_IMAGE062
的左实体与右实体中间的token序列;
Figure 974915DEST_PATH_IMAGE058
中每个特征向量与
Figure 967142DEST_PATH_IMAGE070
中的每个token一一对应。
S2.3.3、以实体配对集合
Figure 990462DEST_PATH_IMAGE004
中的每个实体对的左实体特征向量
Figure 100002_DEST_PATH_IMAGE072
以及右实体特征向量
Figure 100002_DEST_PATH_IMAGE074
,以及其对应的上下文特征
Figure 763246DEST_PATH_IMAGE066
作为输入送入到实体关系识别框架模型的关系预测模块中,通过Concat操作将
Figure 631845DEST_PATH_IMAGE072
Figure 744157DEST_PATH_IMAGE074
Figure 672799DEST_PATH_IMAGE066
三者进行连接,然后将Concat后的结果输入到Softmax关系分类器当中,得到该特征向量对应不同关系类型的条件概率
Figure 100002_DEST_PATH_IMAGE076
,表达式为:
Figure 100002_DEST_PATH_IMAGE078
式中,
Figure 998125DEST_PATH_IMAGE072
表示实体对
Figure 670415DEST_PATH_IMAGE062
中左实体在步骤S2.4中得到的特征向量;
Figure 637234DEST_PATH_IMAGE074
表示实体对
Figure 2356DEST_PATH_IMAGE062
中右实体在步骤S2.4中得到的特征向量。
S2.3.4、根据确定的真实实体标注序列以及关系分类、推理得到的实体分类结果以及推理得到的关系分类结果计算模型推理的损失
Figure 100002_DEST_PATH_IMAGE080
;其表达式为:
Figure 100002_DEST_PATH_IMAGE082
Figure 100002_DEST_PATH_IMAGE084
Figure 100002_DEST_PATH_IMAGE086
Figure 100002_DEST_PATH_IMAGE088
Figure 100002_DEST_PATH_IMAGE090
式中,
Figure 100002_DEST_PATH_IMAGE092
Figure 100002_DEST_PATH_IMAGE094
代表二元交叉熵损失;
Figure 100002_DEST_PATH_IMAGE096
Figure 100002_DEST_PATH_IMAGE098
代表实体分类与关系分类过程中产生的交叉熵损失;N代表文本序列S的长度,k代表实体种类数量,r代表关系种类数量;
Figure 100002_DEST_PATH_IMAGE100
代表真实的第i类标签类别在所有类别中的占比;
Figure 100002_DEST_PATH_IMAGE102
代表推理得到的第i类别标签在所有标签的占比;
S2.3.5、基于模型的损失
Figure 657722DEST_PATH_IMAGE080
,通过反向传播更新模型参数;
S2.3.6、重复步骤现有步骤,对模型进行多轮训练并保留多轮训练后的最优模型并保存。
在第一方面的一些可实现方式中,训练集文本与测试集文本的数量比例为:4:1。
有益效果:本发明提出了一种实体关系联合抽取方法,通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告,提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中不能和关系进行联合抽取的痛点问题,帮助进行高级医疗决策支持。
同时,本申请方案可以计算文本中各单词的的标识信息,以此寻找到文本内容中的潜在实体,还可以通过一系列的公式计算求得各实体的所述实体类型,因此本申请可以提供更加准确、丰富的实体识别信息。
另一方面,本申请方案可以通过计算边界预测模块的损失
Figure 9069DEST_PATH_IMAGE092
以及
Figure 955028DEST_PATH_IMAGE094
和实体分类模块的损失
Figure 366418DEST_PATH_IMAGE096
,还有关系分类模块的损失
Figure 397828DEST_PATH_IMAGE098
,最后求和作为整个命名实体与关系联合抽取框架模型的损失,以此进行优化,进而使对实体的识别更加准确。
附图说明
图1为本发明对文本实体进行识别的整体流程示意图。
图2为本发明命名实体与关系联合抽取框架模型进行实体识别的流程示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
在一个实施例中,提出一种实体关系联合抽取方法,该方法具体包括以下步骤:
步骤1、确定进行命名实体识别和关系分类任务的非结构化医疗文本,并按4:1的比例进行分割,构建训练集文本和测试集文本;
步骤2、构建命名实体与关系联合抽取框架模型;
步骤3、采用参数优化的方式,对框架模型进行训练;
步骤4、采用训练好的框架模型进行实体关系联合抽取分析,获取测试集文本的实体识别以及关系分类结果。
其中,步骤4的分析过程具体包括:
步骤4.1、加载训练阶段记录的命名实体与关系联合抽取框架模型;
步骤4.2、命名实体与关系联合抽取框架模型接收测试集文本;
步骤4.3、分析测试集文本,并将测试集中分类概率超过阈值的实体作为分析结果进行输出。
在进一步的实施例中,步骤2中构建命名实体与关系联合抽取框架模型的具体步骤如下:
步骤2.1、构建内容输入模块;
具体的,该模块用于确定命名实体类型,对非结构化医疗文本进行0-1形式的头token以及尾token的序列标注,并确定输入文本最大长度等其他特殊约束;其次,针对中文词表中所有的字,基于在大规模数据集上进行预训练的BERT模型进行字向量采集,采集的字向量以文件形式进行存储;同时用于对标注文本内容进行字向量映射,并将其作为本模块内容进行输出。
步骤2.2、构建边界预测模块;
具体的,该模块首先初始化一个BERT模型作为特征提取网络,随后初始化两个Sigmoid及其线性变换矩阵,用于接收本模块BERT模型的输出,并输出句子中每个Token的序列标注类型。
步骤2.3、构建实体分类模块;
具体的,该模块用于初始化一个Softmax及其线性变换矩阵用于接收目标实体的特征,并计算该目标实体属于当前实体类型的概率。
步骤2.4、构建关系分类模块;
具体的,该模块用于初始化一个Softmax及其线性变换矩阵用于接收目标实体对的特征,并计算该目标实体对属于当前关系类型的概率。
步骤2.5、整合构建好的功能模块,获取最终的命名实体与关系联合抽取框架模型;
具体的,针对内容输入模块与边界预测模块,两者通过内容输入模块输出的嵌入向量序列
Figure 287287DEST_PATH_IMAGE006
相连结;对于边界预测模块与实体分类模块,两者通过边界预测模块的输出的潜在实体集合
Figure 556594DEST_PATH_IMAGE002
相连结,即作为边界预测模块输出的每个实体及其Span对应的隐特征向量序列
Figure 935623DEST_PATH_IMAGE048
,作为实体分类模块的输入将两个模块进行组合;对于实体分类模块与关系分类模块,两者通过实体分类模块输出的潜在实体对集合
Figure 657591DEST_PATH_IMAGE004
相连结,
Figure 475374DEST_PATH_IMAGE004
中每个实体对对应的三个隐向量
Figure 5713DEST_PATH_IMAGE072
Figure 883539DEST_PATH_IMAGE074
Figure 764907DEST_PATH_IMAGE066
作为关系分类模块输入的一部分,将两个模块进行组合。
在进一步的实施例中,为了提高模型的分析性能,步骤3中采用优化模型参数的方式对其进行性能训练,具体步骤如下:
步骤3.1、基于划分好的训练集文本,将其作为输入数据传输至命名实体与关系联合抽取框架模型中。
具体的,训练集文本包括:原始文本序列
Figure 100002_DEST_PATH_IMAGE104
、原始文本中的实体集合
Figure 100002_DEST_PATH_IMAGE106
和关系集合
Figure 100002_DEST_PATH_IMAGE108
;其中
Figure 920470DEST_PATH_IMAGE024
表示文本中的各个单词,也即文本中的各个token。
Figure 100002_DEST_PATH_IMAGE110
表示各个实体,以及对应实体所在的位置信息,即
Figure 100002_DEST_PATH_IMAGE112
中的任意一个实体
Figure 100002_DEST_PATH_IMAGE114
,其包含有一个二元组
Figure 100002_DEST_PATH_IMAGE116
Figure 100002_DEST_PATH_IMAGE118
表示第i个实体
Figure 100002_DEST_PATH_IMAGE120
的开始位置,
Figure 100002_DEST_PATH_IMAGE122
表示第i个实体
Figure 351320DEST_PATH_IMAGE120
的结束位置,该二元组被称为span,第i个实体对应的实体span即为
Figure 100002_DEST_PATH_IMAGE124
;表示文本中存在的关系,每个关系包含存在关联的两个实体及其关系类型。
步骤3.2、命名实体与关系联合抽取框架模型中的内容输入模块接收训练集文本,并将原始文本序列
Figure 100002_DEST_PATH_IMAGE126
映射为原始输入序列
Figure 100002_DEST_PATH_IMAGE128
,同时根据文本中的实体集合
Figure 931206DEST_PATH_IMAGE112
对文本中的实体进行两次0-1形式标注。其中,
Figure 415715DEST_PATH_IMAGE022
Figure 450667DEST_PATH_IMAGE024
一一对应,
Figure 345811DEST_PATH_IMAGE026
表示
Figure 175226DEST_PATH_IMAGE028
的嵌入向量,
Figure DEST_PATH_IMAGE130
表示
Figure 624662DEST_PATH_IMAGE030
的嵌入向量,
Figure 791201DEST_PATH_IMAGE032
表示为
Figure 275272DEST_PATH_IMAGE034
的嵌入向量。
具体的,第一次标注头实体位置,如果第i个位置的token是某个实体的第一个token,则将该位置标注为1,反之,将其标注为0,按照预设的标注需求对原始文本序列S进行标注,从而获得0-1标注序列
Figure DEST_PATH_IMAGE132
,使得每个实体中的每个单词均具有对应的标识。第二次标注尾实体位置,如果第i个位置的token是某个实体的结尾,则将该位置标注为1,反之,将其标注为0,按照预设的标注需求,对原始文本序列S进行标注,从而获得0-1的标注序列
Figure DEST_PATH_IMAGE134
,其表示为:
Figure DEST_PATH_IMAGE136
,使得每个实体中的每个单词均有对应的标识。表达式中,
Figure DEST_PATH_IMAGE138
表示每个实体中各个单词经过头token标注后的标签信息,取值为0或1;
Figure DEST_PATH_IMAGE140
表示每个实体中各个单词经过尾token标注后的标签信息,取值为0或1。
步骤3.3、命名实体与关系联合抽取框架模型中的边界预测模块接收原始输入序列
Figure 524857DEST_PATH_IMAGE006
,通过预训练模型BERT计算输出文本中隐特征向量序列
Figure 602534DEST_PATH_IMAGE008
以及句特征向量cls,完后通过两个不同的Sigmoid分类器对每个token进行二分类,得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率
Figure 575694DEST_PATH_IMAGE010
以及
Figure 179851DEST_PATH_IMAGE012
,其中分类器计算结果大于0.5的被分为1,小于等于0.5的被分类为0。对应数据获取的表达式为:
Figure DEST_PATH_IMAGE014A
Figure DEST_PATH_IMAGE142
Figure DEST_PATH_IMAGE018A
Figure DEST_PATH_IMAGE020A
式中,
Figure 131495DEST_PATH_IMAGE040
表示头token分类的线性变换矩阵;
Figure 821102DEST_PATH_IMAGE042
表示尾token分类的线性变换矩阵。
步骤3.4、根据边界预测模块输出的表示每个token是头token的二分类结果以及表示一个尾token的二分类结果,进一步确定潜在的实体集合
Figure 1548DEST_PATH_IMAGE002
具体的,将所有头token分类为1的token以及所有尾token分类为1的token两两组合,将所有组合中尾token位置小于头token位置的组合筛除,并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合,得到最终的
Figure 460211DEST_PATH_IMAGE002
步骤3.5、对于实体集合
Figure 67910DEST_PATH_IMAGE002
中的每个实体
Figure 247743DEST_PATH_IMAGE044
,从上下文特征序列
Figure 966300DEST_PATH_IMAGE046
中提取出其Span中所有token对应的特征序列
Figure 545049DEST_PATH_IMAGE048
,对实体特征序列进行MaxPooling操作,然后通过与句特征向量cls进行Concat操作,得到实体分类器输入的特征向量
Figure 323650DEST_PATH_IMAGE050
,最后通过Softmax分类器计算得到每个Span所代表的实体属于第k类实体标签的条件概率
Figure 987849DEST_PATH_IMAGE052
,表达式为:
Figure DEST_PATH_IMAGE054A
Figure DEST_PATH_IMAGE056A
式中
Figure 962627DEST_PATH_IMAGE058
表示实体
Figure 271249DEST_PATH_IMAGE044
所代表span中每个token的隐特征向量;
Figure 345384DEST_PATH_IMAGE060
表示第k类实体类别的线性变换向量;
步骤3.6、根据条件概念
Figure 106667DEST_PATH_IMAGE052
,将条件概率结果最大的类别作为该实体的最终类别。
步骤3.7、将实体集合
Figure 557240DEST_PATH_IMAGE002
中的实体两两配对,每对实体中头token位置更小的实体被称为左实体,头token位置更大的实体被称为右实体,如果左实体与右实体存在重叠部分,则将该实体对丢弃,剩下的实体对构成实体配对集合
Figure 720368DEST_PATH_IMAGE004
步骤3.8、每个实体配对集合
Figure 968334DEST_PATH_IMAGE004
中的实体配对
Figure 482492DEST_PATH_IMAGE062
两个实体之间的token序列构成了该实体对的上下文序列
Figure 471176DEST_PATH_IMAGE064
,其对应的隐特征序列为
Figure 488811DEST_PATH_IMAGE048
,对以上隐特征序列进行MaxPooling操作,得到了该实体对的上下文特征
Figure 170328DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE068A
式中,
Figure 561995DEST_PATH_IMAGE070
表示在原始文本序列中位于实体对
Figure 495316DEST_PATH_IMAGE062
的左实体与右实体中间的token序列;
Figure 695353DEST_PATH_IMAGE058
中每个特征向量与
Figure 547772DEST_PATH_IMAGE070
中的每个token一一对应。
步骤3.9、以实体配对集合
Figure 36522DEST_PATH_IMAGE004
中的每个实体对的左实体特征向量
Figure 570271DEST_PATH_IMAGE072
以及右实体特征向量
Figure 701780DEST_PATH_IMAGE074
,以及其对应的上下文特征
Figure 600466DEST_PATH_IMAGE066
作为输入送入到实体关系识别框架模型的关系预测模块中,通过Concat操作将
Figure 435567DEST_PATH_IMAGE072
Figure 445111DEST_PATH_IMAGE074
Figure 885320DEST_PATH_IMAGE066
三者进行连接,然后将Concat后的结果输入到Softmax关系分类器当中,得到该特征向量对应不同关系类型的条件概率
Figure 813962DEST_PATH_IMAGE076
步骤3.10、利用条件概率
Figure DEST_PATH_IMAGE144
取条件概率结果最大的关系类别作为该实体对中两个实体的最终关系类别。
步骤3.11、根据步骤3.1、步骤3.2中确定的真实实体标注序列以及关系分类、步骤3.5中推理得到的实体分类结果以及步骤3.10中推理得到的关系分类结果计算模型推理的损失
Figure 74042DEST_PATH_IMAGE080
具体的,
Figure 746331DEST_PATH_IMAGE092
Figure 306626DEST_PATH_IMAGE094
代表边界预测模块中的二元交叉熵损失,
Figure 547114DEST_PATH_IMAGE096
Figure 356807DEST_PATH_IMAGE098
代表实体分类与关系分类过程中产生的交叉熵损失,对应表达式为:
Figure DEST_PATH_IMAGE082A
Figure DEST_PATH_IMAGE145
Figure DEST_PATH_IMAGE146
Figure DEST_PATH_IMAGE147
Figure DEST_PATH_IMAGE148
式中,N代表文本序列S的长度,k代表实体种类数量,r代表关系种类数量;
Figure 960351DEST_PATH_IMAGE100
代表真实的第i类标签类别在所有类别中的占比;
Figure 906311DEST_PATH_IMAGE102
代表推理得到的第i类别标签在所有标签的占比;
步骤3.12、基于模型的损失
Figure 645597DEST_PATH_IMAGE080
,通过反向传播更新模型参数;
步骤3.13、重复上述步骤,对模型进行多轮训练并保留多轮训练后的最优模型并保存。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (7)

1.一种实体关系联合抽取方法,其特征在于,具体包括以下步骤:
S1、确定需要进行关系分类与命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本对命名实体与关系联合抽取框架模型进行训练,从而得到优化;
S3、将测试集文本作为命名实体与关系联合抽取框架模型的输入,送入训练优化后的命名实体与关系联合抽取框架模型中进行计算得出测试集文本的实体识别以及关系分类结果。
2.根据权利要求1所述的一种实体关系联合抽取方法,其特征在于,所述训练集文本与测试集文本的数量比例为:4:1。
3.根据权利要求1所述的一种实体关系联合抽取方法,其特征在于,所述步骤S1划分的训练集文本包括:原始文本序列
Figure DEST_PATH_IMAGE002
、原始文本中的实体集合
Figure DEST_PATH_IMAGE004
和关系集合
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE008
表示文本中的各个单词;
Figure DEST_PATH_IMAGE010
表示各个实体,以及对应实体所在的位置信息;
Figure DEST_PATH_IMAGE012
表示文本中存在的关系,每个关系包含存在关联的两个实体及其关系类型。
4.根据权利要求3所述的一种实体关系联合抽取方法,其特征在于,所述步骤S1划分训练集文本和测试集文本后,还包括以下步骤:
步骤S1.1、将训练集文本作为输入,输入到命名实体与关系联合抽取框架模型中;
步骤S1.2、命名实体与关系联合抽取框架模型接收到训练集文本后,基于原始文本中的实体集合,采用两次0-1形式标注,对文本中的实体集合进行标注。
5.根据权利要求4所述的一种实体关系联合抽取方法,其特征在于,两次0-1形式标注包括:第一次标注和第二次标注;
所述第一次标注用于标注头实体位置,当第i个位置的token是某个实体的第一个token,那么该位置被标注为1;反之,标注为0,从而获得0-1标注序列
Figure DEST_PATH_IMAGE014
所述第二次标注用于标注尾实体位置,当第i个位置的token是某个实体的结尾,则将该位置标注为1,反之,将其标注为0,从而获得0-1标注序列
Figure DEST_PATH_IMAGE016
表达式中,
Figure DEST_PATH_IMAGE018
表示每个实体中各个单词经过头token标注后的标签信息,取值为0或1;
Figure DEST_PATH_IMAGE020
表示每个实体中各个单词经过尾token标注后的标签信息,取值为0或1。
6.根据权利要求3所述的一种实体关系联合抽取方法,其特征在于,为提高命名实体与关系联合抽取框架模型的性能,步骤S2采用参数优化的方式,对框架模型进行训练;
进一步的,训练过程包括以下步骤:
步骤S2.1、命名实体与关系联合抽取框架模型接收训练集文本数据,并将原始文本序列
Figure DEST_PATH_IMAGE022
映射为原始输入序列
Figure DEST_PATH_IMAGE024
;式中,
Figure DEST_PATH_IMAGE026
Figure 984013DEST_PATH_IMAGE008
一一对应,
Figure DEST_PATH_IMAGE028
表示
Figure DEST_PATH_IMAGE030
的嵌入向量,
Figure DEST_PATH_IMAGE032
表示
Figure DEST_PATH_IMAGE034
的嵌入向量,
Figure DEST_PATH_IMAGE036
表示为
Figure DEST_PATH_IMAGE038
的嵌入向量;
步骤S2.2、通过预训练模型BERT对原始输入序列
Figure DEST_PATH_IMAGE040
进行计算,获得文本中的隐特征向量序列
Figure DEST_PATH_IMAGE042
,以及句特征向量cls;并通过两个不同的Sigmoid分类器对每个token进行二分类,得到序列中每个位置分别对应头token与尾token分类标注结果的条件概率
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE046
,其中分类器计算结果大于0.5的被分为1,小于等于0.5的被分类为0;相关表达式为:
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
式中,
Figure 655164DEST_PATH_IMAGE026
Figure 658893DEST_PATH_IMAGE008
一一对应,
Figure 303501DEST_PATH_IMAGE028
表示
Figure 291048DEST_PATH_IMAGE030
的嵌入向量,
Figure 580603DEST_PATH_IMAGE032
表示
Figure 501154DEST_PATH_IMAGE034
的嵌入向量,
Figure 113401DEST_PATH_IMAGE036
表示为
Figure 588245DEST_PATH_IMAGE038
的嵌入向量;
Figure DEST_PATH_IMAGE056
表示文本中所有位置对应的隐特征向量,其中任意一个位置的隐特征向量为
Figure DEST_PATH_IMAGE058
;条件概率表达式中分母部分的e是指自然常数;
Figure DEST_PATH_IMAGE060
表示头token分类的线性变换矩阵;
Figure DEST_PATH_IMAGE062
表示尾token分类的线性变换矩阵;
步骤S2.3、输出表示每个token是头token的二分类结果,以及表示一个尾token的二分类结果,并确定潜在的实体集合
Figure DEST_PATH_IMAGE064
步骤S2.4、对于实体集合
Figure 803194DEST_PATH_IMAGE064
中的每个实体
Figure DEST_PATH_IMAGE066
,从上下文特征序列
Figure DEST_PATH_IMAGE068
中提取出其Span中所有token对应的特征序列
Figure DEST_PATH_IMAGE070
,对实体特征序列进行MaxPooling操作,然后通过与句特征向量cls进行Concat操作,得到实体分类器输入的特征向量
Figure DEST_PATH_IMAGE072
,最后通过Softmax分类器计算得到每个Span所代表的实体属于第k类实体标签的条件概率
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
式中
Figure DEST_PATH_IMAGE080
表示实体
Figure 410543DEST_PATH_IMAGE066
所代表span中每个token的隐特征向量;
Figure DEST_PATH_IMAGE082
表示第k类实体类别的线性变换向量;
步骤S2.5、根据条件概念
Figure 396953DEST_PATH_IMAGE074
,将条件概率结果最大的类别作为该实体的最终类别;
步骤S2.6、将实体集合
Figure 359093DEST_PATH_IMAGE064
中的实体两两配对,每对实体中头token位置更小的实体被称为左实体,头token位置更大的实体被称为右实体,如果左实体与右实体存在重叠部分,则将该实体对丢弃,剩下的实体对构成实体配对集合
Figure DEST_PATH_IMAGE084
步骤S2.7、每个实体配对集合
Figure 580996DEST_PATH_IMAGE084
中的实体配对
Figure DEST_PATH_IMAGE086
两个实体之间的token序列构成了该实体对的上下文序列
Figure DEST_PATH_IMAGE088
,其对应的隐特征序列为
Figure 944981DEST_PATH_IMAGE070
,对以上隐特征序列进行MaxPooling操作,得到了该实体对的上下文特征
Figure DEST_PATH_IMAGE090
;表达式为:
Figure DEST_PATH_IMAGE092
式中,
Figure DEST_PATH_IMAGE094
表示在原始文本序列中位于实体对
Figure 811613DEST_PATH_IMAGE086
的左实体与右实体中间的token序列;
Figure 526628DEST_PATH_IMAGE080
中每个特征向量与
Figure 958747DEST_PATH_IMAGE094
中的每个token一一对应;
步骤S2.8、以实体配对集合
Figure 442818DEST_PATH_IMAGE084
中的每个实体对的左实体特征向量
Figure DEST_PATH_IMAGE096
以及右实体特征向量
Figure DEST_PATH_IMAGE098
,以及其对应的上下文特征
Figure 570698DEST_PATH_IMAGE090
作为输入送入到实体关系识别框架模型的关系预测模块中,通过Concat操作将
Figure 507430DEST_PATH_IMAGE096
Figure 743239DEST_PATH_IMAGE098
Figure 816238DEST_PATH_IMAGE090
三者进行连接,然后将Concat后的结果输入到Softmax关系分类器当中,得到该特征向量对应不同关系类型的条件概率
Figure DEST_PATH_IMAGE100
,表达式为:
Figure DEST_PATH_IMAGE102
式中,
Figure 33461DEST_PATH_IMAGE096
表示实体对
Figure 194840DEST_PATH_IMAGE086
中左实体在步骤S2.4中得到的特征向量;
Figure 703182DEST_PATH_IMAGE098
表示实体对
Figure 896265DEST_PATH_IMAGE086
中右实体在步骤S2.4中得到的特征向量;
步骤S2.9、利用条件概率
Figure DEST_PATH_IMAGE104
取条件概率结果最大的关系类别作为该实体对中两个实体的最终关系类别;
步骤S2.10、根据步骤S2.1、步骤S2.2中确定的真实实体标注序列以及关系分类、步骤S2.5中推理得到的实体分类结果以及步骤S2.9中推理得到的关系分类结果计算模型推理的损失
Figure DEST_PATH_IMAGE106
;其表达式为:
Figure DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE110
Figure DEST_PATH_IMAGE112
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE116
式中,
Figure DEST_PATH_IMAGE118
Figure DEST_PATH_IMAGE120
代表二元交叉熵损失;
Figure DEST_PATH_IMAGE122
Figure DEST_PATH_IMAGE124
代表实体分类与关系分类过程中产生的交叉熵损失;N代表文本序列S的长度,k代表实体种类数量,r代表关系种类数量;
Figure DEST_PATH_IMAGE126
代表真实的第i类标签类别在所有类别中的占比;
Figure DEST_PATH_IMAGE128
代表推理得到的第i类别标签在所有标签的占比;
步骤S2.11、基于模型的损失
Figure 317014DEST_PATH_IMAGE106
,通过反向传播更新模型参数;
步骤S2.12、重复步骤S2.1到步骤S2.11,对模型进行多轮训练并保留多轮训练后的最优模型并保存。
7.根据权利要求6所述的一种实体关系联合抽取方法,其特征在于,确定潜在的实体集合
Figure 103704DEST_PATH_IMAGE064
的步骤具体为:
将步骤S2.2中所有头token分类为1的token以及所有尾token分类为1的token两两组合,将所有组合中尾token位置小于头token位置的组合筛除,并将所有组合中两个token位置所包围的span所代表的实体加入同一个集合,得到最终的
Figure 681316DEST_PATH_IMAGE064
CN202210388465.3A 2022-04-13 2022-04-13 一种实体关系联合抽取方法 Pending CN114861663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210388465.3A CN114861663A (zh) 2022-04-13 2022-04-13 一种实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210388465.3A CN114861663A (zh) 2022-04-13 2022-04-13 一种实体关系联合抽取方法

Publications (1)

Publication Number Publication Date
CN114861663A true CN114861663A (zh) 2022-08-05

Family

ID=82631312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210388465.3A Pending CN114861663A (zh) 2022-04-13 2022-04-13 一种实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN114861663A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Similar Documents

Publication Publication Date Title
Zhang et al. The gap of semantic parsing: A survey on automatic math word problem solvers
CN108520780B (zh) 一种基于迁移学习的医学数据处理和系统
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Chen et al. Temporally grounding natural sentence in video
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN111259897A (zh) 知识感知的文本识别方法和系统
CN111243729B (zh) 一种肺部x线胸片检查报告自动生成方法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
Ha et al. Fine-grained interactive attention learning for semi-supervised white blood cell classification
Liu et al. Data-driven regular expressions evolution for medical text classification using genetic programming
CN112927783A (zh) 图像检索方法及装置
CN117789971B (zh) 基于文本情感分析的心理健康智能评测系统及方法
Zhao et al. Deeply supervised active learning for finger bones segmentation
CN109857892B (zh) 基于类标传递的半监督跨模态哈希检索方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN114861663A (zh) 一种实体关系联合抽取方法
CN112749277B (zh) 医学数据的处理方法、装置及存储介质
CN114153839A (zh) 多源异构数据的集成方法、装置、设备及存储介质
CN114417836A (zh) 一种基于深度学习的中文电子病历文本语义分割方法
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113095081A (zh) 疾病的识别方法及装置、存储介质、电子装置
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN112784601A (zh) 关键信息提取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination