CN111666350B - 一种基于bert模型的医疗文本关系抽取的方法 - Google Patents

一种基于bert模型的医疗文本关系抽取的方法 Download PDF

Info

Publication number
CN111666350B
CN111666350B CN202010465809.7A CN202010465809A CN111666350B CN 111666350 B CN111666350 B CN 111666350B CN 202010465809 A CN202010465809 A CN 202010465809A CN 111666350 B CN111666350 B CN 111666350B
Authority
CN
China
Prior art keywords
entities
medical
extraction
medical text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010465809.7A
Other languages
English (en)
Other versions
CN111666350A (zh
Inventor
宣琦
王冠华
俞山青
俞立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010465809.7A priority Critical patent/CN111666350B/zh
Publication of CN111666350A publication Critical patent/CN111666350A/zh
Application granted granted Critical
Publication of CN111666350B publication Critical patent/CN111666350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于BERT模型的医疗文本关系抽取的方法,包括以下步骤:步骤1:收集医疗文本,构建文本数据集;步骤2:对数据集进行预处理;步骤3:构建医疗文本关系抽取模型;步骤4:将抽取结果进行结构化存储。本发明提出一种基于BERT的医疗文本关系抽取的方法,采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对医疗文本,从医疗文本中提取出高层抽象属性。

Description

一种基于BERT模型的医疗文本关系抽取的方法
技术领域
本发明涉及数据挖掘、网络科学、深度神经网络,特别是涉及一种基于BERT模型的医疗文本关系抽取的方法。
背景技术
近年来,我国信息化建设越来越完善,医疗体系也逐渐进入信息化的时代。临床电子病历数据在不断的积累,并且这些临床病历数据已经成为医学研究领域的宝贵财富和重要的信息来源。目前,病历仍然以文本的数据形式存在。在医学临床诊疗过程中,病历的信息以文本或半结构化数据为主要记录形式。然而,病历文本是重要的医学诊疗知识来源,需要进行系统的数据处理和挖掘分析,形成具有理论和临床价值的诊疗知识,其中结构化信息的提取是实现数据挖掘分析的第一个关键环节,包括命名实体识别(Named EntityRecognition,NER)和关系抽取(Relationship extraction,RE)等基本步骤。
关系抽取通常是指在已知文本中实体对的情况下,抽取实体间的命名关系,并将抽取出来的实体对和关系进行规范化表示,其一般的形式化描述为三元组的形式<E1,Rel,E2>,E1与E2代表实体,Rel代表实体间的关系.通过提取实体间关系,获取更多实体间的语义联系,可以帮助计算机更好的处理大规模网络文本数据,以及理解非结构化文本的语义信息,在自然语言处理领域具有广阔的应用前景。围绕着实体间关系的发现和抽取,不少学者都展开了深入的研究。
目前关系抽取研究进展迅速,人们研究得出了大量不同的模型和方法.这些关系抽取方法大体上可以分为基于模式匹配的方法,基于机器学习的方法,和基于混合模型的方法。基于模式匹配的方法由专家预先依据限定领域实体关系的语法或语义信息人工制定出一套规则模板,并把测试文本中与模板语义相匹配的关系实例抽取出来。基于机器学习的方法利用各种统计学习的算法如支持向量机算法(support vector machine,SVM)和条件随机场(conditional random fields,CRF)等,将关系抽取看作一个分类问题,从关系训练样例中抽取出特征进行学习,自动从测试语料中抽取关系。但是基于模式匹配效率低下,利用SVM的方法不适合处理大规模的关系抽取任务,利用CRF的方法难点在于如何获取高置信度的模式错误的模板会影响实体关系抽取的准确度。目前医疗领域关系抽取准确率仍然有较大的提高空间,因此多类型医学文本进行关系抽取的研究受到了越来越多的关注。
综上,传统的关系抽取算法中存在的很多亟待解决的问题,包括大规模关系抽取任务的限制以及获取更好的抽取效果,尚无有效的解决办法。
发明内容
为了克服现有技术的不足,本发明提出一种基于BERT模型的医疗文本关系抽取方法,采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对医疗文本,从医疗文本中提取出高层抽象属性。
本发明解决其技术问题所采用的技术方案如下:
一种基于BERT模型的医疗文本关系抽取的方法,包括以下步骤:
步骤1:收集医疗文本,构建文本数据集;
步骤2:对数据集进行预处理;
步骤3:构建医疗文本关系抽取模型;
步骤4:将抽取结果进行结构化存储。
进一步,所述步骤1中,收集医疗文本,所述行为数据每一条须包括两个实体,实体之间须有相应的关系,即构成三元组,每条数据至少要包含1个三元组。
再进一步,所述步骤2中,根据步骤1中的收集的医疗文本数据集,进行实体抽取,抽取出实体后将其按照实体之间的关系进行整合,按照句号进行分句操作,送入医疗文本关系抽取模型中。
所述步骤3中,构建医疗文本关系抽取模型包括以下过程:
3.1)对训练集中每句话按照字进行划分,假设句子为x,则划分后得到序列表示x=[x0...xn],其中令x0=[CLS],xn=[SEP],x0,xn为字向量表征,在下文用token表示,a1=(i,j),a2=(k,l)为两个实体的token范围,其中0<i<j-1,j<k,k≤l-1,l≤n,两个实体之间的关系用三元组r=(x,a1,a2)表示,[xi...xj-1]为第一个实体,[xk...xl-1]为第二个实体;
3.2)将两个实体前后添加标识符,则x的序列表示如下所示:
x=[x0...[E1start]xi...xj-1[E1end]...[E2start]xk...xl-1[E2end]] (1)
其中[E1start]、[E2start]分别为两个实体的开始标识符,[E1end]、[E2end]为结束标识符;
3.3)将上一步的tokens送入BERT模型,分别输出句子中各个汉字的字向量,其中xi所对应的生成向量为Vi,xj-1所对应的生成向量为Vj-1,则第一个实体所对应的向量为Vi到Vj-1,相应的,第二个实体所对应的向量为Vk到Vl-1。将BERT的[CLS]表征(V0)及两个实体(V1、V2)所对应的输出向量分别设为V′0,V′1,V′2,则V′0,V′1,V′2所对应的生成公式如下所示:
V′0=W0[tanhV0]+b0 (2)
Figure BDA0002512633750000031
Figure BDA0002512633750000032
其中W0、W1、W2为权重系数,拥有着相同的维度,b0、b1、b2为偏置项,也拥有着相同的维度;
3.4)将所求V′0、V′1、V′2进行拼接并送入全连接层中,最后进行分类,输出最终结果,全连接层及分类公式如下:
c=W3[concat(V′0,V′1,V′2)]+b3 (5)
q=softmax(c) (6)
其中W3为权重系数,与W0、W1、W2拥有着相同的维度;b3为偏置项,与b0、b1、b2拥有着相同的维度;concat表示拼接操作,softmax为softmax函数。
所述步骤4中,将抽取结果进行结构化存储包括以下过程:
4.1)训练好模型后将经过预处理的医疗文本(处理方法与步骤2相同)送入模型中;
4.2)将模型输出结果按照对应关系送入MySQL数据库中,进行结构化存储。
本发明的有益效果为:采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对医疗文本,从医疗文本中提取出高层抽象属性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的对数据集进行预处理的流程图;
图2为本发明实施例提供的构建医疗文本关系抽取模型的流程图;
图3为本发明实施例提供的一种基于BERT模型的医疗文本关系抽取方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于BERT模型的医疗文本关系抽取的方法进行详细介绍。
参照图1~图3,一种基于BERT模型的医疗文本关系抽取的方法,包括以下步骤:
步骤1:收集医疗文本,构建文本数据集;
步骤2:对数据集进行预处理;
步骤3:构建医疗文本关系抽取模型;
步骤4:将抽取结果进行结构化存储。
进一步,所述步骤1中,收集医疗文本,所述行为数据每一条须包括两个实体,实体之间须有相应的关系,即构成三元组,每条数据至少要包含1个三元组。
再进一步,所述步骤2中,根据步骤1中的收集的医疗文本数据集,进行实体抽取,抽取出实体后将其按照实体之间的关系进行整合,按照句号进行分句操作,送入医疗文本关系抽取模型中。
所述步骤3中,构建医疗文本关系抽取模型包括以下过程:
3.1)对训练集中每句话按照字进行划分,假设句子为x,则划分后得到序列表示x=[x0...xn],其中令x0=[CLS],xn=[SEP],x0,xn为字向量表征,在下文用token表示,a1=(i,j),a2=(k,l)为两个实体的token范围,其中0<i<j-1,j<k,k≤l-1,l≤n,两个实体之间的关系用三元组r=(x,a1,a2)表示,[xi...xj-1]为第一个实体,[xk...xl-1]为第二个实体;
3.2)将两个实体前后添加标识符,则x的序列表示如下所示:
x=[x0...[E1start]xi...xj-1[E1end]...[E2start]xk...xl-1[E2end]] (1)
其中[E1start]、[E2start]分别为两个实体的开始标识符,[E1end]、[E2end]为结束标识符;
3.3)将上一步的tokens送入BERT模型,分别输出句子中各个汉字的字向量,其中xi所对应的生成向量为Vi,xj-1所对应的生成向量为Vj-1,则第一个实体所对应的向量为Vi到Vj-1,相应的,第二个实体所对应的向量为Vk到Vl-1,将BERT的[CLS]表征(V0)及两个实体(V1、V2)所对应的输出向量分别设为V′0,V′1,V′2,则V′0,V′1,V′2所对应的生成公式如下所示:
V′0=W0[tanhV0]+b0 (2)
Figure BDA0002512633750000051
Figure BDA0002512633750000052
其中W0、W1、W2为权重系数,拥有着相同的维度,b0、b1、b2为偏置项,也拥有着相同的维度;
3.4)将所求V′0、V′1、V′2进行拼接并送入全连接层中,最后进行分类,输出最终结果,全连接层及分类公式如下:
c=W3[concat(V′0,V′1,V′2)]+b3 (5)
q=softmax(c) (6)
其中W3为权重系数,与W0、W1、W2拥有着相同的维度;b3为偏置项,与b0、b1、b2拥有着相同的维度;concat表示拼接操作,softmax为softmax函数。
所述步骤4中,将抽取结果进行结构化存储包括以下过程:
4.1)训练好模型后将经过预处理的医疗文本(处理方法与步骤2相同)送入模型中;
4.2)将模型输出结果按照对应关系送入MySQL数据库中,进行结构化存储。
本发明实施例所提供的一种基于BERT模型的医疗文本关系抽取的方法,
所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (3)

1.一种基于BERT的医疗文本关系抽取的方法,其特征在于,所述方法包括以下步骤:
步骤1:收集医疗文本,构建文本数据集;
步骤2:对数据集进行预处理;
步骤3:构建医疗文本关系抽取模型;
步骤4:将抽取结果进行结构化存储;
所述步骤2中,根据步骤1中的收集的医疗文本数据集,进行实体抽取,抽取出实体后将其按照实体之间的关系进行整合,按照句号进行分句操作,送入医疗文本关系抽取模型中;
所述步骤3中,构建医疗文本关系抽取模型包括以下过程:
3.1)对训练集中每句话按照字进行划分,假设句子为x,则划分后得到序列表示x=[x0...xn],其中令x0=[CLS],xn=[SEP],x0,xn为字向量表征,用token表示;a1=(i,j),a2=(k,l)为两个实体的token范围,其中0<i<j-1,j<k,k≤l-1,l≤n,两个实体之间的关系用三元组r=(x,a1,a2)表示,[xi...xj-1]为第一个实体,[xk...xl-1]为第二个实体;
3.2)将两个实体前后添加标识符,则x的序列表示如下所示:
x=[x0...[E1start]xi...xj-1[E1end]...[E2start]xk...xl-1[E2end]] (1)
其中[E1start]、[E2start]分别为两个实体的开始标识符,[E1end]、[E2end]为结束标识符;
3.3)将上一步的tokens送入BERT模型,分别输出句子中各个汉字的字向量,其中xi所对应的生成向量为Vi,xj-1所对应的生成向量为Vj-1,则第一个实体所对应的向量为Vi到Vj-1;相应的,第二个实体所对应的向量为Vk到Vl-1,将BERT的[CLS]表征(V0)及两个实体(V1、V2)所对应的输出向量分别设为V′0,V′1,V′2,则V′0,V′1,V′2所对应的生成公式如下所示:
V′0=W0[tanh V0]+b0 (2)
Figure FDA0003784720540000011
Figure FDA0003784720540000012
其中W0、W1、W2为权重系数,拥有着相同的维度,b0、b1、b2为偏置项,也拥有着相同的维度;
3.4)将所求V′0、V′1、V′2进行拼接并送入全连接层中,最后进行分类,输出最终结果,全连接层及分类公式如下:
c=W3[concat(V′0,V′1,V2′)]+b3 (5)
q=softmax(c) (6)
其中W3为权重系数,与W0、W1、W2拥有着相同的维度;b3为偏置项,与b0、b1、b2拥有着相同的维度;concat表示拼接操作,softmax为softmax函数。
2.如权利要求1所述的一种基于BERT的医疗文本关系抽取的方法,其特征在于:所述步骤1中,收集医疗文本数据,所述文本数据每一条须包括两个实体,实体之间须有相应的关系,即构成三元组,每条数据至少要包含1个三元组。
3.如权利要求1所述的一种基于BERT的医疗文本关系抽取的方法,其特征在于:所述步骤4中,将抽取结果进行结构化存储包括以下过程:
4.1)训练好模型后将经过预处理的医疗文本送入模型中;
4.2)将模型输出结果按照对应关系送入MySQL数据库中,进行结构化存储。
CN202010465809.7A 2020-05-28 2020-05-28 一种基于bert模型的医疗文本关系抽取的方法 Active CN111666350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010465809.7A CN111666350B (zh) 2020-05-28 2020-05-28 一种基于bert模型的医疗文本关系抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010465809.7A CN111666350B (zh) 2020-05-28 2020-05-28 一种基于bert模型的医疗文本关系抽取的方法

Publications (2)

Publication Number Publication Date
CN111666350A CN111666350A (zh) 2020-09-15
CN111666350B true CN111666350B (zh) 2022-10-28

Family

ID=72384883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010465809.7A Active CN111666350B (zh) 2020-05-28 2020-05-28 一种基于bert模型的医疗文本关系抽取的方法

Country Status (1)

Country Link
CN (1) CN111666350B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183058B (zh) * 2020-09-22 2021-06-22 甘肃农业大学 基于bert句子向量输入的诗词生成方法及装置
CN112489751A (zh) * 2020-11-27 2021-03-12 大连东软教育科技集团有限公司 一种混合增强的体检报告自动生成方法、装置及存储介质
CN112347771A (zh) * 2020-12-03 2021-02-09 云知声智能科技股份有限公司 一种实体关系的抽取方法和设备
CN114647734A (zh) * 2020-12-18 2022-06-21 同方威视科技江苏有限公司 舆情文本的事件图谱生成方法、装置、电子设备和介质
CN112599211B (zh) * 2020-12-25 2023-03-21 中电云脑(天津)科技有限公司 一种医疗实体关系抽取方法及装置
CN114360729A (zh) * 2021-11-25 2022-04-15 达而观数据(成都)有限公司 一种基于深度神经网络的医疗文本信息自动化抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134772B (zh) * 2019-04-18 2023-05-12 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN111079431A (zh) * 2019-10-31 2020-04-28 北京航天云路有限公司 一种基于迁移学习的实体关系联合抽取方法
CN111177366B (zh) * 2019-12-30 2023-06-27 北京航空航天大学 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统

Also Published As

Publication number Publication date
CN111666350A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111666350B (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN110727839B (zh) 自然语言查询的语义解析
CN109815336B (zh) 一种文本聚合方法及系统
KR102310487B1 (ko) 속성 단위 리뷰 분석 장치 및 방법
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN111723571A (zh) 一种文本信息审核方法及系统
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN113723542A (zh) 一种日志聚类处理方法及系统
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
CN115762706A (zh) 一种基于深度学习的药物表征方法及存储介质
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
CN113076468B (zh) 一种基于领域预训练的嵌套事件抽取方法
Le-Minh et al. Aspect-based sentiment analysis using mini-window locating attention for vietnamese e-commerce reviews
CN113836292B (zh) 生物医学文献摘要的结构化方法、系统、设备及介质
CN117786427B (zh) 一种车型主数据匹配方法及系统
CN114625880B (zh) 人物关系抽取方法、装置、终端及存储介质
CN117725555B (zh) 多源知识树的关联融合方法、装置、电子设备及存储介质
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN116383677B (zh) 一种知识图谱实体相似度计算方法及系统
CN117829109A (zh) 一种威胁情报属性补全方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant