CN110134772A - 基于预训练模型与微调技术的医疗文本关系抽取方法 - Google Patents

基于预训练模型与微调技术的医疗文本关系抽取方法 Download PDF

Info

Publication number
CN110134772A
CN110134772A CN201910311691.XA CN201910311691A CN110134772A CN 110134772 A CN110134772 A CN 110134772A CN 201910311691 A CN201910311691 A CN 201910311691A CN 110134772 A CN110134772 A CN 110134772A
Authority
CN
China
Prior art keywords
training
model
medical
word
relation extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910311691.XA
Other languages
English (en)
Other versions
CN110134772B (zh
Inventor
陈涛
吴明芬
杨开漠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyi University
Original Assignee
Wuyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyi University filed Critical Wuyi University
Priority to CN201910311691.XA priority Critical patent/CN110134772B/zh
Publication of CN110134772A publication Critical patent/CN110134772A/zh
Priority to PCT/CN2019/105507 priority patent/WO2020211275A1/zh
Application granted granted Critical
Publication of CN110134772B publication Critical patent/CN110134772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于预训练模型与微调技术的医疗文本关系抽取方法,包括医疗关系抽取语料的预处理、模型预训练、微调。本发明利用预训练模型作为一维卷积神经网络模型的输入,而现有技术利用词嵌入作为一维卷积神经网络模型的输入,预训练模型比词嵌入更有利于提高医疗文本关系抽取的性能;本发明将一维卷积神经网络模型与预训练模型结合使用,并使用一维卷积神经网络来微调预训练模型,有利于提高模型的性能;通过将一维卷积神经网络的训练误差反向传播到预训练模型来实现模型微调过程,其为动态的模型训练过程;而传统的方法将词嵌入与不同层的输入相结合,仍然从头开始训练主要任务模型,并将预先训练的嵌入视为固定参数,限制了其有用性。

Description

基于预训练模型与微调技术的医疗文本关系抽取方法
技术领域
本发明涉及自然语言数据分析、处理技术领域,尤其是一种医疗领域文本关系抽取方法,更具体涉及一种基于预训练模型与微调技术的医疗文本关系抽取方法。
背景技术
关于医疗的中文解释有两个:1.医治,2.疾病的治疗。中华医史几千年,而这个字眼是在近几十年才出现,是为了与国际接轨而新生的字眼。在此之前大多使用治疗,医疗也包含保健内容。
医疗数据具有巨大的价值,尤其是在医疗文本关系方面。医疗数据挖掘已经上升到国家战略,同时也是全球学术界与产业界竞争的研究热点。如何利用这些医疗数据,挖掘数据的深层价值,是未来信息科技发展的趋势,也是医疗数据分析技术产生的背景。
医疗文本中关系的抽取是指从医疗文本中抽取指定的一类事实信息,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。如一位生物医疗科学家要从海量的生物医疗文献中寻求关于某种疾病的新的治疗方案,借助于医疗文本中的药物和疾病关系的抽取是指从文本中抽取系统抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中发现有价值的治疗线索或方法。
对文本数据进行自动化关系抽取一直是人工智能、自然语言处理技术的一个重要研究及应用领域,是信息抽取的一个重要子任务。其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据。具体的说,关系抽取主要是通过自然语言处理技术和关系抽取技术,从文本数据中自动识别出相关的实体,然后对两个相关实体间的语义关系进行分类。随着信息技术的不断发展与信息系统应用范围的不断深化,对文本数据进行自动化关系抽取是提高企业生产效率和竞争优势的一种重要手段及措施。
文本关系抽取相关的传统分析方法多采用基于模板的文本关系抽取方法和基于传统机器学习的文本关系抽取方法。其中,基于模板的文本关系抽取方法主要包括基于触发词或字符串的文本关系抽取方法和基于依存句法的文本关系抽取方法。基于触发词或字符串的文本关系抽取方法,首先需要定义触发词或字符串关系规则,然后让计算机根据该规则对给定文本进行查找,并抽取出符合要求的关系。基于依存句法的文本关系抽取方法与基于触发词或字符串的文本关系抽取方法比较类似,但此类方法通常需要先解析规则,然后利用依存分词器分析句子结构,并在依存树上匹配规则,以查找符合要求的关系组。基于模板的文本关系抽取方法因为定义的规则的人一般都是研究该领域的专家,所以该方法具有比较高的准确率,而且可以根据不同领域定义不同的规则。但是由于这些规则都是领域专家构建的,所以需要较高的人工和时间成本,同时此类方法还存在可移植性较差和召回率低等问题。
针对基于模板的文本关系抽取方法所存在的问题,研究者开始尝试利用基于传统机器学习的方法来对文本进行文本关系抽取。此类方法首先预先定义好需要抽取的关系集合和命名实体集合。然后,人工标注命名实体和实体间关系,并将标注的数据分为训练集、开发集和测试集。最后,选择和训练分类器,并利用训练好的分类器对未知语料集进行关系抽取。
近年来,随着大数据和高性能计算的快速发展,深度学习技术在很多领域取得了优异的成绩,越来越多的研究者使用深度神经网络的方法进行文本关系抽取。典型的方法有基于循环神经网络(Recurrent Neural Network,RNN)及其变体的文本关系抽取方法和基于卷积神经网络(Convolutional Neural Networks,CNN)及其变体的方法。此类方法具有抽取效果好、不需要大量人工构建特征或规则、便于移植等优点。但此类方法一般需要较大的训练语料才能达到较高的性能。
因此,对于需要处理大量医疗文本数据的行业而言,随着各类医疗药物的发明以及应用,如何在浩如烟海的医疗文本资料中抽取出不同药物对某些疾病的医疗功效,发掘出药物和疾病间的关系,并为不同用户群体提供查询平台都是大数据处理行业面临的直接挑战。因此,寻找一种科学的医疗文本关系抽取方法,具有很强的现实意义。
发明内容
针对现有技术的不足,本发明提供一种基于预训练模型与微调技术的医疗文本关系抽取方法,本发明采用深度神经网络从标注有药物实体与疾病实体之间关系的中、英文医疗文献、病历等医疗文本语料中训练模型,并利用所训练的模型对未标注有上述实体关系的中、英文医疗文本进行关系抽取,抽取出相关药物与疾病之间的关系。
本发明的技术方案为:基于预训练模型与微调技术的医疗文本关系抽取方法,包括以下步骤:
S1)、对医疗关系抽取语料进行预处理;
S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型;
S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调,在微调过程中,训练出能够进行医疗关系抽取的深度神经网络模型;
S4)、对医疗文本关系抽取结果进行后处理;
S5)、将训练成功的模型用于医疗关系抽取任务。
上述方法中,步骤S1)中,对医疗关系抽取语料进行预处理为对输入的医疗文本进行分词、抽取词干处理,并采用人工标注医疗文本中的药物实体和疾病实体;
具有包括以下步骤:
S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注,其中,B表示药物目标或疾病目标开始词;I表示药物目标或疾病目标中间词或结尾词;O表示非药物目标或疾病目标词;
S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练,通过调节神经网络的参数实现模型的优化,实现对医疗文本中的药物实体和疾病实体进行自动识别,即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中,网络输出每一个词的BIO标记,根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体,从而实现药物实体与疾病实体的自动识别。
上述方法中,步骤S2)中,利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型具体为:利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中英文医疗文献、病历进行预训练,
进一步的,所述的预训练的方法分为句子级和词语级两类,其中,句子级方法使用前一个句子预测后一个句子,并随机替换后面的句子,生成预训练需要的反例;
词语级方法随机遮蔽句子中的一个词,训练模型去猜所遮蔽的词。
步骤S3)中,将一维卷积神经网络与BERT预训练得到的模型进行组合,在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调,微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中,对预训练模型和一维卷积神经网络中的参数进行调整,最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型。
进一步的,训练产生的误差是指模型训练的结果中与标注的标签不一样的结果,经过数值化操作后得到的数值。
上述方法中,步骤S4)中,所述的后处理具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析,制定一系列规则模板,对预测结果进行归一化、标准化处理,提高关系抽取结果的准确性。
进一步的,步骤S5)中,对于一个待进行关系抽取的医疗文献或病历,先对其进行药物实体和疾病实体的标注,然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型,并根据步骤S4)对输出的结果进行后处理,将最终结果利用可视化方法将其呈现给用户,使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。
本发明的有益效果为:
1、本发明利用预训练模型作为一维卷积神经网络模型的输入,而现有技术利用词嵌入作为一维卷积神经网络模型的输入,预训练模型比词嵌入更有利于提高医疗文本关系抽取的性能;
2、本发明将一维卷积神经网络模型与预训练模型结合使用,并使用一维卷积神经网络来微调预训练模型,有利于提高模型的性能;
3、本发明通过将一维卷积神经网络的训练误差反向传播到预训练模型来实现模型微调过程,这是一个动态的模型训练过程;而传统的方法将词嵌入与不同层的输入相结合,仍然从头开始训练主要任务模型,并将预先训练的嵌入视为固定参数,限制了它们的有用性。
附图说明
图1为本发明基于预训练模型与微调技术的医疗文本关系抽取方法的流程图;
图2为本发明实施例中BIO标记的结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,本实施例提供一种基于预训练模型与微调技术的医疗文本关系抽取方法,本发明采用深度神经网络从标注有药物实体与疾病实体之间关系的中、英文医疗文献、病历等医疗文本语料中训练模型,并利用所训练的模型对未标注有上述实体关系的中、英文医疗文本进行关系抽取,抽取出相关药物与疾病之间的关系,具体包括以下步骤:
S1)、对医疗关系抽取语料进行预处理,其主要为对输入的医疗文本进行分词、抽取词干处理,并采用人工标注医疗文本中的药物实体和疾病实体;
具有包括以下步骤:
S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注,即每个词对应B、I、O三种标记中的一种,其中,B表示药物目标或疾病目标开始词;I表示药物目标或疾病目标中间词或结尾词;O表示非药物目标或疾病目标词;
S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练,通过调节神经网络的参数实现模型的优化,实现对医疗文本中的药物实体和疾病实体进行自动识别,即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中,网络输出每一个词的BIO标记,根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体,从而实现药物实体与疾病实体的自动识别,大大提高了序列标注及关系抽取的效果。
S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型,具体为:利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中英文医疗文献、病历进行预训练,所述的预训练的方法分为句子级和词语级两类,其中,句子级方法使用前一个句子预测后一个句子,并随机替换后面的句子,生成预训练需要的反例;词语级方法随机遮蔽句子中的一个词,训练模型去猜所遮蔽的词。
S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调,在微调过程中,训练出能够进行医疗关系抽取的深度神经网络模型,具体为将一维卷积神经网络与BERT预训练得到的模型进行组合,在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调,微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中,对预训练模型和一维卷积神经网络中的参数进行调整,最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型,其中,训练产生的误差是指模型训练的结果中与标注的标签不一样的结果,经过数值化操作后得到的数值。一维卷积神经网络具有结构简单、训练参数少和适应性强的特点,其降低了网络模型的复杂度,减少了权值的数量。
S4)、对医疗文本关系抽取结果进行后处理,具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析,制定一系列规则模板,对预测结果进行归一化、标准化处理,提高关系抽取结果的准确性。
S5)、将训练成功的模型用于医疗关系抽取任务,具体为对于一个待进行关系抽取的医疗文献或病历,先对其进行药物实体和疾病实体的标注,然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型,并根据步骤S4)对输出的结果进行后处理,将最终结果利用可视化方法将其呈现给用户,使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。
本发明的基本思想是:首先采用深度神经网络从标注有医疗关系的语料中训练模型,并利用该模型对未标注有医疗关系的中英文医疗文献、病历进行关系抽取,抽取出有用的药物与疾病之间的关系。该方法的特点是利用大规模非结构化无标注中英文医疗文献、病历训练预训练模型,然后用一维卷积神经网络对上述预训练模型进行微调,在微调的过程中训练处能够进行医疗关系抽取的深度神经网络模型。本发明采用基于深度学习的人工神经网络和自然语言处理关系抽取相结合的方法,能够提高系统准确性、反应速度和容错性。针对医疗关系抽取语料进行预处理和利用一维卷积神经网络微调预训练算法,能够提高关系抽取的准确性和效率,以满足不同应用的需求。
对于待处理的句子“红花能够治疗寻常型银屑病”具体实施步骤如下:对待处理的句子进行预处理的分词结果如下:“红花能够治疗寻常型银屑病”。将上述结果中的每一个词输入到带有条件随机场的双向LSTM神经网络中,分析结果如图2所示。根据医疗文本关系自动抽取结果,可以知道待处理的句子中含有两个实体。其中,“红花”是药物实体,“银屑病”是疾病实体。然后,将上述带有BIO标注的句子输入给基于预处理模型和微调技术在医疗关系抽取语料中训练好的一维卷积神经网络中进行关系自动抽取,得到关系抽取结果:药物实体“红花”与疾病实体“银屑病”之间是正面的关系,即可以治疗的关系。
本实施例还提供一种基于预处理模型与微调技术的医疗文本关系抽取系统,其包括:预处理模块,用于将对待医疗关系抽取语料切分成词汇;
序列标注预测模块,用于对切分后的待处理的句子进行序列标注,自动分析待关系抽取句子中每个词的BIO标记;
预训练模型训练模块,通过利用大规模非结构化无标注中英文医疗文献、病历训练预训练模型;
微调模块,通过利用一维卷积神经网络对上述预训练模型进行微调,在微调的过程中训练出能够进行医疗关系抽取的深度神经网络模型;
后处理模块,用于对医疗文本关系抽取结果进行后处理。结果输出模块,用于对抽取结果进行可视化输出。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (6)

1.基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于,包括以下步骤:
S1)、对医疗关系抽取语料进行预处理;
S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型,具体为:利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中、英文医疗文献、病历进行预训练;
S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调,在微调过程中,训练出能够进行医疗关系抽取的深度神经网络模型,具体为:将一维卷积神经网络与BERT预训练得到的模型进行组合,在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调,微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中,对预训练模型和一维卷积神经网络中的参数进行调整,最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型;
S4)、对医疗文本关系抽取结果进行后处理;
S5)、将训练成功的模型用于医疗关系抽取任务。
2.根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S1)中,对医疗关系抽取语料进行预处理为对输入的医疗文本进行分词、抽取词干处理,并采用人工标注医疗文本中的药物实体和疾病实体;
具有包括以下步骤:
S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注,其中,B表示药物目标或疾病目标开始词;I表示药物目标或疾病目标中间词或结尾词;O表示非药物目标或疾病目标词;
S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练,通过调节神经网络的参数实现模型的优化,实现对医疗文本中的药物实体和疾病实体进行自动识别,即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中,网络输出每一个词的BIO标记,根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体,从而实现药物实体与疾病实体的自动识别。
3.根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S2)中,所述的预训练的方法分为句子级和词语级两类,其中,句子级方法使用前一个句子预测后一个句子,并随机替换后面的句子,生成预训练需要的反例;词语级方法随机遮蔽句子中的一个词,训练模型去猜所遮蔽的词。
4.根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S3)中,训练产生的误差是指模型训练的结果中与标注的标签不一样的结果,经过数值化操作后得到的数值。
5.根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S4)中,所述的后处理具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析,制定一系列规则模板,对预测结果进行归一化、标准化处理,提高关系抽取结果的准确性。
6.根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S5)中,对于一个待进行关系抽取的医疗文献或病历,先对其进行药物实体和疾病实体的标注,然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型,并根据步骤S4)对输出的结果进行后处理,将最终结果利用可视化方法将其呈现给用户,使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。
CN201910311691.XA 2019-04-18 2019-04-18 基于预训练模型与微调技术的医疗文本关系抽取方法 Active CN110134772B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910311691.XA CN110134772B (zh) 2019-04-18 2019-04-18 基于预训练模型与微调技术的医疗文本关系抽取方法
PCT/CN2019/105507 WO2020211275A1 (zh) 2019-04-18 2019-09-12 基于预训练模型与微调技术的医疗文本关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910311691.XA CN110134772B (zh) 2019-04-18 2019-04-18 基于预训练模型与微调技术的医疗文本关系抽取方法

Publications (2)

Publication Number Publication Date
CN110134772A true CN110134772A (zh) 2019-08-16
CN110134772B CN110134772B (zh) 2023-05-12

Family

ID=67570108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910311691.XA Active CN110134772B (zh) 2019-04-18 2019-04-18 基于预训练模型与微调技术的医疗文本关系抽取方法

Country Status (2)

Country Link
CN (1) CN110134772B (zh)
WO (1) WO2020211275A1 (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN110718305A (zh) * 2019-10-11 2020-01-21 叮当快药科技集团有限公司 基于医药知识体系自动梳理药品标签的方法和装置
CN110991535A (zh) * 2019-12-04 2020-04-10 中山大学 一种基于多类型医学数据的pCR预测方法
CN111078886A (zh) * 2019-12-18 2020-04-28 成都迪普曼林信息技术有限公司 基于dmcnn的特殊事件提取系统
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质
CN111177414A (zh) * 2019-12-31 2020-05-19 厦门快商通科技股份有限公司 一种实体预标注方法和装置以及设备
CN111178047A (zh) * 2019-12-24 2020-05-19 浙江大学 基于层次序列标注的古代医案处方抽取方法
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN111666350A (zh) * 2020-05-28 2020-09-15 浙江工业大学 一种基于bert模型的医疗文本关系抽取的方法
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111798987A (zh) * 2020-07-07 2020-10-20 云知声智能科技股份有限公司 一种实体关系抽取方法和设备
WO2020211275A1 (zh) * 2019-04-18 2020-10-22 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112632972A (zh) * 2020-12-25 2021-04-09 浙江国际海运职业技术学院 一种电网设备故障报告内故障信息的快速提取方法
CN112732910A (zh) * 2020-12-29 2021-04-30 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN112926313A (zh) * 2021-03-10 2021-06-08 新华智云科技有限公司 一种槽位信息的提取方法与系统
CN113011173A (zh) * 2019-12-20 2021-06-22 北大方正集团有限公司 单位的识别方法、装置、设备以及存储介质
CN113312916A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 基于触发词语态学习的金融文本事件抽取方法及装置
CN113836901A (zh) * 2021-09-14 2021-12-24 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN113836892A (zh) * 2021-09-08 2021-12-24 灵犀量子(北京)医疗科技有限公司 样本量数据提取方法、装置、电子设备及存储介质
CN113962214A (zh) * 2021-10-25 2022-01-21 东南大学 基于eletric-bert的实体抽取方法
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114496127A (zh) * 2020-11-12 2022-05-13 阿里巴巴集团控股有限公司 结果预测模型的训练方法、结果预测方法和装置
CN114564971A (zh) * 2022-02-28 2022-05-31 北京百度网讯科技有限公司 深度学习模型的训练方法、文本数据处理方法和装置

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560484B (zh) * 2020-11-09 2024-03-01 武汉数博科技有限责任公司 用于命名实体识别的改进bert训练模型及命名实体识别方法
CN112464668A (zh) * 2020-11-26 2021-03-09 南京数脉动力信息技术有限公司 一种提取智能家居行业动态信息的方法和系统
CN112347761B (zh) * 2020-11-27 2024-06-04 北京工业大学 基于bert的药物关系抽取方法
CN112380867A (zh) * 2020-12-04 2021-02-19 腾讯科技(深圳)有限公司 文本处理、知识库的构建方法、装置和存储介质
CN112632996A (zh) * 2020-12-08 2021-04-09 浙江大学 一种基于对比学习的实体关系三元组抽取方法
CN112560434B (zh) * 2020-12-16 2024-05-28 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质
CN112507101B (zh) * 2020-12-18 2024-04-05 北京百度网讯科技有限公司 一种建立预训练语言模型的方法和装置
CN112632978A (zh) * 2020-12-23 2021-04-09 国网安徽省电力有限公司检修分公司 基于端到端的变电站多元事件关系抽取的方法
CN112528045B (zh) * 2020-12-23 2024-04-02 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112712118B (zh) * 2020-12-29 2024-06-21 银江技术股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN112749277B (zh) * 2020-12-30 2023-08-04 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112836501A (zh) * 2021-01-18 2021-05-25 同方知网(北京)技术有限公司 一种基于Bert+BiLSTM+CRF的知识元自动抽取方法
CN112800766B (zh) * 2021-01-27 2023-08-22 华南理工大学 基于主动学习的中文医疗实体识别标注方法及系统
CN112884354B (zh) * 2021-03-15 2023-07-11 北京工商大学 一种字词双维度的化妆品安全监管领域事件信息抽取方法
CN112966774B (zh) * 2021-03-24 2024-05-31 黑龙江机智通智能科技有限公司 一种基于图片Bert的组织病理图片分类方法
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置
CN113821571B (zh) * 2021-06-24 2024-04-26 华中农业大学 基于bert和改进pcnn的食品安全关系抽取方法
US11900059B2 (en) 2021-06-28 2024-02-13 Unitedhealth Group Incorporated Method, apparatus and computer program product for generating encounter vectors and client vectors using natural language processing models
CN113569558B (zh) * 2021-07-06 2023-09-26 上海交通大学 一种实体关系抽取方法及系统
CN113609267B (zh) * 2021-07-21 2023-11-07 上海交通大学 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统
CN113486141A (zh) * 2021-07-29 2021-10-08 宁波薄言信息技术有限公司 一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN113343703B (zh) * 2021-08-09 2021-10-29 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质
CN113868374B (zh) * 2021-09-15 2024-04-12 西安交通大学 基于多头注意力机制的图卷积网络生物医学信息提取方法
CN113806514B (zh) * 2021-09-18 2024-03-01 上海交通大学 基于Transformer模型的实体关系抽取方法和系统
CN113822019B (zh) * 2021-09-22 2024-07-12 科大讯飞股份有限公司 文本规整方法、相关设备及可读存储介质
CN114360729A (zh) * 2021-11-25 2022-04-15 达而观数据(成都)有限公司 一种基于深度神经网络的医疗文本信息自动化抽取方法
CN114398886A (zh) * 2021-12-22 2022-04-26 科讯嘉联信息技术有限公司 一种基于预训练的地址提取和标准化方法
CN114547298B (zh) * 2022-02-14 2024-10-15 大连理工大学 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN114548099B (zh) * 2022-02-25 2024-03-26 桂林电子科技大学 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN114925678B (zh) * 2022-04-21 2023-05-26 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN115455936A (zh) * 2022-10-28 2022-12-09 北京澜舟科技有限公司 一种公告信息抽取方法、系统及存储介质
CN115438198B (zh) * 2022-11-07 2023-03-31 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统
CN116028648B (zh) * 2023-02-15 2023-06-09 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法
CN116205601B (zh) * 2023-02-27 2024-04-05 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN116775801A (zh) * 2023-06-26 2023-09-19 中山大学 一种面向中文医学文本的实体关系抽取方法及系统
CN117370525B (zh) * 2023-10-20 2024-08-09 厦门狄耐克物联智慧科技有限公司 一种基于微调大模型的智能导诊方法
CN117954044A (zh) * 2024-02-02 2024-04-30 江苏济远医疗科技有限公司 一种基于大语言模型的处方智能生成方法
CN117935249B (zh) * 2024-03-20 2024-06-07 南昌工程学院 基于三维激光扫描参数自动提取的围岩等级辨识系统
CN118153537B (zh) * 2024-05-10 2024-07-26 中国中医科学院中医临床基础医学研究所 基于文献pdf表格的临床症状和实验室指标的抽取方法
CN118609844B (zh) * 2024-08-07 2024-10-11 元岳信息科技(济南)有限公司 一种基于检索生成大模型的互联网医疗诊断方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019032A1 (en) * 2007-07-13 2009-01-15 Siemens Aktiengesellschaft Method and a system for semantic relation extraction
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN107478598A (zh) * 2017-09-01 2017-12-15 广东省智能制造研究所 一种基于一维卷积神经网络的近红外光谱分析方法
CN107944559A (zh) * 2017-11-24 2018-04-20 国家计算机网络与信息安全管理中心 一种实体关系自动识别方法及系统
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200483B2 (en) * 2016-08-30 2021-12-14 Lunit Inc. Machine learning method and apparatus based on weakly supervised learning
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN110134772B (zh) * 2019-04-18 2023-05-12 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019032A1 (en) * 2007-07-13 2009-01-15 Siemens Aktiengesellschaft Method and a system for semantic relation extraction
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
CN107478598A (zh) * 2017-09-01 2017-12-15 广东省智能制造研究所 一种基于一维卷积神经网络的近红外光谱分析方法
CN107944559A (zh) * 2017-11-24 2018-04-20 国家计算机网络与信息安全管理中心 一种实体关系自动识别方法及系统
CN109255119A (zh) * 2018-07-18 2019-01-22 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕建新等: "深度学习在苏宁知识抽取领域的尝试与实践", 《51CTO.COM》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020211275A1 (zh) * 2019-04-18 2020-10-22 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN110718305A (zh) * 2019-10-11 2020-01-21 叮当快药科技集团有限公司 基于医药知识体系自动梳理药品标签的方法和装置
CN110991535A (zh) * 2019-12-04 2020-04-10 中山大学 一种基于多类型医学数据的pCR预测方法
CN111078886A (zh) * 2019-12-18 2020-04-28 成都迪普曼林信息技术有限公司 基于dmcnn的特殊事件提取系统
CN113011173A (zh) * 2019-12-20 2021-06-22 北大方正集团有限公司 单位的识别方法、装置、设备以及存储介质
CN111178047A (zh) * 2019-12-24 2020-05-19 浙江大学 基于层次序列标注的古代医案处方抽取方法
CN111178047B (zh) * 2019-12-24 2021-08-27 浙江大学 基于层次序列标注的古代医案处方抽取方法
CN111177414A (zh) * 2019-12-31 2020-05-19 厦门快商通科技股份有限公司 一种实体预标注方法和装置以及设备
CN111291568B (zh) * 2020-03-06 2023-03-31 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质
CN111523304A (zh) * 2020-04-27 2020-08-11 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111523304B (zh) * 2020-04-27 2022-08-02 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN111651986B (zh) * 2020-04-28 2024-04-02 银江技术股份有限公司 事件关键词提取方法、装置、设备及介质
CN111597306B (zh) * 2020-05-18 2021-12-07 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111597306A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111666350A (zh) * 2020-05-28 2020-09-15 浙江工业大学 一种基于bert模型的医疗文本关系抽取的方法
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111709243B (zh) * 2020-06-19 2023-07-07 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111798987A (zh) * 2020-07-07 2020-10-20 云知声智能科技股份有限公司 一种实体关系抽取方法和设备
CN114496127A (zh) * 2020-11-12 2022-05-13 阿里巴巴集团控股有限公司 结果预测模型的训练方法、结果预测方法和装置
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112487206B (zh) * 2020-12-09 2022-09-20 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112632972A (zh) * 2020-12-25 2021-04-09 浙江国际海运职业技术学院 一种电网设备故障报告内故障信息的快速提取方法
CN112632972B (zh) * 2020-12-25 2024-03-15 浙江国际海运职业技术学院 一种电网设备故障报告内故障信息的快速提取方法
CN112732910B (zh) * 2020-12-29 2024-04-16 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112732910A (zh) * 2020-12-29 2021-04-30 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN112926313B (zh) * 2021-03-10 2023-08-15 新华智云科技有限公司 一种槽位信息的提取方法与系统
CN112926313A (zh) * 2021-03-10 2021-06-08 新华智云科技有限公司 一种槽位信息的提取方法与系统
CN113312916A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 基于触发词语态学习的金融文本事件抽取方法及装置
CN113312916B (zh) * 2021-05-28 2022-05-27 北京航空航天大学 基于触发词语态学习的金融文本事件抽取方法
CN113836892B (zh) * 2021-09-08 2023-08-08 灵犀量子(北京)医疗科技有限公司 样本量数据提取方法、装置、电子设备及存储介质
CN113836892A (zh) * 2021-09-08 2021-12-24 灵犀量子(北京)医疗科技有限公司 样本量数据提取方法、装置、电子设备及存储介质
CN113836901B (zh) * 2021-09-14 2023-11-14 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN113836901A (zh) * 2021-09-14 2021-12-24 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN113962214A (zh) * 2021-10-25 2022-01-21 东南大学 基于eletric-bert的实体抽取方法
CN113962214B (zh) * 2021-10-25 2024-07-16 东南大学 基于eletric-bert的实体抽取方法
CN114064938B (zh) * 2022-01-17 2022-04-22 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114564971A (zh) * 2022-02-28 2022-05-31 北京百度网讯科技有限公司 深度学习模型的训练方法、文本数据处理方法和装置

Also Published As

Publication number Publication date
WO2020211275A1 (zh) 2020-10-22
CN110134772B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN110134772A (zh) 基于预训练模型与微调技术的医疗文本关系抽取方法
CN111209412B (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
CN105808525B (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN110348008A (zh) 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN110287481A (zh) 命名实体语料标注训练系统
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
Jin et al. A survey on table question answering: recent advances
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
Zhang et al. Effective subword segmentation for text comprehension
CN112487202A (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN105389470A (zh) 一种中医针灸领域实体关系自动抽取的实现方法
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN113901807A (zh) 临床医学实体识别方法及临床试验知识的挖掘方法
CN114004237A (zh) 一种基于膀胱癌知识图谱的智能问答系统构建方法
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
Wang et al. A entity relation extraction model with enhanced position attention in food domain
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
Zhao et al. Chinese named entity recognition in power domain based on Bi-LSTM-CRF
Sun et al. Software entity recognition method based on bert embedding
Wang et al. A BERT-based named entity recognition in Chinese electronic medical record
CN112052311B (zh) 一种基于词向量技术和知识图谱检索的短文本问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant