CN112256828B - 医学实体关系抽取方法、装置、计算机设备及可读存储介质 - Google Patents

医学实体关系抽取方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN112256828B
CN112256828B CN202011123634.8A CN202011123634A CN112256828B CN 112256828 B CN112256828 B CN 112256828B CN 202011123634 A CN202011123634 A CN 202011123634A CN 112256828 B CN112256828 B CN 112256828B
Authority
CN
China
Prior art keywords
entity
data
relationship
processed
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011123634.8A
Other languages
English (en)
Other versions
CN112256828A (zh
Inventor
张圣
顾大中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011123634.8A priority Critical patent/CN112256828B/zh
Priority to PCT/CN2020/135082 priority patent/WO2021151353A1/zh
Publication of CN112256828A publication Critical patent/CN112256828A/zh
Application granted granted Critical
Publication of CN112256828B publication Critical patent/CN112256828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了医学实体关系抽取方法、装置、计算机设备及可读存储介质,涉及自然语言处理技术领域,包括获取医学文本,基于所述医学文本获取多条待处理数据;采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,解决了现有技术中人工提取医学实体关系费时费力且效率较低的问题。

Description

医学实体关系抽取方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种医学实体关系抽取方法、装置、计算机设备及可读存储介质。
背景技术
生物医学文献中蕴含着丰富的以及前沿的生物医学知识,是生物医学领域相关研究者重要的知识宝库,基于生物医学文献的实体关系是构建医学知识图谱的重要研究内容,也是智能导诊、问诊、临床辅助决策等智慧医疗应用的基础。
然而,发明人研究发现,现有的生物医学实体间关系知识库基本是基于专家人力构建而成的,医学关系知识的覆盖范围很小,知识规模受限,随着医学文献数量指数级别的增长,仅仅依靠专家人工编辑整理知识构建医学知识库的方法是无法构建全量的医学关系知识库,人工操作工作量较大且效率较低,成本较大。
发明内容
本发明的目的是提供一种医学实体关系抽取方法、装置、计算机设备及可读存储介质,用于解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题。
为实现上述目的,本发明提供一种医学实体关系抽取方法,包括:获取医学文本,基于所述医学文本获取多条待处理数据;
采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;
基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据。
进一步的,所述采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果,包括以下:
获取任一待处理数据,采用Bert-Embeding层对所述待处理数据进行向量化处理,获得第一向量;
采用Bi-LSTM网络对所述第一向量进行语义识别,获得第二向量;
采用Bi-GRU网络对所述第二向量进行语义识别,获得第三向量;
将所述第三向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得所述待处理数据对应的实体识别结果;
获取另一待处理数据,重复上述直至获得各个待处理数据对应的实体识别结。
进一步的,在基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对前,包括以下:
提供一预设实体数据库,所述包含多个实体的缩写名称以及与各个所述实体的缩写名名称对应的实体名称;
基于所述实体识别结果获得实体名称列表;
获取所述实体名称列表中的缩写名称,从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称;
基于各个所述候选实体名称在所述医学文本中查找,获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称;
基于与所述缩写名称对应的实体名称更新所述实体识别结果。
进一步的,所述基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对,包括以下:
获取任一待处理数据对应的实体识别结果,基于所述实体识别结果获取实体对和实体类型;
识别所述待处理数据的依存关系类型,所述依存关系类型包括肯定语义、否定语义和无法确定语义;
根据所述依存关系类型、所述实体对和所述实体类型生成实体关系,获得带有实体关系的实体对;
基于各个待处理数据对应的实体识别结果,获得所有带有实体关系的实体对。
进一步的,基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,包括以下:
获取所述医学文本中各个所述实体对及对应所述实体关系的出现频次;
采用预设权重对所述实体对的各个实体关系对应的出现频次进行加权,并获取加权后与加权前的比值作为所述实体对的置信度;
基于各个所述实体对、实体关系及对应的置信度生成目标数据。
进一步的,在采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果前,还包括对所述第一模型进行训练,包括以下;
获取训练样本,所述训练样本包括多条带有实体标签的训练数据;
其中,所述实体标签包括实体和实体类型;
将所述训练数据输入Bert-Embeding层进行向量化处理,获得与所述训练数据对应的第一处理向量;
采用Bi-LSTM网络对所述第一处理向量进行语义识别,获得第二处理向量;
采用Bi-GRU网络对所述第二处理向量进行语义识别,获得第三处理向量;
将所述第三处理向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得样本目标结果;
将所述样本目标结果与所述训练数据对应的实体标签进行比对,调整所述第一模型的参数,直至完成训练,获得训练好的第一模型。
进一步的,所述实体识别结果包括实体和实体类型,所述实体类型包括基因、疾病、物质、蛋白、症状、实验室检查、治疗方案、微生物、免疫因子、生物通路;所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联,所述依存关系类型包括肯定语义、否定语义和无法确定语义。
为实现上述目的,本发明还提供一种医学实体关系抽取装置,包括:
获取模块,用于获取医学文本,基于所述医学文本获取多条待处理数据;
实体识别模块,用于采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;
关系识别模块,用于基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
生成模块,用于基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据。
为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医学实体关系抽取方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述医学实体关系抽取方法的步骤。
本发明提供的医学实体关系抽取方法、装置、计算机设备及可读存储介质,通过基于医学文本获取待处理数据,采用第一模型对待处理数据进行处理获得实体识别结果,而后根据实体识别结果进行实体关系抽取,获得带有实体关系的实体对,最后计算各个实体对的置信度并生成目标数据,实现对医学实体关系的自动提取,解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题。
附图说明
图1为本发明所述医学实体关系抽取方法实施例一的流程图;
图2为本发明所述医学实体关系抽取方法实施例一中采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果的流程图;
图3为本发明所述医学实体关系抽取方法实施例一中在采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果前,对所述第一模型进行训练的流程图;
图4为本发明所述医学实体关系抽取方法实施例一中基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对前的流程图;
图5为本发明所述医学实体关系抽取方法实施例一中基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对的流程图;
图6为本发明所述医学实体关系抽取方法实施例一中所述基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据的流程图;
图7为本发明所述医学实体关系抽取装置实施例二的程序模块示意图;
图8为本发明计算机设备实施例三中计算机设备的硬件结构示意图。
附图标记:
4、医学实体关系抽取装置 41、模型训练模块 42、预处理模块
43、执行模块 431、分析单元 432、提取单元
433、调整单元 5、计算机设备 51、存储器
52、处理器 53、网络接口
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供的医学实体关系抽取方法、装置、计算机设备及可读存储介质,适用于领域,为提供一种基于获取模块、实体识别模块、关系识别模块、生成模块的医学实体关系抽取方法。本发明通过获取模块基于医学文本获取待处理数据,采用实体识别模块中的第一模型对待处理数据进行处理获得实体识别结果,所述实体识别结果包括10中实体类型,而后根据实体识别结果采用关系识别模块进行实体关系抽取,获得带有实体关系的实体对,实体关系包括150种,为基于依存关系类型生成的任意两个所述实体类别关联关系,最后采用生成模块计算各个实体对的置信度,用于评估各个实体对的关联性,并生成目标数据,通过前述方式实现对实体关系的自动提取,解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题。
实施例一
请参阅图1,本实施例的一种医学实体关系抽取方法,应用于服务器端,包括以下步骤:
S100:获取医学文本,基于所述医学文本获取多条待处理数据;
具体的,本方案中采用大量的医学文本来进行实体关系提取,获取医学文本后可通过预设规则进行预筛选和解析,将获得的各个单条语句作为待处理数据,每一医学文本包含多个待处理数据,作为举例的,根据预设标号(如句号,分号等)对医学文本进行拆分,并对拆分获得的各条语句进行筛选,提出未满足预设条件的语句获得待处理数据,预设条件可以是语句长度等,获得的待处理数据示例如:“The profile of the ACE makes it atherapeutic target for heart failure.”
S200:采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;
在本方案中,第一模型包括依次设置的Bert-Embeding层、Bi-LSTM网络、Bi-GRU网络以及CRF网络;所述实体识别结果包括实体和实体类型,所述实体类型包括基因(gene)、疾病(disease)、物质(chemical)、蛋白(protein)、症状(symptom)、实验室检查(test)、治疗方案(therapy,包括手术、化疗、放疗、免疫治疗等)、微生物(microorganism)、免疫因子(immune factor)、生物通路(pathway)。
在上述实施方式中,输入是待处理数据,输出是识别出的多类别医学实体的信息,采用BIO标注的方式进行实体识别,包括BIO三种标签,B表示一个实体在文本中开始位置,I表示一个实体在文本中的中间或结束位置,O表示不是实体部分,在本方案的多类别医学实体识别任务中BI分别有10种类别,即B-gene、…、B-pathway;I-gene、…、I-pathway。
具体的,所述采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果,参阅图3,包括以下步骤:
S211:获取任一待处理数据,采用Bert-Embeding层对所述待处理数据进行向量化处理,获得第一向量;
在本方案中使用预训练模型bert来获取每一个词的embedding表示,Bert等预训练模型是在通过Masked LM任务以及Next Sentence Prediction任务进行预训练,然后再将预训练好的模型在具体任务上在进行fine-tuning(一种机器学习或深度学习中常用的调参方法),采用预训练模型学习到词embedding表示效果好于现有技术中常用的word2vec的网络结构训练得到的词embedding,通过Bert-Embeding层获得各个待处理数据对应的向量以便于后续语义识别,本方案将bert模型使用大量医学文献语料进行了预训练,从而可以适应于医学领域的自然语言处理任务。
S212:采用Bi-LSTM网络对所述第一向量进行语义识别,获得第二向量;
具体的,本方案中将上述步骤S211中拼接后的每个词的向量输入到Bi-LSTM层可以得到隐藏向量(即第二向量),LSTM是常用的循环神经网络,这里采用了Bi-LSTM是双向LSTM,Bi-LSTM可以很好的学习每个词在句子中的前向以及后向的语义(即上下文语义)。
S213:采用Bi-GRU网络对所述第二向量进行语义识别,获得第三向量;
具体的,本方案中将上述经过Bi-LSTM网络处理后得到的第二向量输入到Bi-GRU层可以得到隐藏向量(即第三向量),第一模型使用了两层循环神经网络,第一层使用的是Bi-LSTM、第二层使用的是Bi-GRU。本模型多层循环神经网络可以学习到更深的语义表示
S214:将所述第三向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得所述待处理数据对应的实体识别结果;
具体的,本方案中上述S212和S213中输出为每一个实体标签的预测分值,这些分值将作为CRF层,CRF层可以为最后预测的标记序列添加一些约束来保证预测的标记序列是合法的,在训练数据训练过程中,这些约束可以通过CRF层自动学习到,作为举例的,句子中第一个词总是以标签“B-“或“O”开始,而不是“I-”等,采用CRF层处理后获得的预测标记序列中非法序列出现的概率将会大大降低。
S215:获取另一待处理数据,重复上述步骤S211-S214直至获得各个待处理数据对应的实体识别结果。
本方案中,作为举例的:“The profile of the ACE makes it a therapeutictarget for heart failure.”,其中可以识别到两个医学实体,分别是ACE(gene)、heartfailure(disease)。
本方案中所述的第一模型区别现有的word2vec的word embedding信息作为输入,单层循环神经网络(RNN)的结构,使用双层循环网络进一步增加模型的学习,提高获得的实体识别结果的准确性。
在采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果前,对所述第一模型进行训练,参阅图3,包括以下;
S221:获取训练样本,所述训练样本包括多条带有实体标签的训练数据;
其中,所述实体标签包括实体和实体类型;所述实体标签包括上述对应10种医学实体类型,所述实体标签采用BIO模型来标注。
S222:将所述训练数据输入Bert-Embeding层进行向量化处理,获得与所述训练数据对应的第一处理向量;
S223:采用Bi-LSTM网络对所述第一处理向量进行语义识别,获得第二处理向量;
S224:采用Bi-GRU网络对所述第二处理向量进行语义识别,获得第三处理向量;
S225:将所述第三处理向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得样本目标结果;
具体的,上述训练过程中步骤S222-S225与上述处理过程中步骤S211-S214处理过程一致,使用预训练模型bert来获取待处理数据中每个词的embedding表示,而后将所述待处理数据对应的词向量依次输入到Bi-LSTM、Bi-GRU层可以第三处理向量进行两次语义识别,两层循环网络的设置(Bi-LSTM+Bi-GRU)可以学习到更深的语义表示,最后输入到CRF层,获得所述待处理数据对应的实体识别结果。
S226:将所述样本目标结果与所述训练数据对应的实体标签进行比对,调整所述第一模型的参数,直至完成训练,获得训练好的第一模型。
本方案中采用大量的训练样本对第一模型训练,确保第一模型的处理结果具有较高的准确率。
上述步骤S200进行医学命名实体识别操作,但
是医学文本中常常存在缩写形式的实体名称,据统计每一个医学缩写名称对应多个医学实体,从而对于医学实体名称的缩写消歧问题的处理是很重要的,容易生成很多错误的知识,因此在步骤S300基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对前,需要对实体名称进行缩写消歧处理,参阅图4,包括以下:
提供一预设实体数据库,所述包含多个实体的缩写名称以及与各个所述实体的缩写名名称对应的实体名称;
S231:基于所述实体识别结果获得实体名称列表;
具体的,所述实体名称列表将所述实体识别结果中各个实体集合即可获得。
S232:获取所述实体名称列表中的缩写名称,从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称;
作为举例而非限定的,比如缩写名称HF可以对应Heart failure、Hydrofluoricacid、Helical Factor、finger protein、complement factor H等多种实体名称。
S233:基于各个所述候选实体名称在所述医学文本中查找,获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称;
在本方案中采用基于文献自洽的缩写实体名称缩写消歧,具体是指对于缩写名称在医学文本中一般会有对应非缩写名称出现,因此在医学文本中查找出现过的候选实体名称即可,作为举例的,在识别出的一个实体指称项是HF,在该待处理数据中对应的全文中出现了Heart failure这一非缩写的实体名称,则该句中HF对应的实体是Heart failure,而不是对应Hydrofluoric acid等HF对应的其他实体,减少缩写名称造成的歧义。
S234:基于与所述缩写名称对应的实体名称更新所述实体识别结果。
具体的,在上述步骤S233获得与缩写名称对应的实体名称后,采用完整的实体名称替换缩写名称,进一步提高识别结果的准确性,也有利于后续S300中实体关系抽取结果的准确性。
S300:基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
基于上述实体类型,所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联关系,所述依存关系类型包括肯定语义、否定语义(neg)和无法确定语义(unclear),任意两个实体类型之间的关系共包括50中,每一两个实体类型之间的关系包括3种关系,共包括150种实体关系,包括但不限于gene-gene、……、gene-pathway;disease-protein、……、disease-pathway;……;immune factor-pathway等,而且每种关系类型都有neg、unclear或肯定的类型,比如gene-gene-neg、gene-gene-unclear。
具体的,步骤S300所述基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对,参阅图5,包括以下:
S310:获取任一待处理数据对应的实体识别结果,基于所述实体识别结果获取实体对和实体类型;
S320:识别所述待处理数据的依存关系类型,所述依存关系类型包括肯定语义、否定语义和无法确定语义;
具体的,识别所述待处理数据的依存关系类型采用自然语言处理的依存关系处理,依存关系通过分析语言单位内成分之间的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分,作为举例的,肯定语义:“The profile of the ACEmakes it a therapeutic target for heart failure.”,其中识别到两个医学实体,分别是ACE(gene)、heart failure(disease)。从中可以得到一条知识<ACE,heart failure,gene-disease>,存储记录格式如下:<ACE,heart failure,gene-disease>;否定语义:“BRCA1 is not associated with heart failure.”,其中识别到的医学实体分别是BRCA1(gene)、heart failure(disease),associated的依存关系中可以看出是有否定语义(neg),则获得一条知识<BRCA1,heart failure,gene-disease-neg>;无法确定语义:“However,whether GHRP have a beneficial effect on CHF is unclear.”,其中识别到的医学实体分别是GHRP(gene)、CHF(disease)。这句话的依存关系的根节点是unclear,这个词的语义是无法确定的语义,则获得一条知识<GHRP,CHF,gene-disease-unclear>。
S330:根据所述依存关系类型、所述实体对和所述实体类型生成实体关系,获得带有实体关系的实体对;
具体的,如上述步骤S320中示例可知,将实体对、实体关系分别进行拼接即可获得带有实体关系的实体对,如:<GHRP,CHF,gene-disease-unclear>。
S340:基于各个待处理数据对应的实体识别结果,获得所有带有实体关系的实体对。
在上述实施方式中,通过对各个待处理数据中依存关系类型的识别,确定各个待处理数据中实体对的实体关系,克服了现有技术中只能确定肯定语义的实体关系,提高对实体关系确定的准确性。
S400:基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据。
通过对抽取到的医学实体对置信度得分算法,评估抽取获得的每一实体对关联的置信度,当置信度越高,则对应该实体对关联度越高。
具体的,步骤S400中所述基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,参阅图6,包括以下步骤:
S410:获取所述医学文本中各个所述实体对及对应所述实体关系的出现频次;
具体的,将所有抽取得到实体对和实体对通过简单计算可以得到以下的数据格式:<head_entity,tail_entity,rel,nums,nums_neg,nums_unclear>。其中head_entity,tail_entity代表该条知识的头尾实体,rel表示关系类型。nums_neg表示抽取该实体对为否定语义的数量(即在医学文本中出现的频次),nums_unclear表示抽取该实体对为无法确定语义的数量,nums表示抽取该实体对的肯定语义数量。作为举例的,抽取到的实体对<ACE,heart failure>通过简单转换计算的格式如下:<ACE,heart failure,gene-disease,964,2,6>,表示实体对<ACE,heart failure>的关系类型为gene-disease。抽取到该实体对包含neg语义的数量为2,抽取到该实体对包含unclear语义的数量为6,抽取到该实体对包含肯定语义数量为964。
S420:采用预设权重对所述实体对的各个实体关系对应的出现频次进行加权,并获取加权后与加权前的比值作为所述实体对的置信度;
具体的,所述置信度计算可表示为如下公式:
对于抽取到的每一实体对置信度Confidence,
其中α0、α1、α2是对应加权系数,本方案中设置为α0=1、α1=-1、α2=0.5。这个分数计算的是每个医学实体对置信度得分,分数越大则该实体对有关联的可能性越大。
以上述实体对<ACE,heart failure>为例,其对应的置信度为:
S430:基于各个所述实体对、实体关系及对应的置信度生成目标数据。
在本方案中,生成的目标数据为<head_entity,tail_entity,rel,confidence>,以上述步骤S420中置信度为例,比如<ACE,heart failure,gene-disease,0.9928>,通过上述对置信度的计算进一步提高提取结果的参考性,后续可基于该目标数据中的置信度选择适用于多个不同场景下的实体对。
上述待实体对、实体关系以及对应的目标数据可上传至区块链以便于后续作为参考样本或训练样本,上传至区块链可保证其安全性和对用户的公正透明性,用户设备可以从区块链中下载得该摘要信息,以便查证优先级列表是否被篡改,后续也可以从区块链中下载获得对应金额数据的语音文件用于语音播报,无需生成过程,有效提高语音处理效率。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请中预设10种医学实体以及55种不同实体间的医学关系类型,抽取获得的实体对覆盖率高、种类多,同时采用预训练模型bert来获取word embedding,并且使用到多层双向循环神经网络(Bi-LSTM、Bi-GRU)增强了模型的学习能力,提高实体识别结果的准确性,本方案还通过检索医学文本中出现过的实体数据作为与实体名称缩写对应的实体数据,处理了实体名称缩写的歧义问题,通过依存关系的解析实现对实体对关系的确定,以及对包含否定语义和无法确定语义的待处理数据中实体对关系的处理,最后还基于置信度得分算法,计算获得抽取到每个医学实体对有关联的置信度,进一步提高目标数据的参考性和准确性。
实施例二:
请参阅图7,本实施例的一种医学实体关系抽取装置5,包括:获取模块51、实体识别模块52、关系识别模块53以及生成模块54。
获取模块51,用于获取医学文本,基于所述医学文本获取多条待处理数据;
实体识别模块52,用于采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;
其中,所述实体类型包括基因(gene)、疾病(disease)、物质(chemical)、蛋白(protein)、症状(symptom)、实验室检查(test)、治疗方案(therapy,包括手术、化疗、放疗、免疫治疗等)、微生物(microorganism)、免疫因子(immune factor)、生物通路(pathway)。上述第一模型包括依次设置的Bert-Embeding层、Bi-LSTM网络、Bi-GRU网络以及CRF网络。
关系识别模块53,用于基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
所述关系识别模块53还包括以下:
采集模块531,用于获取任一待处理数据对应的实体识别结果,基于所述实体识别结果获取实体对和实体类型;
识别模块532,用于识别所述待处理数据的依存关系类型,所述依存关系类型包括肯定语义、否定语义和无法确定语义;
关系确定模块533,用于根据所述依存关系类型、所述实体对和所述实体类型生成实体关系,获得带有实体关系的实体对。
所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联关系。
生成模块54,用于基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据。
所述装置还包括消歧模块55,用于基于所述实体识别结果获得实体名称列表;获取所述实体名称列表中的缩写名称,从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称;基于各个所述候选实体名称在所述医学文本中查找,获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称;基于与所述缩写名称对应的实体名称更新所述实体识别结果。
本技术方案基于语音语义中语义解析的自然语言处理,通过获取模块基于医学文本获取待处理数据,采用实体识别模块中的第一模型对待处理数据进行处理获得实体识别结果,其中,第一模型包括依次设置的Bert-Embeding层、Bi-LSTM网络、Bi-GRU网络以及CRF网络,所述实体识别结果包括10中实体类型,而后根据实体识别结果采用关系识别模块进行实体关系抽取,获得带有实体关系的实体对,实体关系包括基于依存关系类型生成的任意两个所述实体类别关联关系,最后采用生成模块计算各个实体对的置信度,用于评估各个实体对的关联性,并生成目标数据,通过前述方式使用到多层双向循环神经网络(LSTM、GRU)增强了模型的学习能力,实现对实体关系的自动提取,解决现有技术中人工提取医学实体关系费时费力且效率较低的技术问题,最后还基于对置信度得分算法,进一步提高目标数据的参考性和准确性。本申请中在实体识别结果的获取过程中还通过消歧模块对实体名称缩写进行消歧处理,采用基于文献自洽的缩写实体名称缩写消歧,检索医学文本中出现过的实体作为与实体名称缩写对应的实体,处理了实体名称缩写的歧义问题,进一步提高实体识别结果的准确性。
实施例三:
为实现上述目的,本发明还提供一种计算机设备6,该计算机设备可包括多个计算机设备,实施例二的医学实体关系抽取装置1的组成部分可分散于不同的计算机设备6中,计算机设备6可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器61、处理器62、网络接口63以及医学实体关系抽取装置5,如图8所示。需要指出的是,图8仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器61至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器61可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器61也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器61还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例一的医学实体关系抽取装置5的程序代码等。此外,存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制计算机设备的总体操作。本实施例中,处理器62用于运行存储器51中存储的程序代码或者处理数据,例如运行医学实体关系抽取装置,以实现实施例一的医学实体关系抽取方法。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他计算机设备6之间建立通信连接。例如,所述网络接口63用于通过网络将所述计算机设备6与外部终端相连,在所述计算机设备6与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图8仅示出了具有部件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器61中的所述医学实体关系抽取装置5还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器61中,并由一个或多个处理器(本实施例为处理器62)所执行,以完成本发明。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储系统,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储医学实体关系抽取装置,被处理器62执行时实现实施例一的医学实体关系抽取方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种医学实体关系抽取方法,其特征在于,包括:
获取医学文本,基于所述医学文本获取多条待处理数据;
采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;其中,所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联,所述依存关系类型包括肯定语义、否定语义和无法确定语义;
基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,其中,所述置信度基于所述实体对的各个实体关系对应的出现频次确定实体对的关联度;
基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,包括以下:
获取所述医学文本中各个所述实体对及对应所述实体关系的出现频次;
采用预设权重对所述实体对的各个实体关系对应的出现频次进行加权,并获取加权后与加权前的比值作为所述实体对的置信度;基于各个所述实体对、实体关系及对应的置信度生成目标数据;
置信度计算可表示为如下公式:
对于抽取到的每一实体对置信度Confidence,
其中、/>、/>是对应加权系数,numsneg表示抽取该实体对为否定语义的数量,numsunclear表示抽取该实体对为无法确定语义的数量,nums表示抽取该实体对的肯定语义数量;
在采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果前,还包括对所述第一模型进行训练,包括以下;
获取训练样本,所述训练样本包括多条带有实体标签的训练数据;
其中,所述实体标签包括实体和实体类型;
将所述训练数据输入Bert-Embeding层进行向量化处理,获得与所述训练数据对应的第一处理向量;
采用Bi-LSTM网络对所述第一处理向量进行语义识别,获得第二处理向量;
采用Bi-GRU网络对所述第二处理向量进行语义识别,获得第三处理向量;
将所述第三处理向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得样本目标结果;
将所述样本目标结果与所述训练数据对应的实体标签进行比对,调整所述第一模型的参数,直至完成训练,获得训练好的第一模型。
2.根据权利要求1所述的医学实体关系抽取方法,其特征在于,所述采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果,包括以下:
获取任一待处理数据,采用Bert-Embeding层对所述待处理数据进行向量化处理,获得第一向量;
采用Bi-LSTM网络对所述第一向量进行语义识别,获得第二向量;
采用Bi-GRU网络对所述第二向量进行语义识别,获得第三向量;
将所述第三向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得所述待处理数据对应的实体识别结果;
获取另一待处理数据,重复上述步骤直至获得各个待处理数据对应的实体识别结果。
3.根据权利要求1所述的医学实体关系抽取方法,其特征在于,在基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对前,包括以下:
提供一预设实体数据库,所述实体数据库包含多个实体的缩写名称以及与各个所述实体的缩写名名称对应的实体名称;
基于所述实体识别结果获得实体名称列表;
获取所述实体名称列表中的缩写名称,从所述实体数据库中获取与所述缩写名称对应的实体名称作为候选实体名称;
基于各个所述候选实体名称在所述医学文本中查找,获取与所述医学文本匹配的候选实体名称作为与所述缩写名称对应的实体名称;
基于与所述缩写名称对应的实体名称更新所述实体识别结果。
4.根据权利要求1所述的医学实体关系抽取方法,其特征在于,所述基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对,包括以下:
获取任一待处理数据对应的实体识别结果,基于所述实体识别结果获取实体对和实体类型;
识别所述待处理数据的依存关系类型,所述依存关系类型包括肯定语义、否定语义和无法确定语义;
根据所述依存关系类型、所述实体对和所述实体类型生成实体关系,获得带有实体关系的实体对;
基于各个待处理数据对应的实体识别结果,获得所有带有实体关系的实体对。
5.根据权利要求1所述的医学实体关系抽取方法,其特征在于:
所述实体识别结果包括实体和实体类型,所述实体类型包括基因、疾病、物质、蛋白、症状、实验室检查、治疗方案、微生物、免疫因子、生物通路。
6.一种医学实体关系抽取装置,其特征在于,包括:
获取模块,用于获取医学文本,基于所述医学文本获取多条待处理数据;
实体识别模块,用于采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果;其中,所述实体关系包括基于依存关系类型生成的任意两个所述实体类别关联,所述依存关系类型包括肯定语义、否定语义和无法确定语义;
在采用第一模型对各个待处理数据进行医学命名实体识别,获得各个待处理数据对应的实体识别结果前,还包括对所述第一模型进行训练,包括以下;
获取训练样本,所述训练样本包括多条带有实体标签的训练数据;
其中,所述实体标签包括实体和实体类型;
将所述训练数据输入Bert-Embeding层进行向量化处理,获得与所述训练数据对应的第一处理向量;
采用Bi-LSTM网络对所述第一处理向量进行语义识别,获得第二处理向量;
采用Bi-GRU网络对所述第二处理向量进行语义识别,获得第三处理向量;
将所述第三处理向量输入CRF层,输出实体识别的预测标记序列,根据所述预测标记序列获得样本目标结果;
将所述样本目标结果与所述训练数据对应的实体标签进行比对,调整所述第一模型的参数,直至完成训练,获得训练好的第一模型;
关系识别模块,用于基于所述实体识别结果进行实体关系抽取,获取带有实体关系的实体对;
生成模块,用于基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据;其中,所述置信度基于所述实体对的各个实体关系对应的出现频次确定实体对的关联度;
基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,包括以下:
获取所述医学文本中各个所述实体对及对应所述实体关系的出现频次;
采用预设权重对所述实体对的各个实体关系对应的出现频次进行加权,并获取加权后与加权前的比值作为所述实体对的置信度;基于各个所述实体对、实体关系及对应的置信度生成目标数据;
置信度计算可表示为如下公式:
对于抽取到的每一实体对置信度Confidence,
其中、/>、/>是对应加权系数,numsneg表示抽取该实体对为否定语义的数量,numsunclear表示抽取该实体对为无法确定语义的数量,nums表示抽取该实体对的肯定语义数量。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述医学实体关系抽取方法的步骤。
8.一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,其特征在于,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至5任一项所述医学实体关系抽取方法的步骤。
CN202011123634.8A 2020-10-20 2020-10-20 医学实体关系抽取方法、装置、计算机设备及可读存储介质 Active CN112256828B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011123634.8A CN112256828B (zh) 2020-10-20 2020-10-20 医学实体关系抽取方法、装置、计算机设备及可读存储介质
PCT/CN2020/135082 WO2021151353A1 (zh) 2020-10-20 2020-12-10 医学实体关系抽取方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011123634.8A CN112256828B (zh) 2020-10-20 2020-10-20 医学实体关系抽取方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112256828A CN112256828A (zh) 2021-01-22
CN112256828B true CN112256828B (zh) 2023-08-08

Family

ID=74245072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011123634.8A Active CN112256828B (zh) 2020-10-20 2020-10-20 医学实体关系抽取方法、装置、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112256828B (zh)
WO (1) WO2021151353A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011170B (zh) * 2021-02-25 2022-10-14 万翼科技有限公司 合同处理方法、电子设备及相关产品
CN113157866B (zh) * 2021-04-27 2024-05-14 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113627186B (zh) * 2021-08-12 2023-12-22 平安科技(深圳)有限公司 基于人工智能的实体关系检测方法及相关设备
CN113792115B (zh) * 2021-08-17 2024-03-22 北京百度网讯科技有限公司 实体相关性确定方法、装置、电子设备及存储介质
CN113822420B (zh) * 2021-09-27 2024-04-19 中国航天科工集团七三一医院 基于容积二氧化碳图的死腔分数的模型建立方法及系统
CN113903420A (zh) * 2021-09-29 2022-01-07 清华大学 一种语义标签确定模型的构建方法、病历解析方法
CN114417875A (zh) * 2022-01-25 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、可读存储介质及程序产品
CN114781383A (zh) * 2022-05-05 2022-07-22 医渡云(北京)技术有限公司 特征数据提取方法及装置、可读存储介质、电子设备
WO2024042350A1 (zh) * 2022-08-24 2024-02-29 Evyd科技有限公司 医疗文本数据脱敏方法、装置、介质及电子设备
CN116110594B (zh) * 2022-12-02 2024-05-07 北京交通大学 基于关联文献的医学知识图谱的知识评价方法及系统
CN116108163B (zh) * 2023-04-04 2023-06-27 之江实验室 一种文本的匹配方法、装置、设备及存储介质
CN117290510B (zh) * 2023-11-27 2024-01-30 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460012A (zh) * 2018-02-01 2018-08-28 哈尔滨理工大学 一种基于gru-crf的命名实体识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111625659A (zh) * 2020-08-03 2020-09-04 腾讯科技(深圳)有限公司 知识图谱处理方法、装置、服务器及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409912B2 (en) * 2014-07-31 2019-09-10 Oracle International Corporation Method and system for implementing semantic technology
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN110427611A (zh) * 2019-06-26 2019-11-08 深圳追一科技有限公司 文本处理方法、装置、设备及存储介质
CN110688854B (zh) * 2019-09-02 2022-03-25 平安科技(深圳)有限公司 命名实体识别方法、装置及计算机可读存储介质
CN111709240A (zh) * 2020-05-14 2020-09-25 腾讯科技(武汉)有限公司 实体关系抽取方法、装置、设备及其存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460012A (zh) * 2018-02-01 2018-08-28 哈尔滨理工大学 一种基于gru-crf的命名实体识别方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111625659A (zh) * 2020-08-03 2020-09-04 腾讯科技(深圳)有限公司 知识图谱处理方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
WO2021151353A1 (zh) 2021-08-05
CN112256828A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112242187B (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN106682397A (zh) 一种基于知识的电子病历质控方法
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN111026877A (zh) 基于概率软逻辑的知识验证模型构建与分析方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN116911300A (zh) 语言模型预训练方法、实体识别方法和装置
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、系统及介质
CN111553140A (zh) 数据处理方法、数据处理设备及计算机存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN113705207A (zh) 语法错误识别方法及装置
CN116415593B (zh) 一种研究前沿识别方法、系统、电子设备及存储介质
CN116721699A (zh) 一种基于肿瘤基因检测结果的智能推荐方法
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116089589B (zh) 问句生成方法及装置
CN113537372B (zh) 一种地址识别方法、装置、设备及存储介质
CN116821712B (zh) 非结构化文本与知识图谱的语义匹配方法及装置
CN111009287B (zh) SLiMs预测模型的生成方法、装置、设备和存储介质
CN112927806B (zh) 病历结构化网络跨疾病迁移训练方法、装置、介质及设备
CN115238700A (zh) 基于多任务学习的生物医学实体抽取方法
CN117034928A (zh) 模型构建方法、装置、设备及存储介质
Duong Computational methods for leveraging multiple biodata resources
CN114861913A (zh) 常识知识评分和排序方法及装置
CN114974569A (zh) 一种疾病辅助决策方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant