CN112287680B - 一种问诊信息的实体抽取方法、装置、设备及存储介质 - Google Patents
一种问诊信息的实体抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112287680B CN112287680B CN202011149059.9A CN202011149059A CN112287680B CN 112287680 B CN112287680 B CN 112287680B CN 202011149059 A CN202011149059 A CN 202011149059A CN 112287680 B CN112287680 B CN 112287680B
- Authority
- CN
- China
- Prior art keywords
- entity
- words
- aligned
- word
- entity words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 39
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 abstract description 7
- 230000015654 memory Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 9
- 208000024827 Alzheimer disease Diseases 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- UHOVQNZJYSORNB-UHFFFAOYSA-N Benzene Chemical compound C1=CC=CC=C1 UHOVQNZJYSORNB-UHFFFAOYSA-N 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 206010039966 Senile dementia Diseases 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 240000004282 Grewia occidentalis Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例公开了一种问诊信息的实体抽取方法、装置、设备及存储介质,所述方法包括:获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词。本发明实施例提供的方法通过将医学知识库中不存在的候选实体词基于实体对齐模型进行实体对齐后确定目标实体词,实现了无需扩展医学知识库即可识别出表述不准确的候选实体词,提高了实体词的提取效率。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种问诊信息的实体抽取方法、装置、设备及存储介质。
背景技术
随着计算机的飞速发展,互联网问诊、购药已经渗透入人们的日常生活之中。在互联网问诊时,识别出患者问诊内容中的实体信息是问诊的主要关键。而问诊内容中包括大量口语化表述,实体缩写、简写、顺序不一致,有的甚至是错别字,导致实体识别难度增加,难以实现实体的准确提取。
发明内容
本发明实施例提供了一种问诊信息的实体抽取方法、装置、设备及存储介质,以实现对问诊内容中实体的准确提取,提高实体词的提取效率。
第一方面,本发明实施例提供了一种问诊信息的实体抽取方法,包括:
获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;
将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;
根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词。
第二方面,本发明实施例还提供了一种问诊信息的实体抽取装置,包括:
候选实体提取模块,用于获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;
待对齐实体词模块,用于将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;
目标实体词模块,用于根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词。
第三方面,本发明实施例还提供了一种计算机设备,设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如本发明任意实施例所提供的问诊信息的实体抽取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的问诊信息的实体抽取方法。
本发明实施例通过获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词,通过将医学知识库中不存在的候选实体词基于实体对齐模型进行实体对齐后确定目标实体词,实现了无需扩展医学知识库即可识别出表述不准确的候选实体词,提高了实体词的提取效率。
附图说明
图1是本发明实施例一所提供的一种问诊信息的实体抽取方法的流程图;
图2是本发明实施例二所提供的一种问诊内容的实体抽取流程示意图;
图3是本发明实施例三所提供的一种问诊信息的实体抽取装置的结构示意图;
图4是本发明实施例四所提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一所提供的一种问诊信息的实体抽取方法的流程图。本实施例可适用于对问诊内容进行实体抽取时的情形。该方法可以由问诊信息的实体抽取装置执行,该问诊信息的实体抽取装置可以采用软件和/或硬件的方式实现,例如,该问诊信息的实体抽取装置可配置于计算机设备中。如图1所示,该方法包括:
S110、获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词。
在本实施例中,问诊信息可以为当前用户通过终端发起的问诊信息,也可以为历史问诊信息。示例性的,问诊信息可以为:“我爸爸得了老年痴呆,最近越来越健忘了”。
其中,问诊信息的形式在此不做限制。可选的,问诊信息可以为文字形式的问诊信息,也可以为语音形式的问诊信息。当问诊信息为文字形式的问诊信息时,可以直接将问诊信息输入实体抽取模型,当问诊信息为语音形式的问诊信息时,可以将语音形式的问诊信息转换为文字形式后输入实体抽取模型。具体的,可以通过语音识别的方式将语音形式的问诊信息转换为文字形式的问诊信息。
在本实施例中,通过实体抽取模型抽取出问诊信息中的候选实体词,基于候选实体词确定目标实体词。为保证实体抽取模型能够抽取出缩写、简写、顺序不一致、错别字等各种形式的不标准实体词,在构建实体抽取模型的抽取训练样本时,需要对样本实体词进行増广。
在本发明的一种实施方式中,在将问诊信息输入至预先训练的实体抽取模型之前,还包括:获取样本问诊语料,基于分词方法以及医学知识库得到样本问诊语料中的样本实体词及样本实体词关联的实体信息;对样本实体词进行増广,得到増广实体词;基于样本实体词、増广实体词和样本实体词关联的实体信息生成抽取训练样本,基于抽取训练样本对预先构建的实体抽取模型进行训练,得到训练后的实体抽取模型。可选的,可以基于样本问诊语料获取样本实体词以及样本实体词关联的实体信息,对样本实体词进行増广后得到増广实体词,分别基于样本实体词以及样本实体词关联的实体信息,増广实体词以及増广实体词所属样本实体词关联的实体信息生成抽取训练样本。示例性的,假设样本实体词为A,样本实体词关联的实体信息为B,对样本实体词増广后得到増广实体词C、D、E,则基于样本实体词A和实体信息B、増广实体词C和实体信息B、増广实体词D和实体信息B、増广实体词和实体信息B生成抽取训练样本。得到抽取训练样本后,基于抽取训练样本对实体抽取模型进行训练,得到训练后的实体抽取模型。其中,实体抽取模型可以基于现有的神经网络模型构建,如可以基于经典的双层双向长短时记忆网络(Long Short Term Memory Network,LSTM)+条件随机场(Conditional Random Fields,CRF)构建。实体抽取模型的训练方式、损失函数设置可参照现有的神经网络的训练及设置方式。
一个实施例中,基于样本语料获取样本实体词以及样本实体词关联的实体信息可以为:基于分词方法,依据医学知识库得到样本问诊语料中的样本实体词及样本实体词关联的实体信息。其中,样本实体词关联的实体信息可以为样本实体词中每个字的类型和位置。可选的,类型有疾病、症状、药品、体征、检查、检验、身体部位、治疗8种,位置信息包括BIO,B表示实体词的起始,I代表紧跟B的实体字,O表示其他词,标签列别数量为8*3=24种。示例性的,以样本问诊语料“我爸爸得了老年痴呆”为例,提取出的样本实体词“老年痴呆”的类型为疾病,位置信息为“B:老;I:年痴呆;O:我爸爸得了”。
可选的,对样本实体词进行増广,包括:通过同义词库替换、字音字形替换、删减增加字中的至少一种増广方式对样本实体词进行増广。在本实施例中,可以通过同义词库替换、字音字形替换、删减增加字中的至少一种増广方式对样本实体词进行増广得到増广实体词。可以理解的是,同义词库替换用于模拟简写、缩写场景;字音字形替换用于模拟错别字场景;删减增加字用于模拟用户对词条记忆不准确场景。其中,同义词库替换可以基于现有的医学知识库替换。删减增加字可以随机进行字的删减增加。字音字形替换可以基于字音向量及字形向量替换。字音替换可以根据拼音编码查找比较相似的字,如“诺”和“懦”,拼音编码可通过声母、韵母、音调分别查找映射表,编码至字音向量;字形替换可以根据字形结构查找比较相似的字,如“苯”和“笨”,字形编码可通过笔画数、字形结构(上下结构、半包围结构)、四角编码等综合,形成统一的编码方式生成字形向量。示例性的,“阿尔兹海默症”可同义词库替换为“老年痴呆”,字音字形替换为“阿尔滋海默症”,删减增加字替换为“阿尔兹症”。
S120、将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词。
在本实施例中,获取实体抽取模型输出的候选实体词后,将候选实体词与医学知识库中的基准实体词进行匹配,判断医学知识库中是否存在候选实体词,当匹配成功时,表示候选实体词在医学知识库中存在,将候选实体词作为目标实体词,当匹配失败时,表示候选实体词在医学知识库中不存在,将候选实体词作为待对齐实体词,通过实体对齐的方式确定待对齐实体词相似的目标实体词。
一个实施例中,实体抽取模型输出候选实体词以及候选实体词关联的候选实体类型。相应的,将候选实体词与医学知识库中的基准实体词进行匹配,包括:获取候选实体词关联的候选实体类型,获取医学知识库中与候选实体类型对应的类型实体词;将候选实体词与类型实体词进行匹配。根据候选实体类型筛选出类型实体词与候选实体词进行匹配,在保证匹配准确度的基础上节省了实体词匹配的计算量,提高了响应速度。
S130、根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词。
在本实施例中,基于预先训练的实体对齐模型将医学知识库中不存在的待对齐实体词进行对齐,得到与待对齐实体词相似的基准实体词作为目标实体词,实现了无需扩展医学知识库即可识别出表述不准确的候选实体词,提高了实体词的提取效率。
可选的,将待对齐实体词输入至预先训练的实体对齐模型中,获得实体对齐模型输出的待对齐实体特征,基于待对齐实体特征以及医学知识库中各基准实体词的基准实体特征筛选出与待对齐实体词相似的基准实体词。一个实施例中,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词,包括:计算待对齐实体特征与医学知识库中基准实体词的基准实体特征之间的相似度,将与待对齐实体特征之间的相似度小于设定阈值的基准实体特征关联的基准实体词作为目标实体词。可选的,可以通过相似度确定与待对齐实体词相似的基准实体词。具体的,计算待对齐实体特征与基准实体词的基准实体特征之间的相似度,将与待对齐实体特征之间的相似度小于设定阈值的基准实体特征所属的基准实体词作为与待对齐实体词相似的基准实体词,即作为目标实体词。
在上述方案的基础上,还可以采取与医学知识库中基准实体词匹配相似的方式减少计算量,即先通过待对齐实体词的待对齐实体类型筛选出相应实体类型的类型实体词,然后计算待对齐实体词的待对齐实体特征与类型实体词的类型实体特征之间的相似度,从而筛选出与待对齐实体词相似的类型实体词作为目标实体词。
一个实施例中,在根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征之前,还包括:获取医学知识库中的基准实体词,对基准实体词进行増广,得到基准实体词关联的对齐实体词;随机生成基准实体词关联的无关实体词;基于基准实体词、对齐实体词以及无关实体词生成对齐训练样本,基于对齐训练样本对预先构建的实体对齐模型进行训练,得到训练后的实体对齐模型。可选的,可以基于医学知识库进行基准实体词的扩展,得到基准实体词关联的数据三元对,基于基准实体词关联的数据三元对对实体对齐模型进行训练。具体的,针对每个医学知识库中的基准实体词,可通过上述实施例中的増广方式(同义词库替换、字音字形替换、删减增加字等)对基准实体词进行増广,得到基准实体词关联的对齐实体词,然后随机选取医学知识库中与基准实体词含义不同的实体词作为无关实体词,组成由基准实体词、对齐实体词和无关实体词构建的数据三元对。多个基准实体词关联的数据三元对组成对齐训练样本。其中,实体对齐模型可以基于现有的神经网络模型构建,如可以基于嵌入层和编码器构建。
在对实体对齐模型进行训练时,数据三元对中的基准实体词、对齐实体词和无关实体词分别通过嵌入层和编码器得到基准实体词的基准实体特征、对齐实体词的对齐实体特征和无关实体词的无关实体特征,以基准实体特征与对齐实体特征之间的距离足够接近,基准实体特征和无关实体特征之间的距离足够远为目标,对实体对齐模型进行训练,得到训练后的实体对齐模型。其中,实体特征之间的距离可以通过欧式距离、余弦距离等方式计算。
在上述方案的基础上,还包括:将基准实体词输入至训练后的实体对齐模型中,获得实体模型输出的基准实体特征。可选的,得到训练后的实体对齐模型后,将医学知识库中的基准实体词输入至训练后的实体对齐模型,得到每个基准实体词的基准实体特征,以使在进行待对齐实体词的实体对齐时能够基于已知的基准实体特征进行计算,减少了计算量。
本发明实施例通过获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词,通过将医学知识库中不存在的候选实体词基于实体对齐模型进行实体对齐后确定目标实体词,实现了无需扩展医学知识库即可识别出表述不准确的候选实体词,提高了实体词的提取效率。
实施例二
本实施例在上述实施例的基础上,提供了一种优选实施例。
本实施例中,问诊信息的实体抽取主要分为两个阶段:实体识别阶段和实体对齐阶段,两个阶段互相配合实现问诊信息的实体抽取。医学知识库中保存所有积累的医学实体和医学实体特征,医学实体特征由实体对齐模型(tripnet)编码得到。图2是本发明实施例二所提供的一种问诊内容的实体抽取流程示意图,如图2所示,问诊内容的实体抽取过程为:
1)问诊内容通过实体抽取模型(bilstm),得到医学实体候选(即候选实体词),以及其实体类别;
2)查看医学实体候选是否在医学知识库中,若是则成功匹配,否则就调用实体对齐模型(tripnet)进行编码,得到该医学实体特征;
3)根据实体特征类型,将实体与医学知识库对应类型的所有特征进行相似度匹配,获取相似度最大的特征和距离值分数。如果该分数小于阈值,则确认该实体匹配上,否则认为知识库中没有一个实体与其相似,落入待处理词库表。
其中,待处理词库数据经过积累,可通过词频等方式,过滤出部分实体,经人工审核可添加至当前医学知识库;其余词汇可当做模型下一轮迭代的训练数据。
上述过程中,需要使用训练后的实体抽取模型和实体对齐模型。
可选的,实体抽取模型的训练包括数据制作、网络搭建和模型训练三部分。数据制作过程可以为:准备千万级别的问诊语料,对应类型的医学知识库;在该语料中通过mmseg分词方法分词得到标准词标签,标签信息包括实体每个字的类型、位置。类型有疾病(d)、症状(s)、药品(m)、体征(p)、检查(e)、检验(i)、身体部位(b)、治疗(t)8种,位置信息包括BIO,B表示实体词的起始,I代表紧跟B的实体字,O表示其他词,标签列别数量为8*3=24种;除语料中出现的实体外,通过以下方式对数据进行增广:①同义词库替换②按照字音字形替换③随机增添和删除字。网络搭建可以采用经典的双层双向LSTM+CRF网络。
实体对齐模型的训练包括数据制作、网络搭建、模型训练和网络使用四部分。数据制作过程可以为:根据网络结构,将数据制作成三元对(p,m,n)。m表示mention,是需要训练的词(即医学知识库中的基准实体词),p表示positive,指可以对齐的词(即对齐实体词),n表示negative,指不可对齐的词(即无关实体词)。其中,m从医学知识库中随机选取;p可采用上述实施例中的增广方法获得,从m词根随机生成同义词;n可在知识库中选取非m及非m的同义词的词,也可在n的基础上采用增广方式生成n’作为n。按照以上方法生成数据达到千万级别,每个m至少囊括100个三元对。网络搭建可以基于嵌入层embedding及编码器encoder构建。其中,嵌入层加入字音、字形编码,encoder可以是LSTM、BERT等通用结构。在对实体对齐模型进行训练时,三元组数据分别经过字embedding输入至同一encoder,得到代表词的特征向量,训练目标为目标使得m和p的特征向量足够接近,而m和n的特征向量尽量大。示例性的,loss可以是max(dp-dn+α,0),其中,dp和dn表示m向量到p和n向量的距离,α表示距离容忍度,人工超参数。其中dp为D(fp,fm),dn为D(fn,fm),D(*)代表距离函数,可以是欧式距离losss、余弦距离特征相似度等。在得到训练好的实体对齐模型后,将医学知识库中所有基准实体词输入至实体对齐模型,得到每一个基准实体词的基准特征向量,并保存成特征向量库。需要进行匹配查找相似词时,采用训练时的距离函数D(*),获取距离最相近的基准实体词作为目标实体词。
本发明实施例提供的实体词提取方法通过将实体抽取和实体对齐结合,将医学知识库中不存在的候选实体词基于实体对齐模型进行实体对齐后确定目标实体词,实现了无需扩展医学知识库即可识别出表述不准确的候选实体词,提高了实体词的提取效率。
实施例三
图3是本发明实施例三所提供的一种问诊信息的实体抽取装置的结构示意图。该问诊信息的实体抽取装置可以采用软件和/或硬件的方式实现,例如该问诊信息的实体抽取装置可以配置于计算机设备中。如图3所示,该装置包括候选实体提取模块310、待对齐实体词模块320和目标实体词模块330,其中:
候选实体提取模块310,用于获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;
待对齐实体词模块320,用于将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;
目标实体词模块330,用于根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词。
本发明实施例通过候选实体提取模块获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;待对齐实体词模块将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;目标实体词模块根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词,通过将医学知识库中不存在的候选实体词基于实体对齐模型进行实体对齐后确定目标实体词,实现了无需扩展医学知识库即可识别出表述不准确的候选实体词,提高了实体词的提取效率。
可选的,在上述方案的基础上,待对齐实体词模块320具体用于:
获取候选实体词关联的候选实体类型,获取医学知识库中与候选实体类型对应的类型实体词;
将候选实体词与类型实体词进行匹配。
可选的,在上述方案的基础上,装置还包括实体抽取模型模块,用于:
在将问诊信息输入至预先训练的实体抽取模型之前,获取样本问诊语料,基于分词方法以及医学知识库得到样本问诊语料中的样本实体词及样本实体词关联的实体信息;
对样本实体词进行増广,得到増广实体词;
基于样本实体词、増广实体词和样本实体词关联的实体信息生成抽取训练样本,基于抽取训练样本对预先构建的实体抽取模型进行训练,得到训练后的实体抽取模型。
可选的,在上述方案的基础上,实体抽取模型模块具体用于:
通过同义词库替换、字音字形替换、删减增加字中的至少一种増广方式对样本实体词进行増广。
可选的,在上述方案的基础上,目标实体词模块330具体用于:
计算待对齐实体特征与医学知识库中基准实体词的基准实体特征之间的相似度,将与待对齐实体特征之间的相似度小于设定阈值的基准实体特征关联的基准实体词作为目标实体词。
可选的,在上述方案的基础上,装置还包括实体对齐模型,用于:
在根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征之前,获取医学知识库中的基准实体词,对基准实体词进行増广,得到基准实体词关联的对齐实体词;
随机生成基准实体词关联的无关实体词;
基于基准实体词、对齐实体词以及无关实体词生成对齐训练样本,基于对齐训练样本对预先构建的实体对齐模型进行训练,得到训练后的实体对齐模型。
可选的,在上述方案的基础上,还包括特征提取模型,用于:
将基准实体词输入至训练后的实体对齐模型中,获得实体模型输出的基准实体特征。
本发明实施例所提供的问诊信息的实体抽取装置可执行本发明任意实施例所提供的问诊信息的实体抽取方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四所提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备412的框图。图4显示的计算机设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备412以通用计算设备的形式表现。计算机设备412的组件可以包括但不限于:一个或者多个处理器416,系统存储器428,连接不同系统组件(包括系统存储器428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器416或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。计算机设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储装置434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该计算机设备412交互的设备通信,和/或与使得该计算机设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在系统存储器428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的问诊信息的实体抽取方法,该方法包括:
获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;
将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;
根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的问诊信息的实体抽取方法的技术方案。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所提供的问诊信息的实体抽取方法,该方法包括:
获取问诊信息,将问诊信息输入至预先训练的实体抽取模型,获得实体提取模型输出的候选实体词;
将候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的候选实体词作为待对齐实体词;
根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征,基于待对齐实体特征从医学知识库中选取与待对齐实体词的相似的基准实体词作为目标实体词。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上的方法操作,还可以执行本发明任意实施例所提供的问诊信息的实体抽取方法的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程序程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种问诊信息的实体抽取方法,其特征在于,包括:
获取问诊信息,将所述问诊信息输入至预先训练的实体抽取模型,获得所述实体抽取模型输出的候选实体词;
将所述候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的所述候选实体词作为待对齐实体词;
根据预先训练的实体对齐模型得到所述待对齐实体词的待对齐实体特征,基于所述待对齐实体特征从医学知识库中选取与所述待对齐实体词的相似的基准实体词作为目标实体词;
在根据预先训练的实体对齐模型得到所述待对齐实体词的待对齐实体特征之前,还包括:
获取医学知识库中的基准实体词,对所述基准实体词进行増广,得到所述基准实体词关联的对齐实体词;
随机生成所述基准实体词关联的无关实体词;
基于所述基准实体词、所述对齐实体词以及所述无关实体词生成对齐训练样本,基于所述对齐训练样本对预先构建的实体对齐模型进行训练,得到训练后的实体对齐模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述候选实体词与医学知识库中的基准实体词进行匹配,包括:
获取所述候选实体词关联的候选实体类型,获取所述医学知识库中与所述候选实体类型对应的类型实体词;
将所述候选实体词与所述类型实体词进行匹配。
3.根据权利要求1所述的方法,其特征在于,在将所述问诊信息输入至预先训练的实体抽取模型之前,还包括:
获取样本问诊语料,基于分词方法以及医学知识库得到所述样本问诊语料中的样本实体词及所述样本实体词关联的实体信息;
对所述样本实体词进行増广,得到増广实体词;
基于所述样本实体词、所述増广实体词和所述样本实体词关联的实体信息生成抽取训练样本,基于所述抽取训练样本对预先构建的实体抽取模型进行训练,得到训练后的实体抽取模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述样本实体词进行増广,包括:
通过同义词库替换、字音字形替换、删减增加字中的至少一种増广方式对所述样本实体词进行増广。
5.根据权利要求1所述的方法,其特征在于,所述基于所述待对齐实体特征从医学知识库中选取与所述待对齐实体词的相似的基准实体词作为目标实体词,包括:
计算所述待对齐实体特征与所述医学知识库中基准实体词的基准实体特征之间的相似度,将与所述待对齐实体特征之间的相似度小于设定阈值的基准实体特征关联的基准实体词作为所述目标实体词。
6.根据权利要求1所述的方法,其特征在于,还包括:
将所述基准实体词输入至训练后的实体对齐模型中,获得所述实体对齐模型输出的基准实体特征。
7.一种问诊信息的实体抽取装置,其特征在于,包括:
候选实体提取模块,用于获取问诊信息,将所述问诊信息输入至预先训练的实体抽取模型,获得所述实体抽取模型输出的候选实体词;
待对齐实体词模块,用于将所述候选实体词与医学知识库中的基准实体词进行匹配,将匹配失败的所述候选实体词作为待对齐实体词;
目标实体词模块,用于根据预先训练的实体对齐模型得到所述待对齐实体词的待对齐实体特征,基于所述待对齐实体特征从医学知识库中选取与所述待对齐实体词的相似的基准实体词作为目标实体词;
实体对齐模型,用于:
在根据预先训练的实体对齐模型得到待对齐实体词的待对齐实体特征之前,获取医学知识库中的基准实体词,对基准实体词进行増广,得到基准实体词关联的对齐实体词;
随机生成基准实体词关联的无关实体词;
基于基准实体词、对齐实体词以及无关实体词生成对齐训练样本,基于对齐训练样本对预先构建的实体对齐模型进行训练,得到训练后的实体对齐模型。
8.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的问诊信息的实体抽取方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的问诊信息的实体抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149059.9A CN112287680B (zh) | 2020-10-23 | 2020-10-23 | 一种问诊信息的实体抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149059.9A CN112287680B (zh) | 2020-10-23 | 2020-10-23 | 一种问诊信息的实体抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287680A CN112287680A (zh) | 2021-01-29 |
CN112287680B true CN112287680B (zh) | 2024-04-09 |
Family
ID=74424211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011149059.9A Active CN112287680B (zh) | 2020-10-23 | 2020-10-23 | 一种问诊信息的实体抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287680B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966475A (zh) * | 2021-03-02 | 2021-06-15 | 挂号网(杭州)科技有限公司 | 文字相似度确定方法、装置、电子设备及存储介质 |
CN113327657B (zh) * | 2021-05-27 | 2023-08-25 | 挂号网(杭州)科技有限公司 | 病例报告生成方法、装置、电子设备以及存储介质 |
CN113569554B (zh) * | 2021-09-24 | 2021-12-28 | 北京明略软件系统有限公司 | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 |
CN114969242A (zh) * | 2022-01-19 | 2022-08-30 | 支付宝(杭州)信息技术有限公司 | 查询内容自动补全的方法及装置 |
CN114819155A (zh) * | 2022-05-16 | 2022-07-29 | 浪潮软件集团有限公司 | 基于编辑距离的医学术语归一化方法、系统及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3136257A2 (en) * | 2015-08-27 | 2017-03-01 | Xerox Corporation | Document-specific gazetteers for named entity recognition |
CN106919793A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110442730A (zh) * | 2019-07-18 | 2019-11-12 | 北京市天元网络技术股份有限公司 | 一种基于deepdive的知识图谱构建方法 |
CN111191044A (zh) * | 2019-12-25 | 2020-05-22 | 湖北大学 | 一种基于大数据的知识抽取与融合方法 |
CN111191454A (zh) * | 2020-01-06 | 2020-05-22 | 精硕科技(北京)股份有限公司 | 一种实体匹配的方法及装置 |
CN111507827A (zh) * | 2020-04-20 | 2020-08-07 | 上海商涌网络科技有限公司 | 一种健康风险评估的方法、终端及计算机存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609152B (zh) * | 2017-09-22 | 2021-03-09 | 百度在线网络技术(北京)有限公司 | 用于扩展查询式的方法和装置 |
US11244231B2 (en) * | 2018-09-05 | 2022-02-08 | Siemens Aktiengesellschaft | Quantum-machine training of knowledge graphs |
US11481668B2 (en) * | 2019-02-13 | 2022-10-25 | Adobe Inc. | Machine-learning techniques for evaluating suitability of candidate datasets for target applications |
-
2020
- 2020-10-23 CN CN202011149059.9A patent/CN112287680B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3136257A2 (en) * | 2015-08-27 | 2017-03-01 | Xerox Corporation | Document-specific gazetteers for named entity recognition |
CN106919793A (zh) * | 2017-02-24 | 2017-07-04 | 黑龙江特士信息技术有限公司 | 一种医疗大数据的数据标准化处理方法及装置 |
CN108280061A (zh) * | 2018-01-17 | 2018-07-13 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110442730A (zh) * | 2019-07-18 | 2019-11-12 | 北京市天元网络技术股份有限公司 | 一种基于deepdive的知识图谱构建方法 |
CN111191044A (zh) * | 2019-12-25 | 2020-05-22 | 湖北大学 | 一种基于大数据的知识抽取与融合方法 |
CN111191454A (zh) * | 2020-01-06 | 2020-05-22 | 精硕科技(北京)股份有限公司 | 一种实体匹配的方法及装置 |
CN111507827A (zh) * | 2020-04-20 | 2020-08-07 | 上海商涌网络科技有限公司 | 一种健康风险评估的方法、终端及计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
Comprehend Medical: A Named Entity Recognition and Relationship Extraction Web Service;Parminder Bhatia;《2019 18th IEEE International Conference On Machine Learning And Applications (ICMLA)》;20200227;第1-8页 * |
基于BERT和TextRank关键词提取的实体链接方法;詹飞;朱艳辉;梁文桐;冀相冰;;湖南工业大学学报;20200715(第04期);第68-75页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112287680A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
CN108091328B (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
CN107305768B (zh) | 语音交互中的易错字校准方法 | |
CN110046350B (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN112002323B (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN111611349A (zh) | 语音查询方法、装置、计算机设备及存储介质 | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN111223481B (zh) | 信息提取方法、装置、计算机可读存储介质及电子设备 | |
CN113535925B (zh) | 语音播报方法、装置、设备及存储介质 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN111353311A (zh) | 一种命名实体识别方法、装置、计算机设备及存储介质 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN116702777A (zh) | 中文命名实体识别方法、装置、电子设备及存储介质 | |
CN114444492B (zh) | 一种非标准词类判别方法及计算机可读存储介质 | |
CN115577712A (zh) | 一种文本纠错方法及装置 | |
CN113066510A (zh) | 一种元音弱读检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |