CN113889281B - 一种中文医疗智能实体识别方法、装置及计算机设备 - Google Patents

一种中文医疗智能实体识别方法、装置及计算机设备 Download PDF

Info

Publication number
CN113889281B
CN113889281B CN202111361534.3A CN202111361534A CN113889281B CN 113889281 B CN113889281 B CN 113889281B CN 202111361534 A CN202111361534 A CN 202111361534A CN 113889281 B CN113889281 B CN 113889281B
Authority
CN
China
Prior art keywords
character
feature
features
neural network
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111361534.3A
Other languages
English (en)
Other versions
CN113889281A (zh
Inventor
王进
靳从建
蒋诗琪
陈乔松
邓欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huamei Haolian Medical Technology Beijing Co ltd
Original Assignee
Huamei Haolian Medical Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huamei Haolian Medical Technology Beijing Co ltd filed Critical Huamei Haolian Medical Technology Beijing Co ltd
Priority to CN202111361534.3A priority Critical patent/CN113889281B/zh
Publication of CN113889281A publication Critical patent/CN113889281A/zh
Application granted granted Critical
Publication of CN113889281B publication Critical patent/CN113889281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,具体涉及一种中文医疗智能实体识别方法、装置及计算机设备;所述方法包括获取中文医疗领域的文本数据,对文本数据构建出字典树,采用词向量模型提取出字符的字特征;对每个字符通过字典树查找出对应的多个匹配词,采用注意力机制将多个匹配词整合,输出字符的词特征;对每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;将字特征、词特征和字形特征进行多元特征自适应融合;将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;利用条件随机场进行标签约束,识别出对应的智能实体;本发明通过自适应融合多种特征丰富底层信息,从而提高实体识别能力。

Description

一种中文医疗智能实体识别方法、装置及计算机设备
技术领域
本发明涉及自然语言处理领域,具体涉及一种中文医疗智能实体识别方法、装置及计算机设备。
背景技术
电子病历是医务人员在医疗活动过程中,使用信息系统生成的文字、符号、图表、图形、数字、影像等数字化信息,是居民个人在医疗机构就诊过程中产生和被记录的完整、详细的临床信息资源。如果能够准确地识别电子病历中的命名实体,对于构建完善的医疗知识库、精准的患者画像、智能医疗决策支持等都具有重要意义。
不同于英文实体识别,可以利用空格将句子切分成词,中文没有明确的分词边界,因此采用基于字粒度的中文实体识别方法被广泛使用,是因为词汇边界通常和实体边界一样,所以准确找出词汇信息是实现中文实体识别必不可少的重要步骤,但如果直接加入词汇信息又会因为分词错误而造成错误传播。
而在医疗领域中,一些特定类型的实体词往往具有不同于通用实体词的特征,尤其体现在特定实体所具有的部首种类上,例如,许多组成疾病实体词的字往往具“疒”部首,然后这一信息尚未被通用命名实体识别模型充分利用。
发明内容
为了解决上述问题,本发明提出一种中文医疗智能实体识别方法、装置及计算机设备,旨在利用词汇边界帮助确定实体边界,利用字形特征帮助确定实体类型,从而提升智能实体识别模型的性能。
在本发明的第一方面,本发明提供了一种中文医疗智能实体识别方法,所述方法包括:
获取中文医疗领域的文本数据,对所述文本数据构建出字典树,并采用词向量模型提取出文本数据中字符的字特征;
对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;
将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
在本发明的第二方面,本发明还提供了一种中文医疗智能实体识别装置,所述装置包括:
获取模块,用于获取中文医疗领域的文本数据;
预处理模块,用于对所述文本数据构建出字典树;
字特征提取模块,用于采用词向量模型提取出文本数据中字符的字特征;
词特征提取模块,用于对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
字形特征提取模块,用于对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
特征融合模块,用于将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;
预测模块,将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
识别模块,对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
在本发明的第三方面,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面的步骤。
本发明的有益效果:
1、词汇信息的有效融入,不同于英文实体识别,可以用空格对句子进行词划分,中文实体识别没有明确的分词边界,基于词汇的实体识别算法面临着由于分词错误导致的误差传递问题,而且易出现oov现象,基于字符的实体识别算法不能充分利用词汇边界信息。因此本发明使用注意力机制解决词汇冗余问题,有效的将词汇信息融合到模型,帮助模型提高识别边界识别能力。
2、丰富的底层信息,实体识别任务是-个重底层的任务,上层模型再深、性能提升往往也是有限的(甚至是下降的),当前的字符嵌入算法没有充分挖掘汉字的特性,汉字是一种象形文字,字形和字义具有密切的联系。因此本发明为了解决异首同义问题,将汉字转换为繁体字,并拆分为不同字根作为卷积神经神经网络的输入,得到汉字的字形特征,语言模型在大型语料库上进行预训练,以捕获语义特征和丰富的知识,在多个任务上取得了不错的效果,表明其具有较强的表征能力,为了进一步加强字符表征能力,本专利还将BERT字向量融入到模型中,给模型提供了丰富的底层信息。
3、多元特征的有效融合,上下文信息的有效捕捉。在某些情况下直接将不同特征混合在一起是没有意义的,不同于传统的直接对不同域的向量进行拼接,为了实现不同特征组更好,更平衡的融合,避免不同量纲下异常值和极端值的影响,本专利引入多元特征自适应融合模块,自动对不同域的向量进行评分和融合。中文实体识别和上下文信息密切相关,同样的字符在不同语境下可能出现不同的识别标签,因此本专利提出了混合编码模型,采用堆叠空洞卷积网络对融合后的多元特征进行编码,计算出每个字符与其相邻的字符的关联关系,得到字符的局部上下文向量;采用长短期记忆神经网络对融合后的多元特征进行编码,使用自注意力机制计算出每个字符与其他字符之间的关联关系,得到每个字符的全局上下文向量;拼接局部上下文向量和全局上下文向量作为最终上下文向量并利用条件随机场进行标签约束。
附图说明
图1是本发明实施例提供的中文医疗智能实体识别方法流程图;
图2是本发明实施例提供的字形特征提取图;
图3是本发明实施例提供的多元特征自适应融合图;
图4是本发明实施例中的智能实体识别模型架构图;
图5是本发明实施例中的识别装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的中文医疗智能实体识别方法,可以应用于服务器应用环境中。具体的,服务器获取中文医疗领域的文本数据,对所述文本数据构建出字典树,并采用词向量模型提取出文本数据中字符的字特征;服务器对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;服务器对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;服务器将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;服务器将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;服务器对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
本领域技术人员可以理解,这里所使用的“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图1是本发明实施例提供的中文医疗智能实体识别方法流程图,如图1所示,所述方法包括:
101、获取中文医疗领域的文本数据,对所述文本数据构建出字典树,并采用词向量模型提取出文本数据中字符的字特征;
在本发明实施例中,实际中文医疗领域中,存在大量的文本数据,这些文本数据是医务人员在医疗活动过程中,使用信息系统生成的文字、符号、图表、图形、数字、影像等数字化信息,是居民个人在医疗机构就诊过程中产生和被记录的完整、详细的临床信息资源。文本中的实体类别通常包括疾病、症状、药品、治疗方法和检查等5类关键实体信息,是进一步分析实体间关联、总结与提取诊疗知识的基础。
在本发明实施例中,当获取中文医疗领域的文本数据后,可以对这些文本数据进行预处理,一方面需要对这些数据单独构建出字典树,另一方面,在构建字典树的同时,对文本数据进行编码,对字符编码后,就可以基于预先已经训练获得的词向量模型,该词向量模型可以是通过大量的训练样本对神经网络比如卷积神经网络进行监督训练得到的模型,例如Word2vec词向量模型等。
在本发明实施例中,字符ci的字特征可以表示为
102、对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
在本发明实施例中,在本发明一些实施例中,可以对文本句子s=c1,c2,...cn的每个字符ci通过Tire树查找其匹配的m个词语分别表示为为了实现并行化,通过填充符PAD将所有字符的匹配词填充为一样长度记为p,记填充后字符表示为其中/>ew()是词嵌入表,为了解决词汇冗余问题,通过注意力机制将词信息进行整合,权重向量表示为其中w2是一个d(超参数)维向量,W1是可学习的权重矩阵,最终字符的词特征可以表示为/>记/>
103、对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
在本发明实施例中,考虑到对于中文命名实体识别(Named Entity Recognition,NER),现有的基于字符的算法不仅会丢失上下文信息,而且不能利用汉字的形态级信息。为了提高汉字嵌入的质量,捕获汉字内部结构特征,首先将汉字转为繁体字(解决部首相同含义不同问题),并将汉字拆分为不同字根,将所述字根输入到卷积神经网络中,随机初始化得到每个字根对应的嵌入向量,然后使用最大值池化和全连接网络得到每个汉字的字形特征记为记/>
图2是本发明实施例提供的字形特征提取图,如图2所示,将汉字拆分为不同字根后,对每个字根随机初始化为一个嵌入向量,将嵌入向量经过卷积层、最大池化层和全连接层后,就可以输出最终的嵌入向量,该最终的嵌入向量即为字符的字形特征。
104、将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;
在本发明实施例中,不同于传统的方式,直接对不同域的向量进行拼接,本发明为了实现不同特征组更好,更平衡的融合,避免不同量纲下异常值和极端值的影响,设计了多元特征自适应融合模块,自动对不同域的特征向量进行评分和融合。步骤如下:
将文本数据分别经过B(),F(),G()后,分别得到对应的所述字特征所述词特征/>和所述字形特征/>可以表示为E=[e1,e2,e3];
在本发明实施例中,对所述字特征、所述词特征和所述字形特征进行特征评分,将每种特征向量与其对应的特征评分计算哈达玛积,按照哈达玛积拼接得到融合后的多元特征。
具体的,对不同域的特征进行特征评分,代表该特征的重要程度,公式如下:
gk=σ(Wk.ek) (1)
将域特征向量ek和域特征评分gk计算哈达玛积得到gek,并拼接得到最终输出GE。
gek=ek⊙gk (2)
其中,gk表示特征向量ek的特征评分;σ表示激活函数;Wk表示可学习权重参数;表示融合后的第n个特征向量,n的取值范围由所述字特征、所述词特征和所述字形特征的总数决定。
相比较于传统的直接拼接本实施例中的基于门机制的特征融合方法,在ccks医疗数据集上,验证集f1提高了1k,测试集f1提高了0.8k,有效说明本实施例中的fusion layer的有效性。
在本发明的优选实施例中,对每种特征分别计算出独立域特征评分和共享域特征评分,将独立域特征评分与独立域特征做哈达玛积,将共享域特征评分与共享域特征做哈达玛积,并将两个哈达玛积相加得到该域特征,拼接各域特征得到融合后的多元特征。
具体的,本发明以独立权重和共享权重的方式对分别计算出不同域的特征的重要程度,公式如下:
独立权重:
gk=σ(Wg.ek+bg) (4)
共享权重:
fk=σ(Wf.ek+Uf[e1,e2,e3]+bf) (5)
hk=tanh(Whei+Uh[e1,e2,e3]+bh) (6)
其中,ek表示独立域特征向量,k∈{1,2,3},k的取值不同,代表不同的域特征向量;[e1,e2,e3]表示共享域特征向量;gk表示特征向量ek的独立域特征权重;fk表示特征向量ek与共享域特征向量[e1,e2,e3]交互后的第一共享域特征权重;hk表示特征向量ek与共享域特征向量[e1,e2,e3]交互后的第二共享域特征权重;本实施例中,使用第一共享域特征权重来计算共享域特征评分,使用第二共享域权重来计算共享域特征,表示独立域特征评分;表示共享域特征评分;σ,tanh,softmax表示不同的激活函数;Wg,Wf,Wh,Uf,Uh表示可学习权重矩阵;bg,bf,bh表示可学习偏置。
因此,将独立域特征向量ek和独立域特征评分共享域特征评分/>和共享域特征hk分别计算哈达玛积并相加得到gek,并拼接得到最终输出GE表示如下:
由于不同域之间可能相互依存,相互影响,上述实施例中只将各特征作为独立的一块,分别进行评分,未考虑和其他特征的相关性,针对这一问题,本实施例对每一特征分别设置独立权重和共享权重,以便更好地发挥各特征作用,经过这一改进在ccks医疗数据集上,验证集f1提高了2k,测试集f1提高了2.1k,结果表明充分考虑各特征之间的相关性,不仅能取得更好的结果,而且模型的鲁棒性更好。
图3是本发明实施例提供的多元特征自适应融合图,如图3所示,将通过特征评分层处理后的权重向量与未经过特征评分层处理的嵌入特征进行融合,完成特征嵌入。
105、将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
在本发明实施例中,将融合后的多元特征分别输入到卷积神经网络和循环神经网络中,将两个网络所得的结果进行拼接,从而输出文本的上下文向量。
作为本发明的优选实施例中,本发明实施例的卷积神经网络选择堆叠空洞卷积网络,本发明实施例的循环神经网络选择双向长短期记忆神经网络,下面将以这两种网络进行具体说明:
对于双向长短期记忆神经网络,本发明使用双向LSTM对所述步骤104得到的融合后的多元特征GE进行编码,表示为 并使用自注意力机制计算每个字符与其他所有字符之间的关联,其中查询向量,键向量,值向量,评分函数分别表示为qi=Wq·hi+bq,ki=Wk·hi+bk,s(qi,kj)=vTtanh(Wqqi+Wkkj),其中,Wq,Wk,Wv,vT为学习权重矩阵,bq,bk,bv为可学习权重偏置,权重系数最终每个字符的全局上下文向量表示为/>
对于堆叠空洞卷积网络,本发明使用堆叠空洞卷积网络对所述步骤104得到的融合后的多元特征GE进行编码,表示为 L表示编码长度;最终每个字符的局部上下文向量表示为hidcnn=h(L),其中D(j)()表示空洞卷积网络。
对双向长短期记忆神经网络得到的每个字符的向量与堆叠空洞卷积网络得到的每个字符的向量进行拼接,拼接后的向量即为本发明最终的文本的上下文向量。
106、对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
在本发明实施例中,采用条件随机场损失函数从文本的上下文向量中筛选得到最优向量;基于所述最优向量识别得到对应的智能实体;其中,
计算标签条件概率其中WT,T是可学习权重矩阵,yi是字符ci的标签,损失函数/>
图4是本发明实施例中的智能实体识别模型架构图,如图4所示,在本发明实施例中,首先需要完整多元特征的采集,一方面,利用BERT模型,提取出文本数据的字特征,另一方面,利用卷积神经网络,提取出文本数据的字形特征,再一方面,利用注意力机制,提取出文本数据的词特征;将这三种特征进行特征融合,形成融合后的多元特征;对多元特征进行语义编码后得到对应的上下文向量,利用条件随机场进行标签约束,识别出对应的智能实体。
图5是本发明实施例中的识别装置结构示意图,如图5所示,本实施例中提供一种中文医疗智能实体识别装置,包括获取模块201,预处理模块202,字特征提取模块203,词特征提取模块204,字形特征提取模块205,特征融合模块206,预测模块207,识别模块208,其中:
获取模块201,用于获取中文医疗领域的文本数据;
预处理模块202,用于对所述文本数据构建出字典树;
字特征提取模块203,用于采用词向量模型提取出文本数据中字符的字特征;
词特征提取模块204,用于对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
字形特征提取模块205,用于对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
特征融合模块206,用于将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;
预测模块207,将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
识别模块208,对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
关于中文医疗智能实体识别装置的具体限定可以参见上文中对于中文医疗智能实体识别方法的限定,在此不再赘述。上述中文医疗智能实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本发明的一些实施例中,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种中文医疗智能实体识别方法的步骤。
在本发明优选实施例中,该计算机设备包括通过装置总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作装置、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种中文医疗智能实体识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行中文医疗智能实体识别方法。该计算机设备的网络接口用于与终端连接通信。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如下步骤:获取中文医疗领域的文本数据,对所述文本数据构建出字典树,并采用词向量模型提取出文本数据中字符的字特征;对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
在其中一个实施例中,处理器执行计算机程序时将所有字符的匹配词填充为相同长度。
在其中一个实施例中,处理器执行计算机程序时将汉字字符转换为繁体字字符,将所述繁体字字符拆分为不同字根,将所述字根输入到卷积神经网络中,随机初始化得到每个字根对应的嵌入向量,使用最大值池化和全连接网络输出得到每个字符的字形特征。
在其中一个实施例中,处理器执行计算机程序时所述word2vec工具包括固定的word2vec和微调的word2vec。
在其中一个实施例中,处理器执行计算机程序时分别对所述字特征、所述词特征和所述字形特征进行特征评分,将每种特征向量与其对应的特征评分计算哈达玛积,按照哈达玛积拼接得到融合后的多元特征。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种中文医疗智能实体识别方法,其特征在于,所述方法包括:
获取中文医疗领域的文本数据,对所述文本数据构建出字典树,并采用词向量模型提取出文本数据中字符的字特征;
对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;具体包括:
将文本数据分别经过B(ci),F(ci),G(ci)后,分别得到对应的所述字特征所述词特征/>和所述字形特征/>表示为E=[e1,e2,e3];对每种域的特征向量ek分别计算出独立域特征评分/>和共享域特征评分fk s,将独立域特征评分/>与将每种域特征向量ek作为独立域特征计算哈达玛积/>将共享域特征评分/>与将共享域特征向量[e1,e2,e3]处理后的共享域特征hk计算哈达玛积/>并将两个哈达玛积相加得到该域特征/>拼接各域特征gek得到融合后的多元特征
其中,k∈{1,2,3},k的取值不同,代表不同的域特征向量;
gk=σ(Wg.ek+bg),hk=tanh(Whek+Uh[e1,e2,e3]+bh),
fk=σ(Wf.ek+Uf[e1,e2,e3]+bf);σ,tanh,softmax表示不同的激活函数;Wg,Wf,Wh,Uf,Uh表示可学习权重矩阵;bg,bf,bh表示可学习偏置;表示融合后的第n个特征向量,n的取值范围由所述字特征、所述词特征和所述字形特征的总数决定;
将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
2.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,所述采用注意力机制将所述多个匹配词所构成的词汇信息整合之前还包括将所有字符的匹配词填充为相同长度。
3.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,所述对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征包括将汉字字符转换为繁体字字符,将所述繁体字字符拆分为不同字根,将所述字根输入到卷积神经网络中,随机初始化得到每个字根对应的嵌入向量,使用最大值池化和全连接网络输出得到每个字符的字形特征。
4.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,所述将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量包括采用堆叠空洞卷积网络对融合后的多元特征进行编码,计算出每个字符与其相邻字符之间的关联关系,得到每个字符的局部上下文向量;采用长短期记忆神经网络对融合后的多元特征进行编码,使用自注意力机制计算出每个字符与其相邻字符之间的关联关系,得到每个字符的全局上下文向量;将每个字符的局部上下文向量和全局上下文向量进行拼接,得到每个字符的上下文向量。
5.根据权利要求1所述的一种中文医疗智能实体识别方法,其特征在于,对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体包括将采用条件随机场损失函数从文本的上下文向量中筛选得到最优向量;基于所述最优向量识别得到对应的智能实体。
6.一种中文医疗智能实体识别装置,其特征在于,所述装置用于实现如权利要求1~5任一所述的一种中文医疗智能实体识别方法,所述装置包括:
获取模块,用于获取中文医疗领域的文本数据;
预处理模块,用于对所述文本数据构建出字典树;
字特征提取模块,用于采用词向量模型提取出文本数据中字符的字特征;
词特征提取模块,用于对文本数据中的每个字符通过所述字典树查找出对应的多个匹配词,并采用注意力机制将所述多个匹配词所构成的词汇信息整合,输出字符的词特征;
字形特征提取模块,用于对文本数据中的每个字符进行拆分,并通过卷积神经网络提取出每个字符的字形特征;
特征融合模块,用于将所述字特征、所述词特征和所述字形特征进行多元特征自适应融合;
预测模块,将融合后的多元特征输入到基于卷积神经网络和循环神经网络的混合模型中,输出文本的上下文向量;
识别模块,对所述文本的上下文向量利用条件随机场进行标签约束,识别出对应的智能实体。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5任一所述方法的步骤。
CN202111361534.3A 2021-11-17 2021-11-17 一种中文医疗智能实体识别方法、装置及计算机设备 Active CN113889281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111361534.3A CN113889281B (zh) 2021-11-17 2021-11-17 一种中文医疗智能实体识别方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111361534.3A CN113889281B (zh) 2021-11-17 2021-11-17 一种中文医疗智能实体识别方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN113889281A CN113889281A (zh) 2022-01-04
CN113889281B true CN113889281B (zh) 2024-05-03

Family

ID=79018159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111361534.3A Active CN113889281B (zh) 2021-11-17 2021-11-17 一种中文医疗智能实体识别方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113889281B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822859B (zh) * 2022-03-31 2023-11-03 数魔方(北京)医药科技有限公司 治疗线程挖掘和检索方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
WO2021027533A1 (zh) * 2019-08-13 2021-02-18 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113312918A (zh) * 2021-06-10 2021-08-27 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
WO2021179708A1 (zh) * 2020-10-20 2021-09-16 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
CN113657400A (zh) * 2021-08-19 2021-11-16 大连理工大学 基于跨模态文本检索注意力机制的文本指导图像分割方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
WO2021027533A1 (zh) * 2019-08-13 2021-02-18 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
WO2021179708A1 (zh) * 2020-10-20 2021-09-16 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113312918A (zh) * 2021-06-10 2021-08-27 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113657400A (zh) * 2021-08-19 2021-11-16 大连理工大学 基于跨模态文本检索注意力机制的文本指导图像分割方法

Also Published As

Publication number Publication date
CN113889281A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN111737474B (zh) 业务模型的训练和确定文本分类类别的方法及装置
US11501182B2 (en) Method and apparatus for generating model
US8874432B2 (en) Systems and methods for semi-supervised relationship extraction
CN111737975A (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN111709233A (zh) 基于多注意力卷积神经网络的智能导诊方法及系统
CN109871538A (zh) 一种中文电子病历命名实体识别方法
US20200364407A1 (en) Method and server for text classification using multi-task learning
CN107704456B (zh) 识别控制方法以及识别控制装置
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN109256216A (zh) 医学数据处理方法、装置、计算机设备和存储介质
CN110335653A (zh) 基于openEHR病历格式的非标准病历解析方法
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测系统
CN111680494A (zh) 相似文本的生成方法及装置
CN110633467A (zh) 一种基于改进特征融合的语义关系抽取方法
CN112507061A (zh) 多关系医学知识提取方法、装置、设备及存储介质
CN110687999A (zh) 一种对脑电信号进行语义处理的方法和装置
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN113889281B (zh) 一种中文医疗智能实体识别方法、装置及计算机设备
CN112307172A (zh) 一种语义解析设备、方法、终端及存储介质
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN117437422A (zh) 一种医学影像识别方法和装置
CN115374771A (zh) 文本标签确定方法及装置
CN117972121B (zh) 基于多模态大语言模型的关系抽取方法
CN113392929B (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240116

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240408

Address after: Room 609, 5th Floor, Building 237 Chaoyang North Road, Chaoyang District, Beijing, 100020

Applicant after: Huamei Haolian Medical Technology (Beijing) Co.,Ltd.

Country or region after: China

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Yami Technology (Guangzhou) Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant