CN106446526A - 电子病历实体关系抽取方法及装置 - Google Patents

电子病历实体关系抽取方法及装置 Download PDF

Info

Publication number
CN106446526A
CN106446526A CN201610798932.4A CN201610798932A CN106446526A CN 106446526 A CN106446526 A CN 106446526A CN 201610798932 A CN201610798932 A CN 201610798932A CN 106446526 A CN106446526 A CN 106446526A
Authority
CN
China
Prior art keywords
health record
electronic health
sentence
matrix
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610798932.4A
Other languages
English (en)
Other versions
CN106446526B (zh
Inventor
黄亦谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Original Assignee
Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kilo-Ampere Wise Man Information Technology Co Ltd filed Critical Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Priority to CN201610798932.4A priority Critical patent/CN106446526B/zh
Publication of CN106446526A publication Critical patent/CN106446526A/zh
Application granted granted Critical
Publication of CN106446526B publication Critical patent/CN106446526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开公开一种电子病历实体关系抽取方法及装置,属于医疗数据挖掘领域。该方法包括:通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;将特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。这样,利用了卷积神经网络模型的优势,挖掘出电子病历自然语言中实体之间的关系,为自动学习电子病历信息提供了技术途径。

Description

电子病历实体关系抽取方法及装置
技术领域
本公开涉及医疗数据挖掘领域,具体地,涉及一种电子病历实体关系抽取方法及装置。
背景技术
随着信息时代数据量的爆炸式增长,临床医疗数据也展现出其容量大、增速快、形式多样和潜在价值高的特点。而在临床医疗领域,以自然语言文本形式存在的电子病历数据占有重要地位。在这种背景下,使用计算机从非结构化的电子病历文本数据中自动抽取出结构化的信息,即信息抽取技术,受到了广泛的关注,具有重要的应用价值。电子病历实体关系抽取是其信息提取的核心任务。
目前,用于文本实体关系抽取主要是有监督方法,这类方法将实体关系抽取视为一个分类问题,将句子中实体之间的关系划分到预先定义好的类别中,从而完成关系抽取任务。这类方法有两个主流研究方向:(a)人工提取特征,如词性、语义角色、依存句法树等,然后使用支持向量机或者最大熵等分类器进行分类;(b)基于核函数的方法,计算输入字符的核函数,根据核函数的相似度来判定关系类型。但是,由于这些方法的分类性能很大程度上依赖于基础自然语言处理工具,如词性标注、语法分析等,至少存在以下缺陷:
(1)这些基础工具都存在错误;
(2)特征集的选择依靠经验和专家知识;
(3)有些语言没有完善的基础处理工具。
发明内容
本公开的目的是提供一种电子病历实体关系抽取方法及装置,能够挖掘出电子病历中实体之间的关系。
为了实现上述目的,本公开提供一种电子病历实体关系抽取方法,所述方法包括:通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。
可选地,所述通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵的步骤包括:分割每条电子病历自然语句的词;将每个词映射为一个m维的向量;将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。
可选地,在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量的步骤之前,所述方法还包括:滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果;根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征;利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
可选地,在所述滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤之前,所述方法还包括:设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。
可选地,所述利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数的步骤包括:选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注;根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。
此外,为实现上述目的,本公开还提供一种电子病历实体关系抽取装置,所述装置包括:矩阵获取模块,用于通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;计算模块,用于将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;抽取模块,用于将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。
可选地,所述矩阵获取模块包括:分割子模块,用于分割每条电子病历自然语句的词;映射子模块,用于将每个词映射为一个m维的向量;矩阵输出子模块,用于将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。
可选地,所述装置还包括:卷积模块,用于滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果;特征计算模块,用于根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征;参数计算模块,用于利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
可选地,所述装置还包括:设置模块,用于设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。
可选地,所述参数计算模块包括:分类标注子模块,用于选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注;参数计算子模块,用于根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。
通过上述技术方案,通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵,将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量,将特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。这样,利用了卷积神经网络模型的优势,挖掘出电子病历自然语言中实体之间的关系,为自动学习电子病历信息提供了技术途径。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一实施例提供的电子病历实体关系抽取方法的流程示意图;
图2是本公开一实施例提供的获取电子病历自然语句映射后的矩阵的流程示意图;
图3是本公开另一实施例提供的电子病历实体关系抽取方法的流程示意图;
图4是本公开一实施例提供的对所述卷积神经网络模型进行训练的流程示意图;
图5是本公开一实施例提供的电子病历实体关系抽取装置的框图;
图6是本公开一实施例提供的矩阵获取模块的框图;
图7是本公开另一实施例提供的电子病历实体关系抽取装置的框图;
图8是本公开一实施例提供的参数计算模块的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开提出的电子病历实体关系抽取方法及装置是基于卷积神经网络。所谓卷积神经网是一种特殊的深层神经网络,也是第一个成功应用的深层网络模型。卷积神经网利用空间相对关系减少参数数目,成为当今很多计算机视觉系统,如图像识别、自动驾驶等的核心部分。
卷积的概念来自于数字信号处理,一维形式的卷积定义如下:
公式(1)的物理含义是一个信号通过一个系统后的输出形式,数学形式上是求信号的加权平均值。
二维形式的卷积定义如下:
二维卷积常用于图像处理,在公式(2)中,f(x,y)是图像上点的灰度值,w(x,y)则是卷积核,也称为滤波器。卷积操作就相当于将图像通过滤波器进行滤波。在卷积神经网络中,并不是所有上下层神经元都能直接相连,而是通过“卷积核”作为中介,同一个卷积核在所有图像内是共享的。
卷积神经网络每层都由特征提取层和其后用来求局部平均与二次提取的计算层,这种特有的两层特征提取结构使网络在识别时有较高的畸变容忍能力。卷积神经网有三个主要优点:一是通过权值共享机制,减少了网络参数;二是卷积的操作非常快;三是通过下采样机制,使得提取的特征具有旋转不变性和平移不变性。卷积神经网几乎覆盖所有识别和检测任务。
图1是本公开一实施例提供的电子病历实体关系抽取方法的流程示意图。请参照图1,所述方法可以包括以下步骤。
在步骤S110中,通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵。
具体地,在卷积神经网络模型中,使用词向量将电子病历自然语句进行映射,每条语句表示为矩阵。
示例性地,使用词向量模型工具将每条电子病历自然语句的词映射为一个400维的向量,每条语句表示为矩阵。其中,矩阵列维数为400,行维数为该语句中词的个数。
图2是本公开一实施例提供的获取电子病历自然语句映射后的矩阵的流程示意图。请参照图2,通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵的步骤(步骤S110)可以包括以下步骤。
在步骤S210中,分割每条电子病历自然语句的词。
具体地,将每条电子病历自然语句的词都独立分割出来,可表示为:
Wn={w1,w2,w3,…,wn} (3)
在公式(3),Wn表示一条语句分割后的词向量表达式,n表示语句中词的个数。
在步骤S220中,将每个词映射为一个m维的向量。
具体地,利用词向量模型工具将每个词映射为一个m维的向量,可表示为:
在公式(4)中,表示词wi经过词向量模型工具映射后的词向量,D表示词向量模型工具的字典函数。
可选地,所述的词向量模型工具至少包括谷歌的开源词向量训练工具Word2vec和斯坦福大学的GloVe。
示例性地,取m为400,即:将每个词映射为一个维数为400的向量。
在步骤S230中,将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。
示例性地,取矩阵的列维数m为400,行维数为所述词的个数n,则每条映射后的电子病历自然语句表示为矩阵Vn×400
返回图1,在步骤S120中,将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量。
具体地,将电子病历自然语句映射后的矩阵经过卷积层和最大池化层,再进行非线性映射,得到特征,输入测试的电子病历自然语句,利用训练好的卷积神经网络模型得到该自然语句的特征向量。
在训练的时候,对连续n个词的窗口进行打分f(wt-n+1,…,wt-1,wt),分数越高则这句话越正常。在此假设条件下,卷积神经网络模型的最小化目标函数为:
在公式(5)中,χ是训练语料中所有连续n元短语,D是包含所有单词的词典。第一个求和使用训练语料中全部的n元短语作为正样本。第二个求和通过对词典中词的替换获取负样本。x(w)是将短语x中最中间的词,随机替换成w。在绝大部分情况下,用随机的一个词替换正常的一段短语中的词,这段短语将变得不再合理,所以x(w)构成了负样本。
在步骤S130中,将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。
具体地,将特征向量输入到已训练的分类器,根据最大概率原则抽取测试的电子病历自然语句的实体关系。
可选地,所述分类器可以是Softmax分类器。
本实施例提供的电子病历实体关系抽取方法,通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵,将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量,将特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系,从而利用了卷积神经网络模型的优势,挖掘出电子病历自然语言中实体之间的关系,为自动学习电子病历信息提供了技术途径。
图3是本公开另一实施例提供的电子病历实体关系抽取方法的流程示意图。参照图3,在图1的基础上,在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量的步骤(步骤S120)之前,所述方法还包括以下步骤。
步骤S310,滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果。
具体地,纵向滑动卷积核,得到与映射后的电子病历自然语句矩阵Vn×400的卷积结果,可表示为:
C={c1,c2,…,cn-h+1} (7)
在公式(6)中,Vn×400代表每条映射后的电子病历自然语句的矩阵,L代表卷积核,C代表卷积结果。在公式(7)中,C的维数为n-h+1,n为语句中词的个数,h为卷积核的行维数。
在步骤S320中,根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征。
具体地,根据每个卷积核得到的多个卷积结果,经过最大池化层得到电子病历自然语句的特征。
在步骤S330中,利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
在本公开的一实施例中,在图3的基础上,滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤(步骤S310)之前,所述方法还可以包括:设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。
示例性地,在电子病历自然语句中,选择多个相邻词的行维数分别为3、4、5的卷积核各100个,所有卷积核的列维数为400,卷积核的值为随机值,则三种卷积核分别表示为L3×400、L4×400、L5×400
图4是本公开一实施例提供的对所述卷积神经网络模型进行训练的流程示意图。请参照图4,在图3的基础上,利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数的步骤(步骤S330)可以包括以下步骤。
在步骤S410中,选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注。
在步骤S420中,根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。
具体地,根据梯度下降方法对卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
进一步地,上述参数可以表示为:θ=(F,S),其中,F代表卷积核参数,S代表分类器参数。
可选地,分类器为Softmax分类器。
本实施例的电子病历实体关系抽取方法,使用浅层网络,网络的输入层由词向量将自然语句映射后构成一个矩阵,该矩阵经过卷积层和池化层之后,得到特征,使用Softmax分类器,输出分类后的类别标签,从而利用卷积神经网络模型,挖掘出电子病历中实体之间的关系,为自动学习电子病历信息提供了技术途径。
图5是本公开一实施例提供的电子病历实体关系抽取装置的框图。请参照图5,所述电子病历实体关系抽取装置500可以包括矩阵获取模块510、计算模块520和抽取模块530。
矩阵获取模块510,用于通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵。
具体地,在卷积神经网络模型中,矩阵获取模块510使用词向量将电子病历自然语句进行映射,每条语句表示为矩阵。
示例性地,使用词向量模型工具将每条电子病历自然语句的词映射为一个400维的向量,每条语句表示为矩阵,其中,矩阵列维数为400,行维数为该语句中词的个数。
图6是本公开一实施例提供的矩阵获取模块510的框图。请参照图6,矩阵获取模块510可以包括分割子模块610、映射子模块620和矩阵输出子模块630。
分割子模块610用于分割每条电子病历自然语句的词。
具体地,分割子模块610将每条电子病历自然语句的词都独立分割出来,可表示为:
Wn={w1,w2,w3,…,wn} (3)
在公式(3)中,Wn表示一条语句分割后的词向量表达式,n表示语句中词的个数。
映射子模块620用于将每个词映射为一个m维的向量。
具体地,映射子模块620利用词向量模型工具将每个词映射为一个m维的向量,可表示为:
在公式(4)中,表示词wi经过词向量模型工具映射后的词向量,D表示词向量模型工具的字典函数。
可选地,所述的词向量模型工具至少包括谷歌的开源词向量训练工具Word2vec和斯坦福大学的GloVe。
示例性地,取m为400,即:将每个词映射为一个维数为400的向量。
矩阵输出子模块630用于将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。
示例性地,取矩阵的列维数m为400,行维数为所述词的个数n,则矩阵输出子模块630将每条映射后的电子病历自然语句表示为矩阵Vn×400
返回图5,计算模块520用于将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量。
具体地,计算模块520将电子病历自然语句映射后的矩阵经过卷积层和最大池化层,再进行非线性映射,得到特征,输入测试的电子病历自然语句,计算模块520利用训练好的卷积神经网络模型得到该自然语句的特征向量。
在训练的时候,对连续n个词的窗口进行打分f(wt-n+1,…,wt-1,wt),分数越高则这句话越正常。在此假设条件下,卷积神经网络模型的最小化目标函数为:
在公式(5)中,χ是训练语料中所有连续n元短语,D是包含所有单词的词典。第一个求和使用训练语料中全部的n元短语作为正样本。第二个求和通过对词典中词的替换获取负样本。x(w)是将短语x中最中间的词,随机替换成w。在绝大部分情况下,用随机的一个词替换正常的一段短语中的词,这段短语将变得不再合理,所以x(w)构成了负样本。
抽取模块530,用于将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。
具体地,将特征向量输入到已训练的分类器,抽取模块530根据最大概率原则抽取测试的电子病历自然语句的实体关系。
可选地,所述分类器可以是Softmax分类器。
本实施例提供的电子病历实体关系抽取装置,矩阵获取模块510通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵,计算模块520将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量,抽取模块530将特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系,从而利用了卷积神经网络模型的优势,挖掘出电子病历自然语言中实体之间的关系,为自动学习电子病历信息提供了技术途径。
图7是本公开另一实施例提供的电子病历实体关系抽取装置的框图。请参照图7,在图5的基础上,所述装置还包括卷积模块710、特征计算模块720、参数计算模块730。
卷积模块710用于滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果。
具体地,纵向滑动卷积核,卷积模块710得到与映射后的电子病历自然语句矩阵Vn×400的卷积结果,可表示为:
C={c1,c2,…,cn-h+1} (7)
在公式(6)中,Vn×400代表每条映射后的电子病历自然语句的矩阵,L代表卷积核,C代表卷积结果。在公式(7)中,C的维数为n-h+1,n为语句中词的个数,h为卷积核的行维数。
特征计算模块720用于根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征。
具体地,特征计算模块730根据每个卷积核得到的多个卷积结果,经过最大池化层得到电子病历自然语句的特征。
参数计算模块730用于利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
可选地,在图7的基础上,所述装置还可以包括设置模块。
设置模块用于设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。
示例性地,在电子病历自然语句中,设置模块选择多个相邻词的行维数分别为3、4、5的卷积核各100个,所有卷积核的列维数为400,卷积核的值为随机值,则三种卷积核分别表示为L3×400、L4×400、L5×400
图8是本公开一实施例提供的参数计算模块730的框图。请参照图8,参数计算模块730可以包括分类标注子模块810和参数计算子模块820。
分类标注子模块810用于选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注。
参数计算子模块820用于根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。
具体地,参数计算子模块820根据梯度下降方法对卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
进一步地,上述参数可以表示为:θ=(F,S),其中,F代表卷积核参数,S代表分类器参数。
可选地,分类器为Softmax分类器。
本实施例的电子病历实体关系抽取装置,使用浅层网络,网络的输入层由词向量将自然语句映射后构成一个矩阵,该矩阵经过卷积层和池化层之后,得到特征,使用Softmax分类器,输出分类后的类别标签,从而利用卷积神经网络模型,挖掘出电子病历中实体之间的关系,为自动学习电子病历信息提供了技术途径。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种电子病历实体关系抽取方法,其特征在于,所述方法包括:
通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;
将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;
将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。
2.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵的步骤包括:
分割每条电子病历自然语句的词;
将每个词映射为一个m维的向量;
将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。
3.根据权利要求1所述的方法,其特征在于,在所述将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量的步骤之前,所述方法还包括:
滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果;
根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征;
利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
4.根据权利要求3所述的方法,其特征在于,在所述滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果的步骤之前,所述方法还包括:
设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。
5.根据权利要求3所述的方法,其特征在于,所述利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数的步骤包括:
选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注;
根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。
6.一种电子病历实体关系抽取装置,其特征在于,所述装置包括:
矩阵获取模块,用于通过卷积神经网络模型和词向量化表示,获取电子病历自然语句映射后的矩阵;
计算模块,用于将测试的电子病历自然语句输入至已训练的卷积神经网络模型,得到特征向量;
抽取模块,用于将所述特征向量输入至已训练的分类器,抽取所述测试的电子病历自然语句的实体关系。
7.根据权利要求6所述的装置,其特征在于,所述矩阵获取模块包括:
分割子模块,用于分割每条电子病历自然语句的词;
映射子模块,用于将每个词映射为一个m维的向量;
矩阵输出子模块,用于将映射后的所述每条电子病历自然语句表示为n×m的矩阵,其中,矩阵的列维数为m,行维数为所述词的个数n。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
卷积模块,用于滑动卷积核,得到与映射后的所述电子病历自然语句的矩阵的卷积结果;
特征计算模块,用于根据所述卷积结果,经过最大池化层得到所述电子病历自然语句的特征;
参数计算模块,用于利用已有的电子病历训练集数据和所述特征,对所述卷积神经网络模型进行训练,得到卷积核参数和分类器参数。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
设置模块,用于设置所述电子病历自然语句中多个相邻词的行维数的卷积核的值为随机值。
10.根据权利要求8所述的装置,其特征在于,所述参数计算模块包括:
分类标注子模块,用于选取已有的电子病历训练集数据,将所述已有的电子病历训练集数据的实体关系进行分类标注;
参数计算子模块,用于根据所述分类批注和经过最大池化层得到的特征,训练所述卷积神经网络模型,得到卷积核参数和分类器参数。
CN201610798932.4A 2016-08-31 2016-08-31 电子病历实体关系抽取方法及装置 Active CN106446526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610798932.4A CN106446526B (zh) 2016-08-31 2016-08-31 电子病历实体关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610798932.4A CN106446526B (zh) 2016-08-31 2016-08-31 电子病历实体关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN106446526A true CN106446526A (zh) 2017-02-22
CN106446526B CN106446526B (zh) 2019-11-15

Family

ID=58164748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610798932.4A Active CN106446526B (zh) 2016-08-31 2016-08-31 电子病历实体关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN106446526B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107038336A (zh) * 2017-03-21 2017-08-11 科大讯飞股份有限公司 一种电子病历自动生成方法及装置
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN107863147A (zh) * 2017-10-24 2018-03-30 清华大学 基于深度卷积神经网络的医疗诊断的方法
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
WO2018205715A1 (zh) * 2017-05-08 2018-11-15 京东方科技集团股份有限公司 医学影像的表现生成系统、其训练方法及表现生成方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN109284497A (zh) * 2017-07-20 2019-01-29 京东方科技集团股份有限公司 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN109300550A (zh) * 2018-11-09 2019-02-01 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
CN110287270A (zh) * 2019-06-14 2019-09-27 北京百度网讯科技有限公司 实体关系挖掘方法及设备
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN111046185A (zh) * 2019-12-16 2020-04-21 重庆邮电大学 一种文本信息的知识图谱关系抽取方法、装置及终端
CN111145903A (zh) * 2019-12-18 2020-05-12 东北大学 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN111180025A (zh) * 2019-12-18 2020-05-19 东北大学 表示病历文本向量的方法、装置及问诊系统
CN111191668A (zh) * 2018-11-15 2020-05-22 零氪科技(北京)有限公司 一种在病历文本中识别出疾病内容的方法
CN111199801A (zh) * 2018-11-19 2020-05-26 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN111611395A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种实体关系的识别方法及装置
WO2020211250A1 (zh) * 2019-04-19 2020-10-22 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
US11514091B2 (en) 2019-01-07 2022-11-29 International Business Machines Corporation Extracting entity relations from semi-structured information

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037334A1 (en) * 2007-08-01 2009-02-05 Taipei Medical University Electronic medical record system, method for storing medical record data in the medical record system, and a portable electronic device loading the electronic medical record system therein
US20110251984A1 (en) * 2010-04-09 2011-10-13 Microsoft Corporation Web-scale entity relationship extraction
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN104965992A (zh) * 2015-07-13 2015-10-07 南开大学 一种基于在线医疗问答信息的文本挖掘方法
CN105335712A (zh) * 2015-10-26 2016-02-17 小米科技有限责任公司 图像识别方法、装置及终端
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037334A1 (en) * 2007-08-01 2009-02-05 Taipei Medical University Electronic medical record system, method for storing medical record data in the medical record system, and a portable electronic device loading the electronic medical record system therein
US20110251984A1 (en) * 2010-04-09 2011-10-13 Microsoft Corporation Web-scale entity relationship extraction
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN104915448A (zh) * 2015-06-30 2015-09-16 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN104965992A (zh) * 2015-07-13 2015-10-07 南开大学 一种基于在线医疗问答信息的文本挖掘方法
CN105335712A (zh) * 2015-10-26 2016-02-17 小米科技有限责任公司 图像识别方法、装置及终端
CN105512209A (zh) * 2015-11-28 2016-04-20 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨锦锋 等: "电子病历命名实体识别和实体关系抽取研究综述", 《自动化学报》 *
芮挺 等: "基于深度卷积神经网络的行人检测", 《计算机工程与应用》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107038336A (zh) * 2017-03-21 2017-08-11 科大讯飞股份有限公司 一种电子病历自动生成方法及装置
US11024066B2 (en) 2017-05-08 2021-06-01 Boe Technology Group Co., Ltd. Presentation generating system for medical images, training method thereof and presentation generating method
WO2018205715A1 (zh) * 2017-05-08 2018-11-15 京东方科技集团股份有限公司 医学影像的表现生成系统、其训练方法及表现生成方法
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN109284497A (zh) * 2017-07-20 2019-01-29 京东方科技集团股份有限公司 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN109284497B (zh) * 2017-07-20 2021-01-12 京东方科技集团股份有限公司 用于识别自然语言的医疗文本中的医疗实体的方法和装置
US11586809B2 (en) 2017-07-20 2023-02-21 Boe Technology Group Co., Ltd. Method and apparatus for recognizing medical entity in medical text
CN107833595A (zh) * 2017-10-12 2018-03-23 山东大学 医疗大数据多中心整合平台及方法
CN107863147A (zh) * 2017-10-24 2018-03-30 清华大学 基于深度卷积神经网络的医疗诊断的方法
CN107863147B (zh) * 2017-10-24 2021-03-16 清华大学 基于深度卷积神经网络的医疗诊断的方法
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN109300550B (zh) * 2018-11-09 2021-11-26 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN109300550A (zh) * 2018-11-09 2019-02-01 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN111191668B (zh) * 2018-11-15 2023-04-28 零氪科技(北京)有限公司 一种在病历文本中识别出疾病内容的方法
CN111191668A (zh) * 2018-11-15 2020-05-22 零氪科技(北京)有限公司 一种在病历文本中识别出疾病内容的方法
CN111199801B (zh) * 2018-11-19 2023-08-08 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用
CN111199801A (zh) * 2018-11-19 2020-05-26 零氪医疗智能科技(广州)有限公司 一种用于识别病历的疾病类型的模型的构建方法及应用
CN109670179A (zh) * 2018-12-20 2019-04-23 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109670179B (zh) * 2018-12-20 2022-11-11 中山大学 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
US11514091B2 (en) 2019-01-07 2022-11-29 International Business Machines Corporation Extracting entity relations from semi-structured information
CN111435410A (zh) * 2019-01-14 2020-07-21 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN111435410B (zh) * 2019-01-14 2023-04-14 阿里巴巴集团控股有限公司 用于医疗文本的关系抽取方法及其装置
CN109920501B (zh) * 2019-01-24 2021-04-20 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN111611395A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种实体关系的识别方法及装置
CN111611395B (zh) * 2019-02-25 2023-05-16 北京嘀嘀无限科技发展有限公司 一种实体关系的识别方法及装置
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
WO2020211250A1 (zh) * 2019-04-19 2020-10-22 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
CN110287270B (zh) * 2019-06-14 2021-09-14 北京百度网讯科技有限公司 实体关系挖掘方法及设备
CN110287270A (zh) * 2019-06-14 2019-09-27 北京百度网讯科技有限公司 实体关系挖掘方法及设备
CN110517747B (zh) * 2019-08-30 2022-06-03 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN111046185B (zh) * 2019-12-16 2023-02-24 重庆邮电大学 一种文本信息的知识图谱关系抽取方法、装置及终端
CN111046185A (zh) * 2019-12-16 2020-04-21 重庆邮电大学 一种文本信息的知识图谱关系抽取方法、装置及终端
CN111180025A (zh) * 2019-12-18 2020-05-19 东北大学 表示病历文本向量的方法、装置及问诊系统
CN111145903A (zh) * 2019-12-18 2020-05-12 东北大学 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统

Also Published As

Publication number Publication date
CN106446526B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN106446526A (zh) 电子病历实体关系抽取方法及装置
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
US9779085B2 (en) Multilingual embeddings for natural language processing
Huang et al. Instance-aware image and sentence matching with selective multimodal lstm
Wieting et al. Charagram: Embedding words and sentences via character n-grams
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN107766324A (zh) 一种基于深度神经网络的文本一致性分析方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN110209806A (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN107301165A (zh) 一种试题难度分析方法及系统
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN106778878B (zh) 一种人物关系分类方法及装置
Rizvi et al. Optical character recognition system for Nastalique Urdu-like script languages using supervised learning
Ghaeini et al. Saliency learning: Teaching the model where to pay attention
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
Khayyat et al. A deep learning based prediction of arabic manuscripts handwriting style.
CN106227836A (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
Akhlaghi et al. Farsi handwritten phone number recognition using deep learning
Fallah et al. Detecting features of human personality based on handwriting using learning algorithms
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN110705259A (zh) 一种多粒度捕获匹配特征的文本匹配方法
Fan et al. A medical pre-diagnosis system for histopathological image of breast cancer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant