CN106484674A - 一种基于深度学习的中文电子病历概念抽取方法 - Google Patents

一种基于深度学习的中文电子病历概念抽取方法 Download PDF

Info

Publication number
CN106484674A
CN106484674A CN201610835901.1A CN201610835901A CN106484674A CN 106484674 A CN106484674 A CN 106484674A CN 201610835901 A CN201610835901 A CN 201610835901A CN 106484674 A CN106484674 A CN 106484674A
Authority
CN
China
Prior art keywords
feature
layer
rbm
input
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610835901.1A
Other languages
English (en)
Other versions
CN106484674B (zh
Inventor
赵申荷
李建强
张苓琳
莫豪文
闫蕾
林玉凤
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingtel Technology Co ltd
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201610835901.1A priority Critical patent/CN106484674B/zh
Publication of CN106484674A publication Critical patent/CN106484674A/zh
Application granted granted Critical
Publication of CN106484674B publication Critical patent/CN106484674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • G06F19/32
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于深度学习的中文电子病历概念抽取方法,包括:利用多层稀疏自动编码器的深层架构训练出目标词的上下文分布式特征,之后合并本身具有高级概念意义的实体特征——标记特征和词性特征为整体特征,将整体特征输入到深度信念网络中进行模型训练。比对样本的标记特征进行残差计算,通过有监督地微调,对整个深层架构的性能进行优化调整。本发明的方法充分利用了深度学习对特征进行深层优化的特点,同时加入了实体特征作为先验知识,在减少了对于人工特征依赖的同时,可提高分类和预测的准确性。

Description

一种基于深度学习的中文电子病历概念抽取方法
技术领域
本发明涉及一种基于深度学习对中文电子病历进行概念抽取的方法。
背景技术
电子病历(Electronic Medical Record,EMR)是指医务人员在医疗活动过程中,使用医疗信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并且该活动记录可以实现传输和重现,并利用信息化手段进行存储和管理。随着电子病历的不断普及,大量的医疗数据以电子病历的形式被不断地积累下来。其中,相当大部分的数据依然以叙述性文本的形式存在,如何抽取电子病历中的医学概念,将非结构性文本结构化,已成为电子病历发展过程中亟待解决的问题。
概念抽取是指从自由文本中抽取出某一特定领域的概念,并将其结构化存储,从而将非结构化文本转化为结构化文本。传统的中文电子病历概念抽取方法主要分为两种:基于规则和基于统计。基于规则的方法倾向于在已有的符号处理系统和规则体系下,根据人工构造的词法、句法和语义规则,对输入语句进行匹配分析,从而实现概念抽取。然而规则的撰写人工成本高,且其效率严重依赖规则的质量,单纯基于规则的方法已不能取得很好的识别效果。基于统计的方法利用统计方法和概率学知识,将统计模型应用到概念抽取中,利用已收集的标注语料学习特征并训练模型参数,进而用训练好的统计模型来进行概念抽取。其中,基于条件随机场的统计模型已代表了学术界的最前沿水平。但此类方法的缺陷在于识别效果严重依赖训练数据、模型开销随特征的增多而无限制增长、开放领域下召回率显著下降、可移植性较差。
近年来,随着深度学习在图像识别和语音识别等领域取得的巨大成功,其在自然语言处理(NLP)上的应用也是逐渐增多。深度学习通过学习一种深层非线性网络结构,实现复杂函数逼近,学习出更高级的特征,从而提升分类或预测的准确性,减少了对手工特征制定的依赖。然而同语音和图像识别相比,深度学习在自然语言处理领域并没有取得突破性成果。在国外研究中,Collobert等(A Neural Probabilistic Language Model,2003,Journal of Machine Learning Research,1137-1155)在word embedding的基础上,采用多层卷积神经网络结构来解决包括NER在内的四种标注任务;斯坦福大学的Manning等(Parsing Natural Scenes and Natural Language with Recursive Neural Networks,2011,Proceedings of the 28th International Conference on Machine Learning)也利用深层神经网络进行了一系列NLP任务的研究,研究均达到了the-state-of-the-art,但没有取得突破性进展。目前,在中文的概念抽取领域,鲜有深度学习成功应用的范例。Chen等(Using Deep Belief Nets for Chinese Named Entity Categorization,2010,Proceedings of the 2010 Named Entities Workshop,102-109)在ACE2004的语料集上,采用深度信念网络进行命名实体分类,其结果与SVM,ANN等相比并没有体现出深度结构的优势,且多层的RBM相对于单层的RBM分类效果也没有显著提升。
现有的神经网络语言模型,将目标词上下文各词的语义组合作为输入值,输入到深度神经网络中进行参数训练,以实现对于上下文和目标词之间关系的建模。而这种输入值的定义方法,对于标记语料来说,忽略了实体本身的标记特征、词性特征等语言学特征。在训练中,未加入这些重要特征,会使得模型对于实体本身特性得不到充分的训练,从而影响了最终模型的健壮性。Collobert等在文献(Natural language processing(almost)from scratch,2011,The Journal of Machine Learning Research,2493-2537)中也提到,在命名实体识别等序列标注任务中,神经网络方法与传统的基于特征工程的机器学习方法仍然有一些差距。神经网络模型若配合少量人工的先验知识,就可以达到以往通过人工精心设计特征才能达到的性能。
发明内容:
本发明针对传统概念抽取方法过于依赖手工制定特征,已有的基于深度学习的概念抽取方法缺乏重要的先验知识,准确率并未取得突破性进展等问题,提出一种基于深度学习的中文电子病历概念抽取方法,将深度学习方法和少量的实体特征相结合。
为实现上述目的,本发明采用如下的技术方案:
一种基于深度学习的中文电子病历概念抽取方法包括以下步骤:
步骤一:获取上下文特征
采用词的独热表示(one-hot representation)对上下文所有词进行表示,利用滑动窗口的方法获取上下文特征,作为固定维度的输入向量;
步骤二:获取上下文分布式特征
将步骤一获得的上下文特征作为输入向量,输入到多层稀疏自动编码器的深层结构中,对输入数据进行自监督式(self-supervised)的特征学习,获得更高级,更抽象的上下文分布式特征;
步骤三:合并特征
将标记实体本身的标记特征、词性特征与步骤二得到的上下文分布式特征合并为整体特征;
步骤四:将整体特征输入到深度信念网络中进行参数训练;
步骤五:用训练好的深度信念网络模型对测试样本进行概念抽取。
作为优选,步骤二中多层稀疏自动编码器由单层稀疏自动编码器堆叠而成,在具体训练过程中,对每一层的稀疏自动编码器采用梯度下降的方式进行训练,当单层输出与输入误差小于给定阀值后,停止训练,此时去掉自动编码器的解码层,保留其编码层,固定编码层的参数,并将当前编码结果作为下一个自动编码器的输入;由此逐层训练,经过多层的编码变换后,获得上下文的分布式特征。
作为优选,步骤四中的深度信念网络是由多个受限玻尔兹曼机(RestrictedBoltzmann Machine,RBM)堆叠而成,并在输出层构造了一个多节点的罗杰斯特回归(Logistic Regres-sion)分类网络;将整体向量传入输入层,训练第一层的RBM;接着固定第一层RBM参数,将第一层RBM的输出作为第二层RBM的输入,训练第二层RBM;类似地固定前两层RBM的参数,完成第三层RBM的训练;将最后一层RBM的输出值作为顶端分类器的输入值。RBM不同层间节点的权值由对比散度(Contrastive Divergence,CD)算法获得;最后利用反向传播算法,比对训练样本的标记特征进行残差计算,然后有监督地微调,对整个深层架构的性能进行优化调整。整个模型中,靠近输入端的RBM训练依靠前一层的输出自监督进行;而靠近输出端分类层的训练,是依靠与原始数据对应的标记结果,有监督地梯度下降过程。
作为优选,步骤五采用BILOU标准准则进行中文电子病历的概念抽取,其中,U表示当前字符就是一个实体,B表示当前字符是一个实体的开始字符,I表示当前字符是一个实体的中间字符,L表示当前字符是一个实体的结尾字符,O表示当前字符在实体名称外部;有两种情况下字符或者字符串被检测为一个实体:一种是当字符di的标记是U时,di就是一个实体指称;另外一种是如果相邻的若干个字符di,di+1...di+j的标记能够组成BI*L,其中I*表示0个或者若干个I,那么di,di+1...di+j组成的字符串是一个实体。
本发明在多层稀疏自动编码器的深层架构训练出的上下文分布式特征中,加入了本身具有高级概念意义的实体特征——标记特征和词性特征,将合并后的整体特征输入到深度信念网络中进行模型训练。比对样本的标记特征进行残差计算,通过有监督地微调,对整个深层架构的性能进行优化调整。测试阶段,将测试样本输入深度信念网络之中,利用深度学习中逐层训练的思路,在对输入特征进行维度放缩后,输入到顶层分类器中,计算出分类概率,得到最终的分类结果。本发明的方法充分利用了深度学习对特征进行深层优化的特点,同时加入了实体特征作为先验知识,在减少了对于人工特征依赖的同时,可提高分类和预测的准确性。
附图说明
图1为本发明一个实施例的基于深度学习的中文电子病历概念抽取方法的流程图;
图2a为本发明一个实施例多层稀疏自动编码器的模型结构图;
图2b为本发明一个实施例深度信念网络的模型结构图;
图3为本发明一个实施例基于深度学习中文电子病历概念抽取训练流程图;
图4为发明一个实施例基于深度学习中文电子病历概念抽取训练的简单示例。
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。
鉴于以上所述的包括传统概念抽取方法过于依赖手工制定特征,基于深度学习的概念抽取方法缺乏重要的先验知识,准确率并未取得突破性进展等问题,本发明提出了一种基于深度学习的中文电子病历概念抽取方法。下面结合图1,说明根据本发明一个实施例的基于深度学习的中文电子病历概念抽取方法示例。
图1示出了根据本发明一个实施例的基于深度学习的中文电子病历概念抽取方法的详细框图。如图1所示,根据本发明一个实施例的中文电子病历概念抽取方法包括上下文分布式特征获取装置、整体特征获取装置以及深度信念网络训练装置,它们的功能如下:上下文分布式特征获取装置通过将构建的上下文特征输入到多层稀疏自动编码器中,实现具有更高级表达含义的上下文分布式特征的获取,多层稀疏自动编码器的模型结构图如图2a所示;整体特征获取装置将标记实体本身的标记特征、词性特征与上一个步骤得到的上下文分布式特征合并为整体特征;深度信念网络训练装置将整体特征输入到深度信念网络中进行参数训练,最后利用训练好的深度信念网络模型进行中文电子病历的概念抽取,深度信念网络的模型结构图如图2b所示。
本发明实施例的一种基于深度学习的中文电子病历概念抽取方法,包括以下步骤:
步骤一:获取上下文特征
采用词的独热表示(one-hot representation)对上下文所有词进行表示,利用滑动窗口的方法获取上下文特征,作为固定维度的输入向量;
步骤二:获取上下文分布式特征
将步骤一获得的上下文特征作为输入向量,输入到多层稀疏自动编码器的深层结构中,对输入数据进行自监督式(self-supervised)的特征学习,获得更高级,更抽象的上下文分布式特征;
步骤三:合并特征
将标记实体本身的标记特征、词性特征与步骤二得到的上下文分布式特征合并为整体特征;
步骤四:将整体特征输入到深度信念网络中进行参数训练;
步骤五:用训练好的深度信念网络模型对测试样本进行概念抽取。
作为优选,步骤一中首先采用词的独热表示(one-hot representation)对上下文所有词进行表示,即在高维向量中只有一个维度描述了词的语义,作为词的唯一编码,设E={w1,w2,...,wn}为上下文所有词构成的集合,每一个词对应着一个向量的表示方法,如di={β12,...,βn},其中对于每一个词的向量,都只有一个值为1,其余值为0。所有词的独热表示组成了训练语料的字向量集合,存于词典D中。
下面采用滑动窗口的方式构造输入向量:指定窗口值w(其中w>2且为奇数),取当前目标词di前后各个字作为当前目标词的上下文,从字向量词典D中找到窗口中所有字的独热表示,将其首尾相连,这样将就截获了维度固定为1*wn的上下文特征作为输入向量。黄昌宁,赵海在文献(中文分词十年回顾,2007,中文信息学报,21(3):8–19)中通过大量实验表明窗口为5个字可以覆盖真实文本中99%以上的情况。因此本发明也设定w=5。
步骤二中的多层稀疏自动编码器是基于栈式自动编码器(Stack Auto-encoder)的神经网络,将多个稀疏自动编码器堆叠形成深层结构。这样的结构在编码层具有强大的特征表达能力,可输出更好地表征原始数据的潜在特征。
首先构造单层的稀疏自动编码器,稀疏自动编码器是一种无监督学习的网络结构,在前向计算和反向传播时与传统神经网络一致,唯一的区别在于这种网络尝试让模型的输出值等于输入值。直观来看,这种做法并不存在实际意义,但从另一个角度来说,经过编码器和解码器的转换之后,隐藏单元的输出正好是输入特征的另一种表达方式。加入了稀疏性的限制之后,一方面保留了具有识别可区别性的特征,另一方面去除了通用存在的特征,这样的特征对于分类效果的改进更加明显。
多层稀疏自动编码器由单层稀疏自动编码器堆叠而成,在具体训练过程中,对每一层的稀疏自动编码器采用梯度下降的方式进行训练,当单层输出与输入误差小于给定阀值后,停止训练。此时去掉自动编码器的解码层,保留其编码层,固定编码层的参数,并将当前编码结果作为下一个自动编码器的输入。由此逐层训练,经过多层的编码变换后,获得上下文的分布式特征,存于词典D1中。
步骤三将标记实体本身的标记特征、词性特征与步骤二得到的上下文分布式特征合并为整体特征,存于词典D2中。
步骤四中的深度信念网络是由多个受限玻尔兹曼机(Restricted BoltzmannMachine,RBM)堆叠而成,并在输出层构造了一个多节点的罗杰斯特回归(LogisticRegression)分类网络。将整体向量传入输入层,训练第一层的RBM;接着固定第一层RBM参数,将第一层RBM的输出作为第二层RBM的输入,训练第二层RBM;类似地固定前两层RBM的参数,利用第二层RBM的输出完成第三层RBM的训练,将最后一层RBM的输出值作为顶端分类器的输入值。RBM不同层间节点的权值由对比散度(Contrastive Divergence,CD)算法获得。最后利用反向传播算法,比对训练样本的标记特征进行残差计算,然后有监督地微调,对整个深层架构的性能进行优化调整。整个模型中,靠近输入端的RBM训练依靠前一层的输出自监督进行;而靠近输出端分类层的训练,是依靠与原始数据对应的标记结果,有监督地梯度下降过程。
步骤五在进行概念抽取时,采用BILOU的标注准则。除此之外,还有BIO,BILO等方式的标注准则,标记表示的意义与BILOU准则相同。Ratinov L,Roth D在论文(DesignChallenges and Misconceptions in Named Entity Recognition,2009,Proceedings ofthe Thirteenth Conference on Computational Natural Language Learning,147–155.)在MUC-7 and CoNLL03的英文语料上,比较了BIO标注准则和BILOU标注准则,结果显示BILOU标准准则的结果略优于BIO标准准则。所以本发明采用BILOU标准准则进行中文电子病历的概念抽取。BILOU的标注准则中,U表示当前字符就是一个实体,B表示当前字符是一个实体的开始字符,I表示当前字符是一个实体的中间字符,L表示当前字符是一个实体的结尾字符,O表示当前字符在实体名称外部。有两种情况下字符或者字符串被检测为一个实体:一种是当字符di的标记是U时,di就是一个实体指称;另外一种是如果相邻的若干个字符di,di+1...di+j的标记能够组成BI*L,其中I*表示0个或者若干个I,那么di,di+1...di+j组成的字符串是一个实体。
在输出阶段,深度信念网络的分类器输出节点数目应与不同标记结果的个数保持一致。例如,在只考虑器官和症状的识别场景下,至少需要10-tags标注集作为深层结构的输出标记,如下表1所示
表1 10-tags标注集名称及对应的含义
图3示出了根据本发明一个实施例基于深度学习中文电子病历概念抽取训练流程图,下面根据该流程给出本发明实施例的一个简单举例,如图4所示。假设训练目的为抽取中文电子病历中关于身体部位的描述,如“心肝脾肺肾”等,语料里有一句待训练语句为“患者头痛三日”,因为滑动窗口设为5,所以“患”、“者”、“痛”、“三”为目标词“头”的上下文。在词典中查得上下文各字对应的独热表示,分别为…10000…,…01000…,…00010…,…00001…。将其收尾相接,组成上下文特征为…10000…01000…00010…00001…。将获取的上下文特征输入到多层稀疏自动编码器中,得到上下文的分布式表示0.232 0.123 0.2831.714 0.689…。合并实体特征和上下文分布式特征为整体特征,假设“头”对应的实体特征的属性值为1 2,则整体特征为0.232 0.123 0.283 1,714 0.689…1 2。将整体特征输入到深度信念网络中进行参数训练,比对样本的标记特征进行残差计算,然后有监督地微调,对整个深层架构的性能进行优化调整。模型训练好后,将测试样本“未出现头晕症状”对应的上下文特征输入到模型中,可得到输出结果‘OOOUOOO’,即“头”为一个概念实体。上面已经参考附图对根据本发明实施例的基于深度学习的中文电子病历概念抽取方法进行了详细描述。如前所述,本发明将深度学习技术溶入概念抽取中,同时将实体特征作为先验知识加入到了深层结构学习出的上下文分布式特征中,利用整体特征进行深度信念网络的模型训练。相对于现有的概念抽取技术,本发明可以大大减少对手工特征的依赖,利用深度学习的深层结构学习出具有高级概念意义的特征,从而可提高分类和预测的准确性。
但是,需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (4)

1.一种基于深度学习的中文电子病历概念抽取方法,其特征在于,包括以下步骤:
步骤一:获取上下文特征
采用词的独热表示(one-hot representation)对上下文所有词进行表示,利用滑动窗口的方法获取上下文特征,作为固定维度的输入向量;
步骤二:获取上下文分布式特征
将步骤一获得的上下文特征作为输入向量,输入到多层稀疏自动编码器的深层结构中,对输入数据进行自监督式(self-supervised)的特征学习,获得更高级,更抽象的上下文分布式特征;
步骤三:合并特征
将标记实体本身的标记特征、词性特征与步骤二得到的上下文分布式特征合并为整体特征;
步骤四:将整体特征输入到深度信念网络中进行参数训练;
步骤五:用训练好的深度信念网络模型对测试样本进行概念抽。
2.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法,其特征在于,步骤二中多层稀疏自动编码器由单层稀疏自动编码器堆叠而成,在具体训练过程中,对每一层的稀疏自动编码器采用梯度下降的方式进行训练,当单层输出与输入误差小于给定阀值后,停止训练,此时去掉自动编码器的解码层,保留其编码层,固定编码层的参数,并将当前编码结果作为下一个自动编码器的输入;由此逐层训练,经过多层的编码变换后,获得上下文的分布式特征。
3.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法,其特征在于,步骤四中的深度信念网络是由多个受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)堆叠而成,并在输出层构造了一个多节点的罗杰斯特回归(Logistic Regression)分类网络;将整体向量传入输入层,训练第一层的RBM;接着固定第一层RBM参数,将第一层RBM的输出作为第二层RBM的输入,训练第二层RBM;类似地固定前两层RBM的参数,完成第三层RBM的训练;将最后一层RBM的输出值作为顶端分类器的输入值。RBM不同层间节点的权值由对比散度(Contrastive Divergence,CD)算法获得;最后利用反向传播算法,比对训练样本的标记特征进行残差计算,然后有监督地微调,对整个深层架构的性能进行优化调整。整个模型中,靠近输入端的RBM训练依靠前一层的输出自监督进行;而靠近输出端分类层的训练,是依靠与原始数据对应的标记结果,有监督地梯度下降过程。
4.根据权利要求1所述的基于深度学习的中文电子病历概念抽取方法,其特征在于,步骤五采用BILOU标准准则进行中文电子病历的概念抽取,其中,U表示当前字符就是一个实体,B表示当前字符是一个实体的开始字符,I表示当前字符是一个实体的中间字符,L表示当前字符是一个实体的结尾字符,O表示当前字符在实体名称外部;有两种情况下字符或者字符串被检测为一个实体:一种是当字符di的标记是U时,di就是一个实体指称;另外一种是如果相邻的若干个字符di,di+1...di+j的标记能够组成BI*L,其中I*表示0个或者若干个I,那么di,di+1...di+j组成的字符串是一个实体。
CN201610835901.1A 2016-09-20 2016-09-20 一种基于深度学习的中文电子病历概念抽取方法 Active CN106484674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610835901.1A CN106484674B (zh) 2016-09-20 2016-09-20 一种基于深度学习的中文电子病历概念抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610835901.1A CN106484674B (zh) 2016-09-20 2016-09-20 一种基于深度学习的中文电子病历概念抽取方法

Publications (2)

Publication Number Publication Date
CN106484674A true CN106484674A (zh) 2017-03-08
CN106484674B CN106484674B (zh) 2020-09-25

Family

ID=58267656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610835901.1A Active CN106484674B (zh) 2016-09-20 2016-09-20 一种基于深度学习的中文电子病历概念抽取方法

Country Status (1)

Country Link
CN (1) CN106484674B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145511A (zh) * 2017-03-31 2017-09-08 上海森亿医疗科技有限公司 基于医学文本信息的结构化医学数据库生成方法及系统
WO2017172629A1 (en) * 2016-03-28 2017-10-05 Icahn School Of Medicine At Mount Sinai Systems and methods for applying deep learning to data
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN107833605A (zh) * 2017-03-14 2018-03-23 北京大瑞集思技术有限公司 一种医院病历信息的编码方法、装置、服务器及系统
CN108038104A (zh) * 2017-12-22 2018-05-15 北京奇艺世纪科技有限公司 一种实体识别的方法及装置
CN108334501A (zh) * 2018-03-21 2018-07-27 王欣 基于机器学习的电子文档分析系统及方法
CN108959375A (zh) * 2018-05-24 2018-12-07 南京网感至察信息科技有限公司 一种基于规则与深度学习的知识抽取方法
CN108985330A (zh) * 2018-06-13 2018-12-11 华中科技大学 一种自编码网络及其训练方法、异常用电检测方法和系统
CN109034066A (zh) * 2018-07-27 2018-12-18 北方工业大学 基于多特征融合的建筑物识别方法
CN109308471A (zh) * 2018-09-29 2019-02-05 河海大学常州校区 一种肌电信号特征提取方法
CN109326278A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN109378064A (zh) * 2018-10-29 2019-02-22 南京医基云医疗数据研究院有限公司 医疗数据处理方法、装置电子设备及计算机可读介质
CN109543046A (zh) * 2018-11-16 2019-03-29 重庆邮电大学 一种基于深度学习的机器人数据互操作领域本体构建方法
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN109977112A (zh) * 2018-12-28 2019-07-05 万康源(天津)基因科技有限公司 科研文献的结构化信息提取方法及系统
CN111488211A (zh) * 2020-04-09 2020-08-04 北京嘀嘀无限科技发展有限公司 基于深度学习框架的任务处理方法、装置、设备及介质
CN111695347A (zh) * 2019-03-15 2020-09-22 百度(美国)有限责任公司 用于主题发现和词嵌入的相互学习的系统和方法
CN111727478A (zh) * 2018-02-16 2020-09-29 谷歌有限责任公司 使用深度卷积网络从医学文本中自动提取结构化标签并将其用于训练计算机视觉模型
WO2020261002A1 (en) * 2019-06-27 2020-12-30 International Business Machines Corporation Deep learning approach to computing spans
CN112445789A (zh) * 2019-08-16 2021-03-05 北京大数医达科技有限公司 用于将目标文本转化成结构化数据的方法和装置
CN112466462A (zh) * 2020-11-26 2021-03-09 华侨大学 一种基于图深度学习的emr信息关联及演化方法
US20230103143A1 (en) * 2021-09-24 2023-03-30 International Business Machines Corporation Machine Learning Augmented System for Medical Episode Identification and Reporting
US11984206B2 (en) 2018-02-16 2024-05-14 Google Llc Automated extraction of structured labels from medical text using deep convolutional networks and use thereof to train a computer vision model

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032570A1 (en) * 2012-07-30 2014-01-30 International Business Machines Corporation Discriminative Learning Via Hierarchical Transformations
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032570A1 (en) * 2012-07-30 2014-01-30 International Business Machines Corporation Discriminative Learning Via Hierarchical Transformations
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯蕴天 等: "基于深度信念网络的命名实体识别", 《计算机科学》 *
张良均著: "《Python数据分析与挖掘实战》", 31 January 2016, 北京:机械工业出版社 *
李思琴: "基于深度学习的搜索广告点击率预测方法研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *
陈宇: "基于深度置信网络的中文信息抽取方法", 《中国博士学位论文全文数据库-信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017172629A1 (en) * 2016-03-28 2017-10-05 Icahn School Of Medicine At Mount Sinai Systems and methods for applying deep learning to data
CN107833605A (zh) * 2017-03-14 2018-03-23 北京大瑞集思技术有限公司 一种医院病历信息的编码方法、装置、服务器及系统
CN107145511A (zh) * 2017-03-31 2017-09-08 上海森亿医疗科技有限公司 基于医学文本信息的结构化医学数据库生成方法及系统
CN109326278A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN109326278B (zh) * 2017-07-31 2022-06-07 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN108038104A (zh) * 2017-12-22 2018-05-15 北京奇艺世纪科技有限公司 一种实体识别的方法及装置
US11984206B2 (en) 2018-02-16 2024-05-14 Google Llc Automated extraction of structured labels from medical text using deep convolutional networks and use thereof to train a computer vision model
CN111727478A (zh) * 2018-02-16 2020-09-29 谷歌有限责任公司 使用深度卷积网络从医学文本中自动提取结构化标签并将其用于训练计算机视觉模型
CN108334501B (zh) * 2018-03-21 2021-07-20 王欣 基于机器学习的电子文档分析系统及方法
CN108334501A (zh) * 2018-03-21 2018-07-27 王欣 基于机器学习的电子文档分析系统及方法
CN108959375A (zh) * 2018-05-24 2018-12-07 南京网感至察信息科技有限公司 一种基于规则与深度学习的知识抽取方法
CN108985330A (zh) * 2018-06-13 2018-12-11 华中科技大学 一种自编码网络及其训练方法、异常用电检测方法和系统
CN108985330B (zh) * 2018-06-13 2021-03-26 华中科技大学 一种自编码网络及其训练方法、异常用电检测方法和系统
CN109034066A (zh) * 2018-07-27 2018-12-18 北方工业大学 基于多特征融合的建筑物识别方法
CN109034066B (zh) * 2018-07-27 2022-05-03 北方工业大学 基于多特征融合的建筑物识别方法
CN109308471A (zh) * 2018-09-29 2019-02-05 河海大学常州校区 一种肌电信号特征提取方法
CN109378064A (zh) * 2018-10-29 2019-02-22 南京医基云医疗数据研究院有限公司 医疗数据处理方法、装置电子设备及计算机可读介质
CN109543046A (zh) * 2018-11-16 2019-03-29 重庆邮电大学 一种基于深度学习的机器人数据互操作领域本体构建方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109800411B (zh) * 2018-12-03 2023-07-18 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109977112A (zh) * 2018-12-28 2019-07-05 万康源(天津)基因科技有限公司 科研文献的结构化信息提取方法及系统
CN109920501B (zh) * 2019-01-24 2021-04-20 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN111695347A (zh) * 2019-03-15 2020-09-22 百度(美国)有限责任公司 用于主题发现和词嵌入的相互学习的系统和方法
CN111695347B (zh) * 2019-03-15 2023-08-18 百度(美国)有限责任公司 用于主题发现和词嵌入的相互学习的系统和方法
GB2598879A (en) * 2019-06-27 2022-03-16 Ibm Deep learning approach to computing spans
WO2020261002A1 (en) * 2019-06-27 2020-12-30 International Business Machines Corporation Deep learning approach to computing spans
US11379660B2 (en) 2019-06-27 2022-07-05 International Business Machines Corporation Deep learning approach to computing spans
CN112445789A (zh) * 2019-08-16 2021-03-05 北京大数医达科技有限公司 用于将目标文本转化成结构化数据的方法和装置
CN111488211A (zh) * 2020-04-09 2020-08-04 北京嘀嘀无限科技发展有限公司 基于深度学习框架的任务处理方法、装置、设备及介质
CN112466462A (zh) * 2020-11-26 2021-03-09 华侨大学 一种基于图深度学习的emr信息关联及演化方法
CN112466462B (zh) * 2020-11-26 2023-03-07 华侨大学 一种基于图深度学习的emr信息关联及演化方法
US20230103143A1 (en) * 2021-09-24 2023-03-30 International Business Machines Corporation Machine Learning Augmented System for Medical Episode Identification and Reporting

Also Published As

Publication number Publication date
CN106484674B (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN106484674A (zh) 一种基于深度学习的中文电子病历概念抽取方法
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN109344391B (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN108073711A (zh) 一种基于知识图谱的关系抽取方法和系统
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN115358234A (zh) 基于图卷积网络与关系证据互指导的篇章关系抽取方法
Wu et al. WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN113177113B (zh) 任务型对话模型预训练方法、装置、设备及存储介质
CN117036833B (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
CN117421595A (zh) 一种基于深度学习技术的系统日志异常检测方法及系统
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
Sairam et al. Image Captioning using CNN and LSTM
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及系统
CN115114930A (zh) 一种基于序列到森林的非连续实体识别方法
CN114429121A (zh) 一种面向试题语料情感与原因句子对的抽取方法
CN113836910A (zh) 一种基于多层次语义的文本识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210610

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co., Ltd

Address before: 100124 No. 100 Chaoyang District Ping Tian Park, Beijing

Patentee before: Beijing University of Technology

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211122

Address after: 510000 Room 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 401, building D, No. 288 Shenzhou Road, Huangpu District, Guangzhou, Guangdong

Patentee after: Kingtel Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co., Ltd

TR01 Transfer of patent right