CN106980608A - 一种中文电子病历分词和命名实体识别方法及系统 - Google Patents
一种中文电子病历分词和命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN106980608A CN106980608A CN201710155128.9A CN201710155128A CN106980608A CN 106980608 A CN106980608 A CN 106980608A CN 201710155128 A CN201710155128 A CN 201710155128A CN 106980608 A CN106980608 A CN 106980608A
- Authority
- CN
- China
- Prior art keywords
- health record
- electronic health
- word
- entity
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了一种中文电子病历分词和命名实体识别新方法及新系统。主要包括:基于CRF模型对中文电子病历文本进行分词以及利用crf++工具获取单词的向量表示特征、基于双向循环神经网络LSTM模型对单词特征向量进行深度表示学习,并对实体进行分类预测、基于B/S架构提供图形交互界面的在线系统。使用本发明可以对中文电子病历进行分类及预测,相较于传统的机器学习方法,有效减少了人工构造特征的工作量;本发明还为用户提供了交互系统能对预测结果进行修正与改进。
Description
技术领域
本发明属于自然语言处理,是一种中文电子病历分词和命名实体识别方法及系统。具体是指基于双向长短期记忆网络LSTM对实体进行识别及分类预测。
背景技术
中文电子病历分词和命名实体识别是指利用生物医学文本挖掘技术对电子病历中具有特定意义的生物医学实体名称,如疾病名称、治疗方案、症状等进行有效的分类与识别。目前生物医学命名实体识别采用的方法主要有:基于规则的方法、基于词典匹配方法、基于统计机器学习的方法、组合分类器等方法。目前使用最广泛的基于机器学习方法过程包括:语料预处理、特征的提取、训练模型并预测。语料预处理过程包括:对电子病历文本的处理,如大小写转换、分词等。运用到的特征主要包括:构造词向量、核心词特征等。机器学习建模的主要方法包括:条件随机场(CRF)、最大熵模型(ME)、支持向量机(SVM)、隐马尔科夫模型(HMM)等。生物医学命名实体识别作为关键而又重要的一步,对于生物医学领域信息抽取的研究具有极大的促进作用。
其中半监督的机器学习方法常被应用到命名实体识别中。Ando运用此方法在大规模未标注的文本信息中通过原有特征的线性组合产生新的特征将F值提高了2.09%,在BioCreative ⅡGM测试集上F值为87.21%,李彦鹏通过特征耦合泛化的方法在BioCreativeⅡGM测试集上F值为89.05%。
多数有关生物医学领域命名实体识别的研究主要是基于GENIA数据库。GENIA数据库是由Ohta等。开发的分子生物学领域最大的标注语料库,并且版本3.0x的语料集都是由2000篇MEDLINE摘要组成,这些都是以“Human’,,“Blood Cells’,和“TranscriptionFactors”为关键字从MEDLINE数据库中挑选出来的。它总共标注了36类实体,包含了超过40万个单词,近乎10万个标注的生物学术语。然而随着相关领域的发展,新词以及众多命名的不规则性导致识别实体名称困难重重,无法构建一个完备的词典。
词表示是解决此类困难的有效途径,词表示通常是将词用一种相对应的向量表示,其中每一维度表示一个特征,不同词所属特征不同。常用的词表示方法有One-hotRepresentation、Distributed Representation等。One-hot Representation方法把每个词表示为一个很长的向量,然而这种表示方法存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的,光从这两个向量中无法看出两个词是否有关系。DistributedRepresentation表示的一种低维实数向量,这种方法最大的好处就是让相关或者相似的词在距离上更接近了。基于词典匹配的方法是利用字符串完全匹配或部分匹配的方式,从文本中找出最相似的单词或短语完成匹配。
CRF分词主要考虑的是文字词语出现的频率,结合上下文语句,同时具备较好的学习能力。目前常见的CRF分词工具包包括pocket crf,crf++等。
传统递归神经网络(RNN)可以用来连接先前的信息到当前的任务上,具有一定记忆性,然而当处理长句子时,理论上RNN可以处理长期依赖问题。但在实践中,Bengio,et al(1994)等人对该问题进行了深入的研究,发现RNN无法成功学习到这些知识。长短期记忆网络LSTM是一种特殊的RNN类型,可以学习长期依赖的问题。
基于B/S架构的图形交互在线系统,运用特征的机器学习方法对电子病历进行分词和实体识。用户输入电子病历,系统自动完成对单词的分类,具体为,B:实体开始,I:实体中间,O:非实体,DI:疾病,SY:症状,TE:检查,TR:治疗。输出分好类的单词,并允许用户进行数据分析及打印。
发明内容
本发明提供了一种基于机器学习以及深度学习的中文电子病历分词和命名实体识别的新方法及系统。一定程度上解决了传统机器学习方法提取特征、识别效率不高等问题,有效提高了对电子病历中命名实体识别的准确度。
该发明由三大部分组成:1.基于机器学习方法条件随机场CRF对电子病历进行分词训练。2.基于双向长短期记忆网络LSTM模型对词向量进行学习并对实体进行分类预测。3基于B/S架构的图形交互在线系统,输出分类好的单词。
本发明采用的技术方案包括如下步骤:
(一)基于CRF(条件随机场)模型对中文电子病历文本进行分词
采用条件随机场CRF模型将该识别问题转换为字的词位分类问题,通过crf++工具包进行分词,采用定义字的词位信息如下表示:B:实体开始,I:实体中间,O:非实体。标注中一共采用9种不同的标签,分别为B-DI,B-SY,B-TE,B-TR,I-DI,I-SY,I-TR,O。分类每个单词的词向量是通过word2vec工具所提供的CBOW语言模型大规模训练未标记语聊获得
表2-1 命名实体分类
表2-2 BIO标记实体举例
句子 | BIO标记 |
出现左颈淋巴结肿大,无咳嗽,咳痰,无饮食呛咳。 | 出现/O左颈/B-SY淋巴结/I-SY肿大/I-SY,/O无/O咳嗽/B-SY,/O咳痰/B-SY,/O无/O饮食/B-SY呛咳/B-SY。 |
(二)基于双向长短期记忆网络LSTM模型对单词特征向量进行深度表示学习,并对实体进行分类预测。
双向长短期记忆网络LSTM模型包含:输出层、后向隐藏层、前向隐藏层、输入层组成。其中,在每一个时步六个特有的权值被循环利用,其六个权值对应如下:输入层到前向和后向隐藏层(w1, w3),隐藏层到隐藏层自己(w2, w5),前向和后向隐藏层到输出层(w4,w6)
隐藏层为LSTM模型,LSTM模型由三个门(forget gage、input gate、output gate)与一个记忆单元(cell)组成
每一个单词的词向量作为双向循环神经网络LSTM的输入,并与上一时刻的输出共同得到当前输出。该过程分为三个阶段
第一阶段:由forget gate层通过sigmoid函数来选择性过滤上一时刻的信息,
其中,为上一时刻输出,为当前输入,即当前词向量,为0到1的值,用来过滤上一时刻学到的信息;
第二阶段:产生需要更新的新信息;
首先由input gate层通过sigmoid来决定更新哪些值
接着由一个tanh层来生成新的候选值
新信息的候选值进行刷新
第三阶段:模型的输出
通过sigmoid层得到一个初始输出:
然后由tanh函数将行缩放,两者相乘,得到模型的输出:
本发明构建了一套基于B/S架构的图形交互在线系统。本发明训练CRF模型对中文电子病历进行分词,并基于循环神经网络的深度学习方法对特征进行深度表示,对实体进行分类预测,相较于传统的机器学习方法,一定程度上解决了提取特征、识别效率不高等问题,提高了对电子病历中命名实体识别的准确度,实现对中文电子病历分词、命名实体识别及抽取。
附图说明
图1双向长短期记忆网络LSTM模型。
图2双向长短期记忆网络LSTM隐藏层主要模块。
图3是命名实体分类图。
图4是BIO标记实体举例图。
具体实施方式
本发明的系统能够对给定的电子病历文本自动进行词分类以及命名实体识别。该系统基于B/S架构(Browser/Server,浏览器/服务器模式,主要由JS、HTML、ANGULARJS等技术实现),分为视图层、逻辑层、数据层三部分。
系统结构
2-3系统结构表
(1)用户输入待解析中文电子病历样本
中文电子病历文本输入支持用户键盘输入或者上传本地文件两种方式,通过视图层接收用户的数据并提交给逻辑层,由逻辑层进行数据分析后存入数据层;
(2)系统对待解析中文电子病历进行解析
该功能的实现由逻辑层与数据层协同完成,逻辑层基于条件随机场CRF原理对中文电子病历进行断词、分句等处理后,由word2vec工具所提供的CBOW语言模型大规模训练未标记语料来获得所有词向量,并依次输入双向长短期记忆网络LSTM中进行中文电子病历的实体识别;
(3)将(1)、(2)两步实体识别后的结果传入数据层进行存储,同时通过视图层反馈给用户。
用户对抽取结果的人工校正
当用户提交了数据以后,如果发现该系统返回的结果有明显错误,本系统允许用户对数据进行修正,并可以将修正后的数据存入进数据层中。
Claims (4)
1.一种中文电子病历命名实体识别方法及系统,其特征包括如下步骤:
(1)基于机器学习方法条件随机场CRF对电子病历进行分词训练;
(2)首次基于双向长短期记忆网络LSTM模型对词向量进行学习并对实体进行分类预测;
(3)基于B/S架构的图形交互在线系统,输出分类好的单词。
2.根据权利要求1所述的基于CRF(条件随机场)模型对中文电子病历文本进行分词,其特征在于:基于条件随机场CRF对中文电子病历进行分词,并用crf++工具包获取分词的词向量,词位信息表示详情:B:实体开始,I:实体中间,O:非实体,标注中一共采用9种不同的标签,分别为B-DI,B-SY,B-TE,B-TR,I-DI,I-SY,I-TE,I-TR,O,分类每个单词的词向量是通过word2vec工具所提供的CBOW语言模型大规模训练未标记语料获得。
3.根据权利要求1所述的基于双向长短期记忆网络LSTM模型对单词特征向量进行深度表示学习,并对实体进行分类预测,其特征在于:由用户输入电子病历,通过CBOW语言模型构建词向量,接着将构建好的词向量传到输入层中,经过双向长短期记忆网络LSTM处理后输出到输出层中。
4.根据权利要求1所述的基于B/S架构的图形交互在线系统,其特征在于:用户输入电子病历,系统 自动完成对单词的分类,具体为,B:实体开始,I:实体中间,O:非实体,DI:疾病,SY:症状,TE:检查,TR:治疗,输出分好类的单词,并允许用户进行数据分析及打印。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710155128.9A CN106980608A (zh) | 2017-03-16 | 2017-03-16 | 一种中文电子病历分词和命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710155128.9A CN106980608A (zh) | 2017-03-16 | 2017-03-16 | 一种中文电子病历分词和命名实体识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106980608A true CN106980608A (zh) | 2017-07-25 |
Family
ID=59338853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710155128.9A Pending CN106980608A (zh) | 2017-03-16 | 2017-03-16 | 一种中文电子病历分词和命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106980608A (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527073A (zh) * | 2017-09-05 | 2017-12-29 | 中南大学 | 电子病历中命名实体的识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107797989A (zh) * | 2017-10-16 | 2018-03-13 | 平安科技(深圳)有限公司 | 企业名称识别方法、电子设备及计算机可读存储介质 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
CN107818083A (zh) * | 2017-09-29 | 2018-03-20 | 华南师范大学 | 基于三层条件随机场的疾病数据命名实体识别方法及系统 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN108021557A (zh) * | 2017-12-25 | 2018-05-11 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的不规则实体识别方法 |
CN108346474A (zh) * | 2018-03-14 | 2018-07-31 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN108460012A (zh) * | 2018-02-01 | 2018-08-28 | 哈尔滨理工大学 | 一种基于gru-crf的命名实体识别方法 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108563725A (zh) * | 2018-04-04 | 2018-09-21 | 华东理工大学 | 一种中文症状体征构成识别方法 |
CN108595430A (zh) * | 2018-04-26 | 2018-09-28 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及系统 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN108984690A (zh) * | 2018-07-04 | 2018-12-11 | 莫毓昌 | 一种基于自然语言处理框架的电子病历信息抽取系统 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
CN109659033A (zh) * | 2018-12-18 | 2019-04-19 | 浙江大学 | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
CN109770925A (zh) * | 2019-02-03 | 2019-05-21 | 闽江学院 | 一种基于深度时空网络的疲劳检测方法 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110019711A (zh) * | 2017-11-27 | 2019-07-16 | 吴谨准 | 一种对医学文本数据结构化处理的控制方法及装置 |
CN110019648A (zh) * | 2017-12-05 | 2019-07-16 | 深圳市腾讯计算机系统有限公司 | 一种训练数据的方法、装置及存储介质 |
WO2019137562A2 (en) | 2019-04-25 | 2019-07-18 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110321547A (zh) * | 2018-03-30 | 2019-10-11 | 北京四维图新科技股份有限公司 | 一种命名实体确定方法及装置 |
CN110728147A (zh) * | 2018-06-28 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN110909547A (zh) * | 2019-11-22 | 2020-03-24 | 四川大学 | 一种基于改进深度学习的司法实体识别方法 |
WO2020211250A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 中文病历的实体识别方法、装置、设备及存储介质 |
CN112347776A (zh) * | 2019-08-09 | 2021-02-09 | 金色熊猫有限公司 | 医疗数据处理方法及装置、存储介质、电子设备 |
WO2021159759A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 电子病历结构化方法、装置、计算机设备和存储介质 |
CN113555077A (zh) * | 2021-09-18 | 2021-10-26 | 北京大学第三医院(北京大学第三临床医学院) | 疑似传染病预测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
-
2017
- 2017-03-16 CN CN201710155128.9A patent/CN106980608A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
李剑风: "融合外部知识的中文命名实体识别研究及其医疗领域应用", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527073B (zh) * | 2017-09-05 | 2021-02-26 | 中南大学 | 电子病历中命名实体的识别方法 |
CN107527073A (zh) * | 2017-09-05 | 2017-12-29 | 中南大学 | 电子病历中命名实体的识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107818083A (zh) * | 2017-09-29 | 2018-03-20 | 华南师范大学 | 基于三层条件随机场的疾病数据命名实体识别方法及系统 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
WO2019075967A1 (zh) * | 2017-10-16 | 2019-04-25 | 平安科技(深圳)有限公司 | 企业名称识别方法、电子设备及计算机可读存储介质 |
CN107797989A (zh) * | 2017-10-16 | 2018-03-13 | 平安科技(深圳)有限公司 | 企业名称识别方法、电子设备及计算机可读存储介质 |
CN107967318A (zh) * | 2017-11-23 | 2018-04-27 | 北京师范大学 | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 |
CN110019711A (zh) * | 2017-11-27 | 2019-07-16 | 吴谨准 | 一种对医学文本数据结构化处理的控制方法及装置 |
CN110019648B (zh) * | 2017-12-05 | 2021-02-02 | 深圳市腾讯计算机系统有限公司 | 一种训练数据的方法、装置及存储介质 |
CN110019648A (zh) * | 2017-12-05 | 2019-07-16 | 深圳市腾讯计算机系统有限公司 | 一种训练数据的方法、装置及存储介质 |
CN108021557A (zh) * | 2017-12-25 | 2018-05-11 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的不规则实体识别方法 |
CN108563626A (zh) * | 2018-01-22 | 2018-09-21 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108563626B (zh) * | 2018-01-22 | 2022-01-25 | 北京颐圣智能科技有限公司 | 医疗文本命名实体识别方法和装置 |
CN108460012A (zh) * | 2018-02-01 | 2018-08-28 | 哈尔滨理工大学 | 一种基于gru-crf的命名实体识别方法 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN108628823B (zh) * | 2018-03-14 | 2022-07-01 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108346474B (zh) * | 2018-03-14 | 2021-09-28 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN108346474A (zh) * | 2018-03-14 | 2018-07-31 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN110321547A (zh) * | 2018-03-30 | 2019-10-11 | 北京四维图新科技股份有限公司 | 一种命名实体确定方法及装置 |
CN108563725A (zh) * | 2018-04-04 | 2018-09-21 | 华东理工大学 | 一种中文症状体征构成识别方法 |
CN108595430A (zh) * | 2018-04-26 | 2018-09-28 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及系统 |
CN108595430B (zh) * | 2018-04-26 | 2022-02-22 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及系统 |
CN108959252B (zh) * | 2018-06-28 | 2022-02-08 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN110728147B (zh) * | 2018-06-28 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN110728147A (zh) * | 2018-06-28 | 2020-01-24 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN108984690A (zh) * | 2018-07-04 | 2018-12-11 | 莫毓昌 | 一种基于自然语言处理框架的电子病历信息抽取系统 |
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN109388807B (zh) * | 2018-10-30 | 2021-09-21 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
CN109659033A (zh) * | 2018-12-18 | 2019-04-19 | 浙江大学 | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 |
CN109657062A (zh) * | 2018-12-24 | 2019-04-19 | 万达信息股份有限公司 | 一种基于大数据技术的电子病历文本解析闭环方法 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
CN109770925B (zh) * | 2019-02-03 | 2020-04-24 | 闽江学院 | 一种基于深度时空网络的疲劳检测方法 |
CN109770925A (zh) * | 2019-02-03 | 2019-05-21 | 闽江学院 | 一种基于深度时空网络的疲劳检测方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110032648B (zh) * | 2019-03-19 | 2021-05-07 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110008469B (zh) * | 2019-03-19 | 2022-06-07 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
CN110008469A (zh) * | 2019-03-19 | 2019-07-12 | 桂林电子科技大学 | 一种多层次命名实体识别方法 |
WO2020211250A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 中文病历的实体识别方法、装置、设备及存储介质 |
US10740561B1 (en) | 2019-04-25 | 2020-08-11 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
EP3646245A4 (en) * | 2019-04-25 | 2020-07-01 | Alibaba Group Holding Limited | IDENTIFICATION OF INSTANCES IN ELECTRONIC MEDICAL FILES |
CN111295670A (zh) * | 2019-04-25 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 电子病历中实体的识别 |
WO2019137562A2 (en) | 2019-04-25 | 2019-07-18 | Alibaba Group Holding Limited | Identifying entities in electronic medical records |
CN112347776A (zh) * | 2019-08-09 | 2021-02-09 | 金色熊猫有限公司 | 医疗数据处理方法及装置、存储介质、电子设备 |
CN110909547A (zh) * | 2019-11-22 | 2020-03-24 | 四川大学 | 一种基于改进深度学习的司法实体识别方法 |
WO2021159759A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 电子病历结构化方法、装置、计算机设备和存储介质 |
CN113555077A (zh) * | 2021-09-18 | 2021-10-26 | 北京大学第三医院(北京大学第三临床医学院) | 疑似传染病预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
Abdullah et al. | SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning | |
CN106776581B (zh) | 基于深度学习的主观性文本情感分析方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN104298651B (zh) | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN110807320B (zh) | 基于cnn双向gru注意力机制的短文本情感分析方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
Sifa et al. | Towards contradiction detection in german: a translation-driven approach | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
Uddin et al. | Depression analysis of bangla social media data using gated recurrent neural network | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
Mohapatra et al. | Text classification using NLP based machine learning approach | |
Alipour et al. | Learning bilingual word embedding mappings with similar words in related languages using GAN | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
CN116702753A (zh) | 基于图注意力网络的文本情感分析方法 | |
Sun et al. | Text sentiment analysis based on CNN-BiLSTM-attention model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170725 |
|
WD01 | Invention patent application deemed withdrawn after publication |