CN108628824A - 一种基于中文电子病历的实体识别方法 - Google Patents

一种基于中文电子病历的实体识别方法 Download PDF

Info

Publication number
CN108628824A
CN108628824A CN201810304901.8A CN201810304901A CN108628824A CN 108628824 A CN108628824 A CN 108628824A CN 201810304901 A CN201810304901 A CN 201810304901A CN 108628824 A CN108628824 A CN 108628824A
Authority
CN
China
Prior art keywords
health record
electronic health
feature
word
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810304901.8A
Other languages
English (en)
Inventor
闫凤麒
张贝贝
陆明名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hee Hee Mdt Infotech Ltd
Original Assignee
Shanghai Hee Hee Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hee Hee Mdt Infotech Ltd filed Critical Shanghai Hee Hee Mdt Infotech Ltd
Priority to CN201810304901.8A priority Critical patent/CN108628824A/zh
Publication of CN108628824A publication Critical patent/CN108628824A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域。针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明通过构建整理医学词典,提出了一种半自动语料库标注方法,节省了人工标注的复杂度。其次目前基于特征的电子病历实体识别方法大部分都是针对普通文本或者一般的电子病历文本,没有考虑到中文电子病历的特有特征。本发明提取的特征除了一般文本具有的基本特征外,还提取了中文电子病历特有的章节信息特征,通过对收集到的词典进行单字和词切分后统计字频和词频得到核心词特征加入扩展特征中,并且通过对词向量进行聚类把词与词之间的联系也加入了扩展特征,有效的提高了中文电子病历的实体识别准确率。

Description

一种基于中文电子病历的实体识别方法
技术领域
本发明涉及自然语言处理领域,尤其涉及电子病历的命名实体识别。
背景技术
最早的电子病历信息抽取通常采用词典与规则相结合的方法。而随着电子病历标注语料的构建,基于机器方法的电子病历信息抽取研究逐渐开展起来。美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务,该评测包含3个子任务,分别是医疗问题、检查、治疗等实体的识别、实体修饰识别以及实体关系抽取,并提供了349份人工标注的电子病历和827份未标注电子病历。为英文电子病历命名实体识别及关系识别打下了坚实的基础。
对于电子病历命名实体研究,Dingcheng Li等人分别采用了条件随机域(CRF)和支持向量机(SVM)两种方法,并结合SNOMED-CT词典进行电子病历命名实体识别,其中CRF模型达到了较好的效果。Min Jiang等人引入一体化医学语言系统(UMLS)及三个自然语言处理系统(MedLEE,DST,Knowledge Map)的结果作为特征,系统的评估了采用不同特征及机器学习算法的识别效果,并提出了一个集成规则与机器学习算法的实体抽取系统。Siddhartha Jonnalagadd等人则是在基本特征的基础上,增加分布式语义特征,采用CRF模型对电子病历中的医疗问题、检查、治疗进行识别。
中文电子病历命名实体研究仍处于起步阶段,叶枫等人基于CRF算法,对中文电子病历中的疾病、临床症状、手术操作3类命名实体进行智能识别,构建了覆盖25个疾病大类的250份病历。该研究是对中文电子病历命名实体识别研究的首次尝试,但该研究对实体类型定义不能够覆盖所有的医疗实体,语料规模也较小。Lei Jianbo等人共选取了包含病程记录和出院小结在内的800份病历文本,以此构建了命名实体标注语料,他们共定义了四种医疗实体:医疗问题、检查、药物、手术,对比了CRF、SVM、ME、SSVM四种算法的效果,其中SSVM模型的表现最好,病程记录训练出的模型的F值可以达到93.53%,而出院小结的F值则为90.01%。Xu Yan等人构建了包含336份出院小结在内的标注语料,主要针对医疗问题、检查、治疗和药物四类实体,并提出了基于对分解的分词及命名实体识别联合模型。
发明内容
现有研究主要针对英文电子病历,在中文电子病历实体识别中,由于缺少公开中文电子病历标注语料库以及词典资源,使得其研究缓慢,同时一般的基于特征的实体识别方法都是对词进行直接分析,而没有深入分析到词向量,也忽略了实体间的一定相似度可以用聚类方法求得这一特点。
电子病历实体识别是智能医疗推进的一项重要任务,将临床信息中的医疗信息提出来有助于医疗知识图谱的构建以及医疗自动问答的推进。目前的电子病历实体识别主要是针对英文电子病历的,中文研究由于缺少公开中文电子病历标注语料库以及词典资源,一般基于特征的方法中没有充分考虑到中文电子病历的特有特点。针对这些问题,本发明在进行一定规模的中文电子病历语料库标注后,给出了一种结合词向量和聚类从多方面进行特征扩展的中文电子病历实体识别方法。
为了实现上述目的,本发明给出的技术方案为:
本发明提供一种基于中文电子病历的实体识别方法,所述方法包括:半自动中文电子病历语料库标注;对使用jieba和nlpir两个分词器对中文电子病历进行分词,词、词性以及上下文信息构成实体识别的基本特征;提取电子病历的章节名字为章节信息特征;构建核心词词典,提取分词之后每个词的核心词特征;利用Word2Vector计算每个词的词向量,用k-means进行聚类,将每个词的聚类结果表示为词聚类特征;章节特征、核心词特征和词聚类特征组成了实体识别的扩展特征;将上述基本特征和扩展特征组成的特征向量输入已训练好的条件随机场分类器,抽取中文电子病历的实体。
以上本发明给出一种针对中文电子病历的基于特征工程的综合性的实体识别方法,利用条件随机场CRF进行识别,将特征分为了基本特征和扩展特征,其中扩展特征针对中文电子病历的特有特点展开,包括电子病历文本差别于其它文本的特点和中文电子病历差别于英文电子病历的特点,同时通过词向量进行聚类,将聚类结果作为一个新特征加入很好的考虑了同一实体间的相似性特点。
可选的,本发明给出了针对中文电子病历的标注,并收集了医学词典利用反向最大匹配算法(现有技术)进行自动标注,然后邀请医院的两名全科医生进行人工核对、查漏补缺,最后得到一定规模的中文电子病历标注语料库。
特征选择
特征选取对于机器学习方法及其重要,本发明所选用的特征分为两大类:基本特征和扩展特征。其中扩展特征针对中文电子病历的特点从两方面进行选择:电子病历文本区别于一般文本的特征和中文电子病历文本区别于英文电子病历文本的特性。
1.语言符号特征:在这里表示词特征。由于中文不能像英文用空格进行分词,因此还需要选择分词器。本发明选用了jieba中文分词和哈工大的nlpir分词器两个分词工具,因为它们不是专门面向医学领域,将本文收集的医学词典加入了其用户字典。
2.词性特征:即分词后的词性。词性特征在中文中对于识别实体的边界有很大作用,如在电子病历中“得”、“患”等动词指出了疾病实体的边界,“服用”等动词指出了治疗实体的边界等。本发明研究的词性标注工作将由分词工具jieba和nlpir完成。
3.章节信息特征:电子病历章节标题名称。这是电子病历区别于其它文本的一个特征,也体现了电子病历的半结构化文本特点。在电子病历中不同章节对应的实体是有一定规律的。在病程记录中,“病例特点”章节中涵盖了疾病、症状、检查和治疗四个实体,而“初步诊断”章节中只存在疾病实体,“诊疗计划”章节中只存在治疗实体;在出院小结中,“入院诊断”和“出院诊断”章节只存在疾病实体,“入院情况”和“出院情况”主要有疾病、症状、检查实体等。因此,电子病历的章节标题对于实体类别的识别具有较大帮助。
4.核心词特征:对标注的中文电子病历的实体以及收集到的医学词典进行统计分析可以分析出中文电子病历中出现的实体具有一定的特点。疾病名通常由修饰部分、身体部位、基本疾病名组成;症状名通常由身体部位、修饰部分、核心词组成;检查名通常由“细胞”、“查”、“病理”、“常规”等核心词组成;治疗名中手术名通常由“化疗”、“术”、“处理”、“护理”等核心词组成,药物名通常由“胶囊”、“丸”、“颗粒”、“片”等核心词组成。本发明以此构建了四个核心词词典用于指示核心词特征。
5.词向量的聚类特征:一般命名实体识别通常将词本身作为最基本的特征用于模型的构建,而词本身并不能反映词与词之间的关系,因此可以将词表示作为特征加入模型。引入词表示方法主要有两种,一种是直接将词向量作为特征加入,另一种是通过词向量建立词与词之间的联系。词与词之间的联系可以通过聚类得到,每个词对象对应一个类别。本发明研究采用开源工具Word2Vector计算词向量,并通过k-means算法进行聚类。
有益效果
针对中文电子病历实体识别方法缺少公开标注语料库、一般基于特征的方法没有充分考虑到中文电子病历文本的特有特征等问题,实现了结合词向量和聚类并且从多方面进行特征扩展的中文电子病历实体识别方法,有助于深入挖掘电子病历文本中的医疗信息,从而构建医疗知识库、医疗知识图谱以及推进医疗自动问答。
附图说明
附图是用来提动对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但不构成对本发明的限制。在附图中:
图1是本发明一实施例提供的中文电子病历实体识别方法的流程示意图;
图2是本发明一实施例提供的半自动中文电子病历语料库标注方法流程示意图;
图3是本发明一实例中线性条件随机场的结构图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的具体实施方式进行清楚、完整的描述。应当理解的是,此处所描述的具体实施方法仅用于说明和解释本发明,并不用于限制本发明。
下面将详细描述本发明的各个方面的特征和示例性案例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。
本发明实施例提供的一种基于中文电子病历的实体识别方法,首先获取中文电子病历的文本,对其进行数据清洗和分句处理。根据中文电子病历的特点给出了适用于中文电子病历的标注,并收集了医学词典,用高精度的反向最大匹配算法进行自动标注,然后邀请医院若干名(实例两名)全科医生进行人工核对、查漏补缺,最后得到一定规模的中文电子病历标注语料库。然后进行特征提取,首先用jieba和nlpir分词器对电子病历文本进行分词处理,其词、词性和上下文特征构成了基本特征;把电子病历无格式文本转化为有格式的xml文件后,提取章节名字特征;对收集到的词典进行单字切分,统计单字的字频,然后再进行分词统计词频,统计分析后得到字频和词频排名靠前的字和词,构成疾病、症状、检查和治疗四个实体的核心词词典,提取每个词的核心词特征;然后以本发明所用的中文电子病历为训练集,用开源工具Word2Vector计算词向量,用k-means算法进行聚类,其聚类结果作为词聚类特征,以上的章节信息特征、核心词特征和词聚类特征构成扩展特征。将基本特征和扩展特征的特征向量置于条件随机场模型训练和预测,得到一种基于中文电子病历的实体识别方法。
如图1所示,本发明提供一种基于中文电子病历的实体识别方法,包括:
步骤101、利用收集的医学词典使用半自动标注方法对中文电子病历进行标注。
步骤102、使用jieba和nlpir两个分词器对中文电子病历进行分词,词、词性以及上下文信息构成实体识别的基本特征。
步骤103、提取电子病历的章节名字为章节信息特征。
步骤104、构建核心词词典,提取分词之后每个词的核心词特征。
步骤105、利用Word2Vector计算每个词的词向量,用k-means进行聚类,
将每个词的聚类结果表示为词聚类特征。
步骤106、章节特征、核心词特征和词聚类特征组成了实体识别的扩展特征。
步骤107、将上诉基本特征和扩展特征组成的特征向量输入已训练好的条件随机场分类器,抽取中文电子病历的实体。
在步骤101中,将无结构的电子病历文本文件(包括出院小结和病程记录)进行数据清洗并转化为xml的结构化文件格式。所述结构化数据包括出院小结中的入院情况、入院诊断、诊疗经过、出院情况、出院诊断、出院医嘱,病程记录中的病例特点、初步诊断和诊疗经过。
通过收集整合了在39健康网上爬取得到的医疗实体和搜狗词库以及ICD-10(TheInternational Classification of Disease,10Revision)、ICD-9-CM(TheInternational Classification of Disease,10Revision,Clinical Modification),得到一个覆盖了疾病、症状、检查和治疗的词库,然后用反向最大匹配算法进行自动标注。进行完第一轮的自动标注后,邀请医院的两名全科医生进行人工核对、查漏补缺。二次标注后,得到一定规模的中文电子病历标注语料库。
本发明将中文电子病历实体类型分为四种:疾病、症状、检查和治疗,因此进行标注后的文件格式包括词语、起止位置和实体类型。例如语句:
“患者因反复头晕、胸闷、乏力,拟‘虚劳’收治入院”
经过标注后可以得到的实体有:
“C=头晕P=68:70T=symptom”
“C=胸闷P=71:73T=symptom”
“C=乏力P=74:76T=symptom”
“C=头晕P=79:81T=disease”
其中,C表示实体本身,P表示实体所在语料库文本中的起始位置和终止位置,T表示实体类型。
在步骤102中,需要对电子病历文本进行分词处理,可选地,至少包括分词器Jieba和Nlpir进行分词。分词对于实体识别至关重要,因为这两个分词工具都不是针对医疗领域的,因此将之前收集的医学词典加入用户字典。在分词的同时保留词性,例如语句:
“患者两年前无明显诱因出现双下肢肿胀”
经过分词后为:
“患者n\两年t\前u\无v\明显a\诱因n\出现v\双下肢n\肿胀v”
在上下文特征中,可选地,本发明选取了上下文窗口为2,3,4时(即当前词前后2个词,前后3个词以及前后4个词)的特征。以上词、词性和上下文构成了基本特征。
在步骤103中,需要提取电子病历的章节名字特征,由于在步骤101中已经将电子病历文本文件转化成了xml格式的文件,因此章节名字可以通过提取xml文件的节点名字来提取。
在步骤104中,可选地,本发明对收集到的医学词典进行单字切分和词切分,分别统计切分后的字频和词频,经过统计分析后得到出现频数靠前的相关字和词,构成疾病、症状、检查和治疗四个实体的核心词词典,电子病历文本经过分词之后的词到核心词词典的映射即核心词特征。
在步骤105中,具体地,将分词后的所有电子病历文本作为训练集,将每一个词映射为一个m维的向量。通过词向量用k-means算法进行聚类。聚类过程如下:
Step1:从n个数据对象中任意选择k个对象作为初始聚类中心
Step2:计算每个聚类对象到聚类中心的距离,距离该点最近的聚类中心的类别即是该点的类别;
Step3:计算每个聚类中所有对象的平均坐标,并将其作为新的聚类中心进行聚类;
Step4:计算标准测度函数,满足条件时算法终止;不满足则返回步骤2。
在步骤106中,经过以上计算,把章节名字特征、核心词特征和词聚类特征整合为扩展特征向量。
在步骤107中,利用条件随机场对电子病历进行标注,首先要根据标注结果映射出分词后每个词的标记,这里使用BIO标记,B表示实体的开始,I表示实体的结束,O表示不属于标记实体。例如:实体“双下肢水肿”分词时被分为“双下肢”和“水肿”,那么映射后的标记记为“双下肢B”和“水肿I”。
实体识别过程可以看成序列标注过程,将每一个自然句看成一个观察序列,把句子中的每一个字或词看成一个符号,再给每一个符号赋予一个标记。用条件随机场来解决序列标注问题,以给定的序列节点值为条件来预测输出序列节点值的概率。其中最常见的是如图3所示的线性链条件随机场模型。
给定两个随机变量X、Y,其中X=(x1,x2,…,xT)是输入变量,表示需要标记的观察序列,Y=(y1,y2,…,yT)为输出变量,表示标记序列,可以定义一个条件随机场模型,形式为(已属现有技术)
式中,fk(yi-1,yi,x)为观察序列x位置为i和i-1的输出节点的特征函数,gk(yi,x)为位置为i的输入和输出节点的特征函数,λk和μl是对应特征函数的权重,Z(x)为所有状态序列的归一化因子,形式为
实体识别过程可以看成序列标注过程,将每一个自然句看成一个观察序列,把句子中的每一个字或词看成一个符号,再给每一个符号赋予一个标记。其标注目标就是找出对应最佳的标注序列y,即:
y=arg maxP(y|x)
将上述基本特征和扩展特征生成的特征向量用条件随机场模型进行训练后得到的中文电子病历实体识别方法即可以进行预测。
以上结合附图详细描述了本发明的具体实施方案,但是,本发明并不限于上述实施方法中的具体细节,此外,本发明的不同实施方式之间可以进行任意组合,只要不违背本发明的思想,其同样应当视为本发明所公开的内容。
创新点
提出了一种针对中文电子病历特有特征的实体识别方法。针对目前电子病历实体识别中缺少公开标注语料库、中文医疗词典以及缺少中文电子病历特有特征的缺点,本发明提出了一种半自动的中文电子病历语料库标注方法,极大地节省了时间,同时针对中文电子病历文本的特有特征进行特征扩展,并用对词向量进行聚类建立了词与词之间的联系,把词聚类特征加入分类器,极大的提高了中文电子病历实体识别的准确率。

Claims (5)

1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:
步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;
步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;
步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;
步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;
步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k-means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;
步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。
2.根据权利要求1所述的方法,其特征在于,步骤1中利用半自动标注方法对中文电子病历进行标注,方法步骤具体包括:
步骤1.1、收集医学词典,将其整理为疾病词库、症状词库、检查词库、治疗词库;
步骤1.2、使用高精度的反向自动匹配算法对中文电子病历进行自动标注;
步骤1.3、医院若干名(实施例两名)全科医生进行人工核对、查漏补缺;
以上经历步骤1.2、步骤1.3两轮标注后得到标注好的中文电子病历语料库。
3.根据权利要求1所述的方法,其特征在于,步骤2中对中文电子病历文本进行分词工作,方法步骤具体包括:
步骤2.1、将以上步骤1.1收集的医学词典加入分词器的用户字典;
步骤2.2、使用分词器对中文电子病历进行分词,分词后的词和词性以及上下文信息构成了实体识别的基本特征;
4.根据权利要求1所述的方法,其特征在于,提取中文电子病历的扩展特征,方法步骤具体包括:
将中文电子病历无结构文本转化为结构化的xml文本,提取各个章节的名字,作为章节特征;
对标注的中文电子病例的实体以及收集到的医学词典进行统计分析得到各个实体核心词词典,根据此词典提取分词之后每个词的核心词特征;
以中文电子病历数据为训练集,利用Word2Vector计算词向量,用k-means进行聚类,将每个词的聚类结果计为词聚类特征;
整合以上章节特征、核心词特征以及词聚类特征为实体识别的扩展特征。
5.根据权利要求1所述的方法,其特征在于,步骤6利用条件随机场分类器进行训练和预测,根据以上结合基本特征和扩展特征为用于实体识别的特征集合,选取一部分电子病历用于训练条件随机场模型,剩下的电子病历用于测试。
CN201810304901.8A 2018-04-08 2018-04-08 一种基于中文电子病历的实体识别方法 Pending CN108628824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810304901.8A CN108628824A (zh) 2018-04-08 2018-04-08 一种基于中文电子病历的实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810304901.8A CN108628824A (zh) 2018-04-08 2018-04-08 一种基于中文电子病历的实体识别方法

Publications (1)

Publication Number Publication Date
CN108628824A true CN108628824A (zh) 2018-10-09

Family

ID=63704969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810304901.8A Pending CN108628824A (zh) 2018-04-08 2018-04-08 一种基于中文电子病历的实体识别方法

Country Status (1)

Country Link
CN (1) CN108628824A (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360658A (zh) * 2018-11-01 2019-02-19 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109493956A (zh) * 2018-10-15 2019-03-19 海口市人民医院(中南大学湘雅医学院附属海口医院) 一种导诊方法
CN109657062A (zh) * 2018-12-24 2019-04-19 万达信息股份有限公司 一种基于大数据技术的电子病历文本解析闭环方法
CN109657245A (zh) * 2018-12-18 2019-04-19 浙江大学常州工业技术研究院 一种电子病历的语意识别方法
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109871544A (zh) * 2019-03-25 2019-06-11 平安科技(深圳)有限公司 基于中文病历的实体识别方法、装置、设备及存储介质
CN109993227A (zh) * 2019-03-29 2019-07-09 京东方科技集团股份有限公司 自动添加国际疾病分类编码的方法、系统、装置和介质
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110162784A (zh) * 2019-04-19 2019-08-23 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
CN110162779A (zh) * 2019-04-04 2019-08-23 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110263167A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 医疗实体分类模型生成方法、装置、设备和可读存储介质
CN110335653A (zh) * 2019-06-30 2019-10-15 浙江大学 基于openEHR病历格式的非标准病历解析方法
CN110580955A (zh) * 2019-07-31 2019-12-17 平安科技(深圳)有限公司 疾病信息识别方法、装置、计算机设备及存储介质
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110634546A (zh) * 2019-08-14 2019-12-31 中国科学院苏州生物医学工程技术研究所 电子病历文本规范化检测方法
CN110704638A (zh) * 2019-09-30 2020-01-17 南京邮电大学 一种基于聚类算法的电力文本词典构造方法
CN110765836A (zh) * 2019-08-28 2020-02-07 云知声智能科技股份有限公司 一种基于自然语言理解的文本定位方法和系统
CN110931128A (zh) * 2019-12-05 2020-03-27 中国科学院自动化研究所 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN111026799A (zh) * 2019-12-06 2020-04-17 安翰科技(武汉)股份有限公司 胶囊内窥镜检查报告文本结构化方法、设备及介质
CN111079420A (zh) * 2019-12-19 2020-04-28 天津新开心生活科技有限公司 文本识别方法、装置、计算机可读介质及电子设备
CN111223539A (zh) * 2019-12-30 2020-06-02 同济大学 中文电子病历的关系抽取方法
CN111295670A (zh) * 2019-04-25 2020-06-16 阿里巴巴集团控股有限公司 电子病历中实体的识别
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111507109A (zh) * 2019-01-14 2020-08-07 阿里巴巴集团控股有限公司 电子病历的命名实体识别方法及装置
CN111627561A (zh) * 2020-05-25 2020-09-04 安徽科大讯飞医疗信息技术有限公司 标准症状抽取方法、装置、电子设备和存储介质
CN111814463A (zh) * 2020-08-24 2020-10-23 望海康信(北京)科技股份公司 国际疾病分类编码推荐方法、系统及相应设备和存储介质
CN111950278A (zh) * 2019-05-14 2020-11-17 株式会社理光 一种序列标注方法、装置及计算机可读存储介质
CN112199954A (zh) * 2020-10-10 2021-01-08 平安科技(深圳)有限公司 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112242200A (zh) * 2020-09-30 2021-01-19 吾征智能技术(北京)有限公司 一种基于流行性感冒智能认知模型的系统及设备
CN112289398A (zh) * 2020-08-17 2021-01-29 上海柯林布瑞信息技术有限公司 病理报告解析方法及装置、存储介质、终端
CN112734202A (zh) * 2020-12-31 2021-04-30 平安医疗健康管理股份有限公司 基于电子病历的医疗能力评价方法、装置、设备及介质
WO2021168703A1 (zh) * 2020-02-26 2021-09-02 京东方科技集团股份有限公司 字符处理及字符识别方法、存储介质和终端设备
CN114334049A (zh) * 2020-12-31 2022-04-12 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN118016227A (zh) * 2024-04-10 2024-05-10 天津医科大学第二医院 电子病历识别与检索系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199744A1 (en) * 2014-01-10 2015-07-16 BetterDoctor System for clustering and aggregating data from multiple sources
CN105389470A (zh) * 2015-11-18 2016-03-09 福建工程学院 一种中医针灸领域实体关系自动抽取的实现方法
CN106919793A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 一种医疗大数据的数据标准化处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199744A1 (en) * 2014-01-10 2015-07-16 BetterDoctor System for clustering and aggregating data from multiple sources
CN105389470A (zh) * 2015-11-18 2016-03-09 福建工程学院 一种中医针灸领域实体关系自动抽取的实现方法
CN106919793A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 一种医疗大数据的数据标准化处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUODONG ZHOU ET AL: "Recognizing Names in Biomedical Texts: a Machine Learning Approach", 《BIOINFORMATICS》 *
XIA HAN ET AL: "The Method of Medical Named Entity Recognition Based on Semantic Model and Improved SVM-KNN Algorithm", 《2011 SEVENTH INTERNATIONAL CONFERENCE ON SEMANTICS,KNOWLEDGE AND GRIDS》 *
张祥伟 等: "基于多特征融合的中文电子病历命名实体识别", 《软件导刊》 *

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493956A (zh) * 2018-10-15 2019-03-19 海口市人民医院(中南大学湘雅医学院附属海口医院) 一种导诊方法
CN109360658A (zh) * 2018-11-01 2019-02-19 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109360658B (zh) * 2018-11-01 2021-06-08 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109657245A (zh) * 2018-12-18 2019-04-19 浙江大学常州工业技术研究院 一种电子病历的语意识别方法
CN109657245B (zh) * 2018-12-18 2022-11-08 浙江大学常州工业技术研究院 一种电子病历的语意识别方法
CN109657062A (zh) * 2018-12-24 2019-04-19 万达信息股份有限公司 一种基于大数据技术的电子病历文本解析闭环方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN111507109A (zh) * 2019-01-14 2020-08-07 阿里巴巴集团控股有限公司 电子病历的命名实体识别方法及装置
CN109871544A (zh) * 2019-03-25 2019-06-11 平安科技(深圳)有限公司 基于中文病历的实体识别方法、装置、设备及存储介质
CN109871544B (zh) * 2019-03-25 2023-04-25 平安科技(深圳)有限公司 基于中文病历的实体识别方法、装置、设备及存储介质
CN109993227B (zh) * 2019-03-29 2021-09-24 京东方科技集团股份有限公司 自动添加国际疾病分类编码的方法、系统、装置和介质
CN109993227A (zh) * 2019-03-29 2019-07-09 京东方科技集团股份有限公司 自动添加国际疾病分类编码的方法、系统、装置和介质
CN110162779A (zh) * 2019-04-04 2019-08-23 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110162779B (zh) * 2019-04-04 2023-08-04 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110069779B (zh) * 2019-04-18 2023-01-10 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110162784B (zh) * 2019-04-19 2023-10-27 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
CN110162784A (zh) * 2019-04-19 2019-08-23 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
CN111295670A (zh) * 2019-04-25 2020-06-16 阿里巴巴集团控股有限公司 电子病历中实体的识别
CN111950278A (zh) * 2019-05-14 2020-11-17 株式会社理光 一种序列标注方法、装置及计算机可读存储介质
CN110263167A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 医疗实体分类模型生成方法、装置、设备和可读存储介质
CN110335653A (zh) * 2019-06-30 2019-10-15 浙江大学 基于openEHR病历格式的非标准病历解析方法
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110598203B (zh) * 2019-07-19 2023-08-01 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110580955A (zh) * 2019-07-31 2019-12-17 平安科技(深圳)有限公司 疾病信息识别方法、装置、计算机设备及存储介质
CN110634546A (zh) * 2019-08-14 2019-12-31 中国科学院苏州生物医学工程技术研究所 电子病历文本规范化检测方法
CN110765836B (zh) * 2019-08-28 2022-04-29 云知声智能科技股份有限公司 一种基于自然语言理解的文本定位方法和系统
CN110765836A (zh) * 2019-08-28 2020-02-07 云知声智能科技股份有限公司 一种基于自然语言理解的文本定位方法和系统
CN110704638A (zh) * 2019-09-30 2020-01-17 南京邮电大学 一种基于聚类算法的电力文本词典构造方法
CN110931128A (zh) * 2019-12-05 2020-03-27 中国科学院自动化研究所 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN110931128B (zh) * 2019-12-05 2023-04-07 中国科学院自动化研究所 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN111026799A (zh) * 2019-12-06 2020-04-17 安翰科技(武汉)股份有限公司 胶囊内窥镜检查报告文本结构化方法、设备及介质
CN111079420A (zh) * 2019-12-19 2020-04-28 天津新开心生活科技有限公司 文本识别方法、装置、计算机可读介质及电子设备
CN111079420B (zh) * 2019-12-19 2023-04-07 天津新开心生活科技有限公司 文本识别方法、装置、计算机可读介质及电子设备
CN111223539A (zh) * 2019-12-30 2020-06-02 同济大学 中文电子病历的关系抽取方法
WO2021168703A1 (zh) * 2020-02-26 2021-09-02 京东方科技集团股份有限公司 字符处理及字符识别方法、存储介质和终端设备
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111291568B (zh) * 2020-03-06 2023-03-31 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111627561B (zh) * 2020-05-25 2023-05-12 讯飞医疗科技股份有限公司 标准症状抽取方法、装置、电子设备和存储介质
CN111627561A (zh) * 2020-05-25 2020-09-04 安徽科大讯飞医疗信息技术有限公司 标准症状抽取方法、装置、电子设备和存储介质
CN112289398B (zh) * 2020-08-17 2024-05-31 上海柯林布瑞信息技术有限公司 病理报告解析方法及装置、存储介质、终端
CN112289398A (zh) * 2020-08-17 2021-01-29 上海柯林布瑞信息技术有限公司 病理报告解析方法及装置、存储介质、终端
CN111814463A (zh) * 2020-08-24 2020-10-23 望海康信(北京)科技股份公司 国际疾病分类编码推荐方法、系统及相应设备和存储介质
CN111814463B (zh) * 2020-08-24 2020-12-15 望海康信(北京)科技股份公司 国际疾病分类编码推荐方法、系统及相应设备和存储介质
CN112242200A (zh) * 2020-09-30 2021-01-19 吾征智能技术(北京)有限公司 一种基于流行性感冒智能认知模型的系统及设备
CN112199954A (zh) * 2020-10-10 2021-01-08 平安科技(深圳)有限公司 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN112199954B (zh) * 2020-10-10 2023-11-10 平安科技(深圳)有限公司 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN114334049A (zh) * 2020-12-31 2022-04-12 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN112734202A (zh) * 2020-12-31 2021-04-30 平安医疗健康管理股份有限公司 基于电子病历的医疗能力评价方法、装置、设备及介质
CN114334049B (zh) * 2020-12-31 2024-06-07 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN118016227A (zh) * 2024-04-10 2024-05-10 天津医科大学第二医院 电子病历识别与检索系统及方法

Similar Documents

Publication Publication Date Title
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN109192255B (zh) 病历结构化方法
CN107341264A (zh) 一种支持自定义实体的电子病历检索系统及方法
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN111222340B (zh) 基于多标准主动学习的乳腺电子病历实体识别系统
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
CN106909783A (zh) 一种基于时间线的病历文本医学知识发现方法
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN106682411A (zh) 一种将体检诊断数据转化为疾病标签的方法
CN109670179A (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN109003677B (zh) 病历数据结构化分析处理方法
CN111191456B (zh) 一种使用序列标注进行识别文本分段的方法
CN113688255A (zh) 一种基于中文电子病历的知识图谱构建方法
CN110931128A (zh) 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN107122582B (zh) 面向多数据源的诊疗类实体识别方法及装置
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
López-Úbeda et al. Pre-trained language models to extract information from radiological reports.
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181009

RJ01 Rejection of invention patent application after publication