CN109524071A - 一种面向中文电子病历文本结构化解析的标注方法 - Google Patents

一种面向中文电子病历文本结构化解析的标注方法 Download PDF

Info

Publication number
CN109524071A
CN109524071A CN201811363466.2A CN201811363466A CN109524071A CN 109524071 A CN109524071 A CN 109524071A CN 201811363466 A CN201811363466 A CN 201811363466A CN 109524071 A CN109524071 A CN 109524071A
Authority
CN
China
Prior art keywords
mark
annotation
interface
annotation results
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811363466.2A
Other languages
English (en)
Other versions
CN109524071B (zh
Inventor
翟运开
赵杰
陈保站
刘志飘
陈昊天
石金铭
卢耀恩
曹明波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Zhengzhou University
Original Assignee
First Affiliated Hospital of Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Zhengzhou University filed Critical First Affiliated Hospital of Zhengzhou University
Priority to CN201811363466.2A priority Critical patent/CN109524071B/zh
Publication of CN109524071A publication Critical patent/CN109524071A/zh
Application granted granted Critical
Publication of CN109524071B publication Critical patent/CN109524071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种面向中文电子病历文本结构化解析的标注方法,属于大数据技术领域,建立标注系统,参与标注的人员通过Web页面对入院记录标注原始表进行中文分词、词性和命名实体标注,并生成标注结果表,解决了对电子病历文本的分词、词性、命名实体标进行简洁的标注的技术问题,本发明同时站在标注者和算法设计人员的视角,一方面标注系统简洁易用,最大限度降低标注者的标注工作强度,降低出错率,另一方面,标注系统设计与知识库管理系统、核心算法系统实现数据流无缝对接,即原始电子病历数据经过预处理后直接流入标注系统,标注系统的输出直接作为核心算法系统的输入。

Description

一种面向中文电子病历文本结构化解析的标注方法
技术领域
本发明属于大数据技术领域,特别涉及一种面向中文电子病历文本结构化解析的标注方法。
背景技术
随着大数据时代的到来,数据的采集成本、计算成本、存储成本大幅降低,医疗行业的存量历史数据和增量数据越来越多,为辅助诊疗、个性化医疗等“智慧医疗”的开展提供了坚实的大数据支撑。以郑大一附院为例,近三年的电子病历(Electronic medicalrecords,EMR)数量已经超过2000余万份。
电子病历作为医疗信息化的主要载体,包含了大量高价值的诊疗信息,这些信息可以作为辅助诊疗、疾病预防、健康管理等科研、临床应用的基础数据源。但是,电子病历源于医护人员的自然语言表达,绝大部分内容为非结构化的文本信息,无法直接作为临床、科研应用的输入。因此需要采用自然语言处理技术(Natural Language Processing,NLP)对电子病历中的非结构化信息进行解析和抽取,转化为结构化信息存入数据库,向上层多样化的智慧医疗应用开放统一的访问接口。
当前,深度学习算法已经成为文本结构化解析的有效途径和研究热点。基于深度学习算法模型的文本结构化解析效果很大程度上取决于高质量的分词、词性、命名实体标注。实际上,中文电子病历标注已经成为深度学习算法在智慧医疗应用落地的基本前提。标注是一项乏味、易出错的过程,需要耗费大量的人力、时间成本。
发明内容
本发明的目的是提供一种面向中文电子病历文本结构化解析的标注方法,解决了对电子病历文本的分词、词性、命名实体标进行简洁的标注的技术问题。
为实现上述目的,本发明采用以下技术方案:
一种面向中文电子病历文本结构化解析的标注方法,包括如下步骤:
步骤1:建立标注系统,标注系统包括标注系统架构和标注数据库;
标注系统架构包括Web开发框架和标注功能接口;
步骤2:Web开发框架采用Spring MVC Web开发架构,具体执行步骤如下:
步骤S1:首先用户发送请求信息至前端控制器,前端控制器根据请求信息来决定选择哪一个页面控制器进行处理。并把请求信息委托给该页面控制器;
步骤S2:页面控制器接收到请求信息后进行功能处理:首先需要收集和绑定请求信息到一个对象,设定该对象在Spring WebMVC中叫命令对象,并进行验证,然后将命令对象委托给业务对象进行处理;最后处理完毕后返回一个Model And View,即,模型数据和逻辑视图名;
步骤S3:前端控制器收回控制权,然后根据返回的逻辑视图名,选择相应的视图进行渲染,并把模型数据传入以便视图渲染;
步骤S4:前端控制器再次收回控制权,将响应返回给用户;
步骤3:标注功能接口全部遵循Restful标准化接口规范,接口规范采用标准的HTTP规范方法,并遵循HTTP规范方法中的语义;
步骤4:用户通过Web页面将入院记录标注原始表输入标注系统,标注数据库读取并存储入院记录标注原始表;
步骤5:参与标注的人员通过Web页面对入院记录标注原始表进行中文分词、词性和命名实体标注,并生成标注结果表,其具体步骤如下:
步骤A1:中文分词标注:参与标注的人员登录Web页面后进入中文分词标注功能页面,加载入院记录标注原始表,采用BEMS标记法进行分词标注;
所有标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标记完毕后,标注系统架构调用后台的Restful标注保存接口,将数据写入中文分词标注表的分词标注结果字段,加BMES标记处理后写入分词标注结果字段,生成中文分词标注结果表;
中文分词标注接口包括分词标注加载接口和修改保存接口;分词标注加载接口用于从标注原始表读取原始标注文本或从分词标注结果表中读取标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表中文分词标注结果;
步骤A2:词性标注:参与标注的人员登录Web页面后进入词性标注功能页面,加载入院记录标注原始表,参与标注的人员基于分词结果逐个对分词的词性进行选择确认,词性的标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标注结束后,标注系统架构调用后台的Restful标注保存接口,将数据写入词性标注表的标注结果字段,生成词性标注结果表;
词性标注接口包括词性标注加载接口和修改保存接口;词性标注加载接口用于从词性标注结果表中读取词性标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表分词词性标注结果;
步骤A3:命名实体标注:参与标注的人员登录Web页面后进入命名实体标注功能页面,加载入院记录标注原始表,参与标注的人员在Web页面上对基于定义的命名实体类型进行识别与类型匹配,标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标注完成,标注系统架构调用后台的Restful标注保存接口,将数据写入命名实体标注表的命名实体标注结果字段,加命名实体标签处理后写入标注结果字段,生成命名实体标注结果表;
命名实体标注接口包括命名实体标注加载接口和修改保存接口;
命名实体标注加载接口用于从标注原始表读取原始标注文本或从命名实体标注结果表中读取标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表命名实体标注结果;
步骤6:标注系统架构将中文分词标注结果表、词性标注结果表和命名实体标注结果表打包后作为标注结果表,标注数据库存储标注结果表。
优选的,在执行步骤3时,HTTP规范方法包括GET、PUT、POST和DELETE标准的HTTP方法,接口规范遵循GET、PUT、POST和DELETE在HTTP方法中的语义。
优选的,所述入院记录标注原始表为标注操作的唯一数据源,记录对原始电子病历文本进行预处理,即拆分和消冗后的数据,由EMR ID或TXT格式原始EMR文本、预处理后EMR文本和备注字段组成。
优选的,所述中文分词标注结果表包括如下格式:ID+EMR_ID+SEG_ANNOTATION_RAW+SEG_ANNOTATION_TAG+ANNOTOR+ANNO_TIME+REMARK;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;SEG_ANNOTATION_RAW为以空格作为分词划分符号的中文分词标注中间结果集;
SEG_ANNOTATION_TAG为加BEMS标记处理后的中文分词标注结果;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为是否分词标注完毕的标识位,默认值为空。
优选的,所述词性标注结果表包括如下格式:ID+EMR_ID+POS_ANNOTATION_RAW+POS_ANNOTATION_TAG+ANNOTATOR+ANNO_TIME+REMARK;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;POS_ANNOTATION_RAW为标识用户的标注及修改操作;POS_ANNOTATION_TAG为词性标注结果;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为备注;
优选的,所述命名实体标注结果表包括如下格式:ID+EMR_ID+NER_ANNOTATION_RAW+NER_ANNOTATION_TAG+ANNOTATOR++REMAR+ANNO_TIME;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;NER_ANNOTATION_RAW为标注中间结果集;NER_ANNOTATION_TAG为加命名实体标记处理后的标注结果集;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为备注。
本发明所述的一种面向中文电子病历文本结构化解析的标注方法,解决了对电子病历文本的分词、词性、命名实体标进行简洁的标注的技术问题,本发明的结果输出可以直接作为算法的训练语料输入,且健壮性高、可扩展性好,完全能够满足生产系统需要;本发明同时站在标注者和算法设计人员的视角,一方面标注系统简洁易用,最大限度降低标注者的标注工作强度,降低出错率,提高海量非结构化文本的标注精度和效率;另一方面,标注系统设计与知识库管理系统、核心算法系统实现数据流无缝对接,即原始电子病历数据经过预处理后直接流入标注系统,标注系统的输出直接作为核心算法系统的输入。
附图说明
图1是本发明的Spring MVC架构的消息处理流程图;
具体实施方式
如图1所示的一种面向中文电子病历文本结构化解析的标注方法,包括如下步骤:
步骤1:建立标注系统,标注系统包括标注系统架构和标注数据库;
标注系统架构包括Web开发框架和标注功能接口;
步骤2:Web开发框架采用Spring MVC Web开发架构,SpringMVC是一种基于Java的请求驱动类型的轻量级Web框架,符合Model-View-Controller架构模式思想,实现前台页面显示、控制逻辑、数据存储的解耦,从而简化开发,具体执行步骤如下:
步骤S1:首先用户发送请求信息至前端控制器,前端控制器根据请求信息来决定选择哪一个页面控制器进行处理。并把请求信息委托给该页面控制器;
步骤S2:页面控制器接收到请求信息后进行功能处理:首先需要收集和绑定请求信息到一个对象,设定该对象在Spring Web MVC中叫命令对象,并进行验证,然后将命令对象委托给业务对象进行处理;最后处理完毕后返回一个Model And View,即,模型数据和逻辑视图名;
步骤S3:前端控制器收回控制权,然后根据返回的逻辑视图名,选择相应的视图进行渲染,并把模型数据传入以便视图渲染;
步骤S4:前端控制器再次收回控制权,将响应返回给用户;
步骤3:标注功能接口全部遵循Restful标准化接口规范,接口规范采用标准的HTTP规范方法,并遵循HTTP规范方法中的语义;
步骤4:用户通过Web页面将入院记录标注原始表输入标注系统,标注数据库读取并存储入院记录标注原始表;
入院记录标注原始表的数据源为电子病历,其格式为如表1所示:
表1
步骤5:参与标注的人员通过Web页面对入院记录标注原始表进行中文分词、词性和命名实体标注,并生成标注结果表,其具体步骤如下:
步骤A1:中文分词标注:参与标注的人员登录Web页面后进入中文分词标注功能页面,加载入院记录标注原始表,采用BEMS标记法进行分词标注;
所有标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标记完毕后,标注系统架构调用后台的Restful标注保存接口,将数据写入中文分词标注表的分词标注结果字段,加BMES标记处理后写入分词标注结果字段,生成中文分词标注结果表;
中文分词标注接口包括分词标注加载接口和修改保存接口;分词标注加载接口用于从标注原始表读取原始标注文本或从分词标注结果表中读取标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表中文分词标注结果;
步骤A2:词性标注:参与标注的人员登录Web页面后进入词性标注功能页面,加载入院记录标注原始表,参与标注的人员基于分词结果逐个对分词的词性进行选择确认,词性的标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标注结束后,标注系统架构调用后台的Restful标注保存接口,将数据写入词性标注表的标注结果字段,生成词性标注结果表;
词性标注接口包括词性标注加载接口和修改保存接口;词性标注加载接口用于从词性标注结果表中读取词性标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表分词词性标注结果;
步骤A3:命名实体标注:参与标注的人员登录Web页面后进入命名实体标注功能页面,加载入院记录标注原始表,参与标注的人员在Web页面上对基于定义的命名实体类型进行识别与类型匹配,标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标注完成,标注系统架构调用后台的Restful标注保存接口,将数据写入命名实体标注表的命名实体标注结果字段,加命名实体标签处理后写入标注结果字段,生成命名实体标注结果表;
命名实体标注接口包括命名实体标注加载接口和修改保存接口;
命名实体标注加载接口用于从标注原始表读取原始标注文本或从命名实体标注结果表中读取标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表命名实体标注结果;
步骤6:标注系统架构将中文分词标注结果表、词性标注结果表和命名实体标注结果表打包后作为标注结果表,标注数据库存储标注结果表。
优选的,在执行步骤3时,HTTP规范方法包括GET、PUT、POST和DELETE标准的HTTP方法,接口规范遵循GET、PUT、POST和DELETE在HTTP方法中的语义。
GET的语义为:安全,幂等、获取表示和变更时获取表示(缓存);
POST的语义为:不安全,不幂等、使用服务端管理的(自动产生)的实例号创建资源、创建子资源、部分更新资源,如果没有被修改,则不过更新资源(乐观锁);
PUT的语义为:不安全,幂等、用客户端管理的实例号创建一个资源、通过替换的方式更新资源,如果未被修改,则更新资源(乐观锁);
DELETE的语义为:不安全,幂等、删除资源。
优选的,所述入院记录标注原始表为标注操作的唯一数据源,记录对原始电子病历文本进行预处理,即拆分和消冗后的数据,由EMR ID或TXT格式原始EMR文本、预处理后EMR文本和备注字段组成。
优选的,如表2所示所述中文分词标注结果表包括如下格式:ID+EMR_ID+SEG_ANNOTATION_RAW+SEG_ANNOTATION_TAG+ANNOTOR+ANNO_TIME+REMARK;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;SEG_ANNOTATION_RAW为以空格作为分词划分符号的中文分词标注中间结果集;
SEG_ANNOTATION_TAG为加BEMS标记处理后的中文分词标注结果;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为是否分词标注完毕的标识位,默认值为空。
表2
优选的,如表3所示的所述词性标注结果表包括如下格式:ID+EMR_ID+POS_ANNOTATION_RAW+POS_ANNOTATION_TAG+ANNOTATOR+ANNO_TIME+REMARK;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;POS_ANNOTATION_RAW为标识用户的标注及修改操作;POS_ANNOTATION_TAG为词性标注结果;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为备注;
表3
优选的,如表4所示的所述命名实体标注结果表包括如下格式:ID+EMR_ID+NER_ANNOTATION_RAW+NER_ANNOTATION_TAG+ANNOTATOR++REMAR+ANNO_TIME;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;NER_ANNOTATION_RAW为标注中间结果集;NER_ANNOTATION_TAG为加命名实体标记处理后的标注结果集;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为备注。
表4
本发明数据库表设计为不同的标注提供了统一的标注数据源视图,也保证了标注结果的相互隔离。
本发明所述的一种面向中文电子病历文本结构化解析的标注方法,解决了对电子病历文本的分词、词性、命名实体标进行简洁的标注的技术问题,本发明的结果输出可以直接作为算法的训练语料输入,且健壮性高、可扩展性好,完全能够满足生产系统需要;本发明同时站在标注者和算法设计人员的视角,一方面标注系统简洁易用,最大限度降低标注者的标注工作强度,降低出错率,提高海量非结构化文本的标注精度和效率;另一方面,标注系统设计与知识库管理系统、核心算法系统实现数据流无缝对接,即原始电子病历数据经过预处理后直接流入标注系统,标注系统的输出直接作为核心算法系统的输入。

Claims (6)

1.一种面向中文电子病历文本结构化解析的标注方法,其特征在于:包括如下步骤:
步骤1:建立标注系统,标注系统包括标注系统架构和标注数据库;
标注系统架构包括Web开发框架和标注功能接口;
步骤2:Web开发框架采用Spring MVC Web开发架构,具体执行步骤如下:
步骤S1:首先用户发送请求信息至前端控制器,前端控制器根据请求信息来决定选择哪一个页面控制器进行处理。并把请求信息委托给该页面控制器;
步骤S2:页面控制器接收到请求信息后进行功能处理:首先需要收集和绑定请求信息到一个对象,设定该对象在Spring Web MVC中叫命令对象,并进行验证,然后将命令对象委托给业务对象进行处理;最后处理完毕后返回一个Model And View,即,模型数据和逻辑视图名;
步骤S3:前端控制器收回控制权,然后根据返回的逻辑视图名,选择相应的视图进行渲染,并把模型数据传入以便视图渲染;
步骤S4:前端控制器再次收回控制权,将响应返回给用户;
步骤3:标注功能接口全部遵循Restful标准化接口规范,接口规范采用标准的HTTP规范方法,并遵循HTTP规范方法中的语义;
步骤4:用户通过Web页面将入院记录标注原始表输入标注系统,标注数据库读取并存储入院记录标注原始表;
步骤5:参与标注的人员通过Web页面对入院记录标注原始表进行中文分词、词性和命名实体标注,并生成标注结果表,其具体步骤如下:
步骤A1:中文分词标注:参与标注的人员登录Web页面后进入中文分词标注功能页面,加载入院记录标注原始表,采用BEMS标记法进行分词标注;
所有标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标记完毕后,标注系统架构调用后台的Restful标注保存接口,将数据写入中文分词标注表的分词标注结果字段,加BMES标记处理后写入分词标注结果字段,生成中文分词标注结果表;
中文分词标注接口包括分词标注加载接口和修改保存接口;分词标注加载接口用于从标注原始表读取原始标注文本或从分词标注结果表中读取标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表中文分词标注结果;
步骤A2:词性标注:参与标注的人员登录Web页面后进入词性标注功能页面,加载入院记录标注原始表,参与标注的人员基于分词结果逐个对分词的词性进行选择确认,词性的标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标注结束后,标注系统架构调用后台的Restful标注保存接口,将数据写入词性标注表的标注结果字段,生成词性标注结果表;
词性标注接口包括词性标注加载接口和修改保存接口;词性标注加载接口用于从词性标注结果表中读取词性标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表分词词性标注结果;
步骤A3:命名实体标注:参与标注的人员登录Web页面后进入命名实体标注功能页面,加载入院记录标注原始表,参与标注的人员在Web页面上对基于定义的命名实体类型进行识别与类型匹配,标注信息暂存为临时变量,直到参与标注的人员在Web页面上确认标注完成,标注系统架构调用后台的Restful标注保存接口,将数据写入命名实体标注表的命名实体标注结果字段,加命名实体标签处理后写入标注结果字段,生成命名实体标注结果表;
命名实体标注接口包括命名实体标注加载接口和修改保存接口;
命名实体标注加载接口用于从标注原始表读取原始标注文本或从命名实体标注结果表中读取标注中间结果集;
修改保存接口用于保存修改后的入院记录标注原始表命名实体标注结果;
步骤6:标注系统架构将中文分词标注结果表、词性标注结果表和命名实体标注结果表打包后作为标注结果表,标注数据库存储标注结果表。
2.如权利要求1所述的一种面向中文电子病历文本结构化解析的标注方法,其特征在于:在执行步骤3时,HTTP规范方法包括GET、PUT、POST和DELETE标准的HTTP方法,接口规范遵循GET、PUT、POST和DELETE在HTTP方法中的语义。
3.如权利要求1所述的一种面向中文电子病历文本结构化解析的标注方法,其特征在于:所述入院记录标注原始表为标注操作的唯一数据源,记录对原始电子病历文本进行预处理,即拆分和消冗后的数据,由EMR ID或TXT格式原始EMR文本、预处理后EMR文本和备注字段组成。
4.如权利要求1所述的一种面向中文电子病历文本结构化解析的标注方法,其特征在于:所述中文分词标注结果表包括如下格式:
ID+EMR_ID+SEG_ANNOTATION_RAW+SEG_ANNOTATION_TAG+ANNOTOR+ANNO_TIME+REMARK;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;SEG_ANNOTATION_RAW为以空格作为分词划分符号的中文分词标注中间结果集;
SEG_ANNOTATION_TAG为加BEMS标记处理后的中文分词标注结果;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为是否分词标注完毕的标识位,默认值为空。
5.如权利要求1所述的一种面向中文电子病历文本结构化解析的标注方法,其特征在于:所述词性标注结果表包括如下格式:ID+EMR_ID+POS_ANNOTATION_RAW+POS_ANNOTATION_TAG+ANNOTATOR+ANNO_TIME+REMARK;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;POS_ANNOTATION_RAW为标识用户的标注及修改操作;POS_ANNOTATION_TAG为词性标注结果;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为备注。
6.如权利要求1所述的一种面向中文电子病历文本结构化解析的标注方法,其特征在于:所述命名实体标注结果表包括如下格式:ID+EMR_ID+NER_ANNOTATION_RAW+NER_ANNOTATION_TAG+ANNOTATOR++REMAR+ANNO_TIME;
其中:ID为标识;EMR_ID为入院记录标注原始表的编号;NER_ANNOTATION_RAW为标注中间结果集;NER_ANNOTATION_TAG为加命名实体标记处理后的标注结果集;ANNOTATOR为标注者名称;ANNO_TIME为标准时间;REMARK为备注。
CN201811363466.2A 2018-11-16 2018-11-16 一种面向中文电子病历文本结构化解析的标注方法 Active CN109524071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811363466.2A CN109524071B (zh) 2018-11-16 2018-11-16 一种面向中文电子病历文本结构化解析的标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811363466.2A CN109524071B (zh) 2018-11-16 2018-11-16 一种面向中文电子病历文本结构化解析的标注方法

Publications (2)

Publication Number Publication Date
CN109524071A true CN109524071A (zh) 2019-03-26
CN109524071B CN109524071B (zh) 2021-07-27

Family

ID=65777940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811363466.2A Active CN109524071B (zh) 2018-11-16 2018-11-16 一种面向中文电子病历文本结构化解析的标注方法

Country Status (1)

Country Link
CN (1) CN109524071B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177309A (zh) * 2019-12-05 2020-05-19 宁波紫冬认知信息科技有限公司 病历数据的处理方法及装置
CN111898411A (zh) * 2020-06-16 2020-11-06 华南理工大学 文本图像标注系统、方法、计算机设备和存储介质
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070164096A1 (en) * 2006-01-18 2007-07-19 Simon Banfield Pharmacy network computer system and printer
US20090299977A1 (en) * 2008-05-28 2009-12-03 Siemens Medical Solutions Usa, Inc. Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070164096A1 (en) * 2006-01-18 2007-07-19 Simon Banfield Pharmacy network computer system and printer
US20090299977A1 (en) * 2008-05-28 2009-12-03 Siemens Medical Solutions Usa, Inc. Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MUJIONO, S. 等: "A new data representation based on training data characteristics to extract drug named-entity in medical text", 《ARXIV》 *
张立邦: "基于半监督学习的中文电子病历分词和名实体挖掘", 《中国优秀硕士论文学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177309A (zh) * 2019-12-05 2020-05-19 宁波紫冬认知信息科技有限公司 病历数据的处理方法及装置
CN111177309B (zh) * 2019-12-05 2024-04-12 宁波紫冬认知信息科技有限公司 病历数据的处理方法及装置
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113032469B (zh) * 2019-12-24 2024-02-20 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN111898411A (zh) * 2020-06-16 2020-11-06 华南理工大学 文本图像标注系统、方法、计算机设备和存储介质
CN111898411B (zh) * 2020-06-16 2021-08-31 华南理工大学 文本图像标注系统、方法、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109524071B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
CN109524071A (zh) 一种面向中文电子病历文本结构化解析的标注方法
CN105630502A (zh) 一种生成动态表单的方法和系统
CN106855851A (zh) 知识抽取方法及装置
CN106446072A (zh) 网页内容的处理方法和装置
CN109614671A (zh) 一种基于视图的三维mbd工序模型组织及表达方法
CN109947948A (zh) 一种基于张量的知识图谱表示学习方法及系统
CN106952024A (zh) 一种适用于地基增强网运维场景的工作流引擎方法及系统
CN114218333A (zh) 一种地质知识图谱构建方法、装置、电子设备及存储介质
Zubcoff et al. A UML profile for the conceptual modelling of data-mining with time-series in data warehouses
CN104298705A (zh) 一种关系型数据和非结构化数据的转换方法
Zeng et al. The Innovation and Development Path of Cultural and Creative Industries in Anhui Province, China: Nvivo12‐Based Policy Text Analysis
Sarja et al. Developing Green Tourism-Based Model of Information Technology Utilization in Tourism Villages
Hua Challenges and practices of large scale visual intelligence in the real-world
CN113704383A (zh) 篇章语义标注的方法、系统及装置
CN111737951B (zh) 一种文本语言关联关系标注方法和装置
Zhu et al. Extraction of emergency elements and business process model of urban rail transit plans
Lu et al. Exploration and application of graphic design language based on artificial intelligence visual communication
Yang RETRACTED ARTICLE: Financial Information Extraction Using the Improved Hidden Markov Model and Deep Learning
CN106649219A (zh) 一种通信卫星设计文件自动生成方法
CN113377905A (zh) 一种基于三维数字底座的城市大脑理论体系与平台系统
Wang et al. Evolution of the Internet’s Support for Chinese Enterprises’ Innovation Based on Big Data
CN111626792A (zh) 一种对配网内综合能源源荷储精准画像技术
CN110110270A (zh) 一种并行处理的大型族谱世系图的生成方法及装置
Del Fatto Visual summaries of geographic databases by chorems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant