CN109657062A - 一种基于大数据技术的电子病历文本解析闭环方法 - Google Patents

一种基于大数据技术的电子病历文本解析闭环方法 Download PDF

Info

Publication number
CN109657062A
CN109657062A CN201811578717.9A CN201811578717A CN109657062A CN 109657062 A CN109657062 A CN 109657062A CN 201811578717 A CN201811578717 A CN 201811578717A CN 109657062 A CN109657062 A CN 109657062A
Authority
CN
China
Prior art keywords
word
dictionary
label
health record
electronic health
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811578717.9A
Other languages
English (en)
Inventor
王晔
张敬谊
李光亚
桑伟毅
姜峰
丁海明
路平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WANDA INFORMATION CO Ltd
Original Assignee
WANDA INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WANDA INFORMATION CO Ltd filed Critical WANDA INFORMATION CO Ltd
Priority to CN201811578717.9A priority Critical patent/CN109657062A/zh
Publication of CN109657062A publication Critical patent/CN109657062A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于大数据技术的电子病历文本解析闭环方法,从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计,获得包含更多未登陆词的字典,进而电子病历分词更为准确,词向量的计算也随之更准确,这样,更多的词可以被标注类别,达到提高命名实体识别准确率的实际效果,是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案,为中文电子病历文本解析提供了创新思路,对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务具有重要意义。

Description

一种基于大数据技术的电子病历文本解析闭环方法
技术领域
本发明涉及一种基于大数据技术的电子病历文本解析闭环方法。
背景技术
文本信息是医疗信息资源的主要形式,占比达到95%以上。文本信息又以电子病历(Electronic Medical Record,EMR)为重要代表。电子病历作为记录患者诊疗全过程的重要文档集合,在信息化过程中,处在特别重要的地位。由于历史和实用方面的原因,电子病历由结构化和大量非结构化的内容构成,结构化的内容是指key-value形式,即键值对形式,非结构化的内容为自然语言。非结构化的输入形式带来了数据的多维性、不确定性,受控医学词汇表以及支持临床决策的临床数据仓库,使大量临床数据分散在不同的系统中,很难实现高效方便地获取病人完整和准确的诊疗信息。对电子病历文本进行分词处理,并从中抽取临床术语,是进行电子病历数据分析的基础。经过标准化处理的文本信息,通过查询、分析,才能真正辅助临床决策,实现精准医疗。
电子病历后结构化要在对电子病历文本进行准确的分词的基础上,为词语标注类别,并按类别标签分析语义和结构化梳理。由于医生的医疗知识融合于描述性的自由文本中,因而,电子病历文本具有以下特点:(1)包含大量的医学术语、缩略语和习惯用语,如“脑白质病”、“眼震”、“复视”、“示”、“伴”、“尚可”等.(2)语言结构与一般语境条件下的自然语言不同,结构不完整,但模式化较强,如描述症状是:身体部位+描述(“上肢可抬举”,“言语笨拙”);排除症状是:“否认/无”+描述(“无发热”)。(3)中文、英文缩写、数字混杂的现象比较普遍,如以数字+单位的检查结果和英文缩写词表示的检查或治疗手段:“100/70mmHg”、“3.0mm”、“CT”、“MMR”等。(4)为了表达清晰,用半结构化的方式组织各部分内容。以上均为计算机自动处理制造了障碍。
国内已有的中文病历文本分词研究虽然取得了良好的进展,但尚无法满足病历文本处理的需要。采用不同的中文分词工具,对慢性乙肝患者的常见临床表现的描述:“面色黧黑,口唇紫暗,面部可见到毛细血管扩张,胸前散在蜘蛛痣,舌质红,苔微黄,脉弦细”进行分词测试,国内已有的中文病历文本分词软件分词效果显示:对于“散在”、“蜘蛛痣”、“毛细血管”、“脉弦”等专业词汇均有不同程度的无法识别。同时,选取一段包含“注射用细辛脑”、“苦碟子注射液”、“注射用香菇多糖”、“消癌平注射液”、“盐酸氨溴索”、“环磷腺苷葡胺”、“阿加曲班注射液”共七个药品名称的文本分词测试结果得到:多数分词软件均不能完整地识别出某一个药品名称。
总而言之,虽然常用分词工具能在自然文本或者人们经常使用的文本中有不错的分词效果和较髙的正确率,但是对于拥有很多专业用语的医学文本处理,各个分词工具都不能达到比较理想的效果。因而自然语言处理、信息抽取等相关技术在电子病历的分析和挖掘中将发挥重要的作用。同时病历文本的半结构化特点和语言特点给自然语言处理技术的应用带来新的挑战和机遇。挑战主要在于电子病历文本行文风格与开放领域文本或其他领域文本迥然不同。因此,已有的基础处理工具如分词、词性标注、句法分析在电子病历文本上的效果尚待进一步提升。另一方面,对于分好的词,还需进行类别标签的标注,判断其在业务上的属性,以利于更多规律的发现。
发明内容
本发明要解决的技术问题是:目前缺乏中文电子病历的分词和词性标注研究。
为了解决上述技术问题,本发明的技术方案是提供了一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:
步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;
步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集
步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;
以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;
步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,并将上一步得到的未登录的行业术语补充入粗分词典中,形成更新后的粗分词典及精确分词词典后返回步骤2。
优选地,所述步骤2中,应用深度学习框架word2vec训练词向量,通过词向量进行文本特征表示,通过最近邻分类kNN判断无标签的词所对应的词向量所属的类别,依据同一类别中有标签的词的标签将无标签的词加上对应的标签。
优选地,在对标签进行人工审核后,将无标签的词加上对应的标签。
优选地,在所述步骤3之后,并所述步骤4之前还包括:
由人工对未登录的行业术语及未登录的命名实体进行审核并修改后,进入所述步骤4。
本发明提出一种基于大数据技术的闭环设计方案进行电子病历文本解析的方法,从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计,获得包含更多未登陆词的字典,进而电子病历分词更为准确,词向量的计算也随之更准确,这样,更多的词可以被标注类别,达到提高命名实体识别准确率的实际效果,是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案,为中文电子病历文本解析提供了创新思路,对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务具有重要意义。
附图说明
图1为前提与产出闭环示意图;
图2为基于大数据技术的电子病历文本解析闭环详述;
图3为电子病历后结构化基本步骤;
图4为Word2vec+kNN的词语类别标注结果;
图5为基于大数据技术的电子病历文本解析闭环效果。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明示意图见图1、内容详述见图2。
本发明提供的一种基于大数据技术的电子病历文本解析闭环方法包括以下步骤:
步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;
步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集
步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;
以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;
步骤4、由人工对未登录的行业术语及未登录的命名实体进行审核并修改后,进入所述步骤5;
步骤5、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,并将上一步得到的未登录的行业术语补充入粗分词典中,形成更新后的粗分词典及精确分词词典后返回步骤2。
在上述电子病历文本处理步骤中,使用高频词探查技术和粗分词典对病历文本进行探查后发现高频出现的专业术语;以带标签的词语训练集为基础,使用CRF识别出命名实体,高频专业术语和新识别的命名实体可促使字典更为准确,基于准确的字典分词得到分好的词语后,使用Word2vec+kNN的词语类别标注得到带标签的词,而带标签的词可进一步丰富带标签的词语训练集,如此形成产出于前提的良性闭环,通过多次迭代来逐渐覆盖到所有词,实际提高命名实体识别准确率,有效解决了目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库、通用分词工具对专业术语的识别效果并不理想、国内的中文医学术语标准化进程不足的问题,创新提出中文电子病历文本解析思路。
以下对本发明做进一步详细说明。对电子病历进行后结构化,其大致流程如图3所示,其中,在病历文本信息化处理过程中,首要问题是分词,从而需要制订分词标准、词性标注规范集或完备的分词词典,判断词与词的分界;接着需要将词语归入医疗业务上的类别,即词性标注,判断其在业务上的属性,对词语的准确分类有利于更多规律的发现;然后按类别标签分析句式和语义,使用知识图谱或“槽填充”进行结构化梳理。
一、医学文本准确分词
对于医疗卫生领域,目前尚缺乏统一标准的分词规范集。并且,对分词工具处理后的医疗卫生文本进行分析发现,一般词汇都能准确切分,医学专业术语出错率极高,而包含大量医学专业术语命名实体,且词的组合形式多样,增加了分词工具识别难度的情况。一般认为基于词典的分词的效果要优于基于概率的分词,通用工具的做法一般是基于词典和概率相结合的技术,构建医学专业术语词典是提高分词工具切分准确率的可行方案。词典的构建必须基于对词语的穷举,而人名、机构名等显然是不可穷举的。还有专业术语、新造词等,一般词典中也不会包含。这些分词词典中没有收录,但又确实能称为词的那些词,可统称为未登录词,根据未登录词的特征,我们采取如下措施分类进行处理。
1、不常见的、不能穷举的未登录词
人名、地名、医疗机构名、非标准的药品和疾病名称等不常见的、不能穷举的未登录词,我们采用命名实体识别NER进行处理。条件随机场CRF是NER的关键技术。
CRF是在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,和隐马尔科夫模型相比,它避免了标记偏置问题,并可以任意选择特征;它由可被观测的随机变量和隐含的马尔科夫随机场构成,主要用于标注和切分有序数据的条件概率模型。
训练后发现:(1)CRF的结果与训练集的覆盖程度密切相关,当训练集有限时,会发现CRF的准确度P显著的高而召回度R相对的低。(2)由于采用了临近词模板技术,“命名实体”临近的词语及其类别对CRF的识别有较大的影响。由此可见:CRF算法对“见过的”模式学习得不错,但“没见过的”模式就没法识别了;整个语料训练集,不仅需要“命名实体”部分的类别标签被正确标注,其他词语的类别标签也是越准确越好。
2、常见的、可以穷举的未登录词
对于卫生领域专有术语,如:部位、症状等常见的、可以穷举的未登录词,我们采用高频词探查技术进行处理。基本思路是语料库中频繁出现的n-gram连续的n个字,就极有可能是“词”或固定搭配的短语,这种方法的最大优势是发现语料库中高频出现的专业术语。
对高频词探查结果的进一步处理得到,确有一些高频的n-gram,并不是词;三字以上的词很多是短语。上述高频词探查结果中“患者于”出现了72次,如果“粗分字典”中包括“患者”,可以降低类似词语出现的情况,所以可以使用“粗分字典”进行预分词,一定程度上将高频词归类于字典中。另外,高频词探查后还需投入少量人力,才能准确剔除完全不是词的n-gram。对于确实属于术词或新词的,与命名实体一起补充到“细分字典”中,进一步进行准确的分词。
二、词语类别标注
我们采用词空间与词向量的方法进行词语类别标注,它将词映射到一个低维、稠密的实数向量空间中(空间大小一般为100或者200),使得词义越相近的词在空间的距离越近。在传统词空间中,最直观、最常用的词表示方法是One-hot Representation,这种方法把每个词表示为一个很高(上万)维的向量,而词向量采用Distributed Representation,向量空间大约几十到上百维,其意义在于让相关或者相似的词在距离上更接近了。传统的词空间和在词向量特征空间中,对于发热和发烧标注形式见表1。目前词向量已经被广泛应用于中文分词、词性标注、情感分析、句法依存分析等自然语言处理领域。
表1传统的词空间和词向量特征空间标注形式
word2vec是谷歌于2012年实现的开源语言建模工具,在自然语言处理领域得到了广泛关注,它可以快速有效地训练词向量。我们提出一种应用深度学习框架word2vec训练词向量,通过词向量进行文本特征表示,进而实现文本分类的方法。通过“词向量”可以发现语义上接近的词,尤其是向量距离非常接近的词,语义上存在“位置可替换”的关系,极有可能属于同一类,如果这些词中有一部分是已经有类别标签的,就可以通过最近邻分类(kNN)给无标签的词进行类别标注,Word2vec+kNN的效果如图4所示,最后需通过一定的人工审核,检验这样标注的“类别标签”是否可靠。
根据当前字典的分词结果,通过相似性计算给出词的疑似标签;利用带类别标签的词训练集进一步识别未登录词,完善分词词典;如此多次迭代,最终得到包含更多未登陆词的字典,使得分词更为准确,促使词向量的计算更准确,这样,更多的词可以被标注类别,进而命名实体识别更为准确,闭环效果如图5所示。

Claims (4)

1.一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:
步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;
步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集
步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;
以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;
步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,并将上一步得到的未登录的行业术语补充入粗分词典中,形成更新后的粗分词典及精确分词词典后返回步骤2。
2.如权利要求1所述的一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,所述步骤2中,应用深度学习框架word2vec训练词向量,通过词向量进行文本特征表示,通过最近邻分类kNN判断无标签的词所对应的词向量所属的类别,依据同一类别中有标签的词的标签将无标签的词加上对应的标签。
3.如权利要求2所述的一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,在对标签进行人工审核后,将无标签的词加上对应的标签。
4.如权利要求1所述的一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,在所述步骤3之后,并所述步骤4之前还包括:
由人工对未登录的行业术语及未登录的命名实体进行审核并修改后,进入所述步骤4。
CN201811578717.9A 2018-12-24 2018-12-24 一种基于大数据技术的电子病历文本解析闭环方法 Pending CN109657062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811578717.9A CN109657062A (zh) 2018-12-24 2018-12-24 一种基于大数据技术的电子病历文本解析闭环方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811578717.9A CN109657062A (zh) 2018-12-24 2018-12-24 一种基于大数据技术的电子病历文本解析闭环方法

Publications (1)

Publication Number Publication Date
CN109657062A true CN109657062A (zh) 2019-04-19

Family

ID=66115952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811578717.9A Pending CN109657062A (zh) 2018-12-24 2018-12-24 一种基于大数据技术的电子病历文本解析闭环方法

Country Status (1)

Country Link
CN (1) CN109657062A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265098A (zh) * 2019-05-07 2019-09-20 平安科技(深圳)有限公司 一种病例管理方法、装置、计算机设备及可读存储介质
CN110634546A (zh) * 2019-08-14 2019-12-31 中国科学院苏州生物医学工程技术研究所 电子病历文本规范化检测方法
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN110889412A (zh) * 2019-11-01 2020-03-17 泰康保险集团股份有限公司 体检报告中的医学长文定位与分类方法及装置
CN111295670A (zh) * 2019-04-25 2020-06-16 阿里巴巴集团控股有限公司 电子病历中实体的识别
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备
CN112286558A (zh) * 2020-11-09 2021-01-29 蚌埠依爱消防电子有限责任公司 一种采集设备实时更新解析程序的方法
CN113051898A (zh) * 2019-12-27 2021-06-29 北京阿博茨科技有限公司 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113808758A (zh) * 2021-08-31 2021-12-17 联仁健康医疗大数据科技股份有限公司 一种检验数据标准化的方法、装置、电子设备和存储介质
CN113823371A (zh) * 2021-09-18 2021-12-21 上海保链科技有限公司 医疗数据结构化处理方法、装置及设备
CN114678138A (zh) * 2022-04-19 2022-06-28 重庆邮电大学 一种基于电子护理文本数据的人体跌倒风险预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468900A (zh) * 2015-11-20 2016-04-06 邹远强 一种基于知识库的智能病历录入平台
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN108255816A (zh) * 2018-03-12 2018-07-06 北京神州泰岳软件股份有限公司 一种命名实体识别方法、装置及系统
US20180210876A1 (en) * 2017-01-22 2018-07-26 Alibaba Group Holding Limited Word vector processing for foreign languages
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468900A (zh) * 2015-11-20 2016-04-06 邹远强 一种基于知识库的智能病历录入平台
US20180210876A1 (en) * 2017-01-22 2018-07-26 Alibaba Group Holding Limited Word vector processing for foreign languages
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN108255816A (zh) * 2018-03-12 2018-07-06 北京神州泰岳软件股份有限公司 一种命名实体识别方法、装置及系统
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111295670A (zh) * 2019-04-25 2020-06-16 阿里巴巴集团控股有限公司 电子病历中实体的识别
CN110265098A (zh) * 2019-05-07 2019-09-20 平安科技(深圳)有限公司 一种病例管理方法、装置、计算机设备及可读存储介质
CN110634546A (zh) * 2019-08-14 2019-12-31 中国科学院苏州生物医学工程技术研究所 电子病历文本规范化检测方法
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN110765759B (zh) * 2019-10-21 2023-05-19 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN110889412B (zh) * 2019-11-01 2023-04-07 泰康保险集团股份有限公司 体检报告中的医学长文定位与分类方法及装置
CN110889412A (zh) * 2019-11-01 2020-03-17 泰康保险集团股份有限公司 体检报告中的医学长文定位与分类方法及装置
CN113051898A (zh) * 2019-12-27 2021-06-29 北京阿博茨科技有限公司 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备
CN112286558A (zh) * 2020-11-09 2021-01-29 蚌埠依爱消防电子有限责任公司 一种采集设备实时更新解析程序的方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113808758A (zh) * 2021-08-31 2021-12-17 联仁健康医疗大数据科技股份有限公司 一种检验数据标准化的方法、装置、电子设备和存储介质
CN113823371A (zh) * 2021-09-18 2021-12-21 上海保链科技有限公司 医疗数据结构化处理方法、装置及设备
CN114678138A (zh) * 2022-04-19 2022-06-28 重庆邮电大学 一种基于电子护理文本数据的人体跌倒风险预测方法及系统

Similar Documents

Publication Publication Date Title
CN109657062A (zh) 一种基于大数据技术的电子病历文本解析闭环方法
CN106682411B (zh) 一种将体检诊断数据转化为疾病标签的方法
CN106682397B (zh) 一种基于知识的电子病历质控方法
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN107463786A (zh) 基于结构化报告模板的医学影像知识库建立方法
CN107092674A (zh) 一种中医针灸领域事件触发词的自动抽取方法及系统
CN113590783B (zh) 基于nlp自然语言处理的中医养生智能问答系统
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN110019641A (zh) 一种医疗否定术语的检出方法及系统
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN111597789A (zh) 一种电子病历文本的评估方法及设备
CN113435200A (zh) 实体识别模型训练、电子病历处理方法、系统及设备
CN109036506A (zh) 互联网医疗问诊的监管方法、电子装置及可读存储介质
Yıldız et al. Acquisition of Turkish meronym based on classification of patterns
CN110060749A (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
Yıldız et al. Extraction of part-whole relations from Turkish corpora
Ren et al. Extraction of transitional relations in healthcare processes from Chinese medical text based on deep learning
Mikkelsen et al. Manual semantic tagging to improve access to information in narrative electronic medical records
Rogozov et al. Texts segmentation and semantic comparison: method and results of its application
Born Applications of natural language processing to archaeological decipherment: A survey of proto-Elamite
Zhu et al. Extracting temporal information from online health communities
Jin et al. Medical Record Semantic Analysis Based on Weighted LDA
Li et al. RCMR 280k: Refined Corpus for Move Recognition Based on PubMed Abstracts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Ye

Inventor after: Zhang Jingyi

Inventor after: Li Guangya

Inventor after: Sang Weiyi

Inventor after: Jiang Feng

Inventor after: Ding Haiming

Inventor after: Lu Ping

Inventor before: Wang Ye

Inventor before: Zhang Jingyi

Inventor before: Li Guangya

Inventor before: Sang Weiyi

Inventor before: Jiang Feng

Inventor before: Ding Haiming

Inventor before: Lu Ping

CB03 Change of inventor or designer information