CN111415751A - 电子病历数据的主题切分方法、装置及系统 - Google Patents

电子病历数据的主题切分方法、装置及系统 Download PDF

Info

Publication number
CN111415751A
CN111415751A CN202010196507.4A CN202010196507A CN111415751A CN 111415751 A CN111415751 A CN 111415751A CN 202010196507 A CN202010196507 A CN 202010196507A CN 111415751 A CN111415751 A CN 111415751A
Authority
CN
China
Prior art keywords
text data
label
segmentation
medical record
electronic medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010196507.4A
Other languages
English (en)
Other versions
CN111415751B (zh
Inventor
王利叶
胡文
胡可云
陈联忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiahesen Health Technology Co ltd
Original Assignee
Beijing Jiahesen Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiahesen Health Technology Co ltd filed Critical Beijing Jiahesen Health Technology Co ltd
Priority to CN202010196507.4A priority Critical patent/CN111415751B/zh
Publication of CN111415751A publication Critical patent/CN111415751A/zh
Application granted granted Critical
Publication of CN111415751B publication Critical patent/CN111415751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种电子病历数据的主题切分方法、装置及系统,其中方法包括:获取电子病历数据的文本数据;输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。本发明可以对电子病历数据中文本数据进行精确的主题区分,以便方便针对不同主题文本数据进行实体关系抽取。

Description

电子病历数据的主题切分方法、装置及系统
技术领域
本申请涉及医学技术领域,尤其涉及电子病历数据的主题切分方法、装置及系统。
背景技术
随着电子技术的快速发展,大数据、电子病历在医院逐渐普及的情况下,医疗行业也产生海量的临床大数据,如何对临床大数据进行分析和挖掘也成为医疗信息化发展所面临的挑战。
在结构化病历应用之前,医院保存大量非结构化的电子病历数据(非结构化的电子病历数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、XML、HTML、图像和音频/视频信息等)。
这些非结构化的电子病历数据对于科研和临床都有着重要的意义,所以从非结构化的电子病历数据中筛选、抽取和分析出有价值内容成为一项非常重要的工作。
发明内容
申请人在研究过程中发现:
由于电子病历数据的成段文本中有很多不同主题的文本数据,例如关于疾病的文本数据,关于检查的文本数据,关于症状的文本数据等,若直接对电子病历数据抽取实体关系则会出现许多问题,因此在对电子病历数据进行抽取实体关系之前,需要对电子病历数据进行主题切分。
目前主要有三种对电子病历数据进行主题切分的方案:
第一种:标点符号切分法。
对于一段描述通常会很自然认为在一个句号或分号内一段话所要表达的意思应该是相关的。比如一段话:“高血压病史50余年,血压最高200/100mmHg,目前口服安博诺150mg、压氏达2.5mg qd控制血压。高脂血症病史10余年,一直服用他汀类药物,目前口服立普妥20mg qn。”
第一个句号之前为有关高血压的文本数据,安博诺为治疗高血压的药物。第一句号后面有关高脂血症的文本数据,立普妥为用来治疗高脂血症的药物。
因此第一种解决方案是单纯利用文本中的标点符号进行处理,也即按照句号和分号对电子病历数据进行拆分。对于上一段描述:在采用标点符号切分法后切分成两个主题文本数据,一个主题文本数据为“高血压病史50余年,血压最高200/100mmHg,目前口服安博诺150mg、压氏达2.5mg qd控制血压。”;另一主题文本数据为“高脂血症病史10余年,一直服用他汀类药物,目前口服立普妥20mg qn。”
但是,标点符号切分法对段落标点符号的规范性要求非常高。但是在现实中并不是每一个医生在写电子病历时都能使得标点符号规范化。因此,本方案在使用在电子病历本身的标点符号出现问题时,错误率较高。
例如,电子病历为“1天前炒菜时出现头晕,伴恶心、呕吐、大汗。无胸痛、胸闷、心悸”的情况下,那么按照标点符号切分法切分段落后,会将其切分成两个主题文本数据。但是,从字面理解中我们知道这两句话都是对症状的相关性描述,需要切分为一个主题文本数据。此时,标点符号切分法便出现问题。
第二种:标志切分法。
由于可以利用分词工具对文本进行分词标注,所以对于电子病历中一段文本可以确定哪些词语为疾病实体,哪些词语为手术实体。因此可以按照疾病为标志,对段落进行划分。即,一段文本遇到疾病实体便将一个疾病实体和另一个疾病实体之间的语句归于第一个疾病中。
比如:“30年前患有白内障。15年前行白内障手术。肠易激综合征7年,胃溃疡病史10余年。”如果按照标志切分法进行划分则会划分成为三个主题文本数据:“30年前患有白内障。15年前行白内障手术。”、“肠易激综合征7年”和“胃溃疡病史10余年。”
但是,标志切分法的问题为症状和疾病有时候会出现混淆,如“患者患有高血压10年,不伴胸闷。”,那么标志切分法会把它分成两个主题文本数据:疾病和症状,可事实上并不是这样:因为胸闷也是对高血压的描述。
第三种:标点符号切分法和标志切分法的结合方法。
结合标点符号切分法和标志切分法,先对一段文本按照标点符号进行划分。以“颅脑CT示多发腔梗?血管间隙、脑干梗塞?”为例,则划分为“颅脑CT示多发腔梗?”,“血管间隙、脑干梗塞?”。然后,按照标志切分法进行第二次切分,得到“颅脑CT示多发腔梗?”,“血管间隙、脑干梗塞?”。
但是,对“血管间隙、脑干梗塞?”而言,其也是对“颅脑CT示多发腔梗?”的相关内容,却被拆分为两个主题文本数据。
因此,现有三种切分方法并不能准确的解决精准进行主题切分的需求。在电子病历数据中不可避免的会出现一段多主题共存的文本数据,当主题文本数据切分错误的时候,后面再针对不同主题文本数据进行信息抽取也会受到很大影响,因此对文本数据进行精准切分是后续进行实体关系抽取的关键。
鉴于此,本申请提供一种电子病历数据的主题切分方法、装置及系统,可以对电子病历数据中文本数据进行精确的主题区分,以便方便针对不同主题文本数据进行实体关系抽取。
为了实现上述目的,本发明提供了下述技术特征:
一种电子病历数据的主题切分方法,包括:
获取电子病历数据的文本数据;
输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
可选的,在获取电子病历数据的文本数据之后,还包括:
对所述电子病历数据的文本数据进行预处理操作。
可选的,还包括:
获取多个已为各个字符添加标注标签的文本数据样本;
利用多个文本数据样本通过CRF++开源工具训练;
在达到训练结束条件后,获得训练好的标注模型。
可选的,还包括:
分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
一种电子病历数据的主题切分装置,包括:
获取单元,用于获取电子病历数据的文本数据;
输入单元,用于输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
切分单元,用于遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
可选的,在获取单元之后,还包括:
预处理单元,用于对所述电子病历数据的文本数据进行预处理操作。
可选的,还包括:
训练单元,用于获取多个已为各个字符添加标注标签的文本数据样本;利用多个文本数据样本通过CRF++开源工具训练;在达到训练结束条件后,获得训练好的标注模型。
可选的,还包括:
分类单元,用于分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
一种电子病历数据的主题切分系统,包括:
数据库服务器,用于存储电子病历数据;
服务器,用于从数据库服务器获取电子病历数据的文本数据;输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
可选的,所述服务器,还用于分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
通过以上技术手段,可以实现以下有益效果:
本发明提供了一种电子病历数据的主题切分方法,可以利用预先训练好的标注模型对文本数据中每个字符进行标注,获得各个字符的标注标签,其中标注标签包括切分标注标签和非切分标注标签。然后,遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
本发明中标注模型为预先训练好的,标注模型可以准确输出各个字符的标注标签,标注标签中的切分标注标签即为切分依据,通过切分标注标签可以实现文本数据的精确切分为不同主题文本数据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种电子病历数据中实体关系抽取系统的结构示意图;
图2为本申请实施例公开的一种标注模型的训练过程的流程图;
图3为本申请实施例公开的一种主题分类模型的训练的流程图;
图4为本申请实施例公开的一种电子病历数据的主题切分方法的流程图;
图5为本申请实施例公开的一种电子病历数据的主题切分装置的结构示意图;
图6为本申请实施例公开的又一种电子病历数据的主题切分装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,本发明提供了一种电子病历数据中实体关系抽取系统,包括:
服务器100和数据库服务器200。
数据库服务器200,用于存储电子病历数据。
服务器100,用于从数据库服务器获取电子病历数据的文本数据,并对电子病历数据进行主题切分操作。
参见图2,本发明提供一种标注模型的训练过程,包括以下步骤:
步骤S201:数据输入。
获取多个数据,例如一个数据为“8年前患者无明显诱因出现胸前区疼痛,伴背部及左肩放射,伴呼吸困难,无头晕、黑朦、晕厥,就诊于外院行PCI术植入支架1枚,术后规律服用阿司匹林100mg 1次/日。仍自觉胸前区压迫感,与劳累、情绪、受凉无关,约4次/月。未予诊治。”,则输入该数据。
步骤S202:数据预处理。
对S201中的数据进行预处理,规划范化格式。
本举例中输入的数据存在异常空格,则在本步骤进行预处理时删除空格,得到“8年前患者无明显诱因出现胸前区疼痛,伴背部及左肩放射,伴呼吸困难,无头晕、黑朦、晕厥,就诊于外院行PCI术植入支架1枚,术后规律服用阿司匹林100mg 1次/日。仍自觉胸前区压迫感,与劳累、情绪、受凉无关,约4次/月。未予诊治。”
步骤S203:字符切分标签标注。
延续步骤S202中的举例,按单字符来拆分数据,获得单个字符,分别为每个单字符设定标签,其中,0表示不分段,1表示需要分段。
Figure BDA0002417813390000061
Figure BDA0002417813390000071
Figure BDA0002417813390000081
Figure BDA0002417813390000091
步骤S204:利用训练样本通过CRF++开源工具训练。
在对多个数据按照步骤S201~S203的方式执行后,将多个数据以8:2的比例随机分开,其中80%的数据用来作为训练样本,20%的数据用来测试样本,分别保存到文件train.data和test.data中。
利用train.data文件来通过CRF++开源工具训练,在训练结束后得到一个模型。该模型在测试集上的正确率为90%以上,若正确率不到90%则经过优化重新训练模型。
步骤S205:在达到训练结束条件后,获得训练好的标注模型。
参见图3,本发明提供了一种主题分类模型的训练过程,包括以下步骤:
步骤S301:数据输入。
延续上述举例,将上述切分后的5个分段作为5个样本数据输入:
Figure BDA0002417813390000101
步骤S302:数据预处理。
由于在训练模型过程中,每个样本中的标点符号(,;。?!:)等对语义的影响并不大,故在预处理过程中除了处理异常符号等内容,还需要将样本中的标点符号做归一化处理,本发明中将“,;。?!:”这些标点符号统一替换为“$”以提高模型的准确率。
Figure BDA0002417813390000102
步骤S303:数据分词、向量化、标注主题类别。
Figure BDA0002417813390000111
需要对每个分词进行向量化,本发明中用到的词向量是基于大量医疗数据训练得到的word2vec词向量,词向量大小为200维。对于不存在于训练的词的词向量如“$”则随机生成200维的数据作为其向量。
以“术后规律服用阿司匹林100mg 1次/日$”为例,进行向量化后的结果:
Figure BDA0002417813390000112
Figure BDA0002417813390000121
步骤S304:输入至神经网络模型进行训练
步骤S305:在达到训练结束条件后,获得训练好的主题分类模型。
参见图4,本发明提供了一种电子病历数据的主题切分方法,包括:
步骤S401:从数据库服务器获取电子病历数据的文本数据。
步骤S402:对所述电子病历数据的文本数据进行预处理操作。
对文本数据进行预处理操作,预处理操作包括去重,对异常符号和错别字进行删除、纠正或归一操作,当然还可以包括其它处理操作。例如,将文本数据中的异常符号“#¥”等删除,将常见错别字的“阿斯匹林”纠正为“阿司匹林”等。
步骤S403:输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签。
输入文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签。
以文本数据为“1天前胸闷、心悸再发,伴心悸、气短、出汗、头晕、恶心,未吐,持续10来分钟缓解,就诊于我院急诊,测血压161/69mmHg,颅脑CT示多发腔梗?血管间隙、脑干梗塞?”为例,标注模型输出结果详见表1,其中1代表切分标注标签,0代表非切分标注标签。
表1
Figure BDA0002417813390000122
Figure BDA0002417813390000131
Figure BDA0002417813390000141
步骤S404:遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
遍历文本数据中的各个字符的标注标签,在每遇到切分标注标签时,便将切分标注标签之前文本作为一个主题文本数据。
延续上述举例,主题文本数据参见表2。
表2
Figure BDA0002417813390000151
步骤S405:分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;其中,主题类别包括:症状、疾病、检查、检验和手术。
延续上述举例,主题分类模型输出的主题类别详见表3。
表3
Figure BDA0002417813390000152
通过以上技术手段,可以实现以下有益效果:
本发明提供了一种电子病历数据的主题切分方法,可以利用预先训练好的标注模型对文本数据中每个字符进行标注,获得各个字符的标注标签,其中标注标签包括切分标注标签和非切分标注标签。然后,遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
本发明中标注模型为预先训练好的,标注模型可以准确输出各个字符的标注标签,标注标签中的切分标注标签即为切分依据,通过切分标注标签可以实现文本数据的精确切分为不同主题文本数据。
参见图5,本发明提供了一种电子病历数据的主题切分装置,包括:
获取单元51,用于获取电子病历数据的文本数据;
输入单元52,用于输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
切分单元53,用于遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
参见图6,在图5基础上,还包括:
预处理单元54,用于对所述电子病历数据的文本数据进行预处理操作。
训练单元55,用于获取多个已为各个字符添加标注标签的文本数据样本;利用多个文本数据样本通过CRF++开源工具训练;在达到训练结束条件后,获得训练好的标注模型。
分类单元56,用于分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
参见图1,本发明提供了一种电子病历数据的主题切分系统,包括:
数据库服务器,用于存储电子病历数据;
服务器,用于从数据库服务器获取电子病历数据的文本数据;输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
所述服务器,还用于分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
关于服务器的具体实现详见图2-4所示的实施例,在此不再赘述。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种电子病历数据的主题切分方法,其特征在于,包括:
获取电子病历数据的文本数据;
输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
2.如权利要求1所述的方法,其特征在于,在获取电子病历数据的文本数据之后,还包括:
对所述电子病历数据的文本数据进行预处理操作。
3.如权利要求1所述的方法,其特征在于,还包括:
获取多个已为各个字符添加标注标签的文本数据样本;
利用多个文本数据样本通过CRF++开源工具训练;
在达到训练结束条件后,获得训练好的标注模型。
4.如权利要求1所述的方法,其特征在于,还包括:
分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
5.一种电子病历数据的主题切分装置,其特征在于,包括:
获取单元,用于获取电子病历数据的文本数据;
输入单元,用于输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;
切分单元,用于遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
6.如权利要求5所述的装置,其特征在于,在获取单元之后,还包括:
预处理单元,用于对所述电子病历数据的文本数据进行预处理操作。
7.如权利要求5所述的装置,其特征在于,还包括:
训练单元,用于获取多个已为各个字符添加标注标签的文本数据样本;利用多个文本数据样本通过CRF++开源工具训练;在达到训练结束条件后,获得训练好的标注模型。
8.如权利要求5所述的装置,其特征在于,还包括:
分类单元,用于分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
9.一种电子病历数据的主题切分系统,其特征在于,包括:
数据库服务器,用于存储电子病历数据;
服务器,用于从数据库服务器获取电子病历数据的文本数据;输入所述文本数据至预先训练好的标注模型,获得所述标注模型输出的、以字符为单位的标注标签;其中标注标签包括切分标注标签和非切分标注标签;遍历所述文本数据中各个字符的标注标签,按照切分标注标签拆分所述文本数据为不同的主题文本数据。
10.如权利要求9所述的系统,其特征在于,
所述服务器,还用于分别输入主题文本数据至预先训练好的主题分类模型,获得所述主题分类模型输出的主题类别;
其中,主题类别包括:症状、疾病、检查、检验和手术。
CN202010196507.4A 2020-03-19 2020-03-19 电子病历数据的主题切分方法、装置及系统 Active CN111415751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010196507.4A CN111415751B (zh) 2020-03-19 2020-03-19 电子病历数据的主题切分方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010196507.4A CN111415751B (zh) 2020-03-19 2020-03-19 电子病历数据的主题切分方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111415751A true CN111415751A (zh) 2020-07-14
CN111415751B CN111415751B (zh) 2023-08-08

Family

ID=71494439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010196507.4A Active CN111415751B (zh) 2020-03-19 2020-03-19 电子病历数据的主题切分方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111415751B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249667A1 (en) * 2001-10-18 2004-12-09 Oon Yeong K System and method of improved recording of medical transactions
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN108153734A (zh) * 2017-12-26 2018-06-12 北京嘉和美康信息技术有限公司 一种文本处理方法及装置
CN108170677A (zh) * 2017-12-27 2018-06-15 北京嘉和美康信息技术有限公司 一种医疗术语抽取方法及装置
CN109684631A (zh) * 2018-12-12 2019-04-26 北京神州泰岳软件股份有限公司 命名实体抽取方法、装置及介质
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249667A1 (en) * 2001-10-18 2004-12-09 Oon Yeong K System and method of improved recording of medical transactions
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN108153734A (zh) * 2017-12-26 2018-06-12 北京嘉和美康信息技术有限公司 一种文本处理方法及装置
CN108170677A (zh) * 2017-12-27 2018-06-15 北京嘉和美康信息技术有限公司 一种医疗术语抽取方法及装置
CN109684631A (zh) * 2018-12-12 2019-04-26 北京神州泰岳软件股份有限公司 命名实体抽取方法、装置及介质
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111415751B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN107578798B (zh) 电子病历的处理方法及系统
Doan et al. Integrating existing natural language processing tools for medication extraction from discharge summaries
CN109582975B (zh) 一种命名实体的识别方法及装置
Lee et al. Association of DSM-5 betel-quid use disorder with oral potentially malignant disorder in 6 betel-quid endemic Asian populations
CN117744654A (zh) 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
US20090299977A1 (en) Method for Automatic Labeling of Unstructured Data Fragments From Electronic Medical Records
CN106095913A (zh) 一种电子病历文本结构化方法
Magalhães et al. Cancer patients’ experiences on self-management of chemotherapy treatment-related symptoms: a systematic review and thematic synthesis
CN113539515B (zh) 临床需求挖掘方法、装置、电子设备和存储介质
EP3117353A1 (en) System and method for scheduling healthcare follow-up appointments based on written recommendations
CN112668280A (zh) 医学数据的处理方法、装置及存储介质
Michelson et al. Artificial intelligence for rapid meta-analysis: case study on ocular toxicity of hydroxychloroquine
Temel et al. Information quality and readability: ChatGPT's responses to the most common questions about spinal cord injury
Lee et al. Accuracy of cloud-based speech recognition open application programming interface for medical terms of Korean
CN112347773B (zh) 基于bert模型的医学应用模型训练方法及装置
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
CN110853716B (zh) 病历模板的创建方法及装置
CN111415751B (zh) 电子病历数据的主题切分方法、装置及系统
Haines et al. The role of systematic reviews in clinical research and practice
US20230377697A1 (en) System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history
Wang et al. Clinical application of Chinese Nanjing persistent vegetative state scale
CN114334049B (zh) 一种电子病历结构化处理方法和装置及设备
Pires et al. Brand names of Portuguese medication: understanding the importance of their linguistic structure and regulatory issues
CN112712868A (zh) 医学数据的分析方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant