CN107833603B - 电子病历文档分类方法、装置、电子设备及存储介质 - Google Patents

电子病历文档分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN107833603B
CN107833603B CN201711117711.7A CN201711117711A CN107833603B CN 107833603 B CN107833603 B CN 107833603B CN 201711117711 A CN201711117711 A CN 201711117711A CN 107833603 B CN107833603 B CN 107833603B
Authority
CN
China
Prior art keywords
document
medical record
electronic medical
keyword
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711117711.7A
Other languages
English (en)
Other versions
CN107833603A (zh
Inventor
强晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN201711117711.7A priority Critical patent/CN107833603B/zh
Publication of CN107833603A publication Critical patent/CN107833603A/zh
Application granted granted Critical
Publication of CN107833603B publication Critical patent/CN107833603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明的实施例提供了一种电子病历文档分类方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:将多个电子病历文档作为训练样本集,并提取训练样本集中各电子病历文档的文档特征;根据各电子病历文档的类型以及文档特征对文档分类模型进行训练;通过训练后的文档分类模型对待分类的电子病历文档进行分类。本发明实施例的技术方案能够基于电子病历文档的多个维度自动对电子病历文档进行分类,不需要人工进行标注,从而能够显著降低人力成本。

Description

电子病历文档分类方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种电子病历文档分类方法、电子病历文档分类装置、电子设备以及计算机可读存储介质。
背景技术
EMR(Electronic Medical Record,电子病历)是用电子设备保存、管理、传输和重现的数字化的病人医疗记录。
目前,几乎所有的EMR系统,都是按照人的维度来整合各种电子病历文档,但是并没有一个明确的标记来表示电子病历文档的类型。因此,在对医院的EMR文档进行数据处理前,需要确认每个EMR文档的类型,如入院记录,病程记录,手术记录等。现有的技术方案中,如果需要对EMR文档分类,往往是采用人工标注的方式对EMR文档进行分类。对于各医院存在的大量的EMR文档,人工标注的方式需要大量的人力成本,并且还容易标注错误。
因此,需要提供一种能够解决上述问题中的一个或多个问题的电子病历文档分类方法、电子病历文档分类装置、电子设备以及计算机可读存储介质。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种电子病历文档分类方法、电子病历文档分类装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明实施例的第一方面,提供了一种电子病历文档分类方法,包括:
将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征;
根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;
通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。
在本发明的一些实施例中,基于前述方案,所述电子病历文档分类方法还包括:
通过预定编码对所提取的所述训练样本集中各所述电子病历文档的文档特征进行编码;
将经编码的各所述电子病历文档的文档特征映射成稀疏向量。
在本发明的一些实施例中,基于前述方案,所述文档特征包括文档标题关键词特征、文档内容章节特征、文档内容关键词特征。
在本发明的一些实施例中,基于前述方案,所述文档分类模型为梯度提升决策树模型,根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练,包括:
根据各所述电子病历文档的类型以及所述文档特征对所述梯度提升决策树模型进行训练。
在本发明的一些实施例中,基于前述方案,所述梯度提升决策树模型包括多个分类器,所述多个分类器的数量与所述多个电子病历文档的类型的数量相同。
在本发明的一些实施例中,基于前述方案,通过训练后的所述文档分类模型对待分类的电子病历文档进行分类,包括:
通过所述梯度提升决策树模型中的各所述分类器对待分类的电子病历文档进行投票;
基于所述投票的结果对所述待分类的电子病历文档进行分类。
在本发明的一些实施例中,基于前述方案,基于所述投票的结果对所述待分类的电子病历文档进行分类,包括:
在所述投票的结果中仅有一个分类器对所述待分类的电子病历文档的投票时,将所述分类器的分类结果确定为所述待分类的电子病历文档的类型。
根据本发明实施例的第二方面,提供了一种电子病历文档分类装置,包括:
特征提取单元,用于将多个电子病历文档作为训练样本集,提取所述训练样本集中各电子病历文档的文档特征;
模型训练单元,用于根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;
文档分类单元,用于通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。
根据本发明实施例的第三方面,提供了一种电子设备,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述第一方面所述的电子病历文档分类方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的电子病历文档分类方法。
在本发明的一些实施例所提供的技术方案中,提取多个电子病历文档的文档特征,基于各电子病历文档的类型以及文档特征对文档分类模型进行训练;通过训练后的文档分类模型对待分类的电子病历文档进行分类。一方面,提取多个电子病历文档的文档特征,基于各电子病历文档的类型以及文档特征对文档分类模型进行训练,能够基于电子病历文档的多个维度对文档分类模型进行训练,从而能够提高分类的准确性;另一方面,通过训练后的文档分类模型对待分类的电子病历文档进行分类,能够通过机器学习的方式自动对电子病历文档进行分类,不需要人工进行标注,从而能够显著降低人力成本,减少由于人为疏忽造成的分类错误。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本发明的第一个示例实施例的电子病历文档分类方法的流程示意图;
图2示出了根据本发明的示例性实施例的将电子病历文档的文档特征映射为稀疏向量的流程示意图;
图3示出了根据本发明的示例性实施例的对待分类的电子病历文档进行分类的流程示意图;
图4示出了根据本发明的一示例性实施例的电子病历文档分类装置的示意框图;
图5示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在一种技术方案中,基于EMR文档的标题特征对EMR文档进行分类。在这种技术方案中,需要具有医学背景或医学信息技术背景的人对于EMR文档的标题特征设立规则,按照设立的规则对EMR文档的类别进行分析判断。这种技术方案中,一方面,分类的结果受限于设立规则的人的知识储备,当EMR文档标题与EMR的预设规则不符时,则无法识别EMR文档,此时还需要人工进行标注;另一方面,由于仅参考了EMR文档的标题,当EMR文档标题与EMR文档的内容不符合时,会出现分类错误的情况。
基于上述内容,在本发明的实施例中,首先提出了一种电子病历文档分类方法。参照图1所示,该电子病历文档分类方法可以包括以下步骤:
步骤S110,将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征;
步骤S120,根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;
步骤S130,通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。
根据本示例实施例中的电子病历文档分类方法,一方面,提取多个电子病历文档的文档特征,基于各电子病历文档的类型以及文档特征对文档分类模型进行训练,能够基于电子病历文档的多个维度对文档分类模型进行训练,从而能够提高分类的准确性;另一方面,通过训练后的文档分类模型对待分类的电子病历文档进行分类,能够通过机器学习的方式自动对电子病历文档进行分类,不需要人工进行标注,从而能够显著降低人力成本,减少由于人为疏忽造成的分类错误。
下面,将对本示例实施例中的电子病历文档分类方法进行详细的描述。
在步骤S110,将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征。
在本示例实施例中,可以将来自一个或多个医院的已知类型的多个电子病历文档作为训练样本集,提取训练样本集中的各电子病历文档的文档特征。电子病历的文档特征可以包括:“文档标题关键词特征”、“文档内容章节特征”、“文档内容关键词特征”。下面对这几种文档特征进行详细的介绍。
“文档标题关键词特征”对应于电子病历文档标题的关键词特征,在本示例实施例中可以通过两种方式提取电子病历文档标题的关键词特征。一种方式是通过关键词列表提取关键词特征,在关键词列表中,包含一系列关键词例如“日常病程”、“术后当日”、“治疗剂量”等词,如果电子病历文档标题中包含关键词列表中的关键词,则从电子病历文档标题中提取该关键词特征。另一种方式是通过与关键词对应的正则表达式列表提取,在正则表达式列表中,包含一系列的正则表达式,例如“骨牵引.*?记录”,“医师.*?会诊”,“医师.*?查房”等表达式,如果电子病历文档标题中包含与正则表达式列表中的正则表达式对应的关键词,则从电子病历文档标题中提取该关键词特征。
“文档内容章节特征”对应与电子病历文档内容的章节信息,例如“主诉”、“现病史”、“会诊意见”以及“手术诊断”等特征。由于不同类型的电子病历文档是和具体的章节信息直接相关的,例如“主诉”一般只出现在入院记录或者门诊病历中,“会诊意见”一般出现在会诊记录中,因此,可以通过提取电子病历文档的“文档内容章节特征”作为判断电子病历文档的类型的依据。
进一步地,在本示例实施例中,可以直接提取电子病历文档的章节信息作为“文档内容章节特征”,也可以通过文档内容章节信息表来提取电子病历文档的章节信息作为“文档内容章节特征”,还可以采用其他适当的方式提取电子病历文档的“文档内容章节特征”。
“文档内容关键词特征”对应于电子病历文档内容的关键词。在本示例实施例中,可以采用医学数据字典提取电子病历文档内容的关键词,医学数据字典可以包含“胀痛”、“腹泻”、“肝炎”等医学词汇,可以通过将电子病历文档内容中的关键词与医学数据字典中的医学词汇进行比较,确定这些关键词是否为医学数据字典中的医学词汇来确定是否提取该关键词。“文档内容关键词特征”是对“文档内容章节特征”的一种补充。
图2示出了根据本发明的示例性实施例的将电子病历文档的文档特征映射为稀疏向量的流程示意图。
参照图2所示,在提取了各电子病历文档的文档特征后,在步骤S210中,可以通过预定编码例如onehot(独热)编码对所提取的训练样本集中各电子病历文档的文档特征进行编码。需要说明的是,虽然在本示例实施例中示出了采用onehot编码对文档特征进行编码,但是也可以采用其他适当的编码方式对文档特征进行编码,本发明对此不进行特殊限定。
在步骤S220中,将经编码的各电子病历文档的文档特征映射成稀疏向量。通过将电子病历的文档特征映射成稀疏向量,可以减小需要处理的数据量,从而能够提高数据处理效率。
以onehot编码为例进行说明,对于电子病历文档的文档特征,可以采用由1开始自增的onehot编码的方式进行编码,例如,“标题日常病程”编码为1,“内容章节主诉”编码为3400,“内容关键词腹泻”编码5673,通过onehot编码,可以把一个电子病历文档映射成为一个稀疏向量的形式,即电子病历文档的特征向量。
继续参照图1所示,在步骤S120中,根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练。
在本示例实施例中,可以将电子病历文档的类型作为电子病历文档的标签,结合电子病历文档的文档特征或者上述特征向量对文档分类模型例如GBDT(GradientBoosting Decision Tree,梯度提升决策树)模型进行有监督的训练。
需要说明的是,在本示例实施例中,文档分类模型可以为GBDT模型,但是本领域技术人员应该理解的是,还可以采用其他的模型例如支持向量机模型、决策树模型以及贝叶斯模型等,这同样在本发明的保护范围内。
进一步地,梯度提升决策树模型还可以包括多个分类器例如二分分类器,多个分类器的数量可以与多个电子病历文档的类型的数量相同。例如,在多个电子病历文档具有n个类型即n个分类结果时,对梯度决策树模型进行训练后,可以生成n个二分类分类器。
在步骤S130中,通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。
在本示例实施例中,通过具有标签的电子病历文档的文档特征对文档分类模型进行训练后,就可以通过训练后的文档分类模型对待分类的电子病历文档进行分类。举例而言,可以提取待分类的电子病历文档的文档特征例如“文档标题关键词特征”、“文档内容章节特征”、“文档内容关键词特征”,将提取的文档特征映射为稀疏向量。然后,可以将该稀疏向量输入到训练后的文档分类模型,将该文档分类模型的输出结果作为待分类的电子病历文档的类型。
图3示出了根据本发明的示例性实施例的对待分类的电子病历文档进行分类的流程示意图。
参照图3所示,在步骤S310中,通过梯度提升决策树模型中的各分类器对待分类的电子病历文档进行投票,梯度提升决策树模型可以包括多个二分类分类器,每个二分类分类器与一个电子病历文档的类型相对应,因此,每个二分类分类器可以对与其对应的电子病历文档的分类进行投票。
在步骤S320中,基于步骤S310中的投票的结果对待分类的电子病历文档进行分类。在本示例实施例中,在所述投票的结果中仅有一个分类器对待分类的电子病历文档的投票时,将该分类器的分类结果确定为待分类的电子病历文档的类型。举例而言,当且仅当有只有一个分类器的分类结果表明该待分类的电子病历文档与该分类器相对应,例如仅有与“入院记录”类型对应的分类器对该电子病历文档投票,则输出该分类器的分类结果。
此外,在存在多个分类器对待分类的电子文档投票时,例如与“病程记录”类型对应的分类器和与“上级查房记录”类型对应的分类器对待分类的电子文档投票,则无法判断待分类的电子文档的类型,需要将该待分类的电子文档交由人工核查。或者在没有分类器对待分类的电子文档投票时,也需要将该待分类的电子文档交由人工核查。
此外,在本发明的实施例中,还提供了一种电子病历文档分类装置。参照图5所示,该电子病历文档分类装置400可以包括:特征提取单元410、模型训练单元420以及文档分类单元430。其中,特征提取单元410用于将多个电子病历文档作为训练样本集,提取所述训练样本集中各电子病历文档的文档特征;模型训练单元420用于根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;文档分类单元430用于通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。
由于本发明的示例实施例的电子病历文档分类装置400的各个功能模块与上述电子病历文档分类方法的示例实施例的步骤对应,因此在此不再赘述。
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参考图5,其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备的计算机系统500仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的电子病历文档分类方法。
例如,所述电子设备可以实现如图1中所示的:步骤S110,将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征;步骤S120,根据各所述电子病历文档的类型以及所述文档特征对文档分类模型进行训练;步骤S130,通过训练后的所述文档分类模型对待分类的电子病历文档进行分类。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备或装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种电子病历文档分类方法,其特征在于,包括:
将多个电子病历文档作为训练样本集,并提取所述训练样本集中各所述电子病历文档的文档特征;
通过预定编码对所提取的所述训练样本集中各所述电子病历文档的文档特征进行编码;
将经编码的各所述电子病历文档的文档特征映射成稀疏向量;
根据各所述电子病历文档的类型以及所述文档特征对应的所述稀疏向量对文档分类模型进行训练;
通过训练后的所述文档分类模型对待分类的电子病历文档进行分类;
其中,所述文档特征包括文档标题关键词特征、文档内容章节特征、文档内容关键词特征;
所述提取所述训练样本集中各所述电子病历文档的文档特征,包括:
通过关键词列表或者与关键词对应的正则表达式列表,从所述电子病历文档的标题中提取所述文档标题关键词特征,具体包括:如果所述电子病历文档的标题中包含关键词列表中的关键词,则从所述电子病历文档的标题中提取该关键词特征;或者,如果所述电子病历文档的标题中包含与正则表达式列表中的正则表达式对应的关键词,则从所述电子病历文档的标题中提取该关键词特征;
提取所述电子病历文档的章节信息,得到所述文档内容章节特征,具体包括:直接提取所述电子病历文档的章节信息;或者,通过文档内容章节信息表来提取所述电子病历文档的章节信息;
采用医学数据字典提取所述电子病历文档内容的关键词,得到所述文档内容关键词特征,具体包括:通过将所述电子病历文档内容中的关键词与医学数据字典中的医学词汇进行比较,确定该关键词是否为医学数据字典中的医学词汇,来确定是否提取该关键词。
2.根据权利要求1所述的电子病历文档分类方法,其特征在于,所述文档分类模型为梯度提升决策树模型,根据各所述电子病历文档的类型以及所述文档特征对应的所述稀疏向量对文档分类模型进行训练,包括:
根据各所述电子病历文档的类型以及所述文档特征对应的所述稀疏向量对所述梯度提升决策树模型进行训练。
3.根据权利要求2所述的电子病历文档分类方法,其特征在于,所述梯度提升决策树模型包括多个分类器,所述多个分类器的数量与所述多个电子病历文档的类型的数量相同。
4.根据权利要求3所述的电子病历文档分类方法,其特征在于,通过训练后的所述文档分类模型对待分类的电子病历文档进行分类,包括:
通过所述梯度提升决策树模型中的各所述分类器对待分类的电子病历文档进行投票;
基于所述投票的结果对所述待分类的电子病历文档进行分类。
5.根据权利要求4所述的电子病历文档分类方法,其特征在于,基于所述投票的结果对所述待分类的电子病历文档进行分类,包括:
在所述投票的结果中仅有一个分类器对所述待分类的电子病历文档的投票时,将所述分类器的分类结果确定为所述待分类的电子病历文档的类型。
6.一种电子病历文档分类装置,其特征在于,包括:
特征提取单元,用于将多个电子病历文档作为训练样本集,提取所述训练样本集中各电子病历文档的文档特征;通过预定编码对所提取的所述训练样本集中各所述电子病历文档的文档特征进行编码;将经编码的各所述电子病历文档的文档特征映射成稀疏向量;
模型训练单元,用于根据各所述电子病历文档的类型以及所述文档特征对应的所述稀疏向量对文档分类模型进行训练;
文档分类单元,用于通过训练后的所述文档分类模型对待分类的电子病历文档进行分类;
其中,所述文档特征包括文档标题关键词特征、文档内容章节特征、文档内容关键词特征;
所述特征提取单元,具体被配置为:
通过关键词列表或者与关键词对应的正则表达式列表,从所述电子病历文档的标题中提取所述文档标题关键词特征,具体包括:如果所述电子病历文档的标题中包含关键词列表中的关键词,则从所述电子病历文档的标题中提取该关键词特征;或者,如果所述电子病历文档的标题中包含与正则表达式列表中的正则表达式对应的关键词,则从所述电子病历文档的标题中提取该关键词特征;
提取所述电子病历文档的章节信息,得到所述文档内容章节特征,具体包括:直接提取所述电子病历文档的章节信息;或者,通过文档内容章节信息表来提取所述电子病历文档的章节信息;
采用医学数据字典提取所述电子病历文档内容的关键词,得到所述文档内容关键词特征,具体包括:通过将所述电子病历文档内容中的关键词与医学数据字典中的医学词汇进行比较,确定该关键词是否为医学数据字典中的医学词汇,来确定是否提取该关键词。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至5中任一项所述的电子病历文档分类方法。
8.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的电子病历文档分类方法。
CN201711117711.7A 2017-11-13 2017-11-13 电子病历文档分类方法、装置、电子设备及存储介质 Active CN107833603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711117711.7A CN107833603B (zh) 2017-11-13 2017-11-13 电子病历文档分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711117711.7A CN107833603B (zh) 2017-11-13 2017-11-13 电子病历文档分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN107833603A CN107833603A (zh) 2018-03-23
CN107833603B true CN107833603B (zh) 2021-03-23

Family

ID=61654375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711117711.7A Active CN107833603B (zh) 2017-11-13 2017-11-13 电子病历文档分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN107833603B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767819B (zh) * 2018-12-11 2021-06-04 东软集团股份有限公司 病历的分组方法、装置、存储介质和电子设备
CN109977073A (zh) * 2019-03-11 2019-07-05 厦门纵横集团科技股份有限公司 一种法院电子卷宗自动化归档系统及其方法
CN109948680B (zh) * 2019-03-11 2021-06-11 合肥工业大学 病历数据的分类方法及系统
CN110245112A (zh) * 2019-06-21 2019-09-17 同略科技有限公司 基于ai的智能化档案管理方法、系统、终端及存储介质
CN110428891A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 一种就诊意图的处理方法、装置及设备
CN110827941B (zh) * 2019-11-06 2020-12-22 山东众阳健康科技集团有限公司 电子病历信息校正方法及系统
CN112992301B (zh) * 2019-12-02 2024-03-29 金色熊猫有限公司 数据处理方法、装置、电子设备及存储介质
CN111177375B (zh) * 2019-12-16 2023-06-02 医渡云(北京)技术有限公司 一种电子文档分类方法及装置
CN111581381B (zh) * 2020-04-29 2023-10-10 北京字节跳动网络技术有限公司 文本分类模型的训练集合的生成方法、装置和电子设备
CN111640517B (zh) * 2020-05-27 2023-05-26 医渡云(北京)技术有限公司 病历编码方法、装置、存储介质及电子设备
CN111755091B (zh) * 2020-06-28 2024-02-27 北京嘉和海森健康科技有限公司 一种电子病历的处理方法及装置
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN112308048B (zh) * 2020-12-03 2023-12-19 云知声智能科技股份有限公司 基于少量标注数据的病历完整性判别的方法、装置及系统
CN112687367A (zh) * 2020-12-29 2021-04-20 中国人民解放军总医院 基于动态病情的病历分组方法、装置、设备及存储介质
CN112786132B (zh) * 2020-12-31 2023-03-24 北京懿医云科技有限公司 病历文本数据分割方法、装置、可读存储介质及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406452B2 (en) * 2005-03-17 2008-07-29 Hewlett-Packard Development Company, L.P. Machine learning
CN102214233B (zh) * 2011-06-28 2013-04-10 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN103632168B (zh) * 2013-12-09 2017-01-18 天津工业大学 一种机器学习中的分类器集成方法
CN106095996B (zh) * 2016-06-22 2020-02-21 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106250934B (zh) * 2016-08-12 2019-11-01 南方电网科学研究院有限责任公司 一种缺陷数据的分类方法及装置
CN106446526B (zh) * 2016-08-31 2019-11-15 北京千安哲信息技术有限公司 电子病历实体关系抽取方法及装置
CN106484674B (zh) * 2016-09-20 2020-09-25 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN106951917A (zh) * 2017-02-28 2017-07-14 思派(北京)网络科技有限公司 一种淋巴瘤病理类型的智能分类系统和方法

Also Published As

Publication number Publication date
CN107833603A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN107833603B (zh) 电子病历文档分类方法、装置、电子设备及存储介质
CN109584975B (zh) 医疗数据标准化处理方法及装置
CN110910976A (zh) 病历检测方法、装置、设备和存储介质
CN109840280B (zh) 一种文本分类方法、装置及计算机可读存储介质
CN112287664B (zh) 文本指标数据解析方法、系统及相应设备和存储介质
CN113611405A (zh) 一种体检项目推荐方法、装置、设备及介质
US20200293528A1 (en) Systems and methods for automatically generating structured output documents based on structural rules
CN111177375A (zh) 一种电子文档分类方法及装置
CN115858886A (zh) 数据处理方法、装置、设备及可读存储介质
CN110471941B (zh) 自动定位判断依据的方法、装置及电子设备
CN110245242B (zh) 医学知识图谱构建方法、装置以及终端
CN116578704A (zh) 文本情感分类方法、装置、设备及计算机可读介质
CN111785383A (zh) 数据处理方法及相关设备
CN111506595A (zh) 一种数据查询方法、系统及相关设备
CN115620886B (zh) 一种数据审核方法和装置
CN110287270B (zh) 实体关系挖掘方法及设备
CN111523309A (zh) 药品信息归一化的方法、装置、存储介质及电子设备
CN116861875A (zh) 基于人工智能的文本处理方法、装置、设备及存储介质
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN115759040A (zh) 一种电子病历解析方法、装置、设备和存储介质
CN111507109A (zh) 电子病历的命名实体识别方法及装置
CN109299475B (zh) 一种医学文档的处理方法、装置、介质及电子设备
CN113221762A (zh) 代价平衡决策方法、保险理赔决策方法、装置和设备
CN113688854A (zh) 数据处理方法、装置及计算设备
CN110580955A (zh) 疾病信息识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant