CN108320808A

CN108320808A - 病历分析方法和装置、设备、计算机可读存储介质

Info

Publication number: CN108320808A
Application number: CN201810070775.4A
Authority: CN
Inventors: 张峰; 聂颖; 王竹欣
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2018-07-24

Abstract

本发明公开了一种病历分析方法和装置、设备、计算机可读存储介质。所述病历分析方法包括：响应于病历分析指令，获取病历文本；对所述病历文本进行词性分析，获得词性分析结果；对所述病历文本进行句法分析，获得句法分析结果；根据所述词性分析结果和所述句法分析结果，对所述病历文本进行解析，获得至少两个医学实体和至少一个医学实体关系；其中，所述医学实体关系为任意两个所述医学实体间的关系；根据每个所述医学实体和每个所述医学实体关系，生成病历分析结果。采用本发明，能够提高对病历进行分析的效率和准确度。

Description

病历分析方法和装置、设备、计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种病历分析方法和装置、设备、计算机可读存储介质。

背景技术

根据国家癌症中心公布的数据，全国恶性肿瘤发病及死亡第1位是肺癌，每年约59.1万人死于肺癌。早期甚至中期肺癌通常都没有症状，直到疾病发展到晚期、不可治愈的阶段才会出现明显的症状。因此，通过研发新技术实现对肺癌的早期筛查与诊断，从而实现对肺癌的早诊早治，是现如今医疗技术领域的发展趋势。

在对肺癌进行诊断的过程中，对患者的病历进行分析是一个必不可少的步骤。病历作为医院的宝贵财富，里面蕴含了大量的专业知识。通过对病历进行分析，能够清楚了解患者的患病历史和同一病症的发展史(包括治疗时间、接诊医院、主治医生、主要症状、治疗手段等)。在现有技术中，对病历进行分析通常还是由医生到病案室查阅，并进行人工分析来实现的，因此效率十分低下，且病历的利用率不高。另外，医生的经验、疲劳度等也会影响肺癌的分析结果，容易出现漏诊、误诊的情况。

发明内容

本发明实施例提出一种病历分析方法和装置、设备、计算机可读存储介质，能够提高对病历进行分析的效率和准确度。

本发明实施例提供的一种病历分析方法，具体包括：

响应于病历分析指令，获取病历文本；

对所述病历文本进行词性分析，获得词性分析结果；

对所述病历文本进行句法分析，获得句法分析结果；

根据所述词性分析结果和所述句法分析结果，对所述病历文本进行解析，获得至少两个医学实体和至少一个医学实体关系；其中，所述医学实体关系为任意两个所述医学实体间的关系；

根据每个所述医学实体和每个所述医学实体关系，生成病历分析结果。

进一步地，所述病历文本中包含临床检测信息、历史记录信息和患者基本信息。

进一步地，在所述响应于病历分析指令，获取病历文本之后，所述对所述病历文本进行词性分析，获得词性分析结果之前，还包括：

对所述病历文本进行分词处理，获得至少一个词；

则所述对所述病历文本进行词性分析，获得词性分析结果，具体包括：

根据每个所述词，对所述病历文本进行词性分析，获得所述词性分析结果；

所述对所述病历文本进行句法分析，获得句法分析结果，具体包括：

根据每个所述词，对所述病历文本进行句法分析，获得所述句法分析结果。

进一步地，所述对所述病历文本进行分词处理，获得至少一个词，具体包括：

根据预设的分词词典，对所述病历文本进行分词处理，获得至少一个所述词；其中，所述分词词典中包含医学分词词典。

进一步地，所述根据每个所述词，对所述病历文本进行词性分析，获得所述词性分析结果，具体包括：

根据每个所述词和每个所述词的相邻词，为每个所述词配置对应的词性标记；

根据所有所述词性标记，生成所述词性分析结果。

进一步地，所述根据每个所述词，对所述病历文本进行句法分析，获得所述句法分析结果，具体包括：

根据每个所述词和每个所述词的相邻词，获得所述病历文本中的每个句子对应的句法信息；

根据所有所述句法信息，生成所述句法分析结果。

进一步地，所述根据每个所述医学实体和每个所述医学实体关系，生成病历分析结果，具体包括：

根据所述词性分析结果和所述句法分析结果，采用机器学习的方式对所述病历文本进行解析，识别获得所述病历文本中的每个所述医学实体和每个所述医学实体关系。

相应地，本发明实施例还提供了一种病历分析装置，具体包括：

病历文本获取模块，用于响应于病历分析指令，获取病历文本；

文本词性分析模块，用于对所述病历文本进行词性分析，获得词性分析结果；

文本句法分析模块，用于对所述病历文本进行句法分析，获得句法分析结果；

文本信息提取模块，用于根据所述词性分析结果和所述句法分析结果，对所述病历文本进行解析，获得至少两个医学实体和至少一个医学实体关系；其中，所述医学实体关系为任意两个所述医学实体间的关系；以及，

分析结果生成模块，用于根据每个所述医学实体和每个所述医学实体关系，生成病历分析结果。

本发明实施例还提供了一种设备，具体包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，使得所述处理器实现如上所述的病历分析方法。

本发明实施例还提供了一种计算机可读存储介质，具体包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的病历分析方法。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的病历分析方法和装置、设备、计算机可读存储介质，通过自动对病历文本进行获取和分析，且通过采用词性分析、句法分析等多种方式对病历文本的内容进行分析，从而能够准确识别出病历文本中的核心信息，从而能够在提高对病历进行分析的效率的同时，提高对病历进行分析的准确度。另外，通过自动对病历进行分析，能够实现对大量病历的同时处理，从而实现对大数据的分析处理，提高病历的利用率。

附图说明

图1是本发明提供的病历分析方法的一个优选的实施例的流程示意图；

图2是本发明提供的病历分析装置的一个优选的实施例的结构示意图；

图3是本发明提供的设备的一个优选的实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明提供的病历分析方法的一个优选的实施例的流程示意图，包括步骤S11至S15，具体如下：

S11：响应于病历分析指令，获取病历文本。

需要说明的是，本发明实施例可以由设备执行。该设备在接收到病历分析指令之后，从病案库中获取对应的待分析的病历文本，并对该病历文本进行后续的分析。

需要说明的是，上述临床检测信息由医生在临床进行检测和输入，例如，在对肺癌进行诊断的过程中，该临床检测信息可以具体为是否具有久咳不愈、痰中带血、低热、胸闷、气闷等症状信息；上述历史记录信息包括患者以往的诊断记录、过敏史、外伤史等；上述患者基本信息包括患者的性别、家族病史、烟龄、职业、年龄等信息。

需要进一步说明的是，在一些具体的实施例中，病历中可能会包含患者临床资料和病历文本。其中，患者临床资料为病历中的结构化信息，包括患者姓名、性别、婚姻状况、民族、职业、现住址、工作单位、身份证号、电话、入院时间、记录时间等，一般具有较为固定的格式和标识；病历文本为病历中的非结构化信息，包括病情描述和治疗描述，如临床症状、疾病名称、药物名称、过敏情况等，一般由医生根据临床检查情况书写或者输入。因此，在对该病历中的病历文本进行分析之前，还可以首先对该病历中的患者临床资料进行信息提取和规范化处理，从而消除因不同医院病历模板的不一致带来的病历分析难度，从而能够保证病历分析的速度和准确度。

S12：对所述病历文本进行词性分析，获得词性分析结果。

需要说明的是，上述设备在获取病历文本之后，对该病历文本进行分析，从而获得其中的各个词的词性，进而生成相应的词性分析结果。

S13：对所述病历文本进行句法分析，获得句法分析结果。

需要说明的是，上述设备在获取病历文本之后，对该病历文本进行分析，从而获得其中的各个句子的句法，进而生成相应的句法分析结果。

S14：根据所述词性分析结果和所述句法分析结果，对所述病历文本进行解析，获得至少两个医学实体和至少一个医学实体关系；其中，所述医学实体关系为任意两个所述医学实体间的关系。

需要说明的是，上述设备在获得上述病历文本的词性分析结果和句法分析结果之后，以该词性分析结果和该句法分析结果为依据，对该病历文本进行解析，从而获得该病历文本中所包含的各个医学实体和各个医学实体间的关系。其中，上述医学实体包括病历文本中的疾病、症状、检查结果、治疗手段等；上述医学实体关系可以为上述疾病和症状之间的关系、症状和检查结果之间的关系、疾病和治疗手段之间的关系、时间副词的修饰等。

需要进一步说明的是，在本实施例中，在获得上述病历文本中的医学实体和各个医学实体之间的关系之后，还可以根据这些医学实体和医学实体关系对该病历文本进行规范化处理。具体地，可以对该病历文本中的病情描述或者治疗手段描述进行规范化处理。例如，在对病历文本中的病情描述进行规范化处理时，可以将该病历文本中的模糊的病情描述用语(如微烧、轻微发烧、有发烧症状等)转换为专业的病情描述用语；在对病历文本中的治疗手段描述进行规范化处理时，可以将该病历文本中的格式不确定的治疗手段描述(如“复方丹参片，饭前使用，每日三次，每次1粒”)转换为统一格式的治疗手段描述(如“复方丹参片，日服3次，每次1粒”)。通过对病历文本进行规范化处理，可以消除因不同医生手写描述方式的不一致或者不同医院病历模板的不一致带来的病历分析难度，从而能够保证病历分析的速度和准确度。

S15：根据每个所述医学实体和每个所述医学实体关系，生成病历分析结果。

需要说明的是，上述设备在识别获得病历文本中的医学实体和各个医学实体之间的关系之后，即可根据这些医学实体和医学实体关系生成相应的病历分析结果。

本发明实施例通过自动对病历文本进行获取和分析，且通过采用词性分析、句法分析等多种方式对病历文本的内容进行分析，从而能够准确识别出病历文本中的核心信息，从而能够在提高对病历进行分析的效率的同时，提高对病历进行分析的准确度。另外，通过自动对病历进行分析，能够实现对大量病历的同时处理，从而实现对大数据的分析处理，提高病历的利用率。

在另一个优选的实施例中，在上述步骤S11之后，步骤S12之前，还可以包括步骤S16，具体如下：

S16：对所述病历文本进行分词处理，获得至少一个词。

需要说明的是，上述设备在获得病历文本之后，首先对该病历文本进行分词处理，从而将该病历文本划分为若干个词。

更优选地，上述步骤S16还可以进一步包括子步骤S1601，具体如下：

S1601：根据预设的分词词典，对所述病历文本进行分词处理，获得至少一个所述词；其中，所述分词词典中包含医学分词词典。

需要说明的是，在本实施例中，根据预先设置的包含大量医学常用词汇和常用药品名的分词词典，结合中文分词工具对上述病历文本进行分词处理。具体地，该中文分词工具可以为结巴分词工具、SnowNLP、THULAC、NLPIR等。

需要进一步说明的是，在一些具体的实施例中，在对上述病历文本进行分词处理之后，还会将该病历文本中的停顿词、空格等删除，从而减少数据的处理量，进一步提高病历分析的速率。

则上述步骤S12进一步包括子步骤S1201，具体如下：

S1201：根据每个所述词，对所述病历文本进行词性分析，获得所述词性分析结果。

更优选地，上述子步骤S1201还可以进一步包括步骤S1201_1至S1201_2，具体如下：

S1201_1：根据每个所述词和每个所述词的相邻词，为每个所述词配置对应的词性标记；

需要说明的是，在对上述病历文本进行分词处理之后，根据上下文信息，为该病历文本中的每个词配置对应的词性标记，如，为各个词配置名词、形容词、动词等词性标记。具体地，该词性标记可以通过采用NLTK实现。

S1201_2：根据所有所述词性标记，生成所述词性分析结果。

上述步骤S13进一步包括子步骤S1301，具体如下：

S1301：根据每个所述词，对所述病历文本进行句法分析，获得所述句法分析结果。

更优选地，上述子步骤S1301还可以进一步包括步骤S1301_1至S1301_2，具体如下：

S1301_1：根据每个所述词和每个所述词的相邻词，获得所述病历文本中的每个句子对应的句法信息。

需要说明的是，在对上述病历文本进行分词处理之后，根据上下文信息，对该病历文本中的各个句子的句法进行分析，从而获得各个句子对应的句法信息。具体地，可以通过采用依存关系句法分析方法、LTP工具、Stanford Parser工具等对各个句子的句法进行分析。

S1301_2：根据所有所述句法信息，生成所述句法分析结果。

在又一个优选的实施例中，上述步骤S14还可以进一步包括子步骤S1401，具体如下：

S1401：根据所述词性分析结果和所述句法分析结果，采用机器学习的方式对所述病历文本进行解析，识别获得所述病历文本中的每个所述医学实体和每个所述医学实体关系。

需要说明的是，在本发明实施例中，可以通过采用机器学习的方式(优选地，为命名实体识别分析技术)对上述病历文本进行分析，从而获得该病历文本中的各个医学实体。例如，从“患者30余年前因反复咳嗽咳痰多次就诊，诊断为慢性支气管炎，平素服用顺尔宁控制症状”可以分析获得症状、诊断结果、治疗手段等医学实体，具体地，症状为“咳嗽咳痰”、诊断结果为“慢性支气管炎”、治疗手段为“顺尔宁”。随后，对识别获得的各个医学实体的语义关系进行抽取，从而获得对应的医学实体关系。

需要进一步说明的是，上述命名实体识别分析技术可以通过采用SVM、CRF、HMM等算法实现。

需要进一步说明的是，上述实施例中的步骤标号仅用于区分不同步骤，而不对各个步骤间的执行顺序进行限定。

本发明实施例提供的病历分析方法，通过自动对病历文本进行获取和分析，且通过采用词性分析、句法分析等多种方式对病历文本的内容进行分析，从而能够准确识别出病历文本中的核心信息，从而能够在提高对病历进行分析的效率的同时，提高对病历进行分析的准确度。另外，通过自动对病历进行分析，能够实现对大量病历的同时处理，从而实现对大数据的分析处理，提高病历的利用率。

相应地，本发明还提供一种病历分析装置，能够实现上述实施例中的病历分析方法的所有流程。

如图2所示，为本发明提供的病历分析装置的一个优选的实施例的结构示意图，具体如下：

病历文本获取模块21，用于响应于病历分析指令，获取病历文本；

文本词性分析模块22，用于对所述病历文本进行词性分析，获得词性分析结果；

文本句法分析模块23，用于对所述病历文本进行句法分析，获得句法分析结果；

文本信息提取模块24，用于根据所述词性分析结果和所述句法分析结果，对所述病历文本进行解析，获得至少两个医学实体和至少一个医学实体关系；其中，所述医学实体关系为任意两个所述医学实体间的关系；以及，

分析结果生成模块25，用于根据每个所述医学实体和每个所述医学实体关系，生成病历分析结果。

进一步地，所述病历分析装置，还包括：

文本分词处理模块，用于对所述病历文本进行分词处理，获得至少一个词；

则所述文本词性分析模块，具体包括：

词性分析单元，用于根据每个所述词，对所述病历文本进行词性分析，获得所述词性分析结果；

所述文本句法分析模块，具体包括：

句法分析单元，用于根据每个所述词，对所述病历文本进行句法分析，获得所述句法分析结果。

进一步地，所述文本分词处理模块，具体包括：

分词处理单元，用于根据预设的分词词典，对所述病历文本进行分词处理，获得至少一个所述词；其中，所述分词词典中包含医学分词词典。

进一步地，所述词性分析单元，具体包括：

词性标记配置子单元，用于根据每个所述词和每个所述词的相邻词，为每个所述词配置对应的词性标记；以及，

词性分析结果生成子单元，用于根据所有所述词性标记，生成所述词性分析结果。

进一步地，所述句法分析单元，具体包括：

句法信息获得子单元，用于根据每个所述词和每个所述词的相邻词，获得所述病历文本中的每个句子对应的句法信息；以及，

句法分析结果生成子单元，用于根据所有所述句法信息，生成所述句法分析结果。

进一步地，所述分析结果生成模块，具体包括：

分析结果生成单元，用于根据所述词性分析结果和所述句法分析结果，采用机器学习的方式对所述病历文本进行解析，识别获得所述病历文本中的每个所述医学实体和每个所述医学实体关系。

本发明实施例提供的病历分析装置，通过自动对病历文本进行获取和分析，且通过采用词性分析、句法分析等多种方式对病历文本的内容进行分析，从而能够准确识别出病历文本中的核心信息，从而能够在提高对病历进行分析的效率的同时，提高对病历进行分析的准确度。另外，通过自动对病历进行分析，能够实现对大量病历的同时处理，从而实现对大数据的分析处理，提高病历的利用率。

本发明还提供了一种设备。

如图3所示，为本发明提供的设备的一个优选的实施例的结构示意图，具体包括至少一个存储器31以及至少一个处理器32；

所述存储器31，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器32执行时，使得所述处理器32实现如上任一实施例所述的病历分析方法。

需要说明的是，图3仅以该设备中的一个存储器和一个处理器相连接为例进行示意，在一些具体的实施例中，该设备中还可以包括多个存储器和/或多个处理器，其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。

本发明实施例提供的设备，通过自动对病历文本进行获取和分析，且通过采用词性分析、句法分析等多种方式对病历文本的内容进行分析，从而能够准确识别出病历文本中的核心信息，从而能够在提高对病历进行分析的效率的同时，提高对病历进行分析的准确度。另外，通过自动对病历进行分析，能够实现对大量病历的同时处理，从而实现对大数据的分析处理，提高病历的利用率。

本发明还提供了一种计算机可读存储介质，具体包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施例所述的病历分析方法。

需要说明的是，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明实施例提供的计算机可读存储介质，通过自动对病历文本进行获取和分析，且通过采用词性分析、句法分析等多种方式对病历文本的内容进行分析，从而能够准确识别出病历文本中的核心信息，从而能够在提高对病历进行分析的效率的同时，提高对病历进行分析的准确度。另外，通过自动对病历进行分析，能够实现对大量病历的同时处理，从而实现对大数据的分析处理，提高病历的利用率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种病历分析方法，其特征在于，包括：

响应于病历分析指令，获取病历文本；

对所述病历文本进行词性分析，获得词性分析结果；

对所述病历文本进行句法分析，获得句法分析结果；

2.如权利要求1所述的病历分析方法，其特征在于，所述病历文本中包含临床检测信息、历史记录信息和患者基本信息。

3.如权利要求1所述的病历分析方法，其特征在于，在所述响应于病历分析指令，获取病历文本之后，所述对所述病历文本进行词性分析，获得词性分析结果之前，还包括：

对所述病历文本进行分词处理，获得至少一个词；

4.如权利要求3所述的病历分析方法，其特征在于，所述对所述病历文本进行分词处理，获得至少一个词，具体包括：

5.如权利要求3所述的病历分析方法，其特征在于，所述根据每个所述词，对所述病历文本进行词性分析，获得所述词性分析结果，具体包括：

根据所有所述词性标记，生成所述词性分析结果。

6.如权利要求3所述的病历分析方法，其特征在于，所述根据每个所述词，对所述病历文本进行句法分析，获得所述句法分析结果，具体包括：

根据所有所述句法信息，生成所述句法分析结果。

7.如权利要求1所述的病历分析方法，其特征在于，所述根据每个所述医学实体和每个所述医学实体关系，生成病历分析结果，具体包括：

8.一种病历分析装置，其特征在于，包括：

9.一种设备，其特征在于，包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，使得所述处理器实现如权利要求1至7中任一项所述的病历分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任一项所述的病历分析方法。