CN109559788A

CN109559788A - 一种病史采集方法及装置

Info

Publication number: CN109559788A
Application number: CN201811391959.7A
Authority: CN
Inventors: 梁平; 陈华官
Original assignee: SHANGHAI YIZHI MEDICAL TECHNOLOGY Co Ltd
Current assignee: SHANGHAI YIZHI MEDICAL TECHNOLOGY Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-04-02

Abstract

本发明实施例涉及数据处理技术领域，尤其涉及一种病史采集方法及装置，用以降低病历数据的获取成本。本发明实施例包括：获取待处理的主诉症状；根据主诉症状与现病史症状的对应概率，确定所述待处理的主诉症状对应的现病史症状，所述对应概率是根据历史时间段内门诊病历数据中记录的主诉症状与现病史症状确定的，所述现病史症状为门诊病历数据中医生问诊的症状信息；从所述待处理的主诉症状对应的现病史症状中选取N个作为所述患者在病史采集中需要问诊的症状信息。

Description

一种病史采集方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种病史采集方法及装置。

背景技术

在医院场景中，病历是医务人员对患者疾病的发生、发展、转归，进行检查、诊断、治疗等医疗活动过程的记录，其中包括主诉和病史。主诉是患者自述自己的症状或(和)体征、性质，以及持续时间等内容。现病史是记述患者病后的全过程，即发生、发展、演变和诊治经过。

医生在问诊患者的过程中，需要根据患者主动提供的主诉内容，向患者进行询问，以采集患者的现病史，如何进行病史采集，往往是医生根据经验向患者进行询问。

不同医生进行病史询问的过程不同，且不同科室的病史书写规范差异很大，因此需要针对不同的医生不同的科室，统一病史采集方案。现有的方式是基于神经网络的有监督学习算法，这需要依赖大量人工精标注数据用于模型训练，而对于大量人工精标注的数据，其获取成本非常高的。

发明内容

本申请提供一种病史采集方法及装置，用以降低病历数据的获取成本。

本发明实施例提供的一种病史采集方法，包括：

获取待处理的主诉症状；

根据主诉症状与现病史症状的对应概率，确定所述待处理的主诉症状对应的现病史症状，所述对应概率是根据历史时间段内门诊病历数据中记录的主诉症状与现病史症状确定的，所述现病史症状为门诊病历数据中医生问诊的症状信息；

从所述待处理的主诉症状对应的现病史症状中选取N个作为所述患者在病史采集中需要问诊的症状信息。

一种可选的实施例中，所述主诉症状与现病史症状的对应概率，根据以下方法确定：

获取所述历史时间段内的门诊病历数据；所述门诊病历数据包括多份病历文本，每份病历文本对应一次问诊；

针对至少一份病历文本，将所述病历文本结构化，得到至少一个主诉症状和至少一个现病史症状；

根据各病历文本得到的主诉症状和现病史症状，确定所述主诉症状与现病史症状的对应概率。

一种可选的实施例中，所述根据各病历文本得到的主诉症状和现病史症状，确定所述主诉症状与现病史症状的对应概率，包括：

针对每个病历文本，将所述病历文本中的任一个主诉症状与所述病历文本中的所有现病史症状建立对应关系；

根据所有病历文本确定的各对应关系，确定同一主诉症状对应同一现病史症状的概率；其中，同一主诉症状对应同一现病史症状的对应关系的数量越多，同一主诉症状对应同一现病史症状的概率越高；

确定所述主诉症状对应的现病史症状的对应概率，所述对应概率包括主诉症状和现病史症状的对应关系、主诉症状对应的现病史症状的概率。

一种可选的实施例中，所述将所述病历文本结构化，得到至少一个主诉症状和至少一个现病史症状，包括：

确定所述病历文本中各文本元素的输入向量；

根据文本元素的输入向量，确定各文本元素与术语库中医学术语的关联性；

根据关联性从各文本元素中确定所述病历文本的主诉症状和现病史症状。

一种可选的实施例中，所述主诉症状的个数为M个，所述根据主诉症状与现病史症状的对应概率，确定所述主诉症状对应的现病史症状，包括：

确定每一个主诉症状对应的现病史症状及对应的现病史症状的概率；

所述从所述主诉症状对应的现病史症状中选取N个作为所述患者在病史采集中需要问诊的症状信息，包括：

将不同主诉症状中，相同的现病史症状的概率相加；

从所述M个主诉症状对应的所有现病史症状中，将概率最高的前N个现病史症状作为所述患者在病史采集中需要问诊的症状信息。

本发明实施例还提供一种病史采集装置，包括：

获取模块，用于获取待处理的主诉症状；所述主诉症状为患者提供的症状信息；

确定模块，用于根据主诉症状与现病史症状的对应概率，确定所述待处理的主诉症状对应的现病史症状，所述对应概率是根据历史时间段内门诊病历数据中记录的主诉症状与现病史症状确定的，所述现病史症状为门诊病历数据中医生问诊的症状信息；

选取模块，用于从所述待处理的主诉症状对应的现病史症状中选取N个作为所述患者在病史采集中需要问诊的症状信息。

一种可选的实施例中，还包括模型建立模块，根据以下方法确定所述主诉症状与现病史症状的对应概率：

一种可选的实施例中，所述模型建立模块，具体用于：

确定所述病历文本中各文本元素的输入向量；

一种可选的实施例中，所述主诉症状的个数为M个，所述确定模块，具体用于：

所述选取模块，用于：

将不同主诉症状中，相同的现病史症状的概率相加；

本发明实施例还提供一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例中任一所述的方法。

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施例中任一所述方法。

本发明实施例中，获取待处理的主诉症状，其中，主诉症状可以为患者提供的症状信息。根据历史时间段内门诊病历数据中记录的主诉症状与现病史症状，确定主诉症状与现病史症状的对应概率，其中，现病史症状为门诊病历数据中医生问诊的症状信息。从而根据主诉症状与现病史症状的对应概率，确定患者提供的待处理的主诉症状对应的现病史症状。从待处理的主诉症状对应的现病史症状中选取N个作为该患者在病史采集中需要问诊的症状信息。本发明实施例中，直接利用已有病历中的主诉和现病史结构化后的症状，即可统计出每个主诉症状条件下，各现病史可能出现的概率，从而在给定的主诉症状条件下，确定需要问询的现病史症状，不需要无监督学习，不需要人工精标注数据，降低了病历数据的获取成本，容易统一不同医生不同科室间的病史采集方案。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种病史采集方法的流程示意图；

图2为本发明实施例一提供的病史采集模型的训练方法的流程示意图；

图3为本发明实施例二提供的病史采集方法的流程示意图；

图4为本发明实施例提供的一种病史采集装置的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供了一种病史采集方法。如图1所示，本发明实施例提供的病史采集方法，包括以下步骤：

步骤101、获取待处理的主诉症状。

步骤102、根据主诉症状与现病史症状的对应概率，确定所述待处理的主诉症状对应的现病史症状，所述对应概率是根据历史时间段内门诊病历数据中记录的主诉症状与现病史症状确定的，所述现病史症状为门诊病历数据中医生问诊的症状信息。

步骤103、从所述待处理的主诉症状对应的现病史症状中选取N个作为所述患者在病史采集中需要问诊的症状信息。

本发明实施例中，利用门诊病历进行模型训练。上述主诉症状与现病史症状的对应概率，根据以下方法确定，包括以下步骤：

步骤a、获取所述历史时间段内的门诊病历数据；所述门诊病历数据包括多份病历文本，每份病历文本对应一次问诊。

本发明实施例的一份病历文本中，至少包括主诉和现病史。主诉为患者提供自己的症状和/或体征、性质，以及持续时间等内容，现病史是记述患者病后的全过程，即发生、发展、演变和诊治经过，其中，主诉中的症状与现病史中的症状相对应。举例来说，门诊病历数据中的主诉为：反复打鼾、张口呼吸半年；现病史为：半年前开始出现反复打鼾、张口呼吸，偶有咳嗽、鼻塞、鼻涕。本发明实施例中的主诉，可以是患者自己说的，也可以是患者通过他人转述的。

步骤b、针对至少一份病历文本，将所述病历文本结构化，得到至少一个主诉症状和至少一个现病史症状。

本发明实施例通过将病历文本结构化，主要是将主诉和现病史结构化，得到主诉症状和现病史症状。对应于上述举例，将主诉和现病史结构化后得到的主诉症状和现病史症状分别为：主诉症状：打鼾、张口呼吸；现病史症状：打鼾、张口呼吸、咳嗽、鼻塞、鼻涕。

对病历文本结构化的方法可以为利用基于中间态而构建的规则分类器，或者基于机器学习算法的端到端自动提取，或者为深度学习的文本结构化方法等，本发明实施例对此不做限制。可选的，上述步骤b，所述将所述病历文本结构化，得到至少一个主诉症状和至少一个现病史症状，包括：

确定所述病历文本中各文本元素的输入向量；

具体来说，本发明实施例中，确定病历文本中各文本元素的输入向量，即将病历文本中的各个文本元素用输入向量的形式表示。进一步，可以针对至少一个文本元素，利用神经网络，将病历文本中文本元素的输入向量转化为文本元素的隐层表示，其中，隐层表示包含了文本元素的上下文信息。确定病历文本中各文本元素的隐层表示与术语库中医学术语的关联性，根据计算出的关联性从病历文本的所有文本元素中确定目标文本元素，这里的目标文本元素为主诉症状和现病史症状。这样，对于主诉症状和现病史症状，不是直接从病历文本中找出对应的标注信息，而是通过计算文本元素与医学术语的关联性，确定与医学术语关联性较大的文本元素，从而确定主诉症状和现病史症状的内容。

步骤c、根据各病历文本得到的主诉症状和现病史症状，确定所述主诉症状与现病史症状的对应概率。

本发明实施例将病历文本结构化之后，得到了主诉症状和现病史症状。同一份病历文本中，主诉症状与现病史症状相对应。因此，可以根据统计所有病历文本中主诉症状与现病史症状的对应关系，确定在确定的主诉症状下，现病史症状的发生概率。

上述步骤c，根据各病历文本得到的主诉症状和现病史症状，确定所述主诉症状与现病史症状的对应概率，包括：

具体来说，一份病历文本中包括主诉和现病史，假设将主诉结构化后得到P个主诉症状，记为P1、P2……Pi，将现病史结构化后得到Q个现病史症状，记为Q1、Q2……Qj。本发明实施例中，将一份病历文本中的任一个主诉症状与所有现病史症状建立对应关系，即建立的对应关系包括：主诉症状P1与现病史症状Q1、Q2……Qj的对应关系，主诉症状P2与现病史症状Q1、Q2……Qj的对应关系，……主诉症状Pi与现病史症状Q1、Q2……Qj的对应关系。

按照上述方式，对所有病历文本中的主诉症状和现病史症状建立对应关系。通过统计所有病历文本中的对应关系，确定同一主诉症状对应同一现病史症状的概率。较佳地，可以通过统计同一主诉症状对应同一现病史症状的对应关系的数量，可作为衡量在同一主诉症状中现病史症状的出现概率。例如，针对主诉症状P1，从所有病历文本中统计出所有主诉症状P1的对应关系，即确定出主诉症状P1对应的所有现病史症状。统计同一现病史症状的出现次数，作为主诉症状P1对应该现病史症状的概率。

仍以上述具体的病历文本为例说明。其中，主诉症状为：打鼾、张口呼吸；现病史症状为：打鼾、张口呼吸、咳嗽、鼻塞、鼻涕。建立主诉症状与现病史症状的对应关系，得到两个主诉症状与现病史症状的对应关系。对应关系一为主诉症状“打鼾”与现病史症状“打鼾、张口呼吸、咳嗽、鼻塞、鼻涕”相对应，对应关系二为主诉症状“张口呼吸”与现病史症状“打鼾、张口呼吸、咳嗽、鼻塞、鼻涕”相对应。针对主诉症状“打鼾”对应的现病史症状“张口呼吸”，统计所有病历文本中，“张口呼吸”在“打鼾”中的出现次数，并进行记录，用以衡量“张口呼吸”在“打鼾”中的概率。统计所有病历文本中的主诉症状以及现病史症状的对应关系以及现病史症状的出现概率，即可得到如下表1所示的对应概率。

表1

当然，也可以将同一主诉症状中现病史症状的出现频次，除以该主诉症状的出现频次，得到现病史症状的概率。例如，现病史症状Q₁在主诉症状P₁中出现概率为l₁/k₁，表示当主诉症状P₁出现的时候，可能出现的现病史症状Q₁的概率。在具体的实施过程中，可以用如下的表2示出主诉症状与现病史症状的对应关系。

表2

上述主诉症状与现病史症状的对应概率统计完成后，存入数据库中。当针对患者提供的主诉症状进行现病史问诊时，可以利用该对应概率确定出需要询问的现病史症状。

所述主诉症状的个数为M个，所述根据主诉症状与现病史症状的对应概率，确定所述主诉症状对应的现病史症状，包括：

将不同主诉症状中，相同的现病史症状的概率相加；

具体来说，患者提供了M个主诉症状，从数据库中获取每一个主诉症状对应的现病史症状，以及每个现病史症状的出现概率。将这M个主诉症状对应相同的现病史症状的出现概率相加。例如，患者提供了3个主诉症状，在数据库的表格中，第一个主诉症状对应了现病史症状“发热”，出现概率为f₁，第三个主诉症状也对应了现病史症状“发热”，f₂，则将f₁与f₂相加，作为“发热”的总概率。最后，这个M个主诉症状对应的所有现病史症状中，概率最高的现病史症状，作为病史采集中需要问诊的症状信息。

为了更清楚地理解本发明，下面以具体的实施例对上述流程进行详细描述，实施例一为病史采集模型的训练过程，具体步骤如图2所示，包括：

步骤201、输入五年以内的门诊病历数据，每一份门诊病历数据中包括多份病历文本，每份病历文本对应一次问诊过程，包括主诉和现病史。主诉和现病史举例如下：

主诉：反复打鼾、张口呼吸半年；

现病史：半年前开始出现反复打鼾、张口呼吸，偶有咳嗽、鼻塞、鼻涕。

步骤202、将病历文本结构化，得到主诉症状和现病史症状。主诉症状和现病史症状举例如下：

主诉症状：打鼾；张口呼吸；

现病史症状：打鼾；张口呼吸；咳嗽；鼻塞；鼻涕。

步骤203、针对一份病历文本，建立主诉症状与现病史症状的对应关系。对应关系举例如下：

对应关系一：

主诉症状：打鼾；

现病史症状：打鼾；张口呼吸；咳嗽；鼻塞；鼻涕。

对应关系二：

主诉症状：张口呼吸；

现病史症状：打鼾；张口呼吸；咳嗽；鼻塞；鼻涕。

步骤204、根据所有病历文本确定的各对应关系，确定同一主诉症状对应同一现病史症状的概率。

步骤205、统计主诉症状，以及每个主诉症状对应的所有现病史症状，以及主诉症状对应的现病史症状的概率。

步骤206、将上述对应关系，以及出现的概率存入数据库。

实施例二为对患者进行病史采集的过程，具体步骤如图3所示，包括：

步骤301、获取患者提供的主诉。

步骤302、将主诉结构化，得到主诉症状。

步骤303、确定每一个主诉症状对应的现病史症状，以及现病史症状的概率。

步骤304、将不同主诉症状中，相同的现病史症状的概率相加。

步骤305、从所有主诉症状对应的所有现病史症状中，将概率最高的前10个现病史症状作为需要问诊的症状信息，向患者问诊。

本发明实施例还提供了一种病史采集装置，如图4所示，包括：

获取模块401，用于获取待处理的主诉症状；所述主诉症状为患者提供的症状信息；

确定模块402，用于根据主诉症状与现病史症状的对应概率，确定所述待处理的主诉症状对应的现病史症状，所述对应概率是根据历史时间段内门诊病历数据中记录的主诉症状与现病史症状确定的，所述现病史症状为门诊病历数据中医生问诊的症状信息；

选取模块403，用于从所述待处理的主诉症状对应的现病史症状中选取N个作为所述患者在病史采集中需要问诊的症状信息。

可选的，还包括模型建立模块404，根据以下方法确定所述主诉症状与现病史症状的对应概率：

可选的，所述模型建立模块404，具体用于：

确定所述病历文本中各文本元素的输入向量；

可选的，所述主诉症状的个数为M个，所述确定模块402，具体用于：

所述选取模块403，用于：

将不同主诉症状中，相同的现病史症状的概率相加；

基于相同的原理，本发明还提供一种电子设备，如图5所示，包括：

包括处理器501、存储器502、收发机503、总线接口504，其中处理器501、存储器502与收发机503之间通过总线接口504连接；

所述处理器501，用于读取所述存储器502中的程序，执行下列方法：

获取待处理的主诉症状；所述主诉症状为患者提供的症状信息；

进一步地，所述处理器501具体用于：

确定所述病历文本中各文本元素的输入向量；

进一步地，所述处理器501具体用于：

将不同主诉症状中，相同的现病史症状的概率相加；

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一一项文本标记的方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种病史采集方法，其特征在于，包括：

获取待处理的主诉症状；

2.如权利要求1所述的方法，其特征在于，所述主诉症状与现病史症状的对应概率，根据以下方法确定：

3.如权利要求2所述的方法，其特征在于，所述根据各病历文本得到的主诉症状和现病史症状，确定所述主诉症状与现病史症状的对应概率，包括：

4.如权利要求2所述的方法，其特征在于，所述将所述病历文本结构化，得到至少一个主诉症状和至少一个现病史症状，包括：

确定所述病历文本中各文本元素的输入向量；

5.如权利要求1至4任一项所述的方法，其特征在于，所述主诉症状的个数为M个，所述根据主诉症状与现病史症状的对应概率，确定所述主诉症状对应的现病史症状，包括：

将不同主诉症状中，相同的现病史症状的概率相加；

6.一种病史采集装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，还包括模型建立模块，根据以下方法确定所述主诉症状与现病史症状的对应概率：

8.如权利要求7所述的装置，其特征在于，所述模型建立模块，具体用于：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1～5任一所述方法。