CN114649074A

CN114649074A - 一种病历数据处理方法、平台和装置

Info

Publication number: CN114649074A
Application number: CN202210223911.5A
Authority: CN
Inventors: 韩雅玲; 李毅; 裘淼涵; 裴云飞; 朱天成; 杜金源; 胡黎明; 宋壹; 姚晋伟; 袁鹏宇; 马荣; 李熠轩; 范业雪; 范乾瑞; 姜国成; 徐凯; 刘海伟; 王斌
Original assignee: Ali Health Technology China Co ltd; General Hospital of Shenyang Military Region
Current assignee: Ali Health Technology China Co ltd; General Hospital of Shenyang Military Region
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-21

Abstract

本申请提供了一种病历数据处理方法、平台和装置，属于电数字数据处理技术领域，特别涉及共享文件的支持领域，其中，该方法包括：获取非结构化的病历数据；将所述非结构化的病历数据进行解析，得到文本数据；对所述文本数据进行结构化，得到字段形式的结构化数据；提供对所述结构化数据进行查找或调用的接口。通过上述方案解决了现有的病历数据收集和汇总困难，所导致的病历数据利用率低下的问题，达到了有效提升数据利用率的技术效果。

Description

一种病历数据处理方法、平台和装置

技术领域

本申请属于电数字数据处理技术领域，特别涉及共享文件的支持领域，尤其涉及一种病历数据处理方法、平台和装置。

背景技术

在临床研究中，病例较多，但是这些病例的病历数据往往是非结构化的，或者是半结构化的，一般需要人工进行医疗文本的收集整理从而形成研究材料，这样势必会消耗大量的人力成本，且收集处理的效率较低。

进一步的，因为不同中心或者不同区域的数据一般是无法共享的，受限于信息化发展程度差异化、医疗数据安全、数据缺乏统一标准等问题，大多数可供研究的病历数据的共享一般还是限制在单一区域、单一医疗集团内。

针对如何对病历数据进行集中处理和共享，目前尚未提出有效的解决方案。

发明内容

本申请目的在于提供一种病历数据处理方法、平台和装置，以解决现有数据收集困难，所导致的数据利用率低下的问题。

本申请提供一种病历数据处理方法、平台和装置是这样实现的：

一种病历数据处理方法，所述方法包括：

获取非结构化的病历数据；

将所述非结构化的病历数据进行解析，得到文本数据；

对所述文本数据进行结构化，得到字段形式的结构化数据；

提供对所述结构化数据进行查找或调用的接口。

一种病历数据处理平台，包括：

数据获取层，与多个医疗信息系统通信，用于从医疗信息系统获取非结构化的病历数据；

数据处理层，用于将所述非结构化的病历数据进行解析，得到文本数据；对所述文本数据进行结构化，得到字段形式的结构化数据；

数据应用层，用于提供对所述结构化数据进行查找或调用的接口。

一种服务端设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现如下方法的步骤：

获取非结构化的病历数据；

将所述非结构化的病历数据进行解析，得到文本数据；

对所述文本数据进行结构化，得到字段形式的结构化数据；

提供对所述结构化数据进行查找或调用的接口。

一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如下方法的步骤：

获取非结构化的病历数据；

将所述非结构化的病历数据进行解析，得到文本数据；

对所述文本数据进行结构化，得到字段形式的结构化数据；

提供对所述结构化数据进行查找或调用的接口。

本申请提供的病历数据处理方法和平台，通过对非结构化的病历数据进行解析，可以得到文本数据，然后对文本数据进行结构化处理，可以得到字段形式的结构化数据，并提供对所述结构化数据进行查找或调用的接口，可以对不同来源的病历数据进行汇总整合，且对于数据需求人员而言，可以对这些字段形式的结构化数据进行查找或调用，从而解决了现有的病历数据收集和汇总困难，所导致的病历数据利用率低下的问题，达到了有效提升数据利用率的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的病历数据处理平台的架构示意图；

图2是本申请提供的文本数据到字段形式的结构化数据的转换示意图；

图3是本申请提供的数据非结构化到结构化转换的层级示意图；

图4是本申请提供的病历数据处理方法的方法流程图；

图5是本申请提供的一种病历数据处理方法的电子设备的硬件结构框图；

图6是本申请提供的病历数据处理装置一种实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

考虑到现有的针对病例数据库中的非结构化、半结构化的病历数据，所存在的收集难度较高的问题，在本例中提供了一种病历数据处理平台，通过对非结构化的病历数据进行解析，可以得到文本数据，然后对文本数据进行结构化处理，可以得到字段形式的结构化数据，并提供对所述结构化数据进行查找或调用的接口，可以对不同来源的病历数据进行汇总整合，从而形成一个数据较为全面的诊疗数据库，可以用于医生进行信息的获取，或者是用于科研人员进行研究数据的获取。例如，如果用于在心血管领域，可以形成满足于心血管多个亚临床专科的科研数据库，从而有效提升数据的利用率。

具体的，考虑到不同的医学中心或者是不同的区域，数据受限于技术水平、数据形式等，很难进行有效的数据共享，一般的医疗数据共享还仅限于单一区域、单一医疗集团内，通过本例所提供的病历数据处理平台可以在不同的医院数据间，采用统一的脱敏标准确保数据安全；采用统一数据采集规范确保各家数据具有一致性；采用统一数据处理标准确保各家数据可实现统计分析间的互用性，以实现更大范围、更大程度的数据共享。

如图1所示，本例所提供的病历数据处理平台，可以包括：

1)数据获取层101，与多个医疗信息系统通信，用于从医疗信息系统获取非结构化的病历数据；

在实现的时候，数据获取层在从医疗信息系统获取数据之后，可以对数据进行备份，备份方式可以是完全的整体备份，即，形成一份与获取的数据完全相同的备份文件。

为了实现医疗信息系统与病历数据处理平台之间的有效兼容，可以设置标准统一的开发接口，医疗信息系统通过标准统一的开发接口采集数据并将数据传送至病历数据处理平台。

在数据获取层获取到数据之后，可以进行数据的脱敏处理，在进行脱敏处理的时候，可以针对所有的病历数据采用统一的脱敏标准进行。即，在获取非结构化的病历数据之前，还可以获取原始病历数据；对所述原始病历数据按照预设的脱敏规则，进行脱敏处理；将脱敏处理后的病历数据作为非结构化的病历数据。例如，可以通过安全多方计算，将病历数据中的患者姓名、住院号等进行加密，以保证字段不会被破解，确保了病历数据的安全性医疗数据安全。具体的，可以但不限于按照如下方式进行脱敏处理：

根据患者的基本信息，病案首页等表格信息中的患者姓名或者手机，在当前患者的病历文本中，查找相关联的患者姓名或者手机，将病历中所有相关的姓名和手机全部用星号脱敏掉。地址可以采用删除的方法进行脱敏。例如：1)姓名，只保留第一位姓氏，其他用星号号代替；2)手机号码，全部用星号代替；3)地址信息，将具体地址信息列删除。

进一步的，在对所述原始病历数据按照预设的脱敏规则，进行脱敏处理之后，还可以对原始病历数据按照预设的分类规则进行分类，其中，所述分类规则可以包括但不限于以下至少之一：人口学、病史、危险因素、临床特征、检验检查、临床结果、介入治疗。即，可以先对原始的病历数据进行一个大致的分类，这样可以减少后续数据结构化时候的计算量。

为了保证数据的完整性，提升数据平台的数据覆盖面，医疗信息系统所上传的病历数据可以包括但不限于：门诊数据、住院数据、离院患者的数据、以及在院患者的数据。为了保证数据的及时更新，对于医疗信息系统而言，可以采用T+1的更新策略，以保证数据可以得到及时的更新，从而提升数据质量。其中，T+1的更新策略，是在患者就诊之后的第二天就及时进行数据更新。

在进行T+1数据更新的时候，对于医疗信息系统而言，可以通过重新建立一个数据库，库中的每张表都设置一个增量日期字段，按照T+1的方式，以患者ID为主键，每天抽取在院患者的所有信息，放入对应表的增量日期中，以实现及时的增量更新。

数据获取层在从医疗信息系统获取非结构化的病历数据之后，以及将其转换为字段形式的结构化数据时，可以对数据进行质检，具体的，质检内容可以包括但不限于：数据完整性、数据一致性、数据及时性、数据准确性。

a)数据完整性：确定采集的数字字段的数量与预设的采集标准中的字段数量是否完全一致；确定是否存在空值的数据字段，如果存在空值的数据字段，则需要反馈至医疗信息系统；

b)数据一致性：对于同一患者而言，所有表格之间是关联的，因此，需要通过患者ID等进行表格之间的关联，如果存在无法关联的表，则需要反馈至医疗信息系统；

c)数据及时性：保持数据的T+1及时更新。

d)准确性：确定字段的数据值域范围是否准确。对于采集的每个字段，可以统计字段的：数据类型、空值数量、数据总数、值域的前10名分布、字段最大长度、字段最小长度等，以判断数据是否准确，如果存在数据取值与预设的数据值域不一致，则需要反馈至医疗信息系统；

2)数据处理层102，用于将所述非结构化的病历数据进行解析，得到文本数据；对所述文本数据进行结构化，得到字段形式的结构化数据；

对于非结构化的病历数据而言，可以是XML格式的病历数据，为了实现对非结构化的病历数据进行有效处理，可以对XML格式的病历数据进行解析，以得到文本数据。其中，不同的医疗信息系统可以对应不同的解析规则，或者，不同的病历数据可以对应不同的解析规则。在实现的时候，可以调取对应的解析规则进行解析，以得到文本数据。

例如：针对相对规则的xml格式：

可以通过smartxpath函数，针对各个字段路径进行单独解析:

SmartXpath(emrdoc,”/EmrDoc/DocHeader/DocInfo/DocID”)as DocID

SmartXpath(emrdoc,”/EmrDoc/DocHeader/DocInfo/DocTypeID”)as DocTypeID

例如：针对不太规则的xml格式：

(<text>次)</text>

可以通过smartelement解析不规整的节点，输入节点名称和节点的key值，返回结果值：

smartelement(emrdoc，”/emrdoc/docheader/visitinfo/carename”,”xpath”)asCarename

smartelement(emrdoc，”就诊序号”，”keyword”)as inCareNum

smartelement(emrdoc，”病人出生地”，”keyword”)as PatientBirthPlace

即，针对xml格式的不同，可以采用不同的解析方式进行解析。在实现的时候，可以确定获取的非结构化的病历数据所属的医疗信息系统所对应的解析规则；根据确定的解析规则，进行解析，得到文本数据。

在进行数据解析的时候，可以考虑到需要获取哪些字段，例如，需要获取“病人基础信息”“就诊时间”“用药情况”等，那么就可以以“病人基础信息”“就诊时间”“用药情况”这些字段形成目标字段集合，在进行解析的时候，以这些字段为解析目标进行解析，从而得到包括这些字段信息的文本数据。

具体的，将所述非结构化的病历数据进行解析，得到文本数据，可以获取预设的目标字段集；根据预设的目标字段集中的各字段，对所述非结构化的病历数据进行解析，得到文本数据。在实现的时候，根据以预设的目标字段集中的各字段，对所述非结构化的病历数据进行解析，得到文本数据，可以包括：以预设的目标字段集中的各字段作为目标标签；通过路径表达式抓取所述非结构化的病历数据中目标标签下的文本内容；将抓取的文本内容作为解析得到的文本数据。

例如：非结构化的病历数据为：

<fieldelem name＝"病史陈述者"

code＝"1000000474.2.20110512145327.7233"

code-system＝"">患者本人</fieldelem>

<fieldelem name＝"现病史内容"code＝"ADMINISTRATOR.1.20110516172341.8852"code-system＝"">患者于10余年前始常无明显诱因于夜间出现胸闷，伴烧心感，无胸痛，无恶心、呕吐，无黑朦、晕厥，症状持续10余分钟，含服“硝酸甘油”后症状缓解，就诊于当地医院行相关检查诊断为“冠心病”，给予药物治疗(具体不详)后症状好转。近1周患者自觉上述症状加重，性质同前，自觉发作频繁，常无明显诱因出现胸闷，伴恶心，无呕吐，无明显胸痛，无黑朦、晕厥，每日发作数次，症状可持续30分钟，含服“硝酸甘油”不缓解，遂于2016-08-20 11：56急来我院急诊，行心电图及化验检查诊断为“急性冠脉综合征”，为进一步治疗入院</fieldelem>

<fieldelem name＝"精神"

code＝"1000000610.2.20110512145400.7413"

code-system＝"">精神尚可</fieldelem>

可以解析得到文本数据形式的病历，例如：患者某某，前往医院就医，病情…，进行了哪些治疗，目前状态如何等，过往病史。

即，由非结构化的病历转换为大段文本样式的文本数据。

在对文本数据进行结构化，得到字段形式的结构化数据的时候，可以采用但不限于以下三种方式之一进行：

方式1：获取预设的结构化字段集；以预设的结构化字段集中的各字段作为数据处理基础，提取所述文本数据中与预设的结构化字段集中的各字段关联的数据，形成以预设的结构化字段集中各字段为主键的结构化数据。

例如，预设的结构化字段集包括如下的标志词：主诉、现病史、既往史、家族史、个人史、婚育史，那么可以以这些标志词作为匹配基础，确定出这些标志词的位置，以及与其相关的数据内容，从而形成一个以各字段“主诉、现病史、既往史、家族史、个人史、婚育史”作为主键的一诉五史的表格结构的结构化数据。

方式2：调取预设的医学逻辑规则；根据预设的医学逻辑规则，对所述文本数据进行分析，以得到字段形式的结构化数据。

例如：逻辑规则1：对于结构化字段“高血压史”，从入院记录中的既往史匹配关键字“高血压”来判断是否有高血压史该病历既往史中有：“高血压病史5年”。

则，结构化字段结果为“高血压史＝是”

逻辑规则2：对于结构化字段“吸烟史”、“饮酒史”，结构化逻辑如下：

吸烟史：结构化，从入院记录个人史中匹配关键字“吸烟”、“戒烟”来判断是否有吸烟史；

饮酒史：结构化，从入院记录个人史中匹配关键字“饮酒”来判断是否有饮酒史；

该病历既往史中有：“无吸烟史，无饮酒史”。

则，结构化字段结果为“吸烟史＝不吸烟”、“饮酒史＝不饮酒”。

方式3：通过对文本数据的自然语言处理，得到字段形式的结构化数据。

具体的，可以调用预设的实体抽取模型和关系抽取模型，对所述文本数据进行自然语言处理，以得到多个实体和实体之间的关联关系；将得到的实体和实体之间的关联关系作为字段形式的结构化数据。

例如，可以如图2所示，在将xml格式的病历数据转换为大段文本数据(即，病历文本)之后，可以进行自然语言处理，从而得到以预设类型为主键的，实体和实体关系为识别结果的字段形式的结构化数据。

其中，上述的实体抽取模型和关系抽取模型都可以是预先训练的，例如，对于实体识别而言，可以在Embedding层使用Bert预训练的向量替换one-hot向量，通过这种处理方式，可以从原始病历数据中提取出大量的信息表达，以弥补one-hot信息不足的问题。在关系识别中，考虑到语义的表征数据不足的问题，可以将实体识别中所提取的特征信息，用在关系识别的训练中，即，将实体识别的表征信息直接用于关系抽取，实现多任务共享参数的目的，以解决语义表征不足的问题。进一步的，可以通过Bilstm进行特征提取，以增加可用特征量。

在进行模型训练的时候，针对实体识别和关系抽取可以同时进行训练，同时优化loss，以提升训练的效率和训练结果的准确性。

即，在实现的时候，可以将训练得到所述实体抽取模型的表征信息，用于训练所述关系抽取模型。在训练得到所述实体抽取模型时得到和所述关系抽取模型的时候，对所述实体抽取模型的损失函数和所述关系抽取模型的损失函数同时进行优化。

对于实体抽取模型，可以按照如下步骤训练得到：

S1：获取样本句子对；

S2：根据预设的标记规则对所述样本句子对进行标注；

S3：通过掩码对所述样本句子对中的目标单词进行遮盖；

S4：将标注和遮盖后的样本句子对，输入实体抽取模型中，通过上下文信息预测得到被遮盖的单词，以进行模型训练。

进一步的，在原始训练文本中，可以随机抽取15％的token作为即将参与mask(掩码)的对象。在这些被选中的token中，数据生成器并不是把他们全部变成[MASK]，而是有如下三种方式：

方式1：在80％的概率下，用[MASK]标记替换该token,比如my dog is hairy->mydog is[MASK]；

方式2：在10％的概率下，将随机的单词替换该token，比如my dog is hairy->mydog is apple；

方式3：在10％的概率下，保持该token变，比如my dog is hairy->my dog ishairy；

这样在训练的过程中，对于计算机而言并不知道哪些单词是要预测，哪些单词是原始的，哪些单词被遮掩成了[MASK]，哪些单词被替换成了其他单词。通过这种方式，使得模型需要快速学习该token的分布式上下文的语义，尽可能还原原始内容，同时因为原始文本中只有15％的token参与了MASK操作,并不会破坏原语言的表达能和语言规则。

针对关系识别模型中所存在的由于实体距离较远，导致关系识别准确度低的问题，可以设定距离阈值，框选距离阈值内可能存在的关系进行关系识别。

3)数据应用层103，用于提供对所述结构化数据进行查找或调用的接口。

进一步的，可以如图1所示，病历数据处理平台还可以与多个医疗信息系统200相连，以便从医疗信息系统获取非结构化的病历数据，还可以与医生端300、分析端400相连，医生端300、分析端400等通过病历数据处理平台提高的查找或调用的接口从病历数据处理平台进行数据的查找或调用。

即，对于病历数据处理平台而言，提供了查找或调用的接口，这样对于医生端或者是分析端而言，可以在需要数据的时候，直接从病历数据处理平台查看、搜索或者下载。

为了实现对病历数据平台中数据的有效管控，可以设置访问权限，即，设置各个医生端300、分析端400的数据访问权限，例如，哪些数据是免费开放的，哪些数据是需要付费查询的，哪些数据是加密需要解密权限才可以的，即，通过设置访问权限的方式对数据进行有效的安全保护和管控。

在对所述文本数据进行结构化，得到字段形式的结构化数据之后，可以对数据进行汇总，以便数据使用端对汇总后的结果进行查看或调用。具体的，在进行汇总的时候，可以获取历史存储的结构化数据；对历史存储的结构化数据和当前得到的结构化数据，按照预设的数据指标进行汇总。例如，之前统计的30岁得冠心病的患者中男女比例为2.5:1，那么在有新数据之后，可以通过新数据结合历史数据重新进行统计，更新30岁得冠心病的患者中男女比例。这样对于数据使用端而言，在需要“30岁得冠心病的患者中男女比例”可以直接进行搜索调用。且在进行数据汇总的时候，可以生成数据的历史变化趋势，以便于后续进行分析研究。

考虑到结构化的数据中难免会存在重复的数据、空数据等，这些情况会对数据汇总造成影响，为此，可以在对历史存储的结构化数据和当前得到的结构化数据，按照预设的数据指标进行汇总之前，对得到的结构化数据进行清洗操作，其中，所述清洗操作可以包括但不限于以下至少之一：剔除脏数据、剔除重复数据。即，先进行数据清洗，再进行数据的汇总，以提升数据汇总的效率和准确率。

为了提升数据使用端进行查询时候的查询下来，在对所述文本数据进行结构化，得到字段形式的结构化数据之后，还可以对所述结构化数据建立索引目录，其中，所述索引目录用于对所述结构化数据进行搜索匹配。通过建立索引目录的方式，数据使用端可以快速匹配到所需的数据。

对于上述数据获取层101获取非结构化的病历数据，可以是接收医疗信息系统按照预设上传周期，通过增量方式上传的非结构化的病历数据，其中，预设上传周期可以包括但不限于以下至少之一：目标用户出院后第二天上传、目标用户就诊后第二天上传。

上述的病历数据处理平台可以但不限于应用于冠心病患者的数据处理和整合。

下面结合一个具体实施例对上述病历数据处理平台进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明，并不构成对本申请的不当限定。

以将上述的病历数据处理平台应用在冠心病的数据整合的场景为例，如图3所示，原始数据可以存储在数据准备区(Operation Data Store，简称为ODS)。数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，是后续数据仓库加工数据的来源。数据处理层可以包括：数据仓库细节(Data Warehouse Details，简称为DWD)层、数据仓库服务(Data Warehouse Service，简称为DWS)层、数据仓库中间层(Data Warehouse Middle，简称为DWM)层、数据对接层。

1)DWD层(数据仓库明细层)

在该数据层，可以按照应用过程对原始病历数据进行关联分类，以便后续对数据进行处理、加工和计算。例如，可以按照应用方的需求，或者是产品的需求，对非结构化的病历数据进行分类整合。例如，可以按照人口学、病史、危险因素、临床特征、检验检查、临床结果、介入治疗对原始的非结构化病历数据进行分类整合。且可以设置每个分类下数据的拆分规则、字段化的规则和形式。

2)DWS层(数据仓库汇总层)

通过该层可以对数据进行分类、自然语言处理等结构化处理，从而形成字段形式的结构化数据。具体的，可以按照应用过程和应用维度组织数据，数据规范定义，保证计算指标的唯一性，并沉淀公用指标。进一步的，可以按照预设的数据指标进行轻度的汇总，例如：统计患者数量、床位数等。

3)DWM层(数据仓库中间层)

该数据仓库中间层是面向上层应用的，可以按照应用角度组织数据，快速响应应用需求。具体的，可以包括：应用主题域和专题分析两部分，其中，应用主题域可以是面向某个应用部门或应用单元，专题分析可以是面向运营。在数据仓库中间层中形成的公共指标和数据，可以沉淀到DWS层中。进一步的，在数据仓库中间层可以提供字段开发逻辑，由数据需求端根据自身的应用需求，设置所需的字段。

该数据仓库中间层还可以实现数据的质控，例如，可以对单个字段进行医学逻辑验证，只有通过率达到预设的比例阈值，才算是验证通过。还可以针对单个字段设置值域，根据分布情况确定是否满足值域要求。也可以进行医学关联逻辑的质控，例如：既往史中存在糖尿病的，需要描述关联糖尿病病史，即，增加医学关联逻辑。

4)数据对接层：

通过该层可以构建索引，实现平台上数据的搜索及导出功能。主要是应用在服务端层面。为了保证数据的安全，可以对数据的使用者设置权限，从而实现数据的安全共享使用。具体的，可以为使用者进行类别划分，不同类别对应不同的使用权限，也可以根据角色类型设置不同的使用权限。

对于上述病历数据处理平台而言，可以尽量多的与多个医院或者医疗机构签订协议，以获取尽量多的病例的病历数据，从而可以实现更为准确和大量数据的心内科研究数据的搜索，且可以根据研究需求搭配字段以得到研究结果，且可以针对地区等的不同，进行患者的差异性研究。具体的，通过上述方案，可以实现非结构化的病历数据到文本形式的病历数据的转换，然后再将文本形式的病历数据转换为字段形式的结构化数据，从而可以支持单个字段形式的导出，以便挖掘出病历数据中的信息，实现对科研等的助力。

在进行数据脱敏的时候，可以是通过前置机进行脱敏处理的，在脱敏处理之后，可以将数据分类归入：人口学、病史和危险因素、临床特征、检验检查、临床结局、介入治疗等不同的类别并同步至云端，然后，通过自动化的结构化数据处理流程后，同步至平台供医生或者研究人员使用。对于医生或者研究人员而言，仅需要提前设定好相应的入选和排除标准，就可以筛选出所需的数据。从而可以实现对大量病历数据的高效处理和整合，为医生或者研究人员提供方便便捷的数据获取服务。

图4是本申请提供的病历数据处理方法一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至分布式处理环境)。

具体的，如图4所示，上述的病历数据处理方法可以包括如下步骤：

步骤401：获取非结构化的病历数据；

在实现的时候，可以是接收医疗信息系统按照预设上传周期，通过增量方式上传的非结构化的病历数据。

步骤402：将所述非结构化的病历数据进行解析，得到文本数据；

步骤403：对所述文本数据进行结构化，得到字段形式的结构化数据；

步骤404：提供对所述结构化数据进行查找或调用的接口。

具体的，在获取非结构化的病历数据，可以包括：从多个医疗信息系统获取非结构化的病历数据；相应的，将所述非结构化的病历数据进行解析，得到文本数据，可以包括：确定获取的非结构化的病历数据所属的医疗信息系统所对应的解析规则；根据确定的解析规则，进行解析，得到文本数据。

其中，将所述非结构化的病历数据进行解析，得到文本数据，可以包括：获取预设的目标字段集；根据预设的目标字段集中的各字段，对所述非结构化的病历数据进行解析，得到文本数据。其中，根据以预设的目标字段集中的各字段，对所述非结构化的病历数据进行解析，得到文本数据，可以包括：以预设的目标字段集中的各字段作为目标标签；通过路径表达式抓取所述非结构化的病历数据中目标标签下的文本内容；将抓取的文本内容作为解析得到的文本数据。

在一个实施方式中，对所述文本数据进行结构化，得到字段形式的结构化数据，可以包括如下方式之一：

方式3：调用预设的实体抽取模型和关系抽取模型，对所述文本数据进行自然语言处理，以得到多个实体和实体之间的关联关系；将得到的实体和实体之间的关联关系作为字段形式的结构化数据。

其中，将训练得到所述实体抽取模型的表征信息，用于训练所述关系抽取模型。在训练得到所述实体抽取模型时得到和所述关系抽取模型的时候，可以对所述实体抽取模型的损失函数和所述关系抽取模型的损失函数同时进行优化。

上述的实体抽取模型可以是按照如下方式训练得到的：获取样本句子对；根据预设的标记规则对所述样本句子对进行标注；通过掩码对所述样本句子对中的目标单词进行遮盖；将标注和遮盖后的样本句子对，输入实体抽取模型中，通过上下文信息预测得到被遮盖的单词，以进行模型训练。

在对所述文本数据进行结构化，得到字段形式的结构化数据的时候，还可以对所述文本数据进行关键词提取；将提取的关键词作为主键，形成字段形式的结构化数据。

对于上述获取非结构化的病历数据，可以是接收医疗信息系统按照预设上传周期，通过增量方式上传的非结构化的病历数据，其中，预设上传周期可以包括但不限于以下至少之一：目标用户出院后第二天上传、目标用户就诊后第二天上传。

本申请上述实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在电子设备上为例，图5是本申请提供的一种病历数据处理方法的电子设备的硬件结构框图。如图5所示，电子设备10可以包括一个或多个(图中仅示出一个)处理器02(处理器02可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器04、以及用于通信功能的传输模块06。本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备10还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。

存储器04可用于存储应用软件的软件程序以及模块，如本申请实施例中的病历数据处理方法对应的程序指令/模块，处理器02通过运行存储在存储器04内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的病历数据处理方法。存储器04可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器04可进一步包括相对于处理器02远程设置的存储器，这些远程存储器可以通过网络连接至电子设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块06用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备10的通信供应商提供的无线网络。在一个实例中，传输模块06包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块06可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在软件层面，上述病历数据处理装置可以如图6所示，可以包括：

获取模块601，用于获取非结构化的病历数据；

解析模块602，用于将所述非结构化的病历数据进行解析，得到文本数据；

结构化模块603，用于对所述文本数据进行结构化，得到字段形式的结构化数据；

提供模块604，用于提供对所述结构化数据进行查找或调用的接口。

在一个实施方式中，获取模块601具体可以从多个医疗信息系统获取非结构化的病历数据；相应的，将所述非结构化的病历数据进行解析，得到文本数据，可以包括：确定获取的非结构化的病历数据所属的医疗信息系统所对应的解析规则；根据确定的解析规则，进行解析，得到文本数据。

在一个实施方式中，解析模块602具体可以用于获取预设的目标字段集；根据预设的目标字段集中的各字段，对所述非结构化的病历数据进行解析，得到文本数据。

在一个实施方式中，解析模块602具体可以用于以预设的目标字段集中的各字段作为目标标签；通过路径表达式抓取所述非结构化的病历数据中目标标签下的文本内容；将抓取的文本内容作为解析得到的文本数据。

在一个实施方式中，结构化模块603具体可以获取预设的结构化字段集；以预设的结构化字段集中的各字段作为数据处理基础，提取所述文本数据中与预设的结构化字段集中的各字段关联的数据，形成以预设的结构化字段集中各字段为主键的结构化数据。

在一个实施方式中，结构化模块603具体可以调取预设的医学逻辑规则；根据预设的医学逻辑规则，对所述文本数据进行分析，以得到字段形式的结构化数据。

在一个实施方式中，结构化模块603具体可以调用预设的实体抽取模型和关系抽取模型，对所述文本数据进行自然语言处理，以得到多个实体和实体之间的关联关系；将得到的实体和实体之间的关联关系作为字段形式的结构化数据。

在一个实施方式中，可以将训练得到所述实体抽取模型的表征信息，用于训练所述关系抽取模型。

在一个实施方式中，在训练得到所述实体抽取模型时得到和所述关系抽取模型的时候，可以对所述实体抽取模型的损失函数和所述关系抽取模型的损失函数同时进行优化。

在一个实施方式中，可以按照如下方式训练得到实体抽取模型：获取样本句子对；根据预设的标记规则对所述样本句子对进行标注；通过掩码对所述样本句子对中的目标单词进行遮盖；将标注和遮盖后的样本句子对，输入实体抽取模型中，通过上下文信息预测得到被遮盖的单词，以进行模型训练。

在一个实施方式中，结构化模块603具体可以对所述文本数据进行关键词提取；将提取的关键词作为主键，形成字段形式的结构化数据。

在一个实施方式中，获取模块601具体可以接收医疗信息系统按照预设上传周期，通过增量方式上传的非结构化的病历数据。

在一个实施方式中，上述病历数据处理装置在对所述文本数据进行结构化，得到字段形式的结构化数据之后，还可以获取历史存储的结构化数据；对历史存储的结构化数据和当前得到的结构化数据，按照预设的数据指标进行汇总。

在一个实施方式中，上述病历数据处理装置在对历史存储的结构化数据和当前得到的结构化数据，按照预设的数据指标进行汇总之前，还可以对得到的结构化数据进行清洗操作，其中，所述清洗操作包括以下至少之一：剔除脏数据、剔除重复数据。

在一个实施方式中，上述病历数据处理装置在对所述文本数据进行结构化，得到字段形式的结构化数据之后，还可以对所述结构化数据建立索引目录，其中，所述索引目录用于对所述结构化数据进行搜索匹配。

在一个实施方式中，获取模块601具体可以获取原始病历数据；对所述原始病历数据按照预设的脱敏规则，进行脱敏处理；将脱敏处理后的病历数据作为非结构化的病历数据。

本申请的实施例还提供能够实现上述实施例中的病历数据处理方法中全部步骤的一种电子设备的具体实施方式，所述电子设备具体包括如下内容：处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的病历数据处理方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤1：获取非结构化的病历数据；

步骤2：将所述非结构化的病历数据进行解析，得到文本数据；

步骤3：对所述文本数据进行结构化，得到字段形式的结构化数据；

步骤4：提供对所述结构化数据进行查找或调用的接口。

从上述描述可知，本申请实施例通过对非结构化的病历数据进行解析，可以得到文本数据，然后对文本数据进行结构化处理，可以得到字段形式的结构化数据，并提供对所述结构化数据进行查找或调用的接口，可以对不同来源的病历数据进行汇总整合，且对于数据需求人员而言，可以对这些字段形式的结构化数据进行查找或调用，从而解决了现有的病历数据收集和汇总困难，所导致的病历数据利用率低下的问题，达到了有效提升数据利用率的技术效果。

本申请的实施例还提供能够实现上述实施例中的病历数据处理方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的病历数据处理方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤1：获取非结构化的病历数据；

步骤4：提供对所述结构化数据进行查找或调用的接口。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种病历数据处理方法，其特征在于，所述方法包括：

获取非结构化的病历数据；

将所述非结构化的病历数据进行解析，得到文本数据；

对所述文本数据进行结构化，得到字段形式的结构化数据；

提供对所述结构化数据进行查找或调用的接口。

2.根据权利要求1所述的方法，其特征在于，获取非结构化的病历数据，包括：

从多个医疗信息系统获取非结构化的病历数据；

相应的，将所述非结构化的病历数据进行解析，得到文本数据，包括：

确定获取的非结构化的病历数据所属的医疗信息系统所对应的解析规则；

根据确定的解析规则，进行解析，得到文本数据。

3.根据权利要求2所述的方法，其特征在于，将所述非结构化的病历数据进行解析，得到文本数据，包括：

获取预设的目标字段集；

根据预设的目标字段集中的各字段，对所述非结构化的病历数据进行解析，得到文本数据。

4.根据权利要求3所述的方法，其特征在于，根据以预设的目标字段集中的各字段，对所述非结构化的病历数据进行解析，得到文本数据，包括：

以预设的目标字段集中的各字段作为目标标签；

通过路径表达式抓取所述非结构化的病历数据中目标标签下的文本内容；

将抓取的文本内容作为解析得到的文本数据。

5.根据权利要求1所述的方法，其特征在于，对所述文本数据进行结构化，得到字段形式的结构化数据，包括：

获取预设的结构化字段集；

以预设的结构化字段集中的各字段作为数据处理基础，提取所述文本数据中与预设的结构化字段集中的各字段关联的数据，形成以预设的结构化字段集中各字段为主键的结构化数据。

6.根据权利要求1所述的方法，其特征在于，对所述文本数据进行结构化，得到字段形式的结构化数据，包括：

调取预设的医学逻辑规则；

根据预设的医学逻辑规则，对所述文本数据进行分析，以得到字段形式的结构化数据。

7.根据权利要求1所述的方法，其特征在于，对所述文本数据进行结构化，得到字段形式的结构化数据，包括：

调用预设的实体抽取模型和关系抽取模型，对所述文本数据进行自然语言处理，以得到多个实体和实体之间的关联关系；

将得到的实体和实体之间的关联关系作为字段形式的结构化数据。

8.根据权利要求7所述的方法，其特征在于，将训练得到所述实体抽取模型的表征信息，用于训练所述关系抽取模型。

9.根据权利要求7所述的方法，其特征在于，在训练得到所述实体抽取模型时得到和所述关系抽取模型的时候，对所述实体抽取模型的损失函数和所述关系抽取模型的损失函数同时进行优化。

10.根据权利要求7所述的方法，其特征在于，按照如下方式训练得到实体抽取模型：

获取样本句子对；

根据预设的标记规则对所述样本句子对进行标注；

通过掩码对所述样本句子对中的目标单词进行遮盖；

将标注和遮盖后的样本句子对，输入实体抽取模型中，通过上下文信息预测得到被遮盖的单词，以进行模型训练。

11.根据权利要求1所述的方法，其特征在于，对所述文本数据进行结构化，得到字段形式的结构化数据，包括：

对所述文本数据进行关键词提取；

将提取的关键词作为主键，形成字段形式的结构化数据。

12.根据权利要求1所述的方法，其特征在于，获取非结构化的病历数据，包括：

接收医疗信息系统按照预设上传周期，通过增量方式上传的非结构化的病历数据。

13.根据权利要求1所述的方法，其特征在于，对所述文本数据进行结构化，得到字段形式的结构化数据之后，还包括：

获取历史存储的结构化数据；

对历史存储的结构化数据和当前得到的结构化数据，按照预设的数据指标进行汇总。

14.根据权利要求1所述的方法，其特征在于，在对历史存储的结构化数据和当前得到的结构化数据，按照预设的数据指标进行汇总之前，还包括：

对得到的结构化数据进行清洗操作，其中，所述清洗操作包括以下至少之一：剔除脏数据、剔除重复数据。

15.根据权利要求1所述的方法，其特征在于，对所述文本数据进行结构化，得到字段形式的结构化数据之后，还包括：

对所述结构化数据建立索引目录，其中，所述索引目录用于对所述结构化数据进行搜索匹配。

16.根据权利要求1所述的方法，其特征在于，在获取非结构化的病历数据之前，还包括：

获取原始病历数据；

对所述原始病历数据按照预设的脱敏规则，进行脱敏处理；

将脱敏处理后的病历数据作为非结构化的病历数据。

17.一种病历数据处理平台，其特征在于，包括：

18.根据权利要求17所述的病历数据处理平台，其特征在于，应用于冠心病患者的数据处理和整合。

19.一种服务端设备，包括处理器以及用于存储处理器可执行指令的存储器，其特征在于，所述处理器执行所述指令时实现权利要求1至16中任一项所述方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至16中任一项所述方法的步骤。