CN111370132B

CN111370132B - 电子文件的解析方法及装置、计算机设备、存储介质

Info

Publication number: CN111370132B
Application number: CN202010126793.7A
Authority: CN
Inventors: 吴东平
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2022-04-15
Anticipated expiration: 2040-02-28
Also published as: CN111370132A

Abstract

本发明实施例提供了一种电子文件的解析方法及装置、计算机设备、存储介质。一方面，该方法包括：从多个数据源采集样本病例数据；根据所述样本病例数据生成第一病例模板；根据所述第一病例模板解析源病例文件，得到多个病例字段；将所述多个病例字段填充至第二病例模板，得到目标病例文件。通过本发明，解决了现有技术中电子病例的识别率低的技术问题，提高了电子病例的识别率，减少了获取接口和解析接口的操作，提高了电子病例的解析效率。

Description

电子文件的解析方法及装置、计算机设备、存储介质

【技术领域】

本发明涉及计算机领域，尤其涉及一种电子文件的解析方法及装置、计算机设备、存储介质。

【背景技术】

近年来，为各地推进医院信息化建设，配合公立医院改革试点，我国陆续出台电子相关政策法规，促进电子病历的推广和规范化发展。电子病历是未来的趋势，随之衍生的电子病历解析，是电子病例的重要组成部分。

线上医疗、商保等行业对医疗数据的需求非常巨大，产生医疗数据的医院内部信息系统非常多，不同厂商，不同时间开发的软件产品，在技术架构、数据结构、存储方式等方面存在着巨大差异，以使其形成了一个个数据孤岛，数据孤岛的存在导致医疗数据信息无法共享融合，如果用传统的接口方式打通所需的这些数据，需要各软件厂商提供数据接口支持，由于产出电子病例的机构和渠道是海量，接口也会按照各种要求进行定制，几乎不能实现。

针对现有技术中多个厂商的电子病例不能数据共享的问题，现有技术暂未发现有效的解决方案。

【发明内容】

有鉴于此，本发明实施例提供了一种电子文件的解析方法及装置、计算机设备、存储介质。

一方面，本发明实施例提供了一种电子文件的解析方法，所述方法包括：从多个数据源采集样本病例数据；根据所述样本病例数据生成第一病例模板；根据所述第一病例模板解析源病例文件，得到多个病例字段；将所述多个病例字段填充至第二病例模板，得到目标病例文件。

可选的，根据所述样本病例数据生成第一病例模板包括：基于预设维度拆分所述样本病例数据，得到M个病例元素，其中，所述预设维度包括以下至少之一：病例结构、病例种类、病例内容；根据语义对所述多个病例元素进行分类和数据清洗，得到N个符合预设字典库格式的标准元素，其中，N小于M，M、N均为正整数；将所述标准元素映射至预设模板文件的字段内容中，以生成所述第一病例模板。

可选的，在将所述标准元素映射至预设模板文件的字段内容中之前，所述方法还包括以下至少之一：为所述预设模板文件的每一个字段的字段内容设置缺省值；为所述预设模板文件的每一个字段的字段内容设置字段范围或字段集合。

可选的，根据所述第一病例模板解析源病例文件包括：接收源设备发送的源病例文件；删除所述源病例文件中的预设字符，得到源病例数据，其中，所述预设字符为无意义的字符；基于所述第一病例模板中的字段标识从所述源病例数据爬取字段内容。

可选的，接收源设备发送的源病例文件包括以下之一：接收源设备发送的大数据文件，其中，所述大数据文件包括多个源病例数据，每个源病例数据存储在一个子地段中；接收源设备发送的第一子字段；根据所述第一子字段查询关联的大字段；将所述第一子字段以及与所述大字段关联的第二子字段组合成源病例数据，其中，所述大字段是所述第一子字段和所述第二子字段的父字段，所述大字段用于在一个长字段中存储多个短字段。

可选的，将所述多个病例字段填充至第二病例模板包括：根据所述病例字段的格式获取字段内容；按照第二病例模板中的字段标识读取对应的字段内容，并将所述字段内容填充在所述第二病例模板中，其中，所述第二病例模板是根据接收端的需求信息配置的病例模板，所述第二病例模板包括多个预设字段标识。

可选的，根据所述病例字段的格式获取字段内容包括：判断所述源病例文件的数据格式，其中，所述数据格式包括以下之一：结构化数据、半结构化数据、非结构化数据；在所述数据格式为结构化数据时，直接获取结构化的字段内容；在所述数据格式为半结构化数据时，获取半结构化的字段内容；在所述数据格式为非结构化数据时，将非结构化数据转换为半结构化数据，获取半结构化的字段内容。

另一方面，本发明实施例提供了一种电子文件的解析装置，所述装置包括：采集模块，用于从多个数据源采集样本病例数据；生成模块，用于根据所述样本病例数据生成第一病例模板；解析模块，用于根据所述第一病例模板解析源病例文件，得到多个病例字段；填充模块，用于将所述多个病例字段填充至第二病例模板，得到目标病例文件。

可选的，所述生成模块包括：拆分单元，用于基于预设维度拆分所述样本病例数据，得到M个病例元素，其中，所述预设维度包括以下至少之一：病例结构、病例种类、病例内容；处理单元，用于根据语义对所述多个病例元素进行分类和数据清洗，得到N个符合预设字典库格式的标准元素，其中，N小于M，M、N均为正整数；映射单元，用于将所述标准元素映射至预设模板文件的字段内容中，以生成所述第一病例模板。

可选的，所述生成模块还包括以下至少之一：第一设置单元，用于在所述映射单元将所述标准元素映射至预设模板文件的字段内容中之前，为所述预设模板文件的每一个字段的字段内容设置缺省值；第二设置单元，用于在所述映射单元将所述标准元素映射至预设模板文件的字段内容中之前，为所述预设模板文件的每一个字段的字段内容设置字段范围或字段集合。

可选的，所述解析模块包括：接收单元，用于接收源设备发送的源病例文件；删除单元，用于删除所述源病例文件中的预设字符，得到源病例数据，其中，所述预设字符为无意义的字符；爬取单元，用于基于所述第一病例模板中的字段标识从所述源病例数据爬取字段内容。

可选的，所述接收单元包括以下之一：第一接收子单元，用于接收源设备发送的大数据文件，其中，所述大数据文件包括多个源病例数据，每个源病例数据存储在一个子地段中；第二接收子单元，用于接收源设备发送的第一子字段；根据所述第一子字段查询关联的大字段；将所述第一子字段以及与所述大字段关联的第二子字段组合成源病例数据，其中，所述大字段是所述第一子字段和所述第二子字段的父字段，所述大字段用于在一个长字段中存储多个短字段。

可选的，所述填充模块包括：获取单元，用于根据所述病例字段的格式获取字段内容；填充单元，用于按照第二病例模板中的字段标识读取对应的字段内容，并将所述字段内容填充在所述第二病例模板中，其中，所述第二病例模板是根据接收端的需求信息配置的病例模板，所述第二病例模板包括多个预设字段标识。

可选的，所述获取单元包括：判断子单元，用于判断所述源病例文件的数据格式，其中，所述数据格式包括以下之一：结构化数据、半结构化数据、非结构化数据；获取子单元，用于在所述数据格式为结构化数据时，直接获取结构化的字段内容；在所述数据格式为半结构化数据时，获取半结构化的字段内容；在所述数据格式为非结构化数据时，将非结构化数据转换为半结构化数据，获取半结构化的字段内容。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，从多个数据源采集样本病例数据，然后根据所述样本病例数据生成第一病例模板，根据所述第一病例模板解析源病例文件，得到多个病例字段，将所述多个病例字段填充至第二病例模板，得到目标病例文件，可以通过基于样本生成的模板适配各种未知格式未知来源的源病例文件，解决了现有技术中电子病例的识别率低的技术问题，提高了电子病例的识别率，减少了获取接口和解析接口的操作，提高了电子病例的解析效率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的一种电子文件的解析计算机的硬件结构框图；

图2是根据本发明实施例的电子文件的解析方法的流程图；

图3是本发明实施例解析电子病例的流程图；

图4是根据本发明实施例的电子文件的解析装置的结构框图。

【具体实施方式】

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机、服务器或者类似的运算装置中执行。以运行在计算机上为例，图1是本发明实施例的一种电子文件的解析计算机的硬件结构框图。如图1所示，计算机10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机的结构造成限定。例如，计算机10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的电子文件的解析方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种电子文件的解析方法，图2是根据本发明实施例的电子文件的解析方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，从多个数据源采集样本病例数据；

本实施例的数据源为生产病例数据或者是病例文件的数据库，如医院数据库，卫健委数据库，防疫站数据库等。

步骤S204，根据所述样本病例数据生成第一病例模板；

本实施例的第一病例模板包括样本病例数据的全量字段，每一个字段内容通过唯一的字段标识进行映射；

步骤S206，根据所述第一病例模板解析源病例文件，得到多个病例字段；

源病例文件包括多个病例字段，但是不同来源的源病例文件的文件样式和结构、内容是不同，本实施例通过包括全量字段的第一病例模板识别和爬取源病例文件的病例字段，可以适配各种类型的源病例文件。

步骤S208，将所述多个病例字段填充至第二病例模板，得到目标病例文件。

本实施例的第二病例模板是根据接受端需求，设置的模板，由于源病例文件包括多个病例字段，有些字段内容并不是接收端需要的信息，为了减少数据传输量，因此通过第二病例模板来匹配病例字段。

通过本实施例的方案，从多个数据源采集样本病例数据，然后根据所述样本病例数据生成第一病例模板，根据所述第一病例模板解析源病例文件，得到多个病例字段，将所述多个病例字段填充至第二病例模板，得到目标病例文件，可以通过基于样本生成的模板适配各种未知格式未知来源的源病例文件，解决了现有技术中电子病例的识别率低的技术问题，提高了电子病例的识别率，减少了获取接口和解析接口的操作，提高了电子病例的解析效率。

本实施例的执行主体是客户端，手机、平板、电脑、服务器等，也可以应在测试后台，测试中台等测试系统中。

在本实施例中，根据所述样本病例数据生成第一病例模板包括：

S11，基于预设维度拆分所述样本病例数据，得到M个病例元素，其中，所述预设维度包括以下至少之一：病例结构、病例种类、病例内容；

某一个维度下，包括样本病例数据的多个共性特征，包括以下维度：病例结构，病例种类，病例内容。

电子病例病历结构包括：入院记录和出院记录；

电子病例的种类包括：男人、女人、孕妇、儿童；

电子病例的病例内容：标准格式，带有特殊符号的非标准格式(如中英文输入符号不规范等)。

S12，根据语义对所述多个病例元素进行分类和数据清洗，得到N个符合预设字典库格式的标准元素，其中，N小于M，M、N均为正整数；

在本实施例的一个示例中，按照病例结构的维度，样本病例数据包含有，ABCDEFGHIJ一共十个病例元素，按照预设字典库格式，标准元素包括首页、病程记录、检查检验结果、医嘱、手术记录、护理记录，通过语义分析，发明AB都属于首页的内容，只是两个不同的叫法，则可以将其归类，IJ分别是患者反馈和转院记录，是不符合预设字典库格式的病例元素，则可以将IJ相关的数据进行数据清洗，减少冗余数据的存储量。

S13，将所述标准元素映射至预设模板文件的字段内容中，以生成所述第一病例模板。

在处理样本病例数据的字段差异时：同一类别的不同中文描述，其实代表一个意思，用统一的英文或者字符在模板中进行统一映射，保持唯一。例如：诊治经过、诊疗经过、住院治疗经过等类似的病例字段使用标准的统一字段。在处理格式差异时：很多不应该出现的字符，将其过滤删除。例如：$、#、@以及一些xml标签等。使不同医院，不是科室的电子病例成统一的格式。

本实施例通过大量病历样本的分析，发现医院的字段存在特定的地方，例如主诉、现病史、既往史、个人史等字段的都会存在入院记录，因此可以将出现主诉、现病史、既往史、个人史等字段的电子病例确定为结构为入院记录的电子病例；而诊治经过、入院诊断、出院诊断、出院情况、出院医嘱等字段都会存在出院记录，因此可以将出现诊治经过、入院诊断、出院诊断、出院情况、出院医嘱等字段的电子病例的确定为结构为出院记录的电子病例，按照病例结构和种类进行分类，便于解析与填充。

在本实施例的一个实施方式中，在将所述标准元素映射至预设模板文件的字段内容中之前，还包括以下至少之一：为所述预设模板文件的每一个字段的字段内容设置缺省值；为所述预设模板文件的每一个字段的字段内容设置字段范围或字段集合。可以适配不完整或者不标准的病例数据。并在每一个字段设置一个字段范围，用于检测和判断错误值。

在一个示例中，预设模板文件包括患者性别、患者年龄、付款方式、入院科别、主诉、既往史六个字段，设置患者性别的字段集合为{男，女}，设置患者年龄的字段范围0～200，设置付款方式的字段集合为{医保，商保，自付}，设置入院科别的字段集合为{内科，外科，儿科、神经科、妇产科…}，设置主诉的缺省值为“无”、设置既往史的缺省值为“健康状态良好，无传染病史，无外伤史，无药物过敏史，无遗传病史”，通过配置字段内容的缺省信息和范围信息，可以纠正和发现字段中的明显错误，避免大范围的错误匹配，同时，设置病例使用频繁的缺省值，在生成模板的过程中，可以直接通过比对实际值和缺省值，缺省值的基础上进行更新，减少数据的处理量。

在一个示例中，按照入院和出院，第一预设模块的字段包括：

在本实施例的一个实施方式中，根据所述第一病例模板解析源病例文件包括：

S21，接收源设备发送的源病例文件；

S22，删除所述源病例文件中的预设字符，得到源病例数据，其中，所述预设字符为无意义的字符；

在采集到源病例文件后，首先删除源电子病例中的影响解析的特殊字符，第一预设模板为清除特殊字符后的模板。本方案的特殊字符包括：$、#、@、<html>、////、\\\\等不规则，无实际意义的字符。多个病例字段可以以列表(如字段名称-字段内容)的方式存储在云端数据库。

S23，基于所述第一病例模板中的字段标识从所述源病例数据爬取字段内容。

本实施例的大数据可以应用在多种数据库中，如oracle中long/blob/clob,sqlserver中text/image，mysql中的text/longtext/clob/blob。通过大字段存储的信息包括两类，一类是长文本，如大段的文字，普通的varchar最长只能存储4000个汉字，已经不能满足要求；另一类是存储二进制信息，如上传的文件等。例如，记录某人的电子病例，字段包括：患者，出入院时间，费用，病例内容(实际中还会有其它字段)，可以建立如下(sqlserver)的大字段：

create table document(

id int identity(1,1)not null,

createuser_id int,

document_title varchar(255),

document_context text)。

将源电子病例封装在大字段中，通过接口的方式传输大字段，采集得到源电子病例，时效性高。医院方的数据库为SQL等，数据库类型包括oracle等；经过业务的大量调用，发现总有些病历解析字段不全，发现是接口中给的大字段内容缺失，本方案通过给电子病例源(医院)建议，在医院方的SQL数据库中通过||符号将存储在多个字段的病历信息连接起来，拼出完整的字段，对应一个大字段。通过修改源电子病例的方式，将数据库的查询长度的瓶颈，通过优化SQL解决。数据长度一般都会很长，普通的SQL查询出来数据可能缺失，通过优化SQL，以保证其完整度。

除此之外，如果源电子病例传输过来是没有经过调整，也可以在本地对其进行调整，包括：根据子字段推荐相关的大字段，将该大字段以及与其关联的字段组合成一个完整的字段，例如，大字段为：基础信息，通过解析源电子病例，发现其没有“基础信息”的大字段，由于基础信息又包括子字段：身高，年龄，性别，职业等信息，在解析到身高时，推荐“基础信息”大字段，然后将后续解析到的子字段年龄，性别，职业等归类到“基础信息”下。将年龄，性别，性别、职业等信息存储在一个字段内容中，从而将离散的数据进行归类存储，方便数据转移和存储。

源电子病例的数据来源有原始数据和衍生数据，衍生数据根据原始数据的特征生成的数据。

此外，对接医院多了会出现数据冗余的问题，同一份数据会重复存储很多遍，而且每份数据完整度参差不齐。在源电子病例的采集渠道不一致性(直连、合作机构、HIS厂商)，先通过渠道检验，删除不合法的渠道，然后，进行SQL筛选，通过重复值的检测，然后选择字段最完整的病例。

在通过HIS采集电子病历时，可以从HIS中的各个业务子系统中采集电子病历的病例元素，比如：病案首页来源于住院登记、入出转、病案编目等子系统中，可以从住院登记、入出转、病案编目子系统中分别采集患者年龄、姓名、职业，科别、住院时间，现病史。各个业务系统在完成自身的功能、管理自身业务数据的同时，也在收集着病人信息。

在一个示例中，根据所述病例字段的格式获取字段内容包括：判断所述源病例文件的数据格式，其中，所述数据格式包括以下之一：结构化数据、半结构化数据、非结构化数据；在所述数据格式为结构化数据时，直接获取结构化的字段内容；在所述数据格式为半结构化数据时，获取半结构化的字段内容；在所述数据格式为非结构化数据时，将非结构化数据转换为半结构化数据，获取半结构化的字段内容。

第二预设模板为根据需求定义的标准模板。按照第二预设模板中的字段名称在解析完成的病例字段列表中读取对应的字段内容，并将字段内容填充在第二预设模板中。

进一步的，还可以判断源电子病例的格式，如果是结构化数据直接采用，半结构化数据(非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档、Email等)和非结构化数据(没有固定模式的数据，如WORD、PDF、PPT、EXL，各种格式的图片、视频等)进行解析，现将非结构化数据解析为半结构化数据，再将半结构化数据填充到第二预设模板，得到结构化数据，如果是半结构化数据，则可以将其填充到第二预设模板，得到结构化数据。通过格式判断，可以适配和各种形式的数据，提高了病例解析率。

解析过程包括：编写通用解析模板(JSON格式等)，JSON中的Key代表"解析子项"唯一的英文标识,Value代表"解析子项"可能存在的不同中文描述(不同医院造成的)，用"|"隔开。映射关系为：diagnosis Treatment->(A医院)诊治经过、(B医院)诊疗经过、(C医院)住院治疗经过；

依据模板，检索当前文件全文，将"解析子项"的索引值、Key，Value，存入三元组A(索引，Key，Value)；

三元组A按照索引排序，变成递增序列；

依据三元组A，顺序截取每个"解析子项"的内容，通过唯一标识Key进行关联，将实际内容填充到解析模板中，完成解析。

图3是本发明实施例解析电子病例的流程图，平台从医院采集到病例大字段之后，依据模板进行解析，然后依据模板进行填充，最后生成目标病例文件，发送给客户接收端。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种电子文件的解析装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的电子文件的解析装置的结构框图，如图4所示，该装置包括：采集模块40，生成模块42，解析模块44，填充模块46，其中，

采集模块40，用于从多个数据源采集样本病例数据；

生成模块42，用于根据所述样本病例数据生成第一病例模板；

解析模块44，用于根据所述第一病例模板解析源病例文件，得到多个病例字段；

填充模块46，用于将所述多个病例字段填充至第二病例模板，得到目标病例文件。

可选的，所述接收单元包括：第一接收子单元，用于接收源设备发送的大数据文件，其中，所述大数据文件包括多个源病例数据，每个源病例数据存储在一个子地段中；第二接收子单元，用于接收源设备发送的第一子字段；根据所述第一子字段查询关联的大字段；将所述第一子字段以及与所述大字段关联的第二子字段组合成源病例数据，其中，所述大字段是所述第一子字段和所述第二子字段的父字段，所述大字段用于在一个长字段中存储多个短字段。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，从多个数据源采集样本病例数据；

S2，根据所述样本病例数据生成第一病例模板；

S3，根据所述第一病例模板解析源病例文件，得到多个病例字段；

S4，将所述多个病例字段填充至第二病例模板，得到目标病例文件。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，从多个数据源采集样本病例数据；

S2，根据所述样本病例数据生成第一病例模板；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种电子文件的解析方法，其特征在于，所述方法包括：

从多个数据源采集样本病例数据；

根据所述样本病例数据生成第一病例模板；

根据所述第一病例模板解析源病例文件，得到多个病例字段；

将所述多个病例字段填充至第二病例模板，得到目标病例文件；

其中，所述根据所述样本病例数据生成第一病例模板包括：

基于预设维度拆分所述样本病例数据，得到M个病例元素，其中，所述预设维度包括以下至少之一：病例结构、病例种类、病例内容；

根据语义对所述多个病例元素进行分类和数据清洗，得到N个符合预设字典库格式的标准元素，其中，N小于M，M、N均为正整数；

将所述标准元素映射至预设模板文件的字段内容中，以生成所述第一病例模板；

所述根据所述第一病例模板解析源病例文件包括：

接收源设备发送的源病例文件；

删除所述源病例文件中的预设字符，得到源病例数据，其中，所述预设字符为无意义的字符；

基于所述第一病例模板中的字段标识从所述源病例数据爬取字段内容；

所述将所述多个病例字段填充至第二病例模板包括：

根据所述病例字段的格式获取字段内容；

按照第二病例模板中的字段标识读取对应的字段内容，并将所述字段内容填充在所述第二病例模板中，其中，所述第二病例模板是根据接收端的需求信息配置的病例模板，所述第二病例模板包括多个预设字段标识。

2.根据权利要求1所述的方法，其特征在于，在将所述标准元素映射至预设模板文件的字段内容中之前，所述方法还包括以下至少之一：

为所述预设模板文件的每一个字段的字段内容设置缺省值；

为所述预设模板文件的每一个字段的字段内容设置字段范围或字段集合。

3.根据权利要求1所述的方法，其特征在于，接收源设备发送的源病例文件包括以下之一：

接收源设备发送的大数据文件，其中，所述大数据文件包括多个源病例数据，每个源病例数据存储在一个子字段中；

接收源设备发送的第一子字段；根据所述第一子字段查询关联的大字段；将所述第一子字段以及与所述大字段关联的第二子字段组合成源病例数据，其中，所述大字段是所述第一子字段和所述第二子字段的父字段，所述大字段用于在一个长字段中存储多个短字段。

4.根据权利要求1所述的方法，其特征在于，根据所述病例字段的格式获取字段内容包括：

判断所述源病例文件的数据格式，其中，所述数据格式包括以下之一：结构化数据、半结构化数据、非结构化数据；

在所述数据格式为结构化数据时，直接获取结构化的字段内容；在所述数据格式为半结构化数据时，获取半结构化的字段内容；在所述数据格式为非结构化数据时，将非结构化数据转换为半结构化数据，获取半结构化的字段内容。

5.一种电子文件的解析装置，其特征在于，所述装置包括：

采集模块，用于从多个数据源采集样本病例数据；

生成模块，用于根据所述样本病例数据生成第一病例模板；

解析模块，用于根据所述第一病例模板解析源病例文件，得到多个病例字段；

填充模块，用于将所述多个病例字段填充至第二病例模板，得到目标病例文件；

其中，所述生成模块包括：拆分单元，用于基于预设维度拆分所述样本病例数据，得到M个病例元素，其中，所述预设维度包括以下至少之一：病例结构、病例种类、病例内容；处理单元，用于根据语义对所述多个病例元素进行分类和数据清洗，得到N个符合预设字典库格式的标准元素，其中，N小于M，M、N均为正整数；映射单元，用于将所述标准元素映射至预设模板文件的字段内容中，以生成所述第一病例模板；

所述解析模块包括：接收单元，用于接收源设备发送的源病例文件；删除单元，用于删除所述源病例文件中的预设字符，得到源病例数据，其中，所述预设字符为无意义的字符；爬取单元，用于基于所述第一病例模板中的字段标识从所述源病例数据爬取字段内容；

所述填充模块包括：获取单元，用于根据所述病例字段的格式获取字段内容；填充单元，用于按照第二病例模板中的字段标识读取对应的字段内容，并将所述字段内容填充在所述第二病例模板中，其中，所述第二病例模板是根据接收端的需求信息配置的病例模板，所述第二病例模板包括多个预设字段标识。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。