CN109522529B

CN109522529B - 提取文档中数据的方法、装置、介质及电子设备

Info

Publication number: CN109522529B
Application number: CN201811364864.6A
Authority: CN
Inventors: 强晟
Original assignee: Beijing Yiyiyun Technology Co ltd
Current assignee: Beijing Yiyiyun Technology Co ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2020-06-19
Anticipated expiration: 2038-11-12
Also published as: CN109522529A

Abstract

本发明实施例提供了一种提取文档中数据的方法、装置、介质及电子设备，该方法包括：利用预设关键字Key列表对所述文档进行数据提取，以获取预设格式的初步提取内容；根据实现预设功能的函数处理所述初步提取内容，以对所述文档中数据的最终提取。通过本发明实施例的技术方案进行文档中数据的处理效率高并且适用性广。

Description

提取文档中数据的方法、装置、介质及电子设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种提取文档中数据的方法、装置、介质及电子设备方法、装置、介质及电子设备。

背景技术

对文档中某些数据进行提取是各行各业均需面对和解决的问题。示例性的，临床文档构架(Clinical Document Architecture，简称：CDA)是卫生信息用户层(HealthLevel 7，简称：简称HL7)第三版标准的一部分，用来规定临床文档内容的标准化。CDA文档包含诊断、手术经过、随访结果等重要信息，具有极大的研究价值。但是，CDA文档的大部分内容以可扩展标记语言(Extensive Makeup Language，简称：XML)格式进行存储。由于自然语言在诸如统计分析、归纳等方面存在较大处理困难性，因此，对于CDA文档的数据价值挖掘手段前，需先对其进行数据处理。通用的处理方法是把CDA文档进行细化归纳，例如：把手术记录拆分为，“手术时间，手术医生，手术经过，术后诊断”等，或者，针对手术经过，可以进行进一步的细化，比方“手术体位，手术部位，出入量以及吻合方式”等，才适合用于数据挖掘等研究。

现有技术中，对于CDA文档的数据处理方式一般采用人工处理方式或XPath方式。人工处理方式中，对于待解析的数据(例如：照片或HTML页面等)进行人工结构化分析候录入计算机。XPath方式中，使用XPath来确定每个节点的位置。针对已采样XML格式的CDA文档，配置每个字段的XPath路径，之后再泛化至所有文档，就可以实现所有所需字段的文本抽取。

然而，现有技术中对文档的处理方式效率低或适用性差。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种提取文档中数据的方法、装置、介质及电子设备，进而至少在一定程度上克服了现有技术中对文档的处理方式效率低或适用性差的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种提取文档中数据方法，包括：利用预设关键字Key列表对所述文档进行数据提取，以获取预设格式的初步提取内容；根据实现预设功能的函数处理所述初步提取内容，以对所述文档中数据的最终提取。

在本发明的一种实施例中，利用预设的Key列表对所述文档进行数据提取，包括：获取多个Key，已确定所述Key列表；基于所述文档确定对每个所述Key对应的Value的判断条件；在所述文档中定位所述多个Key的位置，判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件；若位于所述Key后的数据符合所述Key对应的Value的判断条件，则提取位于所述Key后的数据作为所述Key对应的Value。

在本发明的一种实施例中，判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件之后，还包括：若存在位于所述Key后的数据不符合所述Key对应的Value的判断条件，则基于所述Key，利用XPath方式对所述文档进行提取。

在本发明的一种实施例中，所述预设格式的初步提取内容包括：纯文本格式和/或可扩展标记语言XML格式。

在本发明的一种实施例中，所述预设功能包括数据清理功能，根据实现预设功能的函数处理所述初步提取内容，包括：利用JavaScript对象简谱(JavaScript ObjectionNotation，简称：JSON)方式配置数据清理功能的函数；从所述初步提取内容中获取待数据清理的字段；所述数据清理功能的函数插入所述字段中，以执行对所述字段的数据清理。

在本发明的一种实施例中，所述预设功能包括数据恢复功能，根据实现预设功能的函数处理所述初步提取内容，包括：利用JSON方式配置数据恢复功能的函数；从所述初步提取内容中获取待数据恢复的字段；所述数据恢复功能的函数插入所述字段中，以执行对所述字段的数据恢复。

在本发明的一种实施例中，所述预设功能包括数据精细化功能，根据实现预设功能的函数处理所述初步提取内容，包括：利用JSON方式配置数据精细化功能的函数；从所述初步提取内容中获取待数据精细化的字段；所述数据精细化功能的函数插入所述字段中，以执行对所述字段的数据精细化。

根据本发明实施例的第二方面，提供了一种提取文档中数据的装置，包括：第一提取模块，所述第一提取模块用于利用预设关键字Key列表对所述文档进行数据提取，以获取预设格式的初步提取内容；第二提取模块，所述第二提取模块用于根据实现预设功能的函数处理所述初步提取内容，以对所述文档中数据的最终提取。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例第一方面中所述的提取文档中数据的方法。

根据本发明实施例的第四方面，提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例第一方面所述的提取文档中数据的方法。

本发明实施例提供的技术方案可以包括以下有益效果：通过先预设Key列表对文档进行数据初步提取，可以获取预设格式的初步提取内容，进而，根据实现预设功能的函数处理对预设格式的初步提取内容，实现对文档的最终提取。本发明实施例提供的方法无需人工手动进行数据结构化，提高了文档处理效率。同时，有效的降低对于使用者的技术要求，降低使用框架者的技术需求，实现了无需对每个XML格式的文档配置每个字段的XPath路径的目的，从而，本申请提供的提取文档中数据的方法效率高并且适用性广。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了根据本发明的一个实施例的提取文档中数据的流程示意图；

图2示出了根据本发明实施例的获取CDA文档的初步提取内容的方法的流程示意图；

图3示出了根据本发明的另一个实施例的提取CDA文档中数据的方法的流程示意图；

图4示出了根据本发明的再一个实施例的提取CDA文档中数据的方法的流程示意图；

图5示出了根据本发明的又一个实施例的提取CDA文档中数据的方法的流程示意图；

图6示出了根据本发明的实施例的提取文档中数据的装置的结构示意图；

图7示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

针对于现有技术中，通过人工处理方式对CDA文档中数据处理方法，其显而易见的缺点是生产效率低。并且，随着待处理CDA文档的增加，成本是不断增加的。并且针对海量的CDA文档，有限的人工处理方式是根本无法完成的。

而通过XPath处理方式对CDA文档中数据处理方法存在以下问题：XPath是一种较为晦涩的实现方式，对于技术人员的技术要求较高，大规模应用作为CDA文档的处理方式需要具有相关技术能力的工程师，因而造成人力成本较高。另外，应用XPath的CDA文档，需要具有相同的XML模板结构。然而不同的医院，其CDA文档一般不具有相同的XML模板结构。也就是说，XPath处理方式是一种case by case的处理方式，推广复用性以及适用性较差。

针对于现有技术中存在的问题，图1示出了根据本发明的一个实施例的提取文档中数据的流程示意图，至少在一定程度上克服了现有技术中对文档的处理方式效率低或适用性差的问题。参考图1，该方法包括：

步骤S101，利用预设关键字Key列表对所述文档进行数据提取，以获取预设格式的初步提取内容；

步骤S102，根据实现预设功能的函数处理所述初步提取内容，以对所述文档中数据的最终提取。

在图1所示实施例的技术方案中，通过先预设Key列表对文档进行数据初步提取，可以获取预设格式的初步提取内容，进而，根据实现预设功能的函数处理对预设格式的初步提取内容，实现对文档的最终提取。本发明实施例提供的方法无需人工手动进行数据结构化，提高了文档处理效率。同时，有效的降低对于使用者的技术要求，降低使用框架者的技术需求，实现了无需对每个XML格式的文档配置每个字段的XPath路径的目的，从而，本申请提供的提取文档中数据的方法效率高并且适用性广。

示例性的，以下图2至图5各图所示实施例中以提取CDA文档中的数据为例进行说明。

图2示出了根据本发明实施例的获取CDA文档的初步提取内容的方法的流程示意图，是图1中步骤S101的一种具体实现方式。参考图2，获取CDA文档的初步提取内容的方法，包括步骤S201-步骤S206。

在步骤S201中，获取多个Key，已确定所述Key列表。用户根据自身研究需求确定多个Key，因而，本发明实施例获取所述多个Key。

在示例性的实施例中，根据多个用户确定的多个Key(即Key组合)的历史记录或每个用户确定Key组合的历史记录，本发明实施例还包括根据上述历史记录进行统计分析，进而根据某些Key形成组合的频率次数，提供向用户推荐Key组合。例如，根据历史记录确定包含Key1和Key2的组合A，当用户输入Key1或Key2时，向用户推荐组合A。从而，节省用户的操作时间。

在步骤S202中，基于所述CDA文档确定对每个所述Key对应的Value的判断条件。在步骤S203中，在所述CDA文档中定位所述多个Key的位置。以及，在步骤S204中，判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件。

在示例性的实施例中，基于待提取数据的CDA文档中数据内容(例如Key和对应的Value的位置关系等)，根据“Key-Value”的对应关系，确定判断条件以判断某些数据是不是Key所对应的Value。例如：待提取数据的CDA文档中Value一般位于Key后的n个字符内。步骤S101中确定的Key包括：Key1姓名、Key2性别以及Key3主诉。对于Key1姓名对应的Value1的判断条件，可以是判断Key1后的n个字符内是否出现表示姓名的数据。对于Key2性别对应的Value2的判断条件，可以是判断Key2后的n个字符内是否出现表示性别的数据。对于Key3主诉对应的Value3的判断条件，可以是判断Key3后的n个字符内是否出现表示病症的数据。其中，n为正整数。

若根据步骤S204的判断，确定位于所述Key后的数据符合所述Key对应的Value的判断条件，则执行步骤S205，提取位于所述Key后的数据作为所述Key对应的Value。若存在位于所述Key后的数据不符合所述Key对应的Value的判断条件，则执行步骤S206，基于所述Key，利用XPath方式对所述CDA文档进行提取。

在示例性的实施例中，根据步骤S205获取得到的初步提取结果可以是：姓名：张三；性别：男；主诉：咳嗽三日余。

在示例性的实施例中，通过判断数据是否符合上述条件的方式，优先使用Key-Value方式对CDA文档进行提取。而对于使用Key-Value方式无法获取的内容，使用XPath方式进行补充获取。从而，在保证数据提取效率的同时，满足用户对数据提取完整性的要求。

在示例性的实施例中，步骤S205的Key列表提取方式和步骤S206的XPath提取方式，均可以按照需求输出纯文本格式数据和/或XML格式数据。例如，将HTML格式数据转化为纯文本格式的方法的一种可实现的方式：在Java服务器页面嵌套插件的方式将HTML形式的文本直接转化为纯文本。另一种可实现的方式：运用正则表达式对已经保存的或没有运用插件方法的HTML文本进行处理，使用正则表达式可以过滤到HTML标签，从而获取纯文本格式。

在图2示出的初步提取内容的获取方法的实施例中，鉴于CDA文档的内容的数据类型多以Key-Value方式组织。本发明实施例在获取初步提取内容时，只需要定义好整个CDA文档中的所有待提取Key，进而实现Key对应Value的提取，从而将CDA文档中的各种内容进行划分。本发明实施例中优先使用Key-Value方式对CDA文档进行提取，使用XPath方式进行补充获取。在保证数据提取效率的同时，满足了用户对数据提取完整性的要求。

图3-图5均示出了根据本发明的实施例的提取CDA文档中数据的方法的流程示意图，分别包括图1中步骤S102的三种不同的实现方式。需要说明的是，配置函数的功能不限于图3-图5包含的三种功能，还可以是其他预设功能的函数，在此不一一举例。

参考图3，本实施例提供的提取CDA文档中数据的方法包括步骤S301-步骤S304。

其中，在步骤S301/401/501中实现初步提取内容的获取，其具体实现方式同图2对应的实施例，在此不再赘述。

在步骤S302中，利用JSON方式配置数据清理功能的函数。数据交换语言JSON可以支持表达多种概念、多层次的配置数据，同时其层次结构简洁和清晰，易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。因而，步骤S402中数据清理功能的函数和步骤S502中数据恢复功能的函数均可以采用JSON方式配置。

在步骤S303中，从所述初步提取内容中获取待数据清理的字段。以及在步骤S304中，所述数据清理功能的函数插入所述字段中，以执行对所述字段的数据清理。

示例性的，数据清理功能的函数包括规范化功能的函数。例如：将待处理字段中的日期进行规范化，以便于用户对日期的统计。将“yyyy-mm-dd”的方式规范为“年-月-日”，例如：2000-12-12规范为2000年12月12日等。

通过本发明实施例中Key列表的方式获取CDA文档中手术记录中的手术日期。并使用date_format函数，对日期进行规整化的具体实现方式，可以通过代码1实现：

其中，数据清理功能的函数date_format，可以通过代码2实现：

数据清理功能的函数date_format是一个对日期进行标准化的配置样例。通过定义各个预设功能的函数对应的参数(params)，函数实现的类路径(class)，以及函数的别名(func)，则这个函数可以在字段定义中被使用。例如，在代码1中“"date_format":[]”出使用了代码2，从而对代码1中的字段实现了日期规范化的目的。

示例性的，数据清理功能的函数包括利用正则表达式处理的函数。例如：将HTML格式数据转化为纯文本格式的方法的另一种可实现的方式：运用正则表达式对已经保存的HTML文本或没有在Java服务器页面嵌入插件进行纯文本格式转化的HTML文本进行处理，使用正则表达式可以过滤到HTML标签，从而获取纯文本格式。

需要说明的是，数据清理功能的函数不限于上述规范化功能的函数和正则表达式处理的函数，还可以是其他具有数据清理功能的函数，在此不一一举例。

在图3所实施示例的技术方案中，在给定原始待处理CDA文档输入和输出最终结文件路径的情况下，在配置中增加原始待处理CDA文档的原始路径和最终结果的文件路径，通过运行通用Java代码的方式实现对原始待处理CDA文档中内容进行提取。同时，通过数据清理功能的函数对待清理字段进行了数据清理。

对于初步提取内容采用反射的方式，即通过确定的类路径名，例如：("class":"com.yiducloud.CDADocRefinePlugin.TestParser","func":"TestParser")，便可以实现向类路径名对应的具体技术实现的映射。因而，本发明实施提供的数据提取方法具有较高的使用便利性。

图4的步骤S402-步骤S404示出了图1中步骤S102的另一种实现方式。在步骤S402中，配置预设功能为数据恢复功能的函数，具体配置方法同步骤S302，并且，在步骤S403-步骤S404的具体实现方式与步骤S303-步骤S304相同，在此不再赘述。

示例性的，数据恢复功能可以是将HTML格式标签恢复回车，如<br>,<tr>等标签。以使，HTML格式数据顺利实现对应的功能。

需要说明的是，数据恢复功能的函数不限于上述对HTML格式标签的恢复，还可以是其他具有数据恢复功能的函数，在此不一一举例。

图5的步骤S502-步骤S504示出了图1中步骤S102的再一种实现方式。在步骤S502中，配置预设功能为数据精细化功能的函数，具体配置方法同步骤S302，并且，在步骤S503-步骤S504的具体实现方式与步骤S303-步骤S304相同，在此不再赘述。

示例性的，数据精细化功能可以是将定义HTML表格的<table>标签中的数据，按照每一列进行解析，以便于用户对数据进行分析。

需要说明的是，数据精细化功能的函数不限于上述<table>标签中的数据按照每一列进行解析，还可以是其他具有数据精细化功能的函数，在此不一一举例。

在图3-图5示出实施例的技术方案中，Key-Value方式和各种不同预设功能的函数均支持多层次复用，进而降低了对不同XML模板结构的CDA文档的处理时间，实现了对多家医院的CDA文档中数据进行高效提取的目的，从而极大提升数据提取效率。例如：适用于A配置table的精细化功能的函数，同样适用于B配置table等。同时，通过配置函数的处理方式，依托于函数的强大功能实现能力，可以解决很多使用XPath不能很好解决的场景，从而提升对CDA文档中数据的提取结果的质量。

需要说明的是，本发明各个实施例提供的方法为针对于CDA文档的处理方式，并不限制CDA文档的存放介质和最终的产出介质。例如：使用网络文件系统或分布式文件系统存在CDA文档以及最终产出结果，本发明各个实施例提供的方法均能支持。

以下介绍本发明的装置实施例，可以用于执行本发明上述的提取文档中数据的方法。

图6示出了根据本发明的实施例的实施例的提取文档中数据的装置的结构示意图，参考图6，本实施例提供的提取文档中数据的装置600包括：第一获取模块601和第二获取模块602。

其中，所述第一获取模块601用于：利用预设关键字Key列表对所述文档进行数据提取，以获取预设格式的初步提取内容；所述第二获取模块602用于：根据实现预设功能的函数处理所述初步提取内容，以对所述文档中数据的最终提取。

在示例性的实施例中，所述第一获取模块包括：获取单元、确定单元、定位单元、判断单元和提取单元。

其中，获取单元用于获取多个Key，已确定所述Key列表；确定单元用于基于所述文档确定对每个所述Key对应的Value的判断条件；定位单元用于在所述文档中定位所述多个Key的位置，判断单元用于判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件。

若位于所述Key后的数据符合所述Key对应的Value的判断条件，则提取单元用于提取位于所述Key后的数据作为所述Key对应的Value。

若存在位于所述Key后的数据不符合所述Key对应的Value的判断条件，则提取单元用于基于所述Key，利用XPath方式对所述文档进行提取。

在示例性的实施例中，所述预设格式的初步提取内容包括：纯文本格式和/或可扩展标记语言XML格式。

在示例性的实施例中，所述第二获取模块602包括：配置单元、获取单元和插入单元。

其中，配置单元用于利用JSON方式配置数据清理功能的函数；获取单元用于从所述初步提取内容中获取待数据清理的字段；插入单元用于所述数据清理功能的函数插入所述字段中，以执行对所述字段的数据清理。

在示例性的实施例中，配置单元用于利用JSON方式配置数据恢复功能的函数；获取单元用于从所述初步提取内容中获取待数据恢复的字段；插入单元用于所述数据恢复功能的函数插入所述字段中，以执行对所述字段的数据恢复。

在示例性的实施例中，配置单元用于利用JSON方式配置数据精细化功能的函数；获取单元用于从所述初步提取内容中获取待数据精细化的字段；插入单元用于所述数据精细化功能的函数插入所述字段中，以执行对所述字段的数据精细化。

由于本发明的示例实施例的提取文档中数据的装置的各个功能模块与上述提取文档中数据的方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的提取文档中数据的方法的实施例。

下面参考图7，其示出了适于用来实现本发明实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备的计算机系统700仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的提取文档中数据的方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S101，利用预设关键字Key列表对所述文档进行数据提取，以获取预设格式的初步提取内容；步骤S102，根据实现预设功能的函数处理所述初步提取内容，以对所述文档中数据的最终提取。

又如，所述的电子设备可以实现如图1所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种提取临床文档构架CDA文档中数据的方法，其特征在于，包括：

获取多个关键字Key，并根据所述多个Key确定包括所述多个Key的历史记录；

根据所述历史记录，确定所述多个Key中形成组合Key的次数，并根据所述组合Key的次数确定预设Key列表；

利用所述预设Key列表对所述CDA文档进行数据提取，以获取预设格式的初步提取内容；

根据实现预设功能的函数对所述初步提取内容进行以下处理方式中的至少一种处理：数据清理处理、数据恢复处理或数据精细化处理，以对所述CDA文档中数据的最终提取。

2.根据权利要求1所述的方法，其特征在于，利用预设Key列表对所述CDA文档进行数据提取，包括：

基于所述CDA文档确定对所述预设Key列表中的每个Key对应的Value的判断条件；

在所述CDA文档中定位所述每个Key的位置，判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件；

若位于所述Key后的数据符合所述Key对应的Value的判断条件，则提取位于所述Key后的数据作为所述Key对应的Value。

3.根据权利要求2所述的方法，其特征在于，判断位于每个所述Key后的数据是否符合所述Key对应的Value的判断条件之后，还包括：

若存在位于所述Key后的数据不符合所述Key对应的Value的判断条件，则基于所述Key，利用XPath方式对所述CDA文档进行提取。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述预设格式的初步提取内容包括：纯文本格式和/或可扩展标记语言XML格式。

5.根据权利要求4所述的方法，其特征在于，在所述处理方式为数据清理处理的情况下：所述预设功能包括数据清理功能，根据实现预设功能的函数对所述初步提取内容进行处理，包括：

利用JavaScript对象简谱JSON方式配置数据清理功能的函数；

从所述初步提取内容中获取待数据清理的字段；

所述数据清理功能的函数插入所述字段中，以执行对所述字段的数据清理。

6.根据权利要求4所述的方法，其特征在于，在所述处理方式为数据恢复处理的情况下：所述预设功能包括数据恢复功能，根据实现预设功能的函数对所述初步提取内容进行处理，包括：

利用JavaScript对象简谱JSON方式配置数据恢复功能的函数；

从所述初步提取内容中获取待数据恢复的字段；

所述数据恢复功能的函数插入所述字段中，以执行对所述字段的数据恢复。

7.根据权利要求4所述的方法，其特征在于，在所述处理方式为数据精细化处理的情况下：所述预设功能包括数据精细化功能，根据实现预设功能的函数对所述初步提取内容进行处理，包括：

利用JavaScript对象简谱JSON方式配置数据精细化功能的函数；

从所述初步提取内容中获取待数据精细化的字段；

所述数据精细化功能的函数插入所述字段中，以执行对所述字段的数据精细化。

8.一种提取临床文档构架CDA文档中数据的装置，其特征在于，包括：

第一提取模块，所述第一提取模块用于：获取多个关键字Key，并根据所述多个Key确定包括所述多个Key的历史记录；根据所述历史记录，确定所述多个Key中形成组合Key的次数，并根据所述组合Key的次数确定预设Key列表；以及，利用所述预设Key列表对所述CDA文档进行数据提取，以获取预设格式的初步提取内容；

第二提取模块，所述第二提取模块用于根据实现预设功能的函数对所述初步提取内容进行以下处理方式中的至少一种处理：数据清理处理、数据恢复处理或数据精细化处理，以对所述CDA文档中数据的最终提取。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的提取临床文档构架CDA文档中数据的方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的提取临床文档构架CDA文档中数据的方法。