CN115862882A - 一种数据抽取方法、装置、设备及存储介质 - Google Patents

一种数据抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115862882A
CN115862882A CN202211542433.0A CN202211542433A CN115862882A CN 115862882 A CN115862882 A CN 115862882A CN 202211542433 A CN202211542433 A CN 202211542433A CN 115862882 A CN115862882 A CN 115862882A
Authority
CN
China
Prior art keywords
data extraction
sub
mode
condition
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211542433.0A
Other languages
English (en)
Other versions
CN115862882B (zh
Inventor
武惠韬
张思琦
吴家林
代小亚
黄海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211542433.0A priority Critical patent/CN115862882B/zh
Publication of CN115862882A publication Critical patent/CN115862882A/zh
Application granted granted Critical
Publication of CN115862882B publication Critical patent/CN115862882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据抽取方法、装置、设备及存储介质,涉及数据处理领域,尤其涉及大数据领域。具体实现方案为:获得目标数据抽取模式;确定所述目标数据抽取模式对应的目标数据抽取流程;针对所述目标数据抽取流程中每一子流程,获得该子流程在所述目标数据抽取模式下对应的配置项的配置信息;基于所获得的配置信息,生成数据抽取逻辑;根据所述数据抽取逻辑,进行数据抽取。应用本公开实施例提供的方案能够提高数据抽取效率。

Description

一种数据抽取方法、装置、设备及存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及大数据技术领域。
背景技术
当前各种应用场景中往往存在着海量数据,而用户一般仅关注其中的部分数据,因此,需要从海量数据中抽取数据,进而满足用户的需求。例如,在医疗场景中,临床数据中心存储有大量非结构化数据以及结构化数据,医疗或科研等人员需要从上述数据中抽取自身关注的重点医疗数据。
现有技术中,往往需要开发人员编写数据抽取代码,然后电子设备通过运行上述代码进行数据抽取。
发明内容
本公开提供了一种数据提取方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种数据抽取方法,包括:
获得目标数据抽取模式;
确定所述目标数据抽取模式对应的目标数据抽取流程;
针对所述目标数据抽取流程中每一子流程,获得该子流程在所述目标数据抽取模式下对应的配置项的配置信息;
基于所获得的配置信息,生成数据抽取逻辑;
根据所述数据抽取逻辑,进行数据抽取。
根据本公开的另一方面,提供了一种数据抽取装置,包括:
抽取模式获得模块,用于获得目标数据抽取模式;
抽取流程确定模块,用于确定所述目标数据抽取模式对应的目标数据抽取流程;
配置信息获得模块,用于针对所述目标数据抽取流程中每一子流程,获得该子流程在所述目标数据抽取模式下对应的配置项的配置信息;
数据抽取逻辑生成模块,用于基于所获得的配置信息,生成数据抽取逻辑;
数据抽取模块,用于根据所述数据抽取逻辑,进行数据抽取。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述数据抽取方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述数据抽取方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述数据抽取方法。
由以上可见,应用本公开实施例提供的方案进行数据抽取时,获得目标数据抽取模式,确定目标数据抽取模式对应的目标数据抽取流程,这样可以针对目标数据抽取流程中每一子流程,获得该子流程在目标数据抽取模式下对应的配置项的配置信息,从而可以基于所获得的配置信息生成数据抽取逻辑,并根据数据抽取逻辑成功进行数据抽取。
在上述流程中,用户针对目标数据抽取流程中各子流程对应的配置项进行配置之后,电子设备就能够获得上述各子流程对应的配置信息,从而基于上述配置信息生成数据抽取逻辑并进行数据抽取,上述过程中无需用户编写数据抽取代码,降低了用户进行数据抽取时所需的技术门槛,省去了编写代码所需的时间,提高了数据抽取效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的第一种数据抽取方法的流程示意图;
图2为本公开实施例提供的第二种数据抽取方法的流程示意图;
图3为本公开实施例提供的第三种数据抽取方法的流程示意图;
图4为本公开实施例提供的一种字段类型示意图;
图5为本公开实施例提供的第四种数据抽取方法的流程示意图;
图6为本公开实施例提供的一种用户界面的示意图;
图7为本公开实施例提供的一种数据抽取流程的示意图;
图8为本公开实施例提供的一种配置内容的示意图;
图9为本公开实施例提供的一种数据流转过程的示意图;
图10为本公开实施例提供的一种数据抽取装置的结构示意图;
图11为用来实现本公开实施例的数据抽取方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
首先对本公开实施例所提供方案的执行主体进行说明。
本公开实施例所提供方案的执行主体为:任意一台具有数据处理、存储等功能的电子设备。
下面再对本公开实施例所提供的方案的应用场景进行说明。
本公开实施例所提供的方案的应用场景为:从预先存储的数据中提取特定数据的场景。
从存储方式的角度来说,上述预先存储的数据可以是结构化数据,也也可以是非结构化数据;从数据类型的角度来说,上述预先存储的数据可以是医疗数据,如医学电子报告表等;也可以是商品数据、档案数据、业务数据等任何类型的数据。
下面对本公开实施例提供的数据抽取方法进行具体说明。
参见图1,图1为本公开实施例提供的第一种数据抽取方法的流程示意图,上述方法包括以下步骤S101-步骤S105。
步骤S101:获得目标数据抽取模式。
以下从目标数据抽取模式的获得方式和获得流程两个角度对本步骤进行介绍。
从获得方式的角度来说,可以采用以下方式获得目标数据抽取模式。
一种实施方式中,可以获得用户通过用户界面选取的目标数据抽取模式。
具体的,可以在用户界面上展示各数据抽取模式,然后通过监听用户在上述用户界面上的选取操作,获得用户选取的目标数据抽取模式。
另一种实施方式中,可以获得用户在配置文件中设置的目标数据抽取模式。
具体的,用户可以在配置文件中写入用于设置目标数据抽取模式的配置语句,电子设备可以按照预设的配置文件解析规则解析上述配置文件,得到上述配置语句表征的目标数据抽取模式。
从获得流程上来讲,可以分为以下方式获得目标数据抽取模式。
一种实施方式中,可以直接获得目标数据抽取模式。
另一种实施方式中,可以先获得数据抽取的主模式,再从主模式支持的子模式中,获得目标数据抽取模式。
上述主模式及主模式支持的子模式的详细介绍参见后续图3、图5所示实施例,这里暂不详述。
需要说明的是,上述主模式支持的子模式可以理解为主模式级联包含的子模式,分为以下两种情况进行介绍:
一种情况下,主模式支持的子模式可以是该主模式中直接包含的子模式,这时上述子模式也可以称为该主模式的直接子模式。
另一种情况下,主模式支持的子模式可以是该主模式中直接包含的其他模式支持的子模式,这时上述子模式也可以称为该主模式的间接子模式。
可见,通过主模式的划分,可以先确定数据抽取的主模式,再从主模式支持的子模式中确定目标数据抽取模式,这样通过分层确定的方式能够便捷、直观的获得目标数据抽取模式。
步骤S102:确定目标数据抽取模式对应的目标数据抽取流程。
具体的,可以根据预先设定的数据抽取模式和数据抽取流程之间的对应关系,确定所获得的目标数据抽取模式对应的目标数据抽取流程。
例如,若目标数据抽取模式为模式P1,确定P1对应的目标数据抽取流程包括子流程p1、p2、p3等。
各目标数据抽取模式对应的目标数据抽取流程的详细介绍参见后续图3、图5所示实施例,这里暂不详述。
步骤S103:针对目标数据抽取流程中每一子流程,获得该子流程在目标数据抽取模式下对应的配置项的配置信息。
每一子流程在该目标数据抽取模式下均对应有配置项,本步骤中,需要获得各个子流程对应的配置项的配置信息。
上述配置信息用于生成数据抽取逻辑,不同的子流程的配置项不同,配置项对应的配置信息也不同,下面通过举例进行简要说明。
例如,针对抽取条件配置子流程,其对应的配置项的配置信息可以是待抽取字段信息、条件描述元素对应的信息以及条件逻辑符对应的信息。上述各类型信息的含义详见后续图3所示实施例中步骤S307的说明。
又如,针对映射关系配置子流程,其对应的配置项的配置信息可以是待设置映射关系的字段等。
包含上述举例中涉及的映射关系配置子流程和抽取条件配置子流程在内的各子流程对应的配置信息可以参见后续图3和图5所示实施例,这里暂不详述。
与上述步骤S101中介绍的目标数据抽取模式的获得方式类似的,本步骤中,可以基于用户在用户界面展示的配置项中进行的配置获得配置信息,也可以获得用户在配置文件中写入的、针对各配置项的配置信息。
步骤S104:基于所获得的配置信息,生成数据抽取逻辑。
具体的,可以通过以下方式基于所获得的配置信息生成数据抽取逻辑。
一种实施方式中,可以基于子流程对应的数据抽取规则和配置信息生成每一子流程对应的组合条件,然后生成所得组合条件的数据查询语句作为上述数据抽取逻辑。具体实施方式详见图2所示实施例中步骤S204-步骤S206,这里暂不详述。
另一种实施方式中,可以直接基于上述配置信息生成数据抽取逻辑,这种实施方式适用于配置信息中包含完整的数据抽取规则。
例如,用户在配置文件中写入的、针对抽取条件配置子流程对应的配置项的配置信息中包含完整的数据抽取规则,这样可以直接根据上述数据抽取规则生成数据查询语句,作为上述数据抽取逻辑。
上述数据查询语句可以是采用SQL(Structured Query Language,结构化查询语言)、HQL(Hibernate Query Language,Hibernate查询语言)、JPQL(Java Persistencequery language,Java持久化查询语言)等数据查询语言编写的语句。
步骤S105:根据数据抽取逻辑,进行数据抽取。
具体的,生成数据抽取逻辑之后,可以运行上述数据抽取逻辑进行数据抽取,并得到数据抽取结果。
由以上可见,应用本公开实施例提供的方案进行数据抽取时,获得目标数据抽取模式,确定目标数据抽取模式对应的目标数据抽取流程,这样可以针对目标数据抽取流程中每一子流程,获得该子流程在目标数据抽取模式下对应的配置项的配置信息,从而可以基于所获得的配置信息生成数据抽取逻辑,并根据数据抽取逻辑成功进行数据抽取。
在上述流程中,用户针对目标数据抽取流程中各子流程对应的配置项进行配置之后,电子设备就能够获得上述各子流程对应的配置信息,从而基于上述配置信息生成数据抽取逻辑并进行数据抽取,上述过程中无需用户编写数据抽取代码,降低了用户进行数据抽取时所需的技术门槛,省去了编写代码所需的时间,提高了数据抽取效率。
另外,目标数据抽取模式决定了目标数据抽取流程,目标数据抽取流程中各子流程对应的配置信息决定了用于抽取数据的数据抽取逻辑,也就是,本公开实施例提供的方案能够针对性的获得不同目标数据抽取模式对应的目标数据抽取流程、配置信息以及数据抽取逻辑,这样使得用户能够根据自身的数据抽取需求灵活的选择目标数据抽取模式,从而提高了数据抽取方案的灵活性和实用性,提高了用户体验。
在图1所示实施例的基础上,基于所获得的配置信息生成数据抽取逻辑时,可以基于子流程对应的数据抽取规则和配置信息生成每一子流程对应的组合条件,然后生成所得组合条件的数据查询语句作为上述数据抽取逻辑。鉴于上述情况,本公开实施例提供了第二种数据抽取方法。
参见图2,图2为本公开实施例提供的第二种数据抽取方法的流程示意图,上述方法包括以下步骤S201-步骤S207。
步骤S201:获得目标数据抽取模式。
步骤S202:确定目标数据抽取模式对应的目标数据抽取流程。
步骤S203:针对目标数据抽取流程中每一子流程,获得该子流程在目标数据抽取模式下对应的配置项的配置信息。
上述步骤S201-步骤S203与前述图1所示实施例中步骤S101-步骤S103相同,这里不再赘述。
上述步骤S201-步骤S203执行完毕之后,可以按照以下步骤S204-S206生成每一子流程对应的数据抽取逻辑。
步骤S204:按照子流程对应的数据抽取规则,对子流程对应的配置信息进行组合,生成目标条件单元。
上述数据抽取规则可以是子流程对应的预设规则,也可以是根据子流程对应的配置信息确定的规则,以下分别针对上述两种情况举例说明目标条件单元的生成方式。
举例1:数据抽取规则为子流程对应的预设规则。
例如,针对映射关系配置子流程,其对应的预设数据抽取规则可以是将一个字段映射到另一个字段。
这种情况下,可以对映射关系配置子流程对应的配置信息中获取字段a以及字段b,按照上述规则组合上述两个字段,得到目标条件单元:字段a→字段b。
举例2:数据抽取规则为基于子流程对应的配置信息确定的规则。
例如,针对抽取条件配置子流程,其对应的配置信息中包含以下信息c1-c4:症状、体征、疾病以及病症a,并包含表征上述信息之间的逻辑关系的信息:c1或c2或c3=c4。
这种情况下,可以根据条件描述信息确定上述数据抽取规则,进而按照数据抽取规则组合上述配置信息c1-c4,得到目标条件单元:症状/体征/疾病=病症a,上述“/“用于表示逻辑关系”或“。
本公开的一个实施例中,上述步骤S204可以通过以下步骤实现:
对子流程对应的配置信息中待抽取字段、条件描述元素以及条件逻辑符对应的信息进行组合,生成第一条件单元,并根据子流程对应的配置信息中的条件约束元素对应的信息,获得对所生成第一条件单元进行约束的第二条件单元,得到包含第一条件单元和第二条件单元的目标条件单元。具体实施方式详见后续图3所示实施例中步骤D-步骤E,这里暂不详述。
步骤S205:按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件。
上述逻辑关系可以是用条件符号表示的“与”、“或”、“非”等逻辑关系。
例如,目标条件单元a1与目标条件单元a2间的逻辑关系为“与”,目标条件单元a1、目标条件单元a2与目标条件单元a3间的逻辑关系为“或”,那么对条件单元a1、a2、a3组合得到的组合条件为:(目标条件单元a1 and目标条件单元a2)or目标条件a3。
本公开的一个实施例中,上述步骤S205可以通过以下步骤实现:
根据子流程对应的配置信息中约束逻辑类型对应的信息,将第一条件单元对应的第二条件单元组合至第一条件单元,根据子流程对应的配置信息中条件逻辑类型对应的信息,对组合后的第一条件单元进行组合,得到组合条件。具体实施方式详见后续图3所示实施例中步骤F1-步骤F2,这里暂不详述。
步骤S206:生成组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。
具体的,组合条件得到之后,可以生成表征上述组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。
步骤S207:根据数据抽取逻辑,进行数据抽取。
由以上可见,在基于所获得的配置信息生成数据抽取逻辑时,针对每一子流程,可以首先按照子流程对应的数据抽取规则,对子流程对应的配置信息进行组合,生成目标条件单元,然后按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件,再生成组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。这样通过目标条件单元生成、目标条件单元组合以及数据查询语句生成等步骤,可以准确、有条理的逐步根据配置信息得到最终的数据抽取逻辑。
本公开的一个实施例中,上述步骤S207还可以通过以下步骤A-步骤C实现:
步骤A:基于数据查询语句生成数据查询请求。
具体的,可以生成携带数据查询语句的数据查询请求。
步骤B:向数据查询端发送数据查询请求,以使得数据查询端基于数据查询请求进行数据查询并进行数据抽取。
数据查询端可以是任意类型的电子设备,如可以是部署有数据查询引擎的服务器等。
数据查询端接收到数据查询请求之后,可以获得请求中携带的数据查询语句,并运行上述数据查询语句进行数据查询,抽取查询到的数据。
步骤C:接收数据查询端反馈的数据抽取结果。
可见,这样由数据查询端进行数据查询和数据抽取步骤,电子设备接收数据查询端反馈的数据抽取结果,不需要作为本方案执行主体的电子设备执行实际的数据抽取步骤,有利于节省电子设备的计算资源消耗,从而有利于提高数据抽取效率。
在图1和图2所示实施例的基础上,根据数据抽取的主模式的不同,获得的目标数据抽取模式也可以不同,进而目标数据模式对应的目标数据抽取流程也不同。以下分别通过图3和图5对不同的主模式和子模式对应的目标数据抽取流程的获得方式进行说明。
首先通过图3所示实施例介绍在主模式为基于变量生成规则的第二数据抽取模式的情况下,针对各子模式获得目标数据抽取模式和目标抽取流程的方式。
参见图3,图3为本公开实施例提供的第三种数据抽取方法的流程示意图,上述方法包括以下步骤S301-步骤S308。
步骤S301:从引用已有规则的第一数据抽取模式和基于变量生成规则的第二数据抽取模式中,获得数据抽取的主模式。
基于变量生成规则可以理解为:设置表征数据抽取目标的变量,并生成针对上述变量的数据抽取规则。
其中,上述表征数据抽取目标的变量可以是一个,也可以是多个。
这样将主模式划分为从引用已有规则的第一数据抽取模式和基于变量生成规则的第二数据抽取模式,便于后续从这两大类主模式中进一步的选取子模式。
步骤S302:在主模式为第二数据抽取模式的情况下,获得目标数据抽取模式。
具体的,可以从以下进行数据抽取的子模式中,获得目标数据抽取模式:
1、反映变量对应的待抽取字段与设定字段间映射关系的第一子模式。
变量对应的待抽取字段可以是与数据抽取的对象相关的所有字段。
例如,变量表示的数据抽取目标为:心脏搭桥手术前30分钟内红细胞计数检验结果值,那么上述待抽取字段可以是心脏搭桥、血常规、红细胞等字段。
上述设定字段可以是待进行数据抽取的数据库中所存储数据的实际字段。
2、反映变量对应的待抽取字段需满足的抽取条件的第二子模式。
上述抽取条件可以为用于抽取数据的各项条件,一般由字段以及字段之间的逻辑关系组合而成,例如可以是前述提及的举例:症状/体征/疾病=病症a。
3、基于变量对应的待抽取字段描述的表达式对应的第三子模式。
上述表达式由待抽取字段描述,如,待抽取字段包括“病变时间”、“病情进展时间”以及“诊断时间”,由上述字段描述的表达式可以是“病变时间=病情进展时间-诊断时间”。
可以看出,基于变量生成规则的第二数据抽取模式中,包含用于设置待抽取字段与设定字段间映射关系的第一子模式、用于设置待抽取字段需满足的抽取条件的第二子模式以及用于设置基于变量对应的待抽取字段描述的表达式的第三子模式等类型丰富的子模式,上述各类型的子模式用于进行不同的配置,有利于更加全面的满足用户的数据抽取需求。
步骤S303:若目标数据抽取模式为第一子模式,确定目标数据抽取模式对应的目标数据抽取流程包括映射关系配置子流程。
上述映射关系配置子流程用于设置待抽取字段与设定字段间的映射关系。
步骤S304:若目标数据抽取模式为第二子模式,确定目标数据抽取流程包括抽取条件配置子流程、输出条件配置子流程。
其中,输出条件配置子流程包括以下子流程中的至少一种:输出类型配置子流程、针对输出数据的规整规则配置子流程以及针对输出数据的聚合规则配置子流程。
具体的,下面分别对上述输出条件配置子流程包括的各子流程的作用进行说明。
1、输出类型配置子流程。
用于设置满足或不满足抽取条件时输出的数据的数据类型,上述数据类型可以包括枚举字典类型、变量类型、固定值类型等。
例如,满足抽取条件时,输出枚举字典类型的数据;不满足抽取条件时,输出固定值类型的数据等。
2、针对输出数据的规整规则配置子流程。
用于将输出数据规整化,即将输出数据映射为预设的标准数据。
3、针对输出数据的聚合规则配置子流程。
用于对输出数据进行进一步的聚合操作,从而得到标量值。
若表征数据抽取对象的变量为表征类别的分类变量,针对输出数据的聚合操作可以是取首个输出数据、取最后一个输出数据、取输出数据的条数等。
若表征数据抽取对象的变量为表征数值的数值变量,针对输出数据的聚合操作可以是取首个输出数据、取最后一个输出数据、取输出数据最大值、取输出数据最小值、取输出数据均值、取输出数据的条数等。
下面通过表1对上述输出条件配置子流程包括的各子流程的作用进行直观的说明。
表1
Figure BDA0003978282680000121
其中,表1中第一列表示数据抽取的主模式,第二列表示上述主模式支持的子模式,第三列表示输出类型配置子流程的作用,第四列表示针对输出数据的规整规则配置子流程的作用,第五列表示针对输出数据的聚合规则配置子流程的作用。
步骤S305:若目标数据抽取模式为第三子模式,确定目标数据抽取流程包括待抽取字段配置子流程和表达式配置子流程。
上述待抽取字段配置子流程可以用于设置待抽取字段与设定字段间映射关系。
上述表达式配置子流程用于获得基于待抽取字段描述的表达式。
可以看出,当数据抽取的主模式为基于变量生成规则的第二数据抽取模式时,根据作为目标数据抽取模式的子模式不同,目标数据抽取流程也不相同,这样使得抽取流程更加具有针对性。
上述步骤S303-步骤S305描述的目标数据抽取模式和其对应的目标数据抽取流程可以用以下表2来直观的表示。
表2
Figure BDA0003978282680000131
其中,表1中第一列表示数据抽取的主模式,第二列表示上述主模式支持的子模式,第三列表示子模式对应的目标数据抽取流程。
步骤S306:针对目标数据抽取流程中每一子流程,获得该子流程在目标数据抽取模式下对应的配置项的配置信息。
下面分别对前述步骤S303-步骤S305提及的各个子流程在目标数据抽取模式下对应的配置项的配置信息进行简要说明。
1、映射关系配置子流程
其对应的配置信息可以是待设置映射关系的各字段名称。
2、抽取条件配置子流程
其对应的配置信息可以是待抽取字段、条件描述元素以及条件逻辑符对应的信息。上述各项信息的含义参见后续实施例。
3、输出类型配置子流程。
其对应的配置信息可以是输出数据的类型。
4、针对输出数据的规整规则配置子流程。
其对应的配置信息可以是用户设置的标准化数据集合以及输出数据和标准化数据之间的映射关系。
5、针对输出数据的聚合规则配置子流程。
其对应的配置信息可以是针对输出数据的聚合操作。
6、待抽取字段配置子流程。
其对应的配置信息可以是待设置映射关系的各字段名称。
7、表达式配置子流程。
其对应的配置信息可以是各待抽取字段以及待抽取字段间的逻辑关系,这样可以根据组合生成自定义表达式。
其对应的配置信息也可以是预设表达式的标识,这样可以选取标识对应的预设表达式。
上述预设表达式可以是BMI(体脂指数)公式、CCr(肌酐清除率)公式等。
步骤S307:基于所获得的配置信息,生成数据抽取逻辑。
本步骤中,可以按照前述图2所示实施例中步骤S204-步骤S206介绍的方式基于所获得的配置信息生成数据抽取逻辑。
本公开的一个实施例中,针对抽取条件配置子流程,还可以通过以下步骤D-步骤G所示的方式基于该子流程对应的配置信息生成数据抽取逻辑。
步骤D:对子流程对应的配置信息中待抽取字段、条件描述元素以及条件逻辑符对应的信息进行组合,生成第一条件单元。
下面对上述各种信息进行说明。
1、待抽取字段对应的信息。
用于描述待抽取字段的详细字段信息,可以包括字段中文名称、字段英文名称、字段属性等。
2、条件描述元素对应的信息。
用于描述由待抽取字段组成的抽取条件的详细信息,可以包括抽取条件中包含的字段名称、字段数量等。
3、条件逻辑符对应的信息。
用于描述对待抽取字段之间的逻辑关系,可以是“与”、“或”、“非”等。
这样可以对于上述信息进行组合,生成第一条件单元。
本公开的一个实施例中,还可以结合条件逻辑类型信息、条件类型信息等信息用于辅助生成第一条件单元。
其中,上述条件逻辑信息用于描述满足条件的信息需要被输出还是被排除,条件类型信息用于描述该条件为针对单个变量的条件还是针对有时间前后关系的两个变量的条件。
步骤E:根据子流程对应的配置信息中的条件约束元素对应的信息,获得对所生成第一条件单元进行约束的第二条件单元,得到包含第一条件单元和第二条件单元的目标条件单元。
条件约束元素对应的信息用于对第一条件单元进行约束,可以包括约束字段以及约束字段之间的逻辑关系,基于上述约束字段以及约束字段之间的逻辑关系可以生成第二条件单元。
下面结合图4,对上述约束字段进行举例说明。
参见图4,为本公开实施例提供的一种字段类型示意图。
图4中,检查项目、检查描述、上位词、阴阳性、是否伴随、伴随症状、发生时间、持续时间、部位、性质、程度、分期、分级、病理分型、诱因、发生频率、加重频率以及缓解因素等字段均为可用于生成第二条件单元的约束字段。
下面通过表3对通过步骤D和步骤E得到的目标条件单元进行举例说明。
表3
Figure BDA0003978282680000151
其中,表3中第一列表示数据抽取的主模式,第二列表示上述主模式支持的子模式,第三列表示根据抽取条件配置子流程的配置信息得到的目标条件单元。
可以看出,目标条件单元由1个第一条件单元A和2个第二条件单元A1、A2组成。
这样通过对待抽取字段、条件描述元素以及条件逻辑符对应的信息进行组合,生成第一条件单元,又基于条件约束元素对应的信息获得对所生成第一条件单元进行约束的第二条件单元,得到包含第一条件单元和第二条件单元的目标条件单元,使得目标条件单元中包含的信息更加的丰富,有利于提高目标条件单元针对抽取条件的描述能力。
步骤F:按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件。
F1:根据子流程对应的配置信息中约束逻辑类型对应的信息,将第一条件单元对应的第二条件单元组合至第一条件单元。
约束逻辑类型对应的信息用于描述第二条件单元和第一条件单元之间的逻辑关系,例如,上述逻辑关系可以是“与”、“或”、“非”等。
F2:根据子流程对应的配置信息中条件逻辑类型对应的信息,对组合后的第一条件单元进行组合,得到组合条件。
条件逻辑类型对应的信息用于描述各组合后的第一条件单元间的逻辑关系,例如,上述逻辑关系可以是“与”、“或”、“非”等。
可见,先根据约束逻辑类型对应的信息将第一条件单元对应的第二条件单元组合至第一条件单元,然后再根据条件逻辑类型对应的信息对组合后的第一条件单元进行组合,这样通过逐层组合可以便捷、准确的生成组合条件。
步骤G:生成组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。
步骤S308:根据数据抽取逻辑,进行数据抽取。
上述步骤S308与前述步骤S105相同,这里不再赘述。
再通过图5所示实施例介绍在主模式为第一数据抽取模式的情况下,获得目标数据抽取模式和目标抽取流程的方式。
参见图5,图5为本公开实施例提供的第四种数据抽取方法的流程示意图,上述方法包括以下步骤S501-步骤S506。
步骤S501:从引用已有规则的第一数据抽取模式和基于变量生成规则的第二数据抽取模式中,获得数据抽取的主模式。
步骤S502:在主模式为第一数据抽取模式的情况下,从历史规则引用子模式和预设规则引用子模式中,获得目标数据抽取模式。
可以看出,引用已有规则的第一数据抽取模式中包含历史规则引用子模式和预设规则引用子模式,不同子模式用于设置不同的内容,有利于更加全面的满足用户的需求。
步骤S503:确定目标数据抽取流程包括目标规则配置子流程和引用确认子流程。
其中,目标规则包括历史规则或预设规则。
上述历史规则可以是根据用户的历史数据抽取记录生成的规则,如,将用户的历史数据抽取时生成的数据抽取逻辑作为历史规则。
可以看出,当数据抽取的主模式为引用已有规则的第一数据抽取模式时,根据作为目标数据抽取模式的子模式不同,目标数据抽取流程也不相同,这样使得抽取流程更加具有针对性。
上述步骤S502-步骤S503描述的目标数据抽取模式和其对应的目标数据抽取流程可以用以下表4来直观的表示。
表4
Figure BDA0003978282680000171
其中,表4中第一列表示数据抽取的主模式,第二列表示上述主模式支持的子模式,第三列表示子模式对应的目标数据抽取流程。
步骤S504:针对目标数据抽取流程中每一子流程,获得该子流程在目标数据抽取模式下对应的配置项的配置信息。
下面以抽取目标规则配置子流程和引用确认子流程为例,对子流程对应的配置项的配置信息进行举例说明。
具体的,目标规则配置子流程对应的配置信息可以是目标规则的标识。
步骤S505:基于所获得的配置信息,生成数据抽取逻辑。
具体的,可以根据目标规则的标识确定引用的目标规则,然后生成目标规则对应的预设数据抽取逻辑。
步骤S506:根据数据抽取逻辑,进行数据抽取。
上述步骤S506与前述图1所示实施例中步骤S105相同,这里不再赘述。
下面再通过几个数据抽取案例对本公开实施例提供的数据抽取方法进行更加直观的说明。
首先参见以下表5,为本公开实施例提供的主模式为基于变量生成规则的第二数据抽取模式、且子模式第一子模式的数据抽取案例。
表5
Figure BDA0003978282680000181
/>
Figure BDA0003978282680000191
其中,表5中第一列表示数据抽取的主模式,第二列表示上述主模式支持的子模式,第三列表示变量名称,第四列表示子模式根据抽取子流程得到的抽取条件,第五列表示根据抽取子流程得到的输出类型规则。
由表5可见,针对各个变量,均设置了其对应的抽取条件和输出类型规则,上述抽取条件用于匹配数据库中的数据,输出类型规则用于确定满足或不满足抽取条件时的输出数据的类型。这样针对不同的变量,均能够根据上述抽取条件和输出类型规则抽取数据,这种数据抽取流程也可以称为单变量模式。
下面参见以下表6,为本公开实施例提供的主模式为基于变量生成规则的第二数据抽取模式、且子模式第一子模式的另一个数据抽取案例。
表6
Figure BDA0003978282680000192
/>
Figure BDA0003978282680000201
其中,表6中第一列表示数据抽取的主模式,第二列表示上述主模式支持的子模式,第三列表示变量名称,第四列表示根据抽取子流程得到的抽取条件,第五列表示根据抽取子流程得到的输出类型规则,第六列表示根据抽取子流程得到的聚合规则。
由表6可见,针对各个变量,其对应相同的抽取条件,但是分别对应不同的输出类型规则和聚合规则。这样针对不同的变量,根据其分别对应的输出类型规则和聚合规则得到最终的输出数据,这种数据抽取流程也可以称为多变量模式。
例如,针对肿瘤大小最小径这一变量,其对应的输出类型规则为:满足抽取条件则输出肿瘤大小,对应的聚合规则为:取输出数据最小值的min操作,那么针对该变量的最终输出即为肿瘤大小的最小值。
其中,上述表5和表6中目标条件单元可以称为条件组,第一条件单元可以称为条件组中的条件,用于约束第一条件单元的第二条件单元可以称为条件的约束。
由以上数据抽取案例可见,本公开实施例提供的方案通过进行简单的配置即可支持单变量模式和多变量模式等复杂的数据抽取流程,解决了用户抽取数据时受限于ETL(Extract-Transform-Load,抽取-转换-加载)技术门槛的问题。
需要说明的是,上述表5和表6所示的数据抽取案例仅为便于理解而做出的举例,其涉及到的抽取子流程并不代表本公开实施例提供的所有抽取子流程。
本公开的一个实施例中,在进行数据抽取之后,还可以根据抽取得到的数据生成抽取报告。
参见表7,为本公开实施例提供的一种抽取报告的示例。
表7
Figure BDA0003978282680000211
其中,表7中第一列表示报告项目,上述报告项目可以包括变量名称、数据抽取结果、所述物理表以及抽取人员,第二列表示报告项目对应的报告详情。
其中,上述数据抽取结果中的具体结果数量可以采用count聚合规则得到,非空率可以通过设置的表达式计算得到,这里不再详细描述。
本公开的一个实施例中,在生成数据抽取逻辑,根据数据抽取逻辑进行数据抽取之前,还可以在用户界面上展示数据抽取的预览结果,下面结合图6进行直观的说明。
参见图6,为本公开实施例提供的一种用户界面的示意图。
由图6可见,当抽取条件、输出条件、标准化以及数据聚合设置完成之后,即可展示抽取结果预览界面,如图6右侧所示的抽取结果预览表格,表格中展示了各患者ID对应的抽取结果。
这样通过预览,使得用户直观有效的获知数据抽取的预期结果,从而可以在预览结果符合预期时再控制电子设备进行数据抽取,使得数据抽取的效果以及所得数据与预期数据的吻合率得到有效提升。
下面通过图7,对本公开实施例提供的一种数据抽取流程进行整体说明。
参见图7,为本公开实施例提供的一种数据抽取流程的示意图。
由图7可见,上述数据抽取流程包括以下步骤S701-S706:
步骤S701:定义数据抽取模式。
对应前述确定目标数据抽取模式的步骤。
步骤S702:输入模块规则配置。
对应前述映射关系配置子流程、抽取条件配置子流程、待抽取字段配置子流程以及表达式配置子流程对应的配置。
步骤S703:输出模块规则配置。
对应前述输出类型配置子流程对应的配置。
步骤S704:数据标准化及聚合规则配置。
对应前述针对输出数据的规整规则配置子流程以及针对输出数据的聚合规则配置子流程。
步骤S705:根据抽取逻辑配置生成抽取逻辑集合。
对应前述基于所获得的配置信息生成数据抽取逻辑的步骤。
这样通过灵活且层级明确的输入、输出、标准化及聚合层配置,从根本上提升了数据抽取规则定义的深度和广度。
步骤S706:确认预览数据并存储二级结构化结果。
本步骤中,可以预览抽取的数据,在用户确认预览数据之后再进行数据抽取,并存储抽取到的二级结构化结果。
由以上可见,采用上述步骤S701-S706所示的约束严谨、交互简单的方法进行数据抽取时,针对医学领域的科研人员而言,降低了科研人员对临床数据中心存储的数据进行数据抽取的门槛,能够有效快速的实现医疗数据的抽取,打破了科研人员在临床数据应用中业务需求与技术需求上的壁垒,从源头保障了医疗数据的获取。并且,通过规范的技术手段,实现了医疗数据从治理到应用的突破,对提高医疗数据应用效率、规范医疗数据提取流程、保证医疗数据资产深度利用具有重要意义,具备推广价值。
下面再结合图8,对输入、输出模块的配置内容进行举例说明。
参见图8,为本公开实施例提供的一种配置内容的示意图。
可以看出,输入、输出模块的配置内容包括eCRF(Electronic Case report Form,电子案例报告表)字段定义、字段规则设定、预设规则选择、映射规则设定、枚举规则设定以及公式规则设定。
其中,预设规则选择可以包括规则和归一化绑定,映射规则设定和枚举规则设定还可以包括归一化规则设定。
上述各项设定配置完成之后,可以根据配置内容进行结构化任务抽取。
下面再结合图9,对本公开实施例提供的一种数据流转过程进行说明。
参见图9,为本公开实施例提供的一种数据流转过程的示意图。
可以看出,首先获取临床数据中心的数据,然后进行抽取模式配置,并进行输入层、输出层、标准化层及聚合层配置,配置完成之后进行结果采样与验证,经过抽取结果确认与存储之后,将抽取得到的数据存入科研变量抽取结果集合中。
其中,上述结果采样和验证为在用户界面上展示预览采样结果,使得用户能够根据预览内容确定是否进行数据抽取。
上述抽取模式配置对应前述确定目标数据抽取模式,上述输入层、输出层、标准化层及聚合层配置分别对应前述抽取条件配置子流程、输出类型配置子流程、针对输出数据的规整规则配置子流程以及针对输出数据的聚合规则配置子流程。
与上述数据抽取方法相对应的,本公开实施例还提供了一种数据抽取装置。
参见图10,为本公开实施例提供的一种数据抽取装置的结构示意图,上述装置包括以下模块1001-1005:
抽取模式获得模块1001,用于获得目标数据抽取模式;
抽取流程确定模块1002,用于确定所述目标数据抽取模式对应的目标数据抽取流程;
配置信息获得模块1003,用于针对所述目标数据抽取流程中每一子流程,获得该子流程在所述目标数据抽取模式下对应的配置项的配置信息;
数据抽取逻辑生成模块1004,用于基于所获得的配置信息,生成数据抽取逻辑;
数据抽取模块1005,用于根据所述数据抽取逻辑,进行数据抽取。
由以上可见,应用本公开实施例提供的方案进行数据抽取时,获得目标数据抽取模式,确定目标数据抽取模式对应的目标数据抽取流程,这样可以针对目标数据抽取流程中每一子流程,获得该子流程在目标数据抽取模式下对应的配置项的配置信息,从而可以基于所获得的配置信息生成数据抽取逻辑,并根据数据抽取逻辑成功进行数据抽取。
在上述流程中,用户仅需针对目标数据抽取流程中各子流程对应的配置项进行配置,电子设备就能够获得上述各子流程对应的配置信息,从而生成配置数据抽取逻辑并进行数据抽取,无需用户编写数据抽取代码,降低了用户进行数据抽取时所需的技术门槛,省去了编写代码所需的时间,提高了数据抽取效率。
另外,目标数据抽取模式决定了目标数据抽取流程,目标数据抽取流程中各子流程对应的配置信息决定了用于抽取数据的数据抽取逻辑,也就是,本公开实施例提供的方案能够针对性的获得不同目标数据抽取模式对应的目标数据抽取流程、配置信息以及数据抽取逻辑,这样使得用户能够根据自身的数据抽取需求灵活的选择目标数据抽取模式,从而提高了数据抽取方案的灵活性和实用性,提高了用户体验。
本公开的一个实施例中,所述数据抽取逻辑生成模块1004,具体用于按照以下子模块生成每一子流程对应的数据抽取逻辑:
目标条件单元生成子模块,用于按照子流程对应的数据抽取规则,对子流程对应的配置信息进行组合,生成目标条件单元;
组合条件获得子模块,用于按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件;
数据抽取逻辑生成子模块,用于生成所述组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。
由以上可见,在基于所获得的配置信息生成数据抽取逻辑时,针对每一子流程,可以首先按照子流程对应的数据抽取规则,对子流程对应的配置信息进行组合,生成目标条件单元,然后按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件,再生成组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。这样通过目标条件单元生成、目标条件单元组合以及数据查询语句生成等步骤,可以准确、有条理的逐步根据配置信息得到最终的数据抽取逻辑。
本公开的一个实施例中,所述目标条件单元生成子模块,具体用于对子流程对应的配置信息中待抽取字段、条件描述元素以及条件逻辑符对应的信息进行组合,生成第一条件单元;根据子流程对应的配置信息中的条件约束元素对应的信息,获得对所生成第一条件单元进行约束的第二条件单元,得到包含第一条件单元和第二条件单元的目标条件单元。
这样通过对待抽取字段、条件描述元素以及条件逻辑符对应的信息进行组合,生成第一条件单元,又基于条件约束元素对应的信息获得对所生成第一条件单元进行约束的第二条件单元,得到包含第一条件单元和第二条件单元的目标条件单元,使得目标条件单元中包含的信息更加的丰富,有利于提高目标条件单元针对抽取条件的描述能力。
本公开的一个实施例中,所述组合条件获得子模块,具体用于根据子流程对应的配置信息中约束逻辑类型对应的信息,将第一条件单元对应的第二条件单元组合至第一条件单元;根据子流程对应的配置信息中条件逻辑类型对应的信息,对组合后的第一条件单元进行组合,得到组合条件。
可见,先根据约束逻辑类型对应的信息将第一条件单元对应的第二条件单元组合至第一条件单元,然后再根据条件逻辑类型对应的信息对组合后的第一条件单元进行组合,这样通过逐层组合可以便捷、准确的生成组合条件。
本公开的一个实施例中,所述数据抽取模块1005,具体用于基于所述数据查询语句生成数据查询请求;向数据查询端发送所述数据查询请求,以使得所述数据查询端基于所述数据查询请求进行数据查询并进行数据抽取;接收所述数据查询端反馈的数据抽取结果。
可见,这样由数据查询端进行数据查询和数据抽取步骤,电子设备接收数据查询端反馈的数据抽取结果,不需要作为本方案执行主体的电子设备执行实际的数据抽取步骤,有利于节省电子设备的计算资源消耗,从而有利于提高数据抽取效率。
本公开的一个实施例中,所述抽取模式获得模块1001,包括:
主模式获得子模块,用于获得数据抽取的主模式;
抽取模式获得子模块,用于从所述主模式支持的子模式中,获得目标数据抽取模式。
可见,通过主模式的划分,可以先确定数据抽取的主模式,再从主模式支持的子模式中确定目标数据抽取模式,这样通过分层确定的方式能够便捷、直观的获得目标数据抽取模式。
本公开的一个实施例中,所述主模式获得子模块,具体用于从引用已有规则的第一数据抽取模式和基于变量生成规则的第二数据抽取模式中,获得数据抽取的主模式。
这样将主模式划分为从引用已有规则的第一数据抽取模式和基于变量生成规则的第二数据抽取模式,便于后续从这两大类主模式中进一步的选取子模式。
本公开的一个实施例中,所述抽取模式获得子模块,具体用于在所述主模式为所述第二数据抽取模式的情况下,从以下进行数据抽取的子模式中,获得目标数据抽取模式:反映变量对应的待抽取字段与设定字段间映射关系的第一子模式;反映变量对应的待抽取字段需满足的抽取条件的第二子模式;基于变量对应的待抽取字段描述的表达式对应的第三子模式。
可以看出,基于变量生成规则的第二数据抽取模式中,包含用于设置待抽取字段与设定字段间映射关系的第一子模式、用于设置待抽取字段需满足的抽取条件的第二子模式以及用于设置基于变量对应的待抽取字段描述的表达式的第三子模式等类型丰富的子模式,上述各类型的子模式用于进行不同的配置,有利于更加全面的满足用户的数据抽取需求。
本公开的一个实施例中,所述抽取流程确定模块1002,具体用于若所述目标数据抽取模式为所述第一子模式,确定所述目标数据抽取模式对应的目标数据抽取流程包括所述映射关系配置子流程;若所述目标数据抽取模式为所述第二子模式,确定所述目标数据抽取流程包括所述抽取条件配置子流程、输出条件配置子流程,其中,所述输出条件配置子流程包括以下子流程中的至少一种:输出类型配置子流程、针对输出数据的规整规则配置子流程以及针对输出数据的聚合规则配置子流程;若所述目标数据抽取模式为所述第三子模式,确定所述目标数据抽取流程包括待抽取字段配置子流程和表达式配置子流程。
可以看出,当数据抽取的主模式为基于变量生成规则的第二数据抽取模式时,根据作为目标数据抽取模式的子模式不同,目标数据抽取流程也不相同,这样使得抽取流程更加具有针对性。
本公开的一个实施例中,所述抽取模式获得子模块,具体用于在所述主模式为所述第一数据抽取模式的情况下,从历史规则引用子模式和预设规则引用子模式中,获得目标数据抽取模式。
可以看出,引用已有规则的第一数据抽取模式中包含历史规则引用子模式和预设规则引用子模式,不同子模式用于设置不同的内容,有利于更加全面的满足用户的需求。
本公开的一个实施例中,所述抽取流程确定模块1002,具体用于确定所述目标数据抽取流程包括目标规则配置子流程和引用确认子流程,其中,所述目标规则包括历史规则或预设规则。
可以看出,当数据抽取的主模式为引用已有规则的第一数据抽取模式时,根据作为目标数据抽取模式的子模式不同,目标数据抽取流程也不相同,这样使得抽取流程更加具有针对性。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
本公开的一个实施例中,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述数据抽取方法。
本公开的一个实施例中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述数据抽取方法。
本公开的一个实施例中,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述数据抽取方法。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如数据抽取方法。例如,在一些实施例中,数据抽取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的数据抽取方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据抽取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (25)

1.一种数据抽取方法,包括:
获得目标数据抽取模式;
确定所述目标数据抽取模式对应的目标数据抽取流程;
针对所述目标数据抽取流程中每一子流程,获得该子流程在所述目标数据抽取模式下对应的配置项的配置信息;
基于所获得的配置信息,生成数据抽取逻辑;
根据所述数据抽取逻辑,进行数据抽取。
2.根据权利要求1所述的方法,其中,所述基于所获得的配置信息,生成数据抽取逻辑,包括:
按照以下方式生成每一子流程对应的数据抽取逻辑:
按照子流程对应的数据抽取规则,对子流程对应的配置信息进行组合,生成目标条件单元;
按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件;
生成所述组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。
3.根据权利要求2所述的方法,其中,所述按照子流程对应的数据抽取规则,对子流程对应的配置信息进行组合,生成目标条件单元,包括:
对子流程对应的配置信息中待抽取字段、条件描述元素以及条件逻辑符对应的信息进行组合,生成第一条件单元;
根据子流程对应的配置信息中的条件约束元素对应的信息,获得对所生成第一条件单元进行约束的第二条件单元,得到包含第一条件单元和第二条件单元的目标条件单元。
4.根据权利要求3所述的方法,其中,所述按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件,包括:
根据子流程对应的配置信息中约束逻辑类型对应的信息,将第一条件单元对应的第二条件单元组合至第一条件单元;
根据子流程对应的配置信息中条件逻辑类型对应的信息,对组合后的第一条件单元进行组合,得到组合条件。
5.根据权利要求2-4中任一项所述的方法,其中,所述根据所述数据抽取逻辑,进行数据抽取,包括:
基于所述数据查询语句生成数据查询请求;
向数据查询端发送所述数据查询请求,以使得所述数据查询端基于所述数据查询请求进行数据查询并进行数据抽取;
接收所述数据查询端反馈的数据抽取结果。
6.根据权利要求1-4中任一项所述的方法,其中,所述获得目标数据抽取模式,包括:
获得数据抽取的主模式;
从所述主模式支持的子模式中,获得目标数据抽取模式。
7.根据权利要求6所述的方法,其中,所述获得数据抽取的主模式,包括:
从引用已有规则的第一数据抽取模式和基于变量生成规则的第二数据抽取模式中,获得数据抽取的主模式。
8.根据权利要求7所述的方法,其中,所述从所述主模式支持的子模式中,获得目标数据抽取模式,包括:
在所述主模式为所述第二数据抽取模式的情况下,从以下进行数据抽取的子模式中,获得目标数据抽取模式:
反映变量对应的待抽取字段与设定字段间映射关系的第一子模式;
反映变量对应的待抽取字段需满足的抽取条件的第二子模式;
基于变量对应的待抽取字段描述的表达式对应的第三子模式。
9.根据权利要求8所述的方法,其中,所述确定所述目标数据抽取模式对应的目标数据抽取流程,包括:
若所述目标数据抽取模式为所述第一子模式,确定所述目标数据抽取模式对应的目标数据抽取流程包括所述映射关系配置子流程;
若所述目标数据抽取模式为所述第二子模式,确定所述目标数据抽取流程包括所述抽取条件配置子流程、输出条件配置子流程,其中,所述输出条件配置子流程包括以下子流程中的至少一种:输出类型配置子流程、针对输出数据的规整规则配置子流程以及针对输出数据的聚合规则配置子流程;
若所述目标数据抽取模式为所述第三子模式,确定所述目标数据抽取流程包括待抽取字段配置子流程和表达式配置子流程。
10.根据权利要求7所述的方法,其中,所述从所述主模式支持的子模式中,获得目标数据抽取模式,包括:
在所述主模式为所述第一数据抽取模式的情况下,从历史规则引用子模式和预设规则引用子模式中,获得目标数据抽取模式。
11.根据权利要求10所述的方法,其中,所述确定所述目标数据抽取模式对应的目标数据抽取流程,包括:
确定所述目标数据抽取流程包括目标规则配置子流程和引用确认子流程,其中,所述目标规则包括历史规则或预设规则。
12.一种数据抽取装置,包括:
抽取模式获得模块,用于获得目标数据抽取模式;
抽取流程确定模块,用于确定所述目标数据抽取模式对应的目标数据抽取流程;
配置信息获得模块,用于针对所述目标数据抽取流程中每一子流程,获得该子流程在所述目标数据抽取模式下对应的配置项的配置信息;
数据抽取逻辑生成模块,用于基于所获得的配置信息,生成数据抽取逻辑;
数据抽取模块,用于根据所述数据抽取逻辑,进行数据抽取。
13.根据权利要求12所述的装置,其中,所述数据抽取逻辑生成模块,具体用于按照以下子模块生成每一子流程对应的数据抽取逻辑:
目标条件单元生成子模块,用于按照子流程对应的数据抽取规则,对子流程对应的配置信息进行组合,生成目标条件单元;
组合条件获得子模块,用于按照子流程配置的条件单元间的逻辑关系,对所生成的目标条件单元进行组合,得到组合条件;
数据抽取逻辑生成子模块,用于生成所述组合条件的数据查询语句,作为子流程对应的数据抽取逻辑。
14.根据权利要求13所述的装置,其中,
所述目标条件单元生成子模块,具体用于对子流程对应的配置信息中待抽取字段、条件描述元素以及条件逻辑符对应的信息进行组合,生成第一条件单元;根据子流程对应的配置信息中的条件约束元素对应的信息,获得对所生成第一条件单元进行约束的第二条件单元,得到包含第一条件单元和第二条件单元的目标条件单元。
15.根据权利要求14所述的装置,其中,
所述组合条件获得子模块,具体用于根据子流程对应的配置信息中约束逻辑类型对应的信息,将第一条件单元对应的第二条件单元组合至第一条件单元;根据子流程对应的配置信息中条件逻辑类型对应的信息,对组合后的第一条件单元进行组合,得到组合条件。
16.根据权利要求13-15中任一项所述的装置,其中,
所述数据抽取模块,具体用于基于所述数据查询语句生成数据查询请求;向数据查询端发送所述数据查询请求,以使得所述数据查询端基于所述数据查询请求进行数据查询并进行数据抽取;接收所述数据查询端反馈的数据抽取结果。
17.根据权利要求12-15中任一项所述的装置,其中,所述抽取模式获得模块,包括:
主模式获得子模块,用于获得数据抽取的主模式;
抽取模式获得子模块,用于从所述主模式支持的子模式中,获得目标数据抽取模式。
18.根据权利要求17所述的装置,其中,
所述主模式获得子模块,具体用于从引用已有规则的第一数据抽取模式和基于变量生成规则的第二数据抽取模式中,获得数据抽取的主模式。
19.根据权利要求18所述的装置,其中,
所述抽取模式获得子模块,具体用于在所述主模式为所述第二数据抽取模式的情况下,从以下进行数据抽取的子模式中,获得目标数据抽取模式:反映变量对应的待抽取字段与设定字段间映射关系的第一子模式;反映变量对应的待抽取字段需满足的抽取条件的第二子模式;基于变量对应的待抽取字段描述的表达式对应的第三子模式。
20.根据权利要求19所述的装置,其中,
所述抽取流程确定模块,具体用于若所述目标数据抽取模式为所述第一子模式,确定所述目标数据抽取模式对应的目标数据抽取流程包括所述映射关系配置子流程;若所述目标数据抽取模式为所述第二子模式,确定所述目标数据抽取流程包括所述抽取规则配置子流程、输出条件配置子流程,其中,所述输出条件配置子流程包括以下子流程中的至少一种:输出类型配置子流程、针对输出数据的规整规则配置子流程以及针对输出数据的聚合规则配置子流程;若所述目标数据抽取模式为所述第三子模式,确定所述目标数据抽取流程包括待抽取字段配置子流程和表达式配置子流程。
21.根据权利要求18所述的装置,其中,
所述抽取模式获得子模块,具体用于在所述主模式为所述第一数据抽取模式的情况下,从历史规则引用子模式和预设规则引用子模式中,获得目标数据抽取模式。
22.根据权利要求21所述的装置,其中,
所述抽取流程确定模块,具体用于确定所述目标数据抽取流程包括目标规则配置子流程和引用确认子流程,其中,所述目标规则包括历史规则或预设规则。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。
CN202211542433.0A 2022-12-02 2022-12-02 一种数据抽取方法、装置、设备及存储介质 Active CN115862882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211542433.0A CN115862882B (zh) 2022-12-02 2022-12-02 一种数据抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211542433.0A CN115862882B (zh) 2022-12-02 2022-12-02 一种数据抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115862882A true CN115862882A (zh) 2023-03-28
CN115862882B CN115862882B (zh) 2024-02-13

Family

ID=85669589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211542433.0A Active CN115862882B (zh) 2022-12-02 2022-12-02 一种数据抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115862882B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110113046A1 (en) * 2009-11-09 2011-05-12 Sony Corporation Information processing apparatus, information extracting method, program, and information processing system
CN103827853A (zh) * 2011-09-29 2014-05-28 国际商业机器公司 最小化规则管理系统中的规则集
CN108010573A (zh) * 2017-11-24 2018-05-08 苏州市环亚数据技术有限公司 一种医院数据融合系统、方法、电子设备及存储介质
CN109299177A (zh) * 2018-09-30 2019-02-01 江苏满运软件科技有限公司 数据抽取方法、装置、存储介质及电子设备
CN111597245A (zh) * 2020-05-20 2020-08-28 政采云有限公司 一种数据抽取方法、装置、信息统计方法及相关设备
CN111753546A (zh) * 2020-06-23 2020-10-09 深圳市华云中盛科技股份有限公司 文书信息抽取方法、装置、计算机设备及存储介质
US20210073433A1 (en) * 2019-09-06 2021-03-11 BeamUp, Ltd. Structural design systems and methods for automatic extraction of data from 2d floor plans for retention in building information models
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品
CN112989763A (zh) * 2021-03-16 2021-06-18 平安付科技服务有限公司 数据获取方法、装置、计算机设备及存储介质
CN113127522A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质
CN113806434A (zh) * 2021-09-22 2021-12-17 平安科技(深圳)有限公司 大数据处理方法、装置、设备及介质
CN114328700A (zh) * 2022-03-16 2022-04-12 上海柯林布瑞信息技术有限公司 医疗数据etl任务中的数据核查方法及装置
CN114942971A (zh) * 2022-07-22 2022-08-26 北京拓普丰联信息科技股份有限公司 一种结构化数据的抽取方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110113046A1 (en) * 2009-11-09 2011-05-12 Sony Corporation Information processing apparatus, information extracting method, program, and information processing system
CN103827853A (zh) * 2011-09-29 2014-05-28 国际商业机器公司 最小化规则管理系统中的规则集
CN108010573A (zh) * 2017-11-24 2018-05-08 苏州市环亚数据技术有限公司 一种医院数据融合系统、方法、电子设备及存储介质
CN109299177A (zh) * 2018-09-30 2019-02-01 江苏满运软件科技有限公司 数据抽取方法、装置、存储介质及电子设备
US20210073433A1 (en) * 2019-09-06 2021-03-11 BeamUp, Ltd. Structural design systems and methods for automatic extraction of data from 2d floor plans for retention in building information models
CN113127522A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、设备、系统及存储介质
CN111597245A (zh) * 2020-05-20 2020-08-28 政采云有限公司 一种数据抽取方法、装置、信息统计方法及相关设备
CN111753546A (zh) * 2020-06-23 2020-10-09 深圳市华云中盛科技股份有限公司 文书信息抽取方法、装置、计算机设备及存储介质
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品
CN112989763A (zh) * 2021-03-16 2021-06-18 平安付科技服务有限公司 数据获取方法、装置、计算机设备及存储介质
CN113806434A (zh) * 2021-09-22 2021-12-17 平安科技(深圳)有限公司 大数据处理方法、装置、设备及介质
CN114328700A (zh) * 2022-03-16 2022-04-12 上海柯林布瑞信息技术有限公司 医疗数据etl任务中的数据核查方法及装置
CN114942971A (zh) * 2022-07-22 2022-08-26 北京拓普丰联信息科技股份有限公司 一种结构化数据的抽取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
任宪臻;朱义;: "基于规则引擎的大规模网页信息抽取平台设计与实现", 北京城市学院学报, no. 05, pages 67 - 70 *
刘辉;陈静玉;徐学洲;: "基于模板流程配置的Web信息抽取", 计算机工程, vol. 34, no. 20, pages 55 - 57 *
王茜;: "ETL多数据流并行抽取中监控的研究与设计", 微计算机信息, no. 03, pages 200 - 201 *

Also Published As

Publication number Publication date
CN115862882B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
US10181012B2 (en) Extracting clinical care pathways correlated with outcomes
CN107918600B (zh) 报表开发系统及方法、存储介质和电子设备
CN111813963B (zh) 知识图谱构建方法、装置、电子设备及存储介质
CN107885499A (zh) 一种接口文档生成方法及终端设备
EP3362954A1 (en) Systems and method for dynamic autonomous transactional identity management
CN113345577B (zh) 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质
CN111158795A (zh) 报表生成方法、装置、介质及电子设备
CN114049927A (zh) 疾病数据处理方法、装置、电子设备及可读介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN109448859A (zh) 数据处理方法及装置、电子设备、存储介质
CN114496140B (zh) 查询条件的数据匹配方法、装置、设备及介质
WO2020048952A1 (en) Method of classifying medical records
CN114064923A (zh) 数据处理方法、装置、电子设备和存储介质
CN115620886B (zh) 一种数据审核方法和装置
CN115862882B (zh) 一种数据抽取方法、装置、设备及存储介质
CN113590775B (zh) 诊疗数据的处理方法、装置、电子设备及存储介质
CN114840507A (zh) 数据治理方法、装置、电子设备及存储介质
CN113377924A (zh) 数据处理方法、装置、设备以及存储介质
EP3654339A1 (en) Method of classifying medical records
CN116150475B (zh) 信息检索方法、装置、电子设备及存储介质
CN116504414B (zh) 医疗数据查询方法、装置、电子设备以及存储介质
CN114661751B (zh) 基于sql知识库的数据生产方法、装置、系统、设备及介质
CN114925118B (zh) 跨表搜索方法、装置、设备以及存储介质
CN116089459B (zh) 数据检索方法、装置、电子设备及存储介质
CN117313668A (zh) 语料生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant