CN110442441A - 数据处理方法、装置、可读存储介质及终端设备 - Google Patents

数据处理方法、装置、可读存储介质及终端设备 Download PDF

Info

Publication number
CN110442441A
CN110442441A CN201910727482.3A CN201910727482A CN110442441A CN 110442441 A CN110442441 A CN 110442441A CN 201910727482 A CN201910727482 A CN 201910727482A CN 110442441 A CN110442441 A CN 110442441A
Authority
CN
China
Prior art keywords
module
data
information
information extraction
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910727482.3A
Other languages
English (en)
Other versions
CN110442441B (zh
Inventor
彭秦中
王菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910727482.3A priority Critical patent/CN110442441B/zh
Publication of CN110442441A publication Critical patent/CN110442441A/zh
Application granted granted Critical
Publication of CN110442441B publication Critical patent/CN110442441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例提供一种数据处理方法、装置、可读存储介质及终端设备,将任务拆分成不同的阶段,不同的阶段通过相互独立的功能模块实现,不同阶段的功能模块以有向无环图的方式组织,对应每个功能模块提供配置接口以便对功能模块进行配置,当接收到执行指令时,按照有向无环图定义的各功能模块的顺序,对信息提取任务中的各功能模块进行调度,以进行信息提取。本申请提供的数据处理方法,不需要用户编程即可实现信息提取,提高了信息提取的灵活性。

Description

数据处理方法、装置、可读存储介质及终端设备
技术领域
本发明涉及信息处理技术领域,具体涉及一种数据处理方法、装置、可读存储介质及终端设备。
背景技术
在大数据处理过程中,在一些场景下,当需要从数据中提取信息时,需要先配置一个任务,然后通过运行配置好的任务来提取信息。而目前,任务的配置只能通过在开源的任务平台(如,apache airflow)上编辑程序代码来实现,显然,这个任务平台更适合开发人员使用,对于不具备编程基础的用户来说,则很难通过该开源的任务平台实现信息提取。
因而,如何提高信息提取的灵活性成为亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置、可读存储介质及终端设备,以提高信息提取的灵活性。
为实现上述目的,本发明实施例提供如下技术方案:
一方面,提供一种数据处理方法,包括:
获取指定的信息提取任务模板;所述信息提取任务模板包括若干个功能模块,所述若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行所述信息提取任务的不同阶段;
接收针对各个功能模块的配置信息,得到信息提取任务;
接收执行指令,按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,以进行信息提取。
第二方面,提供一种数据处理装置,包括:
获取模块,用于获取指定的信息提取任务模板;所述信息提取任务模板包括若干个功能模块,所述若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行所述信息提取任务的不同阶段;
配置模块,用于接收针对各个功能模块的配置信息,得到信息提取任务;
调度模块,用于接收执行指令,按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,以进行信息提取。
第三方面,提供一种终端设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如前任一项所述的数据处理方法的各个步骤。
第四方面,提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前任一项所述的数据处理方法的各个步骤。
本发明实施例提供的数据处理方法、装置、可读存储介质及终端设备,将任务拆分成不同的阶段,不同的阶段通过相互独立的功能模块实现,不同阶段的功能模块以有向无环图的方式组织,对应每个功能模块提供配置接口以便对功能模块进行配置,当接收到执行指令时,按照有向无环图定义的各功能模块的顺序,对信息提取任务中的各功能模块进行调度,以进行信息提取。本申请提供的数据处理方法,不需要用户编程即可实现信息提取,提高了信息提取的灵活性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的数据处理方法的架构图;
图2为本发明实施例提供的数据处理方法的一种实现流程图;
图3为本发明实施例提供的按照规则抽取数据时的数据抽取任务模板的示例图;
图4为本发明实施例提供的按照规则生成画像时的画像生成任务模板的示例图;
图5为本发明实施例提供的利用AI模型抽取数据时的数据抽取任务模板的示例图;
图6为本发明实施例提供的利用AI模型生成画像时的画像生成任务模板的示例图;
图7为本发明实施例提供的按照有向无环图定义的各功能模块的顺序,对信息提取任务中的各功能模块进行调度的一种实现流程图;
图8为本发明实施例提供的数据处理装置的一种结构示意图;
图9为本发明实施例提供的终端设备的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据处理方法可以应用于电子设备中,该电子设备可以是台式机计算机,也可以是便携式移动终端,例如,笔记本电脑,平板电脑、智能手机等。
本申请提供的数据处理方法的架构图如图1所示,将信息提取任务拆分成不同的阶段,每个阶段相当于信息提取任务的一个子任务,不同的阶段通过相互独立的功能模块实现,不同阶段的功能模块以有向无环图(Directed Acyclic Graph,DAG)的方式组织,即相邻阶段的功能模块之间是解耦的,所有的功能模块均通过任务调度模块进行调度,实现按阶段的先后顺序执行各个阶段的子任务(即按照阶段的先后顺序调度各个功能模块),从而完成整个信息提取任务。
有向无环图是指任意一条边有方向,且不存在环路的图。如果有一个非有向无环图,且A点出发向B经C可回到A,形成一个环。将从C到A的边方向改为从A到C,则变成有向无环图。有向无环图的生成树个数等于入度非零的节点的入度积。节点的入度是指进入该节点的边的条数,节点的入度为0是指该节点不作为任何边的终点,也就是说,这一节点所连接的边都把这一点作为起点。
图1所示架构图中的功能模块并不是某个信息提取任务的专有的功能模块,而是不同的信息提取任务可能会用到的一些功能模块,本申请是根据不同的信息提取任务定义了不同的功能模块,一些功能模块可以是不同的信息提取任务可以复用的模块,而一些功能模块则是某些信息提取任务所独有,具体情况可以参看后续实施例。
基于该架构,在任务生成阶段,用户选择信息提取任务模板,并对选择的信息提取任务模板进行配置,配置完成并触发运行后,信息提取任务开始执行,在执行阶段,由任务调度模块对信息提取任务的各个模块进行调度,在调度到某个功能模块时,任务调度模块从数据库DB中读取该模块的配置信息并转发给该功能模块,由该功能模块自己解析配置信息,实现配置信息的弱耦合,提高信息提取任务的稳定性。另外,若各功能模块间需要进行数据流转,则数据流转也通过任务调度模块完成,例如,若一个功能模块A的输出数据为另一功能模块B的输入数据,则该功能模块A得到输出数据后,将该输出数据传输给任务调度模块,由任务调度模块将该数据转发给功能模块B。
另外,本申请实施例中,定义了每个功能模块的输入、输出格式,各功能模块的新扩展功能模块(如新增的具有相同功能但不同处理逻辑的功能模块)只要遵守这个功能模块的输入输出格式即可,可扩展性强。
基于上述思想,本申请实施例提供的数据处理方法的一种实现流程图如图2所示,可以包括:
步骤S21:获取指定的信息提取任务模板;该信息提取任务模板包括若干个功能模块,该若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行信息提取任务的不同阶段。
本申请实施例中,将信息提取任务拆分成不同的阶段,每个阶段相当于信息提取任务的一个子任务,不同的阶段通过相互独立的功能模块实现,不同阶段的功能模块以有向无环图的方式组织。也就是说,信息提取任务模板定义了数据处理经过哪些功能模块,各功能模块的顺序是什么,功能模块间的依赖关系是怎样的。
当需要进行信息提取时,根据提取的信息不同,用户可以指定用于提取该信息的信息提取任务模板。
步骤S22:接收针对各个功能模块的配置信息,得到信息提取任务。
为方便对各功能模块进行配置,本申请实施例中,为各功能模块配置了配置模板,该模板上包括配置项,以及各配置项的默认值,用户可以在该配置模板上对功能模块进行配置,在配置时,如果配置项的默认值是目标值,则无需对配置项的值进行修改,若配置项的默认值不是目标值,用户可以对配置项的值进行修改,将配置项的值修改为目标值,从而减少用户需要修改的配置量,提高配置效率。
对功能模块的配置包括:功能模块的替换(即,用另一对应相同阶段的功能模块替换掉信息提取任务模板中的功能模块),和/或,功能模块内部信息的配置。
步骤S23:接收执行指令,按照有向无环图定义的各功能模块的顺序,对信息提取任务中的各功能模块进行调度,以进行信息提取。
在接收执行指令后,启动任务调度模块,由任务调度模块按照有向无环图定义的各功能模块的顺序,对信息提取任务中的各功能模块进行调度。
本申请实施例提供的数据处理方法,将任务拆分成不同的阶段,不同的阶段通过相互独立的功能模块实现,不同阶段的功能模块以有向无环图的方式组织,对应每个功能模块提供配置接口以便对功能模块进行配置,当接收到执行指令时,按照有向无环图定义的各功能模块的顺序,对信息提取任务中的各功能模块进行调度,以进行信息提取。本申请提供的数据处理方法,不需要用户编程即可实现信息提取,提高了信息提取的灵活性。
在进行信息提取时,可以有多种不同的提取方式,例如,按照规则提取信息、利用人工智能(Artificial Intelligence,AI)模型提取信息等。基于此,在本申请一可选的实施例中,根据信息提取的方式不同,预先设置了不同模式的信息提取任务模板,本申请实施例中,信息提取任务可以包括但不限于以下两种模式:按照规则提取信息模式;利用AI模型提取信息模式。
可选的,上述获取指定的信息提取任务模板的一种实现方式可以为:
获取指定模式的信息提取任务模板;上述指定模式为:按照规则提取信息模式,或者,利用AI模型提取信息模式。
在一可选的实施例中,根据抽取的信息不同,上述信息提取任务可以是数据抽取任务,也可以是画像生成任务。不同的信息提取任务可以复用同一功能模块。
可选的,若信息提取任务是数据抽取任务,则上述信息提取任务模板可以包括:
数据读取模块,位于数据读取模块之后的指定模式的数据抽取模块,位于数据抽取模块之后的数据写入模块。
可选的,若信息提取任务是画像生成模块,则上述信息提取任务模板可以包括:
数据读取模块,位于数据读取模块之后的指定模式的数据抽取模块,位于数据抽取模块之后的标签生成模块,位于标签生成模块之后的数据写入模块。
其中,对于同一模式的数据抽取任务模板和画像生成任务模板而言,数据读取模块是数据抽取任务模板和画像生成任务模板可以复用的功能模块,数据写入模块也是数据抽取任务模板和画像生成任务模板可以复用的功能模块,数据抽取模也是数据抽取任务模板和画像生成任务模板可以复用的功能模块。也就是说,在数据抽取任务模板和画像生成任务模板中,数据读取模块可以是同一数据读取模块,在数据抽取任务模板和画像生成任务模板中,数据写入模块可以是同一数据写入模块,在数据抽取任务模板和画像生成任务模板中,数据抽取模块也可以是同一数据抽取模块。而标签生成模块则是画像生成任务独有的功能模块。
对于不同模式的数据抽取任务模板而言,数据读取模块和数据写入模块是不同模式的数据抽取任务模板可以复用的功能模块,而数据抽取模块则是不同模式的数据抽取任务模板各自独有的功能模块。
同理,对于不同模式的画像生成任务模板而言,数据读取模块、数据写入模块和标签生成模块是不同模式的画像生成任务模板可以复用的功能模块,而数据抽取模块则是不同模式的画像生成任务模板各自独有的功能模块。
基于上述内容,本申请实施例提供的信息提取任务模板至少可以包括以下四类:
1、基于规则的数据抽取任务模板,包括数据读取模块,位于数据读取模块之后的规则引擎(即数据抽取模块,用于按规则抽取数据),位于规则引擎之后的数据写入模块。如图3所示,为本申请实施例提供的基于规则的数据抽取任务模板的示例图。
2、基于规则的画像生成任务模板,包括:数据读取模块,位于数据读取模块之后的规则引擎,位于规则引擎之后的标签生成模块,位于标签生成模块之后的数据写入模块。如图4所示,为本申请实施例提供的基于规则的画像生成任务模板的示例图。
3、基于AI模型的数据抽取任务模板:包括数据读取模块,与数据读取模块连接的AI模型(即数据抽取模块,用于抽取数据),与AI模型连接的数据写入模块。如图5所示,为本申请实施例提供的基于AI模型的数据抽取任务模板的示例图。
4、基于AI模型的画像生成任务模板,包括:数据读取模块,与数据读取模块连接的AI模型,与AI模型连接的标签生成模块,与标签生成模块连接的数据写入模块。如图6所示,为本申请实施例提供的基于AI模型的画像生成任务模板的示例图。
在一可选的实施例中,在画像生成任务模板中,在数据抽取模块和标签生成模块之间,还可以设置一数据归一化模块,该数据归一化模块用于将同一语义不同表达的数据规范成同一个表达。可选的,数据归一化模块可以通过归一化映射表或者正则表达式将数据进行归一化到一个统一的值域。
在一可选的实施例中,上述接收针对各功能模块的配置信息的一种实现方式可以为:
接收针对数据读取模块的数据来源信息。
用户可以根据实际需要指定数据来源。具体的,用户可以指定数据存储位置,从而数据读取模块可以在配置的数据存储位置处读取待处理的数据。此外,在一些情况下,并不需要读取待处理数据的全部数据,而只需要待处理数据中的部分数据,此时可以进一步配置字段(针对表格数据)或条件,以便数据读取模块只读取待处理数据中的需要的部分数据即可,减少后续阶段的数据处理量。
接收针对数据抽取模块的数据抽取逻辑配置信息。
对应不同的模式,数据抽取逻辑不同。
对于按照规则提取信息模式,用户可以对规则引擎配置数据抽取规则,本实施例中,可以在数据抽取模块对应的配置模板中提供数据抽取规则列表,用户可以在数据抽取规则列表中选择至少一个数据抽取规则,实现按照规则提取信息模式的数据抽取逻辑的配置。在一些情况下,用户还可以对选择的抽取规则进行编辑。
对于利用AI模型提取信息模式,预先配置了不同数据抽取逻辑的AI模型,可以通过选择不同的AI模型实现数据抽取逻辑的配置。也就是说,如果利用AI模型提取信息模式的信息提取任务模板中的AI模型的数据抽取逻辑不是目标逻辑,则可以从模板库中选择数据抽取逻辑为目标逻辑的AI模块,用选择的AI模型替换掉信息提取任务模板中的AI模型,实现利用AI模型提取信息模式的数据抽取逻辑的配置。
可选的,除了可以对数据抽取模块的数据抽取逻辑进行配置,还可以对其它功能模块的处理逻辑进行配置。其它功能模块的逻辑配置也可以通过模块替换的方式实现。例如,对于功能模块A,如果需要将功能模块A的处理逻辑配置为逻辑a,用户可以从模板库中选择具有逻辑a的功能模块A来替换掉信息提取模板中的功能模块A。
接收针对数据写入模块的信息表相关信息。提取出信息后,需要将提取出的信息写入信息表中。在对数据写入模块进行配置时,用户在可以数据写入模块对应的配置模板中指定信息表,并根据提取的信息在该信息表中定义至少一个字段,每个字段对应提取的信息的至少一部分,后续对该数据写入模块进行调度时,数据写入模块会将提取出的信息按照定义的字段写入该信息表。
当信息抽取任务为画像生成任务时,还接收针对标签生成模块的各标签对应的词法和句法。不同的标签对应的词法和/或句法不同。
每个标签对应的词法和句法用于判断数据抽取模块抽取出的数据是否符合该标签。如果数据抽取模块抽取出的数据满足某个标签对应的词法和句法,则为数据抽取模块抽取出的数据关联该某个标签。例如,针对“处方药”这个标签,定义了【药名】、【数字】、【单位】3个词法,以及【药名】+【数字】+【单位】这个句法,如果数据抽取模块抽取出的数据满足该词法和句法,则将数据抽取模块抽取出的数据关联“处方药”这个标签。
另外,当信息提取任务为画像生成任务时,还可以接收针对该画像生成任务的标签相关的配置信息,例如,可以配置画像所需要的标签,即配置画像由哪些标签表示。可以在画像生成任务对应的配置模板中提供标签列表,在对画像生成任务进行配置时,用户可以在该标签列表中选择所需要的标签。此时,在配置信息表时,可以配置信息表中的每个字段对应一个标签。
此外,还可以接收针对信息提取任务的执行时间、执行频率等信息,当信息提取任务运行时,会按照该执行时间、执行频率运行。例如,立即执行且仅执行一次,或者,每天执行一次,或者,每小时执行一次等。
进一步的,由于配置不同时,画像生成结果也是不同的。因此,为了便于比较,还可以设置画像版本。此时,信息表中还可以包括版本字段。即,信息表中包括版本字段和至少一个标签字段。
在一可选的实施例中,上述按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度的一种实现流程图如图7所示,可以包括:
步骤S71:按照有向无环图定义的各功能模块的顺序,在信息提取任务中确定一个功能模块作为目标模块。
本申请实施例中,按照有向无环图定义的各功能模块的先后顺序,每次确定一个未调度的功能模块或需要再次调度的功能模块作为目标模块。可以通过预先为各功能模块分配的识别码确定各功能模块的顺序,其中,识别码越小,功能模块的顺序越靠前。
步骤S72:向目标模块发送目标数据,以触发目标模块基于目标数据执行预设逻辑;其中,目标数据中包括目标模块的配置信息,和/或,目标模块的上一功能模块输出的数据。
若目标模块为第一个功能模块(即入度为零的功能模块),则仅向目标模块发送配置信息,如果目标模块不是第一个功能模块(即入度非零的功能模块),则根据信息提取任务模板中定义的功能模块间的依赖关系,确定是否向目标模块发送上一功能模块输出的数据。若目标模块的输入数据为上一功能模块的输出数据,则向目标模块发送上一功能模块输出的数据。否则,不向目标模块发送上一功能模块输出的数据。
步骤S73:获取目标模块输出的数据。
步骤S74:若目标模块不是信息提取任务中最后一个功能模块,返回执行步骤S71及后续步骤。
本申请实施例中,各个功能模块所需要的配置信息均由调度模块统一读取后转发给各功能模块,从而各功能模块无需再配置读配置信息的功能,避免读配置信息功能的重复配置而导致资源浪费,达到节约存储资源的目的。
在一可选的实施例中,当目标模块是入度非零的功能模块,且向目标模块发送目标模块的上一功能模块输出的数据时,分至少两次向目标模块发送目标模块的上一功能模块输出的数据。
在一些情况下,各个功能模块可能都会是批处理模块。本申请实施例中,并不是一个功能模块对所有数据批处理完成后才调度下一个功能模块进行批处理,而是在上一个功能模块输出一部分数据后,就先将这一部分数据转发给下一功能模块,由下一个功能模块先对该这部分数据进行处理,当上一个功能模块输出另一部分数据后,再将这一部分数据转发给下一个功能模块,下一功能模块再对该另一部分数据进行处理。基于此,多个功能模块可以并发进行处理,提高数据处理的效率。
例如,假设一个任务要批处理100条数据,本申请实施例中,当第一个功能模块得到50条数据(为便于叙述,假设该50条数据为编号1-50的数据)的处理结果后,任务调度模块先将这50条数据的处理结果转发给下一功能模块,同时等待第一个功能模块输出另外50条数据(即编号为51-100的数据)的处理结果,这样第一个功能模块在处理另外50条数据的同时,第二功能模块开始处理前50条数据对应的处理结果,实现不同功能模块的并发执行。
本申请实施例提供的数据处理方法可以应用于医疗画像生成或医疗数据抽取。基于此,信息提取任务的源数据可以是医院提供的数据表,如病历。基于本申请,医院的医生就可以使用本申请公开方案进行数据抽取或生成医疗画像。
与方法实施例相对应,本申请还提供一种数据处理装置,本申请实施例提供的数据处理装置的一种结构示意图如图8所示,可以包括:
获取模块81,配置模块82和调度模块83;其中,
获取模块81用于获取指定的信息提取任务模板;所述信息提取任务模板包括若干个功能模块,所述若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行所述信息提取任务的不同阶段;
配置模块82用于接收针对各个功能模块的配置信息,得到信息提取任务;
调度模块83用于接收执行指令,按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,以进行信息提取。
本申请实施例提供的数据处理装置,将任务拆分成不同的阶段,不同的阶段通过相互独立的功能模块实现,不同阶段的功能模块以有向无环图的方式组织,对应每个功能模块提供配置接口以便对功能模块进行配置,当接收到执行指令时,按照有向无环图定义的各功能模块的顺序,对信息提取任务中的各功能模块进行调度,以进行信息提取。不需要用户编程即可实现信息提取,提高了信息提取的灵活性。
在一可选的实施例中,获取模块81具体可以用于获取指定模式的信息提取任务模板;所述指定模式为:按照规则提取信息模式,或者,利用人工智能模型提取信息模式。
在一可选的实施例中,信息提取任务为数据抽取任务,所述信息提取任务模板可以包括:
数据读取模块,位于所述数据读取模块之后的指定模式的数据抽取模块,位于所述数据抽取模块之后的数据写入模块。
在一可选的实施例中,所述信息提取任务为画像生成任务,所述信息提取任务模板包括:
数据读取模块,位于所述数据读取模块之后的指定模式的数据抽取模块,位于所述数据抽取模块之后的标签生成模块,位于所述标签生成模块之后的数据写入模块。
在一可选的实施例中,配置模块82具体可以用于:
接收针对所述数据读取模块的数据来源信息;
接收针对所述数据抽取模块的数据抽取逻辑配置信息;
接收针对所述数据写入模块的信息表相关信息;
当所述信息抽取任务为画像生成任务时,接收针对所述标签生成模块的各标签对应的词法和句法。
在一可选的实施例中,调度模块83具体可以用于:
按照所述有向无环图定义的各功能模块的顺序,在所述信息提取任务中确定一个功能模块作为目标模块;
向所述目标模块发送目标数据,以触发所述目标模块基于所述目标数据执行预设逻辑;所述目标数据中包括所述目标模块的配置信息,和/或,所述目标模块的上一功能模块输出的数据;
获取所述目标模块输出的数据;
若所述目标模块不是所述信息提取任务中最后一个功能模块,返回执行所述按照所述有向无环图在所述信息提取任务中确定一个功能模块作为目标模块的步骤。
在一可选的实施例中,调度模块83向所述目标模块发送目标数据时,具体可以用于:
当所述目标模块是入度非零的功能模块,且向所述目标模块发送所述目标模块的上一功能模块输出的数据时,分至少两次向所述目标模块发送所述目标模块的上一功能模块输出的数据。
本发明实施例还提供一种终端设备,该终端设备可以配置上述数据处理装置。本发明实施例提供的终端设备的硬件结构框图的示例图如图9所示,可以包括:
处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器1具体用于执行存储器3中存储的程序,以执行如下步骤:
获取指定的信息提取任务模板;所述信息提取任务模板包括若干个功能模块,所述若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行所述信息提取任务的不同阶段;
接收针对各个功能模块的配置信息,得到信息提取任务;
接收执行指令,按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,以进行信息提取。
可选的,处理器1获取指定的信息提取任务模型时,具体可以用于:
获取指定模式的信息提取任务模板;所述指定模式为:按照规则提取信息模式,或者,利用人工智能模型提取信息模式。
可选的,所述信息提取任务为数据抽取任务,所述信息提取任务模板可以包括:
数据读取模块,位于所述数据读取模块之后的指定模式的数据抽取模块,位于所述数据抽取模块之后的数据写入模块。
可选的,所述信息提取任务为画像生成任务,所述信息提取任务模板可以包括:
数据读取模块,位于所述数据读取模块之后的指定模式的数据抽取模块,位于所述数据抽取模块之后的标签生成模块,位于所述标签生成模块之后的数据写入模块。
可选的,处理器1接收针对各个功能模块的配置信息时,具体可以用于:
接收针对所述数据读取模块的数据来源信息;
接收针对所述数据抽取模块的数据抽取逻辑配置信息;
接收针对所述数据写入模块的信息表相关信息;
当所述信息抽取任务为画像生成任务时,接收针对所述标签生成模块的各标签对应的词法和句法。
可选的,处理器1按照所述有向无环图定义的各功能模块的顺序,对所述指定模式的信息提取的任务中的各功能模块进行调度时,具体可以用于:
按照所述有向无环图定义的各功能模块的顺序,在所述信息提取任务中确定一个功能模块作为目标模块;
向所述目标模块发送目标数据,以触发所述目标模块基于所述目标数据执行预设逻辑;所述目标数据中包括所述目标模块的配置信息,和/或,所述目标模块的上一功能模块输出的数据;
获取所述目标模块输出的数据;
若所述目标模块不是所述信息提取任务中最后一个功能模块,返回执行所述按照所述有向无环图在所述信息提取任务中确定一个功能模块作为目标模块的步骤。
可选的,处理器1向所述目标模块发送目标数据时,具体可以用于:
当所述目标模块是入度非零的功能模块,且向所述目标模块发送所述目标模块的上一功能模块输出的数据时,分至少两次向所述目标模块发送所述目标模块的上一功能模块输出的数据。
本申请实施例还提供一种可读存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取指定的信息提取任务模板;所述信息提取任务模板包括若干个功能模块,所述若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行所述信息提取任务的不同阶段;
接收针对各个功能模块的配置信息,得到信息提取任务;
接收执行指令,按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,以进行信息提取。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取指定的信息提取任务模板;所述信息提取任务模板包括若干个功能模块,所述若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行所述信息提取任务的不同阶段;
接收针对各个功能模块的配置信息,得到信息提取任务;
接收执行指令,按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,以进行信息提取。
2.根据权利要求1所述的方法,其特征在于,所述获取指定的信息提取任务模型包括:
获取指定模式的信息提取任务模板;所述指定模式为:按照规则提取信息模式,或者,利用人工智能模型提取信息模式。
3.根据权利要求2所述的方法,其特征在于,所述信息提取任务为数据抽取任务,所述信息提取任务模板包括:
数据读取模块,位于所述数据读取模块之后的指定模式的数据抽取模块,位于所述数据抽取模块之后的数据写入模块。
4.根据权利要求2所述的方法,其特征在于,所述信息提取任务为画像生成任务,所述信息提取任务模板包括:
数据读取模块,位于所述数据读取模块之后的指定模式的数据抽取模块,位于所述数据抽取模块之后的标签生成模块,位于所述标签生成模块之后的数据写入模块。
5.根据权利要求3或4所述的方法,其特征在于,所述接收针对各个功能模块的配置信息包括:
接收针对所述数据读取模块的数据来源信息;
接收针对所述数据抽取模块的数据抽取逻辑配置信息;
接收针对所述数据写入模块的信息表相关信息;
当所述信息抽取任务为画像生成任务时,接收针对所述标签生成模块的各标签对应的词法和句法。
6.根据权利要求1所述的方法,其特征在于,所述按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,包括:
按照所述有向无环图定义的各功能模块的顺序,在所述信息提取任务中确定一个功能模块作为目标模块;
向所述目标模块发送目标数据,以触发所述目标模块基于所述目标数据执行预设逻辑;所述目标数据中包括所述目标模块的配置信息,和/或,所述目标模块的上一功能模块输出的数据;
获取所述目标模块输出的数据;
若所述目标模块不是所述信息提取任务中最后一个功能模块,返回执行所述按照所述有向无环图在所述信息提取任务中确定一个功能模块作为目标模块的步骤。
7.根据权利要求6所述的方法,其特征在于,所述向所述目标模块发送目标数据包括:
当所述目标模块是入度非零的功能模块,且向所述目标模块发送所述目标模块的上一功能模块输出的数据时,分至少两次向所述目标模块发送所述目标模块的上一功能模块输出的数据。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取指定的信息提取任务模板;所述信息提取任务模板包括若干个功能模块,所述若干个功能模块以有向无环图的方式组织,不同的功能模块用于执行所述信息提取任务的不同阶段;
配置模块,用于接收针对各个功能模块的配置信息,得到信息提取任务;
调度模块,用于接收执行指令,按照所述有向无环图定义的各功能模块的顺序,对所述信息提取任务中的各功能模块进行调度,以进行信息提取。
9.一种终端设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-7中任一项所述的数据处理方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的数据处理方法的各个步骤。
CN201910727482.3A 2019-08-07 2019-08-07 数据处理方法、装置、可读存储介质及终端设备 Active CN110442441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910727482.3A CN110442441B (zh) 2019-08-07 2019-08-07 数据处理方法、装置、可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910727482.3A CN110442441B (zh) 2019-08-07 2019-08-07 数据处理方法、装置、可读存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN110442441A true CN110442441A (zh) 2019-11-12
CN110442441B CN110442441B (zh) 2024-03-12

Family

ID=68433952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910727482.3A Active CN110442441B (zh) 2019-08-07 2019-08-07 数据处理方法、装置、可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN110442441B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209268A (zh) * 2020-01-13 2020-05-29 北京明略软件系统有限公司 有向无环图配置方法、数据处理方法、装置及配置平台
CN111258555A (zh) * 2020-01-15 2020-06-09 上海知白智能科技有限公司 软件实现装置
CN113568666A (zh) * 2021-06-07 2021-10-29 阿里巴巴新加坡控股有限公司 图像的处理方法、装置、存储介质和处理器
CN114500095A (zh) * 2022-02-25 2022-05-13 上海富数科技有限公司 数据处理方法、装置、电子设备及存储介质
CN115114410A (zh) * 2022-08-26 2022-09-27 合肥图谱智能科技有限公司 构建信息抽取模型的方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228754A (zh) * 2017-12-21 2018-06-29 深圳市融讯科技有限公司 流程生成方法及终端设备
CN108256870A (zh) * 2016-12-27 2018-07-06 阿里巴巴集团控股有限公司 基于拓扑结构生成描述信息及更新、数据处理方法和装置
WO2019047480A1 (zh) * 2017-09-08 2019-03-14 深圳壹账通智能科技有限公司 程序更新方法、计算机可读存储介质、终端设备及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256870A (zh) * 2016-12-27 2018-07-06 阿里巴巴集团控股有限公司 基于拓扑结构生成描述信息及更新、数据处理方法和装置
WO2019047480A1 (zh) * 2017-09-08 2019-03-14 深圳壹账通智能科技有限公司 程序更新方法、计算机可读存储介质、终端设备及装置
CN108228754A (zh) * 2017-12-21 2018-06-29 深圳市融讯科技有限公司 流程生成方法及终端设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209268A (zh) * 2020-01-13 2020-05-29 北京明略软件系统有限公司 有向无环图配置方法、数据处理方法、装置及配置平台
CN111258555A (zh) * 2020-01-15 2020-06-09 上海知白智能科技有限公司 软件实现装置
CN113568666A (zh) * 2021-06-07 2021-10-29 阿里巴巴新加坡控股有限公司 图像的处理方法、装置、存储介质和处理器
CN113568666B (zh) * 2021-06-07 2024-05-24 阿里巴巴创新公司 图像的处理方法、装置、存储介质和处理器
CN114500095A (zh) * 2022-02-25 2022-05-13 上海富数科技有限公司 数据处理方法、装置、电子设备及存储介质
CN115114410A (zh) * 2022-08-26 2022-09-27 合肥图谱智能科技有限公司 构建信息抽取模型的方法、装置、电子设备及存储介质
CN115114410B (zh) * 2022-08-26 2022-11-25 合肥图谱智能科技有限公司 构建信息抽取模型的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110442441B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN110442441B (zh) 数据处理方法、装置、可读存储介质及终端设备
CN109684057B (zh) 任务处理方法、装置和存储介质
US20060112383A1 (en) Method and apparatus for solution-template based deployment and management of an integration solution
KR20110023755A (ko) 통합 환경 생성기
CN111459889A (zh) 一种用于物联网平台的设备数据模型生成方法和装置
JP2007122135A (ja) 開発支援装置、開発支援方法、および、開発支援プログラム
US7444618B2 (en) Automatic generation of batch programs with identification, insertion of invariables, declarative statements and variables with the use of place-marks
CN114691132A (zh) 一种arxml文件生成方法、装置、设备及存储介质
EP3712732A1 (en) System mehtod and computer-implemented program for commissioning field device
CN113703755A (zh) 代码生成方法及代码生成装置
CN112596706A (zh) 模式化代码生成方法、装置和计算机可读存储介质
CN112182115A (zh) 关系的展示方法和装置、存储介质、电子装置
CN114995876B (zh) 算法方案的生成方法、设备及计算机可读存储介质
CN104156209A (zh) 跨平台应用界面建模方法及装置
CN115033249A (zh) 文件编译方法以及装置
CN113961238A (zh) 对象转换方法、装置及电子设备和存储介质
CN114022105A (zh) 数据处理方法、装置、电子设备和可读存储介质
CN113867714A (zh) 一种适配多语言的自动代码生成方法
CN115686733A (zh) 一种服务的部署方法、装置、电子设备及存储介质
Trias et al. Reverse engineering applied to CMS-based Web applications coded in PHP: A proposal of migration
CN115167833B (zh) 编程方法、可执行程序的执行方法及装置
CN111221787A (zh) 一种文件处理方法及装置
CN115495442B (zh) 数据库操作文件生成方法、装置、设备及存储介质
EP4242837A1 (en) Data processing apparatus and method
CN106484491B (zh) 云编译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment