CN111061743A - 数据加工方法、装置和电子设备 - Google Patents

数据加工方法、装置和电子设备 Download PDF

Info

Publication number
CN111061743A
CN111061743A CN201911356858.0A CN201911356858A CN111061743A CN 111061743 A CN111061743 A CN 111061743A CN 201911356858 A CN201911356858 A CN 201911356858A CN 111061743 A CN111061743 A CN 111061743A
Authority
CN
China
Prior art keywords
data
attribute
data processing
attribute mapping
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911356858.0A
Other languages
English (en)
Other versions
CN111061743B (zh
Inventor
江涛
严晖
王冠朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201911356858.0A priority Critical patent/CN111061743B/zh
Publication of CN111061743A publication Critical patent/CN111061743A/zh
Application granted granted Critical
Publication of CN111061743B publication Critical patent/CN111061743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据加工方法、装置和电子设备,涉及数据属性映射技术。数据加工方法包括:根据第一指令,获取目标地址的数据;根据第二指令,在预存储的属性映射模板库中选择属性映射模板,其中属性映射模板用于对获取的数据进行属性映射,以使获取的数据符合目标格式;基于获取的数据以及属性映射模板,创建数据处理任务;运行数据处理任务以得到目标格式的数据。利用本申请实施例能够便捷地实现数据属性映射处理。

Description

数据加工方法、装置和电子设备
技术领域
本申请涉及数据加工技术领域,尤其涉及数据属性映射技术领域。
背景技术
数据结构(Data Structure)通常指计算机存储和组织数据的方式,是带有结构特性的数据元素的集合,“结构”指的是数据元素之间存在的关系,包括逻辑结构、物理结构和存储结构。以逻辑结构为例,数据结构中的元素存在一对多的相互关系,可形成树形结构;数据结构中的元素存在多对多的相互关系,可形成图形结构。数据的属性(Attribute)对应数据字段,表示数据对象的特征。
以往,在需要进行数据结构变形或数据属性映射时,大多数情况下需要人工编写程序实现,以属性映射为例,研发工程师根据数据规范编写并调试对应的映射程序,对数据源进行映射解析。
但是,人工编写程序进行属性映射要求程序编写人员具有相应的编程功底,具有一定的技术门槛;另外,由于这类映射解析程序大多难以复用,数据生产过程需要不断的投入人力,处理效率难以提高。当前,随着数据规范不断增多,这类映射解析程序的需求变得越来越多,且难以维护,通用性和可维护性均较低,重复性的人工编程占用相当的时间,导致数据加工效率低下。
发明内容
有鉴于此,本申请实施例提供一种数据加工方法、装置、电子设备和存储介质。
第一方面,本申请实施例提供一种数据加工方法,方法包括:
根据第一指令,获取目标地址的数据;
根据第二指令,在预存储的属性映射模板库中选择属性映射模板,其中属性映射模板用于对获取的数据进行属性映射,以使获取的数据符合目标格式;
基于获取的数据以及属性映射模板,创建数据处理任务;
运行数据处理任务以得到目标格式的数据。
本申请的实施例利用已存储的属性映射模板对数据进行处理,可将数据加工为目标格式的数据,达到数据属性映射的目的,并且由于采用预存储的属性映射模板进行数据加工,能够直接使用已经编写、配置好的映射程序进行数据加工,从而免去每次人工重新编写程序的环节,能够将人力从中解放出来,并且数据加工的耗时缩短,数据加工的效率得到大幅提高。
根据本申请实施例的方法,该数据加工方法还包括:根据第三指令,配置第一属性映射模板,其中第一属性映射模板未存储在属性映射模板库中。
这样处理的好处是,对于属性映射模板库中缺乏的属性映射模板,用户可根据需要进行新模板的配置,并且可将配置好的新模板存储在模板库中,后续可再次选择使用,实现数据映射程序的重复利用。
根据本申请实施例的方法,第三指令为用户指令;根据第三指令,配置第一属性映射模板,包括:
根据用户指令在预存储的属性模块集合中获取多个属性模块,其中每个属性模块对应数据的至少一个字段;
根据用户指令对多个属性模块进行编辑,以得到第一属性映射模板。
这样处理的好处是,用户可以在预先存储的属性模块集合中选择需要的属性模块,然后根据需求进行编辑配置,从而创建需要的属性映射模板,整个过程不涉及具体的编程,操作简便,技术门槛低。
根据本申请实施例的方法,多个属性模块包括多个具有层级关系的键值对,其中,键表示数据的一个字段,值为字段对应的数据。
这样处理的好处是,可以直观地将各个数据属性之间的关系展示出来,用户在选择配置时更为直观、便捷,可达到较高的用户满意度。
根据本申请实施例的方法,该数据加工方法还包括:
在获取的数据的量大于等于预定阈值的情况下,将创建的数据处理任务分配为集群运行任务;以及,
在获取的数据的量小于预定阈值的情况下,将创建的数据处理任务分配为单机运行任务。
这样处理的好处是,根据任务涉及的数据处理量确定以单机处理或者以计算机集群处理,能够在最大限度上合理利用资源,实现资源和任务的优化组合。
根据本申请实施例的方法,该数据加工方法还包括:在已创建多个数据处理任务的情况下,以异步方式运行多个数据处理任务。
这样处理的好处是,当待运行的任务数较多时,采用异步方式进行处理,能够更大限度上提高整体处理效率,进一步压缩耗时。
根据本申请实施例的方法,该数据加工方法还包括:根据预设规则,对获取的数据进行过滤;其中,预设规则包括以下多者中的至少一者:
将属性映射模板中不存在的属性的数据删除;
将与属性映射模板中的属性类型不符的数据删除;
将字段值为空的属性的数据删除;
将字段值为非法字符的属性的数据删除;
将不符合Schema模式规范的属性的数据删除;
将噪声数据删除。
这样处理的好处是,根据用户选择的模板对数据进行预处理,将与模板属性不符的数据和/或噪声数据等移除,能够在不影响属性映射的前提下,加快映射处理速度。
根据本申请实施例的方法,将经过属性映射的目标格式的数据输出,便于用户查看。
第二方面,本申请实施例提供一种数据加工装置,包括:
数据获取组件,用于根据第一指示获取目标地址的数据;
模板选择组件,用于根据第二指令在预存储的属性映射模板库中选择属性映射模板,其中属性映射模板用于对数据获取组件获取的数据进行属性映射,以使获取的数据符合目标格式;
任务创建组件,用于基于数据获取组件获取的数据以及模板选择组件选择的属性映射模板,创建数据处理任务;
任务运行组件,用于运行数据处理任务以得到目标格式的数据。
根据本申请实施例的数据加工装置,数据加工装置还包括:
模板配置组件,用于根据第三指令,配置第一属性映射模板,其中第一属性映射模板未存储在属性映射模板库中。
根据本申请实施例的数据加工装置,第三指令为用户指令;模板配置组件包括:属性模块获取单元和属性模块编辑单元,其中,
属性模块获取单元用于根据用户指令在预存储的属性模块集合中获取多个属性模块,其中每个属性模块对应数据的至少一个字段;
属性模块编辑单元用于根据用户指令对多个属性模块进行编辑,以得到第一属性映射模板。
根据本申请实施例的数据加工装置,数据加工装置还包括:
任务分配组件,用于在数据获取组件获取的数据的量大于等于预定阈值的情况下,将任务创建组件创建的数据处理任务分配为集群运行任务,以及,在数据获取组件获取的数据的量小于预定阈值的情况下,将任务创建组件创建的数据处理任务分配为单机运行任务。
根据本申请实施例的数据加工装置,数据加工装置还包括:
任务调度组件,用于在任务创建组件已创建多个数据处理任务的情况下,以异步方式运行多个数据处理任务。
根据本申请实施例的数据加工装置,数据加工装置还包括:
数据过滤组件,用于根据预设规则,对获取的数据进行过滤;其中,预设规则包括以下多者中的至少一者:
将属性映射模板中不存在的属性的数据删除;
将与属性映射模板中的属性类型不符的数据删除;
将字段值为空的属性的数据删除;
将字段值为非法字符的属性的数据删除;
将不符合Schema模式规范的属性的数据删除;
将噪声数据删除。
根据本申请实施例的数据加工装置,数据加工装置还包括:
可视化交互界面,用于接收用户指示以及显示数据属性映射后得到的目标格式的数据。
第三方面,本申请实施例还提供一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的数据加工方法。
第四方面,本申请实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如上的数据加工方法。
本申请的实施例利用预先存储的属性映射模板对数据进行处理,可将数据加工为目标格式的数据,达到数据属性映射的目的,并且由于采用预存储的属性映射模板进行数据加工,能够直接使用已经编写、配置好的映射程序进行数据加工,从而免去每次人工重新编写程序的环节,能够将人力从中解放出来,并且数据加工的耗时缩短,数据加工的效率得到大幅提高。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请一个实施例的数据加工方法的处理流程图;
图2是本申请另一实施例的数据加工方法的处理流程图;
图3是本申请一个实施例的数据加工装置的结构框图;
图4是本申请另一实施例的数据加工装置的结构框图;
图5是本申请实施例中的模板配置组件的结构框图;
图6-9是本申请实施例的数据加工装置的可视化交互页面的效果示意图。
图10是用来实现本申请实施例的数据加工方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
参考图1,本申请实施例提供的数据加工方法,包括如下步骤:
S101,根据第一指令,获取目标地址的数据;
S102,根据第二指令,在预存储的属性映射模板库中选择属性映射模板,其中属性映射模板用于对获取的数据进行属性映射,以使获取的数据符合目标格式;
S103,基于获取的数据以及属性映射模板,创建数据处理任务;
S104,运行数据处理任务以得到目标格式的数据。
在本申请的实施例中,第一指令以及第二指令,均可为用户根据需求输入的指令,目标地址可为预先储存的地址,也可为用户输入的新的数据地址。在本申请的实施例中,可将数据源从目标地址导入指定的服务器上,作为待处理的数据,为数据加工做准备。
在本申请的实施例中,属性映射模板库包括多个预先配置并存储的属性映射模板,属性映射模板用于对数据进行属性映射,在任务运行过程中,利用属性映射模板对数据进行加工,可将数据转换为目标格式,实现数据的属性映射,输出符合用户需求的结构数据。
本申请的实施例利用已存储的属性映射模板对数据进行处理,可将数据加工为目标格式的数据,达到数据属性映射的目的,并且由于采用预存储的属性映射模板进行数据加工,能够直接使用已经编写、配置好的映射程序进行数据加工,从而免去每次人工重新编写程序的环节,能够将人力从中解放出来,并且数据加工的耗时缩短,数据加工的效率得到大幅提高。
进一步,图2示出了本申请另一实施例的数据加工方法,包括:
S201,根据第一指令,获取目标地址的数据;
S202,根据第三指令,配置第一属性映射模板,其中第一属性映射模板未存储在属性映射模板库中;
S203,基于获取的数据以及第一属性映射模板,创建数据处理任务;
S204,运行数据处理任务以得到目标格式的数据。
在本申请的实施例中,对于属性映射模板库中未收录的模板,用户可根据需求自行创建并保存在属性映射模板库中,本次任务完成后,在其他任务中可再次调用创建的模板,实现编程成果的再利用,避免重复劳动。
在本申请的实施例中,第三指令为用户指令;根据第三指令,配置第一属性映射模板,包括:
根据用户指令在预存储的属性模块集合中获取多个属性模块,其中每个属性模块对应数据的至少一个字段;以及
根据用户指令对多个属性模块进行编辑,以得到第一属性映射模板。
在本申请实施例中,用户可以在预先存储的属性模块集合中,选择需要的属性模块,然后根据需求进行编辑配置,从而创建需要的属性映射模板,整个过程不涉及具体的编程,操作简便。
在本申请的实施例中,多个属性模块包括多个具有层级关系的键值对,其中,键表示数据的一个字段,值为字段对应的数据。如此可以直观地将各个数据属性之间的关系展示出来,用户在选择配置时更为直观、便捷,可达到较高的用户满意度。在本申请的实施例中,键可为定义好的字段,例如包括Schema规范字段、透传字段和自定义字段,值为按照属性映射模板加工后对应的数据,可设置为支持一对一映射或一对多映射,可满足用户的使用需求。
根据本申请实施例的方法,该数据加工方法还包括:在获取的数据的量大于等于预定阈值的情况下,将创建的数据处理任务分配为集群运行任务;以及,在获取的数据的量小于预定阈值的情况下,将创建的数据处理任务分配为单机运行任务。
具体地,在一种实现方式中,如果用户指定任务运行的方式,例如指定单机执行,则采用单机方式执行任务。
在另一种实现方式中,如果用户未明确指定运行方式,则可计算数据源大小,根据大小选择合适的方式运行任务,例如数据量小于30MB时,确定为单机运行,如果数据量大于等于30MB,确定为集群运行。由此在最大限度上合理利用资源,实现资源和任务的优化组合。
根据本申请实施例的方法,该数据加工方法还包括:在已创建多个数据处理任务的情况下,以异步方式运行多个数据处理任务。
具体地,可设置为多任务采用异步方式逐个运行,将任务传递给消息队列,单机或者集群从消息队列中取得任务,运行完成之后回调通知,供用户查看。当待运行的任务数较多时,采用异步方式进行处理能够进一步提高整体运行效率,进一步压缩耗时。
根据本申请实施例的方法,该数据加工方法还包括:根据预设规则,对获取的数据进行过滤;其中,预设规则包括以下多者中的至少一者:
①将属性映射模板中不存在的属性的数据删除;
②将与属性映射模板中的属性类型不符的数据删除;
③将字段值为空的属性的数据删除;
④将字段值为非法字符的属性的数据删除;
⑤将不符合Schema模式规范的属性的数据删除;
⑥将噪声数据删除。
本申请的实施例根据用户选择的模板对数据进行预处理,将与模板属性不符和的数据或噪声数据等移除,能够在不影响属性映射的前提下,加快映射处理速度。
除此之外,根据本申请实施例的数据加工方法,可构建一数据加工装置,用户可通过该数据加工装置实现上述方法。参考图3,数据加工装置包括如下组件:
数据获取组件10,用于根据第一指令获取目标地址的数据;
模板选择组件20,用于根据第二指令在预存储的属性映射模板库中选择属性映射模板,其中属性映射模板用于对数据获取组件获取的数据进行属性映射,以使获取的数据符合目标格式;
任务创建组件30,用于基于数据获取组件获取的数据以及模板选择组件选择的属性映射模板,创建数据处理任务;
任务运行组件40,用于运行数据处理任务以得到目标格式的数据。
在本申请的实施例中,参考图4,该数据加工装置还包括模板配置组件50,用于根据第三指令配置第一属性映射模板,其中第一属性映射模板未存储在属性映射模板库中。
参考图5,在本申请的实施例中,第三指令为用户指令;模板配置组件50包括:属性模块获取单元501和属性模块编辑单元502,其中,
属性模块获取单元501用于根据用户指令在预存储的属性模块集合中获取多个属性模块,其中每个属性模块对应数据的至少一个字段;
属性模块编辑单元502用于根据用户指令对多个属性模块进行编辑,以得到第一属性映射模板。
在本申请的实施例中,数据加工装置还包括:任务分配组件,用于在数据获取组件获取的数据的量大于等于预定阈值的情况下,将任务创建组件创建的数据处理任务分配为集群运行任务,以及,在数据获取组件获取的数据的量小于预定阈值的情况下,将任务创建组件创建的数据处理任务分配为单机运行任务。
在本申请的实施例中,数据加工装置还包括:任务调度组件,用于在任务创建组件已创建多个数据处理任务的情况下,以异步方式运行多个数据处理任务。
在本申请的实施例中,数据加工装置还包括:可视化交互界面,用于接收用户指示以及显示数据属性映射后得到的目标格式的数据。
利用本申请实施例的数据加工装置,能够便捷地实现数据属性映射处理。进一步地,基于本申请实施例的数据加工装置可设计一套简单易用的交互平台,便于用户操作。通过平台操作可完成数据加处理任务的创建,使平台运行该任务,技术门槛低,且处理效率高。
图6-9示意性地示出了本申请实施例的数据加工装置的交互平台的若干可视化交互页面,其中,图6所示的页面对应数据获取组件10,图7所示的页面对应模板选择组件20,图8所示的页面对应模板配置组件,图9所示的页面对应任务创建组件30。
用户操作时,首先,可通过图6所示的页面输入目标数据的名称和目标地址。
其次,用户通过图7所示的页面输入选择的属性映射模板,用户还可以选择创建新的模板,其中,用户可通过图8所示的页面直观地查看选中的属性映射模板,其中,模板的属性字段及样例数据显示在“样例数据区”,对应的可选模板显示在“模板区”,供用户直观地查看。
再次,通过图9所示的页面,用户可为任务命名名称和任务描述,便于记录和归类;还可选择以单机运行或集群运行,默认为“自动选择”,即由系统根据数据源的数据量大小确定以单机运行或集群运行,点击“提交任务”,便可创建数据处理任务。其中,数据地址和绑定的属性映射模板为前两步操作中确定的,无需再次输入。
最后,数据加工装置的交互平台收到新创建的数据处理任务之后,运行该任务。
以下以本申请一个具体的实施例,描述具体的过程如下:
运行数据映射的任务时,首先,数据获取组件10根据jsonpath对目标地址的数据源进行定位,解析出待映射的目标地址的数据集,并将数据集导入至服务器上,为数据加工做准备。其中,数据获取组件10可支持ftp、http、hdfs等数据引入方式。
在对数据集进行属性映射之前,还可根据预设规则,对数据集进行过滤;其中,预设规则包括以下多者中的至少一者:
①将属性映射模板中不存在的属性的数据删除;
②将与属性映射模板中的属性类型不符的数据删除;
③将字段值为空的属性的数据删除;
④将字段值为非法字符的属性的数据删除;
⑤将不符合Schema模式规范的属性的数据删除;
⑥将噪声数据删除。
此外,还可根据属性映射模板对数据做进一步处理,例如必要的正则替换、格式转换和/或添加额外属性等。
然后,任务运行组件40实施数据属性映射的处理,将待处理的数据源转换为属性映射模板中的目标格式数据,并且按照任务设置的单机或集群方式运行,在本申请的一种实施方式中,数据属性映射任务过程可基于如下映射算法实现:
具体地,将用户指定的属性映射模板解析为一多级映射词典,各级中的键为模板中的规范字段,值为符合规范的嵌套词典,最深一级的词典的值是符合Schema规范的目标字段。基于此,从服务器上逐行读取数据源,每读取到一个字段时,提取出字段的值,根据字段属性映射到不同的词典中,例如:String、Number、Boolean属性将会被映射为单一层级的词典,而Array、Object属性将会被映射为多层词典,直至数据源的全部数据映射完毕。
在完成属性映射之后,还可对数据进行规范检查,例如消除重复的数据,包括重复的行和重复的字段;此外,如果规范中包括正则要求,还应对数据进行正则检查,将不符合正则要求的数据丢弃。
最后,上述任务加工处理完成之后,可将数据序列化并持久化到磁盘上。
在本申请实施例中,当待运行的任务较多时,可采取异步方式逐个运行,将任务传递给消息队列,单机或者集群从消息队列中取得任务,运行完成之后回调通知,并且将通知结果显示在页面上,供用户查看,用户在平台上获取最终的属性映射结果。
本申请实施例提供的数据加工装置的可视化的交互页面可有效降低属性映射门槛,简单的点选操作即可配置映射解析程序,同时映射模板由平台预存储,方便了映射模版的创建和修改,使得同一个数据规范的模板易于维护和复用,映射解析程序配置完成之后,由平台执行属性映射,省去了部署生产环境的过程,可极大的提高数据属性映射的处理效率。
本发明实施例各装置中的各模块的功能及其作用可以参见上述数据加工方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
图10是根据本申请实施例的数据加工方法的电子设备的框图。如图10所示,电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface,GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的数据加工方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据加工方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据加工方法对应的程序指令/模块(例如,附图3所示的数据获取组件10、模板选择组件20、任务创建组件30和任务运行组件40)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据加工方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据搜索结果的分析处理电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至搜索结果的分析处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
数据加工方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与搜索结果的分析处理电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(Liquid Crystal Display,LCD)、发光二极管(Light EmittingDiode,LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits,ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(programmable logic device,PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode RayTube,阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide AreaNetwork,WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (17)

1.一种数据加工方法,其特征在于,包括:
根据第一指令,获取目标地址的数据;
根据第二指令,在预存储的属性映射模板库中选择属性映射模板,其中所述属性映射模板用于对获取的数据进行属性映射,以使获取的数据符合目标格式;
基于所述获取的数据以及所述属性映射模板,创建数据处理任务;
运行所述数据处理任务以得到目标格式的数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据第三指令,配置第一属性映射模板,其中所述第一属性映射模板未存储在所述属性映射模板库中。
3.根据权利要求2所述的方法,其特征在于,所述第三指令为用户指令;
所述根据第三指令,配置第一属性映射模板,包括:
根据用户指令,在预存储的属性模块集合中获取多个属性模块,其中每个属性模块对应数据的至少一个字段;
根据用户指令对所述多个属性模块进行编辑,以得到所述第一属性映射模板。
4.根据权利要求3所述的方法,其特征在于,所述多个属性模块包括多个具有层级关系的键值对,其中,键表示数据的一个字段,值为字段对应的数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述获取的数据的量大于等于预定阈值的情况下,将创建的数据处理任务分配为集群运行任务;以及,
在所述获取的数据的量小于预定阈值的情况下,将创建的数据处理任务分配为单机运行任务。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在已创建多个数据处理任务的情况下,以异步方式运行所述多个数据处理任务。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设规则,对所述获取的数据进行过滤;其中,所述预设规则包括以下多者中的至少一者:
将所述属性映射模板中不存在的属性的数据删除;
将与所述属性映射模板中的属性类型不符的数据删除;
将字段值为空的属性的数据删除;
将字段值为非法字符的属性的数据删除;
将不符合Schema模式规范的属性的数据删除;
将噪声数据删除。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:将经过属性映射的目标格式的数据输出。
9.一种数据加工装置,其特征在于,包括:
数据获取组件,用于根据第一指示获取目标地址的数据;
模板选择组件,用于根据第二指令在预存储的属性映射模板库中选择属性映射模板,其中所述属性映射模板用于对所述数据获取组件获取的数据进行属性映射,以使获取的数据符合目标格式;
任务创建组件,用于基于所述数据获取组件获取的数据以及所述模板选择组件选择的属性映射模板,创建数据处理任务;
任务运行组件,用于运行所述数据处理任务以得到目标格式的数据。
10.根据权利要求9所述的数据加工装置,其特征在于,所述数据加工装置还包括:
模板配置组件,用于根据第三指令,配置第一属性映射模板,其中所述第一属性映射模板未存储在所述属性映射模板库中。
11.根据权利要求10所述的数据加工装置,其特征在于,所述第三指令为用户指令;
所述模板配置组件包括:属性模块获取单元和属性模块编辑单元,其中,
所述属性模块获取单元用于根据用户指令在预存储的属性模块集合中获取多个属性模块,其中每个属性模块对应数据的至少一个字段;
所述属性模块编辑单元用于根据用户指令对所述多个属性模块进行编辑,以得到所述第一属性映射模板。
12.根据权利要求9所述的数据加工装置,其特征在于,所述数据加工装置还包括:
任务分配组件,用于在所述数据获取组件获取的数据的量大于等于预定阈值的情况下,将所述任务创建组件创建的数据处理任务分配为集群运行任务,以及,在所述数据获取组件获取的数据的量小于预定阈值的情况下,将所述任务创建组件创建的数据处理任务分配为单机运行任务。
13.根据权利要求9所述的数据加工装置,其特征在于,所述数据加工装置还包括:
任务调度组件,用于在所述任务创建组件已创建多个数据处理任务的情况下,以异步方式运行所述多个数据处理任务。
14.根据权利要求9所述的数据加工装置,其特征在于,所述数据加工装置还包括:
数据过滤组件,用于根据预设规则,对所述获取的数据进行过滤;其中,所述预设规则包括以下多者中的至少一者:
将所述属性映射模板中不存在的属性的数据删除;
将与所述属性映射模板中的属性类型不符的数据删除;
将字段值为空的属性的数据删除;
将字段值为非法字符的属性的数据删除;
将不符合Schema模式规范的属性的数据删除;
将噪声数据删除。
15.根据权利要求9-14中任一项所述的数据加工装置,其特征在于,所述数据加工装置还包括:
可视化交互界面,用于接收用户指示以及显示数据属性映射后得到的目标格式的数据。
16.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器还存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
17.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN201911356858.0A 2019-12-25 2019-12-25 数据加工方法、装置和电子设备 Active CN111061743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911356858.0A CN111061743B (zh) 2019-12-25 2019-12-25 数据加工方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911356858.0A CN111061743B (zh) 2019-12-25 2019-12-25 数据加工方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111061743A true CN111061743A (zh) 2020-04-24
CN111061743B CN111061743B (zh) 2023-10-31

Family

ID=70303448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911356858.0A Active CN111061743B (zh) 2019-12-25 2019-12-25 数据加工方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111061743B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948479A (zh) * 2021-04-16 2021-06-11 深圳市今天国际物流技术股份有限公司 一种基于aviator数据结构之间相互转换方法
CN113626667A (zh) * 2021-08-09 2021-11-09 杭州安恒信息技术股份有限公司 一种数据可视化方法、系统、装置及计算机可读存储介质
CN114666358A (zh) * 2020-12-23 2022-06-24 北京首信科技股份有限公司 数据汇聚方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080306910A1 (en) * 2007-06-08 2008-12-11 Hardeep Singh Method and process for end users to query hierarchical data
US20090138429A1 (en) * 2007-11-26 2009-05-28 International Business Machines Corporation Sructure Based Storage, Query, Update and Transfer of Tree-Based Documents
US7640497B1 (en) * 2003-12-22 2009-12-29 Apple Inc. Transforming a hierarchical data structure according to requirements specified in a transformation template
CN103294462A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 对象映射处理方法、映射处理器和对象映射处理系统
CN109669644A (zh) * 2019-01-02 2019-04-23 浪潮商用机器有限公司 一种数据存储的方法和装置
CN110147536A (zh) * 2019-05-24 2019-08-20 深圳市多翼创新科技有限公司 一种基于文件映射的数据处理方法、装置及设备
CN110189802A (zh) * 2019-04-28 2019-08-30 万达信息股份有限公司 基于指标存储模型的双向映射队列研究信息系统
CN110245175A (zh) * 2019-06-19 2019-09-17 山东浪潮商用系统有限公司 一种基于大数据的可视化加工处理系统及方法
CN110347732A (zh) * 2019-05-20 2019-10-18 中国平安人寿保险股份有限公司 一种数据转换方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640497B1 (en) * 2003-12-22 2009-12-29 Apple Inc. Transforming a hierarchical data structure according to requirements specified in a transformation template
US20080306910A1 (en) * 2007-06-08 2008-12-11 Hardeep Singh Method and process for end users to query hierarchical data
US20090138429A1 (en) * 2007-11-26 2009-05-28 International Business Machines Corporation Sructure Based Storage, Query, Update and Transfer of Tree-Based Documents
CN103294462A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 对象映射处理方法、映射处理器和对象映射处理系统
CN109669644A (zh) * 2019-01-02 2019-04-23 浪潮商用机器有限公司 一种数据存储的方法和装置
CN110189802A (zh) * 2019-04-28 2019-08-30 万达信息股份有限公司 基于指标存储模型的双向映射队列研究信息系统
CN110347732A (zh) * 2019-05-20 2019-10-18 中国平安人寿保险股份有限公司 一种数据转换方法及装置
CN110147536A (zh) * 2019-05-24 2019-08-20 深圳市多翼创新科技有限公司 一种基于文件映射的数据处理方法、装置及设备
CN110245175A (zh) * 2019-06-19 2019-09-17 山东浪潮商用系统有限公司 一种基于大数据的可视化加工处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PIETRANIK, M.等: "Attribute Mapping as a Foundation of Ontology Alignment", 《ACIIDS 2011. LECTURE NOTES IN COMPUTER SCIENCE》 *
魏群 等: "一种新的产品数据模型到XML的映射方法XDE", 《制造业自动化》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666358A (zh) * 2020-12-23 2022-06-24 北京首信科技股份有限公司 数据汇聚方法及装置
CN112948479A (zh) * 2021-04-16 2021-06-11 深圳市今天国际物流技术股份有限公司 一种基于aviator数据结构之间相互转换方法
CN113626667A (zh) * 2021-08-09 2021-11-09 杭州安恒信息技术股份有限公司 一种数据可视化方法、系统、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111061743B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
WO2022000802A1 (zh) 深度学习模型的适配方法、装置及电子设备
KR20220001008A (ko) 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램
CN111061743B (zh) 数据加工方法、装置和电子设备
CN111158666B (zh) 实体归一化处理方法、装置、设备及存储介质
CN110532487B (zh) 标签的生成方法及装置
CN112000330B (zh) 建模参数的配置方法、装置、设备和计算机存储介质
CN110852449A (zh) 模型迁移方法和电子设备
CN112506479A (zh) 页面编辑的方法、装置、设备以及存储介质
CN111291082B (zh) 数据聚合处理方法、装置、设备及存储介质
CN113535831A (zh) 一种基于大数据的报表分析方法、装置、设备和介质
CN112270413A (zh) 算子合并方法、装置、电子设备及存储介质
CN111782147A (zh) 用于集群扩缩容的方法和装置
JP2022013658A (ja) オプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラム
CN111767059B (zh) 深度学习模型的部署方法、装置、电子设备和存储介质
CN111125451B (zh) 数据生产加工方法、装置、电子设备及存储介质
CN111767149A (zh) 调度方法、装置、设备及存储设备
CN111845386A (zh) 电动单车的充电处理方法和控制设备
CN116009847A (zh) 代码生成方法、装置、电子设备及存储介质
CN111506399B (zh) 任务迁移方法、装置、电子设备及存储介质
CN113138760B (zh) 一种页面生成方法、装置、电子设备和介质
CN112560928B (zh) 负样本挖掘方法、装置、电子设备及存储介质
JP2022065641A (ja) ネットワークオペレータ処理方法、装置、電子デバイス、記憶媒体及びプログラム
CN112308127A (zh) 用于处理数据的方法、装置、设备以及存储介质
CN111738325A (zh) 图像识别方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant