CN113779343A - 一种海量数据处理方法、装置、介质及电子设备 - Google Patents

一种海量数据处理方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN113779343A
CN113779343A CN202111098143.7A CN202111098143A CN113779343A CN 113779343 A CN113779343 A CN 113779343A CN 202111098143 A CN202111098143 A CN 202111098143A CN 113779343 A CN113779343 A CN 113779343A
Authority
CN
China
Prior art keywords
data
comparison
model
label
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111098143.7A
Other languages
English (en)
Inventor
王涛
刘立兰
王梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202111098143.7A priority Critical patent/CN113779343A/zh
Publication of CN113779343A publication Critical patent/CN113779343A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种海量数据处理方法、装置、介质及电子设备。该方法包括:根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。本技术方案,能够提高海量数据处理效率高,优化大数据应用分析性能。

Description

一种海量数据处理方法、装置、介质及电子设备
技术领域
本申请实施例涉及大数据分析技术领域,尤其涉及一种海量数据处理方法、装置、介质及电子设备。
背景技术
随着互联网的发展,各种数据呈爆炸式增长,互联网海量数据其主要特点是价值密度较低,这些数据中随时会出现我们想要的信息,如何高效提取这些信息成为很多人迫切的需求。其中,海量数据可以是指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的数据。
目前,往往都会采用大数据技术对海量数据进行分析处理,从而提取有效信息。例如,采用Hadoop+Hive架构,通过Hive SQL实现数据的分析与查询。Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。
通过Hive SQL实现数据的分析与查询,没有对海量数据进行预先处理,数据量巨大时导致执行时间过长。
发明内容
本申请实施例提供一种海量数据处理方法、装置、介质及电子设备,能够提高海量数据处理效率高,优化大数据应用分析性能。
第一方面,本申请实施例提供了一种海量数据处理方法,该方法包括:
根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
第二方面,本申请实施例提供了一种海量数据处理装置,该装置包括:
标签数据得到模块,用于根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
目标数据得到模块,用于通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
第三方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的海量数据处理方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的海量数据处理方法。
本申请实施例所提供的技术方案,根据预先确定的标签规则对海量数据进行处理,得到标签数据;通过归并模型对标签数据进行分类处理,得到分类数据,并对分类数据进行压缩处理,得到目标数据,以用于对目标数据进行对比处理。本技术方案,能够提高海量数据处理效率高,优化大数据应用分析性能。
附图说明
图1是本申请实施例一提供的海量数据处理方法的流程图;
图2是本申请实施例一提供的模型实例调度执行的流程图;
图3是本申请实施例二提供的海量数据处理过程的示意图;
图4是本申请实施例二提供的可视化界面的结构示意图;
图5是本申请实施例三提供的海量数据处理装置的结构示意图;
图6是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的海量数据处理方法的流程图,本实施例可适用于对海量数据进行对比处理的情况,该方法可以由本申请实施例所提供的海量数据处理装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于数据处理的智能终端等设备中。
如图1所示,所述海量数据处理方法包括:
S110、根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
其中,海量数据可以是指基于互联网获得的数据量较大的数据。例如,购物网站中用户的购买记录、用户的电话通讯记录或者用户的出行轨迹等。
在本方案中,标签规则可以是由其他系统发送的用于对数据进行打标的规则。其中,标签规则可以是JSON(JavaScript Object Notation)格式的规则。可以根据标签规则的内容对海量数据进行标签打标,得到标签数据。
在本技术方案中,可选的,根据预先确定的标签规则对海量数据进行处理,得到标签数据,包括:
获取标签规则,并对所述标签规则进行解析,生成标签打标条件;其中,所述标签打标条件包括数据集、打标依据字段、打标逻辑以及打标字段;
根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标,得到标签数据。
其中,数据集可以是指海量数据的来源。例如,来源于用户的购物记录、用户的电话通讯记录或者用户的出行轨迹等。
在本实施例中,打标依据字段可以是指区分不同类别海量数据的字段,用于对海量数据进行分类。每条数据是由多个字段构成的,打标依据字段可以是数据中的一个字段,可以预先确定每条数据中的打标依据字段。
其中,打标逻辑可以是指具体的打标规则。例如,假设数据集为购物记录,打标依据字段是服饰,打标逻辑可以是大于等于100,即对购买量大于等于100的服饰进行打标。
在本方案中,打标字段可以是指数据中用于添加标签的字段。可以预先对打标字段进行确定。
在本实施例中,可以根据任务运行周期、起始时间等运行控制信息生成任务调度计划表,海量数据接入过程中,根据打标任务对海量数据进行打标,得到标签数据,并将标签数据输入到指定位置,并有其他入库程序实现数据入Hive库。
通过对海量数据进行打标,能够实现海量数据的标签化,有利于海量数据的处理分析。
在本技术方案中,可选的,在对所述标签规则进行解析,生成标签打标条件之后,所述方法还包括:
对所述标签打标条件进行校验,若校验通过,则根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标。
其中,可以对标签打标条件中的数据集或者打标依据字段进行校验,判断数据集或者打标依据字段是否为空,若为空,则校验不通过;若不为空,则校验通过。
在本方案中,若校验通过,依据合法的校验规则,标签引擎生成打标任务,海量数据接入过程中,根据打标任务对海量数据进行打标,得到标签数据。
通过对标签打标条件进行校验,能够提高海量数据进行打标的效率,且能够优化大数据应用分析性能。
S120、通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
在本实施例中,归并模型可以用于对标签数据进行分类,将同一类的数据划分为一类。例如,可以将标签相同的数据划分为同一类。
在本方案中,获得分类数据后,可以根据数据产生时间,按条统计频次或者按天统计发生天数,并记录数据首次、末次发生时间,将分类数据进行压缩,形成目标数据,并将目标数据存储到MPP数据库中。例如,基于购买记录,对食品、生活用品、服饰进行打标,进行将购买记录进行压缩处理,形成基于标签的购买归并数据。
通过对数据进行处理,可以实现数据的分类和压缩,有利于对海量数据进行处理分析,优化大数据应用分析性能。
在本技术方案中,可选的,通过归并模型对所述标签数据进行分类处理,得到分类数据,包括:
从预先配置的模型目录中获取模型描述文件和模型参数;
将所述模型参数添加至所述模型描述文件,生成模型文件;
对所述模型文件进行校验,若校验通过,则根据所述模型文件创建归并模型,并根据任务调度计划执行所述归并模型,对所述标签数据进行分类处理,得到分类数据。
在本实施例中,提供一套海量数据归并处理技术,该技术由数据源对接、模型XML、模型目录、模型分析服务、模型实例调度以及模型执行引擎六部分组成。
其中,数据源对接负责标签数据的输入;模型XML是带有数据分析目的的流程化过程描述文件,是具体模型的载体,即模型描述文件,可以由用户线下编写,并上传至模型目录中;模型目录负责模型XML存储;模型分析服务提供对外的模型分析服务接口;模型实例调度负责模型XML解析、模型分析实例生成、实例控制;模型执行引擎负责模型的具体执行。
在本方案中,通过数据源对接模块,设置标签数据的Hive连接,进而实现标签数据的对接。根据归并模型需求,线下手工编写模型描述文件,并将模型描述文件上传至模型目录中。模型实例调度用于从模型目录中获取模型描述文件和模型参数,并将模型参数添加至模型描述文件,生成模型文件,并将校验成功的模型文件写入调度计划。模型执行引擎根据调度计划执行模型文件,对标签数据进行分类处理,得到分类数据。
示例性的,图2是本申请实施例一提供的模型实例调度执行的流程图,如图2所示,由模型分析服务提供对外的模型分析服务接口,从模型目录中获取模型XML,即模型描述文件,并接收模型参数,将模型参数添加到模型描述文件生成模型文件,对模型文件进行解析,对模型文件中的字段信息进行校验,若校验通过,则基于模型文件创建模型实例,对模型实例是否重复进行校验,若重复,则返回调度状态;若不重复,则将将该模型实例写入执行调度计划。其中,调度计划中包含多个模型文件,由模型执行引擎根据调度计划执行模型文件,对标签数据进行分类处理,得到分类数据。
通过对标签数据进行分类处理,得到分类数据,并对分类数据进行压缩处理,能够减少海量数据的数据量,提高数据处理效率。
本申请实施例所提供的技术方案,根据预先确定的标签规则对海量数据进行处理,得到标签数据;通过归并模型对标签数据进行分类处理,得到分类数据,并对分类数据进行压缩处理,得到目标数据,以用于对目标数据进行对比处理。通过执行本技术方案,能够提高海量数据处理效率高,优化大数据应用分析性能。
实施例二
图3是本申请实施例二提供的海量数据处理过程的示意图,本实施例二在实施例一的基础上进行进一步地优化。具体优化为:在对所述分类数据进行压缩处理,得到目标数据之后,所述方法还包括:响应于输入操作,从所述目标数据中提取待处理数据,并响应于信息配置操作,对所述待处理数据进行信息配置,得到对比数据;根据所述对比数据,确定至少两个对比字段,并根据预设对比条件对所述至少两个对比字段进行处理,得到对比结果;其中,所述对比条件包括交对比、并对比和差对比中的至少一种。其中,未在本实施例中详尽描述的内容详见实施例一。如图3所示,该方法包括以下步骤:
S310、根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
S320、通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的
S330、响应于输入操作,从所述目标数据中提取待处理数据,并响应于信息配置操作,对所述待处理数据进行信息配置,得到对比数据;
在本方案中,提供一套可视化界面,可以通过对可视化界面进行操作从数据库存储的目标数据中提取待处理数据,并对待处理处理进行配置,得到对比数据。其中,对比数据可以是待处理数据中的一个数据或者多个数据。
示例性的,图4是本申请实施例二提供的可视化界面的结构示意图,如图4所示,可视化界面包括数据选取子模块、字段配置子模块、索引建立子模块、筛选项生成子模块、筛选界面生成子模块五部分功能。通过可视化界面能够实现对待处理数据的提取以及对比分析。
在本技术方案中,可选的,所述信息设置操作包括数据名称配置操作、字段名称配置操作、字段筛选操作、字段显示操作以及字典配置操作中的至少一个。
其中,数据名称配置操作可以用于对数据名称进行修改设置;字段名称配置操作可以用于对加载的数据中的所有字段信息进行重新命名;字段筛选操作可以用于对数据中的所有字段信息进行筛选。其中,筛选方式包括文本输入、枚举筛选等,设置的枚举筛选字段时,需要分析去重字段中的数据内容,自动生成枚举筛选项,确保用户选择的筛选项都是有数据的;字段显示操作用于显示的字段在筛选结果页中可以查看具体的数据;字典配置操作用于对应字段显示时,根据字典翻译字段中字典编码信息。
在本方案中,首先通过数据选取子模块从MPP库中的目标数据中提取待处理数据,并设置待处理数据的名称;对待处理数据进行字段配置,配置过程包括:由可视化界面加载选取的待处理数据的所有字段信息,并对重命名字段,以控制界面上字段显示名,并设置字段显示,设置筛选项,设置字典,以完成字段配置,得到对比数据。
在本实施例中,完成字段配置后,系统根据配置情况自动生成创建索引语句,根据数据特性可以选择不同的索引类型。本方案选用btree类型索引。MPP数据库执行语句自动创建索引。最后,根据字段可视化配置,系统自动生成前端页面,包括数据元件图标、筛选界面、结果界面。其中,数据元件图标可以是指用于表示数据的图标,例如,服饰数据可以用衣服图标进行表示,用于信息可以用小人图标进行表示;筛选界面用于对数据进行筛选;结果界面用于显示对数据的处理结果,供用户进行查看对比结果。
通过可视化界面对待处理数据进行处理,能够提高数据处理效率高,优化大数据应用分析性能,且能够提升用户体验。
S340、根据所述对比数据,确定至少两个对比字段,并根据预设对比条件对所述至少两个对比字段进行处理,得到对比结果;其中,所述对比条件包括交对比、并对比和差对比中的至少一种。
在本实施例中,对比字段可以是同一个对比数据中的两个字段,也可以是不同对比数据中的两个字段。其中,对比结果可以是两个对比字段中的共同数据、相同数据或者不同数据。例如,对比字段可以是购物数据和用户信息,通过将购物数据与用户信息进行对比分析,可以确定每类购物行为都是那些人,也可以确定具有多种购物行为的人都是谁。通过对数据进行对比分析,能够进行用户群体的精准分析挖掘,以支持营销策略。
其中,交对比可以用于提取两个对比字段中的共同数据;并对比可以用于提取两个对比字段中的相同数据;差对比可以用于提取两个对比字段中的不同数据。
在本方案中,对比具体执行过程包括:首选创建对比任务;将对比任务生成SQL语句;对数据筛选;若筛选的数据不为空,则执行数据对比,对数据进行处理;若对比结果不为空,则存储对比结果数据;若对比结果为空,则返回对比任务状态。
在本技术方案中,可选的,根据预设对比条件对所述至少两个对比字段进行处理,得到对比结果,包括:
响应于前端页面的输入操作,将所述对比字段移动至预设对比位置,并基于预设对比位置,根据预设对比条件对所述至少两个相同类型的对比字段进行处理,得到对比结果。
在本方案中,首先,拖入对比数据到流程绘制界面。其中,对比数据以图标的形式在界面上显示。设置筛选条件,对数据进行筛选,通过查看数据结果,确认数据范围。选中两个选定数据A和B,设置对比条件。首先,选定对比方式,提供交、并、差3中碰撞对比,交为A∩B、并为A∪B、差为(A-A∩B)或(B-A∩B)。然后,选定碰撞字段,在A、B两个对比数据集中选定做等值比较的对比字段。对比条件选定后,系统按照对比条件进行数据碰撞。碰撞完成后,结果可显示在绘制界面上,可使用结果再次与其他数据或对比结果进行碰撞,系统会自动记录碰撞逻辑过程,并形成碰撞流程图,记录业务分析思路,方便用户间思路共享使用。
通过对数据进行对比分析,能够提取数据中的有用信息,优化大数据应用分析性能。
本申请实施例所提供的技术方案,根据预先确定的标签规则对海量数据进行处理,得到标签数据;通过归并模型对标签数据进行分类处理,得到分类数据,并对分类数据进行压缩处理,得到目标数据,以用于对目标数据进行对比处理。响应于输入操作,从目标数据中提取待处理数据,并响应于信息配置操作,对待处理数据进行信息配置,得到对比数据;根据对比数据,确定至少两个对比字段,并根据预设对比条件对至少两个对比字段进行处理,得到对比结果;其中,对比条件包括交对比、并对比和差对比中的至少一种。通过执行本技术方案,能够提高海量数据处理效率高,优化大数据应用分析性能。
实施例三
图5是本申请实施例提供的海量数据处理装置的结构示意图,如图5所示,海量数据处理装置包括:
标签数据得到模块510,用于根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
目标数据得到模块520,用于通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
在本技术方案中,可选的,标签数据得到模块510,包括:
标签打标条件生成单元,用于获取标签规则,并对所述标签规则进行解析,生成标签打标条件;其中,所述标签打标条件包括数据集、打标依据字段、打标逻辑以及打标字段;
标签数据得到单元,用于根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标,得到标签数据。
在本技术方案中,可选的,标签数据得到模块510,还包括:
校验单元,用于对所述标签打标条件进行校验,若校验通过,则根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标。
在本技术方案中,可选的,目标数据得到模块520,具体用于:
从预先配置的模型目录中获取模型描述文件和模型参数;
将所述模型参数添加至所述模型描述文件,生成模型文件;
对所述模型文件进行校验,若校验通过,则根据所述模型文件创建归并模型,并根据任务调度计划执行所述归并模型,对所述标签数据进行分类处理,得到分类数据。
在本技术方案中,可选的,所述装置还包括:
对比数据得到模块,用于响应于输入操作,从所述目标数据中提取待处理数据,并响应于信息配置操作,对所述待处理数据进行信息配置,得到对比数据;
对比结果得到模块,用于根据所述对比数据,确定至少两个对比字段,并根据预设对比条件对所述至少两个对比字段进行处理,得到对比结果;其中,所述对比条件包括交对比、并对比和差对比中的至少一种。
在本技术方案中,可选的,所述信息设置操作包括数据名称配置操作、字段名称配置操作、字段筛选操作、字段显示操作以及字典配置操作中的至少一个。
在本技术方案中,可选的,对比结果得到模块,具体用于:
响应于前端页面的输入操作,将所述对比字段移动至预设对比位置,并基于预设对比位置,根据预设对比条件对所述至少两个相同类型的对比字段进行处理,得到对比结果。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
本申请实施例还提供一种包含计算机可执行指令的介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种海量数据处理方法,该方法包括:
根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
介质——任何的各种类型的存储器设备或存储设备。术语“介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。介质可以还包括其它类型的存储器或其组合。另外,介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多介质。介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的介质,其计算机可执行指令不限于如上所述的海量数据处理操作,还可以执行本申请任意实施例所提供的海量数据处理方法中的相关操作。
实施例五
本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的海量数据处理装置。图6是本申请实施例五提供的一种电子设备的结构示意图。如图6所示,本实施例提供了一种电子设备600,其包括:一个或多个处理器620;存储装置610,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器620执行,使得所述一个或多个处理器620实现本申请实施例所提供的海量数据处理方法,该方法包括:
根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
当然,本领域技术人员可以理解,处理器620还实现本申请任意实施例所提供的海量数据处理方法的技术方案。
图6显示的电子设备600仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,该电子设备600包括处理器620、存储装置610、输入装置630和输出装置640;电子设备中处理器620的数量可以是一个或多个,图6中以一个处理器620为例;电子设备中的处理器620、存储装置610、输入装置630和输出装置640可以通过总线或其他方式连接,图6中以通过总线650连接为例。
存储装置610作为一种计算机可读介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的海量数据处理方法对应的程序指令。
存储装置610可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置610可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置610可进一步包括相对于处理器620远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏、扬声器等电子设备。
本申请实施例提供的电子设备,可以达到提高数据处理效率高,优化大数据应用分析性能的目的。
上述实施例中提供的海量数据处理装置、介质及电子设备可执行本申请任意实施例所提供的海量数据处理方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的海量数据处理方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种海量数据处理方法,其特征在于,包括:
根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
2.根据权利要求1所述的方法,其特征在于,根据预先确定的标签规则对海量数据进行处理,得到标签数据,包括:
获取标签规则,并对所述标签规则进行解析,生成标签打标条件;其中,所述标签打标条件包括数据集、打标依据字段、打标逻辑以及打标字段;
根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标,得到标签数据。
3.根据权利要求2所述的方法,其特征在于,在对所述标签规则进行解析,生成标签打标条件之后,所述方法还包括:
对所述标签打标条件进行校验,若校验通过,则根据所述标签打标条件,按照预设任务调度计划对海量数据进行打标。
4.根据权利要求1所述的方法,其特征在于,通过归并模型对所述标签数据进行分类处理,得到分类数据,包括:
从预先配置的模型目录中获取模型描述文件和模型参数;
将所述模型参数添加至所述模型描述文件,生成模型文件;
对所述模型文件进行校验,若校验通过,则根据所述模型文件创建归并模型,并根据任务调度计划执行所述归并模型,对所述标签数据进行分类处理,得到分类数据。
5.根据权利要求1所述的方法,其特征在于,在对所述分类数据进行压缩处理,得到目标数据之后,所述方法还包括:
响应于输入操作,从所述目标数据中提取待处理数据,并响应于信息配置操作,对所述待处理数据进行信息配置,得到对比数据;
根据所述对比数据,确定至少两个对比字段,并根据预设对比条件对所述至少两个对比字段进行处理,得到对比结果;其中,所述对比条件包括交对比、并对比和差对比中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述信息设置操作包括数据名称配置操作、字段名称配置操作、字段筛选操作、字段显示操作以及字典配置操作中的至少一个。
7.根据权利要求5所述的方法,其特征在于,根据预设对比条件对所述至少两个对比字段进行处理,得到对比结果,包括:
响应于前端页面的输入操作,将所述对比字段移动至预设对比位置,并基于预设对比位置,根据预设对比条件对所述至少两个相同类型的对比字段进行处理,得到对比结果。
8.一种海量数据处理装置,其特征在于,包括:
标签数据得到模块,用于根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;
目标数据得到模块,用于通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的海量数据处理方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的海量数据处理方法。
CN202111098143.7A 2021-09-18 2021-09-18 一种海量数据处理方法、装置、介质及电子设备 Pending CN113779343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111098143.7A CN113779343A (zh) 2021-09-18 2021-09-18 一种海量数据处理方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111098143.7A CN113779343A (zh) 2021-09-18 2021-09-18 一种海量数据处理方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN113779343A true CN113779343A (zh) 2021-12-10

Family

ID=78852126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111098143.7A Pending CN113779343A (zh) 2021-09-18 2021-09-18 一种海量数据处理方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN113779343A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409529A (zh) * 2018-09-13 2019-03-01 北京中科闻歌科技股份有限公司 一种事件认知分析方法、系统及存储介质
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN111191125A (zh) * 2019-12-24 2020-05-22 长威信息科技发展股份有限公司 一种基于标签化的数据分析方法
CN112256893A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 多媒体数据的处理方法、装置、电子设备及存储介质
CN112580733A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 分类模型的训练方法、装置、设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409529A (zh) * 2018-09-13 2019-03-01 北京中科闻歌科技股份有限公司 一种事件认知分析方法、系统及存储介质
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN111191125A (zh) * 2019-12-24 2020-05-22 长威信息科技发展股份有限公司 一种基于标签化的数据分析方法
CN112256893A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 多媒体数据的处理方法、装置、电子设备及存储介质
CN112580733A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 分类模型的训练方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US10430420B2 (en) Weighting sentiment information
CN110990447B (zh) 一种数据探查方法、装置、设备及存储介质
US9015608B2 (en) Regenerating a user interface area
CN113688288B (zh) 数据关联分析方法、装置、计算机设备和存储介质
US20140019890A1 (en) Synchronizing a user interface area
US9361286B2 (en) Visual tracking of report changes
CN106951231A (zh) 一种计算机软件开发方法及装置
CN112732763A (zh) 数据的聚合方法、装置、电子设备及介质
US9244707B2 (en) Transforming user interface actions to script commands
US11435871B1 (en) Workflow assembly tool and workflow model for runtime execution
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN112800371A (zh) 一种处理web网页内电子表格数据的方法及装置
CN112767933B (zh) 公路养护管理系统的语音交互方法、装置、设备及介质
WO2016206395A1 (zh) 周报信息处理方法及装置
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN113779343A (zh) 一种海量数据处理方法、装置、介质及电子设备
CN113407678B (zh) 知识图谱构建方法、装置和设备
JP2019067359A (ja) 2モードネットワークにおけるサブネットワークパターンの視覚的探索のためのシステム及び方法、プログラム、及びコンピュータ装置
US20140067874A1 (en) Performing predictive analysis
US20130218893A1 (en) Executing in-database data mining processes
US20180067837A1 (en) Framework for detecting source code anomalies
CN113033536A (zh) 工作笔记生成方法及装置
CN112860456A (zh) 日志处理方法和装置
CN111723177A (zh) 信息提取模型的建模方法、装置及电子设备
CN115774767B (zh) 一种地理信息元数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination