CN113779144A - 大数据整合处理方法、系统和存储介质 - Google Patents

大数据整合处理方法、系统和存储介质 Download PDF

Info

Publication number
CN113779144A
CN113779144A CN202110986171.6A CN202110986171A CN113779144A CN 113779144 A CN113779144 A CN 113779144A CN 202110986171 A CN202110986171 A CN 202110986171A CN 113779144 A CN113779144 A CN 113779144A
Authority
CN
China
Prior art keywords
data
target
user
processed
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110986171.6A
Other languages
English (en)
Other versions
CN113779144B (zh
Inventor
朱潇婷
张娟琦
张朝明
曾志华
黄家昌
王钎
张金鸿
田震琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weike Data Technology Co ltd
Original Assignee
Shenzhen Weike Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weike Data Technology Co ltd filed Critical Shenzhen Weike Data Technology Co ltd
Priority to CN202110986171.6A priority Critical patent/CN113779144B/zh
Publication of CN113779144A publication Critical patent/CN113779144A/zh
Application granted granted Critical
Publication of CN113779144B publication Critical patent/CN113779144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据整合处理方法、系统和存储介质。该方法包括以下步骤:响应于数据获取请求,通过埋点分析,获取目标数据,并存储在消息队列中;响应于数据同步请求,利用异构数据源数据同步方法,将目标数据从消息队列同步至目标数据库;当目标数据同步完成,利用数据拉通方法,从目标数据库中提取每一份待处理数据的所有用户标识,并根据用户标识,关联所有待处理数据,得到关联结果;根据关联结果和预设的第一模板文件,生成目标表;根据目标表,配置并生成元数据。本发明公开的一种大数据整合处理方法、系统和存储介质,使用户可以通过元数据对记载在目标表上的准确率更高的数据进行查询和分析,有利于提高查询和分析的准确率。

Description

大数据整合处理方法、系统和存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种大数据整合处理方法、系统和存储介质。
背景技术
随着互联网的发展,客户数据平台应运而生。该客户数据平台用于提供客户数据,以便于企业对该客户数据进行分析。但是,目前的分析方法只是利用客户数据平台对该客户数据进行固定维度的分析,分析方式较为单一,且客户数据样本较少,得到的分析结果不够准确,导致企业依据该分析结果进行营销时,效果不佳。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种大数据整合处理方法,能够提高数据分析的准确度。
本发明还提出一种大数据整合处理系统。
本发明还提出一种包括上述大数据整合处理方法的存储介质。
根据本发明第一方面实施例的大数据整合处理方法,包括以下步骤:响应于数据获取请求,通过埋点分析,获取目标数据,并存储在消息队列中;响应于数据同步请求,利用异构数据源数据同步方法,将所述目标数据从所述消息队列同步至目标数据库;当所述目标数据同步完成,利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果;根据所述关联结果和预设的第一模板文件,生成目标表;根据所述目标表,配置并生成元数据。
根据本发明实施例的大数据整合处理方法,至少具有如下有益效果:通过埋点分析获取目标数据,目标数据包括一方数据、二方数据和三方数据,即多方的目标数据,再通过异构数据源数据同步方法将目标数据同步至目标数据库,目标数据同步至目标数据库后,即为待处理数据,以便于后续处理;利用数据拉通方法,将目标数据库中的待处理数据进行关联,得到关联结果,以便于将来源不同的各个待处理数据建立联系;而根据关联结果和预设的第一模板文件,生成目标表,该目标表记录了多方的目标数据,并根据目标表配置元数据,以便于后续对整理好的数据进行查询。通过大数据整合处理方法,获取多方目标数据,并将多方目标数据同步并建立联系,且配置元数据以实现快速查询,有利于通过元数据对记录在目标表上的多方目标数据进行多个维度的查询和分析,有利于提高分析的准确度。
根据本发明的一些实施例,所述当所述目标数据同步完成,利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果,包括以下步骤:当所述目标数据同步完成,根据预设的标识类型,从所述目标数据库中提取每一份所述待处理数据的所有所述用户标识;根据所述用户标识及预设的关联规则,关联具有相同所述用户标识的所有所述待处理数据,得到所述关联结果。
根据本发明的一些实施例,所述当所述目标数据同步完成,利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果,包括以下步骤:当所述目标数据同步完成,利用IDmapping方法,从所述目标数据库中提取每一份所述待处理数据的所有所述用户标识;根据所有所述用户标识,生成用于图计算的点集合与边集合;根据所述点集合与所述边集合,生成并得到构造图;根据所述构造图,利用最大连通子图算法计算得到所述关联结果。
根据本发明的一些实施例,所述第一模板文件包括用户模板文件和事件模板文件,所述根据所述关联结果和预设的第一模板文件,生成目标表,包括以下步骤:根据所述关联结果和所述用户模板文件,生成用户表;根据所述关联结果和所述事件模板文件,生成事件表。
根据本发明的一些实施例,所述根据所述目标表,配置并生成元数据,包括以下步骤:根据所述用户表和所述事件表,配置所述元数据,生成可视化的用户属性表、用户行为表和行为属性表。
根据本发明的一些实施例,所述响应于数据同步请求,利用异构数据源数据同步方法,将所述目标数据从所述消息队列同步至目标数据库,包括以下步骤:响应于所述数据同步请求,根据所述数据同步请求和预设的配置模板,生成同步配置信息;根据所述同步配置信息,从所述消息队列的所述目标数据中抽取待同步数据;根据所述同步配置信息,将所述待同步数据写入所述目标数据库。
根据本发明的一些实施例,还包括以下步骤:响应于查询请求,读取所述查询请求中的查询目标;根据所述查询目标、所述元数据和预设的第二模板文件,生成查询结果。
根据本发明第二方面实施例的大数据整合处理系统,包括:数据获取模块,所述数据获取模块用于响应于数据获取请求,通过埋点分析,获取目标数据,并存储在消息队列中;数据同步模块,所述数据同步模块用于响应于数据同步请求,利用异构数据源数据同步方法,将所述目标数据从所述消息队列同步至目标数据库;数据整合模块,所述数据整合模块用于利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果;数据写入模块,所述数据写入模块用于根据所述关联结果和预设的第一模板文件,生成目标表;配置模块,所述配置模块用于根据所述目标表,配置并生成元数据。
根据本发明实施例的大数据整合处理系统,至少具有如下有益效果:通过数据获取模块获取多方的目标数据,通过数据同步模块将多方的目标数据同步至目标数据库,并通过数据整合模块将来源不同的各个目标数据建立联系,且通过数据写入模块生成记录处理后的目标数据的目标表,还通过配置模块配置并生成元数据,以便于通过元数据快速查询目标表,有利于通过元数据对处理后的目标数据进行多个维度的查询和分析,有利于提高分析的准确度。
根据本发明的一些实施例,还包括查询模块,所述查询模块用于响应于查询请求,读取所述查询请求中的查询目标,并根据所述查询目标、所述元数据和预设的第二模板文件,生成查询结果。
根据本发明第三方面实施例的存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面所述的大数据整合处理方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的大数据整合处理方法的流程图;
图2为图1所示的大数据整合处理方法的具体流程图之一;
图3为图1所示的大数据整合处理方法的具体流程图之二;
图4为图1所示的大数据整合处理方法的具体流程图之三;
图5为图1所示的大数据整合处理方法的具体流程图之四;
图6为图1所示的大数据整合处理方法的补充步骤的流程图;
图7为本发明实施例的大数据整合处理系统的结构框图。
附图标记如下:
数据获取模块100、数据同步模块200、数据整合模块300、数据写入模块400、配置模块500、查询模块600。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个及两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二、第三、第四、第五只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
第一方面
参照图1,一种大数据整合处理方法,包括步骤S100、步骤S200、步骤S300、步骤S400和步骤S500。
步骤S100,响应于数据获取请求,通过埋点分析,获取目标数据,并存储在消息队列中。
具体地,通过埋点,客户端在各种应用(web服务、app应用、微信小程序等)中的特定流程(浏览、购买、加购等)收集信息日志,即目标数据,当客户端收集到目标数据,则发送数据获取请求给服务端,例如http请求,则服务端获取由客户端发送的目标数据,并将该目标数据存储在消息队列中,例如Kafka(Kafka是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统),以便于获取多方的目标数据,即,一方数据、二方数据和三方数据。
需要说明的是,目标数据中包括标准化数据和非标准化数据,服务端可以采用SDK、API等接口获取标准化数据,而非标准化数据可以通过自行上传的方式上传至服务端。
步骤S200,响应于数据同步请求,利用异构数据源数据同步方法,将目标数据从消息队列同步至目标数据库。
具体地,由于目标数据的来源于各种应用,则来源不同的目标数据的格式也可能不同。因此,获取目标数据后,服务端响应于数据同步请求,通过利用异构数据源数据同步方法,将目标数据从消息队列同步至目标数据库中,以便于将目标数据的格式转化为目标数据库所需的格式,以便于后续的数据处理。
需要说明的是,目标数据库可以采用hive,hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化和加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL的语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。此外,目标数据库还可以采用Mysql、Oracle、HBase或Hana等。
步骤S300,当目标数据同步完成,利用数据拉通方法,从目标数据库中提取每一份待处理数据的所有用户标识,并根据用户标识,关联所有待处理数据,得到关联结果。
具体地,当目标数据同步完成后,则目标数据转化为格式一致的待处理数据。通过数据拉通方法,例如强ID直接拉通、基于IDmapping的拉通方法等,从每一份待处理数据提取所有的用户标识,以便于通过用户标识将各个待处理数据关联起来,以得到关联结果。其中,每一份待处理数据指向一个用户,并且存在多份待处理数据指向同一个用户的情况,通过数据拉通,将指向同一个用户的待处理数据关联起来,得到关联结果,以便于后续对关联结果的处理和应用。例如,存在第一待处理数据和第二待处理数据,第一待处理数据用于说明A用户的性别、年龄、居住地等信息,第二待处理数据用于说明A用户的消费记录,则通过数据拉通,基于A用户这一用户标识,将第一待处理数据和第二待处理数据关联起来,使得后续在查询第一待处理数据时,可以通过关联结果,查询到第二待处理数据。
步骤S400,根据关联结果和预设的第一模板文件,生成目标表。
步骤S500,根据目标表,配置并生成元数据。
具体地,通过关联结果,已将指向同一个用户的待处理数据关联起来,则,将关联起来的待处理数据写入预设的第一模板文件,生成目标表。即,碎片化的待处理数据,通过关联结果,建立联系,再将这些建立起联系的待处理数据写入第一模板文件,则将碎片化的待处理数据整合处理为一份完整的目标表。而后,为该目标表配置元数据,以便于对目标表的查询和应用。该目标表记录了来源不同的多方的目标数据,数据量更庞大,有利于提高数据的多样性,并且多方的目标数据是经过同步处理和关联处理的,能够提高数据的利用率,以及使数据具有更好的可读性和关联性,以便于后续通过元数据对目标表记录的数据进行的多维度、个性化的查询和分析,有利于提高分析的准确性,并满足用户的需求。
参照图2,步骤S200包括步骤S210、步骤S220和步骤S230。
步骤S210,响应于数据同步请求,根据数据同步请求和预设的配置模板,生成同步配置信息。
步骤S220,根据同步配置信息,从消息队列的目标数据中抽取待同步数据。
步骤S230,根据同步配置信息,将待同步数据写入目标数据库。
具体地,当需要将目标数据进行同步时,则服务端基于数据同步请求和预设的配置模板生成同步配置信息,该同步配置信息包括待同步数据库类型、目标数据库类型、数据来源信息、数据去向信息、数据映射关系。其中,待同步数据库类型和数据来源信息用于使服务端识别哪些目标数据需要同步,以便于服务端从目标数据中抽取出待同步数据;目标数据库类型和数据去向信息用于使服务端识别待同步数据的同步位置,以便于服务端将待同步数据写入目标数据库;数据映射关系用于使待同步数据中的多个表和字段在同步后能够保持正常,以避免待同步数据在同步后出现错误。通过利用异构数据源数据同步方法,实现将来源不同的多方的目标数据同步至目标数据库,使目标数据转化为格式一致的待处理数据,以便于后续处理。
此外,同步配置信息还可以包括脏数据检测规则。其中,脏数据检测规则用于使服务端识别待同步数据中重复的、错误的、不需要的数据,以便于服务端将这些重复的、错误的、不需要的数据过滤。即,通过脏数据检测规则,使得服务端利用异构数据源数据同步方法对目标数据进行同步的过程中,还能实现对数据的清洗,有利于提高数据的可靠性,从而在后续利用元数据对目标表进行查询和分析时,有利于提高查询和分析的准确性。
参照图3,步骤S300包括步骤S310和步骤S320。
步骤S310,当目标数据同步完成,根据预设的标识类型,从目标数据库中提取每一份待处理数据的所有用户标识。
步骤S320,根据用户标识及预设的关联规则,关联具有相同用户标识的所有待处理数据,得到关联结果。
具体地,在一些实施例中,利用强ID直接拉通的数据拉通方法,实现数据拉通。即,通过预设的标识类型(uid、imei、mac、androidid、uuid、imsi等),将待处理数据的所有用户标识(例如,uid=10000、mac=11000等)提取出来,并根据用户标识和预设的关联规则来进行关联,以实现数据拉通。而待处理数据的关联,需要根据预设关联规则进行,例如,通过关联规则给标识类型的优先级进行配置,并给关联结果配置第一唯一标识。
比如,uid的优先级最高,mac的优先级次之,imsi的优先级最次,第一唯一标识用mpid表示;当存在第三待处理数据,其内容为:uid=1,对第三待处理数据关联后,其关联结果为:uid=1、mpid=1;当在上述基础上增加第四待处理数据,第四待处理数据的内容为:mac=1、imsi=1,则对第三待处理数据和第四待处理数据进行关联,第三待处理数据的关联结果不变,而第四待处理数据的关联结果为:mac=1、imsi=1、mpid=2,即,此时第三待处理数据和第四待处理数据没有共同的用户标识,没有关联在一起;当继续在上述基础上增加第五待处理数据,第五待处理数据的内容为:uid=1、mac=1,则对第三待处理数据、第四待处理数据和第五待处理数据进行关联,得到同一个关联结果,其内容为:uid=1、mac=1、imsi=1、mpid=1,即,第三待处理数据和第五待处理数据具有相同的用户标识,而第五待处理数据和第四待处理数据具有相同的用户标识,将第三待处理数据、第四待处理数据和第五待处理数据关联起来,得到用于描述这三个待处理数据的关联结果,并且由于uid的优先级高于mac的优先级,mpid的取值根据优先级较高的标识类型取已有的第一唯一标识,即mpid=1。
通过强ID直接拉通的数据拉通方法,实现将具有相同用户标识的待处理数据关联起来,得到关联结果,则该关联结果更为准确,以便于后续利用元数据对目标表进行查询和分析时,能够提高查询和分析的准确性。
参照图4,在一些实施例中,步骤S300包括步骤S330、步骤S340、步骤S350和步骤S360。
步骤S330,当目标数据同步完成,利用IDmapping方法,从目标数据库中提取每一份待处理数据的所有用户标识。
步骤S340,根据所有用户标识,生成用于图计算的点集合与边集合。
步骤S350,根据点集合与边集合,生成并得到构造图。
步骤S360,根据构造图,利用最大连通子图算法计算得到关联结果。
具体地,在IDmapping方法中,将每一份待处理数据视为一个点,所有点的集合即为点集合,点与点之间的关联,即为边集合,而将点集合与边集合合并,则生成构造图,此时,可以利用最大连通子图算法对构造图进行计算,得到结果图,并对结果图中的属于同一组的数据赋予第二唯一标识,则得到关联结果。通过利用IDmapping方法实现数据拉通,能够处理更多的数据,并更有效地去重,以降低重复数据的数量,从而便于在后续利用元数据对目标表进行查询和分析时,能够提高查询和分析的准确性。
参照图5,步骤S400包括步骤S410和步骤S420。
步骤S410,根据关联结果和用户模板文件,生成用户表。
步骤S420,根据关联结果和事件模板文件,生成事件表。
其中,第一模板文件包括用户模板文件和事件模板文件,用户表用于记录用户的属性信息,例如,姓名、性别、年龄、联系方式、居住地等信息;事件表用于记录用户的行为,例如,购物行为、浏览行为、加购行为等信息。通过关联结果将待处理数据中与用户属性信息有关的数据写入用户模板文件,则生成用户表;通过关联结果将待处理数据中与用户行为信息有关的数据写入事件模板文件,则生成事件表;其中,用户表和事件表都基于关联结果来生成,则用户表和事件表都写入第一唯一标识或第二唯一标识,以将用户表和事件表建立联系,以便于元数据的配置和生成,以及便于后续查询和分析。
参照图5,步骤S500包括步骤S510。
步骤S510,根据用户表和事件表,配置元数据,生成可视化的用户属性表、用户行为表和行为属性表。
具体地,通过配置元数据,并生成可视化的用户属性表、用户行为表和行为属性表,以便于用户进行自定义配置标签、可视化查询条件、组装生成SQL等操作,有利于提高操作的便利性。
参照图6,大数据整合处理方法还包括步骤S600和步骤S700。
步骤S600,响应于查询请求,读取查询请求中的查询目标。
步骤S700,根据查询目标、元数据和预设的第二模板文件,生成查询结果。
具体地,根据实际需求,查询请求包括用户画像分析、用户行为分析、用户价值分析、用户转化分析等,则第二模板文件包括多种模板文件以对应不同的查询请求。查询目标用于表明所需要查询的数据,例如,查询男性用户的数量、查询女性用户在一个月内的消费次数等。服务端通过查询目标和元数据,查询到相应的数据,并写入第二模板文件,以生成可视化的查询结果,便于用户查阅。
第二方面
参照图7,一种大数据整合处理系统,包括数据获取模块100、数据同步模块200、数据整合模块300、数据写入模块400和配置模块500。数据获取模块100用于响应于数据获取请求,通过埋点分析,获取目标数据,并存储在消息队列中;数据同步模块200用于响应于数据同步请求,利用异构数据源数据同步方法,将目标数据从消息队列同步至目标数据库;数据整合模块300用于利用数据拉通方法,从目标数据库中提取每一份待处理数据的所有用户标识,并根据用户标识,关联所有待处理数据,得到关联结果;数据写入模块400用于根据关联结果和预设的第一模板文件,生成目标表;配置模块500用于根据目标表,配置并生成元数据。
具体地,数据获取模块100获取目标数据并存储后,发送数据同步请求给数据同步模块200,使数据同步模块200对目标数据进行同步处理。数据同步模块200完成对目标数据的同步处理后,发送完成信号给数据整合模块300,以使数据整合模块300对目标数据库中的待处理数据进行数据拉通,使多个碎片化的待处理数据之间建立联系,形成关联结果,从而使数据写入模块400基于关联结果将待处理数据写入预设的第一模板文件,生成目标表,最后由配置模块500根据目标表生成元数据,从而完成对目标数据的获取、同步、整合和写入处理,以便于用户通过元数据来对目标表进行查询和分析,有利于提高查询和分析的准确性,进而使得用户可以进行精准的营销。
参照图7,大数据整合处理系统还包括查询模块600,查询模块600用于响应于查询请求,读取查询请求中的查询目标,并根据查询目标、元数据和预设的第二模板文件,生成查询结果。其中,查询模块600提供可视化的查询界面,以便于客户输入包含查询目标的查询请求,从而使查询模块600基于查询目标进行查询,并输出查询结果。通过查询模块600,用户可以进行用户画像分析、用户行为分析、用户价值分析、用户转化分析等查询和分析,有利于满足用户对于多个维度的数据分析的需求,并且该查询模块600查询和分析的数据是基于上述数据获取模块100、数据同步模块200、数据整合模块300、数据写入模块400和配置模块500对目标数据处理后得到的,有利于提高查询和分析的准确性,以便于精准营销。
第三方面
一种存储介质,存储有计算机可执行指令,计算机可执行指令用于使计算机执行第一方面的大数据整合处理方法。
应当认识到,本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种大数据整合处理方法,其特征在于,包括以下步骤:
响应于数据获取请求,通过埋点分析,获取目标数据,并存储在消息队列中;
响应于数据同步请求,利用异构数据源数据同步方法,将所述目标数据从所述消息队列同步至目标数据库;
当所述目标数据同步完成,利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果;
根据所述关联结果和预设的第一模板文件,生成目标表;
根据所述目标表,配置并生成元数据。
2.根据权利要求1所述的大数据整合处理方法,其特征在于,所述当所述目标数据同步完成,利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果,包括以下步骤:
当所述目标数据同步完成,根据预设的标识类型,从所述目标数据库中提取每一份所述待处理数据的所有所述用户标识;
根据所述用户标识及预设的关联规则,关联具有相同所述用户标识的所有所述待处理数据,得到所述关联结果。
3.根据权利要求1所述的大数据整合处理方法,其特征在于,所述当所述目标数据同步完成,利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果,包括以下步骤:
当所述目标数据同步完成,利用IDmapping方法,从所述目标数据库中提取每一份所述待处理数据的所有所述用户标识;
根据所有所述用户标识,生成用于图计算的点集合与边集合;
根据所述点集合与所述边集合,生成并得到构造图;
根据所述构造图,利用最大连通子图算法计算得到所述关联结果。
4.根据权利要求1所述的大数据整合处理方法,其特征在于,所述第一模板文件包括用户模板文件和事件模板文件,所述根据所述关联结果和预设的第一模板文件,生成目标表,包括以下步骤:
根据所述关联结果和所述用户模板文件,生成用户表;
根据所述关联结果和所述事件模板文件,生成事件表。
5.根据权利要求4所述的大数据整合处理方法,其特征在于,所述根据所述目标表,配置并生成元数据,包括以下步骤:
根据所述用户表和所述事件表,配置所述元数据,生成可视化的用户属性表、用户行为表和行为属性表。
6.根据权利要求1所述的大数据整合处理方法,其特征在于,所述响应于数据同步请求,利用异构数据源数据同步方法,将所述目标数据从所述消息队列同步至目标数据库,包括以下步骤:
响应于所述数据同步请求,根据所述数据同步请求和预设的配置模板,生成同步配置信息;
根据所述同步配置信息,从所述消息队列的所述目标数据中抽取待同步数据;
根据所述同步配置信息,将所述待同步数据写入所述目标数据库。
7.根据权利要求1所述的大数据整合处理方法,其特征在于,还包括以下步骤:
响应于查询请求,读取所述查询请求中的查询目标;
根据所述查询目标、所述元数据和预设的第二模板文件,生成查询结果。
8.一种大数据整合处理系统,其特征在于,包括:
数据获取模块,所述数据获取模块用于响应于数据获取请求,通过埋点分析,获取目标数据,并存储在消息队列中;
数据同步模块,所述数据同步模块用于响应于数据同步请求,利用异构数据源数据同步方法,将所述目标数据从所述消息队列同步至目标数据库;
数据整合模块,所述数据整合模块用于利用数据拉通方法,从所述目标数据库中提取每一份待处理数据的所有用户标识,并根据所述用户标识,关联所有所述待处理数据,得到关联结果;
数据写入模块,所述数据写入模块用于根据所述关联结果和预设的第一模板文件,生成目标表;
配置模块,所述配置模块用于根据所述目标表,配置并生成元数据。
9.根据权利要求8所述的大数据整合处理系统,其特征在于,还包括查询模块,所述查询模块用于响应于查询请求,读取所述查询请求中的查询目标,并根据所述查询目标、所述元数据和预设的第二模板文件,生成查询结果。
10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7中任一项所述的大数据整合处理方法。
CN202110986171.6A 2021-08-26 2021-08-26 大数据整合处理方法、系统和存储介质 Active CN113779144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110986171.6A CN113779144B (zh) 2021-08-26 2021-08-26 大数据整合处理方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110986171.6A CN113779144B (zh) 2021-08-26 2021-08-26 大数据整合处理方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN113779144A true CN113779144A (zh) 2021-12-10
CN113779144B CN113779144B (zh) 2024-06-28

Family

ID=78839306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110986171.6A Active CN113779144B (zh) 2021-08-26 2021-08-26 大数据整合处理方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN113779144B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961569A (zh) * 2021-12-22 2022-01-21 上海柯林布瑞信息技术有限公司 一种医疗数据etl任务同步方法和装置
CN114676288A (zh) * 2022-03-17 2022-06-28 北京悠易网际科技发展有限公司 一种id拉通方法及装置
CN114722048A (zh) * 2022-05-10 2022-07-08 苏州峰之鼎信息科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN116340302A (zh) * 2023-03-30 2023-06-27 呼和浩特市凡诚电子科技有限公司 一种基于互联网的计算机数据整合管理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046534A1 (en) * 2005-12-14 2008-02-21 Research In Motion Limited System and Method for Pushing Information from a Host System to a Mobile Data Communication Device
CN111400408A (zh) * 2020-04-13 2020-07-10 上海东普信息科技有限公司 数据同步方法、装置、设备及存储介质
CN112069384A (zh) * 2020-09-04 2020-12-11 中国平安人寿保险股份有限公司 一种埋点数据处理方法、服务器及可读存储介质
CN112307297A (zh) * 2020-11-23 2021-02-02 阳光保险集团股份有限公司 一种基于优先级规则的用户标识统一方法及系统
CN112860398A (zh) * 2021-02-02 2021-05-28 广州市网星信息技术有限公司 基于规则引擎的数据处理方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046534A1 (en) * 2005-12-14 2008-02-21 Research In Motion Limited System and Method for Pushing Information from a Host System to a Mobile Data Communication Device
CN111400408A (zh) * 2020-04-13 2020-07-10 上海东普信息科技有限公司 数据同步方法、装置、设备及存储介质
CN112069384A (zh) * 2020-09-04 2020-12-11 中国平安人寿保险股份有限公司 一种埋点数据处理方法、服务器及可读存储介质
CN112307297A (zh) * 2020-11-23 2021-02-02 阳光保险集团股份有限公司 一种基于优先级规则的用户标识统一方法及系统
CN112860398A (zh) * 2021-02-02 2021-05-28 广州市网星信息技术有限公司 基于规则引擎的数据处理方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961569A (zh) * 2021-12-22 2022-01-21 上海柯林布瑞信息技术有限公司 一种医疗数据etl任务同步方法和装置
CN114676288A (zh) * 2022-03-17 2022-06-28 北京悠易网际科技发展有限公司 一种id拉通方法及装置
CN114722048A (zh) * 2022-05-10 2022-07-08 苏州峰之鼎信息科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN114722048B (zh) * 2022-05-10 2024-01-30 苏州峰之鼎信息科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN116340302A (zh) * 2023-03-30 2023-06-27 呼和浩特市凡诚电子科技有限公司 一种基于互联网的计算机数据整合管理系统及方法

Also Published As

Publication number Publication date
CN113779144B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN113779144B (zh) 大数据整合处理方法、系统和存储介质
EP2973013B1 (en) Associating metadata with images in a personal image collection
US10650274B2 (en) Image clustering method, image clustering system, and image clustering server
CN109918378B (zh) 一种基于区块链的遥感数据存储方法和存储系统
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
CN108319661A (zh) 一种备件信息的结构化存储方法及装置
JP6626108B2 (ja) アイデンティティ情報検証方法及び装置
CN110737706A (zh) 数据管理方法、装置、设备及计算机可读存储介质
JP5624674B2 (ja) データベースの検索のための照会の改善方法
CN107180064A (zh) 一种物流信息处理方法、装置及物流信息系统
US9754015B2 (en) Feature rich view of an entity subgraph
CN103559619A (zh) 一种服装尺码信息的应答方法及系统
CN110704418A (zh) 区块链信息查询方法、装置和设备
CN113220657B (zh) 数据处理方法、装置及计算机设备
KR20200121744A (ko) 사용자 페르소나를 처리하는 방법, 장치, 서버 및 저장 매체
CN111339171A (zh) 数据查询的方法、装置及设备
CN106202440B (zh) 数据处理方法、装置及设备
WO2018033052A1 (zh) 一种评估用户画像数据的方法及系统
CN111723161A (zh) 一种数据处理方法、装置及设备
CN111435367A (zh) 知识图谱的构建方法、系统、设备及存储介质
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
US20180329873A1 (en) Automated data extraction system based on historical or related data
CN110602049A (zh) 数据传输方法、服务器及存储介质
CN105843809B (zh) 数据处理方法和装置
CN113377775A (zh) 信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant