CN116304974B - 多渠道数据融合方法及系统 - Google Patents
多渠道数据融合方法及系统 Download PDFInfo
- Publication number
- CN116304974B CN116304974B CN202310146882.1A CN202310146882A CN116304974B CN 116304974 B CN116304974 B CN 116304974B CN 202310146882 A CN202310146882 A CN 202310146882A CN 116304974 B CN116304974 B CN 116304974B
- Authority
- CN
- China
- Prior art keywords
- user
- main body
- index
- acquired
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims abstract description 73
- 230000004927 fusion Effects 0.000 claims abstract description 65
- 239000000284 extract Substances 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims description 89
- 238000000034 method Methods 0.000 claims description 42
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 108010001267 Protein Subunits Proteins 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多渠道数据融合方法及系统,包括:第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息;服务器基于第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元;服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单;服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据用户画像评价系数得到用户的推送数据。
Description
技术领域
本发明涉及数据融合技术领域,尤其涉及一种多渠道数据融合方法及系统。
背景技术
随着移动互联网应用商城的发展,网上国网营销平台的总用户量规模大幅增长,可以为用户提供电费交纳等服务。
现有技术中,网上国网营销平台往往包括多种独立系统,例如包括用于交费的交费系统、用于完成相关任务的任务系统等等,其中,用户数据量庞大、种类繁多,且不同系统的数据库之间有壁垒,无法打通系统对用户的数据进行融合汇总,使得用户数据较为分散,难以统一管理。
因此,如何对多个独立系统之间的多维度用户数据进行融合汇总,实现对用户数据的统一管理成为了急需解决的问题。
发明内容
本发明实施例提供一种多渠道数据融合方法及系统,可以对多个独立系统之间的多维度用户数据进行融合汇总,实现对用户数据的统一管理。
本发明实施例的第一方面,提供一种多渠道数据融合方法,包括待存储数据的融合数据库、以及需要进行目标采集的多个维度的待采集数据库,通过以下步骤对待采集数据库的数据进行采集融合计算,具体包括:
服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库;
第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息;
服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库;
根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单;
服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据。
可选的,所述服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库,包括:
服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,所述第一主体采集单元中包括初始主体名单和主体采集指令信息,所述第一指标采集单元包括初始指标名单;
将每个第一主体采集单元和第一指标采集单元对应设置得到一组采集单元,为每个待采集数据库设置相对应的一组采集单元;
服务器将每个待采集数据库对应的第一主体采集单元发送至相对应的待采集数据库。
可选的,所述第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息,包括:
待采集数据库在接收到第一主体采集单元的主体采集指令信息后,向第一主体采集单元公开其所具有的用户主体;
第一主体采集单元对待采集数据库的用户主体进行采集并填充至第一名单表中得到第一用户主体信息后,将第一主体采集单元发送至服务器;
服务器在接收到待采集数据库反馈的第一主体采集单元后,依次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息。
可选的,所述服务器在接收到待采集数据库反馈的第一主体采集单元后,依次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息,包括:
统计不同待采集数据库对应的第一名单表内的用户主体的数量得到第一主体数量,确定最大数值的第一主体数量作为第二主体数量;
将第二主体数量所对应的第一名单表作为第二名单表,依次遍历其他待采集数据库对应的第一名单表内进行用户主体提取,将提取到的用户主体与第二名单表进行比对;
若提取到的用户主体与第二名单表内已存储的用户主体相对应,则不再对相应的用户主体进行存储;
若提取到的用户主体与第二名单表内已存储的用户主体不对应,则对相应的用户主体在第二名单表内进行存储。
可选的,所述服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库,包括:
服务器将所述第二用户主体信息内的所有用户主体分别填充至相对应的初始指标名单内,每个初始指标名单内用户主体的排序顺序相对应;
根据每个待采集数据库的维度对初始指标名单的采集维度进行调整,以使不同待采集数据库对应的初始指标名单具有不同的采集维度,并生成相应维度的指标采集指令;
根据调整后的初始指标名单和指标采集指令得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库。
可选的,所述根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单,包括:
待采集数据库在接收到第二指标采集单元的指标采集指令信息后,向第二主体采集单元公开其每个用户主体所对应的指标;
第二指标采集单元按照初始指标名单内的用户顺序依次遍历待采集数据库内的每个用户主体所对应的指标,并将相应的指标填充至初始指标名单内;
在判断对待采集数据库内所有用户遍历完成后,得到与待采集数据库对应的第一指标名单,对第一指标名单中未遍历到相应指标的用户添加相对应的缺失维度标签;
服务器统计每个维度的第一指标名单中缺失维度标签的数量得到第一标签数量,确定最小数值的第一标签数量作为第二标签数量;
将第二标签数量对应的第一指标名单分为融合指标名单,将第一标签数量对应的第一指标名单分为被融合指标名单。
可选的,所述服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据,包括:
确定所有被融合指标名单的第一维度,在融合指标名单内建立与每个第一维度对应的融合栏目,以使所述第一维度融合至所述融合指标名单内;
按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内;
在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,则对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数;
确定所述用户画像评价系数所处的评价系数区间,将所确定的评价系数区间对应的推送数据发送至相应用户,每个评价系数区间预先设置的推送数据。
可选的,所述按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内,包括:
确定融合指标名单内当前所采集指标的用户的第一顺序位置标签和第一用户标签;
基于所述第一顺序位置标签在所述被融合指标名单内进行直接定位,得到被融合指标名单内第一顺序位置标签所对应的第二用户标签;
若所述第一用户标签和第二用户标签相对应,则直接提取第二用户标签对应的指标和/或缺失维度标签,并填充至融合指标名单内第一用户标签相对应第一维度的单元格内。
可选的,所述在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,则对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数,包括:
调取与预设策略所对应的第一初始计算模型,所述第一初始计算模型包括多个维度的计算子单元,每个计算子单元具有预先设置的计算权重;
根据每个用户的不同维度指标、缺失维度标签对第一初始计算模型进行定制化处理,得到与相应用户对应的定制计算模型;
将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,根据所有的计算子值得到用户的用户画像评价系数。
可选的,所述根据每个用户的不同维度指标、缺失维度标签对第一初始计算模型进行定制化处理,得到与相应用户对应的定制计算模型,包括:
选中第一初始计算模型内与缺失维度标签所对应的计算子单元作为待删除的计算子单元、与不同维度指标所对应的计算子单元作为保留的计算子单元;
将第一初始计算模型内待删除的计算子单元删除处理,根据第一初始计算模型内保留的计算子单元得到定制计算模型。
可选的,所述将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,根据所有的计算子值得到用户的用户画像评价系数,包括:
将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,对所有的计算子值相加得到用户的用户画像评价系数;
确定每个用户的维度指标的第一缺失权重,以及缺失维度标签的数量得到第二缺失权重,根据第一缺失权重、第二缺失权重进行计算得到用户画像评价系数的维度缺失系数;
通过以下公式计算用户画像评价系数和维度缺失系数,
其中,P为用户画像评价系数,ki为第i个维度的计算子单元的计算权重,f(gi)为第i个维度的计算子单元的函数,gi为第i个维度的计算子单元的指标,m为计算子单元的上限值,rl为第l个维度的缺失标签的第二缺失权重,t为缺失标签的数量上限值,ha为第a个维度的未缺失指标的第一缺失权重,b为未缺失指标的数量上限值;
若所述维度缺失系数大于预设缺失系数,则生成用户完善指令,基于所述用户完善指令生成推送数据。
本发明实施例的第二方面,提供一种多渠道数据融合系统,包括待存储数据的融合数据库、以及需要进行目标采集的多个维度的待采集数据库,通过以下步骤对待采集数据库的数据进行采集融合计算,具体包括:
生成模块,用于使服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库;
采集模块,用于使第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息;
配置模块,用于使服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库;
分类模块,用于根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单;
计算模块,用于使服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据。
有益效果:
1、本方案通过主体采集单元和指标采集单元来对多个独立系统之间的多维度用户数据进行融合汇总,实现对用户数据的统一管理。其中,本方案会先利用主体采集单元来对用户主体进行采集,然后服务器采用特定的用户主体融合策略对用户主体进行融合,之后再利用融合后的用户主体表单对各数据库中的指数数据进行采集,最后再采用特定的指标融合策略来对指标数据进行融合,通过上述方式,可以来对多个独立系统之间的多维度用户数据进行融合汇总,实现对用户数据的统一管理。此外,本方案还会对融合后的数据进行分析,计算得到用户画像评价系数,结合用户画像评价系数得到用户的推送数据,可以结合全维度数据提高数据推送的精准性,从而提升用户体验度。
2、本方案在采用特定的用户主体融合策略对用户主体进行融合时,会在用户主体数量维度上对各个数据库爬取到的用户主体进行分析,确定各个数据库对应的数据量,然后会以数据量大的为基准,将数量量小的数据进行转移融合,该方式可以提高用户主体维度的融合效率,同时减小数据处理量。本方案在采用特定的指标融合策略来对指标数据进行融合时,会在缺失指标维度上对各个数据库爬取到的指标数据进行分析,确定各个数据库对应的指标数据量,然后会以数据量大的为基准,将数量量小的数据进行转移融合,该方式可以提高指标数据维度的融合效率,同时减小数据处理量。此外,本方案在进行指标数据融合的方案,是建立在用户主体顺序一致的情况下进行融合的,该方案方式可以直接利用位置进行融合,且在融合之前,本方案还结合位置和用户主体对数据进行核验,在核验成功后才会进行融合,通过上述方式,可以高效、准确的实现数据的融合。
3、本方案在计算用户画像评价系数时,会先结合用户维度数据的不同,得到与相应用户对应的定制计算模型,利用定制计算模型计算用户特定的数据,可以使得计算数据的准确性较高;在计算过程中,本方案还会结合每个用户的维度指标的第一缺失权重,确定到用户缺失维度的第二缺失权重,然后计算得到用户画像评价系数的维度缺失系数,最后结合计算的数据来为用户较为合适的推送相关数据。
附图说明
图1是本发明实施例提供的一种多渠道数据融合方法的流程示意图;
图2是本发明实施例提供的一种任务类维度计算数据的示意图;
图3是本发明实施例提供的一种多渠道数据融合系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
首先,对本方案的应用场景进行阐述,网上国网营销平台往往包括多种独立系统,例如包括用于交费的交费系统、用于完成相关任务的任务系统等等,其中,用户数据量庞大、种类繁多,且不同系统的数据库之间有壁垒,无法打通系统对用户的数据进行融合汇总,使得用户数据较为分散,难以统一管理。本方案包括待存储数据的融合数据库、以及需要进行目标采集的多个维度的待采集数据库,其中,待采集数据库可以是对应各个系统的数据库,即待采集数据库可以有多个,融合数据库用于存储对多个数据库融合后的数据。
参见图1,是本发明实施例提供的一种多渠道数据融合方法的流程示意图,通过以下步骤对待采集数据库的数据进行采集融合计算,具体包括S1-S5:
S1,服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库。
其中,第一主体采集单元用于采集待采集数据库内的用户数据,例如用户名等,第一指标采集单元用于采集待采集数据库内的各个维度的指标数据,例如交费数据、任务数据、积分数据等等。
可以理解的是,本方案要对待采集数据库内的数据进行采集,因此,会依据待采集数据库的数量得到相应数量的第一主体采集单元和第一指标采集单元,并将第一主体采集单元分别发送至相对应的待采集数据库。其中,第一主体采集单元和第一指标采集单元可以是采集数据的程序,用于实现数据采集。
在一些实施例中,S1(服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库)包括S11-S13:
S11,服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,所述第一主体采集单元中包括初始主体名单和主体采集指令信息,所述第一指标采集单元包括初始指标名单。
首先,本方案会对相关数据进行初始化。为了对用户数据进行采集,本方案的第一主体采集单元中包括初始主体名单和主体采集指令信息,其中,初始主体名单可以是空的,响应主体采集指令信息在响应的待采集数据库内进行数据采集。为了对指标数据进行采集,本方案的第一指标采集单元包括初始指标名单,初始指标名单可以是空的,用户对待采集数据库内的指标数据进行采集。
S12,将每个第一主体采集单元和第一指标采集单元对应设置得到一组采集单元,为每个待采集数据库设置相对应的一组采集单元。
本方案会将第一主体采集单元和第一指标采集单元对应设置得到一组采集单元,然后为每个待采集数据库设置相对应的一组采集单元。
S13,服务器将每个待采集数据库对应的第一主体采集单元发送至相对应的待采集数据库。
本方案会将每个待采集数据库对应的第一主体采集单元发送至相对应的待采集数据库。
S2,第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息。
可以理解的是,本方案会利用第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,例如是用户名,会得到多个维度下不同待采集数据库的第一用户主体信息。
例如,有10个待采集数据库,那么本方案会得到10个第一用户主体信息。然后利用第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息,具体参见下文阐述。
在一些实施例中,S2(第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息)包括S21-S23:
S21,待采集数据库在接收到第一主体采集单元的主体采集指令信息后,向第一主体采集单元公开其所具有的用户主体。
可以理解的是,为了实现用户主体数据的采集,待采集数据库在接收到第一主体采集单元的主体采集指令信息后,会向第一主体采集单元公开其所具有的用户主体,使得第一主体采集单元对用户主体数据进行采集。
S22,第一主体采集单元对待采集数据库的用户主体进行采集并填充至第一名单表中得到第一用户主体信息后,将第一主体采集单元发送至服务器。
在第一主体采集单元完成采集后,会得到第一用户主体信息,并将第一用户主体信息填充至第一名单表中,然后将第一主体采集单元发送至服务器,等待对采集到的数据进行汇总。
S23,服务器在接收到待采集数据库反馈的第一主体采集单元后,依次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息。
服务器在收到第一主体采集单元后,会对次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息。可以理解的是,第二用户主体信息为对第一用户主体信息融合汇总后的主体信息。
在一些实施例中,S23(服务器在接收到待采集数据库反馈的第一主体采集单元后,依次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息)包括S231-S234:
S231,统计不同待采集数据库对应的第一名单表内的用户主体的数量得到第一主体数量,确定最大数值的第一主体数量作为第二主体数量。
首先,需要说明的是,本方案在进行用户主体汇总时,为了减小数据处理量,会以数据量大的为基准,将数量量小的数据进行转移融合,可以提高融合效率,同时减小数据处理量。
其中,本方案会先统计第一名单表内的用户主体的数量得到第一主体数量,然后找到确定最大数值的第一主体数量作为第二主体数量。
S232,将第二主体数量所对应的第一名单表作为第二名单表,依次遍历其他待采集数据库对应的第一名单表内进行用户主体提取,将提取到的用户主体与第二名单表进行比对。
值得一提的是,同一个平台下的各个系统之间的用户主体可能是相同的,也可能是不同的,例如,用户A在系统A和系统B里面有对应的数据,但是在系统C里面可能没有对应的数据。
在得到第二主体数量后,本方案会以第二主体数量所对应的第一名单表作为第二名单表,即以第二名单表为基准,依次将第一名单表内的用户主体与第二名单表进行比对。
S233,若提取到的用户主体与第二名单表内已存储的用户主体相对应,则不再对相应的用户主体进行存储;
S234,若提取到的用户主体与第二名单表内已存储的用户主体不对应,则对相应的用户主体在第二名单表内进行存储。
本方案通过上述方式,可以将第一名单表内提取到的用户主体对第二名单表内的数据进行核验,防止用户主体重复存储,同时也可以防止用户主体漏存储,可以提高用户主体融合时的准确性。
S3,服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库。
在一些实施例中,S3(服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库)包括S31-S33:
S31,服务器将所述第二用户主体信息内的所有用户主体分别填充至相对应的初始指标名单内,每个初始指标名单内用户主体的排序顺序相对应。
在将第二用户主体信息内的所有用户主体分别填充至相对应的初始指标名单内后,完成了用户主体信息的采集。
示例性的,融合了10000个用户主体信息,有10个初始指标名单,那么会得到10个包含10000个用户主体信息的初始指标名单。
需要说明的是,本方案中各初始指标名单内用户主体的排序顺序相对应。例如,张三在初始指标名单1内的排序为第99位,那么张三在其余9个初始指标名单内的排序也为第99位,通过排序可以在后续融合指标数据时,可以直接利用各用户在初始指标名单内的位置进行快速、准确的融合。
S32,根据每个待采集数据库的维度对初始指标名单的采集维度进行调整,以使不同待采集数据库对应的初始指标名单具有不同的采集维度,并生成相应维度的指标采集指令。
可以理解的是,不同的待采集数据库对应的维度数据可能不同,因此,本方案会先利用待采集数据库的维度对初始指标名单的采集维度进行调整,以使不同待采集数据库对应的初始指标名单具有不同的采集维度,并生成相应维度的指标采集指令。示例性的,待采集数据库1内的数据是维度A和维度B,那么待采集数据库1所对应的采集维度为维度A和维度B。
S33,根据调整后的初始指标名单和指标采集指令得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库。
在得到调整后的初始指标名单后,本方案会响应指标采集指令得到第二指标采集单元,然后将第二指标采集单元发送至相对应的待采集数据库内,进行指标数据采集。
S4,根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单。
本方案会利用第二指标采集单元对相应待采集数据库内的指标进行采集,得到相对应的第一指标名单,然后,需要对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单。
其中,融合指标名单是指基准指标名单,被融合指标名单是指需要融合至基准指标名单的名单。
在一些实施例中,S4(根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单)包括S41-S45:
S41,待采集数据库在接收到第二指标采集单元的指标采集指令信息后,向第二主体采集单元公开其每个用户主体所对应的指标。
可以理解的是,为了实现数据采集,待采集数据库需要公开其每个用户主体所对应的指标,以使第二指标采集单元能够采集到相关的数据。
S42,第二指标采集单元按照初始指标名单内的用户顺序依次遍历待采集数据库内的每个用户主体所对应的指标,并将相应的指标填充至初始指标名单内。
本方案会利用初始指标名单对每个用户主体的指标进行数据采集。
S43,在判断对待采集数据库内所有用户遍历完成后,得到与待采集数据库对应的第一指标名单,对第一指标名单中未遍历到相应指标的用户添加相对应的缺失维度标签。
其中,第一指标名单是指进行指标数据采集后得到的名单,可以理解的是,用户不是在每个待采集数据库都存在数据,因此,在未查到用户数据后,本方案会为用户添加相对应的缺失维度标签。
S44,服务器统计每个维度的第一指标名单中缺失维度标签的数量得到第一标签数量,确定最小数值的第一标签数量作为第二标签数量。
首先,需要说明的是,本方案在进行指标数据汇总时,为了减小数据处理量,会以数据量大的为基准,将数量量小的数据进行转移融合,可以提高融合效率,同时减小数据处理量。
其中,本方案会统计每个维度的第一指标名单中缺失维度标签的数量得到第一标签数量,可以理解的是,第一标签数量的数量越多,说明相应第一指标名单需要转移融合的数据量就越小,本方案会确定最小数值的第一标签数量作为第二标签数量。
S45,将第二标签数量对应的第一指标名单分为融合指标名单,将第一标签数量对应的第一指标名单分为被融合指标名单。
可以理解的是,第二标签数量对应的第一指标名单对应的融合指标名单内的数据量最大,第一标签数量对应的第一指标名单对应的被融合指标名单的数据量最小。
S5,服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据。
在对被融合指标名单内的指标进行提取存储至融合指标名单内之后,本方案会根据每个用户的不同维度指标进行计算得到用户画像评价系数,然后结合用户画像评价系数得到用户的推送数据。
在一些实施例中,S5(服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据)包括S51-S54:
S51,确定所有被融合指标名单的第一维度,在融合指标名单内建立与每个第一维度对应的融合栏目,以使所述第一维度融合至所述融合指标名单内。
首先,本方案会确定所有被融合指标名单的第一维度,在融合指标名单内建立与每个第一维度对应的融合栏目,以使第一维度融合至融合指标名单内。也就是说,本方案会在融合指标名单内建立所有维度的融合栏目,供其余被融合指标名单内的指标融合。
S52,按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内。
在进行融合时,本方案会按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内。
在一些实施例中,S52(按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内)包括S521-S523:
S521,确定融合指标名单内当前所采集指标的用户的第一顺序位置标签和第一用户标签。
首先,本方案会确定融合指标名单内当前所采集指标的用户的第一顺序位置标签和第一用户标签。其中,第一顺序位置标签例如是第99位,第一用户标签例如是张三。
S522,基于所述第一顺序位置标签在所述被融合指标名单内进行直接定位,得到被融合指标名单内第一顺序位置标签所对应的第二用户标签。
本方案会先利用第一顺序位置标签在被融合指标名单内进行直接定位,得到被融合指标名单内第一顺序位置标签所对应的第二用户标签。
S523,若所述第一用户标签和第二用户标签相对应,则直接提取第二用户标签对应的指标和/或缺失维度标签,并填充至融合指标名单内第一用户标签相对应第一维度的单元格内。
在得到第二用户标签后,本方案会将第一用户标签和第二用户标签进行比对核验,如果第一用户标签和第二用户标签相对应,那说明用户数据是正确的,相对应的,此时本方案可以直接提取第二用户标签对应的指标和/或缺失维度标签,并填充至融合指标名单内第一用户标签相对应第一维度的单元格内。
可以理解的是,在相同位置的第一用户标签和第二用户标签不对应时,说明数据有误,此时可以发出提醒信息,防止在融合过程中出现融合错误的情况。
S53,在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,则对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数。
在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,说明数据融合完毕。
本方案会对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数,来对用户进行评价。
在一些实施例中,S53(在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,则对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数)包括S531-S532:
S531,调取与预设策略所对应的第一初始计算模型,所述第一初始计算模型包括多个维度的计算子单元,每个计算子单元具有预先设置的计算权重。
本方案预先设置有预设策略,会调取与预设策略所对应的第一初始计算模型,其中,第一初始计算模型包括多个维度的计算子单元,每个计算子单元具有预先设置的计算权重。例如,维度A对应计算子单元A,其计算权重为0.1,以上数据都是预先配置好的,可以依据管理员的需求进行配置。
S532,根据每个用户的不同维度指标、缺失维度标签对第一初始计算模型进行定制化处理,得到与相应用户对应的定制计算模型。
由于不同用户对应的维度数据可能是不同的,为了准确计算,本方案会依据每个用户的不同维度指标、缺失维度标签对第一初始计算模型进行定制化处理,得到与相应用户对应的定制计算模型。
在一些实施例中,S532(根据每个用户的不同维度指标、缺失维度标签对第一初始计算模型进行定制化处理,得到与相应用户对应的定制计算模型)包括S5321-S5322:
S5321,选中第一初始计算模型内与缺失维度标签所对应的计算子单元作为待删除的计算子单元、与不同维度指标所对应的计算子单元作为保留的计算子单元。
可以理解的是,缺失维度标签是指用户不存在的维度,因此,本方案会将所对应的计算子单元作为待删除的计算子单元,同时,本方案会将与不同维度指标所对应的计算子单元作为保留的计算子单元。
S5322,将第一初始计算模型内待删除的计算子单元删除处理,根据第一初始计算模型内保留的计算子单元得到定制计算模型。
可以理解的是,本方案需要将第一初始计算模型内待删除的计算子单元删除处理,根据第一初始计算模型内保留的计算子单元得到定制计算模型。通过上述方式,本方案可以为用户精准匹配计算模型。
S533,将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,根据所有的计算子值得到用户的用户画像评价系数。
在得到每个用户的定制计算模型后,本方案会将用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,最后利用根据所有的计算子值得到用户的用户画像评价系数。
在一些实施例中,S533(将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,根据所有的计算子值得到用户的用户画像评价系数)包括S5331-S5333:
S5331,将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,对所有的计算子值相加得到用户的用户画像评价系数。
可以理解的是,本方案可以将用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,即代入到下述公式中的f(gi)进行计算。
其中,在计算时,可以是计算的用户在相应维度下的结果。例如,参见图2,以任务类为例,完成关注任务加120分,权重为0.0261,完成注册任务加400分,权重为0.0413,完成绑定户号任务,加100分,权重为0.0379,然后综合,上述的计算过程可以利用计算子单元的函数f(gi)实现。
S5332,确定每个用户的维度指标的第一缺失权重,以及缺失维度标签的数量得到第二缺失权重,根据第一缺失权重、第二缺失权重进行计算得到用户画像评价系数的维度缺失系数。
其中,第一缺失权重是指用户每个维度指标预先配置的权重,第二缺失权重是指用户缺失维度标签对应的权重。例如,用户有3个维度指标,那么就存在有3个维度指标的第一缺失权重,其可以是工作人员预先配置的,如果缺了一个维度指标,那么该维度指标对应的第一缺失权重则会被标记为第二缺失权重。
可以理解的是,用户缺失维度标签对应的权重之和越大,说明用户的数据越不完整,需要向用户发出提示信息指示用户对信息进行补全。
通过以下公式计算用户画像评价系数和维度缺失系数,
其中,P为用户画像评价系数,ki为第i个维度的计算子单元的计算权重,f(gi)为第i个维度的计算子单元的函数,gi为第i个维度的计算子单元的指标,m为计算子单元的上限值,rl为第l个维度的缺失标签的第二缺失权重,t为缺失标签的数量上限值,ha为第a个维度的未缺失指标的第一缺失权重,b为未缺失指标的数量上限值。
上述公式中,第i个维度的计算子单元的计算权重ki可以是工作人员预先设置的,不同维度的ki可以是不同的。代表第二缺失权重之和,第二缺失权重之和越大,说明用户的数据越不完整,/>代表用户未缺失指标的权重之和,/>代表用户所有维度所有指标的权重之和。
S5333,若所述维度缺失系数大于预设缺失系数,则生成用户完善指令,基于所述用户完善指令生成推送数据。
可以理解的是,如果维度缺失系数大于预设缺失系数,说明用户缺失信息程度较为严重,此时需要生成用户完善指令,并基于用户完善指令生成推送数据,提示用户进行信息补充。其中,推送数据可以包括用户的缺失维度信息。
S54,确定所述用户画像评价系数所处的评价系数区间,将所确定的评价系数区间对应的推送数据发送至相应用户,每个评价系数区间预先设置的推送数据。
本方案会可以预先设置有多个评价系数区间,每个评价系数区间预先设置的推送数据。推送数据可以是电子数据,也可以是产品,本方案不做限定。在得到用户画像评价系数之后,本方案会确定用户画像评价系数所处的评价系数区间,然后将所确定的评价系数区间对应的推送数据发送至相应用户。
参见图3,是本发明实施例提供的一种多渠道数据融合系统的结构示意图,包括待存储数据的融合数据库、以及需要进行目标采集的多个维度的待采集数据库,通过以下步骤对待采集数据库的数据进行采集融合计算,具体包括:
生成模块,用于使服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库;
采集模块,用于使第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息;
配置模块,用于使服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库;
分类模块,用于根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单;
计算模块,用于使服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据。
本发明还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在存储介质中。设备的至少一个处理器可以从存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述终端或者服务器的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.多渠道数据融合方法,其特征在于,包括待存储数据的融合数据库、以及需要进行目标采集的多个维度的待采集数据库,通过以下步骤对待采集数据库的数据进行采集融合计算,具体包括:
服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库;
第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息;
服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库;
根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单;
服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据;
所述第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息,包括:
待采集数据库在接收到第一主体采集单元的主体采集指令信息后,向第一主体采集单元公开其所具有的用户主体;
第一主体采集单元对待采集数据库的用户主体进行采集并填充至第一名单表中得到第一用户主体信息后,将第一主体采集单元发送至服务器;
服务器在接收到待采集数据库反馈的第一主体采集单元后,依次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息;
所述根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单,包括:
待采集数据库在接收到第二指标采集单元的指标采集指令信息后,向第二主体采集单元公开其每个用户主体所对应的指标;
第二指标采集单元按照初始指标名单内的用户顺序依次遍历待采集数据库内的每个用户主体所对应的指标,并将相应的指标填充至初始指标名单内;
在判断对待采集数据库内所有用户遍历完成后,得到与待采集数据库对应的第一指标名单,对第一指标名单中未遍历到相应指标的用户添加相对应的缺失维度标签;
服务器统计每个维度的第一指标名单中缺失维度标签的数量得到第一标签数量,确定最小数值的第一标签数量作为第二标签数量;
将第二标签数量对应的第一指标名单分为融合指标名单,将第一标签数量对应的第一指标名单分为被融合指标名单;
所述服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据,包括:
确定所有被融合指标名单的第一维度,在融合指标名单内建立与每个第一维度对应的融合栏目,以使所述第一维度融合至所述融合指标名单内;
按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内;
在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,则对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数;
确定所述用户画像评价系数所处的评价系数区间,将所确定的评价系数区间对应的推送数据发送至相应用户,每个评价系数区间预先设置的推送数据。
2.根据权利要求1所述的多渠道数据融合方法,其特征在于,
所述服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库,包括:
服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,所述第一主体采集单元中包括初始主体名单和主体采集指令信息,所述第一指标采集单元包括初始指标名单;
将每个第一主体采集单元和第一指标采集单元对应设置得到一组采集单元,为每个待采集数据库设置相对应的一组采集单元;
服务器将每个待采集数据库对应的第一主体采集单元发送至相对应的待采集数据库。
3.根据权利要求1所述的多渠道数据融合方法,其特征在于,
所述服务器在接收到待采集数据库反馈的第一主体采集单元后,依次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息,包括:
统计不同待采集数据库对应的第一名单表内的用户主体的数量得到第一主体数量,确定最大数值的第一主体数量作为第二主体数量;
将第二主体数量所对应的第一名单表作为第二名单表,依次遍历其他待采集数据库对应的第一名单表内进行用户主体提取,将提取到的用户主体与第二名单表进行比对;
若提取到的用户主体与第二名单表内已存储的用户主体相对应,则不再对相应的用户主体进行存储;
若提取到的用户主体与第二名单表内已存储的用户主体不对应,则对相应的用户主体在第二名单表内进行存储。
4.根据权利要求3所述的多渠道数据融合方法,其特征在于,
所述服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库,包括:
服务器将所述第二用户主体信息内的所有用户主体分别填充至相对应的初始指标名单内,每个初始指标名单内用户主体的排序顺序相对应;
根据每个待采集数据库的维度对初始指标名单的采集维度进行调整,以使不同待采集数据库对应的初始指标名单具有不同的采集维度,并生成相应维度的指标采集指令;
根据调整后的初始指标名单和指标采集指令得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库。
5.根据权利要求1所述的多渠道数据融合方法,其特征在于,
所述按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内,包括:
确定融合指标名单内当前所采集指标的用户的第一顺序位置标签和第一用户标签;
基于所述第一顺序位置标签在所述被融合指标名单内进行直接定位,得到被融合指标名单内第一顺序位置标签所对应的第二用户标签;
若所述第一用户标签和第二用户标签相对应,则直接提取第二用户标签对应的指标和/或缺失维度标签,并填充至融合指标名单内第一用户标签相对应第一维度的单元格内。
6.根据权利要求5所述的多渠道数据融合方法,其特征在于,
所述在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,则对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数,包括:
调取与预设策略所对应的第一初始计算模型,所述第一初始计算模型包括多个维度的计算子单元,每个计算子单元具有预先设置的计算权重;
根据每个用户的不同维度指标、缺失维度标签对第一初始计算模型进行定制化处理,得到与相应用户对应的定制计算模型;
将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,根据所有的计算子值得到用户的用户画像评价系数。
7.根据权利要求6所述的多渠道数据融合方法,其特征在于,
所述根据每个用户的不同维度指标、缺失维度标签对第一初始计算模型进行定制化处理,得到与相应用户对应的定制计算模型,包括:
选中第一初始计算模型内与缺失维度标签所对应的计算子单元作为待删除的计算子单元、与不同维度指标所对应的计算子单元作为保留的计算子单元;
将第一初始计算模型内待删除的计算子单元删除处理,根据第一初始计算模型内保留的计算子单元得到定制计算模型。
8.根据权利要求7所述的多渠道数据融合方法,其特征在于,
所述将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,根据所有的计算子值得到用户的用户画像评价系数,包括:
将所述用户的不同维度指标代入至定制计算模型进行计算,得到每个计算子单元的计算子值,对所有的计算子值相加得到用户的用户画像评价系数;
确定每个用户的维度指标的第一缺失权重,以及缺失维度标签的数量得到第二缺失权重,根据第一缺失权重、第二缺失权重进行计算得到用户画像评价系数的维度缺失系数;
通过以下公式计算用户画像评价系数和维度缺失系数,
,
,
其中,为用户画像评价系数,/>为第/>个维度的计算子单元的计算权重,/>为第个维度的计算子单元的函数,/>为第/>个维度的计算子单元的指标,/>为计算子单元的上限值,/>为第/>个维度的缺失标签的第二缺失权重,/>为缺失标签的数量上限值,/>为第/>个维度的未缺失指标的第一缺失权重,/>为未缺失指标的数量上限值;
若所述维度缺失系数大于预设缺失系数,则生成用户完善指令,基于所述用户完善指令生成推送数据。
9.多渠道数据融合系统,其特征在于,包括待存储数据的融合数据库、以及需要进行目标采集的多个维度的待采集数据库,通过以下步骤对待采集数据库的数据进行采集融合计算,具体包括:
生成模块,用于使服务器根据待采集数据库的数量生成相对应的第一主体采集单元和第一指标采集单元,服务器将所述第一主体采集单元分别发送至相对应的待采集数据库;
采集模块,用于使第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息;
配置模块,用于使服务器基于所述第二用户主体信息、每个待采集数据库的维度对第一指标采集单元进行配置得到第二指标采集单元,将第二指标采集单元发送至相对应的待采集数据库;
分类模块,用于根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单;
计算模块,用于使服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据;
第一主体采集单元对多个维度的待采集数据库的用户主体分别进行采集,得到多个维度下不同待采集数据库的第一用户主体信息,基于第一用户主体信息进行比对生成与融合数据库对应的第二用户主体信息,包括:
待采集数据库在接收到第一主体采集单元的主体采集指令信息后,向第一主体采集单元公开其所具有的用户主体;
第一主体采集单元对待采集数据库的用户主体进行采集并填充至第一名单表中得到第一用户主体信息后,将第一主体采集单元发送至服务器;
服务器在接收到待采集数据库反馈的第一主体采集单元后,依次遍历不同待采集数据库对应的第一名单表内的用户主体并进行提取,将所提取到的用户主体存储至第二名单表中得到第二用户主体信息;
根据第二指标采集单元对待采集数据库内的指标进行采集得到相对应的第一指标名单,服务器对所有的第一指标名单进行分类得到融合指标名单和被融合指标名单,包括:
待采集数据库在接收到第二指标采集单元的指标采集指令信息后,向第二主体采集单元公开其每个用户主体所对应的指标;
第二指标采集单元按照初始指标名单内的用户顺序依次遍历待采集数据库内的每个用户主体所对应的指标,并将相应的指标填充至初始指标名单内;
在判断对待采集数据库内所有用户遍历完成后,得到与待采集数据库对应的第一指标名单,对第一指标名单中未遍历到相应指标的用户添加相对应的缺失维度标签;
服务器统计每个维度的第一指标名单中缺失维度标签的数量得到第一标签数量,确定最小数值的第一标签数量作为第二标签数量;
将第二标签数量对应的第一指标名单分为融合指标名单,将第一标签数量对应的第一指标名单分为被融合指标名单;
服务器对被融合指标名单内的指标进行提取存储至融合指标名单内,根据每个用户的不同维度指标进行计算得到用户画像评价系数,根据所述用户画像评价系数得到用户的推送数据,包括:
确定所有被融合指标名单的第一维度,在融合指标名单内建立与每个第一维度对应的融合栏目,以使所述第一维度融合至所述融合指标名单内;
按照每个被融合指标名单内用户的排列顺序,依次提取每个用户所对应的指标和/或缺失维度标签并填充至融合指标名单内相对应第一维度的单元格内;
在判断融合指标名单内所有用户在所有维度分别具有相应的指标或缺失维度标签后,则对每个用户的不同维度指标、缺失维度标签进行提取按照预设策略进行计算,得到用户的用户画像评价系数;
确定所述用户画像评价系数所处的评价系数区间,将所确定的评价系数区间对应的推送数据发送至相应用户,每个评价系数区间预先设置的推送数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146882.1A CN116304974B (zh) | 2023-02-17 | 2023-02-17 | 多渠道数据融合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146882.1A CN116304974B (zh) | 2023-02-17 | 2023-02-17 | 多渠道数据融合方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304974A CN116304974A (zh) | 2023-06-23 |
CN116304974B true CN116304974B (zh) | 2023-09-29 |
Family
ID=86826630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310146882.1A Active CN116304974B (zh) | 2023-02-17 | 2023-02-17 | 多渠道数据融合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304974B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684330A (zh) * | 2018-12-17 | 2019-04-26 | 深圳市华云中盛科技有限公司 | 用户画像库构建方法、装置、计算机设备及存储介质 |
EP3506124A1 (en) * | 2017-12-29 | 2019-07-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for processing fusion data and information recommendation system |
WO2020010569A1 (zh) * | 2018-07-12 | 2020-01-16 | 深圳齐心集团股份有限公司 | 大数据综合分析处理服务系统 |
CN112818223A (zh) * | 2021-01-26 | 2021-05-18 | 北京百度网讯科技有限公司 | 用户画像的查询处理方法、装置、设备、程序产品及介质 |
CN113837859A (zh) * | 2021-08-25 | 2021-12-24 | 天元大数据信用管理有限公司 | 一种小微企业画像构建方法 |
CN113886372A (zh) * | 2021-09-08 | 2022-01-04 | 天元大数据信用管理有限公司 | 一种基于改进层次分析法的用户画像构建方法 |
CN114446031A (zh) * | 2022-02-21 | 2022-05-06 | 罗普特科技集团股份有限公司 | 基于多设备、多维度数据融合分析检查站管理方法及系统 |
CN115145991A (zh) * | 2022-08-31 | 2022-10-04 | 南京三百云信息科技有限公司 | 适用于异构数据的数据处理方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078780A (zh) * | 2019-12-23 | 2020-04-28 | 北京中创信测科技股份有限公司 | 一种ai优化数据治理的方法 |
CN112507196A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 融合排序模型的训练方法、搜索排序方法、装置和设备 |
-
2023
- 2023-02-17 CN CN202310146882.1A patent/CN116304974B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3506124A1 (en) * | 2017-12-29 | 2019-07-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for processing fusion data and information recommendation system |
WO2020010569A1 (zh) * | 2018-07-12 | 2020-01-16 | 深圳齐心集团股份有限公司 | 大数据综合分析处理服务系统 |
CN109684330A (zh) * | 2018-12-17 | 2019-04-26 | 深圳市华云中盛科技有限公司 | 用户画像库构建方法、装置、计算机设备及存储介质 |
CN112818223A (zh) * | 2021-01-26 | 2021-05-18 | 北京百度网讯科技有限公司 | 用户画像的查询处理方法、装置、设备、程序产品及介质 |
CN113837859A (zh) * | 2021-08-25 | 2021-12-24 | 天元大数据信用管理有限公司 | 一种小微企业画像构建方法 |
CN113886372A (zh) * | 2021-09-08 | 2022-01-04 | 天元大数据信用管理有限公司 | 一种基于改进层次分析法的用户画像构建方法 |
CN114446031A (zh) * | 2022-02-21 | 2022-05-06 | 罗普特科技集团股份有限公司 | 基于多设备、多维度数据融合分析检查站管理方法及系统 |
CN115145991A (zh) * | 2022-08-31 | 2022-10-04 | 南京三百云信息科技有限公司 | 适用于异构数据的数据处理方法及系统 |
Non-Patent Citations (1)
Title |
---|
朱东妹.多源数据融合视角下的阅读推广用户画像构建研究.《 图书情报与数字图书馆》.2021,第99-105页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116304974A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN111797320B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN105491444B (zh) | 一种数据识别处理方法以及装置 | |
CN109597805A (zh) | 一种数据处理方法、电子设备及存储介质 | |
CN111639092B (zh) | 一种人员流动分析方法、装置、电子设备及存储介质 | |
CN110442791B (zh) | 数据推送方法和系统 | |
CN110648172B (zh) | 一种融合多种移动设备的身份识别方法和系统 | |
CN113822366A (zh) | 业务指标异常检测方法及装置、电子设备、存储介质 | |
CN110472114A (zh) | 异常数据预警方法、装置、计算机设备及存储介质 | |
CN108694603A (zh) | 一种广告定价的方法和装置 | |
CN111767201A (zh) | 用户行为分析方法、终端设备、服务器及存储介质 | |
CN109510857B (zh) | 数据存储方法、装置、服务器和系统 | |
CN116304974B (zh) | 多渠道数据融合方法及系统 | |
CN109902129A (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
CN116089401B (zh) | 用户数据管理方法及系统 | |
CN111680083B (zh) | 智能化多级政府财政数据采集系统及数据采集方法 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN110209575A (zh) | 测试文档生成方法、装置、电子设备及存储介质 | |
CN112866142B (zh) | 移动互联网真实流量识别方法和装置 | |
CN112241900A (zh) | 一种基于大数据的信息收集分析系统 | |
CN114240678A (zh) | 基于人工智能的精算临分方法、装置、设备及存储介质 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
CN116187299B (zh) | 一种科技项目文本数据检定评价方法、系统及介质 | |
CN110689423B (zh) | 一种信用评估的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |