CN108628866B - 数据融合的方法和装置 - Google Patents

数据融合的方法和装置 Download PDF

Info

Publication number
CN108628866B
CN108628866B CN201710155465.8A CN201710155465A CN108628866B CN 108628866 B CN108628866 B CN 108628866B CN 201710155465 A CN201710155465 A CN 201710155465A CN 108628866 B CN108628866 B CN 108628866B
Authority
CN
China
Prior art keywords
data
thematic
tag
label
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710155465.8A
Other languages
English (en)
Other versions
CN108628866A (zh
Inventor
张文婷
李程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dayou Qinding Beijing Technology Co ltd
Original Assignee
Dayou Qinding Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dayou Qinding Beijing Technology Co ltd filed Critical Dayou Qinding Beijing Technology Co ltd
Priority to CN201710155465.8A priority Critical patent/CN108628866B/zh
Publication of CN108628866A publication Critical patent/CN108628866A/zh
Application granted granted Critical
Publication of CN108628866B publication Critical patent/CN108628866B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据融合的方法和装置,属于数据处理技术领域。方法包括:根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据。本发明根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据,满足了基于同一专题表标签融合不同数据源数据的需求。

Description

数据融合的方法和装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据融合的方法和装置。
背景技术
随着互联网、物联网、社交网络等新兴技术的发展,产生数据的数据源如雨后春笋般不断增加。面对来自不同数据源的数据,如何从中获取有用信息,挖掘潜在价值成为学术界和产业界共同关注的焦点。
标签作为一种抽象勾画目标对象,进而可以精准、快速的分析对象喜好、消费行为的工具受到越来越多的青睐。
目前,对同一数据源数据搭建对应的标签平台,不同数据源数据根据对应的标签平台进行数据分析。
该方法中,不同数据源数据对应不同的标签平台,基于各自的标签平台得到的分析结果仅能从一个侧面描述分析数据所属对象。随着数据源的增多,融合针对同一对象的多数据源数据,进而立体描述同一对象的需求逐渐增多,而目前的方法由于数据源数据对应的标签平台的独立性,不能满足此需求。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据融合的方法和装置。所述技术方案如下:
第一方面,提供了一种数据融合的方法,所述方法包括:
根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;
在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;
融合与各专题表标签对应的子数据。
第二方面,提供了一种数据融合的装置,所述装置包括:
确定模块,用于根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;
获取模块,用于在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;
融合模块,用于融合与各专题表标签对应的子数据;
其中,所述获取模块,用于对于任一专题表标签,确定所述任一专题表标签的筛选数据项及筛选条件;在所述多个数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据;在所述中间数据中,获取满足所述任一专题表标签对应阈值的子数据;
若包含所述任一专题表标签的筛选数据项的数据源为两个或两个以上,则所述获取模块,用于分别为各包含所述任一专题表标签的筛选数据项的数据源分配权重值;对于任一包含所述任一专题表标签的筛选数据项的数据源,获取所述任一包含所述任一专题表标签的筛选数据项的数据源中所述筛选数据项的真实样本数据;根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率;确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差;若所述差大于预设数值,则将所述准确率作为所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,重复执行根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率,确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差的步骤;若所述多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据。
本发明实施例提供的技术方案带来的有益效果是:
根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据,满足了基于同一专题表标签融合不同数据源数据的需求。
附图说明
图1是本发明一实施例提供的一种数据融合的方法流程示意图;
图2是本发明另一实施例提供的另一种数据融合的方法流程示意图;
图3是本发明另一实施例提供的一种多数据源数据选取的方法流程示意图;
图4是本发明另一实施例提供的另一种数据融合的方法流程示意图;
图5是本发明另一实施例提供的一种主题表结构示意图;
图6是本发明另一实施例提供的一种数据融合的装置结构示意图;
图7是本发明另一实施例提供的另一种数据融合的装置结构示意图;
图8是本发明另一实施例提供的另一种数据融合的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
对于同一对象,其可能通过不同的数据源产生不同数据源数据。其中,对象可以为人,也可以为物,本发明不限定对象的具体含义。
以对象为用户为例,用户在进行通信行为时,会通过运营商平台产生该用户的运营商数据源数据,例如:用户手机号码、姓名、性别、年龄、浏览过的美容类网站类型等。该用户在进行消费行为时,会通过银联平台产生该用户的银联数据源数据,例如:银行卡号、姓名、性别、消费能力等级等。
为了获得用户的潜在信息,各数据源均会搭建各自的标签平台,通过标签平台对各自数据源数据进行分析。例如,运营商平台搭建由用户手机号码标签、姓名标签、性别标签、年龄标签、浏览过的美容类网站类型标签组成的标签平台,通过该标签平台对运营商数据源数据进行分析,获得同一性别、同一年龄段用户常浏览的美容类网站类型信息。银联平台搭建由银行卡号标签、姓名标签、性别标签、消费能力等级标签组成的标签平台,通过该标签平台对银联数据源数据进行分析,获得同一用户的消费能力等级。
随着社会的快速发展,用户所涉及的业务逐渐增多,用户的数据源数据也逐渐增多,融合多个数据源数据进而对用户进行立体分析的需求逐渐增多。面对该需求,现有方法由于数据源数据对应的标签平台的独立性,不能实现多数据源数据的融合。
基于此,本发明提供一种数据融合的方法,该方法可以根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据,满足了基于同一专题表标签融合不同数据源数据的需求。
参见图1所示的本实施例,本实施例提供了一种数据融合的方法,本实施例提供的方法流程具体如下:
101,根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值。
102,在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
103,融合与各专题表标签对应的子数据。
可选地,在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据,包括:
对于任一专题表标签,确定任一专题表标签的筛选数据项及筛选条件;
在多个数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据;
在中间数据中,获取满足任一专题表标签对应阈值的子数据。
可选地,在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据之前,还包括:
建立主题表,主题表由一个或多个主题标签组成,主题标签包括标签名称、标签所属行业、标签数据源、标签来源表、标签计算口径、标签更新频率、标签时效。
可选地,在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据,包括:
对于任一专题表标签,在主题表中确定是否存在与任一专题表标签匹配的主题标签,匹配的主题标签的标签名称与任一专题表标签相同;
若存在,且当前时间满足匹配的主题标签的标签时效,则根据匹配的主题标签的标签数据源获取候选数据,在候选数据中,获取满足任一专题表标签对应阈值的子数据;
若不存在,或者,若存在,但当前时间不满足匹配的主题标签的标签时效,则确定任一专题表标签的筛选数据项及筛选条件,在多个数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据,在中间数据中,获取满足任一专题表标签对应阈值的子数据。
可选地,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据之后,还包括:
存储由中间数据形成的中间数据表;
将任一专题表标签作为新主题标签增加至主题表中;
其中,新主题标签的标签名称为任一专题表标签,新主题标签的标签所属行业为中间数据所属行业,新主题标签的标签数据源为中间数据的数据源,新主题标签的标签来源表为中间数据表,新主题标签的标签计算口径为任一专题表标签的筛选对象及筛选条件。
可选地,包含任一专题表标签的筛选数据项的数据源为两个或两个以上;
在多个数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据,包括:
分别为各包含任一专题表标签的筛选数据项的数据源分配权重值;
对于任一包含任一专题表标签的筛选数据项的数据源,获取任一包含任一专题表标签的筛选数据项的数据源中筛选数据项的真实样本数据;
根据任一包含任一专题表标签的筛选数据项的数据源的权重值,计算真实样本数据的准确率;
确定准确率与任一包含任一专题表标签的筛选数据项的数据源的权重值的差;
若差大于预设数值,则将准确率作为任一包含任一专题表标签的筛选数据项的数据源的权重值,重复执行根据任一包含任一专题表标签的筛选数据项的数据源的权重值,计算真实样本数据的准确率,确定准确率与任一包含任一专题表标签的筛选数据项的数据源的权重值的差的步骤;
若多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据。
可选地,融合与各专题表标签对应的子数据之后,还包括:
基于融合后的子数据形成咨询报告,或者,基于融合后的子数据进行精准推荐,或者,基于融合后的子数据进行风险监控;
基于融合后的子数据形成咨询报告,包括:
基于融合后的子数据确定用户画像,根据用户画像形成咨询报告;
基于融合后的子数据进行精准推荐,包括:
基于融合后的子数据确定信息推荐内容及信息推荐方式,按信息推荐方式推荐信息推荐内容,信息推荐方式为如下方式的一种或多种:外呼、短信、DSP(Demand-SidePlatform,互联网广告);
基于融合后的子数据进行风险监控,包括:
基于融合后的子数据确定失联对象,监控失联对象,和/或基于融合后的子数据确定需要修复的对象信息,监控对象信息。
本实施例提供的方法,根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据,满足了基于同一专题表标签融合不同数据源数据的需求。
为了更加清楚地阐述上述实施例提供的一种数据融合的方法,结合上述实施例的内容,以如下图2所示的实施例为例,对一种数据融合的方法进行详细说明。
为了详细的说明本实施例的实现方式,本实施例以商户A需要寻找最近上网搜过美容类相关内容、消费能力在月均10000以上的女性为例进行阐述。
参见图2,本实施例提供的方法流程具体如下:
201,根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值。
基于商户A需要寻找最近上网搜过美容类相关内容、消费能力在月均10000以上的女性的目的,数据融合需求为:女性、最近上网搜过美容类相关内容、消费能力在月均10000以上。根据该数据融合需求,确定专题表标签及对应的阈值如表1所示。
表1
Figure BDA0001248942570000061
Figure BDA0001248942570000071
202,在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
本步骤可以通过如下3个步骤实现。
步骤1.1,对于任一专题表标签,确定任一专题表标签的筛选数据项及筛选条件。
以专题表标签为性别为例,确定性别专题表标签的筛选数据项为:身份证号,筛选条件为:15位身份证号的最后一位,18位身份证号的倒数第二位,奇数为男,偶数为女。
步骤1.2,在多个数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据。
在实际应用中,本步骤会出现两种情况:
第一种情况:在多个数据源数据中,包含任一专题表标签的筛选数据项的数据源只有一个。
例如,有2个数据源的数据,分别为数据源A的数据和数据源B的数据。其中数据源A的数据包括:身份证号和手机号,数据源B的数据包括:手机号、浏览网页和消费能力。
数据源A和数据源B中只有数据源A包含性别专题表标签。
对于此种情况,直接在数据源A数据中确定包含性别专题表标签,且性别专题表标签的值满足筛选条件的中间数据。
例如,数据源A的数据如表2所示,则中间数据如表3所示。
表2
身份证号 手机号
XXXXXXXXXXXXXX1 AAAAAAAAAA1
XXXXXXXXXXXXXX2 AAAAAAAAAA2
XXXXXXXX3 AAAAAAAAAA3
表3
Figure BDA0001248942570000072
Figure BDA0001248942570000081
第二种情况:在多个数据源数据中,包含任一专题表标签的筛选数据项的数据源为两个或两个以上。
例如,有2个数据源的数据,分别为数据源C的数据和数据源D的数据。其中数据源C的数据包括:身份证号和手机号,数据源D的数据包括:身份证号、手机号、浏览网页和消费能力。
数据源C和数据源D中都包含性别专题表标签。
对于此种情况,可以通过如下方法实现:
步骤1.2.1,分别为各包含任一专题表标签的筛选数据项的数据源分配权重值。
例如,为数据源C和数据源D分配权重值均为0.5。
步骤1.2.2,对于任一包含任一专题表标签的筛选数据项的数据源,获取任一包含任一专题表标签的筛选数据项的数据源中筛选数据项的真实样本数据。
例如,对于数据源C,获取数据源C中身份证号的真实样本数据。
步骤1.2.3,根据任一包含任一专题表标签的筛选数据项的数据源的权重值,计算真实样本数据的准确率。
例如,根据数据源C的权重值0.5计算数据源C中身份证号的真实样本数据的准确率。
步骤1.2.4,确定准确率与任一包含任一专题表标签的筛选数据项的数据源的权重值的差,若差大于预设数值,则执行步骤1.2.5,若差不大于预设数值,则执行步骤1.2.6;
例如,计算数据源C中身份证号的真实样本数据的准确率与数据源C的权重值0.5的差。
步骤1.2.5,将准确率作为任一包含任一专题表标签的筛选数据项的数据源的权重值,重复执行步骤1.2.3和步骤1.2.4。
步骤1.2.6,若多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据。
例如,当数据源C中身份证号的真实样本数据的准确率与数据源C的权重值的差不大于预设数值,且数据源D中身份证号的真实样本数据的准确率与数据源D的权重值的差也不大于预设数值时,在数据源C当前的权重值和数据源D当前的权重值中,确定最大值。假设数据源C当前的权重值最大,则在数据源C数据中确定包含性别专题表标签,且性别专题表标签的值满足筛选条件的中间数据。
参见图3,再次对步骤1.2.1至步骤1.2.6的实现方式进行描述。图3所示的流程主要为组合——推断——目标合成,通过反复迭代,推测各数据源权重。具体方法为:将每个数据源作为一个整体,里面的数据标签都作为整体里的部分进行处理。为每个数据源随机分配初始权重。若有数据源中筛选数据项的真实的样本进入的时候,计算每个数据源的准确率a1、a2、a3……,将其作为数据源的迭代后的新权重。如此反复进行。待每个数据源的权重趋于稳定,迭代不在进行变化的时候,得到各数据源的权重推理结果,从而根据各数据源的权重值得到中间数据所属数据源。
步骤1.3,在中间数据中,获取满足任一专题表标签对应阈值的子数据。
以中间数据为表3所示的数据为例,性别专题表标签对应的阈值为女,则从表3所示的数据中确定15位身份证号的最后一位为偶数,18位身份证号的倒数第二位为偶数的数据,如表4所示。
表4
身份证号 手机号
XXXXXXXXXXXXXX2 AAAAAAAAAA2
203,融合与各专题表标签对应的子数据。
通过执行步骤202,会得到各专题表标签对应的子数据。本步骤会对各子数据进行融合,得到最终结果。
其中,本实施例不对融合的具体方式进行限定,例如,将各子数据求交集作为最终结果。再例如,将各子数据的总和作为最终结果。
以性别专题表标签的子数据为表4所示,美容上网偏好专题表标签的子数据为表5所示,消费能力专题表标签的子数据为表6所示为例,将各子数据求交集得到的最终结果如表7所示。
表5
美容上网偏好 手机号
浏览美容网页A5次 AAAAAAAAAA2
浏览美容网页B5次 AAAAAAAAAA1
表6
消费能力 手机号
12000元 AAAAAAAAAA2
20000元 AAAAAAAAAA3
表7
身份证号 美容上网偏好 消费能力 手机号
XXXXXXXXXXXXXX2 浏览美容网页A5次 12000元 AAAAAAAAAA2
执行至此,会将不同数据源数据进行融合,得到最终的融合结果,满足了基于同一专题表标签融合不同数据源数据的需求。
上述方法可以应用于各种领域,满足用户不同需求。例如,基于融合后的子数据形成咨询报告,或者,基于融合后的子数据进行精准推荐,或者,基于融合后的子数据进行风险监控。下面针对不同领域,分别举例说明。
1、基于融合后的子数据形成咨询报告,包括:
基于融合后的子数据确定用户画像,根据用户画像形成咨询报告。
例如,商业地产开业在即,需确定招商方案。需要以下咨询报告:通过商业地产周边活动人群的消费特征来决策要引进哪些商户。
基于该需求的一个可行解决方案为利用位置信息圈定周边人群,运营商数据刻画人群基础特征、银联数据刻画人群消费特征,支撑招商决策。因此,将数据融合需求确定为利用位置信息圈定周边人群,运营商数据刻画人群基础特征、银联数据刻画人群消费特征,支撑招商决策。
在步骤201中,会基于商业地产的该数据融合需求,确定专题表标签及对应的阈值如表8所示。
表8
专题表标签 对应的阈值
性别 不限
年龄 不限
消费能力 不限
位置信息 距商场位置5公里
消费类别偏好 不限
消费商户 不限
在步骤202中,在运营商数据源数据和银联数据源数据中获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
例如,位置信息专题表标签对应的子数据的确定方法为:在运营商数据源数据中获取居住位置或者工作位置在商场位置周边5公里之内的子数据。
其中,居住位置的确定方法为:在运营商数据源数据中根据用户手机所在地,用基站信息取用户每晚20点到早7点的位置数据,每半小时取一次。每个月把所有的位置信息收集到,按频次取第一名的位置作为居住位置。
工作位置的确定方法为:在运营商数据源数据中根据用户手机所在地,用基站信息取用户工作日早9点到晚17点的位置数据,每半小时取一次。每个月把所有的位置信息收集到,按频次取第一名的位置作为工作位置。
居住位置或者工作位置与商场位置之间的直线距离不超过5公里的数据作为位置信息专题表标签对应的子数据。
银联数据源数据中获取与性别专题表标签、年龄专题表标签、消费能力专题表标签、消费类别偏好专题表标签、消费商户专题表标签对应的子数据。
在步骤203中,通过手机号码将各专题表标签对应的子数据进行融合。即,将相同手机号码的位置信息专题表标签、性别专题表标签、年龄专题表标签、消费能力专题表标签、消费类别偏好专题表标签、消费商户专题表标签对应的子数据作为一条融合后数据。
分析步骤203得到的融合后数据,得到商场周边用户的总体画像的群体特征,即根据用户特征,判断用户喜欢的商户类型和品牌,形成招商项目的咨询报告,给出招商建议。
除了上述示例外,基于融合后的子数据形成咨询报告的具体实例还包括:根据融合后的子数据分析竞争对手,根据融合后的子数据分析对象特征,根据融合后的子数据分析市场特征,根据融合后的子数据进行舆情监控等。
例如,根据融合后的子数据展示统计咨询类数据:竞争对手分析、人群特征、市场特征、舆情监控等,根据不同客户需求进行定制。
再例如,公司A若要了解自己产品的用户定位,此时,通过本实施提供的数据融合方法,基于用户手机号获取运营商数据源数据(线上浏览的数据),基于用户手机号关联的银行卡号获取银联数据源数据(线下消费记录的数据),并将获取到的两个数据源数据进行融合,得到两个数据源数据对用户的所有描述消费能力的数据标签,形成用户立体画像。
2、基于融合后的子数据进行精准推荐,包括:
基于融合后的子数据确定信息推荐内容及信息推荐方式,按信息推荐方式推荐信息推荐内容,信息推荐方式为如下方式的一种或多种:外呼、短信、DSP。
以精准营销为例,精准营销也称作新客获取,不同行业的客户根据其目标人群和产品特点选择场景化标签,进行精准营销,营销方式通过外呼、短信(包括短链)、DSP等方式。
下面以家具商场举办促销活动,需根据消费偏好筛选特定用户群进行外呼,实现精准营销为例,进行详细说明。
在步骤201中,确定专题表标签及对应的阈值如表9所示。
表9
专题表标签 对应的阈值
消费偏好 家具、五金家具
消费地点 上海、北京、深圳
消费金额 不限
消费商户 装修类商户
购房首付款记录 6个月内有购房首付款记录
在步骤202中,在运营商数据源数据和银联数据源数据中获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
在步骤203中,通过银行卡号将各专题表标签对应的子数据进行融合。
即通过步骤201至步骤203得到的融合后数据为同时满足如下条件的数据。
条件1:6个月内有购房首付款记录;
条件2:有装修五金家具类消费;
条件3:在装修类商户有消费;
条件4:消费地点在上海、北京、深圳。
分析步骤203得到的融合后数据,确定推荐用户,并通过运营商外呼平台,进行用户触达。
除了上述精准营销的示例之外,基于融合后的子数据进行精准推荐的具体实例还可以为基于融合后的子数据进行客户获取、基于融合后的子数据进行客户激活、基于融合后的子数据进行交叉营销、基于融合后的子数据进行客户运营等。
1)根据融合后的子数据进行客户获取包括:根据融合后的子数据获取新对象。
例如,某金融行业客户做潜客获取,精准营销,推销产品是某游戏联名信用卡:金融行业通过本实施例提供的方法,将运营商数据源数据和银联数据源数据进行融合,得到银联数据源数据中用户信用满足一定阈值,消费能力较高,且在运营商数据源数据中有游戏偏好的用户作为潜客,进而提高营销的准确性。
2)根据融合后的子数据进行客户激活包括:根据融合后的子数据确定访问但未注册对象,和/或,根据融合后的子数据确定沉默对象。
例如,电商A根据融合后的子数据确定访问了客户的网站APP(Application,应用),但是未注册或者未带来收入的用户,进而通过个性化推荐激发该用户的消费意愿。
再例如,金融机构根据融合后的子数据转化沉默用户,实例如下:
再例如,某新闻类网络媒体,一次访问其APP的用户量较多,但用户的注册率及留存率较低。这时该新闻类网络媒体通过本实施例提供的数据融合方法,基于IMEI(International Mobile Equipment Identity,国际移动设备身份码)/IDFA(Identifierfor Advertising,广告标识符)标签跨数据源找到用户的手机号码,获得用户的DPI数据,定位客户主要线上行为,获取用户的线上浏览偏好标签,融合其他数据源的标签进行应用,进行客户激活。
3)根据融合后的子数据进行交叉营销包括:根据融合后的子数据确定MD5加密对象,和/或,根据融合后的子数据确定对象社会关系属性。
例如,金融机构如银行、保险,或者,有分期信贷业务的传统行业。客户上传存量用户ID后,根据本实施例提供的方法融合匹配外部数据,进而得到融合后的子数据,将融合后的子数据作为最少支持MD5加密的匹配。
再例如,根据融合后的子数据确定关联UID(User Identification,用户身份证明)的社会关系属性(同事、家属等),为有相同属性的客群做交叉营销,例如保险、理财、教育、电商等。实例如下:
再例如,某银行营销一款理财产品,除自己的存量用户外,需要找出存量用户稳定的交往人(朋友、同事等),这些人的消费能力、偏好等有相似之处。该银行通过执行本实施例提供的方法,基于符合条件的存量用户的卡号或者手机号,跨数据源调用运营商的通话记录,获得新目标用户,进行营销。
4)根据融合后的子数据进行客户运营包括如下的一种或多种:根据融合后的子数据进行存量对象监控,根据融合后的子数据进行贷中监控,根据融合后的子数据进行机会点监控。
例如,根据融合后的子数据对存量客户进行持续监控,在风险中为贷中监控,在营销中为机会点监控,当命中某种定义好的特定行为后,通过邮件、短信等方式提醒客户,促使客户及时对用户进行风险干预或者事件营销。
再例如,某银行已经发放一批贷款产品,为降低坏账率,在贷款过程中监控贷款人以下行为标签:
A.监控贷款人,对黑名单通话记录(包括催缴公司、贷款公司、公安系统等)和上网记录(赌博、骗贷、套现等)进行预警;
B.监控贷款人名下所有银行卡交易记录,对于大额交易、同商户多笔交易、疑似套现等高风险行为进行甄别并示警;
……
在监控标签时,运用了本实施例提供的数据融合的方法,融合运营商数据源数据、银联数据源数据、黑名单公司数据源数据等,获取用户的线上违规访问行为和通讯通话行为以及银联的刷卡记录。对通过本实施例提供的数据融合方法得到的融合后子数据进行贷中监控。
3、基于融合后的子数据进行风险监控,包括:
基于融合后的子数据确定失联对象,监控失联对象,和/或基于融合后的子数据确定需要修复的对象信息,监控对象信息。
例如,对存量客户进行持续监控,在风险中为贷中监控,在营销中为机会点监控,当命中某种定义好的特定行为后,通过邮件、短信等方式提醒客户,促使客户及时对用户进行风险干预或者事件营销。
下面以银行已经发放一批贷款产品,为降低坏账率,需要在贷款过程中监控贷款人的行为,进行风险干预和控制为例,进行详细说明。
确定专题表标签及对应的阈值如表10所示。
表10
专题表标签 对应的阈值
风险通话 通话对象为催缴公司、贷款公司、公安系统
风险上网 访问赌博网站、访问骗贷网站、访问套现网站
风险刷卡记录 月消费次数多于10次,或者,单次消费记录多于10000
在步骤202中,用户银行卡号和手机号,在运营商数据源数据、银联数据源数据、黑名单公司数据中获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。在步骤203中,通过银行卡号将各专题表标签对应的子数据进行融合。银行通过步骤203得到的融合后数据可以进行:
1)贷款人监控,对黑名单通话记录(包括催缴公司、贷款公司、公安系统等)和上网记录(赌博、骗贷、套现等)进行预警。
2)关联贷款人名下的所有银行卡卡号,监控贷款人名下所有银行卡交易记录,对于大额交易、同商户多笔交易、疑似套现等高风险行为进行甄别并示警。
3)由于融合后的数据综合了运营商数据、银联数据、黑名单公司数据等多数据源数据,可是实现银行将用户的手机号和银行卡号作为用户ID,同时将自己收集的黑名单电话和黑名单网站作为数据源数据,跨数据源获取用户的线上违规访问行为和通讯通话行为,同时获取银联的刷卡记录,将这些标签统一应用,实现贷中监控。
除了上述贷中监控的示例之外,基于融合后的子数据进行风险监控的具体实例还可以为。
1)根据融合后的子数据对信贷中失联用户进行催收。
2)保险等机构根据融合后的子数据对用户信息进行修复从而可以主动营销。具体的,通过融合运营商的实名数据源数据,身份证信息数据源数据得到当前可用的手机号码子数据,通过外呼方式进行触达。
3)某银行有一批贷款未还用户目前手机号码已失效,处于失联状态,需将其找回进行贷款催收。此时,该银行将用户之前的手机号码作为ID,通过本实施例提供的方法跨数据源得到用户的常用位置标签,再用此位置标签与新号码的常用位置标签融,得到用户的新号码,交往圈等。或者,该银行将用户的手机号码作为ID,通过本实施例提供的方法跨数据源找到用户的网上账号,将其融合得到新的手机号码。再或者,通过本实施例提供的方法将用户的手机号ID与卡号ID进行融合,卡号ID没变的情况下,找到新对应的手机号ID。
企业在进行数据应用的时候,一般是基于自己平台内部的数据,进行实际业务项目的展开。这样在应用的时候,就只能做某个领域的用户刻画,用户画像不完整,标签不全面。导致实际项目的实施效果也打了折扣。由于各数据源搭建的用户标签是分散且单一领域的,尚未做到真正的跨数据源标签融合输出,更无跨领域标签的场景应用。因此无法综合刻画一个用户的特征,做不到完整画像。
针对市场上咨询报告、解决方案,基本是基于各平台内部数据,单独建立的解决方案,尚类跨数据源标签融合的业务实现的不足,本实施例提供的数据融合方案弥补了这方面的空白,极大地丰富了数据源,解决了不同类型标签不能互相打通的难题。这样能更详细的刻画用户,形成客户的完整画像,描绘出用户的轨迹,从而精准的定位客户,更好的进行商业应用。
本实施例提供的数据融合的方法,能将基于同一专题表标签融合不同数据源数据的需求,同时,还能将同一标签的权重打出来,形成统一标签输出。跨数据源标签输出后,可应用到各个业务场景中,全面刻画用户信息,沉淀用户活动轨迹,从而进行市场洞察、客户获取、客户激活、交叉销售、客户运营、信息修复等各个客户生命周期模块的应用。弥补了这方面的空白,极大地丰富了数据源,解决了不同类型标签不能互相打通的难题。这样能更详细的刻画用户,形成客户的完整画像,描绘出用户的轨迹,从而精准的定位客户,更好的进行商业应用。
本实施例提供的方法,根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据,满足了基于同一专题表标签融合不同数据源数据的需求。
图2所示的实施例中,每次获得专题表标签对应的子数据时,均需要在所有数据源数据中查找,随着数据源的增多,数据量的增大,图2所示的方法会大大增加数据查找时间,提升数据查找所消耗的资源,进而降低本发明提供的数据融合的方法的性能,因此,本实施例进行改进,建立主题表,将主题表作为索引,缩短数据查找时间,降低数据查找所耗资源,进而提升本发明提供的数据融合的方法的性能。
为了详细的说明本实施例的实现方式,本实施例仍以商户A需要寻找最近上网搜过美容类相关内容、消费能力在月均10000以上的女性为例进行阐述。
参见图4,本实施例提供的方法流程具体如下:
401,建立主题表。
所述主题表由一个或多个主题标签组成,所述主题标签包括标签名称、标签所属行业、标签数据源、标签来源表、标签计算口径、标签更新频率、标签时效。除此之外,还可以根据其他情况修改、增加、删减主题标签包括的内容。
例如性别主题标签如表11所示,形成的主题表如图5所示。
表11
Figure BDA0001248942570000171
步骤401中建立的主题表可以为标签的索引,通过该主题表可以减少后续数据查询所耗资源。
需要说明的是,本步骤非每次均要执行,仅在第一次执行本实施例提供的方法,或者其他触发条件下才执行本步骤,本实施例不对本步骤的触发条件进行限定。
402,根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值。
本步骤的实现方式与步骤201相同,详见步骤201,此处不再赘述。
403,在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
本步骤可以通过如下3个步骤实现。
步骤2.1,对于任一专题表标签,在主题表中确定是否存在与任一专题表标签匹配的主题标签,如有存在,且当前时间满足匹配的主题标签的标签时效,则执行步骤2.2,如果不存在,或者,如果存在,但当前时间不满足匹配的主题标签的标签时效则执行步骤2.3。
其中,匹配的主题标签的标签名称与任一专题表标签相同。
由于主题表中主题标签由标签名称、标签所属行业、标签数据源、标签来源表、标签计算口径、标签更新频率、标签时效组成,因此,可以将任一专题表标签与主题标签进行对比,将标签名称与任一专题表标签相同的主题标签作为匹配的主题标签。也可以根据实际情况,进行多个内容的比对,本实施例不对比对方法进行限定。
步骤2.2,根据匹配的主题标签的标签数据源获取候选数据,在候选数据中,获取满足任一专题表标签对应阈值的子数据。
根据标签数据源、标签来源表等内容可以直接获取候选数据,在候选数据中获取满足任一专题表标签对应阈值的子数据。
例如,性别专题表标签在主题表中存在匹配的主题标签,该匹配的主题标签如表11所示。根据表11中的相关信息,直接获取电信客户基本信息表(中间表)的数据,从电信客户基本信息表(中间表)数据中获取满足性别专题表标签对应阈值的子数据。
步骤2.3,按如下步骤实现。
步骤2.3.1,确定任一专题表标签的筛选数据项及筛选条件。
本步骤的实现方式与步骤1.1相同,详见步骤1.1,此处不再赘述。
步骤2.3.2,在多个数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据。
本步骤的实现方式与步骤1.2相同,详见步骤1.2,此处不再赘述。
为了不断更新、扩充步骤401中建立的主题表,执行步骤2.3.2后,还会存储由中间数据形成的中间数据表;将任一专题表标签作为新主题标签增加至主题表中。
其中,新主题标签的标签名称为任一专题表标签,新主题标签的标签所属行业为中间数据所属行业,新主题标签的标签数据源为中间数据的数据源,新主题标签的标签来源表为中间数据表,新主题标签的标签计算口径为任一专题表标签的筛选对象及筛选条件。
步骤2.3.3,在中间数据中,获取满足任一专题表标签对应阈值的子数据。
本步骤的实现方式与步骤1.3相同,详见步骤1.3,此处不再赘述。
404,融合与各专题表标签对应的子数据。
本步骤的实现方式与步骤203相同,详见步骤203,此处不再赘述。
执行至此,会将不同数据源数据进行融合,得到最终的融合结果,满足了基于同一专题表标签融合不同数据源数据的需求。同时,在子数据获取过程中,先从主题表中获取数据,提升了数据获取时间,提高了数据获取效率,减少了数据获取所耗资源。
上述方法也可以应用于各种领域,满足用户不同需求。例如,基于融合后的子数据形成咨询报告,或者,基于融合后的子数据进行精准推荐,或者,基于融合后的子数据进行风险监控。下面针对不同领域,分别举例说明。
1、基于融合后的子数据形成咨询报告,包括:
基于融合后的子数据确定用户画像,根据用户画像形成咨询报告。
例如,商业地产开业在即,需确定招商方案。需要以下咨询报告:通过商业地产周边活动人群的消费特征来决策要引进哪些商户。
基于该需求的一个可行解决方案为利用位置信息圈定周边人群,运营商数据刻画人群基础特征、银联数据刻画人群消费特征,支撑招商决策。因此,将数据融合需求确定为利用位置信息圈定周边人群,运营商数据刻画人群基础特征、银联数据刻画人群消费特征,支撑招商决策。
在步骤402中,会基于商业地产的该数据融合需求,确定专题表标签及对应的阈值如表12所示。
表12
Figure BDA0001248942570000191
Figure BDA0001248942570000201
在步骤403中,在运营商数据源数据和银联数据源数据中获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
对于主题表中有匹配主题标签的专题表标签,基于主题表的匹配主题标签获取对应的子数据。对于主题表中没有匹配主题标签的专题表标签,再从各数据源数据中获取对应的子数据。且在获取子数据后,将该没有匹配主题标签的专题表标签作为增加的主题标签增加至主题表中。
在步骤404中,通过手机号码将各专题表标签对应的子数据进行融合
分析步骤404得到的融合后数据,得到商场周边用户的总体画像的群体特征,即根据用户特征,判断用户喜欢的商户类型和品牌,形成招商项目的咨询报告,给出招商建议。
2、基于融合后的子数据进行精准推荐,包括:
基于融合后的子数据确定信息推荐内容及信息推荐方式,按信息推荐方式推荐信息推荐内容,信息推荐方式为如下方式的一种或多种:外呼、短信、DSP。
以精准营销为例,精准营销也称作新客获取,不同行业的客户根据其目标人群和产品特点选择场景化标签,进行精准营销,营销方式通过外呼、短信(包括短链)、DSP等方式。
下面以家具商场举办促销活动,需根据消费偏好筛选特定用户群进行外呼,实现精准营销为例,进行详细说明。
在步骤402中,确定专题表标签及对应的阈值如表13所示。
表13
Figure BDA0001248942570000202
Figure BDA0001248942570000211
在步骤403中,在运营商数据源数据和银联数据源数据中获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
对于主题表中有匹配主题标签的专题表标签,基于主题表的匹配主题标签获取对应的子数据。对于主题表中没有匹配主题标签的专题表标签,再从各数据源数据中获取对应的子数据。且在获取子数据后,将该没有匹配主题标签的专题表标签作为增加的主题标签增加至主题表中。
在步骤404中,通过银行卡号将各专题表标签对应的子数据进行融合。
分析步骤404得到的融合后数据,确定推荐用户,并通过运营商外呼平台,进行用户触达。
3、基于融合后的子数据进行风险监控,包括:
基于融合后的子数据确定失联对象,监控失联对象,和/或基于融合后的子数据确定需要修复的对象信息,监控对象信息。
例如,对存量客户进行持续监控,在风险中为贷中监控,在营销中为机会点监控,当命中某种定义好的特定行为后,通过邮件、短信等方式提醒客户,促使客户及时对用户进行风险干预或者事件营销。
下面以银行已经发放一批贷款产品,为降低坏账率,需要在贷款过程中监控贷款人的行为,进行风险干预和控制为例,进行详细说明。
确定专题表标签及对应的阈值如表14所示。
表14
专题表标签 对应的阈值
风险通话 通话对象为催缴公司、贷款公司、公安系统
风险上网 访问赌博网站、访问骗贷网站、访问套现网站
风险刷卡记录 月消费次数多于10次,或者,单次消费记录多于10000
在步骤403中,用户银行卡号和手机号,在运营商数据源数据、银联数据源数据、黑名单公司数据中获取与各专题表标签对应且满足各专题表标签对应阈值的子数据。
对于主题表中有匹配主题标签的专题表标签,基于主题表的匹配主题标签获取对应的子数据。对于主题表中没有匹配主题标签的专题表标签,再从各数据源数据中获取对应的子数据。且在获取子数据后,将该没有匹配主题标签的专题表标签作为增加的主题标签增加至主题表中。
在步骤404中,通过银行卡号将各专题表标签对应的子数据进行融合。
本实施例提供的方法,根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据,满足了基于同一专题表标签融合不同数据源数据的需求。另外,在子数据获取过程中,先从主题表中获取数据,提升了数据获取时间,提高了数据获取效率,减少了数据获取所耗资源。
图6所示的实施例提供了一种数据融合的装置,该装置用于执行上述图1,或图2,或图3所示的数据融合的方法,参见图6,该装置包括:
确定模块601,用于根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;
获取模块602,用于在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;
融合模块603,用于融合与各专题表标签对应的子数据;
其中,获取模块602,用于对于任一专题表标签,确定任一专题表标签的筛选数据项及筛选条件;在多个数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据;在中间数据中,获取满足任一专题表标签对应阈值的子数据;
若包含任一专题表标签的筛选数据项的数据源为两个或两个以上,则获取模块602,用于分别为各包含任一专题表标签的筛选数据项的数据源分配权重值;对于任一包含任一专题表标签的筛选数据项的数据源,获取任一包含任一专题表标签的筛选数据项的数据源中筛选数据项的真实样本数据;根据任一包含任一专题表标签的筛选数据项的数据源的权重值,计算真实样本数据的准确率;确定准确率与任一包含任一专题表标签的筛选数据项的数据源的权重值的差;若差大于预设数值,则将准确率作为任一包含任一专题表标签的筛选数据项的数据源的权重值,重复执行根据任一包含任一专题表标签的筛选数据项的数据源的权重值,计算真实样本数据的准确率,确定准确率与任一包含任一专题表标签的筛选数据项的数据源的权重值的差的步骤;若多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据。
参见图7,该装置,还包括:
建立模块604,用于建立主题表,主题表由一个或多个主题标签组成,主题标签包括标签名称、标签所属行业、标签数据源、标签来源表、标签计算口径、标签更新频率、标签时效;
获取模块602,用于对于任一专题表标签,在主题表中确定是否存在与任一专题表标签匹配的主题标签,匹配的主题标签的标签名称与任一专题表标签相同;若存在,且当前时间满足匹配的主题标签的标签时效,则根据匹配的主题标签的标签数据源获取候选数据,在候选数据中,获取满足任一专题表标签对应阈值的子数据;若不存在,或者,若存在,但当前时间不满足匹配的主题标签的标签时效,则确定任一专题表标签的筛选数据项及筛选条件,在多个数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据,在中间数据中,获取满足任一专题表标签对应阈值的子数据;
获取模块602,用于存储由中间数据形成的中间数据表;将任一专题表标签作为新主题标签增加至主题表中;其中,新主题标签的标签名称为任一专题表标签,新主题标签的标签所属行业为中间数据所属行业,新主题标签的标签数据源为中间数据的数据源,新主题标签的标签来源表为中间数据表,新主题标签的标签计算口径为任一专题表标签的筛选对象及筛选条件;
若包含任一专题表标签的筛选数据项的数据源为两个或两个以上,则获取模块602,用于分别为各包含任一专题表标签的筛选数据项的数据源分配权重值;对于任一包含任一专题表标签的筛选数据项的数据源,获取任一包含任一专题表标签的筛选数据项的数据源中筛选数据项的真实样本数据;根据任一包含任一专题表标签的筛选数据项的数据源的权重值,计算真实样本数据的准确率;确定准确率与任一包含任一专题表标签的筛选数据项的数据源的权重值的差;若差大于预设数值,则将准确率作为任一包含任一专题表标签的筛选数据项的数据源的权重值,重复执行根据任一包含任一专题表标签的筛选数据项的数据源的权重值,计算真实样本数据的准确率,确定准确率与任一包含任一专题表标签的筛选数据项的数据源的权重值的差的步骤;若多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含任一专题表标签的筛选数据项,且任一专题表标签的筛选数据项的值满足筛选条件的中间数据。
参见图8,该装置还包括:
处理模块605,用于基于融合后的子数据形成咨询报告,或者,基于融合后的子数据进行精准推荐,或者,基于融合后的子数据进行风险监控;
基于融合后的子数据形成咨询报告,包括:
基于融合后的子数据确定用户画像,根据用户画像形成咨询报告;
基于融合后的子数据进行精准推荐,包括:
基于融合后的子数据确定信息推荐内容及信息推荐方式,按信息推荐方式推荐信息推荐内容,信息推荐方式为如下方式的一种或多种:外呼、短信、互联网广告DSP;
基于融合后的子数据进行风险监控,包括:
基于融合后的子数据确定失联对象,监控失联对象,和/或基于融合后的子数据确定需要修复的对象信息,监控对象信息。
本实施例提供的装置,根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;融合与各专题表标签对应的子数据,满足了基于同一专题表标签融合不同数据源数据的需求。
需要说明的是:本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种数据融合的方法,其特征在于,所述方法包括:
根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;
建立主题表,所述主题表由一个或多个主题标签组成,所述主题标签包括标签名称、标签所属行业、标签数据源、标签来源表、标签计算口径、标签更新频率、标签时效;
在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;
所述在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据,包括:
对于任一专题表标签,在所述主题表中确定是否存在与所述任一专题表标签匹配的主题标签,所述匹配的主题标签的标签名称与所述任一专题表标签相同;若存在且当前时间满足所述匹配的主题标签的标签时效,则根据所述匹配的主题标签的标签数据源获取候选数据,在所述候选数据中,获取满足所述任一专题表标签对应阈值的子数据;若不存在,或者,若存在但当前时间不满足所述匹配的主题标签的标签时效,则确定所述任一专题表标签的筛选数据项及筛选条件,在所述多个数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据,在所述中间数据中,获取满足所述任一专题表标签对应阈值的子数据;
融合与各专题表标签对应的子数据;
存储由所述中间数据形成的中间数据表;
将所述任一专题表标签作为新主题标签增加至所述主题表中;
其中,所述新主题标签的标签名称为所述任一专题表标签,所述新主题标签的标签所属行业为所述中间数据所属行业,所述新主题标签的标签数据源为所述中间数据的数据源,所述新主题标签的标签来源表为所述中间数据表,所述新主题标签的标签计算口径为所述任一专题表标签的筛选对象及筛选条件。
2.根据权利要求1所述的方法,其特征在于,所述在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据,包括:
对于任一专题表标签,确定所述任一专题表标签的筛选数据项及筛选条件;
在所述多个数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据;
在所述中间数据中,获取满足所述任一专题表标签对应阈值的子数据。
3.根据权利要求2所述的方法,其特征在于,包含所述任一专题表标签的筛选数据项的数据源为两个或两个以上;
所述在所述多个数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据,包括:
分别为各包含所述任一专题表标签的筛选数据项的数据源分配权重值;
对于任一包含所述任一专题表标签的筛选数据项的数据源,获取所述任一包含所述任一专题表标签的筛选数据项的数据源中所述筛选数据项的真实样本数据;
根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率;
确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差;
若所述差大于预设数值,则将所述准确率作为所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,重复执行根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率,确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差的步骤;
若多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据。
4.根据权利要求3所述的方法,其特征在于,所述融合与各专题表标签对应的子数据之后,还包括:
基于融合后的子数据形成咨询报告,或者,基于融合后的子数据进行精准推荐,或者,基于融合后的子数据进行风险监控;
所述基于融合后的子数据形成咨询报告,包括:
基于融合后的子数据确定用户画像,根据所述用户画像形成咨询报告;
所述基于融合后的子数据进行精准推荐,包括:
基于融合后的子数据确定信息推荐内容及信息推荐方式,按所述信息推荐方式推荐所述信息推荐内容,所述信息推荐方式为如下方式的一种或多种:外呼、短信、互联网广告DSP;
所述基于融合后的子数据进行风险监控,包括:
基于融合后的子数据确定失联对象,监控所述失联对象,和/或基于融合后的子数据确定需要修复的对象信息,监控所述对象信息。
5.一种数据融合的装置,其特征在于,所述装置包括:
确定模块,用于根据数据融合需求,确定多个专题表标签及各专题表标签对应的阈值;
获取模块,用于在多个数据源数据中,获取与各专题表标签对应且满足各专题表标签对应阈值的子数据;
融合模块,用于融合与各专题表标签对应的子数据;
其中,所述获取模块,用于对于任一专题表标签,确定所述任一专题表标签的筛选数据项及筛选条件;在所述多个数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据;在所述中间数据中,获取满足所述任一专题表标签对应阈值的子数据;
若包含所述任一专题表标签的筛选数据项的数据源为两个或两个以上,则所述获取模块,用于分别为各包含所述任一专题表标签的筛选数据项的数据源分配权重值;对于任一包含所述任一专题表标签的筛选数据项的数据源,获取所述任一包含所述任一专题表标签的筛选数据项的数据源中所述筛选数据项的真实样本数据;根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率;确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差;若所述差大于预设数值,则将所述准确率作为所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,重复执行根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率,确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差的步骤;若多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据。
6.根据权利要求5所述的装置,其特征在于,所述装置,还包括:
建立模块,用于建立主题表,所述主题表由一个或多个主题标签组成,所述主题标签包括标签名称、标签所属行业、标签数据源、标签来源表、标签计算口径、标签更新频率、标签时效;
所述获取模块,用于对于任一专题表标签,在所述主题表中确定是否存在与所述任一专题表标签匹配的主题标签,所述匹配的主题标签的标签名称与所述任一专题表标签相同;若存在且当前时间满足所述匹配的主题标签的标签时效,则根据所述匹配的主题标签的标签数据源获取候选数据,在所述候选数据中,获取满足所述任一专题表标签对应阈值的子数据;若不存在,或者,若存在但当前时间不满足所述匹配的主题标签的标签时效,则确定所述任一专题表标签的筛选数据项及筛选条件,在所述多个数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据,在所述中间数据中,获取满足所述任一专题表标签对应阈值的子数据;
所述获取模块,用于存储由所述中间数据形成的中间数据表;将所述任一专题表标签作为新主题标签增加至所述主题表中;其中,所述新主题标签的标签名称为所述任一专题表标签,所述新主题标签的标签所属行业为所述中间数据所属行业,所述新主题标签的标签数据源为所述中间数据的数据源,所述新主题标签的标签来源表为所述中间数据表,所述新主题标签的标签计算口径为所述任一专题表标签的筛选对象及筛选条件;
若包含所述任一专题表标签的筛选数据项的数据源为两个或两个以上,则所述获取模块,用于分别为各包含所述任一专题表标签的筛选数据项的数据源分配权重值;对于任一包含所述任一专题表标签的筛选数据项的数据源,获取所述任一包含所述任一专题表标签的筛选数据项的数据源中所述筛选数据项的真实样本数据;根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率;确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差;若所述差大于预设数值,则将所述准确率作为所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,重复执行根据所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值,计算所述真实样本数据的准确率,确定所述准确率与所述任一包含所述任一专题表标签的筛选数据项的数据源的权重值的差的步骤;若所述多个数据源的差均不大于预设数值,则在权重值最大的数据源数据中,确定包含所述任一专题表标签的筛选数据项,且所述任一专题表标签的筛选数据项的值满足所述筛选条件的中间数据。
7.根据权利要求5或6所述的装置,其特征在于,所述装置还包括:
处理模块,用于基于融合后的子数据形成咨询报告,或者,基于融合后的子数据进行精准推荐,或者,基于融合后的子数据进行风险监控;
所述基于融合后的子数据形成咨询报告,包括:
基于融合后的子数据确定用户画像,根据所述用户画像形成咨询报告;
所述基于融合后的子数据进行精准推荐,包括:
基于融合后的子数据确定信息推荐内容及信息推荐方式,按所述信息推荐方式推荐所述信息推荐内容,所述信息推荐方式为如下方式的一种或多种:外呼、短信、互联网广告DSP;
所述基于融合后的子数据进行风险监控,包括:
基于融合后的子数据确定失联对象,监控所述失联对象,和/或基于融合后的子数据确定需要修复的对象信息,监控所述对象信息。
CN201710155465.8A 2017-03-20 2017-03-20 数据融合的方法和装置 Expired - Fee Related CN108628866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710155465.8A CN108628866B (zh) 2017-03-20 2017-03-20 数据融合的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710155465.8A CN108628866B (zh) 2017-03-20 2017-03-20 数据融合的方法和装置

Publications (2)

Publication Number Publication Date
CN108628866A CN108628866A (zh) 2018-10-09
CN108628866B true CN108628866B (zh) 2020-11-06

Family

ID=63686933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710155465.8A Expired - Fee Related CN108628866B (zh) 2017-03-20 2017-03-20 数据融合的方法和装置

Country Status (1)

Country Link
CN (1) CN108628866B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382343B (zh) * 2018-12-27 2023-11-28 方正国际软件(北京)有限公司 一种标签体系生成方法及装置
CN110008292A (zh) * 2019-04-11 2019-07-12 北京妙医佳信息技术有限公司 数据融合方法、装置、电子设备及可读存储介质
CN110390208B (zh) * 2019-06-26 2023-02-21 联动优势科技有限公司 一种复合数据项标签的优选数据源访问方法及装置
CN110347480B (zh) * 2019-06-26 2021-06-25 联动优势科技有限公司 含有重合数据项标签的数据源优选访问路径方法及装置
CN110489471A (zh) * 2019-07-25 2019-11-22 北京文渊佳科技有限公司 一种数据请求处理方法、装置、存储介质及服务器
CN111698148A (zh) * 2020-06-28 2020-09-22 中国银行股份有限公司 一种消息推送方法及装置
CN111985578A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 多源数据融合方法、装置、计算机设备及存储介质
CN116089907B (zh) * 2023-04-13 2023-06-23 民航成都信息技术有限公司 航空多源数据的融合方法、装置、电子设备及存储介质
CN117082006B (zh) * 2023-08-22 2024-03-19 广东中山网传媒信息科技有限公司 一种基于大数据的客户端的数据源切换方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111994A (zh) * 2014-07-04 2014-10-22 北京思特奇信息技术股份有限公司 一种基于混合数据源的标签数据筛选方法及装置
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法
CN106021528A (zh) * 2016-05-25 2016-10-12 北京京东尚科信息技术有限公司 数据处理方法和装置
CN106022800A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种用户特征数据的处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171283B2 (en) * 2011-01-11 2015-10-27 International Business Machines Corporation Capturing and visualizing data lineage in content management system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111994A (zh) * 2014-07-04 2014-10-22 北京思特奇信息技术股份有限公司 一种基于混合数据源的标签数据筛选方法及装置
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法
CN106022800A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种用户特征数据的处理方法和装置
CN106021528A (zh) * 2016-05-25 2016-10-12 北京京东尚科信息技术有限公司 数据处理方法和装置

Also Published As

Publication number Publication date
CN108628866A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN108628866B (zh) 数据融合的方法和装置
US8234159B2 (en) Method and system for targeted content placement
US9846867B2 (en) System and method for point-of-sale electronic receipt generation and management
US8589208B2 (en) Data integration and analysis
US8688595B2 (en) Analyzing transactional data
US20160063520A1 (en) System for Analyzing Patterns
EP3489879A1 (en) Method and system for targeted content placement
US20150142593A1 (en) System and method for point-of-sale electronic receipt storage
US20090327308A1 (en) Systems and methods for providing a consumption network
US20150142514A1 (en) System and method for payment transaction receipt management
US10922701B2 (en) Systems and methods for characterizing geographic regions
WO2011112981A2 (en) Methods, computer-accessible medium and systems for construction of and inference with networked data, for example, in a financial setting
US20190325271A1 (en) Model Management System for Developing Machine Learning Models
US20160063546A1 (en) Method and system for making timely and targeted offers
JP6709775B2 (ja) 算出装置、算出方法及び算出プログラム
US10453091B2 (en) System and method to build external facing information platform to generate target list of entities
US9818101B2 (en) System and method for socially connecting payment card holders
TWM624658U (zh) 以用戶短期特徵預測用戶是否屬於價值用戶群的預測裝置
Basnet et al. Marriage between credit cards and the Internet: Buying is just a click away!
US20210073838A1 (en) System, Method, and Computer Program Product for Determining a Dominant Account Profile of an Account
US20150039390A1 (en) Mobile marketing and targeting using purchase transaction data
US10679227B2 (en) Systems and methods for mapping online data to data of interest
Hamsal The business model development of e-money services in Indonesia
Ivanova et al. Black Friday Tool for Sales Promotion
KR101910423B1 (ko) 금융 거래 정보의 자동 인식 방법 이를 활용한 서비스 제공 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201106