CN117082006A

CN117082006A - 一种基于大数据的客户端的数据源切换方法

Info

Publication number: CN117082006A
Application number: CN202311060591.7A
Authority: CN
Inventors: 杨灵江; 程广勇; 王嘉飞; 胡伟明; 吴炎彬; 黄嘉辉; 黄锦辉; 谢浩佳; 彭庆庆; 何益兴; 丁小雅
Original assignee: Guangdong Zhongshan Net Media Information Technology Co ltd
Current assignee: Guangdong Zhongshan Net Media Information Technology Co ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-17
Anticipated expiration: 2043-08-22
Also published as: CN117082006B

Abstract

本发明公开一种基于大数据的客户端的数据源切换方法，包括：结合数据源的类型，向多个数据源输入大数据样本，根据所述多个数据源各自的返回结果计算所述多个数据源的第一优先级；根据信任数据源集中每个数据源到所述客户端的多个目标路由的节点数，计算所述多个数据源的第二优先级；根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源。采用本发明，灵活切换客户端所需的多个数据源，保证客户端上运行应用服务的高适配性与准确性。

Description

一种基于大数据的客户端的数据源切换方法

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种基于大数据的客户端的数据源切换方法。

背景技术

随着互联网大数据平台及技术的提升，各专业行业领域对大数据领域的业务数据应用需求日益激增。在构建每个领域的应用服务的过程中，由于单一的数据源无法满足服务需求，因此需要定期从多个数据源中获取相应的数据进行服务内容搭建，但是多个数据源的数据由于提供的时间具有较大的差别，同时每个数据源提供的数据的质量也不同，导致客户端在搭建应用服务时，无法灵活的在多个数据源中进行切换，使得应用服务的适应性不强、准确性不高，从而导致最终得到的应用服务的质量较差。

发明内容

本发明实施例提供一种基于大数据的客户端的数据源切换方法，灵活切换客户端每一项所需数据源内容项对应的数据源，保证应用服务的高适配性与准确性。

本申请实施例的提供了一种基于大数据的客户端的数据源切换方法，包括：

获取客户端的应用框架，并根据所述应用框架确认全部所需数据源内容项；

遍历所述客户端到所述客户端的管理端的最短路由上全部节点的路由表，根据遍历结果确认信任数据源集和所述信任数据源集中每个数据源到所述客户端的多个目标路由；所述目标路由是节点数小于预设节点阈值的路由；

从所述信任数据源集中选出为所述所需数据源内容项提供内容的多个数据源；

结合数据源的类型，向所述多个数据源输入大数据样本，根据所述多个数据源各自的返回结果计算所述多个数据源的第一优先级；

根据所述信任数据源集中每个数据源到所述客户端的多个目标路由的节点数，计算所述多个数据源的第二优先级；

根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源。

在一种可能的实现方式中，所述获取客户端的应用框架，并根据所述应用框架确认全部所需数据源内容项，具体包括：

获取客户端的应用框架，确认所述应用框架中运行所需的活动数据接口；

分析流经每个活动数据接口的数据内容，根据每一种不同的数据内容确定一个所需数据源内容项。

在一种可能的实现方式中，所述遍历所述客户端到所述客户端的管理端的最短路由上全部节点的路由表，根据遍历结果确认信任数据源集，具体包括：

通过OSPF算法确认所述客户端到所述客户端的管理端的最短路由；

遍历所述最短路由上全部节点的路由表路由条目，获取每个路由条目中的路由开销、路由标记和出入接口；

根据每个路由条目中的路由开销、路由标记和出入接口，判断每个路由条目中是否存在数据源地址；

将全部判断结果中不同的数据源地址对应的数据源纳入信任数据源集。

在一种可能的实现方式中，所述根据每个路由条目中的路由开销、路由标记和出入接口，判断每个路由条目中是否存在数据源地址，具体包括：

对每个路由条目，在预设时间段内路由开销在预设范围内波动、路由标记保持不变且出入接口属于预设接口集合，该路由条目存在一个数据源地址。

在一种可能的实现方式中，所述结合数据源的类型，向所述多个数据源输入大数据样本，根据所述多个数据源各自的返回结果计算所述多个数据源的第一优先级，具体包括：

对黑名单类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率和准确率，根据覆盖率和准确率确认该数据源输的第一优先级；

对评分类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率、有效值和稳定性，根据覆盖率、有效性和稳定性确认该数据源输的第一优先级；

对变量类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值，根据数据共线值确认该数据源输的第一优先级；

对原始数据类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值与相关值，根据数据共线值与相关值确认该数据源输的第一优先级。

在一种可能的实现方式中，所述对黑名单类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率和准确率，根据覆盖率和准确率确认该数据源输的第一优先级，具体包括：

对黑名单类的数据源，向该数据源输入大数据样本；

获取该数据源的返回结果，根据所述返回结果中的出现数量与所述大数据样本的总样本数的比值，得到该数据源的覆盖率；

根据所述返回结果中的命中数量与所述大数据样本的总样本数的比值，得到该数据源的比值，得到该数据源的准确率；

将归一化后的覆盖率和归一化后的准确率之和作为该数据源输的第一优先级。

在一种可能的实现方式中，所述对评分类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率、有效值和稳定值，根据覆盖率、有效值和稳定值确认该数据源输的第一优先级，具体包括：

对评分类的数据源，向该数据源输入大数据样本；

根据所述返回结果中单变量的KS值、GINI值和IV值，对所述KS值、GINI值和IV值进行加权求和，得到该数据源的有效值；

按照预设时间段对所述返回结果进行分组并计算PSI指标值，将所述PSI指标值作为该数据源的稳定值；

将归一化后的覆盖率、归一化后的有效值和归一化后的稳定值之和作为该数据源输的第一优先级。

在一种可能的实现方式中，所述对变量类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值，根据数据共线值确认该数据源的第一优先级，具体包括：

对变量类的数据源，向该数据源输入大数据样本；

获取该数据源的返回结果，计算所述返回结果中多个变量的方差膨胀因子作为数据共线值；

将归一化后数据共线值作为该数据源的第一优先级。

在一种可能的实现方式中，所述对原始数据类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值和相关值，根据数据共线值与相关值确认该数据源输的第一优先级，具体包括：

对原始数据类的数据源，向该数据源输入大数据样本；

计算所述返回结果的协方差值与prarson系数，对所述协方差值与所述prarson系数进行加权求和，得到该数据源的相关值；

将归一化后的数据共线值和归一化后相关值之和作为该数据源的第一优先级。

在一种可能的实现方式中，所述根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源，具体包括：

对每一个所需数据源内容项，从所述多个数据源选出为该所需数据源内容项提供内容的全部数据源作为该所需数据源内容项的选择集合；

从每一个所需数据源内容项对应的选择集合中选出第一优先级最大的数据源作为目标数据源；若第一优先级最大的数据源存在多个，从中选出第二优先级最大的数据源作为目标数据源；

将所述客户端所需数据源内容项对应的数据源切换成所述目标数据源。

相比于现有技术，本发明实施例提供了一种基于大数据的客户端的数据源切换方法，根据客户端的应用框架制定筛选条件对信任数据源进行筛选，再根据不同的数据源类型计算全部符合筛选条件的数据源的优先级，根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源，其中第一优先级反映了数据源的服务质量，第二优先级反映数据源的网路稳定性。每一项所需数据源内容项的累积相当于所述客户端运行所需的额外数据，依据优先级为每一项所需数据源内容项切换合适的数据源能够有效保证所述客户端运行所需的额外数据的完整性与准确性，实时获取适配的数据进而保证应用服务运行的适应性和准确性。

此外，计算优先级时根据数据源的不同类型，采用了不同的大数据统计的方法计算各个数据源的优先级。因为外部的数据源质量好坏一定程度上决定了应用服务的功能完善程度，采用不同的大数据统计方法能够更好地反映除数据源的好坏，将高质量数据源的优先级提高能够进一步保证应用服务采用数据的准确性。

附图说明

图1是本发明一实施例提供一种基于大数据的客户端的数据源切换方法的流程示意图；

图2是本发明一实施例提供一种基于大数据的客户端的数据源切换装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，本发明实施例提供一种基于大数据的客户端的数据源切换方法，包括：

S10、获取客户端的应用框架，并根据所述应用框架确认全部所需数据源内容项。

S11、遍历所述客户端到所述客户端的管理端的最短路由上全部节点的路由表，根据遍历结果确认信任数据源集和所述信任数据源集中每个数据源到所述客户端的多个目标路由；所述目标路由是节点数小于预设节点阈值的路由。

S12、从所述信任数据源集中选出为所述所需数据源内容项提供内容的多个数据源。

S13、结合数据源的类型，向所述多个数据源输入大数据样本，根据所述多个数据源各自的返回结果计算所述多个数据源的第一优先级。

S14、根据所述信任数据源集中每个数据源到所述客户端的多个目标路由的节点数，计算所述多个数据源的第二优先级。

S15、根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源。

对于内容数据服务商而言，其内容服务一般运行于服务商管理的客户端中，该客户端由上级的管理端控制管理。客户端提供的应用服务除了服务商自身的数据外，往往还需要多个来自外部数据源的数据。常见的内容数据服务商有点播网站、信贷机构、搜索网站等，对点播网站而言所需数据源有音视频源，对于搜索网站而言所需数据源有爬虫数据库源，对于信贷机构所需数据源有个人信用数据源、出行数据源、消费数据源等。

在S10中，客户端的应用框架是指应用服务运行所需的系统结构框架。应用框架的运行需要用到多种数据，其中不少数据需要由外部数据源提供，所需要的数据源类型一般包括黑名单类数据源、评分类数据源、变量类数据源和原始数据类数据源。在信贷机构的应用服务中，黑名单类数据源有欺诈黑名单/羊毛党名单、公安司法黑名单、税务黑名单，评分类数据源有支付宝信用积分、微信支付信用积分、FICO积分等，原始数据类数据源有信贷多头类、消费类、出行类等。

在S11中信任的数据源由上级管理端确认后保存，因此信任的数据源会出现在所述客户端到所述客户端的管理端的最短路由上全部节点的路由表中，数据源互联网的地址会记录于在所述客户端与所述客户端的管理端之间的目标路由中。

S12中根据数据源能否为所需数据源内容项提供内容筛选信任数据源集中数据源，得到多个符合目标的数据源。将应用框架运行需要用到多项所需数据源内容项划分为多种所需数据源类型，是为了筛选时通过类型标签确认数据源的数据源类型后尽快排除不合适的数据源，后续再根据数据内容标签确认数据源的数据源内容项。

在S13-S14中确认了数据源切换时的判断标准——第一优先级与第二优先级，并在S15中根据第一优先级与第二优先级对所述客户端每一项所需数据源内容项对应的数据源进行切换。

需要说明的是，S16中所需数据源内容项是指应用框架的运行需要用到多种数据项，多种数据项合并起来就是应用框架的运行需要用到外部数据，这些外部数据由外部数据源提供。

示例性地，S10具体包括：

示例性地，S11中所述遍历所述客户端到所述客户端的管理端的最短路由上全部节点的路由表，根据遍历结果确认信任数据源集，具体包括：

需要说明的是，路由表中的每一行，由目的网络，下一跳地址，子网掩码，有效标记，输入输出端口等组成，每一个节点都存在一个路由表。

示例性地，所述根据每个路由条目中的路由开销、路由标记和出入接口，判断每个路由条目中是否存在数据源地址，具体包括：

客户端上应用服务调用外部数据源时用到的端口是固定的，但是同一个端口可以提供多种服务，为来避免对路由条目记录的误判，需要结合路由开销与路由标记判断。对于数据源而言，在提供数据服务时，路由开销由于数据源数据的结构稳定性会呈现出一种平稳的趋势，可以通过对直线拟合程度进一步判断路由开销的波动值是否在合理范围。本实施例中的预设时间段预设范围需要根据具体的数据源设置，预设接口集合需要根据实际应用中客户端的运行参数进行设置。

示例性地，S13具体包括：

对黑名单类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率和准确率，根据覆盖率和准确率确认该数据源输的第一优先级。

对评分类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率、有效值和稳定性，根据覆盖率、有效性和稳定性确认该数据源输的第一优先级。

对变量类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值，根据数据共线值确认该数据源输的第一优先级。

需要说明的是，覆盖率是考量数据覆盖程度的指标，又叫查得率。根据客户端应用服务的应用场景，确定数据覆盖程度的需求，覆盖率越高越好。其中黑名单类的覆盖率一般较低，而评分类和原始字段类的覆盖率要求则相对较高。

此外，如果是黑名单类，则直接用命中且实际为大数据样本的数量/总大数据样本数量；如果是评分类和原始字段类，一般会在提供的黑白样本中呈现一定的差异。比如白样本中评分相对黑样本的评分高，且整体会呈现正太分布。

下面以信贷机构为例详细介绍不同类型数据源的优先级计算过程。测试的大数据样本需满足以下几点：连续一段时间内的样本，可以评估数据的稳定性；最好是近段时间的样本，这样线下评估结果与线上实际效果差距不会太大；其他特殊条件，如覆盖不同的产品和客群。注：如果不满足连续性、稳定性、代表性这三个条件，测试结果可能是不准确的。

示例性地，所述对黑名单类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率和准确率，根据覆盖率和准确率确认该数据源输的第一优先级，具体包括：

对黑名单类的数据源，向该数据源输入大数据样本；

示例性地，所述对评分类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率、有效值和稳定值，根据覆盖率、有效值和稳定值确认该数据源输的第一优先级，具体包括：

对评分类的数据源，向该数据源输入大数据样本；

对于单变量的数据源，需要考虑单变量的KS 、GINI、IV值，其中KS值用以评估对好、坏客户的判别区分能力，计算累计坏客户与累计好客户百分比的最大差距。KS值范围在0%-100%，评分类的变量，一般要求ks>20%，变量类的数据一般要求ks>10%。GINI统计值衡量坏账户数在好账户数上的的累积分布与随机分布曲线之间的面积，好账户与坏账户分布之间的差异越大，GINI指标越高，表明风险区分能力越强。IV值代表信息价值，用来表示特征对目标预测的贡献程度，即特征的预测能力，一般来说，IV值越高，该特征的预测能力越强，信息贡献程度越高。

评分类的数据源还需要评估稳定性。稳定性的评估一般使用PSI指标，对比预期分布与实际分布的差异。通常在计算某一字段的PSI时，会按照时间进行分组（通常按照十分位数分成10段），对比不同时间切片的分组按照以上公式计算即可。

示例性地，所述对变量类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值，根据数据共线值确认该数据源的第一优先级，具体包括：

对变量类的数据源，向该数据源输入大数据样本；

将归一化后数据共线值作为该数据源的第一优先级。

共线值反映了数据源的共线性。共线性又叫做多重共线性，是指自变量之间存在较强的，甚至完全的线性相关关系。当自变量之间存在共线性时，数据源的参数会变得极其不稳定，数据源的预测能力会下降。许多第三方的数据衍生逻辑都是笛卡尔积遍历所有组合的可能。容忍度（Tolerance）、方差膨胀因子（Variance inflation factor, VIF）、特征根（Eigenvalue）、条件指数（Condition Idex）等，都是共线性的考察手段。本实施例采用了方差膨胀因子这个衡量指标。

示例性地，所述对原始数据类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值和相关值，根据数据共线值与相关值确认该数据源输的第一优先级，具体包括：

对原始数据类的数据源，向该数据源输入大数据样本；

本实施例在评价原始数据类的数据源进行相关性分析，分析数据的相关程度。反映相关性的相关值一般用协方差、prarson系数和举例相关系数计算。

示例性地，所述根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源，具体包括：

从S14中可以看出，数据源的第二优先级是根据数据源到所述客户端的多个目标路由的节点数确认的。更具体地说，这里的每个目标路由都代表一条数据源到客户端的路径，计算第二优先级时，需要统计出多个目标路由中的重复节点数，用总结点数减去重复节点数得到独立节点数，根据独立节点数的大小判断数据源的第二优先级。由于全部独立节点构成了数据源到客户端的网络通道，独立节点数越大，数据源的网络结构越稳定，那么数据源的第二优先级就越大。

本申请一实施例提供一种基于大数据的客户端的数据源切装置，包括：获取模块20、遍历模块21、筛选模块22、第一计算模块23、第二计算模块24和切换模块25。

获取模块20，用于获取客户端的应用框架，并根据所述应用框架确认全部所需数据源内容项。

遍历模块21，用于遍历所述客户端到所述客户端的管理端的最短路由上全部节点的路由表，根据遍历结果确认信任数据源集和所述信任数据源集中每个数据源到所述客户端的多个目标路由；所述目标路由是节点数小于预设节点阈值的路由。

筛选模块22，用于从所述信任数据源集中选出为所述所需数据源内容项提供内容的多个数据源。

第一计算模块23，用于结合数据源的类型，向所述多个数据源输入大数据样本，根据所述多个数据源各自的返回结果计算所述多个数据源的第一优先级。

第二计算模块24，用于根据所述信任数据源集中每个数据源到所述客户端的多个目标路由的节点数，计算所述多个数据源的第二优先级。

切换模块25，用于根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的切换装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

相比于现有技术，本发明实施例提供了一种基于大数据的客户端的数据源切换装置，根据客户端的应用框架制定筛选条件对信任数据源进行筛选，再根据不同的数据源类型计算全部符合筛选条件的数据源的优先级，根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源，其中第一优先级反映了数据源的服务质量，第二优先级反映数据源的网路稳定性。每一项所需数据源内容项的累积相当于所述客户端运行所需的额外数据，依据优先级为每一项所需数据源内容项切换合适的数据源能够有效保证所述客户端运行所需的额外数据的完整性与准确性，实时获取适配的数据进而保证应用服务运行的适应性和准确性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于大数据的客户端的数据源切换方法，其特征在于，包括：

2.如权利要求1所述基于大数据的客户端的数据源切换方法，其特征在于，所述获取客户端的应用框架，并根据所述应用框架确认全部所需数据源内容项，具体包括：

3.如权利要求1所述基于大数据的客户端的数据源切换方法，其特征在于，所述遍历所述客户端到所述客户端的管理端的最短路由上全部节点的路由表，根据遍历结果确认信任数据源集，具体包括：

4.如权利要求3所述基于大数据的客户端的数据源切换方法，其特征在于，所述根据每个路由条目中的路由开销、路由标记和出入接口，判断每个路由条目中是否存在数据源地址，具体包括：

5.如权利要求1所述基于大数据的客户端的数据源切换方法，其特征在于，所述结合数据源的类型，向所述多个数据源输入大数据样本，根据所述多个数据源各自的返回结果计算所述多个数据源的第一优先级，具体包括：

6.如权利要求5所述基于大数据的客户端的数据源切换方法，其特征在于，所述对黑名单类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率和准确率，根据覆盖率和准确率确认该数据源输的第一优先级，具体包括：

对黑名单类的数据源，向该数据源输入大数据样本；

7.如权利要求5所述基于大数据的客户端的数据源切换方法，其特征在于，所述对评分类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的覆盖率、有效值和稳定值，根据覆盖率、有效值和稳定值确认该数据源输的第一优先级，具体包括：

对评分类的数据源，向该数据源输入大数据样本；

8.如权利要求5所述基于大数据的客户端的数据源切换方法，其特征在于，所述对变量类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值，根据数据共线值确认该数据源的第一优先级，具体包括：

对变量类的数据源，向该数据源输入大数据样本；

将归一化后数据共线值作为该数据源的第一优先级。

9.如权利要求5所述基于大数据的客户端的数据源切换方法，其特征在于，所述对原始数据类的数据源，向该数据源输入大数据样本，根据该数据源的返回结果计算该数据源的数据共线值和相关值，根据数据共线值与相关值确认该数据源输的第一优先级，具体包括：

对原始数据类的数据源，向该数据源输入大数据样本；

10.如权利要求1所述基于大数据的客户端的数据源切换方法，其特征在于，所述根据所述多个数据源的第一优先级和第二优先级，切换所述客户端每一项所需数据源内容项对应的数据源，具体包括：