CN115082135A

CN115082135A - 一种信息差异识别方法、装置、设备及介质

Info

Publication number: CN115082135A
Application number: CN202211010101.8A
Authority: CN
Inventors: 符金华; 李欣; 张家庆; 聂文军
Original assignee: Chengdu Lechaoren Technology Co ltd
Current assignee: Chengdu Lechaoren Technology Co ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-09-20
Anticipated expiration: 2042-08-23
Also published as: CN115082135B

Abstract

本申请提供了一种信息差异识别方法、装置、设备及介质，用以解决现有技术中信息差异识别方法准确度低的问题。所述方法包括：根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列；当第一目标分箱序列和第一历史分箱序列不满足预设条件时，对第一目标分箱序列和/或第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列；根据预设算法、第二目标分箱序列和第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果；根据差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向。本申请能识别信息差异具体情况，从而提高信息差异识别的准确度。

Description

一种信息差异识别方法、装置、设备及介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种信息差异识别方法、装置、设备及介质。

背景技术

随着信息技术的进步，尤其是数据获取技术的飞速发展，社会中各行各业产生并聚集了海量数据，对这些数据的分析和应用的重要性也日益凸显。各企业通过对市场、用户等因素的当前信息和历史信息进行分析对比获取信息差异以对当前市场状况进行判断，现有技术中，虽然能够通过算法直观地衡量当前信息和历史信息的差异性，但无法识别信息差异的具体情况，准确度低。

发明内容

有鉴于此，本发明实施例提供了信息差异识别方法、装置、设备及介质，用以解决现有技术中信息差异识别方法准确度低的技术问题。

为解决上述技术问题，本申请提出了一种信息差异识别方法，所述方法包括：

根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，其中，所述目标数据集和历史数据集均包括多个数据项，所述数据项包括用户属性数据，所述目标数据集和所述历史数据集的数据项的数量均大于预设数量；

当所述第一目标分箱序列和所述第一历史分箱序列不满足预设条件时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，其中，所述第二目标分箱序列和第二历史分箱序列的长度相同，并且所述第二目标分箱序列和所述第二历史分箱序列的索引映射相同；

根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果；

根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向。

作为本申请的一些可选实施例，所述当所述第一目标分箱序列和所述第一历史分箱序列不满足预设条件时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，包括：

当所述第一目标分箱序列和所述第一历史分箱序列的长度不一致时，根据预设填充项，对第一目标分箱序列和所述第一历史分箱序列中长度短的序列进行填充，以得到第二目标分箱序列和第二历史分箱序列；

当所述第一目标分箱序列和所述第一历史分箱序列的索引映射不一致时，根据所述第一目标分箱序列和所述第一历史分箱序列，获取目标索引序列和历史索引序列；

根据所述目标索引序列、所述历史索引序列和所述预设填充项，对第一目标分箱序列和所述第一历史分箱序列进行填充处理，以得到第二目标分箱序列和第二历史分箱序列。

作为本申请的一些可选实施例，所述根据所述目标索引序列、所述历史索引序列和所述预设填充项，对第一目标分箱序列和所述第一历史分箱序列进行填充处理，以得到第二目标分箱序列和第二历史分箱序列，包括：

根据所述目标索引序列和所述历史索引序列，确定索引缺失位置；

根据所述索引缺失位置和所述预设填充项，对第一目标分箱序列和所述第一历史分箱序列进行填充处理，以得到第二目标分箱序列和第二历史分箱序列。

作为本申请的一些可选实施例，所述根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果包括：

对所述第二目标分箱序列和所述第二历史分箱序列进行归一化处理，以得到第三目标分箱序列和第三历史分箱序列；

根据所述第三目标分箱序列，确定目标索引值，其中，所述目标索引值对应所述第三目标分箱序列中的最大值；

根据所述第三目标分箱序列、所述第三历史分箱序列和所述目标索引值，以得到所述目标数据集和历史数据集的差异识别结果。

作为本申请的一些可选实施例，所述根据所述第三目标分箱序列、所述第三历史分箱序列和所述目标索引值，以得到所述目标数据集和历史数据集的差异识别结果，包括：

根据预设公式、所述第三目标分箱序列、所述第三历史分箱序列和所述目标索引值，获取差异识别结果，其中，所述预设公式如下所示：

式中，

为所述第三目标分箱序列，

为所述第三历史分箱序列，m为所述目标索引值，i和j均为正整数。

作为本申请的一些可选实施例，所述根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，包括：

根据所述目标数据集的数据特征，确定分箱区间；

根据所述分箱区间，对所述目标数据集和所述历史数据集进行分箱处理，以得到第一目标分箱序列和所述第一历史分箱序列。

作为本申请的一些可选实施例，所述根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向，包括：

当所述差异性识别结果为负数，则所述目标数据集相对于所述历史数据集向左偏移；

当所述差异性识别结果为正数，则所述目标数据集相对于所述历史数据集向右偏移。

为解决上述技术问题，本申请还提出了一种信息差异识别装置，所述装置包括：

分箱模块，用于根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，其中，所述目标数据集和历史数据集均包括多个数据项，所述数据项包括用户属性数据，所述目标数据集和所述历史数据集的数据项的数量均大于预设数量；

填充模块，用于当所述第一目标分箱序列和所述第一历史分箱序列不满足预设条件时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，其中，所述第二目标分箱序列和第二历史分箱序列的长度相同，并且所述第二目标分箱序列和所述第二历史分箱序列的索引映射相同；

差异识别模块，用于根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果；

偏移方向判断模块，用于根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向。

为解决上述技术问题，本申请还提出了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

为解决上述技术问题，本申请还提出了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

综上所述，本发明的有益效果如下：

本申请所述的信息差异识别方法，首先通过根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，所述目标数据集和历史数据集包括多个数据项，所述数据项包括用户属性数据，由于分布状况计算中，如果该统计维度的数量过低，将丧失统计意义，同时，在极小颗粒度下，市场状况的变化性是极大的，为防止上述情况的发生，所述目标数据集和所述历史数据集的数据项的数量均大于预设数量，并且通过分箱处理，实现数据的离散化，增强了数据稳定性，并且保证了得到的分箱序列的单调性；当所述第一目标分箱序列和所述第一历史分箱序列不满足预设条件时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，通过填充处理，能够保证目标分箱序列和所述第二历史分箱序列的长度相同以及索引映射的相同，保证了后续差异性识别的准确性；根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果；根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向，与现有技术不同的是，本申请的方法能够根据差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向，通过所述偏移方向能够识别信息差异具体情况，例如分布变化是左偏还是右偏，从而推断当前的市场状况或用户状况。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1是本发明实施例的信息差异识别方法的流程示意图。

图2是本发明实施例的客户性别分布变化的示意图。

图3是本发明实施例的信息差异识别装置的结构示意图。

图4是本发明实施例的电子设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着信息技术的进步，尤其是数据获取技术的飞速发展，社会中各行各业产生并聚集了海量数据，对这些数据的分析和应用的重要性也日益凸显。各企业通过对市场、用户等因素的当前信息和历史信息进行分析对比获取信息差异以对当前市场状况进行判断；

现有技术中，常使用的信息差异算法为相对熵(Kullback-Leibler散度)，相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大，由吉布斯不等式可知，相对熵恒为非负，即相对熵仅能直观地衡量信息的差异性，但无法识别信息差异具体情况，例如分布变化是左偏还是右偏。

针对上述问题，请参见图1，为解决上述技术问题，本申请提出了一种信息差异识别方法，所述方法包括：

S1、根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，其中，所述目标数据集和历史数据集均包括多个数据项，所述数据项包括用户属性数据，所述目标数据集和所述历史数据集的数据项的数量均大于预设数量；

具体的，首先根据预设分箱方法对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，其中，所述目标数据集和历史数据集包括多个数据项，所述数据项包括用户属性数据，在本实施例中，所述用户属性数据包括用户在网时长、用户性别和用户教育信息中至少一种，在另一实施例中，所述用户属性数据还包括用户年龄、用户收入水平和用户婚姻情况等。

所述预设分箱方法包括但不限于等距分箱、等频分箱、卡方分箱等，数据分箱作为数据预处理的一部分，也被称为离散分箱或者数据分段，本质是对数据进行分组，实现数据的离散化，增强数据稳定性。

S11、根据所述目标数据集的数据特征，确定分箱区间；

具体的，首先根据目标数据集的数据特征，确定分箱区间，在一具体实施例中，所述目标数据集的数据项为客户年龄，所述目标数据集可表示为[29,7,49,12,50,34,36,75,61,20,3,11]，根据客户年龄的数据特征，可对分箱区间进行确定，所述分箱区间可包括18岁以下、18至40岁、40-60岁以及60岁以上，通过分箱区间的确定，数据的可取值的范围变小了，并且数据的可取值会更加确定与稳定，之前取值范围不定的数据经过分箱后，变成了取值固定的数据，经过分箱后，特征包容异常值的能力增强，特征出现模型无法处理值的可能性也就降低了很多。

S12、根据所述分箱区间，对所述目标数据集和所述历史数据集进行分箱处理，以得到第一目标分箱序列和所述第一历史分箱序列。

具体的，在分箱区间确定后，即可对所述目标数据集和所述历史数据集进行分箱处理，由于本申请方案是为了获取目标数据集与所述历史数据集之间的差异性结果，故在本步骤中，以相同的分箱区间同时对所述目标数据集和所述历史数据集进行分箱处理，在一具体实施例中，所述预设分箱方法为等距分箱，即每个箱的区间的大小是相等的，每个箱内的数据量不一定相等，举例来说而非限定，所述目标数据集A=[1,1,2,3,4]，所述历史数据集为B=[1,2,2,3,4]，对于这目标数据集和历史数据集进行分箱统计可以得到第一目标分箱序列_A = [((0,1],2),((1,2],1),((2,3],1),((3,4],1)]，其中((0,1],2)表示0-1区间统计数组A具有2个值，同理可以得到第一历史分箱序列_B=[((0,1],1),((1,2],2),((2,3],1),((3,4],1)]，通过相同的分箱区间进行分箱处理，保证分箱序列的单调性，从而提升后续差异性识别结果的准确性。

S2、当所述第一目标分箱序列和所述第一历史分箱序列不满足预设条件时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，其中，所述第二目标分箱序列和第二历史分箱序列的长度相同，并且所述第二目标分箱序列和所述第二历史分箱序列的索引映射相同；

具体的，第一目标分箱序列和所述第一历史分箱序列是通过目标数据集和历史数据集通过分享处理获取，可能出现第一目标分箱序列和所述第一历史分箱序列出现长度不一致或者索引映射不同的情况，若直接通过第一目标分箱序列和所述第一历史分箱序列进行差异识别，则会导致获取的差异性识别结果不准确，为了解决上述问题，本步骤中，当所述第一目标分箱序列和所述第一历史分箱序列度不一致或者索引映射不同时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，其中，所述第二目标分箱序列和第二历史分箱序列的长度相同，并且所述第二目标分箱序列和所述第二历史分箱序列的索引映射相同，从而提升后续差异性识别的准确性。

S21、当所述第一目标分箱序列和所述第一历史分箱序列的长度不一致时，根据预设填充项，对第一目标分箱序列和所述第一历史分箱序列中长度短的序列进行填充，以得到第二目标分箱序列和第二历史分箱序列；

具体的，当所述第一目标分箱序列和所述第一历史分箱序列的长度不一致时，根据预设填充项，对第一目标分箱序列和所述第一历史分箱序列中长度短的序列进行填充，以得到第二目标分箱序列和第二历史分箱序列，举例来说而非限定，所述第一目标分箱序列为[10,20,30,50]，所述第一历史分箱序列为[5,2,1]，则根据预设填充项对第一历史分箱序列进行填充，在一具体实施例中，所述预设填充项为0，则填充后获得第二历史分箱序列为[5,2,1,0]，使得两者的长度一致，从而提升差异性识别的准确度。

S22、当所述第一目标分箱序列和所述第一历史分箱序列的索引映射不一致时，根据所述第一目标分箱序列和所述第一历史分箱序列，获取目标索引序列和历史索引序列；

当所述第一目标分箱序列和所述第一历史分箱序列的索引映射不一致时，首先根据所述第一目标分箱序列和所述第一历史分箱序列，获取目标索引序列和历史索引序列，由于采取分箱的方法，两数组序列索引是有序并且表达意义是一致的，因此只要找到表达意义具有缺失的部分进行填充，第一目标分箱序列为[1,2]，对应的目标索引序列为[(0,1],(1,2]]，第一历史分箱序列为[2]，对应的历史索引序列为[(0,1]],则需要对第一历史分箱序列填充进行填充为[2,0]，使得历史索引序列变为[(0,1],(1,2]]。

S23、根据所述目标索引序列、所述历史索引序列和所述预设填充项，对第一目标分箱序列和所述第一历史分箱序列进行填充处理，以得到第二目标分箱序列和第二历史分箱序列。

具体的，在有些序列进行分箱过程中，可能出现某个分箱没有对应数值的情况，对第一目标分箱序列和所述第一历史分箱序列进行填充处理，以得到第二目标分箱序列和第二历史分箱序列，保证获得第二目标分箱序列和第二历史分箱序列在索引映射上的一致，若第二目标分箱序列和第二历史分箱序列索引映射不一致，在进行差异性识别时，第二目标分箱序列中的数据项与第二历史分箱序列中会索引映射不同的数据项进行对比，降低差异性识别的准确度。因此，保证获得第二目标分箱序列和第二历史分箱序列在索引映射上的一致可以实现保证差异性识别的准确度。

S231、根据所述目标索引序列和所述历史索引序列，确定索引缺失位置；

S232、根据所述索引缺失位置和所述预设填充项，对第一目标分箱序列和所述第一历史分箱序列进行填充处理，以得到第二目标分箱序列和第二历史分箱序列。

具体的，根据所述目标索引序列和所述历史索引序列，确定索引缺失位置，通过索引缺失位置的确定，由于采取分箱的方法，两数组序列索引是有序并且表达意义是一致的，因此只要找到表达意义具有缺失的部分进行填充即可。举例来说而非限定，目标数据集为[1,1,3,4]，历史数据集为[1,1,2,3]，第一历史分箱序列和第一目标分箱序列均为[2,1,1]，但目标索引序列为[((0,1],2),((3,4],1),((4,5],1)]，而历史索引序列为_B=[((0,1],2),((2,3],1),((3,4],1)]，导致了差异化，根据所述目标索引序列和历史索引序列即可确定所述索引缺失部分，根据所述索引缺失部分，即可将第一目标分箱序列填充为[2,0,1,1]，同时将第一历史分箱序列填充为[2,1,1,0]，不仅保证第二目标分箱序列和第二历史分箱序列在长度和索引映射上的一致性，并且保证了第二目标分箱序列和第二历史分箱序列的有序性，从而进一步提升后续差异识别的准确度。

S3、根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果；

具体的，在获取长度和索引映射一致的第二目标分箱序列和所述第二历史分箱序列后，通过预设算法即可获取目标数据集与所述历史数据集的差异，所述预设算法可包括相对熵，相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大，由吉布斯不等式可知，相对熵恒为非负，即相对熵仅能直观地衡量信息的差异性，但无法识别信息差异具体情况，例如分布变化是左偏还是右偏。

作为本申请的一些可选实施例，所述根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果，包括：

S31、对所述第二目标分箱序列和所述第二历史分箱序列进行归一化处理，以得到第三目标分箱序列和第三历史分箱序列；

具体的，首先对第二目标分箱序列和所述第二历史分箱序列进行归一化处理，归一化处理是将有量纲表达式变为无量纲表达式，主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速，归一化处理通过如下表达式实现：

归一化处理属于现有技术，在此不再赘述。

S32、根据所述第三目标分箱序列，确定目标索引值，其中，所述目标索引值对应所述第三目标分箱序列中的最大值；

通过获取第三目标分箱序列最大值的索引值，记为目标索引值，即可认定小于等于该目标索引值的为左区间，大于该目标索引值的为右区间，根据对应区间与其分布状况进行相应的计算，获取最终的信息差异量，并且通过左区间和右区间的划分，即可获取分布变化是左偏还是右偏；

S33、根据所述第三目标分箱序列、所述第三历史分箱序列和所述目标索引值，以得到所述目标数据集和历史数据集的差异识别结果。

由于目标索引值的确定，本申请的差异性识别结果不仅能够直观衡量目标数据集和历史数据集之间的差异性，目标数据集相对于历史数据集的偏移方向，从而根据数据项包括的不同用户属性，判定用户群体往好的方向偏移还是坏的方向偏移，进而对市场情况进行判定。

S331、根据预设公式、所述第三目标分箱序列、所述第三历史分箱序列和所述目标索引值，获取差异识别结果，其中，所述预设公式如下所示：

式中，

为所述第三目标分箱序列，

具体的，通过上述公式可以看出，本申请的差异性识别方法在进行数据差异计算时，根据目标索引值将第三目标分箱序列和第三历史分箱划分为左区间和右区间分别进行计算，从而根据差异识别结果即可判断目标数据集相对于历史数据集的偏移方向。

S4、根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向。

具体的，根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向，偏移方向的确定，能够量化市场状况或用户状况的判定结果，并根据判定结果对市场状况或用户状况的特征分布状况进行分析，判断分布状况是否发生了巨大改变。

S41、当所述差异性识别结果为负数，则所述目标数据集相对于所述历史数据集向左偏移；

S42、当所述差异性识别结果为正数，则所述目标数据集相对于所述历史数据集向右偏移。

具体的，根据上述实施例中的公式可以看出，通过差异性识别结果的正负情况可以判断目标数据集相对于所述历史数据集的偏移方向当所述差异性识别结果为负数，则所述目标数据集相对于所述历史数据集向左偏移，当所述差异性识别结果为正数，则所述目标数据集相对于所述历史数据集向右偏移。

需要说明的是，本实施例的信息差异性识别方法可以用于市场状况和用户状况的评估。例如，在一种可选的场景中，在金融机构的信贷业务中，对于市场(用户)状况的判定，可以通过观测市场(用户)特征分布状况是否发生巨大改变来判定是否产生了风险情况，而这个改变则可以通过本实施例的信息差异性识别方法所得到的信息偏移方向来体现，具体的判断方法可参考如下实施方式：

在一具体实施例中，所述目标数据集和历史数据集的数据项所包括的用户属性数据为用户在网时长，用户在网时长是指，客户办理手机卡从开户时间开始计算到目前一共使用多久的时间，用户在网时长越长，用户资质越好，通过本申请的方案可以将现今市场的用户在网时长作为目标数据集，将历史市场的用户在网时长作为历史数据集，从而获取现今市场与历史市场的用户在网时长之间的差异性识别结果，通过差异性识别结果的正负判断用户群体在网时长分布是往时间更长的方向偏移还是往时间较短的方向偏移，从而达到认知市场情况与预警；

在另一实施例中，所述目标数据集和历史数据集的数据项所包括的用户属性数据为用户教育信息，用户教育信息即用户的最高学历，用户的最高学历越高，用户资质越好，通过本申请的方案可以将现今市场的用户教育信息作为目标数据集，将历史市场的用户教育信息作为历史数据集，从而获取现今市场与历史市场的用户教育信息之间的差异性识别结果，通过差异性识别结果的正负判断现今时长用户群体的最高学历的相比于历史市场用户群体是增高还是降低，从而达到认知市场情况。

在本实施例中，所述目标数据集和历史数据集的数据项所包括的用户属性数据为用户性别，通过本申请的方案可以将现今市场的用户性别作为目标数据集，将历史市场的用户性别作为历史数据集，从而获取现今市场与历史市场的用户性别的差异性识别结果，通过差异性识别结果的正负判断现今时长用户群体的用户性别的相比于历史市场用户群体的性别变化，从而对目标客户有了更精准的判断。参见图2，图2是本发明一实施例中的客户性别分布图，从图2可以得出客户性别分布状况发生了较大的改变，若通过本申请的算法现今市场客户性别分布与历史分布客户性别分布进行分析，男性占比有了明显的提高，进而可以推断用户群体逐渐从女性转化为男性，实现对市场（用户）状况的判断；若仅通过信息熵对其进行分析，仅能得出通过现今市场客户性别分布与历史分布发生了较大的改变，不够准确，无法实现对市场（用户）状况具体分析。

由此可见，本申请所述的信息差异识别方法，首先通过根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，所述目标数据集和历史数据集包括多个数据项，所述数据项包括用户属性，由于分布状况计算中，如果该统计维度的数量过低，将丧失统计意义，同时，在极小颗粒度下，市场状况的变化性是极大的，为防止上述情况的发生，所述目标数据集和所述历史数据集的数据项的数量均大于预设数量，并且通过分箱处理，实现数据的离散化，增强了数据稳定性，并且保证了得到的分箱序列的单调性；当所述第一目标分箱序列和所述第一历史分箱序列不满足预设条件时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，通过填充处理，能够保证目标分箱序列和所述第二历史分箱序列的长度相同以及索引映射的相同，保证了后续差异性识别的准确性；根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果；根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向，与现有技术不同的是，本申请的方法能够根据差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向，通过所述偏移方向能够识别信息差异具体情况，例如分布变化是左偏还是右偏，从而推断当前的市场状况或用户状况。

为解决上述技术问题，如图3所示，本申请还提出了一种信息差异识别装置，所述装置包括：

需要说明的是，本实施例的信息差异识别装置中各模块是与前述实施例中信息差异识别方法中的各步骤一一对应，因此，本实施例的具体实施方式和达到的技术效果可参照前述信息差异识别方法的实施方式，这里不再赘述。

另外，结合图1描述的本发明实施例的信息差异识别方法可以由电子设备来实现。图4示出了本发明实施例提供的电子设备的硬件结构示意图。

电子设备可以包括至少一个处理器301、至少一个存储器302以及存储在所示存储器302中的计算机程序指令，当所述计算机程序指令被所述处理器301执行时实现上述实施例所述的方法。

具体地，上述处理器301可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，ASIC），或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器（Hard Disk Drive，HDD）、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线（Universal Serial Bus，USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在数据处理装置的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器（ROM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（PROM）、可擦除PROM（EPROM）、电可擦除PROM（EEPROM）、电可改写ROM（EAROM）或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种信息差异识别方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，如图4所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口（AGP）或其他图形总线、增强工业标准架构（EISA）总线、前端总线（FSB）、超传输（HT）互连、工业标准架构（ISA）总线、无限带宽互连、低引脚数（LPC）总线、存储器总线、微信道架构（MCA）总线、外围组件互连（PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（SATA）总线、视频电子标准协会局部（VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的信息差异识别方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种信息差异识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种信息差异识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的信息差异识别方法，其特征在于，所述当所述第一目标分箱序列和所述第一历史分箱序列不满足预设条件时，对所述第一目标分箱序列和/或所述第一历史分箱序列进行填充处理，得到第二目标分箱序列和第二历史分箱序列，包括：

3.根据权利要求2所述的信息差异识别方法，其特征在于，所述根据所述目标索引序列、所述历史索引序列和所述预设填充项，对第一目标分箱序列和所述第一历史分箱序列进行填充处理，以得到第二目标分箱序列和第二历史分箱序列，包括：

4.根据权利要求1所述的信息差异识别方法，其特征在于，所述根据预设算法、所述第二目标分箱序列和所述第二历史分箱序列，得到所述目标数据集与所述历史数据集的差异识别结果，包括：

5.根据权利要求4所述的信息差异识别方法，其特征在于，所述根据所述第三目标分箱序列、所述第三历史分箱序列和所述目标索引值，以得到所述目标数据集和历史数据集的差异识别结果，包括：

式中，

为所述第三目标分箱序列，

6.根据权利要求1所述的信息差异识别方法，其特征在于，所述根据预设分箱方法，对目标数据集和历史数据集进行分箱处理，得到第一目标分箱序列和第一历史分箱序列，包括：

根据所述目标数据集的数据特征，确定分箱区间；

7.根据权利要求1所述的信息差异识别方法，其特征在于，所述根据所述差异识别结果，判断所述目标数据集相对于所述历史数据集的偏移方向，包括：

8.一种信息差异识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。