CN111091161B

CN111091161B - 一种数据分类方法、装置及系统

Info

Publication number: CN111091161B
Application number: CN201911418847.0A
Authority: CN
Inventors: 李婷姝; 赵小柱; 梁亮; 贾琳; 郝玉飞; 朱伟伟; 翁晴晴; 王玉婷; 袁媛
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-09-22
Anticipated expiration: 2039-12-31
Also published as: CN111091161A

Abstract

本发明提供了一种数据分类方法、装置及系统，能够利用基准样本的特征值确定测试样本的特征值对应的权重值，从而利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值，利用测试样本的分类值对所述测试样进行分类，能够提高测试样本分类的准确性，该方法应用在银行业务相关数据分类中，能够提高银行业务相关数据分类的准确性，确保银行业务的顺利执行。

Description

一种数据分类方法、装置及系统

技术领域

本发明涉及数据处理技术领域，更具体的说，是涉及一种数据分类方法、装置及系统。

背景技术

目前在银行业务处理系统中，随着银行业务的增加，为了确保银行业务的执行，需要对一些银行业务相关数据进行分类，例如：对客户还款能力进行分类、对营销客户定位进行分类、对自助存取款机选址进行分类等，对银行业务相关数据分类的准确性直接影响着银行业务的执行情况，因此，如何提高银行业务相关数据分类的准确性，确保银行业务的顺利执行成为目前需要解决的技术问题。

发明内容

有鉴于此，本发明提供了一种数据分类方法、装置及系统，以提高银行业务相关数据分类的准确性，确保银行业务的顺利执行。

为实现上述目的，本发明提供如下技术方案：

一种数据分类方法，所述方法包括：

获取基准样本的特征值以及测试样本的特征值；

获取每个基准样本的特征值各自对应的权重值；

计算测试样本的特征值与基准样本的特征值之间的距离；

将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的目标近邻特征值集合；

依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；

利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；

利用测试样本的分类值对所述测试样本进行分类。

优选的，所述将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的目标近邻特征值集合包括：

获取基准近邻特征值集合，所述基准近邻特征值集合中至少包括：预先设定的预设个数的基准近邻特征值，以及每个基准近邻特征值与测试样本的特征值之间的距离；

确定基准近邻特征值集合中包含的所有基准近邻特征值中与测试样本的特征值之间具有的最大距离，作为最大基准距离；

将与测试样本的特征值的距离小于最大基准距离的基准样本的特征值依次更新到基准近邻特征值集合中，并删除当前基准近邻特征值集合中与测试样本的特征值具有最大距离的基准近邻特征值，得到测试样本的特征值对应的目标近邻特征值集合。

优选的，所述依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值包括：

将目标近邻特征值集合中每个基准样本的特征值的权重值的均值，作为测试样本的特征值对应的权重值。

优选的，利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值包括：

对不同测试样本的特征值与该测试样本的特征值对应的权重值执行加权求和处理，得到加权求和处理结果，将所述加权求和处理结果作为测试样本的分类值。

一种数据分类装置，所述装置包括：

特征值获取单元，用于获取基准样本的特征值以及测试样本的特征值；

权重值获取单元，用于获取每个基准样本的特征值各自对应的权重值；

距离计算单元，用于计算测试样本的特征值与基准样本的特征值之间的距离；

第一分类单元，用于将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的目标近邻特征值集合；

权重值计算单元，用于依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；

分类值计算单元，用于利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；

第二分类单元，用于利用测试样本的分类值对所述测试样本进行分类。

优选的，所述第一分类单元包括：

基准近邻特征值集合获取单元，用于获取基准近邻特征值集合，所述基准近邻特征值集合中至少包括：预先设定的预设个数的基准近邻特征值，以及每个基准近邻特征值与测试样本的特征值之间的距离；

基准距离确定单元，用于确定基准近邻特征值集合中包含的所有基准近邻特征值中与测试样本的特征值之间具有的最大距离，作为最大基准距离；

目标近邻特征值集合确定单元，用于将与测试样本的特征值的距离小于最大基准距离的基准样本的特征值依次更新到基准近邻特征值集合中，并删除当前基准近邻特征值集合中与测试样本的特征值具有最大距离的基准近邻特征值，得到测试样本的特征值对应的目标近邻特征值集合。

优选的，所述权重值计算单元包括：

权重值计算子单元，用于将目标近邻特征值集合中每个基准样本的特征值的权重值的均值，作为测试样本的特征值对应的权重值。

优选的，所述分类值计算单元包括：

分类值计算子单元，用于对不同测试样本的特征值与该测试样本的特征值对应的权重值执行加权求和处理，得到加权求和处理结果，将所述加权求和处理结果作为测试样本的分类值。

一种数据分类系统，所述系统具体用于：执行如上所述的数据分类方法。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种数据分类方法、装置及系统，获取基准样本的特征值以及测试样本的特征值；获取每个基准样本的特征值各自对应的权重值；计算测试样本的特征值与基准样本的特征值之间的距离；将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的目标近邻特征值集合；依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；利用测试样本的分类值对所述测试样进行分类。通过本发明公开的上述方法能够利用基准样本的特征值确定测试样本的特征值对应的权重值，从而利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值，利用测试样本的分类值对所述测试样进行分类，能够提高测试样本分类的准确性，该方法应用在银行业务相关数据分类中，能够提高银行业务相关数据分类的准确性，确保银行业务的顺利执行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的数据分类方法的流程图；

图2为本发明实施例提供的另一种数据分类方法的流程图；

图3为本发明实施例提供的数据分类装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明提供了一种数据分类方法、装置及系统，获取基准样本的特征值以及测试样本的特征值；获取每个基准样本的特征值各自对应的权重值；计算测试样本的特征值与基准样本的特征值之间的距离；将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的近邻特征值集合；依据近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；利用测试样本的分类值对所述测试样进行分类。通过本发明公开的上述方法能够利用基准样本的特征值确定测试样本的特征值对应的权重值，从而利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值，利用测试样本的分类值对所述测试样进行分类，能够提高测试样本分类的准确性，该方法应用在银行业务相关数据分类中，能够提高银行业务相关数据分类的准确性，确保银行业务的顺利执行。

图1为本发明实施例提供的数据分类方法的流程图，参照图1，所述方法可以包括：

步骤S100、获取基准样本的特征值以及测试样本的特征值；

基准样本的特征值主要根据基准样本中的基准数据的类型而确定。测试样本的特征值主要根据测试样本中的测试数据的类型而确定。

本发明实施例中的基准样本中的基准数据与测试样本中的测试数据的数据类型相同。

步骤S110、获取每个基准样本的特征值各自对应的权重值；

本发明实施例中可以预先依据历史数据，对每个基准样本的特征值进行权重值的标记，特征值对应的权重值大小主要是依据特征值对数据分类的影响大小而确定的。

步骤S120、计算测试样本的特征值与基准样本的特征值之间的距离；

本发明实施例中可以依据距离计算方式，计算测试样本的特征值与基准样本的特征值之间的距离。具体可以计算测试样本的特征值与基准样本的特征值之间的欧氏距离等，当然还可以采用其他的距离计算方式，本发明实施例不做具体限定。

步骤S130、将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的近邻特征值集合；

本发明实施例通过利用KNN(K-NearestNeighbor，K最近邻分类)算法将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的近邻特征值集合。

KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法依据测试样本的特征值对应的近邻特征值集合的类别来确定测试样本的特征值的类别，通过找出一个测试样本的特征值的K个最近邻居，将这些邻居存储在近邻特征值集合中，然后将近邻特征值集合中特征值的类别的平均值赋给该测试样本的特征值，就可以得到该测试样本的特征值的类别。

预设距离范围可以由本领域技术人员依据实际情况进行设定，本发明实施例不做具体限定。

步骤S140、依据近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；

可选的，本发明实施例中主要将目标近邻特征值集合中每个基准样本的特征值的权重值的均值，作为测试样本的特征值对应的权重值。

步骤S150、利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；

步骤S160、利用测试样本的分类值对所述测试样本进行分类。

测试样本的分类值例如可以为一个数值，本发明实施例可以利用测试样本的分类值与分类类型的对应关系，来对测试样本进行分类。

本发明实施例通过获取基准样本的特征值以及测试样本的特征值；获取每个基准样本的特征值各自对应的权重值；计算测试样本的特征值与基准样本的特征值之间的距离；将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的近邻特征值集合；依据近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；利用测试样本的分类值对所述测试样进行分类。通过本发明公开的上述方法能够利用基准样本的特征值确定测试样本的特征值对应的权重值，从而利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值，利用测试样本的分类值对所述测试样进行分类，能够提高测试样本分类的准确性，该方法应用在银行业务相关数据分类中，能够提高银行业务相关数据分类的准确性，确保银行业务的顺利执行。

下面以一个具体的实施例进一步说明本发明实施例公开的分类方法，图2为本发明实施例提供的数据分类方法的流程图，参照图2，所述方法可以包括：

步骤S200、获取基准样本的特征值以及测试样本的特征值；

步骤S210、获取每个基准样本的特征值各自对应的权重值；

步骤S220、计算测试样本的特征值与基准样本的特征值之间的距离；

本发明实施例中的步骤S200-步骤S220与上述实施例中的步骤S100-步骤S120相同，具体内容请参照上述实施例，在此不做详细说明。

步骤S230、获取基准近邻特征值集合；

所述基准近邻特征值集合中至少包括：预先设定的预设个数的基准近邻特征值，以及每个基准近邻特征值与测试样本的特征值之间的距离。

本发明实施例中预先在基准样本中随机挑选K(K为正整数)个特征值作为基准近邻特征值，并将挑选出的K个基准近邻特征值添加在基准近邻特征值集合中，因此，基准近邻特征值集合中包含挑选出的K个基准近邻特征值。K的值可以依据特征值的属性确定，本发明实施例不做具体限定。

本发明实施例中的基准近邻特征值集合中每个基准近邻特征值都具有唯一的一个标识。在基准近邻特征值集合中，可以按照与测试样本的特征值之间的距离由大到小的顺序对基准近邻特征值进行排序。

步骤S240、确定基准近邻特征值集合中包含的所有基准近邻特征值中与测试样本的特征值之间具有的最大距离，作为最大基准距离；

由于每个基准近邻特征值与测试样本的特征值之间都具有一个距离，本发明实施例中将基准近邻特征值集合中包含的所有基准近邻特征值与测试样本的特征值的距离中的最大距离作为最大基准距离。

步骤S250、将与测试样本的特征值的距离小于最大基准距离的基准样本的特征值依次更新到基准近邻特征值集合中，并删除当前基准近邻特征值集合中与测试样本的特征值具有最大距离的基准近邻特征值，得到测试样本的特征值对应的目标近邻特征值集合；

由于本发明实施例预先计算出每个基准样本的特征值与测试样本的特征值之间的距离，通过遍历的方式将计算出的距离依次与最大基准距离进行比较，对于大于最大基准距离的基准样本的特征值不做处理；对于小于最大基准距离的基准样本的特征值，则将其更新到基准近邻特征值集合中，并删除当前基准近邻特征值集合中与测试样本的特征值具有最大距离的基准近邻特征值，即，每次往基准近邻特征值集合中更新一个基准样本的特征值之后，都要删除当前基准近邻特征值集合中与测试样本的特征值具有最大距离的基准近邻特征值。通过依次更新删除操作之后，最终得到的近邻特征值集合即为目标近邻特征值集合，目标近邻特征值集合中包含与测试样本的特征值最近邻的特征值。

步骤S260、依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；

步骤S270、利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；

步骤S280、利用测试样本的分类值对所述测试样本进行分类。

本发明实施例中的步骤S260-步骤S280与上述实施例中的步骤S140-步骤S160相同，具体内容请参照上述实施例，在此不做详细说明。

在得到分类结果之后，可以计算分类结果的误差率，然后继续设定不同的K值重新进行数据分类，最后取误差率最小的K值，得到的结果即为最终分类结果。

需要说明的是，本发明实施例中的上述数据分类方法可以通过数据分类模型来完成，数据分类模型的训练过程可以为：

获取样本集中的训练样本特征值以及与所述训练样本特征值对应的参考输出分类结果；将所述训练样本特征值输入到数据分类模型中进行训练，得到预测分类结果；利用所述参考输出分类结果以及所述预测分类结果得到数据分类模型的损失函数；利用所述数据分类模型的损失函数对所述数据分类模型的模型参数进行调整；返回执行所述将所述训练样本特征值输入到数据分类模型中进行训练，得到预测分类结果的步骤继续训练，直至得到数据分类模型的损失函数呈现收敛状况时的数据分类模型参数作为数据分类模型参数，并停止训练。

后续可以根据实际情况，进行数据分类模型的优化，主要是不同类别之间参数的设定。

对于训练数据的类型：需要根据实际情况增加或者减少训练数据的类型。

本发明实施例从判断一位银行贷款客户的还款能力角度入手，提供如下数据分类方法的应用例：

1、获取基准样本的特征值以及测试样本的特征值；

基准样本的特征值种类至少包括：历史客户工资收入、当前其他收入、公积金缴存金额、负债状况、信用卡消费、信用卡数量、信用卡还款是否正常、未来收入稳定性等。

测试样本的特征值种类至少包括：被测客户当前工资收入、当前其他收入、公积金缴存金额、负债状况、信用卡消费、信用卡数量、信用卡还款是否正常、未来收入稳定性等。

2、获取每个基准样本的特征值(历史客户当前工资收入、当前其他收入、公积金缴存金额、负债状况、信用卡消费、信用卡数量、信用卡还款是否正常、未来收入稳定性等)各自对应的权重值；

3、计算测试样本的特征值与基准样本的特征值之间的距离；

4、将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的目标近邻特征值集合；

5、依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；

6、利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；

7、利用测试样本的分类值对所述测试样进行分类，得到被测客户的还款能力。

本发明实施例从进行营销客户定位角度入手，提供如下数据分类方法的应用例：

1、获取基准样本的特征值以及测试样本的特征值；

基准样本的特征值种类至少包括：历史客户存款、信用卡、信用卡还款能力、流水、贷款、贷款类型等。

测试样本的特征值种类至少包括：被测客户当前存款、信用卡、信用卡还款能力、流水、贷款、贷款类型等。

2、获取每个基准样本的特征值(历史客户存款、信用卡、信用卡还款能力、流水、贷款、贷款类型等)各自对应的权重值；

3、计算测试样本的特征值与基准样本的特征值之间的距离；

7、利用测试样本的分类值对所述测试样进行分类，得到被测营销客户定位。

本发明实施例从自助存取款机选址角度入手，提供如下数据分类方法的应用例：

1、获取基准样本的特征值以及测试样本的特征值；

基准样本的特征值种类至少包括：历史地点附近银行网点的位置、周边人口密度、人流量、商圈、交通环境等。

测试样本的特征值种类至少包括：被测地点附近银行网点的位置、周边人口密度、人流量、商圈、交通环境等。

2、获取每个基准样本的特征值(历史地点附近银行网点的位置、周边人口密度、人流量、商圈、交通环境等)各自对应的权重值；

3、计算测试样本的特征值与基准样本的特征值之间的距离；

7、利用测试样本的分类值对所述测试样进行分类，判断被测地点是否可以部署存取款机。

下面对本发明实施例提供的数据分类装置进行介绍，下文描述的数据分类装置可与上文数据分类方法相互对应参照。

图3为本发明实施例提供的数据分类装置的结构框图，参照图3，该数据分类装置可以包括：

特征值获取单元300，用于获取基准样本的特征值以及测试样本的特征值；

权重值获取单元310，用于获取每个基准样本的特征值各自对应的权重值；

距离计算单元320，用于计算测试样本的特征值与基准样本的特征值之间的距离；

第一分类单元330，用于将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的目标近邻特征值集合；

权重值计算单元340，用于依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值；

分类值计算单元350，用于利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值；

第二分类单元360，用于利用测试样本的分类值对所述测试样本进行分类。

所述第一分类单元包括：

所述权重值计算单元包括：

所述分类值计算单元包括：

本发明实施例还公开了一种数据分类系统，所述系统具体用于：执行如上所述的数据分类方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据分类方法，其特征在于，所述方法包括：

获取基准样本的特征值以及测试样本的特征值；

获取每个基准样本的特征值各自对应的权重值；

计算测试样本的特征值与基准样本的特征值之间的距离；

利用测试样本的分类值对所述测试样本进行分类；

所述将与测试样本的特征值的距离在预设距离范围内的基准样本的特征值划分为一类，得到测试样本的特征值对应的目标近邻特征值集合包括：

2.根据权利要求1所述的方法，其特征在于，所述依据目标近邻特征值集合中每个基准样本的特征值的权重值，计算得到测试样本的特征值对应的权重值包括：

3.根据权利要求1所述的方法，其特征在于，利用测试样本的特征值以及测试样本的特征值对应的权重值，计算测试样本的分类值包括：

4.一种数据分类装置，其特征在于，所述装置包括：

第二分类单元，用于利用测试样本的分类值对所述测试样本进行分类；

所述第一分类单元包括：

5.根据权利要求4所述的装置，其特征在于，所述权重值计算单元包括：

6.根据权利要求4所述的装置，其特征在于，所述分类值计算单元包括：

7.一种数据分类系统，其特征在于，所述系统具体用于：执行如上权利要求1-3任意一项所述的数据分类方法。