CN111985557A

CN111985557A - 基于区块链的客群分类模型训练方法、装置、设备及介质

Info

Publication number: CN111985557A
Application number: CN202010836054.7A
Authority: CN
Inventors: 张亚泽
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-24

Abstract

本发明实施例提供了一种基于区块链的客群分类模型训练方法、装置、设备及介质，其中，该方法包括：多个参与方组成联盟链，各个参与方作为所述联盟链的节点，针对每个节点，采集自身的用户数据；将自身采集的用户数据同步给所述联盟链的其他节点，接收所述其他节点同步的用户数据；利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。该方案实现了数据共享，打破了“数据孤岛”的困境，实现了丰富样本数据，有利于提高客群分类模型的准确性，由于样本数据的增加，在不减少正样本数量的情况下，有利于增大负样本的数量，有利于提高样本的均衡性，进而有利于进一步提高客群分类模型的准确性。

Description

基于区块链的客群分类模型训练方法、装置、设备及介质

技术领域

本发明涉及用户数据处理技术领域，特别涉及一种基于区块链的客群分类模型训练方法、装置、设备及介质。

背景技术

随着人工智能理论与技术的发展，利用大量的用户信息可以为用户提供定制化、个性化的符合用户偏好的服务。机器学习模型的准确率需要大量的训练用户数据以及丰富的用户特征作为支撑。然而，鉴于用户数据的安全以及用户数据的隐私保护，一方面，目前各个银行间的用户数据是不可能共享用于训练模型，使得用户数据分布在独立的“用户数据孤岛”中，无法实现用户数据共享；另一方面，目前商业银行诸如反洗钱、反欺诈、信用评价等场景中用于训练客群分类模型的用户数据中，负样本一般只占很小的一部分比例，正负样本极为不均衡，现有方案针对这种情况往往会采取减少正例样本的方式，但是这样也减少了训练样本量，导致客群分类模型的准确率下降。

发明内容

本发明实施例提供了一种基于区块链的客群分类模型训练方法，以解决现有技术中客群分类模型的准确性低的技术问题。多个参与方组成联盟链，各个参与方作为所述联盟链的节点，该方法包括：

针对每个节点，采集自身的用户数据；

将自身采集的用户数据同步给所述联盟链的其他节点，接收所述其他节点同步的用户数据；

利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

本发明实施例还提供了一种基于区块链的客群分类模型训练装置，以解决现有技术中客群分类模型的准确性低的技术问题。多个参与方组成联盟链，各个参与方作为所述联盟链的节点，所述基于区块链的客群分类模型训练装置运行于所述节点上，该装置包括：

用户数据采集模块，用于采集自身的用户数据；

数据交互模块，用于将自身采集的用户数据同步给所述联盟链的其他节点，接收所述其他节点同步的用户数据；

模型训练模块，用于利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的基于区块链的客群分类模型训练方法，以解决现有技术中客群分类模型的准确性低的技术问题。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的基于区块链的客群分类模型训练方法的计算机程序，以解决现有技术中客群分类模型的准确性低的技术问题。

在本发明实施例中，提出了多个参与方组成联盟链，各个参与方作为所述联盟链的节点，每个节点采集自身的用户数据，将自身采集的用户数据同步给联盟链的其他节点，并接收其他节点同步的用户数据，由于区块链具有防篡改和可追溯性，区块链的使用，使得各个节点之间在保证数据隐私安全的前提下，实现了数据共享，打破了“数据孤岛”的困境，每个节点可以基于自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型，与现有技术中基于机构自身数据进行模型训练相比，实现了丰富样本数据，有利于提高客群分类模型的准确性，由于样本数据的增加，在不减少正样本数量的情况下，有利于增大负样本的数量，有利于提高样本的均衡性，进而有利于进一步提高客群分类模型的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1是本发明实施例提供的一种基于区块链的客群分类模型训练方法的流程图；

图2是本发明实施例提供的一种实施上述基于区块链的客群分类模型训练方法的流程图；

图3是本发明实施例提供的一种计算机设备的结构框图；

图4是本发明实施例提供的一种基于区块链的客群分类模型训练装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本发明实施例中，提供了一种基于区块链的客群分类模型训练方法，多个参与方组成联盟链，各个参与方作为所述联盟链的节点，如图1所示，该方法包括：

步骤102：针对每个节点，采集自身的用户数据；

步骤104：将自身采集的用户数据同步给所述联盟链的其他节点，接收所述其他节点同步的用户数据；

步骤106：利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

由图1所示的流程可知，在本发明实施例中，提出了多个参与方组成联盟链，各个参与方作为所述联盟链的节点，每个节点采集自身的用户数据，将自身采集的用户数据同步给联盟链的其他节点，并接收其他节点同步的用户数据，由于区块链具有防篡改和可追溯性，区块链的使用，使得各个节点之间在保证数据隐私安全的前提下，实现了数据共享，打破了“数据孤岛”的困境，每个节点可以基于自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型，与现有技术中基于机构自身数据进行模型训练相比，实现了丰富样本数据，有利于提高客群分类模型的准确性，由于整体样本数据量的增加，在不减少正样本数量的情况下，有利于相对增大负样本的数量，有利于提高样本的均衡性，进而有利于进一步提高客群分类模型的准确性。

具体实施时，上述参与方可以是任意需要做客群分类模型的机构或平台，例如，可以是银行、电商平台等等。具体的，以银行为例，多个银行可以组成一个联盟链，每个银行都作为联盟链的一个节点。

具体实施时，上述基于区块链的客群分类模型训练方法可以运行于参与方的相关设备上。

具体实施时，上述用户数据可以是各种用户特征数据，数据形式本申请不做具体限定，例如，数据格式可以是：特征1，特征2，......，标签。

具体实施时，区块链从本质上讲是一个共享数据库，存储于其中的数据或信息，具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特征。区块链是从比特币底层技术衍生出来的新型技术体系，之后区块链技术也发生了很多改变。目前从类型上分为公有链、联盟链和私有链。

具体实施时，为了实现不同节点之间的数据同步，在本实施例中，将自身采集的用户数据同步给所述联盟链的其他节点，包括：

通过智能合约将自身采集的用户数据同步给所述联盟链的其他节点。

具体的，认证加入区块链网络的各个节点的身份信息，进而各个节点之间通过智能合约实现数据同步。

具体实施时，在本实施例中，各个节点通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。具体的，各个节点从联盟链上下载其他节点同步的用户数据，进而利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

具体的，支持向量机(Support Vector Machine，简称为SVM)是一类按监督学习方式对数据进行分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。支持向量机分类算法提供二分类和多分类的场景应用。

具体实施时，为了进一步提高客群分类模型的准确度，在本实施例中，在自身采集的用户数据和接收的用户数据中选取预设比例的正样本和反样本进行客群分类模型训练。即通过选择不同比例的正样本和反样本进行客群分类模型训练，以便得到相对更准确的客群分类模型。例如，正样本和反样本的比例可以为7:3。

在本实施例中，详细描述实施上述基于区块链的客群分类模型训练方法的过程，如图2所示，该过程包括以下步骤：

S1：各个参与节点在本地系统采集自身的用户数据(各个节点采集的用户数据特征保持一致)。数据格式可以为：特征1，特征2，......，标签。

S2：参与节点通过完成身份认证，加入区块链网络。

S3：参与方节点向区块链网络上传和下载用户数据。

S4：参与方节点通过区块链网络下载的用户数据作为样本进行客群分类模型训练。

在本实施例中，提供了一种计算机设备，如图3所示，包括存储器302、处理器304及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的基于区块链的客群分类模型训练方法。

具体的，该计算机设备可以是计算机终端、服务器或者类似的运算装置。

在本实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的基于区块链的客群分类模型训练方法的计算机程序。

具体的，计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、用户数据结构、程序的模块或其他用户数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitorymedia)，如调制的用户数据信号和载波。

基于同一发明构思，本发明实施例中还提供了一种基于区块链的客群分类模型训练装置，如下面的实施例所述。由于基于区块链的客群分类模型训练装置解决问题的原理与基于区块链的客群分类模型训练方法相似，因此基于区块链的客群分类模型训练装置的实施可以参见基于区块链的客群分类模型训练方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是本发明实施例的基于区块链的客群分类模型训练装置的一种结构框图，多个参与方组成联盟链，各个参与方作为所述联盟链的节点，所述基于区块链的客群分类模型训练装置运行于所述节点上，如图4所示，该装置包括：

用户数据采集模块402，用于采集自身的用户数据；

数据交互模块404，用于将自身采集的用户数据同步给所述联盟链的其他节点，接收所述其他节点同步的用户数据；

模型训练模块406，用于利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

在一个实施例中，所述数据交互模块，用于通过智能合约将自身采集的用户数据同步给所述联盟链的其他节点。

在一个实施例中，所述模型训练模块，用于通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

在一个实施例中，所述模型训练模块，还用于选取预设比例的正样本和反样本进行客群分类模型训练。

本发明实施例实现了如下技术效果：提出了多个参与方组成联盟链，各个参与方作为所述联盟链的节点，每个节点采集自身的用户数据，将自身采集的用户数据同步给联盟链的其他节点，并接收其他节点同步的用户数据，由于区块链具有防篡改和可追溯性，区块链的使用，使得各个节点之间在保证数据隐私安全的前提下，实现了数据共享，打破了“数据孤岛”的困境，每个节点可以基于自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型，与现有技术中基于机构自身数据进行模型训练相比，实现了丰富样本数据，有利于提高客群分类模型的准确性，由于样本数据的增加，在不减少正样本数量的情况下，有利于增大负样本的数量，有利于提高样本的均衡性，进而有利于进一步提高客群分类模型的准确性。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于区块链的客群分类模型训练方法，其特征在于，多个参与方组成联盟链，各个参与方作为所述联盟链的节点，该方法包括：

针对每个节点，采集自身的用户数据；

2.如权利要求1所述的基于区块链的客群分类模型训练方法，其特征在于，将自身采集的用户数据同步给所述联盟链的其他节点，包括：

3.如权利要求1所述的基于区块链的客群分类模型训练方法，其特征在于，利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型，包括：

通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

4.如权利要求1至3中任一项所述的基于区块链的客群分类模型训练方法，其特征在于，利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型，包括：

选取预设比例的正样本和反样本进行客群分类模型训练。

5.一种基于区块链的客群分类模型训练装置，其特征在于，多个参与方组成联盟链，各个参与方作为所述联盟链的节点，所述基于区块链的客群分类模型训练装置运行于所述节点上，该装置包括：

用户数据采集模块，用于采集自身的用户数据；

6.如权利要求5所述的基于区块链的客群分类模型训练装置，其特征在于，所述数据交互模块，用于通过智能合约将自身采集的用户数据同步给所述联盟链的其他节点。

7.如权利要求5所述的基于区块链的客群分类模型训练装置，其特征在于，所述模型训练模块，用于通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。

8.如权利要求5至7中任一项所述的基于区块链的客群分类模型训练装置，其特征在于，所述模型训练模块，还用于选取预设比例的正样本和反样本进行客群分类模型训练。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的基于区块链的客群分类模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4中任一项所述的基于区块链的客群分类模型训练方法的计算机程序。