CN111985557A - 基于区块链的客群分类模型训练方法、装置、设备及介质 - Google Patents

基于区块链的客群分类模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN111985557A
CN111985557A CN202010836054.7A CN202010836054A CN111985557A CN 111985557 A CN111985557 A CN 111985557A CN 202010836054 A CN202010836054 A CN 202010836054A CN 111985557 A CN111985557 A CN 111985557A
Authority
CN
China
Prior art keywords
user data
group classification
classification model
training
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010836054.7A
Other languages
English (en)
Inventor
张亚泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010836054.7A priority Critical patent/CN111985557A/zh
Publication of CN111985557A publication Critical patent/CN111985557A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种基于区块链的客群分类模型训练方法、装置、设备及介质,其中,该方法包括:多个参与方组成联盟链,各个参与方作为所述联盟链的节点,针对每个节点,采集自身的用户数据;将自身采集的用户数据同步给所述联盟链的其他节点,接收所述其他节点同步的用户数据;利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。该方案实现了数据共享,打破了“数据孤岛”的困境,实现了丰富样本数据,有利于提高客群分类模型的准确性,由于样本数据的增加,在不减少正样本数量的情况下,有利于增大负样本的数量,有利于提高样本的均衡性,进而有利于进一步提高客群分类模型的准确性。

Description

基于区块链的客群分类模型训练方法、装置、设备及介质
技术领域
本发明涉及用户数据处理技术领域,特别涉及一种基于区块链的客群分类模型训练方法、装置、设备及介质。
背景技术
随着人工智能理论与技术的发展,利用大量的用户信息可以为用户提供定制化、个性化的符合用户偏好的服务。机器学习模型的准确率需要大量的训练用户数据以及丰富的用户特征作为支撑。然而,鉴于用户数据的安全以及用户数据的隐私保护,一方面,目前各个银行间的用户数据是不可能共享用于训练模型,使得用户数据分布在独立的“用户数据孤岛”中,无法实现用户数据共享;另一方面,目前商业银行诸如反洗钱、反欺诈、信用评价等场景中用于训练客群分类模型的用户数据中,负样本一般只占很小的一部分比例,正负样本极为不均衡,现有方案针对这种情况往往会采取减少正例样本的方式,但是这样也减少了训练样本量,导致客群分类模型的准确率下降。
发明内容
本发明实施例提供了一种基于区块链的客群分类模型训练方法,以解决现有技术中客群分类模型的准确性低的技术问题。多个参与方组成联盟链,各个参与方作为所述联盟链的节点,该方法包括:
针对每个节点,采集自身的用户数据;
将自身采集的用户数据同步给所述联盟链的其他节点,接收所述其他节点同步的用户数据;
利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
本发明实施例还提供了一种基于区块链的客群分类模型训练装置,以解决现有技术中客群分类模型的准确性低的技术问题。多个参与方组成联盟链,各个参与方作为所述联盟链的节点,所述基于区块链的客群分类模型训练装置运行于所述节点上,该装置包括:
用户数据采集模块,用于采集自身的用户数据;
数据交互模块,用于将自身采集的用户数据同步给所述联盟链的其他节点,接收所述其他节点同步的用户数据;
模型训练模块,用于利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的基于区块链的客群分类模型训练方法,以解决现有技术中客群分类模型的准确性低的技术问题。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的基于区块链的客群分类模型训练方法的计算机程序,以解决现有技术中客群分类模型的准确性低的技术问题。
在本发明实施例中,提出了多个参与方组成联盟链,各个参与方作为所述联盟链的节点,每个节点采集自身的用户数据,将自身采集的用户数据同步给联盟链的其他节点,并接收其他节点同步的用户数据,由于区块链具有防篡改和可追溯性,区块链的使用,使得各个节点之间在保证数据隐私安全的前提下,实现了数据共享,打破了“数据孤岛”的困境,每个节点可以基于自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型,与现有技术中基于机构自身数据进行模型训练相比,实现了丰富样本数据,有利于提高客群分类模型的准确性,由于样本数据的增加,在不减少正样本数量的情况下,有利于增大负样本的数量,有利于提高样本的均衡性,进而有利于进一步提高客群分类模型的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例提供的一种基于区块链的客群分类模型训练方法的流程图;
图2是本发明实施例提供的一种实施上述基于区块链的客群分类模型训练方法的流程图;
图3是本发明实施例提供的一种计算机设备的结构框图;
图4是本发明实施例提供的一种基于区块链的客群分类模型训练装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本发明实施例中,提供了一种基于区块链的客群分类模型训练方法,多个参与方组成联盟链,各个参与方作为所述联盟链的节点,如图1所示,该方法包括:
步骤102:针对每个节点,采集自身的用户数据;
步骤104:将自身采集的用户数据同步给所述联盟链的其他节点,接收所述其他节点同步的用户数据;
步骤106:利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
由图1所示的流程可知,在本发明实施例中,提出了多个参与方组成联盟链,各个参与方作为所述联盟链的节点,每个节点采集自身的用户数据,将自身采集的用户数据同步给联盟链的其他节点,并接收其他节点同步的用户数据,由于区块链具有防篡改和可追溯性,区块链的使用,使得各个节点之间在保证数据隐私安全的前提下,实现了数据共享,打破了“数据孤岛”的困境,每个节点可以基于自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型,与现有技术中基于机构自身数据进行模型训练相比,实现了丰富样本数据,有利于提高客群分类模型的准确性,由于整体样本数据量的增加,在不减少正样本数量的情况下,有利于相对增大负样本的数量,有利于提高样本的均衡性,进而有利于进一步提高客群分类模型的准确性。
具体实施时,上述参与方可以是任意需要做客群分类模型的机构或平台,例如,可以是银行、电商平台等等。具体的,以银行为例,多个银行可以组成一个联盟链,每个银行都作为联盟链的一个节点。
具体实施时,上述基于区块链的客群分类模型训练方法可以运行于参与方的相关设备上。
具体实施时,上述用户数据可以是各种用户特征数据,数据形式本申请不做具体限定,例如,数据格式可以是:特征1,特征2,......,标签。
具体实施时,区块链从本质上讲是一个共享数据库,存储于其中的数据或信息,具有“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等特征。区块链是从比特币底层技术衍生出来的新型技术体系,之后区块链技术也发生了很多改变。目前从类型上分为公有链、联盟链和私有链。
具体实施时,为了实现不同节点之间的数据同步,在本实施例中,将自身采集的用户数据同步给所述联盟链的其他节点,包括:
通过智能合约将自身采集的用户数据同步给所述联盟链的其他节点。
具体的,认证加入区块链网络的各个节点的身份信息,进而各个节点之间通过智能合约实现数据同步。
具体实施时,在本实施例中,各个节点通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。具体的,各个节点从联盟链上下载其他节点同步的用户数据,进而利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
具体的,支持向量机(Support Vector Machine,简称为SVM)是一类按监督学习方式对数据进行分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。支持向量机分类算法提供二分类和多分类的场景应用。
具体实施时,为了进一步提高客群分类模型的准确度,在本实施例中,在自身采集的用户数据和接收的用户数据中选取预设比例的正样本和反样本进行客群分类模型训练。即通过选择不同比例的正样本和反样本进行客群分类模型训练,以便得到相对更准确的客群分类模型。例如,正样本和反样本的比例可以为7:3。
在本实施例中,详细描述实施上述基于区块链的客群分类模型训练方法的过程,如图2所示,该过程包括以下步骤:
S1:各个参与节点在本地系统采集自身的用户数据(各个节点采集的用户数据特征保持一致)。数据格式可以为:特征1,特征2,......,标签。
S2:参与节点通过完成身份认证,加入区块链网络。
S3:参与方节点向区块链网络上传和下载用户数据。
S4:参与方节点通过区块链网络下载的用户数据作为样本进行客群分类模型训练。
在本实施例中,提供了一种计算机设备,如图3所示,包括存储器302、处理器304及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的基于区块链的客群分类模型训练方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的基于区块链的客群分类模型训练方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、用户数据结构、程序的模块或其他用户数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitorymedia),如调制的用户数据信号和载波。
基于同一发明构思,本发明实施例中还提供了一种基于区块链的客群分类模型训练装置,如下面的实施例所述。由于基于区块链的客群分类模型训练装置解决问题的原理与基于区块链的客群分类模型训练方法相似,因此基于区块链的客群分类模型训练装置的实施可以参见基于区块链的客群分类模型训练方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是本发明实施例的基于区块链的客群分类模型训练装置的一种结构框图,多个参与方组成联盟链,各个参与方作为所述联盟链的节点,所述基于区块链的客群分类模型训练装置运行于所述节点上,如图4所示,该装置包括:
用户数据采集模块402,用于采集自身的用户数据;
数据交互模块404,用于将自身采集的用户数据同步给所述联盟链的其他节点,接收所述其他节点同步的用户数据;
模型训练模块406,用于利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
在一个实施例中,所述数据交互模块,用于通过智能合约将自身采集的用户数据同步给所述联盟链的其他节点。
在一个实施例中,所述模型训练模块,用于通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
在一个实施例中,所述模型训练模块,还用于选取预设比例的正样本和反样本进行客群分类模型训练。
本发明实施例实现了如下技术效果:提出了多个参与方组成联盟链,各个参与方作为所述联盟链的节点,每个节点采集自身的用户数据,将自身采集的用户数据同步给联盟链的其他节点,并接收其他节点同步的用户数据,由于区块链具有防篡改和可追溯性,区块链的使用,使得各个节点之间在保证数据隐私安全的前提下,实现了数据共享,打破了“数据孤岛”的困境,每个节点可以基于自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型,与现有技术中基于机构自身数据进行模型训练相比,实现了丰富样本数据,有利于提高客群分类模型的准确性,由于样本数据的增加,在不减少正样本数量的情况下,有利于增大负样本的数量,有利于提高样本的均衡性,进而有利于进一步提高客群分类模型的准确性。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于区块链的客群分类模型训练方法,其特征在于,多个参与方组成联盟链,各个参与方作为所述联盟链的节点,该方法包括:
针对每个节点,采集自身的用户数据;
将自身采集的用户数据同步给所述联盟链的其他节点,接收所述其他节点同步的用户数据;
利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
2.如权利要求1所述的基于区块链的客群分类模型训练方法,其特征在于,将自身采集的用户数据同步给所述联盟链的其他节点,包括:
通过智能合约将自身采集的用户数据同步给所述联盟链的其他节点。
3.如权利要求1所述的基于区块链的客群分类模型训练方法,其特征在于,利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型,包括:
通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
4.如权利要求1至3中任一项所述的基于区块链的客群分类模型训练方法,其特征在于,利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型,包括:
选取预设比例的正样本和反样本进行客群分类模型训练。
5.一种基于区块链的客群分类模型训练装置,其特征在于,多个参与方组成联盟链,各个参与方作为所述联盟链的节点,所述基于区块链的客群分类模型训练装置运行于所述节点上,该装置包括:
用户数据采集模块,用于采集自身的用户数据;
数据交互模块,用于将自身采集的用户数据同步给所述联盟链的其他节点,接收所述其他节点同步的用户数据;
模型训练模块,用于利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
6.如权利要求5所述的基于区块链的客群分类模型训练装置,其特征在于,所述数据交互模块,用于通过智能合约将自身采集的用户数据同步给所述联盟链的其他节点。
7.如权利要求5所述的基于区块链的客群分类模型训练装置,其特征在于,所述模型训练模块,用于通过支持向量机算法利用自身采集的用户数据和接收的用户数据作为样本训练得到客群分类模型。
8.如权利要求5至7中任一项所述的基于区块链的客群分类模型训练装置,其特征在于,所述模型训练模块,还用于选取预设比例的正样本和反样本进行客群分类模型训练。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的基于区块链的客群分类模型训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4中任一项所述的基于区块链的客群分类模型训练方法的计算机程序。
CN202010836054.7A 2020-08-19 2020-08-19 基于区块链的客群分类模型训练方法、装置、设备及介质 Pending CN111985557A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010836054.7A CN111985557A (zh) 2020-08-19 2020-08-19 基于区块链的客群分类模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010836054.7A CN111985557A (zh) 2020-08-19 2020-08-19 基于区块链的客群分类模型训练方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN111985557A true CN111985557A (zh) 2020-11-24

Family

ID=73434218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010836054.7A Pending CN111985557A (zh) 2020-08-19 2020-08-19 基于区块链的客群分类模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111985557A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264274A (zh) * 2019-06-21 2019-09-20 深圳前海微众银行股份有限公司 客群划分方法、模型生成方法、装置、设备及存储介质
CN110781922A (zh) * 2019-09-27 2020-02-11 北京淇瑀信息科技有限公司 用于机器学习模型的样本数据生成方法、装置及电子设备
CN110796482A (zh) * 2019-09-27 2020-02-14 北京淇瑀信息科技有限公司 用于机器学习模型的金融数据分类方法、装置及电子设备
CN111125784A (zh) * 2019-12-24 2020-05-08 山东爱城市网信息技术有限公司 一种基于区块链的人工智能训练模型方法、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264274A (zh) * 2019-06-21 2019-09-20 深圳前海微众银行股份有限公司 客群划分方法、模型生成方法、装置、设备及存储介质
CN110781922A (zh) * 2019-09-27 2020-02-11 北京淇瑀信息科技有限公司 用于机器学习模型的样本数据生成方法、装置及电子设备
CN110796482A (zh) * 2019-09-27 2020-02-14 北京淇瑀信息科技有限公司 用于机器学习模型的金融数据分类方法、装置及电子设备
CN111125784A (zh) * 2019-12-24 2020-05-08 山东爱城市网信息技术有限公司 一种基于区块链的人工智能训练模型方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109522304A (zh) 异常对象识别方法及装置、存储介质
CN112749749B (zh) 基于分类决策树模型的分类方法、装置及电子设备
CN110796269B (zh) 一种生成模型的方法、装置、信息处理的方法及装置
CN111494964A (zh) 虚拟物品的推荐方法、模型的训练方法、装置及存储介质
CN111882426A (zh) 业务风险分类器训练方法、装置、设备及存储介质
CN105871888A (zh) 身份验证的方法、装置及系统
CN110032551A (zh) 模型生成系统、方法及预测系统
CN108446659A (zh) 用于检测人脸图像的方法和装置
CN110147923A (zh) 用于识别风险用户的方法及装置
CN112990484A (zh) 基于非对称联邦学习的模型联合训练方法、装置及设备
CN111401766A (zh) 模型、业务处理方法、装置及设备
CN112465632A (zh) 一种新金融ai智能风控决策方法和系统
CN111443894A (zh) 一种基于区块链的随机数生成方法、设备及介质
CN111291174A (zh) 基于区块链的线上阅读文章资讯排序方法及设备、介质
CN110503507A (zh) 基于大数据的保险产品数据推送方法、系统及计算机设备
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN112750038B (zh) 交易风险的确定方法、装置和服务器
CN112925899A (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN111985557A (zh) 基于区块链的客群分类模型训练方法、装置、设备及介质
CN109598208B (zh) 人像验证方法及装置
CN110210884B (zh) 确定用户特征数据的方法、装置、计算机设备及存储介质
KR20210009885A (ko) 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN109828995A (zh) 一种基于视觉特征的图数据检测方法、系统
CN111476886B (zh) 智慧建筑楼宇三维模型渲染方法及楼宇云服务器
CN114360653A (zh) 一种基于数据遗传变异的样本生成及生存评估方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination