CN111967910A - 一种用户客群分类方法和装置 - Google Patents
一种用户客群分类方法和装置 Download PDFInfo
- Publication number
- CN111967910A CN111967910A CN202010832847.1A CN202010832847A CN111967910A CN 111967910 A CN111967910 A CN 111967910A CN 202010832847 A CN202010832847 A CN 202010832847A CN 111967910 A CN111967910 A CN 111967910A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- gradient
- model
- participating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用户客群分类方法和装置,该方法包括:在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。本发明可以提高用户客群分类的准确性。
Description
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种用户客群分类方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着人工智能理论与技术的发展,利用大量的用户信息可以为用户提供定制化、个性化的符合用户偏好的服务。机器学习模型的准确率需要大量的训练数据以及丰富的用户特征作为支撑。
然而,鉴于数据的安全以及用户数据的隐私保护,一方面,目前各个银行间的数据是不可能共享用于训练模型,使得数据分布在独立的“数据孤岛”中;另一方面,目前银行中用于训练客群分类模型的数据中,负样本一般只占很小的一部分比例,正负样本极为不均衡,现有方案针对这种情况往往会采取减少正例样本的方式,但是这样也减少了训练样本量,导致模型的准确率下降,使得训练出的模型分类效果一般。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
本发明实施例提供一种用户客群分类方法,使用户数据不离开参与节点,通过梯度密文信息进行横向联邦学习实现数据安全共享,提高用户客群分类的准确性,该方法包括:
在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;
根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;
将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;
根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;
将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;
根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。
本发明实施例还提供一种用户客群分类装置,包括:
数据获取模块,用于在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;
参与节点梯度密文信息确定模块,用于根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;
聚合梯度密文信息确定模块,用于将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;
联合梯度信息确定模块,用于根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;
联邦学习逻辑回归客群分类模型训练模块,用于将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;
用户客群分类模块,用于根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种用户客群分类方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述一种用户客群分类方法的计算机程序。
本发明实施例提供的一种用户客群分类方法和装置,首先在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;本发明实施例通过将用户特征数据提取为参与节点梯度密文信息,使得用户数据保存在参与节点中,保障了用户数据的安全性,同时通过参与节点梯度密文信息进行数据共享,为横向联邦学习提供了大量的训练数据,实现了用户数据的安全共享,打破了“数据孤岛”的困境;接着将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;各个参与节点中上传的参与节点梯度密文信息中包含的负样本在通过聚合后,可以组成较大规模的负样本数据集,能够大大提高训练模型的准确率;最后,根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。本发明实施例通过横向联邦学习,将每一参与节点的聚合得到的聚合梯度密文信息确定为联合梯度信息,然后再将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练,得到的训练后的联邦学习逻辑回归客群分类模型效果能够充分逼近将全部参与节点的用户数据汇总后训练得到的理想模型,极大地提高了模型的准确率,通过训练后的联邦学习逻辑回归客群分类模型对用户客群进行分类,可以实现精准的用户所属的客户群体分类效果,提高了分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例一种用户客群分类方法示意图。
图2为本发明实施例一种用户客群分类方法的获取用户特征数据过程示意图。
图3为本发明实施例一种用户客群分类方法的确定参与节点梯度密文信息过程示意图。
图4为运行本发明实施的一种用户客群分类方法的计算机装置示意图。
图5为本发明实施例一种用户客群分类装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1为本发明实施例一种用户客群分类方法示意图,如图1所示,本发明实施例提供一种用户客群分类方法,使用户数据不离开参与节点,通过梯度密文信息进行横向联邦学习实现数据安全共享,提高用户客群分类的准确性,该方法包括:
步骤101:在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;
步骤102:根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;
步骤103:将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;
步骤104:根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;
步骤105:将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;
步骤106:根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。
本发明实施例提供的一种用户客群分类方法,首先在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;本发明实施例通过将用户特征数据提取为参与节点梯度密文信息,使得用户数据保存在参与节点中,保障了用户数据的安全性,同时通过参与节点梯度密文信息进行数据共享,为横向联邦学习提供了大量的训练数据,实现了用户数据的安全共享,打破了“数据孤岛”的困境;接着将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;各个参与节点中上传的参与节点梯度密文信息中包含的负样本在通过聚合后,可以组成较大规模的负样本数据集,能够大大提高训练模型的准确率;最后,根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。本发明实施例通过横向联邦学习,将每一参与节点的聚合得到的聚合梯度密文信息确定为联合梯度信息,然后再将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练,得到的训练后的联邦学习逻辑回归客群分类模型效果能够充分逼近将全部参与节点的用户数据汇总后训练得到的理想模型,极大地提高了模型的准确率,通过训练后的联邦学习逻辑回归客群分类模型对用户客群进行分类,可以实现精准的用户所属的客户群体分类效果,提高了分类的准确率。
为打破“数据孤岛”困境,实现银行间用户信息在保证安全性的基础上进行共享,进行横向联邦学习,提高模型准确率,本发明实施例提供一种用户客群分类方法,具体实施时,可以包括:
在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。
实施例中,联邦学习是指两个或以上的参与方共同训练共享的机器学习模型,每个参与方都拥有若干能够训练模型的数据,在训练过程中,每个参与方的数据都不会离开参与方,模型信息以加密的方式在各方进行传递,联邦学习模型的效果能够充分逼近理想模型(数据汇总在一起训练的模型)。目前,联邦学习分为横向联邦学习、纵向联邦学习、迁移联邦学习;其中,横向联邦学习适用于联邦学习的参与方数据有重叠的特征,且参与方拥有的数据样本是不同的。由于银行中的用户数据存在较多相同的特征,例如,在各家银行中,用户数据都至少包括:姓名,年龄,性别等相同的特征,因此用户数据在各家银行中存在重叠的特征,同时由于各家银行存在差异化的用户数据,例如:月消费,月收入,银行账户流水等;基于上述用户数据在银行中的特点,在本发明实施例中,将参与横向联邦学习的银行转化为参与节点,也即是进行横向联邦学习的多个银行,在联邦学习分布式网络中转化为参与节点,每一个参与节点代表一个或一家银行。前述的逻辑回归算法可以应用于用户客群的分类场景中,并且支持模型训练过程中密文梯度信息融合。客群分类,即客户群体分类,是指在银行中将客户按照设定分类标准进行划分,将同一类型的客户划分至相同的集合;用户客群分类,是指用户所属的客户群体分类。
图2为本发明实施例一种用户客群分类方法的获取用户特征数据过程示意图,如图2所示,具体实施本发明实施例提供的一种用户客群分类方法时,在一个实施例中,前述的在联邦学习分布式网络的参与节点中,获取用户特征数据,包括:
步骤201:在联邦学习分布式网络的参与节的本地数据库中,采集用户信息;
步骤202:对用户信息进行分析,获取用户特征数据。
实施例中,在进行联邦学习之前首先需要获取联邦学习所需的数据,为保障银行间数据的安全性,不能将银行中用户的原始数据直接共享,因此需要提取用户特征数据;首先,在联邦学习分布式网络的参与节的本地数据库中,采集用户信息,然后,对用户信息进行分析,提取用户特征数据,实现了用户数据不离开参与节点的前提下安全数据共享的基础。
具体实施本发明实施例提供的一种用户客群分类方法时,在一个实施例中,前述的各个参与节点的用户特征数据的类型保持一致。
为了使得横向联邦学习能够快速而准确,需要保障每一参与节点提供的用户特征数据类型一致,因此在本实施例中各个参与节点的用户特征数据的类型保持一致。
具体实施本发明实施例提供的一种用户客群分类方法时,在一个实施例中,前述的用户特征数据,包括用户标签和多个用户特征。
实施例中,前述提取得到的用户特征数据,可以包括用户标签和多个用户特征,在一个实例中,一个用户特征数据中有N个用户特征和1个用户标签,可以保存为如下格式:
(用户特征1,用户特征2,……,用户特征N,用户标签)
其中,前述的用户特征,至少可以包括:用户姓名、年龄、性别、职业、月收入、月消费、银行账户流水等。
图3为本发明实施例一种用户客群分类方法的确定参与节点梯度密文信息过程示意图,如图3所示,具体实施本发明实施例提供的一种用户客群分类方法时,在一个实施例中,前述的根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息,包括:
步骤301:将用户特征数据作为输入数据,在参与节点中输入至逻辑回归模型进行训练;
步骤302:获取逻辑回归模型训练时参数求解过程的梯度信息;
步骤303:在参与节点中,通过同态加密对梯度信息进行加密,确定参与节点梯度密文信息。
实施例中,为保障用户数据安全的前提下进行数据共享,需要根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息,主要包括:
首先将用户特征数据作为输入数据,在参与节点中输入至逻辑回归模型进行训练;其中,每一参与节点中,至少包括:逻辑回归模型和联邦学习逻辑回归客群分类模型;其中,逻辑回归模型进行训练的过程包括参数求解;然后获取逻辑回归模型训练时参数求解过程的梯度信息;最后在参与节点中,通过同态加密的方式对梯度信息进行加密,确定参与节点梯度密文信息。本发明实施例通过将用户特征数据提取为参与节点梯度密文信息,使得用户数据保存在参与节点中,保障了用户数据的安全性,同时通过参与节点梯度密文信息进行数据共享,为横向联邦学习提供了大量的训练数据,实现了用户数据的安全共享,打破了“数据孤岛”的困境。
具体实施本发明实施例提供的一种用户客群分类方法时,在一个实施例中,前述的将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息,可以包括:每一参与节点将其计算得到的参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,生成聚合梯度密文信息;各个参与节点中上传的参与节点梯度密文信息中包含的负样本在通过聚合后,可以组成较大规模的负样本数据集,使得负样本能够匹配正样本,能够大大提高训练模型的准确率;同时各个参与节点上传的参与节点梯度密文信息共同构成了一个更大的训练数据集,可以进一步的提高模型训练的效果,提高模型的准确率和精度。
具体实施本发明实施例提供的一种用户客群分类方法时,在一个实施例中,前述的根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练,可以包括:根据前述聚合得到的聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;然后,将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练。本发明实施例通过横向联邦学习,将每一参与节点的聚合得到的聚合梯度密文信息确定为联合梯度信息,然后再将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练,得到的训练后的联邦学习逻辑回归客群分类模型效果能够充分逼近将全部参与节点的用户数据汇总后训练得到的理想模型,极大地提高了模型的准确率,
具体实施本发明实施例提供的一种用户客群分类方法时,在一个实施例中,前述的根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类,包括:
在参与节点中,利用训练后的联邦学习逻辑回归客群分类模型,在反洗钱、反欺诈以及信用评价的场景中对用户客群进行预测分类。
实施例中,在增加了负样本的技术上进行训练得到的训练后的联邦学习逻辑回归客群分类模型,可以实现更准确的用户客群预测分类,尤其是在反洗钱、反欺诈以及信用评价的场景中,可以在参与节点中利用训练后的联邦学习逻辑回归客群分类模型进行用户客群的精准预测分类。
本发明实施例通过横向联邦学习技术提供一种适用于商业银行之间进行用户客群分类联合建模的方案,在各方参与节点的用户数据不出本地的情况下实现联合建模,丰富样本数据(尤其是负样本数据),提高模型的准确性。
图4为运行本发明实施的一种用户客群分类方法的计算机装置示意图,如图4所示,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种用户客群分类方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行实现上述一种用户客群分类方法的计算机程序。
本发明实施例中还提供了一种用户客群分类装置,如下面的实施例所述。由于该装置解决问题的原理与一种用户客群分类方法相似,因此该装置的实施可以参见一种用户客群分类方法的实施,重复之处不再赘述。
图5为本发明实施例一种用户客群分类装置示意图,如图5所示,本发明实施例还提供一种用户客群分类装置,具体实施时可以包括:
数据获取模块501,用于在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;
参与节点梯度密文信息确定模块502,用于根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;
聚合梯度密文信息确定模块503,用于将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;
联合梯度信息确定模块504,用于根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;
联邦学习逻辑回归客群分类模型训练模块505,用于将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;
用户客群分类模块506,用于根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。
具体实施本发明实施例提供的一种用户客群分类装置时,在一个实施例中,前述的数据获取模块,具体用于:
在联邦学习分布式网络的参与节的本地数据库中,采集用户信息;
对用户信息进行分析,获取用户特征数据。
具体实施本发明实施例提供的一种用户客群分类装置时,在一个实施例中,前述的各个参与节点的用户特征数据的类型保持一致。
具体实施本发明实施例提供的一种用户客群分类装置时,在一个实施例中,前述的用户特征数据,包括用户标签和多个用户特征。
具体实施本发明实施例提供的一种用户客群分类装置时,在一个实施例中,前述的参与节点梯度密文信息确定模块,具体用于:
将用户特征数据作为输入数据,在参与节点中输入至逻辑回归模型进行训练;
获取逻辑回归模型训练时参数求解过程的梯度信息;
在参与节点中,通过同态加密对梯度信息进行加密,确定参与节点梯度密文信息。
具体实施本发明实施例提供的一种用户客群分类装置时,在一个实施例中,前述的用户客群分类模块,具体用于:
在参与节点中,利用训练后的联邦学习逻辑回归客群分类模型,在反洗钱、反欺诈以及信用评价的场景中对用户客群进行预测分类。
综上,本发明实施例提供的一种用户客群分类方法和装置,首先在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;本发明实施例通过将用户特征数据提取为参与节点梯度密文信息,使得用户数据保存在参与节点中,保障了用户数据的安全性,同时通过参与节点梯度密文信息进行数据共享,为横向联邦学习提供了大量的训练数据,实现了用户数据的安全共享,打破了“数据孤岛”的困境;接着将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;各个参与节点中上传的参与节点梯度密文信息中包含的负样本在通过聚合后,可以组成较大规模的负样本数据集,能够大大提高训练模型的准确率;最后,根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。本发明实施例通过横向联邦学习,将每一参与节点的聚合得到的聚合梯度密文信息确定为联合梯度信息,然后再将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练,得到的训练后的联邦学习逻辑回归客群分类模型效果能够充分逼近将全部参与节点的用户数据汇总后训练得到的理想模型,极大地提高了模型的准确率,通过训练后的联邦学习逻辑回归客群分类模型对用户客群进行分类,可以实现精准的用户所属的客户群体分类效果,提高了分类的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种用户客群分类方法,其特征在于,包括:
在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;
根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;
将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;
根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;
将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;
根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。
2.如权利要求1所述的方法,其特征在于,在联邦学习分布式网络的参与节点中,获取用户特征数据,包括:
在联邦学习分布式网络的参与节的本地数据库中,采集用户信息;
对用户信息进行分析,获取用户特征数据。
3.如权利要求1所述的方法,其特征在于,各个参与节点的用户特征数据的类型保持一致。
4.如权利要求1所述的方法,其特征在于,所述用户特征数据,包括用户标签和多个用户特征。
5.如权利要求1所述的方法,其特征在于,根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息,包括:
将用户特征数据作为输入数据,在参与节点中输入至逻辑回归模型进行训练;
获取逻辑回归模型训练时参数求解过程的梯度信息;
在参与节点中,通过同态加密对梯度信息进行加密,确定参与节点梯度密文信息。
6.如权利要求1所述的方法,其特征在于,根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类,包括:
在参与节点中,利用训练后的联邦学习逻辑回归客群分类模型,在反洗钱、反欺诈以及信用评价的场景中对用户客群进行预测分类。
7.一种用户客群分类装置,其特征在于,包括:
数据获取模块,用于在联邦学习分布式网络的参与节点中,获取用户特征数据;其中,所述联邦学习分布式网络,包括:参与节点,模型聚合节点;
参与节点梯度密文信息确定模块,用于根据用户特征数据,在参与节点中对逻辑回归模型进行训练,确定参与节点梯度密文信息;
聚合梯度密文信息确定模块,用于将参与节点梯度密文信息上传至联邦学习分布式网络的模型聚合节点进行聚合,确定聚合梯度密文信息;
联合梯度信息确定模块,用于根据聚合梯度密文信息,在模型聚合节点中进行横向联邦学习,确定联合梯度信息;
联邦学习逻辑回归客群分类模型训练模块,用于将联合梯度信息分发至每一参与节点,输入至联邦学习逻辑回归客群分类模型进行训练;
用户客群分类模块,用于根据训练后的联邦学习逻辑回归客群分类模型,对用户客群进行分类。
8.如权利要求7所述的装置,其特征在于,数据获取模块,具体用于:
在联邦学习分布式网络的参与节的本地数据库中,采集用户信息;
对用户信息进行分析,获取用户特征数据。
9.如权利要求7所述的装置,其特征在于,各个参与节点的用户特征数据的类型保持一致。
10.如权利要求7所述的装置,其特征在于,所述用户特征数据,包括用户标签和多个用户特征。
11.如权利要求7所述的装置,其特征在于,参与节点梯度密文信息确定模块,具体用于:
将用户特征数据作为输入数据,在参与节点中输入至逻辑回归模型进行训练;
获取逻辑回归模型训练时参数求解过程的梯度信息;
在参与节点中,通过同态加密对梯度信息进行加密,确定参与节点梯度密文信息。
12.如权利要求7所述的装置,其特征在于,用户客群分类模块,具体用于:
在参与节点中,利用训练后的联邦学习逻辑回归客群分类模型,在反洗钱、反欺诈以及信用评价的场景中对用户客群进行预测分类。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行实现权利要求1至6任一项所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832847.1A CN111967910A (zh) | 2020-08-18 | 2020-08-18 | 一种用户客群分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832847.1A CN111967910A (zh) | 2020-08-18 | 2020-08-18 | 一种用户客群分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111967910A true CN111967910A (zh) | 2020-11-20 |
Family
ID=73388878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010832847.1A Pending CN111967910A (zh) | 2020-08-18 | 2020-08-18 | 一种用户客群分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967910A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446736A (zh) * | 2020-12-02 | 2021-03-05 | 平安科技(深圳)有限公司 | 一种点击通过率ctr预测方法及装置 |
CN112465626A (zh) * | 2020-11-24 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于客户端分类聚合的联合风险评估方法及相关设备 |
CN112597135A (zh) * | 2021-01-04 | 2021-04-02 | 天冕信息技术(深圳)有限公司 | 用户分类方法、装置、电子设备及可读存储介质 |
CN112633146A (zh) * | 2020-12-21 | 2021-04-09 | 杭州趣链科技有限公司 | 多姿态人脸性别检测训练优化方法、装置及相关设备 |
CN112801780A (zh) * | 2021-03-19 | 2021-05-14 | 中国工商银行股份有限公司 | 基于联邦学习的境内外风险客户识别方法、装置及系统 |
CN112906903A (zh) * | 2021-01-11 | 2021-06-04 | 北京源堡科技有限公司 | 网络安全风险预测方法、装置、存储介质及计算机设备 |
CN112948687A (zh) * | 2021-03-25 | 2021-06-11 | 重庆高开清芯智联网络科技有限公司 | 一种基于名片文件特征的节点消息推荐方法 |
CN113094407A (zh) * | 2021-03-11 | 2021-07-09 | 广发证券股份有限公司 | 一种基于横向联邦学习的反洗钱识别方法、装置及系统 |
CN113159918A (zh) * | 2021-04-09 | 2021-07-23 | 福州大学 | 一种基于联邦团渗透的银行客户群体挖掘方法 |
CN113505894A (zh) * | 2021-06-02 | 2021-10-15 | 北京航空航天大学 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
CN113537509A (zh) * | 2021-06-28 | 2021-10-22 | 南方科技大学 | 协作式的模型训练方法及装置 |
CN114186263A (zh) * | 2021-12-17 | 2022-03-15 | 大连理工大学 | 一种基于纵向联邦学习的数据回归方法及电子装置 |
WO2023229502A1 (en) * | 2022-05-25 | 2023-11-30 | Telefonaktiebolaget Lm Ericsson (Publ) | A system and method for training a federated learning model using network data |
WO2023236588A1 (zh) * | 2022-06-06 | 2023-12-14 | 上海淇玥信息技术有限公司 | 基于客群偏差平滑优化的用户分类方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428887A (zh) * | 2020-03-19 | 2020-07-17 | 腾讯云计算(北京)有限责任公司 | 一种基于多个计算节点的模型训练控制方法、装置及系统 |
CN111477290A (zh) * | 2020-03-05 | 2020-07-31 | 上海交通大学 | 保护用户隐私的联邦学习和图像分类方法、系统及终端 |
CN111539810A (zh) * | 2020-04-30 | 2020-08-14 | 深圳前海微众银行股份有限公司 | 防诈骗方法、装置、系统、设备及存储介质 |
-
2020
- 2020-08-18 CN CN202010832847.1A patent/CN111967910A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477290A (zh) * | 2020-03-05 | 2020-07-31 | 上海交通大学 | 保护用户隐私的联邦学习和图像分类方法、系统及终端 |
CN111428887A (zh) * | 2020-03-19 | 2020-07-17 | 腾讯云计算(北京)有限责任公司 | 一种基于多个计算节点的模型训练控制方法、装置及系统 |
CN111539810A (zh) * | 2020-04-30 | 2020-08-14 | 深圳前海微众银行股份有限公司 | 防诈骗方法、装置、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
QIANG YANG ET AL.: "Federated Machine Learning: Concept and Applications", 《ARXIV.ORG》, pages 2 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465626A (zh) * | 2020-11-24 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于客户端分类聚合的联合风险评估方法及相关设备 |
CN112465626B (zh) * | 2020-11-24 | 2023-08-29 | 平安科技(深圳)有限公司 | 基于客户端分类聚合的联合风险评估方法及相关设备 |
WO2022116431A1 (zh) * | 2020-12-02 | 2022-06-09 | 平安科技(深圳)有限公司 | 一种点击通过率ctr预测方法及装置 |
CN112446736A (zh) * | 2020-12-02 | 2021-03-05 | 平安科技(深圳)有限公司 | 一种点击通过率ctr预测方法及装置 |
CN112633146A (zh) * | 2020-12-21 | 2021-04-09 | 杭州趣链科技有限公司 | 多姿态人脸性别检测训练优化方法、装置及相关设备 |
CN112633146B (zh) * | 2020-12-21 | 2024-03-26 | 杭州趣链科技有限公司 | 多姿态人脸性别检测训练优化方法、装置及相关设备 |
CN112597135A (zh) * | 2021-01-04 | 2021-04-02 | 天冕信息技术(深圳)有限公司 | 用户分类方法、装置、电子设备及可读存储介质 |
CN112906903A (zh) * | 2021-01-11 | 2021-06-04 | 北京源堡科技有限公司 | 网络安全风险预测方法、装置、存储介质及计算机设备 |
CN112906903B (zh) * | 2021-01-11 | 2024-02-09 | 北京源堡科技有限公司 | 网络安全风险预测方法、装置、存储介质及计算机设备 |
CN113094407A (zh) * | 2021-03-11 | 2021-07-09 | 广发证券股份有限公司 | 一种基于横向联邦学习的反洗钱识别方法、装置及系统 |
CN113094407B (zh) * | 2021-03-11 | 2022-07-19 | 广发证券股份有限公司 | 一种基于横向联邦学习的反洗钱识别方法、装置及系统 |
CN112801780A (zh) * | 2021-03-19 | 2021-05-14 | 中国工商银行股份有限公司 | 基于联邦学习的境内外风险客户识别方法、装置及系统 |
CN112948687A (zh) * | 2021-03-25 | 2021-06-11 | 重庆高开清芯智联网络科技有限公司 | 一种基于名片文件特征的节点消息推荐方法 |
CN113159918A (zh) * | 2021-04-09 | 2021-07-23 | 福州大学 | 一种基于联邦团渗透的银行客户群体挖掘方法 |
CN113159918B (zh) * | 2021-04-09 | 2022-06-07 | 福州大学 | 一种基于联邦团渗透的银行客户群体挖掘方法 |
CN113505894B (zh) * | 2021-06-02 | 2023-12-15 | 北京航空航天大学 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
CN113505894A (zh) * | 2021-06-02 | 2021-10-15 | 北京航空航天大学 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
CN113537509A (zh) * | 2021-06-28 | 2021-10-22 | 南方科技大学 | 协作式的模型训练方法及装置 |
CN114186263A (zh) * | 2021-12-17 | 2022-03-15 | 大连理工大学 | 一种基于纵向联邦学习的数据回归方法及电子装置 |
CN114186263B (zh) * | 2021-12-17 | 2024-05-03 | 大连理工大学 | 一种基于纵向联邦学习的数据回归方法及电子装置 |
WO2023229502A1 (en) * | 2022-05-25 | 2023-11-30 | Telefonaktiebolaget Lm Ericsson (Publ) | A system and method for training a federated learning model using network data |
WO2023236588A1 (zh) * | 2022-06-06 | 2023-12-14 | 上海淇玥信息技术有限公司 | 基于客群偏差平滑优化的用户分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967910A (zh) | 一种用户客群分类方法和装置 | |
CN110084377B (zh) | 用于构建决策树的方法和装置 | |
WO2016054908A1 (zh) | 基于物联网大数据平台的智能用户画像方法及装置 | |
CN111681091B (zh) | 基于时间域信息的金融风险预测方法、装置及存储介质 | |
CN106022708A (zh) | 一种预测员工离职的方法 | |
CN104992147A (zh) | 一种基于快慢结合云计算环境的深度学习的车牌识别方法 | |
CN113449048B (zh) | 数据标签分布确定方法、装置、计算机设备和存储介质 | |
CN111966875A (zh) | 一种敏感信息识别方法和装置 | |
CN106846082A (zh) | 基于硬件信息的旅游冷启动用户产品推荐系统及方法 | |
CN108446331A (zh) | 关系网络数据更新的方法和装置、计算机可读存储介质 | |
CN111159241B (zh) | 一种点击转化预估方法及装置 | |
CN106897282B (zh) | 一种用户群的分类方法和设备 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN116091185A (zh) | 一种客户流失预警方法和装置 | |
CN116188953A (zh) | 实现数据安全的医学影像数据处理方法、系统和电子设备 | |
CN111951050B (zh) | 理财产品推荐方法及装置 | |
CN111967970B (zh) | 基于spark平台的银行产品推荐方法及装置 | |
CN113609393A (zh) | 一种基于数据服务和数据管理的数字化平台 | |
CN112598443A (zh) | 一种基于深度学习的线上渠道业务数据处理方法及系统 | |
CN111914281A (zh) | 基于区块链和同态加密的贝叶斯模型训练方法及装置 | |
CN111967671B (zh) | 基于支持向量数据域描述的跨境活跃用户识别方法及装置 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN108737379A (zh) | 一种大数据传输处理算法 | |
Sari Aslam et al. | Trip purpose identification using pairwise constraints based semi-supervised clustering | |
CN108388913A (zh) | 一种基于约束投影的多决策树信用卡欺诈检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |