CN115239355A - 客户分类方法、装置、计算机设备和存储介质 - Google Patents

客户分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115239355A
CN115239355A CN202210975893.6A CN202210975893A CN115239355A CN 115239355 A CN115239355 A CN 115239355A CN 202210975893 A CN202210975893 A CN 202210975893A CN 115239355 A CN115239355 A CN 115239355A
Authority
CN
China
Prior art keywords
data
determining
data set
data samples
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210975893.6A
Other languages
English (en)
Inventor
李钰
梁颖
刘腾
焦勇博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210975893.6A priority Critical patent/CN115239355A/zh
Publication of CN115239355A publication Critical patent/CN115239355A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种客户分类方法、装置、计算机设备和存储介质。所述方法包括:根据不同客户的第一多模态数据样本,确定目标分类模型,其中,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,进而获取待分类客户的多模态数据,从而根据待分类客户的多模态数据和目标分类模型,确定待分类客户的类型。采用本方法能够提高客户分类的准确性。

Description

客户分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据技术领域,特别是涉及一种客户分类方法、装置、计算机设备和存储介质。
背景技术
互联网金融的发展,使得传统银行面临许多新的挑战。对于传统银行来说,如何在日渐稀疏的客户市场中保留现有客户,降低客户流失率显的尤为重要。
目前,通过对各银行的客户进行分类,区分各个客户的类别,进而针对不同类别的客户制定对应的个性化服务方案,采取不同营销策略以降低客户流失率。
然而,目前针对客户的分类方式大多还是通过人工判断。因此,目前的客户分类方法存在着准确性不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高客户分类的准确性的客户分类方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种客户分类方法。所述方法包括:
根据不同客户的第一多模态数据样本,确定目标分类模型,其中,该第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型;
获取待分类客户的多模态数据;
根据该待分类客户的多模态数据和该目标分类模型,确定该待分类客户的类型。
第二方面,本申请还提供了一种客户分类装置。所述装置包括:
第一确定模块,用于根据不同客户的第一多模态数据样本,确定目标分类模型,其中,该第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型;
获取模块,用于获取待分类客户的多模态数据;
第二确定模块,用于根据该待分类客户的多模态数据和该目标分类模型,确定该待分类客户的类型。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法的步骤。
上述客户分类方法、装置、计算机设备和存储介质,根据不同客户的第一多模态数据样本,确定目标分类模型,其中,该第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,进而获取待分类客户的多模态数据,从而根据该待分类客户的多模态数据和该目标分类模型,确定该待分类客户的类型。由于目标分类模型是根据不同客户的第一多模态数据样本确定的,并且,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,因此,目标分类模型考虑了客户各种类型的多模态数据,也就是说,目标分类模型能够在确定待分类客户的类型时,能够结合不同模态的数据,从而提高客户分类的准确性。进一步地,较传统客户分类方式中仅通过人工判断,本申请中根据分类客户的多模态数据和目标分类模型确定的待分类客户的类型准确性较高,提高了客户分类的准确性。
附图说明
图1为本申请实施例中客户分类方法的应用环境图;
图2为本申请实施例中客户分类方法的流程示意图;
图3为本申请实施例中一种确定目标分类模型的流程示意图;
图4为本申请中DNN的结构示意图;
图5为本申请实施例中另一种确定目标分类模型的流程示意图;
图6为本申请实施例中一种确定各次测试下各中间模型的权重系数的流程示意图;
图7为本申请实施例中另一种确定目标分类模型的流程示意图;
图8为本申请中确定目标分类模型的原理示意图;
图9为本申请实施例中一种确定训练数据集的流程示意图;
图10为本申请实施例中另一种确定训练数据集的流程示意图;
图11为本申请实施例中一种得到预处理后的第二多模态数据样本的流程示意图;
图12为本申请中进行客户分类的原理示意图;
图13为本申请实施例中客户分类装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为本申请实施例中客户分类方法的应用环境图,本申请实施例提供的客户分类方法可以应用于如图1所示的计算机设备中,该计算机设备可以是终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种客户分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2为本申请实施例中客户分类方法的流程示意图,该方法可以应用于图1所示的服务器中,在一个实施例中,如图2所示,包括以下步骤:
S201,根据不同客户的第一多模态数据样本,确定目标分类模型,其中,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型。
在本实施例中,计算机设备根据不同客户的第一多模态数据样本,确定目标分类模型。第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型。可以理解的是,第一多模态数据样本是同一批客户在同一个时间段内真实并脱敏后的数据样本。
具体地,基础属性数据样本包括多个客户的基础属性例如性别、年龄、职业等的数据样本,如下表1所示,表1包括了i个客户的j个属性数据,其中,i和j均是大于等于1整数。属性1的值为1时表示客户为男性,属性2的值为0时表示客户为女性。
表1基础属性数据样本
属性1(性别) 属性2(年龄) 属性3(职业) …… 属性j(存款/万)
客户1 1 56 教师 …… 50
客户2 0 34 IT工作者 …… 100
…… …… …… …… …… ……
客户i 0 20 学生 …… 0.5
行为埋点数据样本包括多个客户在网页或者APP的行为数据样本,如下表2所示,表1包括了i个客户在不同的时间点下的行为数据样本,其中,不同的页面可以标识不同的功能模块。例如,客户1在时间戳为“1564982685000”时点击了转账汇款。
表2行为埋点数据样本
时间戳 行为 页面 …… 功能模块
客户1 1564982685000 点击 001 …… 转账汇款
客户2 1564982619000 点击 003 …… 积分查询
…… …… …… …… …… ……
客户i 1564982678000 其他 004 …… 理财推荐
交互数据样本包括与客户进行沟通的文本或者录音,交互数据样本通常来源于客户与客服的沟通记录,本申请对交互数据样本的格式不做限制,交互数据样本为录音时可以为MP3、WAV格式,交互数据样本为文本时可以为doc、pdf格式,一般情况下,需要统一交互数据样本的格式,例如录音统一为MP3格式,文本统一为doc格式。
进一步地,计算机设备根据不同客户的第一多模态数据样本,确定目标分类模型,目标分类模型可以是卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN),也可以为其他的深度学习网络、机器学习网络等。一种可以实现的方式是,计算机设备根据第一多模态数据样本,对初始分类模型进行训练,当满足训练停止条件时,可以停止训练并确定目标分类模型,训练停止条件可以是初始分类模型的输出的客户分类类型与第一多模态数据样本中实际的客户分类之间的差异小于预设阈值。当然,计算机设备也可以通过其他的方法确定目标分类模型,本实施例不做限制。
S202,获取待分类客户的多模态数据。
在本实施例中,计算机设备确定目标分类模型后,获取待分类客户的多模态数据,可以理解的是,待分类客户的多模态数据仍包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,并且待分类客户的多模态数据是在待分类客户在某一个时间段内真实并脱敏后的数据样本。
S203,根据待分类客户的多模态数据和目标分类模型,确定待分类客户的类型。
在本实施例中,由于S201已经根据不同客户的第一多模态数据样本确定了目标分类模型,因此计算机设备根据待分类客户的多模态数据和目标分类模型,确定待分类客户的类型。例如,计算机设备将待分类客户1的多模态数据输入至目标分类模型,得到目标分类模型输出的待分类客户为类型A,则计算机设备可以确定待分类客户的类型为类型A。需要说明的是,确定的待分类客户的类型属于预设的客户分类类型中的一种。
本实施例提供的客户分类方法,根据不同客户的第一多模态数据样本,确定目标分类模型,其中,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,进而获取待分类客户的多模态数据,从而根据待分类客户的多模态数据和目标分类模型,确定待分类客户的类型。由于目标分类模型是根据不同客户的第一多模态数据样本确定的,并且,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,因此,目标分类模型考虑了客户各种类型的多模态数据,也就是说,目标分类模型能够在确定待分类客户的类型时,能够结合不同模态的数据,从而提高客户分类的准确性。进一步地,较传统客户分类方式中仅通过人工判断,本申请中根据分类客户的多模态数据和目标分类模型确定的待分类客户的类型准确性较高,提高了客户分类的准确性。
图3为本申请实施例中一种确定目标分类模型的流程示意图,参照图3,本实施例涉及的是如何确定目标分类模型的一种可选的实现方式。在上述实施例的基础上,上述的S201,根据不同客户的第一多模态数据样本,确定目标分类模型,包括如下步骤:
S301,对不同客户的第一多模态数据样本进行预处理,得到预处理后的第二多模态数据样本。
在本实施例中,计算机设备首先需要对不同客户的第一多模态数据样本进行预处理,得到预处理后的第二多模态数据样本。由于第一多模态数据样本包括了不同的数据样本类型,因此计算机设备对于不同的数据样本类型可以采用不同的预处理,例如对基础属性数据样本进行归一化处理、对行为埋点数据样本进行异常数据剔除处理、对交互数据样本进行分词处理,本实施例不做限制。
S302,根据第二多模态数据样本和预设的客户分类类型,确定训练数据集。
在本实施例中,计算机设备得到预处理后的第二多模态数据样本后,就能够根据第二多模态数据样本和预设的客户分类类型,确定训练数据集。一种可以实现的方式是,计算机设备利用预设的客户分类类型对第二多模态数据样本打标签,从而确定训练数据集。预设的客户分类类型例如为A类型(重要价值客户)、B类型(重要挽留客户)、C类型(重要深耕客户)、D类型(新客户)、E类型(流失客户)、F类型(一般维持客户)六种类型,本实施例对预设的客户分类类型不做限制。
由于训练数据集是根据第二多模态数据样本确定的,因此训练数据集也包括了各数据样本类型。以第二多模态数据样本中的基础属性数据样本为例,第二多模态数据样本中的基础属性数据样本包括i个客户的j个属性数据,计算机设备利用预设的客户分类类型,确定第二多模态数据样本的基础属性数据样本中i个客户的客户分类,例如客户1是A类型,客户2是B类型、……、客户j是C类型。
需要说明的是,计算机设备利用预设的客户分类类型对第二多模态数据样本打标签的过程可以通过与用户的交互完成。
S303,根据训练数据集中各数据样本类型以及各数据样本类型对应的初始模型,确定各数据样本类型对应的中间模型。
在本实施例中,训练数据集中的基础属性数据样本、行为埋点数据样本、交互数据样本均对应了一个初始模型,进而计算机设备能够根据训练数据集中各数据样本类型以及各数据样本类型对应的初始模型,确定各数据样本类型对应的中间模型。例如,根据训练数据集中的基础属性数据样本以及训练数据集中的基础属性数据样本的对应的初始模型,可以确定训练数据集中的基础属性数据样本对应的中间模型。
可以理解的是,根据训练数据集中各数据样本类型以及各数据样本类型对应的初始模型,确定各数据样本类型对应的中间模型的过程,实际上也是利用训练数据集中各数据样本类型对各数据样本类型对应的初始模型进行训练,以得到各数据样本类型对应的中间模型的过程。换句话说,假设训练数据集中的基础属性数据样本对应初始模型1,利用训练数据集中的基础属性数据样本对初始模型1进行训练,得到训练数据集中的基础属性数据样本对应的中间模型1,进而中间模型1能够根据待分类客户的基础属性数据,得到该客户的分类类型。训练数据集中的行为埋点数据样本对应初始模型2和训练数据集中的行为埋点数据样本对应的中间模型2、训练数据集中的交互数据样本对应初始模型3和训练数据集中的交互数据样本对应的中间模型3同理,在此不再赘述。
各初始模型可以使用不同的网络,也可以使用同样的网络。本实施例中分别使用三个深度神经网络(Deep Neural Networks,DNN)作为各数据样本类型对应的初始模型。可以理解的是,各中间模型也是三个DNN。
图4为本申请中DNN的结构示意图,具体地,如图4所示,各DNN均包含一个输入层、两个隐藏层和输出层,隐藏层之间设置了dropout层,输出层使用softmax函数,使得各DNN能够确定输入的数据类型属于各预设的客户分类类型的概率值,并将最大的概率值所对应客户分类类型作为输出结果,激活函数使用线性整流函数(Linear rectificationfunction,ReLU)。
由于本申请中DNN中加入了dropout层,所以每次训练时,每一层都会随机丢弃一定比例的神经元,从而提高确定的中间模型的准确度。进一步地,本申请中还通过网格搜索法进行超参数的选择,各DNN遍历每个隐藏层的节点数依次为5、10、30、50、100、150、200。DNN中还设置了批量尺寸的遍历,遍历尺寸从32到128,步长为32。进一步地,本申请中的DNN还对初始学习率进行了遍历。最终,计算机设备确定各数据样本类型对应的中间模型的参数如下表3所示,表3展示了各DNN的最优超参数的值。
表3 DNN参数值
Figure BDA0003797402900000071
S304,根据各数据样本类型对应的中间模型以及训练数据集,确定目标分类模型。
在本实施例中,训练样本集中的基础属性数据样本对应中间模型1,训练样本集中的行为埋点数据样本对应中间模型2,训练样本集中的交互数据样本对应中间模型3。由于中间模型1、中间模型2和中间模型3均是针对单一的数据样本类型,因此,计算机设备还需要对中间模型1、中间模型2和中间模型3进行整合,也即对各数据样本类型对应的中间模型进行整合得到目标分类模型。
具体地,计算机设备根据上述的中间模型1、中间模型2、中间模型3以及训练数据集,确定最终的目标分类模型。一种可以实现的方式是:计算机设备将各数据样本类型对应的中间模型乘以对应的目标权重系数得到目标分类模型,例如中间模型1对应目标权重系数1、中间模型2对应目标权重系数2、中间模型对应目标权重系数3,目标分类模型=目标权重系数1×中间模型1+目标权重系数2×中间模型2+目标权重系数3×中间模型3。
本实施例对不同客户的第一多模态数据样本进行预处理,得到预处理后的第二多模态数据样本,进而根据第二多模态数据样本和预设的客户分类类型,确定训练数据集,并根据训练数据集中各数据样本类型以及各数据样本类型对应的初始模型,确定各数据样本类型对应的中间模型,从而根据各数据样本类型对应的中间模型以及训练数据集,确定目标分类模型。由于是根据预处理后的第二多模态数据样本和预设的客户分类类型确定的数据集,因此确定的训练数据集体现了第二多模态数据样本和预设的客户分类类型之间的对应关系,进而根据训练数据集中各数据样本类型以及各数据样本类型对应的初始模型,确定的各数据样本类型对应的中间模型能够根据单一的数据类型完成对客户的分类,从而根据各中间模型以及训练数据集确定的目标分类模型就能够对待分类客户的多模态数据进行分类,以确定待分类客户的类型。进一步地,由于目标分类模型考虑了客户各种类型的多模态数据,因此本申请还能提高客户分类的准确性。
图5为本申请实施例中另一种确定目标分类模型的流程示意图,参照图5,本实施例涉及的是如何确定目标分类模型的一种可选的实现方式。在上述实施例的基础上,上述的S304,根据各数据样本类型对应的中间模型以及训练数据集,确定目标分类模型,包括如下步骤:
S501,在对各数据样本类型对应的中间模型进行各次测试时,对训练数据集进行N次随机抽样,得到各随机抽样下的N个随机数据集,其中,N为大于1的整数。
在本实施例中,计算机设备会对各数据样本类型对应的中间模型进行M次测试,M是大于等于1的整数。计算机设备在每次测试中,都会对训练数据集进行N次随机抽样,从而得到每次随机抽样对应的随机数据集,也即得到各随机抽样下的N个随机数据集,N为大于1的整数。可以理解的是,为了控制变量,对训练数据集进行N次随机抽样时抽样的个数应当相等。
举例说明,例如M=3,N=5,则计算机设备会对各数据样本类型对应的中间模型进行3次测试,每次测试都会得到5个随机数据集。假设训练数据集中包括了100个客户的数据样本,计算机设备在第一次测试时进行5次随机抽样,每次随机抽取训练数据集中50个客户的数据样本,从而得到随机数据集1~随机数据集5。以此类推,计算机设备进行第二次测试和第三次测试,本实施例不再赘述。需要说明的是,训练数据集包括多个客户的各数据样本类型,因此随机抽样后得到的随机数据集也包括各数据样本类型。
S502,根据各中间模型以及各次测试对应的N个随机数据集,确定各次测试下各中间模型的权重系数。
在本实施例中,计算机设备根据各中间模型以及各次测试对应的N个随机数据集,确定各次测试下各中间模型的权重系数。继续上述的举例进行说明,一种可以实现的方式是:第一次测试时,计算机设备得到了5个随机数据集,即随机数据集1~随机数据集5,计算机设备可以利用这5个随机数据集,分别对各中间模型,即中间模型1、中间模型2和中间模型3进行测试。
具体地,计算机设备将各个随机数据集分别输入给各中间模型,以得到中间模型的输出结果。例如,随机数据集1分别输入给中间模型1、中间模型2和中间模型3,中间模型1、中间模型2和中间模型3分别得到了输出结果1、输出结果2和输出结果3,输出结果1表征中间模型1根据随机数据集1确定的预测分类结果,输出结果2表征中间模型2根据随机数据集1确定的预测分类结果,输出结果3表征中间模型3根据随机数据集1确定的预测分类结果。各预测分类结果是各中间模型针对各随机数据集中的各数据样本预测的客户分类类型。以此类推,根据这5个随机数据集,3个中间模型共计可以得到15个输出结果。
进一步地,计算机设备可以根据这15个输出结果确定第一次测试时各中间模型的权重系数,即第一次测试时中间模型1对应的权重系数α1、第一次测试时中间模型2对应的权重系数β1和第一次测试时中间模型3对应的权重系数γ1。例如,计算机设备可以根据这15个输出结果,将第一次测试时中间模型1的分类准确率作为α1、中间模型2的分类准确率作为β1、中间模型3的分类准确率作为γ1
S503,根据各中间模型以及各次测试下各中间模型的权重系数,确定目标分类模型。
在本实施例中,以M=3继续进行举例,第一次测试时计算机设备得到各中间模型的权重系数α1、β1和γ1,同理,计算机设备可以得到第二次测试时各中间模型的权重系数α2、β2和γ2以及第三次测试时各中间模型的权重系数α3、β3和γ3
进一步地,计算机设备根据各中间模型以及各次测试下各中间模型的权重系数,确定目标分类模型。例如,计算机设备可以取α1、α2和α3中的中位数作为中间模型1的目标权重系数α,取β1、β2和β3中的中位数作为中间模型2的目标权重系数β,取γ1、γ2和γ3中的中位数作为中间模型3的目标权重系数γ。目标分类模型=α·中间模型1+β·中间模型2+γ·中间模型3。
本实施例在对各数据样本类型对应的中间模型进行各次测试时,对训练数据集进行N次随机抽样,得到各随机抽样下的N个随机数据集,其中,N为大于1的整数,进而根据各中间模型以及各次测试对应的N个随机数据集,确定各次测试下各中间模型的权重系数,从而根据各中间模型以及各次测试下各中间模型的权重系数,确定目标分类模型。由于各中间模型的权重系数是根据各中间模型以及各次测试对应的N个随机数据集确定的,因此各中间模型的权重系数的精度较高,从而最终确定的目标分类模型能够准确地对待分类客户进行分类,提高了客户分类的准确性。
图6为本申请实施例中一种确定各次测试下各中间模型的权重系数的流程示意图,参照图6,本实施例涉及的是如何确定各次测试下各中间模型的权重系数的一种可选的实现方式。在上述实施例的基础上,上述的S502,根据各中间模型以及各次测试对应的N个随机数据集,确定各次测试下各中间模型的权重系数,包括如下步骤:
S601,根据各次测试对应的N个随机数据集和各中间模型,得到各次测试下各中间模型对应的N个性能参数,其中,N个性能参数包括利用各随机数据集测试时,各中间模型对应的各性能参数。
在本实施例中,在各次测试时,计算机设备得到N个随机数据集后,将各个随机数据集分别输入给各中间模型,以确定各次测试下各中间模型对应的N个性能参数。以表4为例进行说明,表4展示了单次测试下性能参数。例如,计算机设备进行第一次测试时,将随机数据集1输入给中间模型2,得到性能参数1-2,性能参数1-2表示中间模型2在随机数据集1下的性能参数。结合表4,中间模型1、中间模型2和中间模型3分别对应有N个性能参数,N个性能参数包括利用各随机数据集测试时,各中间模型对应的各性能参数。也就是说,每次利用随机数据集测试时,各中间模型均会对应一个性能参数。
具体地,性能参数可以是准确率(Accuracy,ACC)和/或受试者工作特征曲线(receiver operating characteristic curve,ROC)下的面积(area under the curve,AUC)。
表4各次测试时性能参数示意表
Figure BDA0003797402900000101
Figure BDA0003797402900000111
S602,根据各次测试下各中间模型对应的N个性能参数,确定各次测试下各中间模型的权重系数。
在本实施例中,计算机设备根据各次测试下各中间模型对应的N个性能参数,确定各次测试下各中间模型的权重系数。结合表4,示例地,计算机设备可以确定各中间模型对应的N个性能参数的平均值作为各次测试下各中间模型的权重系数,或者,计算机设备可以将各中间模型对应的N个性能参数的中位数作为各次测试下各中间模型的权重系数。当然,计算机设备也可以通过其他方式确定各次测试下各中间模型的权重系数,本实施例不做限制。
本实施例根据各次测试对应的N个随机数据集和各中间模型,得到各次测试下各中间模型对应的N个性能参数,其中,N个性能参数包括利用各随机数据集测试时,各中间模型对应的各性能参数,进而根据各次测试下各中间模型对应的N个性能参数,确定各次测试下各中间模型的权重系数。由于各次测试下各中间模型的权重系数是根据各次测试下各中间模型对应的N个性能参数确定的,因此各次测试下各中间模型的权重系数是较为准确的权重系数,进而提高了目标分类模型的准确率。
可选的,上述的S602,根据各次测试下各中间模型对应的N个性能参数,确定各次测试下各中间模型的权重系数,可以通过如下方式实现:
将各次测试下各中间模型对应的第一数量除以N得到的商值,作为各次测试下各中间模型的权重系数,其中,各次测试下各中间模型对应的第一数量等于利用各随机数据集测试时,各中间模型对应的各性能参数是所有中间模型对应的各性能参数中最大值的次数总和。
在本实施例中,计算机设备将各次测试下各中间模型对应的第一数量除以N得到的商值,作为各次测试下各中间模型的权重系数。请继续参考表4,以中间模型1为例,计算机设备进行第一次测试时,假设利用随机数据集1测试时,性能参数1-1是性能参数1-1、性能参数1-2和性能参数1-3中的最大值;利用随机数据3测试时,性能参数3-1是性能参数3-1、性能参数3-2和性能参数3-3中的最大值;利用其他随机数据集时,中间模型1对应的性能参数不是所有中间模型对应的性能参数中最大值。则计算机设备可以确定中间模型1对应的第一数量为2。同理,计算机设备可以确定利用各随机数据集测试时,各中间模型对应的各性能参数是所有中间模型对应的各性能参数中最大值的次数总和,从从而确定各次测试下各中间模型对应的第一数量。
进一步地,对于第一次测试时,中间模型1的权重系数α1就是2/N,假设N=10,则α1=0.2。同理,计算机设备可以确定各次测试下各中间模型的权重系数。例如,第一次测试时中间模型1的权重系数α1、第一次测试时中间模型2的权重系数β1和第一次测试时中间模型3的权重系数γ1
本实施例将各次测试下各中间模型对应的第一数量除以N得到的商值,作为各次测试下各中间模型的权重系数,其中,各次测试下各中间模型对应的第一数量等于利用各随机数据集测试时,各中间模型对应的各性能参数是所有中间模型对应的各性能参数中最大值的次数总和。由于计算机设备是通过各随机数据集测试时,各中间模型对应的各性能参数是所有中间模型对应的各性能参数中最大值的次数总和,确定的各次测试下各中间模型的权重系数,因此,各中间模型的权重系数平衡了各中间模型对最终分类结果的贡献程度,进而提高了目标分类模型的准确率和泛化性能。
图7为本申请实施例中另一种确定目标分类模型的流程示意图,参照图7,本实施例涉及的是如何确定目标分类模型的一种可选的实现方式。在上述实施例的基础上,上述的S503,根据各中间模型以及各次测试下各中间模型的权重系数,确定目标分类模型,包括如下步骤:
S701,将各次测试下各中间模型的权重系数的平均值作为各中间模型的目标权重系数。
在本实施例中,计算机设备将各次测试下各中间模型的权重系数的平均值作为各中间模型的目标权重系数。例如,计算机设备进行了三次测试,则计算机设备可以取α1、α2和α3中的平均值作为中间模型1的目标权重系数α,取β1、β2和β3中的平均值作为中间模型2的目标权重系数β,取γ1、γ2和γ3中的平均值作为中间模型3的目标权重系数γ。
S702,根据各中间模型和各中间模型的目标权重系数,得到目标分类模型。
在本实施例中,计算机设备确定了中间模型1的目标权重系数α、中间模型2的目标权重系数β和中间模型3的目标权重系数γ后,就能确定目标分类模型=α·中间模型1+β·中间模型2+γ·中间模型3。
具体地,目标分类模型的性能P表示为如下式(1)。
P=α·PDNN1+β·PDNN2+γ·PDNN3 (1)
其中,α≥0,β≥0,γ≥0,α+β+γ=1,PDNN1表示中间模型1的性能,PDNN2表示中间模型2的性能,PDNN3表示中间模型3的性能。可以理解的是,中间模型的目标权重系数越大,则该中间模型对应的数据类型在客户分类上更具有“话语权”。例如,当α>β>γ时,中间模型1对应的基础属性数据类型对于待分类客户的类型影响最大。
本实施例将各次测试下各中间模型的权重系数的平均值作为各中间模型的目标权重系数,并根据各中间模型和各中间模型的目标权重系数,得到目标分类模型。由于将各次测试下各中间模型的权重系数的平均值作为各中间模型的目标权重系数,进一步提高了目标分类模型的精度,从而提高了客户分类的准确率。
为了更清楚地对本申请中确定目标分类模型的过程进行说明,在此结合图8进行解释。图8为本申请中确定目标分类模型的原理示意图,如图8所示,以M=10,N=10,性能参数为AUC为例,计算机设备对各中间模型,即中间模型1(DNN1)、中间模型2(DNN2)和中间模型3(DNN3)进行10次测试。计算机设备在每次测试中,都会对训练数据集进行10次随机抽样,从而得到10次随机抽样对应的随机数据集1~随机数据集10。
进一步地,计算机设备利用每个随机数据集测试时,将对应的随机数据集输入给DNN1~DNN3,从而得到该次测试下每个中间模型对应的10个性能参数。例如,计算机设备进行第三次测试时,将随机数据集1输入给中间模型1,得到AUC1-1,将随机数据集1输入给中间模型2,得到AUC1-2,将随机数据集1输入给中间模型3,得到AUC1-3。
更进一步地,计算机设备根据各次测试下各中间模型对应的N个性能参数,确定各次测试下DNN1的权重系数αn、DNN2的权重系数βn和DNN3的权重系数γn。其中,n是取值1~10的整数,表示第n次测试时各中间模型的权重系数,例如当n=1时,α1表示第一次测试时DNN1的权重系数。具体地,计算机设备将各次测试下各中间模型对应的第一数量除以10得到的商值,作为各次测试下各中间模型的权重系数。以第三次测试为例,参考图8,利用随机数据集1测试时,DNN1对应的AUC1-1为AUC1-1、AUC1-2和AUC1-3中的最大值,则DNN的次数加一,以此类推,计算机设备确定利用各随机数据集测试时,DNN1对应的各AUC值是所有中间模型对应的各AUC值中最大值的次数总和,进而确定第三次测试时DNN1的权重系数α3。同理,计算机设备确定各次测试下各中间模型的权重系数αn、βn和γn,如图8所示。
最后,计算机设备将10次测试下各中间模型的权重系数的平均值作为各中间模型的目标权重系数α、β和γ,进而根据各中间模型和各中间模型的目标权重系数α、β和γ,得到目标分类模型,如式(1)所示。
结合图8,本申请确定的目标分类模型可以平衡各种模态的数据对于最终待分类客户的类型的贡献度,若后续有更多类型的模态数据,也可以利用同样的原理得到目标分类模型。因此,本申请提供的目标分类模型对于各类银行对客户分类时也具有一定的参考意义。
图9为本申请实施例中一种确定训练数据集的流程示意图,参照图9,本实施例涉及的是如何确定训练数据集的一种可选的实现方式。在上述实施例的基础上,上述的S302,根据第二多模态数据样本和预设的客户分类类型,确定训练数据集,包括如下步骤:
S901,根据第二多模态数据样本和预设的客户分类类型,确定初始数据集。
在本实施例中,计算机设备在确定训练数据集前,首先需要根据第二多模态数据样本和预设的客户分类类型确定初始数据集。换句话说,计算机设备利用预设的客户分类类型对第二多模态数据样本打标签,从而将打标签后第二多模态数据样本作为初始数据集。以第二多模态数据样本中的基础属性数据样本为例,第二多模态数据样本中的基础属性数据样本包括i个客户的j个属性数据,计算机设备利用预设的客户分类类型,确定第二多模态数据样本的基础属性数据样本中i个客户的客户分类,例如客户1是A类型,客户2是B类型、……、客户j是C类型。
S902,确定初始数据集中各第二多模态数据样本所对应的特征值。
在本实施例中,计算机设备确定初始数据集中各第二多模态数据样本所对应的特征值。继续以第二多模态数据样本中的基础属性数据样本为例,第二多模态数据样本中的基础属性数据样本包括i个客户的j个属性数据,从而也可以确定j个特征值。
计算机设备可以通过互信息法确定初始数据集中各第二多模态数据样本所对应的特征值,也可以通过其他方式确定初始数据集中各第二多模态数据样本所对应的特征值,本实施例不做限制。
S903,根据各第二多模态数据样本所对应的特征值,确定训练数据集。
在本实施例中,计算机设备根据各第二多模态数据样本所对应的特征值,确定训练数据集。例如,计算机设备根据各第二多模态数据样本所对应的特征值,将不满足预设条件,例如小于预设阈值的特征值对应的第二多模态数据样本从初始训练集中删除,以得到训练数据集。
本实施例根据第二多模态数据样本和预设的客户分类类型,确定初始数据集,进而确定初始数据集中各第二多模态数据样本所对应的特征值,从而根据各第二多模态数据样本所对应的特征值,确定训练数据集。由于本申请中是根据各第二多模态数据样本所对应的特征值确定的训练数据集,因此根据训练数据集确定的各中间模型精度较高。
可选的,上述的S902,确定初始数据集中各第二多模态数据样本所对应的特征值,可以通过如下方式实现:
利用初始数据集中各类型的数据样本所对应的预设算法,确定初始数据集中各类型的数据样本的特征值。
本实施例中,计算机设备利用初始数据集中各类型的数据样本所对应的预设算法,确定初始数据集中各类型的数据样本的特征值。其中,预设算法包括最大相关最小冗余算法、统计方法和互信息法中的至少一种算法。具体地,计算机设备利用最大相关最小冗余算法,确定第二多模态数据样本中基础属性数据样本的第一特征值;利用统计方法,确定第二多模态数据样本中行为埋点数据样本的第二特征值;利用互信息法,确定第二多模态数据样本中交互数据样本的第三特征值。
首先,计算机设备使用最大相关最小冗余算法(mRMR算法)确定基础属性数据样本中与预设的客户分类类型的相关性较强的第一特征值mRMR。需要说明的是,确定的mRMR值的个数与第二多模态数据样本中基础属性数据样本的属性个数和预设的客户分类类型个数相关。例如,第二多模态数据样本中基础属性数据样本包括100个属性(即j=100),预设的客户分类类型有6个(A类型~F类型),则会确定600个第一特征值mRMR,例如属性1和A类型的mRMR、属性60和F类型的mRMR,即每个属性j和每个预设的客户分类类型两两之间的第一特征值mRMR。第一特征值mRMR越大,说明该属性值对该分类的影响越高。mRMR的计算方法如下式(2)所示。
Figure BDA0003797402900000151
式(2)中,s表示训练样本集,c表示预设的客户分类类型,在本实施例中c取1~6,当c=1时,表示A类型,当c=6时,表示F类型。fk和fq均表示基础属性数据样本的各属性j,k和q取值1~j,k≠j,I(fi;c)是fi与c的互信息,I(fi;fj)是
Figure BDA0003797402900000152
间的相关性度量。互信息的计算公式如下式(3)所示。
Figure BDA0003797402900000153
式(3)中,两个随机变量X、Y的互信息定义为X、Y的联合概率分布和各自独立分布乘积的相对熵,用I(X,Y)表示。互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说一个随机变量由于已知另一个随机变量而减少的不确定性。式(3)中,p(x,y)表示x,y同时出现的概率。p(x)表示x单独出现的概率。P(y)表示y单独出现的概率。
其次,计算机设备利用统计方法,确定第二多模态数据样本中行为埋点数据样本的第二特征值。例如,计算机设备确定预设周期内各客户的行为次数、频率、日均参与情况、日均核销情况等等。可以理解的是,计算机设备可以按需统计重要的行为作为第二特征值,并按照“客户-行为-第二特征值”的对应关系进行存储。
最后,计算机设备利用互信息法,确定第二多模态数据样本中交互数据样本的第三特征值I(U;C),I(U;C)衡量的是词项U对于类别C不确定性的减少程度,I(U;C)的值越大,说明该词项U越重要。换句话说,计算机设备确定在交互数据中对于客户分类影响较大的词项。l(U;C)的计算方法如下式(4)所示。
Figure BDA0003797402900000161
式(4)中,N11表示包含词项U且属于预设的客户分类类型C的文档数;N10表示包含词项U且不属于预设的客户分类类型C的文档数;N01表示不包含词项U且属于类预设的客户分类类型C的文档数;N00表示不包含词项U且不属于预设的客户分类类型C的文档数;N=N00+N01+N10+N11是所有文档的数目。c表示预设的客户分类类型,在本实施例中C取1~6,当C=1时,表示A类型,当C=6时,表示F类型。
需要说明的是,计算机设备在确定第三特征值之前,首先需要确定交互数据中包括的词项,本实施例对如何确定交互数据中包括的词项的方式不做限制。
本实施例利用初始数据集中各类型的数据样本所对应的预设算法,确定初始数据集中各类型的数据样本的特征值,由于各类型的数据样本所对应的预设算法不同,因此确定出的初始数据集中各类型的数据样本的特征值更准确,并且保留了各类型的数据特征。
图10为本申请实施例中另一种确定训练数据集的流程示意图,参照图10,本实施例涉及的是如何确定训练数据集的一种可选的实现方式。在上述实施例的基础上,上述的S903,根据各第二多模态数据样本所对应的特征值,确定训练数据集,包括如下步骤:
S1001,根据初始数据集中各类型的数据样本的特征值,对初始数据集中各类型的数据样本进行筛选,得到初始数据集中各类型的数据样本对应的数据集。
在本实施例中,计算机设备根据初始数据集中各类型的数据样本的特征值,对初始数据集中各类型的数据样本进行筛选,得到初始数据集中各类型的数据样本对应的数据集。具体地,初始数据集中各类型的数据样本对应的数据集可以包括第一数据集、第二数据集和第三数据集。计算机设备对第一特征值进行排序,对初始数据集中的基础属性数据样本进行筛选,例如筛选排序在前50%的第一特征值所对应的基础属性数据样本作为第一数据集。计算机设备对第二特征值进行筛选,例如筛选满足预设条件的第二特征值所对应的交互数据样本作为第二数据集,预设条件可以是与用户活跃情况相关的行为,预设条件也可以是用户设定的条件等等。计算机设备对第三特征值进行排序,对初始数据集中的交互数据样本进行筛选,例如筛选排序在前40%的第三特征值所对应的交互数据样本作为第三数据集。
S1002,根据初始数据集中各类型的数据样本对应的数据集,确定训练数据集。
在本实施例中,计算机设备根据初始数据集中各类型的数据样本对应的数据集,确定训练数据集。一种可以实现的方式是:计算机设备根据第一数据集、第二数据集和第三数据集,对第一数据集、第二数据集和第三数据集取交集,确定三个数据集均出现的各个客户,从而交集客户所对应的第一数据集、第二数据集和第三数据集就是训练数据集。例如,第一数据集包括客户1~客户50的基础属性数据样本,第一数据集包括客户1~客户60的行为埋点数据样本,第三数据集包括客户10~客户70的行为埋点数据样本,则计算机设备确定将客户10~客户50所对应的数据集作为训练数据集。
本实施例根据初始数据集中各类型的数据样本的特征值,对初始数据集中各类型的数据样本进行筛选,得到初始数据集中各类型的数据样本对应的数据集,进而根据初始数据集中各类型的数据样本对应的数据集,确定训练数据集。由于本申请中还需要根据初始数据集中各类型的数据样本的特征值,对初始数据集中各类型的数据样本进行筛选,因此得到的训练样本集过滤了初始样本集中与分类相关性较小的数据样本,进而提高了目标分类模型的精度,从而提高了客户分类的准确性。
图11为本申请实施例中一种得到预处理后的第二多模态数据样本的流程示意图,参照图11,本实施例涉及的是如何得到预处理后的第二多模态数据样本的一种可选的实现方式。在上述实施例的基础上,上述的S301,对不同客户的第一多模态数据样本进行预处理,得到预处理后的第二多模态数据样本,包括如下步骤:
S1102,对第一多模态数据样本中的基础属性数据样本进行归一化处理,得到归一化处理后的基础属性数据样本。
在本实施例中,计算机设备利用Z分数(z-score)的方法,对第一多模态数据样本中的基础属性数据样本进行归一化处理,得到归一化处理后的基础属性数据样本,归一化处理如下式(5)所示。
Figure BDA0003797402900000171
其中,xij为基础属性数据样本中客户i的属性j的值,
Figure BDA0003797402900000172
为归一化处理后的客户i的属性j的值,xj为基础属性数据样本中所有客户的属性j的平均值,sj为基础属性数据样本中所有客户的属性j的标准差。
S1102,对多模态数据样本中的行为埋点数据样本进行清洗处理,得到第一行为埋点数据样本。
在本实施例中,清洗处理包括时间戳转化处理、异常数据剔除处理等。计算机设备对多模态数据样本中的行为埋点数据样本进行时间戳转化处理,并剔除其中的异常数据,例如规定日期范围以外的数据等等,以得到第一行为埋点数据样本。
S1103,对多模态数据样本中的交互数据样本进行分词处理,得到第一行交互数据样本。
在本实施例中,计算机设备利用语音转文本工具,将多模态数据样本中的语音均转为文本。进一步地,计算机设备利用jieba分词,剔除多模态数据样本中的交互数据样本中的停用词,以得到多模态数据样本中的交互数据样本所对应的词项。其中,停用词包括副词、形容词及其语气连接词。更进一步地,计算机设备还可以对确定的词项进行词性标注,例如词项1的词性为动词,词项2的词性为名词。
本实施例对第一多模态数据样本中的基础属性数据样本进行归一化处理,得到归一化处理后的基础属性数据样本,并对多模态数据样本中的行为埋点数据样本进行清洗处理,得到第一行为埋点数据样本,对多模态数据样本中的交互数据样本进行分词处理,得到第一行交互数据样本。由于对不同类型的第一多模态数据样本进行不同的预处理,因此规范了训练数据集的格式,提高了目标分类模型的训练速度,减少了确定目标分类模型中的时间开销。
图12为本申请中进行客户分类的原理示意图,如图12所示,计算机设备利用训练数据集中的基础属性数据样本对初始模型1进行训练,得到训练数据集中的基础属性数据样本对应的中间模型1(DNN1);利用训练数据集中的行为埋点数据样本对初始模型2进行训练,得到训练数据集中的行为埋点数据样本对应的中间模型2(DNN2);利用训练数据集中的交互数据样本对初始模型3进行训练,得到训练数据集中的交互数据样本对应的中间模型3(DNN3)。
进一步地,计算机设备确定DNN1的目标权重系数α、DNN2的目标权重系数β和DNN3的目标权重系数γ,以确定目标分类模型。确定目标分类模型的过程可参考图8,此处不再赘述。
更进一步地,计算机设备获取待分类客户的多模态数据,并根据待分类客户的多模态数据和目标分类模型,确定待分类客户的类型。其中,待分类客户的类型实际是一个预测值,是预设的客户分类类型中的一种,多模态数据报考基础属性数据、行为埋点数据和交互数据中的至少一种。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的客户分类方法的客户分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个客户分类装置实施例中的具体限定可以参见上文中对于客户分类方法的限定,在此不再赘述。
图13为本申请实施例中客户分类装置的结构框图,如图13所示,在本申请实施例中提供了一种客户分类装置1300,包括:第一确定模块1301、获取模块1302和第二确定模块1303,其中:
第一确定模块1301,用于根据不同客户的第一多模态数据样本,确定目标分类模型,其中,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型。
获取模块1302,用于获取待分类客户的多模态数据。
第二确定模块1303,用于根据待分类客户的多模态数据和目标分类模型,确定待分类客户的类型。
本申请提供的客户分类装置,根据不同客户的第一多模态数据样本,确定目标分类模型,其中,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,进而获取待分类客户的多模态数据,从而根据待分类客户的多模态数据和目标分类模型,确定待分类客户的类型。由于目标分类模型是根据不同客户的第一多模态数据样本确定的,并且,第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型,因此,目标分类模型考虑了客户各种类型的多模态数据,也就是说,目标分类模型能够在确定待分类客户的类型时,能够结合不同模态的数据,从而提高客户分类的准确性。进一步地,较传统客户分类方式中仅通过人工判断,本申请中根据分类客户的多模态数据和目标分类模型确定的待分类客户的类型准确性较高,提高了客户分类的准确性。
可选的,第一确定模块1301包括:
预处理单元,用于对不同客户的第一多模态数据样本进行预处理,得到预处理后的第二多模态数据样本。
第一确定单元,用于根据第二多模态数据样本和预设的客户分类类型,确定训练数据集。
第二确定单元,用于根据训练数据集中各数据样本类型以及各数据样本类型对应的初始模型,确定各数据样本类型对应的中间模型。
第三确定单元,用于根据各数据样本类型对应的中间模型以及训练数据集,确定目标分类模型。
可选的,第三确定单元包括:
抽样子单元,用于在对各数据样本类型对应的中间模型进行各次测试时,对训练数据集进行N次随机抽样,得到各随机抽样下的N个随机数据集,其中,N为大于1的整数。
第一确定子单元,用于根据各中间模型以及各次测试对应的N个随机数据集,确定各次测试下各中间模型的权重系数。
第二确定子单元,用于根据各中间模型以及各次测试下各中间模型的权重系数,确定目标分类模型。
可选的,第一确定子单元,具体用于根据各次测试对应的N个随机数据集和各中间模型,得到各次测试下各中间模型对应的N个性能参数,其中,N个性能参数包括利用各随机数据集测试时,各中间模型对应的各性能参数;根据各次测试下各中间模型对应的N个性能参数,确定各次测试下各中间模型的权重系数。
可选的,第一确定子单元,还具体用于将各次测试下各中间模型对应的第一数量除以N得到的商值,作为各次测试下各中间模型的权重系数,其中,各次测试下各中间模型对应的第一数量等于利用各随机数据集测试时,各中间模型对应的各性能参数是所有中间模型对应的各性能参数中最大值的次数总和;根据各次测试下各中间模型的权重系数,确定各次测试下各中间模型的权重系数。
可选的,第二确定子单元,还用于将各次测试下各中间模型的权重系数的平均值作为各中间模型的目标权重系数;根据各中间模型和各中间模型的目标权重系数,得到目标分类模型。
可选的,第一确定单元,具体用于根据第二多模态数据样本和预设的客户分类类型,确定初始数据集;确定初始数据集中各第二多模态数据样本所对应的特征值;根据各第二多模态数据样本所对应的特征值,确定训练数据集。
可选的,第一确定单元,还用于利用初始数据集中各类型的数据样本所对应的预设算法,确定初始数据集中各类型的数据样本的特征值。
可选的,第一确定单元,还用于根据初始数据集中各类型的数据样本的特征值,对初始数据集中各类型的数据样本进行筛选,得到初始数据集中各类型的数据样本对应的数据集;根据初始数据集中各类型的数据样本对应的数据集,确定训练数据集。
可选的,预处理单元包括:
归一化子单元,用于对第一多模态数据样本中的基础属性数据样本进行归一化处理,得到归一化处理后的基础属性数据样本。
清洗子单元,用于对多模态数据样本中的行为埋点数据样本进行清洗处理,得到第一行为埋点数据样本。
分词子单元,用于对多模态数据样本中的交互数据样本进行分词处理,得到第一行交互数据样本。
上述客户分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (14)

1.一种客户分类方法,其特征在于,所述方法包括:
根据不同客户的第一多模态数据样本,确定目标分类模型,其中,所述第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型;
获取待分类客户的多模态数据;
根据所述待分类客户的多模态数据和所述目标分类模型,确定所述待分类客户的类型。
2.根据权利要求1所述的方法,其特征在于,所述根据不同客户的第一多模态数据样本,确定目标分类模型,包括:
对所述不同客户的第一多模态数据样本进行预处理,得到预处理后的第二多模态数据样本;
根据所述第二多模态数据样本和预设的客户分类类型,确定训练数据集;
根据所述训练数据集中各数据样本类型以及各所述数据样本类型对应的初始模型,确定各所述数据样本类型对应的中间模型;
根据各所述数据样本类型对应的中间模型以及所述训练数据集,确定所述目标分类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述数据样本类型对应的中间模型以及所述训练数据集,确定所述目标分类模型,包括:
在对各所述数据样本类型对应的中间模型进行各次测试时,对所述训练数据集进行N次随机抽样,得到各所述随机抽样下的N个随机数据集,其中,N为大于1的整数;
根据各所述中间模型以及各次测试对应的N个随机数据集,确定各次测试下各所述中间模型的权重系数;
根据各所述中间模型以及各次测试下各所述中间模型的权重系数,确定所述目标分类模型。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述中间模型以及各次测试对应的N个随机数据集,确定各次测试下各所述中间模型的权重系数,包括:
根据各次测试对应的N个随机数据集和各所述中间模型,得到各次测试下各所述中间模型对应的N个性能参数,其中,所述N个性能参数包括利用各所述随机数据集测试时,各所述中间模型对应的各性能参数;
根据各次测试下各所述中间模型对应的N个性能参数,确定各次测试下各所述中间模型的权重系数。
5.根据权利要求4所述的方法,其特征在于,所述根据各次测试下各所述中间模型对应的N个性能参数,确定各次测试下各所述中间模型的权重系数,包括:
将各次测试下各所述中间模型对应的第一数量除以N得到的商值,作为各次测试下各所述中间模型的权重系数,其中,各次测试下各所述中间模型对应的第一数量等于利用各所述随机数据集测试时,各所述中间模型对应的各性能参数是所有中间模型对应的各性能参数中最大值的次数总和。
6.根据权利要求3-5任意一项所述的方法,其特征在于,所述根据各所述中间模型以及各次测试下各所述中间模型的权重系数,确定所述目标分类模型,包括:
将各次测试下各所述中间模型的权重系数的平均值作为各所述中间模型的目标权重系数;
根据各所述中间模型和各所述中间模型的目标权重系数,得到所述目标分类模型。
7.根据权利要求2所述的方法,其特征在于,所述根据所述第二多模态数据样本和预设的客户分类类型,确定训练数据集,包括:
根据所述第二多模态数据样本和预设的客户分类类型,确定初始数据集;
确定所述初始数据集中各所述第二多模态数据样本所对应的特征值;
根据各所述第二多模态数据样本所对应的特征值,确定所述训练数据集。
8.根据权利要求7所述的方法,其特征在于,所述确定所述初始数据集中各所述第二多模态数据样本所对应的特征值,包括:
利用所述初始数据集中各类型的数据样本所对应的预设算法,确定所述初始数据集中各类型的数据样本的特征值。
9.根据权利要求8所述的方法,其特征在于,所述根据各所述第二多模态数据样本所对应的特征值,确定所述训练数据集,包括:
根据所述初始数据集中各类型的数据样本的特征值,对所述初始数据集中各类型的数据样本进行筛选,得到所述初始数据集中各类型的数据样本对应的数据集;
根据所述初始数据集中各类型的数据样本对应的数据集,确定所述训练数据集。
10.根据权利要求2所述的方法,其特征在于,所述对所述不同客户的第一多模态数据样本进行预处理,得到预处理后的第二多模态数据样本,包括:
对所述第一多模态数据样本中的基础属性数据样本进行归一化处理,得到归一化处理后的基础属性数据样本;
对所述多模态数据样本中的行为埋点数据样本进行清洗处理,得到所述第一行为埋点数据样本;
对所述多模态数据样本中的交互数据样本进行分词处理,得到所述第一行交互数据样本。
11.一种客户分类装置,其特征在于,所述装置包括:
第一确定模块,用于根据不同客户的第一多模态数据样本,确定目标分类模型,其中,所述第一多模态数据样本包括基础属性数据样本、行为埋点数据样本和交互数据样本中的至少一种数据样本类型;
获取模块,用于获取待分类客户的多模态数据;
第二确定模块,用于根据所述待分类客户的多模态数据和所述目标分类模型,确定所述待分类客户的类型。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
CN202210975893.6A 2022-08-15 2022-08-15 客户分类方法、装置、计算机设备和存储介质 Pending CN115239355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210975893.6A CN115239355A (zh) 2022-08-15 2022-08-15 客户分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210975893.6A CN115239355A (zh) 2022-08-15 2022-08-15 客户分类方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115239355A true CN115239355A (zh) 2022-10-25

Family

ID=83678805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210975893.6A Pending CN115239355A (zh) 2022-08-15 2022-08-15 客户分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115239355A (zh)

Similar Documents

Publication Publication Date Title
Anastasopoulos et al. Machine learning for public administration research, with application to organizational reputation
WO2022161202A1 (zh) 多媒体资源分类模型训练方法和多媒体资源推荐方法
CN111814842B (zh) 基于多通路图卷积神经网络的对象分类方法及装置
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN111191092A (zh) 画像数据处理方法和画像模型训练方法
CN110674636B (zh) 一种用电行为分析方法
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
CN113987126A (zh) 基于知识图谱的检索方法及装置
Srinivasa Rao et al. Fault signal recognition in power distribution system using deep belief network
CN117473993A (zh) 虚拟资源获取行为预测方法、装置、设备和存储介质
Kanchinadam et al. Graph neural networks to predict customer satisfaction following interactions with a corporate call center
US20220262268A1 (en) Computer implemented description analysis for topic-domain mapping
CN116188174A (zh) 基于模块度和互信息的保险欺诈检测方法及系统
CN115204984A (zh) 业务产品推送方法、装置、计算机设备和存储介质
CN115239355A (zh) 客户分类方法、装置、计算机设备和存储介质
CN110580261B (zh) 针对高科技公司的深度技术追踪方法
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
Rong et al. Exploring network behavior using cluster analysis
Sindhu et al. Aspect based opinion mining leveraging weighted bigru and CNN module in parallel
Shchepina et al. Modeling the trajectories of interests and preferences of users in digital social systems
CN110084303B (zh) 一种基于cnn与rf的老年人平衡能力特征选择方法
CN113901223B (zh) 企业分类模型的生成方法、装置、计算机设备、存储介质
CN114819691A (zh) 信息匹配方法、装置、服务器、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination