CN112507116A

CN112507116A - 基于客户应答语料的客户画像方法及其相关设备

Info

Publication number: CN112507116A
Application number: CN202011487411.XA
Authority: CN
Inventors: 孙向欣
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-16
Anticipated expiration: 2040-12-16
Also published as: CN112507116B; WO2022126963A1

Abstract

本申请实施例属于大数据领域，应用于智慧社区领域中，涉及一种基于客户应答语料的客户画像方法及其相关设备，包括对客户应答语料进行分词操作并调整，获得目标关键词；基于目标关键词所构建的特征字典对客户应答语料进行向量转换获得语料特征向量；基于预设策略处理真实值和意图标签，获得真实值衍生变量；基于单变量分析方式筛选语料衍生变量和真实值衍生变量，获得目标变量；基于目标变量调整预设第一画模型，获得第二画像模型,基于目标变量对应的变量值训练第二画像模型,获得目标画像模型；将接收的待识别变量的值输入目标画像模型中，获得客户画像。目标画像模型可存储于区块链中，本申请生成更加精准的客户画像。

Description

基于客户应答语料的客户画像方法及其相关设备

技术领域

本申请涉及大数据技术领域，尤其涉及基于客户应答语料的客户画像方法及其相关设备。

背景技术

随着计算机技术的不断革新和发展，计算机技术已经广泛的应用于各行各业中。其中，大数据技术占据了重要的位置，应用极为广泛，尤其主要应用于客户行为分析、客户预测以及客户画像中。对于客户画像来说，需要运用到海量的客户记录数据，计算机通过客户画像模型学习海量的客户记录数据，来更加的了解客户。

目前，对于客户画像模型的训练，大多数是简单的提取少部分显著的标签，用于进行后续客户画像模型的学习。这种方式只运用了海量的客户记录数据中非常有限的一部分数据，导致训练出的客户画像模型所输出的客户画像准确度低，难以进行后续的再利用，造成了许多的不便。

发明内容

本申请实施例的目的在于提出一种基于客户应答语料的客户画像方法、装置、计算机设备及存储介质，能够获得更加精准的客户画像。

为了解决上述技术问题，本申请实施例提供一种基于客户应答语料的客户画像方法，采用了如下所述的技术方案：

一种基于客户应答语料的客户画像方法，包括下述步骤：

接收客户应答语料、意图标签和真实值，其中，所述客户应答语料和所述意图标签具有一一对应的映射关系，所述意图标签和所述真实值具有一一对应的映射关系；

对所述客户应答语料进行分词操作，获得目标词语，对所述目标词语进行调整，获得目标关键词；

基于所述目标关键词构建特征字典，并基于所述特征字典对所述客户应答语料进行向量转换，获得语料特征向量，将所述语料特征向量中的每一维度的向量值，分别作为对应维度的预设的语料衍生变量的变量值；

基于不同的预设策略对所述真实值和所述意图标签进行变量确定操作，获得真实值衍生变量；

将所述语料衍生变量和所述真实值衍生变量作为自变量，基于预设的单变量分析方式对所述自变量进行筛选，获得目标变量；

基于所述目标变量调整预设的第一画像模型，获得第二画像模型,并基于所述目标变量所对应的变量值训练所述第二画像模型,获得目标画像模型；

接收待识别变量的值，将所述待识别变量的值输入至所述目标画像模型中，获得客户画像。

进一步的，所述对所述客户应答语料进行分词操作，获得目标词语，对所述目标词语进行调整，获得目标关键词的步骤包括：

基于所述客户应答语料调整预设的初始分词词典，获得客户应答分词词典；

基于所述客户应答分词词典分别对每种所述意图标签下的客户应答语料进行分词，获得目标词语；

基于预设的关键词提取方式分别对每种所述意图标签下的所述目标词语进行提取，获得初始关键词；

对每种所述意图标签下的初始关键词进行筛选，获得所述目标关键词。

进一步的，所述基于所述客户应答语料调整预设的初始分词词典，获得客户应答分词词典的步骤包括：

识别相同意图标签下的客户应答语料；

基于预设的初始分词词典对当前的意图标签下的客户应答语料进行分词，获得第一特征词；

基于所述关键词提取方式对所述第一特征词进行提取，获得第二特征词；

调整所述第二特征词，获得特有词；

将所述特有词添加入所述初始分词词典中，获得所述客户应答分词词典。

进一步的，所述基于预设的单变量分析方式对所述自变量进行筛选，获得目标变量的步骤包括：

计算每一个自变量的缺失率，删除缺失率大于预设的缺失阈值的自变量，获得初始自变量；

计算所述初始自变量之间的相关系数，根据相关系数生成相关自变量集合；

从每个所述相关自变量集合中随机选择一个初始自变量作为所述目标变量。

进一步的，所述计算所述初始自变量之间的相关系数的步骤包括：

所述相关系数的特征为：

其中，ρ_X,Y表示所述相关系数，X和Y表示不同的初始自变量，cov表示协方差，E表示期望，u_x表示X的期望,u_y表示Y的期望。

进一步的，所述基于所述目标变量所对应的真实值训练所述第二画像模型,获得目标画像模型的步骤还包括：

基于所述目标变量所对应的真实值训练所述第二画像模型,获得初始画像模型；

基于所述目标变量，接收下一时间段中所述目标变量所对应的真实值，作为跨期样本；

通过所述跨期样本计算所述初始画像模型中每个目标变量在所述跨期样本上的稳定度；

基于所述稳定度调整所述目标变量，获得调整后的目标变量；

基于所述调整后的目标变量调整所述初始画像模型，获得调整后的初始画像模型，并基于所述调整后的目标变量所对应的真实值训练所述调整后的初始画像模型，获得所述目标画像模型。

进一步的，所述真实值包括违约真实值，所述违约真实值与所述意图标签为一一对应的映射关系，所述基于不同的预设策略对所述真实值和所述意图标签进行变量确定操作，获得真实值衍生变量的步骤包括：

分别计算在每种意图标签中，所述违约真实值的数量与客户数量的比率，获得违约比率；

将大于预先计算的总违约率的违约比率作为显著违约率，并将所述显著违约率对应的意图标签作为显著标签；

基于所述显著标签衍生拒绝还款次数变量，并基于所述意图标签分别衍生说谎次数变量和拒接电话次数变量；

将所述拒绝还款次数变量、说谎次数变量和拒接电话次数变量作为所述真实值衍生变量。

为了解决上述技术问题，本申请实施例还提供一种基于客户应答语料的客户画像装置，采用了如下所述的技术方案：

一种基于客户应答语料的客户画像装置，包括：

接收模块，用于接收客户应答语料、意图标签和真实值，其中，所述客户应答语料和所述意图标签具有一一对应的映射关系，所述意图标签和所述真实值具有一一对应的映射关系；

分词模块，用于对所述客户应答语料进行分词操作，获得目标词语，对所述目标词语进行调整，获得目标关键词；

构建模块，用于基于所述目标关键词构建特征字典，并基于所述特征字典对所述客户应答语料进行向量转换，获得语料特征向量，将所述语料特征向量中的每一维度的向量值，分别作为对应维度的预设的语料衍生变量的变量值；

确定模块，用于基于不同的预设策略对所述真实值和所述意图标签进行变量确定操作，获得真实值衍生变量；

筛选模块，用于将所述语料衍生变量和所述真实值衍生变量作为自变量，基于预设的单变量分析方式对所述自变量进行筛选，获得目标变量；

训练模块，用于基于所述目标变量调整预设的第一画像模型，获得第二画像模型,并基于所述目标变量所对应的变量值训练所述第二画像模型,获得目标画像模型；以及

输入模块，用于接收待识别变量的值，将所述待识别变量的值输入至所述目标画像模型中，获得客户画像。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于客户应答语料的客户画像方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于客户应答语料的客户画像方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请有效运用了海量的历史的客户应答语料和意图标签，基于历史的客户应答语料生成自变量，并通过对自变量的调整，实现筛选出与客户画像的相关性高的变量，进而实现通过输入最终的目标画像模型中少量的变量的值，而能够获得更加精准的客户画像。输出的客户画像可以明确地将客户的关键点展示出来，实现获得表现更佳的客户画像，进而可以通过客户画像进行更加合理的后续配置。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于客户应答语料的客户画像方法的一个实施例的流程图；

图3是根据本申请的基于客户应答语料的客户画像装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、基于客户应答语料的客户画像装置；301、接收模块；302、分词模块；303、构建模块；304、确定模块；305、筛选模块；306、训练模块；307、输入模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于客户应答语料的客户画像方法一般由服务器/终端设备执行，相应地，基于客户应答语料的客户画像装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于客户应答语料的客户画像方法的一个实施例的流程图。所述的基于客户应答语料的客户画像方法，包括以下步骤：

S1：接收客户应答语料、意图标签和真实值，其中，所述客户应答语料和所述意图标签具有一一对应的映射关系，所述意图标签和所述真实值具有一一对应的映射关系。

在本实施例中，客户应答语料为客户在问答对话中的历史应答语料。本申请可以提取客户在过去一段时间(如近六个月)之内的客户应答语料。通过接收客户应答语料、意图标签和真实值，便于后续的数据处理。意图标签指根据客户应答语料而标记的客户的意图，其中，意图标签的生成可以是通过预先训练的意图分类模型生成的，也可以是人工标注的。在催促客户还贷的场景中，意图标签可以为：有还贷意愿、已还贷以及无还贷意愿等。真实值指客户的实际动作，比如，在催促客户还贷的场景中，真实值为客户是否还贷。在电话通话的场景中，真实值为客户是否拒绝电话，其中，拒接电话时，对应的客户应答语料为无，意图标签可以为客户拒接电话或者为无。

在本实施例中，基于客户应答语料的客户画像方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收客户应答语料、意图标签和真实值。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

S2：对所述客户应答语料进行分词操作，获得目标词语，对所述目标词语进行调整，获得目标关键词。

在本实施例中，通过对客户应答语料进行分词，实现对客户应答语料的拆分，便于进一步的处理。通过对拆分后的客户应答语料进行调整，获得目标关键词。

具体的，所述对所述客户应答语料进行分词操作，获得目标词语，对所述目标词语进行调整，获得目标关键词的步骤包括：

在本实施例中，本申请中的初始分词词典为结巴(jieba)默认词典，可以直接在开源的网站中获取。本申请中预设的关键词提取方式为TF-IDF(term frequency–inversedocument frequency，词频-逆向文件频率)方法。基于所述客户应答语料调整预设的初始分词词典，获得客户应答分词词典，使得客户应答分词词典中具有客户应答语料所对应的场景的特征。基于所述客户应答分词词典对所述客户应答语料进行分词，减少词汇分错的现象，实现获得较好的分词结果。再利用TF-IDF(term frequency–inverse documentfrequency，词频-逆向文件频率)方法，对每一种意图标签下的目标词语进行提取，再对提取后的目标词语进行筛选。具体的筛选方式可以为：每一种意图标签下筛选出重要性最高的前n个初始关键词，作为所述目标关键词，其中，重要性由TF-IDF方法直接输出。TF-IDF用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。本申请的n设置为50。当意图标签为50种时，最终获得共计2500个目标关键词。在后续的生成特征字典的过程中，基于目标关键词和预设的词语占位符(nan)，生成特征字典，即特征字典由共计2501个词所组成。对提取后的目标词语进行筛选。具体的筛选方式还可以是：识别不同的所述初始关键词的数量，并基于所述数量计算出每种初始关键词的频率；基于所述频率对所述初始关键词进行排序；删除词频低于预设阈值的初始关键词，获得目标关键词。

其中，所述基于所述客户应答语料调整预设的初始分词词典，获得客户应答分词词典的步骤包括：

识别相同意图标签下的客户应答语料；

调整所述第二特征词，获得特有词；

在本实施例中，在AI催收场景中，特有词指催收特有词。催收特有词的抽取方法为，将生产上AI催收产生的客户语料，按照意图标签的分类整理在一起。格式如表2：

表2

在整理成以上格式之后，先利用jieba默认词典对每一个意图标签下的客户应答语料(也可以称为客户话术)进行分词，再利用TF-IDF方法，对每一个意图标签下的特征词(也可以称为关键特征词)进行提取。如在意图标签1下的特征词为：我存、上、够、上面、已经、入…根据以上提取的特征词，根据意图标签1的催收业务含义，人工根据场景情况将标签下的特征词进行组合，生成特有词：存上、存够、存上面、存入、已经存…。将特有词加入jieba默认词典，生成客户应答分词词典。根据客户应答分词词典，在后续对客户应答语料进行分词操作时，遇到特有词时，会根据特有词优先进行分词，当没有找到所述特有词时，会根据客户应答分词词典进行分词。

默认的通用的结巴(jieba)默认词典，会使的不同场景中的一些特有的词汇分错，导致在后续特征提取时，提取的特征不具有代表性和适用性，不能很好的用于后续操作。例如：下表1为在AI催收场景中的分词情况：

表1

按照默认的通用jieba分词词典进行分词操作时，根据分词结果，能提取的特征为：我存、上、不了、了。但是将这样的特征输送给下游服务(如AI催收员)，下游服务并不能直观地理解这些特征，并用于实务中。但是按照客户应答分词词典进行分词操作后，能提取的特征为：我、存上了、存不了、了，将“存上了”、“存不了”这样的符合场景特征的词输送给下游服务，可以帮助下游服务更直观的了解客户的情况，帮助下游服务做更优的策略决定。为了能够更好的实现分词，本申请在现有jieba分词词典的基础上，补充对应场景的特有词，从而建立客户应答分词词典。

S3：基于所述目标关键词构建特征字典，并基于所述特征字典对所述客户应答语料进行向量转换，获得语料特征向量，将所述语料特征向量中的每一维度的向量值，分别作为对应维度的预设的语料衍生变量的变量值。

在本实施例中，本申请将语料特征向量中的每一维度的向量值，分别作为对应维度的预设的语料衍生变量的变量值，实现获得更加丰富的变量，且通过上述分词处理等步骤所确定出的变量值也更加的精准。基于目标关键词和预设的词语占位符(nan)，组成特征字典。将不在目标关键词中的客户话术中的词，替换成词语占位符(nan)。根据特征词典对客户应答语料进行one-hot-encoding(独热编码)，创建语料特征向量(即客户话术特征)。在催收场景中，特征词典的形式如下表3：

词ID	词
		0	存上
1	存够
		2	存入
3	已经存
		4	存好
5	没钱
		6	没工资
7	困难
		8	没办法
9	还不上
		…	…
2500	nan

表3

根据以上特征字典，每一条客户应答语料都会转化为2501维的语料特征向量。特征字典中的词ID，决定在向量转换过程中，不同的维度所对应的词语。用one-hot-encoding(独热编码)方法很容易恢复对客户违约有显著作用的特征的文字含义，从而有利于建立更加易懂实用的用户画像，当然，本申请也可以根据实际需要，选择其他的向量转换方式，适用即可。具体的语料特征向量举例如下：本申请中“存上”设置为0，则“存上”在词向量的第一个位置，即词向量的第一个维度。当客户应答语料的分词结果中存在“存上”这个词时，转换生成的客户应答语料中的第一个维度的值为“1”,否则为0；而词向量第二个维度是“存够”,如果客户应答语料的分词结果命中“存够”，则语料特征向量的第二维为1，否则为0，以此类推。举例如下表4所示：

表4

S4：基于不同的预设策略对所述真实值和所述意图标签进行变量确定操作，获得真实值衍生变量。

在本实施例中，通过预设的不同的策略，确定出真实值衍生变量，实现对变量的扩充，便于后续待筛选的变量更加的丰富。

具体的，所述真实值包括违约真实值，所述违约真实值与所述意图标签为一一对应的映射关系，所述基于不同的预设策略对所述真实值和所述意图标签进行变量确定操作，获得真实值衍生变量的步骤包括：

将大于预先计算的总违约率的违约比率作为显著违约率，将所述显著违约率对应的意图标签作为显著标签；

在本实施例中，违约真实值指在催收场景中，客户未按照约定的期限进行还款；或者，在物流场景中，客户未按照约定的日期发货或发货质量低于约定的质量等；上述情况均属于该客户违约，若客户违约，则对应产生该违约真实值，用以标记客户已违约。本申请提取客户在过去一段时间内的意图标签。客户在一次产生的意图标签有一定的偶然性，而利用客户在过去一段时间中产生的还款意图标签，能够获取客户更加全面的信息。如客户在当期催收中表示已经存款，但是在前几个月一直质疑是否AI拨打，这很可能表示这位客户已经识别出AI拨打，因此在敷衍。针对这部分信息，一方面，对于催收产生的意图标签与客户违约率进行相关分析，根据相关分析，衍生可能对客户违约预测有显著作用的标签。其中，违约率的计算方法为：统计每一个意图标签下，实际发生违约的客户数量与该标签的总数量的比率。如：催收时输出意图标签-拒绝还款的客户数是100人，而这100人中，实际发生违约的是50人，那么在该意图标签下的违约率为50％。经过这样的相关分析，有些意图标签下的违约率远远高于或者低于总体客户违约率，那么认为这些标签对于预测客户违约有显著作用。基于这些标签，可以衍生一系列变量。如拒绝还款这一标签的违约率要远高于总体客户违约率，那么可以衍生出变量：近1个月拒绝还款次数、近3个月拒绝还款次数、近6个月拒绝还款次数等。提取客户在过去一段时间内的意图标签和客户在过去一段时间内的真实还款表现。将在催收过程中与真实还款表现不一致的客户标记出来。衍生出变量。如：客户在催收时承诺还款，但是实际出现了违约，证明客户在催收时说了谎。基于此可以衍生出的变量如：近1个月承诺还款但违约的次数，近3个月承诺还款但违约的次数，近6个月承诺还款但违约的次数等。提取客户在过去一段时间内的AI催收电话接听情况。创建AI催收电话接听情况的衍生变量。如连续三个月未接听电话的次数等。

S5：将所述语料衍生变量和所述真实值衍生变量作为自变量，基于预设的单变量分析方式对所述自变量进行筛选，获得目标变量。

在本实施例中，对所述自变量进行单变量分析和筛选，获得目标变量。在将以上衍生变量处理好之后，作为自变量，客户是否违约作为因变量，用lightgbm方法进行建模。并对模型进行验证和追踪测试。将对客户违约有显著并稳定作用的变量筛选出来，用于用户画像变量的稳定、标准化输出。

具体的，所述基于预设的单变量分析方式对所述自变量进行筛选，获得目标变量的步骤包括：

在本实施例中，缺失率指变量所对应的变量值的缺失情况。对自变量进行单变量分析，计算每一个变量的缺失率。将缺失率大于预设阈值的自变量删除。本申请中缺失率为95％。如某一自变量x_n的缺失率达到95％，则删除该自变量。计算每一个自变量与其他自变量的相关系数，删除与其他自变量相关性很高的自变量。如自变量：x₁与x₂、x₅…x₂₀₀的相关系数都大于0.95,则任选其中一个自变量作为目标变量，比如只保留x₁。通过筛选有利于减少自变量的数量，去除多于的自变量。

其中，所述计算所述初始自变量之间的相关系数的步骤包括：

所述相关系数的特征为：

在本实施例中，通过上述公式计算两个变量x,y之间Pearson相关系数，相关系数等于两个变量的协方差除于两个变量的标准差。其中，cov(X，Y)表示两个变量X和Y之间的协方差，E表示期望，u_x表示X的期望E(X),u_y表示Y的期望E(Y)。

S6：基于所述目标变量调整预设的第一画像模型，获得第二画像模型,并基于所述目标变量所对应的变量值训练所述第二画像模型,获得目标画像模型。

在本实施例中，将经过上述步骤S5，即单变量分析方式筛选后的变量，放入预设的第一画像模型中，获得中间画像模型，其中，第一画像模型为lightgbm模型，根据中间画像模型输出的变量重要性，删除变量重要性低于预设重要性阈值的变量，获得第一目标变量集合，和第二画像模型。基于第一目标变量集合所对应的真实值训练所述第二画像模型，获得目标画像模型。

具体的，所述基于所述目标变量所对应的真实值训练所述第二画像模型,获得目标画像模型的步骤还包括：

在本实施例中，基于所述目标变量，接收下一时间段中所述目标变量所对应的真实值，作为跨期样本，其中，下一时间段可以为后续新的一个月；通过所述跨期样本对所述第二画像模型进行验证，计算所述第二画像模型中每一个目标变量在跨期样本上的稳定度，其中，稳定度用PSI来衡量，PSI的计算公式如下：

其中，

表示所述跨期样本在所有真实值中的实际占比，

表示所述跨期样本在所有真实值中的预期占比。在计算出每一个目标变量的稳定度后，删除第二画像模型中的PSI＞0.1的目标变量，获得第二目标变量集合，即调整后的目标变量。本申请还可以继续持续追踪至少后续两个月的新的跨期样本，确定第二画像模型在新的跨期样本上表现的稳定性。

S7：接收待识别变量的值，将所述待识别变量的值输入至所述目标画像模型中，获得客户画像。

在本实施例中，待识别变量为最终确定加入目标画像模型中的目标变量。在经过上述步骤之后，目标画像模型不仅能够稳定地预测客户的违约概率，同时，可以根据输入模型中的待识别变量的值，产出用户画像，更全面直观地反映客户风险，帮助催员更有效地制定催收策略。如：对于客户A，获得待识别变量的值，将待识别变量的值输入至所述目标画像模型中，目标画像模型输出预测的违约概率，以及与所述违约概率相关性较大的标签，形成客户画像。例如，目标画像模型输出违约概率为0.9，同时输出“投诉”、“没钱”、“烦”、近3个月表示要投诉1次、近6个月承诺还款但未还1次等标签。通过将客户画像传输给用户终端，相关用户(例如催收场景中的催收人员)能够更好地了解客户关键信息，来制定后续催收策略。同时，本申请输出的用户画像，使公司能够更加全面稳定地了解客户，管理客户风险。充分的利用了大量珍贵自然语言文本资源。建立基于历史的客户回答语料和意图标签的客户画像，可以准确地将客户的关键风险点展示出来，补足传统的画像模型。有利于公司相关部门管理客户，进行更加合理地资源配置，节省公司运营成本。同时，通过将资源更倾向于客户画像中高风险客户，降低客户画像中低风险客户地打扰率，提升客户体验。

需要强调的是，为进一步保证上述目标画像模型的私密和安全性，上述目标画像模型还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可应用于智慧社区领域中，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于客户应答语料的客户画像装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于客户应答语料的客户画像装置300包括：接收模块301，用于接收客户应答语料、意图标签和真实值，其中，所述客户应答语料和所述意图标签具有一一对应的映射关系，所述意图标签和所述真实值具有一一对应的映射关系；分词模块302，用于对所述客户应答语料进行分词操作，获得目标词语，对所述目标词语进行调整，获得目标关键词；构建模块303，用于基于所述目标关键词构建特征字典，并基于所述特征字典对所述客户应答语料进行向量转换，获得语料特征向量，将所述语料特征向量中的每一维度的向量值，分别作为对应维度的预设的语料衍生变量的变量值；确定模块304，用于基于不同的预设策略对所述真实值和所述意图标签进行变量确定操作，获得真实值衍生变量；筛选模块305，用于将所述语料衍生变量和所述真实值衍生变量作为自变量，基于预设的单变量分析方式对所述自变量进行筛选，获得目标变量；训练模块306，用于基于所述目标变量调整预设的第一画像模型，获得第二画像模型,并基于所述目标变量所对应的变量值训练所述第二画像模型,获得目标画像模型；以及输入模块307，用于接收待识别变量的值，将所述待识别变量的值输入至所述目标画像模型中，获得客户画像。

在本实施例中，本申请有效运用了海量的历史的客户应答语料和意图标签，基于历史的客户应答语料生成自变量，并通过对自变量的调整，实现筛选出与客户画像的相关性高的变量，进而实现通过输入最终的目标画像模型中少量的变量的值，而能够获得更加精准的客户画像。输出的客户画像可以明确地将客户的关键点展示出来，实现获得表现更佳的客户画像，进而可以通过客户画像进行更加合理的后续配置。

分词模块302包括调整子模块、分词子模块、提取子模块和筛选子模块。其中，调整子模块用于基于所述客户应答语料调整预设的初始分词词典，获得客户应答分词词典；分词子模块用于基于所述客户应答分词词典分别对每种所述意图标签下的客户应答语料进行分词，获得目标词语；提取子模块用于基于预设的关键词提取方式分别对每种所述意图标签下的所述目标词语进行提取，获得初始关键词；筛选子模块用于对每种所述意图标签下的初始关键词进行筛选，获得所述目标关键词。

调整子模块包括识别单元、分词单元、提取单元、调整单元和获得单元。其中，识别单元用于识别相同意图标签下的客户应答语料；分词单元用于基于预设的初始分词词典对当前的意图标签下的客户应答语料进行分词，获得第一特征词；提取单元用于基于所述关键词提取方式对所述第一特征词进行提取，获得第二特征词；调整单元用于调整所述第二特征词，获得特有词；获得单元用于将所述特有词添加入所述初始分词词典中，获得所述客户应答分词词典。

确定模块304包括计算子模块、违约率子模块、第一衍生子模块和第二衍生子模块。其中，计算子模块用于分别计算在每种意图标签中，所述违约真实值的数量与客户数量的比率，获得违约比率；违约率子模块用于将大于预先计算的总违约率的违约比率作为显著违约率，将所述显著违约率对应的意图标签作为显著标签；第一衍生子模块用于基于所述显著标签衍生拒绝还款次数变量，并基于所述意图标签分别衍生说谎次数变量和拒接电话次数变量；第二衍生子模块用于将所述拒绝还款次数变量、说谎次数变量和拒接电话次数变量作为所述真实值衍生变量。

筛选模块305包括缺失率计算子模块、相关系数计算子模块和选择子模块。其中，缺失率计算子模块用于计算每一个自变量的缺失率，删除缺失率大于预设的缺失阈值的自变量，获得初始自变量；相关系数计算子模块用于计算所述初始自变量之间的相关系数，根据相关系数生成相关自变量集合；选择子模块用于从每个所述相关自变量集合中随机选择一个初始自变量作为所述目标变量。

在本实施例的一些可选的实现方式中，上述相关系数计算子模块进一步用于：所述相关系数的特征为：

训练模块306包括训练子模块、接收子模块、稳定度计算子模块、第一获得子模块和第二获得子模块。训练子模块，用于基于所述目标变量所对应的真实值训练所述第二画像模型,获得初始画像模型；接收子模块，用于基于所述目标变量，接收下一时间段中所述目标变量所对应的真实值，作为跨期样本；稳定度计算子模块，用于通过所述跨期样本计算所述初始画像模型中每个目标变量在所述跨期样本上的稳定度；第一获得子模块，用于基于所述稳定度调整所述目标变量，获得调整后的目标变量；第二获得子模块，用于基于所述调整后的目标变量调整所述初始画像模型，获得调整后的初始画像模型，并基于所述调整后的目标变量所对应的真实值训练所述调整后的初始画像模型，获得所述目标画像模型。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于客户应答语料的客户画像方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述基于客户应答语料的客户画像方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，基于历史的客户应答语料生成自变量，并通过对自变量的调整，实现筛选出与客户画像的相关性高的变量，实现通过输入最终的目标画像模型中少量的变量的值，而能够获得更加精准的客户画像。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于客户应答语料的客户画像方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于客户应答语料的客户画像方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于客户应答语料的客户画像方法，其特征在于，所述对所述客户应答语料进行分词操作，获得目标词语，对所述目标词语进行调整，获得目标关键词的步骤包括：

3.根据权利要求2所述的基于客户应答语料的客户画像方法，其特征在于，所述基于所述客户应答语料调整预设的初始分词词典，获得客户应答分词词典的步骤包括：

识别相同意图标签下的客户应答语料；

调整所述第二特征词，获得特有词；

4.根据权利要求1所述的基于客户应答语料的客户画像方法，其特征在于，所述基于预设的单变量分析方式对所述自变量进行筛选，获得目标变量的步骤包括：

5.根据权利要求4所述的基于客户应答语料的客户画像方法，其特征在于，所述计算所述初始自变量之间的相关系数的步骤包括：

所述相关系数的特征为：

6.根据权利要求1所述的基于客户应答语料的客户画像方法，其特征在于，所述基于所述目标变量所对应的真实值训练所述第二画像模型,获得目标画像模型的步骤还包括：

7.根据权利要求1所述的基于客户应答语料的客户画像方法，其特征在于，所述真实值包括违约真实值，所述违约真实值与所述意图标签为一一对应的映射关系，所述基于不同的预设策略对所述真实值和所述意图标签进行变量确定操作，获得真实值衍生变量的步骤包括：

8.一种基于客户应答语料的客户画像装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于客户应答语料的客户画像方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于客户应答语料的客户画像方法的步骤。