CN112925911B

CN112925911B - 基于多模态数据的投诉分类方法及其相关设备

Info

Publication number: CN112925911B
Application number: CN202110214822.XA
Authority: CN
Inventors: 南海顺
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-08-12
Anticipated expiration: 2041-02-25
Also published as: CN112925911A

Abstract

本申请实施例属于人工智能领域，应用于智慧政务中，涉及一种基于多模态数据的投诉分类方法及其相关设备，包括基于第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型；基于第二目标多模态数据训练初始文本分类模型，获得分类结果和目标文本分类模型，基于分类结果训练第二初始投诉预测模型，获得第二目标投诉预测模型；基于第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理待识别数据，获得第一目标投诉概率值和第二目标投诉概率值；基于第一目标投诉概率值和第二目标投诉概率值获得目标逻辑回归曲线，并确定投诉类别。目标逻辑回归曲线可存储于区块链中。本申请准确对客户的待识别数据进行投诉分类。

Description

基于多模态数据的投诉分类方法及其相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及基于多模态数据的投诉分类方法及其相关设备。

背景技术

随着计算机技术的不断改革和发展，人工智能已经应用于各行各业中。对于公司来说，降低客户投诉率一直是公司长期发展需要考虑的重要因素，许多公司通过投诉分类模型来进行客户行为的分析，进而确定客户投诉的原因，从而降低客户投诉行为的发生。

目前，投诉分类模型大多是基于客户历史投诉咨询记录的结构化数据，利用传统的机器学习模型对客户的行为进行分类。但是往往分类的结果不佳，与实际的投诉类别相差较远，下游业务难以根据投诉类别来降低投诉率。

发明内容

本申请实施例的目的在于提出一种基于多模态数据的投诉分类方法、装置、计算机设备及存储介质，实现计算机能够准确对客户的待识别数据进行投诉分类。

为了解决上述技术问题，本申请实施例提供一种基于多模态数据的投诉分类方法，采用了如下所述的技术方案：

接收多模态数据，基于所述多模态数据中不同数据的来源不同，对所述多模态数据中的不同数据执行不同的处理策略，获得第一目标多模态数据和第二目标多模态数据；

基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值；

基于所述第二目标多模态数据训练初始文本分类模型，获得目标文本分类模型，将所述第二目标多模态数据输入至所述目标文本分类模型中，获得分类结果，并基于所述分类结果训练第二初始投诉预测模型，获得第二目标投诉预测模型，并通过所述第二目标投诉预测模型得到第二投诉概率值；

接收待识别数据，基于所述第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理所述待识别数据，获得第一目标投诉概率值和第二目标投诉概率值；

基于所述第一投诉概率值、第二投诉概率值、第一目标投诉概率值和所述第二目标投诉概率值生成目标概率数据集，并拟合所述目标概率数据集，获得目标逻辑回归曲线；

基于所述目标逻辑回归曲线获得所述第一目标概率值的第一权重，以及所述第二目标概率值的第二权重，并根据所述第一权重和所述第二权重确定所述待识别数据的投诉类别。

进一步的，所述基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值的步骤包括：

基于所述第一目标多模态数据和所述第二目标多模态数据确定时间窗口；

选取所述时间窗口内的第一目标多模态数据，作为第一样本数据；

基于所述第一样本数据训练第一初始投诉预测模型，获得所述第一目标投诉预测模型；

将所述第一样本数据中的每一条数据分别输入至所述第一目标投诉预测模型中，获得多个所述第一投诉概率值。

进一步的，在所述基于所述第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理所述待识别数据，获得第一目标投诉概率值和第二目标投诉概率值的步骤之后，还包括:

基于贝叶斯联合概率公式、所述第一目标投诉概率值和所述第二目标投诉概率值计算联合概率值，作为客户投诉概率值。

进一步的，所述基于贝叶斯联合概率公式、所述第一目标投诉概率值和所述第二目标投诉概率值计算联合概率值的步骤包括：

所述联合概率值的特征为：

其中，P(T|X_text,X_structural)为所述联合概率值，p(T|X_structural)为所述第一目标投诉概率值，p(T|X_text)为所述第二目标投诉概率值，p(T)为实际的投诉概率。

进一步的，所述根据所述第一权重和所述第二权重确定所述待识别数据的投诉类别的步骤包括：

基于所述第一权重和所述第二权重计算第一权重占比和第二权重占比；

获取所述第一目标多模态数据对应的预设第一类别，以及所述第二目标多模态数据对应的预设第二类别；

对比所述第一权重占比和所述第二权重占比的大小；

当所述第一权重占比大于所述第二权重占比时，确定所述待识别数据的投诉类别为所述第一类别；

当所述第一权重占比小于或等于所述第二权重占比时，确定所述待识别数据的投诉类别为所述第二类别。

进一步的，所述多模态数据包括多个变量，所述基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型的步骤包括：

识别所述第一目标多模态数据中的变量；

计算所述第一目标多模态数据中的各变量所对应的变量值的缺失率，获得变量缺失率；

删除在所述第一目标多模态数据中，变量缺失率高于预设缺失阈值的变量，获得第三目标多模态数据；

对所述第三目标多模态数据中的变量进行缺失值填充，获得第四目标多模态数据；

基于所述第四目标多模态数据训练第一初始投诉预测模型，获得所述第一目标投诉预测模型。

进一步的，所述基于所述多模态数据中不同数据的来源不同，对所述多模态数据中的不同数据执行不同的处理策略，获得第一目标多模态数据和第二目标多模态数据的步骤包括：

识别所述多模态数据中不同数据的来源；

当所述数据的来源为客户响应情况数据时，将所述客户响应情况数据处理为携带有投诉标签或者未投诉标签的第一结构化数据；

当所述数据的来源为客户的咨询和/或投诉数据时，将所述客户咨询和/或投诉数据处理为第二结构化数据；

将所述第一结构化数据和所述第二结构化数据作为所述第一目标多模态数据；

当所述数据的来源为语音和/或文本交互的数据时，获取客户的回答内容，基于预先训练的语言分类模型和客户的回答，对所述语音和/或文本交互的数据进行标记，获得所述第二目标多模态数据。

为了解决上述技术问题，本申请实施例还提供一种基于多模态数据的投诉分类装置，采用了如下所述的技术方案：

接收模块，用于接收多模态数据，基于所述多模态数据中不同数据的来源不同，对所述多模态数据中的不同数据执行不同的处理策略，获得第一目标多模态数据和第二目标多模态数据；

第一训练模块，用于基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值；

第二训练模块，用于基于所述第二目标多模态数据训练初始文本分类模型，获得目标文本分类模型，将所述第二目标多模态数据输入至所述目标文本分类模型中，获得分类结果，并基于所述分类结果训练第二初始投诉预测模型，获得第二目标投诉预测模型，并通过所述第二目标投诉预测模型得到第二投诉概率值；

获得模块，用于接收待识别数据，基于所述第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理所述待识别数据，获得第一目标投诉概率值和第二目标投诉概率值；

拟合模块，用于基于所述第一投诉概率值、第二投诉概率值、第一目标投诉概率值和所述第二目标投诉概率值生成目标概率数据集，并拟合所述目标概率数据集，获得目标逻辑回归曲线；以及

确定模块，用于基于所述目标逻辑回归曲线获得所述第一目标概率值的第一权重，以及所述第二目标概率值的第二权重，并根据所述第一权重和所述第二权重确定所述待识别数据的投诉类别。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于多模态数据的投诉分类方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于多模态数据的投诉分类方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请对来源不同的多模态数据进行不同的处理，使多模态数据成为便于后续应用的结构化数据。且由于获取不同来源的数据，增加了数据的广度，使得模型能够学习到的内容更多，得到更精准的模型。基于不同的结构化数据和不同的概率预测模型，生成第一目标投诉概率值和第二目标投诉概率值，进而对基于第一目标投诉概率值和第二目标投诉概率值生成的目标概率数据集进行拟合，并根据获得的拟合曲线对待识别数据进行投诉分类，从而准确的确定出待识别数据的投诉类别，便于下游针对输出的客户的投诉类别进行后续改进，从而降低客户的投诉率，提高客户满意度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于多模态数据的投诉分类方法的一个实施例的流程图；

图3是根据本申请的基于多模态数据的投诉分类装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、基于多模态数据的投诉分类装置；301、接收模块；302、第一训练模块；303、第二训练模块；304、获得模块；305、拟合模块；306、确定模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于多模态数据的投诉分类方法一般由服务器/终端设备执行，相应地，基于多模态数据的投诉分类装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于多模态数据的投诉分类方法的一个实施例的流程图。所述的基于多模态数据的投诉分类方法，包括以下步骤：

S1：接收多模态数据，基于所述多模态数据中不同数据的来源不同，对所述多模态数据中的不同数据执行不同的处理策略，获得第一目标多模态数据和第二目标多模态数据。

在本实施例中，每一种信息的来源或者形式，都可以称为一种模态(Modality)。在多种不同情况下采集到的数据为多模态数据(MultiModal)。本申请通过接收来源不同的数据，用于进行后续的模型训练操作，增加了数据的丰富度，使得模型可以学习到更多的知识，从而有利于增加模型的准确率。

在本实施例中，基于多模态数据的投诉分类方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收多模态数据。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体的，所述基于所述多模态数据中不同数据的来源不同，对所述多模态数据中的不同数据执行不同的处理策略，获得第一目标多模态数据和第二目标多模态数据的步骤包括：

识别所述多模态数据中不同数据的来源；

在本实施例中，主要处理的数据有三类：客户响应情况数据、客户的咨询和/或投诉数据以及语音和/或文本交互的数据。本申请在下述对这三类数据以及具体的处理过程进行详细说明：

客户响应情况数据(贷后数据)，基于客户响应情况数据生成结构化数据，并将客户当月是否有投诉倾向作为结构化数据的标签。在贷款催收场景中，客户响应情况数据可以为客户的贷后数据，客户的贷后数据包括客户的贷款信息，逾期记录，催收电话接听记录等，将其处理成结构化数据。原始客户的贷后数据是按客户的每次表现来记录数据，所以往往会有多条数据对应一个客户，每条信息对应该客户不同维度的特征，通常在建模之前会尽量将客户所有的特征处理成结构化数据，有助于后续建模是筛选变量和衍生变量提供充足的备选特征变量。例如，通常在数据库存储的客户贷后数据往往会每次行为是有一条记录，也就是每次触达客户(例如拨打催收电话)，就会产生一次记录，如下所示：

上述的申请号ID即代表客户ID。建模的目的是需要捕捉每个客户的特征与预测目标的关联性，因此需要处理以客户维度的结构化数据。计算机识别相同的申请号，基于预设的模板生成结构化数据。如上例中的数据，经过处理后为：

这样处理好后，每一行即是按照客户维度处理成的结构化的数据格式。每个客户在当月是否有投诉行为就是每个客户在当月投诉倾向表现行为的标签。具体的：获取预设的客户咨诉系统(客户咨询和投诉系统)的数据库中存储的数据，基于申请号ID确定该客户当月是否投诉过。其中，客户咨诉系统存储的数据即是客户主动打给客服进行投诉和咨询的数据。如果客户在客户咨诉系统中有投诉结果，则该客户的标签为投诉客户；如果该客户即匹配到投诉又有咨询，则该认为客户为投诉客户；如果客户仅有咨询或者仅存在在咨诉系统中，则该客户的标签为没有投诉标签。匹配到投诉数据后，最终的贷后结构化数据格式为：

客户的咨询和/或投诉的数据(咨诉数据)，指客户主动给打给客服进行咨询和/或投诉的数据，来自于客户咨诉系统。由于该种数据是由客服记录客户来电的目的，因此数据都是以每次与客户的通话为单位记录。由于后续本申请建模的维度是以客户维度。因此本申请对该部分数据进行处理，转化成结构化数据：

语音和/或文本交互的数据(NLP数据)，指坐席每月会对逾期的客户进行语音和/或短信文本的提醒和催收的数据。对于此部分数据需要通过预先训练的NLP(自然语言处理)算法识别客户的回答，根据客户回答的内容对该类数据进行标签标记，其中，标签包括：客户在回答中出现投诉、抱怨等16类标签。对于短信文本，短信文本中包括有链接，客户通过点击链接进行简单的填写，计算机通过客户填写的内容，确定对应的标签。

当客户在通话过程中无投诉抱怨是标记为无投诉抱怨标签。例如：

S2：基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值。

在本实施例中，第一初始投诉预测模型为XGBoost(Extreme Gradient Boosting，极限梯度提升)树模型，基于第一目标多模态数据(即上述处理完成的结构化咨诉数据和贷后数据)进行模型训练。

具体的，所述基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值的步骤包括：

在本实施例中，本申请确定结构化数据的建模时间窗口，便于模型的有效性以及建模目标。时间窗口的确定需要基于第一目标多模态数据和第二目标多模态数据。选取近3个月的第一目标多模态数据和第二目标多模态数据，根据每个客户的投诉时间，得出每次客户投诉时间的前30天的这期间内，每一天接触客户(即触达客户)的时间和次数，接触客户包括：坐席主动发给客户的交互，例如，坐席给客户发送短信或给客户打电话，以及客户主动打给坐席的非投诉交互，例如：咨询和服务。其中，客户未接通坐席的电话不属于触达。

根据历史三个月数据可以得到近三个月的所有投诉案件发生投诉时间T到T-30天(即客户投诉时间的前30天)的触达数据，根据此数据分布，确定出大概率发生投诉的时间窗口N天,作为最适合的时间窗口N天。对于投诉客户，选取其时间窗口(N天)前发生的第一目标多模态数据和第二目标多模态数据，即处理后的贷后数据、咨诉数据和NLP(自然语言处理)数据。NLP数据就是在时间窗口N天内的客户维度所有录通话录音文本和短信数据文本。对于非投诉客户，选取当月任意一天的前N天发生的处理后的贷后数据、咨诉数据和NLP数据进行后续的模型训练。NLP数据举例如下：

此外，所述多模态数据包括多个变量，所述基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型的步骤包括：

识别所述第一目标多模态数据中的变量；

计算所述第一目标多模态数据中的变量，所对应的变量值的缺失率，获得变量缺失率；

在本实施例中，本申请的第一目标多模态数据中的变量指：开始时间、文本内容、申请号ID、借款金额、利率、类型、用户年龄以及用户性别等。通过对变量进行筛选，去掉缺失率较高的变量，以增大真实数据的占比，避免过多的数据是通过缺失值填充获得的。保证数据的真实性，实现模型能够学习到更加贴近实际的知识。使得模型在实际应用中能够具有更佳的表现。

需要说明的是：在通过第一目标多模态数据进行模型训练的步骤中，还包括：对第一目标多模态数据进行缺失值填充处理，分箱处理，以及变量筛选。缺失值填充处理的具体过程为：XGBoost内置处理缺失值的规则，只需要提供一个和其它样本不同的值，然后将其作为一个参数传进去，以此来作为缺失值的取值。XGBoost在不同节点遇到缺失值时采用不同的处理方法，并且会学习未来遇到缺失值时的处理方法。分箱处理：指把一段连续的值切分成若干段，把连续值转换成离散值的过程。其中，本申请的分箱处理可以是识别第一目标多模态数据中的变量值为数值型的变量，如：金额变量或者利率变量。基于金额变量的变量值或者利率变量的变量值进行分箱处理，例如：确定金额变量的金额区间：0-10万作为一个特征，10万-20万作为另一个特征。将不同金额区间的特征作为不同的类别。变量筛选可以根据上述缺失率进行变量筛选，也可以采用其他的方式进行变量筛选，适用本方案即可。

S3：基于所述第二目标多模态数据训练初始文本分类模型，获得目标文本分类模型，将所述第二目标多模态数据输入至所述目标文本分类模型中，获得分类结果，并基于所述分类结果训练第二初始投诉预测模型，获得第二目标投诉预测模型，并通过所述第二目标投诉预测模型得到第二投诉概率值。

在本实施例中，本申请中，初始文本分类模型为Attention+textcnn(注意力文本分类)模型，Attention+textcnn是利用卷积神经网络对文本进行分类的算法。第二初始投诉预测模型为gbdt(GradientBoostingDecisionTree，梯度提升决策树)分类模型。gbdt是通过采用加法模型(即基函数的线性组合)，以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。通过分类结果，训练第二初始投诉预测模型，实现获得第二投诉概率阈值。由于第二目标多模态数据来源为NLP数据，故分类结果包括投诉抱怨等16种标签。在对NLP标记的过程中，此模型的目标是分类结果(即文本分类标签)。根据第二目标多模态数据，基于Attention+textcnn模型结构训练只输出投诉类、抱怨类标签和无投诉抱怨类标签的目标文本分类模型。在实际应用中，文本分类模型的效果是使得所有客户的录音文本或短信文本输入模型之后，可以输出投诉类标签、抱怨类标签或者无投诉抱怨标签的结果。所述基于所述第二目标多模态数据训练训练初始文本分类模型，获得模型输出的分类结果和目标文本分类模型的步骤包括：基于所述第一目标多模态数据和所述第二目标多模态数据确定时间窗口；选取所述时间窗口内的第二目标多模态数据，作为第二样本数据；基于所述第二样本数据训练初始文本分类模型，获得模型输出的分类结果和目标文本分类模型。其中，基于将每个客户在时间窗口N内的第二目标多模态数据训练初始文本分类模型，获得分类结果，分类结果作为样本训练数据，每条数据的标签为客户是否发生投诉的标签。示例如下：

基于此格式的数据，将选择gbdt模型。在训练模型之前，首先将文本标签转化为哑变量，之后输入gbdt模型，训练gbdt分类模型。模型最终输出客户是否投诉的概率值。其中，哑变量(DummyVariable)，也叫虚拟变量，通常取值为0或1，来反映某个变量的不同属性。通过将文本标签转化为哑变量，将哑变量引入模型，虽然使模型变得较为复杂，但可以更直观地反映出该自变量的不同属性对于因变量的影响，提高了模型的精度和准确度。

S4：接收待识别数据，基于所述第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理所述待识别数据，获得第一目标投诉概率值和第二目标投诉概率值。

在本实施例中，将待识别数据输入至所述第一目标投诉预测模型中，获得第一目标投诉概率值。将所述待识别数据输入至所述目标文本分类模型中，获得目标分类结果，将所述目标分类结果输入至所述第二目标投诉预测模型中，获得第二目标投诉概率值。其中，目标分类结果可以包括一个标签，也可以包括多个标签。

需要说明的是，本申请的待识别数据为用户画像，即当前需要识别的用户的各个维度的向量的值，对用户画像进行识别，获得第一目标投诉概率值和第二目标投诉概率值。

具体的，在所述基于所述第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理所述待识别数据，获得第一目标投诉概率值和第二目标投诉概率值的步骤之后，还包括:

在本实施例中，基于第一目标投诉概率值和第二目标投诉概率值，通过贝叶斯联合概率公式得到联合概率值，即作为客户是否有投诉倾向的最终输出结果。

其中，所述基于贝叶斯联合概率公式、所述第一目标投诉概率值和所述第二目标投诉概率值计算联合概率值的步骤包括：

所述联合概率值的特征为：

在本实施例中，基于贝叶斯联合概率公式推导出最终客户是否有投诉倾向的概率值。在本申请中，p(T)为历史数据算出来的投诉概率，例如，在历史的统计数据中，实际客户有400个人，其中，投诉人数为300人，则概率p(T)为3/4。X_structural，X_text分别为第一目标多模态数据(即处理后的贷后数据和咨诉数据)和第二目标多模态数据(即处理后的NLP数据)，T为客户是否投诉，记T的值为投诉，非投诉。那么根据贝叶斯条件的独立假设条件，可知有如下等式成立：

p(X_text,X_structural|T)＝p(X_text|T)*p(X_structural|T) (1)

所以在已知两种数据情况下客户的投诉概率可以表示为：

根据式(1)可得上式可以化为：

其中，α表示正比例，综上所述，由于X_structural，X_text下客户投诉的概率即为通过第一目标投诉预测模型和第二目标投诉预测模型获得的第一目标投诉概率值和第二目标投诉概率值，则可以直接将两个概率值输入式(2)计算得到联合概率。

S5：基于所述第一投诉概率值、第二投诉概率值、第一目标投诉概率值和所述第二目标投诉概率值生成目标概率数据集，并拟合所述目标概率数据集，获得目标逻辑回归曲线。

在本实施例中，本申请基于LR(logistic regression，线性逻辑回归)模型对所述目标概率数据集进行拟合。

S6：基于所述目标逻辑回归曲线获得所述第一目标概率值的第一权重，以及所述第二目标概率值的第二权重，并根据所述第一权重和所述第二权重确定所述待识别数据的投诉类别。

具体的，所述根据所述第一权重和所述第二权重确定所述待识别数据的投诉类别的步骤包括：

对比所述第一权重占比和所述第二权重占比的大小；

在本实施例中，计算机进一步计算每个权重的占比，即p(T|X_text)权重占比为：

p(T|X_structural)权重占比

根据权重占比可以得出客户的投诉类别，其中，投诉类别包括：1、基于录音文本端而进行投诉类；2、基于贷后数据和自诉数据进行投诉类。例如：Q1＝0.6时，Q2＝0.4。Q1大于Q2,则给出投诉类别是：NLP数据，即录音文本端而导致投诉类。所得的投诉类别对于后续分析改进对客户的服务有很大的指导意义。本申请在得到最终的模型之后，也就得到了一个客户是否有投诉倾向的概率。因此从业务使用角度来讲，如果能进一步给出客户投诉类别，则对业务使用模型有指导意义。从模型建模的变量来看，寻找客户投诉类别，本质上就是寻找客户的投诉原因，寻找是由于哪些重要特征导致客户会有投诉。

同时，在实践中还可以对本申请的上述模型进行优化，记录坐席与客户交互后的多模态数据，作为客户的历史记录，并将历史记录作为优化算法的输入数据，以优化上述投诉概率预测模型的效果。具体的，将该历史记录输入至计算机中进行分类，如果计算机输出的投诉类别与线下实际调研后客户的真实投诉类别不同，则将该历史记录作为训练样本对模型进行训练。训练后获得模型输出的新的投诉类别。确定该新的投诉类别与真实投诉类别是否相同。若相同，则确定完成模型优化，当客户再次与坐席之间有交互时，由优化后的模型执行分类任务。若不相同，则向预先配置的指定人员报错，便于指定人员采用其他手段对模型进行优化。其中，指定人员可以采用的手段包括采用其他方式对训练样本(即第一目标多模态数据和第二目标多模态数据)中的变量进行筛选。

需要强调的是，为进一步保证上述目标逻辑回归曲线的私密和安全性，上述目标逻辑回归曲线还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可应用于智慧政务领域中，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于多模态数据的投诉分类装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于多模态数据的投诉分类装置300包括：接收模块301、第一训练模块302、第二训练模块303、获得模块304、拟合模块305以及确定模块306。其中：接收模块301，用于接收多模态数据，基于所述多模态数据中不同数据的来源不同，对所述多模态数据中的不同数据执行不同的处理策略，获得第一目标多模态数据和第二目标多模态数据；第一训练模块302，用于基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值；第二训练模块303，用于基于所述第二目标多模态数据训练初始文本分类模型，获得目标文本分类模型，将所述第二目标多模态数据输入至所述目标文本分类模型中，获得分类结果，并基于所述分类结果训练第二初始投诉预测模型，获得第二目标投诉预测模型，并通过所述第二目标投诉预测模型得到第二投诉概率值；获得模块304，用于接收待识别数据，基于所述第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理所述待识别数据，获得第一目标投诉概率值和第二目标投诉概率值；拟合模块305，用于基于所述第一投诉概率值、第二投诉概率值、第一目标投诉概率值和所述第二目标投诉概率值生成目标概率数据集，并拟合所述目标概率数据集，获得目标逻辑回归曲线；以及确定模块306，用于基于所述目标逻辑回归曲线获得所述第一目标概率值的第一权重，以及所述第二目标概率值的第二权重，并根据所述第一权重和所述第二权重确定所述待识别数据的投诉类别。

在本实施例中，本申请对来源不同的多模态数据进行不同的处理，使多模态数据成为便于后续应用的结构化数据。且由于获取不同来源的数据，增加了数据的广度，使得模型能够学习到的内容更多，得到更精准的模型。基于不同的结构化数据和不同的概率预测模型，生成第一目标投诉概率值和第二目标投诉概率值，进而对基于第一目标投诉概率值和第二目标投诉概率值生成的目标概率数据集进行拟合，并根据获得的拟合曲线对待识别数据进行投诉分类，从而准确的确定出待识别数据的投诉类别，便于下游针对输出的客户的投诉类别进行后续改进，从而降低客户的投诉率，提高客户满意度。

接收模块301包括识别子模块、第一处理子模块、第二处理子模块、作为子模块和第三处理子模块。其中，识别子模块，用于识别所述多模态数据中不同数据的来源；第一处理子模块，用于当所述数据的来源为客户响应情况数据时，将所述客户响应情况数据处理为携带有投诉标签或者未投诉标签的第一结构化数据；第二处理子模块，用于当所述数据的来源为客户的咨询和/或投诉数据时，将所述客户咨询和/或投诉数据处理为第二结构化数据；作为子模块，用于将所述第一结构化数据和所述第二结构化数据作为所述第一目标多模态数据；第三处理子模块，用于当所述数据的来源为语音和/或文本交互的数据时，获取客户的回答内容，基于预先训练的语言分类模型和客户的回答，对所述语音和/或文本交互的数据进行标记，获得所述第二目标多模态数据。

第一训练模块302包括确定子模块、选取子模块、第一训练子模块和输入子模块。其中，确定子模块用于基于所述第一目标多模态数据和所述第二目标多模态数据确定时间窗口；选取子模块用于选取所述时间窗口内的第一目标多模态数据，作为第一样本数据；第一训练子模块用于基于所述第一样本数据训练第一初始投诉预测模型，获得所述第一目标投诉预测模型；输入子模块用于将所述第一样本数据中的每一条数据分别输入至所述第一目标投诉预测模型中，获得多个所述第一投诉概率值。

此外，所述多模态数据包括多个变量，所述第一训练模块302还包括变量识别子模块、缺失计算子模块、删除子模块、变量填充子模块和第二训练子模块。其中，变量识别子模块用于识别所述第一目标多模态数据中的变量；缺失计算子模块用于计算所述第一目标多模态数据中的变量，所对应的变量值的缺失率，获得变量缺失率；删除子模块用于删除在所述第一目标多模态数据中，变量缺失率高于预设缺失阈值的变量，获得第三目标多模态数据；变量填充子模块用于对所述第三目标多模态数据中的变量进行缺失值填充，获得第四目标多模态数据；第二训练子模块用于基于所述第四目标多模态数据训练第一初始投诉预测模型，获得所述第一目标投诉预测模型。

在本实施例的一些可选的实现方式中，上述装置300还包括：联合概率计算模块，用于基于贝叶斯联合概率公式、所述第一目标投诉概率值和所述第二目标投诉概率值计算联合概率值。

在本实施例的一些可选的实现方式中，上述联合概率计算模块进一步用于：所述联合概率值的特征为：

确定模块306包括占比计算子模块、类别获取子模块、占比对比子模块、第一类别子模块和第二类别子模块。其中，占比计算子模块用于基于所述第一权重和所述第二权重计算第一权重占比和第二权重占比；类别获取子模块用于获取所述第一目标多模态数据对应的预设第一类别，以及所述第二目标多模态数据对应的预设第二类别；占比对比子模块用于对比所述第一权重占比和所述第二权重占比的大小；第一类别子模块用于当所述第一权重占比大于所述第二权重占比时，确定所述待识别数据的投诉类别为所述第一类别；第二类别子模块用于当所述第一权重占比小于或等于所述第二权重占比时，确定所述待识别数据的投诉类别为所述第二类别。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于多模态数据的投诉分类方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述基于多模态数据的投诉分类方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，根据获得的拟合曲线对待识别数据进行投诉分类，从而准确的确定出待识别数据的投诉类别，便于下游针对输出的客户的投诉类别进行后续改进，从而降低客户的投诉率，提高客户满意度。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于多模态数据的投诉分类方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于多模态数据的投诉分类方法，其特征在于，包括下述步骤：

所述多模态数据包括多个变量，识别所述第一目标多模态数据中的变量；

对所述第三目标多模态数据中的变量进行缺失值填充和分箱处理，获得第四目标多模态数据；

基于所述第四目标多模态数据训练第一初始投诉预测模型，获得所述第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值；

2.根据权利要求1所述的基于多模态数据的投诉分类方法，其特征在于，所述基于所述第一目标多模态数据训练第一初始投诉预测模型，获得第一目标投诉预测模型，并通过所述第一目标投诉预测模型得到第一投诉概率值的步骤包括：

3.根据权利要求1所述的基于多模态数据的投诉分类方法，其特征在于，在所述基于所述第一目标投诉预测模型、目标文本分类模型和第二目标投诉预测模型处理所述待识别数据，获得第一目标投诉概率值和第二目标投诉概率值的步骤之后，还包括:

4.根据权利要求3所述的基于多模态数据的投诉分类方法，其特征在于，所述基于贝叶斯联合概率公式、所述第一目标投诉概率值和所述第二目标投诉概率值计算联合概率值的步骤包括：

所述联合概率值的特征为：

5.根据权利要求1所述的基于多模态数据的投诉分类方法，其特征在于，所述根据所述第一权重和所述第二权重确定所述待识别数据的投诉类别的步骤包括：

对比所述第一权重占比和所述第二权重占比的大小；

6.根据权利要求1所述的基于多模态数据的投诉分类方法，其特征在于，所述基于所述多模态数据中不同数据的来源不同，对所述多模态数据中的不同数据执行不同的处理策略，获得第一目标多模态数据和第二目标多模态数据的步骤包括：

识别所述多模态数据中不同数据的来源；

7.一种基于多模态数据的投诉分类装置，其特征在于，包括：

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的基于多模态数据的投诉分类方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的基于多模态数据的投诉分类方法的步骤。