CN114398466A

CN114398466A - 基于语义识别的投诉分析方法、装置、计算机设备及介质

Info

Publication number: CN114398466A
Application number: CN202210057424.6A
Authority: CN
Inventors: 纪桂锋
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-04-26

Abstract

本申请实施例属于人工智能技术领域，涉及一种基于语义识别的投诉分析方法，包括获取投诉文本数据集，预处理投诉文本数据集，对预处理后的所述投诉文本数据集进行标注，得到标注数据集，基于所述标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型，将待分析投诉文本输入所述语义识别模型，输出投诉标签，根据所述投诉标签建立投诉可视化图表，以进行投诉分析。本申请还提供一种基于语义识别的投诉分析装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，投诉可视化图表可存储于区块链中。本申请可以准确识别投诉内容，提升识别效果，提高投诉分析效率。

Description

基于语义识别的投诉分析方法、装置、计算机设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于语义识别的投诉分析方法、装置、计算机设备及介质。

背景技术

随着人工智能的发展，客户服务领域也逐渐引入人工智能来提升客户服务体验，其中，处理客户投诉是客户服务中最重要的事项之一。投诉对话中蕴含大量有价值的信息，可以从对话中标签化关键信息，对客户投诉原因进行分析，并形成数据报表，可以直观地观察到哪些问题才是急需解决的。目前，主要是使用关键词识别技术来标签化关键信息，但是，单纯的关键词识别在一些情况下无法正确识别，导致无法正确识别到客户的投诉原因，进而也使得对客户投诉的处理效率比较低效。

发明内容

本申请实施例的目的在于提出一种基于语义识别的投诉分析方法、装置、计算机设备及介质，以解决相关技术中无法正确识别到客户的投诉原因，导致对客户投诉的处理效率比较低效的技术问题。

为了解决上述技术问题，本申请实施例提供一种基于语义识别的投诉分析方法，采用了如下所述的技术方案：

获取投诉文本数据集，预处理所述投诉文本数据集；

对预处理后的所述投诉文本数据集进行标注，得到标注数据集；

基于所述标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型；

将待分析投诉文本输入所述语义识别模型，输出投诉标签；

根据所述投诉标签建立投诉可视化图表，以进行投诉分析。

进一步的，所述循环神经网络模型包括输入层、隐藏层和输出层，所述基于所述标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型的步骤包括：

根据所述标注数据集获得训练集，将所述训练集输入循环神经网络模型，通过输入层对所述训练集进行向量特征转换处理，获得特征数据；

将所述特征数据输入隐藏层，计算出隐藏层的隐藏层结果；

将所述隐藏层结果输入至所述输出层中进行计算，得到输出结果；

根据所述输出结果对所述循环神经网络模型进行迭代更新，得到语义识别模型。

进一步的，所述将所述特征数据输入隐藏层，计算出隐藏层的隐藏层结果的步骤包括：

获取输入层到隐藏层的第一权重矩阵、上一时刻隐藏层到当前时刻隐藏层的第二权重矩阵以及上一时刻隐藏层结果；

采用激活函数，根据所述特征数据、所述第一权重矩阵、所述第二权重矩阵以及所述上一时刻隐藏层结果计算出所述隐藏层结果。

进一步的，所述根据所述输出结果对所述循环神经网络模型进行迭代更新，得到语义识别模型的步骤包括：

根据所述输出结果计算损失函数；

基于所述损失函数更新所述循环神经网络模型的模型参数，直至模型收敛，输出语义识别模型。

进一步的，所述根据所述投诉标签建立投诉可视化图表的步骤包括：

将所述投诉标签存储至数据库；

从所述数据库中获取预定时间段内的所述投诉标签作为目标投诉标签；

基于所述目标投诉标签的统计信息，建立投诉可视化图表。

进一步的，所述基于所述目标投诉标签的统计信息，建立投诉可视化图表的步骤包括：

确定每个所述目标投诉标签的第一数量和所有所述目标投诉标签的第二数量；

根据所述第一数量以及所述第二数量，确定每个目标投诉标签的统计参数；

根据所述统计参数生成投诉可视化图表。

进一步的，在所述将待分析投诉文本输入所述语义识别模型，输出投诉标签的步骤之后还包括：

确定所述投诉标签对应的答复文本；

将所述答复文本发送至所述待分析投诉文本对应的用户终端。

为了解决上述技术问题，本申请实施例还提供一种基于语义识别的投诉分析装置，采用了如下所述的技术方案：

获取模块，用于获取投诉文本数据集，预处理所述投诉文本数据集；

标注模块，用于对预处理后的所述投诉文本数据集进行标注，得到标注数据集；

训练模块，用于基于所述标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型；

识别模块，用于将待分析投诉文本输入所述语义识别模型，输出投诉标签；

创建模块，用于根据所述投诉标签建立投诉可视化图表，以进行投诉分析。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

该计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的基于语义识别的投诉分析方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的基于语义识别的投诉分析方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过获取投诉文本数据集，预处理投诉文本数据集，对预处理后的所述投诉文本数据集进行标注，得到标注数据集，基于所述标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型，将待分析投诉文本输入所述语义识别模型，输出投诉标签，根据所述投诉标签建立投诉可视化图表，以进行投诉分析；本申请通过训练得到的语义识别模型识别投诉文本，可以准确识别投诉内容，提升识别效果，同时，可以自动的、大批量、高并发地处理投诉数据，通过识别得到的投诉标签创建投诉可视化图表进行投诉分析，提高投诉分析效率，节约成本。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于语义识别的投诉分析方法的一个实施例的流程图；

图3是图2中步骤S203的一种具体实施方式的流程图；

图4是根据本申请的基于语义识别的投诉分析装置的一个实施例的结构示意图；

图5是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请提供了一种基于语义识别的投诉分析方法，涉及人工智能，可以应用于如图1所示的系统架构100中，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于语义识别的投诉分析方法一般由服务器/终端设备执行，相应地，基于语义识别的投诉分析装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于语义识别的投诉分析方法的一个实施例的流程图，包括以下步骤：

步骤S201，获取投诉文本数据集，预处理投诉文本数据集。

在本实施例中，投诉文本数据集可以从投诉数据库中获取，还可以实时获取客户的投诉文本。预处理包括数据清洗、数据转换、分词等，其中，数据清洗是指发现并纠正数据文件中的可识别的错误，主要包括检查数据一致性，处理数据中的无效值和缺失值等；分词可以采用分词器进行分词，分词器包括结巴中文分词器、Hanlp分词器、foolnltk分词器以及pullword在线分词引擎等。

步骤S202，对预处理后的投诉文本数据集进行标注，得到标注数据集。

其中，投诉文本数据集包括各种投诉内容，对每种投诉内容进行语义标签标注，即每种语义标签对应一种投诉类型。语义标签可以预先进行设置，根据业务需求将客户的投诉内容归类为对应的业务标签作为语义标签，例如，语义标签可包括“无法上网”、“网速慢”、“服务态度差”等，在此不做限定。其中，投诉内容可以是聊天对话中的语句，对各种投诉内容进行语义标签标注，可以经由相关人员对其标注对应的语义标签，也可以由预先训练好的CRF(Conditional Random Fields，条件随机场)进行标注，还可以经过构建的包含标签标注的查询字典进行标注，在此不做限定。

举例说明，投诉内容“我的视频应用老是提示加载中”、“我的网页总是刷新不出来”的语义表征网速慢，则可对投诉内容“我的网页总是刷新不出来”、“我的视频应用老是提示加载中”标注语义标签“网速慢”；再如，投诉内容“你态度能不能好点”、“你能不能客气点”的语义表征服务态度差，则可对投诉内容“你态度能不能好点”、“你能不能客气点”标注语义标签“服务态度差”。

步骤S203，基于标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型。

循环神经网络(Recurrent Neural Network，RNN)模型是一类以序列数据为输入，在序列的演进方向进行递归且所有循环单元按链式连接形成闭合回路的归神经网络，它的每一层不仅输出给下一层，同时还输出一个隐藏状态，给当前层在处理下一个样本时使用，这种网络的内部状态可以展示动态时序行为，RNN模型可以利用它内部的记忆来处理任意时序的输入序列。

RNN模型至少包括输入层、隐藏层和输出层，将训练集输入RNN模型中进行训练，得到语义识别模型，通过语义识别模型可以获得投诉文本对应的语义标签。

步骤S204，将待分析投诉文本输入语义识别模型，输出投诉标签。

在本实施例中，投诉标签即为语义标签，通过语义识别模型输出的投诉标签，可以是众多语义标签中“置信度”最高的语义标签，置信度越高，可认为结果越可信，即此投诉文本的语义属于该投诉标签的“概率”越大。其中，置信度是一个0-0.999的数值，可根据实际需要确定。

应当理解，用户的投诉渠道包括但不限于电话投诉、邮件投诉、网络投诉等。对于电话投诉，需要将语音转换为投诉文本。具体的，用户可以通过用户终端拨打热线电话投诉，应答的客服的终端可在通话过程中，获取用户输入的投诉语音，获取投诉语音后可对投诉语音进行语音识别，得到对应的投诉文本。其中，语音识别可以通过预先训练完成的语音识别模型进行识别，输出识别的投诉文本。

步骤S205，根据投诉标签建立投诉可视化图表，以进行投诉分析。

其中，投诉可视化图表可以根据不同的分析方法选择曲线图、柱状图、饼图等图形，可以根据业务需要对投诉标签进行统计，分析方法可以按趋势、占比、同比、环比、地域分析等分析方式进行统计分析。

具体的，建立投诉可视化图表需要一定数量的数据，因此，投诉可视化图表是基于一定时间段内的投诉标签进行创建，可以用于呈现指定时间段内获取的投诉标签的统计信息，可以基于一定时间段内某个用户的投诉标签建立某用户的投诉标签对应的投诉可视化图表，也可以基于一定时间段内多个用户的投诉标签建立多个用户的投诉标签对应的投诉可视化图表。一定时间段内多个用户对应的投诉可视化图表可反映指定时间段内整体的问题，从而可帮助运营人员进行监控和对产品进行针对性优化。

需要说明，随着所获取的投诉标签的变化，可视化图表也可实时更新并显示，以便相关人员进行及时的监控。

需要强调的是，为进一步保证投诉可视化图表的私密和安全性，上述投诉可视化图表还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请通过训练得到的语义识别模型识别投诉文本，可以准确识别投诉内容，提升识别效果，同时，可以自动的、大批量、高并发地处理投诉数据，通过识别得到的投诉标签创建投诉可视化图表进行投诉分析，提高投诉分析效率，节约成本。

在本实施例的一些可选的实现方式中，上述基于标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型的步骤包括：

步骤S301，根据标注数据集获得训练集，将训练集输入循环神经网络模型，通过输入层对训练集进行向量特征转换处理，获得特征数据。

在本实施例中，按照预设比例将投诉文本标注数据随机划分为训练集和测试集，使用训练对循环神经网络模型进行训练，使用测试集对训练完成的模型进行测试。

输入层中设置有向量转换端口，直接将训练集导入到向量转换端口进行向量特征转换处理，得到训练集对应的初始向量集合，将得到初始向量集合作为特征数据输入到循环神经网络模型的隐藏层中。

步骤S302，将特征数据输入隐藏层，计算出隐藏层的隐藏层结果。

具体的，获取输入层到隐藏层的第一权重矩阵、上一时刻隐藏层到当前时刻隐藏层的第二权重矩阵以及上一时刻隐藏层结果，采用激活函数，根据特征数据、第一权重矩阵、第二权重矩阵以及上一时刻隐藏层结果计算出隐藏层结果。

应当理解，隐藏层结果为当前时刻隐藏层的计算结果。RNN模型的循环体现在隐藏层，隐藏层能够捕捉序列的信息。隐藏层可以为一个，也可以为多个，所有隐藏层都有相同数量的隐藏单元，将上一时刻的结果与当前时刻的输入拼接成一个大的向量作为隐藏层的输入，即隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

隐藏层结果采用如下计算公式：

S_t＝f(U*x_t+W*S_t-1+b)

其中，U、W、b为模型需要学习更新的参数，U为输入层到隐藏层的第一权重矩阵，W为上一时刻隐藏层传入到当前时刻隐藏层的第二权重矩阵，b为偏置；x_t代表t时刻的输入的特征数据；S_t为t时刻的隐含层结果，作为下一时刻隐藏层的输入，也就是模型每一层隐藏层的输入有两个，一个是x_t，一个是上一时刻的隐藏层结果S_t-1，第一个隐藏层结果初始化为0；f为非线性的激活函数tanh，其表达式为：

步骤S303，将隐藏层结果输入至输出层中进行计算，得到输出结果。

具体的，输出结果采用如下计算公式：

O_t＝σ(V*S_t+c)

其中，V、c为模型需要学习更新的参数，V为是隐藏层到输出层的权重矩阵，O_t代表时刻t的输出结果，不仅仅取决于x_t，还取决于S_t-1；σ为激活函数softmax，用于预测分类。

在本实施例中，输出结果即为标注的语义标签。

步骤S304，根据所输出结果对循环神经网络模型进行迭代更新，得到语义识别模型。

具体的，根据输出结果计算损失函数，基于损失函数更新循环神经网络模型的模型参数，直至模型收敛，输出语义识别模型。

在本实施例中，损失函数的计算公式如下：

其中，N表示输入数据数目，x_t代表时刻为t时刻的输入的特征数据，O_t代表时刻t输出层的输出结果。

在本实施例中，RNN模型训练到一定程度，此时，RNN模型的性能达到最优状态，损失函数无法继续下降，即收敛。而判断收敛的方式只需要计算前后两轮迭代中的损失函数值，若损失函数值仍在变化，则可以继续选择训练集输入至RNN模型中继续进行迭代训练；若损失函数值没有显著变化，则可认为模型收敛，此时确定RNN模型训练完成，则停止训练，并输出得到最终的语义识别模型。

本实施例通过训练得到语义识别模型，可以自动的、大批量、高并发地处理投诉数据，同时提升识别准确率。

为了准确测试语义识别模型的识别结果，以及对语义识别模型的各项性能进行全面分析，本实施例将使用在机器学习中常用的三个评价指标对识别结果进行测评：准确率P(Precision)、召回率R(Recall)及F值(F-Score)。

需要说明，F值是准确率和召回率的调和平均，充分考虑了准确率和召回率的影响，相当于准确率和准确率的综合评价指标，因此，可以采用F值作为模型的主要评价指标。

具体地，将测试集输入语义识别模型，输出语义标签，基于语义标签计算出评估标准F值，F值作为评估结果，根据F值评估语义识别模型。

在本实施例的一些可选的实现方式中，上述根据投诉标签建立投诉可视化图表的步骤包括：

将投诉标签存储至数据库；

从数据库中获取预定时间段内的投诉标签作为目标投诉标签；

基于目标投诉标签的统计信息，建立投诉可视化图表。

在本实施例中，每次获取投诉文本对应的投诉标签后，可存储投诉标签至数据库，则数据库可存储有多个投诉标签。需要建立投诉可视化图表时，终端可以从数据库中拉取对应的数据。

在一些实施方式中，可对用户的历史投诉进行分析，则具体地，可确定待分析投诉文本对应的用户，然后从数据库中查找在指预定时间段内存储的用户对应的投诉标签，作为历史投诉标签，并将历史投诉标签与待分析投诉文本对应的投诉标签作为目标投诉标签，以基于目标投诉标签对应的投机信息，建立投诉可视化图表。其中，投诉标签用于确定用户的投诉原因，则可获取用户在预定时间段内的历史投诉原因，来建立投诉可视化图表。从而可对该用户本人的历史投诉进行分析，以便直观地呈现用户历史投诉原因以及哪些问题是用户关注、有解决还是未解决等，从而有利于通过对历史投诉原因的分析来指导应答，提高对用户投诉的应答效率和质量，进而提高对用户的客户服务质量，并有利于提高对用户投诉原因的识别准确性和效率。

在一些实施例中，用户本次投诉可能出于多个原因，则可对用户本次投诉对应的投诉标签来生成投诉可视化图表，以便直观地观察到哪些问题是急需解决的，有利于提高对用户投诉的应答效率和质量。

在本实施例中，可以通过对预定时间段内的目标投诉标签进行统计分析，得到目标投诉标签对应的统计信息，基于统计信息建立投诉可视化图表。

在本实施例中，上述基于目标投诉标签的统计信息，建立投诉可视化图表的步骤包括：

确定每个目标投诉标签的第一数量和所有目标投诉标签的第二数量；

根据第一数量以及第二数量，确定每个目标投诉标签的统计参数；

根据统计参数生成投诉可视化图表。

应当理解，统计信息包括每个目标投诉标签的累计数量(即第一数量)、所有目标投诉标签的总累计数量(即第二数量)等。获取在预定时间段内存储于数据库的目标投诉标签后，可以根据每个目标投诉标签对应的累计数量以及所有目标投诉标签对应的总累计数量，确定每个目标投诉标签的统计参数，并生成统计参数对应的可视化图表。其中，统计参数包括每个目标投诉标签对应的累计数量占总累计数量的占比、累计数量的变化率中的至少一个，由此可得到指定时间段内每个目标投诉标签的投诉率、增长或衰减变化率等统计参数。

在一些实施方式中，若统计参数包括每个目标投诉标签对应的累计数量占总累计数量的占比，则可根据各目标投诉标签的占比来生成对应的饼图或者直方图，从而直观呈现各目标投诉标签的占比。若统计参数可包括每个目标投诉标签对应的累计数量的变化率，则可生成对应的折线图，以直观呈现变化率，当然还可生成条形图等，在此不做限定。

在本实施例中，建立投诉可视化图表后，可将该投诉可视化图表进行显示，以呈现该投诉可视化图表，以便更能直观进行分析、监控。

在本实施例的一些可选的实现方式中，上述在将待分析投诉文本输入语义识别模型，输出投诉标签的步骤之后还包括：

确定投诉标签对应的答复文本；

将答复文本发送至待分析投诉文本对应的用户终端。

其中，答复文本可以根据历史投诉文本进行预先设置，还可以根据业务可能出现的问题进行预先设置，将预先设置的答复文本进行存储。

具体的，获取待分析投诉文本对应的投诉标签之后，还可根据投诉标签确定投诉标签对应的答复文本，以对投诉文本进行答复，从而可自动针对性地对用户的投诉原因进行答复，提高客诉问题的处理效率，并且基于上述的语义识别模型，可在无需穷举关键词的情况下，无需耗费大量人力的情况下提高对用户投诉原因的识别准确性。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图4，作为对上述图2所示方法的实现，本申请提供了一种基于语义识别的投诉分析装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的基于语义识别的投诉分析装置400包括：获取模块401、标注模块402、训练模块403、识别模块404以及创建模块405。

其中：

获取模块401用于获取投诉文本数据集，预处理所述投诉文本数据集；

标注模块402用于对预处理后的所述投诉文本数据集进行标注，得到标注数据集；

训练模块403用于基于所述标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型；

识别模块404用于将待分析投诉文本输入所述语义识别模型，输出投诉标签；

创建模块405用于根据所述投诉标签建立投诉可视化图表，以进行投诉分析。

上述基于语义识别的投诉分析装置，通过训练得到的语义识别模型识别投诉文本，可以准确识别投诉内容，提升识别效果，同时，可以自动的、大批量、高并发地处理投诉数据，通过识别得到的投诉标签创建投诉可视化图表进行投诉分析，提高投诉分析效率，节约成本。

在本实施例中，训练模块403包括特征子模块、隐藏层子模块、输出子模块以及迭代子模块，其中：

特征子模块用于根据所述标注数据集获得训练集，将所述训练集输入循环神经网络模型，通过输入层对所述训练集进行向量特征转换处理，获得特征数据；

隐藏层子模块用于将所述特征数据输入隐藏层，计算出隐藏层的隐藏层结果；

输出子模块用于将所述隐藏层结果输入至所述输出层中进行计算，得到输出结果；

迭代子模块用于根据所述输出结果对所述循环神经网络模型进行迭代更新，得到语义识别模型。

在本实施例中，隐藏层子模块进一步用于：

在本实施例中，迭代子模块进一步用于：

根据所述输出结果计算损失函数；

在本实施例的一些可选的实现方式中，创建模块405包括存储子模块、获取子模块和建立子模块，其中：

存储子模块用于将所述投诉标签存储至数据库；

获取子模块用于从所述数据库中获取预定时间段内的所述投诉标签作为目标投诉标签；

建立子模块用于基于所述目标投诉标签的统计信息，建立投诉可视化图表。

本实施例通过对预定时间段内的投诉标签进行分析，并建立投诉可视化图表，可以直观地呈现用户历史投诉原因以及哪些问题是用户关注、有解决还是未解决等，从而有利于通过对历史投诉原因的分析来指导应答，提高对用户投诉的应答效率和质量。

在本实施例中，建立子模块进一步用于：

根据所述统计参数生成投诉可视化图表。

本实施例可以得到指定时间段内每个目标投诉标签的投诉率、增长或衰减变化率等统计参数，进而生成投诉可视化图表，可以直观地观察到哪些问题是急需解决的，有利于提高对用户投诉的应答效率和质量。

在本实施例中，上述基于语义识别的投诉分析装置400还包括答复模块，用于：

确定所述投诉标签对应的答复文本；

本实施例可以实现自动针对性地对用户的投诉原因进行答复，提高客诉问题的处理效率。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图5，图5为本实施例计算机设备基本结构框图。

所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是，图中仅示出了具有组件51-53的计算机设备5，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器51可以是所述计算机设备5的内部存储单元，例如该计算机设备5的硬盘或内存。在另一些实施例中，所述存储器51也可以是所述计算机设备5的外部存储设备，例如该计算机设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中，所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件，例如基于语义识别的投诉分析方法的计算机可读指令等。此外，所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中，所述处理器52用于运行所述存储器51中存储的计算机可读指令或者处理数据，例如运行所述基于语义识别的投诉分析方法的计算机可读指令。

所述网络接口53可包括无线网络接口或有线网络接口，该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例基于语义识别的投诉分析方法的步骤，通过训练得到的语义识别模型识别投诉文本，可以准确识别投诉内容，提升识别效果，同时，可以自动的、大批量、高并发地处理投诉数据，通过识别得到的投诉标签创建投诉可视化图表进行投诉分析，提高投诉分析效率，节约成本。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于语义识别的投诉分析方法的步骤，通过训练得到的语义识别模型识别投诉文本，可以准确识别投诉内容，提升识别效果，同时，可以自动的、大批量、高并发地处理投诉数据，通过识别得到的投诉标签创建投诉可视化图表进行投诉分析，提高投诉分析效率，节约成本。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于语义识别的投诉分析方法，其特征在于，包括下述步骤：

获取投诉文本数据集，预处理所述投诉文本数据集；

将待分析投诉文本输入所述语义识别模型，输出投诉标签；

根据所述投诉标签建立投诉可视化图表，以进行投诉分析。

2.根据权利要求1所述的基于语义识别的投诉分析方法，其特征在于，所述循环神经网络模型包括输入层、隐藏层和输出层，所述基于所述标注数据集对预构建的循环神经网络模型进行训练，得到语义识别模型的步骤包括：

将所述特征数据输入隐藏层，计算出隐藏层的隐藏层结果；

3.根据权利要求2所述的基于语义识别的投诉分析方法，其特征在于，所述将所述特征数据输入隐藏层，计算出隐藏层的隐藏层结果的步骤包括：

4.根据权利要求2所述的基于语义识别的投诉分析方法，其特征在于，所述根据所述输出结果对所述循环神经网络模型进行迭代更新，得到语义识别模型的步骤包括：

根据所述输出结果计算损失函数；

5.根据权利要求1所述的基于语义识别的投诉分析方法，其特征在于，所述根据所述投诉标签建立投诉可视化图表的步骤包括：

将所述投诉标签存储至数据库；

基于所述目标投诉标签的统计信息，建立投诉可视化图表。

6.根据权利要求5所述的基于语义识别的投诉分析方法，其特征在于，所述基于所述目标投诉标签的统计信息，建立投诉可视化图表的步骤包括：

根据所述统计参数生成投诉可视化图表。

7.根据权利要求1所述的基于语义识别的投诉分析方法，其特征在于，在所述将待分析投诉文本输入所述语义识别模型，输出投诉标签的步骤之后还包括：

确定所述投诉标签对应的答复文本；

8.一种基于语义识别的投诉分析装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于语义识别的投诉分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于语义识别的投诉分析方法的步骤。