CN109543030B

CN109543030B - 客服机器人会话文本分类方法及装置、设备、存储介质

Info

Publication number: CN109543030B
Application number: CN201811191509.3A
Authority: CN
Inventors: 许开河; 杨坤; 王少军; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2023-04-07
Anticipated expiration: 2038-10-12
Also published as: WO2020073530A1; CN109543030A

Abstract

本申请揭示了一种客服机器人会话文本分类方法及装置。所述方法包括：获取客服机器人在所进行会话中的输入语句，转换所述输入语句为标准会话文本，所述输入语句是等待所述客服机器人处理响应的会话消息；通过对所述标准会话文本进行语义特征提取获得所述标准会话文本对应的语义向量；对所述标准会话文本的语义向量进行类别标签预测，获得所述标准会话文本对应的类别标签概率向量；从所述类别标签概率向量中选取最大概率标签所对应的类别作为所述标准会话文本的类别，所述类别用于辅助执行所述客服机器人对所述输入文本的响应。本申请所提供的方法能够对客服机器人获取的输入语句进行准确分类。

Description

客服机器人会话文本分类方法及装置、设备、存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种客服机器人会话文本分类方法及装置、电子设备、计算机可读存储介质。

背景技术

在客服机器人的FAQ(常见问题解答)场景中，每个知识点对应一个标准问题，标准问题有多种问法，这些不同的问法称为扩展问题。客服机器人获取扩展问题后，需要使用文本分类模型对扩展问题进行分类，得到扩展问题所对应标准问题的类别，然后根据所得标准问题的类别从自身知识库中提取与标准问题类别相匹配的回答。因此，是否对扩展问题进行了准确分类是客服机器人是否能够准确回答客户提问的关键。

现有的文本分类模型对扩展问题进行分类的过程中，将扩展问题映射至向量空间，通过对向量空间的切分判断获得扩展问题所对应向量属于向量空间中的哪一标准问题类别控制区域，此控制区域所对应的类别即为扩展问题所对应的标准问题类别。有些知识点对应的扩展问题数量比较少，这些扩展问题对应的标准问题类别在向量空间中的控制区域也比较少，导致对这些扩展问题进行文本分类时容易被错分，从而不能准确获得这些扩展问题对应的标准问题类别。

因此，如何对客服机器人获取的扩展问题进行准确分类是现有技术中有待解决的问题。

发明内容

基于上述技术问题，本申请提供了一种客服机器人会话文本分类方法及装置、电子设备、计算机可读存储介质。

本申请所揭示的技术方案包括：

一种客服机器人会话文本分类方法，包括：获取客服机器人在所进行会话中的输入语句，转换所述输入语句为标准会话文本，所述输入语句是等待所述客服机器人处理响应的会话消息；通过对所述标准会话文本进行语义特征提取获得所述标准会话文本对应的语义向量；对所述标准会话文本的语义向量进行类别标签预测，获得所述标准会话文本对应的类别标签概率向量；从所述类别标签概率向量中选取最大概率标签所对应的类别作为所述标准会话文本的类别，所述类别用于辅助执行所述客服机器人对所述输入文本的响应。

进一步地，所述获取客服机器人在所进行会话中的输入语句，转换所述输入语句为标准会话文本，包括：通过对所述输入语句进行编码，提取得到所述输入语句的关键语义特征；对所述关键语义特征进行解码，获得所述输入语句对应的标准会话文本。

进一步地，所述通过对所述输入语句进行编码提取所述输入语句的关键语义特征，包括：通过进行所述输入语句中词语的向量化获得所述输入语句中词语对应的词向量；按照时间先后顺序对所述输入语句中词语对应的词向量进行遍历，提取遍历所得的第一隐状态向量为所述输入语句的语义向量。

进一步地，所述通过对所述标准会话文本进行语义特征提取获得所述标准会话文本对应的语义向量，包括：获取所述关键语义特征解码所得的第二隐状态向量，由所述第二隐状态向量构成隐状态向量矩阵；根据所述隐状态向量矩阵对所述标准会话文本进行语义特征提取；通过对所提取语义特征的池化获得所述标准会话文本对应的语义向量。

进一步地，所述对所述标准会话文本的语义向量进行类别标签预测，获得所述标准会话文本对应的类别标签概率向量，包括：通过目标参数矩阵对所述标准会话文本的语义向量进行非线性映射，获得所述标准会话文本在文本类别标记空间中的状态向量；对所述标准会话文本在文本类别标记空间的状态向量进行概率归一化，得到所述标准会话文本对应的类别标签概率向量。

进一步地，所述客服机器人会话文本分类方法还包括：对进行所述输入语句转换成所述标准会话文本的翻译偏差和对所述标准会话文本进行文本分类的分类偏差进行求和运算，获得输入语句分类偏差；通过最小化所述输入语句分类偏差对所述目标参数矩阵进行更新。

一种客服机器人会话文本分类装置，包括：输入语句转换模块，用于获取客服机器人在所进行会话中的输入语句，转换所述输入语句为标准会话文本，所述输入语句是等待所述客服机器人处理响应的会话消息；语义特征提取模块，用于通过对所述标准会话文本进行语义特征提取获得所述标准会话文本对应的语义向量；文本类别预测模块，用于对所述标准会话文本的语义向量进行类别标签预测，获得所述标准会话文本对应的类别标签概率向量；文本类别获取模块，用于从所述类别标签概率向量中选取最大概率标签所对应的类别作为所述标准会话文本的类别，所述类别用于辅助执行所述客服机器人对所述输入文本的响应。

一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的客服机器人会话文本分类方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的客服机器人会话文本分类方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，客服机器人在所进行会话中的输入语句为客服机器人获取的扩展问题，标准会话文本则为此扩展问题所对应的标准问题。本申请获取客服机器人在所进行会话中的输入语句后，先将输入语句转换为标准会话文本，然后再使对所得的标准会话文本进行文本分类。

由于类别不同的标准会话文本数量往往只有一个，文本类别标记空间中不同标准会话文本类别所对应控制区域的大小相同，使得在对标准会话文本进行文本分类时，不会因为文本类别标记空间中的控制区域大小不一致而导致错分，从而能够对客服机器人获取的输入语句进行准确分类。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种客服机器人的硬件框图；

图2是根据一示例性实施例示出一种客服机器人会话文本分类方法的流程图；

图3是根据图2对应实施例示出的对步骤210进行描述的流程图；

图4是根据一示例性实施例示出的一种对输入语句进行编码和解码过程的示意图；

图5是根据图2对应实施例示出的对步骤230进行描述的流程图；

图6是根据图2对应实施例示出的对步骤250进行描述的流程图；

图7是根据另一示例性实施例示出一种客服机器人会话文本分类方法的流程图；

图8是根据一示例性实施例示出一种客服机器人会话文本分类装置的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种客服机器人的硬件框图。需要说明的是，该客服机器人只是一个适配于本公开的示例，不能认为是提供了对本公开使用范围的任何限制。

如图1所示，客服机器人可以包括以下一个或者多个组件：处理组件101，存储器102，电源组件103，多媒体组件104，音频组件105，传感器组件107以及通信组件108。其中，上述组件并不全是必须的，客服机器人可以根据自身功能需求增加其他组件或减少某些组件，本实施例不作限定。

处理组件101通常控制客服机器人的整体操作，诸如与显示，数据通信，相机操作以及日志数据处理相关联的操作等。处理组件101可以包括一个或多个处理器109来执行指令，以完成上述操作的全部或部分步骤。此外，处理组件101可以包括一个或多个模块，便于处理组件101和其他组件之间的交互。例如，处理组件101可以包括多媒体模块，以方便多媒体组件104和处理组件101之间的交互。

存储器102被配置为存储各种类型的数据以支持在客服机器人的操作。这些数据的示例包括用于在客服机器人上操作的任何应用程序或方法的指令。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(静态随机存取存储器)，EEPROM(电可擦除可编程只读存储器)，EPROM(可擦除可编程只读存储器)，PROM(可编程只读存储器)，ROM(只读存储器)，磁存储器，快闪存储器，磁盘或光盘。存储器102中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器109执行，以完成以下任一所示方法中的全部或者部分步骤。

电源组件103为客服机器人的各种组件提供电力。电源组件103可以包括电源管理系统，一个或多个电源，及其他与为客服机器人生成、管理和分配电力相关联的组件。

多媒体组件104包括在所述客服机器人和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括LCD(液晶显示器)和TP(触摸面板)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件105被配置为输出和/或输入音频信号。例如，音频组件105包括一个麦克风，当客服机器人处于操作模式，如记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。音频组件105还包括一个扬声器，用于输出音频信号，以实现客服机器人与客户之间进行会话操作。

传感器组件107包括一个或多个传感器，用于为计算机设备提供各个方面的状态评估。例如，传感器组件107可以检测到客服机器人的打开/关闭状态，组件的相对定位，传感器组件107还可以检测客服机器人或客服机器人一个组件的坐标改变以及客服机器人的温度变化。在一些实施例中，该传感器组件107还可以包括磁传感器，压力传感器或温度传感器。

通信组件108被配置为便于客服机器人和其他设备之间有线或无线方式的通信。客服机器人可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。

在示例性实施例中，客服机器人可以被一个或多个ASIC(应用专用集成电路)、DSP(数字信号处理器)、PLD(可编程逻辑器件)、FPGA(现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在本实施例中，客服机器人是用于自动执行对话工作的机器装置，具体可以是一种智能手机、平板电脑、笔记本电脑等终端设备，或者是其他具备特定外形和功能的机器设备。

本实施例中的客服机器人的处理器执行操作的具体方式将在有关客服机器人会话文本分类方法的实施例中进行详细描述，此处将不做详细阐述说明。

图2是根据一示例性实施例示出的一种客服机器人会话文本分类方法的流程图，该方法适用于图1所示的客服机器人。如图2所示，该方法可以包括以下步骤：

在步骤210中，获取客服机器人在所进行会话中的输入语句，转换输入语句为标准会话文本。

其中，客服机器人在进行会话中的输入语句是等待客服机器人处理响应的会话消息，便于理解的，输入语句为客服机器人与客户所进行会话过程中客户向客服机器人输入的扩展问题。

例如，客户向客服机器人输入“你好，我想请问一下车主卡的年费是怎样的”、“请问我申请的车主卡要收年费么”、“我问下，我这张车主卡的免年费要求是什么”等输入语句，这些输入语句均为标准问题“车主卡年费”所对应的扩展问题。

输入语句可以是客服机器人通过识别客户输入的语音信号获得。例如，客服机器人通过所自身配置的麦克风获取客户输入的提问语音，并对获取的提问语音进行语音识别获得输入语句。

输入语句还可以通过客服机器人所配置的触摸屏获取。例如，客户通过在客服机器人所配置的触摸屏上输入想要提问的问题，此时，客服机器人直接获取触摸屏上输入的文本信息为输入语句。

获取输入语句后，将输入语句转换成输入语句所对应的标准会话文本。其中，标准会话文本为扩展问题所对应的标准问题，如上述的“车主卡年费”。

在一实施例中，可通过文本翻译的方式将输入语句转换成输入语句所对应的标准会话文本。如图3所示，通过文本翻译的方式将输入语句转换成标准会话文本具体可以包括以下步骤：

在步骤211中，通过对输入语句进行编码，提取得到输入语句的关键语义特征。

其中，对输入语句进行解码是采用神经网络模型所进行的，以自动分析输入语句的关键语义特征。关键语义特征是用于表达输入语句语义的重要特征，与输入语句语义的关联程度较高，可以包括输入语句的结构特征和关键词。

本实施例可采用LSTM(Long Short-Term Memory，长短期神经网络)模型对输入语句进行解码，具体过程为：将输入语句的每一词向量顺序输入LSTM模型中，按照时间先后顺序对输入的词向量进行遍历，获取通过遍历得到隐状态向量，该隐状态向量则为输入语句对应的语义向量。

输入语句的词向量是通过对输入语句中的词语向量化所获得的。首先，对输入语句进行分词处理，将输入文本分割成若干个顺序排列的词语序列。例如，输入文本为“请问我申请的车主卡要收年费么”，进行分词处理可得到词组为“请问^我^申请^的^车主卡^要^收^年费^么”。对输入语句进行分词处理可以是通过采用分词算法进行的，例如基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法等。

然后，将词语序列中的每一词语映射低维向量，获得每一词语对应的词向量。具体可采用one-hot(独热码)向量编码方式或者word2vec(word embeddings，词向量)向量编码方式进行，或者也可以采用其他方式，本处不进行限定。

需要说明的是，由于采用one-hot向量编码方式所得的向量没有存储输入语句中各词语之间的关联性，还需对每一词语所得的one-hot向量加上权重信息。每一词语所加的权重大小与该词语对输入语句语义的关联程度有关，例如在上述输入语句“请问我申请的车主卡要收年费么”中，“车主卡”、“年费”这2个词语对输入语句的语义关联性较大，其所对应的权重应当较高，而“请问”、“我”等词语明显与输入语句的语义关联性不高，其所对应的权重也较低。

通过word2vec向量编码方式获得的每一词向量也与输入语句的语义相关联，通过word2vec方式获得的每一词向量仍能够反映每一词语对输入语句语义的关联程度。

将输入语句的每一词向量顺序输入LSTM模型中，按照时间先后顺序对输入的词向量进行遍历的具体过程如图4所示。将词向量X1、X2、X3按照时间顺序依次输入LSTM模型中，并更新不同时刻的隐藏层状态，每一时刻隐藏层状态的更新依赖于上一时刻更新的隐藏层状态，将更新至EOS(end of sentence,句尾)所输出的第一隐状态向量L作为输入语句的语义向量。

通过对输入语句中每一词向量在LSTM模型中进行遍历，输出的第一隐状态向量L能够建立每一词语结合输入语句全局的语义表达，使得获取的语义向量充分关联了输入语句的关键语义特征。

在本实施例中，对输入语句中的每一词向量进行遍历还可以采用Bi-LSTM(Bi-Long Short-Term Memory，双向长短期神经网络)模型，本处并不对此进行限定。

在步骤213中，对关键语义特征进行解码，获得输入语句对应的标准会话文本。

其中，对输入语句的关键特征进行解码采用另一LSTM模型或者Bi-LSTM模型进行，下文以LSTM模型为例进行说明。

具体解码过程仍如图4所示，将编码所得输入语句的语义向量L作为初始值输入LSTM模型中，计算此时刻输出词语的概率分布，获得可能输出的词语概率，然后依据可能输出的词语概率进行采样获得该时刻最终输出的词语O，并更新隐藏层状态。接下来，将该时刻最终输出的词语向量O作为下一时刻的输入，并将更新的隐藏层状态传入下一时刻，计算下一时刻输出的词语P。如此循环，直至输出句尾表示解码完成。

将解码输出的词语按照时间先后顺序排列所得的词语序列即为对输入语句进行文本翻译所得的标准会话文本。

需要说明的是，对输入语句所进行的文本翻译可以是由客服机器人所配置的处理器执行的，也可以由与客服机器人预先建立有线或者无线网络连接的服务器执行，本实施例并不对比进行限定。

在步骤230中，通过对标准会话文本进行语义特征提取获得标准会话文本对应的语义向量。

其中，为了实现对客服机器人与客户之间的会话，将输入语句转换为标准会话文本后，还需对标准会话文本进行文本分类，以使客服机器人根据标准会话文本对应的类别执行对输入语句的响应。

为了获得标准会话文本的类别，在一实施例中，采用卷积神经网络(CNN)模型对标准会话文本进行语义特征提取，获得标准会话文本对应的语义向量。如图5所示，对标准会话文本进行语义特征提取具体可以包括至少以下步骤：

在步骤231中，获取关键语义特征解码所得的第二隐状态向量，由第二隐状态向量构成隐状态向量矩阵。

其中，关键语义特征解码所得的第二隐状态向量为步骤213中，每一输出词语所对应的隐藏层状态向量。将解码所得的若干第二隐状态向量依次排列组成维数为sequence_length(状态序列长度)×hidden_size(隐状态向量数量)的向量矩阵即可获得隐状态向量矩阵。其中，状态序列长度为第二隐状态向量中所含元素的数量。

在本实施例中，将所得的隐状态向量矩阵作为卷积神经网络的输入层。

在步骤233中，根据隐状态向量矩阵对标准会话文本进行语义特征提取。

其中，获得隐状态向量矩阵后，通过卷积神经网络的卷积层对隐状态向量矩阵进行卷积，以对输入层进行卷积操作得到若干个Feature Map(特征标签)。卷积窗口的大小为隐状态向量矩阵中状态序列长度×隐状态向量数量。

使用卷积神经网络的卷积层对隐状态向量矩阵进行卷积处理后，获得若干个列数为1的特征标签，这些特征标签用于表示标准会话文本的语义特征。

在步骤235中，通过对所提取语义特征的池化获得标准会话文本对应的语义向量。

其中，对所提取语义特征的池化是通过卷积神经网络模型的池化层进行的。池化层通过从卷积层获取的每一特征标签中提取出最大值所对应的特征向量，并通过对组合这些提取的特征向量获得标准会话文本对应的语义向量。

在步骤250中，对标准会话文本的语义向量进行类别标签预测，获得标准会话文本对应的类别标签概率向量。

其中，对标准会话文本的语义向量进行类别标签预测，是根据标准会话文本的语义向量预测该标准会话文本满足文本类别标记空间中每一控制区域的概率。文本类别标记空间为预置的样本空间，文本类别标记空间中的控制区域相应为预置的若干标准问题类别。预测所得类别标签概率向量中的每一元素为标准会话文本分别满足文本类别标记空间中每一控制区域的概率。

如图6所示，在一实施例中，对标准会话文本的语义向量进行类别标签预测具体可以包括以下步骤：

在步骤251中，通过目标参数矩阵对标准会话文本的语义向量进行非线性映射，获得标准会话文本在文本类别标记空间中的状态向量。

其中，通过目标参数矩阵对标准会话文本的语义向量进行非线性映射，是用于将标准会话文本的语义向量映射至文本类别标记空间，从而将标准会话文本与样本空间建立关联。

目标参数矩阵则为将标准会话文本的语义向量映射至文本类别标记空间的非线性映射条件，因此，目标参数矩阵中的参数值将会直接影响对标准会话文本的语义向量进行类别标签预测的准确程度。

将标准会话文本的语义向量映射至样本标记空间具体为，对语义向量与目标参数矩阵进行加权和运算，用公式可表达为：z＝Wx，其中“W”表示目标参数矩阵，“x”表示标准会话文本的语义向量，“z”则相应表示该标准会话文本在文本类别标记空间中的状态向量。

在步骤253中，对标准会话文本在文本类别标记空间的状态向量进行概率归一化，得到标准会话文本对应的类别标签概率向量。

在一实施例中，对标准会话文本在文本类别标记空间的状态向量进行概率归一化是通过Softmax多分类预测函数进行的。Softmax多分类预测函数的定义如下：

其中，“k”表示文本类别标记空间中所分文本类别的数量。通过Softmax多分类预测函数将标准会话文本在文本类别标记空间中的状态向量映射成由(0,1)之间的概率值序列组合形成的概率向量，以获得标准会话文本所对应的类别标签概率向量。

在步骤170中，从所述类别标签概率向量中选取最大概率标签所对应的类别作为标准会话文本的类别。

其中，如前所述，类别标签概率向量中每一元素为该标准会话文本分别满足文本类别标记空间中每一控制区域的概率，概率最大控制区域所标记的类别最接近标准会话文本的真实类别。

因此，从类别标签概率向量中选取最大概率标签所对应的类别作为标准会话文本的类别，能够最大可能地接近标准会话文本的真实类别，从而对标准会话文本的类型进行准确预测。

应当说明的是，与上述将输入语句转换为标准会话文本相同，本实施例对标准会话文本进行文本分类的过程可以是由客服机器人所配置的处理器执行的，也可以由与客服机器人预先建立有线或者无线网络连接的服务器执行。

在本实施例中，先将输入语句转换为标准会话文本，然后再对标准会话文本进行文本分类。由于文本类别标记空间中每一控制区域对应为预置的每一标准问题，并且标准会话文本为输入语句所对应的标准问题，在对标准会话文本进行文本分类时，该文本类别标记空间中每一控制区域的大小是相同的，使得本实施例在对标准会话文本进行文本分类时，不会因为文本类别标记空间中控制区域大小不同而被错分。因此，本申请所提供的方法能够对输入语句对应的类别进行准确预测。

在一种应用场景中，客服机器人获取输入语句的类别后，从自身知识库中选取与此类别相匹配的回答语句，并通过客服机器人所配置的扬声器输出该回答语句的语音，或者通过所配置的LCD屏幕对回答语句进行文本显示，从而与用户进行会话。

上述本发明提供客服机器人会话文本分类方法可分别用作离线训练阶段和在线预测阶段。其中，离线训练的目的在于优化步骤251中的目标参数矩阵，以获得最优的目标参数矩阵。在线预测阶段则直接使用离线训练阶段获得的最优目标参数矩阵对输入语句进行文本分类，直接输出输入语句的最优类别。

图7是另一示例性实施例示出的一种客服机器人会话文本分类方法，该方法适用于离线训练阶段。如图7所示，该方法在获取标准会话文本的类别后，还可以包括以下步骤：

在步骤310中，对进行输入语句转换成所述标准会话文本的翻译偏差和对标准会话文本进行文本分类的分类偏差进行求和运算，获得输入语句分类偏差。

其中，翻译偏差是对输入语句转换成的标准会话文本与输入语句的真实标准会话文本之间的误差值，分类偏差是对标准会话文本进行文本分类所得的类别与标准会话文本的真实类别之间的误差值。

在一实施例中，输入语句分类偏差是根据交叉熵损失函数计算得出的。在对输入语句进行文本分类的过程中，由于对输入语句进行文本翻译的准确性和对标准会话文本进行文本分类的准确性均能影响对输入语句进行文本分类的准确度，本发明定义的交叉熵损失函数包括此两部分损失函数的和。

本发明定义的交叉熵损失函数为：

其中，p(x)表示文本翻译中，将输入语句翻译为标准会话样本x的概率，只有当输入语句被翻译为真实的标准会话文本时p(x)的值为1，其余情况下p(x)的值为0。q(x)表示对输入语句进行文本翻译所得的概率。

p(i)表示文本分类中，将标准会话文本标注为类别i的概率，只有当标准会话文本被标注为真实的文本类别时p(i)的值为1，其余情况下p(i)的值为0。q(i)表示对标准会话文本进行文本分类所得的类别概率。

根据上述交叉熵损失函数，计算输入语句分类偏差H(p,q)的值。若计算的输入语句分类偏差小于预设阈值，则表示当前对输入语句进行分类预测所使用的目标参数矩阵不是最优的。

在步骤330中，通过最小化输入语句分类偏差对目标参数矩阵进行更新。

其中，如果所得的输入语句分类偏差小于预设阈值，需对输入语句分类偏差进行最小化。

在一实施例中，采用梯度下降算法对输入语句分类偏差进行最小化。具体处理过程为：对上述交叉熵损失函数进行求导运算，获得该交叉熵损失函数相对当前目标参数矩阵的偏导数。得到的偏导数也称为梯度值。然后将当前采用的目标参数矩阵与求得的偏导数进行减法运算，获得新的参数矩阵，并根据新的参数矩阵目标参数矩阵进行更新。

获取更新的参数矩阵后，仍按照步骤210至步骤270所描述的方法对输入语句进行下一次文本分类训练，此时所采用的目标参数矩阵为更新的参数矩阵。获得输入语句对应的类别后，根据上述交叉熵损失函数计算输入语句分类偏差。

若获得的输入语句分类偏差仍小于预设阈值，则重复步骤310和步骤330所描述的方法对目标参数矩阵进行更新，并按照步骤210至步骤270所描述的方法对输入语句进行下一次文本分类训练，直至获得的输入语句分类偏差大于预设阈值，则表示此次对输入语句进行文本分类训练使用的目标参数矩阵最优，此时离线训练阶段完成。在线预测阶段则直接使用此次训练所使用的目标参数进行输入语句的在线预测。

如图7所示，在一示例性实施例中，本申请还提供一种客服机器人会话文本分类装置，该装置包括输入语句转换模块410、语义特征提取模块430、文本类别预测模块450和文本类别获取模块470。

输入语句转换模块410用于获取客服机器人在所进行会话中的输入语句，转换输入语句为标准会话文本，输入语句是等待客服机器人处理响应的会话消息。

语义特征提取模块430用于通过对标准会话文本进行语义特征提取获得标准会话文本对应的语义向量。

文本类别预测模块450用于对标准会话文本的语义向量进行类别标签预测，获得标准会话文本对应的类别标签概率向量。

文本类别获取模块470用于从类别标签概率向量中选取最大概率标签所对应的类别作为标准会话文本的类别，该类别用于辅助执行所述客服机器人对所述输入文本的响应。

在另一示例性实施例中，输入语句转换模块410可以具体包括语句编码单元和语句解码单元。

语句编码单元通过对输入语句进行编码，提取得到输入语句的关键语义特征。

语句解码单元用于对关键语义特征进行解码，获得输入语句对应的标准会话文本。

在另一示例性实施例中，语句编码单元可以具体包括词向量获取子单元和语义向量获取子单元。

词向量获取子单元用于通过进行输入语句中词语的向量化获得输入语句中词语对应的词向量。

语义向量获取子单元用于按照时间先后顺序对输入语句中词语对应的词向量进行遍历，提取遍历所得的第一隐状态向量为输入语句的语义向量。

在另一示例性实施例中，语义特征提取模块430可以具体包括特征获取单元、特征提取单元和特征池化单元。

特征获取单元用于获取关键语义特征解码所得的第二隐状态向量，由第二隐状态向量构成隐状态向量矩阵。

特征提取单元用于根据隐状态向量矩阵对标准会话文本进行语义特征提取。

特征池化单元通过对所提取语义特征的池化获得标准会话文本对应的语义向量。

在另一示例性实施例中，文本类别预测模块450还可以具体包括状态向量获取单元和类别标签概率向量获取单元。

状态向量获取单元用于通过目标参数矩阵对标准会话文本的语义向量进行非线性映射，获得标准会话文本在文本类别标记空间中的状态向量。

类别标签概率向量获取单元对标准会话文本在文本类别标记空间的状态向量进行概率归一化，得到标准会话文本对应的类别标签概率向量。

在另一示例性实施例中，机器人会话文本分类装置还包括输入语句分类偏差获取模块和参数更新模块。

输入语句分类偏差获取模块用于对进行输入语句转换成标准会话文本的翻译偏差和对标准会话文本进行文本分类的分类偏差进行求和运算，获得输入语句分类偏差。

参数更新模块用于通过最小化输入语句分类偏差对目标参数矩阵进行更新。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

在一示例性实施例中，本申请还提供一种电子设备，该电子设备包括：

处理器；

存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所示的客服机器人会话文本分类方法。

在一示例性实施例中，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所示的客服机器人会话文本分类方法。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种客服机器人会话文本分类方法，其特征在于，包括：

获取客服机器人在所进行会话中的输入语句，所述输入语句是等待所述客服机器人处理响应的会话消息；

通过神经网络模型对所述输入语句进行编码，提取得到所述输入语句的关键语义特征；

通过另一神经网络模型对所述关键语义特征进行解码，获得所述输入语句对应的标准会话文本；

通过对所述标准会话文本进行语义特征提取获得所述标准会话文本对应的语义向量；

对所述标准会话文本的语义向量进行类别标签预测，获得所述标准会话文本对应的类别标签概率向量；

从所述类别标签概率向量中选取最大概率标签所对应的类别作为所述标准会话文本的类别，所述类别用于辅助执行所述客服机器人对所述输入语句的响应。

2.根据权利要求1所述的方法，其特征在于，所述通过神经网络模型对所述输入语句进行编码提取所述输入语句的关键语义特征，包括：

通过进行所述输入语句中词语的向量化获得所述输入语句中词语对应的词向量；

通过神经网络模型按照时间先后顺序对所述输入语句中词语对应的词向量进行遍历，提取遍历所得的第一隐状态向量为所述输入语句的语义向量。

3.根据权利要求1所述的方法，其特征在于，所述通过对所述标准会话文本进行语义特征提取获得所述标准会话文本对应的语义向量，包括：

获取所述关键语义特征解码所得的第二隐状态向量，由所述第二隐状态向量构成隐状态向量矩阵；

根据对所述隐状态向量矩阵对所述标准会话文本进行语义特征提取；

通过对所提取语义特征的池化获得所述标准会话文本对应的语义向量。

4.根据权利要求1所述的方法，其特征在于，所述对所述标准会话文本的语义向量进行类别标签预测，获得所述标准会话文本对应的类别标签概率向量，包括：

通过目标参数矩阵对所述标准会话文本的语义向量进行非线性映射，获得所述标准会话文本在文本类别标记空间中的状态向量；

对所述标准会话文本在文本类别标记空间的状态向量进行概率归一化，得到所述标准会话文本对应的类别标签概率向量。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对进行所述输入语句转换成所述标准会话文本的翻译偏差和对所述标准会话文本进行文本分类的分类偏差进行求和运算，获得输入语句分类偏差；

通过最小化所述输入语句分类偏差对所述目标参数矩阵进行更新。

6.一种客服机器人会话文本分类装置，其特征在于，所述装置包括：

输入语句转换模块，用于获取客服机器人在所进行会话中的输入语句，所述输入语句是等待所述客服机器人处理响应的会话消息；通过神经网络模型对所述输入语句进行编码，提取得到所述输入语句的关键语义特征；通过另一神经网络模型对所述关键语义特征进行解码，获得所述输入语句对应的标准会话文本；

语义特征提取模块，用于通过对所述标准会话文本进行语义特征提取获得所述标准会话文本对应的语义向量；

文本类别预测模块，用于对所述标准会话文本的语义向量进行类别标签预测，获得所述标准会话文本对应的类别标签概率向量；

文本类别获取模块，用于从所述类别标签概率向量中选取最大概率标签所对应的类别作为所述标准会话文本的类别，所述类别用于辅助执行所述客服机器人对所述输入语句的响应。

7.如权利要求6所述的装置，其特征在于，所述文本类别预测模块包括：状态向量获取单元和类别标签概率向量获取单元；

所述状态向量获取单元用于通过目标参数矩阵对所述标准会话文本的语义向量进行非线性映射，获得所述标准会话文本在文本类别标记空间中的状态向量；

所述类别标签概率向量获取单元用于对所述标准会话文本在文本类别标记空间的状态向量进行概率归一化，得到所述标准会话文本对应的类别标签概率向量。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

偏差获取模块，用于对进行所述输入语句转换成所述标准会话文本的翻译偏差和对所述标准会话文本进行文本分类的分类偏差进行求和运算，获得输入语句分类偏差；

参数更新模块，用于通过最小化所述输入语句分类偏差对所述目标参数矩阵进行更新。

9.一种电子设备，其特征在于，所述设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至5任一项所述的客服机器人会话文本分类方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的客服机器人会话文本分类方法。