CN118116410A

CN118116410A - 一种坐席通话语音感情分析方法及装置

Info

Publication number: CN118116410A
Application number: CN202410227663.0A
Authority: CN
Inventors: 侯雅文
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-31

Abstract

本申请提供了一种坐席通话语音感情分析方法及装置，该方法可以实现准确地对坐席通话数据进行情感分析。具体地，可以先在目标坐席与客户进行通话的过程中采集的目标语音数据，然后对目标语音数据进行特征提取，得到目标通话语音数据的语音特征。接着，可以通过长短期记忆网络对语音特征进行识别，并将长短期记忆网络的最后一个时间步的隐藏状态信息作为目标分类器的输入，从而通过分类器得到情感识别结果。通过使用长短期记忆网络进行识别，能够捕捉语音通话中的长期依赖关系，有助于更加准确地理解和分类语音通话中的情感信息。这样，结合分类器，可以较为准确地对坐席通话语音数据中的情感信息进行提取，得到准确的情感识别结果。

Description

一种坐席通话语音感情分析方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种坐席通话语音感情分析方法及装置。

背景技术

人工客服中心可以包括多个客服坐席。每个客服坐席可以对应一个客服人员。在用户与人工客服中心进行通话时，可以将用户的通话转接到某个客服坐席，以便该客服坐席对应的客服人员与用户进行语音通话。上述过程可以被称为坐席通话。

为了提高服务质量，在一些场景中，可以对坐席通话进行录音，并基于录音进行分析。具体地，可以对坐席通话进行情感分析，以分析客服人员和/或用户在通话过程中的情感信息。目前，可以通过情感关键词匹配的方式对坐席通话进行情感分析。

但是，传统的分析方法不够准确，并且依赖大量的标注数据。而对于客服通话而言，获取标注数据的成本较高。

发明内容

有鉴于此，本申请提供了一种坐席通话语音感情分析方法及装置，旨在准确地对坐席通话进行情感分析。

第一方面，本申请提供，一种坐席通话语音感情分析方法，所述方法用于分析坐席通话语音的情感信息，所述方法包括：

获取目标通话语音数据，所述目标通话语音数据是目标坐席在与客户进行通话的过程中采集得到的；

对所述目标通话语音数据进行特征提取，得到所述目标通话语音数据的语音特征；

通过LSTM对所述语音特征进行识别；

将所述LSTM最后一个时间步的隐藏状态信息作为目标分类器的输入，通过所述目标分类器得到情感识别结果。

在一些可能的实现方式中，所述情感识别结果包括至少一个情感类型，和每个情感类型对应的情感强度，所述过所述目标分类器得到情感识别结果包括：

获得所述目标分类器的多个分类值和每个分类值的分类概率；

确定所述多个分类值中每个分类值对应的情感类型；

根据所述分类值对应的情感类别和所述分类值对应的分类概率，确定每个情感类型对应的情感强度。

在一些可能的实现方式中，所述对所述目标通话语音数据进行特征提取，得到所述目标通话语音数据的语音特征包括：

将所述目标通话语音数据转换为文字，得到原始文本数据；

对所述原始文本数据进行分词和筛选，得到目标文本数据；

将所述目标文本数据转换为向量，得到词语向量；

通过CNN对所述词语向量进行特征提取，得到所述目标通话语音数据的语音特征，所述语音特征包括多个对话词特征。

在一些可能的实现方式中，所述CNN的卷积层包括多个大小不同的卷积核，不同大小的卷积核用于对不同数量的相邻词语进行识别。

在一些可能的实现方式中，所述目标通话语音数据的语音特征包括至少一个特征词语；

所述通过LSTM对所述语音特征进行识别包括：

将所述多个对话词特征输入LSTM；

在LSTM进行特征识别的第i个时间步中，根据所述LSTM中每个单元的隐藏状态信息，计算每个对话词特征的注意力权重，所述i为正整数，且不大于所述LSTM对所述语音特征进行识别的时间步的总数量；

根据所述注意力权重计算每个对话词特征的上下文向量；

将所述上下文向量与所述LSTM中每个单元的隐藏状态信息融合。

第二方面，本申请提供一种坐席通话语音感情分析装置，所述装置用于分析坐席通话语音的情感信息，所述装置包括：

获取单元，用于获取目标通话语音数据，所述目标通话语音数据是目标坐席在与客户进行通话的过程中采集得到的；

特征提取单元，用于对所述目标通话语音数据进行特征提取，得到所述目标通话语音数据的语音特征；

识别单元，用于通过LSTM对所述语音特征进行识别；

分类单元，用于将所述LSTM最后一个时间步的隐藏状态信息作为目标分类器的输入，通过所述目标分类器得到情感识别结果。

在一些可能的实现方式中，所述情感识别结果包括至少一个情感类型，和每个情感类型对应的情感强度，

所述分类单元，具体用于获得所述目标分类器的多个分类值和每个分类值的分类概率；确定所述多个分类值中每个分类值对应的情感类型；根据所述分类值对应的情感类别和所述分类值对应的分类概率，确定每个情感类型对应的情感强度。

在一些可能的实现方式中，所述特征提取单元，具体用于将所述目标通话语音数据转换为文字，得到原始文本数据；对所述原始文本数据进行分词和筛选，得到目标文本数据；将所述目标文本数据转换为向量，得到词语向量；通过CNN对所述词语向量进行特征提取，得到所述目标通话语音数据的语音特征，所述语音特征包括多个对话词特征。

所述识别单元，具体用于将所述多个对话词特征输入LSTM；在LSTM进行特征识别的第i个时间步中，根据所述LSTM中每个单元的隐藏状态信息，计算每个对话词特征的注意力权重，所述i为正整数，且不大于所述LSTM对所述语音特征进行识别的时间步的总数量；根据所述注意力权重计算每个对话词特征的上下文向量；将所述上下文向量与所述LSTM中每个单元的隐藏状态信息融合。

第三方面，本申请提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面任一项所述的坐席通话语音感情分析方法。

第四方面，本申请提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面任一项所述的坐席通话语音感情分析方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述第一方面任一项所述的坐席通话语音感情分析方法。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的坐席通话语音感情分析方法的一种流程示意图；

图2为本申请实施例提供的坐席通话语音感情分析装置的一种结构示意图。

具体实施方式

针对坐席通话的情感分析是优化服务质量的一个重要方向。目前，可以通过基于规则或基于统计的技术对坐席通话进行情感分析。其中，基于规则的情感分析方法需要人工构建规则和词典，然后匹配语音通话中出现的关键词。通过情感词汇、否定词和程度副词等词汇来确定情感分析结果。基于统计技术的情感分析方法，可以预先获取多个训练数据，然后利用训练数据对机器学习模型进行训练，在利用机器学习模型对通话语音数据进行处理。

但是，上述两种实现方式都存在较为明显的缺点。

上述基于规则的情感分析方法依赖人工构建的规则和词典。如果规则和词典构建的不够全面，可能无法准确地识别出语音通话中的情感信息。上述基于机器学习模型的情感分析方法依赖大量的标注数据，存在成本高的问题。并且，如果标注数据覆盖的不够前面，也无法达到准确的识别效果。

为了解决上述问题，本申请实施例提供了一种坐席通话语音感情分析方法。该坐席通话语音感情分析方法可以应用于坐席通话语音感情分析装置。可选地，坐席通话语音感情分析装置可以运行于服务器，例如可以运行于人工客服中心的服务器或服务器集群。

下面从坐席通话语音感情分析装置的角度，对本申请实施例提供的坐席通话语音感情分析方法进行说明。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1为本申请实施例提供的坐席通话语音感情分析方法的一种方法流程图，包括：

S101：获取目标通话语音数据。

在本申请实施例中，坐席语音通话情感分析装置可以获取目标通话语音数据。目标通话语音数据可以是目标坐席在与客户进行通话的过程中采集得到的。具体地，可以在目标坐席对应的客服人员与客户进行通话的过程中对通话语音进行录制，以得到目标坐席对应的目标通话语音数据。可选地，目标通话语音数据可以包括一次通话的语音数据，也可以包括多次通话的语音数据。

S102：对目标通话语音数据进行特征提取，得到目标通话语音数据的语音特征。

在获取到目标通话语音数据之后，可以对目标通话语音数据进行特征提取，以得到目标通话语音数据的语音特征。其中，目标通话语音数据的语音特征，是指本申请实施例中能够输入长短期记忆网络的特征。可选地，语音特征可以是语音数据所具有的特征，也可以是语音数据转换为文字之后文字所具有的特征。

也就是说，在一些可能的实现方式中，可以先将目标通话语音数据转换为文字，然后再对文本数据进行特征提取，以得到目标通话语音数据的语音特征。

具体地，首先可以将目标通话语音数据转换为文字，得到原始文本数据。接着，可以对原始文本数据进行分词和筛选，从而得到分词后的目标文本数据。接着，可以将目标文本数据转换为向量，得到词语向量。最后，可以通过卷积神经网络(Convolutional NeuralNetworks,CNN)对词语向量进行特征提取，从而得到目标通话语音数据的语音特征。这样，先对目标通话语音数据进行预处理，然后基于CNN提取语音特征，可以得到有价值的语音特征，从而利用有价值的语音特征进行情感识别。

具体地，可以先通过自动语音识别(Automatic Speech Recognition，ASR)技术将目标通话语音数据转换为文本数据，得到原始文本数据。接着，可以对原始文本数据进行清洗，以去除原始文本数据中的特殊字符和标点符号等噪声数据。然后，可以对原始文本数据进行分词处理，将原始文本数据拆分成多个单个词语，并剔除与感情分析中无关的常见词汇，例如可以剔除常见专有名词等词汇，得到目标文本数据。可选地，目标文本数据可以是由多个词语组成的集合。

接着，可以将处理后的词语转换为向量，并将向量输入CNN。例如，可以通过Word2Vec将原始文本数据中每个词语转换为向量，并将限量输入一维CNN。通过CNN对词向量进行特征提取，可以挖掘词语中隐含的特征。这些特征在理解文本中的模式和结构中存在重要价值。可选地，由于对文本进行了分词，在本申请实施例中，可以将词语对应的特征称为“对话词特征”即语音特征可以包括多个对话词特征。

在实际场景中，客服人员或用户可能通过一个词语来表达感情，也可以通过多个词语表达感情。在本申请实施例中，为了准确地对目标通话语音数据进行情感分析，CNN所提取出的语音特征可以来自一个词语，也可以来自多个词语。

具体地，CNN的卷积层可以包括多个大小不同的卷积核。卷积核的大小指示卷积核能够处理的词语的数量，不同大小的卷积核用于对不同数量的相邻词语进行识别。例如，一个大小为3的卷积核可以捕捉相邻的三个词语组成的文本片段，并从这三个词语组成的文本片段中提取语音特征；一个大小为5的卷积核可以捕捉相邻的五个词语组成的文本片段，并从这五个词语组成的文本片段中提取语音特征。这样，通过多个大小不同的卷积核，可以从多个长度不同的文本片段中提取出与情感相关的语音特征，便于进行情感识别。

S103：通过长短期记忆网络LSTM对语音特征进行识别。

在获取到语音特征之后，可以通过长短期记忆网络(Long Short-Term Memory，LSTM)对语音特征进行识别。在将语音特征输入LSTM之后，可以由LSTM进行多步识别。每步识别可以被称为一个时间步。为了便于介绍，在本申请实施例中，假设LSTM进行了n个时间步，n为大于1的正整数。

其中，LSTM可以包括多个单元。每个单元可以包括输入门、遗忘门和输出门等组件。并且，每个单元内部可以包括隐藏状态信息和细胞状态息。输入的特征可以通过LSTM单元逐步传递，并更新每个单元的隐藏状态信息和细胞状态信息。LSTM通过内部的门控机制和记忆单元，能够有效地捕捉序列中的语义信息和长期依赖关系，从而对对话文本中的长期依赖关系进行建模。因此，基于LSTM对语音特征进行识别，能够挖掘出目标通话语音数据中的情感信息。

在一些可能的实现方式中，可以结合注意力机制和LSTM对语音特征进行识别。具体地，在将对话词特征输入LSTM之后，可以基于LSTM的单元中的隐藏状态信息计算注意力权重，从而根据注意力权重调整隐藏状态信息。

具体地，在LSTM进行特征识别的第i个时间步中(i为不大于n的正整数)，可以获取LSTM中每个单元的隐藏状态信息，然后基于隐藏状态信息计算每个对话词特征的注意力权重。由于注意力权重根据词语和单元的隐藏状态计算得到，注意力权重可以反映每个对话词特征对应的词语(或词语集合)对于情感分析的重要性。接着，可以基于注意力权重和对话词向量，计算对话词的上下文向量。对话词的上下文向量可以通过加权求和的方式计算得到。在得到对话词的上下文向量之后，可以将对话词的上下文向量作为额外的输入，与隐藏状态信息进行融合，从而更新LSTM的单元中的隐藏状态信息。如此，结合了注意力机制，可以确定词语对于情感分析的重要性，从而更好地对目标通话语音数据中的情感信息进行分析。

S104：将LSTM最后一个时间步的隐藏状态信息作为目标分类器的输入，通过目标分类器得到情感识别结果。

在通过LSTM对词语特征进行识别时，可以将LSTM最后一个时间步的隐藏状态信息作为目标分类器的输入，以便通过目标分类器得到情感识别结果。其中，目标分类器是预先训练的，用于确定语音数据的情感的分类器。

可选地，目标分类器可以从多个预设的类别中选择一个类别作为目标通话语音数据对应的类别，或者确定目标通话语音数据在每个类别的分布概率。可选地，上述多个类别中的每个类别可以代表一种预设的情绪。

例如，目标分类器可以输出多个分类值和每个分类值对应的分类概率。其中，每个分类值对应一种预设类型的情感。分类值对应的分类概率，表示目标通话语音数据对应的通话的情感为该预设类型的情感的可能性。因此，在通过目标分类器得到分类值和每个分类值对应的分类概率之后，可以确定每个分类值对应的情感类型，然后根据每个分类值对应的情感类型和分类概率，确定每个情感类型对应的情感强度。如此，可以得到目标通话语音数据对应的通话在每个情感类型上的情感强度。

可选地，目标分类器可以包括全连接层和Softmax激活函数。其中，全连接层用于将LSTM的隐藏状态信息进行分类，Softmax激活函数用于输出每个分类值的概率分布。

可选地，可以将上述通话在每个情感类型上的情感强度作为情感识别结果进行输出。或者，也可以根据情感强度，对多个情感类型进行融合后输出。例如，可以将情感强度最前的一个或多个情感类型作为情感识别结果进行输出。又例如，也可以相似的多个情感类型合并为一个类型进行输出

本申请提供了一种坐席通话语音感情分析方法，该方法可以实现准确地对坐席通话数据进行情感分析。具体地，可以先在目标坐席与客户进行通话的过程中采集的目标语音数据，然后对目标语音数据进行特征提取，得到目标通话语音数据的语音特征。接着，可以通过长短期记忆网络对语音特征进行识别，并将长短期记忆网络的最后一个时间步的隐藏状态信息作为目标分类器的输入，从而通过分类器得到情感识别结果。通过使用长短期记忆网络进行识别，能够捕捉语音通话中的长期依赖关系，有助于更加准确地理解和分类语音通话中的情感信息。这样，结合分类器，可以较为准确地对坐席通话语音数据中的情感信息进行提取，得到准确的情感识别结果。

以上为本申请实施例提供坐席通话语音感情分析方法的一些具体实现方式，基于此，本申请还提供了对应的坐席通话语音感情分析装置。下面将从功能模块化的角度对本申请实施例提供的坐席通话语音感情分析装置进行介绍。

参见图2，图2为本申请实施例提供的坐席通话语音感情分析装置的一种结构示意图。具体地，图2所示的坐席通话语音感情分析装置200，包括：

获取单元210，用于获取目标通话语音数据，所述目标通话语音数据是目标坐席在与客户进行通话的过程中采集得到的；

特征提取单元220，用于对所述目标通话语音数据进行特征提取，得到所述目标通话语音数据的语音特征；

识别单元230，用于通过LSTM对所述语音特征进行识别；

分类单元240，用于将所述LSTM最后一个时间步的隐藏状态信息作为目标分类器的输入，通过所述目标分类器得到情感识别结果。

本申请提供了一种坐席通话语音感情分析装置，该装置可以实现准确地对坐席通话数据进行情感分析。具体地，可以先在目标坐席与客户进行通话的过程中采集的目标语音数据，然后对目标语音数据进行特征提取，得到目标通话语音数据的语音特征。接着，可以通过长短期记忆网络对语音特征进行识别，并将长短期记忆网络的最后一个时间步的隐藏状态信息作为目标分类器的输入，从而通过分类器得到情感识别结果。通过使用长短期记忆网络进行识别，能够捕捉语音通话中的长期依赖关系，有助于更加准确地理解和分类语音通话中的情感信息。这样，结合分类器，可以较为准确地对坐席通话语音数据中的情感信息进行提取，得到准确的情感识别结果。

所述分类单元240，具体用于获得所述目标分类器的多个分类值和每个分类值的分类概率；确定所述多个分类值中每个分类值对应的情感类型；根据所述分类值对应的情感类别和所述分类值对应的分类概率，确定每个情感类型对应的情感强度。

在一些可能的实现方式中，所述特征提取单元220，具体用于将所述目标通话语音数据转换为文字，得到原始文本数据；对所述原始文本数据进行分词和筛选，得到目标文本数据；将所述目标文本数据转换为向量，得到词语向量；通过CNN对所述词语向量进行特征提取，得到所述目标通话语音数据的语音特征，所述语音特征包括多个对话词特征。

所述识别单元230，具体用于将所述多个对话词特征输入LSTM；在LSTM进行特征识别的第i个时间步中，根据所述LSTM中每个单元的隐藏状态信息，计算每个对话词特征的注意力权重，所述i为正整数，且不大于所述LSTM对所述语音特征进行识别的时间步的总数量；根据所述注意力权重计算每个对话词特征的上下文向量；将所述上下文向量与所述LSTM中每个单元的隐藏状态信息融合。

本申请实施例还提供了对应的设备、计算机存储介质和计算机程序产品，用于实现本申请实施例提供的技术方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本申请任一实施例所述的坐席通话语音感情分析方法。

所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本申请任一实施例所述的坐席通话语音感情分析方法。

所述计算机程序产品包含指令。当其在计算机上运行时，使得计算机执行本申请任一实施例所述的坐席通话语音感情分析方法。

本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：re执行机构d-only memory，ROM)/R执行机构M、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

Claims

1.一种坐席通话语音感情分析方法，其特征在于，所述方法用于分析坐席通话语音的情感信息，所述方法包括：

通过长短期记忆网络LSTM对所述语音特征进行识别；

2.根据权利要求1所述的方法，其特征在于，所述情感识别结果包括至少一个情感类型，和每个情感类型对应的情感强度，所述过所述目标分类器得到情感识别结果包括：

确定所述多个分类值中每个分类值对应的情感类型；

3.根据权利要求1所述的方法，其特征在于，所述对所述目标通话语音数据进行特征提取，得到所述目标通话语音数据的语音特征包括：

将所述目标通话语音数据转换为文字，得到原始文本数据；

对所述原始文本数据进行分词和筛选，得到目标文本数据；

将所述目标文本数据转换为向量，得到词语向量；

通过卷积神经网络CNN对所述词语向量进行特征提取，得到所述目标通话语音数据的语音特征，所述语音特征包括多个对话词特征。

4.根据权利要求3所述的方法，其特征在于，所述CNN的卷积层包括多个大小不同的卷积核，不同大小的卷积核用于对不同数量的相邻词语进行识别。

5.根据权利要求3或4所述的方法，其特征在于，所述目标通话语音数据的语音特征包括至少一个特征词语；

所述通过长短期记忆网络LSTM对所述语音特征进行识别包括：

将所述多个对话词特征输入LSTM；

根据所述注意力权重计算每个对话词特征的上下文向量；

6.一种坐席通话语音感情分析装置，其特征在于，所述装置用于分析坐席通话语音的情感信息，所述装置包括：

识别单元，用于通过长短期记忆网络LSTM对所述语音特征进行识别；

7.根据权利要求6所述的装置，其特征在于，所述情感识别结果包括至少一个情感类型，和每个情感类型对应的情感强度，

8.根据权利要求6所述的装置，其特征在于，

所述特征提取单元，具体用于将所述目标通话语音数据转换为文字，得到原始文本数据；对所述原始文本数据进行分词和筛选，得到目标文本数据；将所述目标文本数据转换为向量，得到词语向量；通过卷积神经网络CNN对所述词语向量进行特征提取，得到所述目标通话语音数据的语音特征，所述语音特征包括多个对话词特征。

9.根据权利要求8所述的装置，其特征在于，所述CNN的卷积层包括多个大小不同的卷积核，不同大小的卷积核用于对不同数量的相邻词语进行识别。

10.根据权利要求8或9所述的装置，其特征在于，所述目标通话语音数据的语音特征包括至少一个特征词语；