CN117278674A

CN117278674A - 一种智能电话客服生成语音的质量测评方法和系统

Info

Publication number: CN117278674A
Application number: CN202311236276.5A
Authority: CN
Inventors: 刘佳斌
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-22

Abstract

本发明公开了一种智能电话客服生成语音的质量测评方法和系统，属于人工智能技术领域，方法包括：获取全部的对话场景，将查询概率大于预设阈值的对话场景设置为独立意图；获取每个独立意图的数据，通过预训练语言模型，提取每条消息的特征池化向量，将每条消息的特征池化向量输入至语言意图识别模型中；通过预训练语言模型，判断用户输入的查询意图是否满足最低查询条件；若是，通过语言意图识别模型，对查询意图进行识别，通过实体提取模型，对查询意图的查询条件进行提取，并将提取到的查询条件输入至语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对拨打录音和接听录音进行评测，并输出语音质量评测结果。

Description

一种智能电话客服生成语音的质量测评方法和系统

技术领域

本发明属于人工智能技术领域，具体涉及一种智能电话客服生成语音的质量测评方法和系统。

背景技术

智能电话客服生成语音的质量测评对于提高客户体验、提高效率、降低成本、增强品牌声誉和促进业务发展都具有重要意义。这是建立成功的客户服务战略的关键组成部分，有助于提供更优质的服务，满足客户的需求，同时增加企业的竞争力。

传统的智能电话客服生成语音的质量测评方法，往往依赖于测试工程师的人工测量，测试工程师可以根据清晰度、自然度、流畅度等方面对语音进行评分，然而这种方法需要大量人力投入，而且容易受到工作经验、测试环境等主观因素的影响，导致测评准确性差。

发明内容

为了解决现有技术中的依赖于测试工程师的人工测量，需要大量人力投入，而且容易受到工作经验、测试环境等主观因素的影响，导致测评准确性差的技术问题，本发明提供一种智能电话客服生成语音的质量测评方法和系统。

第一方面

本发明提供了一种智能电话客服生成语音的质量测评方法，包括：

S101：获取全部的对话场景，将查询概率大于预设阈值的对话场景设置为独立意图；

S102：获取每个所述独立意图的数据，构建样本数据集，所述样本数据集中包括多条消息，通过预训练语言模型，提取每条消息的特征池化向量，将每条消息的特征池化向量输入至语言意图识别模型中；

S103：通过所述预训练语言模型和所述语言意图识别模型，利用激活函数预测每条消息的输出概率，将所述输出概率作为消息的软标签；

S104：通过所述预训练语言模型，判断用户输入的查询意图是否满足最低查询条件；若是，执行S105；否则，执行S106；

S105：通过所述语言意图识别模型，对所述查询意图进行识别，通过实体提取模型，对所述查询意图的查询条件进行提取，并将提取到的查询条件输入至语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果；

S106：提示用户增加和/或修改查询条件；

S107：将用户补充和/或修改的查询条件输入至所述语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果。

第二方面

本发明提供了一种智能电话客服生成语音的质量测评系统，包括：

设置模块，用于获取全部的对话场景，将查询概率大于预设阈值的对话场景设置为独立意图；

提取模块，用于获取每个所述独立意图的数据，构建样本数据集，所述样本数据集中包括多条消息，通过预训练语言模型，提取每条消息的特征池化向量，将每条消息的特征池化向量输入至语言意图识别模型中；

预测模块，用于通过所述预训练语言模型和所述语言意图识别模型，利用激活函数预测每条消息的输出概率，将所述输出概率作为消息的软标签；

判断模块，用于通过所述预训练语言模型，判断用户输入的查询意图是否满足最低查询条件；若是，跳转到第一输出模块；否则，跳转到提示模块；

第一输出模块，用于通过所述语言意图识别模型，对所述查询意图进行识别，通过实体提取模型，对所述查询意图的查询条件进行提取，并将提取到的查询条件输入至语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果；

提示模块，用于提示用户增加和/或修改查询条件；

第二输出模块，用于将用户补充和/或修改的查询条件输入至所述语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果。

与现有技术相比，本发明至少具有以下有益技术效果：

在本发明中，通过预训练语言模型、语言意图识别模型以及语音拨测系统的配合，自动化地完成智能电话客服生成语音的质量测评，无需人工参与，节省大量人力投入成本，避免主观因素的影响，提升生成语音质量测评的准确性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种智能电话客服生成语音的质量测评方法的流程示意图；

图2是本发明提供的一种智能电话客服生成语音的质量测评系统的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的一种智能电话客服生成语音的质量测评方法的流程示意图。

本发明提供的一种智能电话客服生成语音的质量测评方法，包括：

S101：获取全部的对话场景，将查询概率大于预设阈值的对话场景设置为独立意图。

其中，本领域技术人员可以根据实际情况设置预设阈值的大小，本发明不做限定。

其中，每个对话场景代表一次用户与电话客服系统的互动，可能包括用户的提问、回答、请求等。

进一步地，在每个对话场景中，系统会估计其中是否包含了用户的查询意图。主要依靠查询概率来评估用户的查询意图，查询概率估计了该场景是否与用户的查询相关，如果查询概率超过了事先设定的阈值，那么该对话场景就被认为具有独立意图。在后续处理中，将会将这些具有独立意图的场景单独处理，而不与其他非查询相关的场景混合在一起。

在本发明中，将查询概率大于预设阈值的对话场景设置为独立意图有助于提高客服系统的效率、准确性和用户体验，同时降低了误解和混淆的风险，使系统更具智能性和适应性。

S102：获取每个独立意图的数据，构建样本数据集，样本数据集中包括多条消息，通过预训练语言模型，提取每条消息的特征池化向量，将每条消息的特征池化向量输入至语言意图识别模型中。

其中，预训练语言模型是一种深度学习模型，它在大规模的文本数据上进行训练，以学习文本中的语法、语义和上下文信息。这些模型通常基于神经网络，如Transformer架构。预训练语言模型的目标是预测给定上下文中的下一个单词或标记。通过这个任务，模型可以学习到语言的结构和语境信息，从而能够生成连贯的文本或理解文本的含义。

其中，语言意图识别模型是一种用于识别自然语言文本中的意图或类别的机器学习模型。它可以将文本分类到预定义的类别中，以确定文本表达的意图。这种模型通常是基于深度学习的，可以使用卷积神经网络(CNN)、循环神经网络(RNN)或Transformer等架构来实现。通常，在预训练语言模型的基础上，添加额外的神经网络层以进行分类任务。训练语言意图识别模型需要有标记的训练数据，其中每个文本样本都与其所属的意图或类别相关联。模型学习从文本中提取特征并将其映射到正确的意图或类别。

在一种可能的实施方式中，语言意图识别模型的损失函数为：

其中，Loss表示损失函数，θ_MsgEnc表示消息编码器的网络参数，θ_Ipred表示意图预测器的网络参数，CE表示交叉熵运算，f_Ipred表示意图预测器；f表示消息编码器，x_i表示第i条消息，y_i表示x_i对应的意图，D表示数据集，数据集D中包含了x_i以及x_i对应的意图y_i。

其中，损失函数包含交叉熵损失和消息编码器损失。交叉熵损失用于度量预测的意图与真实意图之间的差异。消息编码器的损失可以确保消息编码器生成的特征向量是有意义的，能够用于意图预测。

在本发明中，使用这种损失函数和参数确定方式，可以进行端到端的训练，同时优化消息编码器θ_MsgEnc和意图预测器θ_Ipred的参数，使得整个语言意图识别模型可以在单一的训练过程中进行学习，而不需要分别训练两个组件。

语言意图识别模型的参数确定方式为：以最小化语言意图识别模型的损失函数为目标，确定语言意图识别模型的参数。

在本发明中，通过最小化损失函数，模型的参数将被调整以最大程度地减小预测的意图与真实意图之间的差异。这有助于提高意图识别的准确性，使模型更好地理解文本信息并将其分类到正确的意图类别中。

在一种可能的实施方式中，提取每条消息的特征池化向量，具体为：

通过以下公式，提取特征池化向量：

其中，vec_pooling表示特征池化向量，h_i表示一条消息经过预训练语言模型的分词器分词后的第i个单词向量，α_i表示第i个单词向量的最大保留特征参数，h_j表示一条消息经过预训练语言模型的分词器分词后的第i个单词向量，N表示一条消息经过预训练语言模型的分词器分词后的单词向量总数，d表示预训练语言模型的模型维度，＜h_i,h_j＞表示第i个单词向量和第j个单词向量的内积，max表示最大值函数，sigmoid表示sigmoid函数。

其中，使用α_i作为每个单词向量的权重，可以实现一种注意力机制，使模型更关注对意图识别有重要贡献的单词。这有助于提高模型的性能，尤其是在长文本中。

其中，通过应用Sigmoid函数，可以将单词向量的内积映射到(0,1)之间，引入了非线性变换，有助于捕捉单词之间的复杂关系和重要性。

需要说明的是，通过对每个单词向量应用特征池化操作，可以将整个消息的信息编码为一个固定维度的特征池化向量，有助于降低数据的维度，并且使得不同长度的消息都能映射到相同维度的特征向量上。

S103：通过预训练语言模型和语言意图识别模型，利用激活函数预测每条消息的输出概率，将输出概率作为消息的软标签。

其中，激活函数可以是Sigmoid函数。

在本发明中，使用软标签可以帮助模型更好地处理不确定性和噪声。因为软标签是概率分布，可以反映多个可能的类别或意图，使模型更具有鲁棒性，能够处理各种复杂的文本输入。

S104：通过预训练语言模型，判断用户输入的查询意图是否满足最低查询条件。若是，执行S105。否则，执行S106。

其中，最低查询条件是指用户输入的查询意图必须满足的最基本的要求或条件，以便系统能够对其进行处理或提供响应。这些条件通常是由业务需求或系统设计确定的，用于确保用户提供的信息足够清晰和完整，以便系统能够有效地理解和满足用户的请求。最低查询条件可以因不同的应用和场景而异。

举例来说，系统要求用户的查询中必须包含特定的关键词或短语，以便明确用户的意图。例如，一个餐厅预订系统可能要求用户的查询中包含"预订"或"订位"等关键词。再例如，有些查询可能需要额外的信息才能被系统接受。例如，如果用户要订购产品，系统可能要求用户提供订单号、产品的数量、型号或交付地址等必要信息。

S105：通过语言意图识别模型，对查询意图进行识别，通过实体提取模型，对查询意图的查询条件进行提取，并将提取到的查询条件输入至语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对拨打录音和接听录音进行评测，并输出语音质量评测结果。

其中，语音拨测系统可以对拨打录音与接听录音进行自动化采集。

在一种可能的实施方式中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对拨打录音和接听录音进行评测，并输出语音质量评测结果，具体包括：

通过语音拨测系统，获得多组主叫录音与被叫录音音频数据。

音频处理中心对音频数据进行快速傅里叶变换，获得频谱数据，对频谱数据分别进行峰值检测、节奏点检测、响度检测、能量分析以及音色分析，获得语音质量评测结果并输出。

在本发明中，通过进行快速傅里叶变换和各种音频分析，包括频谱、峰值、节奏、响度、能量和音色分析，可以全面评估语音的质量。这使系统能够检测多种问题，如噪声、失真、音频丢失等。

在一种可能的实施方式中，对频谱数据分别进行峰值检测、节奏点检测、响度检测、能量分析以及音色分析，具体包括：

搭建基于卷积神经网络的Resnet50，并导入基于音频分析结果数据集预训练的权重，根据输入尺寸配置输入层，输入层的输出作为Resnet50的输入，之后用展开层展平Resnet50的输出特征向量，再通过连接全连接层调整特征向量的维度，最后连接一层Softmax作为分类器。

其中，Resnet50是一种深度卷积神经网络架构，属于ResNet系列模型之一。

构建基于Keras中Layer类的聚类层，将分类器的输入同时作为聚类层的输入，以聚类层产生的聚类结果作为分类器的参考标签，对神经网络进行训练。

其中，Keras是一个开源的深度学习框架，旨在使深度学习模型的构建和训练变得更加容易和快速。

在本发明中，通过构建聚类层，将分类器的输入同时作为聚类层的输入，可以自动生成聚类结果，并将其作为分类器的参考标签。这种方法允许模型自动学习音频数据的聚类结构，而无需人工标注。

通过训练完成的神经网络对语音质量评测结果进行分析聚类，得到频谱数据的频谱能量值、频谱能量值对应的频谱能量区间以及音频分析结果数据。

对音频分析结果数据进行汇总分析，得到语音质量评测结果。

在本发明中，将音频分析结果数据进行汇总分析，得到语音质量评测结果，使得评测结果更具综合性，有助于更好地理解音频数据的质量，并采取相应的措施来改善或优化语音质量。

S106：提示用户增加和/或修改查询条件。

S107：将用户补充和/或修改的查询条件输入至语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对拨打录音和接听录音进行评测，并输出语音质量评测结果。

详细的如何得到语音质量评测结果可以参考上文有关S105的内容，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

参考说明书附图2，示出了本发明提供的一种智能电话客服生成语音的质量测评系统的结构示意图。

在一个实施例中，本发明提供的一种智能电话客服生成语音的质量测评系统20，包括：

设置模块201，用于获取全部的对话场景，将查询概率大于预设阈值的对话场景设置为独立意图；

提取模块202，用于获取每个独立意图的数据，构建样本数据集，样本数据集中包括多条消息，通过预训练语言模型，提取每条消息的特征池化向量，将每条消息的特征池化向量输入至语言意图识别模型中；

预测模块203，用于通过预训练语言模型和语言意图识别模型，利用激活函数预测每条消息的输出概率，将输出概率作为消息的软标签；

判断模块204，用于通过预训练语言模型，判断用户输入的查询意图是否满足最低查询条件；若是，跳转到第一输出模块；否则，跳转到提示模块；

第一输出模块205，用于通过语言意图识别模型，对查询意图进行识别，通过实体提取模型，对查询意图的查询条件进行提取，并将提取到的查询条件输入至语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对拨打录音和接听录音进行评测，并输出语音质量评测结果；

提示模块206，用于提示用户增加和/或修改查询条件；

第二输出模块207，用于将用户补充和/或修改的查询条件输入至语音拨测系统中，通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对拨打录音和接听录音进行评测，并输出语音质量评测结果。

通过以下公式，提取特征池化向量：

通过语音拨测系统，获得多组主叫录音与被叫录音音频数据；

搭建基于卷积神经网络的Resnet50，并导入基于音频分析结果数据集预训练的权重，根据输入尺寸配置输入层，输入层的输出作为Resnet50的输入，之后用展开层展平Resnet50的输出特征向量，再通过连接全连接层调整特征向量的维度，最后连接一层Softmax作为分类器；

构建基于Keras中Layer类的聚类层，将分类器的输入同时作为聚类层的输入，以聚类层产生的聚类结果作为分类器的参考标签，对神经网络进行训练；

通过训练完成的神经网络对语音质量评测结果进行分析聚类，得到频谱数据的频谱能量值、频谱能量值对应的频谱能量区间以及音频分析结果数据；

对所述音频分析结果数据进行汇总分析，得到所述语音质量评测结果。

本发明提供的一种智能电话客服生成语音的质量测评系统可以实现上述实施例1中的智能电话客服生成语音的质量测评方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种智能电话客服生成语音的质量测评方法，其特征在于，包括：

S105：通过所述语言意图识别模型，对所述查询意图进行识别，通过实体提取模型，对所述查询意图的查询条件进行提取，并将提取到的查询条件输入至语音拨测系统中，通过所述语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果；

S106：提示用户增加和/或修改查询条件；

S107：将用户补充和/或修改的查询条件输入至所述语音拨测系统中，通过所述语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果。

2.根据权利要求1所述的智能电话客服生成语音的质量测评方法，其特征在于，所述语言意图识别模型的损失函数为：

其中，Loss表示损失函数，θ_MsgEnc表示消息编码器的网络参数，θ_Ipred表示意图预测器的网络参数，CE表示交叉熵运算，f_Ipred表示意图预测器；f表示消息编码器，x_i表示第i条消息，y_i表示x_i对应的意图，D表示数据集，数据集D中包含了x_i以及x_i对应的意图y_i；

所述语言意图识别模型的参数确定方式为：以最小化所述语言意图识别模型的损失函数为目标，确定所述语言意图识别模型的参数。

3.根据权利要求1所述的智能电话客服生成语音的质量测评方法，其特征在于，所述提取每条消息的特征池化向量，具体为：

通过以下公式，提取特征池化向量：

4.根据权利要求1所述的智能电话客服生成语音的质量测评方法，其特征在于，所述通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果，具体包括：

通过所述语音拨测系统，获得多组主叫录音与被叫录音音频数据；

音频处理中心对音频数据进行快速傅里叶变换，获得频谱数据，对所述频谱数据分别进行峰值检测、节奏点检测、响度检测、能量分析以及音色分析，获得所述语音质量评测结果并输出。

5.根据权利要求4所述的智能电话客服生成语音的质量测评方法，其特征在于，所述对所述频谱数据分别进行峰值检测、节奏点检测、响度检测、能量分析以及音色分析，具体包括：

构建基于Keras中Layer类的聚类层，将所述分类器的输入同时作为所述聚类层的输入，以所述聚类层产生的聚类结果作为所述分类器的参考标签，对神经网络进行训练；

通过训练完成的神经网络对语音质量评测结果进行分析聚类，得到所述频谱数据的频谱能量值、所述频谱能量值对应的频谱能量区间以及音频分析结果数据；

6.一种智能电话客服生成语音的质量测评系统，其特征在于，包括：

第一输出模块，用于通过所述语言意图识别模型，对所述查询意图进行识别，通过实体提取模型，对所述查询意图的查询条件进行提取，并将提取到的查询条件输入至语音拨测系统中，通过所述语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果；

提示模块，用于提示用户增加和/或修改查询条件；

第二输出模块，用于将用户补充和/或修改的查询条件输入至所述语音拨测系统中，通过所述语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果。

7.根据权利要求6所述的智能电话客服生成语音的质量测评系统，其特征在于，所述语言意图识别模型的损失函数为：

8.根据权利要求6所述的智能电话客服生成语音的质量测评系统，其特征在于，所述提取每条消息的特征池化向量，具体为：

通过以下公式，提取特征池化向量：

9.根据权利要求6所述的智能电话客服生成语音的质量测评系统，其特征在于，所述通过语音拨测系统采集拨打录音和接听录音，通过音频处理中心对所述拨打录音和所述接听录音进行评测，并输出语音质量评测结果，具体包括：

10.根据权利要求9所述的智能电话客服生成语音的质量测评系统，其特征在于，所述对所述频谱数据分别进行峰值检测、节奏点检测、响度检测、能量分析以及音色分析，具体包括：