CN117037789B

CN117037789B - 一种客服语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN117037789B
Application number: CN202311297826.4A
Authority: CN
Inventors: 彭超; 董新胜; 李春建
Original assignee: Shenzhen Jiatui Technology Co ltd
Current assignee: Shenzhen Jiatui Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-12-08
Anticipated expiration: 2043-10-09
Also published as: CN117037789A

Abstract

本发明公开了一种客服语音识别方法、装置、计算机设备及存储介质，该方法包括：获取客服语音数据；利用语音识别技术将所述客服语音数据转换为客服文本数据；利用自然语言处理技术对所述客服文本数据提取目标特征；将所述目标特征输入至机器学习模型中，并由所述机器学习模型预测输出对应的成交率，以此构建客服语音识别模型；利用所述客服语音识别模型对指定的客户语音数据进行成交率预测。本发明结合语音识别技术、自然语言处理技术以及机器学习模型，实现对于客服语音数据的全面分析和优化，本发明能够提供更准确、更全面的分析结果，从而帮助用户更有效地改进销售话术，提高转化率，降低销售成本，提高用户整体销售业绩。

Description

一种客服语音识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机软件技术领域，特别涉及一种客服语音识别方法、装置、计算机设备及存储介质。

背景技术

随着人工智能和大数据技术的发展,智能客服逐渐成为客户服务的重要手段。然而传统的基于规则的客服系统,很难处理复杂多变的客户需求,导致智能客服处理事情的效率较低,客户满意度较差。近年来,语音识别和自然语言处理技术在客服领域的应用为智能客服注入了新动力。但是现有技术在处理客服电话语音方面还存在以下问题:

1、电话语音识别准确率有限，特别是长语句和自然语言识别效果欠佳，导致后续文本分析困难；

2、现有文本分析技术对客服领域语义理解能力弱，难以准确抽取问题情报,导致无法满足快速解决问题的需求；

3、缺乏对电话语音中语调语气等声学特征的分析，导致情感识别不准，从而影响后续客服答复；

4、语音交互系统缺乏自然流畅的对话能力，无法进行复杂语义交互。

发明内容

本发明实施例提供了一种客服语音识别方法、装置、计算机设备及存储介质，旨在提高对于客服语音数据的分析效率和精度。

第一方面，本发明实施例提供了一种客服语音识别方法，包括：

获取客服语音数据；

利用语音识别技术将所述客服语音数据转换为客服文本数据；

利用自然语言处理技术对所述客服文本数据提取目标特征；

将所述目标特征输入至机器学习模型中，并由所述机器学习模型预测输出对应的成交率，以此构建客服语音识别模型；

利用所述客服语音识别模型对指定的客户语音数据进行成交率预测。

第二方面，本发明实施例一种客服语音识别装置，包括：

数据获取单元，用于获取客服语音数据；

数据转换单元，用于利用语音识别技术将所述客服语音数据转换为客服文本数据；

第一特征提取单元，用于利用自然语言处理技术对所述客服文本数据提取目标特征；

成交率预测单元，用于将所述目标特征输入至机器学习模型中，并由所述机器学习模型预测输出对应的成交率，以此构建客服语音识别模型；

模型预测单元，用于利用所述客服语音识别模型对指定的客户语音数据进行成交率预测。

第三方面，本发明实施例一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的客服语音识别方法。

第四方面，本发明实施例一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的客服语音识别方法。

本发明实施例提供了一种客服语音识别方法、装置、计算机设备及存储介质，该方法包括：获取客服语音数据；利用语音识别技术将所述客服语音数据转换为客服文本数据；利用自然语言处理技术对所述客服文本数据提取目标特征；将所述目标特征输入至机器学习模型中，并由所述机器学习模型预测输出对应的成交率，以此构建客服语音识别模型；利用所述客服语音识别模型对指定的客户语音数据进行成交率预测。本发明实施例结合语音识别技术、自然语言处理技术以及机器学习模型，实现对于客服语音数据的全面分析和优化，与传统的人工方法相比，本发明实施例能够提供更准确、更全面的分析结果，从而帮助用户更有效地改进销售话术，提高转化率，降低销售成本，提高用户整体销售业绩。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种客服语音识别方法的流程示意图；

图2为本发明实施例提供的一种客服语音识别方法的子流程示意图；

图3为本发明实施例提供的一种客服语音识别装置的示意性框图；

图4为本发明实施例提供的一种客服语音识别装置的子示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种客服语音识别方法的流程示意图，具体包括：步骤S101~S105。

S101、获取客服语音数据；

S102、利用语音识别技术将所述客服语音数据转换为客服文本数据；

S103、利用自然语言处理技术对所述客服文本数据提取目标特征；

S104、将所述目标特征输入至机器学习模型中，并由所述机器学习模型预测输出对应的成交率，以此构建客服语音识别模型；

S105、利用所述客服语音识别模型对指定的客户语音数据进行成交率预测。

本实施例中，首先获取待进行识别的客服语音数据，然后对其进行语音识别处理，得到对应的客服文本数据，接着通过自然语音处理技术对获得的客服文本数据进行特征提取，以进行深度分析，并得到所述的目标特征，再通过机器学习模型对目标特征进行学习预测，得到客服语音数据对应的成交率。通过前述过程可以构建一客服语音识别模型，利用该模型即可对指定的客服语音识别模型预测成交率。

本实施例结合语音识别技术、自然语言处理技术以及机器学习模型，实现对于客服语音数据的全面分析和优化，与传统的人工方法相比，本实施例能够提供更准确、更全面的分析结果，从而帮助用户更有效地改进销售话术，提高转化率，降低销售成本，提高用户整体销售业绩。

在一实施例中，所述步骤S102包括：

对所述客服语音数据进行预处理；

将预处理后的客服语音数据输入至长短期记忆网络中，并由所述长短期记忆网络输出得到所述客服文本数据。

本实施例中，首先对客服语音数据进行预处理，例如格式转换、压缩编解码、音频数据抽取、声道选择（通常识别引擎只接收单声道数据）、采样率/重采样等等。然后采用长短期记忆网络（Long Short-Term Memory，LSTM）对客服语音数据进行处理，长短期记忆网络是一种特殊的递归神经网络，能够处理长序列数据并捕获其内部的时间关系，而由于语音是一种连续的时间序列数据，因此获取数据时间关系这对于语音识别任务非常关键，故本实施例通过训练LSTM模型，使其能够将语音信号转化为文本，从而得到所述的客服文本数据。

LSTM网络架构的内部包括三个门结构和一个用于存储记忆的状态模块；

设C_t为本LSTM单元存储的状态信息，x_t为输入层的输入，h_t为本单元隐含层的输出，f_t为遗忘门，i_t为输入门，为当前时刻信息，o_t为输出门，“×”表示矩阵元素相乘，“+”表示相加运算；

遗忘门：用于控制上一单元状态C_t-1被遗忘的程度，其表达式如下：

f_t＝σ(W_f*[h_t-1,x_t]+b)；

输入门：用于控制哪些信息被加入到本单元中，其表达式如下：

i＝σ(W_i*[h_t-1,x_t]+b_i)；

；

单元存储的状态信息：用于根据f_t将新信息有选择的记录到C_t中，其表达式如下：

；

输出门：用于将C_t激活，并控制C_t被过滤的程度，其表达式如下：

o_t＝σ(W_o*[h_t-1,x_t]+b_o)；

ht＝o_t*tanh(C_t)；

其中，W_f、W_i、W_o分别为f_t、i_t、o_t对应的权重矩阵，b_f、b_i、b_o分别为f_t、i_t、o_t对应的偏置项，σ为sigmoid激活函数，tanh为双曲正切激活函数，定义如下：

σ(x)＝1/(1+e^-x)；

tanh(x)＝(e^x-e^-x)/(e^x+e^-x)；

LSTM层利用t个LSTM单元进行模型学习并得到输出ht；输出层则依据下式将ht经过一个全连接层得到最终预测值y_t：

y_t＝σ(W_y*h_t+b_y)；

其中，W_y、b_y分别为权重矩阵和偏置项。

在一些可选的实施例中，还可以基于声纹识别技术，通过语音编码器提取客服语音数据中的声纹特征，并将提取的声纹特征与预先建立的声纹数据库进行对比，从而确认客服语音数据对应的客服人员。

另外，考虑到语音识别过程中会存在一定的错误率，因此还可以对客户语音数据进行降噪处理，以提高识别精度。具体可以采用基于HMM或者基于DNN的语音识别模型对客户语音数据进行处理，从而获得更可靠的识别结果。需要清楚的是，GMM-HMM建模能力有限，无法准确的表征语音内部复杂的结构，所以识别率低。故本实施例可以用DNN代替GMM来进行观察状态概率的输出，实现DNN-HMM声学模型框架，从而提高识别率。DNN-HMM的具体实现步骤为：（1）帧长切分, 提取特征(MFCC)；（2）通过GMM-HMM进行alignment对齐；对每一帧进行聚类(音素总数), 获得每帧属于各个音素的概率；通过HMM进行解码搜索，获得每一帧最优音素表示序列；（3）将每一帧(多帧)作为DNN输入，然后将GMM似然值(音素标签)作为输出，得到最终识别结果。

更进一步的，还可以在关键语音段加入人工校正功能，辅助模型纠正识别错误结果，形成闭环反馈提升。

在一实施例中，如图2所示，所述步骤S102还包括：步骤S201~S206。

S201、采用深度自编码器提取所述客服语音数据的深层次特征；

S202、将所述深层次特征输入至注意力机制网络中，并由所述注意力机制网络输出情绪特征；

S203、采用谱图分析技术获取所述客服语音数据的频率信息，并通过长短期记忆网络捕获所述客服语音数据的语音信号时间信息；

S204、结合所述频率信息和语音信号时间信号生成所述客服语音数据的语速特征；

S205、采用双向长短期记忆网络和Transformer模型对所述情绪特征和语速特征进行特征融合，得到融合特征；

S206、将所述融合特征与所述客服语音数据一并输入至长短期记忆网络中。

本实施例中，在语音识别的基础上，进一步使用深度学习模型来分析客服语音数据中的情绪信息。具体来说，本实施例采用深度自编码器（Deep Autoencoder）和注意力机制（Attention Mechanism）进行更精细的情绪识别，从而得到客服语音数据中的情绪特征。深度自编码器能够学习到语音数据的深层次特征，这些特征往往包含了丰富的情绪信息。注意力机制则能够让模型关注到最重要的部分，从而提高情绪识别的准确性。此外，还可以通过自适应的训练策略，根据训练过程中的情况动态调整模型参数，进一步提升模型性能。

另外，本实施例还在语速识别方面采用了谱图分析和长短期记忆网络（LSTM）模型来实现更准确的语速估计。谱图分析可以提供语音信号的详细频率信息，这些信息对于语速识别非常重要。LSTM模型则可以捕获语音信号的时间关系，帮助理解语速的变化情况。在完成情绪和语速识别后，本实施例使用融合模型来整合这两种信息。具体的，本实施例采用了双向长短期记忆网络（Bidirectional LSTM）和Transformer模型组合为融合模型并进行特征融合。该融合模型能够有效地将情绪和语速的信息结合起来，为后续的分析提供更丰富的特征。

本实施例所述的深度自编码器的本质是在输出端重建输入数据，取中间隐藏层结果作为特征编码，输出结果越接近输入，则表明中间隐藏层对输入数据的编码效果越好，越完备地将输入数据进行编码。自编码器主要包含如下几类：

堆栈自编码器（Stacked AutoEncoder）；

稀疏自编码器（Sparse AutoEncoder）；

降噪自编码器（Denoising AutoEncoder）；

变分自编码器（Variational AutoEncoder）。

其中，堆栈自编码器通常为对称式的网络结构，这样的结构设计可以将编码器与解码器进行权重捆绑，减少模型参数量，也能够加速训练过程，同时降低过拟合风险。由于堆栈自编码器的训练很容易陷入局部最优点，无监督逐层贪婪训练是有效缓解这个问题的好办法：冻结其他所有层，对每一层进行逐层的单独训练，直至训练完最后一层。整个堆栈自编码器训练完成后，通常复用训练后的堆栈自编码器中的编码器复用，在其之后加上功能头，以完成后续分类或回归等任务。稀疏自编码器是在损失函数中增加了参数惩罚，使得隐藏层的神经元大多处于抑制状态，通常使用KL散度来对隐藏层参数进行惩罚。KL散度是一种衡量两个概率分布匹配程度的指标，两个分布差异越大，KL散度越大。降噪自编码器是对网络的输入数据中添加随机噪声后用来训练整个网络模型。其底层逻辑是：一个模型，以有噪声的数据作为输入，能够恢复出真正的原始数据，则其更具鲁棒性。降噪自编码器的实际训练过程为：以一定概率将输入层节点置0，进行前向传播与反向传播，认为对结果误差较小的节点数据是噪声。自编码器的本质是学习一个相等函数，其缺点是当训练集和测试集分布差异大时，模型效果不好，降噪自编码器能够有效抑制这一糟糕情况。变分自编码器VAE通过对数据的隐含表示(latent representation)进行概率建模，能够生成与训练数据类似的新数据。在深度学习中，VAE结合了深度神经网络和贝叶斯推理的概念。VAE的主要思想是:假设存在一个可以生成我们观察到的数据的隐含变量，并且我们可以通过学习这个隐含变量的分布来生成新的数据。

在通过谱图分析技术获取频率信息时，可以首先将客服语音数据转换为语音信号，然后对该语音信号构造频谱瀑布、声波纹或语音图等，从而根据频谱瀑布、声波纹或语音图获取得到频率信息。

所述的双向长短期记忆网络由前向LSTM与后向LSTM组合而成。单层的BiLSTM是由两个LSTM组合而成，一个是正向去处理输入序列，另一个反向处理序列，处理完成后将两个LSTM的输出拼接起来。只有所有的时间步计算完成后，才能得到最终的BiLSTM的输出结果。正向的LSTM经过n个时间步得到一个结果向量；反向的LSTM同样经过n个时间步后得到另一个结果，将这两个结果向量拼接起来，得到最终的BiLSTM输出结果。

在一实施例中，所述步骤S103包括：

采用Bert模型对所述客服文本数据进行词汇分析和主题提取；

将词汇分析的结果与主题提取的结果汇总为所述目标特征。

本实施例中，在将客服语音数据转化为客服文本数据之后，使用自然语言处理（Natural Language Processing，NLP）技术进行文本解析。具体采用Bert（BidirectionalEncoder Representations from Transformers）模型进行词汇分析和主题提取。Bert模型能够理解词语的上下文含义，因此对于理解复杂的销售话术非常有用。本实施例通过训练Bert模型，使其能够从客服文本数据中提取关键词和主题，从而实现对于客服文本数据的文本解析。

本实施例通过Bert模型来捕捉客服文本数据中的词语之间的语义关系，从而识别出客服文本数据中的关键词和必要信息。Bert模型是一种Transformer 的预训练模型，其对于输入的文本向量，主要通过自注意力机制进行处理。在自注意力机制中，文本查询向量Q、键向量K和值向量V都是通过对输入的文本向量进行线性变换来获取的。具体来说，假设有一个输入序列（例如一个句子），其中每个单词或词向量表示为一个向量。对于每个单词或词向量，应用线性变换将输入序列分别与三个可学习的权重矩阵进行矩阵乘法，得到查询向量、键向量和值向量。查询向量Q用于计算文本中每个位置（单词）与其他位置的关联程度。键向量K用于表示其他位置（单词）对每个位置（单词）的重要性。值向量V则包含了输入文本中每个位置（单词）的信息。

在自注意力机制中，查询向量、键向量和值向量之间的关联程度通过计算查询向量与键向量的点积来衡量。具体来说，对于查询向量Q和键向量K，通过对它们进行点积操作并进行缩放处理，得到归一化的注意力分数（attention scores）：

。

这些注意力分数用于加权求和值向量V，以获得最终的上下文相关表示：

；

。

得到自注意力指的是根据输入文本中不同位置（单词）之间的关联程度，生成一个上下文相关的表示。这个上下文相关的表示可以保留输入文本中各个位置的语义和语法信息，并且能够在后续计算（如句子分类、机器翻译等）中发挥作用。

在一实施例中，所述步骤S104包括：

将所述目标特征输入至多层感知机结构中，并由所述多层感知机结构输出所述目标特征的分类特征；

利用决策树模型对所述分类特征进行迭代训练，得到分类特征的输出结果，并将所述输出结果作为所述成交率输出。

本实施例中，在获取得到客服语音数据的目标特征后，通过深度学习模型对目标数据进行分析，以得到客服语音数据的成交率，从而根据该成交率可以进一步对客服语音数据进行优缺点分析。本实施例所述的深度学习模型具体包括神经网络和决策树模型。神经网络模型采用了多层感知机（Multi-Layer Perceptron，MLP）结构，该多层感知机结构可以学习到高度非线性的模式。决策树模型则能够提供明确的规则和解释性。在这里，本实施例在采用多层感知机结构和决策树模型进行成交率预测输出之前，还会通过批量带有标注的训练数据对多层感知机结构和决策树模型进行训练和参数调整，以优化模型的判断能力。

感知机是用于分类的神经网络模型。单层感知机只有输入层和输出层，仅适用于线性可分的模式。为了能解决更复杂的分类问题，在单层感知机的输出层和输出层之间增加多个隐藏层，便成为多层的感知机。感知机处理问题的方法是：建立一个网络模型，根据已知的大量样本，通过反复试算的调整参数，确定这个模型，当有新样本需要分类时，代入该模型中去，通过计算得到的结果，即可分出属于哪一类。多层的感知机如果仅是相邻层的节点互相连接，一般称为人工神经网络的前馈神经网络。人工神经网络是模拟人脑神经元网络建立起来的数学模型，结构比较复杂，过多强调其与人脑的联系，反而不容易理解。如果把人工神经网络看作一个系统，从系统的结构和功能的角度进行分析，可能更利于理解人工神经网络的思想和方法。多层感知机至少分成三层。第一层是输入层，最后一层是输出层，中间是隐藏层，根据需要可以建多层，每层都可以有多个节点，相邻层的各个节点都互相连接。

决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy =系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。分类树（决策树）是一种十分常用的分类方法。它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。

在一实施例中，所述客服语音识别方法还包括：

采用梯度加权类激活映射技术对所述多层感知机结构输出的分类特征进行类激活映射，得到关于分类特征的可视化热力图。

本实施例在所有的建模步骤中，对模型的解释性保持高度重视。例如对于多层感知机结构，采用类激活映射（Class Activation Mapping，CAM）和梯度加权类激活映射（Gradient-weighted Class Activation Mapping，Grad-CAM）等技术，以理解模型的决策过程。又比如对于决策树模型，本实施例利用其自带的解释性，提供清晰的决策路径。这不仅可以帮助理解模型，也可以帮助用户理解和信任模型的结果。

类激活映射CAM，既类别激活映射图，也被称为类别热力图、显著性图等。它是一张和原始图片等同大小图，该图片上每个位置的像素取值范围从0到1，一般用0到255的灰度图表示。可以理解为对预测输出的贡献分布，分数越高的地方表示原始图片对应区域对网络的响应越高、贡献越大。一般将原始图像和CAM激活图像叠加到一起，得到各个花花绿绿效果很好的可视化图像。在采用类激活映射生成可视化热力图时，首先对输入的分类特征进行图像维度的全局平均池化（GAP），将其变成一维向量（长度为通道数），再接一层全连接层实现分类预测。

在一实施例中，所述客服语音识别方法还包括：

采用迁移学习技术和增量学习技术对所述客服语音识别模型进行微调训练；

采用交叉验证方法和引导重采样方法对微调训练后的客服语音识别模型进行模型验证和评价。

本实施例中，对于构建的所述客服语音识别模型，不仅在训练初期使用大量的数据进行训练学习，还在后续的调用过程中不断进行微调（Fine-tuning）。这意味着，随着时间的推移，本实施例所述的客服语音识别模型将不断从新的客服语音数据中学习，从而保持最高的性能。具体来说，本实施例使用迁移学习（Transfer Learning）和增量学习（Incremental Learning）等技术来实现上述的微调训练的目的。所谓迁移学习，是指将已有的知识（source domain）迁移到新的学习任务（target domain）上，它只关注如何让旧知识更好的适应新任务。举例来说，如果存在旧任务（oldTask），新任务（newTask）。迁移学习会用旧任务训练好的模型通过Fine-tune或Extract Feature Vector等手段处理之后拿去训练新任务迭代得到一个在新任务表现比较好的新模型，但用这个新模型再去处理旧任务就不一定会表现得很好了。因为迁移学习并不考虑模型改变之后在旧任务上的表现。增量学习（又叫终生学习）目的是为了缓解模型在学习新知识的时候对旧知识的遗忘。其也是需要旧任务训练出来的旧模型，通过修改旧模型的模型结构（参数隔离）、优化器（约束重点参数的改变）、数据集等方法。能让修改后的旧模型即在新任务上表现的好，又在旧任务上有不错的表现。它与迁移学习的区别在于，其不仅关注新任务，也会关注旧任务。

此外，本实施例还采用交叉验证（Cross-Validation）和引导重采样（BootstrapResampling）等方法，以确保客服语音识别模型的性能和稳定性。优选的，在一些实施例中，还可以计算客服语音识别模型的各种性能指标，例如准确率、召回率、F1得分和AUC-ROC等，从而根据这些性能指标对客服语音识别模型的性能进行全面评价。通过前述内容，可以确保所述的客服语音识别模型在实际应用中能够提供可靠的预测。交叉验证和引导程序（Bootstrap）两种方法均为统计学习过程的实际应用中的重要工具。例如，交叉验证可用于估计与给定统计学习方法相关的测试错误，以便评估其性能或选择适当的灵活性级别。评估模型性能的过程称为模型评估（model assessment），而为模型选择适当的灵活性水平的过程称为模型选择（model selection），引导程序便可以用于提供对参数估计或给定统计学习方法的准确性的度量。

图3为本发明实施例提供的一种客服语音识别装置300的示意性框图，该装置300包括：

数据获取单元301，用于获取客服语音数据；

数据转换单元302，用于利用语音识别技术将所述客服语音数据转换为客服文本数据；

第一特征提取单元303，用于利用自然语言处理技术对所述客服文本数据提取目标特征；

成交率预测单元304，用于将所述目标特征输入至机器学习模型中，并由所述机器学习模型预测输出对应的成交率，以此构建客服语音识别模型；

模型预测单元305，用于利用所述客服语音识别模型对指定的客户语音数据进行成交率预测。

在一实施例中，所述数据转换单元302包括：

预处理单元，用于对所述客服语音数据进行预处理；

数据输入单元，用于将预处理后的客服语音数据输入至长短期记忆网络中，并由所述长短期记忆网络输出得到所述客服文本数据。

在一实施例中，如图4所示，所述数据转换单元302还包括：

第二特征提取单元401，用于采用深度自编码器提取所述客服语音数据的深层次特征；

特征输出单元402，用于将所述深层次特征输入至注意力机制网络中，并由所述注意力机制网络输出情绪特征；

信息获取单元403，用于采用谱图分析技术获取所述客服语音数据的频率信息，并通过长短期记忆网络捕获所述客服语音数据的语音信号时间信息；

特征生成单元404，用于结合所述频率信息和语音信号时间信号生成所述客服语音数据的语速特征；

特征融合单元405，用于采用双向长短期记忆网络和Transformer模型对所述情绪特征和语速特征进行特征融合，得到融合特征；

融合输入单元406，用于将所述融合特征与所述客服语音数据一并输入至长短期记忆网络中。

在一实施例中，所述第一特征提取单元303包括：

分析及提取单元，用于采用Bert模型对所述客服文本数据进行词汇分析和主题提取；

结果汇总单元，用于将词汇分析的结果与主题提取的结果汇总为所述目标特征。

在一实施例中，所述成交率预测单元304包括：

分类输出单元，用于将所述目标特征输入至多层感知机结构中，并由所述多层感知机结构输出所述目标特征的分类特征；

迭代输出单元，用于利用决策树模型对所述分类特征进行迭代训练，得到分类特征的输出结果，并将所述输出结果作为所述成交率输出。

在一实施例中，所述客服语音识别装置300还包括：

类激活映射单元，用于采用梯度加权类激活映射技术对所述多层感知机结构输出的分类特征进行类激活映射，得到关于分类特征的可视化热力图。

在一实施例中，所述客服语音识别装置300还包括：

微调训练单元，用于采用迁移学习技术和增量学习技术对所述客服语音识别模型进行微调训练；

验证评价单元，用于采用交叉验证方法和引导重采样方法对微调训练后的客服语音识别模型进行模型验证和评价。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种客服语音识别方法，其特征在于，包括：

获取客服语音数据；

利用自然语言处理技术对所述客服文本数据提取目标特征；

利用所述客服语音识别模型对指定的客户语音数据进行成交率预测；

所述利用语音识别技术将所述客服语音数据转换为客服文本数据，包括：

对所述客服语音数据进行预处理；

将预处理后的客服语音数据输入至长短期记忆网络中，并由所述长短期记忆网络输出得到所述客服文本数据；

所述利用语音识别技术将所述客服语音数据转换为客服文本数据，还包括：

采用深度自编码器提取所述客服语音数据的深层次特征；

将所述深层次特征输入至注意力机制网络中，并由所述注意力机制网络输出情绪特征；

采用谱图分析技术获取所述客服语音数据的频率信息，并通过长短期记忆网络捕获所述客服语音数据的语音信号时间信息；

结合所述频率信息和语音信号时间信号生成所述客服语音数据的语速特征；

采用双向长短期记忆网络和Transformer模型对所述情绪特征和语速特征进行特征融合，得到融合特征；

将所述融合特征与所述客服语音数据一并输入至长短期记忆网络中；

所述利用自然语言处理技术对所述客服文本数据提取目标特征，包括：

采用Bert模型对所述客服文本数据进行词汇分析和主题提取；

将词汇分析的结果与主题提取的结果汇总为所述目标特征；

所述将所述目标特征输入至机器学习模型中，并由所述机器学习模型预测输出对应的成交率，包括：

2.根据权利要求1所述的客服语音识别方法，其特征在于，还包括：

3.根据权利要求1所述的客服语音识别方法，其特征在于，还包括：

4.一种客服语音识别装置，其特征在于，包括：

数据获取单元，用于获取客服语音数据；

模型预测单元，用于利用所述客服语音识别模型对指定的客户语音数据进行成交率预测；

所述数据转换单元包括：

预处理单元，用于对所述客服语音数据进行预处理；

数据输入单元，用于将预处理后的客服语音数据输入至长短期记忆网络中，并由所述长短期记忆网络输出得到所述客服文本数据；

所述数据转换单元还包括：

第二特征提取单元，用于采用深度自编码器提取所述客服语音数据的深层次特征；

特征输出单元，用于将所述深层次特征输入至注意力机制网络中，并由所述注意力机制网络输出情绪特征；

信息获取单元，用于采用谱图分析技术获取所述客服语音数据的频率信息，并通过长短期记忆网络捕获所述客服语音数据的语音信号时间信息；

特征生成单元，用于结合所述频率信息和语音信号时间信号生成所述客服语音数据的语速特征；

特征融合单元，用于采用双向长短期记忆网络和Transformer模型对所述情绪特征和语速特征进行特征融合，得到融合特征；

融合输入单元，用于将所述融合特征与所述客服语音数据一并输入至长短期记忆网络中；

所述第一特征提取单元包括：

结果汇总单元，用于将词汇分析的结果与主题提取的结果汇总为所述目标特征；

所述成交率预测单元包括：

5.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的客服语音识别方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的客服语音识别方法。