CN112581958B

CN112581958B - 一种应用于电力领域的简短语音智能导航方法

Info

Publication number: CN112581958B
Application number: CN202011414081.1A
Authority: CN
Inventors: 胡飞飞; 洪丹轲; 张思拓; 曾时博; 黄昱; 单政博; 梁寿愚; 方文崇
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2024-04-09
Anticipated expiration: 2040-12-07
Also published as: CN112581958A

Abstract

本发明涉及人工智能客服的智能调度语音识别技术领域，具体为一种应用于电力领域的简短语音智能导航方法，其不同之处在于，包括以下步骤：步骤一：确定语音语义匹配库需要的语音匹配内容；步骤二：提取各自电力平行语音中的特征参数矢量序列；步骤三：对齐；步骤四：随机抽取语音帧特征矢量；步骤五：重复步骤二到步骤四；步骤六：组成电力客服智能导航校正字典；步骤七：重构；步骤八：迭代；步骤九：计算特征矢量序列；步骤十：得到符合智能客服导航的校正语音询问结果。本发明可有效地提升智能导航的准确率。

Description

一种应用于电力领域的简短语音智能导航方法

技术领域

本发明涉及人工智能客服的智能调度语音识别技术领域，具体为一种应用于电力领域的简短语音智能导航方法。

背景技术

在人们的日常工作中总是无法避免做一些重复的事，不同的人对待重复的工作做法也是不一样，有一部分人想办法来提高效率，优化流程。当然，也有一部分人会选择按部就班，日复一日的做简单重复的事情。如果拘泥于原本的工作方式，没有创新的重复，只是在做无用功而已。不过，现在有了一种可以解决重复性工作的办法——人工智能，简单的重复性工作可以交给人工智能客服来完成。人工智能客服在语音电话交流中可以自动理解客户意向，并做出最恰当的回应，人工智能客服是一位任劳任怨、不闹情绪、不需要激励、不需要安抚的话务员，是一款全年无休，每天可以拨打1000通以上电话的智能电话机器人，可以让企业管理者节省60％以上的成本，也让从业者提高150％以上的效率。

南方电网作为电力服务平台，拥有整体覆盖全网的智能语音引擎开放平台，满足在电力调度领域开展人工智能客服及智能语音分析两个方面的智能化管理工作需要。在电力语音服务导航过程中，语音信号包含很多信息，比如说话人身份信息、性别、和语音内容等。但是，由于说话人员常常用简单的语句来表述一个复杂的问题，在智能语音导航过程中，电力领域人员不能有效地表达出自己的需求，这也导致了智能客服系统导航的效率低。比如说话人当时情感状态非常着急，普通话不够标准，电力专业词汇发音错误等因素影响智能导航准确率。语音客服系统在语义表达混淆的情况下，导致智能导航返回的答案不是所需要的，导航效益低下。语音客服系统在响应智能导航时，由于服务范围广泛，包含了电力调度、运维检修以及营销服务等多部门的服务，响应的导航在表述不清时会出现偏差。

鉴于此，为了克服现有技术缺点，提供一种应用于电力领域的简短语音智能导航方法成为本领域亟待解决的问题。

发明内容

本发明目的在于克服现有技术的缺点，提供一种应用于电力领域的简短语音智能导航方法，可有效地提升智能导航的准确率。

为解决以上技术问题，本发明提供了一种应用于电力领域的简短语音智能导航方法，其不同之处在于，包括以下步骤：

步骤一：确定语音语义匹配库需要的语音匹配内容，从电力语音语料库中随机选取出N个说话人，作为电力客服字典的基础语音说话人，并从这N个说话人中选取电力语义内容相同的语音信号即平行语音；

步骤二：提取各自电力平行语音中的特征参数矢量序列；

步骤三：利用多序列动态时间规整算法对步骤二的特征参数矢量序列进行对齐，得到对齐后的电力语音特征；

步骤四：从步骤三对齐后的电力语音特征中随机抽取相同位置的部分语音帧特征矢量，作为各自字典中的一部分；其中，需要设置注意随机抽取时要求选取完整的电力语音词组；

步骤五：重复步骤二到步骤四，直到字典的大小达到规定的值时停止，这样就生成了N个对称说话人电力语音字典；

步骤六：电力语音字典叠放在一起，组成电力客服智能导航校正字典；

步骤七：在电力语音客服导航服务阶段，咨询人员实时询问语音字典和电力客服智能导航校正字典需要重构；对于一个二维的电力客服智能导航校正字典A，语音特征参数矢量序列可由字典和激励矩阵的乘积所表示；

步骤八：迭代，保持校正字典A不变，变化参数使得算法成本函数值达到最小；

步骤九：利用步骤八分别计算出电力客服智能导航校正字典和咨询人员语音特征矢量序列；

步骤十：在电力语音客服导航服务阶段，选择咨询人员的字典加权系数，与电力客服智能导航校正字典作线性加权构造电力语音咨询人员的实时校正字典；选择电力客服智能导航校正字典的语音的激励矩阵，重构出咨询人员的语音内容，从而实现语音转换，最终得到符合智能客服导航的校正语音询问结果。

按以上技术方案，所述步骤二中，MFCC特征参数提取过程：

(1)快速傅里叶变换(FFT)：

x[n](n＝1,2,...,N)为经过采样得到的一帧离散语音序列，N为帧长，X[k]为N点的复数系列，再对X[k]取模得信号幅度谱|X[k]|；

(2)将实际频率尺度转换为Mel频率尺度：

Mel(f)为Mel频率，f为实际频率，单位是Hz；

(3)配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出：

w_l(k)为对应滤波器的滤波系数，o(l)、c(l)、h(l)为实际频率坐标轴上对应滤波器的下限频率、中心频率和上限频率，f_s为采样率，L为滤波器个数，F(l)即为滤波输出；

(4)对所有滤波器输出作对数运算，再进一步做离散余弦变换(DTC)，即可得到MFCC特征参数：

Q为MFCC参数的阶数S_i即为所得MFCC参数。

按以上技术方案，所述步骤三中，动态时间规整算法为：

D(i,j)＝Dist(i,j)+min[D(i-1,j),D(i,j-1),D(i-1,j-1)]

其中，D(i,j)为路径规整距离矩阵，Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离。

按以上技术方案，所述步骤七中，语音特征参数矢量序列的表示公式如下：

其中，A_n表示电力客服智能导航校正字典A中的第n个字典，α_n表示第n个字典的加权系数,H是激励矩阵。

按以上技术方案，所述步骤八中，迭代的计算公式为：

其中，λ是稀疏惩罚因子，用以保证激励矩阵的稀疏度，要求H≥0，参数α＝[α₁,α₂,...,α_N]，d选用KL散度，/>表示矩阵之间对应元素相乘，T表示矩阵转置，A_k表示电力客服智能导航校正字典A中的第k个字典，α_k表示第k个字典的加权系数。

按以上技术方案，所述步骤九中，所述电力客服智能导航校正字典和咨询人员语音特征矢量序列的计算公式如下：

其中

其中，S_src电力客服智能导航校正字典的语音特征矢量序列，S_tgt语音咨询人员字典语音特征矢量序列，电力客服智能导航校正字典中第n个字典的加权系数，/>表示语音咨询人员字典中第n个字典的加权系数，H₁、H₂是激励矩阵。

按以上技术方案，所述步骤十中，所述符合智能客服导航的校正语音询问结果的计算公式如下：

其中，S_tgt最终得到符合智能客服导航的校正语音询问结果，咨询人员的字典加权系数，H₁电力客服智能导航校正字典的语音S_src的激励矩阵。

与现有技术相比，本发明提供的应用于电力领域的简短语音智能导航方法，用于构建人工在线客服系统的智能客服系统，大大提高了客服智能导航准确率，有效智能地为提问的需求进行服务。

附图说明

图1为本发明实施例的整体流程示意图；

图2为本发明实施例的MFCC特征参数提取流程；

图3为本发明实施例的多序列动态时间规整算法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图3，本发明公开了一种应用于电力领域的简短语音智能导航方法，其不同之处在于，包括以下步骤：

步骤一，确定语音语义匹配库需要的语音匹配内容，从电力语音语料库中随机选取出N个说话人，作为电力客服字典的基础语音说话人，并从这N个说话人中选取电力语义内容相同的语音信号x₁,x₂,...,x_N，即平行语音

步骤二：提取各自电力平行语音中的特征参数矢量序列S₁,S₂,...,S_N。

MFCC特征参数提取过程：

(5)快速傅里叶变换(FFT)。

x[n](n＝1,2,...,N)为经过采样得到的一帧离散语音序列，N为帧长，X[k]为N点的复数系列，再对X[k]取模得信号幅度谱|X[k]|。

(6)将实际频率尺度转换为Mel频率尺度。

Mel(f)为Mel频率，f为实际频率，单位是Hz。

(7)配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出。

w_l(k)为对应滤波器的滤波系数，o(l)、c(l)、h(l)为实际频率坐标轴上对应滤波器的下限频率、中心频率和上限频率，f_s为采样率，L为滤波器个数，F(l)即为滤波输出。

(8)对所有滤波器输出作对数运算，再进一步做离散余弦变换(DTC)，即可得到MFCC特征参数。

Q为MFCC参数的阶数S_i即为所得MFCC参数。

步骤三：利用多序列动态时间规整算法对步骤二的特征参数矢量序列进行对齐，动态时间规整算法可以很好地比较两个序列的相似度，其核心思想是计算出这条路径经过的所有点的坐标(i,j)对应的和两个时间序列的点X_i和Y_j的欧氏距离之和，距离越小，两个序列越相似。根据动态规划的思想有：

D(i,j)＝Dist(i,j)+min[D(i-1,j),D(i,j-1),D(i-1,j-1)]

其中，D(i,j)为路径规整距离矩阵，Dist(i,j)表示X序列第i个点与Y序列第j个点之间的距离(两个点的相似性)。

经过多序列动态时间规整算法后得到对齐后的电力语音特征为S’₁,S'₂,...,S'_N。

步骤四：从步骤三S’₁,S’₂,...,S'_N中随机抽取相同位置的部分语音帧特征矢量S”₁,S”₂,...,S”_N，作为各自字典中的一部分。其中，需要设置注意随机抽取时要求选取完整的电力语音词组。

步骤五：重复步骤二到步骤四，直到字典的大小达到规定的值时停止。这样就生成了N个对称说话人电力语音字典A₁,A₂,...,A_N。

步骤六：电力语音字典A₁,A₂,...,A_N叠放在一起，组成电力客服智能导航校正字典A。

步骤七：在电力语音客服导航服务阶段，咨询人员实时询问语音字典和电力客服智能导航校正字典需要重构。对于一个二维的电力客服智能导航校正字典A，语音特征参数矢量序列S可由字典A和激励矩阵H的乘积所表示。

S≈AH

对于电力客服智能导航校正字典A，S首先需要计算一个系数α＝[α₁,α₂,...,α_N]，它是电力客服智能导航校正字典各说话人字典的权重系数，对各个说话人字典进行加权的线性组合，构造自己的语音字典。

对于每一个需要构建语音字典的咨询人员，当询问人身份固定时，他的实时询问字典的选择参数就固定不变了，此时通过电力客服智能导航校正字典线性组合得到的语音字典也就固定不变了。然后再与激励矩阵H相乘，公式如下：

步骤八：迭代。保持A不变，变化参数α,H使得算法成本函数值达到最小。

其中，λ是稀疏惩罚因子，用以保证激励矩阵的稀疏度。要求H≥0，参数α＝[α₁,α₂,...,α_N]，d选用KL散度，/>表示矩阵之间对应元素相乘，T表示矩阵转置，A_k表示电力客服智能导航校正字典A中的第k个字典，α_k表示第k个字典的加权系数。

步骤九：利用步骤八分别计算出电力客服智能导航校正字典和咨询人员特征矢量序列S_src,S_tgt在电力客服智能导航校正字典A下的稀疏表示如下：

其中

步骤十：在电力语音客服导航服务阶段，选择咨询人员的字典加权系数α^tgt，与A_n作线性加权构造电力语音咨询人员的实时校正字典。选择电力客服智能导航校正字典的语音S_src的激励矩阵H₁，重构出咨询人员的语音内容，从而实现语音转换。如下式所示：

最终得到符合智能客服导航的校正语音询问结果S_tgt。

举例：

实验所用电力语音语料是在高信噪比(>30dB)的实验室环境下录制的电力领域客服问答语音。电力领域客服问答语音库包含180个说话人，每人都录制了具有相同文本内容的语音，即平行语音。电力领域客服问答语音文件的采样频率为16KHz，量化精度为16位，音频格式为wav格式。

每个测试人员均录制120条相同电力客服问答常见语音内容，从每例语音段中随机选取n帧特征矢量来构成基础电力领域客服问答字典，则最终每个基础字典的特征矢量数目为120n，即字典的大小为120n。测试时，为研究电力语音咨询人员的实时校正字典大小与语音重构质量的关系，从每例语音段中随机选取的帧数从1变化到55，则每个电力语音咨询人员的实时校正字典的大小120n是从120变化到4865。实验中的其他参数为：选择稀疏压缩因子λ为0.2，循环次数655次，稀疏表示的测试样本数为11个。

经过测算，随着电力语音咨询人员的实时校正字典大小的增加，稀疏表示前后差异值在减小，运行时间在增加。同时，电力语音咨询人员的实时校正字典大小在3220后再增加时差异值的衰减变得平缓，效果最优。

需要说明的是，在本文中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种应用于电力领域的简短语音智能导航方法，其特征在于，包括以下步骤：

步骤一：确定语音语义匹配库需要的语音匹配内容，从电力语音语料库中随机选取出N个说话人，作为电力客服字典的基础语音说话人，并从这N个说话人中选取电力语义内容相同的语音信号，作为电力平行语音；

步骤二：提取各自电力平行语音中的特征参数矢量序列；

步骤四：从步骤三对齐后的电力语音特征中随机抽取相同位置的部分语音帧特征矢量，作为各自字典中的一部分；其中，随机抽取时要求选取完整的电力语音词组；

步骤五：重复步骤二到步骤四，直到字典的大小达到规定的值时停止，以生成N个对应说话人电力语音字典；

步骤七：在电力语音客服导航服务阶段，对咨询人员实时询问的语音咨询人员字典和电力客服智能导航校正字典进行重构；对于一个二维的电力客服智能导航校正字典，语音特征参数矢量序列可由电力客服智能导航校正字典和激励矩阵的乘积所表示；

步骤八：迭代，保持电力客服智能导航校正字典不变，变化参数使得算法成本函数值达到最小；

步骤十：在电力语音客服导航服务阶段，选择咨询人员的语音咨询人员字典加权系数，与电力客服智能导航校正字典作线性加权构造电力语音咨询人员的实时校正字典；选择电力客服智能导航校正字典的语音的激励矩阵，重构出咨询人员的语音内容，从而实现语音转换，最终得到符合智能客服导航的校正语音询问结果。

2.根据权利要求1所述的应用于电力领域的简短语音智能导航方法，其特征在于：所述步骤二中，特征参数提取过程：

(1)快速傅里叶变换：

(2)将实际频率尺度转换为Mel频率尺度：

Mel(f)为Mel频率，f为实际频率，单位是Hz；

(4)对所有滤波器输出作对数运算，再进一步做离散余弦变换，即可得到特征参数：

Q为特征参数的阶数，S_i即为所得特征参数。

3.根据权利要求1所述的应用于电力领域的简短语音智能导航方法，其特征在于：所述步骤三中，动态时间规整算法为：

D(i,j)＝Dist(i,j)+min[D(i-1,j),

D(i,j-1),D(i-1,j-1)]

4.根据权利要求1所述的应用于电力领域的简短语音智能导航方法，其特征在于：所述步骤七中，语音特征参数矢量序列的表示公式如下：

5.根据权利要求1所述的应用于电力领域的简短语音智能导航方法，其特征在于：所述步骤八中，迭代的计算公式为：

6.根据权利要求1所述的应用于电力领域的简短语音智能导航方法，其特征在于：所述步骤九中，电力客服智能导航校正字典和咨询人员语音特征矢量序列的计算公式如下：

其中

其中，S_src表示电力客服智能导航校正字典的语音特征矢量序列，S_tgt表示语音咨询人员字典语音特征矢量序列，表示电力客服智能导航校正字典中第n个字典的加权系数，表示语音咨询人员字典中第n个字典的加权系数，H₁、H₂是激励矩阵。

7.根据权利要求1所述的应用于电力领域的简短语音智能导航方法，其特征在于：所述步骤十中，符合智能客服导航的校正语音询问结果的计算公式如下：

其中，S_tgt表示最终得到符合智能客服导航的校正语音询问结果，表示咨询人员的字典加权系数，H₁表示电力客服智能导航校正字典的语音S_src的激励矩阵。