CN113345419A

CN113345419A - 基于方言口音的语音转译方法、系统和可读存储介质

Info

Publication number: CN113345419A
Application number: CN202110733654.5A
Authority: CN
Inventors: 赵泰龙; 黄蔚; 王圣竹; 杨倩; 张旭
Original assignee: Guangxi Power Grid Co Ltd
Current assignee: Guangxi Power Grid Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-03
Anticipated expiration: 2041-06-30
Also published as: CN113345419B

Abstract

本发明公开的一种基于方言口音的语音转译方法、系统和可读存储介质，其中方法包括：通过预设口音识别神经网络识别目标音频的初始口音；依据所述初始口音进行转译作业以获取目标译文；通过预设算法提取所述目标音频的音频人语速与音调；依据所述音频人语速与音调获取所述音频人的情绪结果并记录。本发明通过设置实验数据实验与验证数据验证得到初始口音，再根据设置的回归概率值的大小选择目标口音进行转译作业，保证了方言口音识别的准确率，进而保证了转译的正确率；同时可以实时采取客户的语速和音调，进而得到客户的情绪等级，便于客服人员采取针对性措施，提升客户满意度，降低投诉率。

Description

基于方言口音的语音转译方法、系统和可读存储介质

技术领域

本发明涉及语音转译技术领域，更具体的，涉及一种基于方言口音的语音转译方法、系统和可读存储介质。

背景技术

电力工业是国民经济的支柱产业，是服务于千家万户的公用事业，随着社会城市化的进展，经济大增速的环境下，我国电力工业也得以快速发展，较好的保障了全社会的用电需求，有力的支撑了经济社会的快速发展。

随着电力业务的不断扩大，带来的电力业务咨询业务也随着增多，电力是人民日常生活必备的物质，当人们家庭、公司或者工厂失去电力时，经常会通过拨打客服电话进行询问，往常都是通过客服人员接通电话一一记录电力事件的情况，导致处理效率低下，并且存在一些口音的差异导致沟通变缓或者记录出错的情况发生，尤其是面对一些情绪偏激的客户，在沟通上存在很多需要改进的地方。

发明内容

鉴于上述问题，本发明的目的是提供一种基于方言口音的语音转译方法、系统和可读存储介质，能够准确识别客户方言口音的类别，以保证转译的准确性进而进行记录，同时可以实时判别客户的情绪变化并记录。

本发明第一方面提供了一种基于方言口音的语音转译方法，包括以下步骤：

通过预设口音识别神经网络识别目标音频的初始口音；

依据所述初始口音进行转译作业以获取目标译文；

通过预设算法提取所述目标音频的音频人语速与音调；

依据所述音频人语速与音调获取所述音频人的情绪结果并记录。

本方案中，所述通过预设口音识别神经网络识别目标音频的初始口音，具体为：

截取所述目标音频在第一预设时间范围类的第一音频内容；

提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别，得到回归概率值递减的第一口音归属数据组；

截取所述目标音频在第二预设时间范围类的第二音频内容；

提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别，得到回归概率值递减的第二口音归属数据组；

比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。

本方案中，所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音，具体为：

从所述第一口音归属数据组中提取排序为前三位的口音数据库，记为

、

以及

；

从所述第二口音归属数据组中提取排序为前三位的口音数据库，记为

、

以及

；

识别数据组

中相同的所述口音数据库并提取对应的所述回归概率值；

计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列，选择和值最大的所述口音数据库作为所述初始口音。

本方案中，所述依据所述初始口音进行转译作业以获取目标译文，具体为：

分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小，其中，

若两组所述回归概率值均大于或等于预设阈值，则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文；

否则，则重新选择所述数据组

中相同所述口音数据库的所述回归概率值差值最小的数据库作为所述目标口音进行转译作业得到所述目标译文。

本方案中，所述口音识别神经网络的训练方法，具体为：

获取历史时间的口音因子和口音类型信息；

将所述历史时间的口音因子和口音类型信息进行预处理，得到训练样本集；

将所述训练样本集输入至初始化的所述口音识别神经网络中训练；

获取输出结果的准确率；

若所述准确率大于预设的准确率阈值，则停止训练，得到所述口音识别神经网络。

本方案中，所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录，具体为：

获取当前所述音频人的所属方言标准语速与音调并进行加权；

判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系；

其中，若所述音频人语速与音调均大于所述加权后的方言标准语速与音调，则所述音频人的情绪结果判断为第一情绪；

若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调，则所述音频人的情绪结果判断为第二情绪；

否则，所述音频人的情绪结果判断为第三情绪。

本发明第二方面还提供一种基于方言口音的语音转译系统，包括存储器和处理器，所述存储器中包括基于方言口音的语音转译方法程序，所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤：

通过预设口音识别神经网络识别目标音频的初始口音；

依据所述初始口音进行转译作业以获取目标译文；

通过预设算法提取所述目标音频的音频人语速与音调；

截取所述目标音频在第一预设时间范围类的第一音频内容；

截取所述目标音频在第二预设时间范围类的第二音频内容；

、

以及

；

、

以及

；

识别数据组

中相同的所述口音数据库并提取对应的所述回归概率值；

否则，则重新选择所述数据组

本方案中，所述口音识别神经网络的训练方法，具体为：

获取历史时间的口音因子和口音类型信息；

获取输出结果的准确率；

否则，所述音频人的情绪结果判断为第三情绪。

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括机器的一种基于方言口音的语音转译方法程序，所述基于方言口音的语音转译方法程序被处理器执行时，实现如上述任一项所述的一种基于方言口音的语音转译方法的步骤。

本发明公开的一种基于方言口音的语音转译方法、系统和可读存储介质，通过设置实验数据实验与验证数据验证得到初始口音，再根据设置的回归概率值的大小选择目标口音进行转译作业，保证了方言口音识别的准确率，进而保证了转译的正确率；同时可以实时采取客户的语速和音调，进而得到客户的情绪等级，便于客服人员采取针对性措施，提升客户满意度，降低投诉率。

附图说明

图1示出了本申请一种基于方言口音的语音转译方法的流程图；

图2示出了本发明一种基于方言口音的语音转译系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本申请一种基于方言口音的语音转译方法的流程图。

如图1所示，本申请公开了一种基于方言口音的语音转译方法，包括以下步骤：

S102，通过预设口音识别神经网络识别目标音频的初始口音；

S104，依据所述初始口音进行转译作业以获取目标译文；

S106，通过预设算法提取所述目标音频的音频人语速与音调；

S108，依据所述音频人语速与音调获取所述音频人的情绪结果并记录。

需要说明的是，对于不同客户的口音均有不同，尤其是涉及到一些客户的方言口音，在转译时，需要先识别口音的类型，例如普通话语系中的地方口音：四川话、闽南话这类口音，通过所述口音识别神经网络识别出具体的口音，以进行对应的转译作业，可以保证转译内容的准确性，进而保证客服业务数据记录的完整性；同时在客服与客户交流过程中，还可以通过识别客户语音的语速与音调来获取其情绪变化，并实时记录。

值得一提的是，在获取客户的情绪变化时，也可以获取客服的情绪变化，在新入职的客服人员的成长过程中，需要时刻关注其心理健康，在保证客服人员身心健康的基础上，进一步保证客服流水业务的合理正确进行。

具体地，所述获取客服的情绪变化具体步骤如下：

通过预设算法提取客服人员的音频语速与音调；

依据所述音频语速与音调识别所述客服人员的身份信息；

依据所述音频语速与音调获取所述客服人员的情绪结果并记录。

需要说明的是，提取到所述客服人员的音频后，根据音频的语速与音调获取所述客服人员的身份信息以及情绪变化，并将所述情绪变化记录到对应身份的所述客服人员的工作簿中，后续进行查验时，可以第一时间获取到所述客服人员的情绪波动，并根据具体情况进行解压或者督促。

根据本发明实施例，所述通过预设口音识别神经网络识别目标音频的初始口音，具体为：

截取所述目标音频在第一预设时间范围类的第一音频内容；

截取所述目标音频在第二预设时间范围类的第二音频内容；

需要说明的是，识别口音需要一定的准确性，先截取所述目标音频在第一预设时间范围类的第一音频内容，从中提取对应的所述口音因子作为实验输入值，初步获取对应的所述第一口音归属数据组；然后再截取所述目标音频在第二预设时间范围类的第二音频内容，从中提取对应的所述口音因子作为验证输入值，以得到对应的所述第二口音归属数据组，采用先实验再验证的方式可以得到准确率高的口音识别，例如，当客户的方言口音为四川话时，所述口音因子包括对应的特殊词汇，如“锤子”、“老孩儿”等字眼及其对应的发音音调。

值得一提的是，对于一些方言口音类似的地区，有一些特殊词汇及其发音是很类似的，所以需要得到回归概率值递减的归属数据组，需要先得到方言的大类归属，再通过验证得到具体的口音来源，其中，所述回归概率值的计算公式如下：

；

其中，

为所述回归概率值，

为所述口音因子的在文段中的占比，例如中国的云贵川地区，发音有些词汇是相近的，假设一个四川口音的客户打入电话时，首先得到的所述第一口音归属数据组为云贵川地区的方言，而不会是鄂豫皖地区的，再通过验证得到所述第二口音归属数据组，对比前后两个数据组的方言回归概率值，得出所述初始口音。

根据本发明实施例，所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音，具体为：

、

以及

；

、

以及

；

识别数据组

中相同的所述口音数据库并提取对应的所述回归概率值；

需要说明的是，假设所述第一口音归属数据组得到的为云贵川方言，即

表示为四川方言，

表示为贵州方言，

表示为云南话；所述第二口音归属数据组得到的为贵川湘方言，即

表示为贵州方言，

表示为四川方言，

表示为湘西方言，计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列，选择和值最大的所述口音数据库作为所述初始口音。

根据本发明实施例，所述依据所述初始口音进行转译作业以获取目标译文，具体为：

若两组所述回归概率值均大于或等于预设阈值，则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文；相同所述口音数据库的所述回归概率值差值最小的所述

否则，则重新选择所述数据组

需要说明的是，通过计算概率和值得到所述初始口音的方法需要避免一种极端情况，即

为四川方言对应的回归概率值为38%，

为四川方言对应的回归概率值为88%，而客户真实的口音为贵州方言，但

为贵州方言对应的回归概率值为62%，

为贵州方言对应的回归概率值为63%，由于和值：

,会出现误判为四川方言，进而出现转译的不准确性，因此需要对应设置阈值限定，通过设置所述预设阈值为60%，来进一步确认所述目标口音。

根据本发明实施例，所述口音识别神经网络的训练方法，具体为：

获取历史时间的口音因子和口音类型信息；

获取输出结果的准确率；

需要说明的是，口音识别神经网络需要大量的历史数据进行训练，数据量越大，则结果越准确。本申请中的口音识别神经网络可以通过历史时间的口音因子和口音类型信息作为输入进行训练，得到对应的准确率，当所述准确率高于预设的准确率阈值时，则停止训练以得到所述口音识别神经网络，其中，所述准确率阈值设置为85%。

根据本发明实施例，所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录，具体为：

否则，所述音频人的情绪结果判断为第三情绪。

需要说明的是，加权后的方言标准语速与音调的计算公式如下：

;

其中，

为所述标准语速与音调，

为加权值，k为采集的客户人数，

表示为为第k个人的语速，

表示为第k个人的音调。

进一步地，所述第一情绪表示该客户的情绪处于激动、偏激状态；所述第二情绪表示该客户的情绪处于失望、无助状态；所述第三情绪表示该客户的情绪并无明显波动。

图2示出了本发明一种基于方言口音的语音转译系统的框图。

如图2所示，本发明公开了一种基于方言口音的语音转译系统，包括存储器和处理器，所述存储器中包括基于方言口音的语音转译方法程序，所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤：

通过预设口音识别神经网络识别目标音频的初始口音；

依据所述初始口音进行转译作业以获取目标译文；

通过预设算法提取所述目标音频的音频人语速与音调；

具体地，所述获取客服的情绪变化具体步骤如下：

通过预设算法提取客服人员的音频语速与音调；

依据所述音频语速与音调识别所述客服人员的身份信息；

截取所述目标音频在第一预设时间范围类的第一音频内容；

截取所述目标音频在第二预设时间范围类的第二音频内容；

；

其中，

为所述回归概率值，

、

以及

；

、

以及

；

识别数据组

中相同的所述口音数据库并提取对应的所述回归概率值；

表示为四川方言，

表示为贵州方言，

表示为贵州方言，

表示为四川方言，

否则，则重新选择所述数据组

为四川方言对应的回归概率值为38%，

为贵州方言对应的回归概率值为62%，

为贵州方言对应的回归概率值为63%，由于和值：

获取历史时间的口音因子和口音类型信息；

获取输出结果的准确率；

否则，所述音频人的情绪结果判断为第三情绪。

;

其中，

为所述标准语速与音调，

为加权值，k为采集的客户人数，

表示为为第k个人的语速，

表示为第k个人的音调。

本发明公开的一种基于方言口音的语音转译方法和系统和可读存储介质，通过设置实验数据实验与验证数据验证得到初始口音，再根据设置的回归概率值的大小选择目标口音进行转译作业，保证了方言口音识别的准确率，进而保证了转译的正确率；同时可以实时采取客户的语速和音调，进而得到客户的情绪等级，便于客服人员采取针对性措施，提升客户满意度，降低投诉率。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。