CN116343786A

CN116343786A - 一种客服语音分析方法、系统、计算机设备和存储介质

Info

Publication number: CN116343786A
Application number: CN202310207089.8A
Authority: CN
Inventors: 敖榜; 卢志良; 姚森敬; 郭尧; 廖灿; 习伟; 于力; 王鹏凯; 任正国; 杨伟; 辛文成; 黄文琦; 梁凌宇; 郑桦
Original assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: China Southern Power Grid Artificial Intelligence Technology Co ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-27

Abstract

本发明公开了一种客服语音分析方法、系统、计算机设备和存储介质，涉及客服语音分析技术领域，包括：接收语音，进行语音识别；对识别语音进行分析，将文本信息转换到流畅自然的语音数据，对语音数据进行语音合成；对语音合成效果进行优化，优化后输出语音合成结果，并通过日志功能记录结果。本发明提供的基于人工智能平台的语音合成方法降低网络中的功耗，满足了实际生产运营要求，强化了人工智能自动化的管理及应用、降低了运维管控成本、提高了现场作业安全等提供智能化的技术支持，提升客服质量，降低人工成本，提升调度指挥质量及成效。系统自动应答，极大减少人工话务压力，降低人工成本。

Description

一种客服语音分析方法、系统、计算机设备和存储介质

技术领域

本发明涉及客服语音分析技术领域，具体为一种客服语音分析方法、系统、计算机设备和存储介质。

背景技术

根据业务发展战略方向，人工智能与业务发展深度融合基础上、针对电力调度实际业务范围内对业务模型做总体规划，分解业务体系结构，建立整体业务模型视图，包括业务类、业务流程、功能项等内容。在实际设计过程中，基于业务紧密结合智能语音开放平台应用场景梳理的成果，开展功能需求及业务应用需求的梳理，形成了各个应用场景的《功能需求规格说明书》，包括各应用场景、场景子项的详细说明，以及对应用场景所涉及的数据进行了整理和完善。在此过程中，结合业务需求及科大在以往项目上所积累的经验，对业务中所涉及的场景应用需求不断完善，并在后续进行相应的原型和详细设计的开发工作，帮助业务人员不断完善、补充业务开展中所需的应用场景，为未来的智能语音平台开发阶段工作奠定基础。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有客服语音分析方法无法满足用户使用要求，识别错误率较大，同时不具备实时性。

为解决上述技术问题，本发明提供如下技术方案：一种客服语音分析方法，包括：

接收语音，进行语音识别；

对识别语音进行分析，将文本信息转换到流畅自然的语音数据，对语音数据进行语音合成；

对语音合成效果进行优化，优化后输出语音合成结果，并通过日志功能记录结果。

作为本发明所述的基于人工智能平台的语音合成方法的一种优选方案，其中，所述，语音识别包括：前端语音处理，后端识别处理；

所述前端语音处理包括对说话人语音进行检测，当存在背景噪声时，降低噪音，适应实际使用场景；

所述后端识别处理包括对说话人语音进行识别，识别得到最准确的结果，进行识别校验；

所述语音识别还包括支持中文和中英文混读、支持中文标点智能预测；

所述识别校验包括将处理后的语音采集分析，按照音量、语言类型进行分析，首先识别音量大小，当语音未通过检测时，向客户发出提示，需重新录制后发送，接收后重新进行识别校验，通过后进行语言类型分析；

当音量检测通过后进行语言类型检测；

当语音音量通过检测后对语言类型进行分析，分析语言类型；当分析为中文时，继续分析是否为方言，根据声学模型，进行判断，当分析为普通话时，使用普通话语言模型，当识别分析为方言时，根据识别方言类型，选择响应的方言语言模型；

当分析为英文时，使用英文语言模型；当分析为中英文混合时，使用中英文语言模型；

当分析结果为无法识别时，向客户发出提示，说明无法识别原因，提示用户使用规定语言，重新录音；当音量检测、语言类型检测均通过时，进行语音分析。

作为本发明所述的基于人工智能平台的语音合成方法的一种优选方案，其中，所述，对语音进行分析包括：

对通过校验的语音进行分析，确定用户说话的起始点和终止点；

所述确定用户说话包括，当检测到用户开始说话时为起始点，进行语音识别，直到检测到用户说话结束时为终止点，停止分析；

当用户长时间未说话时，每隔三秒进行语音提示及文字提示，提醒用户开始讲话，当两次提示后，用户依然未开始说话，则退出当前识别流程以释放相关资源；

当用户与语音识别系统进行多次会话时，在线提取通话的语音特征，分析客户语音逻辑，使识别效果得到持续优化。

作为本发明所述的基于人工智能平台的语音合成方法的一种优选方案，其中，所述，持续优化包括：

根据系统运行情况动态智能调整语音识别策略，当GPU占用较高时，采用计算量较小但具有足够精度的策略以保证系统的响应速度；

在GPU占用较低时，采用精度更高的策略以达到更优的识别效果；

所述日志功能包括记录输入的音频、加载的语法、识别过程的中间结果、识别使用的各种参数、识别结果以及当时的系统环境信息。

作为本发明所述的基于人工智能平台的语音合成方法的一种优选方案，其中，所述，语音合成包括：

语音调整，多音色服务，高精度文本分析，多字符集支持，多种数据输出格式，预录音合成模板。

作为本发明所述的基于人工智能平台的语音合成方法的一种优选方案，其中，

所述语音调整包括：对音量、语速、音调参数进行动态调整

所述多音色服务包括支持实时动态的音色切换；

所述高精度文本分析包括通过对需要合成的文本进行高精度的分析，保证了对文本中未登录词、多音字、特殊符号、韵律短语的智能分析和处理，使得合成效果清晰易懂；

所述多字符集支持包括，支持输入GB2312、GBK、Big5、Unicode和UTF-8字符集，普通文本和带有CSSML标注的的文本信息；

所述多种数据输出格式包括，支持输出多种采用率的线性Wav，A/U率Wav和Vox格式的语音数据；

所述预录音合成模板包括，在语音合成的业务中，合成一些固定格式的语句，对固定不变的内容进行提前合成；当触发相关业务时，直接播报预录音合成模板语音。

作为本发明所述的基于人工智能平台的语音合成方法的一种优选方案，其中，所述，对语音合成效果进行优化包括：

实现中文及中英文混读的合成服务、合成语音适当地添加背景音乐、根据上下文和语境来判断朗读方式及判断多音字的读音。

为解决上述技术问题，本发明提供如下技术方案：一种客服语音分析系统，包括：

识别模块，分析模块，合成模块，输出模块；

所述识别模块用于识别接收的语音；

所述分析模块用于将识别模块得到的语音进行分析，进行语言处理；

所述合成模块用于将分析模块得到处理后的语音通过语音库进行合成，生成语音；

所述输出模块用于输出合成模块合成的语音。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明的有益效果：本发明提供的客服语音分析方法降低网络中的功耗，满足了实际生产运营要求，强化了人工智能自动化的管理及应用、降低了运维管控成本、提高了现场作业安全等提供智能化的技术支持，提升客服质量，降低人工成本，提升调度指挥质量及成效。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例提供的一种客服语音分析方法的整体流程图；

图2为本发明第二个实施例提供的一种客服语音分析系统的整体结构图；

图3为本发明第四个实施例提供的一种客服语音分析方法的分析耗时对比表图；

图4为本发明第四个实施例提供的一种客服语音分析方法的分析准确率对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的一个实施例，提供了一种客服语音分析方法，包括：

接收语音，对接收的语音进行识别，进行前端语音处理，后端识别处理；

前端语音处理包括对说话人语音进行检测，当存在背景噪声时，降低噪音，适应实际使用场景；

后端识别处理包括对说话人语音进行识别，识别得到最准确的结果，进行识别校验；

语音识别还包括支持中文和中英文混读、支持中文标点智能预测；

识别校验包括将处理后的语音采集分析，按照音量、语言类型进行分析，首先识别音量大小，当语音未通过检测时，向客户发出提示，需重新录制后发送，接收后重新进行识别校验，通过后进行语言类型分析；

当音量检测通过后进行语言类型检测；

确定用户说话包括，当检测到用户开始说话时为起始点，进行语音识别，直到检测到用户说话结束时为终止点，停止分析；

进行语音调整，多音色服务，高精度文本分析，多字符集支持，多种数据输出格式，预录音合成模板。

对音量、语速、音调参数进行动态调整

多音色服务包括支持实时动态的音色切换；

高精度文本分析包括通过对需要合成的文本进行高精度的分析，保证了对文本中未登录词、多音字、特殊符号、韵律短语的智能分析和处理，使得合成效果清晰易懂；

多字符集支持包括，支持输入GB2312、GBK、Big5、Unicode和UTF-8字符集，普通文本和带有CSSML标注的的文本信息；

多种数据输出格式包括，支持输出多种采用率的线性Wav，A/U率Wav和Vox格式的语音数据；

预录音合成模板包括，在语音合成的业务中，合成一些固定格式的语句，对固定不变的内容进行提前合成，当触发相关业务时，直接播报预录音合成模板语音。

实现中文及中英文混读的合成服务、合成语音适当地添加背景音乐，实现背景音与合成语音的自然融合、根据上下文和语境来判断朗读方式及判断多音字的读音。

根据系统运行情况动态智能调整语音识别策略，当GPU占用较高时，采用计算量较小但具有足够精度的策略以保证系统的响应速度；在GPU占用较低时，采用精度更高的策略以达到更优的识别效果；

记录输入的音频、加载的语法、识别过程的中间结果、识别使用的各种参数、识别结果以及当时的系统环境信息。

实施例2

参照图2，为本发明的一个实施例，提供了一种客服语音分析系统，包括：识别模块100，分析模块200，合成模块300，输出模块400；

识别模块100用于识别接收的语音；

分析模块200用于将识别模块100得到的语音进行分析，进行语言处理，韵律处理；

合成模块300用于将分析模块200得到处理后的语音通过语音库进行合成，生成语音；

输出模块400用于输出合成模块300合成的语音。

实施例3

本发明第三个实施例，其不同于前两个实施例的是：

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

实施例4

参照图3-4，为本发明的一个实施例，提供了一种客服语音分析方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

本实施例中，对本发明的方法进行具体的使用实验，在预设好的同等的实验环境下，如表1所示，本实施例分别对现有传统的方法、本实施例的方法进行了3组实验，具体的实验结果如表格2、3所示。

表1工作条件表：

名称	版本说明
		CPU	32核
内存	128G
		网络	1000Mbps
操作系统	redhat7.2以上

表2识别耗时对比表

检测耗时对比	实验1	实验2	实验3
				本方法	12s	15s	14s
传统方法	32s	26s	29s

表3识别准确率对比表

检测准确率	实验1	实验2	实验3
				本方法	96％	95％	96％
传统方法	88％	90％	92％

通过以上对比实验可以确定，本发明提供的方法检测速度提升明显，与现有技术相比识别速度得到了显著提高，降低了检测花费时间；同时在具备实时性的同时，大大降低了错误率。

在实际使用中，满足了实际生产运营要求，强化了人工智能自动化的管理及应用、降低了运维管控成本、提高了现场作业安全等提供智能化的技术支持，提升客服质量，降低人工成本，提升调度指挥质量及成效。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种客服语音分析方法，其特征在于，包括：

接收语音，进行语音识别；

2.如权利要求1所述的基于人工智能平台的语音合成方法，其特征在于：所述，语音识别包括：前端语音处理，后端识别处理；

当音量检测通过后进行语言类型检测；

3.如权利要求1所述的基于人工智能平台的语音合成方法，其特征在于，所述，对语音进行分析包括：

4.如权利要求1所述的基于人工智能平台的语音合成方法，其特征在于，所述，持续优化包括：

5.如权利要求4所述的基于人工智能平台的语音合成方法，其特征在于，所述，语音合成包括：

6.如权利要求5所述的基于人工智能平台的语音合成方法，其特征在于，所述语音调整包括：对音量、语速、音调参数进行动态调整；

所述多音色服务包括支持实时动态的音色切换；

7.如权利要求1所述的基于人工智能平台的语音合成方法，其特征在于，所述，对语音合成效果进行优化包括：

8.一种客服语音分析系统，其特征在于，包括：

识别模块(100)，分析模块(200)，合成模块(300)，输出模块(400)；

所述识别模块(100)用于识别接收的语音；

所述分析模块(200)用于将识别模块(100)得到的语音进行分析，进行语言处理；

所述合成模块(300)用于将分析模块(200)得到处理后的语音通过语音库进行合成，生成语音；

所述输出模块(400)用于输出合成模块(300)合成的语音。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。