CN112185392A

CN112185392A - 一种用于供电智能客户的语音识别处理系统

Info

Publication number: CN112185392A
Application number: CN202011058941.2A
Authority: CN
Inventors: 黄瑞珍; 陈琳; 林磊; 罗陆宁; 刘家学; 黄媚; 李艳; 练芯妤; 曹美群; 税洁; 徐艳如; 谢钰莹; 罗建国; 黎怡均; 罗益会; 付婷婷; 陈辉; 黄公跃; 赵峻; 莫屾
Original assignee: Shenzhen Power Supply Co ltd
Current assignee: Shenzhen Power Supply Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05

Abstract

本发明提供了一种用于供电智能客户的语音识别处理系统，包含有语音输入单元、预处理单元、特征提取单元、语音识别模型构建单元以及语音识别处理单元；通过对客户的语音信号进行预处理、进行特征提取、进行识别，获得文本格式的语音识别结果，并输出。实施本发明，由于对语音信号采用了有效的预处理工作，可以提高语音识别准确度；同时，由于采用了智能打断处理机制，可以提高智能化程度，能实现智能打断响应，从而可以提高客户的使用体验；另外，通过训练语音识别模型，可以提高语音识别的准确度。

Description

一种用于供电智能客户的语音识别处理系统

技术领域

本发明涉及供电智能客户的技术领域，具体涉及一种用于供电智能客户的语音识别处理方法及系统。

背景技术

对于客户服务工作而言，智能语音是未来发展的趋势之一，虽然很多供电企业都在积极构建智能客户服务系统，但是现有大部分系统中的语音导航系统存在一些不足之处，主要体现在智能化程度不高，语音识别效果有限，服务流程复杂、整体性较差、服务性不强等缺点。

发明内容

本发明所要解决的技术问题在于，提供一种用于供电智能客户的语音识别处理系统，可以提高语音识别效果。

为解决上述技术问题，本发明的一方面，提供一种用于供电智能客户的语音识别处理系统，其包括：

语音输入单元，用于接收通过供电智能坐席接听客户的语音信号；

预处理单元，用于对客户的语音信号进行预处理，所述预处理包括端点检测、噪音消除和智能打断处理；

特征提取单元，用于对经过预处理后的所述语音信号进行特征提取，获得所述语音信号中的语音特征；

语音识别模型构建单元，用于预先构建语音识别模型的步骤，所述语音识别模型包括声学模型、字典以及语言模型；

语音识别处理单元，用于通过预先构建的语音识别模型对所提取的语音特征进行识别，获得文本格式的语音识别结果，并输出。

优选地，所述预处理单元进一步包括：

声道转换单元，用于将语音数据转换成适于声学模型处理的数据格式，所述数据格式包括：单声道16位16000采样率的wav或pcm音频；

端点检测单元，用于对语音信号中的端点进行识别，以确定用户说话起始和终止点；

降噪单元，用于消除背景噪声，进行场景分析，先对语音信号进行场景类型判断，确定场景类型后，根据不同的场景对应预设的噪声消除方式进行噪音消除；

智能打断单元，用于实时响应用户最新的语音信号，根据所设置的中断处理模式中断当前任务或继续当前任务。

优选地，所述端点检测单元进一步包括：

接收到语音信号触发语音识别时，根据用户登录信息先判断是否有存储对应用户的说话习惯，若有，则根据用户本身说话习惯对应调整后检测参数进行端点检测；若否，则基于通用检测参数进行端点检测。

优选地，所述端点检测单元进一步通过时域特征方法和频域特征方法对语音信号中的端点进行识别。

优选地，所述智能打断单元具体包括：

中断模式类型设置单元，用于对于不同的用户预先设置不同的中断处理模式类型，所述中断处理模式类型包括：可打断模式和不可打断模式；

中断模式处理单元，用于在实时进行语音识别时，若接收到新的语音信号，则判断当前的中断处理模式类型；

如果当前为可打断模式，在接收到新的语音指令时，中断当前语音识别的响应；

如果当前为不可打断模式，在用户触发语音识别处理后，等指令执行结束才重新接收新的语音信号指令。

优选地，所述特征提取单元进一步用于采用线性预测编码技术对所述经过预处理后的语音信号进行特征提取，获得所述语音信号中的语音特征。

优选地，在所述语音识别模型构建单元中，所述声学模型，为每个发音建立发音模板，声学模型是对声学、语音学、环境的变量、说话人性别、口音的差异的知识表示；所述语言模型是对一组字序列构成的知识表示，其是词与词、词与句子的映射；字典构建有语音与文字之间的映射关系。

优选地，所述语音识别模型构建单元包括：

语音数据库，存储有多种语音样本资料；

特征预提取单元，用于对语音数据库中的语音样本资料进行特征提取，获得语音样本资料所对应的语音特征；

声学模型训练单元，用于对所述语音特征训练，获得语音特征到音素的映射，形成声学模型。

优选地，所述语音识别模型构建单元包括：

文本数据库，存储有多种文本样本资料；

语言模型训练单元，用于通过对文本数据库中的文本进行训练获得词与词、词与句子之间的映射，形成语言模型。

优选地，所述语音识别模型构建单元进一步包括：

字典构建单元，用于根据所述声学模型以及所述语言模型，构建语音与文字之间的映射关系，形成字典。

实施本发明实施例，具有以下的有益效果：

本发明的实施例提供一种用于供电智能客户的语音识别处理系统，通过供电智能坐席接听客户的语音信号；然后对客户的语音信号进行预处理，所述预处理包括端点检测、噪音消除和智能打断处理；对经过预处理后的所述语音信号进行特征提取，获得所述语音信号中的语音特征；通过预先构建的语音识别模型对所提取的语音特征进行识别，获得文本格式的语音识别结果，并输出。由于对语音信号采用了有效的预处理工作，可以提高语音识别准确度；同时，由于采用了智能打断处理机制，可以提高智能化程度，能实现智能打断响应，从而可以提高客户的使用体验；

另外，通过训练语音识别模型，可以提高语音识别的准确度。

附图说明

图1为本发明提供的一种用于供电智能客户的语音识别处理系统的一个实施例的结构示意图；

图2为图1中预处理单元的结构示意图；

图3为图2中智能打断单元的结构示意图；

图4为图1中语音识别模型构建单元的结构示意图；

图5为本发明涉及的一种用于供电智能客户的语音识别处理方法的一个实施例的主流程示意图；

图6为图5中步骤S11的更详细的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

为使本领域的普通技术人员更加清楚地理解发明的目的、技术方案和优点，以下结合附图和实施例对发明做进一步的阐述。

如图1所示，示出了本发明提供的一种用于供电智能客户的语音识别处理系统的一个实施例的结构示意图；一并结合图2至图4所示。在本实施例中，所述用于供电智能客户的语音识别处理系统1包括：

语音输入单元10，用于接收通过供电智能坐席接听客户的语音信号；

预处理单元11，用于对客户的语音信号进行预处理，所述预处理包括端点检测、噪音消除和智能打断处理；

特征提取单元12，用于对经过预处理后的所述语音信号进行特征提取，获得所述语音信号中的语音特征；

语音识别模型构建单元13，用于预先构建语音识别模型的步骤，所述语音识别模型包括声学模型、字典以及语言模型；

语音识别处理单元14，用于通过预先构建的语音识别模型对所提取的语音特征进行识别，获得文本格式的语音识别结果，并输出。

在一个具体的例子中，所述预处理单元11进一步包括：

声道转换单元110，用于将语音数据转换成适于声学模型处理的数据格式，所述数据格式包括：单声道16位16000采样率的wav或pcm音频；

端点检测单元111，用于对语音信号中的端点进行识别，以确定用户说话起始和终止点；

降噪单元112，用于消除背景噪声，进行场景分析，先对语音信号进行场景类型判断，确定场景类型后，根据不同的场景对应预设的噪声消除方式进行噪音消除；

智能打断单元113，用于实时响应用户最新的语音信号，根据所设置的中断处理模式中断当前任务或继续当前任务。

具体地，在一个例子中，所述端点检测单元111进一步包括：

优选地，所述端点检测单元111进一步通过时域特征方法和频域特征方法对语音信号中的端点进行识别。

在一个具体的例子中，所述智能打断单元113具体包括：

中断模式类型设置单元1130，用于对于不同的用户预先设置不同的中断处理模式类型，所述中断处理模式类型包括：可打断模式和不可打断模式；

中断模式处理单元1131，用于在实时进行语音识别时，若接收到新的语音信号，则判断当前的中断处理模式类型；

具体地，在一个例子中，在所述语音识别模型构建单元13中，所述声学模型，为每个发音建立发音模板，声学模型是对声学、语音学、环境的变量、说话人性别、口音的差异的知识表示；所述语言模型是对一组字序列构成的知识表示，其是词与词、词与句子的映射；字典构建有语音与文字之间的映射关系。

优选地，所述语音识别模型构建单元13包括：

语音数据库130，存储有多种语音样本资料；

特征预提取单元131，用于对语音数据库中的语音样本资料进行特征提取，获得语音样本资料所对应的语音特征；

声学模型训练单元132，用于对所述语音特征训练，获得语音特征到音素的映射，形成声学模型。

优选地，所述语音识别模型构建单元13包括：

文本数据库133，存储有多种文本样本资料；

语言模型训练单元134，用于通过对文本数据库中的文本进行训练获得词与词、词与句子之间的映射，形成语言模型。

优选地，所述语音识别模型构建单元13进一步包括：

字典构建单元135，用于根据所述声学模型以及所述语言模型，构建语音与文字之间的映射关系，形成字典。

请参阅图5所示，示出了本发明涉及的一种用于供电智能客户的语音识别处理方法的一个实施例的主流程示意图；一并结合图6所示，在本实施例中，所述用于供电智能客户的语音识别处理方法，其包括如下步骤：

步骤S10，通过供电智能坐席接听客户的语音信号；

步骤S11，对客户的语音信号进行预处理，所述预处理包括端点检测、噪音消除和智能打断处理；

在具体的例子中，所述步骤S11进一步包括：

步骤S110，将语音数据转换成适于声学模型处理的数据格式，所述数据格式包括：单声道16位16000采样率的wav或pcm音频；

步骤S111，对语音信号中的端点进行识别，以确定用户说话起始和终止点；其中，端点检测是对输入的音频流进行分析，可以确定用户说话的起始和终止的处理过程，一旦检测到用户开始说话，语音开始流向后面的识别引擎(即语音识别处理单元)，直到检测到用户说话结束，语音识别中静音检测可以确定用户是否说话结束；这种方式使识别引擎在用户在说话的同时即开始进行识别处理。

步骤S112，消除背景噪声，进行场景分析，先对语音信号进行场景类型判断，确定场景类型后，根据不同的场景对应预设的噪声消除方式进行噪音消除；噪声消除主要为了消除背景噪声，可以基于用户所处场景进行分析，如对语音信号进行场景类型判断，确定场景类型后，根据不同的场景对应预设的噪声消除方式进行噪音消除，通过为各种场景类型设置对应的消噪策略，可以提高语音消噪处理效果，确保后续语音识别的准确度。在不同的场景下，可以学习不同的降噪方式；具体针对每一场景，可以通过各种降噪算法进行降噪处理，找到与该场景适配的降噪方式，确定每一场景对应事宜的降噪方式后，则可以利用对应的降噪方式对各场景进行噪声消除。

步骤S113，实时响应用户最新的语音信号，根据所设置的中断处理模式中断当前任务或继续当前任务。在一些场景中，智能打断是指用户可以在自助语音服务的提示语播放过程中随时说出自己的需求，而无需等待播放结束，系统能够自动进行判断，立即停止提示语的播放，对用户的语音指示做出响应。智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求，而无需等待播放结束，系统能够自动进行判断，立即停止提示语的播放，对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然，有助于增强客户体验。

优选地，所述步骤S111进一步包括：

接收到语音信号触发语音识别时，根据用户登录信息先判断是否有存储对应用户的说话习惯，若有，则根据用户本身说话习惯对应调整后检测参数进行端点检测；若否，则基于通用检测参数进行端点检测。通过建立不同用户的说话习惯，以配置相应的端点检测策略，可以有效提高端点检测的准确性和效率。

优选地，在所述步骤S111中，通过时域特征方法和频域特征方法对语音信号中的端点进行识别。端点检测为从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间，而且能排除无声段的噪声干扰。目前主要有两类方法：时域特征方法和频域特征方法。时域特征方法是利用语音音量和过零率进行端点检测，计算量小,但对气音会造成误判，不同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语音检测，计算量较大。

优选地，所述步骤S112具体包括：

对于不同的用户预先设置不同的中断处理模式类型，所述中断处理模式类型包括：可打断模式和不可打断模式；

在实时进行语音识别时，若接收到新的语音信号，则判断当前的中断处理模式类型；

可以理解的是，在实时进行语音识别时，若接收到新的语音信号，如用户打断语音识别，发送最新指令时，平台及时作出响应，使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求，而无需等待播放结束，系统能够自动进行判断，立即停止提示语的播放，对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然，有助于增强客户体验。具体地，还可以设置不同的模式，如可打断模式和不可打断模式，在可打断模式下，如在接收到新的语音指令时，中断当前语音识别的响应；而在不可打断模式下，在用户触发语音识别处理后，等指令执行结束才重新接收新的语音信号指令。具体的模式设置可以由用户根据个人使用习惯进行灵活配置。

可以理解的是，在不同的实施例中，预处理还可以包括滤波、A/D变换，预加重等操作。

步骤S12，对经过预处理后的所述语音信号进行特征提取，获得所述语音信号中的语音特征；

优选地，所述步骤S12中进一步包括：

采用线性预测编码技术对所述经过预处理后的语音信号进行特征提取，获得所述语音信号中的语音特征。可以理解的是，线性预测编码的基本思想是:语音信号采样点之间存在相关性，可用过去的若干采样点的线性组合预测当前和将来的采样点值。线性預测系数以通过使预测信号和实际信号之间的均方误差最小来唯一确定。

优选地，进一步包括：预先构建语音识别模型的步骤，所述语音识别模型包括声学模型、字典以及语言模型，具体地，所述步骤包括：

通过对语音数据库中的语音样本资料所对应的语音特征进行训练，获得语音特征到音素的映射，形成声学模型；其中，声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示；

通过对文本数据库中的文本进行训练获得语言模型，获得词与词、词与句子之间的映射，形成语言模型；语言模型是对一组字序列构成的知识表示，语言模型可以用SRILM工具做LM的训练得到；

根据所述声学模型以及所述语言模型，构建语音与文字之间的映射关系，形成字典。

总的来说，所谓声学模型就是把语音的声学特征分类对应到(解码)音素或字词这样的单元，语言模型接着把字词解码成一个完整的句子。

步骤S13，通过预先构建的语音识别模型对所提取的语音特征进行识别，获得文本格式的语音识别结果，并输出。在识别时将输入的语音特征同声学模型进行匹配与比较，得到最佳识别结果。

实施本发明实施例，具有以下的有益效果：

本发明的实施例提供一种用于供电智能客户的语音识别处理系统，首先通过供电智能坐席接听客户的语音信号；然后对客户的语音信号进行预处理，所述预处理包括端点检测、噪音消除和智能打断处理；对经过预处理后的所述语音信号进行特征提取，获得所述语音信号中的语音特征；通过预先构建的语音识别模型对所提取的语音特征进行识别，获得文本格式的语音识别结果，并输出。由于对语音信号采用了有效的预处理工作，可以提高语音识别准确度；同时，由于采用了智能打断处理机制，可以提高智能化程度，能实现智能打断响应，从而可以提高客户的使用体验；

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种用于供电智能客户的语音识别处理系统，其特征在于，包括：

2.如权利要求1所述的系统，其特征在于，所述预处理单元进一步包括：

3.如权利要求2所述的系统，其特征在于，所述端点检测单元进一步包括：

4.如权利要求3所的系统，其特征在于，所述端点检测单元进一步通过时域特征方法和频域特征方法对语音信号中的端点进行识别。

5.如权利要求2所述的系统，其特征在于，所述智能打断单元具体包括：

6.如权利要求5所述的系统，其特征在于，所述特征提取单元进一步用于采用线性预测编码技术对所述经过预处理后的语音信号进行特征提取，获得所述语音信号中的语音特征。

7.如权利要求1至6任一项所述的系统，其特征在于，在所述语音识别模型构建单元中，所述声学模型，为每个发音建立发音模板，声学模型是对声学、语音学、环境的变量、说话人性别、口音的差异的知识表示；所述语言模型是对一组字序列构成的知识表示，其是词与词、词与句子的映射；字典构建有语音与文字之间的映射关系。

8.如权利要求7所述的系统，其特征在于，所述语音识别模型构建单元包括：

语音数据库，存储有多种语音样本资料；

9.如权利要求7所述的系统，其特征在于，所述语音识别模型构建单元包括：

文本数据库，存储有多种文本样本资料；

10.如权利要求7所述的系统，所述语音识别模型构建单元进一步包括：