CN109147768A

CN109147768A - 一种基于深度学习的语音识别方法及系统

Info

Publication number: CN109147768A
Application number: CN201811069381.3A
Authority: CN
Inventors: 游绍华; 赵涛; 赵毅涛; 张羿; 浦朔; 吴迟林; 陈姣
Original assignee: Yunnan Power Grid Co Ltd; Tongfang Technology of Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd; Tongfang Technology of Yunnan Power Grid Co Ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2019-01-04

Abstract

本申请公开了一种基于深度学习的语音识别方法及系统，该方法包括：获取训练数据集，所述训练数据集包括：训练语音数据集、语音标签以及对话文本信息，然后通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型，接着，获取语音查询请求数据，根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，最后，输出所述语音查询请求数据的语音识别文本结果。通过本申请提供的基于深度学习的语音识别方法可以对客户输入的语音咨询内容进行准确识别，减轻了人工客服需听取所有的咨询请求的工作量，减少了客户等待应答的时间。

Description

一种基于深度学习的语音识别方法及系统

技术领域

本申请涉及语音识别技术领域，尤其涉及一种基于深度学习的语音识别方法及系统。

背景技术

随着电力体制改革的不断深入，为了使用电客户实时获取电力相关信息，电力企业需通过各种平台，向用电客户提供关于电力查询、停电公告、网点查询、耗电知识以及供电业务管理信息等多方面的咨询服务。除此之外，为了便于内部员工获取企业信息，电力企业还需向内部员工提供关于内部消息通知、业务知识查询、业务接口推送以及运维服务表查询等多方面的查询服务。

但是，发明人在本申请的研究过程中发现，在实际生产环境中，如果关于电力业务的咨询请求与查询请求是以语音的形式发出，那么便需要人工客服逐个听取语音内容，获取相关的咨询内容或查询内容，这些涉及多方面的电力业务查询请求与咨询请求形成了一个庞大的工作量，仅仅依靠人工客服负责听取所有的语音将会需要大量的时间与精力，并且增加了用电客户等待应答的时间。

发明内容

为了解决现有技术中，人工客服需花大量的时间和精力，负责听取所有用户发送的语音查询请求，使用电客户等待应答的时间较长的问题，本申请通过以下各个实施例公开一种基于深度学习的语音识别方法及系统。

在本申请的第一方面，公开一种基于深度学习的语音识别方法，包括：

获取训练数据集，所述训练数据集包括：训练语音数据集、语音标签以及对话文本信息；

通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型；

获取待识别的语音查询请求数据；

根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，所述字典包括字或者词与音素的对应关系；

输出所述语音查询请求数据的语音识别文本结果。

可选的，所述通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型，包括：

使用语音信号特征提取算法对所述训练语音数据集进行特征提取，并获取所述训练语音数据集的特征向量，其中，所述训练语音数据集包括电力业务语音数据集；

根据所述语音标签以及声学模型算法，对所述训练语音数据集的特征向量进行训练，建立声学模型，其中，所述语音标签为与所述电力业务语音数据集相对应的语音标签，所述声学模型包括所述训练语音数据集的音素信息；

根据语言模型算法，对所述对话文本信息进行训练，建立语言模型，其中，所述对话文本信息包括电力客服与用户的对话文本信息，所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。

可选的，所述根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，包括：

使用语音信号特征提取算法对所述语音查询请求数据进行特征提取，并获取所述语音查询请求数据的特征向量；

根据所述声学模型，对所述语音查询请求数据的特征向量进行处理，获取所述语音查询请求数据的音素信息；

根据所述语音查询请求数据的音素信息以及预设的字典，获取与所述语音查询请求数据的音素信息相对应的单个字或者词；

根据所述语言模型中单个字或者词相互关联的概率，将所述与所述语音查询请求数据的音素信息相对应的单个字或者词，识别成完整的文本。

可选的，所述根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别之前，还包括：

对所述语音查询请求数据进行预处理，所述预处理包括：将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。

可选的，当需对用户的语音查询请求做出应答时，所述输出所述语音查询请求数据的语音识别文本结果之后，还包括：

获取所述语音查询请求数据的语音识别文本结果，并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比；

获取对比的结果，并根据对比的结果，获取用户的电力业务需求；

根据所述用户的电力业务需求，获取所述电力业务知识数据库中相应的解决方案；

将所述解决方案反馈至用户。

在本申请的第二方面，公开一种基于深度学习的语音识别系统，包括：

训练数据集获取模块，用于获取训练数据集，所述训练数据集包括：训练语音数据集、语音标签以及对话文本信息；

训练模块，用于通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型；

语音查询请求数据获取模块，用于获取待识别的语音查询请求数据；

识别模块，用于根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，所述字典包括字或者词与音素的对应关系；

语音识别文本结果输出模块，用于输出所述语音查询请求数据的语音识别文本结果。

可选的，所述训练模块包括：

第一特征提取单元，用于使用语音信号特征提取算法对所述训练语音数据集进行特征提取，并获取所述训练语音数据集的特征向量，其中，所述训练语音数据集包括电力业务语音数据集；

声学模型建立单元，用于根据所述语音标签以及声学模型算法，对所述训练语音数据集的特征向量进行训练，建立声学模型，其中，所述语音标签为与所述电力业务语音数据集相对应的语音标签，所述声学模型包括所述训练语音数据集的音素信息；

语言模型建立单元，用于根据语言模型算法，对所述对话文本信息进行训练，建立语言模型，其中，所述对话文本信息包括电力客服与用户的对话文本信息，所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。

可选的，所述识别模块包括：

第二特征提取单元，用于使用所述语音信号特征提取算法对所述语音查询请求数据进行特征提取，并获取所述语音查询请求数据的特征向量；

音素获取单元，用于根据所述声学模型，对所述语音查询请求数据的特征向量进行处理，获取所述语音查询请求数据的音素信息；

字词获取单元，用于根据所述语音查询请求数据的音素信息以及预设的字典，获取与所述语音查询请求数据的音素信息相对应的单个字或者词；

文本识别单元，用于根据所述语言模型中单个字或者词相互关联的概率，将所述与所述语音查询请求数据的音素信息相对应的单个字或者词，识别成完整的文本。

可选的，所述系统还包括：

数据预处理模块，用于对所述语音查询请求数据进行预处理，所述预处理包括：将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。

可选的，当需对用户的语音查询请求做出应答时，所述系统还包括：

对比模块，用于获取所述语音查询请求数据的语音识别文本结果，并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比；

电力业务需求获取模块，用于获取对比的结果，并根据对比的结果，获取用户的电力业务需求；

解决方案获取模块，用于根据所述用户的电力业务需求，获取所述电力业务知识数据库中相应的解决方案；

反馈模块，用于将所述解决方案反馈至用户。

进一步的，本申请在获取语音查询请求数据的语音识别文本结果之后，将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比，获取用户的电力业务需求以及相应的解决方案，然后将所述解决方案反馈至用户。通过本申请公开的语音识别方法，不仅可以对用户发出的语音查询请求数据进行识别，获取用户的查询需求，并且在后续可以实现无需人工的参与，自动对用户的查询需求做出响应，将与用户查询需求相对应的解决方案自动反馈给用户，有效减轻人工客服的工作量，并且不用客户等待，能够及时给出答复，大大提高了电力客服的工作效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请公开的一种基于深度学习的语音识别方法的工作流程示意图；

图2为本申请公开的一种基于深度学习的语音识别方法中，训练过程的工作流程示意图；

图3为本申请公开的一种基于深度学习的语音识别方法中，识别过程的工作流程示意图；

图4为本申请公开的一种基于深度学习的语音识别方法中，对用户的语音查询请求做出应答的工作流程示意图；

图5为本申请公开的一种基于深度学习的语音识别系统的结构示意图；

图6为本申请公开的一种基于深度学习的语音识别系统中，训练模块的结构示意图；

图7为本申请公开的一种基于深度学习的语音识别系统中，识别模块的结构示意图。

具体实施方式

本申请第一实施例公开一种基于深度学习的语音识别方法，参见图1所示的工作流程示意图，所述方法包括：

步骤S11，获取训练数据集，所述训练数据集包括：训练语音数据集、语音标签以及对话文本信息。

其中，所述训练语音数据集是预先准备好的电力业务语音数据集，包括电力客服的录音数据，电力业务语音数据集包括但不限于：业扩报装，违约窃电，电力负荷、电费退补、手工退补、抄表核算、下载证书、授权码发送以及PKI账号等专业词汇和问题。所述语音标签为与所述电力业务语音数据集相对应的语音标签，对话文本信息为大量的电力客服与客户的对话文本信息。

步骤S12，通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型。

步骤S13，获取待识别的语音查询请求数据。

其中，所述待识别的语音查询请求数据为用户发送的查询请求。

步骤S14，根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，所述字典包括字或者词与音素的对应关系。

其中，预设的字典包括字或者词与音素信息的对应关系，用于连接声学模型与语言模型，音素是语音中最小的单位，音素信息包含英语中的音标，以及汉语中的声母和韵母。

步骤S15，输出所述语音查询请求数据的语音识别文本结果。

对所述语音查询请求数据进行语音识别之后，将语音查询请求数据转换为文本的形式输出。

深度学习是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，基于深度学习的语音识别方法是为了建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释声音数据。

进一步的，参见图2所示的工作流程示意图，所述通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型，包括：

步骤S121，使用语音信号特征提取算法对所述训练语音数据集进行特征提取，并获取所述训练语音数据集的特征向量，其中，所述训练语音数据集包括电力业务语音数据集。

其中，语音信号特征提取算法主要包括线性预测倒谱系数算法和Mel倒谱系数算法，能够将经过预处理分割的每一帧语音波形转换成一个包含声音信息的多维特征向量。

步骤S122，根据所述语音标签以及声学模型算法，对所述训练语音数据集的特征向量进行训练，建立声学模型，其中，所述语音标签为与所述电力业务语音数据集相对应的语音标签，所述声学模型包括所述训练语音数据集的音素信息。

其中，声学模型式把语音转化为声学表示的输出，最常用的用于建立声学模型的是隐马尔科夫模型，通过隐马尔科夫模型中所用到的声学模型算法，对所述训练语音数据集的特征向量进行训练。

步骤S123，根据语言模型算法，对所述对话文本信息进行训练，建立语言模型，其中，所述对话文本信息包括电力客服与用户的对话文本信息，所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。

进一步的，参见图3所示的工作流程示意图，所述根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，包括：

步骤S141，使用所述语音信号特征提取算法对所述语音查询请求数据进行特征提取，并获取所述语音查询请求数据的特征向量。

步骤S142，根据所述声学模型，对所述语音查询请求数据的特征向量进行处理，获取所述语音查询请求数据的音素信息。

步骤S143，根据所述语音查询请求数据的音素信息以及预设的字典，获取与所述语音查询请求数据的音素信息相对应的单个字或者词。

步骤S144，根据所述语言模型中单个字或者词相互关联的概率，将所述与所述语音查询请求数据的音素信息相对应的单个字或者词，识别成完整的文本。

进一步的，所述根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别之前，还包括：

其中，语音查询请求数据一般包含各种噪音或者静音，为了防止这些噪音以及静音对后续的识别步骤造成干扰，首先需要将语音查询请求数据首尾端的静音切除。对所述语音查询请求数据进行分帧就是使用移动窗函数把语音切开成一小段一小段，以便对语音数据的处理。

进一步的，参见图4所示的工作流程示意图，当需对用户的语音查询请求做出应答时，所述输出所述语音查询请求数据的语音识别文本结果之后，还包括：

步骤S21，获取所述语音查询请求数据的语音识别文本结果，并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比。

其中，电力业务知识数据库中的电力业务需求包括但不限于：电力查询、停电通报、网点查询、用电知识、业务知识查询、业务接口推送以及运维服务表查询等。

步骤S22，获取对比的结果，并根据对比的结果，获取用户的电力业务需求。

步骤S23，根据所述用户的电力业务需求，获取所述电力业务知识数据库中相应的解决方案。

针对每一种电力业务需求，电力业务知识数据库中都设置有相应的解决方案，一旦系统获取用户的电力业务需求后，便自动生成相应的解决方案。

步骤S24，将所述解决方案反馈至用户。

本申请在获取语音查询请求数据的语音识别文本结果之后，将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比，获取用户的电力业务需求以及相应的解决方案，然后将所述解决方案反馈至用户。通过本申请公开的语音识别方法，不仅可以对用户发出的语音查询请求数据进行识别，获取用户的查询需求，并且在后续可以实现无需人工的参与，自动对用户的查询需求做出响应，将与用户查询需求相对应的解决方案自动反馈给用户，有效减轻人工客服的工作量，并且不用客户等待，能够及时给出答复，大大提高了电力客服的工作效率。

通过本申请公开的一种基于深度学习的语音识别方法及系统，能够结合电力客服语音录音数据和电力业务专用词汇作为语音标签，实现通过语音识别出与电力业务相关的专业业务需求，例如有关业扩报装、违约窃电、电力负荷、电费退补以及授权码发送等业务需求，通过训练过程得到声学模型以及语音模型，然后对用户发送的语音查询请求数据进行识别，并于电力业务知识数据库中对比，获取用户的业务需求，一步步引导用户并向用户反馈相应的文字解决方案，使用户更加直观的看到解决方案，这些平时只有通过人工客服才能解决的问题，只需用户通过客户端就能获得相应服务，本申请公开的基于深度学习的语音识别系统，能够为用户提供最合适的查询、处理服务，使得用户无需记住业务的专业名称，便可以直接得到所需解决方案，缩短了用户的操作和等待应答的时间，提高了用户的满意度。

下述为本申请系统实施例，可以用于执行本申请方法实施例，对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

相应的，本申请另一实施例公开一种基于深度学习的语音识别系统，参见图5所示的结构示意图，所述系统包括：

训练数据集获取模块10，用于获取训练数据集，所述训练数据集包括：训练语音数据集、语音标签以及对话文本信息。

训练模块20，用于通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型。

语音查询请求数据获取模块30，用于获取待识别的语音查询请求数据。

识别模块40，用于根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，所述字典包括字或者词与音素的对应关系。

语音识别文本结果输出模块50，用于输出所述语音查询请求数据的语音识别文本结果。

进一步的，参见图6所示的结构示意图，所述训练模块20包括：

第一特征提取单元201，用于使用语音信号特征提取算法对所述训练语音数据集进行特征提取，并获取所述训练语音数据集的特征向量，其中，所述训练语音数据集包括电力业务语音数据集。

声学模型建立单元202，用于根据所述语音标签以及声学模型算法，对所述训练语音数据集的特征向量进行训练，建立声学模型，其中，所述语音标签为与所述电力业务语音数据集相对应的语音标签，所述声学模型包括所述训练语音数据集的音素信息。

语言模型建立单元203，用于根据语言模型算法，对所述对话文本信息进行训练，建立语言模型，其中，所述对话文本信息包括电力客服与用户的对话文本信息，所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。

进一步的，参见图7所示的结构示意图，所述识别模块40包括：

第二特征提取单元401，用于使用语音信号特征提取算法对所述语音查询请求数据进行特征提取，并获取所述语音查询请求数据的特征向量。

音素获取单元402，用于根据所述声学模型，对所述语音查询请求数据的特征向量进行处理，获取所述语音查询请求数据的音素信息。

字词获取单元403，用于根据所述语音查询请求数据的音素信息以及预设的字典，获取与所述语音查询请求数据的音素信息相对应的单个字或者词。

文本识别单元404，用于根据所述语言模型中单个字或者词相互关联的概率，将所述与所述语音查询请求数据的音素信息相对应的单个字或者词，识别成完整的文本。

进一步的，所述系统还包括：

进一步的，当需对用户的语音查询请求做出应答时，所述系统还包括：

对比模块，用于获取所述语音查询请求数据的语音识别文本结果，并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比。

电力业务需求获取模块，用于获取对比的结果，并根据对比的结果，获取用户的电力业务需求。

解决方案获取模块，用于根据所述用户的电力业务需求，获取所述电力业务知识数据库中相应的解决方案。

反馈模块，用于将所述解决方案反馈至用户。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于深度学习的语音识别方法，其特征在于，所述方法包括：

获取待识别的语音查询请求数据；

输出所述语音查询请求数据的语音识别文本结果。

2.根据权利要求1所述的方法，其特征在于，所述通过训练过程，对所述训练数据集进行训练，建立声学模型和语言模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别，包括：

使用所述语音信号特征提取算法对所述语音查询请求数据进行特征提取，并获取所述语音查询请求数据的特征向量；

4.根据权利要求1所述的方法，其特征在于，所述根据所述声学模型、所述语言模型以及预设的字典，对所述语音查询请求数据进行语音识别之前，还包括：

5.根据权利要求1所述的方法，其特征在于，当需对用户的语音查询请求做出应答时，所述输出所述语音查询请求数据的语音识别文本结果之后，还包括：

将所述解决方案反馈至用户。

6.一种基于深度学习的语音识别系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述训练模块包括：

8.根据权利要求7所述的系统，其特征在于，所述识别模块包括：

9.根据权利要求6所述的系统，其特征在于，所述系统还包括：

10.根据权利要求6所述的系统，其特征在于，当需对用户的语音查询请求做出应答时，所述系统还包括：

反馈模块，用于将所述解决方案反馈至用户。