CN111681669A

CN111681669A - 一种基于神经网络的语音数据的识别方法与设备

Info

Publication number: CN111681669A
Application number: CN202010408288.1A
Authority: CN
Inventors: 周康明; 陈猛
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-09-18

Abstract

本申请通过一种基于神经网络的语音数据的识别方法，首先获取待识别语音数据，接着确定所述待识别语音数据对应的语谱图，然后将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别语音数据对应的拼音数据，再接着对所述拼音数据进行编码，获得编码拼音数据，最后将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别语音数据对应的汉字数据。通过该方法基于神经网络实现对语音数据的自动识别，获得所述语音数据对应的汉字数据，提升了对语音数据自动识别准确率，带来有益的实用效果。

Description

一种基于神经网络的语音数据的识别方法与设备

技术领域

本申请涉及计算机语音数据处理技术领域，尤其涉及一种基于神经网络的语音数据的的技术。

背景技术

提供窗口服务的企事业单位针对其窗口人员向客户提供的语音服务等往往都制定了礼貌用语规范，以塑造和体现其单位形象。

但在日常情况下，对窗口人员向客户提供的语音服务是否符合礼貌用语规范往往是事后通过人工查看录音录像来检查监督，效率低，无法对窗口人员向客户提供的语音服务进行准确识别。

发明内容

本申请的目的是提供一种基于神经网络的语音数据的识别方法与设备，用以解决现有技术中有关窗口人员提供的语音服务识别效率低的技术问题。

根据本申请的一个方面，提供了一种基于神经网络的语音数据的识别方法，其中，所述方法包括：

获取待识别语音数据；

确定所述待识别语音数据对应的语谱图；

将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别语音数据对应的拼音数据；

对所述拼音数据进行编码，获得编码拼音数据；

将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别语音数据对应的汉字数据。

可选地，在所述确定所述待识别语音数据对应的语谱图之前，对所述待识别服务语音数据做预处理，其中，所述预处理包括：

对所述待识别服务语音数据进行过滤和截取；

将过滤和截取后的所述待识别服务语音数据做分帧和加窗操作。

可选地，其中，所述已完成训练的声学神经网络模型是对改进残差网络结合CTC时序分类的神经网络模型进行训练后获得的。

可选地，其中，所述改进残差网络的结构是将残差网络中的恒等映射改进为多组卷积层。

可选地，其中，所述已完成训练的声学神经网络模型的训练包括：

获取服务语音数据；

基于所述服务语音数据获得服务语音数据集；

对所述服务语音数据集中的每条语音数据标注标签，获得第一训练集和第一测试集，其中，所述标签为服务语音数据对应的拼音；

对所述第一训练集和第一测试集中的服务语音数据作分帧和加窗操作，获得对应的语谱图训练集和语谱图测试集；

将所述语谱图训练集和语谱图测试集输入改进残差网络结合CTC时序分类的神经网络模型，经过预设迭代次数的迭代训练，根据困惑度的大小，确定所述已完成训练的声学神经网络模型。

可选地，其中，所述已完成训练的语言神经网络模型是对BiLSTM网络结合softmax回归的神经网络模型进行训练后获得的。

可选地，其中，所述已完成训练的语言神经网络模型的训练包括：

基于所述字典，对第一训练集和第一测试集中的标签进行标注，获得第二训练集和第二测试集，其中，所述第二训练集和第二测试集中的数据是第一训练集和第一测试集中的语音数据对应的拼音，所述第二训练集和第二测试集中的标签是拼音对应的汉字在所述字典中的序号；

对所述第二训练集和第二测试集中的数据进行编码，获得编码拼音训练集和编码拼音测试集；

将所述编码拼音训练集和编码拼音测试集输入所述BiLSTM网络结合softmax回归的神经网络模型，若所述神经网络模型的输出满足预置阈值，获得已完成训练的语言神经网络模型。

根据本申请的另一方面，还提供了一种基于神经网络的服务语音数据的识别设备，其中，所述设备包括：

第一装置，用于获取待识别服务语音数据；

第二装置，用于确定所述待识别服务语音数据对应的语谱图；

第三装置，用于将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别服务语音数据对应的拼音数据；

第四装置，用于对所述拼音数据进行编码，获得编码拼音数据；

第五装置，用于将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别服务语音数据对应的汉字数据。

与现有技术相比，本申请通过一种基于神经网络的语音数据的识别方法，首先获取待识别语音数据，接着确定所述待识别语音数据对应的语谱图，然后将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别语音数据对应的拼音数据，再接着对所述拼音数据进行编码，获得编码拼音数据，最后将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别语音数据对应的汉字数据。通过该方法基于神经网络实现对语音数据的自动识别，获得所述语音数据对应的汉字数据，提升了对语音数据自动识别准确率，带来有益的实用效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种基于神经网络的语音数据的识别方法流程图；

图2示出残差网络中的残差模块结构示意图；

图3示出改进的残差网络中的残差模块结构示意图；

图4示出一个实施例的一种结合one-hot编码结构的BiLSTM网络结合softmax回归的神经网络模型结构示意图；

图5示出根据本申请另一个方面的一种基于神经网络的语音数据的识别设备示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，系统各模块和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及优选实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面的一种基于神经网络的语音数据的识别方法流程图，其中，一个实施例的方法包括：

S11获取待识别语音数据；

S12确定所述待识别语音数据对应的语谱图；

S13将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别语音数据对应的拼音数据；

S14对所述拼音数据进行编码，获得编码拼音数据；

S15将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别语音数据对应的汉字数据。

在本申请中，所述方法通过设备1执行，所述设备1为计算机设备和/或云，所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集；所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。

在此，所述计算机设备和/或云仅为举例，其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

在该实施例中，在所述步骤S11中，所述获取待识别语音数据中，获取待识别语音数据的方式可以是通过网络获取语音采集设备采集的语音数据，例如，在窗口的合适位置安装语音采集设备，所述语音采集设备可以带有主动降噪功能，以减少一部分环境噪音干扰，可以同时采集窗口人员和客户的语音，以保存为音频文件的语音数据，其中，所述音频文件可以是wav格式或者其它语音格式，在此，对音频文件格式不做限定，其它音频文件格式如适用于本申请也应包含在本申请的保护范围内。

还可以是通过网络获取存放在其它计算机中的语音数据。在此，对待识别语音数据的获取方式不做限定，其它语音数据的获取方式如适用于本申请也应包含在本申请的保护范围内。

在该实施例中，在所述步骤S12中，所述确定所述待识别语音数据对应的语谱图。

可选地，在所述步骤S12之前，对所述待识别服务语音数据做预处理，其中，所述预处理包括：

对所述待识别服务语音数据进行过滤和截取；

通过步骤S11获取的待识别语音数据中除了包含窗口人员语音信息，可能还包含对于窗口人员无关的语音信息。

通过语音采集设备采集语音数据，例如，窗口人员在每天开始提供窗口服务前打开语音采集设备，在结束窗口服务后关闭语音采集设备，这样保存的语音数据包括整个上班时间段内窗口的语音信息，无关的语音信息太多，或者窗口人员在每次向客户提供服务前打开语音采集设备，在结束该客户的窗口服务后关闭语音采集设备，如果服务客户的时间持续较长，也包括较多的无关语音信息。

因此，需要对所述待识别服务语音数据进行过滤和截取，其中，通过对所述待识别语音数据进行过滤，以去除所述待识别语音数据中无关的语音信息，例如各种背景噪音，然后对过滤后的所述待识别语音数据进行截取操作，保留有效的与窗口人员有关的语音信息用于识别，例如，通常窗口人员在向客户提供服务时，在开始一段时间内以及即将结束服务的一段时间内会高频使用礼貌用语，可将窗口人员与客户交流的中间部分语音数据裁除，保留向客户提供服务的开始一段和客户离开前的一段语音数据，以降低数据量，提高后续识别语音数据的效率，例如保留开始20秒和客户离开前20秒的语音数据。

然后将过滤和截取后的所述待识别服务语音数据做分帧和加窗操作。

其中，按预设的长度对语音数据进行分帧，同时为了保证前后相邻两帧的语音数据连续性，前后相邻帧与帧之间有预设长度的交叉重叠数据，例如，将语音数据分成每帧长度为10～30毫秒、前后相邻两帧之间有2毫秒的交叉重叠数据。

其中，加窗操作中采用的窗函数可以是矩形窗函数，矩形窗函数公式如下：

其中，N表示输入的矩形窗函数的数量，由语音数据长度以及帧的预设长度确定。

也可以采用三角窗函数等其它窗函数，在此，对加窗操作中采用的窗函数不作限定，其它窗函数如适用于本申请也应包含在本申请的保护范围内。

语音数据经过分帧和加窗操作，转化为二维频谱图像数据，即确定语谱图。

继续在该实施例中，在所述步骤S13中，所述将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别语音数据对应的拼音数据。

其中，将残差网络中的如图2所示的残差模块中的identity(恒等)分支改进调整为多Conv(Convolution，卷积)分支，以更加有效的提取出语谱图中的语义信息，从而可以使后续的语音转换更加准确，调整后的改进残差网络的残差模块结构如图3所示。

可选地，所述已完成训练的声学神经网络模型的训练包括：

获取服务语音数据；

基于所述服务语音数据获得服务语音数据集；

其中，通过语音采集设备采集到不同窗口、不同服务人员的服务语音数据，首先对服务语音数据进行过滤，以去除所述服务语音数据中背景噪音等无关的语音信息，接着对过滤后的服务语音数据进行截取，保留礼貌用语使用度高的语音数据，例如，将每个窗口向每个客户提供服务时开始20秒和客户离开前20秒的语音数据保留成1个服务语音数据样本，以降低语音数据量，提高后续对语音数据处理的效率。

通过对服务语音数据进行上述过滤和截取操作，获取到足够数量的服务语音数据，确定服务语音数据集。

对服务语音数据集中的每一条服务语音进行标注，将窗口人员的语音标注成拼音标签，服务语音及其对应的拼音标签作为样本，组成第一数据集，并按预设比例划分成第一训练集和第一测试集，例如，将第一数据集所有样本按4:1划分成第一训练集和第一测试集，其中，第一训练集和第一测试集中的样本数量可以根据训练后的测试效果进行调整。

再接着，对上述第一训练集和第一测试集样本中的服务语音数据做分帧和加窗操作，获得对应的语谱图训练集和语谱图测试集。其中，按预设的长度对语音数据进行分帧，同时为了保证前后相邻两帧的语音数据连续性，前后相邻帧与帧之间有预设长度的交叉重叠数据，例如，将语音数据分成每帧长度为10～30毫秒、前后相邻两帧之间有2毫秒的交叉重叠数据。

其中，加窗操作中采用的窗函数可以是矩形窗函数，也可以采用三角窗函数等其它窗函数，在此，对加窗操作中采用的窗函数不作限定，如适用于本申请也应包含在本申请的保护范围内。

语音数据经过分帧和加窗操作，转化为二维频谱图像数据，即确定语谱图，对上述第一训练集和第一测试集每个样本中的服务语音数据做分帧和加窗操作，获得对应的语谱图训练集和语谱图测试集。

将所述语谱图训练集输入改进残差网络结合CTC时序分类的神经网络模型进行训练，模型的评价指标为困惑度。在训练过程中，当困惑度较小时，则保存较小困惑度的模型，当困惑度大于之前出现过的模型困惑度时，则继续迭代优化，经过预设迭代次数的迭代训练，将根据困惑度的大小，确定困惑度最小的对应模型作为已完成训练的声学神经网络模型。

继续在该实施例中，在所述步骤S14中，对所述拼音数据进行编码，获得编码拼音数据。

其中，将前述获得第一数据集中每条语音数据对应的标签拼音转化为汉字，转化的方法可以是通过人工方式，也可以是通过软件方式，比如通过撰写python脚本实现软件转化，在此，对拼音转化为汉字的方法不做限定，其它拼音转化为汉字的方法如适用于本申请也应包含在本申请的保护范围内。

遍历将前述获得第一数据集中每条语音数据对应的标签拼音转化为汉字后将得到的所有汉字进行去重操作，即如有重复出现的汉字，只保留1个，经去重操作后得到的所有汉字集合编辑排成预置字典。所述预置字典中每个汉字互不相同，有各自的排序号，每个汉字都有对应的拼音。或者还可以基于礼貌用语规范中的所有不重复汉字归集后制作上述预置字典，前提是该种方式制作的预置字典应能全部包含第一数据集中每条语音数据对应的汉字。

将已完成训练的声学神经网络模型输出的所述拼音数据基于所述预置字典进行编码操作，例如将拼音数据分别做char rep(字符替换)和one-hot(一位有效)的编码操作，编码成所述语言神经网络模型可识别的向量，获得编码拼音数据。其中，one-hot基于所述预置字典完成，例如，若已完成训练的声学神经网络模型输出的拼音数据为“nin hao”，对应汉字为“您好”，若“您”在字典中的序号为i，“好”在字典中的序号为j，则经过one-hot编码，得到与“您”对应的一个向量，在i位置的值为1，其它位置的值都为0；得到与“好”对应的一个向量，在j位置的值为1，其它位置的值都为0。

继续在该实施例中，在所述步骤S15中，将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别语音数据对应的汉字数据。

BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆)是RNN(Recurrent Neural Network，循环神经网络)的一种，由正向LSTM(Long Short-TermMemory，长短时记忆)与反向LSTM组合而成。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。使用LSTM模型可以更好的捕捉到较长距离信息之间的依赖关系。

LSTM和BiLSTM在自然语言处理任务中都常被用来建模上下文信息，而通过BiLSTM可以更好的捕捉双向的语义依赖。

将BiLSTM中的正向LSTM输出和反向LSTM输出进行拼接，然后做softmax回归，输出得到概率最大的分类。

其中，对第一数据集中每条语音数据对应的拼音进行标注，将窗口人员的语音对应的拼音标注为与拼音对应汉字在字典中的排序号，窗口人员语音对应的拼音以及其对应的排序号标签作为样本，组成第二数据集，并按预设比例划分成第二训练集和第二测试集，例如，将第二数据集所有样本按4:1划分成第二训练集和第二测试集，其中，第二训练集和第二测试集中的样本数量可以根据训练后的测试效果进行调整。

接着，将所述第二训练集和第二测试集中每个样本的拼音数据基于所述预置字典进行编码操作，例如将所述第二训练集和第二测试集中每个样本的拼音数据分别做charrep和one-hot的编码操作，编码成所述语言神经网络模型可识别的向量，获得编码拼音训练集和编码拼音测试集。

最后，将所述编码拼音训练集输入BiLSTM网络结合softmax回归的神经网络模型进行训练。模型的评价指标为损失函数值，在训练过程中，当模型输出的损失函数值满足预设阈值，经所述编码拼音测试集验证后，训练结束，获得已完成训练的语言神经网络模型。

其中的一个实施例的一种结合one-hot编码结构的BiLSTM网络结合softmax回归的神经网络模型结构示意图如图4所示，其中，待识别语音数据中包含窗口人员的“欢迎您”的语音，经过步骤S11、S12和S13后，获得对应的拼音数据“huan”、“ying”、“nin”，如图4所示，将所述拼音数据分别做char rep和one-hot编码后同时输入BiLSTM，然后将BiLSTM的输出经linear layer(线性层)做softmax回归，获得对应的汉字“欢”、“迎”、“您”。

可选地，将获得待识别语音数据对应的汉字数据与礼貌用语规范比照，判断窗口人员在向客户提供服务时的用语是否符合规范。

图5示出根据本申请另一个方面的一种基于神经网络的语音数据的识别设备示意图，其中，所述设备包括：

第一装置51，用于获取待识别服务语音数据；

第二装置52，用于确定所述待识别服务语音数据对应的语谱图；

第三装置53，用于将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别服务语音数据对应的拼音数据；

第四装置54，用于对所述拼音数据进行编码，获得编码拼音数据；

第五装置55，用于将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别服务语音数据对应的汉字数据。

根据本申请的又一方面，还提供了一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

根据本申请的又一方面，还提供了一种基于神经网络的语音数据的识别设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：获取待识别语音数据，确定所述待识别语音数据对应的语谱图，将所述语谱图输入已完成训练的声学神经网络模型，获得所述待识别语音数据对应的拼音数据，对所述拼音数据进行编码，获得编码拼音数据，将所述编码拼音数据输入已完成训练的语言神经网络模型，基于预置字典，获得待识别语音数据对应的汉字数据。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于神经网络的语音数据的识别方法，其特征在于，所述方法包括：

获取待识别语音数据；

确定所述待识别语音数据对应的语谱图；

对所述拼音数据进行编码，获得编码拼音数据；

2.根据权利要求1所述的方法，其特征在于，在所述确定所述待识别语音数据对应的语谱图之前，对所述待识别服务语音数据做预处理，其中，所述预处理包括：

对所述待识别服务语音数据进行过滤和截取；

3.根据权利要求1或2所述的方法，其特征在于，所述已完成训练的声学神经网络模型是对改进残差网络结合CTC时序分类的神经网络模型进行训练后获得的。

4.根据权利要求3所述的方法，其特征在于，所述改进残差网络的结构是将残差网络中的恒等映射改进为多组卷积层。

5.根据权利要求3或4所述的方法，其特征在于，所述已完成训练的声学神经网络模型的训练包括：

获取服务语音数据；

基于所述服务语音数据获得服务语音数据集；

6.根据权利要求5所述的方法，其特征在于，所述已完成训练的语言神经网络模型是对BiLSTM网络结合softmax回归的神经网络模型进行训练后获得的。

7.根据权利要求6所述的方法，其特征在于，所述已完成训练的语言神经网络模型的训练包括：

8.一种基于神经网络的服务语音数据的识别设备，其特征在于，所述设备包括：

第一装置，用于获取待识别服务语音数据；

9.一种计算机可读介质，其特征在于，

其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。

10.一种基于神经网络的服务语音数据的识别设备，其特征在于，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至7中任一项所述方法的操作。