CN116168687B

CN116168687B - 一种语音数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN116168687B
Application number: CN202310445208.3A
Authority: CN
Inventors: 鲁勇; 于嘉威; 张新科; 崔潇潇
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-21
Anticipated expiration: 2043-04-24
Also published as: CN116168687A

Abstract

本申请提出了一种语音数据处理方法、装置、计算机设备及存储介质，该方法包括：获取命令词文本及对应的若干条原始命令词语音；分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。本申请通过对每条原始命令词语音进行一系列的数据增扩处理，能够解决现有自定义命令词语音单一性的问题，增强命令词语音的多样性，进而增强自定义命令词系统的鲁棒性；基于数据增扩处理后的命令词语音和原始命令词语音生成音频音素串，有利于提高后续生成的解码图的可靠性和全面性。

Description

一种语音数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及信号处理技术领域，具体涉及一种语音数据处理方法、装置、计算机设备及存储介质。

背景技术

近年来，随着信息技术的发展以及人们生活水平的不断提升，语音作为人类交流的自然方式，由于其交互的便利性，以及语音技术应用的广泛性，人们的生活中出现了越来越多的基于语音交互的智能设备，诸如家电、手机、汽车等。其中，很多设备都具有命令词识别的功能，可以帮助用户辅助控制设备。对于命令词识别技术，是语音识别中的一个重要领域，广泛应用于语音命令控制系统中，主要通过识别命令词语音来控制基于语音交互的设备，以满足用户的需求。相比于非语音的控制系统，应用语音技术的控制系统为人们提供了更多的选择和便利性。

目前，为了满足用户对语音命令词的多样化和个性化需求，研究人员提出了许多定制语音命令词的算法，主要是基于注册音频的DTW（Dynamic Time Warping，动态时间规整）算法和基于文本的解码图算法。

但是，在对现有技术的研究与实践的过程中，本申请的发明人发现，目前现有的自定义命名词技术存在命令词语音单一性较强的问题，导致生成的自定义命令词系统的鲁棒性较差，以及后续生成的解码图的可靠性和全面性低下的问题，导致用户体验不佳。

前面的叙述在于提供一般的背景信息，并不一定构成现有技术。

发明内容

针对上述技术问题，本申请提供一种语音数据处理方法、装置、计算机设备及存储介质，能够有效解决命令词语音单一性的问题，提高自定义命令词系统的鲁棒性。

本申请提供一种语音数据处理方法，包括如下步骤：

获取命令词文本及对应的若干条原始命令词语音；

分别对每条所述原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；所述数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；

将所述数据增扩处理后的命令词语音和所述原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。

可选地，所述方法还包括：

对所述命令词文本进行音素转换，得到对应的文本音素串；

基于所述文本音素串和所述音频音素串，生成对应的解码图。

可选地，所述人工智能降噪处理，包括：

对所述原始命令词语音进行特征提取后输入至降噪网络；

通过降噪网络输出所述原始命令词语音的频域信号；

将所述频域信号转换为对应的时域信号；

基于所述频域信号和所述时域信号，生成对应的降噪语音。

可选地，所述语音变速处理，包括：

对所述原始命令词语音进行分帧处理，得到连续的多帧所述原始命令词语音；

对多帧所述原始命令词语音进行基音检测和线性预测分析，得到对应的原始基音参数和原始预测系数；

将所述原始基音参数内插为目标语音时长要求对应的帧数范围内的基音参数；

将所述原始预测系数内插为目标语音时长要求对应的帧数范围的线性预测参数；

基于所述基音参数和所述线性预测参数合成对应的变速语音。

可选地，所述语音变调处理，包括：

通过重采样算法对所述原始命令词语音进行采样，得到调整为目标音调的原始命令词语音；

对所述调整为目标音调的原始命令词语音进行所述语音变速处理，得到最终变调语音。

可选地，所述语音加噪处理，包括：

采用镜像源方式对所述原始命令词语音进行加混响处理，得到加混响后的语音；和/或，

将噪音数据库的语音信号和所述原始命令词语音按照预设比例加权后取平均，得到加噪后的语音。

可选地，所述语音频谱加强处理，包括：

提取所述原始命令词语音的频谱特征，生成对数梅尔谱；

基于预设修改策略在所述对数梅尔谱上进行语音频谱增强处理，得到谱增强后的语音；其中，所述预设修改策略包括时间翘曲策略、频域掩码策略和时域掩码策略。

可选地，所述将所述数据增扩处理后的命令词语音和所述原始命令词语音分别输入至预设声学模型，输出对应的音频音素串，包括：

确定预设声学模型的结构，并对预设声学模型的神经网络进行初始化；

对所述预设声学模型进行训练，得到训练后的预设声学模型；

将数据增扩处理后得到的命令词语音和所述原始命令词语音，分别输入至训练后的预设声学模型，得到多条命令词语音对应的音频音素串；

基于音素规整算法，对所述音频音素串进行音素规整处理，得到规整后的音频音素串。

可选地，所述基于音素规整算法，对所述音频音素串进行音素规整处理，得到规整后的音频音素串，包括：

对每条所述音频音素串的帧数相加，得到音素总帧数；

遍历每条所述音频音素串，计算每个音素出现的帧数；

基于所述每个音素出现的帧数和音频总帧数，计算每个音素的出现概率；

遍历每条所述音频音素串，计算当前音频音素串中每个音素连续出现的个数，筛除当前音频音素串中连续出现的个数低于第二预设阈值的音素；

对每条所述音频音素串中连续出现的相同音素进行合并，依次计算当前音频音素串中每个音素的出现概率，筛除当前音频音素串中出现概率低于第一预设阈值的音素，得到规整后的音频音素串；

将得到的多条所述规整后的音频音素串进行去重处理，得到最终规整后的多条音频音素串。

可选地，所述基于所述文本音素串和所述音频音素串，生成对应的解码图，包括：

构建所述命令词文本对应的语音模型解码器；

基于所述文本音素串和音频音素串，构建对应的发音词典解码器；

构建上下文相关解码器和声学模型解码器；

基于所述语音模型解码器、发音词典解码器、上下文相关解码器和声学模型解码器，生成对应的解码图。

相应地，本申请实施例还提供了一种语音数据处理装置，包括：

获取模块，用于获取命令词文本及对应的若干条原始命令词语音；

数据增扩处理模块，用于分别对每条所述原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；所述数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；

音频音素串模块，用于将所述数据增扩处理后的命令词语音和所述原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。

可选地，所述语音数据处理装置还包括：

文本音素串模块，用于对所述命令词文本进行音素转换，得到对应的文本音素串；

解码图生成模块，用于基于所述文本音素串和所述音频音素串，生成对应的解码图。

本申请实施例还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的语音数据处理方法的步骤。

本申请实施例还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音数据处理方法的步骤。

实施本申请实施例，具有如下有益效果：

如上所述，本申请提供的一种语音数据处理方法、装置、计算机设备及存储介质，其中方法包括：获取命令词文本及对应的若干条原始命令词语音；分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。本申请通过提出一种对每条原始命令词语音进行一系列的数据增扩处理的方案，能够解决现有自定义命令词语音单一性的问题，增强命令词语音的多样性，进而增强自定义命令词系统的鲁棒性；并且，通过规整算法对多条命令词语音对应的音素序列进行规整，提升获得音素的准确度和获得音素的多样性，进而提升了自定义命令词系统的性能。另外，基于数据增扩处理后的命令词语音和原始命令词语音生成音频音素串，有利于提高后续生成的解码图的可靠性和全面性，提高后续语音识别的准确性和适用性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音数据处理方法的第一种实施方式的流程示意图；

图2是本申请实施例提供的步骤S2的流程示意图；

图3是本申请实施例提供的步骤S21的流程示意图；

图4是本申请实施例提供的步骤S22的流程示意图；

图5是本申请实施例提供的步骤S23的流程示意图；

图6是本申请实施例提供的步骤S24的流程示意图；

图7是本申请实施例提供的步骤S25的流程示意图；

图8是本申请实施例提供的步骤S3的流程示意图；

图9是本申请实施例提供的步骤S34的流程示意图；

图10是本申请实施例提供的语音数据处理方法的第二种实施方式的流程示意图；

图11是本申请实施例提供的步骤S5的流程示意图；

图12是本申请实施例提供的语音数据处理装置的第一种实施方式的结构示意图；

图13是本申请实施例提供的语音数据处理装置的第二种实施方式的结构示意图；

图14是本申请实施例提供的计算机设备的第一种实施方式的结构示意图；

图15是本申请实施例提供的计算机设备的第二种实施方式的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的，或意味着任一个或任何组合。例如，“包括以下至少一个：A、B、C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”，再如，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

需要说明的是，在本文中，采用了诸如S1、S2等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行S2后执行S1等，但这些均应在本申请的保护范围之内。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。

本申请实施例可以应用于服务器中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

现有的自定义命名词技术存在命令词语音单一性较强的问题，导致生成的自定义命令词系统的鲁棒性较差，以及后续生成的解码图的可靠性和全面性低下的问题，导致用户体验不佳。

为了解决上述问题，本申请提出了一种语音数据处理方法、装置、计算机设备及存储介质，能够解决现有自定义命令词语音单一性的问题，增强命令词语音的多样性，进而增强自定义命令词系统的鲁棒性。

请参阅图1，图1是本申请实施例提供的语音数据处理方法的第一种实施方式的流程示意图。该语音数据处理方法具体可以包括：

S1.获取命令词文本及对应的若干条原始命令词语音。

具体的，对于步骤S1，主要是获取注册用户输入的命令词文本，以及每条命令词文本对应的若干条原始命令词语音。在具体的实施例中，用户通过手机蓝牙或WiFi方式连接用户设备端，获取用户通过在手机APP或者小程序上输入的自定义命令词，并获取用户根据命令词文本分别为每条命令词录制或注册对应的N条原始命令词语音。

S2.分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理。

具体的，对于步骤S2，为了增加命令词语音的多样性，需要对获取到的若干条原始命令词语音均进行一系列的数据增扩处理，从而得到数据增扩处理后的命令词语音。其中，数据增扩处理包括AI（ArtificialIntelligence，人工智能）降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱增强处理。

可选地，如图2所示，在一些实施例中，步骤S2具体可以包括：

S21.对原始命令词语音进行人工智能降噪处理，得到对应的降噪语音；

S22.对原始命令词语音进行语音变速处理，得到对应的变速语音；

S23.对原始命令词语音进行语音变调处理，得到对应的变调语音；

S24.对原始命令词语音进行语音加噪处理，得到对应的加噪语音；

S25.对原始命令词语音进行语音频谱加强处理，得到对应的谱增强语音。

在具体的实施例中，对每条原始命令词语音均进行一系列的数据增扩处理，包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理，从而增加命令词语音的多样性，进而增强自定义命令词系统的鲁棒性，有效提高后续生成解码图的可靠性。

可选地，如图3所示，在一些实施例中，步骤S21具体可以包括：

S211.对原始命令词语音进行特征提取后输入至降噪网络；

S212.通过降噪网络输出原始命令词语音的频域信号；

S213.将频域信号转换为对应的时域信号；

S214.基于频域信号和时域信号，生成对应的降噪语音。

具体的，对于步骤S2的人工智能降噪处理，将获取到的用户注册的N条原始命令词语音输入至人工智能降噪模块，通过人工智能降噪算法以降低背景噪音对语音的影响。人工智能降噪算法可以在频域或者时域实现，首先对带噪语音进行特征提取，然后通过降噪网络输出语音的频域信号，最后通过时/频信号转换模块将频域信号转换为时域信号，完成语音信号的重建，得到降噪后的语音。其中该降噪网络包括输入单元、编码器、解码器和输出单元。在具体的实施例中，降噪网络采用编码-解码结构，解码器包含多层非线性层，可由FC、CNN、LSTM、Conformer、Transformer等构建而成。

可选地，如图4所示，在一些实施例中，步骤S22具体可以包括：

S221.对原始命令词语音进行分帧处理，得到连续的多帧原始命令词语音；

S222.对多帧原始命令词语音进行基音检测和线性预测分析，得到对应的原始基音参数和原始预测系数；

S223.将原始基音参数内插为目标语音时长要求对应的帧数范围内的基音参数；

S224.将原始预测系数内插为目标语音时长要求对应的帧数范围的线性预测参数；

S225.基于基音参数和线性预测参数合成对应的变速语音。

具体的，对于步骤S2中语音变速处理，将获取到的用户注册的N条原始命令词语音输入至送入变速不变调处理模块。音频变速是指把一个语音在时间上缩短或拉长，而语音的采样频率，以及基频、共振峰并没有发生变化。变速参数可以任意指定，具体步骤如下：首先对原始语音进行分帧，再做基音检测和线性预测分析，得到1～fn帧的基音参数和1～fn帧的预测系数ai；将1～fn帧的基音参数按新的语音时长要求内插为1～fn1帧的基音参数；将1～fn帧的预测系数ai转换为1～fn帧的线谱对归一化频率参数，称为LSF，再将1～fn帧的LSF按新的语音时长要求内插为1～fn1帧的LSF1；最后将1～fn1的LSF1重构成1～fn1帧线性预测系数ai，同时用预测系数和基因参数合成变速后的语音，从而得到变速后的语音。

可选地，如图5所示，在一些实施例中，步骤S23具体可以包括：

S231.通过重采样算法对原始命令词语音进行采样，得到调整为目标音调的原始命令词语音；

S232.对调整为目标音调的原始命令词语音进行语音变速处理，得到最终变调语音。

具体的，对于步骤S2中的语音变调处理，将获取到的用户注册的N条原始命令词语音输入至音频变调不变速处理模块。语音的变调是指把原语音信号中的基音频率变大或变小。最常见的音频变调就是使用重采样，如果将一个 8Khz 的语音使用 16K 采样率播放，那么能明显感受到音调升高，但是语速也提高了 2 倍。因此，音频变调不变速就是首先使用重采样算法进行采样，然后使用上述语音变速不变调算法纠正速度，参见步骤S221~S225。

可选地，如图6所示，在一些实施例中，步骤S24具体可以包括：

S241.采用镜像源方式对原始命令词语音进行加混响处理，得到加混响后的语音；和/或，

S242.将噪音数据库的语音信号和原始命令词语音按照预设比例加权后取平均，得到加噪后的语音。

具体的，对于步骤S2中的语音加噪处理，将获取到的用户注册的N条原始命令词语音输入至加噪模块语，音加噪处理包括加混响和/或加噪声，其中，对语音数据加混响使用的方法是镜像源方法（Image SourceMethod），具体步骤包括：创建房间（例如定义房间大小，墙面材料，允许的最大反射次数等）；在房间内创建信号源；在房间内放置麦克风；创建房间冲击响应和模拟声音传播；对原始语音数据加噪音使用的方法是，将噪音数据库的语音信号和原始语音信号按一定比例加权取平均，从而得到加噪后的语音。

可选地，如图7所示，在一些实施例中，步骤S25具体可以包括：

S251.提取原始命令词语音的频谱特征，生成对数梅尔谱；

S252.基于预设修改策略在对数梅尔谱上进行语音频谱增强处理，得到谱增强后的语音；其中，预设修改策略包括时间翘曲策略、频域掩码策略和时域掩码策略。

具体的，对于步骤S2的语音频谱加强处理，将获取到的用户注册的N条原始命令词语音输入至谱增强模块，通过谱增强模块对原始命令词语音进行语音频谱加强处理，首先获取原始命令词语音的频域特征Fbank，生成对应的对数梅尔谱，从而直接在对数梅尔谱上通过在时间方向上扭曲来进行谱增强，屏蔽（多个）连续时步块（垂直屏蔽）和梅尔频道（横向屏蔽），最后得到谱增强后的语音数据。可见，谱增强是一种直接在对数梅尔谱上进行修改的数据增强策略，其中，修改策略包括但不限于时间翘曲（time warping）、频域掩码（frequencymasking）以及时域掩码（time masking），在此不进行具体限定。具体修改策略的过程可参见现有技术，在此不进行具体阐述。

S3.将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。

具体的，对于步骤S3，将经过数据增扩处理后得到的命令词语音以及原始命令词语音，分别输入至预设的声学模型中，分别得到每条语音对应的音频音素串（或音素序列），本实施例中的音素串也可以是音素序列。

可选地，如图8所示，在一些实施例中，步骤S3具体可以包括：

S31.确定预设声学模型的结构，并对预设声学模型的神经网络进行初始化；

S32.对预设声学模型进行训练，得到训练后的预设声学模型；

S33.将数据增扩处理后得到的命令词语音和原始命令词语音，分别输入至训练后的预设声学模型，得到多条命令词语音对应的音频音素串；

S34.基于音素规整算法，对音频音素串进行音素规整处理，得到规整后的音频音素串。

在具体的实施例中，步骤S3的具体过程如下：首先，确定声学模型结构，根据应用场景下设备计算和存储能力来预估模型复杂度，由于计算复杂度与模型的参数量正相关，因此首先要设定参数量的上限，例如不超过5.5M大小。然后在此限定下指定网络结构，声学模型包含多层非线性层，可由卷积层、长短时记忆网络层、全连接层等实现。优选地，本实施例采用声学模型结构为卷积神经网络（ConvolutionalNeural Network，CNN），CNN可以对命令词语音的上下文信息进行建模，提取语音数据的长时特征，后接softmax层，可得到音素分类的后验概率；然后，对神经网络进行初始化，使用随机初始化的参数，或者通过预训练模型进行初始化，预训练模型可以为语音识别任务的模型提供一个较好的参数初始值，并能提升模型的泛化能力。接着，对声学模型进行训练，将已标注好的通用语料数据首先经过信号处理方法做预处理，同时也可以做一些数据增强的策略，增加训练数据的多样性，提取出可供模型训练的声学特征；随后将特征数据输入所确定的声学模型结构中，模型的预测标签为标注好的音素类别。训练完成后，便可以得到命令词定制所需要的声学模型。再接着，将数据增扩处理后得到的命令词语音和原始命令词语音，分别输入至训练后的预设声学模型，得到多条命令词语音对应的音频音素串；最后，基于音素规整算法，对音频音素串进行音素规整处理，得到规整后的音频音素串。

其中，对声学模型训练的步骤如下：对训练数据提取Filter-bank（FBank）声学特征，首先将信号进行预加重、分帧和加汉明窗处理，然后进行短时傅里叶变换；然后求频谱平方，将每个滤波频带内的能量进行叠加；最后将每个滤波器的输出取对数，得到相应频带的对数功率谱结果，即得到了Fbank特征。设定损失函数，损失函数可选交叉熵等，利用损失函数通过反向传播和梯度下降算法，训练完成可得到声学模型。训练参数需根据模型结构以及训练数据大小设定，例如：对于上述模型，可采用0.00001的学习率，动量值0.9，batch大小64等等。

可选地，如图9所示，在一些实施例中，步骤S34具体可以包括：

S341.对每条音频音素串的帧数相加，得到音素总帧数；

S342.遍历每条音频音素串，计算每个音素出现的帧数；

S343.基于每个音素出现的帧数和音频总帧数，计算每个音素的出现概率；

S344.遍历每条音频音素串，计算当前音频音素串中每个音素连续出现的个数，筛除当前音频音素串中连续出现的个数低于第二预设阈值的音素；

S345.对每条音频音素串中连续出现的相同音素进行合并，依次计算当前音频音素串中每个音素的出现概率，筛除当前音频音素串中出现概率低于第一预设阈值的音素，得到规整后的音频音素串；

S346.将得到的多条规整后的音频音素串进行去重处理，得到最终规整后的多条音频音素串。

具体的，对于步骤S34，将数据增扩处理后的命令词语音和未经处理的原始命令词语音输入至已训练好的预设声学模型中，得到多条命令词语音对应的音素序列，然后通过一个音素规整算法，基于一个命令词文本的N条命令词语音所对应的音素序列得到M条音素序列（N>=M>=1）。该算法的目标是剔除掉命令词语音音素序列中的异常值，例如注册的语音中可能会由于环境噪音而出现几帧频次较低、持续时间较短的异常音素，去除掉这些异常音素，可以确保命令词语音对应音素序列的鲁棒性。

在具体的实施例中，音素规整算法流程如下：

a)假设某条命令词文本注册了N条命令词语音，对N条语音通过声学模型，得到N条音素序列；

b)对每条音素序列的帧数相加，得到音素总帧数n；

c)遍历每条音素序列，计算每个音素出现的帧数；

d)将每个音素出现的帧数除以音素总帧数n，得到每个音素出现的概率；

e)设置预设第一阈值thr1，用来筛除N条音素序列中出现频次较低的音素。thr1表示命令词语音的音素平均概率阈值，其计算公式为：thr1 =1/[a*n/(N*t)]，其中a为0到1之间的一个常量小数，t为2.3中得到的文本对应音素序列的音素个数，N为每条命令词注册的语音条数，n为N条命令词语音对应的音素总帧数；

f)设置第二预设阈值thr2，用来筛选每条音素序列中连续出现的频次较低的的异常音素，thr2是一个大于等于1的自然数。例如，一个音素序列为b,b,b,a,b,b,c,c,c，设置thr2=1，那么连续出现次数小于等于1的音素会被剔除，在该音素序列中，a仅连续出现1次，此时音素a会被剔除；

g)遍历每条音素序列，计算该序列中每个音素连续出现的个数，若某个音素连续出现的个数小于thr2，则将其删除；删除后，对连续相同的音素进行合并，然后依次判断每个音素出现的概率，如果该概率大于thr1，则将其添加到规整后的音素串中，如果该概率小于等于thr1，则将该音素丢弃；

h)对得到的N条规整后的音素序列进行去重，返回最终的规整后的M条音素序列（N>=M>=1）。

可选地，如图10所示，在一些实施例中，所述方法具体还可以包括：

S4.对命令词文本进行音素转换，得到对应的文本音素串。

S5.基于文本音素串和音频音素串，生成对应的解码图。

具体的，对于步骤S4，主要是通过预设字音转换工具，对获取的每条命令词文本进行音素转换处理，得到每条命令词文本对应的文本音素串（或音素序列）。在具体的实施例中，通过将获取到的命令词文本输入至预设的字音转换（Grapheme-to-Phoneme，G2P）工具中进行音素转换，将命令词文本转换陈对应的音素序列。例如中文普通话可以采用开源的pypinyin工具，将文字转换为相应的音素序列。

具体的，对于步骤S5，根据得到的文本音素串和音频音素串，通过WFST（WeightedFinite StateTransducers，有限加权状态转换机）算法生成对应的解码图。

可选地，如图11所示，在一些实施例中，步骤S5具体可以包括：

S51.构建命令词文本对应的语音模型解码器；

S52.基于文本音素串和音频音素串，构建对应的发音词典解码器；

S53.构建上下文相关解码器和声学模型解码器；

S54.基于语音模型解码器、发音词典解码器、上下文相关解码器和声学模型解码器，生成对应的解码图。

在具体的实施例中，对于步骤S5，主要是根据步骤S3得到的音频音素串和步骤S4得到的音频音素串，通过WFST算法生成解码图。关于解码图，是一个把HMM状态序列转录为单词序列的状态图，通过解码图可以实现结合声学模型及语言模型的语音识别解码过程。解码图的生成过程如下：

注册阶段构建解码图，解码图包含四部分：H表示HMM声学模型WFST，C表示上下文相关WFST，L表示发音词典WFST，G表示语言模型WFST，由于文本已知，实际G表示该命令词文本对应的WFST。这四部分WFST状态经过复合，最小化和确定化等操作，得到最终的HCLG解码图。

构造命令词文本的WFST：将N元文法的命令词表示成状态图的形式，为了方便与其它三个WFST进行操作，将其视为一个输入输出相同的WFST。其符号都是命令词文本，如输入为“打开空调”，输出为“打开空调”命令词序列。

构造发音词典的WFST：将命令词文本对应的音素序列和语音对应的多条音素序列作为发音字典的WFST的输入标签，输出标签为命令词和若干用于填充的ε。例如对于自定义的命令词（打开空调），输出的标签序列为“打开空调”，输入为多条音素序列，如命令词文本对应的音素序列“d a_3 k ai_1 kong_1 t iao_2”，命令词语音对应的音素序列可能为“da_1 h ai_1 k ong_4 d iao_2”和“d a_2 k ai_1 hong_4 t iao_2”，根据这三条音素标签序列便可构建发音字典解码图。得到L后，L与G进行WFST复合运算得到LG。LG图可以把单音子音素序列转录成单字序列。

构造上下文相关的WFST：其输入标签为三音子音素，输出标签为单音子音素。得到了C之后，将C与LG复合，得到CLG。CLG可把音素上下文序列转录为单词序列。

构造HMM声学模型的拓扑结构及转移概率的WFST：HMM的结构可以天然地用WFST表示，HMM状态间的转移可以表示成WFST的跳转，转移概率可以表示成跳转的权重。由于我们注册了N条命令词语音，所以我们可以把命令词语音通过声学模型输出的HMM状态号作为输入标签，输出标签是C中的对应上下文音素。

对上述步骤的各WFST文件进行复合操作，然后再进行确定化操作，降低解码图的冗余度，最后通过最小化操作，优化解码图的复杂度，从而得到从HMM状态序列到命令词文本的解码状态图文件。

综上所述，本申请实施例提供的语音数据处理方法，包括：获取命令词文本及对应的若干条原始命令词语音；分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。与现有技术相比，本申请实施例通过提出一种对每条原始命令词语音进行一系列的数据增扩处理的方案，能够解决现有自定义命令词语音单一性的问题，增强命令词语音的多样性，进而增强自定义命令词系统的鲁棒性；并且，通过规整算法对多条命令词语音对应的音素序列进行规整，提升获得音素的准确度和获得音素的多样性，进而提升了自定义命令词系统的性能。另外，基于数据增扩处理后的命令词语音和原始命令词语音生成音频音素串，有利于提高后续生成的解码图的可靠性和全面性，有效提高在不同环境条件下的语音识别的准确度，进而提高后续语音识别的准确性和适用性，提升用户体验。

为了更好的实施本申请实施例的语音数据处理方法，本申请实施例还提供一种基于上述语音数据处理方法的语音数据处理装置，其中名词的含义与上述语音数据处理方法中相同，具体实施细节可以参考方法实施例中的说明。

请参阅图12，图12为本申请实施例提供的语音识别装置的结构示意图，其中可以包括获取模块100、数据增扩处理模块200和音频音素串模块300，其中，

获取模块100，用于获取命令词文本及对应的若干条原始命令词语音；

数据增扩处理模块200，用于分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；

音频音素串模块300，用于将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。

可选地，如图13所示，在一些实施例中，所述语音数据处理装置具体还可以包括：

文本音素串模块400，用于对命令词文本进行音素转换，得到对应的文本音素串；

解码图生成模块500，用于基于文本音素串和音频音素串，生成对应的解码图。

可选地，在一些实施例中，数据增扩处理模块200具体可以包括：

降噪单元，用于对原始命令词语音进行人工智能降噪处理，得到对应的降噪语音；

变速单元，用于对原始命令词语音进行语音变速处理，得到对应的变速语音；

变调单元，用于对原始命令词语音进行语音变调处理，得到对应的变调语音；

加噪单元，用于对原始命令词语音进行语音加噪处理，得到对应的加噪语音；

谱增强单元，用于对原始命令词语音进行语音频谱加强处理，得到对应的谱增强语音。

可选地，在一些实施例中，音频音素串模块300具体可以包括：

初始化单元，用于确定预设声学模型的结构，并对预设声学模型的神经网络进行初始化；

训练单元，用于对预设声学模型进行训练，得到训练后的预设声学模型；

输出单元，用于将数据增扩处理后得到的命令词语音和原始命令词语音，分别输入至训练后的预设声学模型，得到多条命令词语音对应的音频音素串；

规整单元，用于基于音素规整算法，对音频音素串进行音素规整处理，得到规整后的音频音素串。

可选地，在一些实施例中，解码图模块500具体可以包括：

第一构建单元，用于构建命令词文本对应的语音模型解码器；

第一构建单元，用于基于文本音素串和音频音素串，构建对应的发音词典解码器；

第一构建单元，用于构建上下文相关解码器和声学模型解码器；

解码图生成单元，用于基于语音模型解码器、发音词典解码器、上下文相关解码器和声学模型解码器，生成对应的解码图。

综上所述，本申请实施例提供的语音数据处理装置，通过获取模块100获取命令词文本及对应的若干条原始命令词语音；通过数据增扩处理模块200分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；通过音频音素串模块300将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。可见，本申请实施例通过提出一种对每条原始命令词语音进行一系列的数据增扩处理的方案，能够解决现有自定义命令词语音单一性的问题，增强命令词语音的多样性，进而增强自定义命令词系统的鲁棒性；并且，通过规整算法对多条命令词语音对应的音素序列进行规整，提升获得音素的准确度和获得音素的多样性，进而提升了自定义命令词系统的性能。

本申请实施例中还提供一种计算机设备，请参阅图14，图14是本申请实施例提供的计算机设备的第一种实施方式的结构示意图。该计算机设备包括存储器10和处理器20，该存储器10存储有计算机程序，该处理器20执行计算机程序时实现一种语音数据处理方法，包括：获取命令词文本及对应的若干条原始命令词语音；分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。

本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器。请参阅图15，图15是本申请实施例提供的计算机设备的第二种实施方式的结构示意图。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存语音数据处理方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。

该计算机程序被处理器执行时以实现一种语音数据处理方法。该语音数据处理方法，包括：获取命令词文本及对应的若干条原始命令词语音；分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音数据处理方法，包括步骤：获取命令词文本及对应的若干条原始命令词语音；分别对每条原始命令词语音进行数据增扩处理，得到数据增扩处理后的命令词语音；数据增扩处理包括人工智能降噪处理、语音变速处理、语音变调处理、语音加噪处理和语音频谱加强处理；将数据增扩处理后的命令词语音和原始命令词语音分别输入至预设声学模型，输出对应的音频音素串。

上述执行的语音数据处理方法，本申请实施例中通过提出一种对每条原始命令词语音进行一系列的数据增扩处理的方案，能够解决现有自定义命令词语音单一性的问题，增强命令词语音的多样性，进而增强自定义命令词系统的鲁棒性；并且，通过规整算法对多条命令词语音对应的音素序列进行规整，提升获得音素的准确度和获得音素的多样性，进而提升了自定义命令词系统的性能。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。

在本申请中，对于相同或相似的术语概念、技术方案和/或应用场景描述，一般只在第一次出现时进行详细描述，后面再重复出现时，为了简洁，一般未再重复阐述，在理解本申请技术方案等内容时，对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等，可以参考其之前的相关详细描述。

在本申请中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请技术方案的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本申请每个实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络，或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线）或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，（例如，软盘、存储盘、磁带）、光介质（例如，DVD），或者半导体介质（例如固态存储盘Solid StateDisk (SSD)）等。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音数据处理方法，其特征在于，包括如下步骤：

获取命令词文本及对应的若干条原始命令词语音；

对每条所述音频音素串的帧数相加，得到音素总帧数；

遍历每条所述音频音素串，计算每个音素出现的帧数；

2.根据权利要求1所述的语音数据处理方法，其特征在于，所述方法还包括：

对所述命令词文本进行音素转换，得到对应的文本音素串；

3.根据权利要求1所述的语音数据处理方法，其特征在于，所述人工智能降噪处理，包括：

对所述原始命令词语音进行特征提取后输入至降噪网络；

通过降噪网络输出所述原始命令词语音的频域信号；

将所述频域信号转换为对应的时域信号；

基于所述频域信号和所述时域信号，生成对应的降噪语音。

4.根据权利要求1所述的语音数据处理方法，其特征在于，所述语音变速处理，包括：

5.根据权利要求1所述的语音数据处理方法，其特征在于，所述语音变调处理，包括：

6.根据权利要求1所述的语音数据处理方法，其特征在于，所述语音加噪处理，包括：

7.根据权利要求1所述的语音数据处理方法，其特征在于，所述语音频谱加强处理，包括：

提取所述原始命令词语音的频谱特征，生成对数梅尔谱；

8.根据权利要求2所述的语音数据处理方法，其特征在于，所述基于所述文本音素串和所述音频音素串，生成对应的解码图，包括：

构建所述命令词文本对应的语音模型解码器；

构建上下文相关解码器和声学模型解码器；

9.一种语音数据处理装置，其特征在于，包括：

音频音素串模块，用于确定预设声学模型的结构，并对预设声学模型的神经网络进行初始化；对所述预设声学模型进行训练，得到训练后的预设声学模型；将数据增扩处理后得到的命令词语音和所述原始命令词语音，分别输入至训练后的预设声学模型，得到多条命令词语音对应的音频音素串；对每条所述音频音素串的帧数相加，得到音素总帧数；遍历每条所述音频音素串，计算每个音素出现的帧数；基于所述每个音素出现的帧数和音频总帧数，计算每个音素的出现概率；遍历每条所述音频音素串，计算当前音频音素串中每个音素连续出现的个数，筛除当前音频音素串中连续出现的个数低于第二预设阈值的音素；对每条所述音频音素串中连续出现的相同音素进行合并，依次计算当前音频音素串中每个音素的出现概率，筛除当前音频音素串中出现概率低于第一预设阈值的音素，得到规整后的音频音素串；将得到的多条所述规整后的音频音素串进行去重处理，得到最终规整后的多条音频音素串。

10.根据权利要求9所述的语音数据处理装置，其特征在于，所述语音数据处理装置还包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的语音数据处理方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的语音数据处理方法的步骤。