CN111768764B

CN111768764B - 语音数据处理方法、装置、电子设备及介质

Info

Publication number: CN111768764B
Application number: CN202010579690.6A
Authority: CN
Inventors: 李宝祥; 郑垦
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2024-01-19
Anticipated expiration: 2040-06-23
Also published as: CN111768764A

Abstract

本申请公开了一种语音数据处理方法、装置、电子设备及介质。该方法在获取多个语音数据后，针对每个语音数据，对语音数据进行分帧处理，得到语音数据的语音帧序列，然后根据跳帧规则，从语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本。与现有技术相比，该方法不需要采集大量的语音数据，可由每个语音数据自动扩充出多个语音训练样本，提高了语音训练样本的获取速度与效率。

Description

语音数据处理方法、装置、电子设备及介质

技术领域

本申请涉及人工智能的数据处理领域，尤其涉及一种语音数据处理方法、装置、电子设备及介质。

背景技术

随着深度学习在人工智能技术的兴起，数据和算力是人工智能技术能否落地的关键性因素。为了提高语音识别的准确性，在语音识别的模型训练任务中，需要数万小时的语音数据作为语音训练样本，来提高语音识别模型的准确性。

目前，为了得到大量的语音训练样本，需要人工采集大量的语音数据，然而，这种采集方式耗时耗力，并且成本很高，导致获取语音训练样本的速度慢、效率低。

发明内容

本申请实施例提供一种语音数据处理方法、装置、电子设备及介质，解决了现有技术存在的上述问题，以提高获取语音训练样本的速度与效率。

第一方面，提供了一种语音训练样本的获取方法，该方法可以包括：

获取多个语音数据；

针对每个语音数据，对所述语音数据进行分帧处理，得到所述语音数据的语音帧序列；

根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本。

在一个可能的实施方式中，根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列，包括：

根据所述跳帧规则，确定起始语音帧；

基于确定的起始语音帧，按照所述跳帧规则所指示的跳帧间隔值，从所述语音帧序列中选择语音帧，并按照所选择的语音帧的时间顺序排列，得到所述语音帧子序列。

在一个可能的实施方式中，根据所述跳帧规则，确定起始语音帧，包括：

按照所述语音帧序列中的语音帧顺序，从所述语音帧序列中选择前N个语音帧，所述N为所述设定数量；将选择的语音帧确定为起始语音帧；

或者，按照所述语音帧序列中的语音帧顺序，从所述语音帧序列中选择前M个语音帧；在所选择的M个语音帧中，选择N个语音帧；将选择的N语音帧确定为起始语音帧，其中，所述N为所述设定数量，所述M大于所述N。

在一个可能的实施方式中，所述跳帧规则所指示的跳帧间隔值的个数为一个或多个。

在一个可能的实施方式中，得到设定数量的语音帧子序列之后，所述方法还包括：

针对每个语音帧子序列，对所述语音帧子序列中的每个语音帧进行复制；

将复制得到的语音帧放置在所述语音帧子序列中被复制的语音帧所在位置的相邻位置，得到所述语音训练样本。

根据跳帧规则，从所述语音帧序列中选择语音帧，得到P个语音帧子序列，P为正整数；

从所述P个语音帧子序列中选择所述设定数量个语音帧子序列；其中，所述设定数量不大于所述P。

在一个可能的实施方式中，得到设定数量的语音帧子序列并确定为语音训练样本之后，所述方法还包括：

针对每个语音训练样本，获取所述语音训练样本中每个语音帧的音节标注信息；

对所述语音训练样本中的语音帧进行特征提取，得到每个语音帧的声学特征；

基于所述语音训练样本中语音帧的声学特征以及相应语音帧的音节标注信息，对神经网络模型进行训练，得到声学模型。

第二方面，提供了一种语音数据处理装置，该装置可以包括：获取单元、分帧单元和处理单元；

所述获取单元，用于获取多个语音数据；

所述分帧单元，用于针对每个语音数据，对所述语音数据进行分帧处理，得到所述语音数据的语音帧序列；

所述处理单元，用于根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本。

在一个可能的实施方式中，所述处理单元，具体用于根据所述跳帧规则，确定起始语音帧；

以及，基于确定的起始语音帧，按照所述跳帧规则所指示的跳帧间隔值，从所述语音帧序列中选择语音帧，并按照所选择的语音帧的时间顺序排列，得到所述语音帧子序列。

在一个可能的实施方式中，所述处理单元，具体用于按照所述语音帧序列中的语音帧顺序，从所述语音帧序列中选择前N个语音帧，所述N为所述设定数量；将选择的语音帧确定为起始语音帧；

在一个可能的实施方式中，该装置还可以包括复制单元；

所述复制单元，用于针对每个语音帧子序列，对所述语音帧子序列中的每个语音帧进行复制；

所述处理单元，还用于将复制得到的语音帧放置在所述语音帧子序列中被复制的语音帧所在位置的相邻位置，得到所述语音训练样本。

在一个可能的实施方式中，所述处理单元，还具体用于根据跳帧规则，从所述语音帧序列中选择语音帧，得到P个语音帧子序列，P为正整数；

以及，从所述P个语音帧子序列中选择所述设定数量个语音帧子序列；其中，所述设定数量不大于所述P。

在一个可能的实施方式中，该装置还可以包括标注获取单元、特征提取单元和训练单元；

所述标注获取单元，用于针对每个语音训练样本，获取所述语音训练样本中每个语音帧的音节标注信息；

所述特征提取单元，还用于对所述语音训练样本中的语音帧进行特征提取，得到每个语音帧的声学特征；

所述训练单元，用于基于所述语音训练样本中语音帧的声学特征以及相应语音帧的音节标注信息，对神经网络模型进行训练，得到声学模型。

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明实施例提供的语音数据处理方法在获取多个语音数据后，针对每个语音数据，对语音数据进行分帧处理，得到语音数据的语音帧序列，然后根据跳帧规则，从语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本。与现有技术相比，该方法不需要采集大量的语音数据，采集到语音数据后，可以基于每个语音数据扩充出多个语音训练样本，提高了语音训练样本的获取速度与效率，并降低了成本。

附图说明

图1为本发明实施例提供的一种语音数据处理方法的流程示意图；

图2为本发明实施例提供的一种语音帧子序列的获取过程示意图；

图3为本发明实施例提供的一种语音数据处理装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供的语音数据处理方法可以由智能设备执行，也可以由为该智能设备提供服务的服务器执行。

若该语音数据处理方法由服务器执行时，需要智能设备将采集的语音数据发送至服务器，以使服务器获取智能设备采集的语音数据，服务器依照本发明实施例提供的语音数据的处理方法对获取的语音数据进行处理，以获取语音训练样本。

其中，智能设备可以是具有语音采集装置的智能音箱、智能机器人等，还可以是具有语音采集装置的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)、移动终端(Mobile Terminal)等。服务器可以是与智能设备通信的应用服务器或云服务器。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种语音数据的处理方法的流程示意图。如图1所示，该方法可以包括：

步骤110、获取多个语音数据。

在具体实施中，若该语音数据处理方法由智能设备执行，则智能设备可以获取与其通信的其他设备实时采集或存储的多个语音数据，或者获取自身存储器中存储的多个语音数据。

若该语音数据处理方法由服务器执行，则服务器可以获取与其通信的其他设备实时采集或存储的多个语音数据，或者获取自身存储器中存储的多个语音数据。

在具体实施中，语音数据采集时，可以在录音棚中通过专业录音设备采集多个人物的语音作为所需的语音数据；也可以通过不同的智能设备在不同应用场景下采集多个人物的语音作为所需的语音数据。本发明实施例中不对语音数据的采集方式进行限定。

步骤120、针对每个语音数据，对语音数据进行分帧处理，得到语音数据的语音帧序列。

针对每个语音数据，可以采用预设分帧算法，如分帧加窗算法，以窗口长度为每个语音帧的时长(或称“帧长”(frame_length))，帧移(frame_shift)为步长，按照语音帧的时间顺序，在该语音数据上移动窗口，得到该语音数据的语音帧序列。其中，该语音帧序列包括按照时间顺序排列的多个语音帧。帧移是指相邻两语音帧的起始位置的时间差，通常帧长一般取10～30ms，帧移与帧长的比值一般取0-1/2。

本发明实施例中，语音帧的数量可以利用以下分帧公式得到：

n＝(N-w_len)/inc+1；

其中，n为语音帧的数量，N为语音数据的时长，w_len为每个帧长，inc为帧移。

在一种可能的实施方式中，若n为非整数，如20.3，表明语音数据的最后一个语音帧的帧长不足wlen长度，则可以删除最后一个语音帧；或者，可以将最后一个语音帧通过补零的方式，使其达到wlen长度。本发明实施例可以根据实际情况对上述两种方式进行选择，以得到语音帧数量n，本发明实施例在此不做限定。

步骤130、根据跳帧规则，从语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本。

在具体实施中，首先，可以根据跳帧规则，确定起始语音帧；

其中，若跳帧规则指示待获取的语音帧子序列的数量为设定数量N，则需要确定N个起始语音帧，可以通过以下方式确定起始语音帧：

方式一，按照得到的语音帧序列中的语音帧顺序，从语音帧序列中选择前N个语音帧，并将选择的语音帧确定为起始语音帧。

例如，以语音帧序列为[语音帧A、语音帧B、语音帧C、语音帧D、…、语音帧Z]为例，若N为2，则从语音帧序列中选取语音帧A和语音帧B，并将语音帧A和语音帧B分别确定为起始语音帧。

方式二，按照得到的语音帧序列中的语音帧顺序，从语音帧序列中选择前M个语音帧，并在所选择的M个语音帧中，选择N个语音帧；将选择的N语音帧确定为起始语音帧，其中，M大于N。

其中，在所选择的M个语音帧中，可以随机选择N个语音帧，也可以选取N个连续的语音帧，还可以等间隔选择N个语音帧，对于选择N个语音帧的具体方式，本发明实施例在此不做限定。

例如，以语音帧序列为[语音帧A、语音帧B、语音帧C、语音帧D、…、语音帧Z]为例，若N为2，M为3，且前3个语音帧组成的中间语音帧序列为[语音帧A、语音帧B、语音帧C]，则从中间语音帧序列中选取的2个语音帧可以是语音帧A和语音帧B，或语音帧B和语音帧C，或语音帧A和语音帧C，并将选取的2个语音帧分别确定为起始语音帧。

然后，基于确定的起始语音帧，按照跳帧规则所指示的跳帧间隔值，从语音帧序列中选择语音帧，并按照选择的语音帧的时间顺序排列，得到语音帧子序列。

本发明实施例中，在获取所采集的语音数据后，针对每个语音数据，先对语音数据进行分帧处理，得到语音数据的语音帧序列，然后根据跳帧规则，从语音帧序列中选择语音帧，最后得到设定数量的语音帧子序列并确定为语音训练样本。与现有技术相比，本发明实施例通过跳帧的方式，使一个语音数据可以得到多个语音训练样本，从而使语音训练样本的数量可以呈倍数地增加，提高了语音训练样本的获取速度与效率。并且，由于无需采集大量的语音数据，基于所采集的少量语音数据，即可呈倍数地扩充语音训练样本，从而有效降低了训练样本的获取成本。

具体实施中，为了保证获取到多个语音训练样本，同时保持语音训练样本相邻语音帧间的关联性，可以预先设置合适的跳帧间隔值范围。

对于跳帧间隔值范围的设置，可以根据技术人员的经验值来设置，也可以根据每个语音单元所占语音帧数、需求的语音训练样本数、语音数据长度等其他因素来设置。其中，语音单元可以为音素或音节等。

具体实施中，若根据每个音节所占语音帧数来设置跳帧间隔值范围，则为了保证语音数据中的音节不丢失，跳帧间隔值不能超过每个音节所占语音帧数。以音节为例，一个音节一般占8个语音帧，那么跳帧间隔值范围可以设为[1,7]。进一步的，在具体配置跳帧规则中的跳帧间隔值时，期望扩充得到的语音训练样本的数量越多，则可将跳帧间隔值设置得越大；期望扩充得到的语音训练样本中相邻语音帧间的关联性越强，则可将跳帧间隔值设置得越小。

若根据需求的语音训练样本数，来设置跳帧间隔值范围，则期望扩充得到的语音训练样本的数量越多，则可将跳帧间隔值设置得越大。

若根据语音数据长度(即语音帧序列中语音帧的数量)，来设置跳帧间隔值范围，则跳帧间隔值不能超过语音数据长度。进一步的，在具体配置跳帧规则中的跳帧间隔值时，期望扩充得到的语音训练样本的数量越多，则可将跳帧间隔值设置得越大；期望扩充得到的语音训练样本中相邻语音帧间的关联性越强，则可将跳帧间隔值设置得越小。

需要说明的是，上述多种配置跳帧间隔值范围的因素可以单独考虑，也可以综合考虑，具体的可以基于各因素的占比，权衡配置跳帧间隔值范围，进一步配置跳帧规则中的跳帧间隔值。当然了，也可以基于上述因素直接配置跳帧规则中的跳帧间隔值。

为了得到预设数量的语音训练样本，可以从预先设置的跳帧间隔值范围中选择一个或多个跳帧间隔值，作为跳帧规则指示的一个或多个跳帧间隔值，其中，可以通过以下方式选择一个或多个跳帧间隔值：

方式一，从目标跳帧间隔值范围中随机选择跳帧间隔值，确定为跳帧规则中的跳帧间隔值。

方式二，按照预设选择要求，从目标跳帧间隔值范围中选择跳帧间隔值。例如，按照预设选择要求，从目标跳帧间隔值范围中选择中间位置的跳帧间隔值，或者等间隔选择多个跳帧间隔值等。

需要说明的是，上述列举的选择方式，并非对跳帧间隔值的选择方式进行限定。

基于上述任一实施例，本发明实施例中的跳帧规则中的跳帧间隔值可以是一个，也可以是多个。

在一种可能的实施方式中，对于跳帧规则指示一个跳帧间隔值的情况，基于确定的每个起始语音帧，按照跳帧规则所指示的跳帧间隔值，周期性的从语音帧序列中依次选择语音帧，并按照选择的语音帧的时间顺序排列，直至遍历整个语音帧序列，得到相应起始语音帧对应的语音帧子序列。

举例说明，为了便于描述，以跳帧规则指示的跳帧间隔值为1，语音帧序列为[语音帧A、语音帧B、语音帧C、语音帧D、语音帧E、…、语音帧Z]为例进行说明。

第一个语音帧子序列从起始语音帧A起，按照跳帧间隔值1，依次选择语音帧A、语音帧C、语音帧E、语音帧G、…、语音帧Y；第二个语音帧子序列从起始语音帧B起，按照跳帧间隔值1，依次选择语音帧B、语音帧D、语音帧F、语音帧H、…、语音帧Z。

在另一种可能的实施方式中，对于跳帧规则指示多个跳帧间隔值的情况，基于确定的每个起始语音帧，先按照跳帧规则所指示的每个跳帧间隔值以及跳帧间隔值顺序，依次从语音帧序列中选择语音帧，并按照选择的语音帧的时间顺序排列，然后再重新按照跳帧规则所指示的每个跳帧间隔值以及与上一次相同的跳帧间隔值顺序，依次从语音帧序列中选择语音帧，并按照选择的语音帧的时间顺序排列，直至遍历整个语音帧序列，得到相应起始语音帧对应的语音帧子序列。

举例说明，为了便于描述，以跳帧规则指示的跳帧间隔值为1和2时，语音帧序列为[语音帧A、语音帧B、语音帧C、语音帧D、语音帧E、…、语音帧Z]为例，对得到起始语音帧A对应的语音帧子序列进行说明。

第一个语音帧子序列从起始语音帧A起，先按照跳帧间隔值1，从语音帧序列中选择语音帧C；再从语音帧C起，按照跳帧间隔值2，从语音帧序列中选择语音帧F；接着，从语音帧F起，按照跳帧间隔值1，从语音帧序列中选择语音帧H；接着，从语音帧H起，按照跳帧间隔值2，从语音帧序列中选择语音帧K；依次类推，直至遍历该语音帧序列，从而得到起始语音帧A对应的语音帧子序列：[语音帧A、语音帧C、语音帧F、语音帧H、…、语音帧Z]。其余的语音帧子序列与此类似，此处不再一一举例说明。

在本发明实施例中，将得到设定数量的语音帧子序列确定为语音训练样本。

在一个例子中，如图2所示，以帧长为25ms，帧移为10ms，跳帧间隔值为3，语音数据的时长为300ms，且跳帧规则指示待获取的语音帧子序列的数量为4为例。根据分帧公式n＝(N-w_len)/inc+1，得到n的值为28.5，并采用删除最后一个语音帧的方式，得到该语音数据的语音帧序列，语音帧序列包括按照时间顺序排列的28个语音帧和相应语音帧的帧序号，如0-27。

从该语音帧序列中选择前4个语音帧，即帧序号为0-3的语音帧，并将帧序号为0-3的语音帧确定为起始语音帧。

按照跳帧规则所指示的跳帧间隔值，从语音帧序列中选择相应的语音帧，得到相应起始语音帧对应的语音帧子序列，即得到4个语音帧子序列。其中，第一个语音帧子序列包括的帧序号依次为：0、4、8、12、16、20、24；第二个语音帧子序列包括的帧序号依次为：1、5、9、13、17、21、25；第三个语音帧子序列包括的帧序号依次为：2、6、10、14、18、22、26；第四个语音帧子序列包括的帧序号依次为：3、7、11、15、19、23、27。

在一种可能的实施方式中，可以采用如下方式获取语音帧子序列：

根据跳帧规则，从语音帧序列中选择语音帧，得到P个语音帧子序列，其中，P为不小于设定数量的正整数；并从P个语音帧子序列中随机或按照预先配置的选择要求，选择设定数量个语音帧子序列。

具体的，若跳帧规则所指示的跳帧间隔值为一个，则得到的语音帧子序列的最大个数为跳帧间隔值加1。例如，跳帧间隔值为2，则最多能够得到3个语音帧子序列；若跳帧间隔值为4，则最多能够得到5个语音帧子序列。

其中，若预先指定了一个语音数据通过跳帧方式所对应的语音训练样本的数量，则本发明实施例中的设定数量即为该预先指定的数量；若预先未指定一个语音数据通过跳帧方式所对应的语音训练样本的数量，则本发明实施例中的设定数量可以默认是该语音数据通过跳帧方式所得到的所有语音帧子序列的数量，也可以是该语音数据通过跳帧方式所得到的部分语音帧子序列的数量。本发明实施例中不对设定数量的具体值进行限定。

举例说明，若设定数量为预先指定的数量，则从得到的P个语音帧子序列中选择设定数量个语音帧子序列，并将选择的设定数量个语音帧子序列确定为语音训练样本。其中，P为正整数，且设定数量不大于P。

若设定数量为未预先指定的数量，则默认将得到的P个语音帧子序列全部确定为语音训练样本。

在另一种可能的实施方式中，还可以采用如下方式获取语音帧子序列：

为了得到长度统一的语音训练样本，针对得到的每个语音帧子序列，可以对语音帧子序列中的每个语音帧进行复制，并将复制得到的语音帧放置在语音帧子序列中被复制的语音帧所在位置的相邻位置，来获取语音训练样本。

在具体实施中，首先，可以根据待获取的语音训练样本的预设长度和每个语音帧子序列中的语音帧数量，确定每个语音帧的复制次数，并对相应语音帧进行相应次数的复制。

其次，针对每个语音帧子序列，将复制得到的语音帧放置在该语音帧子序列中被复制的语音帧所在位置的左侧相邻位置或右侧相邻位置，从而得到相应的语音训练样本。

例如，将上述得到的4个语音帧子序列中的每个语音帧子序列中的语音帧进行复制处理，以得到语音训练样本。以第一个语音帧子序列为例，若预设的语音训练样本的长度为14，对第一个语音帧子序列中的每个语音帧进行一次复制，可以得到第一个语音帧子序列对应的语音训练样本的帧序号依次为：0、0、4、4、8、8、12、12、16、16、20、20、24、24。

基于上述任一实施例，在获取到多个原始语音数据后，可以将获取到的所有原始语音数据均作为步骤110获取到的多个语音数据执行步骤120和步骤130的样本扩充处理，以得到更多的语音训练样本；也可以将获取到的原始语音数据中的部分原始语音数据作为步骤110获取到的多个语音数据执行步骤120和步骤130的样本扩充处理，本发明实施例中不对此进行限定。

基于上述任一实施例，在得到语音帧子序列之后，还可以对其进行加噪、加混响、速度扰动等处理，将处理后的语音帧子序列确定为语音训练样本，以使得到的语音训练样本真实场景下的语音数据。当然，可以仅对部分语音帧子序列进行加噪、加混响、速度扰动等处理，也可以对全部语音帧子序列进行加噪、加混响、速度扰动等处理，本发明实施例中不对此进行限定。

基于上述任一实施例，步骤110所获取到的语音数据也可以作为语音训练样本。进一步的，还可以对其进行加噪、加混响、速度扰动等处理，将处理后的语音数据确定为语音训练样本，以使得到的语音训练样本真实场景下的语音数据。

基于上述任一实施例，在得到语音训练样本后，可基于语音训练样本对神经网络模型进行训练，以得到声学模型。具体如下：

针对每个语音训练样本，获取语音训练样本中每个语音帧的音节标注信息，并对语音训练样本中的语音帧进行特征提取，得到每个语音帧的声学特征；

基于语音训练样本中语音帧的声学特征以及相应语音帧的音节标注信息，对神经网络模型进行训练，得到声学模型。

在具体实施中，首先，获取每个语音训练样本中每个语音帧的音节标注信息。例如，采用预设音节分析算法，如维特比viterbi对齐算法，对语音训练样本中每个语音帧进行分析，获取相应语音帧对应的音节，并将该音节作为相应语音帧的音节标注信息。

其次，对每个语音训练样本中的各个语音帧进行特征提取，得到每个语音帧的声学特征。其中，声学特征可以包括MFCC特征、Mel filterbank特征等。

最后，根据每个语音训练样本中各个语音帧的声学特征和相应语音帧对应的音节标注信息，对神经网络模型进行训练，得到以音节建模的声学模型。

需要说明的是，在获取设定数量的语音训练样本后，还可以获取每个语音训练样本中每个语音帧除音节外的其他语音识别基元的标注信息，如音素标注信息和声韵母标注信息，从而得到以音素或声韵母建模的声学模型，具体建模过程本发明实施例在此不做赘述。

在另一种可能的实施方式中，基于上述得到的语音训练样本，对语音识别模型进行训练。由于针对同一个语音数据，通过跳帧方式得到的所有语音训练文本的文本标注是相同的，即同一个语音数据对应的所有语音训练文本的文本标注均是该语音数据的文本标注。

基于每个语音训练样本及其对应的文本标注可以训练得到语音识别模型，该语音识别模型可以包括声学模型、发音词典、语言模型和解码器。其中，发音词典包括字与音节间的映射关系；语言模型为建立文本逻辑的合理性模型，统计字与字之间的相关性。

在具体实施中，基于原始语音识别模型，可以通过以下方式训练得到语音识别模型：

首先，对每个语音训练样本中的各个语音帧进行特征提取，得到每个语音训练样本中每个语音帧的声学特征，如MFCC特征、Mel filterbank特征等。

然后，将每个语音训练样本对应的声学特征输入至原始语音识别模型中的声学模型，输出该语音训练样本对应的音节序列。

接着，将声学模型输出的每个语音训练样本对应的音节序列，输入原始语音识别模型中的发音词典，输出每个语音训练样本中相应音节对应的字。

接着，将发音词典输出的每个语音训练样本中相应音节对应的字，输入原始语音识别模型中的解码器，解码器根据该原始语音识别模型中的语言模型中字与字之间的相关性，对每个语音训练样本中相应音节对应的字进行搜索，输出相应该语音训练样本对应的文本信息。

最后，根据每个语音训练样本对应的文本信息和该语音训练样本对应的文本标注，对原始语音识别模型进行训练，得到语音识别模型。

本发明实施例提供的语音数据处理方法在获取多个语音数据后，针对每个语音数据，对语音数据进行分帧处理，得到语音数据的语音帧序列，然后根据跳帧规则，从语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本。与现有技术相比，该方法不需要采集大量的语音数据，可由每个语音数据自动扩充出多个语音训练样本，提高了语音训练样本的获取速度与效率。

与上述方法对应的，本发明实施例还提供一种语音训练样本的获取装置，如图3所示，该语音训练样本的获取装置包括：获取单元310、分帧单元320和处理单元330；

获取单元310，用于获取多个语音数据；

分帧单元320，用于针对每个语音数据，对所述语音数据进行分帧处理，得到所述语音数据的语音帧序列；

处理单元330，用于根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本。

在一个可能的实施方式中，处理单元330，具体用于根据所述跳帧规则，确定起始语音帧；

在一个可能的实施方式中，处理单元330，还具体用于按照所述语音帧序列中的语音帧顺序，从所述语音帧序列中选择前N个语音帧，所述N为所述设定数量；将选择的语音帧确定为起始语音帧；

在一个可能的实施方式中，该装置还可以包括复制单元340；

复制单元340，用于针对每个语音帧子序列，对所述语音帧子序列中的每个语音帧进行复制；

处理单元330，还用于将复制得到的语音帧放置在所述语音帧子序列中被复制的语音帧所在位置的相邻位置，得到所述语音训练样本。

在一个可能的实施方式中，处理单元330，还具体用于根据跳帧规则，从所述语音帧序列中选择语音帧，得到P个语音帧子序列，P为正整数；

在一个可能的实施方式中，该装置还可以包括标注获取单元350、特征提取单元360和训练单元370；

标注获取单元350，用于针对每个语音训练样本，获取所述语音训练样本中每个语音帧的音节标注信息；

特征提取单元360，还用于对所述语音训练样本中的语音帧进行特征提取，得到每个语音帧的声学特征；

训练单元370，用于基于所述语音训练样本中语音帧的声学特征以及相应语音帧的音节标注信息，对神经网络模型进行训练，得到声学模型。

本发明上述实施例提供的语音训练样本的获取装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的语音训练样本的获取装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器410、通信接口420、存储器430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。

存储器430，用于存放计算机程序；

处理器410，用于执行存储器430上所存放的程序时，实现如下步骤：

获取多个语音数据；

根据所述跳帧规则，确定起始语音帧；

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音数据处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音数据处理方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

获取多个语音数据；

根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本；其中，所述跳帧规则指示跳帧间隔值，所述跳帧间隔值的个数为多个；

其中，根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列，包括：

根据所述跳帧规则，确定起始语音帧；

基于确定的起始语音帧，按照所述跳帧规则所指示的跳帧间隔值，从所述语音帧序列中选择语音帧，并按照所选择的语音帧的时间顺序排列，得到所述语音帧子序列；

在所述跳帧规则指示多个跳帧间隔值的情况下，所述基于确定的起始语音帧，按照所述跳帧规则所指示的跳帧间隔值，从所述语音帧序列中选择语音帧，并按照所选择的语音帧的时间顺序排列，得到所述语音帧子序列包括：

基于确定的起始语音帧，按照跳帧规则所指示的每个跳帧间隔值以及跳帧间隔值顺序，依次从语音帧序列中选择语音帧，并按照选择的语音帧的时间顺序排列，直至遍历整个语音帧序列，得到所述起始语音帧对应的语音帧子序列。

2.如权利要求1所述的方法，其特征在于，根据所述跳帧规则，确定起始语音帧，包括：

或者，

按照所述语音帧序列中的语音帧顺序，从所述语音帧序列中选择前M个语音帧；在所选择的M个语音帧中，选择N个语音帧；将选择的N语音帧确定为起始语音帧，其中，所述N为所述设定数量，所述M大于所述N。

3.如权利要求1-2任一项所述的方法，其特征在于，得到设定数量的语音帧子序列之后，所述方法还包括：

4.如权利要求1-2任一项所述的方法，其特征在于，根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列，包括：

5.如权利要求1所述的方法，其特征在于，得到设定数量的语音帧子序列并确定为语音训练样本之后，所述方法还包括：

6.一种语音数据处理装置，其特征在于，所述装置包括：获取单元、分帧单元和处理单元；

所述获取单元，用于获取多个语音数据；

所述处理单元，用于根据跳帧规则，从所述语音帧序列中选择语音帧，得到设定数量的语音帧子序列并确定为语音训练样本；其中，所述跳帧规则指示跳帧间隔值，所述跳帧间隔值的个数为多个；

所述处理单元，具体用于根据所述跳帧规则，确定起始语音帧；

以及，基于确定的起始语音帧，按照所述跳帧规则所指示的跳帧间隔值，从所述语音帧序列中选择语音帧，并按照所选择的语音帧的时间顺序排列，得到所述语音帧子序列；

在所述跳帧规则指示多个跳帧间隔值的情况下，所述处理单元，具体用于基于确定的起始语音帧，按照跳帧规则所指示的每个跳帧间隔值以及跳帧间隔值顺序，依次从语音帧序列中选择语音帧，并按照选择的语音帧的时间顺序排列，直至遍历整个语音帧序列，得到所述起始语音帧对应的语音帧子序列。

7.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-5任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。