CN111161712A

CN111161712A - 语音数据处理方法、装置、存储介质和计算设备

Info

Publication number: CN111161712A
Application number: CN202010075161.2A
Authority: CN
Inventors: 郭燕芳; 邱硕; 孙艳庆; 段亦涛; 李英杰
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-05-15

Abstract

本申请的实施方式提供了一种语音数据处理方法、装置、存储介质和计算设备，所述方法包括：获取多个待处理的语音文件；对所述多个待处理的语音文件进行拼接处理，得到拼接的语音文件，以使用播放设备播放所述拼接的语音文件；对播放设备播放的所述拼接的语音文件进行录制，得到录制的语音文件；对所述录制的语音文件进行切割处理，得到多个目标语音文件；将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。利用本申请实施例能够以较低的成本获得高质量的训练数据。

Description

语音数据处理方法、装置、存储介质和计算设备

技术领域

本申请的实施方式涉及信息技术领域，更具体地，本申请的实施方式涉及语音数据处理方法、装置、存储介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

语音识别技术也称自动语音识别(Automatic Speech Recognition，ASR)技术是以语音为处理对象，通过语音信号处理等将语音自动转换为计算机可读内容的过程。实际应用中，语音识别技术需依托于大量的人工标注数据，对系统进行大量的训练，才可能获得较高的识别率。

目前在纯净无噪声的环境下，语音识别技术取得了较高的识别率，但是，在含有噪声、混响的环境中或者其他语音失真的环境中，系统识别率急剧下降，语音识别的鲁棒性差，如法满足日益多样化的用户使用需求。

发明内容

本申请期望提供一种语音数据处理方法、装置、存储介质和计算设备，以解决上述至少一方面的技术问题。

第一方面，本申请实施例提供一种语音数据处理方法，包括：

获取多个待处理的语音文件；

对所述多个待处理的语音文件进行拼接处理，得到拼接的语音文件，以使用播放设备播放所述拼接的语音文件；

对播放设备播放的所述拼接的语音文件进行录制，得到录制的语音文件；

对所述录制的语音文件进行切割处理，得到多个目标语音文件；

将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。

根据本申请实施例的语音数据处理方法，所述多个待处理的语音文件均具有对应的标注数据。

根据本申请实施例的语音数据处理方法，所述方法还包括：基于所述多个待处理的语音文件对应的标注数据以及所述多个目标语音文件，形成语音识别模型的训练数据。

根据本申请实施例的语音数据处理方法，所述对所述多个语音文件进行拼接处理，包括：在相邻的两个语音文件之间添加至少一个第一类标识，以使拼接的语音文件包括多个第一类标识，所述第一类标识用于对前一个语音文件的结束位置进行标记，所述第一类标识还用于对后一个语音文件的开始位置进行标记。

根据本申请实施例的语音数据处理方法，所述录制的语音文件中包括多个所述第一类标识；所述对所述录制的语音文件进行切割处理，包括：基于所述录制的语音文件中的各个第一类标识，对所述录制的语音文件进行切割处理，以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值，并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。

根据本申请实施例的语音数据处理方法，所述对所述多个语音文件进行拼接处理，包括：在拼接处理的多个语音文件的累计时长达到预设时长时，添加至少一个第二类标识，并继续进行拼接处理，在拼接处理的多个语音文件的累计时长再次达到预设时长时，再次添加至少一个第二类标识，并继续进行拼接处理，如此直至拼接完成；其中，所述第二类标识用于对前一个语音文件的结束位置进行标记，所述第二类标识还用于对后一个语音文件的开始位置进行标记。

根据本申请实施例的语音数据处理方法，所述录制的语音文件中包括多个所述第二类标识；所述对所述录制的语音文件进行切割处理，包括：在对所述录制的语音文件进行切割处理的过程中，基于各个第二类标识对切割的位置进行校准，以使切割的位置与所述拼接的语音文件中多个第二类标识的位置之间的偏移量小于预定阈值。

根据本申请实施例的语音数据处理方法，所述第一类标识包括持续时长为第一时长的纯音信号。

根据本申请实施例的语音数据处理方法，所述第二类标识包括持续时长为第二时长的纯音信号。

第二方面，本申请实施例提供一种语音识别模型，所述语音识别模型是基于训练数据训练生成的，其中，所述训练数据包括基于以上所述的语音数据处理方法获得的训练数据。

第三方面，本申请实施例提供一种语音数据处理方法装置，所述装置包括：

语音文件获取模块，用于获取多个待处理的语音文件，

拼接处理模块，用于对所述多个待处理的语音文件进行拼接处理，得到拼接的语音文件，以使用播放设备播放所述拼接的语音文件；

录制模块，用于对播放设备播放的所述拼接的语音文件进行录制，得到录制的语音文件；

切割处理模块，用于对所述录制的语音文件进行切割处理，得到多个目标语音文件；

添加处理模块，用于将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。

根据本申请实施例的语音数据处理方法装置，所述多个待处理的语音文件均具有对应的标注数据。

根据本申请实施例的语音数据处理方法装置，所述装置还包括：训练数据处理模块，用于基于所述多个待处理的语音文件对应的标注数据以及所述多个目标语音文件，形成语音识别模型的训练数据。

根据本申请实施例的语音数据处理方法装置，所述拼接处理模块包括：第一标识处理子模块，用于在相邻的两个语音文件之间添加至少一个第一类标识，以使拼接的语音文件包括多个第一类标识；其中，所述第一类标识用于对前一个语音文件的结束位置进行标记，所述第一类标识还用于对后一个语音文件的开始位置进行标记。

根据本申请实施例的语音数据处理方法装置，所述录制的语音文件中包括多个所述第一类标识；所述切割处理模块基于所述录制的语音文件中的各个第一类标识，对所述录制的语音文件进行切割处理，以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值，并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。

根据本申请实施例的语音数据处理方法装置，所述拼接处理模块包括：第二标识处理子模块，用于在拼接处理的多个语音文件的累计时长达到预设时长时，添加至少一个第二类标识，并继续进行拼接处理，在拼接处理的多个语音文件的累计时长再次达到预设时长时，再次添加至少一个第二类标识，并继续进行拼接处理，如此直至拼接完成；其中，所述第二类标识用于对前一个语音文件的结束位置进行标记，所述第二类标识还用于对后一个语音文件的开始位置进行标记。

根据本申请实施例的语音数据处理方法装置，所述录制的语音文件中包括多个所述第二类标识；所述切割处理模块在对所述录制的语音文件进行切割处理的过程中，基于各个第二类标识对切割的位置进行校准，以使切割的位置与所述拼接的语音文件中多个第二类标识的位置之间的偏移量小于预定阈值。

根据本申请实施例的语音数据处理方法装置，所述第一类标识包括持续时长为第一时长的纯音信号。

根据本申请实施例的语音数据处理方法装置，所述第二类标识包括持续时长为第二时长的纯音信号。

第四方面，本申请实施例还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行实现上述的语音数据处理方法的步骤。

第五方面，本申请实施例还提供一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的语音数据处理方法的步骤。

基于本申请的实施例，对多份语音文件采取先拼接后录制再分割的方式进行一系列处理，能够便捷地将类似应用场景中可能存在的失真引入语音文件中，并且需要的处理设备容易获得，处理过程容易实现，切割后的语音文件不需要再次人工标注，能够以较低的成本获得高质量的训练数据，用于训练语音识别模型，有利于提高语音识别模型在多场景下的鲁棒性。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1示意性地示出了根据本申请实施例的语音数据处理方法的实现流程图；

图2示意性地示出了本申请实施例在拼接处理中增加多个第一类标识的效果展示图；

图3示意性地示出了将图2实施例拼接的长音频文件切割为多个短音频文件的效果展示图；

图4示意性地示出了根据本申请实施例的存储介质结构示意图；

图5示意性地示出了根据本申请实施例的语音数据处理装置的结构示意图；

图6示意性地示出了根据本申请实施例的计算设备结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本申请的实施方式，提出了一种语音数据处理方法、存储介质、装置和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

发明概述

在本领域，对于提高语音识别系统的鲁棒性的研究，目前并没有一种特定的方法能够以较少的投入获得好的效果，一种可采用的方式是对已经有的训练语料人为地加噪声、加混响，然后用这些携带噪声和混响的数据去训练语音识别模型，期望提高语音识别的鲁棒性；另一种可采用的方式是对真实的带有噪声或失真的语音数据进行人工标注，将标注的数据加入语音识别模型的训练数据中，期望提高语音识别的鲁棒性。以上两种方式不仅需要较大的投入，对模型的训练效果也差强人意。

经大量研究，本申请人发现，由于用户使用需求的多样性，“语音识别”的应用场景出现越来越细分的趋势，例如：可以是智能音箱对接收到的语音指令进行识别，可以是智能手机对即时通讯应用接收到的语音信息进行识别，还可以是具有录音功能的智能设备对其他设备播放的音频进行录音并进行语音识别，等等。对于第三种“具有录音功能的智能设备对其他设备播放的音频进行录音并进行语音识别”的场景，典型的情形例如，在乘坐飞机过程中，乘客使用智能设备对飞机上广播的乘机注意事项进行录音，然后使用智能设备中搭载的语音识别应用App将录音转换为文字，用于进行翻译、转发等使用。该场景中，注意到智能设备录制的语音并不是人直接说话的声音，智能设备录制的语音是人的声音经过飞机广播而外放的声音，该过程涉及到飞机广播的扬声器设备外放声音、飞机内部环境存在噪声、智能设备的麦克风设备收录声音，这种复杂的过程容易同时引入多种失真，最终导致语音识别模型对该场景下的识别准确度急剧下降。

有鉴于此，本申请提供一种语音数据处理方案，通过对已有的多份语音文件先后进行拼接、录制和切割等处理，能够获得大量的符合要求的训练语料，用于训练语音识别模型，可以以较小的投入获得较大的训练效果，能够提升语音识别模型应对多种场景时的鲁棒性。

此外，本申请实施例描述的语音、语音文件、音频、音频文件等，均为可使用语音识别模型处理的数据文件，语音识别模型对这些数据文件进行处理后，输出对应的识别结果。

在介绍了本申请的基本思想之后，下面具体介绍本申请的各种非限制性实施方式。

示例性方法

下面参考图1描述根据本申请示例性实施方式的语音数据处理方法。

图1示意性地示出了根据本申请实施例的语音数据处理方法实现流程图，包括以下步骤：

S101：获取多个待处理的语音文件；

S102：对所述多个待处理的语音文件进行拼接处理，得到拼接的语音文件，以使用播放设备播放所述拼接的语音文件；

S103：对播放设备播放的所述拼接的语音文件进行录制，得到录制的语音文件；

S104：对所述录制的语音文件进行切割处理，得到多个目标语音文件；

S105：将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。

根据本申请实施例的语音数据处理方法，对于多份语音文件，采取先拼接后录制再分割的方式进行一系列处理，巧妙地将语音重放和重录过程中可能的失真引入语音文件中，而不需要额外地对语音文件增加人工制造的噪声和混响；进一步，如果原始的多份语音文件经过标注，具有对应的标注数据，可以以本申请实施例得到的多个目标语音文件与原始的标注数据作为训练语料，用于训练语音识别模型，提高模型鲁棒性，且免去了直接为真实的带有噪声或失真的语音数据进行人工标注，可大幅节约成本。

在本申请实施例中，参考图1，所述的语音数据处理方法还可包括：

S106：基于所述多个待处理的语音文件对应的标注数据以及所述多个目标语音文件，形成语音识别模型的训练数据。

也就是说，多个待处理的语音文件可以为经过标注的语音文件，各语音文件具有对应的文本文件，可作为语音文件对应的语音识别结果的真实值，为构建训练语料库做准备。此外，多个待处理的语音文件也可以为未经过标注的语音文件，可视应用需求选择后期标注，以最大限度的节约成本。

在本申请的实施例中，步骤S102中的对多个语音文件进行拼接处理可以为：在相邻的两个语音文件之间添加至少一个第一类标识，以使拼接的语音文件包括多个第一类标识，其中，所述第一类标识用于对前一个语音文件的结束位置进行标记，所述第一类标识还用于对后一个语音文件的开始位置进行标记。

图2示意性地示出了本申请实施例中对多份音频文件进行拼接并在相邻音频之间添加第一类标识100的对比效果图，图2中左侧示出了原始的多个音频文件，每个音频文件以声波脉冲效果示意，图2中右侧为将多个音频进行拼接处理所得到的文件，可以看到经过拼接处理，由多个音频文件生成了一个音频文件，且在每两个相邻的音频之间插入了第一类标识符100，图2中共示出三个第一类标识符100，其余未示出。

其中，第一类标识100可对其前一个音频的结束位置进行标记，还可以对其后一个音频的开始位置进行标记，进行这样的标识的目的是为后续的切割处理做准备。

在本申请的一种实施方式中，第一类标识100可以采用持续时长为第一时长的纯音信号。在本申请的实施例中，将纯音信号加入拼接的音频文件中，可以对原始的多份音频文件进行标记，进行区分。这里，所谓的纯音(pure tone)一般指单一声调的音，可具有音高和响度两个基本特征，音高取决于发音体振动的频率，响度取决于振动的振幅；不同频率的纯音是相关实验中的常用声音信号，例如声频信号发生器可产生不同频率的纯音信号。

之后，根据步骤S102，使用播放设备播放所述拼接的语音文件；并且根据步骤S103，对播放设备播放的所述拼接的语音文件进行录制，得到录制的语音文件，其中，录制的语音文件中包括多个第一类标识。

也就是说，本申请的实施例利用播放设备将经拼接且带有纯音信号的音频文件播放出来，由于带有纯音信号，则播放出来的声音大致为一段语音之后出现一个持续一定时长的纯音，然后为第二段语音和第二个纯音，如此交替出现。

播放拼接文件时，利用录音设备对播放出来的声音进行录音，获得录制的音频文件，其中，录制的音频文件中也必然为上述的“语音-纯音-语音-纯音”交替出现。

通过上述处理，本申请的实施例将原始的多份短音频拼接之后再次播放出来，进行录音从而获得一份长音频，通过上述处理，可在一定程度上模拟语音重放的场景，使录制的音频中尽可能反映真实的失真或噪音，能够提高训练语料的质量。

在应用中，可使用日常生活中常见的播放设备例如电脑、电视、音响等设备播放拼接好的音频，并且用相应的设备例如最为常见的手机录制音频，还可根据大多数用户的使用习惯调整扬声器与麦克风之间的距离，最大限度地构建和还原需要研究的场景。

在本申请实施例的步骤S104中，对所述录制的语音文件进行切割处理可以为：基于所述录制的语音文件中的各个第一类标识，对所述录制的语音文件进行切割处理，以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值，并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。

在本申请的一种实施方式中，以纯音标识为例，描述对语音文件进行切割处理的大致过程，如下：在拼接处理时插入的纯音为具有一定响度、一定频率且持续一定时长(例如500ms)的“嘀”的声音，则在对语音文件的切割处理中，应在每一个纯音标识处切割两次，具体地，一次为当前纯音开始的位置，另一次为当前纯音结束的位置，通过两次切割将当前纯音前后的两段音频分开。其中，较佳地，应确保切割位置准确，使误差控制在小于预定阈值的范围，例如切割位置向左(过早切割)或向右(过晚切割)偏移的距离(距离与音频上的时间间隔相对应)小于50ms。

按照上述方式，可完成对长音频中每一个纯音位置的切割，得到多个短音频。图3示意性示出了将图2实施例拼接的长音频文件切割为多个短音频文件的效果展示图，切割之后的音频文件中不再含有纯音或静音的标识，最大限度的得到与原始的多个短音频一一对应的多个目标音频。

根据本申请的实施例，所采取的拼接、播放并录制、切割等的一系列处理过程对原始的各个短音频本身没有破坏，使得原始的多个短音频与经过上述处理得到的多个短音频具有一一对应的关系，此外，原始的多个短音频经过标注可具有一一对应的标注数据。那么，在构建语音识别模型的训练语料库时，可以将原始的多个短音频的标注数据与经过本申请实施例处理得到的多个短音频对应起来，作为训练语料。如果短音频的数量足够大，例如十万、百万或更高级别，可大幅提升训练语料库的质量，在实际中，利用本申请实施例的处理方式对音频数据的处理包括拼接、播放并录制、切割，容易以低成本获得大量数据。

在本申请的其他实施方式中，第一类标识100还可以采用静音的方式实现，也就是在相邻的短音频文件之间设置一定时长的静音，亦可以标记不同音频文件的位置，并且便于一次性录制在长音频中，为准确切割提供条件。此外，还可以采取其他方式实现第一类标识100，例如纯音与静音混用等，只要能够起到标记音频文件的位置的作用即可。

除此之外，为提高对语音文件的处理精度，降低处理过程中的误差，本申请实施例还可在拼接处理时为语音文件增加第二类标识。

具体地，在拼接处理的多个语音文件的累计时长达到预设时长时，添加至少一个第二类标识，并继续进行拼接处理，在拼接处理的多个语音文件的累计时长再次达到预设时长时，再次添加至少一个第二类标识，并继续进行拼接处理，如此直至拼接完成；其中，所述第二类标识用于对前一个语音文件的结束位置进行标记，所述第二类标识还用于对后一个语音文件的开始位置进行标记。

进一步地，对录制的语音文件进行切割处理可以包括：在对所述录制的语音文件进行切割处理的过程中，基于各个第二类标识对切割的位置进行校准，以使切割的位置与所述拼接的语音文件中多个第二类标识的位置之间的偏移量小于预定阈值。

将本实施例的第二类标识与前述的第一类标识相比，可以发现：

·第二类标识与第一类标识的相同之处在于：两者可采用相同或相似的方式实现，例如都采用纯音(或静音)，或者，第一类标识为纯音，第二类标识为静音，等等；

·第二类标识与第一类标识的不同之处在于：

i.第一类标识设置在每两个相邻的短音频之间，而第二类标识为设置在相同的时间段之间，也就是每经过一个预设的时间间隔(例如1小时)添加一个第二类标识，在拼接完成的长音频中，各个第二类标识周期性地分布。

ii.第一类标识的作用是标记各个短音频的起始位置和结束位置，为切割步骤提供基础，而第二类标识的作用是进一步在切割的过程中对时间进行同步和校准。

其中，对于第ii个不同之处，第二类标识对切割处理的校准方式为：切割过程中每当第二类标识(例如为特定频率的纯音)出现时，将当前长音频的位置(例如当前出现的第6个特定频率的纯音)与拼接形成的、未经录制的长音频中的第6个特定频率的纯音进行比较，确定在两个音频文件中的第6个特定频率的纯音分别对应的时刻是否一致，如果不一致，说明在对拼接长音频进行播放、录制过程中，可能由于硬件设备等原因导致了时间的偏移。

为补偿这种偏移，可调整当前长音频的位置，如果当前第6个特定频率的纯音超前了，则应将整个长音频后移，反之如果当前第6个特定频率的纯音落后了，则应将整个长音频前移，将时间偏移量控制在可接受的范围内，实现音频时间的同步，实现切割过程中的时间校准。

采用本申请实施例的语音数据处理方法，能够得到对原始音频播放再录制之后的多个音频文件，处理过程容易实现，需要的硬件设备容易获得，切割后的音频不需要再次人工标注，与原始标注数据可形成训练数据对，实现以较低的投入获得高质量的训练数据。

另一方面，利用本申请上述的至少一个实施例获得大量高质量的、适用于深度学习的训练数据，可用于对例如卷积神经网络、循环神经网络或其他类型神经网络进行训练，生成语音识别模型。

这里，由于本申请实施例的训练数据中携带有音频在硬件播放、硬件录制过程中引入的失真，因而训练生成的语音识别模型可对类似的多种场景下的语音数据进行高质量识别，语音识别模型的鲁棒性得到提升。

示例性介质

在介绍了本申请示例性实施方式的方法之后，接下来，参考图4对本申请示例性实施方式的介质进行说明。

在一些可能的实施方式中，本申请的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的语音数据处理方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：

获取多个待处理的语音文件；

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图4所示，描述了根据本申请的实施方式的介质60，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本申请不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本申请示例性实施方式的存储介质之后，接下来，参考图5对本申请示例性实施方式的装置进行说明。

如图5所示，本申请实施例的语音数据处理装置包括：

语音文件获取模块12，用于获取多个待处理的语音文件，

拼接处理模块14，用于对所述多个待处理的语音文件进行拼接处理，得到拼接的语音文件，以使用播放设备播放所述拼接的语音文件；

录制模块16，用于对播放设备播放的所述拼接的语音文件进行录制，得到录制的语音文件；

切割处理模块18，用于对所述录制的语音文件进行切割处理，得到多个目标语音文件；

添加处理模块20，用于将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。

根据本申请实施例的语音数据处理方法装置，所述装置还包括：

训练数据处理模块22，用于基于所述多个待处理的语音文件对应的标注数据以及所述多个目标语音文件，形成语音识别模型的训练数据。

根据本申请实施例的语音数据处理方法装置，所述拼接处理模块包括：第一标识处理子模块，用于在相邻的两个语音文件之间添加至少一个第一类标识，以使拼接的语音文件包括多个第一类标识；

其中，所述第一类标识用于对前一个语音文件的结束位置进行标记，所述第一类标识还用于对后一个语音文件的开始位置进行标记。

根据本申请实施例的语音数据处理方法装置，所述录制的语音文件中包括多个所述第一类标识；

所述切割处理模块基于所述录制的语音文件中的各个第一类标识，对所述录制的语音文件进行切割处理，以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值，并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。

根据本申请实施例的语音数据处理方法装置，所述拼接处理模块包括：

第二标识处理子模块，用于在拼接处理的多个语音文件的累计时长达到预设时长时，添加至少一个第二类标识，并继续进行拼接处理，在拼接处理的多个语音文件的累计时长再次达到预设时长时，再次添加至少一个第二类标识，并继续进行拼接处理，如此直至拼接完成；

其中，所述第二类标识用于对前一个语音文件的结束位置进行标记，所述第二类标识还用于对后一个语音文件的开始位置进行标记。

根据本申请实施例的语音数据处理方法装置，所述录制的语音文件中包括多个所述第二类标识；

所述切割处理模块在对所述录制的语音文件进行切割处理的过程中，基于各个第二类标识对切割的位置进行校准，以使切割的位置与所述拼接的语音文件中多个第二类标识的位置之间的偏移量小于预定阈值。

采用本申请实施例的语音数据处理装置，能够得到对原始音频播放再录制之后的多个音频文件，整个处理过程容易实现，需要的硬件设备容易获得，切割后的音频不需要再次人工标注，与原始标注数据可形成训练数据对，实现以较低的投入获得高质量的训练数据。

示例性计算设备

在介绍了本申请示例性实施方式的方法、存储介质和装置之后，接下来，参考图6对本申请示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本申请的各种示例性实施方式的语音数据处理方法中的步骤。

下面参照图6来描述根据本申请的这种实施方式的计算设备80。图6显示的计算设备80仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算设备80以通用计算设备的形式表现。计算设备80的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802，连接不同系统组件(包括处理单元801和存储单元802)的总线803。

总线803包括数据总线、控制总线和地址总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备80也可以与一个或多个外部设备804(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且，计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器806通过总线803与计算设备80的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备80使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了语音数据处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

获取多个待处理的语音文件；

2.根据权利要求1所述的方法，其特征在于，所述多个待处理的语音文件均具有对应的标注数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述多个语音文件进行拼接处理，包括：

在相邻的两个语音文件之间添加至少一个第一类标识，以使拼接的语音文件包括多个第一类标识，所述第一类标识用于对前一个语音文件的结束位置进行标记，所述第一类标识还用于对后一个语音文件的开始位置进行标记。

4.根据权利要求3所述的方法，其特征在于，所述录制的语音文件中包括多个所述第一类标识；

所述对所述录制的语音文件进行切割处理，包括：

基于所述录制的语音文件中的各个第一类标识，对所述录制的语音文件进行切割处理，以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值，并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述对所述多个语音文件进行拼接处理，包括：

在拼接处理的多个语音文件的累计时长达到预设时长时，添加至少一个第二类标识，并继续进行拼接处理，在拼接处理的多个语音文件的累计时长再次达到预设时长时，再次添加至少一个第二类标识，并继续进行拼接处理，如此直至拼接完成；

6.根据权利要求5所述的方法，其特征在于，所述录制的语音文件中包括多个所述第二类标识；

所述对所述录制的语音文件进行切割处理，包括：

在对所述录制的语音文件进行切割处理的过程中，基于各个第二类标识对切割的位置进行校准，以使切割的位置与所述拼接的语音文件中多个第二类标识的位置之间的偏移量小于预定阈值。

7.一种语音识别模型，其特征在于，所述语音识别模型是基于训练数据训练生成的，其中，所述训练数据包括基于权利要求1-9中任一项所述的语音数据处理方法获得的训练数据。

8.一种语音数据处理装置，其特征在于，所述装置包括：

语音文件获取模块，用于获取多个待处理的语音文件，

9.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的语音数据处理方法的步骤。

10.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的语音数据处理方法的步骤。