CN111091811A

CN111091811A - 语音训练数据的处理方法、装置及存储介质

Info

Publication number: CN111091811A
Application number: CN201911157728.4A
Authority: CN
Inventors: 李泽堃
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-05-01
Anticipated expiration: 2039-11-22
Also published as: CN111091811B

Abstract

本公开涉及数据处理技术领域，具体涉及一种语音训练数据的处理方法、装置及存储介质，用于解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。所述语音训练数据的处理方法包括：获取视频文件；从所述视频文件中提取出与所述视频文件同步的音频文件；识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

Description

语音训练数据的处理方法、装置及存储介质

技术领域

本公开涉及数据处理技术领域，特别地涉及一种语音训练数据的处理方法、装置及存储介质。

背景技术

目前，人工智能正如火如荼的发展着，其中语音识别方面的应用也是层出不穷。但是，在使用该技术进行语音识别前，都需要对语音识别模型进行训练，训练语音识别模型需要使用大量的语音片段。

发明内容

本公开提供一种语音训练数据的处理方法、装置及存储介质，以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。

为实现上述目的，本公开实施例的第一方面，提供一种语音训练数据的处理方法，所述方法包括：

获取视频文件；

从所述视频文件中提取出与所述视频文件同步的音频文件；

识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；

根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

可选地，识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段，包括：

按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像；

根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点，获得带有相同字幕的帧图像在所述视频文件中的时间段。

可选地，获取视频文件，包括：

获取预设视频下载网站；

根据所述预设视频下载网站中的下载地址，下载视频文件。

可选地，从所述视频文件中提取出与所述视频文件同步的音频文件之前，还包括：

确认所述视频文件具有内嵌字幕。

可选地，还包括：

利用获得的语音训练数据训练语音识别模型，以获得训练后的语音识别模型。

可选地，利用获得的语音训练数据训练语音识别模型，以获得训练后的语音识别模型，包括：

将截取后的音频文件投入到待训练语音识别模型中，以使得所述待训练语音识别模型输出识别结果；

比对所述识别结果和截取后的音频文件对应的字幕，当所述识别结果和截取后的音频文件对应的字幕不一致时，修正所述待训练语音识别模型，以获得训练后的语音识别模型。

可选地，还包括：

获取待识别语音文件；

将所述待识别语音文件投入到训练后的语音识别模型，以使得训练后的语音识别模型输出识别结果。

本公开实施例的第二方面，提供一种语音训练数据的处理装置，所述装置包括：

获取模块，被配置为获取视频文件；

提取模块，被配置为从所述视频文件中提取出与所述视频文件同步的音频文件；

识别模块，被配置为识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；

截取模块，被配置为根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。

本公开实施例的第四方面，提供一种语音训练数据的处理装置，包括：

存储器，其上存储有计算机程序；以及

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面中任一项所述方法的步骤。

采用上述技术方案，至少能够达到如下技术效果：

本公开通过获取来源丰富的视频文件，从所述视频文件中提取出与所述视频文件同步的音频文件，并通过图像识别技术获得带有相同字幕的帧图像在所述视频文件中的时间段，进而根据所述时间段截取所述音频文件以获得语音训练数据，以极低成本获取大量的语音训练素材，解决了相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一示例性实施例示出的一种语音训练数据的处理方法流程图。

图2是本公开一示例性实施例示出的视频文件识别相同字幕的示意图。

图3是本公开一示例性实施例示出的一种语音训练数据的处理装置框图。

图4是本公开一示例性实施例示出的另一种语音训练数据的处理装置框图。

具体实施方式

以下将结合附图及实施例来详细说明本公开的实施方式，借此对本公开如何应用技术手段来解决技术问题，并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本公开的保护范围之内。

本公开发明人经研究发现，相关技术中，训练语音识别模型的语音素材基本都是从专业的语音采集公司购买的。语音采集公司采集语音素材的做法大致包括以下步骤：首先，购买专业的语音采集工具；然后，寻找目标人群并商谈劳动报酬，比如18-28岁的女人，或者60-80的男人。因为年龄不同，人的音色和声音的波形是不一样的，所以如果想训练后的模型在投入使用后能全面精准的检测到所有人群的发声，前期训练时使用的语音训练素材必须覆盖各个年龄层次的人，而且对语音素材的需求量非常大，几乎是越多越好，所以这就造成了专业语音素材采集公司的工作非常繁琐，工作量非常大。因此，语音采集公司采集的语音素材价格非常昂贵。

实施例一

图1是本公开一示例性实施例示出的一种语音训练数据的处理方法流程图，以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。如图1所示，该语音训练数据的处理方法包括：

S11，获取视频文件。

S12，从所述视频文件中提取出与所述视频文件同步的音频文件。

S13，识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段。

S14，根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

在步骤S11中，所述视频文件可以从存储的视频数据库中获取，也可以是提供一个预设视频下载网站，该预设视频下载网站需要是可靠安全并是正规的网址，比如带有版权的电影视频下载网址、纪录片下载网址或者其它类型视频的下载网址。所述预设视频下载网站中可以带有不同视频文件的下载地址，根据所述预设视频下载网站中的下载地址，下载视频文件。

其中，获取的视频文件是必须是有字幕的视频，否则后续步骤中帧图像的识别是没有意义的。字幕一般分为两种：一种是直接打到视频的每一帧图像上的，叫内嵌字幕，字幕和视频内容融为一体，不分彼此，也无法区分，这也是当前视频文件的主流做法；另一种是单独的外挂字幕文件，播放时需要播放器额外加载该字幕文件，否则播放的图像上没有字幕显示。本公开需要的是具有内嵌字幕的视频文件。

需要说明的是，如果下载到第二种外挂字幕的视频文件或者不带字幕的视频文件，依然可以执行本公开后续的步骤S12，但在执行步骤S13时，由于始终识别不到带有字幕的帧图像，也就不会截取音频文件。

在获取视频文件后，执行步骤S12，从所述视频文件中提取出与所述视频文件同步的音频文件。从视频文件中提取出同步的音频文件的技术已经非常普及，因此，为了说明书的简洁，本公开不做展开说明，只举一个具体例子说明：比如，使用开源技术库ffmpeg从视频文件中提取出同步的音频文件，比如提取命令可以是这样："ffmpeg-i abc.mp4-f wav-ac 1-ar 16000output.wav”上述命令的意思是：从abc.mp4文件中提取格式为wav，音频通道为1，音频采样率为16000的声音内容到output.wav执行完成后，我们就拥有了该视频对应的完整音频内容。

在提取出与所述视频文件同步的音频文件后，执行步骤S13，识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段。利用图像识别技术对视频的每一帧进行识别，按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像；根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点，获得带有相同字幕的帧图像在所述视频文件中的时间段。接着，可以执行步骤S14，根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

举例来讲，同一个字幕出现在连续的60帧图像中，则将根据第1帧图像对应的起始时间点和第60帧图像对应的终止时间点，可以得出视频文件中出现该字幕对应的语音所在的时间片段。接下来，就可以根据起始时间点和终止时间点，截取步骤S12中提取出的同步音频文件，截取后的音频文件片段和对应的字幕就可以作为语音识别模型的语音训练数据。本公开提取出来的音频文件片段的时间颗粒可以精确到毫秒级别，因为视频一般是每秒30帧，本公开是每一帧去识别的，所以可以精确到1/30秒。

可选地，利用获得的语音训练数据训练语音识别模型，以获得训练后的语音识别模型。利用获得的语音训练数据训练语音识别模型，可以包括如下步骤：将截取后的音频文件投入到待训练语音识别模型中，以使得所述待训练语音识别模型输出识别结果；比对所述识别结果和截取后的音频文件对应的字幕，当所述识别结果和截取后的音频文件对应的字幕不一致时，修正所述待训练语音识别模型，以获得训练后的语音识别模型。

在获得训练后的语音识别模型，就可以对待识别语音文件进行识别，通过将所述待识别语音文件投入到训练后的语音识别模型，以使得训练后的语音识别模型输出识别结果。

值得说明的是，对于图1所示的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本公开所必须的。

实施例二

图2是本公开一示例性实施例示出的视频文件识别相同字幕的示意图。为了解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题，以图2为例，对本公开语音训练数据的处理方法进行说明：

首先，输入一个视频文件；然后，剥离出此视频文件对应的整个音频文件作为备用，由于从视频文件中提取同步音频的技术是公知技术，在本实施例中不再展开细讲；接着，再利用图像识别技术对视频文件的每一帧进行识别，如图2所示，识别出“祝你生日快乐”这样的字样，记此时第一次识别出带有“祝你生日快乐”的频帧为A，帧A对应的时间点记为T1；然后，继续往视频文件的后续帧进行识别，直到图像识别为别的字样信息时，将前一帧记为B(当前帧已经不是“祝你生日快乐”，必须倒退一帧)，帧B对应的时间点记为T2，那么，从此视频文件对应的音频文件中的T1处开始，提取出时长为T2-T1的音频片段，这个片段对应的就是“祝你生日快乐”的音频内容，这样一个语音素材就提取出来了。如此循环下去，可以将整个视频文件中所有人说过的话都提取出来，这样提取的音频片段就可以作为语音训练的基本素材。

实施例三

图3是本公开一示例性实施例示出的一种语音训练数据的处理装置，以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。如图3所示，该语音训练数据的处理装置300包括：

获取模块310，被配置为获取视频文件；

提取模块320，被配置为从所述视频文件中提取出与所述视频文件同步的音频文件；

识别模块330，被配置为识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；

截取模块340，被配置为根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

本公开还提供了语音训练数据的处理装置的另一种优选的实施例，在本实施例中，语音训练数据的处理装置包括：处理器，其中，所述处理器用于执行存储在存储器中的以下程序模块：获取模块，被配置为获取视频文件；提取模块，被配置为从所述视频文件中提取出与所述视频文件同步的音频文件；识别模块，被配置为识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段；截取模块，被配置为根据所述时间段截取所述音频文件以获得语音训练数据，所述语音训练数据包括截取后的音频文件和对应的字幕。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例四

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项可选实施例所述的方法步骤。

其中，在所述处理器上运行的计算机程序被执行时所实现的方法可参照本公开语音训练数据的处理方法的具体实施例，此处不再赘述。

所述处理器可以是一种集成电路芯片，具有信息处理能力。所述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。

实施例五

本公开还提供一种语音训练数据的处理装置，包括：

存储器，其上存储有计算机程序；以及

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一项可选实施例所述的方法步骤。

图4是根据一示例性实施例示出的一种语音训练数据的处理装置400的框图。如图4所示，该装置400可以包括：处理器401，存储器402，多媒体组件403，输入/输出(I/O)接口404，以及通信组件405。

其中，处理器401用于控制该装置400的整体操作，以完成上述的语音训练数据的处理方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该装置400的操作，这些数据例如可以包括用于在该装置400上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该装置400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件405可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，装置400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音训练数据的处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器402，上述程序指令可由装置400的处理器401执行以完成上述的语音训练数据的处理方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音训练数据的处理方法，其特征在于，所述方法包括：

获取视频文件；

从所述视频文件中提取出与所述视频文件同步的音频文件；

2.根据权利要求1所述的方法，其特征在于，识别所述视频文件中带有字幕的帧图像，以获得带有相同字幕的帧图像在所述视频文件中的时间段，包括：

3.根据权利要求1所述的方法，其特征在于，获取视频文件，包括：

获取预设视频下载网站；

根据所述预设视频下载网站中的下载地址，下载视频文件。

4.根据权利要求1所述的方法，其特征在于，从所述视频文件中提取出与所述视频文件同步的音频文件之前，还包括：

确认所述视频文件具有内嵌字幕。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，利用获得的语音训练数据训练语音识别模型，以获得训练后的语音识别模型，包括：

7.根据权利要求5所述的方法，其特征在于，还包括：

获取待识别语音文件；

8.一种语音训练数据的处理装置，其特征在于，所述装置包括：

获取模块，被配置为获取视频文件；

9.一种语音训练数据的处理装置，其特征在于，包括：

存储器，其上存储有计算机程序；以及

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。