CN107863112A

CN107863112A - 一种音频获取方法及装置

Info

Publication number: CN107863112A
Application number: CN201711093678.9A
Authority: CN
Inventors: 郭建辉
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-30

Abstract

本发明公开了一种音频获取方法及装置。所述方法包括：获取录制的TS碎片视频；从所述TS碎片视频中提取音频数据；根据所述音频数据的静音长度确定语句结束位置；根据所述语句结束位置，获取目标音频数据。通过本发明的技术方案，可确保从碎片视频中获得的目标音频数据为完整的音频语句或者音频段落，以有利于后期进行音频识别。

Description

一种音频获取方法及装置

技术领域

本发明涉及音频技术领域，特别涉及一种音频获取方法及装置。

背景技术

目前，在很多场景下都会使用到音频识别技术，而相关技术中在从视频中获取音频时，无法确保每次获取的音频都是完整的音频语句或音频段落，这不利于后期进行音频识别。

发明内容

本发明提供一种音频获取方法及装置，用以在从TS(Transport Stream，是日本高清摄像机拍摄下进行的封装格式，全称为MPEG2-TS)碎片视频中提取音频数据时，可根据音频数据的静音长度确定该音频数据中的语句结束位置，进而根据所述语句结束位置，获取目标音频数据，从而确保从碎片视频中获得的目标音频数据为完整的音频语句或者音频段落，以有利于后期进行音频识别。

本发明提供一种音频获取方法，包括：

获取录制的TS碎片视频；

从所述TS碎片视频中提取音频数据；

根据所述音频数据的静音长度确定语句结束位置；

根据所述语句结束位置，获取目标音频数据。

在一个实施例中，在从所述TS碎片视频中提取音频数据之前，所述方法还包括：

将预设数目个TS碎片视频进行合并。

在一个实施例中，所述方法还包括：

将所述语句结束位置之后的剩余语音与下一相邻预设数目个TS碎片视频的音频数据进行合并。

在一个实施例中，所述根据所述音频数据的静音长度确定语句结束位置，包括：

当所述音频数据的静音长度达到预设静音时长时，将不超过预设音频时长所述音频数据的静音开始位置确定为所述语句结束位置。

本发明还提供一种音频获取装置，包括：

第一获取模块，用于获取录制的TS碎片视频；

提取模块，用于从所述TS碎片视频中提取音频数据；

确定模块，用于根据所述音频数据的静音长度确定语句结束位置；

第二获取模块，用于根据所述语句结束位置，获取目标音频数据。

在一个实施例中，所述位置还包括：

第一合并模块，用于在从所述TS碎片视频中提取音频数据之前，将预设数目个TS碎片视频进行合并。

在一个实施例中，所述位置还包括：

第二合并模块，用于将所述语句结束位置之后的剩余语音与下一相邻预设数目个TS碎片视频的音频数据进行合并。

在一个实施例中，所述确定模块包括：

确定子模块，用于当所述音频数据的静音长度达到预设静音时长时，将不超过预设音频时长所述音频数据的静音开始位置确定为所述语句结束位置。

本公开的实施例提供的技术方案可以包括以下有益效果：

在从TS碎片视频中提取音频数据时，可根据音频数据的静音长度确定该音频数据中的语句结束位置，进而根据语句结束位置，获取目标音频数据，而静音长度可指示某段或者某句音频结束了，因而，可确保从碎片视频中获得的目标音频数据为完整的音频语句或者音频段落，以有利于后期进行音频识别。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据一示例性实施例示出的一种音频获取方法的流程图。

图2是根据一示例性实施例示出的另一种音频获取方法的流程图。

图3是根据一示例性实施例示出的一种音频获取装置的框图。

图4是根据一示例性实施例示出的另一种音频获取装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

相关技术中，在很多场景下都会使用到音频识别技术，而相关技术中在从视频中获取音频时，无法确保每次获取的音频都是完整的音频语句或音频段落，这不利于后期进行音频识别。

为了解决上述技术问题，本公开实施例提供了一种音频获取方法，该方法适用于音频获取程序、系统或装置中，其执行主体可以是手机、计算机等终端，如图1所示，步骤S101至步骤S104，

在步骤S101中，获取录制的TS碎片视频；

在步骤S102中，从TS碎片视频中提取音频数据；

在步骤S103中，根据音频数据的静音长度确定语句结束位置；

在步骤S104中，根据语句结束位置，获取目标音频数据。

静音长度指的是静音时长，而静音长度可个性化设定，如可以是10秒、5秒等。

在一个实施例中，在从TS碎片视频中提取音频数据之前，方法还包括：

将预设数目个TS碎片视频进行合并。

在从TS碎片视频中提取音频数据之前，可将预设数目个TS碎片视频进行合并，然后从合并后的TS碎片视频中提取音频数据，这相比于从各个TS碎片视频中分别提取出音频数据后再将各段音频数据进行合并而言，可避免由于各段音频数据太短而使得获得的音频数据不太完整。

一个TS碎片视频的时长可以为10秒，而预设数目可以自由设定，如可以是6个。

在一个实施例中，方法还包括：

将语句结束位置之后的剩余语音与下一相邻预设数目个TS碎片视频的音频数据进行合并。

由于预设数目个TS碎片视频的预设数目段音频数据的语句结束位置之前数据为完整的语句或者段落，因而，通过将提取出的预设数目个TS碎片视频的预设数目段音频数据中的语句结束位置之后的剩余语音与下一相邻预设数目个TS碎片视频的音频数据进行合并，可确保每次获得的目标音频数据都是一个完整的语句或者段落，当然，该过程会一直循环，即：如果该剩余语音与下一相邻预设数目个TS碎片视频的音频数据的语句结束位置之后仍有剩余语音，则该剩余语音再和之后的下一相邻预设数目个TS碎片视频的音频数据进行合并，并重复该过程。

如图2所示，在一个实施例中，上述图1所示的步骤S103，即根据音频数据的静音长度确定语句结束位置，可以包括：

在步骤A1中，当音频数据的静音长度达到预设静音时长时，将不超过预设音频时长音频数据的静音开始位置确定为语句结束位置。

由于音频数据的静音长度达到预设静音时长时，说明用户停顿的时间过长，通常表示语句结束，因而，在确定语句结束位置时，可根据音频数据的静音长度，将不超过预设时长音频数据的静音开始位置确定为语句结束位置，这样既可使得每次获得的目标音频数据是完整的语句或段落，又使得目标音频数据的时长不超过预设时长。

例如：假定预设音频时长为60秒，且预设静音时长为5秒(即达到5秒即代表静音时间过长)，则如果该音频数据中出现超过6秒的静音，则将不超过60秒的该音频数据中该6秒静音的开始位置确定为语句结束位置。

如图3所示，本发明还提供一种音频获取装置，包括：

第一获取模块301，被配置为获取录制的TS碎片视频；

提取模块302，被配置为从TS碎片视频中提取音频数据；

确定模块303，被配置为根据音频数据的静音长度确定语句结束位置；

第二获取模块304，被配置为根据语句结束位置，获取目标音频数据。

在一个实施例中，位置还包括：

第一合并模块，被配置为在从TS碎片视频中提取音频数据之前，将预设数目个TS碎片视频进行合并。

在一个实施例中，位置还包括：

第二合并模块，被配置为将语句结束位置之后的剩余语音与下一相邻预设数目个TS碎片视频的音频数据进行合并。

如图4所示，在一个实施例中，确定模块303可以包括：

确定子模块3031，被配置为当音频数据的静音长度达到预设静音时长时，将不超过预设音频时长音频数据的静音开始位置确定为语句结束位置。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

最后，本发明中的音频获取装置适用于终端设备。例如，可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频获取方法，其特征在于，包括：

获取录制的TS碎片视频；

从所述TS碎片视频中提取音频数据；

根据所述音频数据的静音长度确定语句结束位置；

根据所述语句结束位置，获取目标音频数据。

2.根据权利要求1所述的方法，其特征在于，在从所述TS碎片视频中提取音频数据之前，所述方法还包括：

将预设数目个TS碎片视频进行合并。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，

所述根据所述音频数据的静音长度确定语句结束位置，包括：

5.一种音频获取位置，其特征在于，包括：

第一获取模块，用于获取录制的TS碎片视频；

提取模块，用于从所述TS碎片视频中提取音频数据；

6.根据权利要求5所述的位置，其特征在于，所述位置还包括：

7.根据权利要求6所述的位置，其特征在于，所述位置还包括：

8.根据权利要求5至7中任一项所述的位置，其特征在于，

所述确定模块包括：