CN105847857A

CN105847857A - 倍速播放视频时处理音频的方法及装置

Info

Publication number: CN105847857A
Application number: CN201610126874.0A
Authority: CN
Inventors: 蔡炜
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2016-08-10

Abstract

本发明公开一种倍速播放视频时处理音频的方法，包括以下步骤：设定步骤，设定静音抑制处理的抑制阈值；识别步骤，根据所设定的抑制阈值，对声音信号流进行识别，以区分确定语音数据包和背景噪声数据包，所述语音数据包包括对白数据帧和背景音乐数据帧，而所述背景噪声数据包包括静音数据帧和环境声音数据帧；消除步骤，将背景噪声数据包丢弃，保留语音数据包以供播放。本发明还提供一种倍速播放视频时处理音频的装置本发明通过在倍速播放时采用静音抑制方法使得音频在倍速播放时也能达到非常好的效果，解决了倍速播放时播放音频的问题；而且，还可进一步通过设置动态的抑制阈值保证音频播放能够平滑的按照指定倍数播放。

Description

倍速播放视频时处理音频的方法及装置

技术领域

本发明涉及视频播放技术领域，尤其是指倍速播放视频时处理音频的方法及装置。

背景技术

在视频播放时，时常会涉及到进行倍速播放，在倍速播放过程中，视频帧播放会按照固定的帧间间隔选择一帧视频帧，该帧间间隔的其它视频帧将会丢弃，选择的视频帧会按照原来的帧率进行播放从而达到视频倍速播放的效果。然而，音频却无法按照这种方式处理，如果不做分析地按照固定帧间间隔选择一帧音频帧并丢弃该帧间间隔的其余帧，则会造成吐字不清楚，甚至噪音的效果，这主要原因是影片、视频播放时的声音可以分为静音、背景音乐和对白三部分，其中大部分是静音和背景音乐。在倍速播放过程中，用户主要关心的是对白，其次是背景音乐。然而，采用以上按照固定帧间间距选择音频帧的方式处理时，正常的对白音频往往会被丢弃了，而背景噪声音频却可能又保留下来，由此使得播放出来的音频杂乱无章，用户体验很差。也正因此，目前，在倍速播放时，通常的处理方式是静音，即不播放音频，这种做法的后果是在倍速播放过程中无法听见声音，给用户的观看体验自然会大打折扣。

发明内容

本发明所要解决的技术问题在于，提供一种倍速播放视频时处理音频的方法，以提高倍速播放时声音播放的质量。

本发明另一个所要解决的技术问题在于，提供一种倍速播放视频时处理音频的装置，其能有效提高倍速播放时声音播放的质量。

为解决上述技术问题，本发明提供如下技术方案：一种倍速播放视频时处理音频的方法，包括以下步骤：

设定步骤，设定静音抑制处理的抑制阈值；

识别步骤，根据所设定的抑制阈值，对声音信号流进行识别，以区分确定语音数据包和背景噪声数据包，所述语音数据包包括对白数据帧和背景音乐数据帧，而所述背景噪声数据包包括静音数据帧和环境声音数据帧；

消除步骤，将背景噪声数据包丢弃，保留语音数据包以供播放。

进一步地，所述抑制阈值根据过往的一段时间内PCM编码的平均值以及如下公式计算获得：

其中，N代表过往时间段的大小；x代表噪声系数。

进一步地，识别步骤中，读取声音信号流，并按照预定数据大小形成缓冲数据包依序存入缓冲器，根据抑制阈值判断当前的缓冲数据包是语音数据包还是背景噪声数据包，如果一个缓冲数据包中的所有音频帧的PCM编码值都小于抑制阈值，则判定为背景噪声数据包，否则判定为语音数据包。

进一步地，设定步骤中，还设定静音长度值，相应地，在识别步骤中，当连续出现的PCM值小于抑制阈值的缓冲数据包的数量超过静音长度值时，才将这些连续出现的PCM值小于抑制阈值的缓冲数据包判定为背景噪音数据包进行丢弃。

进一步地，所述方法还包括调整步骤：定期对比丢弃数据包的速度和倍速播放的速度并根据对比结果动态调整噪音系数χ，如果当前丢音频数据包速度小于倍速播放的速度时，则自动增大χ的值；而当丢音频数据包的速度大于倍数播放的速度时，则会自动减少χ的值。

进一步地，所述噪声系数χ的初始值为0.75。

进一步地，调整步骤中，当在一段预定时长的时间内丢包速度与倍速播放速度的差距大于10%，则按照每次10%的比例调整χ，噪音系数χ调整的计算公式如下：

丢包速度< 播放速度时，χ_新 = χ_旧 * ( 1 + 10% )；

丢包速度 >播放速度时，χ_新 = χ_旧 * ( 1 - 10% )；

其中，χ_新为调整后的噪音系数，χ_前为调整前的噪音系数。

另一方面，本发明还提供一种倍速播放视频时处理音频的装置，其包括：

数据处理模块，用于计算和设定抑制阈值、调整噪音系数、进行数据对比分析判断缓冲数据包是语音数据包还是背景噪音数据包以及确定丢弃背景噪音数据数据包；

数据存储模块，可用于存储系统参数；

数据缓冲器，是用于缓冲存储音频数据包；

读取模块，用于读取音频数据并存入数据缓冲器，同时还获取缓冲数据包的各音频帧的PCM编码值提供给数据处理模块进行数据对比分析判断。

进一步地，所述装置还包括：输入模块，用于进行参数的初始化设定。

采用上述技术方案后，本发明至少具有如下有益效果：本发明通过在倍速播放时采用静音抑制方法使得音频在倍速播放时也能达到非常好的效果，解决了倍速播放时播放音频的问题；而且，还可进一步通过设置动态的抑制阈值保证音频播放能够平滑的按照指定倍数播放。

附图说明

图1是本发明倍速播放视频时处理音频的方法的流程框图。

图2是本发明倍速播放视频时处理音频的方法的处理流程示意图。

图3是音频数据中语音、静音的分布示意图。

图4是本发明倍速播放视频时处理音频的装置的模块结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

如图1及图2所示，本发明提供一种倍速播放视频时处理音频的方法，其包括以下步骤：

设定步骤，设定静音抑制处理的抑制阈值；

本发明倍速播放视频时处理音频的方法能在倍速播放过程中通过静音抑制方法有效去掉静音和环境声音，并保留对白和背景音乐，从而可以在倍速播放过程中仍能播放出高质量的语音。

所述静音抑制，又称语音活动侦测，其目的是从声音信号流里识别和消除长时间的静音期和环境噪音。

本发明倍速播放视频时处理音频的方法的基本原理是：当用户选择倍速播放视频时，以两倍速为例进行说明，为实现倍速效果，视频播放系统需要丢弃一半的音频帧。通过分析可以发现，在影片或视频中除了人物对白、背景音乐之外还存在着大量的静音和一些无关紧要的背景噪音，如图3所示，在对白（语音数据）的前后都有大量的静音时间，因此，如果在倍速播放时，能准确地丢弃掉音频中的静音和背景噪声，而保留对白和背景音乐，将不会影响到音频播放的效果。

本发明倍速播放视频时处理音频的方法的关键点即在于如何确定对应的音频帧是否为静音状态或者背景噪声。在对音频数据进行脉冲编码调制（Pulse CodeModulation，缩写为PCM）时，主要包括抽样、量化和编码三个环节。其中，抽样是把连续时间模拟信号转换成离散时间连续幅度的抽样信号；量化是把离散时间连续幅度的抽样信号转换成离散时间离散幅度的数字信号；编码是将量化后的信号编码形成一个二进制码组输出。在这种编码方式下，当语音音量越大时，抽样获取的电平就越高，量化编码的PCM无符号整数也就越大。本发明即利用了语音音量大小与PCM编码值成正比的关系来判断音频帧数据是语音（包括对白和背景音乐）还是背景噪声（包括静音和环境声音）。

为准确地对音频帧数据进行上述判断，本发明方法首先需确定一个抑制阈值（Threshold），从而能够根据抑制阈值判断当前的缓冲数据包（Buffer）是语音数据包还是背景噪声数据包，如果该Buffer中的所有音频帧的PCM编码值都小于阈值，则被认为是背景噪声数据包，否则为语音数据包。

为获得更为优化的处理效果，在具体实施时，所述抑制阈值并未被预先设定成一个固定的值，而是根据当前的噪声环境动态的变化及倍速播放速度决定，抑制阈值根据过往的一段时间内PCM编码的平均值确定。从而，很好地体现了本发明倍速播放视频时处理音频的方法的自适应性。

具体地，抑制阈值（Threshold）可以根据如下公式计算获得：

其中，N代表过往时间段的大小；x代表噪声系数。

经实验表明，当N=80000（10秒内数据），采用率为8K。

噪声系数χ的初始值可设定为0.75，而且，为提升处理的准确度，本发明还可包括一调整步骤：定期对比丢弃数据包的速度和倍速播放的速度并根据对比结果动态调整噪音系数χ从而最终调整抑制阀值。调整的基本原则是：在当前丢音频数据包速度小于倍速播放的速度时，会自动增大χ的值；而当丢音频数据包的速度大于倍数播放速度时，则会自动减少χ的值。具体地，如果在一段时间（通常以10秒为基准时长，当然，根据实际情况，也可以设定为其他的更短或更长的时长，例如：5秒、20秒等）内丢包速度与倍速播放速度的差距大于10%，则按照每次10%的比例调整χ，噪音系数χ调整的计算公式如下：

丢包速度< 播放速度时，χ_新 = χ_旧 * ( 1 + 10% )；

丢包速度 > 播放速度时，χ_新 = χ_旧 * ( 1 - 10% )；

由于人在说话过程中，还会带有一些非关键词汇，如助词、副词、语气词等通常会被一带而过，并且通常这些词汇的前后都是音量较高的关键词。为了避免这些非关键词汇被当作静音，在设定步骤中，还有必要设定一个静音长度silence Length，当缓冲数据包的PCM值小于抑制阈值时，可先暂时确定为静音缓冲数据包，只有当连续出现的静音缓冲数据包的数量超过这个数值时，才会将这些连续出现的静音缓冲数据包判定为需要丢弃的背景噪音数据包进行丢弃。这样，即可实现非关键词汇和静音的区别，避免丢弃非关键词汇，影响语音播放质量。

为实现上述倍速播放视频时处理音频的方法，本发明还提供了一种倍速播放视频时处理音频的装置，如图4所示，其包括数据处理模块1、数据存储模块2、数据缓冲器3、读取模块4以及输入模块5。

所述数据处理模块1用于数据处理，包括：动态计算抑制阈值、调整噪音系数、进行数据对比分析判断缓冲数据包是语音数据包还是背景噪音数据包以及确定丢弃背景噪音数据数据包等。

所述数据存储模块2可用于存储抑制阈值、静音长度值等必要的参数。

所述数据缓冲器3是用于缓冲存储音频数据，并以缓冲数据包形式统一进行处理。

所述读取模块4用于读取音频数据并存入数据缓冲器3，同时还获取缓冲数据包的各音频帧的PCM编码值提供给数据处理模块1进行数据对比分析判断。

所述输入模块5用于进行初始化设定，例如：设定静音长度值，噪音系数的初始值等。

在具体工作时，根据噪音系数值等参数预先计算所得并设定抑制阈值，然后再根据所述抑制阈值和静音长度值等必要参数，所述数据处理模块1对缓冲数据包中的声音信号流进行识别判断，以判断确定该缓冲数据包是语音数据包还是背景噪声数据包，并根据判断结果，将背景噪声数据包丢弃。

同时，数据处理模块1还定期对比丢弃数据包的速度和倍速播放的速度，以根据对比结果对抵制阀值进行实时调整。

如果当前丢音频数据包速度小于倍速播放的速度时，则自动增大χ的值；而当丢音频数据包的速度大于倍数播放的速度时，则会自动减少χ的值。

本发明通过在倍速播放时采用静音抑制方法使得音频在倍速播放时也能达到非常好的效果，解决了倍速播放时播放音频的问题；而且，还可进一步通过设置动态的抑制阈值保证音频播放能够平滑的按照指定倍数播放。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种倍速播放视频时处理音频的方法，其特征在于，包括以下步骤：

设定步骤，设定静音抑制处理的抑制阈值；

2.如权利要求1所述的倍速播放视频时处理音频的方法，其特征在于，所述抑制阈值根据过往的一段时间内PCM编码的平均值以及如下公式计算获得：

其中，N代表过往时间段的大小；x代表噪声系数。

3.如权利要求1所述的倍速播放视频时处理音频的方法，其特征在于，识别步骤中，读取声音信号流，并按照预定数据大小形成缓冲数据包依序存入缓冲器，根据抑制阈值判断当前的缓冲数据包是语音数据包还是背景噪声数据包，如果一个缓冲数据包中的所有音频帧的PCM编码值都小于抑制阈值，则判定为背景噪声数据包，否则判定为语音数据包。

4.如权利要求1或3所述的倍速播放视频时处理音频的方法，其特征在于，设定步骤中，还设定静音长度值，相应地，在识别步骤中，当连续出现的PCM值小于抑制阈值的缓冲数据包的数量超过静音长度值时，才将这些连续出现的PCM值小于抑制阈值的缓冲数据包判定为背景噪音数据包进行丢弃。

5.如权利要求2所述的倍速播放视频时处理音频的方法，其特征在于，所述方法还包括调整步骤：定期对比丢弃数据包的速度和倍速播放的速度并根据对比结果动态调整噪音系数，如果当前丢音频数据包速度小于倍速播放的速度时，则自动增大χ的值；而当丢音频数据包的速度大于倍数播放的速度时，则会自动减少χ的值。

6.如权利要求2所述的倍速播放视频时处理音频的方法，其特征在于，所述噪声系数χ的初始值为0.75。

7.如权利要求5或6所述的倍速播放视频时处理音频的方法，其特征在于，调整步骤中，当在一段预定时长的时间内丢包速度与倍速播放速度的差距大于10%，则按照每次10%的比例调整χ，噪音系数χ调整的计算公式如下：

丢包速度< 播放速度时，χ_新 = χ_旧 * ( 1 + 10% )；

丢包速度 >播放速度时，χ_新 = χ_旧 * ( 1 - 10% )；

8.一种倍速播放视频时处理音频的装置，其特征在于，包括：

数据存储模块，可用于存储系统参数；

数据缓冲器，是用于缓冲存储音频数据包；

9.如权利要求8所述的倍速播放视频时处理音频的装置，其特征在于，所述装置还包括：

输入模块，用于进行参数的初始化设定。