CN106231357B

CN106231357B - 一种电视广播媒体音视频数据碎片时间的预测方法

Info

Publication number: CN106231357B
Application number: CN201610790641.0A
Authority: CN
Inventors: 张伟方
Original assignee: Zhejiang Huazhi Number Poly Polytron Technologies Inc
Current assignee: Zhejiang Huazhi Number Poly Polytron Technologies Inc
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-05-10
Anticipated expiration: 2036-08-31
Also published as: CN106231357A

Abstract

本发明提供了一种电视广播媒体音视频数据碎片时间的预测方法，包括构建音视频组、建立数据头信息、使用神经网络识别空闲片段以及将数据头信息放入原始音视频数据文件的起始位置等步骤。本方法利用训练好的神经网络算法根据音视频片段的特征信息识别出是否为空闲片段，并将空闲片段的序号写入数据头信息中，空闲片段的集合即为该音视频数据中的碎片时间，实现了碎片时间的识别和预测，具有预测准确和速度快的优点。

Description

一种电视广播媒体音视频数据碎片时间的预测方法

技术领域

本发明涉及一种电视广播媒体音视频数据碎片时间的预测方法，属于多媒体处理领域。

背景技术

在电视广播媒体的数据处理过程中，为尽可能地提高音视频数据文件的压缩比、方便音视频文件的传输、合理地分配带宽，理想情况下应当对音视频文件中的碎片时间进行标记和预测。音视频碎片是指画面为纯色且声音为低于30分贝的底噪的片段。

现有技术中没有提供一种方法能够对音视频中的碎片时间进行预测。

发明内容

为对音视频数据中的碎片时间进行预测，本发明提出了一种电视广播媒体音视频数据碎片时间的预测方法。

本发明技术方案如下：

一种电视广播媒体音视频数据碎片时间的预测方法，步骤如下：

(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组，并按时间顺序为音视频组中的音视频片段标定序号；

(2)建立数据头信息；

(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别，若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中；

(4)将数据头信息放入原始音视频数据文件的起始位置；所述数据头信息中记录的空闲片段的集合即为该音视频数据中的碎片时间；

步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为：

(3-1)记该音视频片段的音频流码率为x₁,视频流码率为x₂；

将该音视频片段转换为RMVB格式，然后记RMVB格式下该片段的采样率为x₃，记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x₄；

计算该音视频片段压缩前的音频流平均分贝值为x₅；

将x₁、x₂、x₃、x₄和x₅作为一组输入数据保存；

(3-2)将所述输入数据传送至BP神经网络中进行识别；

该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层；

所述输入层包括用于输入x₁的输入单元一、用于输入x₂的输入单元二、用于输入x₃的输入单元三、用于输入x₄的输入单元四和用于输入x₅的输入单元五；

所述预处理层包括预处理单元一、预处理单元二、预处理单元三和预处理单元四；

所述中间层包括中间单元一、中间单元二和中间单元三；

所述输出层包括输出单元；

所述输入层、预处理层、中间层和输出层分别为BP神经网络的第1层、第2层、第3层和第4层；

所述输入单元一、输入单元二、输入单元三、输入单元四和输入单元五分别为第1层的第1单元、第2单元、第3单元、第4单元和第5单元；

所述预处理单元一、预处理单元二、预处理单元三和预处理单元四分别为第2层的第1单元、第2单元、第3单元和第4单元；

所述中间单元一、中间单元二和中间单元三分别为第3层的第1单元、第2单元和第3单元；

所述输出单元为第4层的第1单元；

设第l层第i单元的输出值为偏置项为激活函数为f_i ^(l)()，第l层的单元总数为n^(l)，第l层第j单元的输出值传递至第l+1层第i单元时的权值为

则对于第1层：

对于第2至4层：

设和恒为0；

BP神经网络根据输入的数据判断出该音视频片段是否为空闲片段，结果由输出层输出。

进一步地：所述预处理层各单元的激活函数为：

进一步地：所述中间层和输出层各单元的激活函数为：

f_i ^(l)(x)＝max(0，x+0.01e^x)。

进一步地：BP神经网络的训练方法为：在背景噪声分贝值低于30分贝的环境中录制时长1000s、画面为纯色的空闲音视频数据，并在背景噪声分贝值为40分贝、45分贝、50分贝、60分贝和75分贝的环境中分别录制时长2000s的非空闲音视频数据，所述非空闲音视频数据中的每一帧画面都包括至少4个不同颜色，所述不同颜色是指在RGB颜色标准下红、绿、蓝三个通道的值至少有一个值有所不同；

将录制的空闲音视频数据和非空闲音视频数据各自以时长2s为间隔分段成样本片段，将来自空闲音视频数据的样本片段标记为空闲片段，将来自非空闲音视频数据的样本片段标记为非空闲片段；

依次对所有样本片段分别进行如下处理：记样本片段的音频流码率为x₁,视频流码率为x₂；将样本片段转换为RMVB格式，然后记RMVB格式下该片段的采样率为x₃，记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x₄；计算该样本片段压缩前的音频流平均分贝值为x₅；将x₁、x₂、x₃、x₄和x₅作为一组训练样本输入数据保存；

使用训练样本输入数据结合各样本片段原所对应的空闲/非空闲标记对BP神经网络训练，训练时保持和恒为0。

相对于现有技术，本发明具有以下优点：(1)本发明利用训练好的神经网络算法根据音视频片段的特征信息识别出是否为空闲片段，并将空闲片段的序号写入数据头信息中，空闲片段的集合即为该音视频数据中的碎片时间，实现了碎片时间的识别和预测；(2)本方法利用神经网络对音视频数据进行识别，具有非线性逼近能力强、判断效率高和准确率高的优点；(3)神经网络中引入了预处理层，由于在RMVB格式的压缩过程中能够尽可能地压低采样率和码率，并且压缩后的采样率和视频流码率之间具有一定的相关性，因此预处理层中对部分权数进行了强制设定，并将RMVB格式下该片段的采样率x₃和RMVB格式下该片段的视频流码率与压缩前的视频流码率之比x₄这两种相关性较明显但又无法完全合并的特征信息进行了非完全性的合并处理，然后再将预处理层的结果输出到中间层中，保证了后续的计算过程中x₃和x₄始终保有一定的相关性，从而提高了判断结果的准确性，同时也提高了训练的效率；(4)预处理层的激活函数设定充分考虑了x₃和x₄两个特征信息非完全性合并处理在计算效率、微分求解难度和相关性保留方面的要求，具有求解、训练效率高和判断准确性高的优点。

附图说明

图1为本发明的流程示意图。

图2为BP神经网络的结构示意图。

具体实施方式

下面结合附图详细说明本发明的技术方案：

如图1，一种电视广播媒体音视频数据碎片时间的预测方法，步骤如下：

(2)建立数据头信息；

(3-1)记该音视频片段的音频流码率为x₁,视频流码率为x₂；

计算该音视频片段压缩前的音频流平均分贝值为x₅；

将x₁、x₂、x₃、x₄和x₅作为一组输入数据保存；

(3-2)将所述输入数据传送至BP神经网络中进行识别；

如图2，该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层；

所述中间层包括中间单元一、中间单元二和中间单元三；

所述输出层包括输出单元；

所述输出单元为第4层的第1单元；

则对于第1层：

对于第2至4层：

设和恒为0；

所述预处理层各单元的激活函数为：

该激活函数的设定充分考虑了x₃和x₄两个特征信息非完全性合并处理后在计算效率、微分求解难度和相关性保留方面的要求，具有求解、训练效率高和判断准确性高的优点；

所述中间层和输出层各单元的激活函数为：

f_i ^(l)(x)＝max(0，x+0.01e^x)。

该BP神经网络的训练方法为：在背景噪声分贝值低于30分贝的环境中录制时长1000s、画面为纯色的空闲音视频数据，并在背景噪声分贝值为40分贝、45分贝、50分贝、60分贝和75分贝的环境中分别录制时长2000s的非空闲音视频数据，所述非空闲音视频数据中的每一帧画面都包括至少4个不同颜色，所述不同颜色是指在RGB颜色标准下红、绿、蓝三个通道的值至少有一个值有所不同；

Claims

1.一种电视广播媒体音视频数据碎片时间的预测方法，其特征在于：步骤如下：

(2)建立数据头信息；

(4)将数据头信息放入原始音视频数据文件的起始位置；所述数据头信息中记录的空闲片段的集合即为该音视频数据中的碎片时间；步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为：

(3-1)记该音视频片段的音频流码率为x₁,视频流码率为x₂；

计算该音视频片段压缩前的音频流平均分贝值为x₅；

将x₁、x₂、x₃、x₄和x₅作为一组输入数据保存；

(3-2)将所述输入数据传送至BP神经网络中进行识别；

所述中间层包括中间单元一、中间单元二和中间单元三；

所述输出层包括输出单元；

所述输出单元为第4层的第1单元；

则对于第1层：

对于第2至4层：

设和恒为0；

BP神经网络根据输入的数据判断出该音视频片段是否为空闲片段，结果由输出层输出；

所述预处理层各单元的激活函数为：

所述中间层和输出层各单元的激活函数为：

f_i ^(l)(x)＝max(0,x+0.01e^x)。

2.如权利要求1所述的电视广播媒体音视频数据碎片时间的预测方法，其特征在于BP神经网络的训练方法为：在背景噪声分贝值低于30分贝的环境中录制时长1000s、画面为纯色的空闲音视频数据，并在背景噪声分贝值为40分贝、45分贝、50分贝、60分贝和75分贝的环境中分别录制时长2000s的非空闲音视频数据，所述非空闲音视频数据中的每一帧画面都包括至少4个不同颜色，所述不同颜色是指在RGB颜色标准下红、绿、蓝三个通道的值至少有一个值有所不同；将录制的空闲音视频数据和非空闲音视频数据各自以时长2s为间隔分段成样本片段，将来自空闲音视频数据的样本片段标记为空闲片段，将来自非空闲音视频数据的样本片段标记为非空闲片段；

依次对所有样本片段分别进行如下处理：记样本片段的音频流码率为x₁,视频流码率为x₂；将样本片段转换为RMVB格式，然后记RMVB格式下该片段的采样率为x₃，记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x₄；计算该样本片段压缩前的音频流平均分贝值为x₅；将x₁、x₂、x₃、x₄和x₅作为一组训练样本输入数据保存；使用训练样本输入数据结合各样本片段原所对应的空闲/非空闲标记对BP神经网络训练，训练时保持和恒为0。