CN106231357B - 一种电视广播媒体音视频数据碎片时间的预测方法 - Google Patents
一种电视广播媒体音视频数据碎片时间的预测方法 Download PDFInfo
- Publication number
- CN106231357B CN106231357B CN201610790641.0A CN201610790641A CN106231357B CN 106231357 B CN106231357 B CN 106231357B CN 201610790641 A CN201610790641 A CN 201610790641A CN 106231357 B CN106231357 B CN 106231357B
- Authority
- CN
- China
- Prior art keywords
- fragment
- layer
- video
- unit
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000007906 compression Methods 0.000 claims description 15
- 230000006835 compression Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 8
- 239000003086 colorant Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/231—Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4334—Recording operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供了一种电视广播媒体音视频数据碎片时间的预测方法,包括构建音视频组、建立数据头信息、使用神经网络识别空闲片段以及将数据头信息放入原始音视频数据文件的起始位置等步骤。本方法利用训练好的神经网络算法根据音视频片段的特征信息识别出是否为空闲片段,并将空闲片段的序号写入数据头信息中,空闲片段的集合即为该音视频数据中的碎片时间,实现了碎片时间的识别和预测,具有预测准确和速度快的优点。
Description
技术领域
本发明涉及一种电视广播媒体音视频数据碎片时间的预测方法,属于多媒体处理领域。
背景技术
在电视广播媒体的数据处理过程中,为尽可能地提高音视频数据文件的压缩比、方便音视频文件的传输、合理地分配带宽,理想情况下应当对音视频文件中的碎片时间进行标记和预测。音视频碎片是指画面为纯色且声音为低于30分贝的底噪的片段。
现有技术中没有提供一种方法能够对音视频中的碎片时间进行预测。
发明内容
为对音视频数据中的碎片时间进行预测,本发明提出了一种电视广播媒体音视频数据碎片时间的预测方法。
本发明技术方案如下:
一种电视广播媒体音视频数据碎片时间的预测方法,步骤如下:
(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组,并按时间顺序为音视频组中的音视频片段标定序号;
(2)建立数据头信息;
(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别,若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中;
(4)将数据头信息放入原始音视频数据文件的起始位置;所述数据头信息中记录的空闲片段的集合即为该音视频数据中的碎片时间;
步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为:
(3-1)记该音视频片段的音频流码率为x1,视频流码率为x2;
将该音视频片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;
计算该音视频片段压缩前的音频流平均分贝值为x5;
将x1、x2、x3、x4和x5作为一组输入数据保存;
(3-2)将所述输入数据传送至BP神经网络中进行识别;
该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层;
所述输入层包括用于输入x1的输入单元一、用于输入x2的输入单元二、用于输入x3的输入单元三、用于输入x4的输入单元四和用于输入x5的输入单元五;
所述预处理层包括预处理单元一、预处理单元二、预处理单元三和预处理单元四;
所述中间层包括中间单元一、中间单元二和中间单元三;
所述输出层包括输出单元;
所述输入层、预处理层、中间层和输出层分别为BP神经网络的第1层、第2层、第3层和第4层;
所述输入单元一、输入单元二、输入单元三、输入单元四和输入单元五分别为第1层的第1单元、第2单元、第3单元、第4单元和第5单元;
所述预处理单元一、预处理单元二、预处理单元三和预处理单元四分别为第2层的第1单元、第2单元、第3单元和第4单元;
所述中间单元一、中间单元二和中间单元三分别为第3层的第1单元、第2单元和第3单元;
所述输出单元为第4层的第1单元;
设第l层第i单元的输出值为偏置项为激活函数为fi (l)(),第l层的单元总数为n(l),第l层第j单元的输出值传递至第l+1层第i单元时的权值为
则对于第1层:
对于第2至4层:
设和恒为0;
BP神经网络根据输入的数据判断出该音视频片段是否为空闲片段,结果由输出层输出。
进一步地:所述预处理层各单元的激活函数为:
进一步地:所述中间层和输出层各单元的激活函数为:
fi (l)(x)=max(0,x+0.01ex)。
进一步地:BP神经网络的训练方法为:在背景噪声分贝值低于30分贝的环境中录制时长1000s、画面为纯色的空闲音视频数据,并在背景噪声分贝值为40分贝、45分贝、50分贝、60分贝和75分贝的环境中分别录制时长2000s的非空闲音视频数据,所述非空闲音视频数据中的每一帧画面都包括至少4个不同颜色,所述不同颜色是指在RGB颜色标准下红、绿、蓝三个通道的值至少有一个值有所不同;
将录制的空闲音视频数据和非空闲音视频数据各自以时长2s为间隔分段成样本片段,将来自空闲音视频数据的样本片段标记为空闲片段,将来自非空闲音视频数据的样本片段标记为非空闲片段;
依次对所有样本片段分别进行如下处理:记样本片段的音频流码率为x1,视频流码率为x2;将样本片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该样本片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组训练样本输入数据保存;
使用训练样本输入数据结合各样本片段原所对应的空闲/非空闲标记对BP神经网络训练,训练时保持 和恒为0。
相对于现有技术,本发明具有以下优点:(1)本发明利用训练好的神经网络算法根据音视频片段的特征信息识别出是否为空闲片段,并将空闲片段的序号写入数据头信息中,空闲片段的集合即为该音视频数据中的碎片时间,实现了碎片时间的识别和预测;(2)本方法利用神经网络对音视频数据进行识别,具有非线性逼近能力强、判断效率高和准确率高的优点;(3)神经网络中引入了预处理层,由于在RMVB格式的压缩过程中能够尽可能地压低采样率和码率,并且压缩后的采样率和视频流码率之间具有一定的相关性,因此预处理层中对部分权数进行了强制设定,并将RMVB格式下该片段的采样率x3和RMVB格式下该片段的视频流码率与压缩前的视频流码率之比x4这两种相关性较明显但又无法完全合并的特征信息进行了非完全性的合并处理,然后再将预处理层的结果输出到中间层中,保证了后续的计算过程中x3和x4始终保有一定的相关性,从而提高了判断结果的准确性,同时也提高了训练的效率;(4)预处理层的激活函数设定充分考虑了x3和x4两个特征信息非完全性合并处理在计算效率、微分求解难度和相关性保留方面的要求,具有求解、训练效率高和判断准确性高的优点。
附图说明
图1为本发明的流程示意图。
图2为BP神经网络的结构示意图。
具体实施方式
下面结合附图详细说明本发明的技术方案:
如图1,一种电视广播媒体音视频数据碎片时间的预测方法,步骤如下:
(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组,并按时间顺序为音视频组中的音视频片段标定序号;
(2)建立数据头信息;
(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别,若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中;
(4)将数据头信息放入原始音视频数据文件的起始位置;所述数据头信息中记录的空闲片段的集合即为该音视频数据中的碎片时间;
步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为:
(3-1)记该音视频片段的音频流码率为x1,视频流码率为x2;
将该音视频片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;
计算该音视频片段压缩前的音频流平均分贝值为x5;
将x1、x2、x3、x4和x5作为一组输入数据保存;
(3-2)将所述输入数据传送至BP神经网络中进行识别;
如图2,该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层;
所述输入层包括用于输入x1的输入单元一、用于输入x2的输入单元二、用于输入x3的输入单元三、用于输入x4的输入单元四和用于输入x5的输入单元五;
所述预处理层包括预处理单元一、预处理单元二、预处理单元三和预处理单元四;
所述中间层包括中间单元一、中间单元二和中间单元三;
所述输出层包括输出单元;
所述输入层、预处理层、中间层和输出层分别为BP神经网络的第1层、第2层、第3层和第4层;
所述输入单元一、输入单元二、输入单元三、输入单元四和输入单元五分别为第1层的第1单元、第2单元、第3单元、第4单元和第5单元;
所述预处理单元一、预处理单元二、预处理单元三和预处理单元四分别为第2层的第1单元、第2单元、第3单元和第4单元;
所述中间单元一、中间单元二和中间单元三分别为第3层的第1单元、第2单元和第3单元;
所述输出单元为第4层的第1单元;
设第l层第i单元的输出值为偏置项为激活函数为fi (l)(),第l层的单元总数为n(l),第l层第j单元的输出值传递至第l+1层第i单元时的权值为
则对于第1层:
对于第2至4层:
设和恒为0;
BP神经网络根据输入的数据判断出该音视频片段是否为空闲片段,结果由输出层输出。
所述预处理层各单元的激活函数为:
该激活函数的设定充分考虑了x3和x4两个特征信息非完全性合并处理后在计算效率、微分求解难度和相关性保留方面的要求,具有求解、训练效率高和判断准确性高的优点;
所述中间层和输出层各单元的激活函数为:
fi (l)(x)=max(0,x+0.01ex)。
该BP神经网络的训练方法为:在背景噪声分贝值低于30分贝的环境中录制时长1000s、画面为纯色的空闲音视频数据,并在背景噪声分贝值为40分贝、45分贝、50分贝、60分贝和75分贝的环境中分别录制时长2000s的非空闲音视频数据,所述非空闲音视频数据中的每一帧画面都包括至少4个不同颜色,所述不同颜色是指在RGB颜色标准下红、绿、蓝三个通道的值至少有一个值有所不同;
将录制的空闲音视频数据和非空闲音视频数据各自以时长2s为间隔分段成样本片段,将来自空闲音视频数据的样本片段标记为空闲片段,将来自非空闲音视频数据的样本片段标记为非空闲片段;
依次对所有样本片段分别进行如下处理:记样本片段的音频流码率为x1,视频流码率为x2;将样本片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该样本片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组训练样本输入数据保存;
使用训练样本输入数据结合各样本片段原所对应的空闲/非空闲标记对BP神经网络训练,训练时保持 和恒为0。
Claims (2)
1.一种电视广播媒体音视频数据碎片时间的预测方法,其特征在于:步骤如下:
(1)将由音频流和视频流所组成的原始音视频数据文件以时长2s为间隔分段成音视频组,并按时间顺序为音视频组中的音视频片段标定序号;
(2)建立数据头信息;
(3)使用BP神经网络依次对所述音视频组中的音视频片段进行空闲识别,若识别为空闲片段则将记录该片段的序号并将序号写入数据头信息中;
(4)将数据头信息放入原始音视频数据文件的起始位置;所述数据头信息中记录的空闲片段的集合即为该音视频数据中的碎片时间;步骤(3)中所述BP神经网络对音视频片段进行空闲识别的方法步骤为:
(3-1)记该音视频片段的音频流码率为x1,视频流码率为x2;
将该音视频片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;
计算该音视频片段压缩前的音频流平均分贝值为x5;
将x1、x2、x3、x4和x5作为一组输入数据保存;
(3-2)将所述输入数据传送至BP神经网络中进行识别;
该BP神经网络沿输入至输出方向依次设置有输入层、预处理层、中间层和输出层;
所述输入层包括用于输入x1的输入单元一、用于输入x2的输入单元二、用于输入x3的输入单元三、用于输入x4的输入单元四和用于输入x5的输入单元五;
所述预处理层包括预处理单元一、预处理单元二、预处理单元三和预处理单元四;
所述中间层包括中间单元一、中间单元二和中间单元三;
所述输出层包括输出单元;
所述输入层、预处理层、中间层和输出层分别为BP神经网络的第1层、第2层、第3层和第4层;
所述输入单元一、输入单元二、输入单元三、输入单元四和输入单元五分别为第1层的第1单元、第2单元、第3单元、第4单元和第5单元;
所述预处理单元一、预处理单元二、预处理单元三和预处理单元四分别为第2层的第1单元、第2单元、第3单元和第4单元;
所述中间单元一、中间单元二和中间单元三分别为第3层的第1单元、第2单元和第3单元;
所述输出单元为第4层的第1单元;
设第l层第i单元的输出值为偏置项为激活函数为fi (l)(),第l层的单元总数为n(l),第l层第j单元的输出值传递至第l+1层第i单元时的权值为
则对于第1层:
对于第2至4层:
设和恒为0;
BP神经网络根据输入的数据判断出该音视频片段是否为空闲片段,结果由输出层输出;
所述预处理层各单元的激活函数为:
所述中间层和输出层各单元的激活函数为:
fi (l)(x)=max(0,x+0.01ex)。
2.如权利要求1所述的电视广播媒体音视频数据碎片时间的预测方法,其特征在于BP神经网络的训练方法为:在背景噪声分贝值低于30分贝的环境中录制时长1000s、画面为纯色的空闲音视频数据,并在背景噪声分贝值为40分贝、45分贝、50分贝、60分贝和75分贝的环境中分别录制时长2000s的非空闲音视频数据,所述非空闲音视频数据中的每一帧画面都包括至少4个不同颜色,所述不同颜色是指在RGB颜色标准下红、绿、蓝三个通道的值至少有一个值有所不同;将录制的空闲音视频数据和非空闲音视频数据各自以时长2s为间隔分段成样本片段,将来自空闲音视频数据的样本片段标记为空闲片段,将来自非空闲音视频数据的样本片段标记为非空闲片段;
依次对所有样本片段分别进行如下处理:记样本片段的音频流码率为x1,视频流码率为x2;将样本片段转换为RMVB格式,然后记RMVB格式下该片段的采样率为x3,记RMVB格式下该片段的视频流码率与压缩前的视频流码率之比为x4;计算该样本片段压缩前的音频流平均分贝值为x5;将x1、x2、x3、x4和x5作为一组训练样本输入数据保存;使用训练样本输入数据结合各样本片段原所对应的空闲/非空闲标记对BP神经网络训练,训练时保持和恒为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610790641.0A CN106231357B (zh) | 2016-08-31 | 2016-08-31 | 一种电视广播媒体音视频数据碎片时间的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610790641.0A CN106231357B (zh) | 2016-08-31 | 2016-08-31 | 一种电视广播媒体音视频数据碎片时间的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106231357A CN106231357A (zh) | 2016-12-14 |
CN106231357B true CN106231357B (zh) | 2017-05-10 |
Family
ID=58075118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610790641.0A Active CN106231357B (zh) | 2016-08-31 | 2016-08-31 | 一种电视广播媒体音视频数据碎片时间的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106231357B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1703491B1 (en) * | 2005-03-18 | 2012-02-22 | Sony Deutschland GmbH | Method for classifying audio data |
CN102208018A (zh) * | 2011-06-01 | 2011-10-05 | 西安工程大学 | 一种基于视频差异分析的输电线路火灾识别方法 |
CN105513610A (zh) * | 2015-11-23 | 2016-04-20 | 南京工程学院 | 一种声音分析方法及装置 |
-
2016
- 2016-08-31 CN CN201610790641.0A patent/CN106231357B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106231357A (zh) | 2016-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222025B (zh) | 一种基于卷积神经网络的诈骗号码识别方法及系统 | |
US8315866B2 (en) | Generating representations of group interactions | |
CN110246345B (zh) | 一种基于HydraCNN的信号灯智能控制方法和系统 | |
WO2021098831A1 (zh) | 一种适用于嵌入式设备的目标检测系统 | |
CN109145784A (zh) | 用于处理视频的方法和装置 | |
WO2019085584A1 (zh) | 多媒体数据处理和获取方法、采集终端和处理装置 | |
CN104683852B (zh) | 处理广播信息的方法和设备 | |
CN109670453B (zh) | 一种提取短视频主题的方法 | |
CN110610500A (zh) | 基于动态语义特征的新闻视频自适应拆条方法 | |
CN114245205B (zh) | 基于数字资产管理的视频数据加工方法和系统 | |
CN103024328B (zh) | 一种提高数字视频录像机抓图质量的方法 | |
CN111723239A (zh) | 一种基于多模态的视频标注方法 | |
CN107943811A (zh) | 内容的发布方法和装置 | |
CN106231357B (zh) | 一种电视广播媒体音视频数据碎片时间的预测方法 | |
CN102129682A (zh) | 一种前景背景区域划分方法、系统 | |
CN100428802C (zh) | 一种自适应多媒体播放的方法 | |
CN110517215B (zh) | 一种视频压缩处理方法、电子设备及存储介质 | |
CN110705351A (zh) | 视频会议的签到方法及系统 | |
CN106331741B (zh) | 一种电视广播媒体音视频数据的压缩方法 | |
CN107204930A (zh) | 令牌添加方法及装置 | |
CN111861204A (zh) | 基于智能平台的课程移动学习评价系统及方法 | |
CN106878653A (zh) | 一种用于受限环境下的远程视频会见的方法及系统 | |
CN109949827A (zh) | 一种基于深度学习与强化学习的室内声学行为识别方法 | |
CN109215688A (zh) | 同场景音频处理方法、装置、计算机可读存储介质及系统 | |
CN115223087A (zh) | 一种群控电梯交通模式识别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |