CN116320575B

CN116320575B - 一种音视频的音频处理控制系统

Info

Publication number: CN116320575B
Application number: CN202310560246.3A
Authority: CN
Inventors: 张巧霞; 宗建新; 刘恋恋; 孟书铖
Original assignee: Jiangsu Xianwaiyin Zhizao Technology Co ltd
Current assignee: Jiangsu Xianwaiyin Zhizao Technology Co ltd
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-09-05
Anticipated expiration: 2043-05-18
Also published as: CN116320575A

Abstract

本发明公开了一种音视频的音频处理控制系统，涉及音频处理技术领域，包括：音视信息获取导入模块获取用户输入目标制作软件的科研音视频，音视检测分析模块提取科研音频文件和科研视频文件中的音频标识特征数据，并根据音频标识特征数据对科研音频文件进行音频质量检测，以获取音频质量检测分析结果；检测分析结果判断模块判断音频质量检测分析结果是否为中高音频质量标记，若为中高音频质量标记，则将中高音频质量标记作为第一检测结果；音视同步模块基于第一检测结果对科研音频文件和科研视频文件进行科研视频文件基准下的音视同步控制。

Description

一种音视频的音频处理控制系统

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音视频的音频处理控制系统。

背景技术

随着高新技术的不断发展，越来越多的企业和科研人员需要在科研过程中进行科研材料的音视频制作和报告，在科研领域的音视频制作过程中，音频和视频的同步是非常重要的；若存在音视频不同步不仅影响科研音视频材料的质量，还会影响到后续数据分析的准确性和科学研究的可信度；然而经发明人针对当下科研音视频系统研究应用发现，当前在科研音视频处理过程中仍存在以下缺陷：

（1）在利用科研音视频制作软件制作科研音视频材料报告时，缺乏对科研音视频的质量自动检测，无法发现科研音视频的细微缺陷，易导致后续播放效果不佳；

（2）在利用科研音视频制作软件制作科研音视频材料报告时，缺乏对科研音视频制作过程的同步检测，需用户自己进行肉眼识别，费时费力，易增加用户的科研音视频制作时间；

（3）在利用科研音视频制作软件制作科研音视频材料报告时，若产生音视不同步，需重新逐步回调，且在重新回调过程中需要人工手动进行科研音视频的同步处理，若用户缺乏手动同步处理控制的经验，会使得制作出来的科研音视频材料同步精度较低，且制作效率较低。

目前，现有音频处理控制系统在解决音视频不同步问题上时大多通过引入时间戳的方式实现，例如：申请公开号为CN112243145A的中国专利公开了音频与视频同步方法和音频与视频处理装置，该发明虽然通过计算第一出现时戳与主控时戳之间的第一时戳差值以及第二出现时戳与主控时戳之间的第二时戳差值，实现了音视频同步，但时间戳极易产生误差累计，且在伴随音频丢帧或视频丢帧而引起的音频时间戳缺失或视频时间戳缺失时，上述方式无法解决该情况下的同步问题，进而极易降低科研音视频材料制作的效率以及后续科研音视频材料的播放效果。

鉴于此，本发明提出一种音视频的音频处理控制系统以解决上述问题。

发明内容

本发明的目的是解决现有技术中存在的缺陷，而提出的一种音视频的音频处理控制系统。

为了实现上述目的，本发明采用了如下技术方案：

一种音视频的音频处理控制系统，包括：

音视信息获取导入模块，用于获取用户输入目标制作软件的科研音视频，所述科研音视频包括至少一个科研音频文件和至少一个科研视频文件；

音视检测分析模块，包括第一音视检测分析单元，所述第一音视检测分析单元用于提取科研音频文件和科研视频文件中的音频标识特征数据，并根据音频标识特征数据对所述科研音频文件进行音频质量检测，以获取音频质量检测分析结果；所述音频标识特征数据包括第一音频标识特征数据和第二音频标识特征数据；

检测分析结果判断模块，用于判断所述音频质量检测分析结果是否为中高音频质量标记，若为中高音频质量标记，则将中高音频质量标记作为第一检测结果；

音视同步模块，包括第一同步控制处理单元，所述第一同步控制处理单元用于基于所述第一检测结果对所述科研音频文件和科研视频文件进行科研视频文件基准下的音视同步控制。

进一步地，对所述科研音频文件进行音频质量检测前，还包括：

提取所述科研音频文件中的第一音频标记和第二音频标记，并提取科研视频文件中的第一视频标记和第二视频标记；

将位于第一音频标记与第二音频标记之间的科研音频文件进行等分划分，以获取j个音频数据段，j={1、2、3、…、J}，将位于第一视频标记与第二视频标记之间的科研视频文件进行等分划分，以获取g个视频数据段，g={1、2、3、…、G}；

随机提取j-k个音频数据段内的科研音频文件播放时长，k为大于等于1的正整数，且k＜j,并提取与j-k个音频数据段对应视频数据段内的科研视频数据播放时长；

将j-k个音频数据段内的科研音频文件播放时长与对应视频数据段内的科研视频数据播放时长进行公式化计算，以获取时间判断系数QT, ，式中：/>表示第v个音频数据段的科研音频文件播放时长，/>表示第v个视频数据段的科研视频数据播放时长，v={1、2、3、…、V}；

判断所述时间判断系数QT是否等于设定时间判定常数，若等于，则确定所述科研音频文件与科研视频文件音视同步，若不等于，则确定所述科研音频文件与科研视频文件音视不同步。

进一步地，提取科研音频文件和科研视频文件中的音频标识特征数据，并根据音频标识特征数据对所述科研音频文件进行音频质量检测，包括：

对科研音频文件进行播放显示，提取播放显示中所述科研音频文件的前景音频和背景音频，并分别提取每一前景音频帧的时间戳以及对应背景音频帧的时间戳；

将相邻两前景音频帧的时间戳的差值与预设第一音频差值阈值进行比较，若相邻两前景音频帧的时间戳的差值大于预设第一音频差值阈值，则将相邻两前景音频帧的时间戳的差值标记为第一音频标识特征数据；并将相邻两前景音频帧和背景音频帧的时间戳的差值与预设第二音频差值阈值进行比较，若相邻两前景音频帧和背景音频帧的时间戳的差值大于预设第二音频差值阈值，则将相邻两前景音频帧和背景音频帧的时间戳的差值标记为第二音频标识特征数据；

分别提取第一音频标识特征数据和第二音频标识特征数据的数据个数，以及分别提取第一音频标识特征数据和第二音频标识特征数据的数据长度；

分别统计第一音频标识特征数据的个数总数和第二音频标识特征数据的个数总数,并对第一音频标识特征数据的个数总数、第二音频标识特征数据的个数总数与第一音频标识特征数据的数据长度和第二音频标识特征数据的数据长度归一化处理后进行公式化计算，以获取音频质量判断系数AQ,，式中：表示第一音频标识特征数据的个数总数，/>表示第二音频标识特征数据的个数总数，/>表示第e个第一音频标识特征数据的数据长度，/>表示第h个第二音频标识特征数据的数据长度，/>、/>、/>和/>为不为零权重系数，；

设置音频评价阈值KT1和KT2，KT1＜KT2，将音频质量判断系数AQ与音频评价阈值KT1和KT2进行比对，得到音频质量检测分析结果，所述音频质量检测分析结果包括低音频质量标记、中高音频质量标记和高音频质量标记中的一种。

进一步地，基于所述第一检测结果对所述科研音频文件和科研视频文件进行科研视频文件基准下的音视同步控制，包括：

获取每一帧所述科研视频文件的时间对应值；

提取每一帧所述科研音频文件中的有效初始音频帧和有效末尾音频帧，获取有效初始音频帧的时间对应值和有效末尾音频帧的时间对应值；

据所述视频帧率获取每一帧下科研视频文件的播放时刻值；

根据每一帧下科研视频文件的播放时刻值对有效初始音频帧的时间对应值进行循环赋值，直至赋值到有效末尾音频帧时停止循环赋值，得到若干个循环音频时间对应值以及有效末尾音频帧的赋值时刻值；

判断有效末尾音频帧的赋值时刻值与有效末尾音频帧的时间对应值的差值是否大于预设有效音频差值阈值，若大于预设有效音频差值阈值，则将有效末尾音频帧的赋值时刻值与有效末尾音频帧的时间对应值的差值作为误差数据，并根据误差数据对每个循环音频时间对应值进行校正，根据校正后循环音频时间对应值对所述科研音频文件进行调节，若小于预设音频差值阈值，则根据每个循环音频时间对应值对所述科研音频文件进行同步调节。

进一步地，所述音视检测分析模块包括第二音视检测分析单元，所述第二音视检测分析单元用于提取科研音频文件和科研视频文件中的视频标识特征数据，根据视频标识特征数据对所述科研音频文件进行视频质量检测，以获取视频质量检测分析结果。

进一步地，所述检测分析结果判断模块还用于判断所述视频质量检测分析结果是否为中高视频质量标记，若为中高视频质量标记，则根据中高视频质量标记作为第二检测结果。

进一步地，所述音视同步模块还包括第二同步控制处理单元，所述第二同步控制处理单元基于所述第二检测结果对所述科研音频文件和科研视频文件进行科研音频文件基准下的音视同步控制。

进一步地，所述检测分析结果判断模块还用于获取音频质量检测分析结果和视频质量检测分析结果，判断所述音频质量检测分析结果是否为中高音频质量标记且所述视频质量检测分析结果是否为中高视频质量标记，若所述音频质量检测分析结果为中高音频质量标记且所述视频质量检测分析结果为中高视频质量标记，则将中高音频质量标记和中高视频质量标记作为第三检测结果。

进一步地，所述音视同步模块还包括第三同步控制处理单元，所述第三同步控制处理单元用于基于所述第三检测结果对所述科研音频文件和科研视频文件进行的音视同步控制。

相比于现有技术，本发明的有益效果在于：

本发明提出的一种音视频的音频处理控制系统，其通过获取用户输入目标制作软件的科研音频文件和科研视频文件，并分别提取其标识特征数据，从而有利于实现对缺陷科研音频文件或缺陷科研视频文件的同步检测，且能够快速检测科研音频文件和科研视频文件的同步性；之后将科研音频文件和科研视频文件进行多段划分，并对每段科研音频文件和科研视频文件中的标识特征数据进行综合分析，从而能够高准确性的实现对科研音频文件和科研视频文件的质量鉴别；最后通过分析提取有效初始音频帧或有效末尾音频帧，并进行循环赋值，从而有利于实现科研视频文件基准下和科研音频文件基准下的同步控制，进而有利于解决细微缺陷科研音频文件在时间戳缺失或音频帧缺失情况下的同步问题，或有利于解决细微缺陷科研视频文件在时间戳缺失或音频帧缺失情况下的同步问题；此外，本发明通过对时间戳缺失或音视频帧缺失区间的分析处理，解决了对细微缺陷科研音频文件和细微缺陷科研视频文件同时存在时间戳缺失或音视频帧缺失情况下的音视同步问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的一种音视频的音频处理控制系统的整体结构示意图；

图2为本发明实施例三中提出的非完全重合区间的示意图；

图3为本发明实施例三中提出的完全重合区间的非重合部分和重合部分的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内的”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一

请参阅图1示，本实施例公开提供了一种音视频的音频处理控制系统，所述系统应用于音视频制作过程中，考虑到在音视频制作过程中用户所选的音频素材可能是自己录制的，也可能是其他素材网站下载的，或是融合拼接的，容易存在音频素材质量参差不齐或存在细微瑕疵的情况，因此本实施例主要围绕科研音频文件质量相对较低情况（所述科研视频文件质量相对较低情况是指某一科研视频文件的对应科研音频文件存在细微音频缺陷的情况，如时间戳缺失或音频帧缺失等情形）时设计的技术方案，以解决用户在利用科研音视频制作软件制作科研音视频材料报告时科研音视频的音视不同步的问题，包括：

音视信息获取导入模块110，用于获取用户输入目标制作软件的科研音视频，所述科研音视频包括至少一个科研音频文件和至少一个科研视频文件；

需要说明的是：用户输入目标制作软件的科研音视频非制作前的原始素材，而是已经经过人为或软件剪辑处理后得到的，因此仅需要进行音视同步处理而已；所述目标制作软件具体为任何一个可以用于进行科研音视频制作的软件，本发明对其不做过多限定；

音视检测分析模块120，包括第一音视检测分析单元121，所述第一音视检测分析单元121用于提取科研音频文件和科研视频文件中的音频标识特征数据，并根据音频标识特征数据对所述科研音频文件进行音频质量检测，以获取音频质量检测分析结果；所述音频标识特征数据包括第一音频标识特征数据和第二音频标识特征数据；

具体地，对所述科研音频文件进行音频质量检测前，还包括：

S210：提取所述科研音频文件中的第一音频标记和第二音频标记，并提取科研视频文件中的第一视频标记和第二视频标记；

需要说明的是：所述第一音频标记、第二音频标记、第一音频标记和第二音频标记可以人为提取，也可以事先设定提取规则进行提取，本发明对此不做过多限定；需要注意的是，所述第一音频标记位于所述科研音频文件的开头，即位于1单位时刻的第一音频标记，所述第二音频标记位于所述科研音频文件的结尾，即位于n单位时刻的第二音频标记，n大于等于1；所述第一视频标记位于所述科研视频文件的开头，即1单位时刻的第一视频标记，所述第二视频标记位于所述科研视频文件的结尾，即m单位时刻的第二视频标记，m大于等于1，所述单位可以为毫秒，也可以为微秒或者是秒，本申请对此不做过多限定；

S220：将位于第一音频标记与第二音频标记之间的科研音频文件进行等分划分，以获取j个音频数据段，j={1、2、3、…、J}，将位于第一视频标记与第二视频标记之间的科研视频文件进行等分划分，以获取g个视频数据段，g={1、2、3、…、G}；

需要说明的是：j个音频数据段与g个音频数据段一一对应，即每单位时刻下的某一等分科研音频文件与对应每单位时刻下的某一等分科研视频文件相对应；

S230：随机提取j-k个音频数据段内的科研音频文件播放时长，k为大于等于1的正整数，且k＜j,并提取与j-k个音频数据段对应视频数据段内的科研视频数据播放时长；

需要说明的是：在获取j-k个音频数据段内的科研音频文件播放时长和对应视频数据段内的科研视频数据播放时长后，会对j-k个音频数据段内的科研音频文件播放时长和对应视频数据段内的科研视频数据播放时长进行一一匹配，将匹配后的j-k个音频数据段内的科研音频文件播放时长和对应视频数据段内的科研视频数据播放时长进行排序，以得到v个音频数据段内的科研音频文件播放时长以及v个对应视频数据段的科研视频数据播放时长,v=j-k, v={1、2、3、…、V}；

需要说明是：v个音频数据段内的科研音频文件播放时长和v个对应视频数据段的科研视频数据播放时长中的v的具体数值，可以根据人为设定，也可以系统随机设定，本申请对此不做过多限定；进一步说明就是：v的数值大小与后续对科研音频文件与科研视频文件的同步检测判断有关；

S240：将j-k个音频数据段内的科研音频文件播放时长与对应视频数据段内的科研视频数据播放时长进行公式化计算，以获取时间判断系数QT, ，式中：/>表示第v个音频数据段的科研音频文件播放时长，/>表示第v个视频数据段的科研视频数据播放时长；

S250：判断所述时间判断系数QT是否等于设定时间判定常数，若等于，则确定所述科研音频文件与科研视频文件音视同步，若不等于，则确定所述科研音频文件与科研视频文件音视不同步；通过第一音频标记和第二音频标记对科研音频文件进行等分划分，以及通过第一音频标记和第二音频标记对科研视频文件进行等分划分，之后随机提取有限个的等分科研音频文件播放时长以及有限个的等分科研视频数据播放时长，并将其进行比较分析，本发明有利于快速准确地实现对科研音频文件与科研视频文件的同步检测判断；

具体地，提取科研音频文件和科研视频文件中的音频标识特征数据，并根据音频标识特征数据对所述科研音频文件进行音频质量检测，包括：

S310：对科研音频文件进行播放显示，提取播放显示中所述科研音频文件的前景音频和背景音频，并分别提取每一前景音频帧的时间戳以及对应背景音频帧的时间戳；

需要说明的是：所述前景音频是指科研音频文件中主体发声音频，如人声等，所述背景音频是指科研音频文件中的次体发声音频，如环境声音等；需要进一步说明的是：所述主体发声音频和次体发声音频可人为设定，也可系统按预设选项自行设定，对此本发明不做过多限定；

S320：将相邻两前景音频帧的时间戳的差值与预设第一音频差值阈值进行比较，若相邻两前景音频帧的时间戳的差值大于预设第一音频差值阈值，则将相邻两前景音频帧的时间戳的差值标记为第一音频标识特征数据；并将相邻两前景音频帧和背景音频帧的时间戳的差值与预设第二音频差值阈值进行比较，若相邻两前景音频帧和背景音频帧的时间戳的差值大于预设第二音频差值阈值，则将相邻两前景音频帧和背景音频帧的时间戳的差值标记为第二音频标识特征数据；

需要说明的是：相邻两前景音频帧根据预设音频判定规则确定，所述预设音频判定规则举例解释如下：若一个前景音频存在z帧，且a为起始帧，z＞a，则在非缺帧情况下，a+1为a的相邻帧，并判断a+1和a为相邻两帧，若在缺帧情况下，且刚好a+1为缺失帧，则判断a+2为a的相邻帧，以此类推，若存在a+1至a+y为缺失帧时，则a+y+1为a的相邻帧，并判断a+y+1和a为相邻两帧，同理针对背景音频也是如此，在此不做过多赘述；还需要说明是：所述相邻两前景音频帧和背景音频帧的判定，举例说明如下：假设一个前景音频存在z帧，对应的背景音频存在x帧，且z=x，若b为前景音频的起始帧，而c为背景音频的起始帧，且c=b，则c+1和b为相邻两前景音频帧和背景音频帧；

S330：分别提取第一音频标识特征数据和第二音频标识特征数据的数据个数，以及分别提取第一音频标识特征数据和第二音频标识特征数据的数据长度；

需要说明的是：所述第一音频标识特征数据的数据长度是指相邻两帧前景音频的时间戳的差值长度，举例说明就是：假如相邻两帧前景音频中前一帧前景音频的时间戳为KP，而后一帧的前景音频的时间戳为GP，则GP-KP为第一音频标识特征数据的数据长度，同理第二音频标识特征数据的数据长度也是如此，在此不做过多赘述；

S340：分别统计第一音频标识特征数据的个数总数和第二音频标识特征数据的个数总数,并对第一音频标识特征数据的个数总数、第二音频标识特征数据的个数总数与第一音频标识特征数据的数据长度和第二音频标识特征数据的数据长度归一化处理后进行公式化计算，以获取音频质量判断系数AQ,，式中：表示第一音频标识特征数据的个数总数，/>表示第二音频标识特征数据的个数总数，/>表示第e个第一音频标识特征数据的数据长度，/>表示第h个第二音频标识特征数据的数据长度，/>、/>、/>和/>为不为零权重系数，；

S350：设置音频评价阈值KT1和KT2，KT1＜KT2，将音频质量判断系数AQ与音频评价阈值KT1和KT2进行比对，得到音频质量检测分析结果，所述音频质量检测分析结果包括低音频质量标记、中高音频质量标记和高音频质量标记中的一种；

需要说明的是：若音频质量判断系数AQ小于音频评价阈值KT1，则判断科研音频文件为高质量，并标记为高音频质量标记；若音频质量判断系数AQ大于等于音频评价阈值KT1且小于音频评价阈值KT2，则判断科研音频文件为中高质量，并标记为中高音频质量标记；若音频质量判断系数AQ大于等于音频评价阈值KT2，则判断科研音频文件为低质量，并将其标记为低音频质量标记；

需要说明的是：若为高音频质量标记，则进行第二音视检测分析，其详情见实施例二叙述，在此不做过多说明，若为低音频质量标记，则针对对应科研音频文件进行反馈，以建议或促使用户对科研音频文件的原素材进行重新下载和处理或更换科研音频文件的原素材，从而有利于保证科研音视频的品质；

检测分析结果判断模块130，用于判断所述音频质量检测分析结果是否为中高音频质量标记，若为中高音频质量标记，则将中高音频质量标记作为第一检测结果；

音视同步模块140，包括第一同步控制处理单元141，所述第一同步控制处理单元141用于基于所述第一检测结果对所述科研音频文件和科研视频文件进行科研视频文件基准下的音视同步控制；

具体地，基于所述第一检测结果对所述科研音频文件和科研视频文件进行科研视频文件基准下的音视同步控制，包括：

S410：获取每一帧所述科研视频文件的时间对应值；

需要说明都是：每一帧所述科研视频文件的时间对应值根据每一帧所述科研视频文件的时间戳、视频起始时刻值和视频帧率计算得到，其具体公式如下：每一帧所述科研视频文件的时间对应值=（每一帧所述科研视频文件的时间戳－视频起始时刻值）×视频帧率；还需要说明的是所述每一帧所述科研视频文件的时间戳、视频起始时刻值和视频帧率通过查看所述科研视频文件的属性信息得到，在此本发明不做过多赘述；

S420：提取每一帧所述科研音频文件中的有效初始音频帧和有效末尾音频帧，获取有效初始音频帧的时间对应值和有效末尾音频帧的时间对应值；

需要说明的是：所述有效初始音频帧是指带有时间戳的音频帧，且具体是指某一音频缺失帧数据的前一含有时间戳的音频帧，而有效末尾音频帧是指对应缺失帧数据的后一含有时间戳的音频帧；

还需要说明的是：所述有效初始音频帧的时间对应值根据有效初始音频帧的时间戳、音频起始值和音频帧率得到，其计算公式原理同上述每一帧所述科研视频文件的时间对应值的计算公式原理，因此本实施例对此不做过多赘述；

S430：获取视频帧率，并根据其获取每一帧下科研视频文件的播放时刻值；

S440：根据每一帧下科研视频文件的播放时刻值对有效初始音频帧的时间对应值进行循环赋值，直至赋值到有效末尾音频帧时停止循环赋值，得到若干个循环音频时间对应值以及有效末尾音频帧的赋值时刻值；

S450：判断有效末尾音频帧的赋值时刻值与有效末尾音频帧的时间对应值的差值是否大于预设有效音频差值阈值，若大于预设有效音频差值阈值，则将有效末尾音频帧的赋值时刻值与有效末尾音频帧的时间对应值的差值作为误差数据，并根据误差数据对每个循环音频时间对应值进行校正，根据校正后循环音频时间对应值对所述科研音频文件进行调节，若小于预设音频差值阈值，则根据每个循环音频时间对应值对所述科研音频文件进行同步调节；通过将有效末尾音频帧的赋值时刻值与有效末尾音频帧的时间对应值的差值作为误差数据，并根据校正后循环音频时间对应值对所述科研音频文件进行调节，本发明能够以科研视频文件为基准，实现高精度和准确性的音视同步控制。

实施例二

请参阅图1示，本实施例是在实施例一的基础上作出的进一步改进，考虑到在音视频制作过程中用户所选的视频素材可能是自己录制的，也可能是其他素材网站下载的，或是融合拼接的，容易导致视频素材质量参差不齐或存在细微瑕疵，因此本实施例主要围绕科研视频文件质量相对较低情况（所述科研视频文件质量相对较低情况是指某一科研音频文件的对应科研视频文件存在细微视频缺陷的情况，如时间戳缺失导致音频帧跳帧和音频帧缺失导致的卡顿等情形）下设计的技术方案，以解决在利用科研音视频制作软件制作科研音视频材料报告时科研音视频的音视不同步的问题；

在本实施例中，所述音视检测分析模块120包括第二音视检测分析单元122，所述第二音视检测分析单元122用于提取科研音频文件和科研视频文件中的视频标识特征数据，根据视频标识特征数据对所述科研音频文件进行视频质量检测，以获取视频质量检测分析结果；

具体地，提取科研音频文件和科研视频文件中的视频标识特征数据，根据视频标识特征数据对所述科研音频文件进行视频质量检测，包括：

S510：对科研视频文件进行播放显示，提取播放显示中所述科研音频文件的视频帧，将相邻两视频帧的时间戳的差值标记为视频标识特征数据；

需要说明的是：所述相邻两视频帧根据预设视频判定规则确定，所述预设视频判定规则与实施例一中预设音频判定规则一致，因此本实施例对此不做过多赘述，详情可参照实施例一中的相应部分；

S520：分别提取视频标识特征数据的个数以及视频标识特征数据的数据长度；

需要说明的是：所述视频标识特征数据的数据长度与实施例一中第一音频标识特征数据的数据长度或第二音频标识特征数据的数据长度的原理一致，因此本实施例对此不做过多赘述，详情可参照实施例一中的部分；

S520：统计视频标识特征数据的个数总数，并将其与视频标识特征数据的数据长度归一化处理后进行公式化计算，以获取视频质量判断系数AY，,式中：/>表示视频标识特征数据的个数总数，表示第f个视频标识特征数据的数据长度，/>和/>为不为零权重系数，且；

S530：设置视频评价阈值RT1和RT2，RT1＜RT2，将视频质量判断系数与视频评价阈值RT1和RT2进行比对，得到视频质量检测分析结果，所述视频质量检测分析结果包括低视频质量标记、中高视频质量标记和高视频质量标记中的一种；

需要说明的是：若视频质量判断系数AY小于视频评价阈值RT1，则判断科研视频文件为高质量，并标记为高视频质量标记；若视频质量判断系数AY大于等于视频评价阈值RT1且小于视频评价阈值RT2，则判断科研视频文件为中高质量，并标记为中高视频质量标记；若视频质量判断系数AY大于等于视频评价阈值RT2，则判断科研视频文件为低质量，并将其标记为低视频质量标记；

在本实施例中，所述检测分析结果判断模块130还用于判断所述视频质量检测分析结果是否为中高视频质量标记，若为中高视频质量标记，则根据中高视频质量标记作为第二检测结果；

需要说明的是：同实施例一为低视频质量标记，则针对对应科研视频文件进行反馈，以建议或促使用户对科研视频文件的原素材进行重新下载和处理或更换科研视频文件的原素材，从而有利于保证科研视频的品质；

在本实施例中，所述音视同步模块140还包括第二同步控制处理单元142，所述第二同步控制处理单元142基于所述第二检测结果对所述科研音频文件和科研视频文件进行科研音频文件基准下的音视同步控制；

具体地，基于所述第二检测结果对所述科研音频文件和科研视频文件进行科研音频文件基准下的音视同步控制，包括：

S610：获取每一帧所述科研音频文件的时间对应值；

需要说明都是：每一帧所述科研音频文件的时间对应值根据每一帧所述科研音频文件的时间戳、音频起始时刻值和音频帧率计算得到，其具体公式如下：每一帧所述科研音频文件的时间对应值=（每一帧所述科研音频文件的时间戳－视频起始时刻值）×音频帧率；还需要说明的是所述每一帧所述科研音频文件的时间戳、音频起始时刻值和音频帧率通过查看所述科研音频文件的属性信息得到，在此本发明不做过多赘述；

S620：提取每一帧所述科研视频文件中的有效初始视频帧和有效末尾视频帧，并获取有效初始视频帧的时间对应值和有效末尾视频帧的时间对应值；

需要说明的是：所述有效初始视频帧是指带有时间戳的视频帧，且具体是指某一视频缺失帧数据的前一含有时间戳的视频帧，而有效末尾视频帧是指对应缺失帧数据的后一含有时间戳的视频帧；

还需要说明的是：所述有效初始视频帧的时间对应值根据有效初始视频帧的时间戳、视频起始值和视频帧率得到，其计算公式原理同上述每一帧所述科研音频文件的时间对应值的计算公式原理，因此本实施例对此不做过多赘述；

S630：获取音频帧率，并根据其获取每一帧下科研音频文件的播放时刻值；

S640：根据每一帧下科研音频文件的播放时刻值对有效初始视频帧的时间对应值进行循环赋值，直至赋值到有效末尾视频帧时停止循环赋值，得到若干个循环视频时间对应值以及有效末尾视频帧的赋值时刻值；

S650：判断有效末尾视频帧的赋值时刻值与有效末尾视频帧的时间对应值的差值是否大于预设有效音频差值阈值，若大于预设有效音频差值阈值，则将有效末尾视频帧的赋值时刻值与有效末尾视频帧的时间对应值的差值作为误差数据，并根据误差数据对每个循环视频时间对应值进行校正，根据校正后循环视频时间对应值对所述科研视频文件进行调节，若小于预设视频差值阈值，则将根据每个循环视频时间对应值对所述科研视频文件进行同步调节；通过将有效末尾视频帧的赋值时刻值与有效末尾视频帧的时间对应值的差值作为每一帧所述科研音频文件的时间对应值误差数据，并根据校正后循环视频时间对应值对所述科研视频文件进行调节，本发明能够以科研音频文件为基准，实现高精度和准确性的音视同步控制。

实施例三

请参阅图1-3示，本实施例是在实施例二的基础上作出的进一步改进，考虑到在利用科研音视频制作软件制作科研音视频材料报告时，用户所选的音频素材和视频素材会因为各种原因导致制作后的科研音频文件和科研视频文件同时存在细微缺陷，如音频帧和视频帧的缺失，因此本实施例主要围绕科研音频文件和科研视频文件同时存在细微缺陷作出的设计；

在本实施例中，所述检测分析结果判断模块130还用于获取音频质量检测分析结果和视频质量检测分析结果，判断所述音频质量检测分析结果是否为中高音频质量标记且所述视频质量检测分析结果是否为中高视频质量标记，若所述音频质量检测分析结果为中高音频质量标记且所述视频质量检测分析结果为中高视频质量标记，则将中高音频质量标记和中高视频质量标记作为第三检测结果；

在本实施例中，所述音视同步模块140还包括第三同步控制处理单元143，所述第三同步控制处理单元143用于基于所述第三检测结果对所述科研音频文件和科研视频文件进行的音视同步控制；

具体地，基于所述第三检测结果对所述科研音频文件和科研视频文件进行的音视同步控制，包括：

S710：获取每一帧所述科研视频文件的时间对应值以及每一帧所述科研音频文件的时间对应值；

S720：提取每一帧所述科研视频文件中有效初始视频帧的时间对应值和有效末尾视频帧的时间对应值，以及提取每一帧所述科研音频文件中有效初始音频帧的时间对应值和有效末尾音频帧的时间对应值；

S730：判断所述每一帧所述科研视频文件中有效初始视频帧的时间对应值和有效末尾视频帧的时间对应值以及每一帧所述科研音频文件中有效初始音频帧的时间对应值和有效末尾音频帧的时间对应值是否存在完全重合区间；

举例来说，如图2所示，A为科研视频文件，B为科研音频文件，若A1和A2为科研视频文件中的有效初始视频帧的时间对应值和有效末尾视频帧的时间对应值；而B1和B2为科研音频文件中有效初始音频帧的时间对应值和有效末尾音频帧的时间对应值；则A1和A2形成的区间并未与B1和B2形成的区间存在交集，则判断所述每一帧所述科研视频文件中有效初始视频帧的时间对应值和有效末尾视频帧的时间对应值以及每一帧所述科研音频文件中有效初始音频帧的时间对应值和有效末尾音频帧的时间对应值不存在完全重合区间；

又一举例来说，如图3所示，A为科研视频文件，B为科研音频文件，若A1和A2为科研视频文件中的有效初始视频帧的时间对应值和有效末尾视频帧的时间对应值；而B1和B2为科研音频文件中有效初始音频帧的时间对应值和有效末尾音频帧的时间对应值；则A1和A2形成的区间与B1和B2形成的区间存在交集，即存在重合部分A3-A2或B1-B3和非重合部分A1-A3和B3-B2；

S740：若不存在完全重合区间，则通过第一同步控制处理单元141和第二同步控制处理单元142进行联合音视同步控制；

需要说明的是：如图2，若不存在完全重合区间，则分别以科研视频文件或科研音频文件为基准进行第一同步控制处理单元141或第二同步控制处理单元142的处理逻辑进行控制，详情可参照实施例一，对此本实施例不做过多赘述；

S750：若存在完全重合区间，则获取完全重合区间中的非重合部分和完全重合区间中的重合部分；将非重合部分通过第一同步控制处理单元141和第二同步控制处理单元142进行联合音视同步控制；将重合部分根据动态控制规则进行音视同步控制；

需要说明的是：同上述若不存在完全重合区间同理，则也分别以科研视频文件或科研音频文件为基准进行第一同步控制处理单元141或第二同步控制处理单元142的处理逻辑进行控制；

具体地，将重合部分根据动态控制规则进行音视同步控制，包括：

获取科研视频文件的有效初始视频帧的时间对应值或科研音频文件的有效末尾音频帧的时间对应值；

根据视频帧率或音频帧率，对科研视频文件的有效初始视频帧的时间对应值进行正向循环赋值或对科研音频文件的有效末尾音频帧的时间对应值进行反向循环赋值，以得到若干个正向循环时间对应值或若干个反向循环时间对应值；

根据若干个正向循环时间对应值或若干个反向循环时间对应值进行同步调节；

通过动态选择以科研视频文件为基准或以科研音频文件为基准，本实施例能够实现对科研音频文件和科研视频文件同时存在细微缺陷情况下的科研音频文件和科研视频文件进行同步控制。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内的，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内的。

Claims

1.一种音视频的音频处理控制系统，其特征在于，包括：

音视信息获取导入模块，用于获取输入目标制作软件的科研音视频，所述科研音视频包括至少一个科研音频文件和至少一个科研视频文件；

音视检测分析模块，包括第一音视检测分析单元，所述第一音视检测分析单元用于提取科研音频文件和科研视频文件中的音频标识特征数据，并根据音频标识特征数据对所述科研音频文件进行音频质量检测，以获取音频质量检测分析结果；所述音频标识特征数据包括第一音频标识特征数据和第二音频标识特征数据；其中，包括：

分别统计第一音频标识特征数据的个数总数和第二音频标识特征数据的个数总数，并对第一音频标识特征数据的个数总数、第二音频标识特征数据的个数总数与第一音频标识特征数据的数据长度和第二音频标识特征数据的数据长度归一化处理后进行公式化计算，以获取音频质量判断系数AQ,，式中：/>表示第一音频标识特征数据的个数总数，/>表示第二音频标识特征数据的个数总数，表示第e个第一音频标识特征数据的数据长度，/>表示第h个第二音频标识特征数据的数据长度，/>、/>、/>和/>为不为零权重系数，/>；

设置音频评价阈值KT1和KT2，KT1＜KT2，将音频质量判断系数AQ与音频评价阈值KT1和KT2进行比对，得到音频质量检测分析结果，所述音频质量检测分析结果包括低音频质量标记、中高音频质量标记和高音频质量标记中的一种；

音视同步模块，包括第一同步控制处理单元，所述第一同步控制处理单元基于所述第一检测结果对所述科研音频文件和科研视频文件进行科研视频文件基准下的音视同步控制，包括：

获取每一帧所述科研视频文件的时间对应值；

获取视频帧率，并根据其获取每一帧下科研视频文件的播放时刻值；

2.根据权利要求1所述的一种音视频的音频处理控制系统，其特征在于，对所述科研音频文件进行音频质量检测前，还包括：

3.根据权利要求2所述的一种音视频的音频处理控制系统，其特征在于，所述音视检测分析模块包括第二音视检测分析单元，所述第二音视检测分析单元用于提取科研音频文件和科研视频文件中的视频标识特征数据，根据视频标识特征数据对所述科研音频文件进行视频质量检测，以获取视频质量检测分析结果。

4.根据权利要求3所述的一种音视频的音频处理控制系统，其特征在于，所述检测分析结果判断模块还用于判断所述视频质量检测分析结果是否为中高视频质量标记，若为中高视频质量标记，则根据中高视频质量标记作为第二检测结果。

5.根据权利要求4所述的一种音视频的音频处理控制系统，其特征在于，所述音视同步模块还包括第二同步控制处理单元，所述第二同步控制处理单元基于所述第二检测结果对所述科研音频文件和科研视频文件进行科研音频文件基准下的音视同步控制。

6.根据权利要求5所述的一种音视频的音频处理控制系统，其特征在于，所述检测分析结果判断模块还用于获取音频质量检测分析结果和视频质量检测分析结果，判断所述音频质量检测分析结果是否为中高音频质量标记，判断所述视频质量检测分析结果是否为中高视频质量标记，若所述音频质量检测分析结果为中高音频质量标记且所述视频质量检测分析结果为中高视频质量标记，则将中高音频质量标记和中高视频质量标记作为第三检测结果。

7.根据权利要求6所述的一种音视频的音频处理控制系统，其特征在于，所述音视同步模块还包括第三同步控制处理单元，所述第三同步控制处理单元基于所述第三检测结果对所述科研音频文件和科研视频文件进行的音视同步控制。