CN115309920A

CN115309920A - 一种基于融合大数据的音视频管理方法及系统

Info

Publication number: CN115309920A
Application number: CN202211219176.7A
Authority: CN
Inventors: 黄鹏; 黎刚; 吴楠; 李航; 冯淼; 李友刚; 左翔; 孙州义
Original assignee: Information Center Of State Administration Of Radio And Television
Current assignee: Information Center Of State Administration Of Radio And Television
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2022-11-08

Abstract

本发明公开了一种基于融合大数据的音视频管理方法及系统，通过获取音视频文件，针对所述音视频文件中的视频内容，建立音视频资源库,对音视频资源库中的每一组原音视频文件，均生成其专用特征指纹数据。在调度处理音视频文件时，播放目标音视频文件，实时提取目标音视频文件的专用特征指纹数据，根据设定的切换开始条件对所述目标音视频文件的专用特征指纹数据进行实时匹配，当匹配成功时，则播放待插入的音视频文件。通过上述方案，本发明在音视频内容调度处理时，无需配置额外功能模块，仍然能够高效的精准调度管理音视频文件。

Description

一种基于融合大数据的音视频管理方法及系统

技术领域

本申请涉及音视频管理技术领域，特别是涉及一种音视频管理方法及系统。

背景技术

当前，无论是广播电视领域还是新媒体领域，音视频直播、点播内容的调度管理都基于音视频人为定义的内容名称进行管理调度和分发。

其中，音视频直播信号，采用基于传输信号名称进行管理的管道式调度方式，在海量直播信号汇聚时，需要通过人为编辑任务单，为下游用户提供直播信号。在直播信号逐节点传输时，由于有时延的存在，如果没有视频内容分析模块的辅助，无法得到内容切换的开始时间点和结束时间点。并且，由于无法确认内容是否被篡改、内容是否合规，需要额外在节点处配置内容识别、内容监控、版权审核等对应功能模块。如果直播节目数量巨大、内容片段运营切换要求高、传输节点交互多的情况下，配置相应的技术模块不仅不现实，而且调度效率低下容易错切漏切。

同样，在音视频文件传输调度管理时，海量内容片库的查询、去重、分发，都是基于内容名称来分类处理。在内容注入片库前，虽然可以通过人工智能进行智能化场景分类，但分类后的去重和查询，也是基于场景定义好的名称进行管理。由于音视频内容是非结构化数据，当出现要处理的目标音视频内容是片库中的片段化内容，则无法直接通过名称定义或拟定的场景来进行区分、查询等工作，因此在调度管理时，这类片段内容无法满足更多场景的使用，或者需要额外配置功能模块进行进一步分析处理，才可以满足。

发明内容

本申请提供一种基于融合大数据的音视频管理方法及系统，在音视频内容在调度处理时，无需配置额外功能模块，仍然能够高效的精准调度管理音视频文件。

第一方面，一种基于融合大数据的音视频管理方法，所述方法包括：

A.构建音视频文件专用特征指纹数据库

建立音视频资源库；

对于所述音视频资源库中的每一组原音视频文件，均生成其专用特征指纹数据；具体是：针对视频内容进行视频解码还原成原始帧序列，采用第一算法分别提取每一帧的特征指纹数据，并按照原始帧序列时序组合形成第一特征指纹数据；针对音频内容，采用第二算法提取第二特征指纹数据；根据所述原始帧序列的时间节点，将第一特征指纹数据与第二特征指纹数据进行关联，得到该原音视频文件的专用特征指纹数据；

将各组原音视频文件对应的专用特征指纹数据统一存储，构成专用特征指纹数据库；

B.调度处理当前音视频文件

播放目标音视频文件，所述目标音视频文件取自所述音视频资源库；

在播放过程中，分别按照所述第一算法和第二算法，实时提取目标音视频文件中相应的第一特征指纹数据和第二特征指纹数据，并将所述目标音视频文件中相应的第一特征指纹数据和第二特征指纹数据进行关联，得到目标音视频文件的专用特征指纹数据；

根据设定的切换开始条件对所述目标音视频文件的专用特征指纹数据进行实时匹配；所述设定的切换开始条件为目标音视频文件中指定的某一帧对应的专用特征指纹数据，当匹配成功时，则改为播放待插入的音视频文件；所述待插入的音视频文件也取自所述音视频资源库；

根据设定的切换结束条件对当前播放的音视频文件的专用特征指纹数据进行实时匹配；所述设定的切换结束条件为所述待插入的音视频文件中指定的某一帧对应的专用特征指纹数据，当匹配成功时，则重新继续播放目标音视频文件或者根据指定的调度位置播放。

上述方案中，可选的，所述分别提取每一帧的特征指纹数据，并按照原始帧序列时序组合形成第一特征指纹数据具体为：

步骤201：对所述音视频文件中视频内容进行视频解码，得到该视频内容的原始帧序列；

步骤202：并将每一帧图像划分为64个区域，搜索其中一个区域内所有尺度上的图像位置，通过高斯微分函数来识别对于尺度和旋转不变的关键点，并量化这些数据，得到这一帧图像唯一的特征指纹数据；

步骤203：采用步骤202方法对所有帧序列进行同样处理，得到整个视频内容的专用特征指纹数据作为第一特征指纹数据。

上述方案中，进一步可选的，所述采用第二算法提取第二特征指纹数据具体为：

将所述音视频文件中音频内容进行采集处理成声纹数据，并通过声纹进行量化压缩处理，得到专用音频特征指纹数据作为第二特征指纹数据。

上述方案中，进一步可选的，所述方法还包括：

C.查询检索或去重检索

接收待检索的目标音视频文件；

分别按照所述第一算法和第二算法，实时提取待检索的目标音视频文件中相应的第一特征指纹数据和第二特征指纹数据，并进行关联，得到待检索的目标音视频文件的专用特征指纹数据；

根据用户确定的检索范围，在所述音视频文件专用特征指纹数据库中匹配所述待检索的目标音视频文件的专用特征指纹数据；

若出现某一帧或多帧的专用特征指纹数据相匹配，则相应确定为重复帧，输出相应的提示信息，实现查询检索或去重检索。

上述方案中，进一步可选的，所述方法还包括：

D.内容监测

接收待监测的目标音视频文件和经过上一审核节点的已审核音视频文件；

分别按照所述第一算法和第二算法，实时提取待监测的目标音视频文件中相应的第一特征指纹数据和第二特征指纹数据，并进行关联，得到待监测的目标音视频文件的专用特征指纹数据；

分别按照所述第一算法和第二算法，实时提取已审核音视频文件相应的第一特征指纹数据和第二特征指纹数据，并进行关联，得到已审核音视频文件的专用特征指纹数据；

将所述待监测的目标音视频文件的专用特征指纹数据与所述已审核音视频文件的专用特征指纹数据进行匹配；

若完全匹配，则表明两者音视频文件内容一致，输出相应的提示信息；

若出现至少一帧专用特征指纹数据不匹配，则判定内容有篡改，输出相应的提示信息。

第二方面，一种基于融合大数据的音视频管理系统，所述系统包括：

建立模块：用于建立音视频资源库；

生成模块：用于对于所述音视频资源库中的每一组原音视频文件，均生成其专用特征指纹数据；具体是：针对视频内容进行视频解码还原成原始帧序列，采用第一算法分别提取每一帧的特征指纹数据，并按照原始帧序列时序组合形成第一特征指纹数据；针对音频内容，采用第二算法提取第二特征指纹数据；根据所述原始帧序列的时间节点，将第一特征指纹数据与第二特征指纹数据进行关联，得到该原音视频文件的专用特征指纹数据；

存储模块：用于将各组原音视频文件对应的专用特征指纹数据统一存储，构成专用特征指纹数据库；

播放模块：用于播放目标音视频文件，所述目标音视频文件取自所述音视频资源库；

提取模块：用于在播放过程中，分别按照所述第一算法和第二算法，实时提取目标音视频文件中相应的第一特征指纹数据和第二特征指纹数据，并将所述目标音视频文件中相应的第一特征指纹数据和第二特征指纹数据进行关联，得到目标音视频文件的专用特征指纹数据；

第一切换模块：用于根据设定的切换开始条件对所述目标音视频文件的专用特征指纹数据进行实时匹配；所述设定的切换开始条件为目标音视频文件中指定的某一帧对应的专用特征指纹数据，当匹配成功时，则改为播放待插入的音视频文件；所述待插入的音视频文件也取自所述音视频资源库；

第二切换模块：用于根据设定的切换结束条件对当前播放的音视频文件的专用特征指纹数据进行实时匹配；所述设定的切换结束条件为所述待插入的音视频文件中指定的某一帧对应的专用特征指纹数据，当匹配成功时，则重新继续播放目标音视频文件或者根据指定的调度位置播放。

所述系统还包括：

查询检索模块：用于接收待检索的目标音视频文件；

所述系统还包括：

内容监测模块：用于接收待监测的目标音视频文件和经过上一审核节点的已审核音视频文件；

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

A.构建音视频文件专用特征指纹数据库

建立音视频资源库；

B.调度处理当前音视频文件

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

A.构建音视频文件专用特征指纹数据库

建立音视频资源库；

B.调度处理当前音视频文件

本发明至少具有以下有益效果：

本发明基于对现有技术问题的进一步分析和研究，通过获取音视频文件，针对所述音视频文件中的视频内容，建立音视频资源库,对音视频资源库中的每一组原音视频文件，均生成其专用特征指纹数据。在调度处理音视频文件时，播放目标音视频文件，实时提取目标音视频文件的专用特征指纹数据，根据设定的切换开始条件对所述目标音视频文件的专用特征指纹数据进行实时匹配，当匹配成功时，则播放待插入的音视频文件。通过上述方案，本发明在音视频内容在调度处理时，无需配置额外功能模块，仍然能够高效的精准调度管理音视频文件。

本发明还能够大幅度提高音视频内容调度精准度、提高内容检索效率、提高内容去重效率、减少内容监测和版权监测的重复工作量。

附图说明

图1为本发明一个实施例提供的基于融合大数据的音视频管理方法中建立音视频文件专用特征指纹数据库的流程示意图；

图2为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于融合大数据的音视频管理方法，在一个实施例中，提供了一种基于融合大数据的音视频管理方法，包括以下步骤：

A.建立音视频文件专用特征指纹数据库，如图1所示，

建立音视频资源库；

其中，所述根据所述原始帧序列的时间节点，将第一特征指纹数据与第二特征指纹数据进行关联。例如，所述原始帧序列的时间节点为目标音视频播放时间为第一分二十秒，所述第一特征指纹数据为该目标音视频播放时间为第一分二十秒时对应的视频帧的特征指纹数据，所述第二特征指纹数据为该目标音视频播放时间为第一分二十秒时对应的音频的特征指纹数据，将第一特征指纹数据与第二特征指纹数据进行关联，可以为将两组指纹数据进行合并,例如，原音视频文件的第一特征指纹数据为123……123，原音视频文件的第二特征指纹数据为abc……abc，则原音视频文件的专用特征指纹数据为123……123abc……abc。

在一个实施例中，所述分别提取每一帧的特征指纹数据，并按照原始帧序列时序组合形成第一特征指纹数据可以为：

针对所述原音视频文件中的音频内容，采用第二算法提取第二特征指纹数据；

在一个实施例中，采用第二算法提取第二特征指纹数据可以为：将所述音视频文件中音频内容进行采集处理成声纹数据，并通过声纹进行量化压缩处理，得到专用音频特征指纹数据作为第二特征指纹数据。

根据所述原始帧序列的时间节点，将第一特征指纹数据与第二特征指纹数据进行关联，得到该原音视频文件的专用特征指纹数据，并将所述专用特征指纹数据存储至预先设置的音视频文件专用特征指纹数据库中。

在一个实施例中，将第一特征指纹数据与第二特征指纹数据进行关联，可以为将两组指纹数据进行合并,例如，原音视频文件的第一特征指纹数据为123……123，原音视频文件的第二特征指纹数据为abc……abc，则原音视频文件的专用特征指纹数据为123……123abc……abc。

B.调度处理当前音视频文件

在一个实施例中，所述切换开始条件为当所述目标音视频文件播放到第三分三十秒对应的视频帧对应的专用特征指纹数据，例如，该专用特征指纹数据可以为123……123abc……abc，当所述目标音视频文件实时播放的视频帧对应的专用特征指纹数据与所述第三分三十秒对应的视频帧对应的专用特征指纹数据匹配成功时，进行视频切换，播放预先存储的待插入的音视频文件。

在一个实施例中，所述切换结束条件为当所述待插入的音视频文件播放到第三分三十秒对应的视频帧对应的专用特征指纹数据，例如，该专用特征指纹数据可以为234……234bcd……bcd，当所述待插入的音视频文件实时播放的视频帧对应的专用特征指纹数据与所述第三分三十秒对应的视频帧对应的专用特征指纹数据匹配成功时，进行视频切换，重新继续播放所述目标音视频文件。其中，所述重新继续播放所述目标音视频文件可以分为两种情况，第一种情况为：所述目标音视频文件在切换所述待插入的音视频文件的过程中为暂停状态，此时，以暂停位置为起始位置继续播放目标音视频文件。例如，目标音视频文件为正在播放的电视剧，所述待插入的音视频文件为广告音视频。第二种情况为：所述目标音视频文件在切换所述待插入的音视频文件的过程中为持续播放状态，所述目标音视频文件的播放不受所述待插入的音视频影响。

在一个调度场景中：切换条件具体分为切换开始、切换结束，目标音视频文件具体分为音视频文件A，待插入的音视频文件为音视频文件B，当到达切换开始条件时插入音视频文件B，即此时音视频文件B作为新的正在播放的音视频文件，当到达切换结束条件时，音视频文件A重新继续播放。

在一个实施例中，例如：在当前音视频文件播放到老师走上讲台时，所述老师走上讲台时对应当前音视频文件播放到第N帧图像时，切换当前音视频文件为下一音视频文件，提前获取第N帧图像对应的音视频文件的专用特征指纹数据，并匹配当前音视频文件的实时专用特征指纹数据，若匹配成功，则进行切换下一音频文件，其中，所述音视频文件可以为电影片段或直播片段以及短视频片段等等，本申请在此不做限定。

在一个实施例中，所述方法还包括：C.查询检索或去重检索

接收待检索的目标音视频文件；

D.内容监测

在音视频调度过程中，仅仅采用音频信息或视频信息进行调度，可能出现音视频中音频内容与视频内容不对应，从而用户体验较差，而采用本发明调度方法不存在上述问题。现有技术在内容检索和内容去重方面，由于采用基于名称定义和场景分类，在检索去重时，主要基于名称编目信息匹配，而涉及到精细化片段到查询检索，以及新增内容的去重检索时，需要人工耗时耗力。基于本发明，可以对所有音视频通过音视频融合数据特征指纹模块提取专用音视频指纹数据，形成音视频指纹数据库。当需要进行检索或去重时，只需要对目标内容提取特征指纹数据，通过生成的目标特征指纹数据，与专用音视频指纹数据库里的数据进行自动化匹配，如果匹配成功，则说明检索成功，或者证明重复内容。整个过程所需时间极短，尤其在海量音视频库里进行查找时，可以大幅度提高查找效率。

在一个实施例中，还包括一种音视频文件的切换方法，具体为：响应于用户的第二输入，获取待切换音视频文件。其中，用的的第二输入为提供所要调度的音视频文件。其中，所述音视频文件可以为电影片段、直播片段、短视频内容等等。

针对所述待切换音视频文件中的视频内容，分别提取每一帧的特征指纹数据，并按照原始帧序列时序组合形成第一特征指纹数据。其中，所述分别提取每一帧的特征指纹数据，并按照原始帧序列时序组合形成第一特征指纹数据具体为：步骤201：对所述音视频文件中视频内容进行视频解码，得到该视频内容的原始帧序列；

步骤202：并将每一帧图像划分为64个区域，搜索64个区域每个区域中所含图像内容结构，并对该区域中对应图像结构关键点计量周边图像结构对应此关键点的尺度上的图像，通过高斯微分函数来识别对于尺度和旋转不变的关键点，并量化这些数据，得到这一帧图像唯一的特征指纹数据；

通过上述方案，本发明大幅度提高了音视频内容调度精准度、提高了内容检索效率、提高了内容去重效率、减少了内容监测和版权监测的重复工作量。

本申请与现有技术相比，现有技术在音视频内容调度上，主要依据节目名称和节目单进行调度，如果实现基于内容的精准调度，比如按指定内容切换，则需要对音视频进行解码观看，并通过人工进行切换，尤其在海量内容高频切换时，精准度无法保证。通过本发明设计，可以对目标音视频内容和需要切换的指定内容，通过音视频融合数据特征指纹模块提取专用音视频特征指纹数据，并实时自动检索匹配。当匹配比对特征指纹数据一致时，即认为切换开始，同理，当指定内容特征指纹数据结束时，认为切换结束。这样，便实现了整个切换调度自动处理的流程。通过本发明，无需再对音视频进行解码和人为操作，并能达到精准切换调度的效果。现有技术在内容检索和内容去重方面，由于采用基于名称定义和场景分类，在检索去重时，主要基于名称编目信息匹配，而涉及到精细化片段到查询检索，以及新增内容的去重检索时，需要人工耗时耗力。基于本发明，可以对所有音视频通过音视频融合数据特征指纹模块提取专用音视频指纹数据，形成音视频指纹数据库。当需要进行检索或去重时，只需要对目标内容提取特征指纹数据，通过生成的目标特征指纹数据，与专用音视频指纹数据库里的数据进行自动化匹配，如果匹配成功，则说明检索成功，或者证明重复内容。整个过程所需时间极短，尤其在海量音视频库里进行查找时，可以大幅度提高查找效率。现有技术在内容监测和版权监测时，通过对音视频内容进行人工或智能审核，得到结论后才可以进行分发和传播，但是每到下一节点，再传输和分发前还要进行人工或智能审核。而通过本发明，可以通过对审核通过后的音视频，通过音视频融合数据特征指纹模块生成专用音视频指纹数据。音视频内容通过每一个传输节点，只需再次提取专用音视频指纹数据，与原审核后的音视频指纹数据进行比对，只要比对一致即可不用审核，反之，只要比对不一致，就可以认为内容有篡改，需要重新审核。这样，减少了多次人工审核和机器智能审核的工作量。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种基于融合大数据的音视频管理系统，包括以下程序模块：建立模块：用于建立音视频资源库；

所述系统还包括：

查询检索模块：用于接收待检索的目标音视频文件；

关于基于融合大数据的音视频管理系统的具体限定可以参见上文中对于基于融合大数据的音视频管理方法的限定，在此不再赘述。上述基于融合大数据的音视频管理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于融合大数据的音视频管理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于融合大数据的音视频管理方法。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于融合大数据的音视频管理方法，其特征在于，所述方法包括：

A.构建音视频文件专用特征指纹数据库

建立音视频资源库；

B.调度处理当前音视频文件

2.根据权利要求1所述的方法，其特征在于，所述分别提取每一帧的特征指纹数据，并按照原始帧序列时序组合形成第一特征指纹数据具体为：

3.根据权利要求1所述的方法，其特征在于，所述采用第二算法提取第二特征指纹数据具体为：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

C.查询检索或去重检索

接收待检索的目标音视频文件；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

D.内容监测

6.一种基于融合大数据的音视频管理系统，其特征在于，所述系统包括：

建立模块：用于建立音视频资源库；

7.根据权利要求6所述的系统，其特征在于，所述系统还包括：

查询检索模块：用于接收待检索的目标音视频文件；

8.根据权利要求6所述的系统，其特征在于，所述系统还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。