CN114969428B

CN114969428B - 一种基于大数据的音视频智能监管系统及方法

Info

Publication number: CN114969428B
Application number: CN202210888441.4A
Authority: CN
Inventors: 李沿开
Original assignee: Himedia Technology Ltd
Current assignee: Himedia Technology Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-12-16
Anticipated expiration: 2042-07-27
Also published as: CN114969428A

Abstract

本发明公开了一种基于大数据的音视频智能监管系统及方法，涉及音视频处理技术领域；智能监管方法包括：获取录屏信息；截取录屏信息，分离录屏中的音频和视频，分别提取音频和视频，得到音频集和视频集；提取音频集内任意一个音频，获取音频的特征序列；根据音频的特征序列，识别被分离的音频与视频之间的关联关系，得到被分离的音频与视频的关联结果；根据音频的特征序列，得到与特征序列存在相似距离的其他音频，确定被分离的音频与其他音频的关系；防止未经授权的终端账户所录视频对溯源终端账户产生干扰，对溯源终端账户产生消极的影响，使得溯源终端账户能对未授权的终端账户进行一键式管理。

Description

一种基于大数据的音视频智能监管系统及方法

技术领域

本发明涉及音视频处理技术领域，具体为一种基于大数据的音视频智能监管系统及方法。

背景技术

随着短视频与互联网技术的发展，用户能通过短视频技术向大众分享自身的生活，或者能通过直播/录播的方式向大众推销特产、生活用品等等，从而能解决物品销售量的问题；但部分账户为了提高在直播/录播中的销售额/增加观看短视频的人流量，部分终端账户会截取高销售量的音频信息，将不包含产品特征的音频信息提取，同时将音频信息与自制的视频相结合；但此技术会增加高销售量终端账户面对未授权产品销售的风险，降低其他用户对高销售量终端账户的信任度，因此，需要提取出盗用高销售量终端账户音频信息的用户，防止部分终端账户私自使用高销售量终端账户的音频信息。

发明内容

本发明的目的在于提供一种基于大数据的音视频智能监管系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于大数据的音视频智能监管方法，所述智能监管方法执行如下步骤：

Z1：获取录屏信息；

Z2：截取录屏信息，分离录屏中的音频和视频，分别提取音频和视频，得到音频集和视频集；

Z3：提取音频集内任意一个音频，获取所述音频的特征序列；根据音频的特征序列，识别被分离的音频与视频之间的关联关系，得到被分离的音频与视频的关联结果，若被分离的音频与视频的关联度低，则跳转至步骤Z4；若被分离的音频与视频的关联度高，则保存录屏；

Z4：根据所述音频的特征序列，得到与所述特征序列存在相似距离的其他音频，确定被分离的音频与其他音频的关系。

进一步的，在步骤Z3中，分别截取录屏中的每帧音频和视频，为了得到音频和视频的关联关系，分别设置两层模糊控制；第一层模糊控制以每帧音频以及每帧音频对应的每帧视频的声音强度、音频以及对应视频的特征词、音频以及对应视频的延时时间作为输入变量，将音频与视频对应的模糊融合度系数作为输出变量；第二层模糊控制以模糊融合度系数和录视频的风格系数作为输入变量，将音频和视频的半自制度、自制度作为输出变量；

其中：Q表示录视频的风格系数，

表示时刻，

表示时刻长度，

表示第j时刻的融合度，

表示半自制度的录屏在设定时刻内对应模糊融合度系数的平均值；

如若核实到

>Q’时，表示录屏内的音频和视频为半自制度的关联关系高，且关联关系高于预设关联关系；如若核实到

<Q’，表示录屏内的音频和视频为半自制度的关联关系低，对音频和视频的自制度的关联关系进行分析，进而得到关联结果。

所述融合度表示在录屏中音频与视频的融合结果。

进一步的，在步骤Z4中，获取被分离的音频特征序列和其他音频特征序列，将录屏内音频最初的特征序列作为向量的起点，录屏内音频最终的特征序列作为向量的终点，并形成向量

；将其他音频最初的特征序列作为向量的起点，将其他音频最终的特征序列作为向量的终点，并形成向量

；

表示向量

与向量

的夹角，

表示向量

与向量

之间的相似度；

表示向量

的模，

表示向量

的模；

如若

，表示被分离的音频特征序列与其他音频特征序列不相同；如若

，则表示被分离的音频特征序列与其他音频特征序列相同，得到与被分离的音频特征序列相同的其他音频。

进一步的，获取与被分离音频特征存在相似距离的其他音频集合，相似距离是指其他音频与被分离音频的相似度高于预设相似度；将被分离音频与其他音频存在相似距离的结果输送至其他音频的终端账户，如若其他音频终端账户已向被分离音频的终端账户授权，则表示录屏正常使用其他音频内容；如若其他音频终端账户未向被分离音频的终端账户授权，则表示录屏盗用其他音频内容；

以其他音频为中心，得到已授权的音频和未授权音频的分类结果，其中分类的方式具体为如下步骤：

Z041：获取人工检测的I个账号，并将I个账号作为训练样本集；

Z042：设定X={a₁,a₂}为待分类项，a₁为特征词出现的频率，a₂为特征词是否出现，a₁,a₂作为X的特征属性，依据数据库得到a₁、a₂的划分；

Z043：设定类别集合Y={d₁,d₂}；

Z044：在特征属性为独立条件下，计算P(d1|X)；如若P(d1|X)=max{P(d1|X),P(d2| X)},则X

d1；

其中：a1表示第1个特征词，a2表示第2个特征词，d1表示第1个分类类别，d2表示第2个分类类别；

将未授权的音频对应的终端账户集合输送至其他音频终端账户，使得其他音频终端账户对未授权的音频对应的账户集合进行警告。

一种基于大数据的音视频智能监管系统，所述智能监管系统包括数据采集模块、数据关联分析模块、音频处理模块；

所述数据采集模块用于获取录屏信息，所述录屏信息从数据库中获得；

所述数据关联分析模块用于从同一个录屏信息中分离音频与视频，并确定音频与视频之间的关联关系；所述关联关系用于基于截取录屏中的每帧音频和视频并设置两层模糊控制分析得到，基于关联关系进而得到关联结果；所述模糊控制包括第一层模糊控制和第二层模糊控制，所述第一层模糊控制以每帧音频以及每帧音频对应的每帧视频的声音强度、音频以及对应视频的特征词、音频以及对应视频的延时时间作为输入变量，将音频与视频对应的模糊融合系数作为输出变量；第二层模糊控制以模糊融合系数和录视频的风格系数作为输入变量，将音频和视频的半自制度、自制度作为输出变量；半自制度是指录屏由终端账户半自制，半自制内容为音频或者视频；自制度是指录频中的音频或者视频完全由终端账户自制；

所述音频处理模块用于采集音频的特征序列，根据音频的特征序列，得到与所述特征序列存在相似距离的其他音频，并以存在相似距离的其他音频为中心，建立授权分类模型，所述相似距离是指其他音频与被分离音频的相似度高于预设相似度；

所述音频处理模块与数据采集模块、数据关联分析模块相连接。

进一步的，所述数据采集模块包括录屏数据采集单元、数据库；

所述数据库包括历史录屏数据、历史音频和历史视频；

所述录屏数据采集单元用于从数据库中获取录屏信息。

进一步的，所述数据关联分析模块包括数据分离单元、数据关联识别单元；

所述数据分离单元用于分离录屏信息，得到音频和视频；所述录屏包括音频和视频；

所述数据关联识别单元用于识别分离后的音频和视频的关联关系，得到关联结果。

进一步的，所述音频处理模块包括特征序列采集单元、相似特征验证单元、特征分类单元；

所述特征序列采集单元用于获取分离后的音频特征，并将所述特征输送至相似特征验证单元中；

所述相似特征验证单元用于验证分离后的音频特征和其他音频特征的相似关系；

所述特征分类单元用于核实到分离后的音频特征与其他音频特征存在相似距离时，以其他音频为中心，建立授权分类模型，确定其他音频与分离后的音频的授权关系。

与现有技术相比，本发明所达到的有益效果是：

1、本发明通过数据关联分析模块，能准确得到用户所录制视频中音频与视频的关系，结合了模糊识别算法，能清晰地表示出音频与视频之间的关系，并为下方计算授权关系提供了基础；

2、本发明通过音频处理模块，能确定其他音频是否为被分离音频的溯源音频，使用余弦相似度能验证得到音频特征序列与其他音频特征序列之间的关系，确定了关系的准确性；同时使得溯源终端账户及时对未授权的终端账户进行管理，防止未经授权的终端账户所录视频对溯源终端账户产生干扰、存在商务上的风险，对溯源终端账户产生消极的影响，使得溯源终端账户能对未授权的终端账户进行一键式管理，增加了对终端账户管理的效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于大数据的音视频智能监管系统的模块组成示意图；

图2是本发明一种基于大数据的音视频智能监管方法的步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图2，本发明提供技术方案：

一种基于大数据的音视频智能监管方法，智能监管方法执行如下步骤：

Z1：获取录屏信息；

Z3：提取音频集内任意一个音频，获取音频的特征序列；根据音频的特征序列，识别被分离的音频与视频之间的关联关系，得到被分离的音频与视频的关联结果，若被分离的音频与视频的关联度低，则跳转至步骤Z4；若被分离的音频与视频的关联度高，则保存录屏；

Z4：根据所述音频的特征序列，得到与特征序列存在相似距离的其他音频，确定被分离的音频与其他音频的关系。

其中：Q表示录视频的风格系数，

表示时刻，

表示时刻长度，

表示第j时刻的融合度，

如若核实到

<Q’，表示录屏内的音频和视频为半自制度的关联关系低，对音频和视频的自制度的关联关系进行分析，进而得到关联结果；

融合度表示在录屏中音频与视频的融合结果；

通过上述方式计算录视频的风格系数，能准确得到用户所录制视频中音频与视频的关系，其中

为方差，

是指两倍的方差，即标准差；相比于使用其他方法来验证录视频的风格系数，本方法的准确性较高，本发明结合了模糊识别算法，能清晰地表示出音频与视频之间的关系，并为下方计算授权关系提供了基础；

半自制度是指录屏由终端账户半自制，半自制内容为音频或者视频；自制度是指录屏中的音频或者视频完全由终端账户自制。

；

表示向量

与向量

的夹角，

表示向量

与向量

之间的相似度；

表示向量

的模，

表示向量

的模；

如若

，则表示被分离的音频特征序列与其他音频特征序列相同，得到与被分离的音频特征序列相同的其他音频；

所述音频的特征序列包括频率、幅度和相位；

通过遍历与被分离的音频特征序列相同的特征序列，得到最终最相似的其他音频，从而能确定其他音频是否为被分离音频的溯源音频；如若得到的并非为溯源音频，则并不能准确性地得到被分离的音频是否为盗取溯源音频，或者，被溯源音频所授权的信息；因此，使用余弦相似度能验证得到音频特征序列与其他音频特征序列之间的关系，确定了关系的准确性。

Z042：设定X={a1,a2}为待分类项，a1为特征词出现的频率，a2为特征词是否出现，a1,a2作为X的特征属性，依据数据库得到a1、a2的划分；

Z043：设定类别集合Y={d1,d2}；

d1；

将未授权的音频对应的终端账户集合输送至其他音频终端账户，使得其他音频终端账户对未授权的音频对应的账户集合进行警告；

通过对音频是否被分类进行分析，能使得溯源终端账户及时对未授权的终端账户进行管理，防止未经授权的终端账户所录视频对溯源终端账户产生干扰、存在商务上的风险，对溯源终端账户产生消极的影响，因此，通过本申请中的分类方式能提高分类的准确率，使得溯源终端账户能对未授权的终端账户进行一键式管理，增加了对终端账户管理的效率。

一种基于大数据的音视频智能监管系统，智能监管系统包括数据采集模块、数据关联分析模块、音频处理模块；

数据采集模块用于获取录屏信息，录屏信息从数据库中获得；

数据关联分析模块用于从同一个录屏信息中分离音频与视频，并确定音频与视频之间的关联关系；关联关系用于基于截取录屏中的每帧音频和视频并设置两层模糊控制分析得到，基于关联关系进而得到关联结果；模糊控制包括第一层模糊控制和第二层模糊控制，第一层模糊控制以每帧音频以及每帧音频对应的每帧视频的声音强度、音频以及对应视频的特征词、音频以及对应视频的延时时间作为输入变量，将音频与视频对应的模糊融合系数作为输出变量；第二层模糊控制以模糊融合系数和录视频的风格系数作为输入变量，将音频和视频的半自制度、自制度作为输出变量；半自制度是指录屏由终端账户半自制，半自制内容为音频或者视频；自制度是指录频中的音频或者视频完全由终端账户自制；

音频处理模块用于采集音频的特征序列，根据音频的特征序列，得到与特征序列存在相似距离的其他音频，并以存在相似距离的其他音频为中心，建立授权分类模型，相似距离是指其他音频与被分离音频的相似度高于预设相似度；

音频处理模块与数据采集模块、数据关联分析模块相连接。

数据采集模块包括录屏数据采集单元、数据库；

数据库包括历史录屏数据、历史音频和历史视频；

录屏数据采集单元用于从数据库中获取录屏信息。

数据关联分析模块包括数据分离单元、数据关联识别单元；

数据分离单元用于分离录屏信息，得到音频和视频；录屏包括音频和视频；

数据关联识别单元用于识别分离后的音频和视频的关联关系，得到关联结果。

音频处理模块包括特征序列采集单元、相似特征验证单元、特征分类单元；

特征序列采集单元用于获取分离后的音频特征，并将特征输送至相似特征验证单元中；

相似特征验证单元用于验证分离后的音频特征和其他音频特征的相似关系；

特征分类单元用于核实到分离后的音频特征与其他音频特征存在相似距离时，以其他音频为中心，建立授权分类模型，确定其他音频与分离后的音频的授权关系。

实施例：获取被分割的音频，若要确定音频的授权分类结果，则以其他音频为中心，其中分类的方式通过贝叶斯方法实现，具体实现方法为：

Z041：获取人工检测的I=10000个账号，并将I=10000个账号作为训练样本集；

Z042：设定X={a₁,a₂}为待分类项，a₁为特征词出现的频率，a₂为特征词是否出现，a₁,a₂作为X的特征属性，依据数据库得到a₁、a₂的划分，a₁={0.075<a<0.25},a₂={a=0(未出现),a=1（出现）}

Z043：设定类别集合Y={d₁,d₂}={其他音频与被分离的音频存在授权关系’1’，其他音频与被分离的音频不存在授权关系’0’}；

Z044：在特征属性为独立条件下，计算P(d₁|X)；如若P(d₁|X)=max{P(d₁|X),P(d₂| X)},则X

d₁；获取在训练样本中授权的音频量和未授权的音频量，具体包括8500和1500；

则得到P(Y=1)=

，P(Y=0)=

；

得到每个类别条件下每个特征属性划分的频率；

得到P(Y=0|X|Y=0)=P(Y=0)*P(

|

)*P(

)*P(

)=0.85*0.29*0.15*0.35=0.0129；

得到P(Y=1|X|Y=1)=P(Y=1)*P(

|

)*P(

)*P(

)=0.15*0.6*0.4*0.55=0.0198；

得到P(Y=1|X|Y=1)>P(Y=0|X|Y=0)，则表示其他音频与被分离的音频存在授权关系。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的音视频智能监管方法，其特征在于：所述智能监管方法执行如下步骤：

Z1：获取录屏信息；

Z3：提取音频集内任意一个音频，获取所述音频的特征序列；根据音频的特征序列，识别被分离的音频与视频之间的关联关系，得到被分离的音频与视频的关联结果；若被分离的音频与视频的关联度低，则跳转至步骤Z4；若被分离的音频与视频的关联度高，则保存录屏；

在步骤Z3中，分别截取录屏中的每帧音频和视频，为了得到音频和视频的关联关系，分别设置两层模糊控制；第一层模糊控制以每帧音频以及每帧音频对应的每帧视频的声音强度、音频以及对应视频的特征词、音频以及对应视频的延时时间作为输入变量，将音频与视频对应的模糊融合度系数作为输出变量；第二层模糊控制以模糊融合度系数和录视频的风格系数作为输入变量，将音频和视频的半自制度、自制度作为输出变量；

其中：Q表示录视频的风格系数，

表示时刻，

表示时刻长度，

表示第j时刻的融合度，

半自制度是指录屏由终端账户半自制，半自制内容为音频或者视频；

自制度是指录频中的音频或者视频完全由终端账户自制；

如若核实到

Z4：根据所述音频的特征序列，得到与所述特征序列存在相似距离的其他音频，确定被分离的音频与其他音频的关系；

获取与被分离音频特征存在相似距离的其他音频集合，相似距离是指其他音频与被分离音频的相似度高于预设相似度；将被分离音频与其他音频存在相似距离的结果输送至其他音频的终端账户，如若其他音频终端账户已向被分离音频的终端账户授权，则表示录屏正常使用其他音频内容；如若其他音频终端账户未向被分离音频的终端账户授权，则表示录屏盗用其他音频内容；

Z043：设定类别集合Y={d1,d2}；

Z044：在特征属性为独立条件下，计算P(d1|X)；如若P(d1|X)=max{P(d1|X),P(d2|X)}, 则X

d1；

2.根据权利要求1所述的一种基于大数据的音视频智能监管方法，其特征在于：在步骤 Z4中，获取被分离的音频特征序列和其他音频特征序列，将录屏内音频最初的特征序列作为向量的起点，录屏内音频最终的特征序列作为向量的终点，并形成向量

；

表示向量

与向量

的夹角，

表示向量

与向量

之间的相似度；

表示向量

的模，

表示向量

的模；

如若

3.一种基于大数据的音视频智能监管系统，其特征在于：所述智能监管系统包括数据采集模块、数据关联分析模块、音频处理模块；

所述音频处理模块用于采集音频的特征序列，根据音频的特征序列，得到与所述特征序列存在相似距离的其他音频，并以存在相似距离的其他音频为中心，建立授权分类模型，所述相似距离是指其他音频与被分离音频的相似度高于预设相似度；将被分离音频与其他音频存在相似距离的结果输送至其他音频的终端账户，如若其他音频终端账户已向被分离音频的终端账户授权，则表示录屏正常使用其他音频内容；如若其他音频终端账户未向被分离音频的终端账户授权，则表示录屏盗用其他音频内容；

Z043：设定类别集合Y={d1,d2}；

d1；

4.根据权利要求3所述的一种基于大数据的音视频智能监管系统，其特征在于：所述数据采集模块包括录屏数据采集单元、数据库；

所述数据库包括历史录屏数据、历史音频和历史视频；

所述录屏数据采集单元用于从数据库中获取录屏信息。

5.根据权利要求3所述的一种基于大数据的音视频智能监管系统，其特征在于：所述数据关联分析模块包括数据分离单元、数据关联识别单元；

6.根据权利要求3所述的一种基于大数据的音视频智能监管系统，其特征在于：所述音频处理模块包括特征序列采集单元、相似特征验证单元、特征分类单元；