CN117710870B

CN117710870B - 基于大数据技术的互联网内容监测方法、设备及存储介质

Info

Publication number: CN117710870B
Application number: CN202410161975.6A
Authority: CN
Inventors: 戴亦斌; 周诗林
Original assignee: Wuhan Bote Intelligent Technology Co ltd
Current assignee: Wuhan Bote Intelligent Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-04-30
Anticipated expiration: 2044-02-05
Also published as: CN117710870A

Abstract

本申请公开了一种基于大数据技术的互联网内容监测方法、设备及存储介质，涉及大数据识别技术领域，其方法包括：获取用户上传的未公开视频数据，并在互联网上获取视频数据；对视频数据的视频帧进行采样，得到采样后的视频帧；在采样后的视频帧中，确定视频帧间的光流向量的大小和方向，并根据光流向量的大小和方向，确定采样后的视频帧中的关键帧；采用大数据技术提取关键帧与未公开视频数据的视频帧的特征，并根据关键帧的特征与未公开视频数据的视频帧的特征，计算视频数据与未公开视频数据的相似度；在相似度大于预设相似度的情况下，将未公开视频数据作为风险数据并显示。本申请用以提高互联网内容监测的准确性。

Description

基于大数据技术的互联网内容监测方法、设备及存储介质

技术领域

本申请涉及大数据识别技术领域，具体地涉及一种基于大数据技术的互联网内容监测方法、设备及存储介质。

背景技术

对于上述现有技术，依赖人工审核的方式会造成出现漏检或误判的情况，降低互联网内容监测的准确性。

发明内容

本申请实施例的目的是提供一种基于大数据技术的互联网内容监测方法、设备及存储介质，用以提高互联网内容监测的准确性。

为了实现上述目的，本申请第一方面提供一种基于大数据技术的互联网内容监测方法，包括：

获取用户上传的未公开视频数据，并在互联网上获取视频数据；

对所述视频数据的视频帧进行采样，得到采样后的视频帧；

在采样后的视频帧中，确定视频帧间的光流向量的大小和方向，并根据光流向量的大小和方向，确定采样后的视频帧中的关键帧；

采用大数据技术提取所述关键帧与所述未公开视频数据的视频帧的特征，并根据所述关键帧的特征与所述未公开视频数据的视频帧的特征，计算所述视频数据与所述未公开视频数据的相似度；

在所述相似度大于预设相似度的情况下，将所述未公开视频数据作为风险数据并显示。

可选的，所述在采样后的视频帧中，确定视频帧间的光流向量的大小和方向，并根据光流向量的大小和方向，确定采样后的视频帧中的关键帧，包括：

对采样后的所述视频帧进行光流向量估计，得到视频帧间像素点的光流向量的大小和方向，其中，光流向量的大小用于表征像素点在视频帧间的运动幅度，光流向量的方向用于表征像素点的运动方向；

在光流向量的大小超过第一预设阈值，且光流向量的方向大于预设角度偏移量的情况下，确定像素点所在的视频帧为关键帧。

可选的，所述在光流向量的大小超过第一预设阈值，且光流向量的方向大于预设角度偏移量的情况下，确定像素点所在的视频帧为关键帧，还包括：

在光流向量的大小超过第一预设阈值，且光流向量的方向大于预设角度偏移量的情况下，获取像素点所在的视频帧，并将所述像素点所在的视频帧作为当前帧；

将所述当前帧与前一帧进行灰度化，得到两个灰度图像；

对两个所述灰度图像进行像素级差分运算，计算两个灰度图像之间像素的差异，得到差分图像；

对所述差分图像进行图像处理，提取得到变化区域，并获取所述变化区域的像素差异值；

在所述像素差异值大于预设阈值的情况下，确定所述当前帧为关键帧。

可选的，所述在所述像素差异值大于预设阈值的情况下，确定所述当前帧为关键帧，包括：

在所述像素差异值大于预设阈值的情况下，确定所述当前帧的灰度图像清晰度是否大于所述前一帧的灰度图像清晰度；

在所述前一帧的灰度图像清晰度大于所述前一帧的灰度图像清晰度的情况下，确定所述当前帧为关键帧。

可选的，所述特征包括视频帧率，所述采用大数据技术提取所述关键帧与所述未公开视频数据的视频帧的特征，并根据所述关键帧的特征与所述未公开视频数据的视频帧的特征，计算所述视频数据与所述未公开视频数据的相似度，包括：

将所述关键帧与所述未公开视频数据的视频帧加载至大数据处理框架中，并根据所述大数据处理框架中的视频处理算法提取所述关键帧与所述未公开视频数据的视频帧的时间戳，并根据所述时间戳计算所述关键帧的视频帧率与所述未公开视频数据的视频帧的视频帧率，其中视频帧率为通过时间戳计算的相邻帧之间的平均时间间隔的倒数；

采用相似度计算公式，根据所述时间戳计算所述关键帧的视频帧率与所述未公开视频数据的视频帧的视频帧率计算所述视频数据与所述未公开视频数据的第一相似度。

可选的，所述相似度计算公式包括：

；

式中，δ为所述第一相似度，P1为所述关键帧的视频帧率，Px为所述未公开视频数据的视频帧的视频帧率。

可选的，所述特征还包括分辨率，在所述根据所述大数据处理框架中的视频处理算法提取所述关键帧与所述未公开视频数据的视频帧的时间戳，并根据所述时间戳计算所述关键帧的视频帧率与所述未公开视频数据的视频帧的视频帧率之后，还包括：

根据所述大数据处理框架中的图像处理算法对所述关键帧与所述未公开视频数据的视频帧进行分辨率提取，得到所述关键帧的分辨率和所述未公开视频数据的每个视频帧的分辨率；

根据所述关键帧的分辨率和所述未公开视频数据的每个视频帧的分辨率，采用预设相似度算法计算所述视频数据与所述未公开视频数据的第二相似度；

将所述第一相似度与预设第一权重的乘积与所述第二相似度与预设第二权重的乘积之和作为所述视频数据与所述未公开视频数据的第二相似度。

可选的，所述特征还包括音频特征，在所述将所述第一相似度与预设第一权重的乘积与所述第二相似度与预设第二权重的乘积之和作为所述视频数据与所述未公开视频数据的第二相似度之后，还包括：

获取所述视频数据的音频特征与所述未公开视频数据的音频特征；

采用预设的相关系数算法确定所述视频数据的音频特征与所述未公开视频数据的音频特征的相关系数；

在所述相关系数大于相关系数阈值的情况下，确定所述视频数据的音频特征与所述未公开视频数据的音频特征一致，执行所述将所述未公开视频数据作为风险数据并显示的步骤；

在所述相关系数小于或等于所述相关系数阈值的情况下，确定所述视频数据的音频特征与所述未公开视频数据的音频特征不一致，执行所述将所述第一相似度与预设第一权重的乘积与所述第二相似度与预设第二权重的乘积之和作为所述视频数据与所述未公开视频数据的第二相似度的步骤。

本申请第二方面提供一种基于大数据技术的互联网内容监测设备，包括：

存储器，被配置成存储指令；以及

处理器，被配置成从所述存储器调用所述指令以及在执行所述指令时能够实现上述的基于大数据技术的互联网内容监测方法。

本申请第三方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的基于大数据技术的互联网内容监测方法。

通过上述技术方案，首先，利用大数据技术获取用户上传的未公开视频数据和互联网上的视频数据，实现了对互联网内容的全面监测，相比于传统的互联网监测方法，能够获取更多的视频数据，从而提高了监测的覆盖范围和准确性；其次，通过对视频帧的采样和光流向量的计算，确定采样后的视频帧中的关键帧，可以更快速地对视频进行特征提取和分析，有利于提高监测的效率和准确性；此外，采用大数据技术提取关键帧和未公开视频数据的特征，并计算相似度，可以准确判断未公开视频数据与已有视频数据的相似程度。通过相似度计算，可以精确评估视频数据的风险程度，提供更可靠的风险判断依据，从而有效提高互联网内容监测的准确性。

本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请实施例，但并不构成对本申请实施例的限制。在附图中：

图1示意性示出了根据本申请实施例的一种基于大数据技术的互联网内容监测方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1示意性示出了根据本申请实施例的一种基于大数据技术的互联网内容监测方法的流程示意图。如图1所示，本申请实施例提供一种基于大数据技术的互联网内容监测方法，该方法可以包括下列步骤。

S101、获取用户上传的未公开视频数据，并在互联网上获取视频数据。

本实施例中，通过互联网服务器获取用户上传的未公开视频数据。未公开视频数据指的是用户上传至互联网平台的视频内容，但尚未公开或发布给其他用户观看的视频。未公开视频数据通常存储在互联网平台的服务器上，只有上传者可以访问和管理未公开视频。

互联网上获取的视频数据是指已经被公开的视频内容。

S102、对视频数据的视频帧进行采样，得到采样后的视频帧。

本实施例中，将视频数据分解为一系列连续的帧，然后通过采样的方式选择一部分帧作为代表，例如，可以选择固定间隔进行采样，得到采样后的视频帧。

S103、在采样后的视频帧中，确定视频帧间的光流向量的大小和方向，并根据光流向量的大小和方向，确定采样后的视频帧中的关键帧。

在采样后的视频帧中，可以使用光流估计算法确定视频帧间的光流向量，根据光流向量即可计算得到视频帧间每个像素点在帧间运动的幅度和运动方向，即光流向量的大小和方向，根据光流向量的大小和方向可以确定变化较大的光流向量，根据变化较大的光流向量即可确定采样后的视频帧中的关键帧。

光流估计算法是一种计算图像序列中像素点在时间上的运动的方法。其通过分析相邻帧之间的像素值变化，推导出每个像素点在帧间的运动情况。光流向量是光流估计算法的输出结果，用于指示每个像素点在帧间的运动幅度和方向。光流向量表示了一个像素点在两个相邻帧之间的位移量。光流向量的大小表示了像素点的运动幅度，而光流向量的方向表示了像素点的运动方向。通过计算光流向量，可以获得视频帧中每个像素点的运动信息。根据光流向量的大小和方向，可以确定变化较大的光流向量，即像素点在帧间的运动较大，从而确定采样后的视频帧中的关键帧。关键帧通常包含了视频内容的重要信息，通过提取关键帧，可以更快速地对视频进行特征提取和分析，从而提高了监测的效率和准确性。

S104、采用大数据技术提取关键帧与未公开视频数据的视频帧的特征，并根据关键帧的特征与未公开视频数据的视频帧的特征，计算视频数据与未公开视频数据的相似度。

本实施例中，大数据技术用于提取关键帧的特征和未公开视频数据的视频帧的特征，并计算视频数据与未公开视频数据的相似度。

关键帧的特征是指从关键帧中提取的特征，未公开视频数据的视频帧的特征是指从未公开视频数据的视频帧中提取的与关键帧具有相同类型的图像特征。

通过大数据技术，可以对关键帧和未公开视频数据的视频帧进行特征提取和分析，并计算关键帧特征与未公开视频数据的视频帧特征之间的相似度，通过相似度可以评估视频数据与未公开视频数据之间的相似程度，有利于判断未公开视频数据是否与已有视频数据存在相似性，从而更准确地评估视频数据的风险程度。

S105、在相似度大于预设相似度的情况下，将未公开视频数据作为风险数据并显示。

风险数据是指不可以被公开展示的视频数据。如果相似度大于预设相似度的阈值，未公开视频数据被视为与已有视频数据相似度较高，即存在潜在的风险，可能涉及侵权问题。

在本申请实施例中，首先，利用大数据技术获取用户上传的未公开视频数据和互联网上的视频数据，实现了对互联网内容的全面监测，相比于传统的互联网监测方法，能够获取更多的视频数据，从而提高了监测的覆盖范围和准确性；其次，通过对视频帧的采样和光流向量的计算，确定采样后的视频帧中的关键帧，可以更快速地对视频进行特征提取和分析，有利于提高监测的效率和准确性；此外，采用大数据技术提取关键帧和未公开视频数据的特征，并计算相似度，可以准确判断未公开视频数据与已有视频数据的相似程度。通过相似度计算，可以精确评估视频数据的风险程度，提供更可靠的风险判断依据，从而有效提高互联网内容监测的准确性。

在本实施例的其中一种实施方式中，在采样后的视频帧中，确定视频帧间的光流向量的大小和方向，并根据光流向量的大小和方向，确定采样后的视频帧中的关键帧，包括如下步骤：

S201、对采样后的视频帧进行光流向量估计，得到视频帧间像素点的光流向量的大小和方向，其中，光流向量的大小用于表征像素点在视频帧间的运动幅度，光流向量的方向用于表征像素点的运动方向。

本实施例中，采用预设的光流向量估计算法对采样后的视频帧进行光流向量估计，即可得到视频帧间像素点的光流向量的大小和方向，光流向量估计算法可以根据像素点在相邻帧之间的变化来计算像素点的位移量，从而得到光流向量的大小和方向。

S202、在光流向量的大小超过第一预设阈值，且光流向量的方向大于预设角度偏移量的情况下，确定像素点所在的视频帧为关键帧。

在光流向量的大小超过第一预设阈值，并且光流向量的方向大于预设角度偏移量的情况下，确定像素点所在的视频帧为关键帧，表明当像素点在帧间的运动幅度超过预设阈值，并且运动方向与预设角度偏移量相符时，该像素点所在的视频帧为关键帧。

本实施方式可以筛选出采样后的视频帧中的关键帧，即包含了较大运动幅度且运动方向与预设角度偏移量相符的帧。关键帧通常包含了视频内容的重要信息，例如物体的移动、动作的变化等，因此提取关键帧可以更快速地对视频进行特征提取和分析，提高了监测的效率和准确性。

在本实施例的其中一种实施方式中，在光流向量的大小超过第一预设阈值，且光流向量的方向大于预设角度偏移量的情况下，确定像素点所在的视频帧为关键帧，还包括如下步骤：

S301、在光流向量的大小超过第一预设阈值，且光流向量的方向大于预设角度偏移量的情况下，获取像素点所在的视频帧，并将像素点所在的视频帧作为当前帧。

当光流向量的大小超过第一预设阈值时，表明像素点在相邻帧间的运动幅度较大，即像素点的位置发生了较大的变化。当光流向量的方向大于预设角度偏移量时，意味着像素点的运动方向与预设的角度偏移量相差较大。

S302、将当前帧与前一帧进行灰度化，得到两个灰度图像。

将当前帧和前一帧转换为灰度图像，可以使用灰度转换方法，例如，将RGB图像的每个像素点的红、绿、蓝通道的值按照一定比例进行加权平均，得到一个灰度值，代表该像素点的灰度级别。可以使用下述公式如下进行灰度转换：

Gray=0.2989×R+0.5870×G+0.1140×B

其中，Gray表示灰度值，R、G、B分别表示红、绿、蓝通道的值。

得到当前帧和前一帧的灰度图像后，即可得到两个灰度图像。

S303、对两个灰度图像进行像素级差分运算，计算两个灰度图像之间像素的差异，得到差分图像。

需要说明的是，两个灰度图像具有相同的尺寸，即行数和列数相等。

对两个灰度图像进行像素级差分运算，包括：

对两个灰度图像中对应位置上的像素进行差分运算，计算两个灰度图像之间像素的差异。可以使用以下公式进行差分运算：

Diff(x,y)=|Gray1(x,y)-Gray2(x,y)|

其中，Diff(x,y)表示差分图像中位置(x,y)处的像素差异值，Gray1(x,y)和Gray2(x,y)分别表示两个灰度图像中位置(x,y)处的像素值。

对所有像素位置进行差分运算，得到差分图像。差分图像中的像素值表示了两个灰度图像之间像素的差异程度，差分图像可以用于检测图像中的变化区域，像素值越大表示变化越明显。

S304、对差分图像进行图像处理，提取得到变化区域，并获取变化区域的像素差异值。

本实施例中，对于差分图像的每个像素，如果其值大于对应的像素阈值，则将其设置为变化区域，否则将其设置为非变化区域。对于每个变化区域，可以计算其像素差异值，像素差异值指变化区域内所有像素的差异值的平均值。

S305、在像素差异值大于预设阈值的情况下，确定当前帧为关键帧。

在像素差异值大于预设阈值的情况下，表明该像素在两个图像之间发生了较大的变化，并确定当前帧为关键帧。

本实施方式可以进一步筛选出光流向量较大且方向与预设角度偏移量相符的像素点所在的视频帧，并通过像素差异值的计算来确认该帧是否为关键帧。这样可以更加准确地确定采样后的视频帧中的关键帧，以便后续的特征提取和分析。

在本实施例的其中一种实施方式中，在像素差异值大于预设阈值的情况下，确定当前帧为关键帧，包括如下步骤：

S401、在像素差异值大于预设阈值的情况下，确定当前帧的灰度图像清晰度是否大于前一帧的灰度图像清晰度。

在像素差异值大于预设阈值的情况下，可以采用图像清晰度评估算法确定当前帧的灰度图像清晰度和前一帧的灰度图像清晰度，即可确定当前帧的灰度图像清晰度是否大于前一帧的灰度图像清晰度。

S402、在前一帧的灰度图像清晰度大于前一帧的灰度图像清晰度的情况下，确定当前帧为关键帧。

如果当前帧的灰度图像清晰度大于前一帧的灰度图像清晰度，当前帧的清晰度较高，可能代表了一个重要的图像帧，包含了更多的细节和信息，即确定当前帧为关键帧。

本实施方式可以结合像素差异值和图像清晰度来确定当前帧是否为关键帧。这种方法可以提高关键帧提取的准确性，选择具有较大变化和较高清晰度的图像作为关键帧，以便更好地捕捉和表示视频中的重要内容。

在本实施例的其中一种实施方式中，特征包括视频帧率，采用大数据技术提取关键帧与未公开视频数据的视频帧的特征，并根据关键帧的特征与未公开视频数据的视频帧的特征，计算视频数据与未公开视频数据的相似度，包括如下步骤：

S501、将关键帧与未公开视频数据的视频帧加载至大数据处理框架中，并根据大数据处理框架中的视频处理算法提取关键帧与未公开视频数据的视频帧的时间戳，并根据时间戳计算关键帧的视频帧率与未公开视频数据的视频帧的视频帧率，其中视频帧率为通过时间戳计算的相邻帧之间的平均时间间隔的倒数。

大数据处理框架是一种用于处理大规模数据的软件框架，例如Apache Hadoop、Apache Spark等。其提供了分布式计算和存储能力，能够高效地处理和分析大量的数据。在大数据处理框架中，可以使用视频处理算法来对视频数据进行分析和处理。

举例说明：假设关键帧的时间戳分别为t1,t2,t3，对应的帧间时间间隔为dt1=t2-t1,dt2=t3-t2。则关键帧的视频帧率可以通过计算平均时间间隔的倒数得到，即帧率=1/((dt1+dt2)/2)。

S502、采用相似度计算公式，根据时间戳计算关键帧的视频帧率与未公开视频数据的视频帧的视频帧率计算视频数据与未公开视频数据的第一相似度。

具体的，相似度计算公式包括：

；

式中，δ为第一相似度，P1为关键帧的视频帧率，Px为未公开视频数据的视频帧的视频帧率。

本实施方式通过大数据处理框架提取关键帧和未公开视频数据的特征，并计算帧率差异来评估视频数据与未公开视频数据的相似度，可以辅助进行视频数据的匹配和相似度比较，有效提高互联网内容监测的准确性。

在本实施例的其中一种实施方式中，特征还包括分辨率，在根据大数据处理框架中的视频处理算法提取关键帧与未公开视频数据的视频帧的时间戳，并根据时间戳计算关键帧的视频帧率与未公开视频数据的视频帧的视频帧率之后，包括如下步骤：

S601、根据大数据处理框架中的图像处理算法对关键帧与未公开视频数据的视频帧进行分辨率提取，得到关键帧的分辨率和未公开视频数据的每个视频帧的分辨率。

本实施例中，可以通过图像处理算法检测图像的宽度和高度确定关键帧的分辨率与未公开视频数据的视频帧的分辨率。

S602、根据关键帧的分辨率和未公开视频数据的每个视频帧的分辨率，采用预设相似度算法计算视频数据与未公开视频数据的第二相似度。

本实施例可以采用相似度算法，例如余弦相似度等算法来比较关键帧的分辨率和未公开视频数据每个视频帧的分辨率之间的差异，根据计算得到的相似度值，即可得到视频数据与未公开视频数据的第二相似度。

S603、将第一相似度与预设第一权重的乘积与第二相似度与预设第二权重的乘积之和作为视频数据与未公开视频数据的第二相似度。

根据预设的权重，将第一相似度和第二相似度进行加权求和，即将第一相似度与预设第一权重的乘积与第二相似度与预设第二权重的乘积之和，得到视频数据与未公开视频数据的第二相似度，可以综合考虑视频帧率和分辨率两个特征的相似度，得到更全面的相似度评估结果。

本实施方式利用大数据处理框架提取关键帧和未公开视频数据的特征，并计算帧率和分辨率的相似度。综合考虑两个特征的相似度，可以更准确地评估视频数据与未公开视频数据的相似程度，进而有效提高互联网内容监测的准确性。

在本实施例的其中一种实施方式中，特征还包括音频特征，在将第一相似度与预设第一权重的乘积与第二相似度与预设第二权重的乘积之和作为视频数据与未公开视频数据的第二相似度之后，还包括如下步骤：

S701、获取视频数据的音频特征与未公开视频数据的音频特征。

本实施例中，采用预设的音频处理算法提取音频的频谱特征或声音特征，即音频特征。

S702、采用预设的相关系数算法确定视频数据的音频特征与未公开视频数据的音频特征的相关系数。

相关系数算法用于计算两个音频特征之间的相关性，其中，相关系数的取值范围为-1到1，其中1表示完全正相关，-1表示完全负相关，0表示无相关性。

S703、在相关系数大于相关系数阈值的情况下，确定视频数据的音频特征与未公开视频数据的音频特征一致，执行将未公开视频数据作为风险数据并显示的步骤。

如果相关系数大于预设的相关系数阈值，说明视频数据的音频特征与未公开视频数据的音频特征高度一致，可以将未公开视频数据作为风险数据并进行相应处理。

S704、在相关系数小于或等于相关系数阈值的情况下，确定视频数据的音频特征与未公开视频数据的音频特征不一致，执行将第一相似度与预设第一权重的乘积与第二相似度与预设第二权重的乘积之和作为视频数据与未公开视频数据的第二相似度的步骤。

如果相关系数小于或等于预设的相关系数阈值，说明视频数据的音频特征与未公开视频数据的音频特征不一致，可以继续使用第一相似度和第二相似度来计算视频数据与未公开视频数据的相似度。

本实施方式综合考虑帧率、分辨率和音频特征三个特征的相似度，可以更全面地评估视频数据与未公开视频数据的相似程度，进一步有效提高互联网内容监测的准确性。

本申请实施例还公开一种基于大数据技术的互联网内容监测设备，包括：

存储器，被配置成存储指令；以及

处理器，被配置成从存储器调用指令以及在执行指令时能够实现上述的基于大数据技术的互联网内容监测方法。

本申请实施例还公开一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的基于大数据技术的互联网内容监测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于大数据技术的互联网内容监测方法，其特征在于，包括：

对所述视频数据的视频帧进行采样，得到采样后的视频帧；

在所述相似度大于预设相似度的情况下，将所述未公开视频数据作为风险数据并显示；

所述特征包括视频帧率，所述采用大数据技术提取所述关键帧与所述未公开视频数据的视频帧的特征，并根据所述关键帧的特征与所述未公开视频数据的视频帧的特征，计算所述视频数据与所述未公开视频数据的相似度，包括：

2.根据权利要求1所述的方法，其特征在于，所述在采样后的视频帧中，确定视频帧间的光流向量的大小和方向，并根据光流向量的大小和方向，确定采样后的视频帧中的关键帧，包括：

3.根据权利要求2所述的方法，其特征在于，所述在光流向量的大小超过第一预设阈值，且光流向量的方向大于预设角度偏移量的情况下，确定像素点所在的视频帧为关键帧，还包括：

将所述当前帧与前一帧进行灰度化，得到两个灰度图像；

4.根据权利要求3所述的方法，其特征在于，所述在所述像素差异值大于预设阈值的情况下，确定所述当前帧为关键帧，包括：

5.根据权利要求1所述的方法，其特征在于，所述相似度计算公式包括：

；

式中，δ为所述第一相似度，P₁为所述关键帧的视频帧率，P_x为所述未公开视频数据的视频帧的视频帧率。

6.根据权利要求1所述的方法，其特征在于，所述特征还包括分辨率，在所述根据所述大数据处理框架中的视频处理算法提取所述关键帧与所述未公开视频数据的视频帧的时间戳，并根据所述时间戳计算所述关键帧的视频帧率与所述未公开视频数据的视频帧的视频帧率之后，还包括：

7.根据权利要求6所述的方法，其特征在于，所述特征还包括音频特征，在所述将所述第一相似度与预设第一权重的乘积与所述第二相似度与预设第二权重的乘积之和作为所述视频数据与所述未公开视频数据的第二相似度之后，还包括：

8.一种基于大数据技术的互联网内容监测设备，其特征在于，包括：

存储器，被配置成存储指令；以及

处理器，被配置成从所述存储器调用所述指令以及在执行所述指令时能够实现根据权利要求1至7中任一项所述的基于大数据技术的互联网内容监测方法。

9.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令用于使得机器执行根据权利要求1至7中任一项所述的基于大数据技术的互联网内容监测方法。