CN116261009B

CN116261009B - 智能转化影视受众的视频检测方法、装置、设备及介质

Info

Publication number: CN116261009B
Application number: CN202211672872.3A
Authority: CN
Inventors: 何立
Original assignee: Beijing Qishuyouyu Culture Media Co ltd
Current assignee: Beijing Qishuyouyu Culture Media Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-09-08
Anticipated expiration: 2042-12-26
Also published as: CN116261009A

Abstract

本申请涉及视频检测的领域，尤其是涉及智能转化影视受众的视频检测方法、装置、设备及介质。方法包括：获取待检视频信息，对待检视频信息进行音频分离，得到待检音频，将待检音频与预设音频进行对比分析，若对比成功，则得到第二待检音频，基于第二待检音频得到时间信息，并通过时间信息锁定对应第二视频段，对第二视频段进行空间分析，得到空间参数，对第二视频段进行人像分析，得到人物信息，将空间参数以及人物信息作为游戏参数，并根据游戏参数建立交互游戏模型，将交互游戏模型与待检视频信息中的第二视频段进行替换，得到新宣传视频。本申请具有提升宣传视频对潜在观影用户的转化率的效果。

Description

智能转化影视受众的视频检测方法、装置、设备及介质

技术领域

本申请涉及视频检测的领域，尤其是涉及智能转化影视受众的视频检测方法、装置、设备及介质。

背景技术

“网络剧”与“电视剧”的区别在于播放媒介不同，“网络剧”本意为在网络平台播放的一系列连续剧，因其制作平台多，成本低，参与演员多等原因，在网络上的活跃程度在不同类型的影视剧中当属最高的。

而当下，我国网络剧在预告阶段，将潜在用户转化成真实用户的转化率较低，无法有力推动网络剧出现在大众视野中，导致预告阶段占用公用资源多但却并未提升潜在用户的有效转化率。

发明内容

为了解决现有技术存在的问题，本申请提供一种智能转化影视受众的视频检测方法、装置、设备及介质。

第一方面，本申请提供一种智能转化影视受众的视频检测方法，采用如下的技术方案：

一种智能转化影视受众的视频检测方法，包括：

获取待检视频信息，所述待检视频信息为宣传视频；

对所述待检视频信息进行音频分离，得到待检音频；

将所述待检音频与预设音频进行对比分析，若对比成功，则得到第二待检音频，所述第二待检音频为所述待检音频中与所述预设音频对比成功的片段；

基于所述第二待检音频得到时间信息，并通过所述时间信息锁定对应第二视频段；

对所述第二视频段进行空间分析，得到空间参数；

对所述第二视频段进行人像分析，得到人物信息；

将所述空间参数以及所述人物信息作为游戏参数，并根据游戏参数建立交互游戏模型；

将所述交互游戏模型与所述待检视频信息中的所述第二视频段进行替换，得到新宣传视频。

在另一种可能实现的方式中，所述对所述第二视频段进行人像态势识别，得到人物信息，包括：

对所述第二视频段进行人像定位，得到定位人像；

对所述定位人像进行人像分析，得到人物态势以及人物身份；

将所述人物态势与所述人物身份对应，得到人物信息

基于所述人员态势得到同一人员的态势频率以及对应态势种类；

将所述态势频率以及对应态势种类与预设人员定位匹配，若所述态势频率以及对应态势种类同时匹配成功，则将匹配得到的人员定位作为人物信息，预设人员定位为所述态势频率以及所述态势频率对应的态势种类和所述人员定位的绑定关系。

在另一种可能实现的方式中，所述将所述空间参数以及所述人物信息作为游戏参数，并根据游戏参数建立交互游戏模型，包括：

将所述空间参数作为游戏模型参数，所述游戏模型参数为游戏中涉及到的实物比例以及色调；

基于人物信息得到不同人员的态势类别以及所述态势类别对应的态势数量；

将所述态势类别以及所述态势数量输入训练好的神经网络算法中，得到不同人物定位对应的人物重要值；

将不同人物对应的所述人物重要值互相作差值分析，得到主人物角色；

将所述主人物角色对应的人员定位作为用户角色，并将除所述主人物角色之外的人员定位作为游戏角色；

将所述游戏模型参数以及所述游戏角色作为所述游戏参数，并根据所述游戏参数进行数字建模，得到游戏背景以及游戏人物；

对所述第二待检音频进行语义识别，得到关于所述用户角色的互动语句；

根据所述人物信息中的人员态势以及所述互动语句建立交互场景；

根据所述交互场景、所述游戏背景、所述用户角色以及所述游戏人物搭建游戏模型。

在另一种可能实现的方式中，所述将所述交互游戏模型与所述待检视频信息中的所述第二视频段进行替换，得到新宣传视频，之后还包括：

获取用户交互指令以及网剧视频信息，所述用户交互指令为用户关于所述交互游戏模型的操作指令；

将所述用户交互指令与预设用户类型进行分析比对，得到用户类型；

对所述用户类型进行用户关键特征分析，得到用户关键信息；

对所述网络视频信息进行类型分析，得到类型关键信息；

将所述类型关键信息与所述用户关键信息进行匹配，当匹配度满足预设匹配阈值时，将网络视频信息中与所述类型关键信息相对应的视频进行剪辑，得到第二宣传视频。

在另一种可能实现的方式中，所述将所述用户交互指令与预设用户类型进行分析比对，得到用户类型，包括：

获取用户权限，并将用户权限与用户交互指令相绑定；

当所述用户交互指令所对应的用户权限满足预设权限要求时，通过所述权限获取历史浏览标签；

将历史浏览标签与预设用户类型比对，得到用户类别；

将所述用户类别与所述用户信息绑定，得到所述用户类型；

在另一种可能实现的方式中，所述对所述用户类型进行用户关键特征分析，得到用户关键信息，包括：

根据同一所述用户类型得到用户数量，若所述用户数量未达到预设数量阈值，则丢弃对应的所述用户类型；

若所述用户数量达到预设数量阈值，则保留对应的所述用户类型；

根据所述用户信息得到用户登录时间，将所述用户登录时间与所述用户类型进行整合并作为用户关键信息。

在另一种可能实现的方式中，所述对所述网络视频信息进行类型分析，得到类型关键信息，包括：

对所述网剧视频信息进行镜头切割，得到镜头关键帧；

对所述镜头关键帧进行特征分析，得到不同镜头的类型关键信息。

第二方面，本申请提供一种智能转化影视受众的视频检测装置，包括：

获取视频模块，用于获取待检视频信息，所述待检视频信息为宣传视频；

分离音频模块，用于对所述待检视频信息进行音频分离，得到待检音频；

对比分析模块，用于将所述待检音频与预设音频进行对比分析，若对比成功，则得到第二待检音频，所述第二待检音频为所述待检音频中与所述预设音频对比成功的片段；

锁定视频模块，用于基于所述第二待检音频得到时间信息，并通过所述时间信息锁定对应第二视频段；

分析空间模块，用于对所述第二视频段进行空间分析，得到空间参数；

分析人像模块，用于对所述第二视频段进行人像分析，得到人物信息；

建立模型模块，用于将所述空间参数以及所述人物信息作为游戏参数，并根据游戏参数建立交互游戏模型；

替换视频模块，用于将所述交互游戏模型与所述待检视频信息中的所述第二视频段进行替换，得到新宣传视频。

在另一种可能实现的方式中，所述分析人像模块对所述第二视频段进行人像态势识别，得到人物信息，具体用于：

对所述第二视频段进行人像定位，得到定位人像；

将所述人物态势与所述人物身份对应，得到人物信息

在另一种可能实现的方式中，所述建立模型模块将所述空间参数以及所述人物信息作为游戏参数，并根据游戏参数建立交互游戏模型，具体用于：

在另一种可能实现的方式中，所述装置还包括：

第二获取信息模块，用于获取用户交互指令以及网剧视频信息，所述用户交互指令为用户关于所述交互游戏模型的操作指令；

得到用户类型模块，用于将所述用户交互指令与预设用户类型进行分析比对，得到用户类型；

分析用户特征模块，用于对所述用户类型进行用户关键特征分析，得到用户关键信息；

分析视频类型模块，用于对所述网络视频信息进行类型分析，得到类型关键信息；

匹配关键信息模块，用于将所述类型关键信息与所述用户关键信息进行匹配，当匹配度满足预设匹配阈值时，将网络视频信息中与所述类型关键信息相对应的视频进行剪辑，得到第二宣传视频。

在另一种可能实现的方式中，所述得到用户类型模块将所述用户交互指令与预设用户类型进行分析比对，得到用户类型，具体用于：

获取用户权限，并将用户权限与用户交互指令相绑定；

将历史浏览标签与预设用户类型比对，得到用户类别；

将所述用户类别与所述用户信息绑定，得到所述用户类型；

在另一种可能实现的方式中，所述分析用户特征模块对所述用户类型进行用户关键特征分析，得到用户关键信息，具体用于：

在另一种可能实现的方式中，所述分析视频类型模块对所述网络视频信息进行类型分析，得到类型关键信息，具体用于：

对所述网剧视频信息进行镜头切割，得到镜头关键帧；

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一种电子设备，该电子设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行上述智能转化影视受众的视频检测方法。

第四方面，本申请提供一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面中任一可能的实现方式所示的智能转化影视受众的视频检测方法。

综上所述，本申请包括以下有益技术效果：

本申请提供了一种智能转化影视受众的视频检测方法、装置、设备及可读存储介质，与相关技术相比，在本申请中，对宣传视频进行音频分离得到宣传视频内的音频，即待检音频。找到待检音频中满足预设音频的时间点，并根据此时间点得到对应的视频段作为第二视频段，随后建立与第二视频段中场景类似的交互游戏模型，将交互游戏模型替代宣传视频中的原第二视频段，形成新宣传视频。通过新宣传视频中的交互游戏模型，建立了用户与网剧的情感连接，增强了用户对网剧剧情的期待，有效提升了宣传视频对潜在观影用户的转化。

附图说明

图1是本申请实施例一种智能转化影视受众的视频检测方法的流程示意图；

图2是本申请实施例一种智能转化影视受众的视频检测装置的方框示意图；

图3是本申请实施例一种智能转化影视受众的视频检测电子设备的示意图。

具体实施方式

以下结合附图1-3对本申请作进一步详细说明。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，一种智能转化影视受众的视频检测方法、装置、电子设备及存储介质和/或B，可以表示：单独存在一种智能转化影视受众的视频检测方法、装置、设备及介质，同时存在一种智能转化影视受众的视频检测方法、装置、设备及介质和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

本申请实施例提供了一种智能转化影视受众的视频检测方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图1所示，该方法包括：

步骤A001，获取待检视频信息。

步骤A002，对待检视频信息进行音频分离，得到待检音频。

其中，待检视频信息为宣传视频。

对于本申请实施例，获取存储器内的的待检视频信息，即宣传视频。对宣传视频进行解封装，将宣传视频中的音频流进行解封得到待检音频。

步骤A003，将待检音频与预设音频进行对比分析，若对比成功，则得到第二待检音频。

其中，预设音频为：以待检音频的最大音量值为最大值，以小于待检音频最大音量值8dB为最小值的区间，第二待检音频为：待检音频中与预设音频对比成功的片段。

对于本申请实施例，采用EBU R.128算法（欧洲广播联盟推出的关于响度控制的建议书，其中包含响度算法）对待检音频进行音量检测，记录音量值并得到最大音量值。当连续记录的音量值属于[最大音量值-8dB，最大音量值]这一区间时，则记录满足条件的最初音量值以及最末音量值的出现时间，并将最初音量值的出现时间作为第二待检音频区间的左端点，将最末音量值的出现时间作为第二待检音频区间的右端点，以此左右端点确定第二待检音频。

具体的，关于[最大音量值-8dB，最大音量值]这一区间的设定，是基于EBU R.128建议书中指出的人耳可以感觉到的最小响度变化范围（即舒适区：偏离理想的响度约+3dB——+5dB的响度窗口）确定的，以便于得到第二待检音频中的剧情高潮部分。

步骤A004，基于第二待检音频得到时间信息，并通过时间信息锁定对应第二视频段。

其中，时间信息为步骤A003中最初音量值以及最末音量值的出现时间。

对于本申请实施例，通过步骤A003中的第二待检音频得到最初音量值以及最末音量值的出现时间，并以此作为时间信息。

截取待检视频中大于等于最初音量值出现时间，并小于等于最末音量值的出现时间的视频段，将此视频段作为第二视频段。

步骤A005，对第二视频段进行空间分析，得到空间参数。

步骤A006，对第二视频段进行人像分析，得到人物信息。

对于本申请实施例，利用Open cv（全称为Open Source Computer VisionLibrary，计算机视觉库，可高效实现计算机视觉算法）将第二视频段中的视频帧转化为单帧图片输出。对得到的单帧图片进行数字化处理，提取空间特征并将此空间特征作为空间参数；对连续的视频帧进行人像锁定，进行动作识别以及表情识别，得到人物动作以及神态，以此作为人物信息。

比如，若单帧图片中出现灰黑色的茅屋，并且茅屋占据单帧图片80%的长，40%的宽，则空间参数为：茅屋-长：80%，宽：40%，色调：灰黑；

若此茅屋中存在男孩A正在烧水，则人物信息为：男孩A-动作：烧水，神态：平静。

具体的，提取图像特征采用的算法包括但不限于：最小二乘法以及边界方向直方图法，姿态识别以及表情识别时采用的算法包括但不限于：SVM算法、无监督学习算法以及卷积神经网络等。

步骤A007 ，将空间参数以及人物信息作为游戏参数，并根据游戏参数建立交互游戏模型。

对于本申请实施例，通过将历史网剧中的人物以及对应人物的动作和神态作为多层前馈神经网络模型的训练集，对多层前馈神经网络模型进行训练，得到人物在历史网剧中的重要性评估，当得到的评估结果接近真实情况认定此时训练成功。

将人物信息中的人物以及对应人物的动作和神态输入多层前馈神经网络模型中，进行对人物的重要性评估，并根据评估得到的重要程度建立游戏人物以及用户角色。

对空间参数、游戏人物以及用户角色预测图像序列，之后通过图像生成算法对图像序列解码，得到多张游戏场景图像以及游戏人物形象。

将多张游戏场景图像拼接得到全时段的游戏背景，将游戏人物形象插入在全时段游戏背景中，得到交互游戏模型。

具体的，神经网络模型以及图像生成算法的选择在本申请实施例中不做限制。

另外的，本申请实施例另一种可能的实现方式，在完成对多层前馈神经网络模型的训练之后，将人物信息中的人物在网剧中出现的片段输入多层前馈神经网络模型中，得到人物的动作和神态出现的频率后，进行不同人物关于网剧的重要程度评估，并根据评估得到的重要程度建立游戏人物以及用户角色。

重复执行上述实施例内得到游戏场景以及游戏人物图像的步骤，以便于实现游戏背景拼接以及游戏人物形象插入，完成交互游戏模型。

步骤A008，将交互游戏模型与待检视频信息中的第二视频段进行替换，得到新宣传视频。

对于本申请实施例，建立交互控件并建立此交互控件与交互游戏模型之间的连接。丢弃待检视频中的第二视频段，之后将交互控件放在待检视频中起始时间对应的多张视频帧中，拼接成新宣传视频。控件放置的具体位置不做限制，但应与多张视频帧的外轮廓保持相对位置统一。

具体的，多张视频帧的数量应使多张视频帧连续播放时的播放时长不小于5s，以确保用户有充足的时间发现并点击交互控件。

本申请提供了一种智能转化影视受众的视频检测方法，通过对宣传视频进行音频分离得到宣传视频内的音频，即待检音频。找到待检音频中满足预设音频的时间点，并根据此时间点得到对应的视频段作为第二视频段，随后建立与第二视频段中场景类似的交互游戏模型，将交互游戏模型替代宣传视频中的原第二视频段，形成新宣传视频。通过新宣传视频中的交互游戏模型，建立了用户与网剧的情感连接，增强了用户对网剧剧情的期待，有效提升了宣传视频对潜在观影用户的转化率。

本申请实施例的一种可能的实现方式，步骤A006包括步骤A009（图中未示出）、步骤A010（图中未示出）、步骤A011（图中未示出）、步骤A012（图中未示出）以及步骤A013（图中未示出），其中，

步骤A009，对第二视频段进行人像定位，得到定位人像；

步骤A010，对定位人像进行人像分析，得到人物态势以及人物身份；

步骤A011，将人物态势与人物身份对应，得到人物信息。

其中，人物信息包括：人物动作、人物神态以及人物身份。

对于本申请实施例，对第二视频段中存在的连续视频帧进行人物定位，得到多张连续视频帧中的某一确定人像的位置，即定位人像。

采用slowfast算法（行为识别模型）来捕捉连续视频帧内人像位置部分的空间语义信息与时序信息，并将空间语义信息特征与时序信息特征相互融合，进而得到最终识别结果，即人物动作。

采用Resnet50（残差网络系列的典型网络）网络算法对输入进行卷积计算，池化层将计算结果转化成一个特征向量，最后分类器对特征向量进行计算并输出类别概率，得到最终识别结果，即人物神态。

采用Fisherface算法（人脸识别经典算法之一）对连续帧进行人脸识别，并根据得到的人脸特征计算与人物角色的相似概率，将相似概率最高的人物角色作为人物身份。

将人物神态、人物动作以及人物身份对应，并将对应结果作为人物信息。

具体的，进行人像识别以及人像分析时的算法包括但不限于本申请实施例所介绍的一种。

步骤A012，基于人员态势得到同一人员的态势频率以及对应态势种类。

对于本申请实施例，根据人员态势中的人物身份筛查得到对应的人物动作以及人物神态，并将相同种类的人物动作总次数与所有种类的人物动作总次数做除法运算，得到不同种类人物动作在第二视频段中出现的频率。

将人物身份、人物动作种类与动作种类频率对应整理并保留整理结果。

整理结果示例如下：

张三-跑步-20%，踢打-70%。

相同的，根据人员态势中的人物身份筛查得到对应的人物动作以及人物神态，重复执行上述除法运算的步骤，得到不同种类人物神态在第二视频段中出现的频率。

将人物身份、人物神态种类与神态种类频率对应整理并保留整理结果。

整理结果示例如下：

张三-大笑-30%，厌恶-5%。

根据人物身份将两次的整理结果再次进行对应，并得到同一人员的态势频率以及态势频率对应的态势种类。

对应示例如下：

张三；

神态：大笑-30%，厌恶-5%；

动作：跑步20%，踢打-70%。

步骤A013，将态势频率以及对应态势种类与预设人员定位匹配，若态势频率以及对应态势种类同时匹配成功，则将匹配得到的人员定位作为人物信息。

其中，预设人员定位为态势频率以及态势频率对应的态势种类两者和人员定位的绑定关系，人物信息包括：人物动作、人物神态、人物身份以及人员定位。

对于本申请实施例，将态势种类附加对应的权重，之后将权重与态势种类对应的频率做乘，当得到的乘积处于预设人员定位中的定位区间，且态势种类满足预设人员定位中的定位类别时，将定位类别以及定位区间共同对应的人员定位作为人物信息。

比如，态势种类以及态势种类对应的态势频率为：

神态：大笑-30%，厌恶-5%；

动作：跑步20%，踢打-70%，

态势种类对应的权重为：

神态：大笑——0，厌恶——-30%；

动作：跑步——0，踢打——-10%，

则乘积为-850%,

人员定位：

厌恶、踢打——（-100%,-500%] 暴躁；

厌恶、踢打——（-500%,-900%] 残暴。

此时，人员定位应为：残暴。

本申请实施例的一种可能的实现方式，步骤A007包括步骤A014（图中未示出）、步骤A015（图中未示出）、步骤A016（图中未示出）、步骤A017（图中未示出）、步骤A018（图中未示出）、步骤A019（图中未示出）、步骤A020（图中未示出）以及步骤A021（图中未示出），其中，

步骤A014，将空间参数作为游戏模型参数。

步骤A015，基于人物信息得到不同人员的态势类别以及态势类别对应的态势数量。

步骤A016，将态势类别以及态势数量输入训练好的神经网络模型中，得到不同人物定位对应的人物重要值。

步骤A017，将不同人物对应的人物重要值互相作差值分析，得到主人物角色。

其中，空间参数包括：空间特征内的色调以及尺寸比例，游戏模型参数为游戏中涉及到的实物比例以及色调，主人物角色为主人物身份。

对于本申请实施例，将空间参数中的空间特征作为游戏模型参数。

采用BP（全称back propagation，意为逆向传播）神经网络模型进行对人物重要值的分析。

将空间特征内的色调以及尺寸比例作为游戏模型参数。

在搭建BP神经网络模型（一种按照误差逆向传播算法训练的多层前馈神经网络）时，将人物态势类别以及态势数量作为人工神经网络输入层的两个输入节点，选取10个神经元作为隐含层，将Sigmoid型激励函数（用于隐层神经元输出）作为激励函数，并使人物重要值作为输出层的输出。将历史网剧内人物态势类别以及态势数量作为输入样本，当输出结果与历史网剧内的人物重要值评估情况相同时，认定模型训练成功。此时通过人物信息中的人物身份得到不同人物的态势类别以及态势数量，并将态势类别以及态势数量输入训练成功的神经网络模型，得到不同人物的人物重要值，其中，人物重要值的最大值对应的人物身份为主人物身份。

具体的，神经网络模型包括但不限于本申请实施例所介绍的一种，在此不做限制。

步骤A018，将主人物角色对应的人员定位作为用户角色，并将除主人物角色之外的人员定位作为游戏角色。

步骤A019，将游戏模型参数以及游戏角色作为游戏参数，并根据游戏参数进行数字建模，得到游戏背景以及游戏人物。

其中，游戏背景包括：游戏场景图像，游戏人物包括：游戏人物形象。

对于本申请实施例，根据主人物身份对应找到人员定位，并将此人员定位作为用户角色，将除此人员定位之外的其余人员定位作为游戏角色。

将游戏模型参数内的尺寸比例、色调以及游戏角色内的人员定位作为游戏参数，通过transformer自回归的方式（多模态图像生成方式的一种）对游戏参数预测图像序列，之后通过GAN（图像生成算法）对图像序列解码，得到多张游戏场景图像以及游戏人物形象。

具体的，图像生成的方式包括但不限于本申请实施例所介绍的一种，本申请实施例在此不做具体限制。

步骤A020，对第二待检音频进行语义识别，得到关于用户角色的互动语句。

步骤A021，根据人物信息中的人员态势以及互动语句建立交互场景。

对于本申请实施例，对第二待检音频进行多次定向的特定人语音识别，得到不同角色的台词，在其中筛查出于用户角色中人物身份对应的互动台词作为互动语句。

将人物信息中的人员态势以及互动语句作为交互场景参数，通过与步骤A019内相同的多模态图像生成方式得到多个交互场景，具体步骤与步骤A019内所涉及的图像生成步骤相同，本申请实施例内不再赘述。

本申请实施例的另一种可能实现的方式，在首次得到交互场景后，可再次通过多模态图像生成方式得到交互场景内互动语句完成的瞬间对应的动图，并将动图插入首次得到的交互场景中，以便于提升观感。

步骤A022，根据交互场景、游戏背景、用户角色以及游戏人物搭建交互游戏模型。

对于本申请实施例，将交互场景、游戏背景拼接得到全时段的游戏背景，将用户角色以及游戏人物插入在全时段游戏背景中，得到交互游戏模型。

本申请实施例的一种可能的实现方式，步骤A008之后还包括步骤A023（图中未示出）、步骤A024（图中未示出）、步骤A025（图中未示出）、步骤A026（图中未示出）以及步骤A027（图中未示出），其中，

步骤A023，获取用户交互指令以及网剧视频信息。

步骤A024，将用户交互指令与预设用户类型进行分析比对，得到用户类型。

其中，用户类型为用户网剧偏好，用户交互指令为用户关于交互游戏模型的操作指令，预设用户类型为用户关于网剧可能存在的多种偏好。

对于本申请实施例，根据用户在交互游戏模型中发出的操作指令得到关于用户账户的授权权限，之后通过授权权限找到用户在3个月内的历史浏览记录，以便于得到准确的用户偏好。

根据历史浏览记录筛选单个视频播放总时长大于等于单个视频自身总时长30%的视频类型，并将视频类型与预设用户类型进行比对，当相似度为1时认定为比对成功，最后将比对成功的视频类型与用户账户绑定，绑定结果即为用户偏好。

步骤A025，对用户类型进行用户关键特征分析，得到用户关键信息。

步骤A026，对网络视频信息进行类型分析，得到类型关键信息。

其中，网络视频信息包括网剧视频。

对于本申请实施例，根据视频类型将用户偏好划分成不同的用户群体，得到不同用户群体的特征作为用户关键信息。

通过对网络视频遍历进行镜头分割，之后采用ActionVLAD（静态图像特征聚合）对分割得到的镜头提取关于图像序列和光流序列的特征，之后将特征进行拼接再融合分类，将分类结果做为类型关键信息。

相关的，在通过ActionVLAD对网络视频进行分类时，分类标准应与预设用户类型相同。

步骤A027，将类型关键信息与用户关键信息进行匹配，当匹配度满足预设匹配阈值时，将网络视频信息中与类型关键信息相对应的视频进行剪辑，得到第二宣传视频。

对于本申请实施例，将类型关键信息与用户关键信息进行匹配，若匹配值为1，认定匹配成功，将与类型关键信息对应的镜头拼接，得到第二宣传视频。

具体的，步骤A025内的网剧镜头类型与步骤A024内的用户类型相同，故两者匹配度为1时，可认定匹配成功。

本申请实施例的一种可能的实现方式，步骤A024包括步骤A028（图中未示出）、步骤A029（图中未示出）、步骤A030（图中未示出））以及步骤A031（图中未示出），其中，

步骤A028，获取用户权限，并将用户权限与用户交互指令相绑定。

步骤A029，当用户交互指令所对应的用户权限满足预设权限要求时，通过权限获取历史浏览标签。

其中，用户权限为用户授权权限，用户授权权限包括获取用户账户权限和获取历史浏览权限，用户交互指令为用户在交互游戏模型中的操作指令，预设权限要求为获取历史浏览权限，历史浏览标签为历史浏览记录内的视频类型。

对于本申请实施例，获取用户授权权限，并通过用户授权权限获取用户后续在交互游戏模型中的操作指令，之后将操作指令作为用户交互指令与用户授权权限绑定，并将绑定结果作为更新后的用户交互指令。

若用户交互指令中存在获取历史浏览权限，则通过历史浏览权限获取用户在过去3个月内的浏览记录，并筛选浏览记录内单个视频播放总时长大于等于单个视频自身总时长30%的视频类型，以确保此视频类型对用户切实存在一定吸引力。

相关的，历史浏览记录的截取时间以及播放时长比例保证视频对用户存在吸引力即可，具体数据选定不做限制。

步骤A030，将历史浏览标签与预设用户类型比对，得到用户类别。

步骤A031，将用户类别与用户信息绑定，得到用户类型。

其中，预设用户类型为用户关于网剧可能存在的多种偏好，用户类别为用户偏好，用户信息包括通过用户授权权限获得的信息。

对于本申请实施例，将视频类型与预设用户类型内用户关于网剧可能存在的多种偏好进行比对，得到比对成功的用户网剧偏好作为用户偏好。

通过用户授权权限获得用户id以及用户登录时间，将用户id以及用户登录时间作为用户信息，将用户偏好与用户信息绑定，绑定结果即为用户类型。

本申请实施例的一种可能的实现方式，步骤A025包括步骤A032（图中未示出）、步骤A033（图中未示出）以及步骤A034（图中未示出），其中，

步骤A032，根据同一用户类型得到用户数量，若用户数量未达到预设数量阈值，则丢弃对应的用户类型。

步骤A033，若用户数量达到预设数量阈值，则保留对应的用户类型。

其中，预设数量阈值为10%。

对于本申请实施例，若用户类型中的用户偏好相同，则计算得到此相同用户偏好对应的用户ID总数作为用户数量。

将用户数量与所有用户偏好对应的用户ID总数做除法运算，若运算结果小于预设数值阈值，则丢弃此用户偏好；相反的，若运算结果大于等于预设数值阈值，则保留此用户偏好。

步骤A034，根据用户信息得到用户登录时间，将用户登录时间与用户类型进行整合并作为用户关键信息。

其中，用户信息包括通过用户账户权限获得的用户登录时间点，用户登录时间包括用户登录区间。

对于本申请实施例，通过同一用户账户权限获得同一用户的登录时间点，将多个登录时间点互相做差，若得到的差值在[-1h，1h]区间内，则认为此时用于做互相做差的用户登录时间点为用户日常集中登录的时间点。将用户日常集中登录的时间点中的最大值做为用户登录区间的右端点，将最小值作为用户登录区间的左端点，基于左右端点得到用户登录区间。

将用户登录区间替代用户类型中的用户登录时间，完成对用户类型的更新，将更新结果作为用户关键信息。

本申请实施例的一种可能的实现方式，步骤A026包括步骤A036（图中未示出）以及步骤A035（图中未示出），其中，

步骤A035，对网剧视频信息进行镜头切割，得到镜头关键帧；

步骤A036，对镜头关键帧进行特征分析，得到不同镜头的类型关键信息。

对于本申请实施例，对网络视频内的连续视频帧进行镜头边缘检测，计算得到帧与帧的差值，并通过最大差值确定不同的镜头，认定不同镜头内视频帧变化最快为关键帧，若不存在快速变化的关键帧，则认定中间帧为关键帧，最后排除其中亮度过于黑暗的帧。

采用ActionVLAD（静态图像特征聚合）对得到的关键帧提取关于图像序列和光流序列的特征，之后将特征进行拼接再融合分类，将分类结果做为类型关键信息。

本申请实施例提供一种智能转化影视受众的视频检测装置，如图2所示，该一种智能转化影视受众的视频检测装置20具体可以包括：获取信息模块21、分析特征模块22、空间重建模块23、位置结合模块24、图像调取模块25、位置定位模块26、位置拟合模块27以及替换视频模块28，其中，

获取视频模块21，用于获取待检视频信息，待检视频信息为宣传视频；

分离音频模块22，用于对待检视频信息进行音频分离，得到待检音频；

对比分析模块23，用于将待检音频与预设音频进行对比分析，若对比成功，则得到第二待检音频，第二待检音频为待检音频中与预设音频对比成功的片段；

锁定视频模块24，用于基于第二待检音频得到时间信息，并通过时间信息锁定对应第二视频段；

分析空间模块25，用于对第二视频段进行空间分析，得到空间参数；

分析人像模块26，用于对第二视频段进行人像分析，得到人物信息；

建立模型模块27，用于将空间参数以及人物信息作为游戏参数，并根据游戏参数建立交互游戏模型；

替换视频模块28，用于将交互游戏模型与待检视频信息中的第二视频段进行替换，得到新宣传视频。

本申请实施例的另一种可能实现的方式，分析人像模块26对第二视频段进行人像态势识别，得到人物信息，具体用于：

对第二视频段进行人像定位，得到定位人像；

对定位人像进行人像分析，得到人物态势以及人物身份；

将人物态势与人物身份对应，得到人物信息

基于人员态势得到同一人员的态势频率以及对应态势种类；

将态势频率以及对应态势种类与预设人员定位匹配，若态势频率以及对应态势种类同时匹配成功，则将匹配得到的人员定位作为人物信息，预设人员定位为态势频率以及态势频率对应的态势种类和人员定位的绑定关系。

本申请实施例的另一种可能实现的方式，建立模型模块27将空间参数以及人物信息作为游戏参数，并根据游戏参数建立交互游戏模型，具体用于：

将空间参数作为游戏模型参数，游戏模型参数为游戏中涉及到的实物比例以及色调；

基于人物信息得到不同人员的态势类别以及态势类别对应的态势数量；

将态势类别以及态势数量输入训练好的神经网络算法中，得到不同人物定位对应的人物重要值；

将不同人物对应的人物重要值互相作差值分析，得到主人物角色；

将主人物角色对应的人员定位作为用户角色，并将除主人物角色之外的人员定位作为游戏角色；

将游戏模型参数以及游戏角色作为游戏参数，并根据游戏参数进行数字建模，得到游戏背景以及游戏人物；

对第二待检音频进行语义识别，得到关于用户角色的互动语句；

根据人物信息中的人员态势以及互动语句建立交互场景；

根据交互场景、游戏背景、用户角色以及游戏人物搭建游戏模型。

本申请实施例的另一种可能实现的方式，装置20还包括：第二获取信息模块、得到用户类型模块、分析用户特征模块以及匹配关键信息模块，其中，

第二获取信息模块，用于获取用户交互指令以及网剧视频信息，用户交互指令为用户关于交互游戏模型的操作指令；

得到用户类型模块，用于将用户交互指令与预设用户类型进行分析比对，得到用户类型；

分析用户特征模块，用于对用户类型进行用户关键特征分析，得到用户关键信息；

分析视频类型模块，用于对网络视频信息进行类型分析，得到类型关键信息；

匹配关键信息模块，用于将类型关键信息与用户关键信息进行匹配，当匹配度满足预设匹配阈值时，将网络视频信息中与类型关键信息相对应的视频进行剪辑，得到第二宣传视频。

本申请实施例的另一种可能实现的方式，得到用户类型模块将用户交互指令与预设用户类型进行分析比对，得到用户类型，具体用于：

获取用户权限，并将用户权限与用户交互指令相绑定；

当用户交互指令所对应的用户权限满足预设权限要求时，通过权限获取历史浏览标签；

将历史浏览标签与预设用户类型比对，得到用户类别；

将用户类别与用户信息绑定，得到用户类型；

本申请实施例的另一种可能实现的方式，分析用户特征模块对用户类型进行用户关键特征分析，得到用户关键信息，具体用于：

根据同一用户类型得到用户数量，若用户数量未达到预设数量阈值，则丢弃对应的用户类型；

若用户数量达到预设数量阈值，则保留对应的用户类型；

根据用户信息得到用户登录时间，将用户登录时间与用户类型进行整合并作为用户关键信息。

本申请实施例的另一种可能实现的方式，分析视频类型模块对网络视频信息进行类型分析，得到类型关键信息，具体用于：

对网剧视频信息进行镜头切割，得到镜头关键帧；

对镜头关键帧进行特征分析，得到不同镜头的类型关键信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还从实体装置的角度介绍了一种电子设备，如图3所示，图3所示的电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图03中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，还可以为服务器等。图3示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。在本申请实施例中，对宣传视频进行音频分离得到宣传视频内的音频，即待检音频。找到待检音频中满足预设音频的时间点，并根据此时间点得到对应的视频段作为第二视频段，随后建立与第二视频段中场景类似的交互游戏模型，将交互游戏模型替代宣传视频中的原第二视频段，形成新宣传视频。通过新宣传视频中的交互游戏模型，建立了用户与网剧的情感连接，增强了用户对网剧剧情的期待，有效提升了宣传视频对潜在观影用户的转化率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种智能转化影视受众的视频检测方法，其特征在于，包括：

获取待检视频信息，所述待检视频信息为宣传视频；

对所述待检视频信息进行音频分离，得到待检音频；

对所述第二视频段进行空间分析，得到空间参数；

对所述第二视频段进行人像分析，得到人物信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述第二视频段进行人像分析，得到人物信息，包括：

对所述第二视频段进行人像定位，得到定位人像；

将所述人物态势与所述人物身份对应，得到人物信息；

基于所述人物态势得到同一人员的态势频率以及对应态势种类；

将所述态势频率以及对应态势种类与预设人员定位匹配，若所述态势频率以及对应态势种类同时匹配成功，则将匹配得到的人员定位作为人物信息，预设人员定位为所述态势频率和所述态势频率对应的态势种类分别与所述人员定位的绑定关系。

3.根据权利要求1所述的方法，其特征在于，所述将所述空间参数以及所述人物信息作为游戏参数，并根据游戏参数建立交互游戏模型，包括：

将所述游戏模型参数以及所述游戏角色作为游戏参数，并根据所述游戏参数进行数字建模，得到游戏背景以及游戏人物；

根据所述人物信息中的人物态势以及所述互动语句建立交互场景；

4.根据权利要求1所述的方法，其特征在于，所述将所述交互游戏模型与所述待检视频信息中的所述第二视频段进行替换，得到新宣传视频，之后还包括：

对所述网剧视频信息进行类型分析，得到类型关键信息；

将所述类型关键信息与所述用户关键信息进行匹配，当匹配度满足预设匹配阈值时，将网剧视频信息中与所述类型关键信息相对应的视频进行剪辑，得到第二宣传视频。

5.根据权利要求4所述的方法，其特征在于，所述将所述用户交互指令与预设用户类型进行分析比对，得到用户类型，包括：

获取用户权限，并将用户权限与用户交互指令相绑定；

当所述用户交互指令所对应的用户权限满足预设权限要求时，通过所述用户权限获取历史浏览标签；

将历史浏览标签与预设用户类型比对，得到用户类别；

将所述用户类别与用户信息绑定，得到所述用户类型。

6.根据权利要求4所述的方法，其特征在于，对所述用户类型进行用户关键特征分析，得到用户关键信息，包括：

7.根据权利要求4所述的方法，其特征在于，对所述网剧视频信息进行类型分析，得到类型关键信息，包括：

对所述网剧视频信息进行镜头切割，得到镜头关键帧；

8.一种智能转化影视受众的视频检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，该电子设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行权利要求1～7任一项所述的智能转化影视受众的视频检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1～7任一项所述的智能转化影视受众的视频检测方法。