CN117033762A

CN117033762A - 一种视频镜头推荐方法

Info

Publication number: CN117033762A
Application number: CN202310432357.6A
Authority: CN
Inventors: 张昱; 彭泓; 郑扬; 赵浩伊
Original assignee: Chengdu Shuzhifeng Technology Co ltd
Current assignee: Chengdu Shuzhifeng Technology Co ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-11-10

Abstract

本发明公开了一种视频镜头推荐方法，S1：视频镜头切分；S2：进行多维度标注、使用统计以及时间统计；S3：获取视频镜头的基本信息数据、频次数据和保鲜度数据，得出语义相似度数据、频度系数和保鲜度系数；S4：根据语义相似度数据、使用频度系数和保鲜度系数计算综合得分并排序，得到推荐列表。对视频镜头切分，通过多维度标注，对用户使用镜头进行统计获得镜头使用频次数据，时间统计获得镜头保鲜度数据，得出语义相似度、频度系数和保鲜度系数，最后通过综合得分排序计算对视频镜头进行综合排序，综合考虑语义匹配、使用情况以及时间保鲜等因素，既保证语义准确性，又包含用户使用爱好，同时体现了视频新旧，实现视频镜头精准推荐。

Description

一种视频镜头推荐方法

技术领域

本发明涉及人工智能视频分析处理技术领域，特别是一种视频镜头推荐方法。

背景技术

近年来，移动互联网及其快速发展，短视频已替代传统广播电视成为各大媒体的主要传播途径。但是，对于很多短视频制作单位和个体来说，“如何快速找到用户喜爱的视频镜头素材”、“如何对找到既贴合文本又有时效性的镜头素材”以及“如何精准提供视频镜头素材”是备受关注的问题。

传统的方法一般通过人工收集、整理、切分并进行手工标注，然后在视频编辑时再从收集的镜头素材中筛选过滤，这种方法不仅效率低下，而且花费大量人力物力，素材范围非常有限，往往不能获取到有价值的镜头素材。

发明内容

本发明的目的在于克服现有技术的缺点，提供一种视频镜头推荐方法。

本发明的目的通过以下技术方案来实现：一种视频镜头推荐方法，包括以下步骤：

S1：检测视频镜头中各个镜头的边界位置，根据边界位置对视频进行切分；

S2：将切分后的视频镜头分别进行多维度标注、使用统计以及时间统计；

S3：通过对视频镜头进行多维度标注获取视频镜头的基本信息数据，得出语义相似度数据，通过对视频镜头进行使用统计获取视频镜头的频次数据，得出使用频度系数，通过对视频镜头进行时间统计获取视频镜头的保鲜度数据，得出保鲜度系数；

S4：根据语义相似度数据、使用频度系数和保鲜度系数计算综合得分并排序，得到推荐视频镜头列表。

优选的，步骤S1中，还包括以下步骤：

S1.1：计算RGB颜色空间中红色、绿色、蓝色在两帧之间的差，计算公式为：

其中，H_R为R颜色的直方图计算值，H_G为G颜色的直方图计算值，H_B为B颜色的直方图计算值，f_i为第i幅图像帧，f_j为第j幅图像帧，D_R(f_i,f_j)为RGB颜色空间中的红色在第i帧和第j帧之间的帧间差，D_G(f_i,f_j)为RGB颜色空间中的绿色在第i帧和第j帧之间的帧间差，D_B(f_i,f_j)为RGB颜色空间中的蓝色在第i帧和第j帧之间的帧间差，k为位分辨率；

S1.2：

D(f_i,f_j)＝D_R(f_i,f_j)+D_G(f_i,f_j)+D_B(f_i,f_j)；

其中D(f_i,f_j)为第i帧和第j帧之间的帧间差，当D(f_i,f_j)大于预设阈值时，系统判定该帧为镜头切分点；

S1.3：将镜头切分点之前的视频片段提取出来，并进行预处理，保留为一个镜头；

S1.4：将镜头文件存储在对应的文件系统中，并将镜头信息录入数据库，用于索引。

优选的，步骤S2中，多维度标注包括语音识别标注、OCR文字识别标注、人脸识别标注和物品检测标注。

优选的，步骤S2中，经过多维度标注后得出基本信息数据，将基本信息数据储存到MySQL数据库中，通过canal监听MySQL中binlog，将监听到的数据变更通知ES服务，ES服务更新内部数据。

优选的，步骤S3中，通过多字段匹配得出语义相似度值，并对视频镜头进行排序，具体步骤为：

S3.1.1：创建keyword类型shot_voice、shot_ocr、shot_person、shot_things字段，并从MySQL同步数据；

S3.1.2：配置ES中文分词插件；

S3.1.3：设置ES插入数据时，若索引名称不存在，则自动创建索引；

S3.1.4：通过ES自带的bool shouldquery算分方法，对shot_voice、shot_ocr、shot_person、shot_things四个字段进行排序，获取语义相似度排名及语义相似度分数score_i。

优选的，步骤S3中，还包括以下步骤：

S3.2.1：通过累加镜头被选用次数作为镜头的使用频次数据，

shot_usage_i＝∑shot_i；

系统在每一次镜头使用后，将shot_usage_i更新到数据库中；

S2.2.2：将频次数据存储在MySQL数据库内；

S2.2.3：计算频度系数k_i，

优选的，步骤S3中，还包括以下步骤：

S2.3.1：对视频镜头时间进行统计，获取视频镜头的保鲜度数据，

D_i＝Day(Time_now-shot_time_i)；

其中，shot_time_i为镜头时间，Time_now为当前查询时间；

S2.3.2：计算保鲜度系数，

其中，K为保鲜常数。

优选的，步骤S4中，计算综合得分Score_i，

Score_i＝score_i×k_i×t_i

其中，score_i为语义相似度分数，k_i为频度系数，t_i为保鲜度系数。

优选的，通过建立倒序索引对数据内容进行查询。

本发明具有以下优点：本发明首先对视频镜头进行切分，然后通过多维度标注视频镜头，通过对用户使用镜头进行统计获得镜头使用频次数据，通过时间统计获得镜头保鲜度数据，再得出镜头语义相似度、镜头使用频度系数和镜头保鲜度系数，最后通过综合得分排序计算对视频镜头进行综合排序，从而综合考虑语义匹配、使用情况以及时间保鲜等影响因素，既保证语义的准确性，又包含了用户使用爱好，同时体现了视频新旧，实现视频镜头的精准推荐。

附图说明

图1为视频镜头推荐方法流程的结构示意图；

图2为基本信息存储的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。通常在此处附图中描述和示出的本发明实施方式的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本实施例中，如图1所示，一种视频镜头推荐方法，包括以下步骤：

S4：根据语义相似度数据、使用频度系数和保鲜度系数计算综合得分并排序，得到推荐视频镜头列表。首先对视频镜头进行切分，然后通过多维度标注视频镜头，通过对用户使用镜头进行统计获得镜头使用频次数据，通过时间统计获得镜头保鲜度数据，再得出镜头语义相似度、镜头使用频度系数和镜头保鲜度系数，最后通过综合得分排序计算对视频镜头进行综合排序，从而综合考虑语义匹配、使用情况以及时间保鲜等影响因素，既保证语义的准确性，又包含了用户使用爱好，同时体现了视频新旧，实现视频镜头的精准推荐。

进一步的，步骤S1中，还包括以下步骤：

其中，H_R为R颜色的直方图计算值，H_G为G颜色的直方图计算值，H_B为B颜色的直方图计算值，f_i为第i幅图像帧，f_j为第j幅图像帧，D_R(f_i,f_j)为RGB颜色空间中的红色在第i帧和第j帧之间的帧间差，D_G(f_i,f_j)为RGB颜色空间中的绿色在第i帧和第j帧之间的帧间差，D_B(f_i,f_j)为RGB颜色空间中的蓝色在第i帧和第j帧之间的帧间差，k为位分辨率；具体地说，k为位分辨率，指一个像素中每个颜色分量的比特数，本实施例中，k取值为8，即每个颜色分量有256种可能。

S1.2：

D(f_i,f_j)＝D_R(f_i,f_j)+D_G(f_i,f_j)+D_B(f_i,f_j)；

在本实施例中，步骤S2中，多维度标注包括语音识别标注、OCR文字识别标注、人脸识别标注和物品检测标注。具体地说，语音识别标注是通过提取视频镜头声音，然后调用语音识别API，获取语音文字内容，实现视频镜头语音识别，并存储到shot_voice字段中；OCR文字识别标注针对切分后的视频镜头，按不同类型来源指定相应的文字识别区域，通过调用OCR文字识别API，获取视频镜头的关键信息，并存储到shot_ocr字段中，在另一实施例中，为了加速识别，可根据实际情况只提取第一帧画面进行识别；人脸识别标注通过提取视频镜头前十帧画面进行人脸检测，通过调用人脸识别API与预设关键人脸数据库进行比对，如果有预设关键人脸数据库中的数据，则将识别的关键人物名称记录下来，并存储到shot_person字段中；物品检测标注通过提取镜头前十帧画面，然后调用物品检测API，将检测到的物品信息记录下来，并存储到shot_things字段中。

进一步的，步骤S2中，经过多维度标注后得出基本信息数据，将基本信息数据储存到MySQL数据库中，通过canal监听MySQL中binlog，也就是MySQL二进制日志。将监听到的数据变更通知ES服务，ES服务更新内部数据。再进一步的，通过建立倒序索引对数据内容进行查询。具体地说，由于需要对数据内容进行快速查询，当数据量较大时，需要建立倒序索引进行快速查询，而MySQL数据库并不合适，因此需要将MySQL的数据同步到ES(Elasticsearch)数据库中，以方便快速查找，通过在存储上采用MySQL和ES同步的方式，其中MySQL保证业务正常运行和数据的唯一性，ES保证快速准确检索。

在本实施例中，步骤S3中，通过多字段匹配得出语义相似度值，并对视频镜头进行排序，具体步骤为：

S3.1.2：配置ES中文分词插件；

S3.1.4：通过ES自带的bool should query算分方法，对shot_voice、shot_ocr、shot_person、shot_things四个字段进行排序，获取语义相似度排名及语义相似度分数score_i。具体地说，bool should query算分方法为现有方法，这里并未对其进行改进，就不再进行赘述。

在本实施例中，步骤S3中，还包括以下步骤：

S3.2.1：通过累加镜头被选用次数作为镜头的使用频次数据，

shot_usage_i＝∑shot_i；

系统在每一次镜头使用后，将shot_usage_i更新到数据库中；

S2.2.2：将频次数据存储在MySQL数据库内；

S2.2.3：计算频度系数k_i，

在本实施例中，步骤S3中，还包括以下步骤：

D_i＝Day(Time_now-shot_time_i)；

其中，shot_time_i为镜头时间，Time_now为当前查询时间；

S2.3.2：计算保鲜度系数，

其中，K为保鲜常数。具体地说，由于系统会不断增加新的镜头，这些新镜头在初始状态下的使用频次为0，那么在排序上就会有影响，因此，为了保证增加的新镜头也能被优先推荐，对推荐算法进行改进，引入视频镜头保鲜度系数t_i，用户可以根据实际情况按K天进行计算保鲜度，比如K＝7就表示按一周的时间长度来进行计算保鲜度，一周以内介于1～2之间，超过一周的镜头保鲜度系数都为1。

进一步的，步骤S4中，计算综合得分Score_i，

Score_i＝score_i×k_i×t_i

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频镜头推荐方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种视频镜头推荐方法，其特征在于：所述步骤S1中，还包括以下步骤：

其中，H_R为R颜色的直方图计算值，H_G为G颜色的直方图计算值，H_B为B颜色的直方图计算值，f_i为第i幅图像帧，f_j为第j幅图像帧，D_R(f_i，f_j)为RGB颜色空间中的红色在第i帧和第j帧之间的帧间差，D_G(f_i，f_j)为RGB颜色空间中的绿色在第i帧和第j帧之间的帧间差，D_B(f_i，f_j)为RGB颜色空间中的蓝色在第i帧和第j帧之间的帧间差，k为位分辨率；

S1.2：

D(f_i，f_j)＝D_R(f_i，f_j)+D_G(f_i，f_j)+D_B(f_i，f_j)；

其中D(f_i，f_j)为第i帧和第j帧之间的帧间差，当D(f_i，f_j)大于预设阈值时，系统判定该帧为镜头切分点；

3.根据权利要求2所述的一种视频镜头推荐方法，其特征在于：所述步骤S2中，多维度标注包括语音识别标注、OCR文字识别标注、人脸识别标注和物品检测标注。

4.根据权利要求3所述的一种视频镜头推荐方法，其特征在于：所述步骤S2中，经过多维度标注后得出基本信息数据，将基本信息数据储存到MySQL数据库中，通过canal监听MySQL中binlog，将监听到的数据变更通知ES服务，ES服务更新内部数据。

5.根据权利要求4所述的一种视频镜头推荐方法，其特征在于：所述步骤S3中，通过多字段匹配得出语义相似度值，并对视频镜头进行排序，具体步骤为：

S3.1.2：配置ES中文分词插件；

S3.1.4：通过ES自带的bool should query算分方法，对shot_voice、shot_ocr、shot_person、shot_things四个字段进行排序，获取语义相似度排名及语义相似度分数scorei。

6.根据权利要求5所述的一种视频镜头推荐方法，其特征在于：所述步骤S3中，还包括以下步骤：

S3.2.1：通过累加镜头被选用次数作为镜头的使用频次数据，

shot_usage_i＝∑shot_i；

系统在每一次镜头使用后，将shot_usage_i更新到数据库中；

S2.2.2：将频次数据存储在MySQL数据库内；

S2.2.3：计算频度系数k_i，

7.根据权利要求6所述的一种视频镜头推荐方法，其特征在于：所述步骤S3中，还包括以下步骤：

D_i＝Day(Time_now-shot_time_i)

其中，shot_time_i为镜头时间，Time_now为当前查询时间；

S2.3.2：计算保鲜度系数，

其中，K为保鲜常数。

8.根据权利要求7所述的一种视频镜头推荐方法，其特征在于：所述步骤S4中，计算综合得分Score_i，

Score_i＝score_i×k_i×t_i

9.根据权利要求4所述的一种视频镜头推荐方法，其特征在于：通过建立倒序索引对数据内容进行查询。