CN113115055A

CN113115055A - 一种基于收视行为的用户画像和直播视频文件的剪辑方法

Info

Publication number: CN113115055A
Application number: CN202110209029.0A
Authority: CN
Inventors: 唐志燕; 袁媛; 刘晓敏; 陈�胜; 石乐芸; 张玮; 汪昊辰; 沈闻佳; 章文川; 郑威
Original assignee: Wasu Media & Network Co ltd
Current assignee: Wasu Media & Network Co ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-07-13
Anticipated expiration: 2041-02-24
Also published as: CN113115055B

Abstract

本发明为一种基于收视行为的用户画像和直播视频文件的剪辑方法，本发明将新视频结合对照视频片段，判断新视频的用户群组，实现针对不同用户群体完成视频的自动化剪辑；并且通过编辑距离算法，比较两个视频文本的相似程度，进而得到关键词最相似的两个视频，使两个视频中的新视频能够根据对照视频片段进行剪辑和合并，而对照视频片段又是根据收视曲线进行剪辑和合并的，进一步能够保证新视频的剪辑也能够符合观众喜好。

Description

一种基于收视行为的用户画像和直播视频文件的剪辑方法

技术领域

本发明涉及大数据领域，特别是涉及一种基于收视行为的用户画像和直播视频文件的剪辑方法。

背景技术

随着高速率、大宽带、低延时高可靠的5G网络时代的到来，为网络信息的传输，尤其是网络短视频的快速发展提供了坚实的基础。其中短视频因为其丰富的个性化展示和便捷的剪辑、上传方式等特点，能够快速增加用户的数量，并显著提升用户粘性和留存率。短视频的快速发展对传统的传媒行业带来了冲击也带来了机遇。其中传统的媒体行业原先就拥有丰富的版权视频资源以及优良的基础设施，因此如何借助短视频的短小精悍、互动性强、内容丰富、碎片化、针对性强的特点，来对传统的视频资源进行批量化的二次创作，成为了当前传统媒体行业想要取得转型成功的关键一步。

其中在视频资源的二次化创作的过程中，离不开视频剪辑的过程，视频剪辑在整个视频行业的服务链路中起到承上启下的作用。传统的视频剪辑主要涉及BGM制作、场景或声音特效、转场、剪切、拼接、遮标、顺序调整、比例缩放、添加文字、色调调整等方面，以及对特定场景的着重显示，比如体育赛事得分的场景，但是传统的视频剪辑仅仅是通过普遍的展示方法完成剪辑，通常是剪辑精彩片段，而并没有针对用户个人喜好进行剪辑，比如用户在一支队伍中着重喜欢某个成员。因此传统的视频剪辑方式就难以迎合用户的喜好，减少了用户粘性。

另一方面传统的视频剪辑需要投入大量的人力，并且需要消耗较长的时间完成，难以实现批量处理视频数据的需求。因此需要一种能够基于用户喜好自动完成视频剪辑的方法。

发明内容

本发明的目的是解决现有技术的不足，提供一种基于收视行为的用户画像和直播视频文件的剪辑方法，结构简单，使用方便。

一种基于收视行为的用户画像和直播视频文件的剪辑方法，包括如下步骤：

步骤1：获取某一对照直播视频的收视用户样本集，其中用户样本集包括用户ID以及对应的用户画像标签；

步骤2：对步骤1中获取的用户样本集进行清洗操作；

步骤3：运用GMM算法对用户样本集中的用户进行聚类，将用户划分为k类；其中划分的依据包括年龄、性别、观看喜好的特征；划分后的用户群组通过人工进行命名；

步骤4：根据每一次回传的对照直播数据，计算对应不同用户群组的收视用户数，绘制不同用户群组在对照直播视频的不同时段的收视用户数曲线；

步骤5：根据不同用户群组的收视用户数曲线，完成对照直播视频的剪辑和合并，获得对照视频片段；对于不同的收视曲线采用不同的剪辑和合并策略，根据不同剪辑和合并策略剪辑获得对照视频片段属于对应的收视曲线所属的用户群组；

步骤6：将完成剪辑和合并的对照视频片段以及新上架或新采购的视频，分别调用音频文件识别接口实现视频转文本；

步骤7：转换后的文本分别调用TF-IDF进行关键词抽取，将抽取的关键词信息添加到对照视频片段和新视频的视频标签中；

步骤8：通过编辑距离算法分别计算不同的对照视频片段与新视频的标签相似度，选取相似度最高的对照视频片段，将该对照视频片段对应的用户群组作为新视频的面向用户群组；

步骤9：将该用户群组对应的所有对照视频片段，分别与新视频进行标签相似度比对，根据相似度排序，完成前N项对照视频片段在新视频中的对应片段的剪辑和合并。

进一步的，所述步骤1中的用户样本集表示为U＝{x₁,x₂,…,x_q}，用户画像标签表示为P＝{p₁,p₂,…,p_n}；其中用户画像标签根据受理信息表、用户全量表、产品订购详单表、直播详单表、点播和回放的日志详单表、每月出账表、宽带流量表、呼叫中心日志表、活动参与信息得出，用户画像标签包括年龄、产品线、不同时段的点播题材喜好度、点播演员偏好、当前价值、直播活跃度的因素。

进一步的，所述步骤2中的清洗操作包括对画像标签集U进行变量规范化、缺失值填充、删除多余变量以及删除异常值的操作。

进一步的，所述步骤3中用户聚类划分首先假设步骤1中的用户样本集U＝{x₁,x₂,…,x_q}，服从混合高斯分布P_M(x)，如下式所示：

其中α_i表示选择第i个混合分布的概率，p(x|μ_i,∑_i)表示高斯多元分布，P_M(x)表示混合高斯分布；k表示聚类的个数；其中高斯多元分布p(x|μ_i,∑_i)表示为：

其中μ_i表示均值向量，∑_i表示协方差矩阵；n表示数据集的维度，对应画像标签的维度个数；

使用GMM算法，对用户进行聚类算法后的类标集合表示为C＝{c₁,c₂,…,c_k}，算法的流程包括：

步骤31：对各混合高斯分布模型进行模型参数初始化，模型参数包括α_i,μ_i,∑_i；

步骤32：计算用户样本集中第j个用户样本x_j，经混合分布生成的后验概率p(z_j＝i|x_j)，后验概率表示为：

步骤33：根据后验概率计算新的模型参数α′_i、μ′_i、∑′_i，分别表示为：

步骤34：按照新的模型参数重复步骤32和步骤33，直到达到设定的最大迭代次数T，进入步骤35；

步骤35：将用户样本集中的每个样本按照概率最大值

进行划分，划分到概率最大的簇，最终得到k个聚类。

进一步的，所述步骤4中对照直播数据表示为L，L＝{l₁,l₂,…,l_t}，其中直播实时收视数据包括机顶盒号、频道名称、直播开始时间、直播结束时间、节目开始时间、节目结束时间的数据。

进一步的，所述步骤6中，需要对通过原对照直播视频剪辑和合并获得的对照视频片段以及新视频进行3次格式转换和1次接口调用，包括如下步骤：

步骤61：使用命令ffmpeg，将TS文件转换为MP4文件；

步骤62：使用moviepy中的VideoFileClip把MP4文件转换为WAV格式的文件；

步骤63：使用pydub中的AudioSegment对WAV格式的文件进行采样率和声道转换；

步骤64：使用python调用接口实现视频转文本，其中由对照视频片段转换后的文本定义为ClipVideoText，由新视频转换后的文本定义为NewVideoText。

进一步的，所述步骤7中的视频标签表示为V＝{v₁,v₂,…,v_m}，包括内容类型、类型大项、类型次项、发型年份、导演、演员、编剧、角色关键词、IP关键词、网络评分、价值分。

进一步的，所述步骤64调用TD-IDF进行关键词提取，包括如下步骤：

步骤71：将对照视频片段和新视频转换得到的文本统计为语料库D＝{D₁,D₂,…,D_w}，给定的文档D_f为语料库中的任一个视频文本，其中对照视频片段的文本为ClipVideoText，新视频的文本为NewVideoText；

步骤72：使用结巴分词，对给定的文档D_f进行数据预处理操作，最终得到m个候选关键词，表示为D_f＝[t₁,t₂,…,t_m]；其中数据预处理操作包括分词和去除停用词；

步骤73：计算词语t_a，a∈(1,m)在文档D_f中的词频TF_af，该词频为标准化后的词频，词频表示候选词语t_a在文档D_f中出现的次数与文档D_f中的总词数的比值；

步骤74：计算词语t_a在整个语料库的逆文档频率IDF_a＝log(w/(D_wa+1)),其中D_wa表示语料库D中出现词语t_a的文档个数，w为语料库中的文档总数；

步骤75：计算得到词语t_a的TF-IDF值，TF-IDF＝TF_af*IDF_a，

步骤76：根据步骤73-步骤75获得所有候选关键词的TF-IDF数值；

步骤77：根据候选关键词的TF-IDF数值，将候选关键词进行倒序排列，取前M个词汇作为该文本的关键词。

进一步的，所述步骤8中的编辑距离算法表示两个字符串之间，由一个字符串转成另一个字符串所需的最少编辑操作次数，编辑操作包括插入字符、替换字符以及删除字符；其中编辑距离越小，则表示两个字符串的相似度越大。

进一步的，根据权利要求1所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤9中剪辑和合并的指令与步骤5中的剪辑与合并的指令相同，剪辑和合并的指令包括视频剪辑的指令：ffmpeg-ss begin_time-t end_time-iinput_file-vcodec copy-acodec copy output_file；视频合并的指令：ffmpeg-fconcat-i to_contact_file-c copy output_file；在视频剪辑的指令中，-ss表示寻找时间位置，起始时间戳；begin_time表示开始剪辑的时间；-t表示被剪辑后的时长，单位为秒；end_time表示结束剪辑的时间；-i表示输入/源文件名；input_file表示输入文件地址；-vcode表示设置视频解码器，用于复制原视频的编码；copy表示流复制；-acode表示设置音频解码器，用于复制原音频的编码；output_file表示输出/目标文件名；在视频剪辑的指令中，-f表示输入；concat表示使用concat协议；-i表示输入/源文件名；to_concat_file表示待合并的文件列表，后缀名为txt；-c表示编码器，用于复制原有编码；copy表示流复制；output_file表示输出/目标文件名。

本发明的有益效果为：

本发明通过将新视频结合对照视频片段，判断新视频的用户群组，实现针对不同用户群体完成视频的自动化剪辑，使剪辑后的视频的受众群体更有准对性，提升用户粘性；

通过面向不同的收视曲线，进行对应的视频剪辑和合并，保证用户对于视频的喜好程度得到准确体现；

通过编辑距离算法，比较两个视频文本的相似程度，进而得到关键词最相似的两个视频，使两个视频中的新视频能够根据对照视频片段进行剪辑和合并，而对照视频片段又是根据收视曲线进行剪辑和合并的，进一步能够保证新视频的剪辑也能够符合观众喜好。

附图说明

图1为本发明实施例一的整体流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一：

如图1所示，一种基于收视行为的用户画像和直播视频文件的剪辑方法，包括如下步骤：

步骤2：对步骤1中获取的用户样本集进行清洗操作；

步骤3：运用GMM算法对用户样本集中的用户进行聚类，将用户划分为k类；其中划分的依据包括年龄、性别、观看喜好等特征；划分后的用户群组通过人工进行命名；

步骤5：根据不同用户群组的收视用户数曲线，完成对照直播视频的剪辑和合并，获得对照视频片段；需要说明的是对于不同的收视曲线采用不同的剪辑和合并策略，根据不同剪辑和合并策略剪辑获得对照视频片段属于对应的收视曲线所属的用户群组；

步骤6：将完成剪辑和合并的对照视频片段以及新上架或新采购的视频，分别调用音频文件识别接口实现视频转文本，便于提取视频中的关键词信息；

步骤8：通过编辑距离算法(levenshtein distance)，分别计算不同的对照视频片段与新视频的标签相似度，选取相似度最高的对照视频片段，将该对照视频片段对应的用户群组作为新视频的面向用户群组；

步骤9：将该用户群组对应的所有对照视频片段，分别与新视频进行标签相似度比对，根据相似度排序，完成前N项对照视频片段在新视频中的对应片段的剪辑和合并；其中剪辑和合并的方法同步骤5中的剪辑和合并方法。

所述步骤1中的用户样本集表示为U＝{x₁,x₂,…,x_q}，用户画像标签表示为P＝{p₁,p₂,…,p_n}；其中用户画像标签根据受理信息表、用户全量表、产品订购详单表、直播详单表、点播和回放的日志详单表、每月出账表、宽带流量表、呼叫中心日志表、活动参与信息等与客户相关的基础数据得出，包括年龄、产品线、不同时段的点播题材喜好度、点播演员偏好、当前价值、直播活跃度等因素。

所述步骤2中的清洗操作包括对画像标签集U进行变量规范化、缺失值填充、删除多余变量以及删除异常值等操作。

所述步骤3中用户聚类划分首先假设步骤1中的用户样本集U＝{x₁,x₂,…,x_q}服从混合高斯分布P_M(x)，x表示用户样本集U中的任一样本，如下式所示：

其中α_i表示选择第i个混合分布的概率，p(x|μ_i,∑_i)表示高斯多元分布，P_M(x)表示混合高斯分布，k表示用户样本集的数量；其中高斯多元分布p(x|μ_i,∑_i)表示为：

其中μ_i表示均值向量，∑_i表示协方差矩阵；n表示数据集的维度，在本例中为用户画像标签的维度个数。使用GMM算法，对用户进行聚类算法后的类标集合表示为C＝{c₁,c₂,…,c_k}，算法的流程包括：

其中q为用户样本集中的样本数量；

步骤35：将用户样本集中的每个样本按照概率最大值

进行划分，划分到概率最大的簇，最终得到k个聚类。

所述步骤4中对照直播数据表示为L，L＝{l₁,l₂,…,l_t}，其中直播实时收视数据包括机顶盒号、频道名称、直播开始时间、直播结束时间、节目开始时间、节目结束时间等数据。

所述步骤5中剪辑和合并的指令包括视频剪辑的指令以及视频合并的指令，视频剪辑的指令如下所示：

高潮视频剪辑的指令：传入高潮开始时间和高潮结束时间，计算待截取的视频时长，进而截取指定时长的视频，且音视频的编码和原视频保持一致，指令表示为：

ffmpeg-ss begin_time-t end_time-i input_file-vcodec copy-acodec copyoutput_file

上述指令的参数说明如下：

-ss：寻找时间位置，起始时间戳；

begin_time：开始剪辑的时间，假设从30秒开始剪辑，格式为00:00:30；

-t：被剪辑后的时长，单位为秒；

end_time：结束剪辑的时间，假设截取300秒，则end_time＝300；

-i：输入/源文件名；

input_file：输入文件地址；

-vcode：设置视频解码器，这里复制原视频的编码；

copy：流复制；

-acode：设置音频解码器，这里复制原音频的编码；

output_file：输出/目标文件名；

视频合并的指令如下所示：

对某一个视频文件中的多个高潮片段合并为一个视频片段，对指定文件夹中的视频文件使用concat协议进行合并，指令表示为：

ffmpeg-f concat-i to_contact_file-c copy output_file

上述指令的参数说明如下：

-f：输入；

concat：使用concat协议；

-i：输入/源文件名；

to_concat_file：待合并的文件列表，后缀名为txt，具体事例如下：

file./output_file1(待合并的文件路径1)

file./output_file2(待合并的文件路径2)

-c：编码器，这里指复制原有编码

copy：流复制

output_file：输出/目标文件名；

所述步骤6中，在本例中对照直播视频为TS流进行传输的数据，由于对照直播视频和新视频都是采用TS流进行传输，而现有的可供调用的音频文件识别接口仅支持采样率为16kHz、声道为单声道且格式为WAV的音频文件，因此需要对通过原对照直播视频剪辑和合并获得的对照视频片段以及新视频进行3次格式转换和1次接口调用，包括如下步骤：

步骤61：使用命令ffmpeg，将TS文件转换为MP4文件；指令表示为：

ffmpeg+"-i"+ts_filepath+"-vcodec copy-f mp4"+mp4_filepath；

上述指令的参数说明如下：

-i：输入/源文件名；

ts_filwpath：待转换的传输流文件，扩展名为.ts；

-vcodec copy：复制原音视频的编码格式；

mp4_filepath：输出/目标文件名，这里指扩展名为.mp4的文件；

步骤62：使用moviepy中的VideoFileClip把MP4文件转换为WAV格式的文件；指令表示为：

VideoFileClip(mp4_filepath).audio；

步骤63：使用pydub中的AudioSegment对WAV格式的文件进行采样率和声道转换；指令表示为：

AudioSegment.from_wav(mp4_filepath).set_frame_rate(frame_rate).set_channel s(channels).export(wav_filepath,format＝'wav',codec＝'pcm_s16le')；

上述指令的参数说明如下：

from_wave：wav文件来源路径；

set_frame_rate：设置采样率；

set_channels：声道数；

wav_filepath：输出/目标文件名；

codec：文件编码格式；

所述步骤7中的视频标签表示为V＝{v₁,v₂,…,v_t}，包括内容类型、类型大项、类型次项、发型年份、导演、演员、编剧、角色关键词、IP关键词、网络评分、价值分等。其中对步骤64获得的文本ClipVideoText和文本NewVideoText，根据TF-IDF算法完成关键词抽取，抽取的关键词分别表示为：[ClipKW₁,ClipKW₂,…,ClipKW_u]和[NewKW₁,NewKW₂,…,NewKW_u]。其中调用TD-IDF进行关键词提取，包括如下步骤：

步骤72：使用结巴分词，对给定的文档D_f进行数据预处理操作，最终得到m个候选关键词，表示为D_f＝[t₁,t₂,…,t_m]；其中数据预处理操作包括分词和去除停用词等；

步骤75：计算得到词语t_a的TF-IDF值，TF-IDF＝TF_af*IDF_a；

步骤76：根据步骤73-步骤75获得所有候选关键词的TF-IDF数值；

所述步骤8中对新视频和对照视频片段根据编辑距离算法计算关键词的相似度，完成比较后，根据相似度数值，将对照视频片段进行倒序排列，取相似度数值最高的对照视频片段对应的用户群组作为新视频的面向用户群组。其中编辑距离算法表示两个字符串之间，由一个字符串转成另一个字符串所需的最少编辑操作次数，编辑操作包括插入字符、替换字符以及删除字符；其中编辑距离越小，则表示两个字符串的相似度越大。需要说明的是在一些其他实施方式中还会将新视频的原先的视频标签与上述关键词共同进行相似度比较。

所述步骤9中剪辑和合并的指令与步骤5中的剪辑与合并的指令相同。

在实施的过程中将新视频结合对照视频片段，判断新视频的用户群组，实现针对不同用户群体完成视频的自动化剪辑，使剪辑后的视频的受众群体更有准对性，提升用户粘性；通过面向不同的收视曲线，进行对应的视频剪辑和合并，保证用户对于视频的喜好程度得到准确体现；通过编辑距离算法，比较两个视频文本的相似程度，进而得到关键词最相似的两个视频，使两个视频中的新视频能够根据对照视频片段进行剪辑和合并，而对照视频片段又是根据收视曲线进行剪辑和合并的，因此能够保证新视频的剪辑也能够符合观众喜好。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，包括如下步骤：

步骤2：对步骤1中获取的用户样本集进行清洗操作；

2.根据权利要求1所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤1中的用户样本集表示为U＝{x₁,x₂,…,x_q}，用户画像标签表示为P＝{p₁,p₂,…,p_n}；其中用户画像标签根据受理信息表、用户全量表、产品订购详单表、直播详单表、点播和回放的日志详单表、每月出账表、宽带流量表、呼叫中心日志表、活动参与信息得出，用户画像标签包括年龄、产品线、不同时段的点播题材喜好度、点播演员偏好、当前价值、直播活跃度的因素。

3.根据权利要求2所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤2中的清洗操作包括对画像标签集U进行变量规范化、缺失值填充、删除多余变量以及删除异常值的操作。

4.根据权利要求2所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤3中用户聚类划分首先假设步骤1中的用户样本集U＝{x₁,x₂,…,x_q}，服从混合高斯分布P_M(x)，如下式所示：

步骤35：将用户样本集中的每个样本按照概率最大值

进行划分，划分到概率最大的簇，最终得到k个聚类。

5.根据权利要求1所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤4中对照直播数据表示为L，L＝{l₁,l₂,…,l_t}，其中直播实时收视数据包括机顶盒号、频道名称、直播开始时间、直播结束时间、节目开始时间、节目结束时间的数据。

6.根据权利要求1所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤6中，需要对通过原对照直播视频剪辑和合并获得的对照视频片段以及新视频进行3次格式转换和1次接口调用，包括如下步骤：

步骤61：使用命令ffmpeg，将TS文件转换为MP4文件；

7.根据权利要求6所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤7中的视频标签表示为V＝{v₁,v₂,…,v_t}，包括内容类型、类型大项、类型次项、发型年份、导演、演员、编剧、角色关键词、IP关键词、网络评分、价值分。

8.根据权利要求7所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤64调用TD-IDF进行关键词提取，包括如下步骤：

步骤75：计算得到词语t_a的TF-IDF值，TF-IDF＝TF_af*IDF_a，

步骤76：根据步骤73-步骤75获得所有候选关键词的TF-IDF数值；

9.根据权利要求1所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤8中的编辑距离算法表示两个字符串之间，由一个字符串转成另一个字符串所需的最少编辑操作次数，编辑操作包括插入字符、替换字符以及删除字符；其中编辑距离越小，则表示两个字符串的相似度越大。

10.根据权利要求1所述的一种基于收视行为的用户画像和直播视频文件的剪辑方法，其特征在于，所述步骤9中剪辑和合并的指令与步骤5中的剪辑与合并的指令相同，剪辑和合并的指令包括视频剪辑的指令：ffmpeg-ss begin_time-t end_time-iinput_file-vcodec copy-acodec copy output_file；视频合并的指令：ffmpeg-f concat-i to_contact_file-c copy output_file；在视频剪辑的指令中，-ss表示寻找时间位置，起始时间戳；begin_time表示开始剪辑的时间；-t表示被剪辑后的时长，单位为秒；end_time表示结束剪辑的时间；-i表示输入/源文件名；input_file表示输入文件地址；-vcode表示设置视频解码器，用于复制原视频的编码；copy表示流复制；-acode表示设置音频解码器，用于复制原音频的编码；output_file表示输出/目标文件名；在视频剪辑的指令中，-f表示输入；concat表示使用concat协议；-i表示输入/源文件名；to_concat_file表示待合并的文件列表，后缀名为txt；-c表示编码器，用于复制原有编码；copy表示流复制；output_file表示输出/目标文件名。