CN107436921B - 视频数据处理方法、装置、设备及存储介质 - Google Patents

视频数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107436921B
CN107436921B CN201710534968.6A CN201710534968A CN107436921B CN 107436921 B CN107436921 B CN 107436921B CN 201710534968 A CN201710534968 A CN 201710534968A CN 107436921 B CN107436921 B CN 107436921B
Authority
CN
China
Prior art keywords
data
information
video data
fragment
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710534968.6A
Other languages
English (en)
Other versions
CN107436921A (zh
Inventor
李洪海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710534968.6A priority Critical patent/CN107436921B/zh
Publication of CN107436921A publication Critical patent/CN107436921A/zh
Application granted granted Critical
Publication of CN107436921B publication Critical patent/CN107436921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Abstract

本发明提供一种视频数据处理方法。所述方法包括:获取目标视频数据;提取所述目标视频数据中的帧图像及音频数据;确定所述帧图像的图像信息;根据所述帧图像的图像信息,将所述帧图像分类成片段群组;对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据;将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。本发明还提供一种视频数据处理装置。本发明能直观地显示素材内容,提高剪辑师的制作效率。

Description

视频数据处理方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种视频数据处理方法、装置、设备及存储介质。
背景技术
目前的剪辑师获取到用户上传的视频素材时,只能观看视频素材去分析视频素材中能用的帧图像及声音数据。通过观看视频素材不仅需要时间,也无法直观找到想要的素材内容,极大的影响了剪辑师的工作效率。
发明内容
鉴于以上内容,有必要提供一种视频数据处理方法及装置、设备及存储介质,能直观地显示素材内容,提高剪辑师的制作效率。
一种视频数据处理方法,所述方法包括:
获取目标视频数据;
提取所述目标视频数据中的帧图像及音频数据;
确定所述帧图像的图像信息;
根据所述帧图像的图像信息,将所述帧图像分类成片段群组;
对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据;
将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。
根据本发明优选实施例,所述确定所述帧图像的图像信息包括以下一种或者多种:
获取所述帧图像的属性信息,所述属性信息包括拍摄时间;或
确定所述帧图像的色彩信息、主体对象、主体对象的状态特征、拍摄角度、质量信息;或
提取所述帧图像的修饰信息,所述修饰信息包括以下一种或者多种:标识修饰信息、文字修饰信息、点缀图片修饰信息、背景修饰信息。
根据本发明优选实施例,所述根据所述帧图像的图像信息,将所述帧图像分类成片段群组包括以下一种或者多种:
根据所述帧图像的拍摄时间,将同一时间段内的帧图像分类到一个片段群组;或
根据所述帧图像的主体对象及主体对象的状态特征,将具有相同主体对象的状态特征的帧图像分类到一个片段群组;或
根据所述帧图像的拍摄时间及拍摄角度,将同一时间段内相同拍摄角度下的帧图像分类到一个片段群组中。
根据本发明优选实施例,对所述音频数据进行分析包括:
提取所述音频数据中的音乐数据、音效数据、人物语言数据。
根据本发明优选实施例,所述方法还包括:
获取所述音频数据在所述目标视频数据中对应的时间段信息;
根据所述音频数据在所述目标视频数据中对应的时间段信息,确定所述音乐数据对应的时间段信息、所述音效数据对应的时间段信息、及所述人物语言数据对应的时间段信息。
根据本发明优选实施例,所述提取每个片段群组对应的音频片段数据包括以下一种或者多种:
根据每个片段群组对应的时间段信息及所述音乐数据对应的时间段信息,从所述音乐数据中提取每个片段群组对应的音乐片段数据;或
根据每个片段群组对应的时间段信息及所述音效数据对应的时间段信息,从所述音效数据中提取每个片段群组对应的音效片段数据;或
根据每个片段群组对应的时间段信息及所述人物语言数据对应的时间段信息,从所述人物语言数据中提取每个片段群组对应的人物语言片段数据。
根据本发明优选实施例,所述将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户包括:
将每个片段群组对应的音频片段数据及每个片段群组中的帧图像的图像信息转换成文字,以文字的形式呈现给剪辑师。
一种视频数据处理装置,所述装置包括:
获取模块,用于获取目标视频数据;
提取模块,用于提取所述目标视频数据中的帧图像及音频数据;
确定模块,用于确定所述帧图像的图像信息;
分类模块,用于根据所述帧图像的图像信息,将所述帧图像分类成片段群组;
所述提取模块,还用于对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据;
展现模块,用于将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。
一种电子设备,所述电子设备包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现包括任意实施例中所述的视频数据处理方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现视频数据处理方法,所述视频数据处理方法包括任意实施例中所述的视频数据处理方法中的步骤。
由以上技术方案可以看出,本发明获取目标视频数据;提取所述目标视频数据中的帧图像及音频数据;确定所述帧图像的图像信息;根据所述帧图像的图像信息,将所述帧图像分类成片段群组;对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据;将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。本发明能直观地显示素材内容,提高剪辑师的制作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明视频数据处理方法的较佳实施例的流程图。
图2是本发明本发明视频数据处理装置的较佳实施例的功能模块图。
图3是本发明至少一个实例中电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,是本发明视频数据处理方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述视频数据处理方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。所述电子设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
如图1所示,是本发明视频数据处理方法的第一较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S10,获取目标视频数据。
在本发明的至少一个实施例中,所述目标视频数据可以是存储在一个存储设备中,所述存储设备可以是所述电子设备的外部存储设备,也可以是所述电子设备的内部存储器,这样所述电子设备直接读取所述目标视频数据即可。所述电子设备也可以提供一个用户界面,用户通过所述用户界面的用户接口上传所述目标视频数据,所述电子设备通过所述用户接口获取输入的目标视频数据。
S11,提取所述目标视频数据中的帧图像及音频数据。
在本发明的至少一个实例中,基于视频帧率,按照所述目标视频数据的播放顺序,将所述目标视频数据划分成多个帧图像。利用音频分离技术从所述目标视频数据中将所述音频数据分离出来,或者直接调用音视频分离器从所述目标视频数据中将所述音频数据分离出来。
其中所述音频分离技术是现有技术,不发明不再详述,所述音视频分离器主要是用于视频信号的转换。如(高清晰度多媒体接口,High Definition MultimediaInterface,HDMI)TO HDMI音频分离器,就是利用HDMI信号源连接到电视或投影仪上,并独立输出声音和视频,实现HDMI信号的音频同步分离。
S12,确定所述帧图像的图像信息。
在本发明的至少一个实施例中,所述图像信息包括,但不限于,以下一种或者多种的组合:属性信息、色彩信息、主体对象、主体对象的状态特征、拍摄角度、质量信息、修饰信息等等。所述确定所述帧图像的图像信息包括以下一种或者多种:
(a1)获取所述帧图像的属性信息,所述属性信息包括以下一种或者多种:拍摄时间、上传时间、上传人、所述目标视频数据的时长等等。
在本发明的至少一个实施例中,从所述目标视频数据的属性选项中获取所述帧图像的拍摄时间、上传时间,上传人等等。所述上传时间及上传人也可以通过用户接口获取用户在用户界面上输入的个人信息,从所述个人信息中获取所述上传人、上传时间等等。
(a2)确定所述帧图像的色彩信息、主体对象、主体对象的状态特征、拍摄角度、质量信息。
在本发明的至少一个实施例中,所述色彩信息包括,但不限于:主题色。在所述帧图像中,一个像素点对应一个颜色,统计每个颜色值对应的像素点数量。
优选地,所述确定所述帧图像的色彩信息包括:获取所述帧图像中所有像素点的颜色;在所述帧图像的所有像素点中,将像素点的数量从大到小排序后,像素点的数量排在前预设位数的颜色作为主题色。这样便于剪辑师快速直观地知道每幅图像的主色调。
所述主体对象为所述帧图像的主体,所述主题对象包括以下一种或者多种:人物、自然环境、动物、静物等等,例如,所述静物可以是水果,花草,器物等等。
优选地,确定所述帧图像的主体对象包括:获取预先设置的主体模板库,将所述帧图像与所述主体模板库中的主体模板进行匹配,将与所述帧图像相似度最高的主体模板作为所述帧图像的主体对象。所述主体模板库包括以下一种或者多种:人脸模板、自然环境模板、动物模板、静物模板等等。进一步的,所述主体模板库还可以根据年龄进行分类,这样在确定所述帧图像的主体对象的同时,还可以确定所述主体对象的年龄等等。这样便于剪辑师快速筛选需要的主体对象。
优选地,所述帧图像的主体对象的状态特征用于描述所述帧图像的主体对象所处于的状态,如人正在做的事情,动物的奔跑状态,处于静止的杯子等等。所述确定所述帧图像的主体对象的状态特征包括:获取包含大量样本图像的样本集,基于所述样本集,利用机器学习算法训练出预测模型;将所述帧图像作为所述预测模型的输入,利用所述预测模型训练得到所述帧图像的主体对象的状态特征。其中所述机器学习算法为现有技术,本发明不再详述。这样便于剪辑师快速直观查看到视频中主体对象有什么样的状态,便于剪辑师快速剪辑视频。
优选地,所述拍摄角度指以主体对象为中心,在同一水平面上围绕主体对象四周选择摄影点。在拍摄距离和拍摄高度不变的条件下,不同的拍摄角度可展现被摄对象不同的侧面形象,以及主体与陪体、主体与环境的不同组合关系变化。所述拍摄角度包括,但不限于,以下一种或者多种:正面角度、斜侧角度、侧面角度、反侧角度、背面角度。所述帧图像的拍摄角度可由用户确定并输入至所述电子设备中,当然在其他实施例中,也可以通过对所述帧图像的主体对象的状态来判断,例如,当所述主体对象是处于正面状态时,则拍摄角度为正面角度等等。这样便于剪辑师快速筛选不同角度的图像。
优选地,所述质量信息包括,但不限于以下一种或者多种:图像的分辨率、图像的抖动程度、图像的像素纵横比等等。这样便于剪辑师快速直观了解所有帧图像质量情况,便于快速挑选高质量的帧图像。
(a3)提取所述帧图像的修饰信息,所述修饰信息包括以下一种或者多种:标识修饰信息、文字修饰信息、点缀图片修饰信息、背景修饰信息。所述修饰信息可以分为修饰物的样式(如logo样式等等)及修饰物的演示(logo演示)等等。这样直观的展示修饰信息,便于剪辑师快速提取有用的修饰信息,如logo,也可以帮助剪辑师从素材上快速了解用户的偏好风格等等。
优选地,所述标识修饰信息包括,但不限于以下一种或者多种:logo样式、logo演示等等。所述文字修饰信息包括,但不限于以下一种或者多种:字体样式(如三维字体等)、字体动画演示(如滚动显示)等等。所述点缀图片修饰信息包括,但不限于以下一种或者多种:图片样式、图片动画演示等等。所述背景修饰信息包括,但不限于以下一种或者多种:背景样式等等。
优选地,所述提取所述帧图像的修饰信息包括:利用图像痕迹处理算法确定所述帧图像中的修饰区域,利用特征提取技术从所述修饰区域中提取特征,将提取的特征与修饰模板库中的修饰模板进行匹配,将相似度最高的修饰模板确定为所述帧图像的修饰样式;获取与所述帧图像相邻的多个帧图像,根据所述相邻的多个帧图像的修饰样式确定修饰物的演示。例如添加的闪动的桃心等等。当然在其他实施例中,也可以由人工确定所述帧图像的修饰信息,所述电子设备接收确定的所述帧图像的修饰信息。
S13,根据所述帧图像的图像信息,将所述帧图像分类成片段群组。
在本发明的至少一个实施例中,所述帧图像可以是一个或者多个,所述根据所述帧图像的图像信息,将所述帧图像分类成片段群组包括以下一种或者多种:
(b1)根据所述帧图像的拍摄时间,将同一时间段内的帧图像分类到一个片段群组。
(b2)根据所述帧图像的主体对象及主体对象的状态特征,将具有相同主体对象的状态特征的帧图像分类到一个片段群组。
(b3)根据所述帧图像的拍摄时间及拍摄角度,将同一时间段内相同拍摄角度下的帧图像分类到一个片段群组中。
将所有的帧图像分类后,这样就会有多个片段群组,剪辑师可以从每个片段群组中选取高质量,符合用户需求的图片,无需观看视频,再对视频进行分析,可以提高剪辑师的工作效率。
S14,对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据。
在本发明的至少一个实施例中,所述对所述音频数据进行分析包括:提取所述音频数据中的音乐数据、音效数据(如“嗖”、“雨声”等)、人物语言数据(如人与人之间的对话,人的独白等等)。可以利用声音分离技术进行提取。所述声音分离技术主要利用音乐数据、音效数据、人物语言数据的特征不同进行提取,所述声音分离技术包括,但不限于以下一种或者多种:基于傅里叶变换的声音分离技术,基于频率分离的声音分离技术、基于机器学习的声音分离技术等等。所述声音分离技术为现有技术,本发明不再详述。
在本发明的至少一个实施例中,所述方法还包括:
获取所述音频数据在所述目标视频数据中对应的时间段信息;根据所述音频数据在所述目标视频数据中对应的时间段信息,确定所述音乐数据对应的时间段信息、所述音效数据对应的时间段信息、及所述人物语言数据对应的时间段信息。
所述音频数据在所述目标视频数据中对应的时间段信息可以是所述音频数据的拍摄时间段,也可以是所述音频数据在所述目标视频数据中播放时间段(如在一段音乐在所述目标视频数据中的第3分钟开始播放,第4分钟结束等等)。
在本发明的至少一个实施例中,所述提取每个片段群组对应的音频片段数据包括以下一种或者多种:
根据每个片段群组对应的时间段信息及所述音乐数据对应的时间段信息,从所述音乐数据中提取每个片段群组对应的音乐片段数据;或
根据每个片段群组对应的时间段信息及所述音效数据对应的时间段信息,从所述音效数据中提取每个片段群组对应的音效片段数据;或
根据每个片段群组对应的时间段信息及所述人物语言数据对应的时间段信息,从所述人物语言数据中提取每个片段群组对应的人物语言片段数据。
这样,就可以将每个片段群组中所有帧图像及声音数据放在一起,剪辑师可以从每个片段群组中选取高质量,符合用户需求的图片,及与挑选的图片相对应的声音数据,无需观看视频,再对视频进行分析,可以提高剪辑师的工作效率。同时对所述音频数据的分析,也可以帮助剪辑师快速了解用户的音乐风格等等。
S15,将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。
在本发明的至少一个实施例中,将每个片段群组对应的音频片段数据及每个片段群组中的帧图像的图像信息转换成文字,以文字的形式呈现给剪辑师。例如一个片段中有3张帧图像,3张帧图像的主体对象是小孩、主体对象的状态特征为小孩在奔跑,3张帧图像的主题色为绿色等等。
由以上技术方案可以看出,本发明获取目标视频数据;提取所述目标视频数据中的帧图像及音频数据;确定所述帧图像的图像信息;根据所述帧图像的图像信息,将所述帧图像分类成片段群组;对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据;将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。本发明能直观地显示素材内容,提高剪辑师的制作效率。
如图2所示,本发明视频数据处理装置的实施例的功能模块图。所述视频数据处理装置10包括获取模块100、提取模块101、确定模块102、分类模块103及展现模块104。本发明所称的模块是指一种能够被处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块100获取目标视频数据。
在本发明的至少一个实施例中,所述目标视频数据可以是存储在一个存储设备中,所述存储设备可以是所述电子设备的外部存储设备,也可以是所述电子设备的内部存储器,这样所述电子设备直接读取所述目标视频数据即可。所述电子设备也可以提供一个用户界面,用户通过所述用户界面的用户接口上传所述目标视频数据,所述电子设备通过所述用户接口获取输入的目标视频数据。
所述提取模块101提取所述目标视频数据中的帧图像及音频数据。
在本发明的至少一个实例中,所述提取模块101基于视频帧率,按照所述目标视频数据的播放顺序,将所述目标视频数据划分成多个帧图像。所述提取模块101利用音频分离技术从所述目标视频数据中将所述音频数据分离出来,或者直接调用音视频分离器从所述目标视频数据中将所述音频数据分离出来。
其中所述音频分离技术是现有技术,不发明不再详述,所述音视频分离器主要是用于视频信号的转换。如(高清晰度多媒体接口,High Definition MultimediaInterface,HDMI)TO HDMI音频分离器,就是利用HDMI信号源连接到电视或投影仪上,并独立输出声音和视频,实现HDMI信号的音频同步分离。
所述确定模块102确定所述帧图像的图像信息。
在本发明的至少一个实施例中,所述图像信息包括,但不限于,以下一种或者多种的组合:属性信息、色彩信息、主体对象、主体对象的状态特征、拍摄角度、质量信息、修饰信息等等。所述确定模块102确定所述帧图像的图像信息包括以下一种或者多种:
(a1)获取所述帧图像的属性信息,所述属性信息包括以下一种或者多种:拍摄时间、上传时间、上传人、所述目标视频数据的时长等等。
在本发明的至少一个实施例中,从所述目标视频数据的属性选项中获取所述帧图像的拍摄时间、上传时间,上传人等等。所述上传时间及上传人也可以通过用户接口获取用户在用户界面上输入的个人信息,从所述个人信息中获取所述上传人、上传时间等等。
(a2)确定所述帧图像的色彩信息、主体对象、主体对象的状态特征、拍摄角度、质量信息。
在本发明的至少一个实施例中,所述色彩信息包括,但不限于:主题色。在所述帧图像中,一个像素点对应一个颜色,统计每个颜色值对应的像素点数量。
优选地,所述确定模块102确定所述帧图像的色彩信息包括:获取所述帧图像中所有像素点的颜色;在所述帧图像的所有像素点中,将像素点的数量从大到小排序后,像素点的数量排在前预设位数的颜色作为主题色。这样便于剪辑师快速直观地知道每幅图像的主色调。
所述主体对象为所述帧图像的主体,所述主题对象包括以下一种或者多种:人物、自然环境、动物、静物等等,例如,所述静物可以是水果,花草,器物等等。
优选地,所述确定模块102确定所述帧图像的主体对象包括:获取预先设置的主体模板库,将所述帧图像与所述主体模板库中的主体模板进行匹配,将与所述帧图像相似度最高的主体模板作为所述帧图像的主体对象。所述主体模板库包括以下一种或者多种:人脸模板、自然环境模板、动物模板、静物模板等等。进一步的,所述主体模板库还可以根据年龄进行分类,这样在确定所述帧图像的主体对象的同时,还可以确定所述主体对象的年龄等等。这样便于剪辑师快速筛选需要的主体对象。
优选地,所述帧图像的主体对象的状态特征用于描述所述帧图像的主体对象所处于的状态,如人正在做的事情,动物的奔跑状态,处于静止的杯子等等。所述确定模块102确定所述帧图像的主体对象的状态特征包括:获取包含大量样本图像的样本集,基于所述样本集,利用机器学习算法训练出预测模型;将所述帧图像作为所述预测模型的输入,利用所述预测模型训练得到所述帧图像的主体对象的状态特征。其中所述机器学习算法为现有技术,本发明不再详述。这样便于剪辑师快速直观查看到视频中主体对象有什么样的状态,便于剪辑师快速剪辑视频。
优选地,所述拍摄角度指以主体对象为中心,在同一水平面上围绕主体对象四周选择摄影点。在拍摄距离和拍摄高度不变的条件下,不同的拍摄角度可展现被摄对象不同的侧面形象,以及主体与陪体、主体与环境的不同组合关系变化。所述拍摄角度包括,但不限于,以下一种或者多种:正面角度、斜侧角度、侧面角度、反侧角度、背面角度。所述帧图像的拍摄角度可由用户确定并输入至所述电子设备中,当然在其他实施例中,也可以通过对所述帧图像的主体对象的状态来判断,例如,当所述主体对象是处于正面状态时,则拍摄角度为正面角度等等。这样便于剪辑师快速筛选不同角度的图像。
优选地,所述质量信息包括,但不限于以下一种或者多种:图像的分辨率、图像的抖动程度、图像的像素纵横比等等。这样便于剪辑师快速直观了解所有帧图像质量情况,便于快速挑选高质量的帧图像。
(a3)提取所述帧图像的修饰信息,所述修饰信息包括以下一种或者多种:标识修饰信息、文字修饰信息、点缀图片修饰信息、背景修饰信息。所述修饰信息可以分为修饰物的样式(如logo样式等等)及修饰物的演示(logo演示)等等。这样直观的展示修饰信息,便于剪辑师快速提取有用的修饰信息,如logo,也可以帮助剪辑师从素材上快速了解用户的偏好风格等等。
优选地,所述标识修饰信息包括,但不限于以下一种或者多种:logo样式、logo演示等等。所述文字修饰信息包括,但不限于以下一种或者多种:字体样式(如三维字体等)、字体动画演示(如滚动显示)等等。所述点缀图片修饰信息包括,但不限于以下一种或者多种:图片样式、图片动画演示等等。所述背景修饰信息包括,但不限于以下一种或者多种:背景样式等等。
优选地,所述确定模块102提取所述帧图像的修饰信息包括:利用图像痕迹处理算法确定所述帧图像中的修饰区域,利用特征提取技术从所述修饰区域中提取特征,将提取的特征与修饰模板库中的修饰模板进行匹配,将相似度最高的修饰模板确定为所述帧图像的修饰样式;获取与所述帧图像相邻的多个帧图像,根据所述相邻的多个帧图像的修饰样式确定修饰物的演示。例如添加的闪动的桃心等等。当然在其他实施例中,也可以由人工确定所述帧图像的修饰信息,所述电子设备接收确定的所述帧图像的修饰信息。
所述分类模块103根据所述帧图像的图像信息,将所述帧图像分类成片段群组。
在本发明的至少一个实施例中,所述帧图像可以是一个或者多个,所述根据所述帧图像的图像信息,所述分类模块103将所述帧图像分类成片段群组包括以下一种或者多种:
(b1)根据所述帧图像的拍摄时间,将同一时间段内的帧图像分类到一个片段群组。
(b2)根据所述帧图像的主体对象及主体对象的状态特征,将具有相同主体对象的状态特征的帧图像分类到一个片段群组。
(b3)根据所述帧图像的拍摄时间及拍摄角度,将同一时间段内相同拍摄角度下的帧图像分类到一个片段群组中。
将所有的帧图像分类后,这样就会有多个片段群组,剪辑师可以从每个片段群组中选取高质量,符合用户需求的图片,无需观看视频,再对视频进行分析,可以提高剪辑师的工作效率。
所述提取模块101对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据。
在本发明的至少一个实施例中,所述提取模块101对所述音频数据进行分析包括:提取所述音频数据中的音乐数据、音效数据(如“嗖”、“雨声”等)、人物语言数据(如人与人之间的对话,人的独白等等)。可以利用声音分离技术进行提取。所述声音分离技术主要利用音乐数据、音效数据、人物语言数据的特征不同进行提取,所述声音分离技术包括,但不限于以下一种或者多种:基于傅里叶变换的声音分离技术,基于频率分离的声音分离技术、基于机器学习的声音分离技术等等。所述声音分离技术为现有技术,本发明不再详述。
在本发明的至少一个实施例中,所述获取模块100还具体用于:
获取所述音频数据在所述目标视频数据中对应的时间段信息;根据所述音频数据在所述目标视频数据中对应的时间段信息,确定所述音乐数据对应的时间段信息、所述音效数据对应的时间段信息、及所述人物语言数据对应的时间段信息。
所述音频数据在所述目标视频数据中对应的时间段信息可以是所述音频数据的拍摄时间段,也可以是所述音频数据在所述目标视频数据中播放时间段(如在一段音乐在所述目标视频数据中的第3分钟开始播放,第4分钟结束等等)。
在本发明的至少一个实施例中,所述提取模块101提取每个片段群组对应的音频片段数据包括以下一种或者多种:
根据每个片段群组对应的时间段信息及所述音乐数据对应的时间段信息,从所述音乐数据中提取每个片段群组对应的音乐片段数据;或
根据每个片段群组对应的时间段信息及所述音效数据对应的时间段信息,从所述音效数据中提取每个片段群组对应的音效片段数据;或
根据每个片段群组对应的时间段信息及所述人物语言数据对应的时间段信息,从所述人物语言数据中提取每个片段群组对应的人物语言片段数据。
这样,就可以将每个片段群组中所有帧图像及声音数据放在一起,剪辑师可以从每个片段群组中选取高质量,符合用户需求的图片,及与挑选的图片相对应的声音数据,无需观看视频,再对视频进行分析,可以提高剪辑师的工作效率。同时对所述音频数据的分析,也可以帮助剪辑师快速了解用户的音乐风格等等。
所述展现模块104将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。
在本发明的至少一个实施例中,所述展现模块104将每个片段群组对应的音频片段数据及每个片段群组中的帧图像的图像信息转换成文字,以文字的形式呈现给剪辑师。例如一个片段中有3张帧图像,3张帧图像的主体对象是小孩、主体对象的状态特征为小孩在奔跑,3张帧图像的主题色为绿色等等。
由以上技术方案可以看出,本发明获取目标视频数据;提取所述目标视频数据中的帧图像及音频数据;确定所述帧图像的图像信息;根据所述帧图像的图像信息,将所述帧图像分类成片段群组;对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据;将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户。本发明能直观地显示素材内容,提高剪辑师的制作效率。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
请参照图3,图3是本发明实现视频数据处理方法的较佳实施例的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述电子设备1还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
所述电子设备1可以是,但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的电子产品,例如,平板电脑、智能手机、个人数字助理(PersonalDigital Assistant,PDA)、智能式穿戴式设备等终端。
所述电子设备1所处的网络包括,但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
所述电子设备1包括至少一个发送装置31、至少一个存储器32、至少一个处理器33、至少一个接收装置34、以及至少一个通信总线。其中,所述通信总线用于实现这些组件之间的连接通信。
其中,所述接收装置34和所述发送装置31可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他设备进行数据通信。
所述处理器33可以包括一个或者多个微处理器、数字处理器。
所述存储器32用于存储程序代码。所述存储器32可以为智能媒体卡(smart mediacard)、安全数字卡(secure digital card)、快闪存储器卡(flash card)等储存设备。
优选地,所述处理器33可调用存储器32中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器32中的程序代码,并由所述处理器33所执行,以实现一种视频数据处理方法。
所述显示器可以是触摸屏等其他用于显示画面的设备。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令当被包括一个或多个处理器的终端执行时,使终端执行如上文方法实施例所述的视频数据处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种视频数据处理方法,其特征在于,所述方法包括:
获取目标视频数据;
提取所述目标视频数据中的帧图像及音频数据;
确定所述帧图像的图像信息;
根据所述帧图像的图像信息,将所述帧图像分类成片段群组;
对所述音频数据进行分析,并提取每个片段群组对应的音频片段数据;
将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户;
所述确定所述帧图像的图像信息包括提取所述帧图像的修饰信息,所述提取所述帧图像的修饰信息包括:利用图像痕迹处理算法确定所述帧图像中的修饰区域,利用特征提取技术从所述修饰区域中提取特征,将提取的特征与修饰模板库中的修饰模板进行匹配,将相似度最高的修饰模板确定为所述帧图像的修饰样式;获取与所述帧图像相邻的多个帧图像,根据所述相邻的多个帧图像的修饰样式确定修饰物的演示。
2.如权利要求1所述的视频数据处理方法,其特征在于,所述确定所述帧图像的图像信息还包括:
获取所述帧图像的属性信息,所述属性信息包括拍摄时间;和/或
确定所述帧图像的色彩信息、主体对象、主体对象的状态特征、拍摄角度、质量信息;
所述修饰信息包括以下一种或者多种:标识修饰信息、文字修饰信息、点缀图片修饰信息、背景修饰信息。
3.如权利要求2所述的视频数据处理方法,其特征在于,所述根据所述帧图像的图像信息,将所述帧图像分类成片段群组包括以下一种或者多种:
根据所述帧图像的拍摄时间,将同一时间段内的帧图像分类到一个片段群组;或
根据所述帧图像的主体对象及主体对象的状态特征,将具有相同主体对象的状态特征的帧图像分类到一个片段群组;或
根据所述帧图像的拍摄时间及拍摄角度,将同一时间段内相同拍摄角度下的帧图像分类到一个片段群组中。
4.如权利要求2所述的视频数据处理方法,其特征在于,对所述音频数据进行分析包括:
提取所述音频数据中的音乐数据、音效数据、人物语言数据。
5.如权利要求4所述的视频数据处理方法,其特征在于,所述方法还包括:
获取所述音频数据在所述目标视频数据中对应的时间段信息;
根据所述音频数据在所述目标视频数据中对应的时间段信息,确定所述音乐数据对应的时间段信息、所述音效数据对应的时间段信息、及所述人物语言数据对应的时间段信息。
6.如权利要求4或5所述的视频数据处理方法,其特征在于,所述提取每个片段群组对应的音频片段数据包括以下一种或者多种:
根据每个片段群组对应的时间段信息及所述音乐数据对应的时间段信息,从所述音乐数据中提取每个片段群组对应的音乐片段数据;或
根据每个片段群组对应的时间段信息及所述音效数据对应的时间段信息,从所述音效数据中提取每个片段群组对应的音效片段数据;或
根据每个片段群组对应的时间段信息及所述人物语言数据对应的时间段信息,从所述人物语言数据中提取每个片段群组对应的人物语言片段数据。
7.如权利要求1至5中任一项所述的视频数据处理方法,其特征在于,所述将每个片段群组中对应的音频片段数据及每个片段群组中的帧图像的图像信息展现给用户包括:
将每个片段群组对应的音频片段数据及每个片段群组中的帧图像的图像信息转换成文字,以文字的形式呈现给剪辑师。
8.一种视频数据处理装置,其特征在于,所述装置包括多个模块,所述多个模板被处理器执行以实现包括权利要求1至7任意一项视频数据处理方法中的步骤。
9.一种电子设备,其特征在于,所述电子设备包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现包括权利要求1至7任意一项视频数据处理方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现视频数据处理方法,所述视频数据处理方法包括权利要求1至7任意一项视频数据处理方法中的步骤。
CN201710534968.6A 2017-07-03 2017-07-03 视频数据处理方法、装置、设备及存储介质 Active CN107436921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710534968.6A CN107436921B (zh) 2017-07-03 2017-07-03 视频数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710534968.6A CN107436921B (zh) 2017-07-03 2017-07-03 视频数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107436921A CN107436921A (zh) 2017-12-05
CN107436921B true CN107436921B (zh) 2020-10-16

Family

ID=60460790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710534968.6A Active CN107436921B (zh) 2017-07-03 2017-07-03 视频数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107436921B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108307229B (zh) * 2018-02-02 2023-12-22 新华智云科技有限公司 一种影音数据的处理方法及设备
CN108391064A (zh) * 2018-02-11 2018-08-10 北京秀眼科技有限公司 一种视频剪辑方法及装置
CN109040834B (zh) * 2018-08-14 2020-12-25 阿基米德(上海)传媒有限公司 一种短音频计算机辅助生产方法及系统
CN109104642A (zh) * 2018-09-26 2018-12-28 北京搜狗科技发展有限公司 一种视频生成方法及装置
CN109491739B (zh) * 2018-10-30 2023-04-07 北京字节跳动网络技术有限公司 一种主题色动态确定方法、装置、电子设备及存储介质
CN110418191A (zh) * 2019-06-24 2019-11-05 华为技术有限公司 一种短视频的生成方法及装置
CN110769309B (zh) * 2019-11-04 2023-03-31 北京字节跳动网络技术有限公司 用于展示音乐点的方法、装置、电子设备和介质
CN113194268A (zh) * 2020-01-14 2021-07-30 北京小米移动软件有限公司 一种视频生成方法、装置及介质
CN111741331B (zh) * 2020-08-07 2020-12-22 北京美摄网络科技有限公司 一种视频片段处理方法、装置、存储介质及设备
CN113132690B (zh) * 2021-04-22 2022-11-08 北京房江湖科技有限公司 施工过程视频的生成方法、装置以及电子设备、存储介质
CN113489919A (zh) * 2021-06-21 2021-10-08 北京德风新征程科技有限公司 一种基于互联网大数据的数字视频制作系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533229B1 (en) * 2002-03-28 2009-05-12 Symantec Operating Corporation Disaster recovery and backup using virtual machines
CN106056600A (zh) * 2016-05-26 2016-10-26 中山大学 一种基于Contourlet变换的图像拼接检测方法
CN106507021A (zh) * 2015-09-07 2017-03-15 腾讯科技(深圳)有限公司 视频处理方法及终端设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790049A (zh) * 2010-02-25 2010-07-28 深圳市茁壮网络股份有限公司 一种新闻节目视频分段方法及系统
CN105141974B (zh) * 2015-07-29 2018-11-09 百度在线网络技术(北京)有限公司 一种视频剪辑方法和装置
CN105224925A (zh) * 2015-09-30 2016-01-06 努比亚技术有限公司 视频处理装置、方法及移动终端
CN105611413B (zh) * 2015-12-24 2018-10-02 小米科技有限责任公司 一种添加视频段类别标记的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533229B1 (en) * 2002-03-28 2009-05-12 Symantec Operating Corporation Disaster recovery and backup using virtual machines
CN106507021A (zh) * 2015-09-07 2017-03-15 腾讯科技(深圳)有限公司 视频处理方法及终端设备
CN106056600A (zh) * 2016-05-26 2016-10-26 中山大学 一种基于Contourlet变换的图像拼接检测方法

Also Published As

Publication number Publication date
CN107436921A (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
CN107436921B (zh) 视频数据处理方法、装置、设备及存储介质
CN109688463B (zh) 一种剪辑视频生成方法、装置、终端设备及存储介质
CN109547819B (zh) 直播列表展示方法、装置以及电子设备
CN110602554B (zh) 封面图像确定方法、装置及设备
CN110968736B (zh) 视频生成方法、装置、电子设备及存储介质
TWI752502B (zh) 一種分鏡效果的實現方法、電子設備及電腦可讀儲存介質
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
CN111930994A (zh) 视频编辑的处理方法、装置、电子设备及存储介质
CN112199016B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
EP3118772A1 (en) Image content providing apparatus and image content providing method
CN111131876B (zh) 视频直播的控制方法、装置、终端及计算机可读存储介质
US11409794B2 (en) Image deformation control method and device and hardware device
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
CN107295352B (zh) 一种视频压缩方法、装置、设备及存储介质
CN113870133B (zh) 多媒体显示及匹配方法、装置、设备及介质
CN111914523A (zh) 基于人工智能的多媒体处理方法、装置及电子设备
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
KR101642200B1 (ko) 객체의 움직임 분석을 이용한 모션 효과 생성 장치 및 방법
KR20140126529A (ko) 현실 객체의 물리적 동작-증강 현실 상호작용형 전자책 시스템 및 구현 방법
CN113705300A (zh) 音转文训练语料的获取方法、装置、设备以及存储介质
CN112287790A (zh) 影像处理方法、装置、存储介质及电子设备
CN110662001B (zh) 一种视频投影显示方法、装置及存储介质
CN116168134B (zh) 数字人的控制方法、装置、电子设备以及存储介质
CN114513706B (zh) 视频生成方法和装置、计算机设备、存储介质
CN111768729A (zh) 一种vr场景自动解说方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Honghai

Inventor after: Li Yuanting

Inventor after: Lin Shuxian

Inventor before: Li Honghai