CN116980693A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116980693A CN116980693A CN202310406191.0A CN202310406191A CN116980693A CN 116980693 A CN116980693 A CN 116980693A CN 202310406191 A CN202310406191 A CN 202310406191A CN 116980693 A CN116980693 A CN 116980693A
- Authority
- CN
- China
- Prior art keywords
- video
- video frame
- frame image
- processed
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 138
- 238000012216 screening Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims description 94
- 230000014509 gene expression Effects 0.000 claims description 73
- 238000000034 method Methods 0.000 claims description 55
- 239000000463 material Substances 0.000 claims description 51
- 238000004590 computer program Methods 0.000 claims description 23
- 239000012634 fragment Substances 0.000 claims description 12
- 238000013210 evaluation model Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 238000006243 chemical reaction Methods 0.000 abstract description 16
- 230000000875 corresponding effect Effects 0.000 description 152
- 238000005516 engineering process Methods 0.000 description 31
- 238000004519 manufacturing process Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/454—Content or additional data filtering, e.g. blocking advertisements
- H04N21/4545—Input to filtering algorithms, e.g. filtering a region of the image
- H04N21/45457—Input to filtering algorithms, e.g. filtering a region of the image applied to a time segment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请实施例提供了一种图像处理方法、装置、电子设备以及存储介质,涉及人工智能技术领域。图像处理方法包括:获取待处理视频,并获取针对待处理视频的至少一个弹幕信息;基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段;针对每一关键视频片段,从关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果;基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像。本申请的图像处理方法可以有效提高生成的目标视频帧图像用于制作海报的转化率。
Description
技术领域
本申请涉及人工智能领域,具体而言,本申请涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
由于互联网带来的便利,通过网络收看影视作品逐渐成为一种重要的娱乐方式。因此,各种为用户提供影视作品收看功能的视频软件层出不穷。为了让用户对影视作品有初步了解,通常会在应用界面显示各个影视作品对应的推荐素材,例如,显示各个影视作品对应的海报。
海报图制作的第一步为视频帧元素的选取,当前绝大多数平台的海报图制作基本都是针对长视频宣发的,海报对素材的精美程度要求较高,目前是通过对视频数据,如视频帧图像的亮度、色彩、对比度、构图等从视频中提取素材,得到的素材最终用于生成海报的转化率较低。
发明内容
本申请实施例的目的旨在提供一种图像处理方法、装置及电子设备,本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种图像处理的方法,该方法包括:
获取待处理视频,并获取针对待处理视频的至少一个弹幕信息;
基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段;
针对每一关键视频片段,从关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果;其中,第一检测结果表征第一视频帧图像中是否包含至少一个目标对象;
基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像;
确定至少一个目标视频帧图像的标签信息,并将至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中;图像素材库用于提供待处理视频的视频推荐素材。
在一些可能的实施方式中,在接收针对待处理视频的海报的生成指令时,在图像素材库的标签信息中查询与生成指令对应的目标标签;
获取并显示与目标标签对应的目标视频帧图像;其中,所显示的目标视频帧图像用于生成待处理视频对应的海报。
在一些可能的实施方式中,基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,包括:
基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段。
在一些可能的实施方式中,基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段,包括:
基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段;
对待处理视频的各个初始视频帧图像分别进行对象检测,得到各个初始视频帧图像分别对应的第二检测结果;
基于各个初始视频帧图像分别对应的第二检测结果,从待处理视频中提取第二视频片段;第二视频片段为连续出现至少一个目标人物的图像序列;
基于第一视频片段和第二视频片段确定至少一个关键视频片段。
在一些可能的实施方式中,基于第一视频片段和第二视频片段确定至少一个关键视频片段,包括如下任一种:
将第一视频片段和第二视频片段作为关键视频片段;
确定第一视频片段和第二视频片段中的重叠视频片段,将所确定的重叠视频片段作为关键视频片段。
在一些可能的实施方式中,基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段,包括:
基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段;
对各个第一视频片段中各个视频帧图像分别进行对象检测,得到第一视频片段中各个视频帧图像分别对应的第三检测结果;
基于第一视频片段中各个视频帧图像分别对应的第三检测结果,从第一视频片段中提取第三视频片段;第三视频片段为连续出现至少一个目标人物的图像序列;
将第三视频片段作为关键视频片段。
在一些可能的实施方式中,基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,包括:
将待处理视频拆分为多个候选视频片段;
基于弹幕信息在待处理视频中的出现时间,确定各个候选视频片段分别对应的弹幕信息的数量;
基于各个候选视频片段分别对应的弹幕信息的数量,从多个候选视频片段中确定出至少一个关键视频片段。
在一些可能的实施方式中,基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像,包括:
基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出多个第二视频帧图像;其中,第二视频帧图像中出现的目标人物的数量大于或等于第一预设数量;
对各个第二视频帧图像中的至少一个目标人物进行表情识别,得到表情识别结果;表情识别结果表征第二视频帧图像中至少一个目标对象分别对应的表情类型;
基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像。
在一些可能的实施方式中,基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像,包括:
将至少一个目标人物的表情类型均属于第一预设类型的第二视频帧图像,作为第三视频帧图像;
对各个第三视频帧图像的图像特征进行聚类,得到多个图像类别;
对于每个图像类别,基于训练好的图像评价模型对图像类别对应的各个第三视频帧图像进行评价,得到各个第三视频帧图像分别对应于预设图像评估指标的第一评价指标值;
基于各个第三视频帧图像分别对应的第一评价指标值,从图像类别对应的第三视频帧图像中,确定出至少一个第四视频帧图像;
从多个第四视频帧图像中确定出至少一个目标视频帧图像。
在一些可能的实施方式中,从多个第四视频帧图像中确定出至少一个目标视频帧图像,包括:
基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像;
其中,针对每一第四视频帧图像,第一画面占比为第四视频帧图像的至少一个目标人物在第四视频帧图像的预设区域中的画面占比,第二画面占比是第四视频帧图像的文字内容在第四视频帧图像中的画面占比。
在一些可能的实施方式中,基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像,包括:
针对每一第四视频帧图像,基于第四视频帧图像中至少一个目标人物分别对应的表情类型,确定对应的第二评价指标值;
基于第一画面占比,确定对应的第三评价指标值,并基于第二画面占比,确定对应的第四评价指标值;
确定第四视频帧图像的清晰度,并确定清晰度对应的第五评价指标值;
基于第一评价指标值、第二评价指标值、第三评价指标值、第四评价指标值以及第五评价指标值的加权和,确定针对第四视频帧图像的总评价指标值;
基于各个第四视频帧图像分别对应的总评价指标值,从多个第四视频帧图像中确定出至少一个目标视频帧图像。
另一方面,本申请实施例提供了一种图像处理装置,该装置包括:
获取模块,用于获取待处理视频,并获取针对待处理视频的至少一个弹幕信息;
第一提取模块,用于基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段;
第二提取模块,用于针对每一关键视频片段,从关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果;其中,第一检测结果表征第一视频帧图像中是否包含至少一个目标对象;
筛选模块,用于基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像;
存储模块,用于确定至少一个目标视频帧图像的标签信息,并将至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中;图像素材库用于提供待处理视频的视频推荐素材。
在一些可能的实施方式中,还包括显示模块,用于:
在接收针对待处理视频的海报的生成指令时,在图像素材库的标签信息中查询与生成指令对应的目标标签;
获取并显示与目标标签对应的目标视频帧图像;其中,所显示的目标视频帧图像用于生成待处理视频对应的海报。
在一些可能的实施方式中,第一提取模块在基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段时,具体用于:
基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段。
在一些可能的实施方式中,第一提取模块在基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段时,具体用于:
基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段;
对待处理视频的各个初始视频帧图像分别进行对象检测,得到各个初始视频帧图像分别对应的第二检测结果;
基于各个初始视频帧图像分别对应的第二检测结果,从待处理视频中提取第二视频片段;第二视频片段为连续出现至少一个目标人物的图像序列;
基于第一视频片段和第二视频片段确定至少一个关键视频片段。
在一些可能的实施方式中,第一提取模块在基于第一视频片段和第二视频片段确定至少一个关键视频片段,具体用于如下任一种:
将第一视频片段和第二视频片段作为关键视频片段;
确定第一视频片段和第二视频片段中的重叠视频片段,将所确定的重叠视频片段作为关键视频片段。
在一些可能的实施方式中,第一提取模块在基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段时,具体用于:
基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段;
对各个第一视频片段中各个视频帧图像分别进行对象检测,得到第一视频片段中各个视频帧图像分别对应的第三检测结果;
基于第一视频片段中各个视频帧图像分别对应的第三检测结果,从第一视频片段中提取第三视频片段;第三视频片段为连续出现至少一个目标人物的图像序列;
将第三视频片段作为关键视频片段。
在一些可能的实施方式中,第一提取模块在基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段时,具体用于:
将待处理视频拆分为多个候选视频片段;
基于弹幕信息在待处理视频中的出现时间,确定各个候选视频片段分别对应的弹幕信息的数量;
基于各个候选视频片段分别对应的弹幕信息的数量,从多个候选视频片段中确定出至少一个关键视频片段。
在一些可能的实施方式中,筛选模块在基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像时,具体用于:
基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出多个第二视频帧图像;其中,第二视频帧图像中出现的目标人物的数量大于或等于第一预设数量;
对各个第二视频帧图像中的至少一个目标人物进行表情识别,得到表情识别结果;表情识别结果表征第二视频帧图像中至少一个目标对象分别对应的表情类型;
基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像。
在一些可能的实施方式中,筛选模块在基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像时,具体用于:
将至少一个目标人物的表情类型均属于第一预设类型的第二视频帧图像,作为第三视频帧图像;
对各个第三视频帧图像的图像特征进行聚类,得到多个图像类别;
对于每个图像类别,基于训练好的图像评价模型对图像类别对应的各个第三视频帧图像进行评价,得到各个第三视频帧图像分别对应于预设图像评估指标的第一评价指标值;
基于各个第三视频帧图像分别对应的第一评价指标值,从图像类别对应的第三视频帧图像中,确定出至少一个第四视频帧图像;
从多个第四视频帧图像中确定出至少一个目标视频帧图像。
在一些可能的实施方式中,筛选模块在从多个第四视频帧图像中确定出至少一个目标视频帧图像时,具体用于:
基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像;
其中,针对每一第四视频帧图像,第一画面占比为第四视频帧图像的至少一个目标人物在第四视频帧图像的预设区域中的画面占比,第二画面占比是第四视频帧图像的文字内容在第四视频帧图像中的画面占比。
在一些可能的实施方式中,筛选模块在基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像时,具体用于:
针对每一第四视频帧图像,基于第四视频帧图像中至少一个目标人物分别对应的表情类型,确定对应的第二评价指标值;
基于第一画面占比,确定对应的第三评价指标值,并基于第二画面占比,确定对应的第四评价指标值;
确定第四视频帧图像的清晰度,并确定清晰度对应的第五评价指标值;
基于第一评价指标值、第二评价指标值、第三评价指标值、第四评价指标值以及第五评价指标值的加权和,确定针对第四视频帧图像的总评价指标值;
基于各个第四视频帧图像分别对应的总评价指标值,从多个第四视频帧图像中确定出至少一个目标视频帧图像。
另一方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器中存储有计算机程序,处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机产品包括计算机程序,该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。
本申请实施例提供的技术方案带来的有益效果如下:
通过针对待处理视频的多个弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,然后再从关键视频片段中提取第一视频帧图像,并从第一视频帧图像中筛选目标视频帧图像,结合弹幕信息确定的目标视频帧图像,可以增加关键视频片段定位的有效性,从而提高生成的目标视频帧图像用于制作海报的转化率。
此外,先通过弹幕信息定位关键视频片段,再对关键视频片段进行对象检测,可以减少需要进行对象检测的图像帧数,提高目标视频帧图像的筛选效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为一个示例中提供的图像处理方法的应用环境示意图;
图2为本申请实施例提供的一种图像处理方法的流程示意图;
图3为本申请实施例提供的确定关键视频片段的方案的示意图;
图4为本申请实施例提供的确定关键视频片段的方案的示意图;
图5为本申请一个示例中提供的确定关键视频片段的方案的示意图;
图6为本申请一个示例中第一画面占比的示意图;
图7为本申请实施例提供的确定总评价指标值的方案的示意图;
图8为本申请一个示例中图像处理方法的示意图;
图9为本申请实施例提供的一种图像处理装置的结构示意图;
图10为本申请实施例所适用的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“参数A包括A1、A2、A3”的描述,可以实现为参数A包括A1或A2或A3,还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。
海报图制作的第一步为视频帧元素的选取,当前绝大多数平台的海报图制作基本都是针对长视频宣发的,海报对素材的精美程度要求较高,因此这部分均是由专门的设计人员制作。通常素材来源只有剧组提供的剧照,多样性非常受限,如果需要额外找寻海报素材,则十分耗费人力精力,因此机器搜寻素材成为一种可能的提效工具。本方法通过整合数据分析及深度学习方法,提出一种从长视频抽出精彩画面作为海报图备选元素的方法,有效扩大元素素材库,为设计人员提供更多创作素材及创作灵感。
本发明的第一阶段为后验数据获取,获取分析视频弹幕热度信息;第二阶段是对热度高的片段进行抽帧,对各帧进行结构化信息分析,结构化信息包括画面的明星识别信息、表情识别信息及姿态识别信息;第三阶段为视频帧打分阶段;第四阶段针对不同的业务需求进行素材筛选及检索。本发明设计有效地结合线上数据及深度学习识别及打分技术,为海报图素材获取提供高效的方法,也为海报图后期制作打下技术基础。
目前业界根据视频内容抽取海报图素材的方法主要与视频选封面图方法类似。可以通过分析视频元数据,包括图片的亮度、色彩、对比度及构图等质量美学信息评估视频帧的美感,并辅以图片画质增强,生成具有美感的素材。这种方式只考虑质量及美观度维度,容易选出与主题不吻合的素材,导致最终海报元素选用率低,或者成图转化率低的问题。
除了分析视频元数据,目前还可以分析上下文数据,即人物在影视作品中的重要性及在图中的动作表情进行内容评估,最终选出合适的素材。这种方式同时考虑美观度及人物维度,能够较好地选出好看的特写图片,但选图结果是一成不变的,不会根据当前网络正在关注的热点进行变化,时效性差且无法定位精彩片段。
本方法先采用后验数据,也就是视频弹幕数据统计视频热点片段。由于弹幕热点片段能反映用户兴趣点,我们基于热点片段就是精彩片段的设定,定位精彩片段。再辅以视频元数据及画面人物信息,综合考虑选取合适的元素并输出元素的多维度信息,供设计人员过滤使用。由于后验数据会根据当时线上数据实时变更,若取图任务被重新触发,程序将拉取到最新数据,定位到当前最热门的精彩片段,因此本方法具有强烈的时效性,不同时间能获取到不同素材,也增加素材库的多样性。假设一个长视频设计人员关注,重复发起任务,将可以获取到尽可能多的优质素材。
可选的,本申请实施例所涉及的数据处理可以基于云技术(Cloud technology)实现,比如,将至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中等步骤可以采用云技术实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请的图像的对象检测可以基于人工智能(Artificial Intelligence,AI)中的机器学习(Machine Learning,ML)来实现。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面通过对几个可选的实施例的描述,对本申请提供的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
需要说明的是,在本申请的可选实施例中,所涉及到的待处理视频、弹幕信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,本申请实施例中如果涉及到与待处理视频、弹幕信息等有关的数据,这些数据需要经由对象授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。
本申请实施例提供的图像处理方法,可以由任意的计算机设备执行,可选的,可以由服务器执行,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
图1为本申请实施例提供的图像处理方法的应用环境示意图。其中,应用环境可以包括服务器101和终端102。具体的,服务器101获取待处理视频,并获取针对待处理视频的多个弹幕信息;服务器101基于各个弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段;针对每一关键视频片段,服务器101从关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果;服务器101基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像;服务器101确定至少一个目标视频帧图像的标签信息,并将至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中。服务器101在接收针对待处理视频的海报的生成指令时,在图像素材库的标签信息中查询与生成指令对应的目标标签;服务器查询;服务器获取与目标标签对应的目标视频帧图像,并将获取到的目标视频帧图像发送至终端102,终端102显示与目标标签对应的目标视频帧图像。
上述应用场景中,是服务器对待处理视频进行处理,得到最终与目标标签对应的目标视频帧图像,并发送目标视频帧图像到终端,在其他应用场景中,可以是终端自行处理待处理视频,并生成最终的目标视频帧图像。
本技术领域技术人员可以理解,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile Internet Devices,移动互联网设备)、PDA(个人数字助理)、台式计算机、智能家电、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等,终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,但并不局限于此。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。具体也可基于实际应用场景需求确定,在此不作限定。
终端(也可以称为用户终端或用户设备)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR/VR设备、飞行器等,但并不局限于此。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
在一些可能的实施方式中,提供了一种图像处理方法,可以由服务器或终端执行。
图2示出了本申请实施例提供的一种图像处理方法的流程示意图,以执行主体为服务器为例,本申请提供的图像处理方法,可以包括如下步骤:
步骤S201,获取待处理视频,并获取针对待处理视频的至少一个弹幕信息。
其中,弹幕信息可以是多个用户在观看待处理视频时,针对待处理视频发送的弹幕。
具体的,弹幕信息可以包括弹幕内容、弹幕信息的出现时间、发送弹幕信息的用户标识等。
步骤S202,基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段。
其中,弹幕信息在待处理视频中的出现时间,是指待处理视频中的时间,例如,待处理视频总时长为10分钟,弹幕信息的出现时间可以是待处理视频播放到第5分钟的时刻。
其中,关键视频片段可以是用户参与度较高的视频片段或者用户更感兴趣的热点片段。
具体的,可以基于各个弹幕信息在待处理视频中的出现时间,统计待处理视频中各个不同时间段对应的弹幕数量,然后根据不同时间段对应的弹幕数量确定出关键视频片段,具体针对关键视频片段的确定过程将在下文进行进一步详细阐述。
步骤S203,针对每一关键视频片段,从关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果。
其中,第一检测结果表征第一视频帧图像中是否包含至少一个目标对象,目标对象可以是待处理视频中的指定对象。
例如,针对影视剧类待处理视频,目标对象可以为影视剧中的主演或者指定演员等。
具体的,对象检测可以包括人脸检测,即检测第一视频帧图像中是否包含预设的人脸图像。
在具体实施过程中,可以先检测第一视频帧图像中是否包括人脸图像,然后将检测到的人脸图像和指定的目标对象的标准图像进行匹配,从而确定各个第一视频帧图像分别对应的第一检测结果。
步骤S204,基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像。
具体的,可以将第一检测结果符合预设条件的第一视频帧图像作为目标视频帧图像。
例如,预设条件可以包括目标对象的数量要求、以及包括哪些目标对象的要求。
具体针对筛选目标视频帧图像的过程将在下文进行进一步详细阐述。
步骤S205,确定至少一个目标视频帧图像的标签信息,并将至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中。
其中,图像素材库用于提供待处理视频的视频推荐素材。
具体的,视频推荐素材可以包括针对待处理视频的海报、封面等用于推荐展示待处理视频的图像。
具体的,可以通过人脸识别确定目标视频帧图像中的目标对象,生成人物标签;还可以通过训练好的场景识别模型识别目标视频帧图像中的场景,得到场景标签;还可以对目标人物的表情进行识别,得到表情标签等等。
上述实施例中,通过针对待处理视频的多个弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,然后再从关键视频片段中提取第一视频帧图像,并从第一视频帧图像中筛选目标视频帧图像,结合弹幕信息确定的目标视频帧图像,可以增加关键视频片段定位的有效性,从而提高生成的目标视频帧图像用于制作海报的转化率。
此外,先通过弹幕信息定位关键视频片段,再对关键视频片段进行对象检测,可以减少需要进行对象检测的图像帧数,提高目标视频帧图像的筛选效率。
在一些可能的实施方式中,图像处理方法还可以包括:
(1)在接收针对待处理视频的海报的生成指令时,在图像素材库的标签信息中查询与生成指令对应的目标标签。
其中,生成指令中可以包括搜索标签,可以查询与搜索标签对应的目标标签。
(2)获取并显示与目标标签对应的目标视频帧图像。
其中,所显示的目标视频帧图像用于生成待处理视频对应的海报。
具体的,可以是服务器搜索与生成指令对应的目标标签,然后将与目标标签对应的待处理视频帧发送至终端,并在终端上显示;也可以是终端直接搜索与生成指令对应的目标标签,然后获取并显示与目标标签对应的目标视频帧图像。
以下将结合实施例进一步阐述确定关键视频片段的具体过程。
在一些可能的实施方式中,步骤S202基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,可以包括:
基于各个弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段。
在一些实施方式中,可以先基于弹幕信息的出现时间,从待处理视频中提取第一视频片段;然后对待处理视频进行对象检测,基于第二检测结果,从待处理视频中提取第二视频片段,然后结合第一视频片段和第二视频片段确定关键视频片段。
具体的,基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段,可以包括:
(1)基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段。
具体的,可以将待处理视频拆分为多个候选视频片段,然后确定各候选视频片段分别对应的弹幕信息的数量,从多个候选视频片段中确定出第一视频片段,例如可以将弹幕信息的数量最多的几个候选视频片段作为第一视频片段,或者可以将弹幕信息的数量超过预设阈值的候选视频片段作为第一视频片段。
(2)对待处理视频的各个初始视频帧图像分别进行对象检测,得到各个初始视频帧图像分别对应的第二检测结果。
其中,第二检测结果可以用于表征初始视频帧图像中是否包括至少一个目标对象。
具体的,也可以对初始视频帧图像进行对象检测,确定初始视频帧图像中的人脸图像;然后将所确定的人脸图像跟预设的目标对象的标准图像进行匹配,确定第二检测结果。
(3)基于各个初始视频帧图像分别对应的第二检测结果,从待处理视频中提取第二视频片段。
其中,第二视频片段为连续出现至少一个目标人物的图像序列。
(4)基于第一视频片段和第二视频片段确定至少一个关键视频片段。
具体的,基于第一视频片段和第二视频片段确定至少一个关键视频片段,可以包括如下任一种:
将第一视频片段和第二视频片段作为关键视频片段;
确定第一视频片段和第二视频片段中的重叠视频片段,将所确定的重叠视频片段作为关键视频片段。
具体的,如图3所示,关键视频片段可以包括第一视频片段和第二视频片段,即关键视频片段可以是通过弹幕信息的出现时间确定的,也可以是通过对象检测确定的。
具体的,如图4所示,还可以将第一视频片段和第二视频片段中的重叠视频片段作为关键视频片段,即关键视频片段是同时根据弹幕信息的出现时间以及对象检测确定的。
上述实施例中,分别通过弹幕信息的出现时间和对象检测的方式,提取第一视频片段和第二视频片段,然后结合第一视频片段和第二视频片段确定关键视频片段,可以融合对象行为数据和针对图像中目标人物的需求,确定出关键视频片段,使得最终得到的待处理视频片段能够满足用户偏好或者目标人物的需求中的至少一种,从而提高目标视频帧图像用于制作海报的转化率。
在另一些实施方式中,还可以先基于弹幕信息的出现时间,从待处理视频中提取第一视频片段,然后对第一视频片段进行对象检测,然后从第一视频片段中提起关键视频片段。
具体的,基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段,可以包括:
(1)基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段。
具体提取第一视频片段的过程上文已经进行详细阐述,在此不再赘述。
(2)对各个第一视频片段中各个视频帧图像分别进行对象检测,得到第一视频片段中各个视频帧图像分别对应的第三检测结果。
其中,第二检测结果可以用于表征第一视频片段中各个视频帧图像中是否包括至少一个目标对象。
具体的,也可以对第一视频片段中各个视频帧图像进行对象检测,确定第一视频片段中各个视频帧图像中的人脸图像;然后将所确定的人脸图像跟预设的目标对象的标准图像进行匹配,确定第三检测结果。
(3)基于第一视频片段中各个视频帧图像分别对应的第三检测结果,从第一视频片段中提取第三视频片段。
其中,第三视频片段为连续出现至少一个目标人物的图像序列。
(4)将第三视频片段作为关键视频片段。
具体的,先根据弹幕信息的出现时间提取第一视频片段,然后对第一视频片段中各个视频帧图像分别进行对象检测,对第一视频片段进行进一步筛选,得到关键视频片段。
上述实施例中,通过弹幕信息的出现时间提取第一视频片段,然后对第一视频片段中各个视频帧图像进行对象检测,从第一视频片段中确定出关键视频片段,可以减少对象检测的帧数,提高目标视频帧图像的确定效率,此外,最终得到的目标视频帧图像能够同时满足对象行为偏好和图像中目标人物的需求,能够有效提高目标视频帧图像用于制作海报的转化率。
在一些可能的实施方式中,步骤S202基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,可以包括:
(1)将待处理视频拆分为多个候选视频片段。
具体的,可以按照预设的时间间隔将待处理视频拆分为多个候选视频片段,例如,每个候选视频片段的时长为5秒。
(2)基于弹幕信息在待处理视频中的出现时间,确定各个候选视频片段分别对应的弹幕信息的数量。
具体的,可以确定各个候选视频片段分别对应在待处理视频中的开始时间和结束时间,然后根据各个弹幕信息在待处理视频中的出现时间,确定各个弹幕信息分别是针对哪一个候选视频片段的,从而统计得到各个候选视频片段分别对应的弹幕信息的数量。
如图5所示,可以分别确定各个弹幕信息在待处理视频中的出现时间,统计得到各个候选视频片段分别对应的弹幕信息的数量。
(3)基于各个候选视频片段分别对应的弹幕信息的数量,从多个候选视频片段中确定出至少一个关键视频片段。
具体的,基于各个候选视频片段分别对应的弹幕信息的数量,从多个候选视频片段中确定出至少一个关键视频片段,可以包括如下任一种:
a、将对应的弹幕信息的数量大于第一预设数量的各候选视频片段分别作为关键视频片段;
b、按照弹幕信息的数量由大到小的顺序,将弹幕信息的数量排序靠前的第二预设数量的各候选视频片段分别作为关键视频片段。
具体的,可以设置一个数量的阈值,即第一预设数量,只需要弹幕信息的数量大于第一预设数量,即可作为关键视频帧片段;也可以选取弹幕信息的数量最多的几个候选视频片段,作为关键视频片段。
上述实施例阐述了确定关键视频片段的具体过程,以下将结合实施例进一步阐述筛选目标视频帧图像的具体过程。
在一些可能的实施方式中,步骤S204基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像,可以包括:
(1)基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出多个第二视频帧图像。
其中,第二视频帧图像中出现的目标人物的数量大于或等于第一预设数量。
(2)对各个第二视频帧图像中的至少一个目标人物进行表情识别,得到表情识别结果。
其中,表情识别结果表征第二视频帧图像中至少一个目标对象分别对应的表情类型。
例如,表情类型可以包括开心、微笑、平静、愤怒、悲伤等各种面部表情。
(3)基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像。
具体的,基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像,可以包括:
A、将至少一个目标人物的表情类型均属于第一预设类型的第二视频帧图像,作为第三视频帧图像。
其中,第一预设类型可以包括多种不同的表情类型,例如,第一预设类别可以为表情正常类型,包括平静、开心、微笑等。
具体的,可以从第二视频帧图像中筛选出目标人物的表情类型属于表情正常类型的第三视频帧图像。
B、对各个第三视频帧图像的图像特征进行聚类,得到多个图像类别。
具体的,可以先提取各个第三视频帧图像的图像特征。
在具体实施过程中,提取第三视频帧图像的图像特征,可以包括:
对每一第三视频帧图像,进行RGB通道的直方图特征统计,得到第一特征;
对每一视频帧图像进行边缘检测,得到灰度图像;对灰度图像进行统计直方图,得到第二特征;
将第一特征和第二特征进行拼接,得到第三特征图像的图像特征。
具体的,可以通过训练后的分类模型对各个第三视频帧图像的图像特征进行聚类,得到多个图像类别;也可以对各个图像特征进行特征距离计算以进行聚类,得到多个图像类别。
C、对于每个图像类别,基于训练好的图像评价模型对图像类别对应的各个第三视频帧图像进行评价,得到各个第三视频帧图像分别对应于预设图像评估指标的第一评价指标值。
其中,可以预先获取多个样本图像,各个样本图像有对应的样本评价指标值;基于样本图像对初始评价模型进行训练,得到图像评价模型。
具体的,预设图像评估指标可以是基于图像的对称性、图像中目标人物的位置、图像的色彩等等确定的。
D、基于各个第三视频帧图像分别对应的第一评价指标值,从图像类别对应的第三视频帧图像中,确定出至少一个第四视频帧图像。
具体的,可以在每一个图像类别中,选取第一评价指标值最高的第三视频帧图像,得到第四视频帧图像;也可以选取第一评价指标值大于预设指标值的第三视频帧图像,得到第四视频帧图像。
E、从多个第四视频帧图像中确定出至少一个目标视频帧图像。
具体的,基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像。
其中,针对每一第四视频帧图像,第一画面占比为第四视频帧图像的至少一个目标人物在第四视频帧图像的预设区域中的画面占比,第二画面占比是第四视频帧图像的文字内容在第四视频帧图像中的画面占比。
其中,预设区域可以是第四帧图像的中间区域,如图6所示,可以确定目标人物在图中第四视频帧图像的601区域602中的画面占比,得到第一画面占比。
在具体实施过程中,基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像,可以包括:
E1、针对每一第四视频帧图像,基于第四视频帧图像中至少一个目标人物分别对应的表情类型,确定对应的第二评价指标值。
具体的,可以预先设置不同的表情类型与对应的评价指标值之间的映射关系,根据设置的映射关系确定对应的第二评价指标值;也可以预先训练表情评价模型,根据表情评价模型输出与各个表情类型对应的第二评价指标值。
E2、基于第一画面占比,确定对应的第三评价指标值,并基于第二画面占比,确定对应的第四评价指标值。
具体的,可以预先设置不同的第一画面占比与第三评价指标值之间的映射关系,并预先设置第二画面占比与第四评价指标值之间的映射关系。
在具体实施过程中,第二画面占比与第四评价指标值之间负相关,即图像中文字内容的画面占比越大,对应的第四评价指标值越低。
E3、确定第四视频帧图像的清晰度,并确定清晰度对应的第五评价指标值。
具体的,第四视频帧图像的清晰度越高,即图像的质量越高,第五评指标值相对就越高,即第五评价指标值与第四视频帧图像的清晰度成正相关。
E4、基于第一评价指标值、第二评价指标值、第三评价指标值、第四评价指标值以及第五评价指标值的加权和,确定针对第四视频帧图像的总评价指标值。
具体的,可以预先分别设置第一评价指标值、第二评价指标值、第三评价指标值、第四评价指标值以及第五评价指标值的权重,基于各个评价指标值的权重,计算第一评价指标值、第二评价指标值、第三评价指标值、第四评价指标值以及第五评价指标值的加权和。
E5、基于各个第四视频帧图像分别对应的总评价指标值,从多个第四视频帧图像中确定出至少一个目标视频帧图像。
具体的,可以选择总评价指标值大于预设总指标值的第四视频帧图像,作为目标视频帧图像;也可以选择总评价指标值最大的指定数量的第四视频帧图像作为目标视频帧图像。
如图7所示,可以从目标人物的画面占比、文字内容的画面占比、清晰度、目标人物的表情类型、预设图像评估指标五个方面,对第四视频帧图像进行评价,得到对应的各个评价指标值,进而确定总评价指标值。
上述实施例中,结合第四视频帧图像中目标人物的画面占比、文字内容的画面占比、清晰度、目标人物的表情类型、相对于预设图像评估指标等多个方面对第四视频帧图像进行评估,得到最终的目标视频帧图像,有效提高所得到的目标视频帧图像的质量,从而提高用于制作海报的转化率。
为了更清楚的阐述上述的图像处理方法,以下将结合示例进行进一步说明。
如图8所示,在一个示例中,本申请的图像处理方法,可以包括如下步骤:
获取弹幕信息;弹幕信息中包括用户输入的弹幕内容,通过统计弹幕信息条数出现多的时间分布,衡量用户播放参与深度,获取关键视频片段,也可称为节目高潮片段;
在关键视频片段内进行逐帧抽取,得到多个第一视频帧图像;
对多个第一视频帧图像逐帧细粒度分析,包括人脸检测、明星识别及表情识别,即对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果,并从多个第一视频帧图像中筛选出多个第二视频帧图像;对各个第二视频帧图像中的至少一个目标人物进行表情识别,得到表情识别结果;将至少一个目标人物的表情类型均属于第一预设类型的第二视频帧图像,作为第三视频帧图像;
综合抽帧及结构化数据生成结果进行聚类及质量打分选图,即对于每个图像类别,确定各个第三视频帧图像分别对应于预设图像评估指标的第一评价指标值;基于各个第三视频帧图像分别对应的第一评价指标值,从图像类别对应的第三视频帧图像中,确定出至少一个第四视频帧图像;然后结合第四视频帧图像中目标人物的画面占比、文字内容的画面占比、清晰度、目标人物的表情类型、相对于预设图像评估指标等多个方面对第四视频帧图像进行评估,得到最终的目标视频帧图像;
对目标视频帧图像进行标签生成,将其与图片一同作为图片信息存入图片素材库,即确定至少一个目标视频帧图像的标签信息,并将至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中;图像素材库用于提供待处理视频的视频推荐素材。
上述的图像处理方法,通过针对待处理视频的多个弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,然后再从关键视频片段中提取第一视频帧图像,并从第一视频帧图像中筛选目标视频帧图像,结合弹幕信息确定的目标视频帧图像,可以增加关键视频片段定位的有效性,从而提高生成的目标视频帧图像用于制作海报的转化率。
此外,先通过弹幕信息定位关键视频片段,再对关键视频片段进行对象检测,可以减少需要进行对象检测的图像帧数,提高目标视频帧图像的筛选效率。
进一步的,分别通过弹幕信息的出现时间和对象检测的方式,提取第一视频片段和第二视频片段,然后结合第一视频片段和第二视频片段确定关键视频片段,可以融合对象行为数据和针对图像中目标人物的需求,确定出关键视频片段,使得最终得到的待处理视频片段能够满足用户偏好或者目标人物的需求中的至少一种,从而提高目标视频帧图像用于制作海报的转化率。
进一步的,通过弹幕信息的出现时间提取第一视频片段,然后对第一视频片段中各个视频帧图像进行对象检测,从第一视频片段中确定出关键视频片段,可以减少对象检测的帧数,提高目标视频帧图像的确定效率,此外,最终得到的目标视频帧图像能够同时满足对象行为偏好和图像中目标人物的需求,能够有效提高目标视频帧图像用于制作海报的转化率。
进一步的,结合第四视频帧图像中目标人物的画面占比、文字内容的画面占比、清晰度、目标人物的表情类型、相对于预设图像评估指标等多个方面对第四视频帧图像进行评估,得到最终的目标视频帧图像,有效提高所得到的目标视频帧图像的质量,从而提高用于制作海报的转化率。
如图9所示,在一些可能的实施方式中,提供了一种图像处理装置,包括:
获取模块901,用于获取待处理视频,并获取针对待处理视频的至少一个弹幕信息;
第一提取模块902,用于基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段;
第二提取模块903,用于针对每一关键视频片段,从关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果;其中,第一检测结果表征第一视频帧图像中是否包含至少一个目标对象;
筛选模块904,用于基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像;
存储模块905,用于确定至少一个目标视频帧图像的标签信息,并将至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中;图像素材库用于提供待处理视频的视频推荐素材。
在一些可能的实施方式中,还包括显示模块,用于:
在接收针对待处理视频的海报的生成指令时,在图像素材库的标签信息中查询与生成指令对应的目标标签;
获取并显示与目标标签对应的目标视频帧图像;其中,所显示的目标视频帧图像用于生成待处理视频对应的海报。
在一些可能的实施方式中,第一提取模块902在基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段时,具体用于:
基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段。
在一些可能的实施方式中,第一提取模块902在基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段时,具体用于:
基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段;
对待处理视频的各个初始视频帧图像分别进行对象检测,得到各个初始视频帧图像分别对应的第二检测结果;
基于各个初始视频帧图像分别对应的第二检测结果,从待处理视频中提取第二视频片段;第二视频片段为连续出现至少一个目标人物的图像序列;
基于第一视频片段和第二视频片段确定至少一个关键视频片段。
在一些可能的实施方式中,第一提取模块902在基于第一视频片段和第二视频片段确定至少一个关键视频片段,具体用于如下任一种:
将第一视频片段和第二视频片段作为关键视频片段;
确定第一视频片段和第二视频片段中的重叠视频片段,将所确定的重叠视频片段作为关键视频片段。
在一些可能的实施方式中,第一提取模块902在基于弹幕信息在待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从待处理视频中提取至少一个关键视频片段时,具体用于:
基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个第一视频片段;
对各个第一视频片段中各个视频帧图像分别进行对象检测,得到第一视频片段中各个视频帧图像分别对应的第三检测结果;
基于第一视频片段中各个视频帧图像分别对应的第三检测结果,从第一视频片段中提取第三视频片段;第三视频片段为连续出现至少一个目标人物的图像序列;
将第三视频片段作为关键视频片段。
在一些可能的实施方式中,第一提取模块902在基于弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段时,具体用于:
将待处理视频拆分为多个候选视频片段;
基于弹幕信息在待处理视频中的出现时间,确定各个候选视频片段分别对应的弹幕信息的数量;
基于各个候选视频片段分别对应的弹幕信息的数量,从多个候选视频片段中确定出至少一个关键视频片段。
在一些可能的实施方式中,筛选模块904在基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出至少一个目标视频帧图像时,具体用于:
基于各个第一视频帧图像分别对应的第一检测结果,从多个第一视频帧图像中筛选出多个第二视频帧图像;其中,第二视频帧图像中出现的目标人物的数量大于或等于第一预设数量;
对各个第二视频帧图像中的至少一个目标人物进行表情识别,得到表情识别结果;表情识别结果表征第二视频帧图像中至少一个目标对象分别对应的表情类型;
基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像。
在一些可能的实施方式中,筛选模块904在基于各个第二视频帧图像中目标人物的表情识别结果,从多个第二视频帧图像中筛选出至少一个目标视频帧图像时,具体用于:
将至少一个目标人物的表情类型均属于第一预设类型的第二视频帧图像,作为第三视频帧图像;
对各个第三视频帧图像的图像特征进行聚类,得到多个图像类别;
对于每个图像类别,基于训练好的图像评价模型对图像类别对应的各个第三视频帧图像进行评价,得到各个第三视频帧图像分别对应于预设图像评估指标的第一评价指标值;
基于各个第三视频帧图像分别对应的第一评价指标值,从图像类别对应的第三视频帧图像中,确定出至少一个第四视频帧图像;
从多个第四视频帧图像中确定出至少一个目标视频帧图像。
在一些可能的实施方式中,筛选模块904在从多个第四视频帧图像中确定出至少一个目标视频帧图像时,具体用于:
基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像;
其中,针对每一第四视频帧图像,第一画面占比为第四视频帧图像的至少一个目标人物在第四视频帧图像的预设区域中的画面占比,第二画面占比是第四视频帧图像的文字内容在第四视频帧图像中的画面占比。
在一些可能的实施方式中,筛选模块904在基于各个第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从第四视频帧图像中确定出至少一个目标视频帧图像时,具体用于:
针对每一第四视频帧图像,基于第四视频帧图像中至少一个目标人物分别对应的表情类型,确定对应的第二评价指标值;
基于第一画面占比,确定对应的第三评价指标值,并基于第二画面占比,确定对应的第四评价指标值;
确定第四视频帧图像的清晰度,并确定清晰度对应的第五评价指标值;
基于第一评价指标值、第二评价指标值、第三评价指标值、第四评价指标值以及第五评价指标值的加权和,确定针对第四视频帧图像的总评价指标值;
基于各个第四视频帧图像分别对应的总评价指标值,从多个第四视频帧图像中确定出至少一个目标视频帧图像。
本申请的图像处理装置,通过针对待处理视频的多个弹幕信息在待处理视频中的出现时间,从待处理视频中提取至少一个关键视频片段,然后再从关键视频片段中提取第一视频帧图像,并从第一视频帧图像中筛选目标视频帧图像,结合弹幕信息确定的目标视频帧图像,可以增加关键视频片段定位的有效性,从而提高生成的目标视频帧图像用于制作海报的转化率。
此外,先通过弹幕信息定位关键视频片段,再对关键视频片段进行对象检测,可以减少需要进行对象检测的图像帧数,提高目标视频帧图像的筛选效率。
进一步的,分别通过弹幕信息的出现时间和对象检测的方式,提取第一视频片段和第二视频片段,然后结合第一视频片段和第二视频片段确定关键视频片段,可以融合对象行为数据和针对图像中目标人物的需求,确定出关键视频片段,使得最终得到的待处理视频片段能够满足用户偏好或者目标人物的需求中的至少一种,从而提高目标视频帧图像用于制作海报的转化率。
进一步的,通过弹幕信息的出现时间提取第一视频片段,然后对第一视频片段中各个视频帧图像进行对象检测,从第一视频片段中确定出关键视频片段,可以减少对象检测的帧数,提高目标视频帧图像的确定效率,此外,最终得到的目标视频帧图像能够同时满足对象行为偏好和图像中目标人物的需求,能够有效提高目标视频帧图像用于制作海报的转化率。
进一步的,结合第四视频帧图像中目标人物的画面占比、文字内容的画面占比、清晰度、目标人物的表情类型、相对于预设图像评估指标等多个方面对第四视频帧图像进行评估,得到最终的目标视频帧图像,有效提高所得到的目标视频帧图像的质量,从而提高用于制作海报的转化率。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行存储器中存储的计算机程序时可实现本申请任一可选实施例中的方法。
图10示出了本发明实施例所适用的一种电子设备的结构示意图,如图10所示,该电子设备可以为服务器或者用户终端,该电子设备可以用于实施本发明任一实施例中提供的方法。
如图10中所示,该电子设备1000主要可以包括至少一个处理器1001(图10中示出了一个)、存储器1002、通信模块1003和输入/输出接口1004等组件,可选的,各组件之间可以通过总线1005实现连接通信。需要说明的是,图10中示出的该电子设备1000的结构只是示意性的,并不构成对本申请实施例提供的方法所适用的电子设备的限定。
其中,存储器1002可以用于存储操作系统和应用程序等,应用程序可以包括在被处理器1001调用时实现本发明实施例所示方法的计算机程序,还可以包括用于实现其他功能或服务的程序。存储器1002可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM(ElectricallyErasable Programmable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(CompactDisc Read Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
处理器1001通过总线1005与存储器1002连接,通过调用存储器1002中所存储的应用程序实现相应的功能。其中,处理器1001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application Specific Integrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合,其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
电子设备1000可以通过通信模块1003(可以包括但不限于网络接口等组件)连接到网络,以通过网络与其它设备(如用户终端或服务器等)的通信,实现数据的交互,如向其他设备发送数据或从其他设备接收数据。其中,通信模块1003可以包括有线网络接口和/或无线网络接口等,即通信模块可以包括有线通信模块或无线通信模块中的至少一项。
电子设备1000可以通过输入/输出接口1004可以连接所需要的输入/输出设备,如键盘、显示设备等,电子设备100自身可以具有显示设备,还可以通过接口1004外接其他显示设备。可选的,通过该接口1004还可以连接存储装置,如硬盘等,以可以将电子设备1000中的数据存储到存储装置中,或者读取存储装置中的数据,还可以将存储装置中的数据存储到存储器1002中。可以理解的,输入/输出接口1004可以是有线接口,也可以是无线接口。根据实际应用场景的不同,与输入/输出接口1004连接的设备,可以是电子设备1000的组成部分,也可以是在需要时与电子设备1000连接的外接设备。
用于连接各组件的总线1005可以包括一通路,在上述组件之间传送信息。总线1005可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。根据功能的不同,总线1005可以分为地址总线、数据总线、控制总线等。
可选的,对于本发明实施例所提供的方案而言,存储器1002可以用于存储执行本发明方案的计算机程序,并由处理器1001来运行,处理器1001运行该计算机程序时实现本发明实施例提供的方法或装置的动作。
基于与本申请实施例提供的方法相同的原理,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的相应内容。
本申请实施例还提供了一种计算机程序产品,该产品包括计算机程序,该计算机程序被处理器执行时可实现前述方法实施例的相应内容。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (15)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待处理视频,并获取针对所述待处理视频的至少一个弹幕信息;
基于所述弹幕信息在所述待处理视频中的出现时间,从所述待处理视频中提取至少一个关键视频片段;
针对每一关键视频片段,从所述关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果;其中,所述第一检测结果表征所述第一视频帧图像中是否包含至少一个目标对象;
基于各个第一视频帧图像分别对应的第一检测结果,从多个所述第一视频帧图像中筛选出至少一个目标视频帧图像;
确定所述至少一个目标视频帧图像的标签信息,并将所述至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中;所述图像素材库用于提供所述待处理视频的视频推荐素材。
2.根据权利要求1所述的方法,其特征在于,还包括:
在接收针对待处理视频的海报的生成指令时,在所述图像素材库的标签信息中查询与所述生成指令对应的目标标签;
获取并显示与所述目标标签对应的目标视频帧图像;其中,所显示的所述目标视频帧图像用于生成所述待处理视频对应的海报。
3.根据权利要求1所述的方法,其特征在于,所述基于所述弹幕信息在所述待处理视频中的出现时间,从所述待处理视频中提取至少一个关键视频片段,包括:
基于所述弹幕信息在所述待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从所述待处理视频中提取至少一个关键视频片段。
4.根据权利要求3所述的方法,其特征在于,所述基于所述弹幕信息在所述待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从所述待处理视频中提取至少一个关键视频片段,包括:
基于所述弹幕信息在所述待处理视频中的出现时间,从所述待处理视频中提取至少一个第一视频片段;
对所述待处理视频的各个初始视频帧图像分别进行对象检测,得到各个初始视频帧图像分别对应的第二检测结果;
基于各个初始视频帧图像分别对应的第二检测结果,从所述待处理视频中提取第二视频片段;所述第二视频片段为连续出现至少一个目标人物的图像序列;
基于所述第一视频片段和所述第二视频片段确定所述至少一个关键视频片段。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一视频片段和所述第二视频片段确定所述至少一个关键视频片段,包括如下任一种:
将所述第一视频片段和所述第二视频片段作为所述关键视频片段;
确定所述第一视频片段和所述第二视频片段中的重叠视频片段,将所确定的重叠视频片段作为所述关键视频片段。
6.根据权利要求3所述的方法,其特征在于,所述基于所述弹幕信息在所述待处理视频中的出现时间,以及对待处理视频中至少部分视频进行对象检测得到的第二检测结果,从所述待处理视频中提取至少一个关键视频片段,包括:
基于所述弹幕信息在所述待处理视频中的出现时间,从所述待处理视频中提取至少一个第一视频片段;
对各个第一视频片段中各个视频帧图像分别进行对象检测,得到第一视频片段中各个视频帧图像分别对应的第三检测结果;
基于第一视频片段中各个视频帧图像分别对应的第三检测结果,从所述第一视频片段中提取第三视频片段;所述第三视频片段为连续出现至少一个目标人物的图像序列;
将所述第三视频片段作为所述关键视频片段。
7.根据权利要求1所述的方法,其特征在于,所述基于所述弹幕信息在所述待处理视频中的出现时间,从所述待处理视频中提取至少一个关键视频片段,包括:
将所述待处理视频拆分为多个候选视频片段;
基于所述弹幕信息在所述待处理视频中的出现时间,确定各个所述候选视频片段分别对应的弹幕信息的数量;
基于各个候选视频片段分别对应的弹幕信息的数量,从多个候选视频片段中确定出至少一个关键视频片段。
8.根据权利要求1所述的方法,其特征在于,所述基于各个第一视频帧图像分别对应的第一检测结果,从多个所述第一视频帧图像中筛选出至少一个目标视频帧图像,包括:
基于各个第一视频帧图像分别对应的第一检测结果,从多个所述第一视频帧图像中筛选出多个第二视频帧图像;其中,所述第二视频帧图像中出现的目标人物的数量大于或等于第一预设数量;
对各个所述第二视频帧图像中的至少一个目标人物进行表情识别,得到表情识别结果;所述表情识别结果表征第二视频帧图像中至少一个目标对象分别对应的表情类型;
基于各个所述第二视频帧图像中目标人物的表情识别结果,从多个所述第二视频帧图像中筛选出所述至少一个目标视频帧图像。
9.根据权利要求8所述的方法,其特征在于,所述基于各个所述第二视频帧图像中目标人物的表情识别结果,从多个所述第二视频帧图像中筛选出所述至少一个目标视频帧图像,包括:
将至少一个目标人物的表情类型均属于第一预设类型的第二视频帧图像,作为第三视频帧图像;
对各个第三视频帧图像的图像特征进行聚类,得到多个图像类别;
对于每个所述图像类别,基于训练好的图像评价模型对所述图像类别对应的各个所述第三视频帧图像进行评价,得到各个所述第三视频帧图像分别对应于预设图像评估指标的第一评价指标值;
基于各个所述第三视频帧图像分别对应的第一评价指标值,从所述图像类别对应的第三视频帧图像中,确定出至少一个第四视频帧图像;
从多个所述第四视频帧图像中确定出所述至少一个目标视频帧图像。
10.根据权利要求9所述的方法,其特征在于,所述从多个所述第四视频帧图像中确定出所述至少一个目标视频帧图像,包括:
基于各个所述第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从所述第四视频帧图像中确定出所述至少一个目标视频帧图像;
其中,针对每一第四视频帧图像,所述第一画面占比为所述第四视频帧图像的至少一个目标人物在所述第四视频帧图像的预设区域中的画面占比,所述第二画面占比是所述第四视频帧图像的文字内容在所述第四视频帧图像中的画面占比。
11.根据权利要求10所述的方法,其特征在于,所述基于各个所述第四视频帧图像分别对应的第一评价指标值、第一画面占比、第二画面占比或每一目标人物分别对应的表情类型中的至少一种,从所述第四视频帧图像中确定出所述至少一个目标视频帧图像,包括:
针对每一所述第四视频帧图像,基于所述第四视频帧图像中至少一个目标人物分别对应的表情类型,确定对应的第二评价指标值;
基于所述第一画面占比,确定对应的第三评价指标值,并基于所述第二画面占比,确定对应的第四评价指标值;
确定所述第四视频帧图像的清晰度,并确定所述清晰度对应的第五评价指标值;
基于所述第一评价指标值、第二评价指标值、第三评价指标值、第四评价指标值以及所述第五评价指标值的加权和,确定针对所述第四视频帧图像的总评价指标值;
基于各个第四视频帧图像分别对应的总评价指标值,从多个所述第四视频帧图像中确定出所述至少一个目标视频帧图像。
12.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理视频,并获取针对所述待处理视频的至少一个弹幕信息;
第一提取模块,用于基于所述弹幕信息在所述待处理视频中的出现时间,从所述待处理视频中提取至少一个关键视频片段;
第二提取模块,用于针对每一关键视频片段,从所述关键视频片段中提取多个第一视频帧图像,并对多个第一视频帧图像分别进行对象检测,得到各个第一视频帧图像分别对应的第一检测结果;其中,所述第一检测结果表征所述第一视频帧图像中是否包含至少一个目标对象;
筛选模块,用于基于各个第一视频帧图像分别对应的第一检测结果,从多个所述第一视频帧图像中筛选出至少一个目标视频帧图像;
存储模块,用于确定所述至少一个目标视频帧图像的标签信息,并将所述至少一个目标视频帧图像以及分别对应的标签信息存储至图像素材库中;所述图像素材库用于提供所述待处理视频的视频推荐素材。
13.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-11任一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11任一项所述方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406191.0A CN116980693A (zh) | 2023-04-06 | 2023-04-06 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406191.0A CN116980693A (zh) | 2023-04-06 | 2023-04-06 | 图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116980693A true CN116980693A (zh) | 2023-10-31 |
Family
ID=88473762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310406191.0A Pending CN116980693A (zh) | 2023-04-06 | 2023-04-06 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116980693A (zh) |
-
2023
- 2023-04-06 CN CN202310406191.0A patent/CN116980693A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325148A (zh) | 生成信息的方法和装置 | |
Tiwari et al. | A survey of recent work on video summarization: approaches and techniques | |
KR20190116199A (ko) | 영상 데이터 처리 방법, 장치 및 판독 가능 저장 매체 | |
TW201834462A (zh) | 視訊資料的推薦方法、裝置和伺服器 | |
CN113079417B (zh) | 生成弹幕的方法、装置、设备和存储介质 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
Ul Haq et al. | Personalized Movie Summarization Using Deep CNN‐Assisted Facial Expression Recognition | |
CN111368141B (zh) | 视频标签的扩展方法、装置、计算机设备和存储介质 | |
US20080162561A1 (en) | Method and apparatus for semantic super-resolution of audio-visual data | |
US9652534B1 (en) | Video-based search engine | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN101369281A (zh) | 基于视频摘要元数据的检索方法 | |
CN113395578A (zh) | 一种提取视频主题文本的方法、装置、设备及存储介质 | |
CN103686344A (zh) | 增强视频系统及方法 | |
CN113779381B (zh) | 资源推荐方法、装置、电子设备和存储介质 | |
CN113766330A (zh) | 基于视频生成推荐信息的方法和装置 | |
CN114372172A (zh) | 生成视频封面图像的方法、装置、计算机设备及存储介质 | |
CN116935170B (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
Demarty et al. | Predicting interestingness of visual content | |
CN117216362A (zh) | 内容推荐方法、装置、设备、介质和程序产品 | |
WO2024193538A1 (zh) | 视频数据处理方法、装置、设备及可读存储介质 | |
CN115171014A (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
Axenopoulos et al. | A Framework for Large-Scale Analysis of Video\" in the Wild\" to Assist Digital Forensic Examination | |
Hipiny et al. | Who danced better? ranked tiktok dance video dataset and pairwise action quality assessment method | |
Arya et al. | Predicting behavioural patterns in discussion forums using deep learning on hypergraphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |