CN112749614B - 一种多媒体内容的识别方法、装置、电子设备和存储介质 - Google Patents
一种多媒体内容的识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112749614B CN112749614B CN202010916253.9A CN202010916253A CN112749614B CN 112749614 B CN112749614 B CN 112749614B CN 202010916253 A CN202010916253 A CN 202010916253A CN 112749614 B CN112749614 B CN 112749614B
- Authority
- CN
- China
- Prior art keywords
- image
- retouching
- multimedia content
- level
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000003860 storage Methods 0.000 title claims abstract description 34
- 238000009966 trimming Methods 0.000 claims abstract description 75
- 230000008439 repair process Effects 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 25
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000003909 pattern recognition Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 17
- 238000010801 machine learning Methods 0.000 abstract description 14
- 238000012986 modification Methods 0.000 description 50
- 230000004048 modification Effects 0.000 description 50
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 13
- 238000003702 image correction Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000006116 polymerization reaction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229910052761 rare earth metal Inorganic materials 0.000 description 1
- 150000002910 rare earth metals Chemical class 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能技术领域,尤其涉及机器学习技术领域,公开了一种多媒体内容的识别方法、装置、电子设备和存储介质,用以提出一种自动识别多媒体内容修图等级的方法,其中,方法包括:获取待识别的多媒体内容对应的图像序列,图像序列包括至少两张图像;分别对图像序列中的各个图像的修图等级进行识别,获得各个图像对应的修图等级信息;根据各个图像对应的修图等级信息,获得用于表示多媒体内容修图等级的修图识别结果。本申请通过对多媒体内容对应的图像序列中的各个图像识别得到的修图等级信息,来分析得到多媒体内容的修图识别结果,实现了多媒体内容修图等级的自动化识别。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及内容识别技术领域,公开了一种多媒体内容的识别方法、装置、电子设备和存储介质。
背景技术
用户在使用图片、视频及相关社交等产品时,可能会使用相关修图软件美化图片,但由于修图软件的优化效果有限,容易出现过度修图问题。或者,因为使用了多款修图软件使得图片被过度修整,反而造成不适感的问题。
随着图像识别技术的迅速发展,其应用也越来越广泛,但是一般都是用于人脸识别或商品识别等,在修图后的图片上的应用还是很少。而大部分2C(对用户)业务中,一般都要求用户需要观看的图片和视频等的图像质量更为优质,因而在对图像识别时的要求更加细致,需要识别出具体的修图等级。然而,目前还没有一种判断视频、图像等多媒体内容修图等级的方法。
发明内容
本申请实施例提供一种多媒体内容的识别方法、装置、电子设备和存储介质,用以提出一种自动识别多媒体内容修图等级的方法。
本申请实施例提供的一种多媒体内容的识别方法,包括:
获取待识别的多媒体内容对应的图像序列,所述图像序列包括至少两张图像;
分别对所述图像序列中的各个图像的修图等级进行识别,获得各个图像对应的修图等级信息;
根据各个图像对应的修图等级信息,获得用于表示所述多媒体内容修图等级的修图识别结果。
本申请实施例提供的一种多媒体内容的识别装置,包括:
获取单元,用于获取待识别的多媒体内容对应的图像序列,所述图像序列包括至少两张图像;
等级识别单元,用于分别对所述图像序列中的各个图像的修图等级进行识别,获得各个图像对应的修图等级信息;
聚合单元,用于根据各个图像对应的修图等级信息,获得用于表示所述多媒体内容修图等级的修图识别结果。
可选的,所述等级识别单元具体用于:
将所述图像序列输入已训练的修图识别模型,基于所述已训练的修图识别模型对所述图像序列中的各个图像的修图等级进行识别,获得各个图像对应的修图等级信息;以及
所述聚合单元具体用于:
基于所述已训练的修图识别模型,对各个图像对应的修图等级信息进行聚合处理,获得所述已训练的修图识别模型输出的所述修图识别结果;
其中,所述已训练的修图识别模型是根据已标注修图等级标签的训练样本数据集训练得到的,所述训练样本数据集中的训练样本包括样本多媒体内容对应的各组图像序列。
可选的,所述已训练的修图识别模型包括空洞残差子网络、全连接层;所述空洞残差子网络包括预设大小的空洞卷积核;
所述等级识别单元具体用于:
基于所述预设大小的空洞卷积核,对所述图像序列中各个图像的特征向量矩阵进行部分卷积处理,得到所述空洞残差子网络输出的各个图像对应的修图特征向量;
将各个图像对应的修图特征向量输入所述全连接层,基于所述全连接层对各个图像的修图特征向量进行降维处理,获得各个图像对应的修图等级信息;以及
所述聚合单元具体用于:
基于所述全连接层对各个图像的修图等级信息进行聚合处理,获得用于表示所述多媒体内容修图等级的修图识别结果。
可选的,所述装置还包括:
训练单元,用于从所述训练样本数据集中选取训练样本;
针对任意一个训练样本,将所述训练样本包含的样本多媒体内容对应的各组图像序列输入未训练的修图识别模型,获得所述未训练的修图识别模型输出的所述样本多媒体内容的修图预估结果;
根据输出的修图预估结果和所述样本多媒体内容上标注的修图等级标签之间的差异,对所述未训练的修图识别模型的网络参数进行至少一次调整,得到所述已训练的修图识别模型。
可选的,所述修图等级包括至少两个等级,所述至少两个等级中的至少一个目标等级用于标识过度修图,所述目标等级至少包括最高修图等级。
可选的,所述修图等级信息包括至少两个概率值,其中概率值表示图像属于不同等级时对应的概率;图像的修图等级为所述图像属于不同等级时对应的各个概率值中,最大的概率值对应的修图等级。
可选的,所述装置还包括:
应用单元,用于根据所述多媒体内容的修图识别结果,执行下述至少一个步骤:
确定所述多媒体内容对应的推荐指标,并根据所述推荐指标向目标用户推荐多媒体内容或修图策略;
对生成所述多媒体内容的修图应用的修图功能参数进行调整;
在所述多媒体内容有多个时,筛选出存在过度修图的多媒体内容。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种多媒体内容的识别方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种多媒体内容的识别方法的步骤。
本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意一种多媒体内容的识别方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种的多媒体内容的识别方法、装置、电子设备和存储介质。在本申请实施例中,通过对多媒体内容对应的图像序列中的各个图像进行修图等级的识别,来确定出图像序列中各个图像的修图等级信息,进而基于各个图像的修图等级信息,来分析得到多媒体内容的修图识别结果,给出了一种自动对多媒体内容进行修图等级识别的方法。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中的一种应用场景的一个可选的示意图;
图2为本申请实施例中的一种多媒体内容的识别方法的流程图;
图3A为本申请实施例中的一种待识别视频对应的图像序列的示意图;
图3B为本申请实施例中的一种待识别图片对应的图像序列的示意图;
图4为本申请实施例中的一种修图识别模型的结构示意图;
图5A为本申请实施例中的一种传统卷积方法的示意图;
图5B为本申请实施例中的一种空洞卷积方法的示意图;
图6为本申请实施例中的一种残差网络学习特征的示意图;
图7为本申请实施例中的一种分享提示界面的示意图;
图8为本申请实施例中的一种多媒体内容的过度修图识别方法的流程图;
图9为本申请实施例中的一种多媒体内容的识别装置的组成结构示意图;
图10为应用本申请实施例的一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本申请实施例涉及人工智能(Artificial Intell igence,AI)和机器学习技术,基于人工智能中的计算机视觉技术和机器学习(MachineLearning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在判断图像是否有过度修图的现象时,采用基于机器学习或深度学习的修图识别模型对已标注修图程度的图像进行学习,从而可以根据输入的图像、动态图片、视频等多媒体内容的图像序列,得到多媒体内容的修图识别结果。
在本申请实施例中提出的多媒体内容的识别方法可分为两部分,包括训练部分和应用部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练修图识别模型,使得训练样本中样本多媒体内容对应的各组图像序列通过修图识别模型后,得到样本多媒体内容的修图预估结果,通过优化算法不断调整模型参数,得到已训练的修图识别模型;应用部分用于通过使用在训练部分训练得到的修图识别模型,获得待识别的多媒体内容的修图识别结果,进而可参考修图识别结果进行推荐、向用户推荐图像修图策略,对图像修图功能做自适应的调整等。
下面对本申请实施例的设计思想进行简要介绍:
修图也即修改图片,指通过修图应用(例如图像处理软件)对照片或视频等进行一定处理或修调,以达到用户的某种目的。例如调整图片的色彩、亮度、调整图片中的人物或物体的形状等。随着修图软件功能愈发强大,用户在拍摄照片或视频后通常都会使用相关软件进行一定的整修,但一方面由于修图软件本身并不智能,另一方面修图者可能并非专业,容易产生过度修图的问题。其中,过度修图指用户对图像的调整超过了一定的程度,使得成像与原图差别较大。此时修图的结果并不给用户观看照片或视频带来好的体验,反而会造成一定的不适感。
随着图像识别技术的迅速发展,其应用也越来越广泛,但是一般都是用于人脸识别或商品识别等,在修图后的图片上的应用还是很少。而这并非一般2C业务上需要识别的过度修图。另外,目前的视频识别方法则主要体现在清晰度上,目前少有对视频图像是否经过修图,或是否存在过度修图现象的实用方法。
也就是说,目前还没有自动化判断图像、视频的修图等级的方法,并且无法自动识别过度修图,使得2C业务中用户观看到图像或视频可能存在大量修图过度的产品,使得观看体验下降,降低了用户粘性。
此外,目前使用人力筛选过度修图,既会消耗大量的人力资源,又会有不客观的问题出现,如某视频一部分人觉得修图过了,另一部分人觉得只是普通,就容易出现相同水平的图像或视频一个没有被筛另一个被筛,容易错误打击掉一些视频,造成运营上的困扰。
有鉴于此,本申请实施例提供了一种多媒体内容的识别方法、装置、电子设备和存储介质。在本申请实施例中,通过对多媒体内容对应的图像序列中的各个图像进行修图等级的识别,来确定出图像序列中各个图像的修图等级信息,进而基于各个图像的修图等级信息,来分析得到多媒体内容的修图识别结果,给出了一种自动对多媒体内容进行修图等级识别的方法,可以快速高效地对多媒体内容进行修图等级识别,并且不受人工筛选时主观意识的影响,可以有效提高多媒体内容修图等级识别的准确性。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器130,可通过终端设备110登录应用操作界面120。终端设备110与服务器130之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备110以及服务器130可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,终端设备110为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器130,服务器130可以是独立的物理服务器130,也可以是多个物理服务器130构成的服务器130集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器130。
其中,本申请实施例中的修图识别模型可以部署在终端设备上,也可以部署在服务器上。当修图识别模型部署在终端设备上时,即可由终端设备获取待识别的多媒体内容对应的图像序列,并对图像序列中的各个图像的修图等级进行识别,以获得各个图像的修图等级信息;最后基于各个图像的修图等级信息,来分析获得对应的多媒体内容的修图识别结果。当修图识别模型部署在服务器上时,终端设备可以获取待识别的多媒体内容对应的图像序列,并将图像序列上传至服务器,由服务器对图像序列中的各个图像的修图等级进行识别,确定各个图像的修图等级信息;进而再依据各个图像的修图等级信息来确定出对应的多媒体内容的修图识别结果。之后,服务器可将修图识别结果返回给终端设备。
参阅图2所示,为本申请实施例提供的一种多媒体内容的识别方法的实施流程图,该方法的具体实施流程如下:
S21:获取待识别的多媒体内容对应的图像序列,图像序列包括至少两张图像;
其中,多媒体内容指所有数字传输的资源,包括图片、文字、声音、视频、动画,还有衍生的一些表现方式,比如flash(固态存储器与动画编辑器)、vrml(Virtual RealityModeling Language,虚拟现实建模语言)、交互媒体、游戏、网页等都属于多媒体内容。而在本申请实施例中,待识别的多媒体内容是指包含图像内容的多媒体内容,例如视频、动画、动态图片或是照片等。
其中,动态图片是指当一组特定的静态图像以指定的频率切换而产生某种动态效果的图片。网络上常见的表现形式是Gif(Graphics Interchange Format,图像互换格式)动画,它是通过对多图层的图片,按时间进行不同的切换,从而达到动画的效果。在下文中也可简称为动图。
在本申请实施例中,若多媒体内容为待识别视频时,对应的图像序列可以是一组,也可以是多组,具体可根据视频段的时间长短来确定。考虑到视频一般都具有一定的时长,因而会包含连续多帧图像,该情况下,待识别视频对应的图像序列可以包括至少两组,每一组图像序列是可从该视频中的不同视频段中获得。其中,图像序列中图像的数量是一定的,具体可依据实际情况进行限定。此外若一个动画或者是动态图片等也包含不少于N帧图像时,也可看作是视频。本申请实施例中是以一组图像序列包含30张图像为例进行举例说明的。
例如,一个时长20秒,帧率为30帧每秒的视频,可将该视频拆分成20组图像序列,每组图像序列包括一秒钟视频对应的30帧图像,即30张序列图片。
此外,除了上述所列举的以秒为时间周期划分图像序列时,将一秒钟视频包含的30帧图像划分为一组图像序列的方式之外,也可采用抽帧等方式,即每隔几帧图像进行一次抽帧,例如一秒钟30帧图像中,每5帧中抽取一帧,则一秒钟视频段可抽取出6帧图像。5秒的视频段一共可抽取30帧图像,组成一组图像序列,则20秒的视频对应的图像序列一共有4组。
参阅图3A所示,其为本申请实施例中的一种待识别视频对应的图像序列的示意图。该图中示出的是一个时长为5秒的视频,以1秒为时间间隔,可将该视频划分为5个视频段,一个视频段时长为1秒,这样该视频一共对应有5组图像序列,如图3A所示的图像序列1、图像序列2、图像序列3、图像序列4和图像序列5。其中,每组图像序列包含30张图像,即每一秒钟视频段中的30帧连续的图像。
需要说明的是,上述实施例中所列举的对于视频而言构建图像序列的方式只是举例说明,实际上任何一种从多媒体内容的至少一个视频段中获得图像序列的方式都适用于本申请实施例,在此不做具体限定。
可选的,多媒体内容也可以是待识别图片,例如用户在聊天过程中分享单张图片(如照片)或者是动态图片等,通过对待识别图片进行修图等级识别等以向用户进行提示。具体的,对于单张图片而言,其所包含的图像数量N=1。对于动态图片而言,一般情况下包含的图像的数量小于一组图像序列中应该包含的图像的数量,例如在一组图像序列包含30张图像,而动态图片中包含的静态图像有5张,此时则可通过复制、插帧等方式,构建一组包含30张图像的图像序列。
具体的,多媒体内容为待识别的动态图片时,且动态图片中静态图像的数量小于30张,此时,该动态图片对应的图像序列共包含两部分,其中第一部分图像为该动态图片中包含的4张静态图像,第二部分图片为对这4张静态图像中的部分或全部复制得到的26张图像。比如,仅对静态图像中的静态图像1进行26次复制,则第二部分图像为26张相同的图像,即复制得到的静态图像1。此外,也可对4张静态图像都进行复制,其中,静态图像1和静态图像2复制7次,静态图像3和静态图像4复制6次即可。例如图3B所示,则该组图像中的第一部分图像为动态图片中包含的4张静态图像,第二部分图像为复制得到的7张静态图像1,7张静态图像2,6张静态图像3和6张静态图像4。
对于单张图片,则可直接进行复制,例如将一张图片复制29张,最后将该张图片和复制得到的29张图片组成一组包含30张图像的图像序列,作为该图片对应的图像序列。
此外,需要说明的是,若在复制过程中出现了图像信息损耗等情况时,还可进一步对出现图像信息损耗的复制图像进行图像恢复,或者是舍弃出现问题的复制图像,重新复制等,以尽量保证图像信息的完整性,减小误差带来的影响。
S22:分别对图像序列中的各个图像的修图等级进行识别,获得各个图像对应的修图等级信息;
其中,修图等级信息用于表示图像的修图等级的指示信息。在本申请实施例中,在对图像的修图等级进行识别时,实际上是将图像进行修图等级分类的过程,修图等级包括至少两个等级,且其中至少一个目标等级用于标识过度修图,目标等级至少包括最高修图等级。
例如,本申请实施例中所列举的修图等级一共分为三个:修图等级A、修图等级B和修图等级C,其中这三个等级所表示的修图程度依次增高,例如修图等级A表示修图程度低于50%,指图像的修图程度一般,该图像为正常图像这一类;修图等级B表示修图程度介于50%与70%之间,指图像的修图程度中等,该图像属于无法判断这一类,表示可能会有将近一半人认为该图像属于过度修图,而另一半人认为该图像不属于过度图像,模棱两可;修图等级C则表示修图程度高于70%,指图像的修图程度较高,该图像属于过度稀土这一类。其中,修图等级C即用于标识过度修图的目标等级。
其中,上述等级划分中仅有一个等级是用于标识修图过度的目标等级,除了上述所列举的修图等级划分方式之外,还可设置有两个或更多的目标等级来标识过度修图。例如,一共设置4个修图等级,分别为修图等级1,表示修图程度不高于25%,指图像属于轻微修图;修图等级2,表示修图程度介于25%(不含25%)与50%之间,指图像属于一般修图;修图等级3,表示修图程度介于50%(不含50%)与75%之间,指图像属于过度修图;修图等级4,表示修图程度高于75%,也是指图像属于过度修图。其中,修图等级3和修图等级4都是目标等级,都表示图像修图过度。
需要说明的是,上述实施例中所列举的修图等级的划分方式只是举例说明,在此不做具体限定。在下文中,主要是以上述所列举的修图等级一共分为三个:修图等级A、修图等级B和修图等级C为例来进行举例说明的。
其中,修图等级信息是用于指示图像的修图等级的指示信息,在本申请实施例中,一张图像的修图等级信息可以包括该张图像属于不同等级时对应的各个概率值。对于一张图像而言,该图像对应的修图等级信息可以包括对该图像进行修图等级分类时,该图像属于修图等级A的概率值1,该图像属于修图等级B的概率值2,以及该图像属于修图等级C的概率值3。即修图等级信息一共包含3个概率值,表示图像属于不同等级时的概率。
在基于一张图像的修图等级指示信息来判断该图像的修图等级时,即比较三个概率值,将最高概率值对应的修图等级作为该图像进行修图等级分类的记过,若该图像对应的三个概率值中的最高概率值为概率值3,则表示该图像修图过度。
S23:根据各个图像对应的修图等级信息,获得用于表示多媒体内容修图等级的修图识别结果。
在本申请实施例中,多媒体内容分为了视频和非视频(单张图片、动态图片)两大类。对于视频而言,图像序列可以有多组,当图像序列有多组时,具体是根据每组图像序列中的各个图像的修图等级信息来确定每组图像序列对应的视频段的修图等级;最后再依据各个视频段的修图等级来确定多媒体内容的修图识别结果。
其中,在根据一组图像序列中的各个图像的修图等级信息来确定这一组图像序列对应的视频段的修图等级时,可将该组图像序列中的所有图像对应的最高的修图等级作为该组图像序列对应的视频段的修图等级,也可将该组图像序列中的所有图像对应的修图等级中出现频次最高的修图等级作为该组图像序列对应的视频段的修图等级,还可根据该组图像序列中的各个图像的修图等级及各个图像对应的参考权重综合考量对应的视频段的修图等级等,在此不做具体限定。
具体的,在各个图像的修图等级及各个图像对应的参考权重综合考量对应的视频段的修图等级时,可依据各个图像是否包含目标物体来确定各个图像对应的参考权重。例如目标物体为人物时,包含人物的图像对应的参考权重较高,而不包含人物的图像对应的参考权重较小。另外,还可规定图像中所包含的目标物体的数量越多,该图像所对应的参考权重越高等。除此之外,目标物体也可设置多个,并设置优先级,其中包含目标物体的图像对应的参考权重较高,而不包含目标物体的图像对应的参考权重较小,且在包含目标物体的图像中,目标物体的优先级越高,对应的参考权重越高,目标物体的数量越多,对应的参考权重越高等。
其中,依据根据该组图像序列中的各个图像的修图等级及各个图像对应的参考权重综合考量对应的视频段的修图等级时,可将各个图像的参考权重以及修图等级对应的分值进行加权平均,根据计算结果来分析得到相应视频段的修图等级。
以一组图像序列有30张图像,共划分三个修图等级为例,各个修图等级对应的分值分别为0,1,2,其中分值越高表示修图程度越大。若将各个图像的参考权要以及修图等级对应的分值进行加权平均后得到的数值为1.9≈2,则可认为该组图像序列对应的视频段的修图等级为过度修图。
需要说明的是,上述实施例中所列举的确定一组图像序列对应的视频段的修图等级时,无论是根据一组图像序列中的各个图像的修图等级中的最高修图等级,出现频次最高的修图等级,还是依据参考权重综合考量等方式都适用于本申请实施例,此外还可根据一组图像序列中的各个图像对应的修图等级所占的比例等来考量,在此不再一一列举。
在本申请实施例中,依据各个视频段的修图等级来确定多媒体内容的修图识别结果时,可根据各组图像序列对应的视频段的修图等级中的最高修图等级来确定。
假设,等级为0表示图像正常,等级为1表示无法判断,等级为2表示过度修图,假设视频一共对应有6组图像序列,各组图像序列对应的视频段的修图等级分别为2,1,2,0,0,1,则该视频的修图识别结果表示为:
max(2,1,2,0,0,1)=2,该视频的修图识别结果表示为包含过度修图的内容或过度修图;
若各组图像序列对应的视频段的修图等级分别为1,1,1,0,0,1,则该视频的修图识别结果表示为:
max(1,1,1,0,0,1)=1,表示该视频的修图识别结果为无法判断;
若各组图像序列对应的视频段的修图等级分别为0,0,0,0,0,0,则该视频的修图识别结果表示为:
max(0,0,0,0,0,0)=0,表示该视频的修图识别结果为图像正常,不包含过度修图的内容。
由上可知,在以一组图像序列中的所有图像对应的最高的修图等级作为该组图像序列对应的视频段的修图等级时,例如一段20秒的视频,以一秒30帧图像为一组图像序列为例,若该视频中有任意一秒的视频段中包含有至少一帧等级为目标等级的图像,即可认为该图像序列对应的视频段的修图等级为目标等级,若至少一组图像序列对应的视频段为目标等级,则可表示该视频包含过度修图的内容。若这些图像序列对应的各个视频段中不存在修图等级为目标等级的视频段时,若至少一组图像序列对应的视频段的修图等级为无法判断,即可就说整个视频无法判断。此外,也可采用上述所列举的加权平均等方式,在此不做具体。
可选的,本申请实施例中的修图识别结果表示多媒体内容是否包含过度修图内容时,以多媒体内容为视频为例,例如该视频对应的各组图像序列对应的视频段中有至少一个视频段的修图等级为过度修图,则表示该视频包含过度修图的内容。此外,还可在各个视频段的修图等级中出现目标等级的次数达到一定比例时确定该视频包含过度修图内容。例如5个视频段中,有3个视频段都属于目标等级,超过了1/2,即可将该视频的修图等级确定为过度修图等。
需要说明的是,本申请实施例中考虑视频的修图等级时是依据各个视频段的修图等级综合确定的,由于一段视频包含较多的连续图像,可以在确定该段视频是否包含过度修图内容时,对视频进行标记,例如标记到某某视频段存在过度修图等。在确定视频的修图等级时,综合考虑各个视频段的修图等级来分析,整体把控视频质量。
此外,在本申请实施例中,还可对识别出的过度修图的内容进行标记,以向用户进行提示。例如该20秒的视频中,第5秒的画面中存在过度修图的现象,即可将第5秒进行特殊标记以向用户进行提示。另外,也可对过度修图的内容进行调整,以减小修图的程度。
其中,在对过度修图的内容进行调整时,以图像包含人物为例,该图像中的任务美颜过度,例如下巴太尖,鼻子太挺,此时在减小修图程度时,即调整图像中人物的下巴、鼻子等以更加自然,进而减小修图的程度,不至于出现过度修图。
可选的,在多媒体内容为待识别图片时,可直接将待识别图片对应的图像序列中的各个图像的修图等级信息之中的最高修图等级,作为用于表示该图像或动图修图等级的修图识别结果。
例如,对于单张图像或动图而言,由于其包含的图像数量为一张或几张,与视频相比图像数量很少,因而一张图像对整个多媒体内容的修图识别结果影响较大,可在图像序列中识别出一张图像为过度修图时,即可确定该图像为过度修图,当然,对于单张图像而言,一般30张相同的图像的修图等级也是一致的。
在本申请实施例中,通过对多媒体内容对应的图像序列中的各个图像进行修图等级的识别,来确定出图像序列中各个图像的修图等级信息,进而基于各个图像的修图等级信息,来分析得到多媒体内容的修图识别结果,给出了一种自动对多媒体内容进行修图等级识别的方法,可以快速高效地对多媒体内容进行修图等级识别,并且不受人工筛选时主观意识的影响,可以有效提高多媒体内容修图等级识别的准确性。
进一步的,本申请实施例中的多媒体内容的识别方法也可结合人工智能技术来实现,其中,人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
具体的步骤为:获取待识别的多媒体内容对应的图像序列;将获取到的图像序列输入已训练的修图识别模型中。基于该修图识别模型中的空洞残差子网络对图像序列中的各个图像的特征向量矩阵进行部分卷积处理,得到各个图像对应的修图特征向量;再通过全连接层对各个图像的修图特征向量进行降维处理,获得各个图像对应的修图等级信息;最后基于全连接层对各个图像的修图等级信息进行聚合处理,输出多媒体内容的修图识别结果。
参阅图4所示,其为本申请实施例提供的一种修图识别模型的结构示意图,该识别模型包括空洞残差子网络和全连接层。
其中,空洞残差子网络是一种结合ResNet(Deep residual network,深度残差网络)和DC(Dilated Convolution,空洞卷积)的网络结构,既能减少模型的训练量级,又能保证图像通过残差学习被充分理解。而全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在本申请实施例中所列举的修图识别模型也可以包括权连接层,主要通过全连接层来对各帧图像的修图等级进行聚合处理。
仍以多媒体内容为视频为例,本申请实施例输入是视频每秒的各帧序列图像,分别经过空洞残差子网络模型提取出当前帧图像的修图特征向量,接着通过全连接层等方式聚合各帧图像的修图等级信息,作为整个视频进行修图识别结果。
其中,输入视频每秒的各帧序列图像,例如一个时长20秒,帧率为30帧每秒的视频,将其拆分成20个部分每部分一秒钟30帧,即30张序列图片,并将他们全部缩放至相同大小。即每个节点上输入一组图像序列:It∈RM×C×H×W,其中M为视频每秒帧数、C为图片的通道数(一般RGB视频为3)、H为图片高度,W为图片宽度。例如每个图像都是500*500的大小,则图像的特征向量矩阵可表示为500*500。在本申请实施例中,M=30,表示视频每秒30帧。若多媒体内容为图片时,M=1。
下面对本申请实施例中的空洞残差子网络进行详细介绍:
其中,卷积本身是一种数学运算方式,离散情况下f和g的卷积定义为在图像处理中即为原图的信号矩阵f和对应卷积核g的运算关系,如图5A所示,其为本申请实施例中的一种传统卷积方法的示意图,即将对应的像素点和卷积核进行卷积运算,每一层卷积相当于从图像的像素点映射到一个新的空间上。目前所采用的卷积核一般是“实心”的,即对于同一部分的像素点都分别进行计算上卷。其中,τ指卷积核的大小;n指下一层卷积层里的某个点。
而在本申请实施例中,考虑到修图的情况下,在边缘处是最为明显的,想看一个物体或人物是否有(过度)修图,边缘很能说明问题,因而本申请实施例中采用空洞卷积的方式来加强这一特性。
可选的,本申请实施例中,空洞残差子网络的每个卷积层都采用了不同的卷积核和步长,可以进一步增加感受野、提高网络的复杂度和深度,解决使用最大池化层带来的信息丢失,有利于提高消除混响模型的预测准确率。其中,感受野(Receptive Field)是指卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入图上的区域。
在本申请实施例中的空洞残差子网络中,卷积核为预设大小的空洞卷积核,例如图5B所示,其为本申请实施例中的一种空洞卷积方法的示意图,空洞卷积相当于卷积核为“空洞”的,同一层卷积中并不是所有像素点都需要上卷计算。以图5B所示为例,在3*3大小的卷积核中,只有标记为黑色的位置,即与卷积核中第一行第一列的位置处,第一行第三列的位置处,以及第三行第一列的位置处和第三行第三列的位置处重叠的像素点需要进行上卷运算,而标记为白色的5个位置对应的像素点是不需要进行上卷计算的。
基于上述所列举的方式,可以大大降低模型中的参数数量,使得模型更具有普适性,通常拟合的结果会比传统卷积更好的解决下采样问题或卷积后维度降低问题,能更好的关注到小物体的细节信息,以更好的关注图像的修图特征。
此外,本申请中的空洞残差子网络采用的是残差网络的网络结构,一般深度神经网络在网络结构更复杂,层数更多的情况下容易出现梯度消失问题,使得训练出现退化。而残差网络与一般深度神经网络不同,一般深度神经网络的学习特征为H(x),而残差学习中学习的特征为其中x部分被称为从上一层到下一层的恒等映射,如图6所示,图6左侧表示的是一般的深度神经网络的学习特征,而右侧表示的是残差网络的学习特征。
在本申请实施例中,采用空洞残差子网络时,可基于残差网络学习残差这个较小的矢量来加速学习的过程,并且通过恒等映射的设计允许无损地传播梯度,更好的解决梯度消失的问题。
需要说明的是,本申请实施例中采用空洞残差子网络作为进行特征提取时的主干网络,结合了以上各种结构的优势,通过空洞卷积减少参数数量减小下采样问题,更好的关注图像中物体或人物等的边缘,并通过残差网络增加网络的层数,更好更全面的拟合出图像中的过度修图问题。
在基于全连接层进行图像修图等级信息的聚合处理时,本申请实施例的训练集为视频数据,但为增加本申请实施例的普适性,使得该本申请实施例在图像和视频上都具有高效的应用能力,本申请实施例训练时将对视频进行拆帧处理,基于图像序列对修图识别模型进行训练,但结果仍将以视频为单位计算准确率,所以图像序列的结果将需要聚合到视频上,由于视频的时长通常较长,而其中有过度修图问题的图像集中在个别帧上,所以本申请实施例将对同一视频的各帧图像做修图等级分类,最终视频可以各帧图像对应的最高的修图等级为一组图像序列对应的视频段的修图等级,或者是频次最高的修图等级作为一组图像序列对应的视频段的修图等级等,再基于各组图像序列对应的视频段的修图等级来确定视频的修图识别结果。
在介绍完本申请实施例中的修图识别模型的使用过程之后,下面对该修图识别模型的训练过程进行详细介绍:
其中,修图识别模型为使用包含多组训练样本数据的训练样本数据集,通过机器学习训练得出的,以修图等级包括修图等级A、修图等级B和修图等级C为例,多组训练样本数据中的每组数据均包括第一类数据组、第二类数据组和第三类数据组。需要说明的是,本申请实施例中,在训练修图识别模型时的训练样本数据都是视频数据。
其中,第一类数据组的每组数据均包括:修图等级标签标记为修图等级A的视频数据;第二类数据组的每组数据均包括:修图等级标签标记为修图等级B的视频数据;第三类数据组的每组数据均包括:修图等级标签标记为修图等级C的视频数据。
其中,视频数据上的修图等级标签可由人工标记得到。在本申请实施例中,可设计一个用于由用户对视频进行打分的一个平台,例如分值范围为0~100,例如上述所列举的MOS。由很多用户对平台中的视频进行打分,其中,分值低于50,则表示用户认为该视频正常,不包含过度修图内容;分值介于50分到70分之间,表示用户认为该视频介于正常与过度修图之间,可以是正常,也可以是过度修图;而分值高于70分表示用户认为该视频包含过度修图内容。
对于一个视频而言,若大多数人为该视频打分的分值低于50,则可将该视频标记为修图等级A,表示该视频正常;若大多数人为该视频打分的分值高于70,则可将该视频标记为修图等级C,表示该视频包含过度修图内容;若约一半人认为该视频正常,一半人认为该视频包含过度修图内容时,实际上这些人的打分介于50分到70分之间,此时可将该视频标记为修图等级B,表示该视频无法判断。
可选的,修图识别模型的具体训练过程如下:
从训练样本数据集中选取训练样本;针对任意一个训练样本,将训练样本包含的样本多媒体内容对应的各组图像序列输入未训练的修图识别模型,获得未训练的修图识别模型输出的样本多媒体内容的修图预估结果;根据输出的修图预估结果和样本多媒体内容上标注的修图等级标签之间的差异,对未训练的修图识别模型的网络参数进行至少一次调整,得到已训练的修图识别模型。
在本申请实施例中,修图识别模型是通过上述所列举的多组训练样本数据利用机器学习训练得出的,其中,机器学习是实现人工智能的一种途径,它和数据挖掘有一定的相似性,也是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。对比于数据挖掘从大数据之间找相互特性而言,机器学习更加注重算法的设计,让计算机能够自动地从数据中“学习”规律,并利用规律对未知数据进行预测。
下面对本申请实施例所列举的多媒体内容的识别方法的应用场景进行详细介绍:
在本申请实施例中,通过对多媒体内容对应的图像序列中的各个图像进行修图等级划分,以获取到多媒体内容的修图识别结果之后,该修图识别结果的应用也有很多种方式,例如根据多媒体内容的修图识别结果,确定多媒体内容对应的推荐指标,并根据推荐指标向目标用户推荐多媒体内容或修图策略;或者,根据多媒体内容的修图识别结果,对生成多媒体内容的修图应用的修图功能进行调整;或者,在多媒体内容有多个时,根据各个多媒体内容的修图识别结果,筛选出存在过度修图的多媒体内容。
结合上述应用方式,本文中具体列举了以下三种应用场景:
应用场景1:根据多媒体内容的修图识别结果,评判图像是否有过度修图,以进行内容推荐、图像美化策略推荐等。
具体的,通过上述过程判断图像是否有过度修图的问题,如果图像修图等级较高,过度修图问题比较严重时,即可确定该图像对应的推荐指标较小,以此减少该图像的推荐力度;如果图像过度修图问题一般,那么可确定该图像对应的推荐指标较大,以该推荐指标作为推荐、分发和其他场合下的参考指标,同时也可以作为依据,推荐用户更好的图像美化策略等。同样地,对于视频而言也可如此。
应用场景2:根据多媒体内容的修图识别结果,反馈用户过度修图问题,调整生成多媒体内容的相关软件的修图功能参数。
例如,用户在使用图片、视频及相关社交等产品时可能会使用相关修图软件美化图片,但由于修图软件普遍优化效果有限,容易出现过度修图问题,或因为使用了多款修图软件使得图片被过度修整,反而造成不适感的问题,本申请可以在发现该问题后,通过调整生成多媒体内容的相关软件的修图功能参数,对相关软件自带的修图功能做自适应的调整,帮助用户更好的享受短视频等产品。
应用场景3:根据多媒体内容的修图识别结果,监控产品中过度修图问题,筛选出存在过度修图的多媒体内容,以整体把控多媒体内容的质量。
具体的,短视频APP等应用的使用也越来越广泛,在用户使用短视频APP浏览短视频时,推荐系统一般会从推荐池中筛选短视频来向用户进行推荐,因而基于本申请实施例中所列举的方式,可以对推荐池中的图像或视频等进行修图等级识别,进而依据修图识别结果,可以在图像或视频的推荐池中大量(甚至全量)的计算过度修图的程度,整体把控推荐池中的图像和视频质量,改善用户体验。
通过本申请实施例中给出的自动化识别方法可以节省大量的人力,提升监控效率,更准确快捷的识别过度修图问题。
此外,还可在用户在应用中分享小视频、图像等时给好友时,向用户进行好友提示。参阅图7所示,为本申请实施例列举的一种分享提示界面的示意图。例如用户选择将一个视频分享给群组A时,在图7所示的分享界面中显示分享提示框,提示用户该视频中第3秒处包含过度修图内容,表明该视频质量不佳,询问用户是否继续分享,用户可选择取消分享,重新选择更为合适的视频等。此外,在用户分享图片时也可进行提示,还可在图片或视频等修图过度时,询问用户是否对图片或视频中的修图部分进行微调等。
需要说明的是,上述实施例中所列举的修图识别结果的应用方式只是举例说明,在此不做具体限定。
参阅图8所示,为一种多媒体内容的过度修图识别方法的流程图。该方法的具体实施流程如下:
步骤S801:获取待识别的视频对应的图像序列;
步骤S802:将图像序列输入已训练的修图识别模型;
步骤S803:基于修图识别模型中的空洞卷积子网络,对图像序列中各个图像的特征向量矩阵进行部分卷积处理,得到空洞残差子网络输出的各个图像对应的修图特征向量;
步骤S804:将各个图像对应的修图特征向量输入已训练的修图识别模型的全连接层,基于全连接层对各个图像的修图特征向量进行降维处理,获得各个图像对应的修图等级信息;
步骤S805:基于已训练的修图识别模型中的全连接层对各个图像的修图等级信息进行聚合处理,获得用于表示多媒体内容修图等级的修图识别结果。
需要说明的是,本申请旨在通过人工智能的方式自动化的识别照片或视频等多媒体内容的修图等级,判断多媒体内容是否存在过度修图的现象,用以保证用户的使用体验由于本申请实施例可以自动判断图像是否有过度修图的现象。具体地,一个图片如果有过度修图问题,可以被人工智能自动识别出来,同样一段动图或视频如果其中有过度修图的问题,也可以被捕捉到这一情况,提高了过度修图识别的效率和准确性。
与上述方法实施例基于同一发明构思,本申请实施例还提供了一种多媒体内容的修图识别装置的结构示意图。如图9所示,修图识别装置900可以包括:
获取单元901,用于获取待识别的多媒体内容对应的图像序列,图像序列包括至少两张图像;
等级识别单元902,用于分别对图像序列中的各个图像的修图等级进行识别,获得各个图像对应的修图等级信息;
聚合单元903,用于根据各个图像对应的修图等级信息,获得用于表示多媒体内容修图等级的修图识别结果。
可选的,多媒体内容为待识别视频,图像序列包括至少两组,每组图像序列是从待识别视频的不同视频段获得的;
等级识别单元902具体用于:
根据每组图像序列的各个图像的修图等级信息,分别获得每组图像序列对应的各个视频段的修图等级;
根据各个视频段的修图等级,获得待识别视频的修图识别结果。
可选的,多媒体内容为待识别图片,且待识别图片包含N张图像,图像序列中包括从N张图像中获取的第一部分图像,以及由N张图像中的至少一个图像复制得到的第二部分图像,N为正整数;以及
等级识别单元902具体用于:
将图像序列中的各个图像的修图等级信息之中的最高修图等级,作为用于表示多媒体内容修图等级的修图识别结果。
可选的,等级识别单元902具体用于:
将图像序列输入已训练的修图识别模型,基于已训练的修图识别模型对图像序列中的各个图像的修图等级进行识别,获得各个图像对应的修图等级信息;以及
聚合单元903具体用于:
基于已训练的修图识别模型,对各个图像对应的修图等级信息进行聚合处理,获得已训练的修图识别模型输出的修图识别结果;
其中,已训练的修图识别模型是根据已标注修图等级标签的训练样本数据集训练得到的,训练样本数据集中的训练样本包括样本多媒体内容对应的各组图像序列。
可选的,已训练的修图识别模型包括空洞残差子网络、全连接层;空洞残差子网络包括预设大小的空洞卷积核;
等级识别单元902具体用于:
基于预设大小的空洞卷积核,对图像序列中各个图像的特征向量矩阵进行部分卷积处理,得到空洞残差子网络输出的各个图像对应的修图特征向量;
将各个图像对应的修图特征向量输入全连接层,基于全连接层对各个图像的修图特征向量进行降维处理,获得各个图像对应的修图等级信息;以及
聚合单元903具体用于:
基于全连接层对各个图像的修图等级信息进行聚合处理,获得用于表示多媒体内容修图等级的修图识别结果。
可选的,装置还包括:
训练单元904,用于从训练样本数据集中选取训练样本;
针对任意一个训练样本,将训练样本包含的样本多媒体内容对应的各组图像序列输入未训练的修图识别模型,获得未训练的修图识别模型输出的样本多媒体内容的修图预估结果;
根据输出的修图预估结果和样本多媒体内容上标注的修图等级标签之间的差异,对未训练的修图识别模型的网络参数进行至少一次调整,得到已训练的修图识别模型。
可选的,修图等级包括至少两个等级,至少两个等级中的至少一个目标等级用于标识过度修图,目标等级至少包括最高修图等级。
可选的,修图等级信息包括至少两个概率值,其中概率值表示图像属于不同等级时对应的概率;图像的修图等级为图像属于不同等级时对应的各个概率值中,最大的概率值对应的修图等级。
可选的,装置还包括:
应用单元905,用于根据多媒体内容的修图识别结果,执行下述至少一个步骤:
确定多媒体内容对应的推荐指标,并根据推荐指标向目标用户推荐多媒体内容或修图策略;
对生成多媒体内容的修图应用的修图功能参数进行调整;
在多媒体内容有多个时,筛选出存在过度修图的多媒体内容。
在本申请实施例中,通过对多媒体内容对应的图像序列中的各个图像进行修图等级的识别,来确定出图像序列中各个图像的修图等级信息,进而基于各个图像的修图等级信息,来分析得到多媒体内容的修图识别结果,给出了一种自动对多媒体内容进行修图等级识别的方法。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的多媒体内容的识别方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于对多媒体内容进行修图识别。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器130,也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图10所示,包括存储器1001,通讯模块1003以及一个或多个处理器1002。
存储器1001,用于存储处理器1002执行的计算机程序。存储器1001可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1001可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1001也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1001是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1001可以是上述存储器的组合。
处理器1002,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1002,用于调用存储器1001中存储的计算机程序时实现上述多媒体内容的识别方法。
通讯模块1003用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1001、通讯模块1003和处理器1002之间的具体连接介质。本公开实施例在图10中以存储器1001和处理器1002之间通过总线1004连接,总线1004在图10中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1004可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1001中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的多媒体内容的识别方法。处理器1002用于执行上述的多媒体内容的识别方法。
本申请的实施例还提供了一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请任一实施例所记载的多媒体内容的识别方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在一些可能的实施方式中,本申请提供的多媒体内容的识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的多媒体内容的识别方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种多媒体内容的识别方法,其特征在于,该方法包括:
获取待识别的多媒体内容对应的图像序列,所述图像序列包括至少两张图像;
将所述图像序列输入已训练的修图识别模型,基于所述修图识别模型中的空洞残差子网络包括的预设大小的空洞卷积核,对所述图像序列中各个图像的特征向量矩阵进行部分卷积处理,得到所述空洞残差子网络输出的各个图像对应的修图特征向量;其中,所述空洞残差子网络的每个卷积层都采用不同的卷积核和步长;
将各个图像对应的修图特征向量输入所述修图识别模型中的全连接层,基于所述全连接层对各个图像的修图特征向量进行降维处理,获得各个图像对应的修图等级信息;
基于所述全连接层对各个图像对应的修图等级信息进行聚合处理,获得用于表示所述多媒体内容修图等级的修图识别结果;
确定将所述多媒体内容推荐给其他用户时,呈现分享提示界面,并在所述分享提示界面中,根据所述多媒体内容的修图识别结果,展示相关的修图提示信息。
2.如权利要求1所述的方法,其特征在于,所述多媒体内容为待识别视频,所述图像序列包括至少两组,每组图像序列是从所述待识别视频的不同视频段获得的;
基于所述全连接层对各个图像对应的修图等级信息进行聚合处理,获得用于表示所述多媒体内容修图等级的修图识别结果,具体包括:
根据每组图像序列的各个图像的修图等级信息,分别获得每组图像序列对应的各个视频段的修图等级;
基于所述全连接层对各个视频段的修图等级进行聚合处理,获得所述待识别视频的修图识别结果。
3.如权利要求1所述的方法,其特征在于,所述多媒体内容为待识别图片,且所述待识别图片包含N张图像,所述图像序列中包括从所述N张图像中获取的第一部分图像,以及由所述N张图像中的至少一个图像复制得到的第二部分图像,N为正整数;以及
所述基于所述全连接层对各个图像对应的修图等级信息进行聚合处理,获得用于表示所述多媒体内容修图等级的修图识别结果,具体包括:
基于所述全连接层,将所述图像序列中的各个图像的修图等级信息之中的最高修图等级,作为用于表示所述多媒体内容修图等级的修图识别结果。
4.如权利要求1所述的方法,其特征在于,所述已训练的修图识别模型是根据已标注修图等级标签的训练样本数据集训练得到的,所述训练样本数据集中的训练样本包括样本多媒体内容对应的各组图像序列。
5.如权利要求1所述的方法,其特征在于,所述修图识别模型的训练过程包括:
从训练样本数据集中选取训练样本;
针对任意一个训练样本,将所述训练样本包含的样本多媒体内容对应的各组图像序列输入未训练的修图识别模型,获得所述未训练的修图识别模型输出的所述样本多媒体内容的修图预估结果;
根据输出的修图预估结果和所述样本多媒体内容上标注的修图等级标签之间的差异,对所述未训练的修图识别模型的网络参数进行至少一次调整,得到所述已训练的修图识别模型。
6.如权利要求1~5任一项所述的方法,其特征在于,所述修图等级包括至少两个等级,所述至少两个等级中的至少一个目标等级用于标识过度修图,所述目标等级至少包括最高修图等级。
7.如权利要求6所述的方法,其特征在于,所述修图等级信息包括至少两个概率值,其中概率值表示图像属于不同等级时对应的概率;图像的修图等级为所述图像属于不同等级时对应的各个概率值中,最大的概率值对应的修图等级。
8.如权利要求1~5、7任一所述的方法,其特征在于,所述方法还包括,根据所述多媒体内容的修图识别结果,执行下述至少一个步骤:
确定所述多媒体内容对应的推荐指标,并根据所述推荐指标向目标用户推荐多媒体内容或修图策略;
对生成所述多媒体内容的修图应用的修图功能参数进行调整;
在所述多媒体内容有多个时,筛选出存在过度修图的多媒体内容。
9.一种多媒体内容的识别装置,其特征在于,包括:
获取单元,用于获取待识别的多媒体内容对应的图像序列,所述图像序列包括至少两张图像;
等级识别单元,用于将所述图像序列输入已训练的修图识别模型,基于所述修图识别模型中的空洞残差子网络包括的预设大小的空洞卷积核,对所述图像序列中各个图像的特征向量矩阵进行部分卷积处理,得到所述空洞残差子网络输出的各个图像对应的修图特征向量;其中,所述空洞残差子网络的每个卷积层都采用不同的卷积核和步长;
将各个图像对应的修图特征向量输入所述修图识别模型中的全连接层,基于所述全连接层对各个图像的修图特征向量进行降维处理,获得各个图像对应的修图等级信息;
聚合单元,用于基于所述全连接层对各个图像对应的修图等级信息进行聚合处理,获得用于表示所述多媒体内容修图等级的修图识别结果;
应用单元,用于确定将所述多媒体内容推荐给其他用户时,呈现分享提示界面,并在所述分享提示界面中,根据所述多媒体内容的修图识别结果,展示相关的修图提示信息。
10.如权利要求9所述的装置,其特征在于,所述多媒体内容为待识别视频,所述图像序列包括至少两组,每组图像序列是从所述待识别视频的不同视频段获得的;
所述等级识别单元具体用于:
根据每组图像序列的各个图像的修图等级信息,分别获得每组图像序列对应的各个视频段的修图等级;
基于所述全连接层对各个视频段的修图等级进行聚合处理,获得所述待识别视频的修图识别结果。
11.如权利要求9所述的装置,其特征在于,所述多媒体内容为待识别图片,且所述待识别图片包含N张图像,所述图像序列中包括从所述N张图像中获取的第一部分图像,以及由所述N张图像中的至少一个图像复制得到的第二部分图像,N为正整数;以及
所述等级识别单元具体用于:
基于所述全连接层,将所述图像序列中的各个图像的修图等级信息之中的最高修图等级,作为用于表示所述多媒体内容修图等级的修图识别结果。
12.如权利要求9所述的装置,其特征在于,所述已训练的修图识别模型是根据已标注修图等级标签的训练样本数据集训练得到的,所述训练样本数据集中的训练样本包括样本多媒体内容对应的各组图像序列。
13.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~8中任一所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~8中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916253.9A CN112749614B (zh) | 2020-09-03 | 2020-09-03 | 一种多媒体内容的识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916253.9A CN112749614B (zh) | 2020-09-03 | 2020-09-03 | 一种多媒体内容的识别方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749614A CN112749614A (zh) | 2021-05-04 |
CN112749614B true CN112749614B (zh) | 2023-02-07 |
Family
ID=75645689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010916253.9A Active CN112749614B (zh) | 2020-09-03 | 2020-09-03 | 一种多媒体内容的识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749614B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299688A (zh) * | 2018-09-19 | 2019-02-01 | 厦门大学 | 基于可变形快速卷积神经网络的舰船检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120114167A1 (en) * | 2005-11-07 | 2012-05-10 | Nanyang Technological University | Repeat clip identification in video data |
IL252657A0 (en) * | 2017-06-04 | 2017-08-31 | De Identification Ltd | System and method for preventing image recognition |
CN109493294A (zh) * | 2018-10-30 | 2019-03-19 | 维沃移动通信有限公司 | 一种图像处理方法及移动终端 |
-
2020
- 2020-09-03 CN CN202010916253.9A patent/CN112749614B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299688A (zh) * | 2018-09-19 | 2019-02-01 | 厦门大学 | 基于可变形快速卷积神经网络的舰船检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112749614A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Matern et al. | Exploiting visual artifacts to expose deepfakes and face manipulations | |
US11967151B2 (en) | Video classification method and apparatus, model training method and apparatus, device, and storage medium | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN109145784B (zh) | 用于处理视频的方法和装置 | |
CN109344884B (zh) | 媒体信息分类方法、训练图片分类模型的方法及装置 | |
CN111814620B (zh) | 人脸图像质量评价模型建立方法、优选方法、介质及装置 | |
CN111738357B (zh) | 垃圾图片的识别方法、装置及设备 | |
EP2568429A1 (en) | Method and system for pushing individual advertisement based on user interest learning | |
CN111539290A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
US12014545B2 (en) | Media processing method and media server | |
CN111432206A (zh) | 基于人工智能的视频清晰度处理方法、装置及电子设备 | |
Mejjati et al. | Look here! a parametric learning based approach to redirect visual attention | |
CN116701706B (zh) | 一种基于人工智能的数据处理方法、装置、设备及介质 | |
CN117689884A (zh) | 一种医学图像分割模型的生成方法及医学图像的分割方法 | |
CN112819689A (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
US20230066331A1 (en) | Method and system for automatically capturing and processing an image of a user | |
CN112749614B (zh) | 一种多媒体内容的识别方法、装置、电子设备和存储介质 | |
CN116261009A (zh) | 智能转化影视受众的视频检测方法、装置、设备及介质 | |
Yuan et al. | RM-IQA: A new no-reference image quality assessment framework based on range mapping method | |
CN113592765A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN117156078B (zh) | 一种视频数据处理方法、装置、电子设备及存储介质 | |
CN113836328B (zh) | 图像数据处理方法及装置 | |
CN117593216A (zh) | 图像修复模型的训练方法、图像修复方法及相关装置 | |
Ramkissoon et al. | Fake Face2Face Video Detection Using a Novel Scene and Texture Based Feature Set | |
CN117315314A (zh) | 一种图片多标签分类的处理方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043929 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |