CN113836328A - 图像数据处理方法及装置 - Google Patents
图像数据处理方法及装置 Download PDFInfo
- Publication number
- CN113836328A CN113836328A CN202110782559.4A CN202110782559A CN113836328A CN 113836328 A CN113836328 A CN 113836328A CN 202110782559 A CN202110782559 A CN 202110782559A CN 113836328 A CN113836328 A CN 113836328A
- Authority
- CN
- China
- Prior art keywords
- cover image
- detected
- image
- display
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 469
- 238000000034 method Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 141
- 238000012545 processing Methods 0.000 claims description 32
- 238000005520 cutting process Methods 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 12
- 238000003860 storage Methods 0.000 description 27
- 210000003128 head Anatomy 0.000 description 21
- 241000282414 Homo sapiens Species 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000000605 extraction Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 10
- 210000004209 hair Anatomy 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001290864 Schoenoplectus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本申请实施例公开了一种图像数据处理方法及装置,可应用于机器学习领域。其中方法包括:获取多媒体数据,并获取针对多媒体数据的待检测封面图像;获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果,该显示检测结果用于获取针对多媒体数据的目标封面图像。采用本申请实施例,有助于提高所获取到的多媒体数据的目标封面图像的准确性。
Description
技术领域
本申请涉及机器学习领域,尤其涉及一种图像数据处理方法及装置。
背景技术
随着计算机的高速发展,各种多媒体数据(如图文数据和视频数据)在各个来源渠道的入库峰值日上传量已超过百万级别乃至千万级别。其中,在对多媒体数据进行显示时,关联显示的多媒体数据的封面图像对用户针对多媒体数据的点击转化效果影响非常大,因此,如何准确得到多媒体数据的封面图像也成为一大热点问题。
目前,多媒体数据的封面图像通常由该多媒体数据的创作者或上传者进行上传。但是,创作者所上传的多媒体数据的封面图像可能存在不完整显示的情况,封面图像的显示并不准确。因此,如何准确地获取多媒体数据的封面图像是一个亟待解决的问题。
发明内容
本申请实施例提供了一种图像数据处理方法及装置,能够提高所获取到的多媒体数据的目标封面图像的准确性。
一方面,本申请实施例提供了一种图像数据处理方法,该方法包括:
获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;显示检测结果用于获取针对多媒体数据的目标封面图像。
可选的,上述方法还包括:
当检测到针对第二客户端的数据推送指令时,将多媒体数据和目标封面图像推送给第二客户端,以使第二客户端对多媒体数据和目标封面图像进行关联输出。
可选的,上述方法还包括:
获取针对多媒体数据的初始检测封面图像,对初始检测封面图像进行图像完整检测;
若检测到初始检测封面图像不完整,则将初始检测封面图像作为待检测封面图像。
一方面,本申请实施例提供了一种图像数据处理装置,该装置包括:
获取模块,用于获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
获取模块,还用于获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
处理模块,用于根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;显示检测结果用于获取针对多媒体数据的目标封面图像。
一方面,本申请实施例提供了一种电子设备,电子设备包括处理器和存储器,其中,存储器用于存储计算机程序指令,处理器被配置用于执行如下步骤:
获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;显示检测结果用于获取针对多媒体数据的目标封面图像。
一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,用于执行如下步骤:
获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;显示检测结果用于获取针对多媒体数据的目标封面图像。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的方法。
本申请可以获取多媒体数据,并获取针对多媒体数据的待检测封面图像;获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果,该显示检测结果用于获取针对多媒体数据的目标封面图像。由此可见,本申请可以通过与多媒体数据以及待检测封面图像相关联的描述信息来检测待检测封面图像是否显示完整,该描述信息可以用于描述多媒体数据的类型(如属于什么场景下的数据),因此通过该描述信息可以实现在不同场景的不同要求下来判断待检测封面图像是否显示完整,得到针对待检测封面图像的显示检测结果,进而通过该显示检测结果来辅助得到针对多媒体数据的目标封面图像,以提高所获取到的该目标封面图像的准确性,如使得所得到的该目标封面图像是完整显示的。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像数据处理系统的结构示意图;
图2是本申请实施例提供的一种图像数据处理方法的流程示意图;
图3是本申请实施例提供的一种封面图像的效果示意图;
图4是本申请实施例提供的一种封面图像的效果示意图;
图5是本申请实施例提供的一种封面图像的效果示意图;
图6是本申请实施例提供的一种封面图像的效果示意图;
图7是本申请实施例提供的一种封面图像的效果示意图;
图8是本申请实施例提供的一种完整显示检测方法的流程示意图;
图9是本申请实施例提供的一种图像数据处理方法的流程示意图;
图10是本申请实施例提供的一种图像数据处理系统的结构示意图;
图11是申请实施例提供的一种图像数据处理装置的结构示意图;
图12是申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例提出一种图像数据处理方案,能够根据多媒体数据和待检测封面图像的描述信息确定检测信息,根据待检测图像信息和描述信息对待检测封面图像得到显示检测结果,该显示检测结果可以用于确定针对多媒体数据的目标封面图像,由此可以使得待检测封面图像的显示检测结果为与描述信息关联的显示检测结果,有助于提高多媒体数据的目标封面图像的准确性。
本申请实施例中,多媒体数据可以为各种内容创作机构的用户原创内容(UserGenerated Content,简称UGC)、专业生产内容(Professional Generated Content,简称PGC)、多频道网络内容(Multi-Channel Network,简称MCN)等等。PGC(用户原创内容),UGC(专业生产内容),MCN(多频道网络)的内容。PGC(用户原创内容)可以为用户上传的自己原创内容,通过互联网平台进行展示或者提供给其他用户;UGC(专业生产内容),可以为经由传统广电业者按照几乎与电视节目无异的方式进行制作的高质量的内容;MCN(多频道网络)的内容为将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。例如,该多媒体数据可以为一些资讯文章,用户原创的长视频或者短视频等等,此处不做赘述。
在一种可能的实现方式中,该多媒体数据可以以信息流(Feeds)的形式在客户端(如第二客户端)中进行显示。Feeds是一种资料格式,也可以称为消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文:webfeed、newsfeed、syndicatedfeed),通过Feeds可以将最新资讯传播给用户,通常以时间轴(Timeline)方式排列,时间轴是Feeds最原始最直觉也最基本的展示形式。例如,某个消费用户在订阅某个数据源(如好友的账号或一些公众人物的账号),则当该数据源发布内容时,该消费用户可以接收到数据源更新的多媒体数据,若该消费用户订阅的数据源足够多,则可以接收到不断更新的多媒体数据。可以理解的是,以信息流(Feeds)的形式在客户端(如第二客户端)中显示多媒体数据时,可以显示该多媒体数据以及多媒体数据的封面图像(如从电子设备中获取的目标封面图像),通常可以展示为单图小图,大图和三图,还有在信息流关注流当中按照九宫格/十六宫格展示的多图等等,此处不做限制。
在一种可能的实施方式中,本申请的技术方案可以应用于一种图像数据处理系统中,请参见图1,图1是本申请实施例提供的一种图像数据处理系统的结构示意图。该图像数据处理系统可以包括第一客户端、第二客户端和服务器。该第一客户端可以为上传多媒体数据及多媒体数据的原始封面图像的任意客户端,该第二客户端可以为接收多媒体数据及目标封面图像,并对多媒体数据及目标封面图像关联输出/显示的任意客户端,该第一客户端和第二客户端仅为功能上的区分,在一些场景中第一客户端和第二客户端可以为同一客户端,如,第一客户端可以上传多媒体数据,也可以接收其他用户的上传的多媒体数据及目标封面图像。可以理解的是,该第一客户端和第二客户端均可以为任意客户端。该服务器用于获取第一客户端上传的多媒体数据及多媒体数据的原始封面图像,进而确定针对多媒体数据的待检测封面图像以及待检测封面图像的检测信息,并根据该待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到待检测封面图像的显示检测结果,该显示检测结果可以用于获取针对多媒体数据的目标封面图像,以便于后续将该目标封面图像与多媒体数据发送至第二客户端进行显示。
本申请的技术方案可运用在电子设备中,该电子设备可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。该电子设备可以与终端(如第一客户端、第二客户端所对应的终端)通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一种可能的实施方式中,本申请实施例提出的方案可以应用于机器学习领域,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如,本申请实施例可以通过机器学习领域的检测模型对待检测封面图像进行完整显示检测。
可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述的描述,本申请实施例提出一种图像数据处理方法。请参见图2,图2是本申请实施例提供的一种图像数据处理方法的流程示意图。该图像数据处理方法可以由电子设备执行。该方法可以包括步骤S201-S203。
S201、获取多媒体数据,并获取针对多媒体数据的待检测封面图像。
其中,该多媒体数据可以为视频数据或图文数据,该视频数据由多个视频帧组成,该图文数据可以为既有文本又有图像的数据,也可以为只有图像的图像集合数据,此处不做限制。该待检测封面图像用于指示针对该多媒体数据的需要进行完整显示检测的封面图像,针对该多媒体数据的待检测封面图像可以为第一客户端上传的针对该多媒体数据的原始封面图像,该待检测封面图像还可以为根据该原始封面图像进行裁剪的裁剪封面图像,该待检测封面图像还可以为根据该多媒体数据中图像(如视频数据中的视频帧,图文数据中的图像)确定的待检测封面图像,此处不做限制,由此可以确定原始封面图像的显示检测结果,并且丰富针对该多媒体数据的待检测封面图像数量,满足在不同显示场景中均显示完整的封面图像的需求。
在一种可能的实施方式中,获取针对多媒体数据的待检测封面图像,还可以包括以下步骤:获取第一客户端上传的针对多媒体数据的原始封面图像;根据目标显示场景下的封面显示尺寸对原始封面图像进行裁剪,得到裁剪封面图像;将原始封面图像和裁剪封面图像均确定为待检测封面图像。其中,该第一客户端可以为上传多媒体数据的任意客户端,该原始封面图像可以为用户通过第一客户端选择的针对该多媒体数据的封面图像。由于用户选择的原始封面图像通常只有一张,且并没有考虑到该封面图像可能显示的不同显示场景中封面图像的规格或尺寸,由此可以根据目标显示场景下的封面显示尺寸对原始封面图像进行裁剪,得到裁剪封面图像,以适应目标显示场景下的封面显示尺寸。
该目标显示场景用于指示对原始封面图像进行裁剪所得到的裁剪封面图像的尺寸所适应的的显示场景,该目标显示场景具有对应的封面显示尺寸,该封面显示尺寸用于指示在对应的显示场景下显示的封面图像的各条边的长度,例如,该封面图像各条边的长度可以通过像素进行表示,封面显示尺寸为900*1200,则表示该封面显示尺寸为宽度为900像素,高度为1200像素。该裁剪封面图像用于指示对原始封面图像进行裁剪后的图像,该裁剪封面图像的尺寸与该目标显示场景下的该封面显示尺寸相同,例如,若原始封面图像为1000*1500,封面显示尺寸为900*1200,则可以得到裁剪后的裁剪封面图像的尺寸为900*1200。其中,裁剪封面图像所对应的内容,可以为原始封面图像中目标区域所对应的内容,目标区域的尺寸与封面显示尺寸相同,该目标区域可以根据封面裁剪规则进行确定,例如,该封面裁剪规则可以为,封面显示尺寸对应的图形的中心与原始封面图像的中心重合时,确定该封面显示尺寸对应的图形的区域为该目标区域;或者,封面显示尺寸对应的图形的中心与原始封面图像中的目标点重合时,确定该封面显示尺寸对应的图形的区域为该目标区域,该目标点可以为原始封面图形中的任意点,且以该目标点为中心的该封面显示尺寸对应的图形的边缘不会超出该原始封面图像;或者,还可以基于其他规则进行确定,此处不做赘述。进一步可选的,基于该封面显示尺寸对原始封面图像进行裁剪,还可以得到该原始封面图像对应的多个裁剪封面图像,每个裁剪封面图像的尺寸与该目标显示场景下的封面显示尺寸相同。进而可以将目标显示场景下的封面显示尺寸对应的裁剪封面图像和原始封面图像均确定为待检测封面图像,以对原始封面图像和裁剪封面图像均进行完整显示检测。
可选的,不同的显示场景下的封面显示尺寸可以相同也可以不同,例如,a种显示场景对应的封面显示尺寸的交集为b种封面显示尺寸,a和b可以相同也可以不同,则根据b种封面显示尺寸对原始封面图像进行裁剪,可以得到适应上述a种显示场景的裁剪封面图像。不同显示场景的封面显示尺寸不同的原因可以为显示封面图像的客户端对应的终端设备类型导致的针对同一多媒体数据的封面显示尺寸存在不同,也可以为显示封面图像时的显示形式导致针对同一多媒体数据的封面显示尺寸不同,该显示形式用于指示各多媒体数据在客户端界面中显示封面图像的形式,如该显示形式可以为横版封面显示形式(封面图像的宽度大于高度)、竖版封面显示形式(封面图像的宽度小于高度),九宫格/十六宫格显示形式(每个封面图像占九宫格/十六宫格中的一个),三图显示形式(每行可以显示三个多媒体数据的封面图像,每个封面图像占其中一个),单独的小图/大图显示形式(每个多媒体数据的封面图像单独进行显示)等等,此处不做限制。由此可以针对不同的显示场景的封面显示尺寸生成对应尺寸的裁剪封面图像,将每个显示场景下的裁剪封面图像确定为待检测封面图像,以便于后续对每个裁剪封面图像进行完整显示检测,每个显示场景的封面显示尺下可以对应一个或多个裁剪封面图像,即每个显示场景的封面显示尺下可以有一个或多个待检测封面图像。
在一种可能的实施方式中,本申请实施例还可以根据该多媒体数据中图像确定的待检测封面图像,具体的,若多媒体数据为视频数据时,则获取视频数据所包含的N个视频帧,并从N个视频帧中选取待检测封面图像;若多媒体数据为图文数据时,则从图文数据中提取图像数据,将图像数据确定为待检测封面图像。
其中,该视频数据中可以包括N个视频帧,从而可以从N个视频帧中选取目标视频帧,并将该目标视频帧作为待检测封面图像。在一些场景中从N个视频帧中选取目标视频帧的操作也可以称为抽帧操作(抽帧处理),抽帧操作也可以分为关键帧抽取和普通帧抽取,该关键帧抽取可以为视频数据中角色或物体运动或变化中的关键动作所在的视频帧,该普通帧抽取可以为每间隔目标数量的视频帧抽取一个目标视频帧,该目标数量用于指示在进行抽帧处理时每次获取的目标视频帧之间间隔的视频帧的数量,可以理解的是,该普通帧抽取过程还可以描述为每间隔目标时间抽取一个目标视频帧,该目标时间用于指示在进行抽帧处理时每次获取的目标视频帧之间间隔的时间,如依据该每隔5秒(即目标时间)从视频数据中选取一个视频帧。可选的,该抽帧操作可以通过抽帧工具完成,如将视频数据输入该抽帧工具中,即可得到从该视频数据的N个视频中抽取的目标视频帧,进而将该目标视频帧确定为待检测封面图像。
其中,该图文数据中可以包括M个图像数据,如该图文数据为一个新闻推送的资讯信息,该资讯信息中可以包括M个插图(配图),则该M个插图(配图)则为M个图像数据,进而可以将该M个图像数据确定为待检测封面图像,又如,该图文数据为一个自拍图集,该自拍图集中可以包括M个自拍图像,则该M个自拍图像则为M个图像数据,进而可以将该M个图像数据确定为待检测封面图像。
进一步可选的,在从视频数据或图文数据中获取视频数据中的目标视频帧或图文数据中的图像数据后,还可以根据目标显示场景下的封面显示尺寸对目标视频帧或图像数据进行裁剪,得到裁剪封面图像;将该裁剪封面图像和目标视频帧或图像数据确定为待检测封面图像。其中,根据目标显示场景下的封面显示尺寸对目标视频帧或图像数据进行裁剪的步骤可以参照,根据目标显示场景下的封面显示尺寸对原始封面图像进行裁剪的相关描述,此处不做赘述,由此可以得到更丰富的待检测封面图像,以便于后续可以得到针对不同显示场景的显示完整的封面图像。
可以理解的是,根据上述描述可以得到多个待检测封面图像,进而对每个待检测封面图像均进行完整显示检测,从而确定每个待检测封面图像的显示检测结果,由此有助于为多媒体数据确定更丰富的封面图像作为备选,便于为各个显示场景匹配相应封面显示尺寸的且为完整显示的封面图像。
在一种可能的实施方式中,获取针对多媒体数据的待检测封面图像还可以包括以下步骤:获取针对多媒体数据的初始检测封面图像,对初始检测封面图像进行图像完整检测;若检测到初始检测封面图像不完整,则将初始检测封面图像作为待检测封面图像。其中,该初始检测图像可以为上述由用户上传的原始封面图像,也可以是从多媒体数据中获取的图像,如从视频数据中抽取视频帧作为初始检测封面图像,从图文数据中获取图像数据作为初始检测封面图像,还可以为根据该原始封面图像和从多媒体数据中获取的图像进行裁剪后的图像,此处不做限制,进而可以对初始检测封面图像进行图像完整检测,该图像完整检测为直接基于初始检测封面图像本身进行检测,而不需要考虑多媒体数据的描述信息的相关特征,如该初始检测图像中的人体显示是否完整、人物头像显示是否完整或人脸显示是否完整。可选的,对初始检测封面图像进行图像完整检测可以基于图像完整检测模型进行检测,该图像完整检测模型基于样本图像进行训练得到,该样本图像携带样本属性标签,该样本属性标签用于指示该样本图像完整或不完整,以便于在训练该图像完整检测模型时根据图像完整检测模型预测的该样本图像的预测结果(如该样本图像完整或不完整)与样本属性标签修正图像完整检测模型的模型参数,进而得到图像完整检测模型,以便于通过该图像完整检测模型确定初始检测封面图像完整或者不完整。
若检测到初始检测封面图像不完整,则将初始检测封面图像作为待检测封面图像。也就是说,可以在确定待检测封面图像之前对需要进行完整显示检测的封面图像进行预检测,若在不考虑多媒体数据的相关描述信息时,检测到需要进行完整显示检测的封面图像(即初始检测封面图像)为不完整的封面图像,则将初始检测封面图像作为待检测封面图像,进而根据多媒体数据的相关描述信息及该待检测封面图像(即该不完整的初始检测封面图像)对待检测封面图像进行完整显示检测,得到该待检测封面图像的显示检测结果。可选的,若检测到初始检测封面图像完整,则可以不再对该完整的初始检测封面图像基于多媒体数据的相关描述信息进行完整显示检测,直接确定该初始检测封面图像为完整显示的封面图像。由此可以减少针对完整的初始检测封面图像与多媒体数据的相关描述信息联合判定封面图像是否完整的计算量,提升在判定封面图像是否完整时的效率。
S202、获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息。
其中,与多媒体数据和待检测封面图像相关联的描述信息可以为多媒体数据的标题信息、多媒体数据的数据标签或待检测封面图像本身的图像标签等等。该标题信息可以为用户通过第一客户端确定的针对该多媒体数据的标题文本;该数据标签可以为用户通过第一客户端确定的针对该多媒体数据的标签(Tag)信息,该数据标签还可以为在接收到第一客户端上传的多媒体数据后,通过人工或机器为该多媒体数据确定的数据标签;该图像标签可以为确定待检测封面图像后,通过人工或机器为该待检测封面图像确定的数据标签。可选的,该待检测封面图像的图像标签可以与待检测封面图像的所属的多媒体数据的数据标签相同。
该针对待检测封面图像的检测信息用于指示在对待检测封面图像进行完整显示检测时需要的信息,该检测信息可以为上述描述信息中的一种或多种,例如,该检测信息可以为该待检测封面图像所属的多媒体数据的标题信息,和数据标签;该检测信息也可以为该待检测封面图像所属的多媒体数据的标题信息,和待检测封面图像本身的图像标签;该检测信息也可以仅为多媒体数据的标题信息,此处不做限制。可以理解的是,更多的检测信息可以使得针对该待检测封面图像进行完整显示检测得到的显示检测结果更加准确。
S203、根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果。
其中,对待检测封面图像进行完整显示检测用于检测待检测封面图像在检测信息对应的特征下是否显示完整,即得到显示检测结果,该显示检测结果可以为显示检测结果为完整显示结果或不完整显示结果,该显示检测结果用于获取针对多媒体数据的目标封面图像。该目标封面图像用于指示在响应于数据推送指令时,能够获取的针对多媒体数据的封面图像,该第二客户端用于在客户端界面中对多媒体数据和目标封面图像进行关联输出(显示)的任意客户端。该完整显示结果可以表示在检测信息对应的特征下该待检测封面图像的内容显示完整,该不完整显示结果可以表示在检测信息对应的特征下该待检测封面图像的内容显示不完整。若该待检测封面图像的显示检测结果为完整显示结果,则可以称该待检测封面图像为完整显示封面图像;若该待检测封面图像的显示检测结果为不完整显示结果,则可以称该待检测封面图像为不完整显示封面图像。
在一些场景中,待检测封面图像的内容显示不完整的典型特点可以为,待检测封面图像中的人体显示不完整,如待检测封面图像中的主要人物缺少头部,上半身缺失,只有部分人体等,例如,请参见图3,图3是本申请实施例提供的一种封面图像的效果示意图,如图3中(1)为一个显示不完整的封面图像,这是因为该封面图像缺少人体的头部,图3中(2)也为一个显示不完整的封面图像,这是因为该封面图像中的主要人物的人体被挡住一部分,即只有部分人体;待检测封面图像显示不完整的典型特点也可以为,待检测封面图像中的人脸显示不完整,如眉毛缺失或脸部整体缺失一半以上;待检测封面图像显示不完整的典型特点还可以为,待检测封面图像中的人物头像显示不完整,一个完整的人物头像可以包括头发、胡须、五官、下巴、脖子以上,以及人物头部配饰(例如帽子、头饰、耳饰等),若待检测封面图像中的人物头像不具备上述完整的人物头像包括的特征,则待检测封面图像中的人物头像显示不完整。其中,若人物头像中的胡须超过脖子,则可以以胡须为准,即显示完整的待检测封面图像中的人物头像应该包括完整的胡须,若人物头像中的头发超过脖子(即脖子以下也有头发),则可以以脖子为准,即显示完整的待检测封面图像中的人物头像可以只应该包括以上的头发即可,不需要包括全部头发,例如,请参见图4,图4是本申请实施例提供的一种封面图像的效果示意图,图4中(1)所示的人物图像中,该人物图像具有胡须,且胡须的长度超过脖子,并且该人物图像具有头部饰品(帽子),则图4中(1)所示的人物图像所对应的完整的人物头像应该包括完整的胡须、头部饰品(帽子)以及耳朵,则401所指示的区域为一个完整的人物头像,402所指示的区域为一个不完整的人物头像;图4中(2)所示的人物图像中,该人物图像的头发超过脖子,则图4中(2)所示的人物图像所对应的完整的人物头像可以不包括超过脖子(即脖子以下)的头发,但需要包含脖子以上的头发和头部饰品,则403所指示的区域为一个完整的人物头像,404所指示的区域为一个不完整的人物头像。
可以理解的是,待检测封面图像显示完整或显示不完整是基于待检测封面图像的检测信息(也可以说待检测封面图像和检测信息对待检测封面图像的描述信息)对应特征而言,待检测封面图像显示完整或显示不完整,例如,若该检测信息指示待检测封面图像为美妆、服装类的多媒体数据的封面图像,由于美妆类的多媒体数据通常在于强调和展示人脸的某个部位(如眉毛、眼睛、嘴唇等等),服装类的多媒体数据通常在于强调和展示身体上的服饰,则即使待检测封面图像中具备上述显示不完整的典型特点,如人脸/人体/人物头像显示不完整,也可以认定该待检测封面图像为完整显示的封面图像,请参见图5,图5是本申请实施例提供的一种封面图像的效果示意图,图5中(1)和(2)均为美妆类多媒体数据的封面图像,图5中(1)重点强调唇部,图5中(2)重点强调眉毛,则即使这两个封面图像的人脸均显示不完整,仍确认这两个封面图像为完整显示封面图像;又如,若该检测信息指示待检测封面图像为人物照片类的多媒体数据的封面图像,则待检测封面图像中的人体不完整时,则认定该待检测封面图像为不完整显示的封面图像;又如,若该检测信息指示待检测封面图像为吃播、宠物、物品展示、手工制作等类别的多媒体数据的封面图像,显然,该吃播、宠物、物品展示、手工制作等类别的多媒体数据中,人体/人脸/人物头像等信息不是主要表现的内容,则即使待检测封面图像中具备上述显示不完整的典型特点,如人脸/人体/人物头像显示不完整,也可以认定该待检测封面图像为完整显示的封面图像,请参见图6,图6是本申请实施例提供的一种封面图像的效果示意图,图6中(1)为吃播类的多媒体数据的封面图像,则即使该封面图像的人脸/人体/人物头像均显示不完整,仍确认该封面图像为完整显示封面图像;图6中(2)为手工制作类的多媒体数据的封面图像,则即使该封面图像的人脸/人体/人物头像均显示不完整,仍确认该封面图像为完整显示封面图像;图6中(3)为物品展示类的多媒体数据的封面图像,则即使该封面图像的人脸/人体/人物头像均显示不完整,仍确认该封面图像为完整显示封面图像。又如,该检测信息指示待检测封面图像为多人场景,且该检测信息指示了待检测封面图像的主要人物,则及时待检测封面图像中的非主要人物不完整显示(即待检测封面图像中有多个人物,主要人物完整,其他人物不完整),也确定该待检测封面图像为完整显示的封面图像,请参见图7,图7是本申请实施例提供的一种封面图像的效果示意图,图7所示为一个多人场景,主要人物的人物头像显示完整,非主要人物的人物头像显示不完整,则仍确认该封面图像为完整显示封面图像。显然,针对待检测封面图像为完整显示或不完整显示的判定需要基于检测进行确定,也就是说待检测封面图像的内容表现与多媒体数据和待检测封面图像的描述信息密切相关。
在一种可能的实施方式中,根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果,可以基于多模态机器学习的方式进行完整显示检测,将待检测封面图像和检测信息作为多模态信息来确定待检测封面图像的显示检测结果,由此为待检测封面图像提供了更多特征信息,从而可以使得针对待检测封面图像的显示检测结果的准确度更高。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,通过计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使计算机不断改善自身的性能。
具体包括以下步骤:根据待检测封面图像和检测信息生成针对待检测封面图像的检测特征;将检测特征输入检测模型,通过检测模型获取针对待检测封面图像的显示检测结果。其中,该针对待检测封面图像的检测特征用于指示根据该待检测封面图像和检测信息生成的用于进行完整显示检测的特征向量,该特征向量可以根据待检测封面图像对应的图像特征向量,和检测信息对应的信息特征向量进行拼接得到。
该检测模型基于样本封面图像以及针对样本封面图像的样本检测信息训练得到,用于对待检测封面图像进行完整显示检测,从而可以得到针对待检测封面图像的显示检测结果。可选的,将检测特征输入检测模型,还可以通过该检测模型中生成针对待检测封面图像的完整显示概率;其中,检测模型基于样本封面图像以及针对样本封面图像的样本检测信息训练得到;若完整显示概率大于概率阈值,则确定针对待检测封面图像的显示检测结果为完整显示结果;若完整显示概率小于或等于概率阈值,则确定针对待检测封面图像的显示检测结果为不完整显示结果。该待检测封面图像的完整显示概率用于指示检测模型输出的待检测图像在检测信息对应的特征下,该待检测封面图像的内容显示完整的概率,该完整显示概率可以为从0-1的任意数值。可选的,本申请实施例还可以得到针对待检测封面图像的不完整显示概率,该不完整显示概率用于指示检测模型输出的待检测图像在检测信息对应的特征下,该待检测封面图像的内容显示不完整的概率。可以理解的是,得到完整显示概率还是不完整显示概率取决于在对检测模型进行训练时选取的是完整显示概率还是不完整显示概率,得到完整显示概率或不完整显示概率中的任一个值,则可以计算得到另一个的值。
若完整显示概率大于概率阈值,则确定针对待检测封面图像的显示检测结果为完整显示结果;若完整显示概率小于或等于概率阈值,则确定针对待检测封面图像的显示检测结果为不完整显示结果。该概率阈值用于指示将待检测封面图像的显示检测结果为完整显示结果的最小概率值,例如,若该概率阈值为0.5,则当完整显示概率为0.6时,确定该待检测封面图像的显示检测结果为完整显示结果,当完整显示概率为0.4时,确定针对待检测封面图像的显示检测结果为不完整显示结果。
在一种可能的实施方式中,该检测模型包含编码器和解码器,则将检测特征输入检测模型,通过检测模型获取针对待检测封面图像的显示检测结果,可以具体包括以下步骤:将检测特征输入编码器,在编码器中生成检测特征对应的预测特征;将预测特征输入解码器,基于解码器预测得到针对待检测封面图像的显示检测结果。其中,该编码器可以用于根据检测特征生成对应的预测特征,该解码器用于根据编码器输出的预测特征进行处理进而得到针对待检测封面图像的显示检测结果(或针对待检测封面图像的完整显示概率)。该预测特征用于指示根据编码器进行处理后根据检测特征得到的编码向量,进而将该预测特征输入检测模型的解码器得到针对待检测封面图像的显示检测结果。可选的,编码器中具有隐藏层(hidden layer),则将检测特征输入编码器时,可以将该检测特征作为编码器中的隐藏层的初始化向量,因为检测模型中针对编码器的隐藏层的参数初始化通常有两种方式,一种是将隐藏层中的参数初始化为0,一种是随机初始化,则本申请实施例可以采用将该检测特征作为编码器中的隐藏层的初始化向量的方式将检测特征输入编码器。
在一种可能的实施方式中,根据待检测封面图像和检测信息生成针对待检测封面图像的检测特征,可以包括以下步骤:生成待检测封面图像对应的图像特征向量;生成检测信息对应的信息特征向量;对图像特征向量和信息特征向量进行拼接,得到针对待检测封面图像的检测特征。
其中,该图像特征向量可以根据该待检测封面图像生成,例如,通过对大规模数据预训练好的模型在新的任务新的样本数据上进行微调(Fine-Tuning),加快模型学习效率,进而将待检测封面图像输入微调后的预训练模型中,得到待检测封面图像对应的图像特征向量,如抽取该微调后的预训练模型中倒数第2层2048维向量作为图像的表征,这是由于如果提取最后一层,因为微调后的预训练模型的目标太近,在后续进行完整显示检测的任务上偏差更大,可选的,该预训练模型可以为Xception(一个完全基于深度可分离卷积层的卷积神经网络结构)、Inception V3(一种卷积神经网络)等等。可选的,对大规模数据预训练好的模型在新的任务新的数据上进行微调的方法可以为,通过基于ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库)预训练好的预训练模型或者BiT(BigTransfer,可以理解为ImageNet预训练模型的升级版本),通过一些封面图像数据集(即上述新的样本数据)在这个预训练模型中初始化一个图像分类的任务(即上述新的任务),分类的标签是封面图像数据集中的封面图像对应内容的高频抽象标签,比如内容的一级分类社会,体育,游戏,动漫等等,从而得到一个图像分类模型(即上述进行微调后的预训练模型),进而可以将待检测封面图像输入该图像分类模型,使用Xception(来初始化的该图像分类模型,然后抽取出倒数第2层2048维向量作为该待检测封面图像的图像向量。
该信息特征向量可以根据检测信息生成,例如,该检测信息为多媒体数据的标题信息,则可以根据BERT模型(BidirectionalEncoder Representations fromTransformer,一种用于NLP训练任务的预训练模型)提取出标题信息的语义特征,也就是把标题信息转化成对应的标题信息向量(即信息特征向量),一般是提取BERT模型的倒数第二层的向量作为标题信息对应的标题信息向量,这是由于最后一层的向量离该BERT模型的目标太近,在后续进行完整显示检测的任务上偏差更大。例如,该检测信息为多媒体数据的数据标签或待检测封面图像本身的图像标签,则同样可以参照标题信息对应的标题信息向量获取方法,即通过BERT模型提取出数据标签或图像标签的语义特征,得到对应的数据标签向量或图像标签向量(即信息特征向量)。可以理解的是,信息特征向量可以包括标题信息向量、数据标签向量或图像标签向量中的一种或多种,例如,该信息特征向量可以仅包括标题信息向量,也可以包括标题信息向量和数据标签向量,还可以包括标题信息向量和图像标签向量,还可以包括标题信息向量、数据标签向量和图像标签向量,等等,此处不做限制。由此可以通过BERT模型提升对信息特征所对应的文本的语义理解能力。通过对待检测封面图像的图像特征向量和信息特征向量(如标题信息的文本对应的标题信息向量、多媒体数据的数据标签向量,待检测封面图像的图像标签向量)做一个多模态的融合,融合多个特征向量来判断待检测封面图像是否完整,从而使得待检测封面图像的完整性判断的准确率大幅度提升。
对图像特征向量与信息特征向量进行拼接,得到检测特征,可以将图像特征向量与信息特征向量中标题信息向量、数据标签向量或图像标签向量中一种或多种进行拼接。例如,若信息特征向量中仅包括标题信息向量,则可以对图像特征向量与标题信息向量两者进行拼接,得到检测特征;又如,若信息特征向量中包括标题信息向量和数据标签向量,则可以对图像特征向量与信息特征向量中标题信息向量和数据标签向量三者进行拼接,得到检测特征;又如,若信息特征向量中包括标题信息向量和图像标签向量,则可以对图像特征向量与信息特征向量中标题信息向量和图像标签向量三者进行拼接,得到检测特征;又如,若信息特征向量中包括标题信息向量、数据标签向量和图像标签向量,则可以对图像特征向量与信息特征向量中标题信息向量、数据标签向量和图像标签向量四者进行拼接,得到检测特征。可选的,对对图像特征向量与信息特征向量进行拼接可以采用常规的Conact(一种融合图像与特征信息的方式)的方式,相当于为待检测封面图像提供了更多特征信息,从而可以使得后续检测模型的输出的准确度更高。
例如,请参见图8,图8是本申请实施例提供的一种完整显示检测方法的流程示意图。如图8所示,该检测信息可以包括多媒体数据的标题信息和数据标签,则可以根据Inception V3模型得到对应的向图像特征向量,根据BERT模型得到标题信息和数据标签对应的标题信息向量、数据标签向量,进而可以将图像特征向量、标题信息向量和数据标签向量拼接得到检测特征,并将该检测特征输入检测模型,作为检测模型的编码器的隐藏层初始化向量,进而通过该模型的训练可以得到待检测封面图像对应的显示检测结果。
在一种可能的实施方式中,在通过该检测模型得到显示检测结果前,还可以对该检测模型进行训练,具体可以包括以下步骤:获取样本封面图像以及针对样本封面图像的样本检测信息;根据样本封面图像和样本检测信息生成针对样本封面图像的样本检测特征;将样本检测特征输入初始检测模型,通过初始检测模型获取针对样本封面图像的样本显示检测结果;样本显示检测结果为样本完整显示结果或样本不完整显示结果;根据样本显示检测结果与样本显示标签所指示的样本封面图像的实际显示属性,修正初始检测模型的模型参数,并将进行模型参数修正后的初始检测模型确定为检测模型。
其中,样本封面图像携带样本显示标签,样本显示标签用于指示样本封面图像的实际显示属性,实际显示属性为完整显示属性或不完整显示属性。实际显示属性为完整显示属性时,表示该样本封面图像的内容显示完整,实际显示属性为不完整显示属性时,表示该样本封面图像的内容显示不完整。确定样本封面图像的实际显示属性时,可以参照上述显示不完整的封面图像的典型特点进行判定,并对样本封面图像的实际显示属性进行标记,使得样本封面图像可以携带用于指示实际显示属性的样本显示标签。该样本封面图像和针对样本封面图像的样本检测信息可以从样本数据集中获取,该样本数据集中可以包括多个样本封面图像,每个样本封面图像均具有对应的样本检测信息,该样本检测信息可以为该样本封面图像对应的样本标题信息、样本数据标签或样本图像标签中的一个或多个。可选的,该样本数据集中还可以对每个样本封面图像进行数据增强(包括模拟裁剪,旋转,滤镜,缩放等),从而可以扩大样本数据集的样本封面图像的数量,进而使得通过该样本数据集中的样本封面图像训练得到的检测模型能够有更好的泛化性,完整显示检测的准确度更高。该样本标题信息用于指示该样本封面图像对应的样本多媒体数据的标题文本,该样本数据标签用于指示该样本封面图像对应的样本多媒体数据的标签,该样本图像标签用于指示该样本封面图像本身对应的标签。该样本检测特征用于指示根据该样本封面图像和样本检测信息生成的特征向量,也就是获取样本封面图像对应的样本图像特征向量,以及样本信息特征对应的样本信息特征向量,进而对样本图像特征向量与样本信息特征向量进行拼接得到样本检测特征,根据样本封面图像和样本检测信息生成针对样本封面图像的样本检测特征的方法可以参照上述根据待检测封面图像和检测信息生成针对待检测封面图像的检测特征的方法,此处不做赘述。
该初始检测模型用于指示未经过训练的检测模型,可以理解的是,该初始检测模型与检测模型的模型结构相同,但模型参数存在不同,在根据样本封面图像和样本检测信息对初始检测模型进行训练后,即可得到检测模型,从而可以使得检测模型具有根据图像特征向量和信息特征向量确定待检测封面图像的内容显示完整或不完整的能力。也就是说,该初始检测模型中可以包括初始编码器和初始解码器,该初始编码器可以用于根据样本检测特征生成对应的预测特征,该初始解码器用于根据初始编码器输出的预测特征进行处理进而得到针对待检测封面图像的样本显示检测结果。样本显示检测结果可以为样本完整显示结果或样本不完整显示结果,样本完整显示结果用于指示样本封面图像为通过初始检测模型确定为显示完整的封面图像,样本不完整显示结果用于指示样本封面图像为通过初始检测模型确定为显示不完整的封面图像。
可选的,通过初始检测模型可以生成针对样本封面图像的样本完整显示概率,该样本完整显示概率用于指示初始检测模型输出的样本封面图像在样本检测信息对应的特征下,该样本封面图像的内容显示完整的概率。进而可以根据样本完整显示概率与样本显示标签所指示的样本封面图像的实际显示属性,修正初始检测模型的模型参数,并将进行模型参数修正后的初始检测模型确定为检测模型。例如,可以根据损失函数计算样本完整显示概率与实际显示属性之间的差距,然后对初始检测模型的模型参数进行修正,使得下一次通过修正模型参数后的初始检测模型生成针对该样本封面图像的样本完整显示概率时,该下一次生成的样本完整显示概率更接近该样本封面图像的实际显示属性,以此可以对该样本封面图像进行多次迭代训练,直至初始检测模型满足预设条件,则将该初始检测模型确定为检测模型。该预设条件为停止对初始训练模型进行迭代更新的条件,如该初始检测模型生成的样本完整显示概率与实际显示属性之间的差距小于一定阈值,对该初始检测模型进行迭代训练的次数达到阈值等等,此处不做限制。可选的,本申请实施例还可以生成针对样本封面图像的样本不完整显示概率,进而可以根据该样本不完整显示概率与实际显示属性,修正初始检测模型的模型参数,该样本不完整显示概率用于指示初始检测模型输出的样本封面图像在样本检测信息对应的特征下,该样本封面图像的内容显示不完整的概率。可以理解的是,若在对初始检测进行训练时是依照样本完整显示概率与实际显示属性对初始检测模型的模型参数进行修正,则得到的检测模型在进行完整显示检测时,生成的概率为完整显示概率,若在对初始检测进行训练时是依照样本完整不显示概率与实际显示属性对初始检测模型的模型参数进行修正,则得到的检测模型在进行完整显示检测时,生成的概率为不完整显示概率。可选的,还可以获取多个样本封面图像及每个样本封面图像的样本检测信息对初始检测模型进行训练,以便于得到具有更好泛化能力、完整显示检测准确度更高的检测模型。
可以理解的是,将样本图像特征向量与样本信息特征向量拼接后的向量(即样本检测特征)作为初始编码器的隐藏层的初始化向量输入初始检测模型,进而可以使得初始检测模型更能够很好地学习到样本图像特征向量与样本信息特征向量进行融合后的特征,融合之后使得学习到的样本图像特征向量与样本信息特征向量的特征更均衡,而不会极度地偏向于样本图像特征向量与样本信息特征向量的特征,因此,通过融合的样本检测特征训练模型,模型泛化效果可以更好,使训练得到的检测模型的泛化能力更好,并且将图像特征向量与信息特征向量拼接后的向量作为初始编码器的隐藏层初始化向量,可以使得模型更快地预测到样本封面图像实际的完整性,快速减少样本封面图像的实际完整性与预测结果之间的损失,因此可以使得初始检测模型的训练状态更快达到收敛状态。
在一种可能的实施方式中,将待检测封面图像和检测信息输入检测模型以得到显示检测结果的方式还可以为其他方式。例如,将图像特征向量输入检测模型的编码器,然后得到编码器输出的特征向量,再将该编码器输出的特征向量与信息特征向量进行拼接后,将此时拼接后的向量作为检测特征,将该检测特征输入解码器中得到待检测封面图像的完整显示概率,进而得到待检测封面图像的显示检测结果;又如,将图像特征向量输入检测模型的编码器,然后得到编码器输出的特征向量,再将该编码器输出的特征向量输入解码器,并且利用信息特征向量替换解码器的初始化向量,然后通过解码器得到待检测封面图像的完整显示概率,进而根据该完整显示概率得到待检测封面图像的显示检测结果。其中,针对不同的方式均需要采用对应的方式对检测模型进行训练,此处不做赘述。可选的,若该检测信息为多个检测信息,则可以针对每个检测信息生成对应的向量,如标题信息对应的标题信息向量,数据标签对应的数据标签向量,图像标签对应的图像标签向量,进而将每个检测信息对应的向量拼接后作为最终的信息特征向量。可以理解的是,本申请实施例还可以通过其他方式进行完整显示检测,此处不做限制。
在一种可能的实施方式中,当接收到第一客户端上传的针对多媒体数据的原始封面图像后,可以先对原始封面图像进行完整显示检测,即将该原始封面图像确定为待检测封面图像,根据该待检测封面图像及该待检测封面图像的检测信息对待检测封面图像进行完整显示检测,若该原始封面图像的完整显示结果为不完整显示结果,则不对该原始封面图像进行后续的操作,如,不对原始封面图像根据各个显示场景的封面显示尺寸进行裁剪,或者不对原始封面图像进行数据增强(如滤镜、缩放)等,以节省不必要的计算和处理机器资源。
可选的,在接收到第一客户端上传的针对多媒体数据的原始封面图像后,对原始封面图像进行完整显示检测,若该原始封面图像的显示检测结果为不完整显示结果,则可以向第一客户端返回提示信息以提示第一客户端上传的原始封面图像为不完整显示封面图像,以便于提示用户重新上传完整显示的封面图像。
在一种可能的实施方式中,在得到待检测封面图像的显示检测结果后,可以根据该待检测封面图像的显示检测结果确定针对多媒体数据的目标封面图像。该目标封面图像用于指示在响应于数据推送指令时,能够获取的针对多媒体数据的封面图像。该数据推送指令用于指示将多媒体数据及多媒体数据的封面图像推送至第二客户端的指令。例如,若该待检测封面图像为完整显示的封面图像,则可以将该待检测封面图像作为多媒体数据的目标封面图像;又如,若该待检测封面图像为不完整显示的封面图像可以根据多媒体数据重新生成针对多媒体数据的目标封面图像。
具体的,在得到待检测封面图像的显示检测结果后,还根据显示检测结果确定针对多媒体数据的目标封面图像,可以具体包括以下步骤:当显示检测结果为完整显示结果时,将待检测封面图像确定为针对多媒体数据的目标封面图像;当显示检测结果为不完整显示结果时,根据多媒体数据生成针对多媒体数据的目标封面图像。
其中,若显示检测结果为完整显示结果时,将待检测封面图像确定为针对多媒体数据的目标封面图像,可以使得在响应于数据推送指令,将多媒体数据发送至第二客户端时,第二客户端对多媒体数据关联输出的封面图像为完整显示的封面图像,从而提高多媒体数据的目标封面图像的准确度。若显示检测结果为不完整显示结果时,根据多媒体数据生成针对多媒体数据的目标封面图像,也就是说不将该显示检测结果为不完整显示结果的待检测封面图像作为目标封面图像,而是根据多媒体数据重新生成一个封面图像作为目标封面图像,以此可以避免不完整显示的封面图像被发送至第二客户端与多媒体数据关联输出,提升目标封面图像的准确度。可以理解的是,该待检测封面图像的尺寸与目标显示场景下的封面显示尺寸相同,则若待检测封面图像为不完整显示的封面图像时,根据多媒体数据生成的目标封面图像与该待检测封面图像的尺寸相同。
可选的,若该待检测封面图像所对应的显示场景下,还有其他待检测封面图像,则当该显示场景下的所有待检测封面图像的显示检测结果均为不完整显示检测结果时,再根据多媒体数据生成目标封面图像。
可选的,根据多媒体数据生成目标封面图像可以为根据多媒体数据的描述信息生成目标封面图像,例如,根据封面图像生成模板,将多媒体数据的标题文本导入该封面图像生成模板得到目标封面图像;又如,建立补充封面图像库,每种补充封面图像库具有对应的标签信息,当多媒体数据的数据标签与补充封面图像数据库的数据标签与相匹配时,从补充封面图像库获取该数据标签对应的封面图像作为目标封面图像;还可以通过其他方式生成补充封面图像,此处不做赘述。
可选的,在得到针对多媒体数据的目标封面图像后,可以将该多媒体数据的封面图像存储至存储区域,以便于在接收到针对多媒体数据的数据推送指令时,快速从存储区域中获取该多媒体数据的封面图像,提高针对数据推送指令的响应的速度,其中,该数据推送指令所指示的显示场景与该目标封面图像的尺寸相同。
可选的,若检测到针对多媒体数据的多个待检测封面图像的显示检测结果均为不完整显示结果,则可以向上传该多媒体数据的第一客户端返回提示信息以提示用户重新上传完整显示的封面图像,进而可以使得多媒体数据的针对不同显示场景的目标封面图像均可以为完整显示的封面图像,提升多媒体数据的封面图像的准确性。
在一种可能的实施方式中,步骤S201中可以根据各个显示场景的封面显示尺寸对原始封面图像、视频数据中的目标视频帧或图文数据中的图像数据进行裁剪,进而得到每个显示场景的封面显示尺寸对应尺寸的待检测封面图像,每个显示场景下可以对应一个或多个目标封面图像。则针对每个显示场景下的待检测封面图像进行完整显示检测后,可以得到每个显示场景下的待检测封面图像的显示检测结果,每个显示检测结果可以为完整显示结果或不完整显示结果。若某个显示场景下的一个或多个待检测封面图像的显示检测结果为完整显示结果,则将完整显示的一个或多个待检测封面图像均确定为目标封面图像,并过滤掉不完整显示的待检测封面图像,进而可以将目标封面图像存储至存储区域。若在在某个显示场景下的待检测封面图像的显示检测结果均为完整显示结果,则不将该显示场景下的待检测封面图像确定为目标封面图像,进而可以根据多媒体数据生成与该显示场景的封面显示尺寸相同尺寸的目标封面图像。在得到针对每个显示场景的一个或多个目标封面图像后,可以将每个显示场景的一个或多个目标封面图像存储至存储区域,以便于在接收针对该多媒体数据的数据推送指令时,根据该数据推送指令所指示的显示场景从存储区域中确定针对该显示场景的多媒体数据的封面图像。可以理解的是,若针对每个显示场景的封面显示尺寸的待检测封面图像越多,则每个显示场景具有对应的完整显示的待检测封面图像的可能性越高,由此可以针对每个显示场景的显示尺寸获取更多的待检测封面图像,以便于有利于使得该多媒体数据在不同显示场景下均具有完整显示的封面图像。
可选的,若针对某个显示场景存在多个目标封面图像,则可以从该多个目标封面图像中筛选一个针对该显示场景的目标封面图像,并将每个显示场景对应的一个目标封面图像存储至存储区域,以便于在候选确定多媒体数据的封面图像时,根据显示场景快速获取该目标封面图像,提高数据推送效率。
本申请可以获取多媒体数据,并获取针对多媒体数据的待检测封面图像;获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;该显示检测结果用于获取针对多媒体数据的目标封面图像。由此可见,本申请可以通过与多媒体数据以及待检测封面图像相关联的描述信息来检测待检测封面图像是否显示完整,该描述信息可以用于描述多媒体数据的类型(如属于什么场景下的数据),因此通过该描述信息可以实现在不同场景的不同要求下来判断待检测封面图像是否显示完整,得到针对待检测封面图像的显示检测结果,进而通过该显示检测结果来辅助得到针对多媒体数据的目标封面图像,以提高所获取到的该目标封面图像的准确性,如使得所得到的该目标封面图像是完整显示的。
请参见图9,图9是本申请实施例提供的一种图像数据处理方法的流程示意图。该方法可以由电子设备执行,该方法可以包括步骤S901-S905。
S901、获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
S902、获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
S903、根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果。
S904、根据显示检测结果确定针对多媒体数据的目标封面图像。
步骤S901-S904可以参照步骤S201-S203的相关描述,此处不做赘述。
S905、当检测到针对第二客户端的数据推送指令时,将多媒体数据和目标封面图像推送给第二客户端,以使第二客户端对多媒体数据和目标封面图像进行关联输出。
其中,该针对第二客户端的数据推送指令用于指示将多媒体数据及多媒体数据对应的封面图像推送至第二客户端的指令。该第二客户端用于在客户端界面中对多媒体数据和目标封面图像进行关联输出(显示)的任意客户端。可以理解的是,该数据推送指令所指示的显示场景下的封面显示尺寸与该目标封面图像的显示尺寸相同,则将多媒体数据及目标封面图像推送至第二客户端。
在一种可能的实施方式中,步骤S904中可以得到针对各个显示场景的目标封面图像,则当检测到针对第二客户端的数据推送指令后,确定该数据推送指令所指示的显示场景,进而根据该数据推送指令指示的显示场景的封面显示尺寸从存储区域中快速获取与该封面显示尺寸对应的一个目标封面图像,进而将该多媒体数据和该目标封面图像发送至第二客户端,由此可以提升数据推送的效率。可选的,若检测到存储区域中,具有针对该数据推送指令所指示的显示场景的一个目标封面图像,则获取该显示场景对应的目标封面图像,并将该目标封面图像和多媒体数据推送至第二客户端;若检测到存储区域中,具有该数据推送指令所指示的显示场景的多个目标封面图像,则从该多个目标封面图像确定一个目标封面图像,则获取该显示场景对应的目标封面图像,并将该目标封面图像和多媒体数据推送至第二客户端,由此可以根据数据推送指令所指示的显示场景快速获取该目标封面图像,提高数据推送效率。
在一种实际应用场景中,本申请实施例可以应用在一种图像数据处理系统中。请参见图10,图10是本申请实施例提供的一种图像数据处理系统的效果示意图。该系统主要包括完整显示检测服务,检测模型,封面图业务服务,视频抽帧和图文内容解析服务,内容存储服务,调度中心服务。该完整显示检测服务,用于接收封面图业务服务的调度,调用检测模型对待检测封面图像进行完整显示检测,并向封面图业务服务返回显示检测结果(如完整显示结果或不完整显示结果);该检测模型用于接收完整显示检测服务的调度,按照上述实施例中所描述的方法,采用多模态机器学习方法,结合图像分类技术及信息特征对待检测封面图像的完整性做出识别和判断,即对待检测封面图像进行完整显示检测,得到显示检测结果;该封面图业务服务用于实现对多媒体数据的目标封面图像的处理和生成,例如,针对多媒体数据的封面图像的筛选和裁剪,接收视频抽帧和图文内容解析服务发送的每一种待检测封面图像进而调用完整显示检测服务完成对待检测封面图像的完整性检测和识别;该内容存储服务用于存储多媒体数据(比如视频数据的文件和图文数据的文件),以及多媒体数据及待检测封面图像的描述信息(如多媒体数据的元信息),以便于针对视频数据抽取视频帧或从图文数据中获取图像数据的时候,通过从内容存储服务下载多媒体数据,进而从多媒体数据中获取待检测封面图像作为多媒体数据的封面图像的候选图像;该调度中心服务,用于调用各个服务之间协调作用,如调用封面图业务服务进行封面图像的处理,等等,此处不做限制。也就是说,调度中心服务可以调用封面业务服务去生成针对多媒体数据的目标封面图像(如图10中1001所示),然后封面业务图像可以从视频抽帧和图文内容解析服务接收到多个待检测封面图像(如图10中1002所示),如该待检测封面图像可以为原始封面图像、原始封面图像的裁剪封面图像、视频数据中的视频帧或图文数据中的图像数据或者视频数据中的视频帧或图文数据中的图像数据对应的裁剪封面图像,然后封面业务图像调用完整显示检测服务对每个待检测封面图像进行完整显示检测(如图10中1003所示),然后该完整显示检测服务可以调用检测模型对待检测封面图像进行完整显示检测(如图10中1004所示),进而可以得到每个待检测封面图像的显示检测结果,并将该完整显示结果返回至封面业务图像,以便于封面业务图像确定针对多媒体数据的目标封面图像。
可选的,该图像数据处理系统还可以包括内容数据库、上下行内容接口服务器、人工审核系统、下载文件服务、排重服务、内容分发出口服务、第一客户端(也可称为内容生产端),第二客户端(也可称为内容消费端)等等模块,此处不做限制。该内容数据库可以保存生产者发布的多媒体数据的元信息,比如文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,视频文件大小,视频格式,是否原创的标记或者首发还包括人工审核过程中对多媒体数据的分类,等等,此处不做赘述。该人工审核系统是人工服务能力的载体,主要用于审核过滤机器无法确定判断的内容,对于短视频和小视频的标签标注和二次确认,同时还会作为内容消费端举报和负反馈内容的复核,等等,此处不做限制。该上下行内容接口服务器用于管控多媒体数据的上行和下行,如,和内容生产端(即第一客户端)直接通讯,将从第一客户端提交的内容存入内容数据库,通常是内容的标题、发布者、摘要、原始封面图像、发布时间、文件大小,等信息,并且可以将多媒体数据的发布者(包括外部渠道提供的内容)提交的内容同步给调度中心服务器,进行后续的多媒体数据的处理和流转。该下载文件服务用于从内容存储服务中下载数据,控制下载的速度和进度,该文件下载服务通常是一组并行的服务器,由相关的任务调度和分发集群构成,如从内容存储服务中下载和获取多媒体数据,下载完成的多媒体数据可以调用视频抽帧和图文内容解析服务获取待检测封面图像,为后续得到多媒体数据的目标封面图像提供候选的封面图像;该排重服务可以用于对多媒体数据的标题去重,封面图像去重,内容正文去重及视频指纹和音频指纹去重,如将图文内容标题和正文向量化,采用simmhash(一种哈希算法)及BERT确定正文向量、图像向量并去重,对于视频内容抽取视频指纹和音频指纹构建向量,然后计算向量之间的距离比如欧式距离来确定是否重复,排重的目的主要是减少内容的审核量和确保同样多媒体数据在推荐分发池只有一份,进而保障用户体验。该内容分发出口服务用于指示机器和人工处理链路多媒体数据输出的出口,通过该内容分发出口将多媒体数据分发至内容消费端(即第二客户端),分发的方式的可以为推荐算法分发和人工运营,此处不做限制。
本申请可以获取多媒体数据,并获取针对多媒体数据的待检测封面图像;获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;该显示检测结果用于获取针对多媒体数据的目标封面图像。由此可见,本申请可以通过与多媒体数据以及待检测封面图像相关联的描述信息来检测待检测封面图像是否显示完整,该描述信息可以用于描述多媒体数据的类型(如属于什么场景下的数据),因此通过该描述信息可以实现在不同场景的不同要求下来判断待检测封面图像是否显示完整,得到针对待检测封面图像的显示检测结果,进而通过该显示检测结果来辅助得到针对多媒体数据的目标封面图像,以提高所获取到的该目标封面图像的准确性,如使得所得到的该目标封面图像是完整显示的。
基于上述图像数据处理方法实施例的描述,本申请实施例还公开了一种图像数据处理装置,该装置可以配置于上述的电子设备中,例如装置可以是运行于电子设备中的一个计算机程序(包括程序代码)。该装置可以执行图2所示的方法。请参见图11,装置可以运行如下模块:
获取模块1101,用于获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
获取模块1101,还用于获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
处理模块1102,用于根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;显示检测结果用于获取针对多媒体数据的目标封面图像。
在一种实施方式中,处理模块1102具体用于:
根据待检测封面图像和检测信息生成针对待检测封面图像的检测特征;
将检测特征输入检测模型,通过检测模型获取针对待检测封面图像的显示检测结果。
在一种实施方式中,处理模块1102具体用于:
生成待检测封面图像对应的图像特征向量;
生成检测信息对应的信息特征向量;
对图像特征向量和信息特征向量进行拼接,得到针对待检测封面图像的检测特征。
在一种实施方式中,检测模型包含编码器和解码器;处理模块1102具体用于:
将检测特征输入编码器,在编码器中生成检测特征对应的预测特征;
将预测特征输入解码器,基于解码器预测得到针对待检测封面图像的显示检测结果。
在一种实施方式中,处理模块1102该用于:
获取样本封面图像以及针对样本封面图像的样本检测信息;样本封面图像携带样本显示标签;样本显示标签用于指示样本封面图像的实际显示属性,实际显示属性为完整显示属性或不完整显示属性;
根据样本封面图像和样本检测信息生成针对样本封面图像的样本检测特征;
将样本检测特征输入初始检测模型,通过初始检测模型获取针对样本封面图像的样本显示检测结果;样本显示检测结果为样本完整显示结果或样本不完整显示结果;
根据样本显示检测结果与样本显示标签所指示的样本封面图像的实际显示属性,修正初始检测模型的模型参数,并将进行模型参数修正后的初始检测模型确定为检测模型。
在一种实施方式中,检测信息包含以下至少一种:多媒体数据的标题信息、多媒体数据的数据标签、待检测封面图像的图像标签。
在一种实施方式中,处理模块1102具体用于:
获取针对多媒体数据的初始检测封面图像,对初始检测封面图像进行图像完整检测;
若检测到初始检测封面图像不完整,则将初始检测封面图像作为待检测封面图像。
在一种实施方式中,处理模块1102具体用于:
获取第一客户端上传的针对多媒体数据的原始封面图像;
根据目标显示场景下的封面显示尺寸对原始封面图像进行裁剪,得到裁剪封面图像;
将原始封面图像和裁剪封面图像均确定为待检测封面图像。
在一种实施方式中,处理模块1102具体用于:
若多媒体数据为视频数据,则获取视频数据所包含的N个视频帧,并从N个视频帧中选取待检测封面图像;
若多媒体数据为图文数据,则从图文数据中提取图像数据,并将图像数据确定为待检测封面图像。
在一种实施方式中,处理模块1102还用于:
当显示检测结果为完整显示结果时,将待检测封面图像确定为针对多媒体数据的目标封面图像;
当显示检测结果为不完整显示结果时,根据多媒体数据生成针对多媒体数据的目标封面图像。
在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现,本申请不做限定。
本申请可以获取多媒体数据,并获取针对多媒体数据的待检测封面图像;获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;该显示检测结果用于获取针对多媒体数据的目标封面图像。由此可见,本申请可以通过与多媒体数据以及待检测封面图像相关联的描述信息来检测待检测封面图像是否显示完整,该描述信息可以用于描述多媒体数据的类型(如属于什么场景下的数据),因此通过该描述信息可以实现在不同场景的不同要求下来判断待检测封面图像是否显示完整,得到针对待检测封面图像的显示检测结果,进而通过该显示检测结果来辅助得到针对多媒体数据的目标封面图像,以提高所获取到的该目标封面图像的准确性,如使得所得到的该目标封面图像是完整显示的。
再请参见图12,图12是本申请实施例的一种电子设备的结构示意图,本申请实施例的电子设备包括处理器1201以及存储器1202。可选的,该电子设备还可包括网络接口1203或供电模块等结构。其中,处理器1201、存储器1202以及网络接口1203之间可以交互数据,网络接口1203受处理器的控制用于收发消息,存储器1202用于存储计算机程序,计算机程序包括程序指令,处理器1201用于执行存储器1202存储的程序指令。其中,处理器1201被配置用于调用程序指令执行上述方法。
所存储器1202可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1202也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器1202还可以包括上述种类的存储器的组合。
处理器1201可以是中央处理器1201(central processing unit,CPU)。在一个实施例中,处理器1201还可以是图形处理器1201(Graphics Processing Unit,GPU)。处理器1201也可以是由CPU和GPU的组合。
在一个实施例中,存储器1202用于存储程序指令。处理器1201可以调用程序指令,执行以下步骤:
获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;显示检测结果用于获取针对多媒体数据的目标封面图像。
在一种实施方式中,处理器1201具体用于:
根据待检测封面图像和检测信息生成针对待检测封面图像的检测特征;
将检测特征输入检测模型,通过检测模型获取针对待检测封面图像的显示检测结果。
在一种实施方式中,处理器1201具体用于:
生成待检测封面图像对应的图像特征向量;
生成检测信息对应的信息特征向量;
对图像特征向量和信息特征向量进行拼接,得到针对待检测封面图像的检测特征。
在一种实施方式中,检测模型包含编码器和解码器;处理器1201具体用于:
将检测特征输入编码器,在编码器中生成检测特征对应的预测特征;
将预测特征输入解码器,基于解码器预测得到针对待检测封面图像的显示检测结果。
在一种实施方式中,处理器1201该用于:
获取样本封面图像以及针对样本封面图像的样本检测信息;样本封面图像携带样本显示标签;样本显示标签用于指示样本封面图像的实际显示属性,实际显示属性为完整显示属性或不完整显示属性;
根据样本封面图像和样本检测信息生成针对样本封面图像的样本检测特征;
将样本检测特征输入初始检测模型,通过初始检测模型获取针对样本封面图像的样本显示检测结果;样本显示检测结果为样本完整显示结果或样本不完整显示结果;
根据样本显示检测结果与样本显示标签所指示的样本封面图像的实际显示属性,修正初始检测模型的模型参数,并将进行模型参数修正后的初始检测模型确定为检测模型。
在一种实施方式中,检测信息包含以下至少一种:多媒体数据的标题信息、多媒体数据的数据标签、待检测封面图像的图像标签。
在一种实施方式中,处理器1201具体用于:
获取针对多媒体数据的初始检测封面图像,对初始检测封面图像进行图像完整检测;
若检测到初始检测封面图像不完整,则将初始检测封面图像作为待检测封面图像。
在一种实施方式中,处理器1201具体用于:
获取第一客户端上传的针对多媒体数据的原始封面图像;
根据目标显示场景下的封面显示尺寸对原始封面图像进行裁剪,得到裁剪封面图像;
将原始封面图像和裁剪封面图像均确定为待检测封面图像。
在一种实施方式中,处理器1201具体用于:
若多媒体数据为视频数据,则获取视频数据所包含的N个视频帧,并从N个视频帧中选取待检测封面图像;
若多媒体数据为图文数据,则从图文数据中提取图像数据,并将图像数据确定为待检测封面图像。
在一种实施方式中,处理器1201还用于:
当显示检测结果为完整显示结果时,将待检测封面图像确定为针对多媒体数据的目标封面图像;
当显示检测结果为不完整显示结果时,根据多媒体数据生成针对多媒体数据的目标封面图像。
具体实现中,本申请实施例中所描述的装置、处理器1201、存储器1202等可执行上述方法实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
本申请可以获取多媒体数据,并获取针对多媒体数据的待检测封面图像;获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果,该显示检测结果用于获取针对多媒体数据的目标封面图像。由此可见,本申请可以通过与多媒体数据以及待检测封面图像相关联的描述信息来检测待检测封面图像是否显示完整,该描述信息可以用于描述多媒体数据的类型(如属于什么场景下的数据),因此通过该描述信息可以实现在不同场景的不同要求下来判断待检测封面图像是否显示完整,得到针对待检测封面图像的显示检测结果,进而通过该显示检测结果来辅助得到针对多媒体数据的目标封面图像,以提高所获取到的该目标封面图像的准确性,如使得所得到的该目标封面图像是完整显示的。
本申请实施例中还提供一种计算机(可读)存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时,可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序指令,该程序指令可存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令,处理器执行该程序指令,使得该计算机执行上述方法中所执行的部分或全部步骤,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机存储介质中,该计算机存储介质可以为计算机可读存储介质,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。
Claims (10)
1.一种图像数据处理方法,其特征在于,包括:
获取多媒体数据,并获取针对所述多媒体数据的待检测封面图像;
获取与所述多媒体数据和所述待检测封面图像相关联的描述信息作为针对所述待检测封面图像的检测信息;
根据所述待检测封面图像和所述检测信息对所述待检测封面图像进行完整显示检测,得到针对所述待检测封面图像的显示检测结果;所述显示检测结果为完整显示结果或不完整显示结果;所述显示检测结果用于获取针对所述多媒体数据的目标封面图像。
2.根据权利要求1所述方法,其特征在于,所述根据所述待检测封面图像和所述检测信息对所述待检测封面图像进行完整显示检测,得到针对所述待检测封面图像的显示检测结果,包括:
根据所述待检测封面图像和所述检测信息生成针对所述待检测封面图像的检测特征;
将所述检测特征输入检测模型,通过所述检测模型获取针对所述待检测封面图像的所述显示检测结果。
3.根据权利要求2所述方法,其特征在于,所述根据所述待检测封面图像和所述检测信息生成针对所述待检测封面图像的检测特征,包括:
生成所述待检测封面图像对应的图像特征向量;
生成所述检测信息对应的信息特征向量;
对所述图像特征向量和所述信息特征向量进行拼接,得到针对所述待检测封面图像的所述检测特征。
4.根据权利要求2所述方法,其特征在于,所述检测模型包含编码器和解码器;所述将所述检测特征输入检测模型,通过所述检测模型获取针对所述待检测封面图像的所述显示检测结果,包括:
将所述检测特征输入所述编码器,在所述编码器中生成所述检测特征对应的预测特征;
将所述预测特征输入所述解码器,基于所述解码器预测得到针对所述待检测封面图像的所述显示检测结果。
5.根据权利要求2所述方法,其特征在于,所述方法还包括:
获取所述样本封面图像以及针对所述样本封面图像的所述样本检测信息;所述样本封面图像携带样本显示标签;所述样本显示标签用于指示所述样本封面图像的实际显示属性,所述实际显示属性为完整显示属性或不完整显示属性;
根据所述样本封面图像和所述样本检测信息生成针对所述样本封面图像的样本检测特征;
将所述样本检测特征输入初始检测模型,通过所述初始检测模型获取针对所述样本封面图像的样本显示检测结果;所述样本显示检测结果为样本完整显示结果或样本不完整显示结果;
根据所述样本显示检测结果与所述样本显示标签所指示的所述样本封面图像的实际显示属性,修正所述初始检测模型的模型参数,并将进行模型参数修正后的所述初始检测模型确定为所述检测模型。
6.根据权利要求1所述方法,其特征在于,所述检测信息包含以下至少一种:所述多媒体数据的标题信息、所述多媒体数据的数据标签、所述待检测封面图像的图像标签。
7.根据权利要求1所述方法,其特征在于,所述获取针对所述多媒体数据的待检测封面图像,包括:
获取第一客户端上传的针对所述多媒体数据的原始封面图像;
根据目标显示场景下的封面显示尺寸对所述原始封面图像进行裁剪,得到裁剪封面图像;
将所述原始封面图像和所述裁剪封面图像均确定为所述待检测封面图像。
8.根据权利要求1所述方法,其特征在于,所述获取针对所述多媒体数据的待检测封面图像,包括:
若所述多媒体数据为视频数据,则获取所述视频数据所包含的N个视频帧,并从所述N个视频帧中选取所述待检测封面图像;
若所述多媒体数据为图文数据,则从所述图文数据中提取图像数据,并将所述图像数据确定为所述待检测封面图像。
9.根据权利要求1所述方法,其特征在于,所述方法还包括:
当所述显示检测结果为所述完整显示结果时,将所述待检测封面图像确定为针对所述多媒体数据的所述目标封面图像;
当所述显示检测结果为所述不完整显示结果时,根据所述多媒体数据生成针对所述多媒体数据的所述目标封面图像。
10.一种图像数据处理装置,其特征在于,包括:
获取模块,用于获取多媒体数据,并获取针对多媒体数据的待检测封面图像;
获取模块,还用于获取与多媒体数据和待检测封面图像相关联的描述信息作为针对待检测封面图像的检测信息;
处理模块,用于根据待检测封面图像和检测信息对待检测封面图像进行完整显示检测,得到针对待检测封面图像的显示检测结果;显示检测结果为完整显示结果或不完整显示结果;显示检测结果用于获取针对多媒体数据的目标封面图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782559.4A CN113836328B (zh) | 2021-07-09 | 图像数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110782559.4A CN113836328B (zh) | 2021-07-09 | 图像数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836328A true CN113836328A (zh) | 2021-12-24 |
CN113836328B CN113836328B (zh) | 2024-06-25 |
Family
ID=
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170054788A1 (en) * | 2015-08-21 | 2017-02-23 | Xiaomi Inc. | Method and device for displaying audio playback application cover |
US20180276296A1 (en) * | 2017-03-24 | 2018-09-27 | Apple Inc. | Generation and presentation of media content |
CN110533097A (zh) * | 2019-08-27 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种图像清晰度识别方法、装置、电子设备及存储介质 |
WO2020000196A1 (zh) * | 2018-06-26 | 2020-01-02 | 深圳齐心集团股份有限公司 | 一种人脸识别方法、装置及门禁考勤机 |
CN110889470A (zh) * | 2018-09-07 | 2020-03-17 | 京东数字科技控股有限公司 | 用于处理图像的方法和装置 |
CN110990602A (zh) * | 2020-03-03 | 2020-04-10 | 北京搜狐新媒体信息技术有限公司 | 多媒体数据的推送方法、图像检测方法及对应方法的装置 |
CN111160335A (zh) * | 2020-01-02 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像水印处理方法、装置及电子设备 |
CN111400534A (zh) * | 2020-03-05 | 2020-07-10 | 杭州海康威视系统技术有限公司 | 图像数据的封面确定方法、装置及计算机存储介质 |
CN112016548A (zh) * | 2020-10-15 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种封面图展示方法及相关装置 |
CN112100442A (zh) * | 2020-11-13 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 用户倾向性识别方法、装置、设备及存储介质 |
CN112418011A (zh) * | 2020-11-09 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 视频内容的完整度识别方法、装置、设备及存储介质 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170054788A1 (en) * | 2015-08-21 | 2017-02-23 | Xiaomi Inc. | Method and device for displaying audio playback application cover |
US20180276296A1 (en) * | 2017-03-24 | 2018-09-27 | Apple Inc. | Generation and presentation of media content |
WO2020000196A1 (zh) * | 2018-06-26 | 2020-01-02 | 深圳齐心集团股份有限公司 | 一种人脸识别方法、装置及门禁考勤机 |
CN110889470A (zh) * | 2018-09-07 | 2020-03-17 | 京东数字科技控股有限公司 | 用于处理图像的方法和装置 |
CN110533097A (zh) * | 2019-08-27 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种图像清晰度识别方法、装置、电子设备及存储介质 |
CN111160335A (zh) * | 2020-01-02 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像水印处理方法、装置及电子设备 |
CN110990602A (zh) * | 2020-03-03 | 2020-04-10 | 北京搜狐新媒体信息技术有限公司 | 多媒体数据的推送方法、图像检测方法及对应方法的装置 |
CN111400534A (zh) * | 2020-03-05 | 2020-07-10 | 杭州海康威视系统技术有限公司 | 图像数据的封面确定方法、装置及计算机存储介质 |
CN112016548A (zh) * | 2020-10-15 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种封面图展示方法及相关装置 |
CN112418011A (zh) * | 2020-11-09 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 视频内容的完整度识别方法、装置、设备及存储介质 |
CN112100442A (zh) * | 2020-11-13 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 用户倾向性识别方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
余东行;张保明;郭海涛;赵传;徐俊峰;: "联合显著性特征与卷积神经网络的遥感影像舰船检测", 中国图象图形学报, no. 12, 16 December 2018 (2018-12-16) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109756751B (zh) | 多媒体数据处理方法及装置、电子设备、存储介质 | |
CN110781347A (zh) | 一种视频处理方法、装置、设备以及可读存储介质 | |
CN112749608A (zh) | 视频审核方法、装置、计算机设备和存储介质 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
CN111310041B (zh) | 图文发布的方法、模型的训练方法、装置及存储介质 | |
WO2023045635A1 (zh) | 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN113204659B (zh) | 多媒体资源的标签分类方法、装置、电子设备及存储介质 | |
CN112149642A (zh) | 一种文本图像识别方法和装置 | |
CN112163560A (zh) | 一种视频信息处理方法、装置、电子设备及存储介质 | |
CN113761253A (zh) | 视频标签确定方法、装置、设备及存储介质 | |
CN113515997A (zh) | 一种视频数据处理方法、装置以及可读存储介质 | |
CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN113836328B (zh) | 图像数据处理方法及装置 | |
US20220375223A1 (en) | Information generation method and apparatus | |
CN117009577A (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
CN113836328A (zh) | 图像数据处理方法及装置 | |
CN112866748B (zh) | 基于ai的视频广告植入方法和装置、设备及存储介质 | |
CN111193795B (zh) | 信息推送方法及装置、电子设备和计算机可读存储介质 | |
CN113821677A (zh) | 一种生成封面图像的方法、装置、设备及存储介质 | |
CN113761281A (zh) | 虚拟资源处理方法、装置、介质及电子设备 | |
CN114697741A (zh) | 多媒体信息的播放控制方法及相关设备 | |
CN113821651A (zh) | 信息处理方法及装置 | |
CN115909390B (zh) | 低俗内容识别方法、装置、计算机设备以及存储介质 | |
CN117763190B (zh) | 一种智能化图片配文方法及系统 | |
CN117315314A (zh) | 一种图片多标签分类的处理方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |