CN112749711A

CN112749711A - 视频获取方法和装置及存储介质

Info

Publication number: CN112749711A
Application number: CN202010773660.9A
Authority: CN
Inventors: 李少波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2021-05-04
Anticipated expiration: 2040-08-04
Also published as: CN112749711B

Abstract

本发明公开了一种人工智能场景下的视频获取方法和装置及存储介质，具体的，还涉及计算机视觉以及机械学习等技术。其中，该方法包括：获取候选图像集中的目标候选图像；在目标候选图像中选取N个候选子图像；将N个候选子图像输入特征提取神经网络，以获得N个图像特征；根据N个图像特征确定与目标候选图像匹配的目标评估指数；在目标评估指数满足预设条件的情况下，结合目标候选图像与目标模板，以生成目标视频。本发明解决了根据神经网络输出的图像制作视频的容错率较低的技术问题。

Description

视频获取方法和装置及存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种视频获取方法和装置及存储介质。

背景技术

视频商品广告是一种商品广告的视频形式，是对图文广告的升级。通过将商品的名称、文案、图片以及原始视频，与模版相结合，形成视频。近年视频商品广告的应用越发广泛，但对于视频商品广告的制作，仍存在不少问题。在相关技术中，会通过神经网络对待制作视频的图像进行特征提取以及图像识别，但神经网络对输入图像的尺寸要求非常严格，例如，要求输入的图像大小固定，为224*224*3，如果实际输入的图像的大小不满足这个要求，此神经网络会自动截取224*224*3图像块作为输入，这样做带来的缺陷明显，其一，如果输入图像的大小与要求的大小相差太大，实际截取的图像块不能代表整个图像；其二，具体怎么截取才能截取到原图像的重要内容，这是个没有解决的问题。这样一来，真正模型的输入偏离了实际的输入图片，对模型的训练以及模型的效果都会带来较大的影响，进而也影响了最终视频商品广告的制作效果。以此，现有技术中存在根据神经网络输出的图像制作视频的容错率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频获取方法和装置及存储介质，以至少解决根据神经网络输出的图像制作视频的容错率较低的技术问题。

根据本发明实施例的一个方面，提供了一种视频获取方法，包括：获取候选图像集中的目标候选图像，其中，上述候选图像集包括多个候选图像，上述候选图像用于获取目标视频；在上述目标候选图像中选取N个候选子图像，其中，上述N个候选子图像的图像尺寸同为目标尺寸；将上述N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，上述特征提取神经网络用于提取图像尺寸为上述目标尺寸的图像的图像特征；根据上述N个图像特征确定与上述目标候选图像匹配的目标评估指数，其中，上述目标评估指数用于指示上述目标候选图像的美感评分；在上述目标评估指数满足预设条件的情况下，结合上述目标候选图像与目标模板，以生成上述目标视频，其中，上述目标模板用于根据图像获取视频。

根据本发明实施例的另一方面，还提供了一种视频获取装置，包括：第一获取单元，用于获取候选图像集中的目标候选图像，其中，上述候选图像集包括多个候选图像，上述候选图像用于获取目标视频；第一选取单元，用于在上述目标候选图像中选取N个候选子图像，其中，上述N个候选子图像的图像尺寸同为目标尺寸；第一输入单元，用于将上述N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，上述特征提取神经网络用于提取图像尺寸为上述目标尺寸的图像的图像特征；第一确定单元，用于根据上述N个图像特征确定与上述目标候选图像匹配的目标评估指数，其中，上述目标评估指数用于指示上述目标候选图像的美感评分；第二输入单元，用于在上述目标评估指数满足预设条件的情况下，结合上述目标候选图像与目标模板，以生成上述目标视频，其中，上述目标模板用于根据图像获取视频。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频获取方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的视频获取方法。

在本发明实施例中，获取候选图像集中的目标候选图像，其中，上述候选图像集包括多个候选图像，上述候选图像用于获取目标视频；在上述目标候选图像中选取N个候选子图像，其中，上述N个候选子图像的图像尺寸同为目标尺寸；将上述N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，上述特征提取神经网络用于提取图像尺寸为上述目标尺寸的图像的图像特征；根据上述N个图像特征确定与上述目标候选图像匹配的目标评估指数，其中，上述目标评估指数用于指示上述目标候选图像的美感评分；在上述目标评估指数满足预设条件的情况下，结合上述目标候选图像与目标模板，以生成上述目标视频，其中，上述目标模板用于根据图像获取视频，通过对不满足视频制作尺寸要求的候选图像作分割处理，以得到多个满足神经网络模型输入尺寸要求的候选子图像，并根据与候选子图像匹配的评估指标，确定当前候选图像为用于制作视频的候选图像，进而达到了无需考虑输入神经网络的图像是否满足尺寸要求，即可完成图像的特征提取的目的，从而实现了提高根据神经网络输出的图像制作视频的容错率的效果。进而解决了根据神经网络输出的图像制作视频的容错率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频获取方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的视频获取方法的流程图的示意图；

图3是根据本发明实施例的一种可选的视频获取方法的示意图；

图4是根据本发明实施例的另一种可选的视频获取方法的示意图；

图5是根据本发明实施例的另一种可选的视频获取方法的示意图；

图6是根据本发明实施例的另一种可选的视频获取方法的示意图；

图7是根据本发明实施例的另一种可选的视频获取方法的示意图；

图8是根据本发明实施例的另一种可选的视频获取方法的示意图；

图9是根据本发明实施例的一种可选的视频获取装置的示意图；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，AI)，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)，机械学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的图像识别、深度学习等技术，具体通过如下实施例进行说明：

根据本发明实施例的一个方面，提供了一种视频获取方法，可选地，作为一种可选的实施方式，上述视频获取方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102、网络110及服务器112，其中，该用户设备102上可以但不限于包括显示器108、处理器106及存储器104，显示器108可以但不限于显示候选图像集1022，其中，显示候选图像集1022中可以但不限于包括目标候选图像1024在内的多个候选图像。

具体过程可如下步骤：

步骤S102，用户设备102在候选图像集1022中获取目标候选图像1024；

步骤S104-S106，用户设备102通过网络110将目标候选图像1024发送给服务器112；

步骤S108-S112，服务器112在目标候选图像1024中选取N个候选子图；将N个候选子图像输入特征提取神经网络，以获得N个图像特征；根据N个图像特征确定与目标候选图像匹配的目标评估指数；在目标评估指数满足预设条件的情况下，将目标候选图像输入目标模板，以生成目标视频；

步骤S110-S112，服务器112通过网络110将处理好的目标视频发送给用户设备102，用户设备102中的处理器106将目标视频(图中未示出)显示在显示器108中，并将目标视频存储在存储器104中。

可选地，作为一种可选的实施方式，如图2所示，视频获取方法包括：

S202，获取候选图像集中的目标候选图像，其中，候选图像集包括多个候选图像，候选图像用于获取目标视频；

S204，在目标候选图像中选取N个候选子图像，其中，N个候选子图像的图像尺寸同为目标尺寸；

S206，将N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，特征提取神经网络用于提取图像尺寸为目标尺寸的图像的图像特征；

S208，根据N个图像特征确定与目标候选图像匹配的目标评估指数，其中，目标评估指数用于指示目标候选图像的美感评分；

S210，在目标评估指数满足预设条件的情况下，结合目标候选图像与目标模板，以得到目标视频，其中，目标模板用于根据图像获取视频。

可选的，视频获取方法可以但不限于应用在根据优选图像制作广告商品视频的场景中，具体的，可以但不限于应用在在包含多张候选图像的候选图像集中，选出美感最佳的优选图像，以制作广告商品视频。特征提取神经网络可以但不限用于组成深度模型，特征提取神经网络可以但不限于包括用于图像分类的预训练模型，预训练模型可以但不限于为VGG16/9、Resent、Inception-V2等模型，通过预训练模型可以但不限于获得通用性较强的底层数据。输入特征提取神经网络的图像尺寸可以但不限于要求为目标尺寸。预设条件可以但不限包括以下至少之一：目标评估指数大于等于预设阈值、目标候选图像的目标评估指数在候选图像集中所有候选图像的评估指数大小排名第一。结合目标候选图像与目标模板可以但不限于依据预设的视频合成策略，将目标候选图像与目标模板合成为目标视频。

需要说明的是，获取候选图像集中的目标候选图像，其中，候选图像集包括多个候选图像，候选图像用于获取目标视频；在目标候选图像中选取N个候选子图像，其中，N个候选子图像的图像尺寸同为目标尺寸；将N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，特征提取神经网络用于提取图像尺寸为目标尺寸的图像的图像特征；根据N个图像特征确定与目标候选图像匹配的目标评估指数，其中，目标评估指数用于指示目标候选图像的美感评分；在目标评估指数满足预设条件的情况下，将结合目标候选图像与目标模板，以生成目标视频，其中，目标模板用于根据图像获取视频。

进一步举例说明，可选的例如图3所示，包括候选图像集302、目标候选图像304、目标评估指数306、目标模板308、视频合成策略310、目标视频312以及视频商品广告库314；

进一步，可选的在候选图像集302中依次选取候选图像，例如选取目标候选图像304；依次获取选取的候选图像的评估指数，例如获取目标候选图像304的目标评估指数306；比对获取的候选图像集302中全部候选图像的评估指数大小，例如在目标评估指数306最大的情况下，确定与目标评估指数306对应的目标候选图像304为优选图像，其中，优选图像用于表示其为制作目标视频312的目标图像；依据视频合成策略310，将作为优选图像的目标候选图像304与目标模板308相结合，以生成目标视频312；将目标视频312存储至视频商品广告库314，以供后续使用。

通过本申请提供的实施例，获取候选图像集中的目标候选图像，其中，候选图像集包括多个候选图像，候选图像用于获取目标视频；在目标候选图像中选取N个候选子图像，其中，N个候选子图像的图像尺寸同为目标尺寸；将N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，特征提取神经网络用于提取图像尺寸为目标尺寸的图像的图像特征；根据N个图像特征确定与目标候选图像匹配的目标评估指数，其中，目标评估指数用于指示目标候选图像的美感评分；在目标评估指数满足预设条件的情况下，将结合目标候选图像与目标模板，以生成目标视频，其中，目标模板用于根据图像获取视频，通过对不满足视频制作尺寸要求的候选图像作分割处理，以得到多个满足神经网络模型输入尺寸要求的候选子图像，并根据与候选子图像匹配的评估指标，确定当前候选图像为用于制作视频的候选图像，进而达到了无需考虑输入神经网络的图像是否满足尺寸要求，即可完成图像的特征提取的目的，从而实现了提高根据神经网络输出的图像制作视频的容错率的效果。

作为一种可选的方案，在目标候选图像中选取N个候选子图像，包括：

按照预设步长，在目标候选图像中选取目标尺寸的图像区域，其中，预设步长用于指示图像区域在目标候选图像中的间隔距离。

需要说明的是，按照预设步长，在目标候选图像中选取目标尺寸的图像区域，其中，预设步长用于指示图像区域在目标候选图像中的间隔距离。可选的，目标尺寸可以但不限于为区域面积，具体的，目标尺寸可以但不限于以半径乘以半径的方式表示。图像区域可以但不限于为正方形区域。

进一步举例说明，可选的例如图4所示，包括目标候选图像402，以及在目标候选图像402中，间隔为预设步长404的、区域面积同为目标尺寸410的第一图像区域406和第二图像区域408；

进一步，可选的根据目标候选图像402的区域面积以及目标尺寸410确定预设步长404，确定规则为根据预设步长404选取的图像区域，可概括目标候选图像402的全部图像区域，其中，选取的图像区域可以但不限于部分重复，但不全部重复，例如第一图像区域406与第二图像区域408存在部分重复图像元素“矩形图像”。

通过本申请提供的实施例，按照预设步长，在目标候选图像中选取目标尺寸的图像区域，其中，预设步长用于指示图像区域在目标候选图像中的间隔距离，通过根据目标候选图像的区域面积以及目标尺寸，以穷尽目标候选图像的图像元素为原则，选取多个满足目标尺寸的图像区域，达到了即满足目标尺寸的选取，又穷尽了目标候选图像的图像元素的目的，实现了提高图像选取的全面性的效果。

作为一种可选的方案，将N个候选子图像输入特征提取神经网络，以获得N个图像特征，包括：

S1，将N个候选子图像中的第一候选子图像输入第一神经子网络，以获得第一图像特征；

S2，将N个候选子图像中的第二候选子图像输入第二神经子网络，以获得第二图像特征，其中，特征提取神经网络包括第一神经子网络以及第二神经子网络。

需要说明的是，将N个候选子图像中的第一候选子图像输入第一神经子网络，以获得第一图像特征；将N个候选子图像中的第二候选子图像输入第二神经子网络，以获得第二图像特征，其中，特征提取神经网络包括第一神经子网络以及第二神经子网络。可选的，特征提取神经网络可以但不限于包括多路神经子网络，用于分别和/或同时提取输入图像的特征。

进一步举例说明，可选的例如图5所示，包括特征提取神经网络502，以及在特征提取神经网络502内的多路神经子网络，例如第一神经子网络504与第二神经子网络506；

进一步，将与第一图像区域406相对应的的第一图像508，以及与第二图像区域408相对应的第二图像510分别输入特征提取神经网络502，具体的，例如将第一图像508输入第一神经子网络504，将第二图像510输入第二神经子网络506，进而分别获取第一神经子网络504输出的第一图像特征512，以及第二神经子网络506输出的第二图像特征514。

通过本申请提供的实施例，将N个候选子图像中的第一候选子图像输入第一神经子网络，以获得第一图像特征；将N个候选子图像中的第二候选子图像输入第二神经子网络，以获得第二图像特征，其中，特征提取神经网络包括第一神经子网络以及第二神经子网络，达到了快速获取图像特征的目的，实现了图像特征的获取效率的效果。

作为一种可选的方案，根据N个图像特征确定与目标候选图像匹配的目标评估指数，包括：

S1，对N个图像特征进行统计聚合，以得到目标图像特征，其中，目标图像特征用于指示目标候选图像的图像信息；

S2，将目标图像特征输入目标全连接层，以得到与目标候选图像匹配的目标评估指数，其中，目标全连接层中携带有通过多次训练得到的图像评估参数。

需要说明的是，对N个图像特征进行统计聚合，以得到目标图像特征，其中，目标图像特征用于指示目标候选图像的图像信息；将目标图像特征输入目标全连接层，以得到与目标候选图像匹配的目标评估指数，其中，目标全连接层中携带有通过多次训练得到的图像评估参数。可选的，目标评估指数可以但不限于为美感分数在图像上的分布数据。

进一步举例说明，可选的例如图6所示，包括目标神经网络602，以及目标神经网络602中包括特征提取神经网络502(输入层)、中间层604和输出层606，其中，中间层604用于将特征提取神经网络502输出的第一图像特征512、第二图像特征514进行统计聚合处理，以得到目标图像特征606；输出层606用于将中间层604输出的目标图像特征606处理为目标评估指数608，其中，输出层606与中间层604以全连接方式连接。可选的，全连接方式可以但不限于为将两层所有节点相连，用来把上一层提取到的特征综合起来。

进一步，可选的目标神经网络602可以但不限于通过整体性训练获得，例如输入样本数据，以训练整个目标神经网络602；目标神经网络602可以但不限于通过分布式训练获得，例如输入第一样本数据，以训练特征提取神经网络502，输入第二样本数据，以训练中间层604，输入第三样本数据，以训练输出层606；

可选的，具体步骤如下：特征提取神经网络502输出第一图像特征512以及第二图像特征514；中间层604利用多种聚合函数，例如图6所示的Avg(平均值)、Min(最小值)、Mid(提取字符)、Max(最大值)，将输入中间层的第一图像特征512以及第二图像特征514统计聚合，以得到多路输出图像特征，以及将上述得到的多路输出图像特征连接，以得到目标图像特征606；中间层604与输出层606之间的连接方式采取的为全连接方式，或者说，将目标图像特征606作为输出层606的全连接层的输入，通过全连接层中预设的权重等信息，对目标图像特征606执行加权求和以得到每个特征类别的分数，再经过Softmax映射为目标评估指数608。此外，全连接层中还可预设不同类别的模板信息，进而对目标图像特征606执行与模板的匹配操作，以得到每个特征类别的相似程度，再经过Softmax映射为目标评估指数608。

通过本申请提供的实施例，对N个图像特征进行统计聚合，以得到目标图像特征，其中，目标图像特征用于指示目标候选图像的图像信息；将目标图像特征输入目标全连接层，以得到与目标候选图像匹配的目标评估指数，其中，目标全连接层中携带有通过多次训练得到的图像评估参数，达到了快速获取图像的评述指数的目的，实现了提高图像评估的效率的效果。

作为一种可选的方案，在获取候选图像集中的目标候选图像之前，包括：

S1，获取多个样本图像；

S2，依次将每个样本图像作为当前样本图像执行以下操作，直至达到第一收敛条件：

S3，将当前样本图像输入当前特征提取神经网络，以得到样本图像特征；

S4，在样本图像特征达到第一收敛条件的情况下，确定当前特征提取神经网络为目标特征提取神经网络，其中，目标特征提取神经网络用于提取当前图像尺寸为目标尺寸的图像的图像特征。

需要说明的是，获取多个样本图像；依次将每个样本图像作为当前样本图像执行以下操作，直至达到第一收敛条件：将当前样本图像输入当前特征提取神经网络，以得到样本图像特征；在样本图像特征达到第一收敛条件的情况下，确定当前特征提取神经网络为目标特征提取神经网络，其中，目标特征提取神经网络用于提取当前图像尺寸为目标尺寸的图像的图像特征。

进一步举例说明，可选的例如利用图像美感评估数据集对特征提取神经网络的模型参数进行微调，使特征提取神经网络应用于图像美感评估，。

通过本申请提供的实施例，获取多个样本图像；依次将每个样本图像作为当前样本图像执行以下操作，直至达到第一收敛条件：将当前样本图像输入当前特征提取神经网络，以得到样本图像特征；在样本图像特征达到第一收敛条件的情况下，确定当前特征提取神经网络为目标特征提取神经网络，其中，目标特征提取神经网络用于提取当前图像尺寸为目标尺寸的图像的图像特征，通过训练作为预训练模型的特征提取神经网络，达到了获取更加契合图像美感评估的预训练模型的目的，实现了提高提取的图像特征可应用于图像美感评估场景的效果。

S1，获取多个标注样本图像，其中，标注样本图像标注有样本评估指数，样本评估指数用于指示标注样本图像的美感评分；

S2，在标注样本图像中选取K个目标尺寸的标注样本子图像；

S3，根据目标特征提取神经网络对当前标注样本子图像进行特征提取，以得到标注样本图像特征；

S4，依次将每个标注样本图像特征作为当前标注样本图像特征执行以下操作，直至达到第二收敛条件：

S5，将标注样本图像特征输入当前图像识别神经网络以得到样本评估指数；

S6，在样本评估指数达到第二收敛条件的情况下，确定当前图像识别神经网络为目标识别神经网络，其中，目标识别神经网络用于识别当前图像的评估指数，以指示当前图像的美感评分。

需要说明的是，获取多个标注样本图像，其中，标注样本图像标注有样本评估指数，样本评估指数用于指示标注样本图像的美感评分；在标注样本图像中选取K个目标尺寸的标注样本子图像；根据目标特征提取神经网络对当前标注样本子图像进行特征提取，以得到标注样本图像特征；依次将每个标注样本图像特征作为当前标注样本图像特征执行以下操作，直至达到第二收敛条件：将标注样本图像特征输入当前图像识别神经网络以得到样本评估指数；在样本评估指数达到第二收敛条件的情况下，确定当前图像识别神经网络为目标识别神经网络，其中，目标识别神经网络用于识别当前图像的评估指数，以指示当前图像的美感评分。

进一步举例说明，可选的例如图7所示，包括用于训练图像识别神经网络(图中未示出)的标注样本图像702，因针对任何图像，不同人的看法都不可能完全一样，进而导致在样本图像的标注过程中，每个分数投票的人数有差异，进而可选的先获得标注样本图像702的评分票型704，再根据评分票型704计算出各个分数的票数占比，以得到评分分布706，并将评分分布706作为样本评估指数标注至标注样本图像702。

通过本申请提供的实施例，获取多个标注样本图像，其中，标注样本图像标注有样本评估指数，样本评估指数用于指示标注样本图像的美感评分；在标注样本图像中选取K个目标尺寸的标注样本子图像；根据目标特征提取神经网络对当前标注样本子图像进行特征提取，以得到标注样本图像特征；依次将每个标注样本图像特征作为当前标注样本图像特征执行以下操作，直至达到第二收敛条件：将标注样本图像特征输入当前图像识别神经网络以得到样本评估指数；在样本评估指数达到第二收敛条件的情况下，确定当前图像识别神经网络为目标识别神经网络，其中，目标识别神经网络用于识别当前图像的评估指数，以指示当前图像的美感评分，达到了训练获得对图像评价更丰富信息的图像识别神经网络的目的，实现了提高训练获得的图像识别神经网络的输出准确性的效果。

作为一种可选的方案，在根据N个图像特征确定与目标候选图像匹配的目标评估指数之后，包括以下至少之一：

S1，对目标评估指数中的第一评估指数与第二评估指数作均值计算处理，以得到第一目标评估指数；

S2，对第一评估指数与第二评估指数作方差计算处理，以得到第二目标评估指数。

需要说明的是，对目标评估指数中的第一评估指数与第二评估指数作均值计算处理，以得到第一目标评估指数；对第一评估指数与第二评估指数作方差计算处理，以得到第二目标评估指数。可选的，目标评估指数满足预设条件可以但不限于包括第一目标评估指数和/或第二目标评估指数满足预设条件。

进一步举例说明，可选的例如图8所示，输出层输出的目标评估指数608包括第一评估指数802与第二评估指数804；

进一步，对第一评估指数802与第二评估指数804作均值计算处理，以得到第一目标评估指数(图中未示出)，其中，第一目标评估指数(图中未示出)等于第一评估指数802与第二评估指数804相加的均值；

或，对第一评估指数802与第二评估指数804作方差计算处理，以得到第二目标评估指数(图中未示出)，其中，第二目标评估指数(图中未示出)等于第一评估指数802与第二评估指数804的方差值。

通过本申请提供的实施例，对目标评估指数中的第一评估指数与第二评估指数作均值计算处理，以得到第一目标评估指数；对第一评估指数与第二评估指数作方差计算处理，以得到第二目标评估指数，通过进一步的计算，达到了获取协同评价指标的目的，实现了提高图像评估的准确性的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频获取方法的视频获取装置。如图9所示，该装置包括：

第一获取单元902，用于获取候选图像集中的目标候选图像，其中，候选图像集包括多个候选图像，候选图像用于获取目标视频；

第一选取单元904，用于在目标候选图像中选取N个候选子图像，其中，N个候选子图像的图像尺寸同为目标尺寸；

第一输入单元906，用于将N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，特征提取神经网络用于提取图像尺寸为目标尺寸的图像的图像特征；

第一确定单元908，用于根据N个图像特征确定与目标候选图像匹配的目标评估指数，其中，目标评估指数用于指示目标候选图像的美感评分；

第二输入单元910，用于在目标评估指数满足预设条件的情况下，结合目标候选图像与目标模板，以得到目标视频，其中，目标模板用于根据图像获取视频。

可选的，视频获取装置可以但不限于应用在根据优选图像制作广告商品视频的场景中，具体的，可以但不限于应用在在包含多张候选图像的候选图像集中，选出美感最佳的优选图像，以制作广告商品视频。特征提取神经网络可以但不限用于组成深度模型，特征提取神经网络可以但不限于包括用于图像分类的预训练模型，预训练模型可以但不限于为VGG16/9、Resent、Inception-V2等模型，通过预训练模型可以但不限于获得通用性较强的底层数据。输入特征提取神经网络的图像尺寸可以但不限于要求为目标尺寸。预设条件可以但不限包括以下至少之一：目标评估指数大于等于预设阈值、目标候选图像的目标评估指数在候选图像集中所有候选图像的评估指数大小排名第一。结合目标候选图像与目标模板可以但不限于依据预设的视频合成策略，将目标候选图像与目标模板合成为目标视频。

具体实施例可以参考上述视频获取方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，第一选取单元904，包括：

选取模块，用于按照预设步长，在目标候选图像中选取目标尺寸的图像区域，其中，预设步长用于指示图像区域在目标候选图像中的间隔距离。

作为一种可选的方案，第一输入单元906，包括：

第一输入模块，用于将N个候选子图像中的第一候选子图像输入第一神经子网络，以获得第一图像特征；

第二输入模块，用于将N个候选子图像中的第二候选子图像输入第二神经子网络，以获得第二图像特征，其中，特征提取神经网络包括第一神经子网络以及第二神经子网络。

作为一种可选的方案，第一确定单元908，包括：

处理模块，用于对N个图像特征进行统计聚合，以得到目标图像特征，其中，目标图像特征用于指示目标候选图像的图像信息；

第三输入模块，用于将目标图像特征输入目标全连接层，以得到与目标候选图像匹配的目标评估指数，其中，目标全连接层中携带有通过多次训练得到的图像评估参数。

作为一种可选的方案，包括：

第二获取单元，用于在获取候选图像集中的目标候选图像之前，获取多个样本图像；

第一执行单元，用于在获取候选图像集中的目标候选图像之前，依次将每个样本图像作为当前样本图像执行以下操作，直至达到第一收敛条件：

第三输入单元，用于在获取候选图像集中的目标候选图像之前，将当前样本图像输入当前特征提取神经网络，以得到样本图像特征；

第二确定单元，用于在获取候选图像集中的目标候选图像之前，在样本图像特征达到第一收敛条件的情况下，确定当前特征提取神经网络为目标特征提取神经网络，其中，目标特征提取神经网络用于提取当前图像尺寸为目标尺寸的图像的图像特征。

作为一种可选的方案，包括：

第三获取单元，用于在获取候选图像集中的目标候选图像之前，获取多个标注样本图像，其中，标注样本图像标注有样本评估指数，样本评估指数用于指示标注样本图像的美感评分；

第二选取单元，用于在获取候选图像集中的目标候选图像之前，在标注样本图像中选取K个目标尺寸的标注样本子图像；

提取单元，用于在获取候选图像集中的目标候选图像之前，根据目标特征提取神经网络对当前标注样本子图像进行特征提取，以得到标注样本图像特征；

第二执行单元，用于在获取候选图像集中的目标候选图像之前，依次将每个标注样本图像特征作为当前标注样本图像特征执行以下操作，直至达到第二收敛条件：

第四输入单元，用于在获取候选图像集中的目标候选图像之前，将标注样本图像特征输入当前图像识别神经网络以得到样本评估指数；

第三确定单元，用于在获取候选图像集中的目标候选图像之前，在样本评估指数达到第二收敛条件的情况下，确定当前图像识别神经网络为目标识别神经网络，其中，目标识别神经网络用于识别当前图像的评估指数，以指示当前图像的美感评分。

作为一种可选的方案，包括以下至少之一：

第一处理单元，用于在根据N个图像特征确定与目标候选图像匹配的目标评估指数之后，对目标评估指数中的第一评估指数与第二评估指数作均值计算处理，以得到第一目标评估指数；

第二处理单元，用于在根据N个图像特征确定与目标候选图像匹配的目标评估指数之后，对第一评估指数与第二评估指数作方差计算处理，以得到第二目标评估指数。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频获取方法的电子装置，如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取候选图像集中的目标候选图像，其中，候选图像集包括多个候选图像，候选图像用于获取目标视频；

S2，在目标候选图像中选取N个候选子图像，其中，N个候选子图像的图像尺寸同为目标尺寸；

S3，将N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，特征提取神经网络用于提取图像尺寸为目标尺寸的图像的图像特征；

S4，根据N个图像特征确定与目标候选图像匹配的目标评估指数，其中，目标评估指数用于指示目标候选图像的美感评分；

S5，在目标评估指数满足预设条件的情况下，结合目标候选图像与目标模板，以得到目标视频，其中，目标模板用于根据图像获取视频。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的视频获取方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频获取方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储目标候选图像、候选子图像、图像特征、目标评估指数以及目标视频等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述视频获取装置中的第一获取单元902、第一选取单元904、第一输入单元906、第一确定单元908及第二输入单元910。此外，还可以包括但不限于上述视频获取装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示上述目标候选图像、候选子图像、图像特征、目标评估指数以及目标视频等信息；和连接总线1010，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频获取方法，其特征在于，包括：

获取候选图像集中的目标候选图像，其中，所述候选图像集包括多个候选图像，所述候选图像用于获取目标视频；

在所述目标候选图像中选取N个候选子图像，其中，所述N个候选子图像的图像尺寸同为目标尺寸；

将所述N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，所述特征提取神经网络用于提取图像尺寸为所述目标尺寸的图像的图像特征；

根据所述N个图像特征确定与所述目标候选图像匹配的目标评估指数，其中，所述目标评估指数用于指示所述目标候选图像的美感评分；在所述目标评估指数满足预设条件的情况下，结合所述目标候选图像与目标模板，以生成所述目标视频，其中，所述目标模板用于根据图像获取视频。

2.根据权利要求1所述的方法，其特征在于，所述在所述目标候选图像中选取N个候选子图像，包括：

按照预设步长，在所述目标候选图像中选取所述目标尺寸的图像区域，其中，所述预设步长用于指示所述图像区域在所述目标候选图像中的间隔距离。

3.根据权利要求1所述的方法，其特征在于，所述将所述N个候选子图像输入特征提取神经网络，以获得N个图像特征，包括：

将所述N个候选子图像中的第一候选子图像输入第一神经子网络，以获得第一图像特征；

将所述N个候选子图像中的第二候选子图像输入第二神经子网络，以获得第二图像特征，其中，所述特征提取神经网络包括所述第一神经子网络以及所述第二神经子网络。

4.根据权利要求1所述的方法，其特征在于，所述根据所述N个图像特征确定与所述目标候选图像匹配的目标评估指数，包括：

对所述N个图像特征进行统计聚合，以得到目标图像特征，其中，所述目标图像特征用于指示所述目标候选图像的图像信息；

将所述目标图像特征输入目标全连接层，以得到与所述目标候选图像匹配的所述目标评估指数，其中，所述目标全连接层中携带有通过多次训练得到的图像评估参数。

5.根据权利要求1所述的方法，其特征在于，在所述获取候选图像集中的目标候选图像之前，包括：

获取多个样本图像；

依次将每个所述样本图像作为当前样本图像执行以下操作，直至达到第一收敛条件：

将所述当前样本图像输入当前特征提取神经网络，以得到样本图像特征；

在所述样本图像特征达到所述第一收敛条件的情况下，确定所述当前特征提取神经网络为目标特征提取神经网络，其中，所述目标特征提取神经网络用于提取当前图像尺寸为所述目标尺寸的图像的图像特征。

6.根据权利要求5所述的方法，其特征在于，在所述获取候选图像集中的目标候选图像之前，包括：

获取多个标注样本图像，其中，所述标注样本图像标注有样本评估指数，所述样本评估指数用于指示所述标注样本图像的所述美感评分；在所述标注样本图像中选取K个所述目标尺寸的标注样本子图像；

根据所述目标特征提取神经网络对所述当前标注样本子图像进行特征提取，以得到标注样本图像特征；

依次将每个所述标注样本图像特征作为当前标注样本图像特征执行以下操作，直至达到第二收敛条件：

将所述标注样本图像特征输入当前图像识别神经网络以得到样本评估指数；

在所述样本评估指数达到所述第二收敛条件的情况下，确定所述当前图像识别神经网络为目标识别神经网络，其中，所述目标识别神经网络用于识别当前图像的评估指数，以指示所述当前图像的所述美感评分。

7.根据权利要求1所述的方法，其特征在于，在所述根据所述N个图像特征确定与所述目标候选图像匹配的目标评估指数之后，包括以下至少之一：

对所述目标评估指数中的第一评估指数与第二评估指数作均值计算处理，以得到第一目标评估指数；

对所述第一评估指数与所述第二评估指数作方差计算处理，以得到第二目标评估指数。

8.一种视频获取装置，其特征在于，包括：

第一获取单元，用于获取候选图像集中的目标候选图像，其中，所述候选图像集包括多个候选图像，所述候选图像用于获取目标视频；

第一选取单元，用于在所述目标候选图像中选取N个候选子图像，其中，所述N个候选子图像的图像尺寸同为目标尺寸；

第一输入单元，用于将所述N个候选子图像输入特征提取神经网络，以获得N个图像特征，其中，所述特征提取神经网络用于提取图像尺寸为所述目标尺寸的图像的图像特征；

第一确定单元，用于根据所述N个图像特征确定与所述目标候选图像匹配的目标评估指数，其中，所述目标评估指数用于指示所述目标候选图像的美感评分；

第二输入单元，用于在所述目标评估指数满足预设条件的情况下，结合所述目标候选图像与目标模板，以生成所述目标视频，其中，所述目标模板用于根据图像获取视频。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。