CN113365132B

CN113365132B - 图像的处理方法、装置、电子设备及存储介质

Info

Publication number: CN113365132B
Application number: CN202110606898.7A
Authority: CN
Inventors: 王佳美
Original assignee: Netease Youdao Information Technology Jiangsu Co ltd
Current assignee: Netease Youdao Information Technology Jiangsu Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-04-08
Anticipated expiration: 2041-05-27
Also published as: CN113365132A

Abstract

本公开提供一种图像的处理方法、装置、电子设备及存储介质。该方法包括：在显示区域内生成并显示线型对象；线型对象上的不同位置分别对应相应的音调特征；对显示区域内的显示图像进行图像识别，以确定显示图像中的至少一个目标对象；对于每个目标对象，确定其对应的固有属性特征；监测目标对象和线型对象在显示区域内的位置变化；响应于目标对象与线型对象的位置发生重合，确定目标对象的空间关系特征，以及确定目标对象在线型对象上的目标位置；根据目标位置，确定目标对象的音调特征；根据固有属性特征、空间关系特征和音调特征，得到目标对象对应的音频数据，并输出音频数据。

Description

图像的处理方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像的处理方法、装置、电子设备及存储介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着终端设备技术的快速发展和普及，用户通过终端设备来播放包括图像(图片、视频)和音频在内的多媒体数据已经成为日常生活中的常见场景。然而，在图像播放过程中，图像与音频往往仅仅是简单叠加的，这造成图像播放的形式单一，播放的效果不佳。

发明内容

针对上述技术问题，非常需要一种改进的方法，能够有效地提升图像播放的效果。

本公开示例性实施例提供了一种图像的处理方法，包括：

在显示区域内生成并显示线型对象；所述线型对象上的不同位置分别对应相应的音调特征；

对显示区域内的显示图像进行图像识别，以确定所述显示图像中的至少一个目标对象；对于每个所述目标对象，确定其对应的固有属性特征；

监测所述目标对象和所述线型对象在显示区域内的位置变化；

响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，以及确定所述目标对象在所述线型对象上的目标位置；

根据所述目标位置，确定所述目标对象的所述音调特征；

根据所述固有属性特征、所述空间关系特征和所述音调特征，得到所述目标对象对应的音频数据，并输出所述音频数据。

在一些示例性实施例中，所述在显示区域内生成并显示线型对象，具体包括：

获取用户在显示区域内输入的轨迹信息；

根据所述轨迹信息，在显示区域内生成并显示所述线型对象。

在一些示例性实施例中，所述在显示区域内生成并显示线型对象，之后还包括：

获取用户输入的作用于所述线型对象的调整指令；

根据所述调整指令，调整所述线型对象在显示区域内的位置、形状、长度、所述线型对象上不同位置与所述音调特征间的对应关系中的至少一项。

根据显示图像中的全部所述目标对象，在显示图像中确定出目标区域；

根据所述目标区域在所述线型对象间的相对位置，确定所述线型对象上的目标段；

调整所述目标段内不同位置与所述音调特征间的对应关系。

在一些示例性实施例中，所述响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，具体包括：

基于根据显示区域预先确定的坐标系，确定对应于所述目标对象的第一位置信息和对应于所述线型对象的第二位置信息；

响应于确定所述第一位置信息和第二位置信息中的目标坐标值相同，判定所述目标对象与所述线型对象的位置发生重合；

根据显示区域当前包括全部所述目标对象分别对应的所述第一位置信息，确定与所述线型对象的位置发生重合的所述目标对象的所述空间关系特征。

在一些示例性实施例中，所述确定所述目标对象在所述线型对象上的目标位置，具体包括：

对于与所述线型对象的位置发生重合的所述目标对象，确定对应于该目标对象的边缘的一对特征点；

确定所述一对特征点在所述线型对象上的一对正投影位置；

将所述一对正投影位置构成的区间内包括的所有位置确定为所述目标位置。

在一些示例性实施例中，所述根据所述固有属性特征、所述空间关系特征和所述音调特征，得到所述目标对象对应的音频数据，并输出所述音频数据，具体包括：

将所述固有属性特征、所述空间关系特征和所述音调特征进行编码，得到所述目标对象对应的输入特征；

将所述输入特征输入预先训练的生成模型；

获取所述生成模型输出的所述音频数据，并输出所述音频数据。

基于同一发明构思，本公开示例性实施例还提供了一种图像的处理装置，包括：

生成模块，被配置为在显示区域内生成并显示线型对象；所述线型对象上的不同位置分别对应相应的音调特征；

识别模块，被配置为对显示区域内的显示图像进行图像识别，以确定所述显示图像中的至少一个目标对象；对于每个所述目标对象，确定其对应的固有属性特征；

监测模块，被配置为监测所述目标对象和所述线型对象在显示区域内的位置变化；

第一确定模块，被配置为响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，以及确定所述目标对象在所述线型对象上的目标位置；

第二确定模块，被配置为根据所述目标位置，确定所述目标对象的所述音调特征；

输出模块，被配置为根据所述固有属性特征、所述空间关系特征和所述音调特征，得到所述目标对象对应的音频数据，并输出所述音频数据。

基于同一发明构思，本公开示例性实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的方法。

基于同一发明构思，本公开示例性实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上任一所述方法。

从上面所述可以看出，本公开实施例提供的图像的处理方法、装置、电子设备及存储介质，通过自身的固有属性、不同目标对象之间的相互位置关系以及目标对象与音调对应关系，三个维度生成显示图像中的目标对象的画像，并基于该画像通过机器学习模型的手段来学习并生成目标对象所对应的音频数据，并在播放图像的过程相应的输出该得到的音频数据，以使输出的音频与图像出的目标对象具有关联关系，显著的提升了图像的播放效果。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开示例性实施例的应用场景示意图；

图2为本公开示例性实施例的图像的处理方法流程示意图；

图3为本公开示例性实施例中的线型对象示意图；

图4为本公开示例性实施例中的线型对象生成方式示意图；

图5为本公开示例性实施例中目标对象与线型对象发生位置重合的示意图；

图6为本公开示例性实施例中目标对象对应多个音频特征的示意图；

图7为本公开示例性实施例中生成模型的工作流程示意图；

图8为本公开示例性实施例中确定目标段的示意图；

图9为本公开示例性实施例的图像的处理装置结构示意图；

图10为本公开示例性实施例的电子设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

根据本公开的实施方式，提出了一种图像的处理方法、装置、电子设备及存储介质。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

发明概述

现有技术中，对于图像的播放过程，图像与音频往往仅仅是简单叠加的，这造成图像播放的形式单一，播放的效果不佳。

本公开的发明人发现，造成上述现有技术中播放效果不佳的原因是：虽然音频与图像一同输出，但二者仍是独立的，输出的音频并未与图像中的内容建立有联系。例如，在用户通过终端设备拍摄了一段视频，并希望将该拍摄的视频分享到社交平台供他人欣赏。现有技术中的处理过程为：用户拍摄视频并保存，然后主动选择或由系统自动匹配一段完整的音频，再将该完整的音频与拍摄的视频组合为完整视频文件上传社交平台。不难发现，在上述过程中，视频与音频均本是各自独立的，二者仅仅是简单的叠加，这就造成了最终得到的视频文件在被播放时，音频仅仅作为播放的图像的背景音乐，音频并未与图像中的内容产生关联，这也就造成了现有技术中播放效果不佳的问题。

为了解决上述问题，本申请提供了一种图像的处理方案，具体包括：在终端设备显示图像的显示区域内，通过图形识别技术确定出当前显示图像内包括的目标对象，并确定目标对象自身所具有的特性的的固有属性特征；在显示区域内生成并显示包含了音调与线上位置对应关系的线型对象；在图像的过程过程中，实时的检测目标对象和线型对象的位置变化，当二者发生位置的重合时，相应的确定与线型对象发生位置重合的目标对象与显示图像中其他目标对象之间的空间关系特征；以及，根据二者发生位置的重合的位置，确定标对象在线型对象上的目标位置，并基于线型对象包含的位置与音调的对应关系，确定音调特征；基于目标对象的固有属性特征、空间关系特征和音调特征，通过预先训练的机器学习模型，来生成具有上述三类特征的目标对象所对应的音频并输出。本公开实施例的方案，通过自身的固有属性、不同目标对象之间的相互位置关系以及目标对象与音调对应关系，三个维度生成显示图像中的目标对象的画像，并基于该画像通过机器学习模型的手段来学习并生成目标对象所对应的音频，并在播放图像的过程相应的输出该得到的音频，以使输出的音频与图像出的目标对象具有关联关系，显著的提升了图像的播放效果。

在介绍了本申请的基本原理之后，下面具体介绍本申请的各种非限制性实施方式。

应用场景总览

参考图1，其为本申请实施例提供的图像的处理方法的应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中，终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant，PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器102用于向终端设备101的用户提供图像的处理服务，终端设备101中安装有与服务器102通信的客户端，用户可通过该客户端播放实时拍摄或本地存储的图像类数据，如视频、图片等。在播放过程中，客户端在显示区域内生成并显示线型对象，并基于图像识别技术确定当前显示图像内的目标对象，并确定目标对象的固有属性特征；在检测到目标对象与线型对象的位置发生重合时，确定出目标对象对应的空间关系特征和音调特征；客户端将目标对象的固有属性特征、空间关系特征和音调特征送给服务器102。服务器102将固有属性特征、空间关系特征和音调特征输入预先训练的生成模型，获得目标对象对应的音频并发送给客户端，客户端在播放图像的同时播放该音频，以播放与显示图像中的目标对象相关联的音频，从而提升图像的播放效果。

数据存储系统103中存储有大量训练数据，每个训练数据包括一个目标对象的固有属性特征、空间关系特征和音调特征，以及该目标对象对应的音频。服务器102可基于大量训练数据对生成模型进行训练，使得生成模型能够根据输入的目标对象的固有属性特征、空间关系特征和音调特征，生成目标对象对应的音频。训练数据的来源包括但不限于已有的数据库、从互联网爬取的数据或者在用户使用客户端时上传的数据。当生成模型的输出的满足预定的要求时，服务器102可基于生成模型向用户提供图像的处理服务，同时，服务器102还可以基于新增的训练数据不断优化生成模型。

下面结合图1的应用场景，来描述根据本公开示例性实施方式的图像的处理方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

示例性方法

参考图2，本公开实施例提供了一种图像的处理方法，包括以下步骤：

步骤S201、在显示区域内生成并显示线型对象；所述线型对象上的不同位置分别对应相应的音调特征。

其中，显示区域是指在终端设备的显示屏对应的区域，该区域用于显示相应的显示内容。线型对象是指在显示区域内生成并显示的形状为直线型或大致为直线型的显示对象。该线型对象能够与显示区域内的其他显示对象互动、或者与用户输入的操作互动；线型对象可以通过任意的显示插件或显示控件实现，具体实现方式本公开实施例中不做具体限定。

具体实施时，线型对象可以基于预先确定的方式，采用默认方式在显示区域内生成。例如，参考图3，在显示区域的靠近底端的位置生成一直线型的线型对象，如图3中的L所示。

具体实施时，线型对象也可以是基于用户的输入生成的，即由用户在显示区域内主动的绘制并生成。该基于用户的输入生成线型对象的方法，可以包括以下步骤：获取用户在显示区域内输入的轨迹信息；根据所述轨迹信息，在显示区域内生成并显示所述线型对象。具体的，用户可以通过终端设备的触摸屏、鼠标等输入设备，在显示区域内输入一轨迹信息。参考图4，通过终端设备的的输入设备监测用户输入的轨迹，以得到轨迹信息，然后根据该轨迹信息长度、形状、在显示区域内的位置等属性，相应的生成并显示线型对象，如图4中的L所示。其中，轨迹信息长度可以根据用户输入的轨迹的起止点确定(如图4中所示的手状图示)。此外，由于用户输入的轨迹并非是标准的直线，当需要生成直线型的线型对象时，可以对轨迹信息进行采样得到特征点，并对得到特征点进行线性拟合处理，以最终得到直线型的线型对象。

本公开实施例中，线型对象包含了位置与音调的对应关系。其中，位置是指线型对象上的不同位置。也即，线型对象上的不同位置分别对应相应的音调特征。例如，对于C、D、E、F、G、A、B七个基本音调，可以根据线型对象的长度，相应的划分出七个区间，并使七个区间分别对应七个基本音调。在后续步骤中，当目标对象与线型对象位置发生重合时所确定出的目标对象在线型对象上的目标位置处于哪个区间，则该目标对象对应的音调特征即来自于该区间相对应的音调。

需要说明的是，上述示例性说明中，提及的音调的数量以及线型对象上不同位置的设置(区间分布)均仅为示例，在具体实施时，上述内容均可以与上述示例不同。例如，线型对象对应的音调数量可以更多或更少。又如，线型对象上的位置区间分布也可以不是等分的，也即不同音调对应位置跨度可以是不相同的。

步骤S202、对显示区域内的显示图像进行图像识别，以确定所述显示图像中的至少一个目标对象；对于每个所述目标对象，确定其对应的固有属性特征。

具体实施时，通过图像识别技术识别显示区域内的显示图像中所包括的目标对象。其中，目标对象是指显示图像中所包括的内容的关键组成部分。例如，对于内容为人像的显示图像，目标对象即可以为人物；对于内容为自然风景的显示图像，目标对象即可以为花草、动物、河流、云朵等；对于内容为街景的显示图像，目标对象即可以车辆、建筑、人物等。对于显示图像，需要识别其中何种目标对象，可以根据具体的实施需要而相应设定。而在进行图像识别时，可以选择任意的现有的图像识别算法；例如，可以通过大量训练数据训练得到图像识别模型，每个训练数据包括完整的图像和其应被识别出的目标对象，将当前显示区域内的显示图像输入该图像识别模型，即能够得到图像识别模型输出的目标对象。

具体实施时，对于每个识别出的目标对象，相应的确定出目标对象的固有属性，通过固有属性来表示和刻画该目标对象自身所具有的特点。例如，固有属性可以包括：纹理、颜色、形状等。其中，纹理是在图像识别过程中计算机所识别的、用于表达目标对象类型的特征，如石头与树叶便具有不同的纹理。类似的，颜色和形状也可以在图像识别过程中得到。通过图像识别，对于目标对象，可以识别出其纹理信息、颜色信息和形状信息。为了后续通过机器学习模型进行处理，将识别得到的纹理信息、颜色信息和形状信息进行编码处理，以得到以向量形式表达的固有属性特征；其中，例如可以将纹理信息、颜色信息和形状信息采用one-hot编码方式进行编码，以得到目标对象的固有属性特征。

步骤S203、监测所述目标对象和所述线型对象在显示区域内的位置变化。

具体实施时，在生成线型对象，以及识别出目标对象后，进一步的对目标对象和线型对象在显示区域内的位置变化进行实时的监测。其中，根据播放的图像的类型不同，目标对象和线型对象之间的相对位置变化形式也会相应不同。在播放视频时，由于显示图像中的目标对象往往是随着播放而移动的，故可以使线型对象保持其位置不动。在播放图片时，显示图像中的目标对象往往不会相对于显示区域发生移动，故可以使线型对象在显示区域内移动，例如使线型对象生成在显示区域的底部，并由显示区域的底部移动至显示区域的顶部。此外，根据具体的实施需要，在播放视频时，也可以将线型对象设置为移动的。

具体实施时，监测目标对象和线型对象的位置变化，可以基于目标对象和线型对象在显示区域内的坐标位置。在对于终端设备的显示屏，其一般会基于显示区域构建坐标系，并通过基于该坐标系的坐标位置来表达显示区域内的显示对象的位置。通过监测显示区域内的坐标位置变化，即可实现对目标对象和线型对象的位置变化的监测。

步骤S204、响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，以及确定所述目标对象在所述线型对象上的目标位置。

具体实施时，在监测目标对象和线型对象的位置变化的过程中，进一步监测是否有目标对象与线型对象的位置发生重合。以播放视频为例，参考图5，线型对象位于显示区域的底部且位置保持固定；播放的视频中包括有内容为花朵和叶子的目标对象，播放过程中，该些目标对象由显示区域的顶部向底部移动，在移动至底部时会与线型对象L相接触，即位置发生重合，如目标对象T。

具体实施时，判定目标对象与线型对象的位置发生重合，可以包括以下步骤：基于根据显示区域预先确定的坐标系，确定对应于目标对象的第一位置信息和对应于线型对象的第二位置信息；响应于确定第一位置信息和第二位置信息中的目标坐标值相同，判定目标对象与线型对象的位置发生重合。其中，分别确定目标对象的第一位置信息和线型对象的第二位置信息。例如，参考图5，由于显示区域为二维平面，所述的坐标系可以以显示区域的宽度方向为X轴，长度方向为Y轴；目标对象向显示区域的底部运动；目标对象T的第一位置信息可以表示为(x₁,y₁)，线型对象L的第二位置信息可以表示为(x₂,y₂)，其中，线型对象为直线型，其上各个位置的坐标值的Y轴坐标相同。对于目标对象，一般的目标对象会在显示图像内占据一定的面积范围，则目标对象的第一位置信息，可以取目标对象的一个特征点，例如几何中心、靠近任一侧最边缘的点等。

具体的，可以将上述坐标信息中的Y的坐标值作为目标坐标值，来根据该目标坐标值判定目标对象与线型对象的位置是否发生重合。对于第一位置信息(x₁,y₁)和第二位置信息(x₂,y₂)，当其目标坐标值相同，即y₁＝y₂时，则表明线型对象L与线型对象L的位置发生重合。需要说明的是，在其他运动方式下，如目标对象沿X轴向移动时，则可以选择X轴的坐标值来作为目标坐标值。

具体实施时，响应于确定目标对象与线型对象的位置发生重合后，确定目标对象的空间关系特征。该空间关系特征用于反映与线型对象的位置发生重合的目标对象，与当前显示图像中其他目标对象之间的相对位置关系，从而表达当前显示图像的整体空间布局特点。

具体的，确定目标对象的空间关系特征，可以包括以下步骤：根据显示区域当前包括全部目标对象分别对应的第一位置信息，确定与线型对象的位置发生重合的目标对象的空间关系特征。其中，对于与线型对象的位置发生重合的目标对象，以及当前显示图像中的其它所有目标对象，分别确定其第一坐标信息。基于位置发生重合的目标对象的第一坐标信息，和其他目标对象的第一坐标信息，可以在上述目标对象间构建多个向量，该些向量的起止位置以及长度，能够反映位置发生重合的目标对象其他目标对象之间的相对位置关系。进一步的，将上述得到的多个向量构建为矩阵并通过编码处理，即能够得到表示为向量的空间关系特征。例如，具体的编码方式可以采用one-hot编码方式。

具体实施时，响应于确定目标对象与线型对象的位置发生重合后，确定目标对象在线型对象上的目标位置。该目标位置即表达了目标对象与线型对象的位置发生重合时，该目标对象处于线型对象上的位置，该目标位置处于线型对象上，能够用于后续确定音调特征。例如，可以将目标对象与线型对象的位置，直接作为目标位置。此外，对于形状不规则或所占面积较大的目标对象，也可以使用前述确定出的特征点来确定目标位置；例如，以目标对象的特征点向线型对象做正投影，将该目标对象的特征点在线型对象上的正投影位置，作为目标位置。

作为可选的，确定所占面积较大的目标对象的目标位置时，也可以包括以下步骤：对于与所述线型对象的位置发生重合的所述目标对象，确定对应于该目标对象的边缘的一对特征点；确定所述一对特征点在所述线型上的一对正投影位置；将所述一对正投影位置构成的区间内包括的所有位置确定为所述目标位置。参考图6，对于与线型对象L发生位置重合的目标对象T，由于其形状不规则且所占面积较大，则可以以X轴方向的两侧最边缘的两个点作为该目标对象T的一对特征点，即特征点α和特征点β。将特征点α和特征点β，分别向线型对象L做正投影，以得到一对正投影位置，即正投影位置α’和正投影位置β’。该正投影位置α’和正投影位置β’在线型对象L相应的确定出一区间，将该区间内包括的所有位置确定为目标对象T在线型对象L上的目标位置。可见，对于所占面积较大的目标对象L，可以使用上述步骤，使其对应多个目标位置，以更好的反映其特点。在后续步骤中，由于目标对象T对应有多个目标位置，则相应的可以确定出目标对象T对应的多个音调特征。

步骤S205、根据所述目标位置，确定所述目标对象的所述音调特征。

具体实施时，在确定目标对象在线型对象上的目标位置后，即能够根据线型对象上的不同位置与音调特征的对应关系，相应的确定出目标对象对应的音调特征。与固有属性特征、空间关系特征相类似的，音调特征也可以进行编码处理，以表达为向量。其中，编码的方式可以采用one-hot编码方式。

此外，对于形状不规则且所占面积较大的目标对象也可以对应多于一个的音调特征。例如，参考图1和图6，若正投影位置α’和正投影位置β’在线型对象L上构成的区别包括了音调E、F、G所对应的三个区间位置，则目标对象T对应的的音调特征会包括E、F、G三个音调。

步骤S206、根据所述固有属性特征、所述空间关系特征和所述音调特征，得到所述目标对象对应的音频数据，并输出所述音频数据。

具体实施时，生成目标对象对应的音频数据，可以包括以下步骤：将所述固有属性特征、所述空间关系特征和所述音调特征进行编码，得到所述目标对象对应的输入特征；将所述输入特征输入预先训练的生成模型；获取所述生成模型输出的所述音频数据，并输出所述音频数据。

参考图7，示出了生成模型生成目标对象对应的音频数据的流程示意。

具体的，可以采用机器学习模型来确定标对象对应的音频数据。前述步骤中得到的固有属性特征、空间关系特征和音调特征均进行了编码处理，被表达为向量形式。将向量形式的固有属性特征、空间关系特征和音调特征进行组合以得到目标对象对应的输入特征。其中，组合的方式可以为向量的拼接、线性组合等。

获取预先训练的生成模型。该生成模型是基于一初始的机器学习模型，并使用大量训练数据进行训练后得到的。其中，每个训练数据包括一个目标对象的固有属性特征、空间关系特征和音调特征构成的输入特征，以及该目标对象对应的音频数据。将目标对象对应的输入特征输入该生成模型，该生成模型即能够输出目标对象对应的音频数据。其中，生成模型输出的音频数据包括了音色、音量和响度等音频的必要内容数据，可以通过终端设备的音频输出设备进行输出。

对于上述的生成模型，其可以通过预定的机器学习算法，构建并训练得到。所述的预定的机器学习算法可以选自朴素贝叶斯算法、决策树算法、支持向量机算法、kNN算法、神经网络算法、深度学习算法和逻辑回归算法中的一种或多种。

由上述实施例可见，本公开实施例的图像的处理方法，能够对于显示图像中的目标对象，从自身的固有属性、不同目标对象之间的相互位置关系以及目标对象与音调对应关系，三个维度生成显示图像中的目标对象的画像，并基于该画像通过机器学习模型的手段来学习并生成目标对象所对应的音频数据，并在播放图像的过程相应的输出该得到的音频数据。

基于上述本公开实施例的图像的处理方法，其一个示例性应用场景可以为：日常生活中，在秋后落叶满地时，用户一边漫步，一边用手机拍摄一段地面的落叶视频，在拍摄并显示的过程中，用户在显示区域内设置一直线作为线型对象，当显示图像中的落叶滑过该直线后，实时的输出与之对应的音频，从而实现秋日落叶向你传达声音的播放效果。

在一个可选的示例性实施例中，在上述任一实施例的基础上，所述的图像的处理方法，还可以包括对线型对象进行调整的步骤。具体的，在所述在显示区域内生成并显示线型对象之后，还可以包括以下步骤：获取用户输入的作用于所述线型对象的调整指令；根据所述调整指令，调整所述线型对象在显示区域内的位置，和/或调整所述线型对象上不同位置与所述音调特征间的对应关系。

具体实施时，可以接收用户输入的调整指令。该调整指令作用于已生成的线型对象。根据该调整指令，可以对已生成的该线型对象进行调整。具体调整的对象可以是线型对象的位置、形状、长度，也可以是所述线型对象上不同位置与所述音调特征间的对应关系。例如，用户输入的调整指令具体为作用于线型对象的拖拽指令，则根据该拖拽指令调整线型对象在显示区域内的位置；又如，用户输入的调整指令具体为作用于线型对象的缩放指令，则根据该缩放指令增加或减小线型对象的长度；再如，用户输入的调整指令具体为作用于线型对象的设置指令，根据该设置指令可以改变线型对象上不同位置所对应的音调特征。

通过本示例性实施例的对已生成的该线型对象进行调整的方案，能够使用户根据需要而灵活的对线型对象进行调整，以进一步提升图像的播放效果。

在一个可选的示例性实施例中，在上述任一实施例的基础上，所述的图像的处理方法，还可以包括根据目标对象的分布对线型对象进行调整的步骤。具体的，在所述在显示区域内生成并显示线型对象之后，还可以包括以下步骤：根据显示图像中的全部所述目标对象，在显示图像中确定出目标区域；根据所述目标区域在所述线型对象间的相对位置，确定所述线型对象上的目标段；调整所述目标段内不同位置与所述音调特征间的对应关系。

具体实施时，显示图像中包括的各目标对象可能仅集中的分布在显示图像的一个局部区域中。例如，显示图像中全部的目标对象都集中分布在显示图像的中间部分。此时，可以基于全部目标对象的位置(如前述实施例中的坐标位置信息)，在显示图像中确定出一目标区域。该目标区域即对应了显示图像中全部目标对象所集中分布的区域。基于该确定出的目标区域，可以相应确定出该目标区域与线型对象间的相对位置，并基于二者的相对位置，在线型对象上确定出目标段。其中，确定目标区域与线型对象相对位置的方式可以为，将目标区域向线型对象做正投影，该正投影在线型对象上所覆盖的区间范围即作为目标段。例如，参考图8，显示图像中全部的目标对象都集中分布中部，则根据这些目标对象的位置，确定出显示图像中的目标区域(如图7中的虚线框所示)，将该目标区域向线型对象L做正投影，得到线型对象L上的目标段L’。

确定出线型对象上的目标段后，则调整该目标段内不同位置与音调特征间的对应关系。具体的调整内容可以为使目标段内不同位置分别对应全部音调特征。例如，在原对应关系下，目标段仅对应E、F、G三个音调；在调整后，目标段内不同位置可以分别对应C、D、E、F、G、A、B全部七个音调。

通过本示例性实施例的根据目标对象的分布对线型对象进行调整的方案，能够使线型对象与目标对象更好的对应，使不同的目标对象能够尽可能的对应不同的音调特征，从而丰富最终所输出的目标对象对应的音频数据，以进一步提升图像的播放效果。

在一个可选的示例性实施例中，在上述任一实施例的基础上，所述的图像的处理方法，还可以包括对显示对象和音频数据进行二次创作的步骤。具体的，在一次播放结束之后，可以将播放的视频、图片以及本公开实施例的图像的处理方法得到的音频数据进行保存。基于保存后的上述数据，可供用户对其中的音频数据进行编辑。例如，可以接收用户输入的修改指令，并基于该修改指令，对音频数据进行编辑，以调整音频数据的节奏，快慢，编曲风格等。完成编辑后，将视频、图片以及编辑后的音频数据保存，并可以上传至云端进行保存或展示分享。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

示例性设备

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种图像的处理装置。

参考图9，该图像的处理装置，包括：

生成模块901，被配置为在显示区域内生成并显示线型对象；所述线型对象上的不同位置分别对应相应的音调特征；

识别模块902，被配置为对显示区域内的显示图像进行图像识别，以确定所述显示图像中的至少一个目标对象；对于每个所述目标对象，确定其对应的固有属性特征；

监测模块903，被配置为监测所述目标对象和所述线型对象在显示区域内的位置变化；

第一确定模块904，被配置为响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，以及确定所述目标对象在所述线型对象上的目标位置；

第二确定模块905，被配置为根据所述目标位置，确定所述目标对象的所述音调特征；

输出模块906，被配置为根据所述固有属性特征、所述空间关系特征和所述音调特征，得到所述目标对象对应的音频数据，并输出所述音频数据。

在一些示例性实施例中，生成模块901，具体被配置为获取用户在显示区域内输入的轨迹信息；根据所述轨迹信息，在显示区域内生成并显示所述线型对象。

在一些示例性实施例中，生成模块901，具体被配置为获取用户输入的作用于所述线型对象的调整指令；根据所述调整指令，调整所述线型对象在显示区域内的位置、形状、长度、所述线型对象上不同位置与所述音调特征间的对应关系中的至少一项。

在一些示例性实施例中，识别模块902，具体被配置为根据显示图像中的全部所述目标对象，在显示图像中确定出目标区域；根据所述目标区域在所述线型对象间的相对位置，确定所述线型对象上的目标段；调整所述目标段内不同位置与所述音调特征间的对应关系。

在一些示例性实施例中，第一确定模块904，具体被配置为基于根据显示区域预先确定的坐标系，确定对应于所述目标对象的第一位置信息和对应于所述线型对象的第二位置信息；响应于确定所述第一位置信息和第二位置信息中的目标坐标值相同，判定所述目标对象与所述线型对象的位置发生重合；根据显示区域当前包括全部所述目标对象分别对应的所述第一位置信息，确定与所述线型对象的位置发生重合的所述目标对象的所述空间关系特征。

在一些示例性实施例中，第一确定模块904，具体被配置为对于与所述线型对象的位置发生重合的所述目标对象，确定对应于该目标对象的边缘的一对特征点；确定所述一对特征点在所述线型对象上的一对正投影位置；将所述一对正投影位置构成的区间内包括的所有位置确定为所述目标位置。

在一些示例性实施例中，输出模块906，具体被配置为将所述固有属性特征、所述空间关系特征和所述音调特征进行编码，得到所述目标对象对应的输入特征；将所述输入特征输入预先训练的生成模型；获取所述生成模型输出的所述音频数据，并输出所述音频数据。

上述实施例的装置用于实现前述示例性方法部分中任一实施例中相应的图像的处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的图像的处理方法。

图10示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述示例性方法部分中任一实施例中相应的图像的处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

示例性程序产品

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的图像的处理方法。

上述非暂态计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上示例性方法部分中任一实施例所述的图像的处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种图像的处理方法，包括：

对显示区域内的显示图像进行图像识别，以确定所述显示图像中的至少一个目标对象；对于每个所述目标对象，确定其对应的固有属性特征；所述固有属性特征用于表示所述目标对象自身所具有的特点；

响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，以及确定所述目标对象在所述线型对象上的目标位置；所述空间关系特征用于反映与线型对象的位置发生重合的目标对象，与当前显示图像中其他目标对象之间的相对位置关系；

根据所述目标位置，确定所述目标对象的所述音调特征；

根据所述固有属性特征、所述空间关系特征和所述音调特征，通过预先训练的生成模型得到所述目标对象对应的音频数据，并输出所述音频数据。

2.根据权利要求1所述的方法，其中，所述在显示区域内生成并显示线型对象，具体包括：

获取用户在显示区域内输入的轨迹信息；

3.根据权利要求1所述的方法，其中，所述在显示区域内生成并显示线型对象，之后还包括：

获取用户输入的作用于所述线型对象的调整指令；

4.根据权利要求1所述的方法，其中，所述在显示区域内生成并显示线型对象，之后还包括：

调整所述目标段内不同位置与所述音调特征间的对应关系。

5.根据权利要求1所述的方法，其中，所述响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，具体包括：

6.根据权利要求5所述的方法，其中，所述确定所述目标对象在所述线型对象上的目标位置，具体包括：

确定所述一对特征点在所述线型对象上的一对正投影位置；

7.根据权利要求1至6任意一项所述的方法，其中，所述根据所述固有属性特征、所述空间关系特征和所述音调特征，通过预先训练的生成模型得到所述目标对象对应的音频数据，并输出所述音频数据，具体包括：

将所述输入特征输入预先训练的生成模型；

8.一种图像的处理装置，包括：

识别模块，被配置为对显示区域内的显示图像进行图像识别，以确定所述显示图像中的至少一个目标对象；对于每个所述目标对象，确定其对应的固有属性特征；所述固有属性特征用于表示所述目标对象自身所具有的特点；

第一确定模块，被配置为响应于所述目标对象与所述线型对象的位置发生重合，确定所述目标对象的空间关系特征，以及确定所述目标对象在所述线型对象上的目标位置；所述空间关系特征用于反映与线型对象的位置发生重合的目标对象，与当前显示图像中其他目标对象之间的相对位置关系；

输出模块，被配置为根据所述固有属性特征、所述空间关系特征和所述音调特征，通过预先训练的生成模型得到所述目标对象对应的音频数据，并输出所述音频数据。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。