CN112261424B

CN112261424B - 图像处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112261424B
Application number: CN202011119916.0A
Authority: CN
Inventors: 王岩
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Douyin Vision Co Ltd; Douyin Vision Beijing Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2022-11-18
Anticipated expiration: 2040-10-19
Also published as: WO2022083383A1; CN112261424A

Abstract

本公开提供了一种图像处理方法、装置、电子设备及计算机可读存储介质，涉及图像处理技术领域。所述方法包括：获取实时采集的直播音视频信息；识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息。本公开的实施可在主播提到目标对象时，通过变形处理来突出目标对象，从而提高展示和直播效果。

Description

图像处理方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及图像处理技术领域，具体而言，本公开涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着移动互联网的发展以及移动终端的普及，各种各样的应用软件不断兴起，让用户使用移动终端时可体验更多不一样的功能。例如，目前的直播应用程序使得用户可实时看到其它用户的直播内容，还可以实时和主播进行互动。但是，目前直播应用程序的直播界面的显示方式较为单一，用户的观看体验不佳。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开实施例提供了一种图像处理方法，该方法包括：获取实时采集的直播音视频信息；识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息。

第二方面，本公开实施例提供了一种图像处理装置，该装置包括：信息获取模块，用于获取实时采集的直播音视频信息；目标确定模块，用于识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；目标变形模块，用于对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；图像合成模块，用于对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息。

第三方面，本公开实施例提供了一种电子设备，所述电子设备包括：一个或多个计算机程序，其中，所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行如上述第一方面所述的方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器调用执行时实现如上述第一方面所述的方法。

本公开实施例提供的一种图像处理方法、装置、电子设备及计算机可读存储介质，通过获取实时采集的直播音视频信息，然后识别直播音视频信息中直播用户的输入信息，并根据输入信息在直播音视频信息中确定待处理的目标对象，接着对目标对象在直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像，并对变形后的目标图像与直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放合成音视频信息。由此，本公开实施例可在直播用户的直播过程中获取输入信息来确定待处理的目标对象，并通过对目标对象作变形处理来有效突出目标对象，提升了直播界面的展示效果，并使得观看直播的用户可随着直播用户的直播过程及时关注到目标对象，提升了直播趣味性和直播效果，进而有利于提高直播间的用户留存率。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1示出了一种适用于本公开实施例的实施环境示意图。

图2示出了本公开一个实施例提供的图像处理方法的流程示意图。

图3示出了本公开另一个实施例提供的图像处理方法的流程示意图。

图4示出了本公开一个示例性实施例提供的直播界面示意图。

图5示出了本公开又一个实施例提供的图像处理方法的流程示意图。

图6示出了本公开一个示例性实施例提供的图5中步骤S370的详细流程示意图。

图7示出了本公开一个示例性实施例提供的图像处理方法中根据直播内容确定目标对象的流程示意图。

图8示出了本公开实施例提供的图像处理装置的模块框图。

图9示出了本公开实施例提供的电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对装置、模块或单元进行区分，并非用于限定这些装置、模块或单元一定为不同的装置、模块或单元，也并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面以具体的实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

请参阅图1，其示出了一种适用于本公开实施例所涉及的一种实施环境示意图，该实施环境包括：第一终端120和第二终端140。其中：

第一终端120和第二终端140可以是手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio LayerⅢ，动态影像压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio LayerⅣ，动态影像压缩标准音频层面4)播放器、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal digital assistant，PDA)或专门的照相机(例如单反相机、卡片式相机)等。本公开实施例对终端的具体类型不作限定。

另外，第一终端120和第二终端140可以是相同类型的两个终端，也可以是不同类型的两个终端，本公开实施例对此不作限定。

第一终端120和第二终端140中分别运行有第一客户端和第二客户端。在一实施例中，第一客户端和第二客户端可以都是直播应用程序(Application，APP)，并第一客户端可表示主播用户使用的主播客户端，第一终端120可表示主播用户使用的主播终端；第二客户端可表示直播间的观众用户所使用的观众客户端，第二终端140可表示观众用户所使用的观众终端。

第一终端120和第二终端140之间可以直接通过有线网络或者无线网络相连。或者，该实施环境还可以包括服务器200，则第一终端120还可以通过服务器200与第二终端140相连，该服务器200可以通过有线网络或者无线网络分别与第一终端120和第二终端140相连，从而服务器200与第一终端120、第二终端140之间可进行数据交互。

其中，服务器200可以是传统服务器，也可以是云端服务器，可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

下面将通过具体实施例对本公开实施例提供的图像处理方法、装置、电子设备及计算机可读存储介质进行详细说明。

请参阅图2，图2示出了本公开一个实施例提供的图像处理方法的流程示意图，可应用于电子设备，电子设备可为上述第一终端或服务器。下面以应用于第一终端(即运行有主播客户端的主播终端)为例，针对图2所示的流程进行详细的阐述，该图像处理方法可以包括以下步骤：

S110：获取实时采集的直播音视频信息。

直播用户在有直播需求时，可基于主播终端上运行的主播客户端触发直播请求，主播客户端获取到该直播请求后，可启动图像采集装置和音频采集装置，并基于图像采集装置和音频采集装置采集直播音视频信息，并若图像采集装置对着直播用户进行拍摄，所采集的直播音视频信息中可包含直播用户的用户图像。在一示例中，主播客户端的显示界面可显示有对应直播入口的控件，通过检测作用于该控件的触发操作，即可获取直播用户触发的直播请求。

其中，主播客户端为可用于直播的直播应用程序。图像采集装置可以是摄像头之类可采集图像信息的设备，音频采集装置可以是麦克风之类可采集音频信息的设备，图像采集装置和音频采集装置可以是集成于主播终端的，也可是与主播终端连接的外部设备，本实施例对此不作限定。

主播终端可基于图像采集装置和音频采集装置采集直播音视频信息，以获取实时采集的直播音视频信息。若本方法应用于服务器，则主播终端可将实时采集的直播音视频信息传输至服务器，使得服务器可获取实时采集的直播音视频信息。

S120：识别直播音视频信息中直播用户的输入信息，并根据输入信息在直播音视频信息中确定待处理的目标对象。

在一些实施例中，输入信息可包括语音信息、文本信息、触控信息、视觉信息中的至少一个。即本公开实施例对输入信息的输入形式不作限定，可以是通过语音、触控操作、隔空手势等方式输入。

根据输入信息的不同，对应的目标对象可以不同，目标对象可以是物品、也可以是人、动物、植物等的整体或局部，例如可以是整个人，也可以是人的身体部位、五官等。

其中，需要说明的是，视觉信息是指主播终端采集的图像信息中可用于确定目标对象的输入信息，例如，直播用户执行预设动作的图像帧，该图像帧可以是直播音视频信息中相应的视频帧图像，也可以是各视频帧图像中仅包含部分图像内容的图像。其中，预设动作可包括狭义的动作，也可包括姿态、表情、手势等广义的动作，在此不作限定。再如，视觉信息也可以是可用于指示或表征目标对象的图片，例如若目标对象是口红，则视觉信息也可以是口红的图片或其图片描述信息。

在一些实施例中，输入信息包括视觉信息时，根据输入信息在直播音视频信息中确定待处理的目标对象的具体实施方式可以为：若基于直播音视频信息的图像信息检测到直播用户执行预设动作，则将该预设动作所指示的对象确定为待处理的目标对象。此时，该预设动作对应的视频帧图像即可为视觉信息。

另外，若输入信息为触控信息，则直播用户的主播终端可显示直播界面，直播界面可显示直播音视频信息，并显示其它的直播内容，例如在直播音视频信息上叠加显示的对象信息，例如，名称、型号、图片、链接等任意一种或多种，则直播用户可点击对象信息，使得主播终端检测到点击事件后，获取对应的对象信息，作为输入信息对应的内容或者说识别结果，以确定相应的目标对象。

在实际应用中，直播用户在直播过程中可以输入各种形式的输入信息，例如语音信息、文本信息、触控信息、视觉信息中至少一个，例如直播用户可通过说话输入语音信息、通过打字输入文本信息、通过执行预设动作输入视觉信息等。并在一些示例中，识别得到的输入信息的内容可以是物品名称、款式、型号、物品图片等任意一个或多个，则根据输入信息可以在直播音视频信息中确定待处理的目标对象。

在一些实施方式中，电子设备根据对输入信息的识别结果，可根据该识别结果在直播音视频信息中检测该识别结果对应的目标对象。作为一种实施方式，识别直播音视频信息中直播用户的输入信息，得到识别结果可以为物品名称，则可获取该物品名称对应的特征向量描述，并根据该特征向量描述在直播音视频信息中确定对应的目标对象，例如，可以在直播音视频信息中标记该特征向量描述对应的图像区域并将对应的图像作为目标对象的目标图像。由于直播用户的输入信息可能包含直播用户需要向其他用户(如直播间的观众用户)介绍或描述的事物即本公开实施例中的目标对象，则可通过识别输入信息，在直播音视频信息中确定该目标对象，以作后续处理。

需要说明的是，根据特征向量描述在直播音视频信息中确定对应的目标对象时，可以是不完全匹配，例如匹配程度达到指定比例即可认为匹配，而确定直播音视频信息中存在该特征向量描述对应的对象，在对该对象所在图像区域进行标记，如上所述。

在一些实施方式中，电子设备可预先构建有图片特征向量集，图片特征向量集包括多种对象对应的特征向量描述，可以是后台通过机器学习获取到一系列的商品数据的全集。具体地，可将网络上与一个对象相关的商品图片整合起来，通过机器学习，特征提取，获取该对象对应的特征向量描述，以用于在直播音视频信息中快速锁定该对象。一个对象对应的特征向量描述，可包括形状特征向量、纹理特征向量、颜色特征向量中至少一个。

其中，图片特征向量集可存储于主播终端本地，也可存储于服务器，而当存储于服务器且本方法的执行主体为主播终端时，则可由服务器根据输入信息找到对应的特征向量描述后，将特征向量描述下发到主播终端，使得主播终端可获取该特征向量描述，以在直播音视频信息中确定对应的对象，即目标对象。

另外，对输入信息的识别可以在电子设备本地执行，也可以通过网络实现，例如可基于网络发送至服务器，由服务器对输入信息进行识别，本实施例对识别方式不作限定。

S130：对目标对象在直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像。

其中，变形处理可包括放大处理、扭曲处理、拉伸处理、鱼眼特效处理中的至少一种处理，本实施例对变形处理的具体实施方式不作限定，可以根据实际需要确定。

电子设备在确定待处理的目标对象后，可对目标对象在直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像，使得目标对象在直播音视频信息中的显示效果发生变化。那么，在相对其它变化幅度较小的其它信息和甚至几乎不变的背景而言，在直播界面上目标对象从变形前转换到变形后给人带来的冲击感更强，使得用户可更轻易地注意到目标对象，目标对象可在视频直播过程中得到突出，可提高直播间用户对目标对象的关注度，又由于目标对象时由直播用户的输入信息确定的，所以通过突出目标对象可使得直播用户的输入信息和直播内容的关联更紧密，有利于提高直播效率和效果。

当然通过不同的变形处理，还可实现相应的不同效果。例如，若变形处理为鱼眼特效处理。则可以模拟鱼眼镜头效果，将目标图像变形成加鱼眼镜头后看到的图像，由此不仅可增加直播趣味性，丰富直播效果。

再如，若变形处理为放大处理，则步骤S130的具体实施方式可为：对目标对象在直播音视频信息中对应的目标图像进行放大处理，得到放大后的目标图像作为变形后的目标图像。由此，可在直播用户提到目标对象时，放大目标对象对应的目标图像的图像尺寸，从而更友好地展示目标对象，使得观众用户可通过直播界面更清晰地观察和了解目标对象，有利于提高直播效果。示例性的，在电商直播场景下，若直播用户需向观众用户介绍商品，则通过本公开实施例可对该商品对应的图像做放大处理，更友好地展示商品特征，使得观众用户可一边更清楚地观察该商品，一边可结合直播用户的讲解来更好地了解该商品，可大大提高商品推荐效率和效果。

其中，目标对象对应的目标图像可以仅包含目标对象，也可以包含目标对象以外的信息，在此不做限定。作为一种实施方式，电子设备可在直播音视频信息中确定目标对象所在的图像区域，并截取该图像区域的图像得到截取图像，对该截取图像进行前、背景分离，提取作为前景对象的目标对象的图像作为目标图像，由此可实现抠图，使得待变形处理的目标图像可仅包含目标对象，有利于在后续合成时取得更贴合自然的效果。

所在的图像区域所选中的整个图像做变形处理，其中，图像区域的形状可以是圆形、矩形、扇形等，在此不作限定，可以是预先设置，也可以由直播用户基于其主播终端划出的形状来确定，在此不作限定。

例如，直播用户可输入目标对象的名称“口红”，则主播终端可获取“口红”对应的特征向量描述，并基于该特征向量描述在直播音视频信息中标记“口红”所在的物品区域，然后该物品区域对应的图像作为目标对象对应的目标图像，对目标图像进行变形处理，得到变形后的目标图像。

S140：对变形后的目标图像与直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放合成音视频信息。

得到变形后的目标图像后，可将变形后的目标图像与当前采集的直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放合成音视频信息。则若本方法应用于主播终端，则主播终端得到合成音视频信息时，可播放合成音视频信息，和/或将合成音视频信息发送至直播间用户的终端，例如通过服务器将合成音视频信息发送至直播间的观众终端；若本方法应用于服务器，则服务器可将合成音视频信息发送至直播间用户的终端，包括主播终端和观众终端的至少一个，使得主播终端和观众终端的至少一个播放合成音视频信息。

在一些实施方式中，可在当前采集的直播音视频信息中确定目标对象的图像位置，并将变形后的目标图像叠加至该图像位置，使得变形后的目标图像可对应该图像位置进行显示，例如可覆盖直播音视频信息中的目标对象。在另一些实施方式中，也对应任意其它位置进行合成处理，在此不作限定。

本实施例提供的图像处理方法，通过获取实时采集的直播音视频信息，然后识别直播音视频信息中直播用户的输入信息，并根据输入信息在直播音视频信息中确定待处理的目标对象，接着对目标对象在直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像，并对变形后的目标图像与直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放合成音视频信息。由此，本公开实施例可在直播用户的视频直播过程中获取输入信息来确定待处理的目标对象，并通过对目标对象作变形处理来有效突出目标对象，提升了直播界面的展示效果，并使得观看直播的用户可随着直播用户的直播过程及时关注到目标对象，提升了直播趣味性和直播效果，进而有利于提高直播间的用户留存率。

在一些实施例中，输入信息可包括语音信息，则电子设备可根据直播用户输入的语音信息在直播音视频信息中找到待变形处理的目标对象，由此可简化直播用户的操作，无需直播用户特意做出指示，即可自动锁定目标对象并对其做变形处理，大大提高直播效率和直播效果。具体地，请参阅图3，图3示出了本公开另一个实施例提供的图像处理方法的流程示意图，该图像处理方法可以包括：

S210：获取实时采集的直播音视频信息。

S220：对直播音视频信息中的语音信息进行语音识别，得到语音识别结果。

在一些实施方式中，语音识别模型可运行在主播终端，也可运行在服务器，在此不作限定。基于预先训练好的语音识别模型，电子设备可对直播音视频信息中的语音信息进行语音识别，得到语音识别结果。

S230：基于语音识别结果确定待处理对象信息。

其中，待处理对象信息可以是对象的名称、标识等一类可描述目标对象的信息。其中，标识又可包括对象对应的链接(点击连接可查看对象相关信息、购买入口中至少一个)，例如，若语音识别结果指示的文本为“口红”，即对象的名称。当然，语音识别结果还可以是更具体的包含款式、型号等可确定一个唯一对象的信息，例如包含对象种类、品牌、色号的“阿玛尼口红301”，则对应待处理对象信息更具体，根据待处理对象信息可查找到的特征向量描述也就越准确，更有利于在直播音视频信息中准确确定目标对象。

S240：在直播音视频信息中，将待处理对象信息对应的对象确定为目标对象。

在一些实施方式中，可获取该待处理对象信息对应的特征向量描述，例如电子设备可预先构建有对象信息与特征向量描述之间的映射关系，则根据一个待处理对象信息，可查找到对应的特征向量描述，以根据该特征向量描述在直播音视频信息中确定对应的对象，并将该对象确定为目标对象。具体方式可见前述实施例的相应部分，在此不再赘述。

在一些实施例中，步骤S240可包括：若检测到直播音视频信息中存在待处理对象信息所指示的第一对象，则将第一对象确定为目标对象。作为一种方式，电子设备在确定待处理对象信息后，可在直播音视频信息中检测是否存在待处理对象信息所指示的第一对象，若存在，则可件更改第一对象确定为目标对象。检测是否存在的方式可以使通过获取待处理对象信息对应的特征向量描述，然后可基于特征向量描述在直播音视频信息进行匹配，若存在匹配程度高于指定比例的图像区域，可判定检测到直播音视频信息中存在待处理对象信息所指示的第一对象，将第一对象确定为目标对象。

S250：对目标对象在直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像。

S260：对变形后的目标图像与直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放合成音视频信息。

在一些实施方式中，变形处理可以为放大处理，则步骤S250的具体实施方式可为：对目标对象在直播音视频信息中对应的目标图像进行放大处理，得到放大后的目标图像作为变形后的目标图像。

在一个示例性的实施方式中，可通过opencv实现放大处理，视频直播过程中，图像帧按照时间维度的序列组成，通过分析每一帧的二进制文件，结合待处理对象信息对应的特征向量描述即一种二维向量特征，在图像上锚定具体的图像区域，可以是矩形(xstart,ystart,xend,yend)，或其他含有多个顶点的不规则图像，在此不做限定。以锚定区域图形为矩形为例，然后可使用原型函数，将该锚定区域图形做放大处理后输出二进制数据流，代码示例如下：

V_EXPORTS_W void resize(InputArray src,OutputArray dst,

Size dsize,double fx＝0,double fy＝0,

int interpolation＝INTER_LINEAR)；

然后将获取的二进制数据流，叠加到当前帧的直播音视频信息的指定位置，此时锚定区域矩形(xstart,ystart,xend,yend)的大小扩大为原来的n倍，然后进行合成，利用roi的方式将二进制数据流(物品图形)覆盖到当前帧直播音视频信息的锚定位置(可以是原锚定区域图形所在的位置)上。此时便实现了一种放大处理。

当然，上述仅为一种示例，本公开实施例不仅限于上述一种实施方式。

在一个示例性的场景中，请参阅图4，其示出了本公开一个示例性实施例提供的直播界面示意图，若直播用户如主播张三在介绍的物品为甜甜圈，直播界面上显示直播音视频信息410，通过识别主播张三的语音信息获取待处理对象信息是物品名称为“甜甜圈”，则时刻t电子设备可获取甜甜圈对应的特征向量描述，然后在直播音视频信息410中查找与该特征向量描述标记出“甜甜圈”所处的图像区域411，然后对该“甜甜圈”的图像进行放大处理后，将放大后的“甜甜圈”图像叠加在图像区域411对应的位置上，覆盖原图像区域411，则在时刻t+1，主播张三的直播界面上显示当前帧的直播音视频信息420，并在其上的图像区域421显示有放大后的“甜甜圈”图像。由此，电子设备可在直播用户介绍甜甜圈时，自动识别直播用户所介绍的对象，并在直播音视频信息中锁定该对象进行放大，使得直播间用户可以一边听直播用户介绍甜甜圈，一边看到被放大后的甜甜圈，可更仔细观察甜甜圈，得到更加的电商直播体验，使得用户可更充分了解直播用户所介绍的对象。

需要说明的是，本实施例中未详细描述的部分请参考前述实施例，在此不再赘述。

另外，在一些实施例中，电子设备可能无法在直播音视频信息中检测到待处理对象信息所指示的对象，也就无法在直播音视频信息中确定目标对象，此时，可以结合其他信息来进一步确定，从而降低漏检率，提高系统稳定性。具体地，请参阅图5，其示出了本公开又一个实施例提供的图像处理方法的流程示意图，该方法可以包括：

S310：获取实时采集的直播音视频信息。

S320：对直播音视频信息中的语音信息进行语音识别，得到语音识别结果。

S330：基于语音识别结果确定待处理对象信息。

S340：判断是否检测到直播音视频信息中存在待处理对象信息所指示的第一对象。

于本实施例中，判断是否检测到直播音视频信息中存在待处理对象信息所指示的第一对象之后，可包括：

若检测到直播音视频信息中存在待处理对象信息所指示的第一对象，可执行步骤S350；

若未检测到直播音视频信息中存在待处理对象信息所指示的第一对象，可执行步骤S360。

S350：将第一对象确定为目标对象。

若检测到直播音视频信息中存在待处理对象信息所指示的第一对象，将第一对象确定为目标对象。

S360：对直播音视频信息进行图像识别处理。

由于在一些实施例中，为了降低特征向量描述的存储数据量，预先存储的特征向量描述可以是通用的，比如一类物品对应存储一个特征向量描述，则如果一个对象的外形不常规(如，直播用户说了“口红”，而直播音视频信息中的口红长得不像常规口红的模样)，即与特征向量描述不匹配(匹配程度低于指定比例)，而直播用户又只说了对象的名称、没有其它可用于从网络上搜索对应的图片用来匹配的信息如对象具体的品牌型号等时，则可能无法根据该特征向量描述在直播音视频信息中确定对应的目标对象，从而可能导致漏检。此时，可结合其他信息来进一步确定目标对象，从而降低漏检率。则若未检测到直播音视频信息中存在待处理对象信息所指示的第一对象，可以对直播音视频信息进行图像识别处理。

S370：若识别到直播音视频信息中存在预设手势，则将预设手势所指示的第二对象作为目标对象。

在一些实施方式中，若未检测到直播音视频信息中存在待处理对象信息所指示的第一对象，可对直播音视频信息进行图像识别处理，识别其中是否存在预设手势，若存在则可进一步将预设手势所指示的第二对象作为目标对象。其中，预设手势可以是预先存储的一个或多个手势，在此不做限定，可以根据实际需要设定，例如，预设手势可以是手指画圈，则可将圈住的对象即为该预设手势所指示的第二对象；再如，预设手势也可以是并拢四指，仅伸出一根手指头，则可将该手指头指向的对象作为预设手势所指示的第二对象。由此，则可在未检测到直播音视频信息中存在待处理对象信息所指示的第一对象时，可利用直播用户的手势来进一步确定预设手势所指示的第二对象为目标对象。因为通常用户所指、画圈圈住的对象是用户正在描述、甚至想突出强调的，所以通过本实施例可较准确地确定直播音视频信息中的对象，并可降低因仅借助语音信息进行确定时可能带来的漏检率。

另外，在一些实施例中，第二对象可能与直播用户的输入信息不匹配，则可能不是直播用户当前想突出的目标对象，则为了进一步提升重新确定目标对象的准确性，确定预设手势所指示的第二对象后，可基于语音信息所指示的待处理对象信息，将第二对象与待处理对象信息进行匹配，当匹配成功时，才将第二对象作为目标对象。具体地，请参阅图6，其示出了本公开一个示例性实施例提供的图5中步骤S370的详细流程示意图，于本实施例中，步骤S370可包括：

S371：若识别到直播音视频信息中存在预设手势，则将预设手势所指示的对象确定为第二对象。

S372：若第二对象与待处理对象信息匹配，则将第二对象作为目标对象。

在一些实施方式中，可根据预设手势确定其所指示的图像区域，并对该图像区域的图像进行截取，得到第二对象对应的第二图像，然后通过可通过网络搜索第二图像对应的第二对象信息，若第二对象信息与待处理对象信息匹配，则可判定第二对象与待处理对象信息匹配，则可将第二对象作为目标对象。比如，截取直播用户用手指着、手画圈圈住的图像区域的图像作为第二对象对应的第二图像，若能搜到属于直播用户说出的物品名称下的结果，就将第二对象确定为目标对象，以在后续步骤对目标对象进行变形处理。

S380：对目标对象在直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像。

S390：对变形后的目标图像与直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放合成音视频信息。

另外，在一些实施例中，若未检测到直播音视频信息中存在待处理对象信息所指示的第一对象，还可根据直播界面显示的直播内容来进一步确定目标对象，则在直播界面上显示有可用于指示目标对象的目标信息时，可基于该目标信息来确定目标对象。具体地，请参阅图7，其示出了本公开一个示例性实施例提供的图像处理方法中根据直播内容确定目标对象的流程示意图，具体可包括：

S410：若未检测到直播音视频信息中存在待处理对象信息所指示的第一对象，则获取当前显示的直播内容。

S420：若直播内容中存在待处理对象信息对应的目标信息，则根据目标信息确定目标对象。

其中，目标信息可包括目标对象对应的物品标识、物品图像中的至少一种。则在未能检测到直播音视频信息中存在待处理对象信息所指示的第一对象时，可识别当前显示的直播内容，根据识别到的其中的目标信息来辅助确定目标对象，从而可提高目标对象的识别率。

在一些实施方式中，直播界面中可能显示有物品标识、物品图像、购买入口等至少一种与待处理对象信息对应的目标信息，则根据这些目标信息可以在直播音视频信息中找到对应的目标对象。其中，购买入口可以以物品图像的形式显示，物品图像可内置网址(Uniform Resource Locator，URL)，则用户点击物品图像可跳转该网址对应的购买页面。

作为一种实施方式，直播界面中可显示有商品图像、商品名称，若商品名称与待处理对象信息匹配，例如，待处理对象信息是对象的名称“口红”，而商品名称也包括“口红”，则可认为匹配，并基于商品图像在直播音视频信息中标记对应的图像区域，则该图像区域的对象为目标对象。

需要说明的是，基于前述实施例，步骤S410-S420可用于替换图5中的步骤S360-S370，在未检测到直播音视频信息中存在待处理对象信息所指示的第一对象时，根据直播内容来进一步确定目标对象。

请参照图8，本公开一实施例提供的一种图像处理装置的模块框图，本公开实施例的图像处理装置800可以包括：信息获取模块810、目标确定模块820、目标变形模块830以及图像合成模块840，其中：

信息获取模块810，用于获取实时采集的直播音视频信息；

目标确定模块820，用于识别直播音视频信息中直播用户的输入信息，并根据输入信息在直播音视频信息中确定待处理的目标对象；

目标变形模块830，用于对目标对象在直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；

图像合成模块840，用于对变形后的目标图像与直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放合成音视频信息。

在一实施例中，输入信息包括语音信息，目标确定模块820可包括：语音识别子模块、对象信息确定子模块以及目标对象确定子模块，其中：

语音识别子模块，用于对直播音视频信息中的语音信息进行语音识别，得到语音识别结果；

对象信息确定子模块，用于基于语音识别结果确定待处理对象信息；

目标对象确定子模块，用于在直播音视频信息中，将待处理对象信息对应的对象确定为目标对象。

在一实施例中，目标对象确定子模块可包括：第一对象确定单元，用于若检测到直播音视频信息中存在待处理对象信息所指示的第一对象，则将第一对象确定为目标对象。

在一实施例中，目标对象确定子模块可包括：图像识别单元以及手势确定单元，其中：

图像识别单元，用于若未检测到直播音视频信息中存在待处理对象信息所指示的第一对象，则对直播音视频信息进行图像识别处理；

手势确定单元，用于若识别到直播音视频信息中存在预设手势，则将预设手势所指示的第二对象作为目标对象。

在一实施例中，手势确定单元可包括：第二对象确定子单元以及目标对象确定子单元，其中：

第二对象确定子单元，用于若识别到直播音视频信息中存在预设手势，则将预设手势所指示的对象确定为第二对象；

目标对象确定子单元，用于若第二对象与待处理对象信息匹配，则将第二对象作为目标对象。

在一实施例中，目标对象确定子模块可包括：直播内容获取单元以及目标信息确定单元，其中：

直播内容获取单元，用于若未检测到直播音视频信息中存在待处理对象信息所指示的第一对象，则获取当前显示的直播内容；

目标信息确定单元，用于若直播内容中存在待处理对象信息对应的目标信息，则根据目标信息确定目标对象，目标信息包括目标对象对应的物品标识、图像中的至少一种。

在一实施例中，目标变形模块830可包括：放大处理子模块，用于对目标对象在直播音视频信息中对应的目标图像进行放大处理，得到放大后的目标图像作为变形后的目标图像。

在一实施例中，输入信息包括语音信息、文本信息、触控信息、视觉信息中的至少一个。

本公开实施例的图像处理装置可执行本公开的实施例所提供的一种图像处理方法，其实现原理相类似，本公开各实施例中的图像处理装置中的各模块所执行的动作是与本公开各实施例中的图像处理方法中的步骤相对应的，对于图像处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图像处理方法中的描述，此处不再赘述。

下面参考图9，其示出了适于用来实现本公开实施例的电子设备900的结构框图。本公开实施例中的电子设备可以包括但不限于诸如计算机等的设备。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

电子设备900包括：存储器以及处理器，其中，这里的处理器可以称为下文的处理装置901，存储器可以包括下文中的只读存储器(ROM)902、随机访问存储器(RAM)903以及存储装置908中的至少一项，具体如下所示：

如图9所示，电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储装置908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理装置901执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读存储介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行以下步骤：获取实时采集的直播音视频信息；识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定，例如，显示模块还可以被描述为“用于显示资源上传界面的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读存储介质可以是机器可读信号介质或机器可读储存介质。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，提供了一种图像处理方法，该方法包括：获取实时采集的直播音视频信息；识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息。

在一实施例中，所述输入信息包括语音信息，所述识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象，包括：对所述直播音视频信息中的语音信息进行语音识别，得到语音识别结果；基于所述语音识别结果确定待处理对象信息；在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象。

在一实施例中，所述在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象，包括：若检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则将所述第一对象确定为所述目标对象。

在一实施例中，所述在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象，还包括：若未检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则对所述直播音视频信息进行图像识别处理；若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的第二对象作为所述目标对象。

在一实施例中，所述若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的第二对象作为所述目标对象，包括：若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的对象确定为第二对象；若所述第二对象与所述待处理对象信息匹配，则将所述第二对象作为所述目标对象。

在一实施例中，所述在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象，还包括：若未检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则获取当前显示的直播内容；若所述直播内容中存在所述待处理对象信息对应的目标信息，则根据所述目标信息确定所述目标对象，所述目标信息包括所述目标对象对应的物品标识、图像中的至少一种。

在一实施例中，所述对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像，包括：对所述目标对象在所述直播音视频信息中对应的目标图像进行放大处理，得到放大后的目标图像作为所述变形后的目标图像。

在一实施例中，所述输入信息包括语音信息、文本信息、触控信息、视觉信息中的至少一个。

根据本公开的一个或多个实施例，提供了一种图像处理装置，该图像处理装置包括：信息获取模块，用于获取实时采集的直播音视频信息；目标确定模块，用于识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；目标变形模块，用于对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；图像合成模块，用于对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息。

在一实施例中，所述输入信息包括语音信息，目标确定模块可包括：语音识别子模块、对象信息确定子模块以及目标对象确定子模块，其中：语音识别子模块，用于对所述直播音视频信息中的语音信息进行语音识别，得到语音识别结果；对象信息确定子模块，用于基于所述语音识别结果确定待处理对象信息；目标对象确定子模块，用于在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象。

在一实施例中，目标对象确定子模块可包括：第一对象确定单元，用于若检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则将所述第一对象确定为所述目标对象。

在一实施例中，目标对象确定子模块可包括：图像识别单元以及手势确定单元，其中：图像识别单元，用于若未检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则对所述直播音视频信息进行图像识别处理；手势确定单元，用于若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的第二对象作为所述目标对象。

在一实施例中，手势确定单元可包括：第二对象确定子单元以及目标对象确定子单元，其中：第二对象确定子单元，用于若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的对象确定为第二对象；目标对象确定子单元，用于若所述第二对象与所述待处理对象信息匹配，则将所述第二对象作为所述目标对象。

在一实施例中，目标对象确定子模块可包括：直播内容获取单元以及目标信息确定单元，其中：直播内容获取单元，用于若未检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则获取当前显示的直播内容；目标信息确定单元，用于若所述直播内容中存在所述待处理对象信息对应的目标信息，则根据所述目标信息确定所述目标对象，所述目标信息包括所述目标对象对应的物品标识、图像中的至少一种。

在一实施例中，目标变形模块可包括：放大处理子模块，用于对所述目标对象在所述直播音视频信息中对应的目标图像进行放大处理，得到放大后的目标图像作为所述变形后的目标图像。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种图像处理方法，其特征在于，包括：

获取实时采集的直播音视频信息；

识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；

对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；

对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息；

所述输入信息包括语音信息，所述识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象，包括：

对所述直播音视频信息中的语音信息进行语音识别，得到语音识别结果；

基于所述语音识别结果确定待处理对象信息；

在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象；

所述在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象，还包括：

若未检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则对所述直播音视频信息进行图像识别处理；

若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的第二对象作为所述目标对象。

2.根据权利要求1所述的方法，其特征在于，所述在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象，包括：

若检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则将所述第一对象确定为所述目标对象。

3.根据权利要求1所述的图像处理方法，其特征在于，所述若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的第二对象作为待处理的目标对象，包括：

若识别到所述直播音视频信息中存在预设手势，则将所述预设手势所指示的对象确定为第二对象；

若所述第二对象与所述待处理对象信息匹配，则将所述第二对象作为所述目标对象。

4.根据权利要求1所述的图像处理方法，其特征在于，所述在所述直播音视频信息中，将所述待处理对象信息对应的对象确定为所述目标对象，还包括：

若未检测到所述直播音视频信息中存在所述待处理对象信息所指示的第一对象，则获取当前显示的直播内容；

若所述直播内容中存在所述待处理对象信息对应的目标信息，则根据所述目标信息确定所述目标对象，所述目标信息包括所述目标对象对应的物品标识、图像中的至少一种。

5.根据权利要求1至4任一项所述的图像处理方法，其特征在于，所述对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像，包括：

对所述目标对象在所述直播音视频信息中对应的目标图像进行放大处理，得到放大后的目标图像作为所述变形后的目标图像。

6.根据权利要求1所述的图像处理方法，其特征在于，所述输入信息包括语音信息、文本信息、触控信息、视觉信息中的至少一个。

7.一种图像处理装置，其特征在于，包括：

信息获取模块，用于获取实时采集的直播音视频信息；

目标确定模块，用于识别所述直播音视频信息中直播用户的输入信息，并根据所述输入信息在直播音视频信息中确定待处理的目标对象；

目标变形模块，用于对所述目标对象在所述直播音视频信息中对应的目标图像进行变形处理，得到变形后的目标图像；

图像合成模块，用于对所述变形后的目标图像与所述直播音视频信息中的图像进行合成处理，得到合成音视频信息，以用于播放所述合成音视频信息；

所述输入信息包括语音信息，所述目标确定模块具体用于：

基于所述语音识别结果确定待处理对象信息；

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中，所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行如权利要求1-6任一项所述的图像处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器调用执行如权利要求1-6中任一项所述的图像处理方法。