CN111787464A

CN111787464A - 一种信息处理方法、装置、电子设备和存储介质

Info

Publication number: CN111787464A
Application number: CN202010757014.3A
Authority: CN
Inventors: 崔志佳; 范泽华
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-10-16
Anticipated expiration: 2040-07-31
Also published as: CN111787464B

Abstract

本申请实施例公开了一种信息处理方法，该方法包括：获取视频数据，视频数据包括多帧有序图像以及与多帧有序图像关联的单声道音频数据；确定视频数据中发声对象的目标位置；基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据。本申请的实施例同时还公开了一种信息处理装置、电子设备和存储介质。

Description

一种信息处理方法、装置、电子设备和存储介质

技术领域

本申请涉及但不限于计算机技术领域，尤其涉及一种信息处理方法、信息处理装置、电子设备和存储介质。

背景技术

目前，由于录音设备的硬件规格参差不齐，通常为了节省成本会降低一些硬件规格，例如仅设置一个受话器来录制声音，如此，录制的音频数据只能是单声道音频数据。在这种情况下，播放时无法将非立体声的声音源还原为立体声，播放过程中收听对象的感官体验较差。

申请内容

本申请实施例期望提供一种信息处理方法、信息处理装置、电子设备和存储介质，解决了相关技术中录制的音频数据为单声道音频数据的情况下，播放时无法将非立体声的声音源还原为立体声，导致播放过程中收听对象的感官体验较差的问题，实现基于视频数据中发声对象的位置将单声道音频数据转换为多声道音频数据，进而能够在输出视频数据时呈现立体声的效果。

本申请的技术方案是这样实现的：

一种信息处理方法，所述方法包括：

获取视频数据，所述视频数据包括多帧有序图像以及与所述多帧有序图像关联的单声道音频数据；

确定所述视频数据中发声对象的目标位置；

基于所述目标位置和所述单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据。

在上述方案中，所述目标位置包括所述视频数据的所述多帧有序图像中呈现的第一发声对象，在所述图像中的第一位置。

在上述方案中，所述目标位置包括所述视频数据的所述单声道音频数据中呈现的第二发声对象，在所述单声道音频数据中的第二位置，所述第二发声对象与所述第一发声对象不同。

在上述方案中，所述目标位置包括所述视频数据的所述多帧有序图像中呈现的第一发声对象相对于参考对象的第三位置，所述参考对象包括所述视频数据的采集模块。

在上述方案中，所述多声道音频输出模块的与所述第一位置对应的第一声道，用于输出将所述单声道音频数据的音频参数向第一方向调整后得到的所述目标音频数据；

所述多声道音频输出模块中的第二声道，用于输出将所述单声道音频数据的音频参数向第二方向调整后得到的所述目标音频数据，所述第二声道包括所述多声道音频输出模块的与所述第一声道不同的声道，所述第一方向与所述第二方向相反。

在上述方案中，所述获取视频数据之后，所述方法还包括：

将所述多帧有序图像和所述单声道音频数据输入至经过训练得到的网络模型，得到所述发声对象和所述发声对象对应的音频数据，所述发声对象对应的音频数据组成所述单声道音频数据。

在上述方案中，所述基于所述目标位置和所述单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据之后，所述方法还包括：

在输出所述视频数据的过程中，通过所述多声道音频输出模块的各个声道输出所述每一声道对应输出的目标音频数据。

一种信息处理装置，所述信息处理装置包括：

获取模块，用于获取视频数据，所述视频数据包括多帧有序图像以及与所述多帧有序图像关联的单声道音频数据；

处理模块，用于确定所述视频数据中发声对象的目标位置；

所述处理模块，还用于基于所述目标位置和所述单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据。

一种电子设备，所述电子设备包括：处理器、存储器和通信总线；

所述通信总线用于实现处理器和存储器之间的通信连接；

所述处理器用于执行存储器中存储的信息处理程序，以实现上述的信息处理方法的步骤。

一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述的信息处理方法的步骤。

本申请实施例所提供的信息处理方法、信息处理装置、电子设备和存储介质，获取视频数据，视频数据包括多帧有序图像以及与多帧有序图像关联的单声道音频数据；确定视频数据中发声对象的目标位置；基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据；如此，解决了相关技术中录制的音频数据为单声道音频数据的情况下，播放时无法将非立体声的声音源还原为立体声，导致播放过程中收听对象的感官体验较差的问题，实现基于视频数据中发声对象的位置将单声道音频数据转换为多声道音频数据，进而能够在输出视频数据时呈现立体声的效果。

附图说明

图1为本申请的实施例提供的信息处理方法的流程示意图一；

图2为本申请的实施例提供的信息处理方法的流程示意图二；

图3为本申请的实施例提供的训练得到的数据库的参考示意图；

图4为本申请的实施例提供的信息处理方法的流程示意图三；

图5为本申请的实施例提供的包括单受话器的终端的结构示意图；

图6为本申请的实施例提供的不同画面的左右声道参数曲线示意图；

图7为本申请的实施例提供的画面中发声对象的位置标定示意图；

图8为本申请的实施例提供的画面1的左右声道参数曲线示意图；

图9为本申请的实施例提供的画面2的左右声道参数曲线示意图；

图10为本申请的实施例提供的一种信息处理装置的结构示意图；

图11为本申请的实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请的实施例提供一种信息处理方法，应用于电子设备，参照图1所示，该方法包括以下步骤：

步骤101、获取视频数据。

其中，视频数据包括多帧有序图像以及与多帧有序图像关联的单声道音频数据。

本申请实施例中，电子设备可以包括诸如手机、平板电脑、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)、相机、可穿戴设备等移动终端设备，以及诸如台式计算机等固定终端设备。电子设备可以包括多声道音频输出模块，用于通过各声道输出每一声道对应输出的音频数据，实现立体声效果。

这里，视频数据可以是其他电子设备录制的数据，或者本申请的电子设备录制的数据。以视频数据是其他电子设备录制的数据为例，其他电子设备包括单受话器和图像采集模块，在录制视频的过程中，图像采集模块用于采集多帧有序图像，单受话器用于采集与多帧有序图像关联的单声道音频数据。当然，在视频数据是本申请的电子设备录制的数据时，本申请的电子设备包括单受话器和图像采集模块，进而通过受话器和图像采集模块的配合录制视频得到视频数据。

步骤102、确定视频数据中发声对象的目标位置。

本申请实施例中，视频数据中发声对象包括在播放视频数据过程中观看者能看到的发声对象和能听到的发声对象中的至少一个。例如，在播放视频数据的过程中，多帧有序图像中发声的对象包括但不限于人物、动物、汽车、海浪、运作中的家电中至少之一；在播放视频数据的过程中，单声道音频数据中发声的对象包括但不限于风、雷中至少之一，这些对象一般没有图像即这些对象是无形的对象，但仍旧可以发声。

步骤103、基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据。

其中，多声道音频输出模块能输出每一声道对应输出的目标音频数据以呈现立体声。

本申请实施例中，电子设备在确定视频数据中发声对象的目标位置的情况下，基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据，如此，电子设备获得与单声道音频数据对应的，供多声道音频输出模块输出的多声道音频数据即立体声音频数据；可见，电子设备获得的视频数据中的音频数据为单声道音频数据时，电子设备能够至少基于视频数据包括的图像和发声对象的位置两个因素，将单声道音频数据转化为多声道音频数据，实现立体声效果，确保用户有更好的影音体验。

需要说明的是，在电子设备确定出多声道音频输出模块的每一声道对应输出的目标音频数据的情况下，电子设备可以通过多声道音频输出模块的各个声道输出各自的目标音频数据。例如多声道音频输出模块为三声道音频输出模块，第一声道对应输出的目标音频数据为第一音频数据，第二声道对应输出的目标音频数据为第二音频数据，第三声道对应输出的目标音频数据为第三音频数据。进一步地，在电子设备输出视频数据的过程中，通过三声道音频输出模块的第一声道输出第一音频数据，通过第二声道输出第二音频数据，通过第三声道输出第三音频数据，这里，第一音频数据、第二音频数据和第三音频数据包含的音频内容可以相同，且音频内容具有的音频参数如音量大小不完全相同。

进一步地，与单声道音频数据相比，本申请确定的多声道音频输出模块的每一声道对应输出的目标音频数据即立体声有如下优点：具有各声源的方位感和分布感；提高了信息的可懂度；提高节目的力量感、临场感、层次感和解析度。

本申请实施例所提供的信息处理方法，获取视频数据，视频数据包括多帧有序图像以及与多帧有序图像关联的单声道音频数据；确定视频数据中发声对象的目标位置；基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据，多声道音频输出模块能输出每一声道对应输出的目标音频数据以呈现立体声；如此，解决了相关技术中录制的音频数据为单声道音频数据的情况下，播放时无法将非立体声的声音源还原为立体声，导致播放过程中收听对象的感官体验较差的问题，实现基于视频数据中发声对象的位置将单声道音频数据转换为多声道音频数据，进而能够在输出视频数据时呈现立体声的效果。

由步骤103基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据可知，视频数据中发声对象的目标位置为确定多声道音频输出模块的每一声道对应输出的目标音频数据的重要因素之一，本申请实施例可以基于目标位置包括的第一位置、第二位置以及第三位置中的至少之一和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据。

本申请一些实施例中，目标位置包括视频数据的多帧有序图像中呈现的第一发声对象，在图像中的第一位置。也就是说，第一发声对象是视频包括的图像中的可见发声对象。

这里，电子设备获取到视频数据后，可以对视频数据中的多帧有序图像进行识别，对多帧有序图像进行识别至少包括识别图像中的第一发声对象，并且标定图像中第一发声对象的第一位置。也就是说，本申请在基于目标位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据的过程中，至少可以基于第一发声对象的第一位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据。如此，在播放视频数据的过程中，电子设备可以通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据，该场景下，用户在观看多帧有序图像的同时至少可以听到多帧有序图像中可见的第一发声对象的立体声；从而提升了各声源的方位感和分布感；提高了信息的可懂度；提高节目的力量感、临场感、层次感和解析度。

其中，识别图像中的可见发声对象时，可以参考预先训练得到的数据库中的信息。该数据库包括对象、图像以及声音三者相匹配的信息。样本对象为一定样本量的视频中的常用对象，比如人、动物、风(没有图像但是有声音)、家电、汽车、浪等等。在训练的过程中，电子设备基于人工智能(Artificial Intelligence，AI)机器学习技术中的神经网络结构能模拟人的神经网络，进行训练，将对象、对象对应的图像、声音关联起来，得到如图3所示的对象、图像、声音匹配的数据库，该数据库中包括的对象尽可能的多，分别用1、2、3、4……表示；该数据库中包括的对象对应的图像尽可能的多，分别用A、B、C、D……表示；该数据库中包括的声音尽可能的多，分别用a、b、c、d……表示。进一步地，在后续的图像识别中可以参考该数据库快速检测出对象对应的图像和声音，也可以认为将待识别图像输入至经过训练得到的网络模型，得到发声对象和发声对象对应的音频数据。

本申请另一些实施例中，目标位置包括视频数据的单声道音频数据中呈现的第二发声对象，在单声道音频数据中的第二位置，第二发声对象与第一发声对象不同。也就是说，第二发声对象是视频包括的不可见发声对象，不可见发声对象虽然在视频包括的图像中未呈现出来，但是在视频包括的单声道音频数据中存在不可见发声对象的音频数据。

这里，电子设备获取到视频数据后，可以对视频数据的单声道音频数据中呈现的不可见的第二发声对象进行识别，对单声道音频数据进行识别至少包括识别单声道音频数据中的第二发声对象，并且标定第二发声对象的第二位置。也就是说，本申请在基于目标位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据的过程中，至少可以基于第二发声对象的第二位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据。如此，在播放视频数据的过程中，电子设备可以通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据，该场景下，用户在观看多帧有序图像的同时至少可以听到不可见的第二发声对象的立体声；当然，本申请在基于目标位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据的过程中，至少还可以基于第一发声对象的第一位置、第二发声对象的第二位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据，如此，在播放视频数据的过程中，电子设备可以通过多声道音频输出模块的各个声道同时输出每一声道对应输出的目标音频数据，该场景下，用户在观看多帧有序图像的同时至少可以听到多帧有序图像中可见的第一发声对象的立体声以及单声道音频数据中不可见的第二发声对象的立体声；例如既可以听到图像中怒吼的狮子的立体声同时还可以听到图像中未呈现的狂风的立体声，从而进一步提升了各声源的方位感和分布感；提高了信息的可懂度；提高节目的力量感、临场感、层次感和解析度。

本申请又一些实施例中，目标位置包括视频数据的多帧有序图像中呈现的第一发声对象相对于参考对象的第三位置，参考对象包括视频数据的采集模块。其中，第三位置表征以参考对象为参考点时，第一发声对象与参考对象之间的距离，而且，电子设备基于多帧有序图像至少可以确定第一发声对象与参考对象之间的距离变化情况。例如第一发声对象与参考对象之间的距离逐渐减少，第一发声对象与参考对象之间的距离逐渐增大，或者第一发声对象与参考对象之间的距离基本不变。

需要说明的是，视频数据的采集模块可以是集成在本申请的电子设备上的模块，也可以是其他设备上的模块。本申请的电子设备在确定第三位置的过程中，可以基于采集模块采集的视频数据确定出可见的第一发生对象相对于视频数据的采集模块的第三位置。采集模块包括但不限于相机模块。

这里，电子设备获取到视频数据后，可以对视频数据中的多帧有序图像进行识别，对多帧有序图像进行识别至少包括识别多帧有序图像中呈现的第一发声对象相对于参考对象的第三位置。也就是说，本申请在基于目标位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据的过程中，至少可以基于多帧有序图像中呈现的第一发声对象相对于参考对象的第三位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据。如此，在播放视频数据的过程中，电子设备可以通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据，该场景下，用户在观看多帧有序图像的同时至少可以听到多帧有序图像中可见的第一发声对象的立体声。

例如，电子设备确定出视频包括的图像上狂吼的狮子B相对于视频的采集模块的距离为第一距离，确定出视频包括的图像上狂吼的狮子A相对于视频的采集模块的距离为第二距离，且第一距离小于第二距离。那么，在播放视频数据的过程中，电子设备可以通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据，该场景下，用户在观看多帧有序图像的同时观看到狮子B对应的图像，可以听到狮子B的立体声，在观看多帧有序图像的同时观看到狮子A对应的图像，可以听到狮子A的立体声，并且狮子B的立体声的音量大于狮子A的立体声的音量。

当然，本申请在基于目标位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据的过程中，至少还可以基于第一发声对象的第一位置、第二发声对象的第二位置以及第一发声对象相对于参考对象的第三位置中的至少两个位置和单声道音频数据确定多声道音频输出模块的每一声道对应输出的目标音频数据，如此，在播放视频数据的过程中，电子设备可以通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据，该场景下，用户在观看多帧有序图像的同时至少可以听到多帧有序图像中第一发声对象的立体声和/或单声道音频数据中第二发声对象的立体声；从而进一步提升了各声源的方位感和分布感；提高了信息的可懂度；提高节目的力量感、临场感、层次感和解析度。

本申请一些实施例中，多声道音频输出模块的与第一位置对应的第一声道，用于输出将单声道音频数据的音频参数向第一方向调整后得到的目标音频数据；多声道音频输出模块中的第二声道，用于输出将单声道音频数据的音频参数向第二方向调整后得到的目标音频数据，第二声道包括多声道音频输出模块的与第一声道不同的声道，第一方向与第二方向相反。

这里，电子设备在确定视频数据中发声对象的目标位置的情况下，基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据的过程中，确定多声道音频输出模块的与第一位置对应的第一声道输出将单声道音频数据的音频参数向第一方向调整后得到的目标音频数据，并确定多声道音频输出模块中的第二声道输出将单声道音频数据的音频参数向第二方向调整后得到的目标音频数据。

示例性的，以多声道音频输出模块为双声道音频输出模块为例，电子设备确定双声道音频输出模块的与第一位置如图像中左侧区域中的某一位置，对应的第一声道如左声道输出将单声道音频数据的音频参数向第一方向调整后得到的目标音频数据，向第一方向调整例如调高音量；并确定多声道音频输出模块中的第二声道如右声道输出将单声道音频数据的音频参数向第二方向调整后得到的目标音频数据，向第二方向调整例如调低音量。也就是说，对于图像中位于图像中左侧区域中的某一位置的对象，通过双声道音频输出模块输出该发声对象的音频数据时，左声道输出的音频数据的音量大于右声道输出的音频数据的音量，如此呈现立体声的效果。

又一示例的，以多声道音频输出模块为四声道音频输出模块为例，电子设备确定四声道音频输出模块的与第一位置如图像中左侧区域中的某一位置，对应的第一声道如左声道输出将单声道音频数据的音频参数向第一方向调整后得到的目标音频数据，向第一方向调整例如调高音量；并确定多声道音频输出模块中的第二声道包括右声道、中声道以及后声道输出将单声道音频数据的音频参数向第二方向调整后得到的目标音频数据，向第二方向调整例如调低音量。也就是说，对于图像中位于图像中左侧区域中的某一位置的对象，通过四声道音频输出模块输出该发声对象的音频数据时，左声道输出的音频数据的音量大于其他声道输出的音频数据的音量，如此呈现立体声的效果。

本申请的实施例提供一种信息处理方法，应用于电子设备，参照图2所示，该方法包括以下步骤：

步骤201、获取视频数据。

步骤202、将多帧有序图像和单声道音频数据输入至经过训练得到的网络模型，得到发声对象和发声对象对应的音频数据。

其中，发声对象对应的音频数据组成单声道音频数据。

本申请实施例中，电子设备获取到视频数据后，将多帧有序图像和单声道音频数据输入至经过训练得到的网络模型，得到发声对象和发声对象对应的音频数据。也就是说，经过训练得到的网络模型不仅能识别出发声对象包括多帧有序图像中的发声对象和/或单声道音频数据中的发声对象，也能识别出发声对象对应的音频数据。

步骤203、确定视频数据中发声对象的目标位置。

步骤204、基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据。

步骤205、在输出视频数据的过程中，通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据。

本申请实施例中，电子设备确定视频数据中发声对象的目标位置的情况下，基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据，进而在输出视频数据的过程中，通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据，实现基于视频数据中发声对象的位置将单声道音频数据转换为多声道音频数据，进而能够在输出视频数据时呈现立体声的效果。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

本申请的实施例提供一种信息处理方法，应用于电子设备，电子设备包括双声道音频输出模块，参照图4所示，该方法包括以下步骤：

步骤301、获取视频数据。

本申请实施例中，电子设备可以预先建立如图3所示的对象、图像、声音匹配的数据库，将对象、图像、声音关联起来，在后续的识别中可以检测出对应的对象的图像和声音。这里，单声道音频数据可以是图5所示的包括单受话器41的终端42采集到的音频数据，该终端可以通过图像采集模块获取上述多帧有序图像。

步骤302、识别视频数据中的发声对象。

其中，视频数据中的发声对象包括多帧有序图像中的发声对象和单声道音频数据中与多帧有序图像中的发声对象不同的发声对象。

这里，可以先对视频的多帧有序图像即画面进行对象识别，在图6的不同的画面可以识别到对象，在图6中(P1)画面1识别到三个对象分别为狮子Z、狮子A、狮子B，在图6中(P2)画面2中识别到三个对象分别为狮子A、B、C，这种对象识别的能力可以基于AI的神经网络架构进行训练并硬件化，可以保证每一帧画面都能及时的识别到。需要说明的是，在识别对象的过程中，电子设备同时能够识别出哪些对象是可以发出声音的，比如动物张着嘴就是可能发声的对象，比如水果蔬菜蓝天就是不能发声的对象。示例性的，参见图6中(P3)所示，相关技术中即使通过双声道音频输出模块的左右声道输出单声道音频数据，左右声道输出的音频数据的参考曲线如图所示，即两个声道输出的音频数据的音频参数相同，无法实现立体声效果。

步骤303、确定视频数据中发声对象的目标位置。

本申请实施例中，电子设备识别到视频数据中的发声对象的情况下，确定视频数据中发声对象的目标位置，即标定发声对象的位置。参见图7所示，图中虚线的圆圈就是标定的第一发声对象的第一位置。需要说明的是，位置的坐标的原点可以选择不一定限定在左下角。接着，电子设备锁定画面1中发声对象狮子A和狮子B的坐标分别为(x1,y1)、(x2,y2)。这里，画面2的处理方式类似，不作具体说明，可以参考对画面1的处理过程。

步骤304、基于目标位置和单声道音频数据，确定多声道音频输出模块的左声道对应的目标音频数据和右声道对应的目标音频数据。

本申请实施例中，由于已经标定了图像中第一发声对象的第一位置，进而结合电子设备识别到的不同的音频对应的发声对象以及做双声道(双声道能体现二维信息，也可以是多声道)的音频信号该如何调整。参见图8中的(M1)-(M3)所示，电子设备基于左右声道的特性，在确定如图8中的(M1)所示的狮子A在图像的中间位置，狮子B在图像的中心靠右的位置的情况下，电子设备在音频的调整过程中需要将左声道的狮子B对应的音频信号音量降低，在右声道狮子B对应的音频信号音量提高，以此来体现出立体声的效果，如此，在播放视频数据的过程中，播放到画面1时，声音就像从B的位置发出的。示例性的，电子设备通过双声道音频输出模块的左右声道同时输出单声道音频数据，左右声道输出的音频数据的参考曲线如图8中的(M2)和(M3)所示，即两个声道输出的与狮子A关联的音频数据的音频参数以及与风声关联的音频数据的音频参数相同，与狮子B关联的音频数据的音频参数不同，且右声道输出的狮子B对应的音频信号的音量大于左声道输出的狮子B对应的音频信号的音量。

本申请实施例中，对于画面2，电子设备首先识别到发声对象为狮子A和B，狮子C没有发出声音。在音频的处理上将左声道的狮子A、B对应的音频信号音量提高，将右声道的狮子A、B对应的音频信号音量降低，来呈现立体声的效果。参见图9中的(N1)-(N3)所示，电子设备基于左右声道的特性，在确定如图9中的(N1)所示的狮子A在图像的左侧区域，狮子B在图像的右侧区域的情况下，电子设备在音频的调整过程中需要将左声道狮子A对应的音频信号音量提高，并且将左声道的狮子B对应的音频信号音量降低。将右声道狮子A对应的音频信号音量降低，并且将左声道的狮子B对应的音频信号音量提高，以此来体现出立体声的效果，如此，在播放视频数据的过程中，播放到画面2时，不同位置突显不同发声对象的声音。示例性的，电子设备通过双声道音频输出模块的左右声道同时输出单声道音频数据，左右声道输出的音频数据的参考曲线如图9中的(N2)和(N3)所示，即两个声道输出的与狮子A和狮子B关联的音频数据的音频参数均不同，与风声关联的音频数据的音频参数相同。

步骤305、在输出视频数据的过程中，通过多声道音频输出模块的两个声道输出每一声道对应输出的目标音频数据。

有上述可知，本申请提供的信息处理方法，能够识别图像中的对象，以及这些对象中的发声对象，然后识别出声音包括声音a、声音b、声音c等；还能够识别非图片中的对象的其他声音以及声音的位置，也就是说，本申请不仅通过图像来识别，同时加入音频的因素，以确保识别到的对象是更加准确的，然后参考发声对象的位置，将声音分为左右声道，呈现对应位置的立体声。也就是说，本申请将单声道的声音源通过AI识别和物体位置标定等技术处理变为多声道，如此以确保用户有更好的影音体验，提升影音一体的感官效果。

当然，本申请提供的信息处理方法，还可以将单声道转换为多声道如至少三个声道的信号，比如是三通道，呈现更加立体声的效果。此时的应用场景包括多声道装置的播放设备，可以是家庭影院或者电影院，在多声道的场景下，可以借助空间三维信息，获得的坐标(x1，y1，z1)，在深度信息z1的标定中，需要考虑对象的大小变化。例如对象变大则说明对象离参考对象更加近，如果对象图像变小则说明远离参考对象，示例性的，发声对象距离参考对象更加近的时候z1更小，反之更大。如此，加入多维特征，实现更好的影音体验效果。

本申请的实施例提供一种信息处理装置，该信息处理装置可以应用于图1、2、4对应的实施例提供的一种信息处理方法中，参照图10所示，该信息处理装置5包括：

获取模块51，用于获取视频数据，视频数据包括多帧有序图像以及与多帧有序图像关联的单声道音频数据；

处理模块52，用于确定视频数据中发声对象的目标位置；

处理模块52，还用于基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据，多声道音频输出模块能输出每一声道对应输出的目标音频数据以呈现立体声。

在本申请的其他实施例中，目标位置包括视频数据的多帧有序图像中呈现的第一发声对象，在图像中的第一位置。

在本申请的其他实施例中，目标位置包括视频数据的单声道音频数据中呈现的第二发声对象，在单声道音频数据中的第二位置，第二发声对象与第一发声对象不同。

在本申请的其他实施例中，目标位置包括视频数据的多帧有序图像中呈现的第一发声对象相对于参考对象的第三位置，参考对象包括视频数据的采集模块。

在本申请的其他实施例中，多声道音频输出模块的与第一位置对应的第一声道，用于输出将单声道音频数据的音频参数向第一方向调整后得到的目标音频数据；

多声道音频输出模块中的第二声道，用于输出将单声道音频数据的音频参数向第二方向调整后得到的目标音频数据，第二声道包括多声道音频输出模块的与第一声道不同的声道，第一方向与第二方向相反。

在本申请的其他实施例中，处理模块52，还用于将多帧有序图像和单声道音频数据输入至经过训练得到的网络模型，得到发声对象和发声对象对应的音频数据，发声对象对应的音频数据组成单声道音频数据。

在本申请的其他实施例中，信息处理装置5还包括输出模块(图10中未示出)，用于在输出视频数据的过程中，通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据。

需要说明的是，本实施例中各单元所执行的步骤的具体实现过程，可以参照图1、2、4对应的实施例提供的信息处理方法中的实现过程，此处不再赘述。

本申请的实施例提供一种电子设备，该电子设备可以应用于图1、2、4对应的实施例提供的一种信息处理方法中，参照图11所示，该电子设备6(图11中的电子设备6与图10中的信息处理装置5对应)包括：处理器61、存储器62和通信总线63，其中：

通信总线63用于实现处理器61和存储器62之间的通信连接。

处理器61用于执行存储器62中存储的信息处理程序，以实现以下步骤：

获取视频数据，视频数据包括多帧有序图像以及与多帧有序图像关联的单声道音频数据；

确定视频数据中发声对象的目标位置；

基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据，

在本申请的其他实施例中，处理器61用于执行存储器62中存储的信息处理程序，以实现以下步骤：

将多帧有序图像和单声道音频数据输入至经过训练得到的网络模型，得到发声对象和发声对象对应的音频数据，发声对象对应的音频数据组成单声道音频数据。

在输出视频数据的过程中，通过多声道音频输出模块的各个声道输出每一声道对应输出的目标音频数据。

作为示例，处理器可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

需要说明的是，本实施例中处理器所执行的步骤的具体实现过程，可以参照图1、2、4对应的实施例提供的信息处理方法中的实现过程，此处不再赘述。

本申请的实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现以下步骤：

确定视频数据中发声对象的目标位置；

基于目标位置和单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据，多声道音频输出模块能输出每一声道对应输出的目标音频数据以呈现立体声。

在本申请的其他实施例中，该一个或者多个程序可被一个或者多个处理器执行，还可以实现以下步骤：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

确定所述视频数据中发声对象的目标位置；

2.根据权利要求1所述的方法，其特征在于，所述目标位置包括所述视频数据的所述多帧有序图像中呈现的第一发声对象，在所述图像中的第一位置。

3.根据权利要求1或2所述的方法，其特征在于，所述目标位置包括所述视频数据的所述单声道音频数据中呈现的第二发声对象，在所述单声道音频数据中的第二位置，所述第二发声对象与所述第一发声对象不同。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述目标位置包括所述视频数据的所述多帧有序图像中呈现的第一发声对象相对于参考对象的第三位置，所述参考对象包括所述视频数据的采集模块。

5.根据权利要求2所述的方法，其特征在于，

所述多声道音频输出模块的与所述第一位置对应的第一声道，用于输出将所述单声道音频数据的音频参数向第一方向调整后得到的所述目标音频数据；

6.根据权利要求1所述的方法，其特征在于，所述获取视频数据之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标位置和所述单声道音频数据，确定多声道音频输出模块的每一声道对应输出的目标音频数据之后，所述方法还包括：

8.一种信息处理装置，其特征在于，所述信息处理装置包括：

处理模块，用于确定所述视频数据中发声对象的目标位置；

9.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器和通信总线；

所述通信总线用于实现处理器和存储器之间的通信连接；

所述处理器用于执行存储器中存储的信息处理程序，以实现如权利要求1至7中任一项所述的信息处理方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的信息处理方法的步骤。