CN107193386B

CN107193386B - 音频信号处理方法及电子设备

Info

Publication number: CN107193386B
Application number: CN201710518007.6A
Authority: CN
Inventors: 丁琦城; 姚涔
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2020-10-27
Anticipated expiration: 2037-06-29
Also published as: CN107193386A

Abstract

一种音频信号处理方法，应用于电子设备，所述方法包括：获取与所述电子设备相关的场景信息；生成待输出的第一音频信号；基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号；输出所述第二音频信号。其中，所述获取与电子设备相关的场景信息包括：通过图像传感器采集所述电子设备所在的真实场景来获取的场景信息；或者获取所述电子设备呈现的虚拟场景对应的场景信息。

Description

音频信号处理方法及电子设备

技术领域

本发明涉及一种音频信号处理方法及电子设备，更具体地说，本发明涉及一种基于所述场景信息来处理音频信号的处理方法及电子设备。

背景技术

虚拟现实(Virtual Reality)技术以及增强现实(Augmented Reality)技术作为一种能够使用户在创造的虚拟场景或虚拟与现实结合的场景中获得沉浸式体验的技术，已经得到越来越多的关注。然而，如何提高虚拟场景的给用户带来的真实感是一个亟待解决的问题。通常，虚拟场景的真实感主要来自于视觉上的沉浸感以及声音上的真实感，而为了提高声音上的真实感，现有技术通常会考虑在虚拟场景中声音源的位置来模拟在真实场景的声音传播，诸如声音源在虚拟场景中的左侧，则设备的左声道输出该声音源对应的声音。

然而，对于在真实环境中的声音来说，声音所在的场景对于声音的传播也有很大的影响(例如，相同的声音在室内和在室外听到的效果是不同的)。这使由于物体在发出声波之后，声波经由空气传播接触到场景中的障碍物的表面发生反射形成回声，而通常音源发出的声音会产生来自各个方向的回声，这些回声混合在起形成混响，此外，声音在传播过程中也会被场景中的一些障碍物吸收一部分，因此，在虚拟场景中模拟真实声音不仅要考虑声音源的位置对声音传播的影响，而且还要考虑当前场景对声音的影响。

鉴于此，期望提供能够一种能够基于所在场景的场景信息来增强虚拟场景中的声音的真实感。

发明内容

鉴于以上课题完成本发明，其目的在于，提供一种音频信号处理方法及电子设备以改善在虚拟场景中声音的真实感。

根据本发明的一个方面，提供一种音频信号处理方法，应用于电子设备，所述音频信号处理包括：获取与所述电子设备相关的场景信息；生成待输出的第一音频信号；基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号；输出所述第二音频信号。

此外，根据本发明的一个实施例，其中，所述获取与电子设备相关的场景信息包括：通过图像传感器采集所述电子设备所在的真实场景来获取的场景信息；或者获取所述电子设备呈现的虚拟场景对应的场景信息。

此外，根据本发明的一个实施例，其中，所述基于所述场景信息对所述第一音频信号进行处理包括：检测在场景中的至少一个环境对象；获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息；基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号。

此外，根据本发明的一个实施例，所述音频信号处理方法还包括：当所述第一音频信号由所述场景信息中环境对象生成时，获取所述环境对象在场景中的方位信息；基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。

此外，根据本发明的一个实施例，所述音频信号处理方法还包括：当所述真实场景和/或虚拟场景信息发生变化时，重新获取与所述电子设备相关的场景信息；以及基于所述新获取的场景信息对所述第一音频信号进行处理。

根据本发明的另一方面，提供一种电子设备，包括：图像传感器，用于采集所述电子设备所在的真实场景；存储器，用于存储计算机程序指令；处理器，用于运行存储器上存储的所述计算机程序以执行以下功能：获取与电子设备相关的场景信息；生成待输出的第一音频信号；基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号；输出所述第二音频信号。

此外，根据本发明的一个实施例，其中，所述处理器被配置为执行所述计算机程序指令以进一步执行以下功能：获取通过图像传感器采集所述电子设备所在的真实场景对应的场景信息；或者获取设备呈现的虚拟场景对应的场景信息。

此外，根据本发明的一个实施例，其中，所述处理器被配置为执行所述计算机程序指令以进一步执行以下功能：检测在场景中的至少一个环境对象；获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息；基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号。

此外，根据本发明的一个实施例，其中，所述处理器被配置为执行所述计算机程序指令以进一步执行以下功能：当所述第一音频信号由所述场景信息中环境对象生成时，获取所述环境对象在场景中的方位信息；基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。

此外，根据本发明的一个实施例，其中，所述处理器被配置为执行所述计算机程序指令以进一步执行以下功能：当所述真实场景和/或虚拟场景信息发生变化时，重新获取与所述电子设备相关的场景信息；以及基于所述新获取的场景信息对所述第一音频信号进行处理。

根据本发明的另一方面，提供一种电子设备，包括：获取单元，配置为获取与所述电子设备相关的场景信息；生成单元，配置为生成待输出的第一音频信号；处理单元，配置为基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号；以及输出单元，配置为输出所述第二音频信号。

此外，根据本发明的一个实施例，其中，所述获取与电子设备相关的场景信息包括：通过采集所述电子设备所在的真实场景来获取的场景信息；或者获取设备呈现的虚拟场景对应的场景信息。

此外，根据本发明的一个实施例，其中，所述处理单元还配置为当所述第一音频信号由所述场景信息中环境对象生成时，获取所述环境对象在场景中的方位信息；基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。

此外，根据本发明的一个实施例，其中，当所述真实场景和/或虚拟场景信息发生变化时，所述获取单元重新获取与所述电子设备相关的场景信息；以及所述处理单元基于所述新获取的场景信息对所述第一音频信号进行处理。

由此可见，当用户利用虚拟现实、增强现实或是混合现实技术进行沉浸式体验时，通过本发明的上述方式，不仅对声音的来源进行模拟，还基于当前所在的场景和/或创建的虚拟场景对于声音的影响对所述场景中的音频信号进行进一步的处理，从而为用户提供更加真实的声音输出，增强了交互的真实性和趣味性，大大改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用于提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对发明的限制，在附图中：

图1是示出根据本发明实施例的音频信号处理方法的流程图；

图2是示出根据本发明实施例的电子设备的配置图；以及

图3是示出根据本发明实施例的电子设备的另一配置图。

具体实施方式

为了使得本发明实施例的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的各个实施例，在本说明书和附图中，具有基本上相同步骤和元素用相同的附图标记来表示，且对这些步骤和元素的重复解释将被省略。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例。基于本发明中描述的实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

在本发明的以下实施例中，所述音频信号处理方法不仅可以应用于便携式电子设备，而且还可以应用于非便携式电子设备。便携式电子设备可以包括但不限于智能电话、平板电脑、笔记本电脑、可穿戴设备，或个人数字助理等，非便携式电子设备可以包括桌上型计算机等。

首先，结合图1来说明根据本发明实施例的音频信号处理方法的基本流程。图1是示出根据本发明实施例的音频信号处理方法的流程图。

如图1所示，在步骤S101，获取与电子设备相关的场景信息。可以理解，用户在装备该可穿戴设备的情况下，用户所在的场景与该可穿戴设备所在的场景相同。而在电子设备与用户存在一定距离的情况下，所述方法也可以根据实际需求来获取电子设备或用户所在场景对应的场景信息。

根据本发明的一个实施例，在所述步骤S101中所获取的与电子设备相关的场景信息可以包括：通过图像传感器采集所述电子设备所在的真实场景来获取的场景信息，或者获取所述电子设备呈现的虚拟场景对应的场景信息。其中，所述图像传感器可以集成于或独立于所述电子设备。具体地，以可穿戴设备作为电子设备示例，在一情况下，用户装备该可穿戴设备在一会议室内，则通过图像传感器采集的图像来获取该会议室的场景信息，例如所述图像传感器使用飞行时间法(ToF,Time of Flight)测出物体轮廓边沿与设备间的相对距离后，这些轮廓信息可组成点云数据，最终得出该会议的3D影像。在另一情况下，当前的场景可以是虚拟场景或包含虚拟的对象，所述虚拟场景以及对象可以是利用相关技术构建的虚拟现实场景、增强现实场景以及混合现实场景之一。具体地，例如，用户可以使用该可穿戴设备进行增强现实体验，例如在用户在通过增强现实技术进行会议的情况下，用户实际身处于会议室中，但通过增强现实技术在真实的会议中构建了虚拟的办公桌、座椅等虚拟的环境对象，此时不仅获取该会议室中真实的场景信息，例如会议室的墙壁、天花板等，还要获取所虚拟构建的场景信息，例如所述的会议室中虚拟的办公桌、座椅等虚拟环境对象。或者，在用户使用该可穿戴设备进行虚拟现实体验的情况下，可穿戴设备为用户呈现的虚拟场景为森林，而用户实际身处于室内的房间中，在这种情况下，获取所虚拟构建的森林的图像作为场景信息，以及在所述场景信息中还包含树木、石头等其他虚拟环境对象。

接下来，在步骤S102，生成待输出的第一音频信号。其中，所述第一音频信号是指示声音源发出的声音的信号，例如所述声音可以是通过电子设备生成的系统提示音、旁白声音等，也可以是在当前场景中的某个对象发出的声音。

接下来，在步骤S103，基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号。

根据本发明的一个实施例，在所述步骤S103中基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号包括：检测在场景中的至少一个环境对象；获取所述环境对象的吸声系数、相对于该环境对象的距离信息，或其他影响声音传播的属性信息；基于至少一个所述属性信息处理所述第一音频信号。具体地，例如，当前场景为电子设备所在的会议室，则检测到所述会议室中的至少一个环境对象，如检测到有墙壁、办公桌。获取所述会议室内的墙壁、办公桌的吸声系数以及相对于所述墙壁、办公桌的距离信息。其中，所述墙壁、办公桌等环境对象的诸如吸声系数的属性信息可以预先存储于以数据库中，所述数据库可以存储于电子设备的存储介质或存储于服务器，在检测到所述环境对象后，对所述环境对象进行识别，并通过查找所述存储介质或服务器中存储的数据来获取所述环境对象对应的属性信息，例如检测到所述会议室的墙壁并识别所述墙壁为水泥材质，通过查找从数据库中获取水泥材质的吸声系数。然后，基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号，具体地，例如，可以基于至少一个所获取的吸声系数以及距离信息构建用于处理第一音频信号的音频处理函数，通过将原始生成的第一音频信号与音频处理函数进行卷积计算从而得到处理后的第二音频信号。其中，所述音频处理函数可以是由每个所述环境对象的属性信息分别构建的，在此情况下，所述第一音频信号可以与每个环境对象所对应构建的音频处理函数分别卷积后再将计算结果叠加而得到所述第二音频信号，也可以按照相对于用户或电子设备的距离对不同的环境对象对应的音频处理函数赋予不同的权重，即距离用户越近的环境对象对声音的影响越大而被赋予越大的权重，相反越远的环境对象对应的音频处理函数则被赋予越小的权重。或者，可以基于获取的所有环境对象的属性信息建立一个统一的音频处理函数作为表示当前场景对于在其中的声音的整体影响的函数，直接将第一音频信号与该函数进行运行而得到处理后的第二音频信号。可以理解，本文所述的基于至少一个所述属性信息处理所述第一音频信号并不限于上述计算方法，凡基于如上所述获取的至少一个所述属性信息对所述第一音频信号进行处理的适当运算或处理手段均可以适用。另外，如上所述，在一些情况下，场景中的一部分甚至全部环境对象是虚拟创建的。例如，当前场景为电子设备所在的会议室，在该会议室中真实存在有墙壁、天花板等真实环境对象，以及通过相关技术构建了虚拟的办公桌、座椅这样的虚拟环境对象，在这种情况下，可以检测在当前会议室内的真实环境对象：墙壁、天花板，也可以检测当前会议室内虚拟构建的办公桌和座椅，并获取所检测的所述真实以及虚拟环境对象的属性信息，然后基于至少一个所述属性信息处理所述第一音频信号。而在所在场景为虚拟场景的情况下，则检测该虚拟场景中的至少一个所虚拟构建的环节对象，获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息，并基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号。对于所检测的虚拟环境对象，可以预先将能被创建的虚拟环境对象的属性信息存储于如上所述的数据库中，并通过查找所述数据库来获取所述虚拟对象对应的属性信息。

根据本发明的另一实施例，当所述第一音频信号由所述场景信息中第二对象生成时，在所述步骤S103中，除获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息，并基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号以外，还包括：获取所述第二对象在场景中的方位信息；基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。具体地，例如，在用户通过增强现实技术来模拟面对面会议的情况下，当前场景为所在的会议室，并在该会议室内构建了虚拟的参会人员作为场景中的环境对象与用户进行交互，当所构建的该虚拟人物说话时，所对应产生的第一音频信号即为场景中的环境对象所生成，在这种情况下，不仅如上所述获取该虚拟人物以及其他环境对象的吸声系数，以及相对于环境对象的距离信息，还获取作为声音源的该虚拟人物的方位信息，并基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。具体地，如上所述，可以通过基于所获取的方位信息，至少一个所述吸声系数以及至少一个所述距离信息构建音频处理函数，或其他适当运算或处理手段来处理所述第一音频信号。

根据本发明的另一实施例，当在所述步骤S101中所获取的所述真实场景和/或虚拟场景信息发生变化时，重新获取与所述电子设备相关的场景信息；以及基于所述新获取的场景信息在步骤S103对所述第一音频信号进行处理。具体地，以可穿戴设备作为电子设备的示例，用户装配该可穿戴设备进行移动，使得当前电子设备所在的场景发生变化时，或者可以通过用户输入指令来改变所构建的虚拟场景或场景中虚拟对象导致当前场景发生变化时，导致所述电子设备相关的场景信息变化。此时，重新获取变化后的与电子设备相关的场景信息，并且基于新获取的场景信息在步骤S103对所述第一音频信号进行处理。

接下来，在步骤S104，输出所述第二音频信号。所述第二音频信号即为经上述处理后得到的音频信号，通过上述步骤对原始生成的音频信号进行处理，得到基于场景信息处理后的音频信号并输出，由此可以提高了场景中声音的真实性。例如，当与电子设备相关的场景为室内时，由于相对于场景中的环境对象的距离较近，并且大部分环境对象的吸引系数通常较小(如水泥、金属)，所以基于场景信息经过处理后的音频信号所指示的声音表现为比原始声音更强，这是由于模拟的回声延迟很小从而与原声叠加后造成的。而在场景是呈现为虚拟场景的森林时，由于场景中存在距离较远的环境对象，因此经处理后得到的第二音频信号所指示的声音表现为具有回声的声音。由此可见，可以实现更真实地模拟不同场景中的声音。

图2是示出根据本发明实施例的电子设备的配置图。

如图2所示，所述电子设备200，包括：图像传感器201，用于采集所述电子设备所在的真实场景；存储器202，用于存储计算机程序指令；处理器203，用于运行存储器上存储的所述计算机程序以执行以下功能：获取与电子设备相关的场景信息；生成待输出的第一音频信号,其中，所述第一音频信号是指示声音源发出的声音的信号，例如所述声音可以是通过电子设备生成的系统提示音、旁白声音等，也可以是在当前场景中的某个对象发出的声音；基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号；输出所述第二音频信号。其中，所述图像传感器201例如可以是CCD(Charge Coupled Device，电荷耦合元件)、CMOS(Complementary Metal-Oxide Semiconductor，金属氧化物半导体元件)，或者任何其他适合的能将捕捉的图像转换为电子信号的元件；所述存储器202例如可以是ROM、RAM、磁盘、光盘或诸如此类的存储介质；所述处理器203可以是诸如CPU(中央处理单元)、微处理器、DSP(数字信号处理)或诸如此类的元件。可以理解，图2中为了简化描述，仅仅示出与本发明紧密相关的组件，根据本发明实施例的电子设备200当然还可以包括其它组件或模块，诸如通信模块、电源管理模块等。

根据本发明的一个实施例，所述处理器203被配置为执行所述计算机程序指令以进一步执行以下功能：获取通过所述图像传感器201采集所述电子设备所在的真实场景对应的场景信息；或者获取设备呈现的虚拟场景对应的场景信息。具体地，例如可以通过图像传感器201采集所述电子设备所在的真实场景来获取的场景信息，或者获取所述电子设备200呈现的虚拟场景对应的场景信息。其中，所述图像传感器201可以集成于或独立于所述电子设备200。以可穿戴设备作为电子设备示例，在一情况下，用户装备该可穿戴设备在一会议室内，则通过图像传感器201采集的图像来获取该会议室的场景信息，例如所述图像传感器使用飞行时间法(ToF,Time of Flight)测出物体轮廓边沿与设备间的相对距离后，这些轮廓信息可组成点云数据，最终得出该会议的3D影像。在另一情况下，当前的场景可以是虚拟场景或包含虚拟的对象，所述虚拟场景以及对象可以是利用相关技术构建的虚拟现实场景、增强现实场景以及混合现实场景之一。具体地，例如，用户可以使用该可穿戴设备进行增强现实体验，例如在用户在通过增强现实技术进行会议的情况下，用户实际身处于会议室中，但通过增强现实技术在真实的会议中构建了虚拟的办公桌、座椅等虚拟的环境对象，此时不仅获取该会议室中真实的场景信息，例如会议室的墙壁、天花板等，还要获取所虚拟构建的场景信息，例如所述的会议室中虚拟的办公桌、座椅等虚拟环境对象。或者，在用户使用该可穿戴设备进行虚拟现实体验的情况下，可穿戴设备为用户呈现的虚拟场景为森林，而用户实际身处于室内的房间中，在这种情况下，获取所虚拟构建的森林的图像作为场景信息，以及在所述场景信息中还包含树木、石头等其他虚拟环境对象。可以理解，所获取的与电子设备相关的场景信息可以存储于存储器202中，处理器203通过读取存储器202中的数据从而获取所述与电子设备相关的场景信息。

根据本发明的一个实施例，所述处理器203被配置为执行所述计算机程序指令以进一步执行以下功能：检测在场景中的至少一个环境对象；获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息；基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号。具体地，例如，当前场景为电子设备所在的会议室，则检测到所述会议室中的至少一个环境对象，如检测到有墙壁、办公桌。获取所述会议室内的墙壁、办公桌的吸声系数，以及相对于所述墙壁、办公桌的距离信息，其中，所述墙壁、办公桌等环境对象的诸如吸声系数的属性信息可以预先存储于以数据库中，所述数据库可以存储于电子设备的存储器202中或存储于服务器，在检测到所述环境对象后，对所述环境对象进行识别，并通过查找所述存储介质或服务器中存储的数据来获取所述环境对象对应的属性信息，例如检测到所述会议室的墙壁并识别所述墙壁为水泥材质，通过查找从数据库中获取水泥材质的吸声系数。然后，基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号，具体地，例如，可以基于至少一个所获取的吸声系数以及距离信息构建用于处理第一音频信号的音频处理函数，通过将原始生成的第一音频信号与音频处理函数进行卷积计算从而得到处理后的第二音频信号。其中，所述音频处理函数可以是由每个所述环境对象的属性信息分别构建的，在此情况下，所述第一音频信号可以与每个环境对象所对应构建的音频处理函数分别卷积后再将计算结果叠加而得到所述第二音频信号，也可以按照相对于用户或电子设备的距离对不同的环境对象对应的音频处理函数赋予不同的权重，即距离用户越近的环境对象对声音的影响越大而被赋予越大的权重，相反越远的环境对象对应的音频处理函数则被赋予越小的权重。或者，可以基于获取的所有环境对象的属性信息建立一个统一的音频处理函数作为表示当前场景对于在其中的声音的整体影响的函数，直接将第一音频信号与该函数进行运行而得到处理后的第二音频信号。可以理解，本文所述的基于至少一个所述属性信息处理所述第一音频信号并不限于上述计算方法，凡基于如上所述获取的至少一个所述属性信息对所述第一音频信号进行处理的适当运算或处理手段均可以适用。另外，如上所述，在一些情况下，场景中的一部分甚至全部环境对象是虚拟创建的。例如，当前场景为电子设备所在的会议室，在该会议室中真实存在有墙壁、天花板等真实环境对象，以及通过相关技术构建了虚拟的办公桌、座椅这样的虚拟环境对象，在这种情况下，可以检测在当前会议室内的真实环境对象：墙壁、天花板，也检测当前会议室内虚拟构建的办公桌和座椅，并获取所检测的所述真实以及虚拟环境对象的属性信息，然后基于至少一个所述属性信息处理所述第一音频信号。而在所在场景为虚拟场景的情况下，则检测该虚拟场景中的至少一个所虚拟构建的环节对象，获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息，并基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号。对于所检测的虚拟环境对象，可以预先将能被创建的虚拟环境对象的属性信息存储于数据库中，并通过查找所述数据库来获取所述虚拟对象对应的属性信息。可以理解，所述数据库存储于所述存储器202或服务器中，处理器203通过读取存储器202或服务器中的数据从而获取所述虚拟对象对应的属性信息。

根据本发明的另一实施例，所述处理器203被配置为执行所述计算机程序指令以进一步执行以下功能：当所述第一音频信号由所述场景信息中第二对象生成时，获取所述第二对象在场景中的方位信息；基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。具体地，例如，在用户通过增强现实技术来模拟面对面会议的情况下，当前场景为所在的会议室，并在该会议室内构建了虚拟的参会人员作为场景中的环境对象与用户进行交互，当所构建的该虚拟人物说话时，所对应产生的第一音频信号即为场景中的环境对象所生成，在这种情况下，不仅如上所述获取该虚拟人物以及其他环境对象的吸声系数，以及相对于环境对象的距离信息，还获取作为声音源的该虚拟人物的方位信息，并基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。具体地，如上所述，可以通过基于所获取的方位信息，至少一个所述吸声系数以及至少一个所述距离信息构建音频处理函数，或其他适当运算或处理手段来处理所述第一音频信号。

根据本发明的另一实施例，所述处理器203被配置为执行所述计算机程序指令以进一步执行以下功能：当所述真实场景和/或虚拟场景信息发生变化时，重新获取与所述电子设备相关的场景信息；以及基于所述新获取的场景信息对所述第一音频信号进行处理。具体地，以可穿戴设备作为电子设备的示例，用户装配该可穿戴设备进行移动，使得当前电子设备所在的场景发生变化时，或者可以通过用户输入指令来改变所构建的虚拟场景或场景中虚拟对象导致当前场景发生变化时，导致所述电子设备相关的场景信息变化。此时，重新获取变化后的与电子设备相关的场景信息，并且基于新获取的场景信息对所述第一音频信号进行处理。

根据本发明的另一实施例，所述处理器203被配置为执行所述计算机程序指令以进一步执行以下功能：通过上述基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号，并将所述输出所述第二音频信号。所述第二音频信号即为经上述处理后得到的音频信号，通过上述步骤对原始生成的音频信号进行处理，得到基于场景信息处理后的音频信号并输出，由此可以提高了场景中声音的真实性。例如，当与电子设备相关的场景为室内时，由于相对于场景中的环境对象的距离较近，并且大部分环境对象的吸引系数通常较小(如水泥、金属)，所以基于场景信息经过处理后的音频信号所指示的声音表现为比原始声音更强，这是由于模拟的回声延迟很小从而与原声叠加后造成的。而在场景是呈现为虚拟场景的森林时，由于场景中存在距离较远的环境对象，因此经处理后得到的第二音频信号所指示的声音表现为具有回声的声音。由此可见，可以实现更真实地模拟不同场景中的声音。

图3是示出根据本发明实施例的电子设备的另一配置图。

如图3所示，所述电子设备300，包括：获取单元301，配置为获取与所述电子设备相关的场景信息；生成单元302，配置为生成待输出的第一音频信号；处理单元303，配置为基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号；输出单元304，配置为输出所述第二音频信号。可以理解，图3中为了简化描述，仅仅示出与本发明紧密相关的组件，根据本发明实施例的电子设备300当然还可以包括其它组件或模块，诸如存储单元等。

根据本发明的一个实施例，所述获取单元301获取与电子设备相关的场景信息包括：获取采集所述电子设备所在的真实场景对应的场景信息；或者获取设备呈现的虚拟场景对应的场景信息。具体地，例如在所述获取单元301中可以集成如上所述的图像传感器，从而获取单元301可以通过采集所述电子设备所在的真实场景来获取的场景信息，或者获取所述电子设备300呈现的虚拟场景对应的场景信息。以可穿戴设备作为电子设备示例，在一情况下，用户装备该可穿戴设备在一会议室内，则通过采集的图像来获取该会议室的场景信息，例如所述图像传感器使用飞行时间法(ToF,Time of Flight)测出物体轮廓边沿与设备间的相对距离后，这些轮廓信息可组成点云数据，最终得出该会议的3D影像。在另一情况下，当前的场景可以是虚拟场景或包含虚拟的对象，所述虚拟场景以及对象可以是利用相关技术构建的虚拟现实场景、增强现实场景以及混合现实场景之一。具体地，例如，用户可以使用该可穿戴设备进行增强现实体验，例如在用户在通过增强现实技术进行会议的情况下，用户实际身处于会议室中，但通过增强现实技术在真实的会议中构建了虚拟的办公桌、座椅等虚拟的环境对象，此时不仅获取该会议室中真实的场景信息，例如会议室的墙壁、天花板等，还要获取所虚拟构建的场景信息，例如所述的会议室中虚拟的办公桌、座椅等虚拟环境对象。或者，在用户使用该可穿戴设备进行虚拟现实体验的情况下，可穿戴设备为用户呈现的虚拟场景为森林，而用户实际身处于室内的房间中，在这种情况下，获取所虚拟构建的森林的图像作为场景信息，以及在所述场景信息中还包含树木、石头等其他虚拟环境对象。

根据本发明的一个实施例，所述处理单元303基于所述场景信息对所述第一音频信号进行处理包括：检测在场景中的至少一个环境对象；获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息；基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号。具体地，例如，当前场景为电子设备所在的会议室，则检测到所述会议室中的至少一个环境对象，如检测到有墙壁、办公桌。获取所述会议室内的墙壁、办公桌的吸声系数，以及相对于所述墙壁、办公桌的距离信息，基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号，具体地，例如，可以基于至少一个所获取的吸声系数以及距离信息构建用于处理第一音频信号的音频处理函数，通过将原始生成的第一音频信号与音频处理函数进行卷积计算从而得到处理后的第二音频信号。其中，所述音频处理函数可以是由每个所述环境对象的属性信息分别构建的，在此情况下，所述第一音频信号可以与每个环境对象所对应构建的音频处理函数分别卷积后再将计算结果叠加而得到所述第二音频信号，也可以按照相对于用户或电子设备的距离对不同的环境对象对应的音频处理函数赋予不同的权重，即距离用户越近的环境对象对声音的影响越大而被赋予越大的权重，相反越远的环境对象对应的音频处理函数则被赋予越小的权重。或者，可以基于获取的所有环境对象的属性信息建立一个统一的音频处理函数作为表示当前场景对于在其中的声音的整体影响的函数，直接将第一音频信号与该函数进行运行而得到处理后的第二音频信号。可以理解，本文所述的基于至少一个所述属性信息处理所述第一音频信号并不限于上述计算方法，凡基于如上所述获取的至少一个所述属性信息对所述第一音频信号进行处理的适当运算或处理手段均可以适用。另外，如上所述，在一些情况下，场景中的一部分甚至全部环境对象是虚拟创建的。例如，当前场景为电子设备所在的会议室，在该会议室中真实存在有墙壁、天花板等真实环境对象，以及通过相关技术构建了虚拟的办公桌、座椅这样的虚拟环境对象，在这种情况下，可以检测在当前会议室内的真实环境对象：墙壁、天花板，也检测当前会议室内虚拟构建的办公桌和座椅，并获取所检测的所述真实以及虚拟环境对象的属性信息，然后基于至少一个所述属性信息处理所述第一音频信号。而在所在场景为虚拟场景的情况下，则检测该虚拟场景中的至少一个所虚拟构建的环节对象，获取所述环境对象的吸声系数，以及相对于所述环境对象的距离信息，并基于至少一个所述吸声系数以及至少一个所述距离信息处理所述第一音频信号。对于所检测的虚拟环境对象，可以预先将能被创建的虚拟环境对象的属性信息存储于数据库中，并通过查找所述数据库来获取所述虚拟对象对应的属性信息。

根据本发明的另一实施例，所述处理单元303还配置为当所述第一音频信号由所述场景信息中第二对象生成时，获取所述第二对象在场景中的方位信息；基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。具体地，例如，在用户通过增强现实技术来模拟面对面会议的情况下，当前场景为所在的会议室，并在该会议室内构建了虚拟的参会人员作为场景中的环境对象与用户进行交互，当所构建的该虚拟人物说话时，所对应产生的第一音频信号即为场景中的环境对象所生成，在这种情况下，不仅如上所述获取该虚拟人物以及其他环境对象的吸声系数，以及相对于环境对象的距离信息，还获取作为声音源的该虚拟人物的方位信息，并基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。具体地，如上所述，可以通过基于所获取的方位信息，至少一个所述吸声系数以及至少一个所述距离信息构建音频处理函数，或其他适当运算或处理手段来处理所述第一音频信号。

根据本发明的另一实施例，当所述真实场景和/或虚拟场景信息发生变化时，所述获取单元301重新获取与所述电子设备相关的场景信息；以及所述处理单元303基于所述新获取的场景信息对所述第一音频信号进行处理。具体地，以可穿戴设备作为电子设备的示例，用户装配该可穿戴设备进行移动，使得当前电子设备所在的场景发生变化时，或者可以通过用户输入指令来改变所构建的虚拟场景或场景中虚拟对象导致当前场景发生变化时，导致所述电子设备相关的场景信息变化。此时，获取单元301重新获取变化后的与电子设备相关的场景信息，并且处理单元303基于新获取的场景信息对所述第一音频信号进行处理。

根据本发明的另一实施例，基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号，所述输出单元304将得到第二音频信号输出。所述第二音频信号即为经上述处理后得到的音频信号，通过上述步骤对原始生成的音频信号进行处理，得到基于场景信息处理后的音频信号并输出，由此可以提高了场景中声音的真实性。例如，当与电子设备相关的场景为室内时，由于相对于场景中的环境对象的距离较近，并且大部分环境对象的吸引系数通常较小(如水泥、金属)，所以基于场景信息经过处理后的音频信号所指示的声音表现为比原始声音更强，这是由于模拟的回声延迟很小从而与原声叠加后造成的。而在场景是呈现为虚拟场景的森林时，由于场景中存在距离较远的环境对象，因此经处理后得到的第二音频信号所指示的声音表现为具有回声的声音。由此可见，可以实现更真实地模拟不同场景中的声音。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频信号处理方法，应用于电子设备，所述方法包括：

获取与所述电子设备相关的场景信息，所述场景信息包括真实场景和呈现的虚拟场景两者对应的场景信息；

生成待输出的第一音频信号；

基于所述场景信息对所述第一音频信号进行处理，得到第二音频信号；

输出所述第二音频信号；

其中，所述基于所述场景信息对所述第一音频信号进行处理包括：

检测在场景中的环境对象，所述环境对象包括真实的环境对象和虚拟的环境对象；

获取所述环境对象的吸声系数，以及用户相对于所述环境对象的距离信息；

基于至少一个所述吸声系数以及至少一个所述距离信息构建音频处理函数，所述音频处理函数是基于所述环境对象中的每个而分别构建的，并且根据所述距离信息对各音频处理函数赋予相应的权重；以及

通过将所述第一音频信号与每个环境对象所对应构建的音频处理函数分别卷积后再将计算结果叠加而得到所述第二音频信号。

2.根据权利要求1所述的方法，还包括：

当所述第一音频信号由所述场景信息中环境对象生成时，获取所述环境对象在场景中的方位信息；

基于所述方位信息，至少一个所述吸声系数以及至少一个所述距离信息，处理所述第一音频信号。

3.根据权利要求1所述的方法，还包括：

当所述真实场景和/或虚拟场景信息发生变化时，重新获取与所述电子设备相关的场景信息；以及

基于所述新获取的场景信息对所述第一音频信号进行处理。

4.一种电子设备，包括：

图像传感器，用于采集所述电子设备所在的真实场景；

存储器，用于存储计算机程序指令；

处理器，用于运行存储器上存储的所述计算机程序以执行以下功能：

获取与电子设备相关的场景信息，所述场景信息包括真实场景和呈现的虚拟场景两者对应的场景信息；

生成待输出的第一音频信号；

输出所述第二音频信号；

其中，所述处理器被配置为执行所述计算机程序指令以进一步执行以下功能：

5.根据权利要求4所述的电子设备，其中，所述处理器被配置为执行所述计算机程序指令以进一步执行以下功能：

6.根据权利要求4所述的电子设备，其中，所述处理器被配置为执行所述计算机程序指令以进一步执行以下功能：

基于所述新获取的场景信息对所述第一音频信号进行处理。