CN117044233A

CN117044233A - 情境感知声景控制

Info

Publication number: CN117044233A
Application number: CN202280021289.8A
Authority: CN
Inventors: 双志伟; 马远星; 刘阳
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2021-04-29
Filing date: 2022-04-28
Publication date: 2023-11-10
Also published as: CN117083673A

Abstract

公开了情境感知声景控制的实施例。在实施例中，一种音频处理方法包括：使用移动设备上的第一组麦克风捕获来自音频场景的第一音频信号；使用一副耳塞上的第二组麦克风捕获来自所述音频场景的第二音频信号；使用所述移动设备上的相机捕获来自视频场景的视频信号；利用至少一个处理器从所述第一音频信号和所述第二音频信号生成经处理的音频信号，所述经处理的音频信号是基于情境信息通过自适应声景控制来生成的；以及利用所述至少一个处理器将所述经处理的音频信号与所捕获的视频信号进行组合以作为多媒体输出。

Description

情境感知声景控制

相关申请的交叉引用

本申请要求于2021年6月7日提交的美国临时专利申请号63/197,588、于2021年6月1日提交的美国临时专利申请号63/195,576、于2021年5月12日提交的国际申请号PCT/CN2021/093401以及于2021年4月29日提交的国际申请号PCT/CN2021/090959的优先权权益，这些专利申请通过援引并入本文。

技术领域

本公开总体上涉及音频信号处理，并且更特别地涉及用户生成内容(UGC)的创建和播放。

背景技术

UGC通常由消费者创建，并且可以包括任何形式的内容(例如，图像、视频、文本、音频)。UGC通常由其创建者发布到在线平台，包括但不限于社交媒体、博客、Wiki^TM等。与UGC有关的一个趋势是在多变的环境(例如，室内、室外、海边)下通过使用个人移动设备(例如，智能电话、平板计算机、可穿戴设备)录制视频和音频来分享个人动态。由于消费类硬件限制和非专业录音环境，大多数UGC内容都包含音频伪影。传统的UGC处理方式是基于音频信号分析或基于人工智能(AI)的降噪和增强处理。处理UGC的一个难点在于如何处理不同音频环境中的不同声音类型，同时保持内容创建者的创作目标。

发明内容

公开了情境感知声景控制的实施例。

在一些实施例中，一种音频处理方法包括：使用移动设备上的第一组麦克风捕获来自音频场景的第一音频信号；使用一副耳塞上的第二组麦克风捕获来自所述音频场景的第二音频信号；使用所述移动设备上的相机捕获来自视频场景的视频信号；利用至少一个处理器从所述第一音频信号和所述第二音频信号生成经处理的音频信号，所述经处理的音频信号是基于情境信息通过自适应声景控制来生成的；以及利用所述至少一个处理器将所述经处理的音频信号与所捕获的视频信号进行组合以作为多媒体输出。

在一些实施例中，进行自适应声景控制的所述经处理的音频信号是通过以下方式中的至少一项来获得的：将所述第一音频信号和所述第二音频信号进行混合；或者基于所述情境信息选择所述第一音频信号或所述第二音频信号之一。

在一些实施例中，所述情境信息包括语音位置信息、用于视频捕获的所述相机的相机标识符或所述第一音频信号的至少一个声道配置中的至少一项。

在一些实施例中，所述语音位置信息指示所述音频场景的多个区域中存在语音。

在一些实施例中，所述多个区域包括自身区域、前区域和侧区域，来自自身区域的第一语音是佩戴所述耳塞的第一说话人的自身语音，来自所述前区域的第二语音是在用于视频捕获的所述相机的前区域中未佩戴所述耳塞的第二说话人的语音，并且来自所述侧区域的第三语音是佩戴所述耳塞的所述第一说话人左侧或右侧的第三说话人的语音。

在一些实施例中，用于视频捕获的所述相机是前置相机或后置相机之一。

在一些实施例中，所述第一音频信号的所述至少一个声道配置至少包括麦克风布局和用于捕获所述第一音频信号的所述移动设备的取向。

在一些实施例中，所述至少一个声道配置包括单声道配置和立体声声道配置。

在一些实施例中，所述语音位置信息是使用音频场景分析或视频场景分析中的至少一种来检测的。

在一些实施例中，所述音频场景分析包括自身外部语音分段或外部语音到达方向(DOA)估计中的至少一种。

在一些实施例中，所述自身外部语音分段是使用来自嵌入所述耳塞中的至少一个耳机中的骨传导传感器的骨传导测量来实施的。

在一些实施例中，所述外部语音DOA估计采用来自所述第一音频信号和所述第二音频信号的输入，并从所述输入中提取空间音频特征。

在一些实施例中，所述空间特征至少包括声道间声级差。

在一些实施例中，所述视频场景分析包括说话人检测和定位。

在一些实施例中，所述说话人检测是通过面部识别来实施的，所述说话人定位是通过基于由所述面部识别提供的面部区域和来自用于视频信号捕获的所述相机的焦距信息来估计说话人与所述相机的距离来实施的。

在一些实施例中，对所述第一音频信号和所述第二音频信号的混合或选择进一步包括对所述第一音频信号和所述第二音频信号的一个或多个方面进行调整的预处理步骤。

在一些实施例中，所述一个或多个方面包括音色、响度或动态范围中的至少一项。

在一些实施例中，所述方法进一步包括对所述混合音频信号或所选择的音频信号的一个或多个方面进行调整的后处理步骤。

在一些实施例中，所述一个或多个方面包括通过使所述混合音频信号或所选择的音频信号的侧分量衰减来调整所述混合音频信号或所选择的音频信号的宽度。

在一些实施例中，一种音频处理系统包括：一个或多个处理器；以及非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令当由所述一个或多个处理器执行时使所述一个或多个处理器执行前述方法中的任何一种方法。

在一些实施例中，一种非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令当由一个或多个处理器执行时使所述一个或多个处理器执行前述方法中的任何一种方法。

本文公开的特定实施例提供了以下优点中的一个或多个。所公开的情境感知声景控制实施例可以用于双耳录音，以捕获逼真的双耳声景，同时保持内容创建者的创造性目标。

附图说明

在附图中，为了便于描述，示出了示意性元素的特定布置或排序，如那些表示设备、单元、指令块和数据元素的示意性元素。然而，本领域技术人员应当理解，附图中示意性元素的特定排序或布置并不意味着暗示需要特定处理次序或顺序或者过程分离。进一步地，在附图中包括示意性元件并不意味着在所有实施例中都需要这种元件，或者在一些实施例中，由这种元件表示的特征可以不包括在其他元件中或与其他元件组合。

进一步地，在附图中，在使用如实线或虚线或箭头等连接元素来说明两个或更多个其他示意性元素之间的连接、关系或关联的情况下，不存在任何这种连接元素并不意味着暗示不可能存在连接、关系或关联。换句话说，未在附图中示出元素之间的一些连接、关系或关联性，以免模糊本公开。另外，为了便于图示，使用单个连接元素来表示元素之间的多个连接、关系或关联性。例如，在连接元素表示信号、数据或指令的通信的情况下，本领域的技术人员应理解，这样的元素表示为了影响通信而可能需要的一条或多条信号路径。

图1图示了根据实施例的使用耳塞和移动设备的双耳录音。

图2A图示了根据实施例的当用户握持的移动设备处于面向前方的位置时的音频捕获情况。

图2B图示了根据实施例的当用户握持的移动设备处于面向后方或“自拍”的位置时的音频捕获情况。

图3是根据实施例的用于情境感知声景控制的系统的框图。

图4是根据实施例的情境感知声景控制的过程的流程图。

图5是根据实施例的用于实施参考图1至图4描述的特征和过程的示例设备架构的框图。

各附图中使用的相同附图标记指示相似的元素。

具体实施方式

在以下具体实施方式中，阐述了许多具体细节以提供对所描述的各种实施例的全面理解。对于本领域普通技术人员而言将明显的是，可以在没有这些具体细节的情况下实践所描述的各种实施例。在其他实例中，并未详细描述熟知方法、过程、部件以及电路以免不必要地模糊实施例的各方面。下文描述了几个特征，每个特征可以彼此独立使用或者与其他特征的任何组合一起使用。

所公开的情境感知音频处理包括以下步骤。首先，双耳捕获设备(例如，一副耳塞)记录多声道输入音频信号(例如，双耳左(L)和右(R))，并且播放设备(例如，智能手机、平板计算机或其他设备)通过多个扬声器呈现多声道音频录音。录音设备和播放设备可以是同一台设备、两台连接的设备或两台分开的设备。用于多扬声器呈现的扬声器计数至少为三个。在一些实施例中，扬声器计数为三个。在其他实施例中，扬声器计数为四个。

捕获设备包括情境检测单元，用于检测音频捕获的情境，并且基于检测到的情境来引导音频处理和呈现。在一些实施例中，情境检测单元包括将捕获到的环境分类为若干种事件类型的机器学习模型(例如，音频分类器)。对于每种事件类型，应用不同的音频处理配置文件，以通过多个扬声器进行适当的呈现。在一些实施例中，情境检测单元是基于视觉信息将环境分类为若干种事件类型的场景分类器。对于每种事件类型，应用不同的音频处理配置文件，以通过多个扬声器进行适当的呈现。情境检测单元也可以是基于视觉信息、音频信息和传感器信息的组合。

在一些实施例中，捕获设备或播放设备至少包括降噪系统，所述降噪系统生成降噪的感兴趣的目标声音事件和残余环境噪声。感兴趣的目标声音事件通过音频分类器进一步分类为不同的事件类型。目标声音事件的一些示例包括但不限于语音、噪声或其他声音事件。根据情境检测单元的不同，在不同的捕获情境中，源类型也不同。

在一些实施例中，播放设备通过应用不同的声源和环境噪声混合比并根据分类的事件类型应用不同的均衡(EQ)和动态范围控制(DRC)来在多个扬声器上呈现感兴趣的目标声音事件。

在一些实施例中，情境可以是语音位置信息，比如场景中的人数及其相对于捕获设备的位置。情境检测单元基于音频信息来实施语音到达方向(DOA)估计。在一些实施例中，可以使用基于视觉信息的面部识别技术来确定情境。

在一些实施例中，情境信息被映射到特定的音频处理配置文件，以创建适当的声景。特定的音频处理配置文件将至少包括特定的混合比。

术语解释

如本文所使用的，术语“包括”及其变体应被理解为意思是“包括但不限于”的开放式术语。除非上下文另外明确指出，否则术语“或”应被理解为“和/或”。术语“基于”应被理解为“至少部分地基于”。术语“一个示例实施例”和“示例实施例”应被理解为“至少一个示例实施例”。术语“另一个实施例”应理解为“至少一个其他实施例”。术语“确定”应被理解为获得、接收、计算、估算、估计、预测或得到。另外，在以下描述和权利要求中，除非另外定义，否则本文所使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。

示例系统

图1图示了根据实施例的使用耳塞102和移动设备101的双耳录音。系统100包括一个两步过程，即，利用移动设备101(例如，智能电话)的视频摄像机录制视频，并同时录制与视频录制相关联的音频。在实施例中，音频录制可以通过例如移动设备101记录由耳塞102中嵌入的麦克风输出的音频信号来进行。音频信号可以包括但不限于用户所说的评论和/或环境声音。如果同时使用左右两个麦克风，则可以捕获双耳录音。在一些实施方式中，也可以使用嵌入或附接到移动设备101的麦克风。

图2A图示了根据实施例的当用户握持的移动设备101处于面向前方的位置并使用后置相机时的音频捕获情况。在该示例中，相机捕获区域200a位于用户前方。用户佩戴一副耳塞102a、102b，每个耳机都包括一个麦克风，分别捕获左/右(双耳)声，这些声音组合成双耳录音流。嵌入移动设备101的麦克风103a至103c分别捕获左声、前声和右声，并生成音频录音流，所述音频录音流与双耳录音流同步并在嵌入或耦接到移动设备101的扬声器上呈现。

图2B图示了根据实施例的当用户握持的移动设备处于面向前方(“自拍”模式)的位置并使用前置相机时的音频捕获情况。在该示例中，相机捕获区域200b位于用户后方。用户佩戴耳塞102a、102b，每个耳机都包括一个麦克风，分别捕获左/右(双耳)声，这些声音组合成双耳录音流。嵌入移动设备101的麦克风103a至103c分别捕获左声、前声和右声，并生成音频录音流，所述音频录音流与双耳录音流同步并在耦接到移动设备101的扬声器上呈现。

图3是根据实施例的用于情境感知声景控制的系统300的框图。系统300包括预处理单元302a和302b、声景控制单元303、后处理单元304和情境分析单元301。

在一些实施例中，情境分析单元301将视觉信息(例如，数字图片、视频记录)、音频信息(例如，音频记录)或视觉信息与音频信息的组合作为输入。在其他实施例中，其他传感器数据也可以单独或与音频和视觉信息组合使用来确定情境，比如耳塞102上的骨传导传感器的传感器数据。在一些实施例中，情境信息可以映射到特定的音频处理配置文件，以进行声景控制。特定音频处理配置文件至少可以包括特定的混合比，以用于将由移动设备上的第一组麦克风捕获的第一音频信号和/或由耳塞上的第二组麦克风捕获的第二信号进行混合，或者对第一音频信号或第二音频信号进行选择。混合或选择由情境分析单元301控制。

情境感知声景控制

通过如参考图1至图3所述的移动设备和耳塞上载有的多个麦克风，可以有多种方法将这些麦克风输入进行组合，以创建双耳声景，并提供不同的权衡，例如，清晰度与沉浸感之间的权衡。所公开的情境感知声景控制使用情境信息对内容创建者的意图进行合理估计，并相应地创建双耳声景。具体的权衡会根据相机的操作模式以及移动设备上麦克风的配置而有所不同。

A.移动设备上的麦克风生成单声道音频流

1.相机在普通模式下操作

在这种场景下，移动设备(例如，智能电话)的后置相机由位于后置相机后方的佩戴耳塞的用户(如图2A所示)操作，并且因此用户及其耳塞的麦克风距离声源较远，所述声源可以是感兴趣的对象(例如，由移动设备的内置视频相机录制的对象)。在这种场景下，将由移动设备的麦克风捕获的音频与由耳塞的麦克风捕获的音频进行混合可以提高相机捕获区域200a中声源的信噪比(SNR)。然而，这种场景也可能导致用户体验到的音频场景的沉浸感有所下降。在这样的场景下，可以使用情境信息(例如，见图3)来自动选择音频捕获处理配置文件，以便在不同的情况下生成适当的声景。

在一种情况下，情境信息包括语音位置信息。例如，如果相机捕获区域200a中存在说话人，则用户的意图很可能是捕获说话人的语音，并且因此提高语音的SNR可能会降低声景的整体沉浸感。另一方面，如果相机捕获区域200a中不存在说话人，则用户的意图很可能是捕获风景(例如，海浪的环境音频)，从而使声景的整体沉浸感成为用户更优先考虑的因素。

在一些实施例中，语音位置信息可以通过音频场景分析来提供。例如，音频场景分析可以包括自身外部语音分段和外部语音DOA估计。在一些实施例中，自身外部语音分段可以利用骨传导传感器来实施。在一些实施例中，外部语音DOA估计可以采用来自耳塞和移动设备上的多个麦克风的输入，从而提取如声道间声级差和声道间相位差等特征。在相机前区域中检测到外部语音的情况下，认为相机前区域中存在说话人。

在一些实施例中，语音位置信息也可以通过视频场景分析来提供。例如，视频场景分析可以包括面部识别以及基于面部区域和焦距信息对说话人距离的估计。面部识别可以使用在计算机视觉中使用的一种或多种机器学习算法。

在一些实施例中，说话人与相机的距离由下式给出：

其中，f₀为焦距，单位为mm(毫米)，h_f为人脸的典型高度，单位为mm，P_s为图像传感器的高度，单位为像素，h_s为图像传感器的高度，单位为mm，P_i为识别到的脸部高度，单位为像素，并且d为脸部与相机的距离，单位为mm。

在相机捕获区域200a中——例如在后置相机前方2米内——识别到视频中的脸部的情况下，将认为相机捕获区域200a中存在说话人。

在一些实施例中，语音位置信息也可以通过将前述的音频场景分析和视频场景分析进行组合来提供。例如，只有当音频场景分析和视频场景分析两者均表明相机捕获区域200a中存在说话人时，才认为相机捕获区域200a中存在一个或多个说话人。

在相机捕获区域200a中存在说话人的情况下，将由智能电话捕获的音频与由耳塞捕获的双耳音频进行混合。如下式给出：

L′＝α_LS++βL，

[2]

R′＝α_RS+βR，

[3]

其中，L和R分别是由耳塞捕获的双耳音频的左声道和右声道，S是由移动设备捕获的附加音频声道，β是双耳信号L和R的混合比，并且α_L和α_R是附加音频声道S的混合比。

混合比α_L和α_R可以是相同的值，即，α_L＝α_R＝α，也可以例如使用以下公式[4]和[5]通过DOA估计对这些混合比进行调整：

其中，θ通过DOA估计给出。

在这两种情况下，α+β＝1，α的值范围为0.1至0.5，并且其典型值为0.3。当前区域中不存在说话人时，α＝0，这样音频就完全来自耳塞，以保持沉浸感。

2.相机在自拍模式下操作

在自拍模式下，使用前置相机，并且佩戴耳塞的用户位于相机视野(FOV)(图2B中的相机捕获区域200b)内。当FOV中有多于一位说话人时，由麦克风捕获的外部语音可能会使声景偏向一侧，因为外部说话人通常与佩戴耳塞的用户并排站立。为了更好地实现音频/视频的一致性，在一些实施例中引入了声景宽度控制。然而，宽度控制是以整体声景的沉浸感为代价的。在自拍相机模式下，可以利用情境信息以自动选择更适合自拍相机模式的音频捕获处理配置文件。

在一些实施例中，情境信息包括语音位置信息。如果场景中存在多于一位说话人，则用户的意图最有可能是捕获说话人的语音，并且可以使用声景宽度控制来平衡声景。语音位置信息可以通过例如视频场景分析来提供。在一些实施方式中，视频场景分析包括面部识别以及基于面部区域和焦距信息对说话人距离的估计。

面部识别可以使用在计算机视觉中使用的一种或多种机器学习算法。在一些实施例中，说话人与相机的距离由下式给出：

其中，f₀为焦距，单位为mm(毫米)，h_f为人脸的典型高度，单位为mm，P_s为图像传感器的高度，单位为像素，h_s为图像传感器的高度，单位为mm，P_i为识别到的脸部高度，单位为像素，并且d为脸部与相机的距离，单位为mm。在检测到多张脸部且其与相机的距离相近(例如，当手持智能电话时，距离为0.5m，或者当智能电话安装在自拍杆上时，距离为1.5m)的情况下，可以应用声景宽度控制。

在一些实施例中，语音位置信息也可以通过音频场景分析来提供。在一些实施例中，场景分析包括自身外部语音分段和外部语音DOA估计。在一些实施例中，自身外部语音分段可以利用骨传导传感器来实施。外部语音DOA估计可以采用来自耳塞和智能电话上的多个麦克风的输入，并提取如声道间声级差和声道间相位差等特征。当耳塞用户一侧检测到外部语音时，由于用户的嘴部靠近耳塞的麦克风，其响度指示为自身语音，则认为有另外的说话人站在佩戴耳塞的用户旁边，因此应用声景宽度控制。

在一些实施例中，声景宽度控制是通过使双耳音频的侧分量衰减来实现的。首先，通过下式将输入双耳音频转换为中间-侧(M/S)表示：

M＝0.5(L+R)，

[6]

S＝0.5(L-R)，

[7]

其中，L和R是输入音频的左声道和右声道，而M和S分别是转换后得出的中间分量和侧分量。

侧声道的衰减因子为α，并且经处理的输出音频信号由下式给出：

L′＝M+αS，

[8]

R′＝M-αS。

[9]

对于移动设备上的典型自拍相机模式，衰减因子α的范围为0.5至0.7。

在另一示例中，声景宽度控制是通过将由移动设备捕获的音频与由耳塞捕获的双耳音频进行混合来实现的，由下式给出：

L′＝αS+βL，

[10]

R′＝αS+βR。

[11]

其中，α+β＝1，并且α的值范围为0.1至0.5，并且其典型值为0.3。

B.移动设备上的麦克风生成A-B立体声音频流

1.相机在普通模式下操作

在普通相机模式下，使用移动设备的后置相机，并且佩戴耳塞的用户位于相机后方，并且因此与感兴趣的对象距离较远。在该场景中，由移动设备的麦克风捕获的A-B立体声提供声景的沉浸式体验，同时由于麦克风与相机搭载在同一设备上而使音频/视频(A/V)保持一致(例如，对音频和视频中说话人位置的感知保持一致)。但是，当用户正在说话，例如，作为旁白员介绍场景时，A-B立体声录音中的旁白员音轨会经常围绕中心移动，这是因为旁白员在移动相机向不同方向拍摄时经常会略微偏离麦克风的轴线。在该示例场景中，利用情境信息以在不同的情况下自动生成适当的声景。在一种情况下，情境可以是语音位置信息。在一些实施例中，语音位置信息可以通过音频场景分析来提供。在一些实施例中，场景分析涉及自身外部语音分段。在一些实施例中，自身外部语音分段利用骨传导传感器来实施。

在自身语音片段中，由耳塞捕获的音频与由移动设备录制的A-B立体声进行混合，如由下式给出：

L′＝αL_AB+βL_Bud，

[11]

R′＝αR_AB+βR_Bud，

[12]

其中，L′和R′是混合音频的左声道和右声道，L_AB和R_AB是A-B立体声录音的左声道和右声道，L_Bud和R_Bud是耳塞录音的左声道和右声道，α+β＝1，并且α的值范围为约0.0至约0.3并且其典型值为约O.1。

2.相机处于自拍模式

在自拍模式下，使用自拍相机，并且用户处于与相机方向相反的场景中。由移动电话的麦克风生成的A-B立体声具有更好的音频和视频一致性。然而，当自拍相机中只有一位说话人充当旁白员时，A-B立体声录音中的旁白员音轨会经常围绕中心移动，这是因为旁白员在移动相机向不同方向拍摄时经常会略微偏离麦克风的轴线。在该示例场景中，利用情境感知以在不同的情况下自动选择合适的音频捕获处理配置文件。在一些实施例中，情境可以是语音位置信息。如果场景中存在多于一位说话人，则用户的意图最有可能是捕获说话人的语音，并且可以使用声景宽度控制来平衡声景。

在一些实施例中，语音位置信息可以通过视频场景分析来提供。在一些实施例中，场景分析包括面部识别以及基于面部区域和焦距信息对说话人与相机的距离的估计。面部识别可以使用在计算机视觉中使用的一种或多种机器学习算法。说话人与相机的距离d由下式给出：

在检测到多张脸部且其与相机的距离相近(例如，当手持智能电话时，距离为0.5m，或者当智能电话安装在自拍杆上时，距离为1.5m)的情况下，将A-B立体声流用作输出。如果未检测到脸部，则将由耳塞捕获的双耳音频流用作输出。

在一些实施例中，语音位置信息也可以通过音频场景分析来提供。在一种情况下，场景分析包括自身外部语音分段和外部语音DOA估计。在一些实施例中，自身外部语音分段可以利用骨传导传感器来实施。在一些实施例中，外部语音DOA估计可以采用来自耳塞和移动设备上的多个麦克风的输入，从而提取如声道间声级差和声道间相位差等特征。当用户一侧检测到外部语音、其响度水平指示为自身语音时，则认为用户旁边存在另一位说话人，并将A-B立体声流用作输出。如果未检测到外部语音，则将由耳塞的麦克风捕获的双耳音频流用作输出。

示例过程

图4是根据实施例的情境感知声景控制的过程400的流程图。过程400可以使用例如参考图5描述的设备架构500来实施。

在一些实施例中，过程400包括：使用移动设备上的第一组麦克风捕获来自音频场景的第一音频信号(401)；使用一副耳塞上的第二组麦克风捕获来自音频场景的第二音频信号(402)；使用移动设备上的相机捕获来自视频场景的视频信号(403)；利用至少一个处理器基于情境信息通过自适应声景控制从第一音频信号和第二音频信号生成经处理的音频信号(404)；以及将经处理的音频信号与捕获的视频信号进行组合以作为多媒体输出(405)。上文参考图1至图3描述了这些步骤中的每一个步骤。

示例系统架构

图5示出了适合于实施参考图1至图10描述的示例实施例的示例系统500的框图。系统500包括中央处理单元(CPU)501，所述中央处理单元能够根据存储在例如只读存储器(ROM)502中的程序或者从例如存储单元508加载到随机存取存储器(RAM)503的程序来执行各种进程。在RAM 503中，根据需要，还存储CPU 501执行各种进程时所需的数据。CPU 501、ROM 502和RAM 503经由总线504相互连接。输入/输出(I/O)接口505也连接到总线504。

以下部件连接到I/O接口505：输入单元506，其可以包括键盘、鼠标等；输出单元507，其可以包括如液晶显示器(LCD)等显示器以及一个或多个扬声器；存储单元508，其包括硬盘或另一种合适的存储设备；以及通信单元509，其包括如网卡(例如，有线或无线)等网络接口卡。

在一些实施例中，输入单元506包括位于不同位置(取决于主机设备)的一个或多个麦克风，所述一个或多个麦克风使得能够捕获各种格式(例如，单声道、立体声、空间、沉浸式和其他合适的格式)的音频信号。

在一些实施例中，输出单元507包括具有各种数量的扬声器的系统。输出单元507可以呈现各种格式(例如，单声道、立体声、沉浸式、双耳和其他合适的格式)的音频信号。

通信单元509被配置成(例如，经由网络)与其他设备通信。根据需要，驱动器510也连接到I/O接口505。根据需要，如磁盘、光盘、磁光盘、闪存驱动器或其他合适的可移动介质等可移动介质511被安装在驱动器510上，使得从中读取的计算机程序被安装到存储单元508中。本领域技术人员将理解，尽管系统500被描述为包括上文所描述的部件，但是在实际应用中，可以添加、移除和/或替换这些部件中的一些部件，并且所有这些修改或变更都落入本公开的范围内。

根据本公开的示例实施例，上文所描述的过程可以实施为计算机软件程序或者在计算机可读存储介质上实施。例如，本公开的实施例包括计算机程序产品，所述计算机程序产品包括有形地体现在机器可读介质上的计算机程序，所述计算机程序包括用于执行方法的程序代码。在这种实施例中，计算机程序可以经由通信单元709从网络下载和安装，和/或从可移动介质511安装，如图5所示。

通常，本公开的各种示例实施例可以以硬件或专用电路(例如，控制电路)、软件、逻辑或其任何组合来实施。例如，上文所讨论的单元可以由控制电路(例如，与图5的其他部件组合的CPU)执行，因此，控制电路可以执行本公开中描述的动作。一些方面可以以硬件来实施，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件(例如，控制电路)来实施。尽管本公开的示例实施例的各个方面被图示和描述为框图、流程图或使用一些其他图形表示，但应当理解，本文所描述的框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其他计算设备、或其某种组合来实施，作为非限制性示例。

另外，流程图中所示的各个框可以被视为方法步骤、和/或由计算机程序代码的操作产生的操作、和/或被构造为执行相关联的(多个)功能的多个耦接逻辑电路元件。例如，本公开的实施例包括计算机程序产品，所述计算机程序产品包括有形地体现在机器可读介质上的计算机程序，所述计算机程序包含被配置为执行上文所描述的方法的程序代码。

在本公开的上下文中，机器可读介质可以是可以包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以是非暂态的并且可以包括但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备、或前述各项的任何合适的组合。机器可读存储介质的更具体的示例将包括具有一条或多条导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者前述各项的任何合适的组合。

用于执行本公开的方法的计算机程序代码可以用一种或多种编程语言的任何组合来编写。这些计算机程序代码可以被提供给通用计算机、专用计算机或具有控制电路的其他可编程数据处理装置的处理器，使得程序代码在由计算机的处理器或其他可编程数据处理装置的处理器执行时，实施流程图和/或框图中指定的功能/操作。程序代码可以完全在计算机上执行，部分在计算机上执行，作为独立的软件包，部分在计算机上执行、并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行，或者分布在一个或多个远程计算机和/或服务器上。

虽然本文档包含许多具体实施例细节，但是这些细节不应被解释为对可能要求保护的事物的范围的限制，而是被解释为对可能特定于特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的特定特征还可以在单个实施例中以组合形式实施。相反，在单一实施例的上下文中描述的各种特征也可以被单独地或以任何适合的子组合的方式实施在多个实施例中。此外，尽管特征在上文可以被描述为以某些组合起作用并且甚至最初也是如此要求保护的，但是在一些情况下可以从组合中去除要求保护的组合的一个或多个特征，并且所要求保护的组合可以涉及子组合或子组合的变体。在附图中描绘的逻辑流程不需要所示出的特定顺序或者有序顺序来实现期望的结果。另外，可以从所描述的流程中提供其他步骤，或者可以从中删除步骤，并且可以向所描述的系统添加其他部件，或者从中去除其他部件。因此，其他实施例也在所附权利要求的范围内。

Claims

1.一种音频处理方法，包括：

使用移动设备上的第一组麦克风捕获来自音频场景的第一音频信号；

使用一副耳塞上的第二组麦克风捕获来自所述音频场景的第二音频信号；

使用所述移动设备上的相机捕获来自视频场景的视频信号；

利用至少一个处理器从所述第一音频信号和所述第二音频信号生成经处理的音频信号，所述经处理的音频信号是基于情境信息通过自适应声景控制来生成的；以及

利用所述至少一个处理器将所述经处理的音频信号与所捕获的视频信号进行组合以作为多媒体输出。

2.如权利要求1所述的方法，其中，进行自适应声景控制的所述经处理的音频信号是通过以下方式中的至少一项来获得的：将所述第一音频信号和所述第二音频信号进行混合；或者基于所述情境信息选择所述第一音频信号或所述第二音频信号之一。

3.如权利要求1和2所述的方法，其中，所述情境信息包括以下各项中的至少一项：语音位置信息、用于视频捕获的所述相机的相机标识符、或所述第一音频信号的至少一个声道配置。

4.如权利要求3所述的方法，其中，所述语音位置信息指示所述音频场景的多个区域中存在语音。

5.如权利要求4所述的方法，其中，所述多个区域包括自身区域、前区域和侧区域，来自自身区域的第一语音是佩戴所述耳塞的第一说话人的自身语音，来自所述前区域的第二语音是在用于视频捕获的所述相机的前区域中未佩戴所述耳塞的第二说话人的语音，并且来自所述侧区域的第三语音是佩戴所述耳塞的所述第一说话人左侧或右侧的第三说话人的语音。

6.如前述权利要求3至5中任一项所述的方法，其中，用于视频捕获的所述相机是前置相机或后置相机之一。

7.如前述权利要求3至6中任一项所述的方法，其中，所述第一音频信号的所述至少一个声道配置至少包括用于捕获所述第一音频信号的所述移动设备的取向和麦克风布局。

8.如权利要求7所述的方法，其中，所述至少一个声道配置包括单声道配置和立体声声道配置。

9.如前述权利要求3至8中任一项所述的方法，其中，所述语音位置信息是使用音频场景分析或视频场景分析中的至少一种来检测的。

10.如权利要求9所述的方法，其中，所述音频场景分析包括以下各项中的至少一项：自身外部语音分段或外部语音到达方向(DOA)估计。

11.如权利要求10所述的方法，其中，所述自身外部语音分段是使用来自嵌入在所述至少一个耳塞中的骨传导传感器的骨传导测量来实施的。

12.如权利要求10或11所述的方法，其中，所述外部语音DOA估计采用来自所述第一音频信号和第二音频信号的输入，并从所述输入中提取空间音频特征。

13.如权利要求12所述的方法，其中，所述空间音频特征至少包括声道间声级差。

14.如前述权利要求9至13中任一项所述的方法，其中，所述视频场景分析包括说话人检测和定位。

15.如权利要求14所述的方法，其中，所述说话人检测是通过面部识别来实施的，所述说话人定位是通过以下操作来实施的：基于由所述面部识别提供的面部区域和来自用于视频信号捕获的所述相机的焦距信息来估计说话人与所述相机的距离。

16.如前述权利要求2至15中任一项所述的方法，其中，对所述第一音频信号和所述第二音频信号的混合或选择进一步包括对所述第一音频信号和第二音频信号的一个或多个方面进行调整的预处理步骤。

17.如权利要求16所述的方法，其中，所述一个或多个方面包括音色、响度或动态范围中的至少一项。

18.如前述权利要求2至17中任一项所述的方法，进一步包括对所述混合音频信号或所选择的音频信号的一个或多个方面进行调整的后处理步骤。

19.如权利要求18所述的方法，其中，所述一个或多个方面包括通过使所述混合音频信号或所选择的音频信号的侧分量衰减来调整所述混合音频信号或所选择的音频信号的宽度。

20.一种音频处理系统，包括：

至少一个处理器；以及

非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有指令，所述指令当由所述至少一个处理器执行时使所述一个或多个处理器执行如权利要求1至19中任一项所述的操作。

21.一种非暂态计算机可读存储介质，其上存储有指令，所述指令当由至少一个处理器执行时使所述至少一个处理器执行如权利要求1至19中任一项所述的操作。