CN106998517A

CN106998517A - 电子装置以及音频重新聚焦的方法

Info

Publication number: CN106998517A
Application number: CN201610156974.8A
Authority: CN
Inventors: 许肇凌; 郑尧文; 孙良哲
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2016-01-22
Filing date: 2016-03-18
Publication date: 2017-08-01
Also published as: US20170215005A1; US9756421B2

Abstract

本发明公开一种电子装置和音频重新聚焦的方法。电子装置包括：接口，产生指示记录信号中的哪一个声源需被重新聚焦的指示信号；发送装置，将所述指示信号传送给处理器；接收装置，接收处理信号，其中所述处理器增强由所述记录信号中的所述声源产生的声音，以产生所述处理信号；以及播放装置，播放所述记录信号和/或所述处理信号。本发明所公开的电子装置和音频重新聚焦的方法，得到的后处理波束形成结果的质量比实时处理波束形成结果的质量更好。

Description

电子装置以及音频重新聚焦的方法

技术领域

本发明有关于音频的处理方法，特别是有关于音频重新聚焦(refocusing)的方法。

背景技术

在最近几年里，已知一种相机，提供一组具有不同焦距的微透镜(微透镜阵列)和具有高分辨率的摄像装置，被称为光场(注册商标)相机。当通过使用从这种类型的相机的一次捕获得到的图像数据再现(reproduce)图像时，可重建(reconstruct)聚焦在任意位置的图像。

重新聚焦在任意位置的图像可被重建，在音频信号中如何重新聚焦于任何声源是一个值得关注的有趣的话题。

发明内容

有鉴于此，本发明提供一种电子装置和音频重新聚焦的方法。

依据本发明一实施方式，提供一种电子装置，包括：接口，产生指示记录信号中的哪一个声源需被重新聚焦的指示信号；发送装置，将所述指示信号传送给处理器；接收装置，接收处理信号，其中所述处理器增强由所述记录信号中的所述声源产生的声音，以产生所述处理信号；以及播放装置，播放所述记录信号和/或所述处理信号。

依据本发明另一实施方式，提供一种电子装置，包括：处理器，接收指示信号和包括需被重新聚焦的声源的记录信号，确定所述声源的方向和或所述声源的位置，根据所述声源的所述方向或所述位置增强所述记录信号中由所述声源产生的声音，以产生处理信号，以使播放装置播放所述记录信号和/或所述处理信号。

依据本发明又一实施方式，提供一种音频重新聚焦的方法，包括：接收指示记录信号中的哪一个声源需被重新聚焦的指示信号；确定所述声源的方向或所述声源的位置；以及根据所述声源的所述方向或所述位置来增强所述记录信号中由所述声源产生的声音，以产生处理信号。

本发明所提供的电子装置和音频重新聚焦的方法，得到的后处理波束形成结果的质量比实时处理波束形成结果的质量更好。

对于已经阅读后续由各附图及内容所显示的较佳实施方式的本领域的技术人员来说，本发明的各目的是明显的。

附图说明

图1为根据本发明一实施例的电子装置的方框图。

图2A为根据本发明一实施例的接收麦克风波束的示意图。

图2B为根据本发明另一实施例的接收麦克风波束的示意图。

图2C为根据本发明另一实施例的在后处理(post-processing)之后的等效接收波束(equivalent receiving beam)的示意图。

图3为本发明一实施例的用户选择要重新聚焦的声源的操作的示意图。

图4为根据本发明一实施例的音频的重新聚焦的方法的流程图。

图5为根据本发明一实施例的声波的示意图。

图6是根据本发明一实施例的在现实世界中确定声源的三维坐标的概念的示意图；

图7为根据本发明一实施例的音频重新聚焦的流程图。

图8为根据本发明一实施例的用户选择要重新聚焦的多个声源的操作示意图。

具体实施方式

下面的描述为实施本发明的示范性实施例。以下实施例仅用来说明本发明的一般原理，并非用来限制本发明的范围。本发明的范围应以权利要求书所界定的为准。

图1为根据本发明一实施例的电子装置的方框图。该电子装置100至少包括播放装置110、通信装置120、处理器130和存储装置140。该播放装置110可包括至少一个显示模块190和扬声器170。显示模块190可以包括面板、触摸屏或任何其他类型的显示模块以显示图像或视频数据。扬声器170用于播放音频信号或多媒体信号的音频部分。通信装置120可包括发送装置121和接收装置122。通信装置120可以是无线通信装置，该无线通信装置能够通过发送装置121发送无线信号以及通过接收装置122接收无线信号；或者通信装置120可以是有线通信装置，其中发送装置121和接收装置122可作为输出端口和输入端口，以通过耦接的传输线来传送和接收信号。存储装置140存储系统数据，如上所述的图像数据或视频数据。通信装置120也可作为能够通过发送装置121和接收装置122分别发送和接收有线信号和无线信号的通信装置，且本发明不限定于任何具体的实施方法。处理器130可以控制播放装置110、通信装置120和存储装置140的操作。

根据本发明的另一实施例，电子装置100也可包括相机模块150。该相机模块150能够捕获具有深度信息的图像，并将捕获的图像和相应的深度信息记录到存储装置140中。在本发明的实施例中，该相机模块150可以包括多个相机，或者至少包括深度相机，或者至少包括立体相机，或诸如此类。处理器130也可以控制相机模块150的操作。

根据本发明的另一实施例，电子装置100也可包括麦克风阵列160。麦克风阵列160能够捕获和记录多波段的声音。在本发明的实施例中，麦克风阵列160可以包括N个麦克风，其中N为大于1的正整数。处理器130也可以控制麦克风阵列160的操作。

图2A和图2B分别显示麦克风(或麦克风阵列)接收的不同波束(beam)。如图2A所示，接收波束的覆盖范围太宽，以致由靠近目标声源的干扰声源产生的声音也会被麦克风捕获。具有更好的方向性的麦克风(或麦克风阵列)，为了不捕获干扰声源产生的声音，接收波束的覆盖范围可以更窄，如图2B所示。

与记录时通过麦克风(或麦克风阵列)聚焦到目标声源不同的是，在本发明的实施例中，所提出的方法和电子装置将聚焦到记录的音频信号中的任何目标声源。如图2C所示，在后处理记录的音频信号之后，用以聚焦到目标声源的麦克风(或麦克风阵列)的等效接收波束。与图2A和图2B相比，通过对记录的音频信号的后处理，接收波束的功率可以更多聚焦到目标声源。因此，相比于图2A和图2B，处理信号(processed signal)中目标声源产生的声音得以进一步增强。

根据本发明的第一实施例，该电子装置100可提供接口，以供用户选择要重新聚焦的记录信号(recorded signal)中的声源。记录信号可以是音频信号或多媒体信号，当选择要重新聚焦的声源时，可以通过播放装置110或扬声器170来显示或播放，以供用户观看或收听记录信号。

在本发明的实施例中，该接口可以是播放装置110中包含的触摸面板或按钮180，如图1所示。在一实施例中，当包含触摸面板的播放装置110播放记录信号时，例如多媒体信号，用户可以通过触摸声源的图像(the image of the soundsource)的位置来选择要重新聚焦的声源，如图3所示的对声源301的操作，通过触摸面板产生指示信号。在另一个实施例中，当扬声器170播放记录信号，如播放音频信号或多媒体信号的音频部分，当声源的声音正在播放时，用户可以通过按下按钮180来选择要重新聚焦的声源，以标记要重新聚焦的声源并通过按钮180来产生指示信号。在本发明的实施例中，指示信号可以携带指示记录信号中的哪一个声源是由用户选择要重新聚焦的信息。

在本发明的第一实施例中，发送装置121可以将指示信号通过有线或无线方式传送到电子装置100外部的处理器，如处理器200。根据本发明的实施例，该处理器200可以配置在另一个电子装置中，例如云服务器。请注意，在本发明的实施例中，所记录信号可以存储在存储装置140中，或者也可以存储在耦接到处理器200的外部存储装置中，或存储在云服务器中，并通过电子装置100访问。因此，本发明不应局限于任何具体的实施方法。

处理器200也可接收记录信号(例如，从如上所述的电子装置100、外部存储装置或云服务器)，确定所选择的声源的方向或所选择的声源的位置，并根据所选择的声源的方向或位置来增强由所选择的声源产生的声音，以产生处理信号。

接收装置122可接收来自处理器200的处理信号。处理信号可以通过播放装置110或扬声器170来显示或播放，例如，响应于用户输入的显示或播放请求。

根据本发明的第二实施例，发射装置121可将指示信号传送至该电子装置100内的处理器130。处理器130也可以接收所述记录信号(例如，从如上所述的存储装置140、外部存储装置或云服务器)，确定所选择的声源的方向或所选择的声源的位置，并通过所选择的声源的方向或位置来增强由所选择的声源产生的声音，以产生处理信号。接收装置122可以接收来自处理器130的处理信号。所述处理信号可以被提供给播放装置110或扬声器170，以响应于用户输入的显示或播放请求，通过播放装置110或扬声器170来显示或播放。

根据本发明的一实施例，记录信号可以是音频信号或多媒体信号，并且所述音频信号或多媒体信号的音频部分是由包含N个麦克风的麦克风阵列捕获的，并捕获N个波段(channel)的声音，其中N为大于1的正整数。在一实施例中，并非用以限制本发明，用于捕获音频信号或多媒体信号的音频部分的麦克风阵列可以是电子装置100的麦克风阵列160。用于捕获音频信号或多媒体信号的音频部分的麦克风阵列也可以是不包含在电子装置100中的另一个麦克风阵列，而本发明不限于公开的实施例。

根据本发明的实施例，在N个波段中捕获的声音的信息都保留在记录信号中。在一实施例中，在N个波段中捕获的声音的全部数据都保留在记录信号中。在另一实施例中，在N个波段中捕获的声音的数据可以被编码或压缩，以便将在N个波段中捕获的声音的信息都保留在记录信号中，但数据大小可以被减小。只要在N个波段中捕获的声音的信息保存在记录信号，在N个波段中捕获的声音可以基于存储在记录信号的信息进行重构，因此，可以实现音频的重新聚焦。音频的聚焦方法的细节将在下面进一步讨论。

图4为根据本发明一实施例的音频的重新聚焦的方法的流程图。首先，处理器(例如，处理器130或200)可以接收记录信号和指示记录信号中的哪一个声源需被重新聚焦的指示信号(步骤S402)。其次，处理器可以根据指示信号确定声源的方向或声源的位置(步骤S404)。最后，该处理器可以根据声源的方向或位置增强由记录信号中的声源产生的声音，以产生处理信号(步骤S406)。

根据本发明的实施例，该处理器(例如，处理器130或200)可以根据所选择的声源的方向或位置以及根据从捕获记录信号中的声音的麦克风阵列到所选择的声源的距离，来决定如何增强由所选择的声源产生的声音。处理器可以确定该距离是否大于预定值。

图5为根据本发明的一实施例的声波的示意图。在图5中，D表示从麦克风阵列(例如，以麦克风501和502的中心点来代表麦克风阵列的位置)到声源的距离，W表示麦克风阵列的最大宽度(例如，从麦克风501到麦克风502，如果麦克风501和麦克风502之间的距离是麦克风阵列中任何两个麦克风之间的距离中最远的)。当距离D不大于预定值时(表明声波的形状是球形的)，处理器根据声源的位置来增强声音。当距离大于预定值时(表明声波的形状是平面的)，处理器根据声源的方向来增强声音。在本发明的实施例中，该预定值可设置为20×W。

根据本发明的实施例，处理器可以通过分析所选择的声源的声学特性或所选择声源的图像来确定所选择的声源的方向或位置。

在基于声音的方法中，选择的声源的声学特性可首先由处理器确定。例如，可以应用人声识别技术。当所选择的声源的声学特征被确定后，处理器可以根据所选择的声源的声学特性来分析记录信号，以获得N个麦克风之间的时间差，以接收所选择的声源产生的声音，例如，在现实世界中，处理器可以根据时间差，获得方向、位置、三维坐标或任何其他与所选择的声源的方向或位置相关的信息。

请注意，在本发明的某些实施例中，超声波可用于确定所择的声源的方向或位置。例如，多个超声换能器(ultrasound transducer)可用于检测所选择的声源的深度。

在基于图像的方法中，处理器可以根据所选择的声源的像素索引和深度信息来分析所选择的声源的图像。例如，可以根据用户点击以选择声源的位置来获得像素索引，以及可以从如上所述的相机模块获得深度信息。当所选择的声源的像素索引或深度信息被获得后，例如，在现实世界中，处理器接着可以根据像素索引和深度信息，获得方向、位置、三维坐标或任何其他与所选择的声源的方向或位置相关的信息，如图6的实施例所示。

请注意，在本发明的实施例中，所选择的声源的方向指的是从捕获记录信号的麦克风阵列到选择的声源的方向。请注意，在本发明的实施例中，三维坐标可以通过将捕获记录信号的麦克风阵列作为原点、将水平线作为X轴、将垂直线作为Y轴、以及将深度(即麦克风阵列到选择的声源的距离)作为Z轴来定义，如图6所示的示意图。

值得注意的是，该处理器还可以通过使用基于声音的方法和基于图像的方法的组合来确定所选择的声源的方向或位置，而本发明不限于任何具体的实施方法。

根据本发明的一实施例，当选择的声源是运动对象(moving object)时，该处理器根据从该接口接收的跟踪信号、选择的声源的声学特性或选择的声源的图像，进一步跟踪所选择的声源的运动。在本发明的实施例中，对象跟踪可以手动或自动完成。因此，运动声源产生的声音可以在运动过程中增强。

在本发明的一实施例中，可由接口产生跟踪信号。例如，用户可以通过手指在顺序显示的多帧中选择的声源的图像上持续点击触摸面板，以产生一个或多个跟踪信号。可以根据触摸面板上的手指点击的位置手动跟踪所选择的声源的运动。

在本发明的另一实施例中，根据上述基于声音的方法可自动跟踪所选择的声源的运动。例如，可以应用人声识别技术。

在本发明的又一实施例中，根据上述基于图像的方法可自动跟踪所选择的声源的运动。例如，可以应用对象识别或面部识别技术。

在本发明的又一实施例中，根据上述基于声音的方法和基于图像的方法的组合可自动跟踪所选择的声源的运动。

根据本发明的一实施例，处理器可通过根据声源的方向或位置确定接收由所选择的声源产生的声音的N个麦克风的时间差、根据时间差来调整记录信号中分别由N个麦克风所捕获的声音、以及加总调整后的声音，来增强由所选择的声源产生的声音，以产生处理信号。根据本发明的实施例，调整步骤可通过延迟、对准、提前或任何其他操作来调整声音的时间。例如，处理器可以延迟声音以使在N个波段中分别被N个麦克风捕获的所选择的声源的声音是对准的。在这种方式中，当加总延迟的声音时，在处理信号中所选择的声源所产生的声音的振幅或功率可以得到加强。

图7为根据本发明一实施例的音频重新聚焦的流程图。在本实施例中，记录信号是由具有麦克风阵列的移动装置记录的多媒体信号。在多波段声音信号中的信息全部被保存以及可供执行音频的重新聚焦(或声束形成)。用户可以通过点击触摸面板上的声源的图像，来选择记录信号中重新聚焦的声源。所选择的声源的三维坐标，可通过分析触摸屏上点击的位置的图像数据来提供。当所选择的声源是运动对象时，还需要进行对象跟踪。所选择的声源的三维坐标的信息还提供给方向和距离估计器(direction-and distance-estimator)，以估计选择的声源的例如在现实世界中的三维位置(即，方向、距离、和/或坐标)。根据方向或三维位置信息执行音频的重新聚焦(或声束形成)后，处理信号会重新聚焦至选择的声源产生的声音。

在本发明的实施例中，通过后处理记录信号，用户可以选择他/她想增强的任何目标声源，以及处理信号会重新聚焦至目标声源产生的声音。此外，处理信号可以聚焦至一个以上的对象。例如，如图8所示，用户可以通过捏(pinch)他/她感兴趣的人的图象，来指挥(direct)电子装置重新聚焦至人的声音，或者他/她也可以通过使用例如对他/她感兴趣的人的多触摸操作(即同时通过多个手指触摸面板)或任何其他操作来选择多人，以指挥电子装置聚焦至多人的声音。

利用如上所述的音频的重新聚焦方法，后处理波束形成结果比实时处理波束形成的质量更好。

本发明的实施例可以用多种方式来实现。例如，本发明的实施例可以使用硬件、软件或其组合来实现。应该认识到用以执行上述功能的任何组件或组件的集合，通常可以被视为一个或多个处理器，以控制功能上面讨论。一个或多个处理器可以有多种实现方式，如采用专用硬件，或采用微码或软件编程的通用硬件，以执行上述功能。

以上所述仅为本发明的较佳实施方式，凡依本发明权利要求所做的均等变化和修饰，均应属本发明的涵盖范围。

Claims

1.一种电子装置，其特征在于，包括：

接口，产生指示记录信号中的哪一个声源需被重新聚焦的指示信号；

发送装置，将所述指示信号传送给处理器；

接收装置，接收处理信号，其中所述处理器增强由所述记录信号中的所述声源产生的声音，以产生所述处理信号；以及

播放装置，播放所述记录信号和/或所述处理信号。

2.如权利要求1所述的电子装置，其特征在于，所述记录信号为音频信号或多媒体信号，所述音频信号或所述多媒体信号的音频部分由包含N个麦克风的麦克风阵列捕获，其中N为大于1的正整数。

3.如权利要求2所述的电子装置，其特征在于，所述麦克风阵列捕获N个波段中的声音，以及在所述N个波段中捕获的所述声音的信息全部保留在所述记录信号中。

4.如权利要求1所述的电子装置，其特征在于，还包括：

所述处理器，接收所述指示信号和所述记录信号，确定所述声源的方向或所述声源的位置，以及根据所述声源的所述方向或所述位置来增强由所述声源产生的所述声音，以产生所述处理信号。

5.如权利要求1所述的电子装置，其特征在于，

所述处理器，接收所述指示信号和所述记录信号，确定所述声源的方向或所述声源的位置，以及根据所述声源的所述方向或所述位置来增强由所述声源产生的所述声音，以产生所述处理信号；

其中，所述处理器通过分析所述声源的声学特性或所述声源的图像来确定所述声源的所述方向或所述位置。

6.如权利要求1所述的电子装置，其特征在于，

所述处理器接收所述指示信号和所述记录信号，确定所述声源的方向或所述声源的位置，以及根据所述声源的所述方向或所述位置来增强由所述声源产生的所述声音，以产生所述处理信号；

其中，当所述声源是运动对象时，所述处理器根据从所述接口接收的跟踪信号、所述声源的声学特性或所述声源的图像，进一步跟踪所述声源的运动。

7.如权利要求1所述的电子装置，其特征在于，

其中，所述处理器通过根据所述声源的所述方向或所述位置确定接收由所述声源产生的所述声音的N个麦克风的时间差、根据所述时间差调整所述记录信号中分别由所述N个麦克风捕获的所述声音、以及加总调整后的声音，来增强由所述声源产生的所述声音，以产生所述处理信号。

8.如权利要求1所述的电子装置，其特征在于，

其中，所述处理器进一步确定从麦克风阵列到所述声源的距离是否大于预定值，当所述距离大于所述预定值时，所述处理器根据所述声源的所述方向来增强所述声音，以及当所述距离不大于所述预定值时，所述处理器根据所述声源的所述位置来增强所述声音。

9.如权利要求1所述的电子装置，其特征在于，所述接口为触摸面板或按钮。

10.一种电子装置，其特征在于，包括：

处理器，接收指示信号和包括需被重新聚焦的声源的记录信号，确定所述声源的方向和或所述声源的位置，根据所述声源的所述方向或所述位置增强所述记录信号中由所述声源产生的声音，以产生处理信号，以使播放装置播放所述记录信号和/或所述处理信号。

11.如权利要求10所述的电子装置，其特征在于，所述记录信号为音频信号或多媒体信号，其中所述音频信号或所述多媒体信号的音频部分由包含N个麦克风的麦克风阵列捕获，其中N为大于1的正整数。

12.如权利要求11所述的电子装置，其特征在于，所述麦克风阵列捕获N个波段中的声音，以及在所述N个波段中捕获的所述声音的信息全部保留在所述记录信号中。

13.如权利要求11所述的电子装置，其特征在于，所述处理器通过根据所述声源的所述方向或所述位置确定接收由所述声源产生的所述声音的所述N个麦克风的时间差、根据所述时间差调整所述记录信号中分别由所述N个麦克风捕获的所述声音、以及加总调整后的声音，来增强由所述声源产生的所述声音，以产生所述处理信号。

14.如权利要求11所述的电子装置，其特征在于，所述处理器进一步确定从麦克风阵列到所述声源的距离是否大于预定值，当所述距离大于所述预定值时，所述处理器根据所述声源的所述方向来增强所述声音，以及当所述距离不大于所述预定值时，所述处理器根据所述声源的所述位置来增强所述声音。

15.如权利要求10所述的电子装置，其特征在于，所述处理器通过分析所述声源的声学特性或所述声源的图像来确定所述声源的所述方向或所述位置。

16.如权利要求10所述的电子装置，其特征在于，还包括：

接口；

17.如权利要求16所述的电子装置，其特征在于，所述接口为触摸面板或按钮。

18.一种音频重新聚焦的方法，其特征在于，包括：

接收指示记录信号中的哪一个声源需被重新聚焦的指示信号；

确定所述声源的方向或所述声源的位置；以及

根据所述声源的所述方向或所述位置来增强所述记录信号中由所述声源产生的声音，以产生处理信号。

19.如权利要求18所述的音频重新聚焦的方法，其特征在于，所述记录信号为音频信号或多媒体信号，所述音频信号或所述多媒体信号的音频部分由包含N个麦克风的麦克风阵列捕获，其中N为大于1的正整数。

20.如权利要求19所述的音频重新聚焦的方法，其特征在于，所述麦克风阵列捕获N个波段中的声音，以及在所述N个波段中捕获的所述声音的信息全部保留在所述记录信号中。

21.如权利要求19所述的音频重新聚焦的方法，其特征在于，所述增强步骤还包括：

根据所述声源的所述方向或所述位置确定接收由所述声源产生的所述声音的所述N个麦克风的时间差；

根据所述时间差调整所述记录信号中分别由所述N个麦克风捕获的所述声音；以及

加总调整后的声音，以产生处理后的信号。

22.如权利要求19所述的音频重新聚焦的方法，其特征在于，所述增强步骤还包括：

确定从所述麦克风阵列到所述声源的距离是否大于预定值；

当所述距离大于所述预定值时，根据所述声源的所述方向增强所述声音；以及当所述距离不大于所述预定值时，根据所述声源的所述位置增强所述声音。

23.如权利要求18所述的音频重新聚焦的方法，其特征在于，通过分析所述声源的声学特性或所述声源的图像来确定所述声源的所述方向或所述位置。

24.如权利要求18所述的音频重新聚焦的方法，其特征在于，当所述声源是运动对象时，所述方法还包括：

根据跟踪信号、所述声源的声学特性或所述声源的图像，进一步跟踪所述声源的运动。