CN111739540A

CN111739540A - 一种音频信号采集装置、计算机设备及方法

Info

Publication number: CN111739540A
Application number: CN202010703226.3A
Authority: CN
Inventors: 赵安国; 林舸
Original assignee: Tianyu Quanganyin Technology Co ltd
Current assignee: Tianyu Quanganyin Technology Co ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-02

Abstract

本发明提供的一种音频信号采集装置、计算机设备及方法，其中，该装置包括：通过音频获取模块，获取多名用户的多路音频信号；根据音频信号中提取对应的声音特征信息，进而获取各个用户的身份特征信息，通过计算模块，分别计算每路音频信号对应移相量；通过移相模块，根据移相量，分别对每路音频信号进行移相处理，生成多路移相后的音频信号；通过音频合并模块，将多路移相后的音频信号进行合并，生成单声轨音频信号。解决了现有技术中存在的当同时采集多名用户的声音信息时，采集到的声音文件较为混乱的问题，通过对各路音频信号的移相处理，以单声轨信息保留了多名用户的多声轨信息，便于后期处理时的各个用户音频信息的提取与分离。

Description

一种音频信号采集装置、计算机设备及方法

技术领域

本发明涉及音频处理领域，具体涉及一种音频信号采集装置、计算机设备及方法。

背景技术

随着电子设备以及音频处理技术的发展，用户利用电子设备就可以随时将周围的音频记录下来。但是由于周围环境中可能会存在多种不同的声音，例如，在进行多方会议的具体应用场景中，需对参会的各个人员的声音进行采集，由于在会议上，发言时可能混有多个不同用户的声音。因此，采集到的声音文件较为混乱，影响声音文件的后期整理，导致无法获取到各个用户单独的声音。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中存在的当同时采集多名用户的声音信息时，采集到的声音文件较为混乱，影响声音文件的后期整理，导致无法获取到各个用户单独的声音的缺陷，从而提供一种音频信号采集装置、计算机设备及方法。

根据第一方面，本发明实施例提供了一种音频信号采集装置，包括：音频获取模块、计算模块、移相模块、音频合并模块，其中：所述音频获取模块，包括多个音频信号采集设备，所述音频信号采集设备用于获取用户生成的音频信号；所述计算模块，用于分别获取各个用户的身份特征信息，根据所述身份特征信息，分别计算每路音频信号对应的移相量；所述移相模块，包括若干个移相器，所述移相器用于根据所述移相量，对所述音频信号进行移相处理，生成移相后的音频信号；所述音频合并模块，用于将多路移相后的音频信号合并，生成单声轨音频信号。

结合第一方面，在第一方面第一实施方式中，所述计算模块，具体包括：第一提取子单元，用于分别提取所述多路音频信号中的声音特征信息；身份特征信息获取子单元，用于根据所述声音特征信息获取用户对应的身份特征信息。

结合第一方面，在第一方面第二实施方式中，所述计算模块，具体包括：第二提取子单元，用于提取所述身份特征信息中的用户数量；计算子单元，用于根据所述用户数量，分别计算每路音频信号对应的移相量。

结合第一方面第二实施方式，在第一方面第三实施方式中，所述计算模块，通过下述公式，分别计算每路音频信号对应的移相量：

其中，i表示第i名用户对应的第i路音频信号，n表示所述用户数量，x_i表示第i路音频信号对应的移相量。

结合第一方面，在第一方面第四实施方式中，该音频信号采集装置，还包括：处理调节模块，用于对多路音频信号进行滤波处理、音量调节，生成处理后的多路音频信号。

根据第二方面，本发明实施例提供了一种音频信号采集方法，包括：获取多名用户的多路音频信号；分别获取各个用户的身份特征信息，根据所述身份特征信息，分别计算每路音频信号对应的移相量；根据所述移相量，分别对每路音频信号进行移相处理，生成多路移相后的音频信号；将多路移相后的音频信号进行合并，生成单声轨音频信号。

结合第二方面，在第二方面第一实施方式中，所述分别获取各个用户的身份特征信息，具体包括：分别提取所述多路音频信号中的声音特征信息；根据所述声音特征信息获取用户对应的身份特征信息。

结合第二方面，在第二方面第二实施方式中，所述根据所述身份特征信息，分别计算每路音频信号对应的移相量，具体包括：提取所述身份特征信息中的用户数量；根据所述用户数量，分别计算每路音频信号对应的移相量。

根据第三方面，本发明实施例提供了一种计算机设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第二方面或第二方面任一实施方式所述的音频信号采集方法的步骤。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第二方面或第二方面任一实施方式所述的音频信号采集方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的一种音频信号采集装置、计算机设备及方法，其中，该音频信号采集装置包括：通过音频获取模块，获取多名用户的多路音频信号；在获取到的不同用户的音频信号中提取对应的声音特征信息，根据声音特征信息获取各个用户的身份特征信息，根据身份特征信息，通过计算模块，分别计算每路音频信号对应的移相量；通过移相模块，根据移相量，分别对每路音频信号进行移相处理，生成多路移相后的音频信号；通过音频合并模块，将多路移相后的音频信号进行合并，生成单声轨音频信号。通过实施本发明，解决了现有技术中存在的当同时采集多名用户的声音信息时，采集到的声音文件较为混乱，影响声音文件的后期整理，进而无法获取到各个用户单独声音的问题，通过对各路音频信号的移相处理，以单声轨信息保留了多名用户的多声轨信息，便于后期处理时的各个用户音频信息的提取与分离。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中音频信号采集装置的一个具体示例的原理框图；

图2为本发明实施例中音频信号采集装置的一个具体示例的示意图；

图3为本发明实施例中音频信号采集方法的一个具体示例的流程图；

图4为本发明实施例中计算机设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

为了解决现有音频信号采集技术中存在的：当同时采集多名用户的声音信息时，采集到的声音文件较为混乱，影响声音文件的后期整理，进而导致无法获取到各个用户单独声音的问题，本发明提供了一种音频信号采集装置、计算机设备及方法，目的是后期整理时可以快速分离各个用户的声音。

如图1所示，本发明实施例提供了一种音频信号采集装置，包括：音频获取模块11、计算模块12、移相模块13、音频合并模块14，其中：

音频获取模块11，包括多个音频信号采集设备，音频信号采集设备用于获取用户生成的音频信号；在本实施例中，音频信号采集设备可以是麦克风，每个麦克风采集对应用户的音频信号。在有多名用户参会的具体应用场景中，多名用户可以位于不同方向的不同位置处，例如，用户1以及用户2位于A方向，用户3位于B方向，用户4位于C方向以及用户5以及用户6位于D方向，上述A方向、B方向、C方向以及D方向均为成一定夹角的方向；例如，A方向与B方向之间的夹角可以是45度，本领域技术人员可以根据实际场景确定具体的夹角信息，本发明对此不做限定。多路音频信号为各个用户的音频信号，每路音频信号对应每名用户的音频信号。具体地，可以通过麦克风采集用户的音频信号。也就是说麦克风即为采集音频信号的设备。实际上，多个麦克风采集到的音频信号为多声轨声音信息。

计算模块12，用于分别获取各个用户的身份特征信息，根据身份特征信息，分别计算每路音频信号对应的移相量；在本实施例中，用户的身份特征信息可以是根据用户的音频信号，提取出的用户身份特征信息，例如，用户的身份编号信息、用户的数量信息以及用户的位置信息等。移相量可以是根据用户的身份特征信息以及预设算法计算出的参数值，实际上是对每名用户对应的每路音频信号进行移相处理的量化值。

移相模块13，包括若干个移相器，移相器用于根据移相量，对音频信号进行移相处理，生成移相后的音频信号；在本实施例中，当获取到多名用户对应的多路音频信号时，计算各路音频信号对应的移相量，根据计算出的移相量，在移相器中对音频信号进行移相处理。具体地，当采集到2路音频信号时，那么通过计算，用户1对应的音频信号的移相量为0，用户2对应的音频信号的移相量为90度。

音频合并模块14，用于将多路移相后的音频信号合并，生成单声轨音频信号。在本实施例中，将移相后的音频信号进行简单的叠加以及合并，生成单声轨音频信号。

本发明提供的一种音频信号采集装置，包括：通过音频获取模块11，获取多名用户的多路音频信号；在获取到的不同用户的音频信号中提取对应的声音特征信息，根据声音特征信息获取各个用户的身份特征信息，根据身份特征信息，通过计算模块12分别计算每路音频信号对应的移相量；通过移相模块13，根据移相量，分别对每路音频信号进行移相处理，生成多路移相后的音频信号；通过音频合并模块14，将多路移相后的音频信号进行合并，生成单声轨音频信号。通过实施本发明，解决了现有技术中存在的当同时采集多名用户的声音信息时，采集到的声音文件较为混乱，影响声音文件的后期整理，进而无法获取到各个用户单独声音的问题，通过对各路音频信号的移相处理，以单声轨信息保留了多名用户的多声轨信息，便于后期处理时的各个用户音频信息的提取与分离。

作为本发明一个可选的实施例，计算模块12，具体包括：第一提取子单元，用于分别提取多路音频信号中的声音特征信息；身份特征信息获取子单元，用于根据声音特征信息获取用户对应的身份特征信息。在本实施例中，通过麦克风获取到的不同用户的音频信号，本身携带着不同的声音特征信息，例如，声纹信息以及频率信息；通过提取音频信号中的声音特征信息(例如，声纹信息)，确定音频信号对应的用户身份特征信息。

为了便于后续分析过程中的各个用户声音的分离，在获取以及存储声音文件时，需要对获取到的多路音频信号分别进行移相处理后，再进行统一保存。作为本发明一个可选的实施例，计算模块12，具体包括：

第二提取子单元，用于提取身份特征信息中的用户数量；在本实施例中，身份特征信息中可以包括用户的总数量，可以是参与会议的人员总数。

计算子单元，用于根据用户数量，分别计算每路音频信号对应的移相量。在本实施例中，根据用户身份特征信息中的用户数量信息，计算每名用户的音频信号对应的移相量，即为预设移相量。

具体地，通过下述公式，分别计算每路音频信号对应的移相量：

其中，i表示第i名用户对应的第i路音频信号，n表示用户数量，x_i表示第i路音频信号对应的移相量。

具体地，当麦克风采集到的音频信号为4路时，通过上述公式分别计算4路音频信号对应的移相量，计算得到，用户1的移相量为0度；用户2的移相量为45度；用户3的移相量为90度；用户4的移相量为135度；

作为本发明一个可选的实施例，该音频信号采集装置，还包括：处理调节模块，用于对多路音频信号进行滤波处理、音量调节，生成处理后的多路音频信号。在本实施例中，在通过麦克风获取到的不同用户对应的音频信号时，可以先对音频信号进行去噪声以及调节音量的处理，滤去音频信号中携带的噪声，以及将获取到的音频信号调节到符合用户需求的合适的音量。

如图2所示，结合一具体示意图详细描述该音频信号采集装置的功能。

首先，音频获取模块11可以包括多个麦克风，例如，麦克风A1，用于获取用户1的音频信号；麦克风A2，用于获取用户1的音频信号；麦克风A3，用于获取用户3的音频信号；麦克风AN，用于获取用户N的音频信号。

其次，移相模块13包括若干个移相器，例如，移相器B1，用于根据计算出的第一移相量，对用户1的音频信号进行移相处理；移相器B2，用于根据计算出的第二移相量，对用户2的音频信号进行移相处理；移相器B3，用于根据计算出的第三移相量，对用户3的音频信号进行移相处理；移相器BN，用于根据计算出的第N移相量，对用户N的音频信号进行移相处理。

再次，将进行移相处理后的N路音频信号在音频合并模块14中进行叠加，生成单声轨声音信号。

本发明实施例提供一种音频信号采集方法，如图3所示，包括：

步骤S21：获取多名用户的多路音频信号；详细实施内容可参见上述系统实施例中音频获取模块11的相关描述。

步骤S22：分别获取各个用户的身份特征信息，根据身份特征信息，分别计算每路音频信号对应的移相量；详细实施内容可参见上述系统实施例中计算模块12的相关描述。

步骤S23：根据移相量，分别对每路音频信号进行移相处理，生成多路移相后的音频信号；详细实施内容可参见上述系统实施例中移相模块13的相关描述。

步骤S24：将多路移相后的音频信号进行合并，生成单声轨音频信号。在本实施例中，将移相后的音频信号进行简单的叠加以及合并，生成单声轨音频信号。详细实施内容可参见上述系统实施例中音频合并模块14的相关描述。

本发明提供的一种音频信号采集方法，包括：获取多名用户的多路音频信号；在获取到的不同用户的音频信号中提取对应的声音特征信息，根据声音特征信息获取各个用户的身份特征信息，根据身份特征信息，分别计算每路音频信号对应的移相量；根据移相量，分别对每路音频信号进行移相处理，生成多路移相后的音频信号；将多路移相后的音频信号进行合并，生成单声轨音频信号。通过实施本发明，解决了现有技术中存在的当同时采集多名用户的声音信息时，采集到的声音文件较为混乱，影响声音文件的后期整理，进而无法获取到各个用户单独声音的问题，通过对各路音频信号的移相处理，以单声轨信息保留了多名用户的多声轨信息，便于后期处理时的各个用户音频信息的提取与分离。

作为本发明一个可选的实施例，步骤S22中的分别获取各个用户的身份特征信息，具体包括：

分别提取多路音频信号中的声音特征信息；根据声音特征信息获取用户对应的身份特征信。在本实施例中，通过麦克风获取到的不同用户的音频信号，本身携带着不同的声音特征信息，例如，声纹信息以及频率信息；通过提取音频信号中的声音特征信息(例如，声纹信息)，确定音频信号对应的用户身份特征信息。

为了便于后续分析过程中的各个用户声音的分离，在获取以及存储声音文件时，需要对获取到的多路音频信号分别进行移相处理后，再进行统一保存。作为本发明一个可选的实施例，步骤S22中的根据身份特征信息，分别计算每路音频信号对应的移相量，具体包括：

首先，提取身份特征信息中的用户数量；在本实施例中，身份特征信息中可以包括用户的总数量，可以是参与会议的人员总数。

其次，根据用户数量，分别计算每路音频信号对应的移相量。在本实施例中，根据用户身份特征信息中的用户数量信息，计算每名用户的音频信号对应的移相量，即为预设移相量。

可选地，本发明实施例还提供了一种计算机设备，如图4所示，该计算机设备可以包括处理器31和存储器32，其中处理器31和存储器32可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器32作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的音频信号采集方法对应的程序指令/模块(例如，图1所示的音频获取模块11、计算模块12、移相模块13、音频合并模块14)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的音频信号采集方法。

存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器31所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器32中，当被所述处理器31执行时，执行如图1所示实施例中的音频信号采集方法。

上述计算机设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本发明实施例还提供了一种非暂态计算机可读介质，非暂态计算机可读存储介质存储计算机指令，计算机指令用于使计算机执行如上述实施例中任意一项描述的音频信号采集方法，其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种音频信号采集装置，其特征在于，包括：音频获取模块、计算模块、移相模块、音频合并模块，其中：

所述音频获取模块，包括多个音频信号采集设备，所述音频信号采集设备用于获取用户生成的音频信号；

所述计算模块，用于分别获取各个用户的身份特征信息，根据所述身份特征信息，分别计算每路音频信号对应的移相量；

所述移相模块，包括若干个移相器，所述移相器用于根据所述移相量，对所述音频信号进行移相处理，生成移相后的音频信号；

所述音频合并模块，用于将多路移相后的音频信号合并，生成单声轨音频信号。

2.根据权利要求1所述的装置，其特征在于，所述计算模块，具体包括：

第一提取子单元，用于分别提取所述多路音频信号中的声音特征信息；

身份特征信息获取子单元，用于根据所述声音特征信息获取用户对应的身份特征信息。

3.根据权利要求1所述的装置，其特征在于，所述计算模块，具体包括：

第二提取子单元，用于提取所述身份特征信息中的用户数量；

计算子单元，用于根据所述用户数量，分别计算每路音频信号对应的移相量。

4.根据权利要求3所述的装置，其特征在于，所述计算模块，通过下述公式，分别计算每路音频信号对应的移相量：

5.根据权利要求1所述的装置，其特征在于，还包括：

处理调节模块，用于对多路音频信号进行滤波处理、音量调节，生成处理后的多路音频信号。

6.一种音频信号采集方法，其特征在于，包括：

获取多名用户的多路音频信号；

分别获取各个用户的身份特征信息，根据所述身份特征信息，分别计算每路音频信号对应的移相量；

根据所述移相量，分别对每路音频信号进行移相处理，生成多路移相后的音频信号；

将多路移相后的音频信号进行合并，生成单声轨音频信号。

7.根据权利要求6所述的方法，其特征在于，所述分别获取各个用户的身份特征信息，具体包括：

分别提取所述多路音频信号中的声音特征信息；

根据所述声音特征信息获取用户对应的身份特征信息。

8.根据权利要求7所述的方法，其特征在于，所述根据所述身份特征信息，分别计算每路音频信号对应的移相量，具体包括：

提取所述身份特征信息中的用户数量；

根据所述用户数量，分别计算每路音频信号对应的移相量。

9.一种计算机设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求6-8中任一项所述的音频信号采集方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求6-8中任一项所述的音频信号采集方法的步骤。