CN117177167A

CN117177167A - 串声消除方法、装置、设备及存储介质

Info

Publication number: CN117177167A
Application number: CN202311037722.XA
Authority: CN
Inventors: 王松; 陈大庆; 向建霞; 张聪
Original assignee: Wuhan Polytechnic University
Current assignee: Wuhan Polytechnic University
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-12-05

Abstract

本发明公开一种串声消除方法、装置、设备及存储介质，该方法包括：获取人耳图片；对人耳图片进行处理，将处理后的人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，确定瓶颈特征；根据瓶颈特征，确定扬声器增益向量，使用扬声器增益向量进行串声消除。获取了人耳图片后进行处理，将处理后的人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，通过瓶颈特征预测模型确定瓶颈特征，根据瓶颈特征，确定扬声器增益向量，使用扬声器增益向量进行串声消除。将处理了的人耳图片输入瓶颈特征预测模型，只需要人耳图片就可以进行进行串声消除，而不用实际测量人体的耳廓参数。从而解决了人体的耳廓参数在实际测量的过程中耗时费力的技术问题。

Description

串声消除方法、装置、设备及存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种串声消除方法、装置、设备及存储介质。

背景技术

空间声像的实时、高精度重建对于提升扬声器声像重建技术的实用价值有重要意义。基于HRTF(Head Related Transfer Function，头相关变换函数)的平移技术(HRTF-based Panning,HP)与幅度平移技术(Amplitude Panning,AP)采用较少的扬声器便可重建音频对象,实用性很强。针对在双扬声器下使用HRTF重建虚拟声像时会产生串声现象的问题。可以通过求解左右扬声器的前置滤波器g₁(k)和g₂(k)来解决串声现象。但是g₁(k)和g₂(k)的计算涉及到个性化的HRTF，并且其计算较为复杂。使用一种基于RBF(radial basisfunction，径向基函数)神经网络的个性化GVL(gain vector of loudspeakers，扬声器增益向量)预测模型。通过该模型可以生成个性化的GVL，进而可以得到个性化的左右扬声器的前置滤波器g₁(k)和g₂(k)。该模型以虚拟声源的方位、扬声器对的方位和10种人体参数作为神经网络的输入，GVL数据作为输出。

通过GVL可以得到左右扬声器的前置滤波器g₁(k)和g₂(k)，通过g₁(k)和g₂(k)对声源信号在频域下进行调制后，分别输出至左右扬声器。左右扬声器分别将被g₁(k)和g₂(k)调制后的声源信号作为扬声器的输入信号。在此之后使用HRTF进行虚拟声像的重建则不会产生串声现象。但是目前的方法需要以人体的头部、耳廓和躯干等共计10个参数作为GVL个性化模型的输入来预测GVL，进而求得左右扬声器的前置滤波器g₁(k)和g₂(k)。其中，人体的耳廓参数在实际测量的过程中耗时费力。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种串声消除方法、装置、设备及存储介质，旨在解决人体的耳廓参数在实际测量的过程中耗时费力的技术问题。

为实现上述目的，本发明提供了一种串声消除方法，所述串声消除方法包括：

获取人耳图片；

对所述人耳图片进行处理，将处理后的所述人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，确定瓶颈特征；

根据所述瓶颈特征，确定扬声器增益向量，使用所述扬声器增益向量进行串声消除。

可选地，所述根据所述瓶颈特征，确定扬声器增益向量，使用所述扬声器增益向量进行串声消除的步骤，包括：

获取所述瓶颈特征和预设解码器；

基于所述预设解码器对所述瓶颈特征进行解码，确定扬声器增益向量；

使用所述扬声器增益向量进行串声消除。

可选地，所述获取人耳图片的步骤之前，还包括：

获取预设数据集；

对所述预设数据集中的人耳图片进行裁剪，对裁剪后的所述人耳图片进行边缘检测处理，得到处理后的预设数据集；

根据处理后的预设数据集确定扬声器增益向量数据集；

基于所述扬声器增益向量数据集训练初始特征预测模型，得到瓶颈特征预测模型。

可选地，所述基于所述扬声器增益向量数据集训练初始特征预测模型，得到瓶颈特征预测模型步骤，包括：

基于所述扬声器增益向量数据集训练初始编码器，得到自编码器；

利用所述自编码器对所述扬声器增益向量数据集进行编码，得到瓶颈特征数据集；

基于所述瓶颈特征数据集训练初始特征预测模型，得到瓶颈特征预测模型。

可选地，所述基于所述扬声器增益向量数据集训练初始编码器，得到自编码器的步骤，包括：

将所述扬声器增益向量数据集输入所述初始编码器的编码器部分，得到编码器瓶颈特征；

将所述编码器瓶颈特征输入所述初始编码器的解码器部分，得到扬声器增益向量数据输出；

基于所述扬声器增益向量数据输出，使用反向传播算法更新所述初始编码器；

重复上述步骤直至满足预设条件，将得到的所述初始编码器作为自编码器。

可选地，所述利用所述自编码器对所述扬声器增益向量数据集进行编码，得到瓶颈特征数据集的步骤，包括：

将所述扬声器增益向量数据集输入所述自编码器的编码器部分；

获取所述自编码器的编码器输出，得到瓶颈特征数据集。

可选地，所述对所述人耳图片进行处理，将处理后的所述人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，确定瓶颈特征的步骤，包括：

对所述人耳图片进行处理得到处理后的所述人耳图片；

将所述处理后的所述人耳图片输入瓶颈特征预测模型的第一子网络；

将所述声源方位角和人体参数输入所述瓶颈特征预测模型的第二子网络；

将所述第一子网络和所述第二子网络的输出结果输入所述瓶颈特征预测模型的第三子网络，确定瓶颈特征；

此外，为实现上述目的，本发明还提出一种串声消除装置，所述串声消除装置包括：

图片获取模块，用于获取人耳图片；

特征预测模块，用于对所述人耳图片进行处理，将处理后的所述人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，确定瓶颈特征；

串声消除模块，用于根据所述瓶颈特征，确定扬声器增益向量，使用所述扬声器增益向量进行串声消除。

此外，为实现上述目的，本发明还提出一种串声消除设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的串声消除程序，所述串声消除程序配置为实现如上文所述的串声消除方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，其特征在于，所述存储介质上存储有串声消除程序，所述串声消除程序被处理器执行时实现如上文所述的串声消除方法的步骤。

本发明通过获取人耳图片；对所述人耳图片进行处理，将处理后的所述人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，确定瓶颈特征；根据所述瓶颈特征，确定扬声器增益向量，使用所述扬声器增益向量进行串声消除。获取了人耳图片后进行处理，将处理后的所述人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，通过瓶颈特征预测模型确定瓶颈特征，根据所述瓶颈特征，确定扬声器增益向量，使用所述扬声器增益向量进行串声消除。将处理了的人耳图片输入瓶颈特征预测模型，只需要人耳图片就可以进行进行串声消除，而不用实际测量人体的耳廓参数。从而解决了人体的耳廓参数在实际测量的过程中耗时费力的技术问题。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的串声消除设备结构示意图；

图2为本发明串声消除方法第一实施例的流程示意图；

图3为本发明串声消除方法第二实施例的流程示意图；

图4为经过裁剪和边缘检测处理后的人耳图片示意图；

图5为虚拟声源的方位示意图；

图6为双扬声器的方位示意图；

图7为自编码器的结构示意图；

图8为瓶颈特征预测模型的结构示意图；

图9为生成个性化GVL过程的流程图；

图10为本发明串声消除装置的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的串声消除设备结构示意图。

如图1所示，该串声消除设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random AccessMemory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对串声消除设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及串声消除程序。

在图1所示的串声消除设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明串声消除设备中的处理器1001、存储器1005可以设置在串声消除设备中，所述串声消除设备通过处理器1001调用存储器1005中存储的串声消除程序，并执行本发明实施例提供的串声消除方法。

本发明实施例提供了一种串声消除方法，参照图2，图2为本发明串声消除方法第一实施例的流程示意图。

本实施例中，所述串声消除方法包括以下步骤：

步骤S10：获取人耳图片。

可以理解的是，所述人耳图片可以是使用者的耳部的图片。

在具体实现中，人耳图片可以通过摄像设备捕捉到的人耳图像来获取。例如，可以使用智能手机或摄像机等设备对人耳进行拍摄，并将拍摄到的人耳图像作为输入。

步骤S20：对所述人耳图片进行处理，将处理后的所述人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，确定瓶颈特征。

需要说明的是，所述声源方位角可以是模拟实际情况的虚拟声源的角度信息。

需要说明的是，所述人体参数可以是与听觉有关的人体参数，比如头部宽度、躯干顶部高度、头部高度、躯干顶部深度、头部深度、肩部宽度、耳廓下方偏移、头部前方偏移、耳廓后方偏移、高度、脖子宽度、坐高、脖子高度、头围、脖子深度、肩围、躯干顶部宽度等。

在具体实现中，可以使用图像处理算法对所述人耳图片进行预处理，例如去噪、增强对比度等。处理后的人耳图片可以更好地反映人耳的特征。将处理后的人耳图片、声源方位角和人体参数作为输入，输入到预先训练好的瓶颈特征预测模型中。该模型可以根据输入的信息，预测出相应的瓶颈特征。

步骤S30：根据所述瓶颈特征，确定扬声器增益向量，使用所述扬声器增益向量进行串声消除。

可以理解的是，所述扬声器增益向量可以是表征重建声场中听者声场扰动特性的频带增益因子。

在具体实现中，可以通过计算或查表等方式确定扬声器增益向量。该扬声器增益向量可以用来调整扬声器的输出，以实现串声消除的效果。将确定的扬声器增益向量应用于扬声器的输出信号中，以抑制串声的干扰。通过调整扬声器的增益，可以使得主要声源的信号更清晰、更突出，从而实现串声的消除。

进一步的，在本实施例中，所述步骤S30，包括：

步骤S301：获取所述瓶颈特征和预设解码器。

需要说明的是，所述预设解码器可以是事先训练好的解码器模型。

在具体实现中，瓶颈特征可以通过瓶颈特征预测模型预测得到，瓶颈特征可以表示原始音频信号的低维度表示，而预设解码器可以将瓶颈特征解码为扬声器增益向量。

步骤S302：基于所述预设解码器对所述瓶颈特征进行解码，确定扬声器增益向量。

在具体实现中，可以将预测得到的瓶颈特征输入到预设解码器中，经过解码过程后得到扬声器增益向量。解码过程可以是根据预设解码器的结构和参数，将瓶颈特征映射回原始特征空间的过程。进一步进行调整和优化，以满足串声消除的要求。例如，可以根据实际情况对扬声器增益向量进行平滑处理，以避免突变和失真。

步骤S303：使用所述扬声器增益向量进行串声消除。

在具体实现中，可以将确定的扬声器增益向量应用于扬声器的输出信号中，以抑制串声的干扰。

本实施例的上述方式通过获取所述瓶颈特征和预设解码器；基于所述预设解码器对所述瓶颈特征进行解码，确定扬声器增益向量；使用所述扬声器增益向量进行串声消除。通过调整扬声器的增益，可以使得主要声源的信号更清晰、更突出，从而实现串声的消除。

基于上述实施例，提出发明的第二实施例，参考图3，图3为本发明串声消除方法第二实施例的流程示意图。

在本实施例中，步骤S10之前，还包括：

步骤S01：获取预设数据集。

可以理解的是，所述预设数据集可以是保存有多个人耳图片的数据库。

在具体实现中，可以从已有的数据集中获取预设数据集，该数据集包含多个人耳图片。预设数据集可以用于训练初始特征预测模型和确定扬声器增益向量数据集。

步骤S02：对所述预设数据集中的人耳图片进行裁剪，对裁剪后的所述人耳图片进行边缘检测处理，得到处理后的预设数据集。

在具体实现中，可以对预设数据集中的每张人耳图片进行裁剪，以去除无关部分并保留人耳的区域。然后，可以对裁剪后的人耳图片进行边缘检测处理，以突出人耳的边缘特征。处理后的预设数据集可以更好地反映人耳的形状和结构。

步骤S03：根据处理后的预设数据集确定扬声器增益向量数据集。

在具体实现中，可以通过计算或其他方法确定扬声器增益向量数据集。该数据集可以包含多个扬声器增益向量，用于后续的串声消除过程。

步骤S04：基于所述扬声器增益向量数据集训练初始特征预测模型，得到瓶颈特征预测模型。

在具体实现中，可以使用机器学习算法，如神经网络等，基于扬声器增益向量数据集训练初始特征预测模型。该模型可以根据输入的人耳图片预测出相应的瓶颈特征。然后进一步优化和调整，得到更准确的瓶颈特征预测模型。该模型可以根据输入的信息，预测出相应的瓶颈特征，用于后续的串声消除过程。

本申请的上述方式通过获取预设数据集；对所述预设数据集中的人耳图片进行裁剪，对裁剪后的所述人耳图片进行边缘检测处理，得到处理后的预设数据集；根据处理后的预设数据集确定扬声器增益向量数据集；基于所述扬声器增益向量数据集训练初始特征预测模型，得到瓶颈特征预测模型。可以获得准确的瓶颈特征预测模型。

进一步的，在本实施例中，步骤S04，包括：

步骤S041：基于所述扬声器增益向量数据集训练初始编码器，得到自编码器。

需要说明的是，所述初始编码器可以是未经过训练的编码器。

需要说明的是，所述自编码器可以是使用扬声器增益向量数据训练后的编码器。

在具体实现中，通过训练自编码器使其能够学习扬声器增益向量数据集的特征表示。自编码器可以由编码器和解码器组成，其中编码器将扬声器增益向量映射到低维度的瓶颈特征空间，解码器将瓶颈特征映射回原始向量空间。

步骤S042：利用所述自编码器对所述扬声器增益向量数据集进行编码，得到瓶颈特征数据集。

在具体实现中，可以将扬声器增益向量数据集输入到训练好的自编码器中，经过编码过程后得到瓶颈特征数据集。编码过程可以将扬声器增益向量映射到瓶颈特征空间，以获取低维度的表示。

步骤S043：基于所述瓶颈特征数据集训练初始特征预测模型，得到瓶颈特征预测模型。

本实施例通过基于所述扬声器增益向量数据集训练初始编码器，得到自编码器；利用所述自编码器对所述扬声器增益向量数据集进行编码，得到瓶颈特征数据集；基于所述瓶颈特征数据集训练初始特征预测模型，得到瓶颈特征预测模型。可以使用自编码器将扬声器增益向量转换为瓶颈特征数据。

进一步的，在本实施例中，所述步骤S041，包括：

步骤S0411：将所述扬声器增益向量数据集输入所述初始编码器的编码器部分，得到编码器瓶颈特征。

在具体实现中，可以将扬声器增益向量数据集作为输入，通过初始编码器的编码器部分将其映射到低维度的编码器瓶颈特征空间。编码器瓶颈特征可以用来表示扬声器增益向量的重要特征。

步骤S0412：将所述编码器瓶颈特征输入所述初始编码器的解码器部分，得到扬声器增益向量数据输出。

在具体实现中，可以将编码器瓶颈特征输入初始编码器的解码器部分，通过解码过程将其映射回原始的扬声器增益向量空间，得到扬声器增益向量数据输出。

步骤S0413：基于所述扬声器增益向量数据输出，使用反向传播算法更新所述初始编码器。

在具体实现中，可以通过计算输出与目标输出之间的误差，并使用反向传播算法更新初始编码器的权重和偏置，以优化编码器和解码器的性能。

步骤S0414：重复上述步骤直至满足预设条件，将得到的所述初始编码器作为自编码器。

在具体实现中，可以设置预设条件，如训练轮数、误差阈值等，当达到预设条件时，停止更新初始编码器，并将得到的初始编码器作为自编码器。

本实施例的上述方式通过将所述扬声器增益向量数据集输入所述初始编码器的编码器部分，得到编码器瓶颈特征；将所述编码器瓶颈特征输入所述初始编码器的解码器部分，得到扬声器增益向量数据输出；基于所述扬声器增益向量数据输出，使用反向传播算法更新所述初始编码器；重复上述步骤直至满足预设条件，将得到的所述初始编码器作为自编码器。通过反向传播算法对自编码器进行训练，可以更快的得到合适的自编码器。

进一步的，在本实施例中，所述步骤S042，包括：

步骤S0421：将所述扬声器增益向量数据集输入所述自编码器的编码器部分。

在具体实现中，可以将扬声器增益向量数据集作为输入，通过自编码器的编码器部分将其映射到低维度的瓶颈特征空间。编码器部分可以是自编码器的前半部分，用于提取输入数据的重要特征。

步骤S0422：获取所述自编码器的编码器输出，得到瓶颈特征数据集。

在具体实现中，可以获取自编码器的编码器部分的输出，即编码器输出。该编码器输出可以作为瓶颈特征数据集，用于后续的串声消除过程。瓶颈特征数据集可以表示扬声器增益向量的低维度表示。

本申请的上述方式通过将所述扬声器增益向量数据集输入所述自编码器的编码器部分；获取所述自编码器的编码器输出，得到瓶颈特征数据集。通过自编码器的编码器，将扬声器增益向量转换为瓶颈特征数据集。

进一步的，本实施例中，步骤S20，包括：

步骤S201：对所述人耳图片进行处理得到处理后的所述人耳图片。

在具体实现中，可以使用图像处理算法对人耳图片进行预处理，如去噪、增强对比度等，以得到处理后的人耳图片。处理后的人耳图片可以更好地反映人耳的特征。

步骤S202：将所述处理后的所述人耳图片输入瓶颈特征预测模型的第一子网络。

在具体实现中，可以将处理后的人耳图片作为输入，通过第一子网络进行处理。第一子网络可以是卷积神经网络或其他适用的网络结构，用于提取图片的特征。

步骤S203：将所述声源方位角和人体参数输入所述瓶颈特征预测模型的第二子网络。

在具体实现中，可以将声源方位角和人体参数作为输入，通过第二子网络进行处理。第二子网络可以是全连接神经网络或其他适用的网络结构，用于提取声源方位角和人体参数的特征。

步骤S204：将所述第一子网络和所述第二子网络的输出结果输入所述瓶颈特征预测模型的第三子网络，确定瓶颈特征。

在具体实现中，可以将第一子网络和第二子网络的输出结果作为输入，通过第三子网络进行处理。第三子网络可以是全连接神经网络或其他适用的网络结构，用于组合和处理前两个子网络的输出，最终确定瓶颈特征。

本申请的上述方式通过将所述处理后的所述人耳图片输入瓶颈特征预测模型的第一子网络；将所述声源方位角和人体参数输入所述瓶颈特征预测模型的第二子网络；将所述第一子网络和所述第二子网络的输出结果输入所述瓶颈特征预测模型的第三子网络，确定瓶颈特征。使用三个子网络，通过第一子网络和第二子网络分别处理输入的数据，再通过第三子网络处理第一子网络和第二子网络的输出结果得到瓶颈特征，可以用得到更准确的瓶颈特征。

基于上述实施例，提出本申请的第三实施例，在本实施例中，因为数据集中的人耳图片尺寸可能并不统一，所以首先对数据集中的人耳图片进行裁剪，裁剪后的人耳图片尺寸均为64×64。在此之后，对裁剪后的图片应用Canny边缘检测算法进行处理，以避免人耳图片中的其他无关特征对后续神经网络的训练产生影响。处理后的人耳图片如图4所示。

假设虚拟声源的方位如图5所示，双扬声器的方位如图6所示，并且虚拟声源、双扬声器和双耳均处于同一水平面。其中，以人头为中心，将人头正前方的角度规定为0°，左右耳对应的角度为-90°和90°。φ为虚拟声源的方位角，θ₁和θ₂为分别两个扬声器的方位角。S(k)为声源信号。H_L(φ,k)和H_R(φ,k)分别为虚拟声源到听者左耳和右耳的HRTF(HeadRelated Transfer Function，头相关变换函数)。左扬声器到左右耳的HRTF分别为H_LL(θ₁,k)和H_LR(θ₁,k)，右扬声器到左右耳的HRTF分别为H_RL(θ₂,k)和H_RR(θ₂,k)。

在双扬声器下应用HRTF重建虚拟声像会产生串声现象，而消除串声的重点是求得和。它们可以看作是两个扬声器的前置滤波器，它们在频域中的表达式如下：

其中，φ虚拟声源的方位角，θ₁和θ₂为分别两个扬声器的方位角。H_L(φ,k)和H_R(φ,k)分别为虚拟声源到听者左耳和右耳的HRTF。左扬声器到左右耳的HRTF为H_LL(θ₁,k)和H_LR(θ₁,k)，右扬声器到左右耳的HRTF为H_RL(θ₂,k)和H_RR(θ₂,k)。

在本方法中，时域到频域的转换方法均使用64点的快速傅里叶变换算法。所以，g₁(k)和g₂(k)的长度均为32。为了便于使用神经网络来预测g₁(k)和g₂(k)，使用GVL(GainVector of Loudspeaker，扬声器增益向量)来表示g₁(k)和g₂(k)堆叠的结果(g₁(k),g₂(k))，其长度为64。

由于g₁(k)和g₂(k)都是含有虚部的复数，所以在使用神经网络预测g₁(k)和g₂(k)时，仅仅预测其幅度。而它们的相位统一设置为GVL数据集中g₁(k)和g₂(k)各自的平均相位。当两扬声器的方位和虚拟声源的方位均确定时，则可以求得GVL，得到GVL数据集。GVL数据集的每条数据包括受试者的17个头部加躯干参数、经处理的人耳图片、两个扬声器的方位角、虚拟声源的方位角和经过计算得出的GVL。

之后，使用上述的GVL数据集训练自编码器。自编码器的结构如图7所示。自编码器分为编码器和解码器两部分。其中，自编码器的第1层到第4层为编码器部分，第4层到第7层为解码器部分。自编码器总共含有7层，第1层为输入层，其神经元个数为64，与GVL的长度一致，用于GVL的输入。第2层和第3层分别为隐藏层，神经元个数均为50，且隐藏层后均使用ReLU激活函数进行激活。第4层是节点数为20的隐藏层，该层可以称为瓶颈层(bottlenecklayer)，该层提取出来的特征可以称为瓶颈特征(bottleneck features)。第5层和第6层均为节点数为50的隐藏层，并且每个隐藏层后均使用ReLU函数作为激活函数。第7层为输出层，节点数为64，在输出层后使用tanh函数作为激活函数。自编码器最后的输出为GVL。

在训练阶段，将GVL数据集中的GVL数据作为训练数据，GVL分别作为自编码器的输入和输出。同时，代价函数设置为均方误差函数(mean-square error)，优化器设置为Adam，学习率设置为0.001。在训练参数配置完成后，使用反向传播更新神经网络的参数。训练结束的条件可以是自编码器已经充分收敛或者已经训练了预设的轮次。在训练结束后，即可获得所需的自编码器。

在得到了所需要的自编码器之后，将GVL数据集的每条GVL数据作为编码器部分的输入，则可通过编码器的输出得到每条GVL对应的长度为20的瓶颈特征。将每条GVL数据对应的瓶颈特征加入GVL数据集中。此时GVL数据集中每条数据包含受试者的17个头部加躯干参数、人耳图片、两个扬声器的方位角、虚拟声源的方位角、经过计算得出的GVL和将GVL编码后的瓶颈特征。

为了进行瓶颈特征的预测，本方法建立了瓶颈特征的预测模型，参照图8，图8为瓶颈特征预测模型的结构示意图。该模型使用扬声器对的方位角、虚拟声源的方位角、17个人体头部和躯干参数和经过步骤处理后的人耳图片等参数作为输入，输出则是所预测的瓶颈特征。瓶颈特征预测模型的架构如图所示。整个瓶颈特征预测模型由三个子网络组成：子网络A、子网络B和子网络C。

子网络A的作用是从输入中来提取扬声器对的方位特征、虚拟声源的方位特征、人体头部特征和人体躯干特征。子网络A的输入为扬声器对的两个方位角、一个虚拟声源的方位角、17个人体头部参数和人体躯干参数。子网络A包括一个节点为20输入层，输入层的节点数对应输入参数的个数。子网络A的中间含有三个节点数为64的隐藏层，并且每个隐藏层后均使用ReLU激活函数进行激活。子网络A的输出层含有16个节点，并且子网络A的输出作为子网络C输入的一部分。

子网络B的作用是从经处理后的人耳图片中提取耳廓特征。子网络B的输入为经过裁剪、Canny边缘检测算法处理后的人耳图片。子网络B的输入层大小为64×64，对应于人耳图片的尺寸。子网络B的第二部分为卷积层，卷积核的个数为16，卷积核的尺寸为3×3。在卷积层后使用了批标准化技术(Batch normalization)，并且使用ReLU激活函数进行激活。子网络B的第三部分为通道注意力机制SEnet模块，该模块具体结构可参考现有技术。通道注意力机制Senet模块可以学习到特征图(Feature map)中每个通道的权重，通过为特征图的各个通道施加不同的权重，从而让神经网络重点关注特征图的某些通道，进而更加有效的从图片中提取特征。子网络B的第四部分为一个卷积层，卷积核的个数为16，卷积核的尺寸为3×3。在卷积层后使用了批标准化技术(Batch normalization)，并且使用ReLU激活函数进行激活。子网络B的第五部分为一个全连接层。子网络B的最后一部分为输出层，其节点数为16，并且该输出将作为子网络C的输入的一部分。

子网络C的作用是将子网络A和子网络B所提取的特征进行融合，进而生成瓶颈特征。子网络C的输入为子网络A的输出和子网络B的输出的组合，长度为32。子网络C包括三个节点数为64的隐藏层，并且在每个隐藏层后都使用LeakyReLU函数进行激活。子网络C的输出层包含20个节点，对应于瓶颈特征的长度。

在瓶颈特征预测模型的训练阶段，将所有GVL数据集划分为训练集。在训练过程中，两个扬声器的方位角、虚拟声源的方位角、17个人体头部和躯干参数以及经步骤1处理过的人耳图片一起作为神经网络的输入。神经网络的输出则为瓶颈特征。同时，代价函数设置为均方误差函数(mean-square error)，优化器设置为Adam，学习率设置为0.001。在训练参数配置完成后，使用反向传播更新神经网络的参数。训练结束的条件可以是自编码器已经充分收敛或者已经训练了预设的轮次。在训练结束后，即可获得所需的瓶颈特征预测模型。

完成上述步骤之后即可生成个性化的GVL。首先，对需要进行虚拟声像重建的听者进行测量，需要测量的参数有人体头部参数和躯干参数共17个参数。具体测量方式可以参考有关CIPIC数据库的现有资料。同时，对听者拍摄一张人耳图片，并且对其进行裁剪至64×64的尺寸，再使用Canny边缘检测算法对其进行处理。其次，确定两个扬声器的方位角、虚拟声源的方位角。然后，将两个扬声器的方位角、虚拟声源的方位、17个人体参数和经过处理后的人耳图片作为得到的瓶颈特征预测模型的输入，模型的输出则为听者在该情况下的瓶颈特征。接下来，使用训练完成的自编码器的解码器部分，对瓶颈特征进行解码，即可获得此听者在该种情况下的GVL。参考图9，图9为生成个性化GVL过程的流程图。

由于GVL是由g₁(k)和g₂(k)堆叠而成，得到个性化的GVL后即可进一步获得个性化的g₁(k)和g₂(k)。声源信号S(k)在经过g₁(k)和g₂(k)的滤波处理后，以Y_L(k)和Y_R(k)的形式输入至扬声器。之后，再对左右扬声器信号Y_L(k)和Y_R(k)应用HRTF则可以避免串声现象的影响，完成虚拟声像的重建。

此外，为实现上述目的，本发明还提出一种串声消除装置，参照图10，图10为本发明串声消除装置的模块示意图，所述串声消除装置包括：

图片获取模块，用于获取人耳图片；

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有串声消除程序，所述串声消除程序被处理器执行时实现如上文所述的串声消除方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种串声消除方法，其特征在于，所述串声消除方法包括：

获取人耳图片；

2.如权利要求1所述的串声消除方法，其特征在于，所述根据所述瓶颈特征，确定扬声器增益向量，使用所述扬声器增益向量进行串声消除的步骤，包括：

获取所述瓶颈特征和预设解码器；

使用所述扬声器增益向量进行串声消除。

3.如权利要求1所述的串声消除方法，其特征在于，所述获取人耳图片的步骤之前，还包括：

获取预设数据集；

根据处理后的预设数据集确定扬声器增益向量数据集；

4.如权利要求3所述的串声消除方法，其特征在于，所述基于所述扬声器增益向量数据集训练初始特征预测模型，得到瓶颈特征预测模型步骤，包括：

5.如权利要求4所述的串声消除方法，其特征在于，所述基于所述扬声器增益向量数据集训练初始编码器，得到自编码器的步骤，包括：

6.如权利要求4所述的串声消除方法，其特征在于，所述利用所述自编码器对所述扬声器增益向量数据集进行编码，得到瓶颈特征数据集的步骤，包括：

获取所述自编码器的编码器输出，得到瓶颈特征数据集。

7.如权利要求1至6任一项所述的串声消除方法，其特征在于，所述对所述人耳图片进行处理，将处理后的所述人耳图片、声源方位角和人体参数输入瓶颈特征预测模型，确定瓶颈特征的步骤，包括：

对所述人耳图片进行处理得到处理后的所述人耳图片；

将所述第一子网络和所述第二子网络的输出结果输入所述瓶颈特征预测模型的第三子网络，确定瓶颈特征。

8.一种串声消除装置，其特征在于，所述串声消除装置包括：

图片获取模块，用于获取人耳图片；

9.一种串声消除设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的串声消除程序，所述串声消除程序配置为实现如权利要求1至7中任一项所述的串声消除方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有串声消除程序，所述串声消除程序被处理器执行时实现如权利要求1至7中任一项所述的串声消除方法的步骤。