CN116684812A

CN116684812A - 基于相位差的环境声改进方法、装置、设备及存储介质

Info

Publication number: CN116684812A
Application number: CN202310689171.9A
Authority: CN
Inventors: 李林峰; 汪杨刚; 陈诗雨
Original assignee: Wuhan Haiwei Technology Co ltd
Current assignee: Wuhan Haiwei Technology Co ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-01

Abstract

本发明属于音频处理技术领域，公开了一种基于相位差的环境声改进方法、装置、设备及存储介质。该方法包括：读取立体声的左通道信号和右通道信号；根据所述左通道信号以及所述右通道信号，确定环境声信号；确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息；基于所述频域信息确定相邻帧信号的通路k的相邻相位差；基于所述相邻相位差确定帧信号的通路k的瞬时频率；根据所述瞬时频率确定改进环境声信号的瞬时相位；基于所述瞬时相位以及所述频域信息，确定改进频域信息；根据所述改进频域信息确定所述立体声的改进环境声信号。能够使得改进后的环境声自适应于立体声且有效增强立体声的氛围感。

Description

基于相位差的环境声改进方法、装置、设备及存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种基于相位差的环境声改进方法、装置、设备及存储介质。

背景技术

在双通道立体声转5.1环绕声或7.1.4全景声实验中，当使用被动环绕解码法提取主要声和环境声时，主要声使得声像位于听音位正前方，清晰准确，但是采用这种方式提取出来的环境声营造的氛围感方面效果不佳。现有的改进方式是通过添加混响来增强氛围感，但是添加的混响不具有自适应性，即混响可能与立体声风格不适配，反而带来不好的听音效果。

发明内容

本发明的主要目的在于提供一种基于相位差的环境声改进方法、装置、设备及存储介质，旨在解决现有技术中通过添加混响的方式来增强氛围感时存在混响与立体声风格不适配的可能，进而导致带来不好听音效果的技术问题。

为实现上述目的，本发明提供了一种基于相位差的环境声改进方法，所述方法包括以下步骤：

读取立体声的左通道信号和右通道信号；

根据所述左通道信号以及所述右通道信号，确定环境声信号；

确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息；

基于所述频域信息确定相邻帧信号的通路k的相邻相位差；

基于所述相邻相位差确定帧信号的通路k的瞬时频率；

根据所述瞬时频率确定改进环境声信号的瞬时相位；

基于所述瞬时相位以及所述频域信息，确定改进频域信息；

根据所述改进频域信息确定所述立体声的改进环境声信号。

可选地，所述确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息，包括：

对所述环境声信号进行分帧加窗处理，得到多个帧信号；

对多个帧信号做傅里叶变换，确定所述多个帧信号对应的频域信息。

可选地，所述基于所述相邻相位差确定帧信号的通路k的瞬时频率，包括：

确定采样点数量，并将所述采样点数量作为帧移；

基于所述帧移以及所述相邻相位差，确定帧信号的通路k的瞬时频率。

可选地，所述根据所述瞬时频率确定改进环境声信号的瞬时相位，包括：

在所述瞬时频率的基础上乘以预设值之后得到相位增量，根据所述相位增量确定所述改进环境声信号的瞬时相位。

可选地，所述基于所述瞬时相位以及所述频域信息，确定改进频域信息，包括：

将所述频域信息中的相位信息替换成所述瞬时相位，得到所述改进频域信息。

可选地，所述根据所述改进频域信息确定所述立体声的改进环境声信号，包括：

对所述改进频域信息做傅里叶逆变换，得到所述立体声的改进环境声信号。

根据所述改进频域信息确定初始改进环境声信号；

通过带通滤波器去除所述初始改进环境声信号中的直流分量和高频分量，得到所述立体声的改进环境声信号。

此外，为实现上述目的，本发明还提出一种基于相位差的环境声改进装置，所述基于相位差的环境声改进装置包括：

读取模块，用于读取立体声的左通道信号和右通道信号；

确定模块，用于根据所述左通道信号以及所述右通道信号，确定环境声信号；

所述确定模块，还用于确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息；

所述确定模块，还用于基于所述频域信息确定相邻帧信号的通路k的相邻相位差；

所述确定模块，还用于基于所述相邻相位差确定帧信号的通路k的瞬时频率；

所述确定模块，还用于根据所述瞬时频率确定改进环境声信号的瞬时相位；

所述确定模块，还用于基于所述瞬时相位以及所述频域信息，确定改进频域信息；

所述确定模块，还用于根据所述改进频域信息确定所述立体声的改进环境声信号。

此外，为实现上述目的，本发明还提出一种基于相位差的环境声改进设备，所述基于相位差的环境声改进设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于相位差的环境声改进程序，所述基于相位差的环境声改进程序配置为实现如上文所述的基于相位差的环境声改进方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于相位差的环境声改进程序，所述基于相位差的环境声改进程序被处理器执行时实现如上文所述的基于相位差的环境声改进方法的步骤。

本发明提出的基于相位差的环境声改进方法、装置、设备及存储介质，通过读取立体声的左通道信号和右通道信号；根据所述左通道信号以及所述右通道信号，确定环境声信号；确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息；基于所述频域信息确定相邻帧信号的通路k的相邻相位差；基于所述相邻相位差确定帧信号的通路k的瞬时频率；根据所述瞬时频率确定改进环境声信号的瞬时相位；基于所述瞬时相位以及所述频域信息，确定改进频域信息；根据所述改进频域信息确定所述立体声的改进环境声信号。通过上述方式，在利用被动环绕解码法提取主要声和环境声的基础上，采用时频分析来实现环境声的改进，使得改进后的环境声自适应于立体声，同时有效增强立体声的氛围感。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于相位差的环境声改进设备的结构示意图；

图2为本发明基于相位差的环境声改进方法第一实施例的流程示意图；

图3为本发明基于相位差的环境声改进方法第二实施例的流程示意图；

图4为本发明基于相位差的环境声改进装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于相位差的环境声改进设备结构示意图。

如图1所示，该基于相位差的环境声改进设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于相位差的环境声改进设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于相位差的环境声改进程序。

在图1所示的基于相位差的环境声改进设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于相位差的环境声改进设备中的处理器1001、存储器1005可以设置在基于相位差的环境声改进设备中，所述基于相位差的环境声改进设备通过处理器1001调用存储器1005中存储的基于相位差的环境声改进程序，并执行本发明实施例提供的基于相位差的环境声改进方法。

基于上述硬件结构，提出本发明基于相位差的环境声改进方法实施例。

参照图2，图2为本发明一种基于相位差的环境声改进方法第一实施例的流程示意图。

本实施例中，所述基于相位差的环境声改进方法包括以下步骤：

步骤S10：读取立体声的左通道信号和右通道信号。

需要说明的是，本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备，例如手机、平板电脑、个人电脑等，或者是一种能够实现上述功能的电子设备或基于相位差的环境声改进设备。以下以所述基于相位差的环境声改进设备为例，对本实施例及下述各实施例进行说明。

需要说明的是，由于双通道立体声转5.1环绕声或7.1.4全景声是一个上采样过程，可通过对立体声做上采样来提取主要声和环境声以实现双通道转换多通道。被动环绕解码法是目前常用的主要声和环境声提取方法，在被动环绕解码法中，主要声等于立体声的左通道信号加上立体声的右通道信号再衰减3dB，环境声等于立体声的左通道信号减去立体声的右通道信号再衰减3dB，采用被动环绕解码法提取的主要声使得声像位于听音正前方，清晰准确，但是采用被动环绕解码法提取的环境声营造的氛围感有所欠缺。

步骤S20：根据所述左通道信号以及所述右通道信号，确定环境声信号。

需要说明的是，环境声信号等于左通道信号减去右通道信号再衰减3dB。

步骤S30：确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息。

需要说明的是，环境声信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的，所以它是一个非平稳态过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是，在一个短时间范围内(认为在10-30ms的时间内)，其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。所以任何声信号的分析和处理需要建立在“短时”的基础上，即进行“短时分析”，将声信号分为一段一段来分析其特征参数，其中每一段称为一“帧”，帧长一般即取为10-30ms。

需要说明的是，由于环境声信号在10-30ms的范围内具有短时平稳性，因而在对环境声信号进行处理之前需要经过分帧操作，即把一个环境声信号切分成多个帧语音信号，可通过对环境声信号进行分帧处理来确定环境声信号的多个帧信号。

在具体实现中，可通过对多个帧信号做傅里叶变换来确定环境声信号的频域信息，即将环境声信号从时域信号转为频域信号。

在一实施例中，所述确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息，包括：

对所述环境声信号进行分帧加窗处理，得到多个帧信号；

需要说明的是，由于环境声信号在10-30ms的范围内具有短时平稳性，因而在对环境声信号进行处理之前需要经过分帧操作，即把一个环境声信号切分成多个帧语音信号，为了使得帧语音信号之间的平滑过渡，具有连贯性，通常要采用交叠分段的方法，即在进行分帧操作时，相邻帧语音信号之间存在交叠部分，帧长减去交叠部分的长度定义为帧移，而每一帧语音信号的长度定义为帧长，在对环境声信号进行截断分帧之后，将会产生能量泄露现象(即对进行分帧之后得到的帧语音信号做fft时出现频谱泄露现象)。由于用于对环境声信号进行分帧时所采用的截断函数是频带无限的函数，而环境声信号是有限带宽信号，因而分帧后的环境声信号在频率中能量将被扩展，根据采样定理，当采样频率超过环境声信号最高频率的2倍时，才可能恢复环境声信号，因而无论采样频率多高，只要经过分帧处理，则将引起混叠，此时，通过使用加权函数(即窗函数)，使能量集中在主瓣，则可以获得更接近真实频谱的信号，减少能量泄露，故在对环境声信号分帧得到多个帧语音信号之后需要对多个帧语音信号做加窗处理，具体地，将多个帧语音信号乘上窗函数，窗函数可以包括但不限于矩形窗、汉明窗以及汉宁窗。

在具体实现中，对环境声信号x(n)进行分帧加窗处理之后再做短时傅里叶变换的公式如下，其中，加窗处理中的窗函数为长度为N，中心在m的窗函数h(n-m)：

需要说明的是，在上述公式的基础上，环境声信号可以表示为一组幅度和相位随时间变化的正弦信号的叠加，具体如下所示：

在本实施例中，通过对所述环境声信号进行分帧加窗处理，得到多个帧信号；对多个帧信号做傅里叶变换，确定所述多个帧信号对应的频域信息。通过上述方式，能够对避免环境声信号做傅里叶变换时发生频谱泄露。

步骤S40：基于所述频域信息确定相邻帧信号的通路k的相邻相位差。

需要说明的是，相邻帧信号指的是两个相邻的帧信号，相邻相位差指的是两个相邻的帧信号之间的相位差。

在具体实现中，相邻帧信号的通路k的相邻相位差的计算式如下：

Δθ(k)＝θ(n+1，k)-θ(n，k)

式中，θ(n,k)表示第n个帧信号的相位，θ(n+1,k)表示第n+1个帧信号的相位，Δθ(k)表示相邻帧信号的通路k的相邻相位差。

步骤S50：基于所述相邻相位差确定帧信号的通路k的瞬时频率。

在一实施例中，所述基于所述相邻相位差确定帧信号的通路k的瞬时频率，包括：

确定采样点数量，并将所述采样点数量作为帧移；

需要说明的是，由于在进行分帧操作时，相邻帧语音信号之间存在交叠部分，帧长减去交叠部分的长度定义为帧移。

需要说明的是，采样点数量可以预先进行设定，可根据预先设定的采样点数量来确定相邻帧信号之间的帧移。

在具体实现中，帧信号的通路k的瞬时频率的计算式如下：

dθ(k)＝Δθ(k)/L式中，L表示采样点数量，Δθ(k)表示相邻帧信号的通路k的相邻相位差，dθ(k)表示帧信号的通路k的瞬时频率。

步骤S60：根据所述瞬时频率确定改进环境声信号的瞬时相位。

在一实施例中，所述根据所述瞬时频率确定改进环境声信号的瞬时相位，包括：

在具体实现中，改进环境声信号的瞬时相位的计算式如下：

ψ(n+1，k)＝ψ(n，k)+α·dθ(k)，α＝0.5L，0.7L，0.9L，1.1L，1.3L，1.5L

式中，α表示预设值，dθ(k)表示帧信号的通路k的瞬时频率，ψ(n,k)表示第n个帧信号的瞬时相位，ψ(n+1,k)表示第n+1个帧信号的瞬时相位。

步骤S70：基于所述瞬时相位以及所述频域信息，确定改进频域信息。

在一实施例中，所述基于所述瞬时相位以及所述频域信息，确定改进频域信息，包括：

需要说明的是，改进前的环境声信号如下所示：

式中，x(n)表示改进前的环境声信号，θ(n,k)表示第n个帧信号的相位。

需要说明的是，改进后的环境声信号如下所示：

式中，y(n)表示改进后的环境声信号，ψ(n,k)表示第n个帧信号的瞬时相位。

步骤S80：根据所述改进频域信息确定所述立体声的改进环境声信号。

在一实施例中，所述根据所述改进频域信息确定所述立体声的改进环境声信号，包括：

需要说明的是，可通过对改进频域信息做傅里叶逆变换来将改进频域信息从频域转为时域，从而得到立体声的改进环境声信号。

本实施例通过读取立体声的左通道信号和右通道信号；根据所述左通道信号以及所述右通道信号，确定环境声信号；确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息；基于所述频域信息确定相邻帧信号的通路k的相邻相位差；基于所述相邻相位差确定帧信号的通路k的瞬时频率；根据所述瞬时频率确定改进环境声信号的瞬时相位；基于所述瞬时相位以及所述频域信息，确定改进频域信息；根据所述改进频域信息确定所述立体声的改进环境声信号。通过上述方式，在利用被动环绕解码法提取主要声和环境声的基础上，采用时频分析来实现环境声的改进，使得改进后的环境声自适应于立体声，同时有效增强立体声的氛围感。

参考图3，图3为本发明一种基于相位差的环境声改进方法第二实施例的流程示意图。

基于上述第一实施例，本实施例基于相位差的环境声改进方法所述根据所述改进频域信息确定所述立体声的改进环境声信号，包括：

步骤S801：根据所述改进频域信息确定初始改进环境声信号。

需要说明的是，可通过对改进频域信息做傅里叶逆变换来将改进频域信息转换为初始改进环境声信号。

步骤S802：通过带通滤波器去除所述初始改进环境声信号中的直流分量和高频分量，得到所述立体声的改进环境声信号。

需要说明的是，初始改进环境声信号中的直流分量和高频分量会影响环境声在立体声中营造的氛围感，为了使得立体声的氛围感更强，可以通过带通滤波器去除掉初始改进环境声信号中的直流分量和高频分量。

本实施例通过根据所述改进频域信息确定初始改进环境声信号；通过带通滤波器对所述初始改进环境声信号做滤波，得到所述立体声的改进环境声信号。通过上述方式，能够去除改进后的环境声信号中的直流分量和高频分量，进而有效增强立体声的氛围感。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于相位差的环境声改进程序，所述基于相位差的环境声改进程序被处理器执行时实现如上文所述的基于相位差的环境声改进方法的步骤。

参照图4，图4为本发明基于相位差的环境声改进装置第一实施例的结构框图。

如图4所示，本发明实施例提出的基于相位差的环境声改进装置包括：

读取模块10，用于读取立体声的左通道信号和右通道信号。

确定模块20，用于根据所述左通道信号以及所述右通道信号，确定环境声信号。

所述确定模块20，还用于确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息。

所述确定模块20，还用于基于所述频域信息确定相邻帧信号的通路k的相邻相位差。

所述确定模块20，还用于基于所述相邻相位差确定帧信号的通路k的瞬时频率。

所述确定模块20，还用于根据所述瞬时频率确定改进环境声信号的瞬时相位。

所述确定模块20，还用于基于所述瞬时相位以及所述频域信息，确定改进频域信息。

所述确定模块20，还用于根据所述改进频域信息确定所述立体声的改进环境声信号。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

在一实施例中，所述确定模块20，还用于：

对所述环境声信号进行分帧加窗处理，得到多个帧信号；

在一实施例中，所述确定模块20，还用于：

确定采样点数量，并将所述采样点数量作为帧移；

在一实施例中，所述确定模块20，还用于：

根据所述改进频域信息确定初始改进环境声信号；

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的基于相位差的环境声改进方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于相位差的环境声改进方法，其特征在于，所述基于相位差的环境声改进方法包括：

读取立体声的左通道信号和右通道信号；

基于所述频域信息确定相邻帧信号的通路k的相邻相位差；

基于所述相邻相位差确定帧信号的通路k的瞬时频率；

根据所述瞬时频率确定改进环境声信号的瞬时相位；

基于所述瞬时相位以及所述频域信息，确定改进频域信息；

根据所述改进频域信息确定所述立体声的改进环境声信号。

2.如权利要求1所述的方法，其特征在于，所述确定所述环境声信号的多个帧信号，并确定所述多个帧信号对应的频域信息，包括：

对所述环境声信号进行分帧加窗处理，得到多个帧信号；

3.如权利要求1所述的方法，其特征在于，所述基于所述相邻相位差确定帧信号的通路k的瞬时频率，包括：

确定采样点数量，并将所述采样点数量作为帧移；

4.如权利要求1所述的方法，其特征在于，所述根据所述瞬时频率确定改进环境声信号的瞬时相位，包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述瞬时相位以及所述频域信息，确定改进频域信息，包括：

6.如权利要求1所述的方法，其特征在于，所述根据所述改进频域信息确定所述立体声的改进环境声信号，包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述改进频域信息确定所述立体声的改进环境声信号，包括：

根据所述改进频域信息确定初始改进环境声信号；

8.一种基于相位差的环境声改进装置，其特征在于，所述基于相位差的环境声改进装置包括：

读取模块，用于读取立体声的左通道信号和右通道信号；

9.一种基于相位差的环境声改进设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于相位差的环境声改进程序，所述基于相位差的环境声改进程序配置为实现如权利要求1至7中任一项所述的基于相位差的环境声改进方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有基于相位差的环境声改进程序，所述基于相位差的环境声改进程序被处理器执行时实现如权利要求1至7任一项所述的基于相位差的环境声改进方法的步骤。