CN113948098A - 一种立体声音频信号时延估计方法及装置 - Google Patents

一种立体声音频信号时延估计方法及装置 Download PDF

Info

Publication number
CN113948098A
CN113948098A CN202010700806.7A CN202010700806A CN113948098A CN 113948098 A CN113948098 A CN 113948098A CN 202010700806 A CN202010700806 A CN 202010700806A CN 113948098 A CN113948098 A CN 113948098A
Authority
CN
China
Prior art keywords
frequency domain
channel
domain signal
signal
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010700806.7A
Other languages
English (en)
Inventor
丁建策
王喆
王宾
夏丙寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010700806.7A priority Critical patent/CN113948098A/zh
Priority to BR112023000850A priority patent/BR112023000850A2/pt
Priority to CA3189232A priority patent/CA3189232A1/en
Priority to PCT/CN2021/106515 priority patent/WO2022012629A1/zh
Priority to JP2023502886A priority patent/JP2023533364A/ja
Priority to EP21842542.9A priority patent/EP4170653A4/en
Priority to KR1020237004478A priority patent/KR20230035387A/ko
Publication of CN113948098A publication Critical patent/CN113948098A/zh
Priority to US18/154,549 priority patent/US20230154483A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Abstract

本申请提供一种立体声音频信号时延估计方法及装置。该方法可以包括:获得立体声音频信号的当前帧,当前帧包括第一声道音频信号和第二声道音频信号;如果当前帧所包含的噪声信号的信号类型为相关性噪声信号类型,则采用第一算法估计当前帧的声道间时间差;如果当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型,则采用第二算法估计当前帧的声道间时间差;其中,第一算法包括采用第一加权函数对当前帧的频域互功率谱加权,第二算法包括采用第二加权函数对当前帧的频域互功率谱加权,第一加权函数与第二加权函数的构造因子不同。在本申请中,通过对包含不同类型噪声的立体声音频信号采用不同的ITD估计算法,提高立体声音频信号的ITD的估计精度。

Description

一种立体声音频信号时延估计方法及装置
技术领域
本申请涉及音频编解码领域,特别涉及一种立体声音频信号时延估计方法及装置。
背景技术
在日常的音视频通信系统中,人们不仅追求高质量的图像,而且也追求高质量的音频。在语音与音频通信系统中,单通道音频越来越无法满足人们的需求,而立体声音频携带了各个声源的位置信息,提高了音频的清晰度、可懂度、真实感,因此越来越受到人们的青睐。
在立体声音频编解码技术中,参数立体声编解码技术是一种常见的音频编解码技术,常用的空间参数包含通道间相干性(inter-channel coherence,IC),通道间幅度差(inter-channel level difference,ILD),声道间时间差(inter-channel timedifference,ITD),通道间相位差(inter-channel phase difference,IPD)等。其中ILD和ITD蕴含声源的位置信息,准确估计ILD和ITD信息对编码后立体声声像及声场的重建至关重要。
目前,最常用的一类ITD估计方法为广义互相关法,这是因为这类算法复杂度低,实时性好,易于实现,而且不依赖立体声音频信号的其它先验信息。但是在噪声环境下,现有的几种广义互相关算法的性能下降严重,导致对立体声音频信号的ITD估计精度偏低,使得参数编解码技术中解码后的立体声音频信号出现声像不准确、不稳定、空间感差、头中效应明显等问题,严重影响编码后立体声音频信号的音质。
发明内容
本申请提供了一种立体声音频信号时延估计方法及装置,以提高对立体声音频信号的声道间时间差的估计精度,进而提高解码后立体声音频信号声像的准确性和稳定性,提高音质。
第一方面,本申请提供一种立体声音频信号时延估计方法,该方法可以应用于一音频编码装置,该音频编码装置可以用于涉及立体声及多声道的音视频通信系统中的音频编码部分,也可以用于虚拟现实(virtual reality,VR)应用程序中的音频编码部分。该方法可以包括:音频编码装置获得立体声音频信号的当前帧,当前帧包括第一声道音频信号和第二声道音频信号;如果当前帧所包含的噪声信号的信号类型为相关性噪声信号类型,则采用第一算法估计第一声道音频信号和第二声道音频信号的声道间时间差(inter-channel time difference,ITD);如果当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型,则采用第二算法估计第一声道音频信号和所述第二声道音频信号的ITD;其中,第一算法包括采用第一加权函数对当前帧的频域互功率谱加权,第二算法包括采用第二加权函数对当前帧的频域互功率谱加权,第一加权函数与第二加权函数的构造因子不同。
上述立体声音频信号可以是原始的立体声音频信号(包括左声道音频信号和右声道音频信号),也可以是多声道音频信号中的两路音频信号组成的立体声音频信号,还可以是由多声道音频信号中的多路音频信号联合产生的两路音频信号组成的立体声信号。当然,立体声音频信号还可以存在其他形式,本申请实施例不做具体限定。
可选的,上述音频编码装置具体可以为立体声编码装置,该装置可以构成独立的立体声编码器;也可以为多声道编码器中的核心编码部分,旨在对由多声道音频信号中的多路信号联合产生的两路音频信号所组成的立体声音频信号进行编码。
在一些可能的实施方式中,音频编码装置获得的立体声信号中的当前帧可以是频域音频信号或者时域音频信号。如果当前帧为频域音频信号,则音频编码装置可以直接在频域中对当前帧进行处理;而如果当前帧为时域音频信号,则音频编码装置可以先对时域中的当前帧进行时频变换,以得到频域中的当前帧,进而在频域中对当前帧进行处理。
在本申请中,音频编码装置通过对包含不同类型噪声的立体声音频信号采用不同的ITD估计算法,大幅提高了弥散性噪声和相关性噪声条件下对立体声音频信号的ITD估计的精度和稳定性,减少了立体声下混信号之间的帧间不连续,同时更好地保持了立体声信号的相位,编码后的立体声的声像更加准确和稳定,真实感更强,提高了编码后立体声信号的听觉质量。
在一些可能的实施方式中,在获得立体声音频信号的当前帧之后,上述方法还包括:获得当前帧的噪声相干值;如果噪声相干值大于或者等于预设阈值,则确定当前帧所包含的噪声信号的信号类型为相关性噪声信号类型;如果噪声相干值小于预设阈值,则确定当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型。
可选的,上述预设阈值为经验值,可以设定为如0.20、0.25、0.30。
在一些可能的实施方式中,上述获得当前帧的噪声相干值,可以包括:对当前帧进行语音端点检测;如果检测结果表示当前帧的信号类型为噪声信号类型,则计算当前帧的噪声相干值;或者,如果检测结果表示当前帧的信号类型为语音信号类型,则将立体声音频信号中的当前帧的前一帧的噪声相干值确定为当前帧的噪声相干值。
可选的,音频编码装置可以以时域、频域或者时域频域结合的方式计算语音端点检测的值,对此不做具体限定。
在本申请中,音频编码装置计算当前帧的噪声相干值之后,还可以对其进行平滑处理,以减小噪声相干值估计的误差,提高噪声类型的识别准确率。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;所述采用第一算法估计第一声道音频信号和第二声道音频信号的声道间时间差,包括:对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算当前帧的频域互功率谱;采用第一加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号;所述采用第一算法估计第一声道音频信号和第二声道音频信号的声道间时间差,包括:根据第一声道频域信号和第二声道频域信号,计算当前帧的频域互功率谱;采用第一加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000031
其中,β为幅值加权参数,Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000032
X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000033
为X2(k)的共轭函数,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000034
其中,β为幅值加权参数,Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000035
X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000036
为X2(k)的共轭函数,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
可选的,β∈[0,1],例如,β=0.6、0.7、0.8等。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子可以为第一声道频域信号的第一初始维纳增益因子和/或第一改进维纳增益因子;第二声道频域信号对应的维纳增益因子可以为第二声道频域信号的第二初始维纳增益因子和/或第二改进维纳增益因子。
例如,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一初始维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二初始维纳增益因子;那么,在获得立体声音频信号中的当前帧之后,上述方法还包括:根据第一声道频域信号,获得第一声道噪声功率谱的估计值;根据第一声道噪声功率谱的估计值,确定第一初始维纳增益因子;根据第二声道频域信号,获得第二声道噪声功率谱的估计值;根据第二声道噪声功率谱的估计值,确定第二初始维纳增益因子。
在本申请中,经过维纳增益因子加权后,立体声音频信号的频域互功率谱中的相关性噪声成分的权重大幅降低,残留噪声成分的相关性也会大幅减小,在大部分情况下,残留噪声的相干平方值会比立体声音频信号中的目标信号(如语音信号)的相干平方值小很多,这样目标信号对应的互相关峰值会更加突出,立体声音频信号的ITD估计的精度和稳定性会大幅提高。
在一些可能的实施方式中,上述第一初始维纳增益因子
Figure BDA0002592964720000037
满足以下公式:
Figure BDA0002592964720000038
上述第二初始维纳增益因子
Figure BDA0002592964720000039
满足以下公式:
Figure BDA00025929647200000310
其中,
Figure BDA00025929647200000311
为第一声道噪声功率谱的估计值,
Figure BDA00025929647200000312
为第二声道噪声功率谱的估计值;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
又如,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一改进维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二改进维纳增益因子;
在获得立体声音频信号中的当前帧之后,上述方法还包括:获得上述第一初始维纳增益因子和上述第二维纳增益因子;对第一初始维纳增益因子构建二值掩蔽函数,获得第一改进维纳增益因子;对第二初始维纳增益因子构建二值掩蔽函数,获得第二改进维纳增益因子。
在本申请中,通过对第一声道频域信号对应的第一初始维纳增益因子和第二声道频域信号对应的第二初始维纳增益因子构造二值掩蔽函数,筛选出受噪声影响比较小的频点,以提高ITD估计的精度。
在一些可能的实施方式中,上述第一改进维纳增益因子
Figure BDA0002592964720000041
满足以下公式:
Figure BDA0002592964720000042
Figure BDA0002592964720000043
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure BDA0002592964720000044
为所述第一初始维纳增益因子;
Figure BDA0002592964720000045
为所述第二初始维纳增益因子。
可选的,μ0∈[0.5,0.8],例如,μ0=0.5、0.66、0.75、0.8等。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;采用第二算法估计第一声道频域信号和所述第二声道频域信号的声道间时间差,包括:对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算当前帧的频域互功率谱;采用第二加权函数对频域互功率谱进行加权,得到第一声道频域信号和第二声道频域信号的声道间时间差的估计值;其中,第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号;采用第二算法估计第一声道音频信号和第二声道音频信号的声道间时间差,包括:根据第一声道频域信号和第二声道频域信号,计算当前帧的频域互功率谱;采用第二加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第二加权函数Φnew_2(k)满足以下公式:
Figure BDA0002592964720000046
其中,β为幅值值加权参数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000047
X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000048
为X2(k)的共轭函数,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
可选的,β∈[0,1],例如,β=0.6、0.7、0.8等。
第二方面,本申请提供一种立体声音频信号时延估计方法,该方法可以应用于一音频编码装置,该音频编码装置可以用于涉及立体声及多声道的音视频通信系统中的音频编码部分,也可以用于VR应用程序中的音频编码部分。该方法可以包括:当前帧包括第一声道音频信号和第二声道音频信号;根据第一声道音频信号和第二声道音频信号,计算当前帧的频域互功率谱;采用预设加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,得到第一声道频域信号和第二声道频域信号的声道间时间差的估计值。
其中,预设加权函数包括第一加权函数或者第二加权函数,第一加权函数与第二加权函数的构造因子不同。
可选的,第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益、幅值加权参数和当前帧的相干平方值;第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;根据所述第一声道音频信号和第二声道音频信号,计算当前帧的频域互功率谱,包括:对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000051
其中,β为幅值加权参数,Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000052
X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000053
为X2(k)的共轭函数,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000054
其中,β为幅值加权参数,Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000055
X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000056
为X2(k)的共轭函数k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
可选的,β∈[0,1],例如,β=0.6、0.7、0.8等。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子可以为第一声道频域信号的第一初始维纳增益因子和/或第一改进维纳增益因子;第二声道频域信号对应的维纳增益因子可以为第二声道频域信号的第二初始维纳增益因子和/或第二改进维纳增益因子。
例如,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一初始维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二初始维纳增益因子;在获得立体声音频信号中的当前帧之后,上述方法还包括:根据第一声道频域信号,获得第一声道噪声功率谱的估计值;根据第一声道噪声功率谱的估计值,确定第一初始维纳增益因子;根据第二声道频域信号,获得第二声道噪声功率谱的估计值;根据第二声道噪声功率谱的估计值,确定第二初始维纳增益因子。
在一些可能的实施方式中,第一初始维纳增益因子
Figure BDA0002592964720000061
满足以下公式:
Figure BDA0002592964720000062
第二初始维纳增益因子
Figure BDA0002592964720000063
满足以下公式:
Figure BDA0002592964720000064
其中,
Figure BDA0002592964720000065
为第一声道噪声功率谱的估计值,
Figure BDA0002592964720000066
为第二声道噪声功率谱的估计值;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
又如,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一改进维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二改进维纳增益因子;在获得立体声音频信号中的当前帧之后,上述方法还包括:获得上述第一初始维纳增益因子和上述第二初始维纳增益因子;对第一初始维纳增益因子构建二值掩蔽函数,获得第一改进维纳增益因子;对第二初始维纳增益因子构建二值掩蔽函数,获得第二改进维纳增益因子。
在一些可能的实施方式中,第一改进维纳增益因子
Figure BDA0002592964720000067
满足以下公式:
Figure BDA0002592964720000068
Figure BDA0002592964720000069
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure BDA00025929647200000610
为第一维纳增益因子;
Figure BDA00025929647200000611
为第二维纳增益因子。
可选的,μ0∈[0.5,0.8],例如,μ0=0.5、0.66、0.75、0.8等。
在一些可能的实施方式中,第二加权函数Φnew_2(k)满足以下公式:
Figure BDA00025929647200000612
其中,β为幅值加权参数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA00025929647200000613
X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA00025929647200000614
为X2(k)的共轭函数,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
可选的,β∈[0,1],例如,β=0.6、0.7、0.8等。
第三方面,本申请提供一种立体声音频信号时延估计装置,该装置可以为音频编码装置中的芯片或者片上系统,还可以为音频编码装置中用于实现第一方面或第一方面的任一可能的实施方式所述的方法的功能模块。举例来说,该立体声音频信号时延估计装置,包括:第一获得模块,用于获得立体声音频信号的当前帧,当前帧包括第一声道音频信号和第二声道音频信号;第一声道间时间差估计模块,用于如果当前帧所包含的噪声信号的信号类型为相关性噪声信号类型,则采用第一算法估计第一声道音频信号和第二声道音频信号的声道间时间差;如果当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型,则采用第二算法估计第一声道音频信号和第二声道音频信号的声道间时间差;其中,第一算法包括采用第一加权函数对当前帧的频域互功率谱加权,第二算法包括采用第二加权函数对当前帧的频域互功率谱加权,第一加权函数与第二加权函数的构造因子不同。
在一些可能的实施方式中,上述装置还包括:噪声相干值计算模块,用于在第一获得模块获得当前帧之后,获得当前帧的噪声相干值;如果噪声相干值大于或者等于预设阈值,则确定当前帧所包含的噪声信号的信号类型为相关性噪声信号类型;或者,如果噪声相干值小于预设阈值,则确定当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型。
在一些可能的实施方式中,上述装置还包括:语音端点检测模块,用于对当前帧进行语音端点检测,获得检测结果;噪声相干值计算模块,具体用于如果检测结果表示当前帧的信号类型为噪声信号类型,则计算当前帧的噪声相干值;或者,如果检测结果表示当前帧的信号类型为语音信号类型,则将立体声音频信号中的当前帧的前一帧的噪声相干值确定为当前帧的噪声相干值。
在本申请中,语音端点检测模块可以以时域、频域或者时域频域结合的方式计算语音端点检测的值,对此不做具体限定。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;第一声道间时间差估计模块,用于对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算当前帧的频域互功率谱;采用第一加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号;第一声道间时间差估计模块,用于根据第一声道频域信号和第二声道频域信号,计算当前帧的频域互功率谱;采用第一加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000071
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000074
为X2(k)的共轭函数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000072
k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000073
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000081
为X2(k)的共轭函数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000082
k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一初始维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二初始维纳增益因子;第一声道间时间差估计模块,具体用于在第一获得模块获得当前帧之后,根据第一声道频域信号,获得第一声道噪声功率谱的估计值;根据第一声道噪声功率谱的估计值,确定第一初始维纳增益因子;根据第二声道频域信号,获得第二声道噪声功率谱的估计值;根据第二声道噪声功率谱的估计值,确定第二初始维纳增益因子。
在一些可能的实施方式中,第一初始维纳增益因子
Figure BDA0002592964720000083
满足以下公式:
Figure BDA0002592964720000084
第二初始维纳增益因子
Figure BDA0002592964720000085
满足以下公式:
Figure BDA0002592964720000086
其中,
Figure BDA0002592964720000087
为第一声道噪声功率谱的估计值,
Figure BDA0002592964720000088
为第二声道噪声功率谱的估计值;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一改进维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二改进维纳增益因子;第一声道间时间差估计模块,具体用于在第一获得模块获得当前帧之后,对第一初始维纳增益因子构建二值掩蔽函数,获得第一改进维纳增益因子;对第二初始维纳增益因子构建二值掩蔽函数,获得第二改进维纳增益因子。
在一些可能的实施方式中,第一改进维纳增益因子
Figure BDA0002592964720000089
满足以下公式:
Figure BDA00025929647200000810
Figure BDA00025929647200000811
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure BDA00025929647200000812
为第一初始维纳增益因子;
Figure BDA00025929647200000813
为第二初始维纳增益因子。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;第一声道间时间差估计模块,具体用于对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算当前帧的频域互功率谱;采用第二加权函数对频域互功率谱进行加权,获得声道间时间差的估计值;其中,第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号;第一声道间时间差估计模块,具体用于根据第一声道频域信号和第二声道频域信号,计算当前帧的频域互功率谱;采用第二加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第二加权函数Φnew_2(k)满足以下公式:
Figure BDA0002592964720000091
其中,β为幅度加权参数,β∈[0,1],X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000092
为X2(k)的共轭函数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000093
k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
第四方面,本申请提供一种立体声音频信号时延估计装置,该装置可以为音频编码装置中的芯片或者片上系统,还可以为音频编码装置中用于实现第二方面或第二方面的任一可能的实施方式所述的方法的功能模块。举例来说,该立体声音频信号时延估计装置,包括:第二获得模块,用于获得立体声音频信号中的当前帧,当前帧包括第一声道音频信号和第二声道音频信号;第二声道间时间差估计模块,用于根据第一声道音频信号和第二声道音频信号,计算当前帧的频域互功率谱;采用预设加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得第一声道频域信号和第二声道频域信号的声道间时间差的估计值;其中,预设加权函数为第一加权函数或者第二加权函数,第一加权函数与第二加权函数的构造因子不同;第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益、幅值加权参数和当前帧的相干平方值;第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;第二声道间时间差估计模块,用于对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000094
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000095
为X2(k)的共轭函数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000096
k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足以下公式:
Figure BDA0002592964720000097
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为第一声道频域信号对应的维纳增益因子;Wx2(k)为第二声道频域信号对应的维纳增益因子;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA0002592964720000098
为X2(k)的共轭函数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000099
k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一初始维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二初始维纳增益因子;第二声道间时间差估计模块,具体用于在第二获得模块获得当前帧之后,根据第一声道频域信号,获得第一声道噪声功率谱的估计值;根据第一声道噪声功率谱的估计值,确定第一初始维纳增益因子;根据第二声道频域信号,获得第二声道噪声功率谱的估计值;根据第二声道噪声功率谱的估计值,确定第二初始维纳增益因子。
在一些可能的实施方式中,第一初始维纳增益因子
Figure BDA0002592964720000101
满足以下公式:
Figure BDA0002592964720000102
第二初始维纳增益因子
Figure BDA0002592964720000103
满足以下公式:
Figure BDA0002592964720000104
其中,
Figure BDA0002592964720000105
为第一声道噪声功率谱的估计值,
Figure BDA0002592964720000106
为第二声道噪声功率谱的估计值;X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一改进维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二改进维纳增益因子;第二声道间时间差估计模块,具体用于在第二获得模块获得当前帧之后,获得上述第一初始维纳增益因子和第二初始维纳增益因子;对第一初始维纳增益因子构建二值掩蔽函数,获得第一改进维纳增益因子;对第二初始维纳增益因子构建二值掩蔽函数,获得第二改进维纳增益因子。
在一些可能的实施方式中,第一改进维纳增益因子
Figure BDA0002592964720000107
满足以下公式:
Figure BDA0002592964720000108
第二改进维纳增益因子
Figure BDA0002592964720000109
满足以下公式:
Figure BDA00025929647200001010
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure BDA00025929647200001011
为第一初始维纳增益因子;
Figure BDA00025929647200001012
为第二初始维纳增益因子。
在一些可能的实施方式中,第二加权函数Φnew_2(k)满足以下公式:
Figure BDA00025929647200001013
其中,β∈[0,1],X1(k)为第一声道频域信号,X2(k)为第二声道频域信号,
Figure BDA00025929647200001014
为X2(k)的共轭函数,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA00025929647200001015
k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
第五方面,本申请提供一种音频编码装置,包括:相互耦合的非易失性存储器和处理器,处理器调用存储在存储器中的程序代码以执行如上述第一至二方面及其任一项所述的立体声音频信号时延估计方法。
第六方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有指令,当指令在计算机上运行时,用于执行如上述第一至二方面及其任一项所述的立体声音频信号时延估计方法。
第七方面,本申请提供一种计算机可读存储介质,包括编码码流,编码码流包括根据如上述第一至二方面及其任一可能的实施方式中所述的立体声音频信号时延估计方法获得的立体声音频信号的声道间时间差。
第八方面,本申请提供一种计算机程序或计算机程序产品,当计算机程序或计算机程序产品在计算机上被执行时,使得计算机实现如上述第一至二方面及其任一项所述的立体声音频信号时延估计方法。
应当理解的是,本申请的第四至十方面与本申请的第一至二方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例中的频域中参数立体声编解码方法的流程示意图;
图2为本申请实施例中的广义互相关算法的流程示意图;
图3为本申请实施例中的立体声音频信号时延估计方法的流程示意图一;
图4为本申请实施例中的立体声音频信号时延估计方法的流程示意图二;
图5为本申请实施例中的立体声音频信号时延估计方法的流程示意图三;
图6为申请实施例中的立体声音频信号时延估计装置的结构示意图;
图7为本申请实施例中的音频编码装置的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。以下描述中,参考形成本申请一部分并以说明之方式示出本申请实施例的具体方面或可使用本申请实施例的具体方面的附图。应理解,本申请实施例可在其它方面中使用,并可包括附图中未描绘的结构或逻辑变化。例如,应理解,结合所描述方法的揭示内容可以同样适用于用于执行所述方法的对应设备或系统,且反之亦然。例如,如果描述一个或多个具体方法步骤,则对应的设备可以包含如功能单元等一个或多个单元,来执行所描述的一个或多个方法步骤(例如,一个单元执行一个或多个步骤,或多个单元,其中每一个都执行多个步骤中的一个或多个),即使附图中未明确描述或说明这种一个或多个单元。另一方面,例如,如果基于如功能单元等一个或多个单元描述具体装置,则对应的方法可以包含一个步骤来执行一个或多个单元的功能性(例如,一个步骤执行一个或多个单元的功能性,或多个步骤,其中每一个执行多个单元中一个或多个单元的功能性),即使附图中未明确描述或说明这种一个或多个步骤。进一步,应理解的是,除非另外明确提出,本文中所描述的各示例性实施例和/或方面的特征可以相互组合。
在语音与音频通信系统中,单通道音频越来越无法满足人们的需求,而立体声音频携带了各个声源的位置信息,提高了音频的清晰度、可懂度,也提高了音频的真实感,因此,越来越受到人们的青睐。
而在语音与音频通信系统中,音频编解码技术是一项非常关键的技术,该技术基于听觉模型,用最小的能量感知失真,以尽可能低的编码速率来表达音频信号,以便于音频信号的传输与存储。那么,为了满足对高质量音频的需求,一系列立体声编解码技术也应运而生
其中,最常用的一项立体声编解码技术为参数立体声编解码技术。该技术的理论基础为空间听觉原理。具体来说,在进行音频编码的过程中,将原立体声音频信号转换为一路单通道信号和一些空间参数来表示,或者将原立体声音频信号转换为一路单通道信号、一路残差信号和一些空间参数来表示;在进行音频解码的过程中,通过解码的单通道信号和空间参数来重建立体声音频信号,或者通过解码的单通道信号、残差信号和空间参数来重建立体声音频信号。
图1为本申请实施例中的频域中参数立体声编解码方法的流程示意图,参见图1所示,该流程可以包括:
S101:编码侧对立体声音频信号中当前帧的第一声道音频信号和第二声道音频信号进行时频变换(如离散傅里叶变换(discrete fourier transform,DFT)),得到第一声道频域信号和第二声道频域信号;
首先,需要说明的是,编码侧获得输入的立体声音频信号可以包括两路音频信号,也就是第一声道音频信号和第二声道音频信号(如左声道音频信号和右声道音频信号);上述立体声音频信号所包含的两路音频信号还可以多声道音频信号中的某两路音频信号或者由多声道音频信号中的多路音频信号联合产生的两路音频信号,对此不做具体限定。
这里,编码侧在对立体声音频信号进行编码时,会进行分帧处理,得到多个音频帧,并逐帧进行处理。
S102:编码侧对第一声道频域信号和第二声道频域信号提取空间参数、下混信号和残差信号;
上述空间参数可以包括:通道间相干性(inter-channel coherence,IC)、通道间幅度差(inter-channel level difference,ILD)、声道间时间差(inter-channel timedifference,ITD)、通道间相位差(inter-channel phase difference,IPD)等。
S103:编码侧对空间参数、下混信号和残差信号分别进行编码;
S104:编码侧根据编码后的空间参数、下混信号和残差信号,生成频域参数立体声比特流;
S105:编码侧将频域参数立体声比特流发送给解码侧。
S106:解码侧对接收到的频域参数立体声比特流进行解码,获得对应的空间参数、下混信号和残差信号;
S107:解码侧将下混信号和残差信号进行频域上混处理,得到上混信号;
S108:解码侧将上混信号与空间参数进行合成,得到频域音频信号;
S109:解码侧结合空间参数对频域音频信号进行时频逆变换(如离散傅里叶逆变换(inverse discrete fourier transform,IDFT)),获得当前帧的第一声道音频信号和第二声道音频信号;
进一步地,编码侧对立体声音频信号中的每个音频帧执行上述第一至五步,解码侧对每一帧执行上述第六至第九步,如此,解码侧可以获得多个音频帧的第一声道音频信号和第二声道音频信号,进而获得立体声音频信号的第一声道音频信号和第二声道音频信号。
在上述参数立体声编解码的过程中,空间参数中的ILD和ITD蕴含声源的位置信息,那么,准确的估计ILD和ITD对立体声声像及声场的重建至关重要。
在参数立体声编码技术中,估计ITD的方法中最常用的方法可以为广义互相关法,其具有复杂度低、实时性好、易于实现、不依赖于立体声音频信号的其它先验信息等优点。图2为本申请实施例中的广义互相关算法的流程示意图,参见图2所示,该方法可以包括:
S201:编码侧将立体声音频信号进行DFT,获得第一声道频域信号和第二声道频域信号;
S202:编码侧根据第一声道频域信号和第二声道频域信号,计算两者的频域互功率谱和频域加权函数;
S203:编码侧采用频域加权函数对频域互功率谱进行加权;
S204:编码侧对加权后的频域互功率谱进行IDFT,得到频域互相关函数;
S205:编码侧对频域互相关函数进行峰值检测;
S206:编码侧根据互相关函数的峰值,确定ITD的估计值。
在上述广义互相关算法中,上述第二步中的频域加权函数可以采用如下几种函数。
第一种、上述第二步中的频域加权函数可以如公式(1)所示:
Figure BDA0002592964720000131
其中,ΦPHAT(k)为PHAT加权函数,X1(k)为第一声道音频信号x1(n)的频域音频信号,即第一声道频域信号;X2(k)为第二声道音频信号x2(n)的频域音频信号,即第二声道频域信号;
Figure BDA0002592964720000135
为第一声道和第二声道的互功率谱;k为频点索引值,k=0,1,…,NDFT-1,NDFT为当前帧在进行时频变换后的频点总数。
相应地,加权后的广义互相关函数可以如公式(2)所示:
Figure BDA0002592964720000132
在实际应用中,采用公式(1)所示的频域加权函数和公式(2)所示的加权后的广义互相关函数进行ITD估计,可以称为广义互相关-相位变换方法(generalized crosscorrelation with phase transformation,GCC-PHAT)算法。由于立体声音频信号在不同频点的能量差异极大,能量低的频点受噪声的影响很大,而能量高的频点受噪声的影响较小,那么,在GCC-PHAT算法中,互功率谱经过PHAT加权函数加权后,各个频点的加权值在广义互相关函数中所占的权重完全相同,导致GCC-PHAT算法对噪声信号很敏感,即使在中高信噪比下,GCC-PHAT算法的性能也会大幅下降。另外,当空间中存在一个或若干个噪声源,即存在竞争性声源时,立体声音频信号中会存在相关性噪声信号,使得当前帧中的目标信号(如语音信号)对应的峰值就会被弱化。那么,在某些情况下,例如相关性噪声信号的能量大于目标信号的能量或噪声源距离传声器更近,相关性噪声信号的峰值会大于目标信号对应的峰值,此时立体声音频信号的ITD估计值就是噪声信号的ITD估计值,即在相关性噪声存在的情况下,不仅立体声音频信号的ITD估计精度会严重下降,而且立体声音频信号的ITD估计值会在目标信号的ITD的值与噪声信号的ITD的值之间不断切换,从而影响编码后立体声音频信号声像的稳定性。
第二种、上述第二步中的频域加权函数还可以如公式(3)所示:
Figure BDA0002592964720000133
其中,β为幅值加权参数,β∈[0,1]。
相应地,加权后的广义互相关函数还可以如公式(4)所示:
Figure BDA0002592964720000134
在实际应用中,采用公式(3)所示的频域加权函数和公式(4)所示的加权后的广义互相关函数进行ITD估计,可以称为GCC-PHAT-β算法。由于不同噪声信号类型下β的最优值不同,并且最优值之间差异较大,那么,GCC-PHAT-β算法在不同噪声信号类型下的性能是不同的。而且,在中高信噪比下,GCC-PHAT-β算法的性能虽然有一定程度的提高,但并不能满足参数立体声编解码技术对ITD估计精度的需求。进一步地,在存在相关性噪声的情况下,GCC-PHAT-β算法的性能也会严重下降。
第三种、上述第二步中的频域加权函数还可以如公式(5)所示:
Figure BDA0002592964720000141
其中,Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000142
相应地,加权后的广义互相关函数还可以如公式(6)所示:
Figure BDA0002592964720000143
在实际应用中,采用公式(5)所示的频域加权函数和公式(6)所示的加权后的广义互相关函数进行ITD估计,可以称为GCC-PHAT-Coh算法。在某些条件下,立体声音频信号中相关性噪声中大部分频点的相干平方值会大于当前帧中目标信号的相干平方值,这样就会导致GCC-PHAT-Coh算法的性能严重下降。并且,由于立体声音频信号在不同频点的能量差异极大,GCC-PHAT-Coh算法并未考虑到不同频点的能量差异对算法性能的影响,导致一些条件下ITD估计性能不佳。
由上述可知,噪声对于广义互相关算法的性能影响较为严重,导致ITD的估计精度严重下降,进而使得参数编解码技术中解码后的立体声音频信号出现声像不准确、不稳定、空间感差、头中效应明显等问题,严重影响编码后立体声音频信号的音质。
为了解决上述问题,本申请实施例提供一种立体声音频信号时延估计方法,该方法可以应用于一音频编码装置,该音频编码装置可以用于涉及立体声及多声道的音视频通信系统中的音频编码部分,也可以用于虚拟现实(virtual reality,VR)应用程序中的音频编码部分。
在实际应用中,上述音频编码装置可以设置于音视频通信系统中的终端,例如,该终端可以是一种向用户提供语音或者数据连通性的设备,例如也可以称为用户设备(userequipment,UE)、移动台(mobile station)、用户单元(subscriber unit)、站台(STAtion)或者终端(terminal equipment,TE)等。终端设备可以为蜂窝电话(cellular phone)、个人数字助理(personal digital assistant,PDA,)、无线调制解调器(modem)、手持设备(handheld)、膝上型电脑(laptop computer)、无绳电话(cordless phone)、无线本地环路(wireless local loop,WLL)台或者平板电脑(pad)等。随着无线通信技术的发展,可以接入无线通信系统、可以与无线通信系统的网络侧进行通信,或者通过无线通信系统与其它设备进行通信的设备都可以是本申请实施例中的终端设备,譬如,智能交通中的终端和汽车、智能家居中的家用设备、智能电网中的电力抄表仪器、电压监测仪器、环境监测仪器、智能安全网络中的视频监控仪器、收款机等等。终端设备可以是静态固定的,也可以是移动的。
或者,上述音频编码器还可以设置于具有VR功能的设备,例如,该设备可以为支持VR应用的智能手机、平板电脑、智能电视、笔记本电脑、个人计算机、可穿戴设备(如VR眼镜、VR头盔、VR帽子)等,还可以设置于与上述具有VR功能的设备进行通信的云端服务器等。当然,上述音频编码装置还可以设置于具有存储和/或传输立体声音频信号功能的其他设备上,本申请实施例不做具体限定。
在本申请实施例中,立体声音频信号可以是原始的立体声音频信号(包括左声道音频信号和右声道音频信号),也可以是多声道音频信号中的两路音频信号组成的立体声音频信号,还可以是由多声道音频信号中的多路音频信号联合产生的两路音频信号组成的立体声信号。当然,立体声音频信号还可以存在其他形式,本申请实施例不做具体限定。在下述实施例中,以立体声音频信号为原始的立体声音频信号为例进行说明,立体声音频信号在时域中可以包含左声道时域信号和右声道时域信号,而立体声音频信号在频域中可以包含左声道频域信号和右声道频域信号。那么,下述实施例中的第一声道音频信号可以为左声道音频信号(既可以在时域也可以在频域),第一声道时域信号可以为左声道时域信号,第一声道频域信号可以为左声道频域信号;类似的,第二声道音频信号可以为右声道音频信号(既可以在时域也可以在频域),第二声道时域信号可以为右声道时域信号,第二声道频域信号可以为右声道频域信号。
可选的,上述音频编码装置具体可以为立体声编码装置,该装置可以构成独立的立体声编码器;也可以为多声道编码器中的核心编码部分,旨在对由多声道音频信号中的多路信号联合产生的两路音频信号所组成的立体声音频信号进行编码。
下面对本申请实施例提供的立体声音频信号时延估计方法进行说明。
首先,对本申请实施例提供的频域加权函数进行说明。
在本申请实施例中,为了改善广义互相关算法的性能,可以对上述几种算法中的频域加权函数(如上述公式(1)、(3)、(5)所示)进行改进,改进的频域加权函数可以为且不限于如下几种函数。
第一种、改进的频域加权函数(即第一加权函数)的构造因子可以包括:左声道维纳增益因子(即第一声道频域信号对应的维纳增益因子)、右声道维纳增益因子(即第二声道频域信号对应的维纳增益因子)和当前帧的相干平方值。
这里,构造因子是指用于构造目标函数的因子或者因式,那么,当目标函数为改进的频域加权函数时,其构造因子可以为用于构造改进的频域加权函数的一个或者多个函数。
在实际应用中,第一种改进的频域加权函数可以如公式(7)所示:
Figure BDA0002592964720000151
其中,Φnew_1(k)为第一种改进的频域加权函数,β为幅值加权参数,β∈[0,1],例如,β=0.6、0.7、0.8等,Wx1(k)为左声道维纳增益因子;Wx2(k)为右声道维纳增益因子;Γ2(k)为当前帧第k个频点的相干平方值,
Figure BDA0002592964720000152
在一些可能的实施例中,第一种改进的频域加权函数还可以如公式(8)所示:
Figure BDA0002592964720000153
相应的,采用第一种改进的频域加权函数加权后的广义互相关函数还可以如公式(9)所示:
Figure BDA0002592964720000154
在一些可能的实施方式中,上述左声道维纳增益因子可以包括第一初始维纳增益因子和/或第一改进维纳增益因子;上述右声道维纳增益因子可以包括第二初始维纳增益因子和/或第二改进维纳增益因子。
在实际应用中,第一初始维纳增益因子可以通过对X1(k)进行噪声功率谱估计来确定。具体来说,当左声道维纳增益因子包括第一初始维纳增益因子时,上述方法还可以包括:首先,音频编码装置可以根据当前帧的左声道频域信号X1(k),获得当前帧的左声道噪声功率谱的估计值,再根据该左声道噪声功率谱的估计值,确定第一初始维纳增益因子;类似的,第二初始维纳增益因子也可以为通过对X2(k)进行噪声功率谱估计来确定。具体来说,当右声道维纳增益因子包括第二初始维纳增益因子时,首先,音频编码装置可以根据当前帧的右声道频域信号X2(k),获得当前帧的右声道噪声功率谱的估计值,并根据该右声道噪声功率谱的估计值,确定第二初始维纳增益因子。
在上述对当前帧的X1(k)和X2(k)进行噪声功率谱估计的过程中,可以采用如最小值统计算法、最小值跟踪算法等算法计算得到。当然,还可以采用其他算法来计算X1(k)和X2(k)的噪声功率谱的估计值,本申请实施例不做具体限定。
举例来说,上述第一初始维纳增益因子
Figure BDA0002592964720000169
可以如公式(10)所示:
Figure BDA0002592964720000161
上述第二初始维纳增益因子
Figure BDA0002592964720000162
可以如公式(11)所示:
Figure BDA0002592964720000163
其中,
Figure BDA0002592964720000164
为左声道噪声功率谱的估计值,
Figure BDA0002592964720000165
为右声道噪声功率谱的估计值。
在一些可能的实施方式中,上述左声道维纳增益因子和右声道维纳增益因子除了直接使用第一初始维纳增益因子和第二初始维纳增益因子构造第一种改进的频域加权函数之外,还可以基于第一初始维纳增益因子和第二初始维纳增益因子构造对应的二值掩蔽函数,得到上述第一改进维纳增益因子和第二改进维纳增益因子,使用第一改进维纳增益因子和第二改进维纳增益因子构造的第一种改进的频域加权函数,可以筛选出受噪声影响比较小的频点,进而提高立体声音频信号的ITD估计精度。
那么,当左声道维纳增益因子包括第一改进维纳增益因子时,上述方法还可以包括:音频编码装置在获得第一初始维纳增益因子后,对第一初始维纳增益因子构造二值掩蔽函数,获得第一改进维纳增益因子;类似的,音频编码装置在获得第二初始维纳增益因子后,对第二初始维纳增益因子构造二值掩蔽函数,获得第二改进维纳增益因子。
例如,第一改进维纳增益因子
Figure BDA00025929647200001610
可以如公式(12)所示:
Figure BDA0002592964720000166
第二改进维纳增益因子
Figure BDA0002592964720000167
可以如公式(13)所示:
Figure BDA0002592964720000168
其中,μ0为维纳增益因子的二值掩蔽门限,μ0∈[0.5,0.8],例如,μ0=0.5、0.66、0.75、0.8等。
那么,由上述可知,左声道维纳增益因子Wx1(k)可以包括
Figure BDA00025929647200001611
Figure BDA00025929647200001612
右声道维纳增益因子Wx2(k)可以包括
Figure BDA00025929647200001613
Figure BDA00025929647200001614
那么,在构造上述第一种改进的频域加权函数如公式(7)或(8)的过程中,可以将
Figure BDA00025929647200001615
Figure BDA00025929647200001616
代入公式(7)或(8),也可以将
Figure BDA00025929647200001617
Figure BDA00025929647200001618
代入公式(7)或(8)。
例如,
Figure BDA00025929647200001619
Figure BDA00025929647200001620
代入公式(7)后的第一种改进的频域加权函数可以如公式(14)所示:
Figure BDA0002592964720000171
Figure BDA0002592964720000175
Figure BDA0002592964720000176
代入公式(7)后的第一种改进的频域加权函数可以如公式(15)所示:
Figure BDA0002592964720000172
在本申请实施例中,如果采用第一种改进的频域加权函数对当前帧的频域互功率谱进行加权,经过维纳增益因子加权后,立体声音频信号的频域互功率谱中的相关性噪声成分的权重大幅降低,残留噪声成分的相关性也会大幅减小,在大部分情况下,残留噪声的相干平方值会比立体声音频信号中的目标信号的相干平方值小很多,这样目标信号对应的互相关峰值会更加突出,立体声音频信号的ITD估计的精度和稳定性会大幅提高。
第二种、改进的频域加权函数(即第二加权函数)的构造因子可以包括:幅值加权参数β、当前帧的相干平方值。
在实际应用中,第二种改进的频域加权函数可以为如公式(16)所示:
Figure BDA0002592964720000173
其中,Φnew_2为第二种改进的频域加权函数,β∈[0,1],例如,β=0.6、0.7、0.8等。
相应的,采用第二种改进的频域加权函数加权后的广义互相关函数可以如公式(17)所示:
Figure BDA0002592964720000174
在本申请实施例中,如果采用第二种改进的频域加权函数对当前帧的频域互功率谱进行加权,能够确保能量大的频点及相关性高的频点有较大的权重,能量小的频点或者相关性较小的频点有较小的权重,从而提高立体声音频信号的ITD估计的精度。
其次,介绍本申请实施例提供的一种立体声音频信号时延估计方法,该方法为基于上述改进的频域加权函数来估计当前帧的ITD值。
图3为本申请实施例中的立体声音频信号时延估计方法的流程示意图一,参见图3中实线所示,该方法可以包括:
S301:获得立体声音频信号中的当前帧;
其中,当前帧包括左声道音频信号和右声道音频信号。
音频编码装置获得输入的立体声音频信号,立体声音频信号中可以包括两路音频信号,这两路音频信号可以为时域音频信号也可以为频域音频信号。
一种情况,立体声音频信号中的两路音频信号为时域音频信号,即左声道时域信号和右声道时域信号(即第一声道时域信号和第二声道时域信号)。在这种情况下,上述立体声音频信号可以是通过如麦克风、受话器等声音传感器输入的。参见图3中虚线所示,在S301之后,该方法还可以包括:S302:对和左声道时域信号和右声道时域信号进行时频变换。这里,音频编码装置通过S301对该时域音频信号进行分帧处理,获得时域中的当前帧,此时,当前帧可以包括左声道时域信号和右声道时域信号。然后,音频编码装置对时域中的当前帧进行时频变换,得到频域中的当前帧,此时,当前帧可以包括左声道频域信号和右声道频域信号(即第一声道频域信号和第二声道频域信号)。
另一种情况,立体声音频信号中的两路音频信号为频域音频信号,即左声道频域信号和右声道频域信号(即第一声道频域信号和第二声道频域信号)。在这种情况下,上述立体声音频信号本身为两路频域音频信号,那么,音频编码装置可以直接通过S301在频域中对该立体声音频信号(即频域音频信号)进行分帧处理,获得频域中的当前帧,该当前帧可以包括左声道频域信号和右声道频域信号(即第一声道频域信号和第二声道频域信号)。
需要说明的是,在后续实施例的描述中,如果立体声音频信号为时域音频信号,则音频编码装置可以对其进行时频变换,得到对应的频域音频信号,再在频域中对其进行处理;而如果立体声音频信号本身为频域音频信号,则音频编码装置可以直接在频域中对其进行处理。
在实际应用中,当前帧中经过分帧处理后的左声道时域信号可以记作x1(n),当前帧中经过分帧处理后的右声道时域信号可以记作x2(n),n为采样点。
在一些可能的实施方式中,在S301之后,音频编码装置还可以对当前帧进行预处理,例如,对x1(n)和x2(n)分别进行高通滤波处理,得到预处理后的左声道时域信号和右声道时域信号,预处理后的左声道时域信号记作
Figure BDA0002592964720000183
预处理后的右声道时域信号记作
Figure BDA0002592964720000182
可选的,高通滤波处理可以是截止频率为20Hz的无限冲击响应(infinite impulseresponse,IIR)滤波器,也可是其他类型的滤波器,本申请实施例不做具体限定。
可选的,音频编码装置还可以对x1(n)和x2(n)进行时频变换,获得X1(k)和X2(k);其中,左声道频域信号可以记作X1(k),右声道频域信号可以记作X2(k)。
这里,音频编码装置可以采用如DFT、快速傅里叶变换(fast fouriertransformation,FFT)、修正离散余弦变换(modified discrete cosine transform,MDCT)等时频变换算法,将时域信号变换为频域信号。当然,音频编码装置还可以采用其他时频变换算法,本申请实施例不做具体限定。
假设,采用DFT对左右声道的时域信号进行时频变换。具体地,音频编码装置可以对x1(n)或者
Figure BDA0002592964720000185
进行DFT,得到X1(k);同样的,音频编码装置可以为对x2(n)或者
Figure BDA0002592964720000184
进行DFT,得到X2(k)。
进一步的,为了克服频谱混叠的问题,相邻两帧的DFT之间一般都采用叠接相加的方法进行处理,有时还会对DFT的输入信号进行补零。
S303:根据X1(k)和X2(k),计算当前帧的频域互功率谱;
这里,当前帧的频域互功率谱可以为如公式(18)所示:
Figure BDA0002592964720000181
其中,
Figure BDA0002592964720000186
为X2(k)的共轭函数。
S304:采用预设加权函数对频域互功率谱进行加权;
这里,预设加权函数可以指上述改进的频域加权函数,即上述实施例中第一种改进的频域加权函数Φnew_1或者第二种改进的频域加权函数Φnew_2
S304可以理解为音频编码装置将改进后的加权函数与频域功率谱相乘,那么,加权后的频域互功率谱就可以表示为:Φnew_1(k)Cx1x2(k)或者Φnew_2(k)Cx1x2(k)。
在本申请实施例中,在执行S305之前,音频编码装置还可以采用X1(k)和X2(k)计算改进的频域加权函数(即预设加权函数)。
S305:对加权后的频域互功率谱进行时频逆变换,得到互相关函数;
音频编码装置可以采用S302中所采用的时频变换算法对应的时频逆变换算法,将频域互功率谱由频域变换到时域,获得互相关函数。
这里,Φnew_1(k)Cx1x2(k)对应的互相关函数可以如公式(19)所示:
Figure BDA0002592964720000191
或者,Φnew_2(k)Cx1x2(k)对应的互相关函数可以如公式(20)所示:
Figure BDA0002592964720000192
S306:对互相关函数进行峰值检测;
音频编码装置在通过S306获得互相关函数之后,可以根据预设的采样率和声音传感器(即麦克风、受话器等)之间的最大距离确定ITD的最大值Δmax(也可以理解为ITD估计的时间范围)。例如,Δmax设定为5ms对应的采样点数,那么,如果立体声音频信号的采样率为32kHz,则Δmax=160,即左右两声道的最大延迟点数为160个采样点。接着,音频编码装置在n∈[-Δmax,Δmax]的范围内寻找Cx1x2(n)的最大峰值,该峰值对应的索引值即为当前帧的ITD的备选值。
S307:根据互相关函数的峰值,计算当前帧的ITD的估计值。
音频编码装置根据互相关函数的峰值,确定当前帧的ITD的备选值,再结合当前帧的ITD备选值、前一帧的ITD值(即历史信息)、音频拖尾处理参数、前后帧之间的相关程度等边信息,确定当前帧的ITD的估计值,从而去除时延估计的异常值。
进一步地,音频编码装置在通过S307确定了ITD的估计值后,可以将其进行编码,写入立体声音频信号的编码码流中。
在本申请实施例中,如果采用第一种改进的频域加权函数对当前帧的频域互功率谱进行加,经过维纳增益因子加权后,立体声音频信号的频域互功率谱中的相关性噪声成分的权重大幅降低,残留噪声成分的相关性也会大幅减小,在大部分情况下,残留噪声的相干平方值会比立体声音频信号中的目标信号的相干平方值小很多,这样目标信号对应的互相关峰值会更加突出,立体声音频信号的ITD估计的精度和稳定性会大幅提高。如果采用第二种改进的频域加权函数对当前帧的频域互功率谱进行加权,能够确保能量大的频点及相关性高的频点有较大的权重,能量小的频点或者相关性较小的频点有较小的权重,从而提高立体声音频信号的ITD估计的精度。
再次,介绍本申请实施例提供的另一种立体声音频信号时延估计方法,该方法在上述实施例的基础上针对立体声音频信号中不同类型的噪声信号采用不同的算法进行ITD估计。
图4为本申请实施例中的立体声音频信号时延估计方法的流程示意图二,参见图4所示,该方法可以包括
S401:获得立体声音频信号的当前帧;
这里,S401的实施过程参见对S301的描述,在此不做具体限定。
S402:判断当前帧所包含的噪声信号的信号类型;如果当前帧所包含的噪声信号的信号类型为相关性噪声信号类型,则执行S403;如果当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型,则执行S404;
在噪声环境下,不同的噪声信号类型对于广义互相关算法的影响是不同的,那么,为了充分利用各广义互相关算法的性能,提升ITD估计的准确度,音频编码装置可以判断当前帧中所包含的噪声信号的信号类型,进而从多个频域加权函数中,为当前帧确定合适的频域加权函数。
在实际应用中,上述相关性噪声信号类型是指立体声音频信号的两路音频信号中的噪声信号的相关性超过一定程度的噪声信号类型,也就是说,当前帧所包含的噪声信号可以归类为相关性噪声信号;上述弥散性噪声信号类型是指立体声音频信号的两路音频信号中的噪声信号的相关性低于一定程度的噪声信号类型,也就是说,当前帧锁包含的噪声信号可以归类为弥散性噪声信号。
在一些可能的实施方式中,当前帧中可能既包含相关性噪声信号又包含弥散性噪声信号,此时,音频编码装置会将两种噪声信号中的主噪声信号的信号类型确定为当前帧所包含的噪声信号的信号类型。
在一些可能的实施方式中,音频编码装置可以通过计算当前帧的噪声相干值来确定当前帧所包含的噪声信号的信号类型,那么,S402可以包括:获得当前帧的噪声相干值;如果噪声相干值大于或者等于预设阈值,则表明当前帧所包含的噪声信号有较强的相关性,那么,音频编码装置可以确定当前帧所包含的噪声信号的信号类型为相关性噪声信号类型;如果噪声相干值小于预设阈值,则表明当前帧所包含的噪声信号的相关性较弱,那么,音频编码装置可以确定当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型。
这里,噪声相干值的预设阈值为经验值,可以根据ITD估计性能等因素设定,例如,预设阈值设定为0.20、0.25、0.30等,当然,也可以设定为其它合适的值,本申请实施例对此不做具体限定。
在实际应用中,音频编码装置计算当前帧的噪声相干值之后,还可以对其进行平滑处理,以减小噪声相干值估计的误差,提高噪声类型的识别准确率。
S403:采用第一算法估计左声道音频信号和右声道音频信号的ITD的值;
这里,第一算法可以包括采用第一加权函数对当前帧的频域互功率谱加权;还可以包括对加权后的互相关函数进行峰值检测,并根据加权后的互相关函数的峰值,估计当前帧的ITD的值。
音频编码装置在通过S402确定当前帧所包含的噪声信号的信号类型为相关噪声信号类型之后,可以采用第一算法来估计当前帧的ITD的值,例如,音频编码装置选择采用第一加权函数对当前帧的频域互功率谱加权,进而对加权后的互相关函数进行峰值检测,并根据加权后的互相关函数的峰值估计当前帧的ITD的值。
在一些可能的实施例中,第一加权函数可以为上述一个或者多个实施例中的频域加权函数和/或改进的频域加权函数中在相关性噪声条件下性能较佳的一个或者多个加权函数,如公式(3)所示的频域加权函数、如公式(7)、(8)所示的改进的频域加权函数。
优选的,第一加权函数可以为上述实施例中所述的第一种改进的频域加权函数,如公式(7)、(8)所示的改进的频域加权函数。
S404:采用第二算法估计左声道音频信号和右声道音频信号的ITD的值。
这里,第二算法包括采用第二加权函数对当前帧的频域互功率谱,还可以包括对加权后的互相关函数进行峰值检测,并根据加权后的互相关函数的峰值,估计当前帧的ITD的值。
相应地,音频编码装置在通过S402确定当前帧所包含的噪声信号的信号类型为弥散噪声信号类型时之后,可以采用第二算法来估计当前帧的ITD的值,例如,音频编码装置可以选择采用第二加权函数对当前帧的频域互功率谱加权,进而对加权后的互相关函数进行峰值检测,并根据加权后的互相关函数的峰值,估计当前帧的ITD的值。
在一些可能的实施例中,第二加权函数可以为上述一个或者多个实施例中的频域加权函数和/或改进的频域加权函数中在弥散性噪声条件下性能较佳的一个或者多个加权函数,如公式(5)所示的频域加权函数、公式(16)所示的改进的频域加权函数。
优选的,第二加权函数可以为上述实施例中所述的第二种改进的频域加权函数,也就是公式(16)所示的改进的频域加权函数。
在一些可能的实施方式中,由于立体声音频信号中既包括语音信号又包括噪声信号,所以,在S401分帧处理得到的当前帧所包含的信号类型可能为语音信号,也可能为噪声信号,那么,为了简化处理、进一步提高ITD估计的精确度,在S402之前,上述方法还可以包括:对当前帧进行语音端点检测,获得检测结果;如果检测结果表示当前帧的信号类型为噪声信号类型,则计算当前帧的噪声相干值;如果检测结果表示当前帧的信号类型为语音信号类型,则将立体声音频信号中的当前帧的前一帧的噪声相干值确定为当前帧的噪声相干值。
音频编码装置在获得当前帧之后,可以对当前帧进行语音端点检测(voiceactivity detection,VAD),以区分当前帧的主要信号是语音信号还是噪声信号。如果检测出当前帧包含的是噪声信号,那么,在S402中计算噪声相干值就可以直接计算当前帧的噪声相干值;而如果检测出当前帧包含的是语音信号,那么,在S402中计算噪声相干值就可以将结合历史帧的噪声相干值,如当前帧的前一帧的噪声相干值确定为当前帧的噪声相干值。这里,当前帧的前一帧可能包含的是噪声信号也可能包含的是语音信号,如果前一帧包含的仍为语音信号,则将历史帧中前一个噪声帧的噪声相干值确定为当前帧的噪声相干值。
在具体实施过程中,音频编码装置可以采用多种方法来进行VAD;当VAD的值为1时,则表明当前帧的信号类型为语音信号类型;当VAD的值为0时,则表明当前帧的信号类型为噪声信号类型。
需要说明的是,在本申请实施例中,音频编码装置可以以时域、频域或者时域频域结合的方式计算VAD的值,对此不做具体限定。
下面通过具体实例来对上述图4所示的立体声音频信号时延估计方法进行说明。
图5为本申请实施例中的立体声音频信号时延估计方法的流程示意图三,该方法可以包括:
S501:对立体声音频信号进行分帧处理,获得当前帧的x1(n)和x2(n);
S502:对x1(n)和x2(n)进行DFT,得到当前帧的X1(k)和X2(k);
S503:根据当前帧的x1(n)和x2(n)或者X1(k)和X2(k),计算当前帧的VAD值;若VAD=1,执行S504;若VAD=0,执行S505;
这里,参见图5中的虚线所示,S503可以在S501之后执行,也可以在S502之后执行,对此不做具体限定。
S504:根据X1(k)和X2(k),计算当前帧的噪声相干值Γ(k);
S505:将前一帧的Γm-1(k)确认为当前帧的Γ(k);
这里,当前帧的Γ(k)也可以表示为Γm(k),即第m帧的噪声相干值,m为正整数。
S506:将当前帧的Γ(k)与预设阈值Γthres进行比较;如果Γ(k)大于或者等于Γthres,则执行S507,如果Γ(k)小于Γthres,则执行S508;
S507:采用Φnew_1(k)对当前帧的Cx1x2(k)进行加权,此时,加权后的频域互功率谱就可以表示为:Φnew_1(k)Cx1x2(k);
S508:采用ΦPHAT-Coh(k)对当前帧的Cx1x2(k)进行加权,此时,加权后的频域互功率谱就可以表示为:ΦPHAT-Coh(k)Cx1x2(k);
在实际应用中,在S506之后,如果确定执行S507之前,可以采用当前帧的X1(k)和X2(k)计算当前帧的Cx1x2(k)和Φnew_1(k);如果确定执行S508之前,可以采用当前帧的X1(k)和X2(X)计算当前帧的Cx1x2(k)和ΦPHAT-Coh(k)。
S509:对Φnew_1(k)Cx1x2(k)或者ΦPHAT-Coh(k)Cx1x2(k)进行IDFT,得到互相关函数Gx1x2(n);
其中,Gx1x2(n)可以如公式(6)或(9)所示。
S510:对Gx1x2(n)进行峰值检测;
S511:根据Gx1x2(n)的峰值,计算当前帧的ITD的估计值。
至此,便完成了对立体声音频信号的ITD估计过程。
在一些可能的实施方式中,上述ITD估计方法除了可以应用于参数立体声编解码技术中,还可以应用于如声源定位、语音增强、语音分离等技术中。
由上述可知,在本申请实施例中,音频编码装置通过对包含不同类型噪声的当前帧采用不同的ITD估计算法,大幅提高了弥散性噪声和相关性噪声条件下立体声音频信号的ITD估计的精度和稳定性,减少了立体声下混信号之间的帧间不连续,同时更好地保持了立体声信号的相位,编码后的立体声的声像更加准确和稳定,真实感更强,提高了编码后立体声信号的听觉质量。
基于相同的发明构思,本申请实施例提供一种立体声音频信号时延估计装置,该装置可以为音频编码装置中的芯片或者片上系统,还可以为音频编码装置中用于实现上述实施例中图4所示的立体声音频信号时延估计方法及其任一可能的实施方式所述的方法的功能模块。举例来说,图6为申请实施例中的音频解码装置的结构示意图,参见图6中实线所示,该立体声音频信号时延估计装置600,包括:获得模块601,用于获得立体声音频信号的当前帧,当前帧包括第一声道音频信号和第二声道音频信号;声道间时间差估计模块602,用于如果当前帧所包含的噪声信号的信号类型为相关性噪声信号类型,则采用第一算法估计第一声道音频信号和第二声道音频信号的声道间时间差;如果当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型,则采用第二算法估计第一声道音频信号和第二声道音频信号的声道间时间差;其中,第一算法包括采用第一加权函数对当前帧的频域互功率谱加权,第二算法包括采用第二加权函数对当前帧的频域互功率谱加权,第一加权函数与第二加权函数的构造因子不同。
在本申请实施例中,获得模块601获得的立体声信号中的当前帧可以是频域音频信号或者时域音频信号。如果当前帧为频域音频信号,则获得模块601将当前帧传递给声道间时间差估计模块602,声道间时间差估计模块602可以直接在频域中对当前帧进行处理;而如果当前帧为时域音频信号,则获得模块601可以先对时域中的当前帧进行时频变换,以得到频域中的当前帧,进而获得模块601将频域中的当前帧传递给声道间时间差估计模块602,声道间时间差估计模块602可以在频域中对当前帧进行处理。
在一些可能的实施方式中,参见图6中虚线所示,上述装置还包括:噪声相干值计算模块603,用于在获得模块601获得当前帧之后,获得当前帧的噪声相干值;如果噪声相干值大于或者等于预设阈值,则确定当前帧所包含的噪声信号的信号类型为相关性噪声信号类型;或者,如果噪声相干值小于预设阈值,则确定当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型。
在一些可能的实施方式中,参见图6中虚线所示,上述装置还包括:语音端点检测模块604,用于对当前帧进行语音端点检测,获得检测结果;噪声相干值计算模块603,具体用于如果检测结果表示当前帧的信号类型为噪声信号类型,则计算当前帧的噪声相干值;或者,如果检测结果表示当前帧的信号类型为语音信号类型,则将立体声音频信号中的当前帧的前一帧的噪声相干值确定为当前帧的噪声相干值。
在本申请实施例中,语音端点检测模块604可以以时域、频域或者时域频域结合的方式计算VAD的值,对此不做具体限定。获得模块601可以将当前帧传递给语音端点检测模块604,以对当前帧进行VAD。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;声道间时间差估计模块602,用于对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算当前帧的频域互功率谱;采用第一加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号;声道间时间差估计模块602,用于根据第一声道频域信号和第二声道频域信号,计算当前帧的频域互功率谱;采用第一加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足上述公式(7)。
在另一些可能的实施方式中,第一加权函数Φnew_1(k)满足上述公式(8)。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一初始维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二初始维纳增益因子;声道间时间差估计模块602,具体用于在获得模块获得当前帧之后,根据第一声道频域信号,获得第一声道噪声功率谱的估计值;根据第一声道噪声功率谱的估计值,确定上述第一初始维纳增益因子;根据第二声道频域信号,获得第二声道噪声功率谱的估计值;根据第二声道噪声功率谱的估计值,确定上述第二初始维纳增益因子。
在一些可能的实施方式中,第一初始维纳增益因子
Figure BDA0002592964720000231
满足上述公式(10),第二初始维纳增益因子
Figure BDA0002592964720000232
满足上述公式(11)。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一改进维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二改进维纳增益因子;声道间时间差估计模块602,具体用于在获得模块获得当前帧之后,获得上述第一初始维纳增益因子和第二初始维纳增益因子;对上述第一初始维纳增益因子构建二值掩蔽函数,获得第一改进维纳增益因子;对上述第二初始维纳增益因子构建二值掩蔽函数,获得第二改进维纳增益因子。
在一些可能的实施方式中,第一改进维纳增益因子
Figure BDA0002592964720000241
满足上述公式(12),第二改进维纳增益因子
Figure BDA0002592964720000242
满足上述公式(13)。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;声道间时间差估计模块602,具体用于对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算当前帧的频域互功率谱;采用第二加权函数对频域互功率谱进行加权,获得声道间时间差的估计值;其中,第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号;声道间时间差估计模块602,具体用于根据第一声道频域信号和第二声道频域信号,计算当前帧的频域互功率谱;采用第二加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得声道间时间差的估计值;其中,第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第二加权函数Φnew_2(k)满足上述公式(16)。
需要说明的是,获得模块601、声道间时间差估计模块602、噪声相干值计算模块603以及语音端点检测模块604的具体实现过程可参考图4至图5实施例的详细描述,为了说明书的简洁,这里不再赘述。
本申请实施例中提到的获得模块601可以为接收接口、接收电路或者接收器等;声道间时间差估计模块602、噪声相干值计算模块603以及语音端点检测模块604可以为一个或者多个处理器。
基于相同的发明构思,本申请实施例提供一种立体声音频信号时延估计装置,该装置可以为音频编码装置中的芯片或者片上系统,还可以为音频编码装置中用于实现上述图3所示的立体声音频信号时延估计方法及其任一可能的实施方式所述的方法的功能模块。举例来说,仍参见图6所示,该立体声音频信号时延估计装置600,包括:获得模块601,用于获得立体声音频信号中的当前帧,当前帧包括第一声道音频信号和第二声道音频信号;声道间时间差估计模块602,用于对根据第一声道音频信号和第二声道音频信号,计算当前帧的频域互功率谱;采用预设加权函数对频域互功率谱进行加权;根据加权后的频域互功率谱,获得第一声道频域信号和第二声道频域信号的声道间时间差的估计值。
其中,预设加权函数为第一加权函数或者第二加权函数,第一加权函数与第二加权函数的构造因子不同;第一加权函数的构造因子包括:第一声道频域信号对应的维纳增益因子、第二声道频域信号对应的维纳增益、幅值加权参数和当前帧的相干平方值;第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
在一些可能的实施方式中,第一声道音频信号为第一声道时域信号,第二声道音频信号为第二声道时域信号;声道间时间差估计模块602,用于对第一声道时域信号和第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号计算当前帧的频域互功率谱。
在一些可能的实施方式中,第一声道音频信号为第一声道频域信号,第二声道音频信号为第二声道频域信号。此时,可以直接根据第一声道音频信号和第二声道音频信号来计算当前帧的频域互功率谱。
在一些可能的实施方式中,第一加权函数Φnew_1(k)满足上述公式(7)。
在另一些可能的实施方式中,第一加权函数Φnew_1(k)满足上述公式(8)。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一初始维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二初始维纳增益因子;声道间时间差估计模块602,具体用于在获得模块601获得当前帧之后,根据第一声道频域信号,获得第一声道噪声功率谱的估计值;根据第一声道噪声功率谱的估计值,确定第一初始维纳增益因子;根据第二声道频域信号,获得第二声道噪声功率谱的估计值;根据第二声道噪声功率谱的估计值,确定第二初始维纳增益因子。
在一些可能的实施方式中,第一初始维纳增益因子
Figure BDA0002592964720000251
满足上述公式(10),第二初始维纳增益因子
Figure BDA0002592964720000252
满足上述公式(11)。
在一些可能的实施方式中,第一声道频域信号对应的维纳增益因子为第一声道频域信号的第一改进维纳增益因子,第二声道频域信号对应的维纳增益因子为第二声道频域信号的第二改进维纳增益因子;声道间时间差估计模块602,具体用于在获得模块601获得当前帧之后,获得上述第一初始维纳增益因子和第二初始维纳增益因子;对第一初始维纳增益因子构建二值掩蔽函数,获得第一改进维纳增益因子;对第二初始维纳增益因子构建二值掩蔽函数,获得第二改进维纳增益因子。
在一些可能的实施方式中,第一改进维纳增益因子
Figure BDA0002592964720000253
满足上述公式(12),第二改进维纳增益因子
Figure BDA0002592964720000254
满足上述公式(13)。
在一些可能的实施方式中,第二加权函数Φnew_2(k)满足上述公式(16)。
需要说明的是,获得模块601和声道间时间差估计模块602的具体实现过程可参考图3的实施例的详细描述,为了说明书的简洁,这里不再赘述。
本申请实施例中提到的获得模块601可以为接收接口、接收电路或者接收器等;声道间时间差估计模块602可以为一个或者多个处理器。
基于相同的发明构思,本申请实施例提供一种音频编码装置,该音频编码装置与上述实施例中所述的音频编码装置一致。图7为本申请实施例中的音频编码装置的结构示意图,参见图7所示,该音频编码装置700包括:相互耦合的非易失性存储器701和处理器702,处理器702调用存储在存储器701中的程序代码以执行如上述图3至图5的立体声音频信号时延估计方法及其任一可能的实施方式所述的方法的操作步骤。
在一些可能的实施方式中,音频编码装置具体可以为立体声编码装置,该装置可以构成独立的立体声编码器;也可以为多声道编码器中的核心编码部分,旨在对由多声道频域信号中的多路信号联合产生的两路音频信号所组成的立体声音频信号进行编码。
在实际应用中,上述音频编码装置可以采用如可编程器件,如专用集成电路(application specific integrated circuit,ASIC)、寄存器转换级电路(registertransfer level,RTL)、现场可编程逻辑门阵列(field programmable gate array,FPGA)等实现,当然,还可以采用其他可编程器件实现,本申请实施例不做具体限定。
基于相同的发明构思,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有指令,当指令在计算机上运行时,用于执行如上述图3至图5的立体声音频信号时延估计方法及其任一可能的实施方式所述的方法的操作步骤。
基于相同的发明构思,本申请实施例提供一种计算机可读存储介质,包括编码码流,编码码流包括根据如上述图3至图5的立体声音频信号时延估计方法及其任一可能的实施方式所述的方法获得的立体声音频信号的声道间时间差。
基于相同的发明构思,本申请实施例提供一种计算机程序或计算机程序产品,当计算机程序或计算机程序产品在计算机上被执行时,使得计算机实现如如上述图3至图5的立体声音频信号时延估计方法及其任一可能的实施方式所述的方法的操作步骤。
本领域技术人员能够领会,结合本文公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且,任何连接被恰当地称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的各种说明性逻辑框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本申请的技术可在各种各样的装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本申请中描述各种组件、模块或单元是为了强调用于执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中,或者通过互操作硬件单元(包含如上文所描述的一或多个处理器)来提供。
在上述实施例中,对各个实施例的描述各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述,仅为本申请示例性的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (51)

1.一种立体声音频信号时延估计方法,其特征在于,包括:
获得立体声音频信号的当前帧,所述当前帧包括第一声道音频信号和第二声道音频信号;
如果所述当前帧所包含的噪声信号的信号类型为相关性噪声信号类型,则采用第一算法估计所述第一声道音频信号和所述第二声道音频信号的声道间时间差;
如果所述当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型,则采用第二算法估计所述第一声道音频信号和所述第二声道音频信号的声道间时间差;
其中,所述第一算法包括采用第一加权函数对所述当前帧的频域互功率谱加权,所述第二算法包括采用第二加权函数对所述当前帧的频域互功率谱加权,所述第一加权函数与所述第二加权函数的构造因子不同。
2.根据权利要求1所述的方法,其特征在于,在所述获得立体声音频信号的当前帧之后,所述方法还包括:
获得所述当前帧的噪声相干值;
如果所述噪声相干值大于或者等于预设阈值,则确定所述当前帧所包含的噪声信号的信号类型为所述相关性噪声信号类型;
如果所述噪声相干值小于所述预设阈值,则确定所述当前帧所包含的噪声信号的信号类型为所述弥散性噪声信号类型。
3.根据权利要求2所述的方法,其特征在于,所述获得所述当前帧的噪声相干值,包括:
对所述当前帧进行语音端点检测;
如果检测结果表示所述当前帧的信号类型为噪声信号类型,则计算所述当前帧的噪声相干值;或者,
如果检测结果表示所述当前帧的信号类型为语音信号类型,则将所述立体声音频信号中的所述当前帧的前一帧的噪声相干值确定为所述当前帧的噪声相干值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述第一声道音频信号为第一声道时域信号,所述第二声道音频信号为第二声道时域信号;
所述采用第一算法估计所述第一声道音频信号和所述第二声道音频信号的声道间时间差,包括:
对所述第一声道时域信号和所述第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;
根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;
采用所述第一加权函数对所述频域互功率谱进行加权;
根据加权后的频域互功率谱,获得所述声道间时间差的估计值;
其中,所述第一加权函数的构造因子包括:所述第一声道频域信号对应的维纳增益因子、所述第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述第一声道音频信号为第一声道频域信号,所述第二声道音频信号为第二声道频域信号;
所述采用第一算法估计所述第一声道音频信号和所述第二声道音频信号的声道间时间差,包括:
根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;
采用所述第一加权函数对所述频域互功率谱进行加权;
根据加权后的频域互功率谱,获得所述声道间时间差的估计值;
其中,所述第一加权函数的构造因子包括:所述第一声道频域信号对应的维纳增益因子、所述第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
6.根据权利要求4或5所述的方法,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000021
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000022
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000023
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
7.根据权利要求4或5所述的方法,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000024
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000025
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000026
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
8.根据权利要求4至7任一项所述的方法,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的第一初始维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的第二初始维纳增益因子;
在所述获得立体声音频信号的当前帧之后,所述方法还包括:
根据所述第一声道频域信号,获得第一声道噪声功率谱的估计值;根据所述第一声道噪声功率谱的估计值,确定所述第一初始维纳增益因子;
根据所述第二声道频域信号,获得第二声道噪声功率谱的估计值;根据所述第二声道噪声功率谱的估计值,确定所述第二初始维纳增益因子。
9.根据权利要求8所述的方法,其特征在于,所述第一初始维纳增益因子
Figure FDA0002592964710000027
满足以下公式:
Figure FDA0002592964710000028
所述第二初始维纳增益因子
Figure FDA0002592964710000029
满足以下公式:
Figure FDA00025929647100000210
其中,
Figure FDA00025929647100000211
为所述第一声道噪声功率谱的估计值,
Figure FDA00025929647100000212
为所述第二声道噪声功率谱的估计值;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
10.根据所述权利要求4至7任一项所述的方法,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的第一改进维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的第二改进维纳增益因子;
在所述获得立体声音频信号的当前帧之后,所述方法还包括:
获得所述第一声道频域信号的第一初始维纳增益因子和所述第二声道频域信号的第二初始维纳增益因子;
对所述第一初始维纳增益因子构建二值掩蔽函数,获得所述第一改进维纳增益因子;
对所述第二初始维纳增益因子构建二值掩蔽函数,获得所述第二改进维纳增益因子。
11.根据权利要求10所述的方法,其特征在于,所述第一改进维纳增益因子
Figure FDA0002592964710000031
满足以下公式:
Figure FDA0002592964710000032
Figure FDA0002592964710000033
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure FDA0002592964710000034
为所述第一初始维纳增益因子;
Figure FDA0002592964710000035
为所述第二初始维纳增益因子。
12.根据权利要求1至11任一项所述方法,其特征在于,所述第一声道音频信号为第一声道时域信号,所述第二声道音频信号为第二声道时域信号;
所述采用第二算法估计所述第一声道音频信号和所述第二声道音频信号的声道间时间差,包括:
对所述第一声道时域信号和所述第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;
根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;
采用所述第二加权函数对所述频域互功率谱进行加权,获得所述声道间时间差的估计值;
其中,所述第二加权函数的构造因子包括:幅值加权参数和所述当前帧的相干平方值。
13.根据权利要求1至11任一项所述方法,其特征在于,所述第一声道音频信号为第一声道频域信号,所述第二声道音频信号为第二声道频域信号;
所述采用第二算法估计第一声道音频信号和第二声道音频信号的声道间时间差,包括:
根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;
采用所述第二加权函数对所述频域互功率谱进行加权;
根据加权后的频域互功率谱,获得所述声道间时间差的估计值;
其中,所述第二加权函数的构造因子包括:幅值加权参数和当前帧的相干平方值。
14.根据权利要求12或13所述的方法,其特征在于,所述第二加权函数Φnew_2(k)满足以下公式:
Figure FDA0002592964710000041
其中,β为幅度加权参数,β∈[0,1],X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000042
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000043
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
15.一种立体声音频信号时延估计方法,其特征在于,包括:
获得立体声音频信号中的当前帧,所述当前帧包括第一声道音频信号和第二声道音频信号;
根据所述第一声道音频信号和所述第二声道音频信号,计算所述当前帧的频域互功率谱;
采用预设加权函数对所述频域互功率谱进行加权,所述预设加权函数为第一加权函数或者第二加权函数;
根据加权后的频域互功率谱,获得所述第一声道频域信号和所述第二声道频域信号的声道间时间差的估计值;
其中,所述第一加权函数的构造因子包括:所述第一声道频域信号对应的维纳增益因子、所述第二声道频域信号对应的维纳增益、幅值加权参数和所述当前帧的相干平方值;所述第二加权函数的构造因子包括:幅值加权参数和所述当前帧的相干平方值;所述第一加权函数与所述第二加权函数的构造因子不同。
16.根据权利要求15所述的方法,其特征在于,所述第一声道音频信号为第一声道时域信号,所述第二声道音频信号为第二声道时域信号;
所述根据所述第一声道音频信号和所述第二声道音频信号,计算所述当前帧的频域互功率谱,包括:
对所述第一声道时域信号和所述第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;
根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱。
17.根据权利要求1 5所述的方法,其特征在于,所述第一声道音频信号为第一声道频域信号,所述第二声道音频信号为第二声道频域信号。
18.根据权利要求15至16任一项所述的方法,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000044
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000045
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000046
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
19.根据权利要求15至16任一项所述的方法,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000051
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000052
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000053
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
20.根据权利要求15至19任一项所述的方法,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的第一初始维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的第二初始维纳增益因子;
所述获得立体声音频信号中的当前帧之后,所述方法还包括:
根据所述第一声道频域信号,获得第一声道噪声功率谱的估计值;根据所述第一声道噪声功率谱的估计值,确定所述第一初始维纳增益因子;
根据所述第二声道频域信号,获得第二声道噪声功率谱的估计值;根据所述第二声道噪声功率谱的估计值,确定所述第二初始维纳增益因子。
21.根据权利要求20所述的方法,其特征在于,所述第一初始维纳增益因子
Figure FDA0002592964710000059
满足以下公式:
Figure FDA0002592964710000057
所述第二初始维纳增益因子
Figure FDA00025929647100000510
满足以下公式:
Figure FDA0002592964710000058
其中,
Figure FDA00025929647100000511
为所述第一声道噪声功率谱的估计值,
Figure FDA00025929647100000512
为所述第二声道噪声功率谱的估计值;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
22.根据所述权利要求15至19任一项所述的方法,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的第一改进维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的第二改进维纳增益因子;
在所述获得立体声音频信号中的当前帧之后,所述方法还包括:
获得所述第一声道频域信号的第一初始维纳增益因子和所述第二声道频域信号的第二初始维纳增益因子;
对所述第一初始维纳增益因子构建二值掩蔽函数,获得所述第一改进维纳增益因子;
对所述第二初始维纳增益因子构建二值掩蔽函数,获得所述第二改进维纳增益因子。
23.根据权利要求22所述的方法,其特征在于,所述第一改进维纳增益因子
Figure FDA0002592964710000054
满足以下公式:
Figure FDA0002592964710000055
所述第二改进维纳增益因子
Figure FDA0002592964710000056
满足以下公式:
Figure FDA0002592964710000061
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure FDA0002592964710000062
为所述第一初始维纳增益因子;
Figure FDA0002592964710000063
为所述第二初始维纳增益因子。
24.根据权利要求15至23任一项所述的方法,其特征在于,所述第二加权函数Φnew_2(k)满足以下公式:
Figure FDA0002592964710000064
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道维纳增益因子;Wx2(k)为所述第二声道维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000065
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000066
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
25.一种立体声音频信号时延估计装置,其特征在于,包括:
第一获得模块,用于获得立体声音频信号的当前帧,所述当前帧包括第一声道音频信号和第二声道音频信号;
第一声道间时间差估计模块,用于如果所述当前帧所包含的噪声信号的信号类型为相关性噪声信号类型,则采用第一算法估计所述第一声道音频信号和所述第二声道音频信号的声道间时间差;如果所述当前帧所包含的噪声信号的信号类型为弥散性噪声信号类型,则采用第二算法估计所述第一声道音频信号和所述第二声道音频信号的声道间时间差;
其中,所述第一算法包括采用第一加权函数对所述当前帧的频域互功率谱加权,所述第二算法包括采用第二加权函数对所述当前帧的频域互功率谱加权,所述第一加权函数与所述第二加权函数的构造因子不同。
26.根据权利要求25所述的装置,其特征在于,所述装置还包括:噪声相干值计算模块,用于在所述第一获得模块获得所述当前帧之后,获得所述当前帧的噪声相干值;如果所述噪声相干值大于或者等于预设阈值,则确定所述当前帧所包含的噪声信号的信号类型为所述相关性噪声信号类型;或者,如果所述噪声相干值小于所述预设阈值,则确定所述当前帧所包含的噪声信号的信号类型为所述弥散性噪声信号类型。
27.根据权利要求26所述的装置,其特征在于,所述装置还包括:语音端点检测模块,用于对所述当前帧进行语音端点检测;所述噪声相干值计算模块,具体用于如果检测结果表示所述当前帧的信号类型为噪声信号类型,则计算所述当前帧的噪声相干值;或者,如果检测结果表示所述当前帧的信号类型为语音信号类型,则将所述立体声音频信号中的所述当前帧的前一帧的噪声相干值确定为所述当前帧的噪声相干值。
28.根据权利要求25至27任一项所述的装置,其特征在于,所述第一声道音频信号为第一声道时域信号,所述第二声道音频信号为第二声道时域信号;所述第一声道间时间差估计模块,用于对所述第一声道时域信号和所述第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;采用所述第一加权函数对所述频域互功率谱进行加权;根据加权后的频域互功率谱,获得所述声道间时间差的估计值;其中,所述第一加权函数的构造因子包括:所述第一声道频域信号对应的维纳增益因子、所述第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
29.根据权利要求25至27任一项所述的装置,其特征在于,所述第一声道音频信号为第一声道频域信号,所述第二声道音频信号为第二声道频域信号;所述第一声道间时间差估计模块,用于根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;采用所述第一加权函数对所述频域互功率谱进行加权;根据加权后的频域互功率谱,获得所述声道间时间差的估计值;其中,所述第一加权函数的构造因子包括:所述第一声道频域信号对应的维纳增益因子、所述第二声道频域信号对应的维纳增益因子、幅值加权参数和当前帧的相干平方值。
30.根据权利要求28或29所述的装置,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000071
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000072
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000073
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
31.根据权利要求28或29所述的装置,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000074
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000075
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000076
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
32.根据权利要求28至31任一项所述的装置,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的所述第一初始维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的所述第二初始维纳增益因子;
所述第一声道间时间差估计模块,具体用于在所述第一获得模块获得所述当前帧之后,根据所述第一声道频域信号,获得第一声道噪声功率谱的估计值;根据所述第一声道噪声功率谱的估计值,确定所述第一初始维纳增益因子;根据所述第二声道频域信号,获得第二声道噪声功率谱的估计值;根据所述第二声道噪声功率谱的估计值,确定所述第二初始维纳增益因子。
33.根据权利要求32所述的装置,其特征在于,所述第一初始维纳增益因子
Figure FDA0002592964710000077
满足以下公式:
Figure FDA0002592964710000078
所述第二初始维纳增益因子
Figure FDA0002592964710000079
满足以下公式:
Figure FDA00025929647100000710
其中,
Figure FDA00025929647100000711
为所述第一声道噪声功率谱的估计值,
Figure FDA00025929647100000712
为所述第二声道噪声功率谱的估计值;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
34.根据所述权利要求28至31任一项所述的装置,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的第一改进维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的第二改进维纳增益因子;
所述第一声道间时间差估计模块,具体用于在所述第一获得模块获得所述当前帧之后,获得所述第一声道频域信号的第一初始维纳增益因子和所述第二声道频域信号的第二初始维纳增益因子;对所述第一初始维纳增益因子构建二值掩蔽函数,获得所述第一改进维纳增益因子;对所述第二初始维纳增益因子构建二值掩蔽函数,获得所述第二改进维纳增益因子。
35.根据权利要求34所述的装置,其特征在于,所述第一改进维纳增益因子
Figure FDA0002592964710000081
满足以下公式:
Figure FDA0002592964710000082
Figure FDA0002592964710000083
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure FDA0002592964710000084
为所述第一初始维纳增益因子;
Figure FDA0002592964710000085
为所述第二初始维纳增益因子。
36.根据权利要求25至35任一项所述装置,其特征在于,所述第一声道音频信号为第一声道时域信号,所述第二声道音频信号为第二声道时域信号;所述第一声道间时间差估计模块,具体用于对所述第一声道时域信号和所述第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;采用所述第二加权函数对所述频域互功率谱进行加权,获得所述声道间时间差的估计值;其中,所述第二加权函数的构造因子包括:幅值加权参数和所述当前帧的相干平方值。
37.根据权利要求25至35任一项所述装置,其特征在于,所述第一声道音频信号为第一声道频域信号,所述第二声道音频信号为第二声道频域信号;所述第一声道间时间差估计模块,具体用于根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱;采用所述第二加权函数对所述频域互功率谱进行加权;根据加权后的频域互功率谱,获得所述声道间时间差的估计值;其中,所述第二加权函数的构造因子包括:幅值加权参数和所述当前帧的相干平方值。
38.根据权利要求37所述的装置,其特征在于,所述第二加权函数Φnew_2(k)满足以下公式:
Figure FDA0002592964710000086
其中,β为幅度加权参数,β∈[0,1],X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000087
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000088
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
39.一种立体声音频信号时延估计装置,其特征在于,包括:
第二获得模块,用于获得立体声音频信号中的当前帧,所述当前帧包括第一声道音频信号和第二声道音频信号;
第二声道间时间差估计模块,用于根据所述第一声道音频信号和所述第二声道音频信号,计算所述当前帧的频域互功率谱;采用预设加权函数对所述频域互功率谱进行加权,所述预设加权函数为第一加权函数或者第二加权函数;根据加权后的频域互功率谱,获得所述第一声道频域信号和所述第二声道频域信号的声道间时间差的估计值;
其中,所述第一加权函数的构造因子包括:所述第一声道频域信号对应的维纳增益因子、所述第二声道频域信号对应的维纳增益、幅值加权参数和所述当前帧的相干平方值;所述第二加权函数的构造因子包括:幅值加权参数和所述当前帧的相干平方值;所述第一加权函数与所述第二加权函数的构造因子不同。
40.根据权利要求39所述的装置,其特征在于,所述第一声道音频信号为第一声道时域信号,所述第二声道音频信号为第二声道时域信号;所述第二声道间时间差估计模块,用于对所述第一声道时域信号和所述第二声道时域信号进行时频变换,以获得第一声道频域信号和第二声道频域信号;根据所述第一声道频域信号和所述第二声道频域信号,计算所述当前帧的频域互功率谱。
41.根据权利要求39所述的装置,其特征在于,所述第一声道音频信号为第一声道频域信号,所述第二声道音频信号为第二声道频域信号。
42.根据权利要求39至41任一项所述的装置,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000091
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000092
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000093
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
43.根据权利要求39至41任一项所述的装置,其特征在于,所述第一加权函数Φnew_1(k)满足以下公式:
Figure FDA0002592964710000094
其中,β为幅值加权参数,β∈[0,1],Wx1(k)为所述第一声道频域信号对应的维纳增益因子;Wx2(k)为所述第二声道频域信号对应的维纳增益因子;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA0002592964710000095
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA0002592964710000096
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
44.根据权利要求39至43任一项所述的装置,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的第一初始维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的第二初始维纳增益因子;
所述第二声道间时间差估计模块,具体用于在所述第二获得模块获得所述当前帧之后,根据所述第一声道频域信号,获得第一声道噪声功率谱的估计值;根据所述第一声道噪声功率谱的估计值,确定所述第一初始维纳增益因子;根据所述第二声道频域信号,获得第二声道噪声功率谱的估计值;根据所述第二声道噪声功率谱的估计值,确定所述第二初始维纳增益因子。
45.根据权利要求44所述的装置,其特征在于,所述第一初始维纳增益因子
Figure FDA0002592964710000101
满足以下公式:
Figure FDA0002592964710000102
所述第二初始维纳增益因子
Figure FDA0002592964710000103
满足以下公式:
Figure FDA0002592964710000104
其中,
Figure FDA0002592964710000105
为所述第一声道噪声功率谱的估计值,
Figure FDA0002592964710000106
为所述第二声道噪声功率谱的估计值;X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
46.根据所述权利要求39至43任一项所述的装置,其特征在于,所述第一声道频域信号对应的维纳增益因子为所述第一声道频域信号的第一改进维纳增益因子,所述第二声道频域信号对应的维纳增益因子为所述第二声道频域信号的第二改进维纳增益因子;
所述第二声道间时间差估计模块,具体用于所述第二获得模块获得所述当前帧之后,获得所述第一声道频域信号的第一初始维纳增益因子和所述第二声道频域信号的第二初始维纳增益因子;对所述第一初始维纳增益因子构建二值掩蔽函数,获得所述第一改进维纳增益因子;对所述第二初始维纳增益因子构建二值掩蔽函数,获得所述第二改进维纳增益因子。
47.根据权利要求46所述的装置,其特征在于,所述第一改进维纳增益因子
Figure FDA0002592964710000107
满足以下公式:
Figure FDA0002592964710000108
Figure FDA0002592964710000109
其中,μ0为维纳增益因子的二值掩蔽门限,
Figure FDA00025929647100001010
为所述第一初始维纳增益因子;
Figure FDA00025929647100001011
为所述第二初始维纳增益因子。
48.根据权利要求39至47任一项所述的装置,其特征在于,所述第二加权函数Φnew_2(k)满足以下公式:
Figure FDA00025929647100001012
其中,β∈[0,1],X1(k)为所述第一声道频域信号,X2(k)为所述第二声道频域信号,
Figure FDA00025929647100001013
为X2(k)的共轭函数,Γ2(k)为所述当前帧第k个频点的相干平方值,
Figure FDA00025929647100001014
k为频点索引值,k=0,1,...,NDFT-1,NDFT为所述当前帧在进行时频变换后的频点总数。
49.一种音频编码装置,其特征在于,包括:相互耦合的非易失性存储器和处理器,所述处理器调用存储在所述存储器中的程序代码以执行如权利要求1至24任一项所描述的立体声音频信号时延估计方法。
50.一种计算机存储介质,其特征在于,包括计算机程序,所述计算机程序在计算机上被执行时,使得所述计算机执行如权利要求1至24任一项所描述的立体声音频信号时延估计方法。
51.一种计算机可读存储介质,其特征在于,包括编码码流,所述编码码流包括根据如权利要求1至24任一项所描述的立体声音频信号时延估计方法获得的立体声音频信号的声道间时间差。
CN202010700806.7A 2020-07-17 2020-07-17 一种立体声音频信号时延估计方法及装置 Pending CN113948098A (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN202010700806.7A CN113948098A (zh) 2020-07-17 2020-07-17 一种立体声音频信号时延估计方法及装置
BR112023000850A BR112023000850A2 (pt) 2020-07-17 2021-07-15 Método e aparelho de estimativa de atraso de sinal de áudio estéreo, aparelho de codificação de áudio e meio de armazenamento legível por computador
CA3189232A CA3189232A1 (en) 2020-07-17 2021-07-15 Stereo audio signal delay estimation method and apparatus
PCT/CN2021/106515 WO2022012629A1 (zh) 2020-07-17 2021-07-15 一种立体声音频信号时延估计方法及装置
JP2023502886A JP2023533364A (ja) 2020-07-17 2021-07-15 ステレオオーディオ信号遅延推定方法および装置
EP21842542.9A EP4170653A4 (en) 2020-07-17 2021-07-15 METHOD AND DEVICE FOR ESTIMATING THE TIME DELAY OF A STEREO AUDIO SIGNAL
KR1020237004478A KR20230035387A (ko) 2020-07-17 2021-07-15 스테레오 오디오 신호 지연 추정 방법 및 장치
US18/154,549 US20230154483A1 (en) 2020-07-17 2023-01-13 Stereo Audio Signal Delay Estiamtion Method and Apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010700806.7A CN113948098A (zh) 2020-07-17 2020-07-17 一种立体声音频信号时延估计方法及装置

Publications (1)

Publication Number Publication Date
CN113948098A true CN113948098A (zh) 2022-01-18

Family

ID=79326926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010700806.7A Pending CN113948098A (zh) 2020-07-17 2020-07-17 一种立体声音频信号时延估计方法及装置

Country Status (8)

Country Link
US (1) US20230154483A1 (zh)
EP (1) EP4170653A4 (zh)
JP (1) JP2023533364A (zh)
KR (1) KR20230035387A (zh)
CN (1) CN113948098A (zh)
BR (1) BR112023000850A2 (zh)
CA (1) CA3189232A1 (zh)
WO (1) WO2022012629A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024053353A1 (ja) * 2022-09-08 2024-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004002192A1 (en) * 2002-06-21 2003-12-31 University Of Southern California System and method for automatic room acoustic correction
CN101848412B (zh) * 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
CN107479030B (zh) * 2017-07-14 2020-11-17 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN107393549A (zh) * 2017-07-21 2017-11-24 北京华捷艾米科技有限公司 时延估计方法及装置
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
CN110082725B (zh) * 2019-03-12 2023-02-28 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN109901114B (zh) * 2019-03-28 2020-10-27 广州大学 一种适用于声源定位的时延估计方法
CN111239686B (zh) * 2020-02-18 2021-12-21 中国科学院声学研究所 一种基于深度学习的双通道声源定位方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置

Also Published As

Publication number Publication date
US20230154483A1 (en) 2023-05-18
KR20230035387A (ko) 2023-03-13
BR112023000850A2 (pt) 2023-04-04
CA3189232A1 (en) 2022-01-20
EP4170653A4 (en) 2023-11-29
WO2022012629A1 (zh) 2022-01-20
EP4170653A1 (en) 2023-04-26
JP2023533364A (ja) 2023-08-02

Similar Documents

Publication Publication Date Title
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
US11664034B2 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
AU2016262783A1 (en) Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
JP2019502966A (ja) チャネル間時間差を推定する装置及び方法
KR102564298B1 (ko) 공간적 오디오 파라미터 인코딩을 위한 양자화 체계의 선택
US9936328B2 (en) Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program
US20230154483A1 (en) Stereo Audio Signal Delay Estiamtion Method and Apparatus
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
US8041041B1 (en) Method and system for providing stereo-channel based multi-channel audio coding
EP3762923A1 (en) Audio coding
US20230402053A1 (en) Combining of spatial audio parameters
CN110556118A (zh) 立体声信号的编码方法和装置
CN106033671B (zh) 确定声道间时间差参数的方法和装置
JP2022163058A (ja) ステレオ信号符号化方法およびステレオ信号符号化装置
CN109300480B (zh) 立体声信号的编解码方法和编解码装置
US20120195435A1 (en) Method, Apparatus and Computer Program for Processing Multi-Channel Signals
KR102593235B1 (ko) 공간 오디오 파라미터의 양자화
JP7159351B2 (ja) ダウンミックスされた信号の計算方法及び装置
CN106033672B (zh) 确定声道间时间差参数的方法和装置
JP7309813B2 (ja) 時間領域ステレオパラメータ符号化方法および関連製品
WO2020001568A1 (zh) 立体声信号编码过程中确定加权系数的方法和装置
CN117083881A (zh) 分离空间音频对象
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
GB2598932A (en) Spatial audio parameter encoding and associated decoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination