具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明的实施例提供一种声音信号通道间延时估计的方法,如图1所示,该方法包括:
101、计算声音信号通道间的实际相位差与预测相位差之间的误差,所述预测相位差根据所述声音信号通道间预定延时预测。
其中,所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个,所述通道间估计延时为利用通道间的相关性估计的延时;所述误差可以通过计算声音信号通道间的实际相位差,与根据通道间估计延时或通道间固定值延时中的至少一个预测的所述声音信号通道间的预测相位差获取。
其中,所述误差可以为在某段频带内各频点对应的实际相位差与预测相位差之差的绝对值之和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值,本发明实施例对此不进行限制;所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。
102、根据所述误差判断所述声音信号是否为交叉说话时的声音信号。
103、若所述声音信号为交叉说话时的声音信号,则将所述声音信号对应的通道间延时设置为固定值。
其中,所述固定值为一经验值,用户可以根据具体的实施具体设置,本发明实施例对此不进行限制,例如,该固定值可以为“0”。将所述声音信号对应的通道间延时设置为固定值,以便保持场强的稳定性。
本发明实施例中,对声音信号进行是否为交叉说话时的声音信号的检测,当检测到声音信号为交叉说话时的声音信号,则将该声音信号对应的通道间延时设置为固定值;与现有技术中不区分是否为交叉说话时的声音信号,统一采用通道间延时估计的方法相比,本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值,避免了通道间错误的延时估计,造成的声场的不稳定,从而能够在交叉说话时,实现声场的稳定。
实施例2
本发明的实施例提供一种声音信号通道间延时估计的方法,为了保证准确的检测声音信号是否为交叉说话时的声音信号,设置了声音信号为交叉说话时的声音信号时的次数,当达到该次数表明当前的声音信号为非常稳定的交叉说话时的声音信号,如图2所示,该方法包括:
201、计算声音信号通道间的实际相位差与预测相位差之间的误差,所述预测相位差根据所述声音信号通道间预定延时预测。
其中,所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个,所述通道间估计延时为利用通道间的相关性估计的延时;所述误差可以通过计算声音信号通道间的实际相位差,与根据通道间估计延时或通道间固定值延时中的至少一个预测的所述声音信号通道间的预测相位差获取。
其中,所述误差可以为在某段频带内各频点对应的实际相位差与预测相位差之差的绝对值之和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值,本发明实施例对此不进行限制;所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。
202、根据所述误差判断所述声音信号是否为交叉说话时的声音信号;若所述声音信号为交叉说话时的声音信号,则执行步骤203;若所述声音信号不是交叉说话时的声音信号,则执行步骤205。
进一步,需要说明的是,当接收到当前帧的声音信号并判断其为交叉说话时的声音信号时,有可能是由于说话时的声音信号不稳定,出现了误判的情况,为了更准确的判定当前接收到的声音信号是否为交叉说话时的声音信号,设定了声音信号为交叉说话时的声音信号的次数门限,当声音信号为交叉说话时的声音信号的次数达到该设置的次数门限时,可以确定当前接收到的声音信号确实是交叉说话时的声音信号,因此当根据所述误差判断所述声音信号为交叉说话时的声音信号之后,执行步骤203。
203、统计声音信号为交叉说话时的声音信号的次数,并判断所述次数是否大于预设次数门限;若所述次数大于所述预设次数门限,表明当前的说话情景确实是交叉说话,接收到的声音信号确实为交叉说话时的声音信号,则执行步骤204;若所述次数小于或等于所述预设次数门限,表明当前的说话情景并不是交叉说话,接收到的声音信号也并不是交叉说话时的声音信号,则执行步骤205。
其中,所述预设门限次数为一经验值,用户可以根据具体的需求具体设置,本发明实施例对此不进行限制,例如可以将该门限次数设置为3次。
204、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。
其中,所述固定值为一经验值,用户可以根据具体的实施具体设置,本发明实施例对此不进行限制,例如,该固定值可以为“0”。将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,以便保持场强的稳定性。
205、根据现有技术中的声音信号通道间延时估计的方法,获取所述声音信号对应的通道间延时。
其中,根据现有技术中的声音信号通道间延时估计的方法,可以采用但不局限于如下的方法实现,通过求左右通道间的加权互相关函数,并搜索求取加权互相关函数的最大值所对应的延时作为左右通道间的延时。具体可以包括,如图3所示:
2051、对所述声音信号的左右两个声道信号进行时频变换,所述声音信号的左右两个声道信号变换到频域。
2052、计算所述左右两个声道信号频域的加权互相关函数。
其中,在计算所述左右两个声道信号频域的加权互相关函数时,可以在部分频带或者全部频带计算。
当在全频带计算时,可以采用公式1获取加权的互相关函数Cr(k),公式1-1为:
(公式1)
当在部分频带计算时,可以采用公式2获取加权的互相关函数Cr(k),公式2为:
(公式2)
其中,W(k)为加权函数,
为X
2(k)的共轭函数,X
1(k),X
2(k)分别为左路声道信号、右路声道信号的时频变换,k为频率点索引,N为时频变换长度。
2053、将所述频域的加权互相关函数进行频时变换,得到时域的加权互相关函数。
其中,所述频时变换可以采用现有技术中的任一中频时变换方法,例如,FFT(Fast Fourier Transform,快速傅立叶变换)变换。
2054、搜索时域的加权互相关函数的最大值,并将所述最大值对应的时间索引作为所述声音信号对应的通道间延时。
其中,在搜索时域的加权互相关函数的最大值时,可以从加权互相关函数绝对值中搜索得到所述最大值,也可以从加权互相关函数中搜索得到所述最大值,本发明实施例对此不进行限制。
例如,当从加权互相关函数绝对值中搜索得到所述最大值时,可以采用公式3获取所述最大值dg,所述公式3为:
(公式3)
当从加权互相关函数中搜索得到所述最大值时,可以采用公式4获取所述最大值dg,所述公式4为:
(公式4)
其中|Cr(n)|为Cr(n)的幅度,argmax|(Cr(n))|为最大的互相关函数绝对值对应的索引值,N为时频变换长度。
本发明实施例中,对声音信号进行是否为交叉说话时的声音信号的检测,当检测到声音信号为交叉说话时的声音信号,则将该声音信号对应的通道间延时设置为固定值;与现有技术中不区分是否为交叉说话时的声音信号,统一采用通道间延时估计的方法相比,本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值,避免了通道间错误的延时估计,造成的声场的不稳定,从而能够在交叉说话时,实现声场的稳定。
并且,本发明实施例设置了声音信号为交叉说话时的声音信号时的次数门限,当达到该次数门限后,才将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,从而避免了由于单次检测失误而将非交叉说话时的声音信号,当作交叉说话时的声音信号处理,从而能够保证准确的检测声音信号是否为交叉说话时的声音信号。
实施例3
本发明实施例提供一种声音信号通道间延时估计的方法,在计算实际相位差和预测相位差之间的误差时,该预测相位差可以根据通道间估计延时或通道间固定值延时中的至少一个估计获取;本发明实施例以根据通道间估计延时预测获取预测相位差为例,具体阐述该声音信号通道间延时估计的方法,如图4所示,该方法包括:
301、根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时。
其中,根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时,可以参考实施例2中的步骤205中的描述,此处将不再赘述。
302、计算声音信号通道间的实际相位差,与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差。
其中,所述第一误差为,当所述预测相位差根据所述声音信号通道间估计延时预测时,计算声音信号通道间的实际相位差与预测相位差之间的误差获取,所述计算声音信号通道间的实际相位差,与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差,可以包括:
在某段频带内计算各频点的声音信号通道间的实际相位差IPD(k),该实际相位差可以采用公式5中计算获得,公式5为:
IPD(k)=∠X1(k)*X2 *(k) 0<k<Max (公式5)
其中,
为X
2(k)的共轭函数,X
1(k),X
2(k)分别为左路声道信号、右路声道信号的时频变换,k为频点取值,其取值范围为[1,Max],Max为某段频带的最大频点。
在低频段内计算各频点的声音信号通道间的预测相位差IPD′(k),该预测相位差可以采用公式6中计算获得,公式6为:
0<k<Max (公式6)
计算实际相位差IPD(k)与预测相位差IPD′(k)之间的第一误差。其中,所述第一误差可以为在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值之和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值,本发明实施例对此不进行限制;所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值之和作为第一误差,则计算IPD(k)和IPD′(k)在[1,Max]范围内相位差的差的绝对值之和,可采用公式7,公式7为:
(公式7)
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值的平均值作为第一误差,计算IPD(k)和IPD′(k)在[1,Max]范围内相位差之差的绝对值的平均值,可以采用公式8,公式8为:
(公式8)
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方和作为第一误差,则计算IPD(k)和IPD′(k)在[1,Max]范围内相位差的差的平方和,可采用公式9,公式9为:
(公式9)
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方的平均值作为第一误差,则计算IPD(k)和IPD′(k)在[1,Max]范围内相位差之差的平方的平均值,可采用公式10,公式10为:
(公式10)
303、判断所述第一误差是否在第一预定范围内;若所述第一误差不在第一预定范围内,表明检测的声音信号为交叉说话声音信号,则执行步骤304;若所述第一误差在第一预定范围内,表明检测的声音信号为非交叉说话声音信号;则执行步骤306。
其中,所述第一预定范围为一经验范围,根据非交叉说话声音信号的通道间延时设置,当该第一误差在所述第一预定范围内时,表明检测的声音信号为非交叉说话声音信号,即为单一发生体对应的声音信号;当第一误差不在所述第一预定范围内时,表明检测的声音信号为交叉说话声音信号;其可以是用户设置的固定范围,也可以是在一定时间周期内统计的非交叉说话声音信号的通道间延时的范围,本发明实施例对此不进行限制。
304、统计声音信号为交叉说话时的声音信号的次数,并判断所述次数是否大于预设次数门限;若所述次数大于所述预设次数门限,表明当前的说话情景确实是交叉说话,接收到的声音信号确实为交叉说话时的声音信号,则执行步骤305;若所述次数小于或等于所述预设次数门限,表明当前的说话情景并不是交叉说话,接收到的声音信号也并不是交叉说话时的声音信号,则执行步骤306。
其中,所述预设门限次数为一经验值,用户可以根据具体的需求具体设置,本发明实施例对此不进行限制,例如可以将该门限次数设置为3次。
305、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。
其中,所述固定值为一经验值,用户可以根据具体的实施具体设置,本发明实施例对此不进行限制,例如,该固定值可以为“0”。将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,以便保持场强的稳定性。
306、将步骤301中获取的通道间估计延时作为所述声音信号对应的通道间延时。
本发明实施例中,对声音信号进行是否为交叉说话时的声音信号的检测,当检测到声音信号为交叉说话时的声音信号,则将该声音信号对应的通道间延时设置为固定值;与现有技术中不区分是否为交叉说话时的声音信号,统一采用通道间延时估计的方法相比,本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值,避免了通道间错误的延时估计,造成的声场的不稳定,从而能够在交叉说话时,实现声场的稳定。
并且,本发明实施例设置了声音信号为交叉说话时的声音信号时的次数门限,当达到该次数门限后,才将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,从而避免了由于单次检测失误而将非交叉说话时的声音信号,当作交叉说话时的声音信号处理,从而能够保证准确的检测声音信号是否为交叉说话时的声音信号。
实施例4
本发明实施例提供一种声音信号通道间延时估计的方法,本发明实施例以根据通道间固定值延时预测获取预测相位差为例,具体阐述该声音信号通道间延时估计的方法,如图5所示,该方法包括:
401、计算声音信号通道间的实际相位差,与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差。
其中,所述第二误差为,当所述预测相位差根据所述声音信号通道间间固定值延时预测时,计算声音信号通道间的实际相位差与预测相位差之间的误差获取,所述计算计算声音信号通道间的实际相位差,与根据所述通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差,可以包括:
在低频段内计算各频点的声音信号通道间的实际相位差IPD(k),该实际相位差可以采用实施例3中的公式5中计算获得,此处将不再赘述。
在低频段内计算各频点的声音信号通道间的预测相位差IPD′(k),该预测相位差可以采用实施例3中的公式6中计算获得,但该预测相位差IPD′(k)由通道间固定值延时预测获得,当该通道间固定值延时为0时,所述预测相位差IPD′(k)=0。
当设置为所述通道间固定值延时为0时,计算所述第二误差,其中,所述第二误差可以为在某段频带内各频点对应的实际相位差与预测相位差之差的绝对值之和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值,本发明实施例对此不进行限制;所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和,或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值之和作为第二误差,则计算IPD(k)和IPD′(k)在[1,Max]范围内相位差的差的绝对值之和,可采用公式11,公式11为:
(公式11)
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的绝对值的平均值作为第二误差,计算IPD(k)和IPD′(k)在[1,Max]范围内相位差之差的绝对值的平均值,可以采用公式12,公式12为:
(公式12)
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方和作为第二误差,则计算IPD(k)和IPD′(k)在[1,Max]范围内相位差的差的平方和,可采用公式13,公式13为:
(公式13)
例如,将在某段频带内各频点对应的实际相位差与所述预测相位差之差的平方的平均值作为第二误差,则计算IPD(k)和IPD′(k)在[1,Max]范围内相位差之差的平方的平均值,可采用公式14,公式14为:
(公式14)
402、判断所述第二误差是否在第二预定范围内;若所述第二误差在所述第二预定范围内,表明检测的声音信号为交叉说话声音信号,则执行步骤403;若所述第一误差不在第一预定范围内,表明检测的声音信号为非交叉说话声音信号;则执行步骤405。
其中,所述第二预定范围为一经验范围,根据交叉说话声音信号的通道间延时设置,当该第二误差在所述第二预定范围内时,表明检测的声音信号为交叉说话声音信号;当第二误差不在所述第二预定范围内时,表明检测的声音信号为非交叉说话声音信号,即为单一发生体对应的声音信号;其可以是用户设置的固定范围,也可以是在一定时间周期内统计的非交叉说话声音信号的通道间延时的范围,本发明实施例对此不进行限制。
403、统计声音信号为交叉说话时的声音信号的次数,并判断所述次数是否大于预设次数门限;若所述次数大于所述预设次数门限,表明当前的说话情景确实是交叉说话,接收到的声音信号确实为交叉说话时的声音信号,则执行步骤404;若所述次数小于或等于所述预设次数门限,表明当前的说话情景并不是交叉说话,接收到的声音信号也并不是交叉说话时的声音信号,则执行步骤405。
其中,所述预设门限次数为一经验值,用户可以根据具体的需求具体设置,本发明实施例对此不进行限制,例如可以将该门限次数设置为3次。
404、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。
其中,所述固定值为一经验值,用户可以根据具体的实施具体设置,本发明实施例对此不进行限制,例如,该固定值可以为“0”。将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,以便保持场强的稳定性。
405、根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时。
其中,根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时,可以参考实施例2中的步骤205中的描述,此处将不再赘述。
本发明实施例中,对声音信号进行是否为交叉说话时的声音信号的检测,当检测到声音信号为交叉说话时的声音信号,则将该声音信号对应的通道间延时设置为固定值;与现有技术中不区分是否为交叉说话时的声音信号,统一采用通道间延时估计的方法相比,本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值,避免了通道间错误的延时估计,造成的声场的不稳定,从而能够在交叉说话时,实现声场的稳定。
并且,本发明实施例设置了声音信号为交叉说话时的声音信号时的次数门限,当达到该次数门限后,才将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,从而避免了由于单次检测失误而将非交叉说话时的声音信号,当作交叉说话时的声音信号处理,从而能够保证准确的检测声音信号是否为交叉说话时的声音信号。
实施例5
本发明实施例提供一种声音信号通道间延时估计的方法,本发明实施例以根据通道间估计延时和通道间固定值延时预测获取预测相位差为例,具体阐述该声音信号通道间延时估计的方法,如图6所示,该方法包括:
501、根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时。
其中,根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时,可以参考实施例2中的步骤205中的描述,此处将不再赘述。
502、计算声音信号通道间的实际相位差,与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差。
其中,所述第一误差为,当所述预测相位差根据所述声音信号通道间估计延时预测时,计算声音信号通道间的实际相位差与预测相位差之间的误差获取,所述计算声音信号通道间的实际相位差,与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差,可以参考实施例3中的步骤302中的描述,此处将不再赘述。
503、计算声音信号通道间的实际相位差,与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差。
其中,所述第二误差为,当所述预测相位差根据所述声音信号通道间间固定值延时预测时,计算声音信号通道间的实际相位差与预测相位差之间的误差获取,所述计算声音信号通道间的实际相位差,与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差,可以参考实施例4中的步骤401中的描述,此处将不再赘述。
504、根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音;若所述声音信号为交叉说话时的声音,则执行步骤505;若所述声音信号为非交叉说话时的声音,则执行步骤507。
其中,根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音包括:判断所述比值是否小于第一门限值;若所述比值小于所述第一门限值,则判定所述声音信号为交叉说话时的声音信号,则执行步骤504;若所述比值大于或等于所述第一门限值,则判定所述声音信号为非交叉说话时的声音信号,则执行步骤507。
505、统计所述声音信号为交叉说话时的声音信号的次数,并判断所述次数是否大于预设次数门限;若所述次数大于所述预设次数门限,表明当前的说话情景确实是交叉说话,接收到的声音信号确实为交叉说话时的声音信号,则执行步骤506;若所述次数小于或等于所述预设次数门限,表明当前的说话情景并不是交叉说话,接收到的声音信号也并不是交叉说话时的声音信号,则执行步骤507。
其中,所述预设门限次数为一经验值,用户可以根据具体的需求具体设置,本发明实施例对此不进行限制,例如可以将该门限次数设置为3次。
506、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。
其中,所述固定值为一经验值,用户可以根据具体的实施具体设置,本发明实施例对此不进行限制,例如,该固定值可以为“0”。将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,以便保持场强的稳定性。
507、将步骤501中获取的通道间估计延时作为所述声音信号对应的通道间延时。
其中,需要说明的时,在计算第一误差和计算第二误差在具体执行时没有先后之分,本发明实施例为了描述的方便,将计算第一误差放在步骤502中描述,将计算第二误差放在503中描述;在具体执行本发明实施例时,也可以将计算第二误差的步骤放在步骤502中描述,将计算第一误差的步骤放在步骤503中描述,本发明实施例对此不进行限制。
本发明实施例中,对声音信号进行是否为交叉说话时的声音信号的检测,当检测到声音信号为交叉说话时的声音信号,则将该声音信号对应的通道间延时设置为固定值;与现有技术中不区分是否为交叉说话时的声音信号,统一采用通道间延时估计的方法相比,本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值,避免了通道间错误的延时估计,造成的声场的不稳定,从而能够在交叉说话时,实现声场的稳定。
并且,本发明实施例设置了声音信号为交叉说话时的声音信号时的次数门限,当达到该次数门限后,才将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,从而避免了由于单次检测失误而将非交叉说话时的声音信号,当作交叉说话时的声音信号处理,从而能够保证准确的检测声音信号是否为交叉说话时的声音信号。
实施例6
本发明的实施例提供一种声音信号通道间延时估计的方法,本发明实施例根据所述第二误差和第一误差的比值以及第一误差判断所述声音信号是否为交叉说话时的声音信号为了具体阐述声音信号通道间延时估计的方法;如图7所示,该方法包括:
601、根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时。
其中,根据现有技术中的声音信号通道间时延估计方法,获取声音信号对应的通道间估计延时,可以参考实施例2中的步骤205中的描述,此处将不再赘述。
602、计算声音信号通道间的实际相位差,与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差。
其中,所述第一误差为,当所述预测相位差根据所述声音信号通道间估计延时预测时,计算声音信号通道间的实际相位差与预测相位差之间的误差获取,所述计算声音信号通道间的实际相位差,与根据所述通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差,可以参考实施例3中的步骤302中的描述,此处将不再赘述。
603、计算声音信号通道间的实际相位差,与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差。
其中,所述第二误差为,当所述预测相位差根据所述声音信号通道间间固定值延时预测时,计算声音信号通道间的实际相位差与预测相位差之间的误差获取,所述计算声音信号通道间的实际相位差,与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差,可以参考实施例4中的步骤401中的描述,此处将不再赘述。
604、判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号;若所述声音信号的前一帧声音信号不是交叉说话时的声音信号,则执行步骤605;若所述声音信号的前一帧声音信号是交叉说话时的声音信号,则执行步骤608。
605、判断所述第二误差和第一误差的比值是否小于第一门限值,并且所述第一误差是否大于第二门限值;若所述比值小于第一门限值,并且所述第一误差大于第二门限值,表明所述声音信号为交叉说话时的声音信号,则执行步骤606;否则,执行步骤609。
606、统计所述声音信号为交叉说话时的声音信号的次数,并判断所述次数是否大于预设次数门限;若所述次数大于所述预设次数门限,表明当前的说话情景确实是交叉说话,接收到的声音信号确实为交叉说话时的声音信号,则执行步骤607;若所述次数小于或等于所述预设次数门限,表明当前的说话情景并不是交叉说话,接收到的声音信号也并不是交叉说话时的声音信号,则执行步骤609。
其中,所述预设门限次数为一经验值,用户可以根据具体的需求具体设置,本发明实施例对此不进行限制,例如可以将该门限次数设置为3次。
607、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,结束本次通道间延时估计。
其中,所述固定值为一经验值,用户可以根据具体的实施具体设置,本发明实施例对此不进行限制,例如,该固定值可以为“0”。将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,以便保持场强的稳定性。
608、判断所述第二误差和第一误差的比值是否小于第一门限值,并且所述第一误差是否大于第三门限值;若所述比值小于第一门限值,并且所述第一误差大于第三门限值,则执行步骤606;否则执行步骤609。
609、将步骤601中获取的通道间估计延时作为所述声音信号对应的通道间延时,结束本次通道间延时估计。
其中,需要说明的时,在计算第一误差和计算第二误差在具体执行时没有先后之分,本发明实施例为了描述的方便,将计算第一误差放在步骤602中描述,将计算第二误差放在603中描述;在具体执行本发明实施例时,也可以将计算第二误差的步骤放在步骤602中描述,将计算第一误差的步骤放在步骤603中描述,本发明实施例对此不进行限制。
本发明实施例中,对声音信号进行是否为交叉说话时的声音信号的检测,当检测到声音信号为交叉说话时的声音信号,则将该声音信号对应的通道间延时设置为固定值;与现有技术中不区分是否为交叉说话时的声音信号,统一采用通道间延时估计的方法相比,本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值,避免了通道间错误的延时估计,造成的声场的不稳定,从而能够在交叉说话时,实现声场的稳定。
并且,本发明实施例设置了声音信号为交叉说话时的声音信号时的次数门限,当达到该次数门限后,才将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,从而避免了由于单次检测失误而将非交叉说话时的声音信号,当作交叉说话时的声音信号处理,从而能够保证准确的检测声音信号是否为交叉说话时的声音信号。
进一步,在对当前声音信号进行检测之前,先判断该当前声音信号的前一帧声音信号是否为交叉说话时的声音信号,并根据判断的结果设置不同的检测所述当前声音信号是否为交叉说话时的声音信号第二门限值和第三门限值,更进一步的保证检测当前声音信号是否为交叉说话时的声音信号准确性,从而进一步的增强了声场的稳定性。
实施例7
本发明实施例提供一种声音信号通道间延时估计的装置,如图8所示,该装置包括:计算单元71、第一判断单元72和处理单元73。
计算单元71,用于计算声音信号通道间的实际相位差与预测相位差之间的误差,所述预测相位差根据所述声音信号通道间预定延时预测。其中,所述通道间预定延时包括通道间估计延时或通道间固定值延时,所述通道间估计延时为利用通道间的相关性估计的延时。
第一判断单元72,用于根据所述计算单元71计算得到的所述误差判断所述声音信号是否为交叉说话时的声音信号。
处理单元73,用于在所述第一判断单元72判定所述声音信号为交叉说话时的声音信号时,将所述声音信号对应的通道间延时设置为固定值。其中,所述固定值为一经验值,用户可以根据具体的实施具体设置,本发明实施例对此不进行限制,例如,该固定值可以为“0”。将所述声音信号对应的通道间延时设置为固定值,以便保持场强的稳定性
进一步,如图9所示,该装置还包括:统计单元74和第二判断单元75。
统计单元74,用于在所述第一判断单元72判定声音信号为交叉说话时的声音信号之后,统计声音信号为交叉说话时的声音信号的次数。
第二判断单元75,用于判断所述统计单元74统计的所述次数是否大于预设次数门限;在所述次数大于预设次数门限时,所述处理单元73还用于将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。
进一步的,当所述通道间预定延时为通道间估计延时时,如图10所示,所述计算单元71包括:第一计算模块711;所述第一判断单元72包括:第一判断模块721。
第一计算模块711,用于计算声音信号通道间的实际相位差,与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差;
第一判断模块721,用于判断所述第一计算模块711计算得到的所述第一误差是否在第一预定范围内;当所述第一误差不在第一预定范围内时,判定所述声音信号为交叉说话时的声音信号。
进一步,当所述通道间预定延时为通道间固定值延时时,如图11所示,所述计算单元71包括:第二计算模块712;所述第一判断单元72包括:第二判断模块722。
第二计算模块712,用于计算声音信号通道间的实际相位差,与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差;
第二判断模块722,用于判断所述第二计算模块712计算得到的所述第二误差是否在第二预定范围内;当所述第二误差在第二预定范围内时,判定所述声音信号为交叉说话时的声音信号。
进一步,当所述通道间预定延时为通道间估计延时和通道间固定值延时时,如图12所示,所述计算单元71包括:第三计算模块713和第四计算模块714;所述第一判断单元72包括:第三判断模块723。
第三计算模块713,用于计算声音信号通道间的实际相位差,与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差;
第四计算模块714,用于计算声音信号通道间的实际相位差,与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差;
第三判断模块723,用于根据所述第四计算模块714计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值,判断所述声音信号为交叉说话时的声音信号。其中,第三判断模块723根据所述第四计算模块714计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值,判断所述声音信号为交叉说话时的声音信号,可以包括:判断所述比值是否小于第一门限值;当所述比值小于所述第一门限值时,判定所述声音信号为交叉说话时的声音信号。
更进一步,当所述通道间预定延时为通道间估计延时和通道间固定值延时时,如图13所示,所述第一判断单元72还包括:第四判断模块724。
第四判断模块724,用于根据所述第四计算模块计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值以及所述第一误差,判断所述声音信号是否为交叉说话时的声音信号。其中,第四判断模块724根据所述第四计算模块计算得到的所述第二误差和所述第三计算模块713计算得到的所述第一误差的比值以及所述第一误差,判断所述声音信号是否为交叉说话时的声音信号,可以包括:判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号;当所述声音信号的前一帧声音信号不是交叉说话时的声音信号时,判断所述第二误差和第一误差的比值是否小于第一门限值,并且所述第一误差是否大于第二门限值;在所述比值小于第一门限值,并且所述第一误差大于第二门限值时,判定所述声音信号为交叉说话时的声音信号;
当所述声音信号的前一帧声音信号是交叉说话时的声音信号时,所述第四判断模块724还用于判断所述第二误差和第一误差的比值是否小于第一门限值,并且所述第一误差是否大于第三门限值;当所述比值小于第一门限值,并且所述第一误差大于第三门限值时,判定所述声音信号为交叉说话时的声音信号。
进一步,需要说明的是,该装置对应模块的相应描述,可以参考其他实施例中的描述,本发明实施例将不再赘述。
本发明实施例中,对声音信号进行是否为交叉说话时的声音信号的检测,当检测到声音信号为交叉说话时的声音信号,则将该声音信号对应的通道间延时设置为固定值;与现有技术中不区分是否为交叉说话时的声音信号,统一采用通道间延时估计的方法相比,本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值,避免了通道间错误的延时估计,造成的声场的不稳定,从而能够在交叉说话时,实现声场的稳定。
并且,本发明实施例设置了声音信号为交叉说话时的声音信号时的次数门限,当达到该次数门限后,才将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值,从而避免了由于单次检测失误而将非交叉说话时的声音信号,当作交叉说话时的声音信号处理,从而能够保证准确的检测声音信号是否为交叉说话时的声音信号。
进一步,在对当前声音信号进行检测之前,先判断该当前声音信号的前一帧声音信号是否为交叉说话时的声音信号,并根据判断的结果设置不同的检测所述当前声音信号是否为交叉说话时的声音信号第二门限值和第三门限值,更进一步的保证检测当前声音信号是否为交叉说话时的声音信号准确性,从而进一步的增强了声场的稳定性。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。