CN101557443A - 数字电话会议的桥路运算方法 - Google Patents
数字电话会议的桥路运算方法 Download PDFInfo
- Publication number
- CN101557443A CN101557443A CNA2009101038240A CN200910103824A CN101557443A CN 101557443 A CN101557443 A CN 101557443A CN A2009101038240 A CNA2009101038240 A CN A2009101038240A CN 200910103824 A CN200910103824 A CN 200910103824A CN 101557443 A CN101557443 A CN 101557443A
- Authority
- CN
- China
- Prior art keywords
- computing
- bridge circuit
- passage
- sample rate
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种数字电话会议的桥路运算方法,其特征在于:采用时延抖动处理机制对多网段码流整形;采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数并降低运算误判率;采用短时幅度运算及漏斗混音运算,降低运算量。本发明的有益技术效果是:1)适应分组网环境下的大时延抖动,并可提供多网段的码流整形,为终端提供连续、均匀的话音码流,提高解码后话音听觉质量。2)采用VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数,并降低桥路运算误判率。3)采用短时幅度运算及漏斗混音方法,极大地降低运算量,并避免冲击干扰造成的桥路误判,提高桥路混音的质量。
Description
技术领域
本发明涉及一种数字电话技术,尤其涉及一种数字电话会议的桥路运算方法。
背景技术
通常的话音会议运算是采用波形叠加方式实现,该方式在参会通道数较大时,波形失真明显加剧,话音质量甚至达到难以分辩的程度,并且叠加后的信号幅度呈现一种衰弱起伏现象,话音增益不稳定,话音听觉效果不自然。
发明内容
本发明提出了一种数字电话会议的桥路运算方法,该方法采用时延抖动处理机制对多网段码流整形;采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数和运算误判率;采用短时幅度运算及漏斗混音运算,降低运算量。
时延抖动处理机制包括:系统接收端对接收到的信号进行FIFO缓冲后再对信号进行解码,FIFO深度30ms;同时,系统发送端每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量;系统每10ms进行一次桥路运算。
单帧检测与长时窗检测相结合的VAD语音激活检测,包括:从各个通道解码后的语音帧中提取4种语音特征参数,根据4种语音特征参数与对应的背景噪声的运行平均值的差值构造判据,根据判据进行单帧检测,根据单帧检测结果进行长时窗检测,根据长时窗检测结果确定该语音通道状态。
4种语音特征参数与对应的背景噪声的运行平均值的差值构造出的判据如下:
1)if ΔS>a1ΔZCR+b1 then IVD=1;
2)if ΔS>a1ΔZCR+b2 then IVD=1;
3)if ΔEf<a3ΔZCR+b3 then IVD=1;
4)if ΔEf<a4×ΔZCR+b4 then IVD=1;
5)if ΔEf<b5 then IVD=1;
6)if ΔEf<a6×ΔS+b6 then IVD=1;
7)if ΔS>b7 then IVD=1;
8)if ΔEl<a8×ΔZCR+b8 then IVD=1;
9)if ΔEl<a9×ΔZCR+b9 then IVD=1;
10)if ΔEl<b10 then IVD=1;
11)if ΔEl<a11×ΔS+b11 then IVD=1;
12)if ΔEl>a12×ΔEf+b12 then IVD=1;
13)if ΔEl<a13×ΔEf+b13 then IVD=1;
14)if ΔEl<a14×ΔEf+b14 then IVD=1;
IVD=1表示当前语音通道为激活状态;IVD=0表示当前语音通道为非激活状态;
其中, ΔEf=Ej-Ef,AEl=El-El,
ΔZCR=ZCR-ZCR,
LSFi为语音特征参数中的线谱频率;Ef为语音特征参数中的全带能量;El为语音特征参数中的子带能量;ZCR为语音特征参数中的归一过零率;
LSFi,Ef,El,ZCR为:分别与前述4种语音特征参数对应的背景噪声的运行平均值,此运行平均值分别为4种语音特征参数在前32帧的平均值;
前述14个判据中的常量取值见下表:
a1 | 23448 | a8 | 16384 | b1 | 28521 | b8 | -22938 |
a2 | -30504 | a9 | -19065 | b2 | 19446 | b9 | -31576 |
a3 | -32768 | a10 | 0 | b3 | -32802 | b10 | -17367 |
a4 | 26214 | a11 | 22400 | b4 | -19661 | b11 | -27034 |
a5 | 0 | a12 | 30427 | b5 | 30199 | b12 | 29959 |
a6 | 28160 | a13 | -24576 | b6 | -22938 | b13 | -29491 |
a7 | 0 | a14 | 23406 | b7 | -31576 | b14 | -28087 |
判据处理样点长度10ms,采样率8khz;对上述14个判据作出判断的过程即为单帧检测,单帧检测结果作为长时窗检测的输入;
300ms长时窗检测包括:若由前述14个判据作出的判断结果在300ms长时窗内均为IVD=1,则判断当前语音通道为活动通道;若由前述14个判据作出的判断结果在300ms长时窗内均为IVD=0,则判断当前语音通道为非活动通道;若由前述14个判据作出的判断结果在300ms长时窗中,IVD=1和IVD=0同时存在,则判断该语音通道保持为前一状态;语音通道状态为活动通道时,该通道才参与桥路运算,否则该通道不参与桥路运算。
前述的4种语音特征参数:
线谱频率:{LSFi},i=1,…10,由线性预测分析得到的一组线谱频率LSF系数。
全带能量: 其中R(0)为输入语音的第一个自相关系数,N=240为LPC分析窗的长度。
子带能量: 该特征参数是指输入语音在0-1kHz频段的能量,其中h为截止频率1kHz的FIR滤波器的冲击响应,R为13阶托伯里兹自相关系数矩阵。
归一过零率: 其中{x(i)}为输入语音信号,i为序数,M=80为编码的帧长度。
短时幅度运算和采样率匹配算法,包括:进行路桥运算之前,将各通道的采样率统一转换为8khz的采样率,进行短时幅度运算后,再进行桥路运算,待桥路运算结束后,将各通道的采样率还原为各个通道的原采样率;
内插处理首先对原样点进行零值内插,然后采用截止频率为4khz的低通滤波器对插值信号进行滤波处理;
抽取处理采用抽取因子为2的抽取器进行级联处理,若通道原采样率为fS,将频率在fS/4以上的频率分量全部滤除。
漏斗混音运算包括:在10ms单位桥路处理周期内,对各通道进行短时幅度和计算,得出短时幅度和最大通道及短时幅度和第二大通道,将短时幅度和第二大通道的话音信息送给发言者通道,将短时幅度和最大通道话音信息发送给其他所有参会通道。
本发明方法的完整步骤如下:系统对接收到的不同网段信号:1)进行FIFO缓冲,2)解码,3)VAD语音激活检测,4)采样率匹配,5)短时幅度计算,6)桥路运算,7)采样率还原,8)漏斗混音运算,9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量;桥路运算周期10ms。
本发明的有益技术效果是:1)适应分组网环境下的大时延抖动,并可提供多网段的码流整形,为终端提供连续、均匀的话音码流,提高解码后话音听觉质量。2)采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数,并降低桥路运算误判率。3)采用短时幅度运算及漏斗混音方法,极大地降低运算量,并避免冲击干扰造成的桥路误判,提高桥路混音的质量。
附图说明
图1,本发明处理流程示意图;
图2,FIFO处理流程示意图;
图3,抽取率为M=2时信号抽取处理流程图;
图4,抽取率为M=2时信号抽取处理前频谱图;
图5,抽取率为M=2时信号抽取处理后频谱图;
具体实施方式
针对背景技术中现有技术的不足,本发明提出了一种数字电话会议的桥路运算方法,参见附图1,本发明方法的流程可概括如下:系统对接收到的不同网段信号:1)进行FIFO缓冲,2)解码,3)单帧检测与长时窗检测相结合的VAD语音激活检测(即图中的VAD计算),4)采样率匹配,5)短时幅度计算,6)桥路运算,7)采样率还原,8)漏斗混音运算,9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量;桥路运算周期10ms。
桥路运算周期选择10ms的依据:人的语音特性(主要由清音、浊音组成)中,清音为类白噪声信号,浊音由声带振动发生,具有缓变性、周期性,大致可以认为在10-30ms短时间间隔内语音信号的特性基本上是固定不变的;根据以上理论结果,本发明中的桥路运算处理周期确定为10ms(根据语音基音周期范围);
前述方法流程中的步骤1)和9)共同构成时延抖动处理机制,该机制对信号产生整形效果,可有效消除网络时延抖动。其原理如下:
为了有效平滑网络时延抖动形成的数据突发性对会议桥路效果的影响,在接收端(即图1中网络收接口)采用FIFO缓冲方式,FIFO深度可根据实际资源进行设计,经过试验测试,FIFO深度达到30ms即可达到良好的平滑效果,FIFO处理流程参见图2;为了匹配接收端的FIFO平滑效果,在发送端(网络发接口)设计为每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量,实现对各通道的码流整形,经过试验验证,该收发端的匹配设计可以降低收端的FIFO深度,并明显改善网络多级路由带来的时延抖动累积效应,极大提升会议桥路处理质量,使终端话机接收的会场语音更加流畅、清晰;
早期的语音检测算法只抽取语音的单一特征参数,如短时功率,而且判决门限是固定的,很难适应实际应用中背景噪声变化的特点;本发明的单帧检测与长时窗检测相结合的VAD语音激活检测所起的作用是使噪声通道无法进入桥路运算,具体做法是:在各通道解码器进行解码后对各通道进行单帧检测与长时窗检测相结合的VAD语音激活检测,剔除部分静音或低噪声通道,其核心是:
VAD语音激活检测采用单帧检测与长时开窗口判断(即长时窗检测)相结合的方式提高检测的正确度与有效性;单帧检测处理的样点长度为10ms,采样率为8khz,对语音帧中提取以下4种语音特征参数:
(1)线谱频率:{LSFi},i=1,…10,由线性预测分析得到的一组线谱频率LSF系数。
(2)全带能量: 其中R(0)为输入语音的第一个自相关系数,N=240为LPC分析窗的长度。
(3)子带能量: 该特征参数是指输入语音在0-1kHz频段的能量,其中h为截止频率1kHz的FIR滤波器的冲击响应,R为13阶托伯里兹自相关系数矩阵。
(4)归一过零率: 其中{x(i)}为输入语音信号,i为序数,M=80为编码的帧长度。
对每一帧所抽取的4个参数不直接与相应门限进行比较,而是利用它们与背景噪声的运行平均值的差值构造判据;这里背景噪声的运行平均值定义为上述4个特征参数在前32帧的平均值,分别表示为ZSFi,Ef,El,ZCR,4个参数与背景噪声的运行平均值的差值分别为:
由此构建出的判据如下:
1)if ΔS>a1ΔZCR+b1 then IVD=1;
2)if ΔS>a1ΔZCR+b2 then IVD=1;
3)if ΔEf<a3ΔZCR+b3 then IVD=1;
4)if ΔEf<a4×ΔZCR+b4 then IVD=1;
5)if ΔEf<b5 then IVD=1;
6)if ΔEf<a6×ΔS+b6 then IVD=1;
7)if ΔS>b7 then IVD=1;
8)if ΔEl<a8×ΔZCR+b8 then IVD=1;
9)if ΔEl<a9×ΔZCR+b9 then IVD=1;
10)if ΔEl<b10 then IVD=1;
11)if ΔEl<a11×ΔS+b11 then IVD=1;
12)if ΔEl>a12×ΔEf+b12 then IVD=1;
13)if ΔEl<a13×ΔEf+b13 then IVD=1;
14)if ΔEl<a14×ΔEf+b14 then IVD=1;
其中各常量取值为:
a1 | 23448 | a8 | 16384 | b1 | 28521 | b8 | -22938 |
a2 | -30504 | a9 | -19065 | b2 | 19446 | b9 | -31576 |
a3 | -32768 | a10 | 0 | b3 | -32802 | b10 | -17367 |
a4 | 26214 | a11 | 22400 | b4 | -19661 | b11 | -27034 |
a5 | 0 | a12 | 30427 | b5 | 30199 | b12 | 29959 |
a6 | 28160 | a13 | -24576 | b6 | -22938 | b13 | -29491 |
a7 | 0 | a14 | 23406 | b7 | -31576 | b14 | -28087 |
由于单帧检测周期仅为10ms,所以在长时间轴上,其具有快变特性,而根据汉语正常发音速度,一个音节持续时间大致在500ms以上,为了增强桥路运算的准确度,本方法在短时检测的基础上,叠加了一层慢检测窗口,即开窗300ms左右的检测窗,如果窗内单帧检测结果(即14个判据的判断结果)均为激活状态(即IVD=1)则认为该语音通道为活动通道,如果窗内单帧检测结果均为非激活状态(即IVD=0),则认为该语音通道为非活动通道,如果窗内单帧检测结果中IVD=1和IVD=0同时存在,则判断该语音通道保持为前一状态;语音通道状态为活动通道时,该通道才参与桥路运算,否则该通道不参与桥路运算;试验证明,该设计判决准确率高,效果理想。
由于会议桥路的各通道编码算法不同,其采样率可能为8khz、16khz或者为32khz,而高采样率在桥路运算中短时幅度、短时能量要大于低采样率的情况,这样容易造成误判,本发明在进入桥路运算之前先对各通道进行采样率匹配运算,统一转换为8khz的采样率,在桥路运算结束之后再按通道转换为原采样率。
前述的采样率转换处理采用整数倍内插和抽取进行。内插处理首先对原样点进行零值内插,然后对插值信号进行滤波处理。内插滤波器的作用主要是滤除采样率的提高产生的镜像干扰,即在时域上利用信号连续性的特点,在采杆点之间利用冲激响应来补充内插位置上的信号点,可以采用截止频率为4khz的低通滤波器对插值信号进行滤波处理;
在原采样率为fS过采样情况下,本发明中的抽取处理采用抽取因子为2的抽取器进行级联处理,图3、4、5为抽取率为M=2时信号的处理流程和抽取前后频谱图。
为了保证抽取因子为2的采样率变化后不产生混叠失真,必须将频率在fS/4以上的频率分量全部滤除,否则信号将以fS/4为中心折叠进有用频带;本发明采用FIR半带滤波器来实现抽取和滤波动作的同时处理:
在匹配采样率之后,进行短时幅度计算,避免短时能量计算时,由于高幅度毛刺平方后造成短时能量激增而造成误判;
漏斗混音运算分析:
利用人耳对话音波形相位不敏感的特性,在10ms单位桥路处理周期内,对各通道进行短时幅度和计算,得出短时幅度和最大通道和第二大通道,根据人的语音特性,话音信号主要由浊音决定,而浊音具有明显的周期性和大幅度特性,可以认为选出的短时幅度和最大通道为会场发言者话音信息。本发明把短时幅度和第二大通道的话音信息送给发言者通道,给发言者构造会场背景声音状态,而把短时幅度和最大通道话音信息发送给其他所有参会通道,形成会场信息传送,此漏斗混音运算运算量小,效果良好,桥路输出话音清晰。
Claims (9)
1、一种数字电话会议的桥路运算方法,其特征在于:采用时延抖动处理机制对多网段码流整形;采用单帧检测与长时窗检测相结合的VAD语音激活检测和采样率匹配算法,减少进入桥路运算的无效通道数并降低运算误判率;采用短时幅度运算及漏斗混音运算,降低运算量。
2、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于:时延抖动处理机制包括:系统接收端对接收到的信号进行FIFO缓冲后再对信号进行解码,FIFO深度30ms;同时,系统发送端每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量;系统每10ms进行一次桥路运算。
3、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于:单帧检测与长时窗检测相结合的VAD语音激活检测,包括:从各个通道解码后的语音帧中提取4种语音特征参数,根据4种语音特征参数与对应的背景噪声的运行平均值的差值构造判据,根据判据进行单帧检测,根据单帧检测结果进行长时窗检测,根据长时窗检测结果确定该语音通道状态。
4、根据权利要求3所述的数字电话会议的桥路运算方法,其特征在于:4种语音特征参数与对应的背景噪声的运行平均值的差值构造出的判据如下:
1)if ΔS>a1ΔZCR+b1 then IVD=1;
2)if ΔS>a1ΔZCR+b2 then IVD=1;
3)if ΔEf<a3ΔZCR+b3 then IVD=1;
4)if ΔEf<a4×ΔZCR+b4 then IVD=1;
5)if ΔEf<b5 then IVD=1;
6)if ΔEf<a6×ΔS+b6 then IVD=1;
7)if ΔS>b7 then IVD=1;
8)ifΔEl<a8×ΔZCR+b8 then IVD=1;
9)if ΔEl<a9×ΔZCR+b9 then IVD=1;
10)ifΔEl<b10 then IVD=1;
11)if ΔEl<a11×ΔS+b11 then IVD=1;
12)if ΔEl>a12×ΔEf+b12 then IVD=1;
13)if ΔEl<a13×ΔEf+b13 then IVD=1;
14)if ΔEl<a14×ΔEf+b14 then IVD=1;
IVD=1表示当前语音通道为激活状态;IVD=0表示当前语音通道为非激活状态;
其中, ΔEf=Ef-Ef,ΔEl=El-El,ΔZCR=ZCR-ZCR,
LSFi为语音特征参数中的线谱频率;Ef为语音特征参数中的全带能量;Ei为语音特征参数中的子带能量;ZCR为语音特征参数中的归一过零率;
LSFi,Ef,El,ZCR为:分别与前述4种语音特征参数对应的背景噪声的运行平均值,此运行平均值分别为4种语音特征参数在前32帧的平均值;
前述14个判据中的常量取值见下表:
判据处理样点长度10ms,采样率8khz;对上述14个判据作出判断的过程即为单帧检测,单帧检测结果作为长时窗检测的输入;
300ms长时窗检测包括:若由前述14个判据作出的判断结果在300ms长时窗内均为IVD=1,则判断当前语音通道为活动通道;若由前述14个判据作出的判断结果在300ms长时窗内均为IVD=0,则判断当前语音通道为非活动通道;若由前述14个判据作出的判断结果在300ms长时窗中,IVD=1和IVD=0同时存在,则判断该语音通道保持为前一状态;语音通道状态为活动通道时,该通道才参与桥路运算,否则该通道不参与桥路运算。
5、根据权利要求4所述的数字电话会议的桥路运算方法,其特征在于:
线谱频率:{LSFi},i=1,…10,由线性预测分析得到的一组线谱频率LSF系数;
全带能量: 其中R(0)为输入语音的第一个自相关系数,N=240为LPC分析窗的长度;
子带能量: 该特征参数是指输入语音在0-1kHz频段的能量,其中h为截止频率1khz的FIR滤波器的冲击响应,R为13阶托伯里兹自相关系数矩阵;
归一过零率: 其中{x(i)}为输入语音信号,i为序数,M=80为编码的帧长度。
6、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于:短时幅度运算和采样率匹配算法,包括:进行路桥运算之前,将各通道的采样率统一转换为8khz的采样率,进行短时幅度运算后,再进行桥路运算,待桥路运算结束后,将各通道的采样率还原为各个通道的原采样率;
采用整数倍内插和抽取进行采样率转换处理。
7、根据权利要求6所述的数字电话会议的桥路运算方法,其特征在于:采用整数倍内插和抽取进行采样率转换处理,包括:内插处理首先对原样点进行零值内插,然后采用截止频率为4khz的低通滤波器对插值信号进行滤波处理;
抽取处理采用抽取因子为2的抽取器进行级联处理,若通道原采样率为fS,将频率在fS/4以上的频率分量全部滤除。
8、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于:漏斗混音运算包括:在10ms单位桥路处理周期内,对各通道进行短时幅度和计算,得出短时幅度和最大通道及短时幅度和第二大通道,将短时幅度和第二大通道的话音信息送给发言者通道,将短时幅度和最大通道话音信息发送给其他所有参会通道。
9、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于:该方法步骤如下:系统对接收到的不同网段信号:1)进行FIFO缓冲,2)解码,3)单帧检测与长时窗检测相结合的VAD语音激活检测,4)采样率匹配,5)短时幅度计算,6)桥路运算,7)采样率还原,8)漏斗混音运算,9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量;桥路运算周期10ms。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101038240A CN101557443B (zh) | 2009-05-11 | 2009-05-11 | 数字电话会议的桥路运算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101038240A CN101557443B (zh) | 2009-05-11 | 2009-05-11 | 数字电话会议的桥路运算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101557443A true CN101557443A (zh) | 2009-10-14 |
CN101557443B CN101557443B (zh) | 2012-02-22 |
Family
ID=41175382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101038240A Expired - Fee Related CN101557443B (zh) | 2009-05-11 | 2009-05-11 | 数字电话会议的桥路运算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101557443B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103931166A (zh) * | 2011-09-28 | 2014-07-16 | 马维尔国际贸易有限公司 | 使用Turbo型VAD的会议混音 |
CN107800902A (zh) * | 2017-09-15 | 2018-03-13 | 北京容联易通信息技术有限公司 | 多路语音的混音方法及系统 |
CN110798271A (zh) * | 2019-09-13 | 2020-02-14 | 西北工业大学 | 一种无线信道测量中基于神经网络的伪径消除方法 |
CN111341302A (zh) * | 2020-03-02 | 2020-06-26 | 苏宁云计算有限公司 | 一种语音流采样率确定方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6744741B1 (en) * | 1999-12-15 | 2004-06-01 | Cisco Technology, Inc. | System and method for maintaining a plurality of media conferences |
US7280650B2 (en) * | 2002-08-28 | 2007-10-09 | Intel Corporation | Method and apparatus to manage a conference |
-
2009
- 2009-05-11 CN CN2009101038240A patent/CN101557443B/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103931166A (zh) * | 2011-09-28 | 2014-07-16 | 马维尔国际贸易有限公司 | 使用Turbo型VAD的会议混音 |
CN103931166B (zh) * | 2011-09-28 | 2016-11-02 | 马维尔国际贸易有限公司 | 使用Turbo型VAD的会议混音 |
CN107800902A (zh) * | 2017-09-15 | 2018-03-13 | 北京容联易通信息技术有限公司 | 多路语音的混音方法及系统 |
CN110798271A (zh) * | 2019-09-13 | 2020-02-14 | 西北工业大学 | 一种无线信道测量中基于神经网络的伪径消除方法 |
CN111341302A (zh) * | 2020-03-02 | 2020-06-26 | 苏宁云计算有限公司 | 一种语音流采样率确定方法及装置 |
CN111341302B (zh) * | 2020-03-02 | 2023-10-31 | 苏宁云计算有限公司 | 一种语音流采样率确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101557443B (zh) | 2012-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
EP3590113B1 (en) | Method and apparatus for detecting spoofing conditions | |
EP3444819B1 (en) | Voice signal cascade processing method and terminal, and computer readable storage medium | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
CN102388416B (zh) | 信号处理装置及信号处理方法 | |
CN102314884B (zh) | 语音激活检测方法与装置 | |
KR101414233B1 (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
CN105206271A (zh) | 智能设备的语音唤醒方法及实现所述方法的系统 | |
JP5232151B2 (ja) | パケットベースのエコー除去および抑制 | |
EP2306457A1 (en) | Automatic sound recognition based on binary time frequency units | |
CN103151039A (zh) | 一种基于向量机svm的说话者年龄段识别方法 | |
US10460729B1 (en) | Binary target acoustic trigger detecton | |
US20220392475A1 (en) | Deep learning based noise reduction method using both bone-conduction sensor and microphone signals | |
CN106033673B (zh) | 一种近端语音信号检测方法及装置 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN101557443B (zh) | 数字电话会议的桥路运算方法 | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
Hou et al. | Domain adversarial training for speech enhancement | |
US20130231927A1 (en) | Formant Based Speech Reconstruction from Noisy Signals | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
CN108986844B (zh) | 一种基于说话人语音特征的语音端点检测方法 | |
Bhat et al. | Formant frequency-based speech enhancement technique to improve intelligibility for hearing aid users with smartphone as an assistive device | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
Prasad et al. | SPCp1-01: Voice Activity Detection for VoIP-An Information Theoretic Approach | |
US20210287674A1 (en) | Voice recognition for imposter rejection in wearable devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120222 Termination date: 20150511 |
|
EXPY | Termination of patent right or utility model |