CN105869627A - 基于车联网的语音处理方法 - Google Patents

基于车联网的语音处理方法 Download PDF

Info

Publication number
CN105869627A
CN105869627A CN201610281160.7A CN201610281160A CN105869627A CN 105869627 A CN105869627 A CN 105869627A CN 201610281160 A CN201610281160 A CN 201610281160A CN 105869627 A CN105869627 A CN 105869627A
Authority
CN
China
Prior art keywords
voice
vehicle
signal
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610281160.7A
Other languages
English (en)
Inventor
谢欣霖
陈波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tio Technology Co Ltd
Chengdu Zhida Technology Co Ltd
Original Assignee
Chengdu Tio Technology Co Ltd
Chengdu Zhida Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Tio Technology Co Ltd, Chengdu Zhida Technology Co Ltd filed Critical Chengdu Tio Technology Co Ltd
Priority to CN201610281160.7A priority Critical patent/CN105869627A/zh
Publication of CN105869627A publication Critical patent/CN105869627A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于车联网的语音处理方法,该方法包括:在车载语音识别系统的前端处理过程中,通过成分分析对带噪语音信号进行频域分离,获得纯净语音信号;对所获得的纯净语音信号进行端点检测;提取所获语音段的特征参数,并导入车载语音识别系统中进行识别。本发明提出了一种基于车联网的语音处理方法,减弱了背景噪声对车载语音识别系统的干扰,有效地改善了在噪声环境下车载语音识别系统的性能。

Description

基于车联网的语音处理方法
技术领域
本发明涉及语音信号处理,特别涉及一种基于车联网的语音处理方法。
背景技术
语音识别是通过利用识别算法让机器能够准确地识别出人类所发出的语音命令并执行相应的操作。目前,随着语音信号处理技术的发展,一些较成熟的语音识别系统相继诞生。然而在车载现场环境下使用时,其识别性能会急剧下降。假设一个孤立词识别系统是由纯净语音训练得到的,那么它在相对安静环境下进行语音识别,其识别率可达到100%,但是如果在以90Km/h行驶的汽车内,其识别率下降到了30%。从上述对比数据中可以发现,在行驶中的车辆等噪声环境下语音识别系统性能无法满足人们的需求。在真实环境中,语音信号不可避免地受到各种外部噪声的干扰,而这些噪声的存在会使得带噪语音与原先由纯净语音训练出的模型之间失配,从而影响车载语音识别系统性能。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于车联网的语音处理方法,包括:
在车载语音识别系统的前端处理过程中,通过成分分析对带噪语音信号进行频域分离,获得纯净语音信号;对所获得的纯净语音信号进行端点检测;提取所获语音段的特征参数,并导入车载语音识别系统中进行识别。
所述车载语音识别系统包括卷积混合单元、分离单元、端点检测单元和语音识别单元,所述卷积混合单元进行语音信号与噪声的仿真卷积混合,以获得带噪语音信号;所述分离单元:对带噪语音信号进行频域分离,以获得纯净的语音信号;所述端点检测单元采用语音端点检测算法,选择待检测的语音信号、调整端点检测参数、并在检测后将检测到的有效语音段保存为语音文件;所述语音识别单元进行语音识别、显示识别结果和计算识别率,选择多个语音文件导入车载语音识别系统中识别;
其中,在所述语音端点检测过程中,利用以下基于动态峰度和能量双阈值的端点检测算法:
首先计算出语音信号的滑动窗峰度值,记为Kt(n),并同时记录下中间值s2(n),其中n是语音信号的长度;
利用公式th=max(Kt)/10来计算整个语音信号的峰度阈值;
将n记为起点start,在n不断递增的过程中,开始向后检索,
若n为空白段,则判断空白段样本点数nc与空白段所允许的最大样本点常数maxnc,以及语音段样本点数sc与语音段所允许的最小样本点常数minsc;
仅当满足nc>maxnc并且sc>minsc时,输入语音段[start,start+sc+nc-1]。。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于车联网的语音处理方法,减弱了背景噪声对车载语音识别系统的干扰,有效地改善了在噪声环境下车载语音识别系统的性能。
附图说明
图1是根据本发明实施例的基于车联网的语音处理方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于车联网的语音处理方法。图1是根据本发明实施例的基于车联网的语音处理方法流程图。
本发明首先在车载语音识别系统的前端处理过程中增加了成分分析,对带噪语音信号进行频域分离从而获得纯净的语音信号;对所获得的纯净语音信号进行端点检测;最后提取所获语音段的特征参数,并导入车载语音识别系统中进行识别。
车载语音识别系统包括四个单元。卷积混合单元,进行语音信号与噪声的仿真卷积混合,以获得带噪语音信号;分离单元:对带噪语音信号进行频域分离,以获得纯净的语音信号;端点检测单元,采用语音端点检测算法,并选择待检测的语音信号、调整端点检测参数、并在检测后将检测到的有效语音段保存为语音文件。语音识别单元,用于语音识别、显示识别结果和计算识别率,可以选择多个语音文件导入车载语音识别系统中识别。
本发明利用基于动态峰度和能量双阈值的端点检测算法。首先计算出语音信号的滑动窗峰度值,记为Kt(n),并同时记录下中间值s2(n),其中n是语音信号的长度。利用公式th=max(Kt)/10来计算整个语音信号的峰度阈值。
将n记为起点start,在n不断递增的过程中,开始向后检索,若n为空白段,则判断空白段样本点数nc与空白段所允许的最大样本点常数maxnc,以及语音段样本点数sc与语音段所允许的最小样本点常数minsc;仅当满足nc>maxnc并且sc>minsc,输入语音段[start,start+sc+nc-1]。
考虑到混合系统对源信号产生的延迟和卷积效应,本发明采用以下方法提取相对纯净的语音特征参数。首先利用短时FFT将带噪语音信号xi,(i=1,2)从时域变换到频域,生成L×M点采样信号矩阵,其中L表示FFT变换后频域下的频点个数,M表示对信号加窗分帧后的帧数;然后实现混合信号的频域分离,对提取出的频域分量进行FFT逆变换得到时域独立成分;最后对获得的MFL域特征和其对应的一阶差分系数进行线性组合,并将组合后的特征用于后续识别过程中。在特征提取前端,独立成分分析可以有效地减少噪声对源语音信号的干扰,使得在卷积噪声环境下所提取的语音特征参数也能较好地反映语音信号的本质特征。
本发明对语音信号进行FFT变换时是逐段进行的。对语音信号加窗,并让该窗在时间轴上平移。卷积混合过程可以描述为:
x i ( t ) = Σ j = 1 N Σ k = 0 P - 1 a i j ( k ) s j ( t - k ) i , j = 1 , 2
其中P为卷积混合滤波器阶数,aij为第j个声源到第i个传感器的冲激响应,N为声源数量。对上式进行短时FFT变换,所得信号可以表示为:
X i ( f , τ ) = Σ t = 0 L - 1 x i ( t ) w i n ( t - τ ) exp ( - j 2 π f t / f s ) i = 1 , 2 ; τ = τ 0 , ... τ M - 1
其中,win表示在预处理过程中所加的窗口函数,τ为窗口函数的位置;fs为采样频率,f为离散频点,其取值为f=fsl/L;l=0,1,…L-1。
对输入的语音进行短时FFT变换之后,将时域采样信号xi(t)变换到时频域,得到一个L*M点的采样信号矩阵:
X i ( f ) = X i ( f 0 , τ ) X i ( f 0 , τ 1 ) ... X i ( f 0 , τ M - 1 ) X i ( f 1 , τ ) X i ( f 0 , τ 1 ) ... X i ( f 0 , τ M - 1 ) ... ... ... ... X i ( f L - 1 , τ ) X i ( f L - 1 , τ 1 ) ... X i ( f 0 , τ M - 1 ) i = 1 , 2
将同频点fk(k∈[0,L-1])的Xi(fk)作为该频点进行独立成分提取的新采样数据,对新采样数据进行频域分离矩阵W(fk)的估计,进而实现对信号频域分量Yi(fk)的提取。
其中独立成分分析算法对各频点进行频域分离,得到了短时频域分量Yi(f,τ),再消除幅值和排序模糊性之后得到Ui(f,τ),它们是对纯净频域源信号Si(f,τ)的逼近。
接下来就是将信号从频域转换到时域,则对Ui(f,τ)进行短时FFT逆变换,即按列对Ui(f,τ)时频矩阵求逆离散FFT运算,得到在不同时窗位置(τm,m=0,1,...M-1)上的时间信号ui(f,τm):
u i ( f , τ m ) = 1 L Σ l = 0 L - 1 U i ( f l , τ m ) exp ( 2 π L l × t ) t = 0 , ... L - 1 ; i = 1 , 2
然后按τm从小到大的顺序对ui(f,τm)进行拼接,得到源的完整时间信号,即:
ui(t)=ui(t,τ0)+ui(t-τ11)+…+ui(t-τM-1M-1)
如果进行拼接处理时,相邻窗口内的时间信号出现部分重叠,则对重叠区域的数据采用相加求平均的处理方法。
为了提取语音MEL参数,首先对经过频域去卷积的处理的语音信号进行预加重处理,再使其通过MEL滤波器组,对每组输出结果做对数运算后再进行DCT变换,最后输出即为语音信号的MFL域特征。
此外,为了获得语音信号的动态信息,算法对提取出的MEL参数进行了差分运算,计算过程如下:
d ( i , t ) = α × Σ k = 0 K k × [ C m ( i , t - k ) - C m ( i , t + k ) ] i ∈ [ 1 , R - 1 ]
其中R是MEL系数的阶数,d反映信号的动态特征,α表示加权因子,K为进行一阶差分求取的帧的长度,Cm表示信号倒谱。经过上式计算可以获得与MFL域特征参数阶数R相同的差分MEL参数。最后将所得MEL参数和差分MEL参数进行组合得到2*R维的新组合特征作为语音信号特征矢量。
其中,频域去卷积处理是用于实现卷积混合信号的分离,具体包括,首先利用短时FFT将时域下的卷积混合变换成频域下的瞬时混合,然后采用独立成分分析对其中每个频点进行频域分离。最后为了获得时域下对应的语音信号,还通过短时FFT逆变换将频域信号变换成时域信号。
首先对采样信号进行FFT变换,可得:
X(f)=A(f)S(f)
其中,X(f)和S(f)分别表示采样信号和源信号经FFT变换后得到的频域信号,A(f)是各混合滤波器频率响应构成的矩阵,经过FFT之后,语音信号从时域下的卷积混合变成了频域下的瞬时混合。对每个频点fk(k=0,1,...,i-1)利用瞬时独立成分分析算法进行频域分离,如下所示
X(fk)=A(fk)S(fk),k=0,1,…,L-1k为频点序号
经过FFT变换后,采样信号从时域变到频域,同时也使得待处理数据的数值从实数域变到了复数域,对于复数域的独立成分分析,本发明引入了多变量数据的四维累加量矩阵,并对其做特征分解,从而实现对信号的分离。
令;x=[x1,x2…xN]为一组采样信号,对其进行白化处理,即找到一个使得的自相关矩阵为单位矩阵I的线性变换矩阵B。其中,
z=Bx=BAs=Vs
令M是N×N维的矩阵,则z的四阶累加矩阵为QZ(M),其第ij个元素定义如下:
[ Q z ( M ) ] i j = Σ k = 2 N Σ l = 1 N C u ( z i , z j , z k , z l ) m k l ; i , j = 1 , 2 , ... N
式中,Cu为四阶累加量矩阵中第(k,l)个位置的累加量子矩阵的第i行第j列的元素。mkl为矩阵M中(k,l)个元素。
令V=[V1,V2…VN],取矩阵M=[M1,M2…MP],对每个Mi求取QZ(Mi),计算使得QZ(Mi)非对角元素平方和即VH QZ(Mi)V出现极小值的矩阵V,最后提取独立成分u=W’x=VHBx
对于幅值模糊性的出现,本发明通过幅值补偿来消除这种幅值模糊性问题,补偿算法如下:
设W(fk)是对频点fk对应的频域采样信号进行独立成分提取过程中计算得到的分离矩阵,则所提取的各通道独立成分构成向量:Y(fk,τ),其中τ表示滑动窗的位置,则该频点上的混合矩阵A(fk)可计算为
A(fk)=W-1(fk)
利用混合矩阵A(fk)对对应频点独立成分进行补偿,计算如下:
V 1 j ( f k , τ ) . . . V N j ( f k , τ ) = A 1 j ( f k , τ ) Y j ( f k , τ ) . . . A N j ( f k , τ ) Y j ( f k , τ )
其中Yj(fk,τ)表示幅值补偿前所提取的第j通道频域分量,Vij(fk,τ)表示经过幅值补偿后第i个频域采样信号中实际上属于第j通道频域分量的部分。经过幅值补偿后,fk频点对应的独立成分会产生N个补偿分量,经过一系列的后续处理,最终可以得到N个对应于同一个信号源的纯净语音信号。最后从N个信号求取平均作为最终输出信号。
在对各频点进行频域分离后得到的对应频点的分离结果是随机分配的,所以在分离之后对各频点的分离结果进行重新组合时可能会出现不同频点分离信号对应不同的源信号。本发明采用一种基于相邻频点相关性检测的方法来消除排序模糊性的问题。假设经独立成分提取后得到的信号分量为Y(fk)=[Y1(fk,τ),Y2(fk,τ)]T
则根据幅值补偿公式可得
V 11 ( f k , τ ) V 21 ( f k , τ ) = A 11 ( f k ) Y 1 ( f k , τ ) A 21 ( f k ) Y 1 ( f k , τ ) .
V 12 ( f k , τ ) V 22 ( f k , τ ) = A 12 ( f k ) Y 2 ( f k , τ ) A 22 ( f k ) Y 2 ( f k , τ ) .
假设Ri(fk,τ)为独立成分Yi(fk,τ)的包络:
R i ( f k , τ ) = 1 2 d + 1 Σ t = τ - d τ + d Σ j = 1 2 V j i ( f k , t ) i = 1 , 2
式中d表示平均宽度。根据上式可得包络函数R(fk,τ)=[R1(fk,τ),R2(fk,τ)]。通过对相邻频点的包络函数R(fk,τ)和R(fk+1,τ)进行匹配,并根据匹配结果对频域分量进行排序。
排序算法如下:
首先根据选定的匹配方法计算包络参数。定义相邻频点fk和fk+1之间的包络参数pij定义如下:
p i j = Σ τ = 0 M - 1 R i ( f k , τ ) R j ( f k + 1 , τ ) i , j = 1 , 2
式中M表示在对信号进行加窗FFT变换后的语音帧数。
根据所定义的包络参数构造调整矩阵P。对于相邻频点fk和fk+1的包络系数m构成一个如下调整矩阵
P = p 11 p 12 p 21 p 22
根据调整矩阵判断是否要进行重新排序。若p11+p22>p12+p21,则表示相邻频点中,同源独立成分位置一致,则无需调整。若p11+p22小于p12+p21,则表示相邻频点中,同源独立成分的位置不一致,需要重新进行排序。若经过幅值补偿后的输出成分为
V(fk)=[V1(fk,τ),V2(fk,τ)]T
V(fk+1)=[V1(fk+1,τ),V2(fk+1,τ)]T
则利用P对后一个频点fk+1的V(fk+1)进行左乘,即
P×V(fk+1)→V(fk+1)
综上所述,本发明提出了一种基于车联网的语音处理方法,减弱了背景噪声对车载语音识别系统的干扰,有效地改善了在噪声环境下车载语音识别系统的性能。
显然,本领域的技术人员应该理解,上述的本发明的各单元或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (2)

1.一种基于车联网的语音处理方法,其特征在于,包括:
在车载语音识别系统的前端处理过程中,通过成分分析对带噪语音信号进行频域分离,获得纯净语音信号;对所获得的纯净语音信号进行端点检测;提取所获语音段的特征参数,并导入车载语音识别系统中进行识别。
2.根据权利要求1所述的方法,其特征在于,所述车载语音识别系统包括卷积混合单元、分离单元、端点检测单元和语音识别单元,所述卷积混合单元进行语音信号与噪声的仿真卷积混合,以获得带噪语音信号;所述分离单元:对带噪语音信号进行频域分离,以获得纯净的语音信号;所述端点检测单元采用语音端点检测算法,选择待检测的语音信号、调整端点检测参数、并在检测后将检测到的有效语音段保存为语音文件;所述语音识别单元进行语音识别、显示识别结果和计算识别率,选择多个语音文件导入车载语音识别系统中识别;
其中,在所述语音端点检测过程中,利用以下基于动态峰度和能量双阈值的端点检测算法:
首先计算出语音信号的滑动窗峰度值,记为Kt(n),并同时记录下中间值s2(n),其中n是语音信号的长度;
利用公式th=max(Kt)/10来计算整个语音信号的峰度阈值;
将n记为起点start,在n不断递增的过程中,开始向后检索,
若n为空白段,则判断空白段样本点数nc与空白段所允许的最大样本点常数maxnc,以及语音段样本点数sc与语音段所允许的最小样本点常数minsc;
仅当满足nc>maxnc并且sc>minsc时,输入语音段[start,start+sc+nc-1]。
CN201610281160.7A 2016-04-28 2016-04-28 基于车联网的语音处理方法 Pending CN105869627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610281160.7A CN105869627A (zh) 2016-04-28 2016-04-28 基于车联网的语音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610281160.7A CN105869627A (zh) 2016-04-28 2016-04-28 基于车联网的语音处理方法

Publications (1)

Publication Number Publication Date
CN105869627A true CN105869627A (zh) 2016-08-17

Family

ID=56629953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610281160.7A Pending CN105869627A (zh) 2016-04-28 2016-04-28 基于车联网的语音处理方法

Country Status (1)

Country Link
CN (1) CN105869627A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055371A (ja) * 2016-09-28 2018-04-05 アイシン精機株式会社 走行環境予測装置
CN108053841A (zh) * 2017-10-23 2018-05-18 平安科技(深圳)有限公司 利用语音进行疾病预测的方法及应用服务器
CN113689887A (zh) * 2020-05-18 2021-11-23 辉达公司 使用一个或更多个神经网络的语音检测结束

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090086998A1 (en) * 2007-10-01 2009-04-02 Samsung Electronics Co., Ltd. Method and apparatus for identifying sound sources from mixed sound signal
CN101667425A (zh) * 2009-09-22 2010-03-10 山东大学 一种对卷积混叠语音信号进行盲源分离的方法
CN102890936A (zh) * 2011-07-19 2013-01-23 联想(北京)有限公司 一种音频处理方法、终端设备及系统
CN103854660A (zh) * 2014-02-24 2014-06-11 中国电子科技集团公司第二十八研究所 一种基于独立成分分析的四麦克语音增强方法
CN104810018A (zh) * 2015-04-30 2015-07-29 安徽大学 基于动态累积量估计的语音信号端点检测方法
CN105182763A (zh) * 2015-08-11 2015-12-23 中山大学 一种基于语音识别的智能遥控器及实现方法
CN105225663A (zh) * 2015-08-26 2016-01-06 成都视达科信息技术有限公司 一种利用声控进行多屏互动设备定位连接的方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090086998A1 (en) * 2007-10-01 2009-04-02 Samsung Electronics Co., Ltd. Method and apparatus for identifying sound sources from mixed sound signal
CN101667425A (zh) * 2009-09-22 2010-03-10 山东大学 一种对卷积混叠语音信号进行盲源分离的方法
CN102890936A (zh) * 2011-07-19 2013-01-23 联想(北京)有限公司 一种音频处理方法、终端设备及系统
CN103854660A (zh) * 2014-02-24 2014-06-11 中国电子科技集团公司第二十八研究所 一种基于独立成分分析的四麦克语音增强方法
CN104810018A (zh) * 2015-04-30 2015-07-29 安徽大学 基于动态累积量估计的语音信号端点检测方法
CN105182763A (zh) * 2015-08-11 2015-12-23 中山大学 一种基于语音识别的智能遥控器及实现方法
CN105225663A (zh) * 2015-08-26 2016-01-06 成都视达科信息技术有限公司 一种利用声控进行多屏互动设备定位连接的方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055371A (ja) * 2016-09-28 2018-04-05 アイシン精機株式会社 走行環境予測装置
CN108053841A (zh) * 2017-10-23 2018-05-18 平安科技(深圳)有限公司 利用语音进行疾病预测的方法及应用服务器
CN113689887A (zh) * 2020-05-18 2021-11-23 辉达公司 使用一个或更多个神经网络的语音检测结束

Similar Documents

Publication Publication Date Title
EP3309782B1 (en) Method, device and system for noise suppression
JP4496379B2 (ja) 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
CN111899756B (zh) 一种单通道语音分离方法和装置
CN112331218B (zh) 一种针对多说话人的单通道语音分离方法和装置
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN106340292A (zh) 一种基于连续噪声估计的语音增强方法
Vu et al. Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition
JP2007526511A (ja) 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置
CN102915742A (zh) 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN112329914B (zh) 地埋式变电站的故障诊断方法、装置及电子设备
CN104685562A (zh) 用于从嘈杂输入信号中重构目标信号的方法和设备
CN106023984A (zh) 基于车联网的语音识别方法
Liu et al. Deep CASA for talker-independent monaural speech separation
CN112735477B (zh) 语音情感分析方法和装置
Lee et al. Single-channel speech enhancement method using reconstructive NMF with spectrotemporal speech presence probabilities
CN106847301A (zh) 一种基于压缩感知和空间方位信息的双耳语音分离方法
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
CN105869627A (zh) 基于车联网的语音处理方法
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Messaoud et al. Speech enhancement based on wavelet transform and improved subspace decomposition
Astudillo et al. Uncertainty propagation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160817

WD01 Invention patent application deemed withdrawn after publication