CN104882140A - 基于盲信号提取算法的语音识别方法及系统 - Google Patents
基于盲信号提取算法的语音识别方法及系统 Download PDFInfo
- Publication number
- CN104882140A CN104882140A CN201510061057.7A CN201510061057A CN104882140A CN 104882140 A CN104882140 A CN 104882140A CN 201510061057 A CN201510061057 A CN 201510061057A CN 104882140 A CN104882140 A CN 104882140A
- Authority
- CN
- China
- Prior art keywords
- signal
- expected
- source speech
- mrow
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000000605 extraction Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000000926 separation method Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 230000002087 whitening effect Effects 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000005056 compaction Methods 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000003623 enhancer Substances 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 17
- 238000005516 engineering process Methods 0.000 abstract description 11
- 239000000284 extract Substances 0.000 abstract description 7
- 230000035945 sensitivity Effects 0.000 abstract description 6
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明适用于通信技术领域,提供了一种基于盲信号提取(BSE)算法的语音识别方法,包括有:通过盲信号提取算法处理输入的混合源语音信号,以分离出各个期望源语音信号;从所述期望源语音信号中提取出期望信号特征;根据所述期望信号特征进行模式匹配得到对应的语义信息。相应地,本发明还提供一种基于盲信号提取算法的语音识别系统。借此,本发明能够从输入混合源语音信号中准确地提取出期望信号特征,可大大提高模式匹配成功率,从而提升了通信终端语音识别的灵敏度和准确度,增强了用户体验。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种基于盲信号提取算法的语音识别方法及系统。
背景技术
如图1所示,现有技术中语音识别系统的语音识别处理过程的主要包括:
一、预处理:手机等通信终端采集到的语音输入(源信号)后进行预处理,一般包括预滤波、采样和量化、分帧、加窗、预加重和/或端点检测等过程,不同通信终端会根据需要选择其中至少一种预处理方法。
二、特征提取:这一步是关键,目的是提取源信号中反映本质特征的信号特征(即声学参数),提取期望信号特征的好坏将直接影响后续匹配成功的概率。现有技术对预处理信号的处理主要是通过常见的时域和频域分析法,例如振动幅值、相关分析、频谱分析、包络分析、倒频谱分析等。
三、训练:训练阶段将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模式库。
四、模式匹配:根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算步骤二中提取的信号特征与步骤三中形成的模式库之间的相似度,判断出输入语音的语义信息。
以上结合原理图对现有技术进行了介绍,从中可看出智能语音识别实质是一个模式识别问题,其核心是对输入源信号特征的提取。如果提取的信号特征是期望信号特征,在接下来的模式匹配环节,匹配成功的概率就比较大,否则如果提取的信号夹杂着其他干扰信号特征,甚至干扰信号特征淹没期望信号特征,这样就会造成误识别甚至不能识别的情况,大大降低智能语音识别的用户体验。而现有技术的缺陷恰恰就体现在这方面,从图1可看出通信终端采集到的输入混合源信号经过初步处理以后,直接用传统的信号处理方法,如:时域分析技术、Fourier(傅立叶)谱分析技术、包络分析技术、倒频谱技术等进行特征提取。经过简单处理后,直接对输入混合源信号进行分析是现有信号处理 技术的共性,它们在本质上都属于单通道的数据采集和分析技术,其提取的信号特征仍然夹杂着大量无关干扰信号特征,在有些情况下这些干扰信号特征甚至会淹没期望信号特征,大大降低语音识别的灵敏度和准确度。
综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。
发明内容
针对上述的缺陷,本发明的目的在于提供一种基于盲信号提取算法的语音识别方法及系统,其能够从输入混合源语音信号中准确地提取出期望信号特征,可大大提高模式匹配成功率,从而提升了通信终端语音识别的灵敏度和准确度。
为了实现上述目的,本发明提供基于盲信号提取算法的语音识别方法,包括有:
通过盲信号提取算法处理输入的混合源语音信号,以分离出各个期望源语音信号;
从所述期望源语音信号中提取出期望信号特征;
根据所述期望信号特征进行模式匹配得到对应的语义信息。
根据本发明所述的语音识别方法,所述通过盲信号提取算法处理输入的混合源语音信号的步骤之前还包括:
对输入的所述混合源语音信号进行预处理,所述预处理包括对所述混合源语音信号进行去均值处理和白化处理。
根据本发明所述的语音识别方法,所述分离出各个期望源语音信号的步骤之后,以及从所述期望源语音信号中提取出期望信号特征的步骤之前还包括:
计算各所述期望语音信号的振幅均值;
判断所述期望源语音信号的所述振幅均值是否小于预定的振幅阈值;
若所述期望源语音信号的所述振幅均值小于所述振幅阈值,则对所述期望源语音信号进行信号增强处理;
若所述期望源语音信号的所述振幅均值大于或等于所述振幅阈值,则对所述期望源语音信号不进行信号增强处理。
根据本发明所述的语音识别方法,所述通过盲信号提取算法处理输入的混合源语音信号的步骤包括:
在所述盲信号提取算法的紧缩过程中增加一个实时线性变换处理。
根据本发明所述的语音识别方法,所述实时线性变换的计算公式为:
其中,x是观察信号数据分量;y是输出信号的分量;w为分离向量;k=1、2、……k为分离向量W的行数,的最优化估计是通过最小化第二公式中的能量代价函数来实现;
其中,p为观察信号向量x的列数,m观察信号向量x的行数,E{ρ(xj+1)}为能量代价函数,所述能量代价函数取得最小值时,表示从所述混合源语音信号中剔除了已提取的期望源语音信号yj,将所述能量代价函数最小化可导出简化的局部最小均方算法,即:
其中,是指求w的分量时用到的第j个系数,为所辨识的混合矩阵的第j列的估计值,为第j个提取的期望源语音信号,向量wj通过第四公式和第五公式来估计,即:
其中,是在求w的分量时用到的另一个系数;是能量函数的比值;p、q是输出向量y的行数和列数;
该估计过程不断进行下去,直到提取所有期望源语音信号的估计为止,即直到某个xj+1的振幅均值达到预设阈值。
本发明还提供一种基于盲信号提取算法的语音识别系统,包括有:
BSE处理模块,用于通过盲信号提取算法处理输入的混合源语音信号,以分离出各个期望源语音信号;
特征提取模块,用于从所述期望源语音信号中提取出期望信号特征;
模式匹配模块,用于根据所述期望信号特征进行模式匹配得到对应的语义信息。
根据本发明所述的语音识别系统,还包括:
预处理模块,用于在通过盲信号提取算法处理所述混合源语音信号之前,对输入的所述混合源语音信号进行预处理,所述预处理包括对所述混合源语音信号进行去均值处理和白化处理。
根据本发明所述的语音识别系统,还包括信号增强模块,所述信号增强模块进一步包括:
计算子模块,用于在分离出各个所述期望源语音信号之后,计算各所述期望语音信号的振幅均值;
判断子模块,用于判断所述期望源语音信号的所述振幅均值是否小于预定的振幅阈值;
增强子模块,用于若所述期望源语音信号的所述振幅均值小于所述振幅阈值时,对所述期望源语音信号进行信号增强处理,再将增强处理后的所述期望源语音信号发送给所述特征提取模块进行处理;若所述期望源语音信号的所述振幅均值大于或等于所述振幅阈值,则对所述期望源语音信号不进行信号增强处理并直接送给所述特征提取模块进行处理。
根据本发明所述的语音识别系统,所述BSE处理模块还用于在所述盲信号提取算法的紧缩过程中增加一个实时线性变换处理。
根据本发明所述的语音识别系统,所述实时线性变换的计算公式为:
其中,x是观察信号数据分量;y是输出信号的分量;w为分离向量;k=1、2、……k为分离向量W的行数, 的最优化估计是通过最小化第二公式中的能量代价函数来实现;
其中,p为观察信号向量x的列数,m观察信号向量x的行数,E{ρ(xj+1)}为能量代价函数,所述能量代价函数取得最小值时,表示从所述混合源语音信号中剔除了已提取的期望源语音信号yj,将所述能量代价函数最小化可导出简化的局部最小均方算法,即:
其中,是指求w的分量时用到的第j个系数,为所辨识的混合矩阵的第j列的估计值,为第j个提取的期望源语音信号,向量wj通过第四公式和第五公式来估计,即:
其中,是在求w的分量时用到的另一个系数;是能量函数的比值;p、q是输出向量y的行数和列数;
该估计过程不断进行下去,直到提取所有期望源语音信号的估计为止,即直到某个xj+1的振幅均值达到预设阈值。
本发明提供基于盲信号提取算法的智能语音识别技术,在获取输入的混合源语音信号之后,通过多通道的盲信号提取算法处理输入的混合源语音信号,以分离出各个期望源语音信号,所述期望源语音信号没有夹杂任何噪声信号;然后从所述期望源语音信号中提取出期望信号特征,该期望信号特征中不会夹杂其他干扰信号特征,最后根据所述期望信号特征进行模式匹配得到对应的语义信息。借此,本发明能够从输入混合源语音信号中准确地提取出期望信号特征,可大大提高模式匹配成功率,从而提升了通信终端语音识别的灵敏度和准确度,增强了用户体验。
附图说明
图1是现有技术中语音识别系统的原理框图;
图2是本发明基于盲信号提取算法的语音识别系统的结构示意图;
图3是BSS算法的基本原理图;
图4是本发明优选基于盲信号提取算法的语音识别系统的结构示意图;
图5是本发明优选语音识别系统的原理框图;
图6是本发明改进BSE算法的原理图;
图7是本发明基于盲信号提取算法的语音识别方法的流程图;
图8是本发明优选基于盲信号提取算法的语音识别方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图2是本发明基于盲信号提取算法的语音识别系统的结构示意图,所述语音识别系统100可应用于手机、PDA(Personal Digital Assistant,个人数字助理)、平板电脑等通信终端中,并且所述语音识别系统100包括有BSE处理模块10、特征提取模块20和模式匹配模块30,其中:
BSE处理模块10,用于通过BSE(Blind Signal Extraction,盲信号提取)算法处理输入的混合源语音信号,以分离出各个期望源语音信号,所述期望源语音信号没有夹杂任何噪声信号。所述混合源语音信号由通信终端采集获得,所述BSE算法为众多BSS(Blind Source Separation,盲源分离)算法中的一种,其基本原理是每次从混合源语音信号中提取一个特定的源语音信号,不断重复提取,直至提取所有的特征信号。
特征提取模块20,用于从期望源语音信号中提取出期望信号特征,所述该期望信号特征中不会夹杂其他干扰信号特征。特征提取是语音识别的关键环节,目的是提取语音源信号中反映本质特征的信号特征(即声学参数),提取期望信号特征的好坏将直接影响后续匹配成功的概率。
模式匹配模块30,用于根据期望信号特征进行模式匹配得到对应的语义信 息。语音识别中其实还包括训练阶段,训练阶段将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模式库。语音识别系统根据预定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算期望信号特征与模式库之间的相似度,判断出混合源语音信号的语意信息。
图3是BSS算法的基本原理图,BSS(盲源分离)是随地质勘探和数字移动通信等行业的发展而逐渐兴起的一种新的信号处理方法。这种方法很好地解决了类似人们常见的CPP(Cocktail Party Problem,鸡尾酒会问题),CPP是计算机语音识别领域的一个问题,当前语音识别技术已经可以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人以及有嘈杂的环境噪声时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。BSS算法以信号的统计独立性为条件,在未知源信号及传递通道参数的情况下,仅根据测量信号来恢复源信号,实现耦合信号的分离。盲源分离的目标是在未知混合矩阵A和源信号S的情况下,仅由观察矢量X,恢复出信源矢量S的估计Y。现有的比较成熟的BSS算法主要有FastICA(Fast Independent Component Analysis,固定点算法)、变自适应、负熵最大化、互信息最小化、BSE算法等在很多领域得到了应用。目前BSS技术在智能语音识别领域的研究已越来越引起人们的重视。BSS正成为信号处理领域一种极具潜力的分析工具,在多种场合得到了成功的应用。
BSS技术有很多算法,不同算法适合不同的应用场景,而BSE就是其中一种算法,BSE算法适合应用在有大量传感器测得的信号可利用,但仅有少量的源信号是我们感兴趣的目标。显然在噪杂环境中的智能通信终端语音识别系统符合这一应用场景。
本发明提出了将基于改进BSE算法的盲源分离技术用于对输入混合源信号的处理。具体到通信终端语音识别系统这个模型,就是先用多通道的基于改进BSE算法的盲源分离技术处理输入混合源信号,分离出期望语音信号(没有夹杂任何噪声的用户输入语音信号),然后针对分离出的用户语音信号提取信号特征,此时提取的特征只有期望信号特征,不会夹杂其他干扰信号特征,这样可大大提高模式匹配成功的概率,从而提升通信终端语音识别的灵敏度,给用户以良好的体验。
图4是本发明优选基于BSE算法的语音识别系统的结构示意图,所述语音 识别系统100包括有BSE处理模块10、特征提取模块20、模式匹配模块30、预处理模块40和/或信号增强模块50,其中:
预处理模块40,用于在通过BSE算法处理混合源语音信号之前,对输入的混合源语音信号进行预处理,预处理包括对混合源语音信号进行去均值处理和白化处理。
BSE处理模块10,用于通过BSE算法处理输入的混合源语音信号,以分离出各个期望源语音信号。
特征提取模块20,用于从期望源语音信号中提取出期望信号特征。
模式匹配模块30,用于根据期望信号特征进行模式匹配得到对应的语义信息。
优选的是,所述语音识别系统100还可包括信号增强模块50,所述信号增强模块50进一步包括:
计算子模块51,用于在分离出各个期望源语音信号之后,计算各期望语音信号的振幅均值。
判断子模块52,用于判断期望源语音信号的振幅均值是否小于预定的振幅阈值。
增强子模块53,用于若期望源语音信号的振幅均值小于振幅阈值时,对期望源语音信号进行信号增强处理,再将增强处理后的期望源语音信号发送给特征提取模块进行处理;若期望源语音信号的振幅均值大于或等于振幅阈值,则对期望源语音信号不进行信号增强处理并直接送给特征提取模块进行处理。信号增强是为了后续更有效提取期望信号特征。
图5是本发明优选语音识别系统的原理框图,语音识别本质上是对输入源信号进行模式识别的问题,包括获取识别信息、提取输入信号特征、模式匹配及决策等具体实施步骤。其中,获取识别信息是语音识别的前提,提取输入信号特征则是语音识别的关键,它们都为模式匹配这一核心服务。所以要对输入语音信号进行准确识别,首先必须从输入的原始信号中准确提取能够反应输入源信号特征的信息。针对现有信号特征提取方案的不足,提出基于BSE算法的信号处理方法,图5中至少有三点与现有技术不同:
1、对输入的混合源语音信号的预处理环节:图5的预处理环节是对源信号去均值和白化。去均值是将输入的各路源语音信号分别减去混合源语音信号的 均值,用数学公式表示如下
其中当随机变量x为单变量且均值不为0时,此时用代替x即可。对于多变量,设x(t)=(x1(t),x2(t),…,xn(t))T,t=1,2,…,N,为随机矢量x的N个样本,则采用该公式对x的每个分量去除样本的均值;去均值的好处是减小计算量且使采集的数据更符合盲源处理的数学模型。
白化处理的结果是使输入的各路信号变得不相关。这样的预处理环节是必要的,可提升盲源分离的效果。
设Rx为混合信号矢量x的相关矩阵,据相关矩阵的性质知,Rx存在特征值分解Rx=Q∑2QT,其中∑2为对角阵,对角元素为矩阵Rx的特征值,其对应的标准正交特征矢量组成了正交矩阵Q的列向量,于是可取白化矩阵为T=∑-1QT,于是经过白化矩阵处理,即就是对x进行了白化。
2、对预处理后信号用改进的BSE算法处理,得到不夹杂干扰信号的期望源语音信号。
3、对分离出的期望源语音信号进行条件信号增强,即设定一个幅度阈值,通过计算期望源语音信号的平均幅值,当平均幅值大于等于幅度阈值时就不进行信号增强处理,当平均幅值小于幅度阈值时就进行信号增强处理,信号增强是为了后续更有效提取期望信号特征。
通过上述环节处理以后,期望信号特征可很好的提取出来,且不夹杂干扰信号,通过该期望信号特征进行模式匹配成功的概率很高,应用到手机、平板等通信终端,用户感觉智能语音识别系统很灵敏,会给用户以良好的体验。
本发明在语音识别中引入BSE算法对输入的多路混合源信号进行处理,可有效恢复各路信源产生的信号,突出对语音识别有用的特征信号,解决了在强噪声环境下,微弱信号特征难以提取,被噪声淹没的问题。
图6是本发明改进BSE算法的原理图,BSE本质上是对一个或一组具有特殊性质的源信号进行估计,顺序确定一组源信号。提取过程分两步实施:首先,利用一个信号处理单元从混合信号中提取一个具有特殊性质的独立源信号;其次,将已提取的源信号从混合信号中剔除,以便下次更有效的提取。
但是BSE算法中的紧缩过程使用了固有的非线性特性,导致在提取信号的 过程中出现了累积误差,特别是在提取大量源信号的情况下,会引起提取信号质量的迅速下降。为此,针对紧缩过程中出现的问题,引入改进的BSE算法。因此优选的是,BSE处理模块10还用于在BSE算法的紧缩过程中增加一个实时线性变换处理来消除紧缩过程中出现的问题,其中:
G(y)是一种凸函数,典型地取G(y)=logcosh(αy)/α。
考虑在紧缩过程中使用一个实时线性变换
来克服传统算法的不足。公式(1)中:x是观察信号数据分量;y是输出信号的分量;w为分离向量;k=1、2、……k为分离向量W的行数, 的最优化估计是通过最小化公式(2)中的能量代价函数来实现的,即
公式(2)中:p为观察信号向量x的列数,m观察信号向量x的行数,E{ρ(xj+1)}为能量代价函数。直观上看,所述能量代价函数为一能量函数,该能量代价函数取得最小值时,表示从混合源语音信号中剔除了已提取的期望源语音信号yj,注意与wj不同。将公式(2)表示的能量代价函数最小化可导出简化的局部最小均方(LMS)算法,即
公式(3)中:是指求w的分量时用到的第j个系数,为所辨识的混合矩阵的第j列的估计值,为第j个提取的信号。向量wj可以通过下面的学习规则来估计,即
其中,是在求w的分量时用到的另一个系数;是能量函数的比值;p、q是输出向量y的行数和列数;
这个过程可以不断进行下去,直到提取所有目标源信号的估计为止,即直到某个xj+1的振幅均值达到预先设定的阈值。
这样得到的改进BSE算法克服了BSE算法的缺点,是一种可靠、稳健、有效的学习算法,能够提取出感兴趣的、包含有用信息的期望源信号,以提高盲信号分离的效率。
综上,盲信号提取(BSE)算法,通过多层神经网络顺序从混合信号中提取源信号,并对混合信号进行紧缩处理。针对紧缩过程引起的累积误差导致提取信号质量逐渐下降这一问题,引进了一种简单且稳健的级联提取紧缩方法,可避免紧缩过程中的误差累积。
图7是本发明基于BSE算法的语音识别方法的流程图,其可通过如图2或图4所示的语音识别系统100实现,所述方法包括步骤有:
步骤S701,通过BSE算法处理输入的混合源语音信号,以分离出各个期望源语音信号,所述期望源语音信号没有夹杂任何噪声信号。
所述混合源语音信号由通信终端采集获得,所述BSE算法为众多BSS算法中的一种,其基本原理是每次从混合源语音信号中提取一个特定的源语音信号,不断重复提取,直至提取所有的特征信号。
步骤S702,从期望源语音信号中提取出期望信号特征,所述该期望信号特征中不会夹杂其他干扰信号特征。
特征提取是语音识别的关键环节,目的是提取语音源信号中反映本质特征的信号特征(即声学参数),提取期望信号特征的好坏将直接影响后续匹配成功的概率。
步骤S703,根据期望信号特征进行模式匹配得到对应的语义信息。
语音识别中其实还包括训练阶段,训练阶段将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模式库。语音识别系统根据预定规则(如某 种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算期望信号特征与模式库之间的相似度,判断出混合源语音信号的语意信息。
本发明解决了现有语音信号处理方案,特别是在周围环境噪声比较明显的情况下,不能很好地提取输入信号特征的问题,大大提高了语音识别的准确性,增强了通信终端用户体验。
图8是本发明优选基于BSE算法的语音识别方法的流程图,其可通过如图4所示的语音识别系统100实现,所述方法包括步骤有:
步骤S801,获取输入的混合源语音信号。
步骤S802,对输入的混合源语音信号进行预处理,所述预处理包括对混合源语音信号进行去均值处理和白化处理。
步骤S803,通过BSE算法处理输入的混合源语音信号,以分离出各个期望源语音信号。
步骤S804,计算各期望语音信号的振幅均值。
步骤S805,判断期望源语音信号的振幅均值是否小于预定的振幅阈值,若是则执行步骤S806,若期望源语音信号的振幅均值大于或等于振幅阈值,则对期望源语音信号不进行信号增强处理,并直接执行步骤S807。步骤S806,若期望源语音信号的振幅均值小于振幅阈值,则对期望源语音信号进行信号增强处理。
步骤S807,从期望源语音信号中提取出期望信号特征。
步骤S808,根据期望信号特征进行模式匹配得到对应的语义信息。
优选的是,所述步骤S803进一步包括:
在BSE算法的紧缩过程中增加一个实时线性变换处理。
所述实时线性变换的计算公式为:
其中,x是观察信号数据分量;y是输出信号的分量;w为分离向量;k=1、2、……k为分离向量W的行数, 的最优化估计是通过最小化第二公式中的能量代价函数来实现。
其中,p为观察信号向量x的列数,m观察信号向量x的行数,E{ρ(xj+1)}为能量代价函数,能量代价函数取得最小值时,表示从混合源语音信号中剔除了已提取的期望源语音信号yj,将能量代价函数最小化可导出简化的局部最小均方算法,即:
其中,是指求w的分量时用到的第j个系数,为所辨识的混合矩阵的第j列的估计值,为第j个提取的期望源语音信号,向量wj通过第四公式和第五公式来估计,即:
是在求w的分量时用到的另一个系数;是能量函数的比值;p、q是输出向量y的行数和列数;
该估计过程不断进行下去,直到提取所有期望源语音信号的估计为止,即直到某个xj+1的振幅均值达到预设阈值。
综上所述,本发明提供基于BSE算法的智能语音识别技术,在获取输入的混合源语音信号之后,通过多通道的BSE算法处理输入的混合源语音信号,以分离出各个期望源语音信号,所述期望源语音信号没有夹杂任何噪声信号;然后从所述期望源语音信号中提取出期望信号特征,该期望信号特征中不会夹杂其他干扰信号特征,最后根据所述期望信号特征进行模式匹配得到对应的语义信息。借此,本发明能够从输入混合源语音信号中准确地提取出期望信号特征,可大大提高模式匹配成功率,从而提升了通信终端语音识别的灵敏度和准确度,增强了用户体验。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种基于盲信号提取算法的语音识别方法,其特征在于,包括有:
通过盲信号提取算法处理输入的混合源语音信号,以分离出各个期望源语音信号;
从所述期望源语音信号中提取出期望信号特征;
根据所述期望信号特征进行模式匹配得到对应的语义信息。
2.根据权利要求1所述的语音识别方法,其特征在于,所述通过盲信号提取算法处理输入的混合源语音信号的步骤之前还包括:
对输入的所述混合源语音信号进行预处理,所述预处理包括对所述混合源语音信号进行去均值处理和白化处理。
3.根据权利要求1所述的语音识别方法,其特征在于,所述分离出各个期望源语音信号的步骤之后,以及从所述期望源语音信号中提取出期望信号特征的步骤之前还包括:
计算各所述期望语音信号的振幅均值;
判断所述期望源语音信号的所述振幅均值是否小于预定的振幅阈值;
若所述期望源语音信号的所述振幅均值小于所述振幅阈值,则对所述期望源语音信号进行信号增强处理;
若所述期望源语音信号的所述振幅均值大于或等于所述振幅阈值,则对所述期望源语音信号不进行信号增强处理。
4.根据权利要求1~3任一项所述的语音识别方法,其特征在于,所述通过盲信号提取算法处理输入的混合源语音信号的步骤包括:
在所述盲信号提取算法的紧缩过程中增加一个实时线性变换处理。
5.根据权利要求4所述的语音识别方法,其特征在于,所述实时线性变换的计算公式为:
第一公式
其中,x是观察信号数据分量;y是输出信号的分量;w为分离向量;k=1、2、……k为分离向量W的行数, 的最优化估计是通过最小化第二公式中的能量代价函数来实现;
第二公式
其中,p为观察信号向量x的列数,m观察信号向量x的行数,E{ρ(xj+1)}为能量代价函数,所述能量代价函数取得最小值时,表示从所述混合源语音信号中剔除了已提取的期望源语音信号yj,将所述能量代价函数最小化可导出简化的局部最小均方算法,即:
第三公式
其中,是指求w的分量时用到的第j个系数,为所辨识的混合矩阵的第j列的估计值,为第j个提取的期望源语音信号,向量wj通过第四公式和第五公式来估计,即:
第四公式
第五公式
其中,是在求w的分量时用到的另一个系数;是能量函数的比值;p、q是输出向量y的行数和列数;
该估计过程不断进行下去,直到提取所有期望源语音信号的估计为止,即直到某个xj+1的振幅均值达到预设阈值。
6.一种基于盲信号提取算法的语音识别系统,其特征在于,包括有:
BSE处理模块,用于通过盲信号提取算法处理输入的混合源语音信号,以分离出各个期望源语音信号;
特征提取模块,用于从所述期望源语音信号中提取出期望信号特征;
模式匹配模块,用于根据所述期望信号特征进行模式匹配得到对应的语义信息。
7.根据权利要求6所述的语音识别系统,其特征在于,还包括:
预处理模块,用于在通过盲信号提取算法处理所述混合源语音信号之前,对输入的所述混合源语音信号进行预处理,所述预处理包括对所述混合源语音信号进行去均值处理和白化处理。
8.根据权利要求6所述的语音识别系统,其特征在于,还包括信号增强模块,所述信号增强模块进一步包括:
计算子模块,用于在分离出各个所述期望源语音信号之后,计算各所述期望语音信号的振幅均值;
判断子模块,用于判断所述期望源语音信号的所述振幅均值是否小于预定的振幅阈值;
增强子模块,用于若所述期望源语音信号的所述振幅均值小于所述振幅阈值时,对所述期望源语音信号进行信号增强处理,再将增强处理后的所述期望源语音信号发送给所述特征提取模块进行处理;若所述期望源语音信号的所述振幅均值大于或等于所述振幅阈值,则对所述期望源语音信号不进行信号增强处理并直接送给所述特征提取模块进行处理。
9.根据权利要求6~8任一项所述的语音识别系统,其特征在于,所述BSE处理模块还用于在所述盲信号提取算法的紧缩过程中增加一个实时线性变换处理。
10.根据权利要求9所述的语音识别系统,其特征在于,所述实时线性变换的计算公式为:
第一公式
其中,x是观察信号数据分量;y是输出信号的分量;w为分离向量;k=1、2、……k为分离向量W的行数, 的最优化估计是通过最小化第二公式中的能量代价函数来实现;
第二公式
其中,p为观察信号向量x的列数,m观察信号向量x的行数,E{ρ(xj+1)}为能量代价函数,所述能量代价函数取得最小值时,表示从所述混合源语音信号中剔除了已提取的期望源语音信号yj,将所述能量代价函数最小化可导出简化 的局部最小均方算法,即:
第三公式
其中,是指求w的分量时用到的第j个系数,为所辨识的混合矩阵的第j列的估计值,为第j个提取的期望源语音信号,向量wj通过第四公式和第五公式来估计,即:
第四公式
第五公式
其中,是在求w的分量时用到的另一个系数;是能量函数的比值;p、q是输出向量y的行数和列数;
该估计过程不断进行下去,直到提取所有期望源语音信号的估计为止,即直到某个xj+1的振幅均值达到预设阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061057.7A CN104882140A (zh) | 2015-02-05 | 2015-02-05 | 基于盲信号提取算法的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061057.7A CN104882140A (zh) | 2015-02-05 | 2015-02-05 | 基于盲信号提取算法的语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104882140A true CN104882140A (zh) | 2015-09-02 |
Family
ID=53949608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510061057.7A Pending CN104882140A (zh) | 2015-02-05 | 2015-02-05 | 基于盲信号提取算法的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104882140A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806723A (zh) * | 2018-05-21 | 2018-11-13 | 深圳市沃特沃德股份有限公司 | 婴儿语音识别方法及装置 |
WO2018233256A1 (zh) * | 2017-06-22 | 2018-12-27 | 武汉斗鱼网络科技有限公司 | 直播视频监控方法、存储介质、电子设备及系统 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN111179942A (zh) * | 2020-01-06 | 2020-05-19 | 泰康保险集团股份有限公司 | 声纹识别方法、装置、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN1648995A (zh) * | 2004-10-12 | 2005-08-03 | 上海大学 | 基于盲信号分离的语音增强装置 |
CN1815550A (zh) * | 2005-02-01 | 2006-08-09 | 松下电器产业株式会社 | 可识别环境中的语音与非语音的方法及系统 |
CN102402983A (zh) * | 2011-11-25 | 2012-04-04 | 浪潮电子信息产业股份有限公司 | 一种云数据中心语音识别方法 |
CN103780522A (zh) * | 2014-01-08 | 2014-05-07 | 西安电子科技大学 | 基于双重迭代的非正交联合对角化瞬时盲源分离方法 |
-
2015
- 2015-02-05 CN CN201510061057.7A patent/CN104882140A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN1648995A (zh) * | 2004-10-12 | 2005-08-03 | 上海大学 | 基于盲信号分离的语音增强装置 |
CN1815550A (zh) * | 2005-02-01 | 2006-08-09 | 松下电器产业株式会社 | 可识别环境中的语音与非语音的方法及系统 |
CN102402983A (zh) * | 2011-11-25 | 2012-04-04 | 浪潮电子信息产业股份有限公司 | 一种云数据中心语音识别方法 |
CN103780522A (zh) * | 2014-01-08 | 2014-05-07 | 西安电子科技大学 | 基于双重迭代的非正交联合对角化瞬时盲源分离方法 |
Non-Patent Citations (1)
Title |
---|
都强: ""ICA盲分离算法研究及在机械设备故障诊断中的应用"", 《中国优秀硕士学位论文全文数据库工程科技II辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018233256A1 (zh) * | 2017-06-22 | 2018-12-27 | 武汉斗鱼网络科技有限公司 | 直播视频监控方法、存储介质、电子设备及系统 |
CN108806723A (zh) * | 2018-05-21 | 2018-11-13 | 深圳市沃特沃德股份有限公司 | 婴儿语音识别方法及装置 |
CN108806723B (zh) * | 2018-05-21 | 2021-08-17 | 深圳市沃特沃德股份有限公司 | 婴儿语音识别方法及装置 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN111179942A (zh) * | 2020-01-06 | 2020-05-19 | 泰康保险集团股份有限公司 | 声纹识别方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101877127B1 (ko) | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 | |
CN111899756A (zh) | 一种单通道语音分离方法和装置 | |
KR101305373B1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
CN104882140A (zh) | 基于盲信号提取算法的语音识别方法及系统 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
Ma et al. | Perceptual Kalman filtering for speech enhancement in colored noise | |
US7533017B2 (en) | Method for recovering target speech based on speech segment detection under a stationary noise | |
CN116013276A (zh) | 一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法 | |
JP4496378B2 (ja) | 定常雑音下における音声区間検出に基づく目的音声の復元方法 | |
Poovarasan et al. | Speech enhancement using sliding window empirical mode decomposition and hurst-based technique | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
CN117672260A (zh) | 一种音素模板的实时对抗样本生成方法及计算机可读介质 | |
Papadopoulos et al. | Global SNR Estimation of Speech Signals for Unknown Noise Conditions Using Noise Adapted Non-Linear Regression. | |
Ahmadi et al. | A new method for voice activity detection based on sparse representation | |
Linhui et al. | Monaural speech separation using dual-output deep neural network with multiple joint constraint | |
CN115171021A (zh) | 一种基于gpu的乘客实时交互处理方法和系统 | |
Manchanda et al. | Hybrid approach of feature extraction and vector quantization in speech recognition | |
Ma et al. | Determine a proper window length for singular spectrum analysis | |
Daqrouq et al. | Wavelet LPC with neural network for speaker identification system | |
CN112331178A (zh) | 一种用于低信噪比环境下的语种识别特征融合方法 | |
CN112669881B (zh) | 一种语音检测方法、装置、终端及存储介质 | |
Jyoshna et al. | An Intelligent reference free adaptive learning algorithm for speech enhancement | |
CN115171716B (zh) | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 | |
Vaidianathan et al. | Stuttered Speech Recognition And Classification Using Enhanced Kamnan Filter And Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150902 |