CN107564545A - 语音活动侦测方法及装置 - Google Patents

语音活动侦测方法及装置 Download PDF

Info

Publication number
CN107564545A
CN107564545A CN201610505472.1A CN201610505472A CN107564545A CN 107564545 A CN107564545 A CN 107564545A CN 201610505472 A CN201610505472 A CN 201610505472A CN 107564545 A CN107564545 A CN 107564545A
Authority
CN
China
Prior art keywords
activity detection
voice activity
present frame
frame
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610505472.1A
Other languages
English (en)
Inventor
孙廷玮
柯逸倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Spreadtrum Communications Inc
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201610505472.1A priority Critical patent/CN107564545A/zh
Publication of CN107564545A publication Critical patent/CN107564545A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

语音活动侦测方法及装置,所述方法包括:对输入的声音信号对应的声音数据进行分帧处理得到多个帧;对所述多个帧进行遍历,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值;当确定计算得出的语音活动侦测分值小于预设的阈值时,确定当前帧中包括语音信息。上述的方案,可以提高语音活动侦测的准确性。

Description

语音活动侦测方法及装置
技术领域
本发明涉及语音检测技术领域,特别是涉及一种语音活动侦测方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音活动侦测方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音检测系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
现有技术中,基于能量估计的语音活动侦测方法,对噪音较为敏感,当噪音类型发生变化时,存在着检测准确性差的问题。
发明内容
本发明实施例解决的问题是如何提高语音活动侦测的准确性。
为解决上述问题,本发明实施例提供了一种语音活动侦测方法,包括:对输入的声音信号对应的声音数据进行分帧处理得到多个帧;对所述多个帧进行遍历,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值;当确定计算得出的语音活动侦测分值小于预设的阈值时,确定当前帧中包括语音信息。
可选地,所述采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值,包括:建立训练样本条件概率的对数似然函数;将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数;采用梯度法对所述偏导数做最小化得到所述超参数的最优解;基于所述超参数的最优解,计算得到对应的平方指数协方差函数的长度尺度参数值,作为当前帧的语音活动侦测分值。
可选地,所述对数似然函数为:logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df;其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数,y表示当前帧X对应的语音活动侦测值,f表示所述高斯随机过程隐变量模型,γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。
可选地,所述将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数,包括:且M=K+σ2I;其中,yT表示当前帧的语音活动侦测分值的转置矩阵,K表示协方差函数,σ2表示预设的噪音功率,I表示单位矩阵。
可选地,所述多个帧中的每个帧的帧长为20ms,采样点为160个,采样率为8kHz。
本发明实施例还提供了一种语音活动侦测装置,所述装置包括:分帧处理单元,适于对输入的声音信号对应的声音数据进行分帧处理得到多个帧;语音活动侦测单元,适于对所述多个帧进行遍历,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值;当确定计算得出的语音活动侦测分值小于预设的阈值时,确定当前帧中包括语音信息。
可选地,所述语音活动侦测单元适于建立训练样本条件概率的对数似然函数;将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数;采用梯度法对所述偏导数做最小化得到所述超参数的最优解;基于所述超参数的最优解,计算得到对应的平方指数协方差函数的长度尺度参数值,作为当前帧的语音活动侦测分值。
可选地,所述语音活动侦测单元适于建立的对数似然函数为:logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df;其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数,y表示当前帧X对应的语音活动侦测值,f表示所述高斯随机过程隐变量模型,γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。
可选地,所述语音活动侦测单元将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数为:且M=K+σ2I;其中,yT表示当前帧的语音活动侦测分值的转置矩阵,K表示协方差函数,σ2表示预设的噪音功率,I表示单位矩阵。
可选地,所述分帧处理单元得到的多个帧中的每个帧的帧长为20ms,采样点为160个,采样率为8kHz。
与现有技术相比,本发明的技术方案具有以下的优点:
上述的方案,通过高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值,并计算得到的语音活动侦测分值与预设的阈值进行比较,并在确定计算得到的语音活动侦测分值小于预设的阈值,确定当前帧中包括语音信号,因采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值可以不受噪音类型的影响,因而提高语音活动侦测的速度。
进一步地,由于各个声音帧中的帧长为20ms,采样点为160个,采样率为8kHz,可以在节约计算成本的同时,获得较好的语音活动侦测性能。
附图说明
图1是本发明实施例中的一种语音活动侦测方法的流程图;
图2是本发明实施例中的另一种语音活动侦测方法的流程图;
图3是本发明实施例中的一种语音检测装置的结构示意图。
具体实施方式
正如背景技术而言,现有技术中的语音活动侦测(Voice Activity Detection,VAD)法,通常基于待分析的声音片段的能量来进行语音活动侦测。采用这种VAD法进行语音活动侦测较为简单,且不需要进行任何的噪音属性的估计。然而,基于能量的VAD法对于噪音较为敏感,当噪音类型发生变化时,会造成检测性能的降低,影响了检测的准确性。特别是语音片段中的静音片段,可能会因能量较低而被标识为噪音片段。因此,现有技术中基于能量的VAD法存在着语音识别准确性低的问题。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值,并在确定计算得到的语音活动侦测分值小于预设的阈值,确定当前帧中包括语音信号,可以提高语音活动侦测的速度。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音活动侦测方法的流程图。如图1所示的语音活动侦测方法,可以包括如下的步骤:
步骤S101:对输入的声音信号对应的声音数据进行分帧处理得到多个帧。
在本发明一实施例中,所述多个帧中的每个帧的帧长为20ms,采样点为160个,采样率为8kHz,以在节约计算成本的同时,获得较好的语音活动侦测性能
步骤S102:对所述多个帧进行遍历,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值。
在具体实施中,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值的过程,实质上是采用优化的长度尺度参数(length-scale parameters)即内核宽度(kernel width),对包括语音信息的帧进行检测的过程。采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值,进而确定当前帧是否为包括语音信息的帧的过程可以视为自动选取输入变量的相关维度的主动相关决策理论(AutomaticRelevance Determination,ARD)的特例。在ARD中,每个维度的相关性可以通过对所述长度尺度参数求逆进行确定。在当前帧对应的长度尺度参数非常大的时候,对应的协方差函数将会独立于当前帧,并因此可以自动地移除相应的干扰,因此,使用高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值,可以不受噪音类型的影响,因而可以提高语音识别的准确性。
步骤S103:当确定计算得出的语音活动侦测分值小于预设的阈值时,确定当前帧中包括语音信息。
在具体实施中,当采用高斯随机过程隐变量模型计算得到的当前帧的VAD分值,即对应的长度尺度参数的值小于预设的阈值时,可以确定当前帧中包括语音信息,即当前帧为语音帧;反之,当确定是当前帧的语音活动VAD分值大于预设的阈值时,可以确定当前帧中不包括语音信息,即当前帧为非语音帧。
下面将结合图2对本发明实施例中的语音活动侦测方法做进一步详细的介绍。
图2示出了本发明实施例中的另一种语音活动侦测方法的流程图。参见图2,在具体实施中,本发明实施例中的语音活动侦测方法可以包括如下的步骤:
步骤S201:对输入的声音信号对应的声音数据进行分帧处理得到多个帧。
在具体实施中,为了对所采集的声音信号进行处理,可以首先将采集到声音信号进行分帧处理,得到对应的多个帧。对采集的声音信号进行分帧,实质是对声音信号进行短时分析,短时分析是把声音信号分成具有固定周期的时间短段,每个时间短段是相对固定的持续声音片段。
步骤S202:对所述多个帧进行遍历,建立当前帧的训练样本条件概率的对数似然函数。
在具体实施中,当前帧对应的高斯随机过程隐变量模型的超参数的学习过程可以采用边缘相似性最大化来进行。
具体而言,可以首先建立当前帧对应的训练样本条件概率的对数似然函数,即:
logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df(1)
其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数,y表示当前帧X对应的VAD分值,f表示所述高斯随机过程隐变量模型,γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。
步骤S203:将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数。
在具体实施中,将当前帧的训练样本条件概率的对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数,即:
M=K+σ2I (3)
其中,yT表示当前帧的语音活动侦测分值的转置矩阵,K表示协方差函数,σ2表示预设的噪音功率,I表示单位矩阵。
在具体实施中,K是一个协方差函数,对于上述的公式(2),通过采用平方指数协方差函数(Squared Exponential Covariance Function)即高斯内核来表示输入信号,即当前帧对应的声音数据,那么将是协方差函数K的阿达马积(Hadamard product)和两个连续的语音帧的距离。
步骤S204:采用梯度法对所述偏导数做最小化得到所述超参数的最优解。
在具体实施中,可以采用梯度法来对公式(2)的偏导数做最小化来估计得到所述超参数γ的最优解。通过数学计算,得到的超参数将均为正数。超参数γ的计算实质上时一个约束优化问题。在具体实施中,这种优化可以通过超参数γ的对数的非约束性优化得到解决。
步骤S205:基于所述超参数的最优解,计算得到对应的平方指数协方差函数的长度尺度参数值,作为当前帧的语音活动侦测分值。
在具体实施中,当采用上述的过程计算得到当前帧对应的超参数的最优解时,便可以利用所述超参数的最优解,计算得到对应的平方指数协方差函数的长度尺度参数值,即当前帧的VAD分值。
其中,在非语音帧(unvoiced frame)中,对于其中1~N个采样点,GP平滑器(GPsmoother)将全部输出为零,使得协方差函数K等于1,进而使得对应的长度尺度参数的数值变得非常大。因此,非语音帧可以通过对对应的长度尺度参数的数值进行监控进行确定。例如,当确定学习得到的当前帧的长度尺度参数的数值大于预设的阈值时,可以确定当前帧是非语音帧。
需要指出的是,在本发明实例中的梯度运算中,任何基于梯度的优化方法均可以用于学习超参数,以优化边缘相似性。
步骤S206:判断当前帧的语音活动侦测分值是否大于预设的阈值;当判断结果为是时,可以执行步骤S207,反之,则可以对于下一帧从步骤S201开始执行,直至遍历完成所述多个帧。
在具体实施中,所述阈值可以为预先设定的固定数值,也可以根据实际的需要进行变化,本领域的技术人员可以根据实际的需要进行设置,在此不做限制。
步骤S207:确定当前帧中包括语音信息。
在具体实施中,当确定当前帧的语音活动侦测分值大于预设的阈值时,可以确定当前帧中包括语音信息。
在具体实施中,当将本发明实施例中的语音活动侦测方法应用与移动终端中的总听系统中时,在确定当前帧中包括语音信号时,可以将对当前帧的语音信息进行识别,并可以根据所识别出的语音信息执行相应的操作。例如,当识别出的语音为“拨打XX的手机”时,移动终端便可以从移动终端中获取XX的手机号码的信息,并拨打。
上述对本发明实施例中的语音活动侦测方法做了详细的介绍,下面将结合图3对上述的方法对应的装置做进一步详细的介绍。
图3示出了本发明实施例中的一种语音活动侦测装置的结构示意图。如图3所示,在具体实施中,本发明实施例中的语音活动侦测装置可以包括:
分帧处理单元301,适于对输入的声音信号对应的声音数据进行分帧处理得到多个帧。
语音活动侦测单元302,适于对所述多个帧进行遍历,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值。当确定计算得出的语音活动侦测分值小于预设的阈值时,确定当前帧中包括语音信息。
在具体实施中,所述语音活动侦测单元302适于建立训练样本条件概率的对数似然函数;将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数;采用梯度法对所述偏导数做最小化得到所述超参数的最优解;基于所述超参数的最优解,计算得到对应的平方指数协方差函数的长度尺度参数值,作为当前帧的语音活动侦测分值。
在具体实施中,所述语音活动侦测单元302适于建立的对数似然函数为:logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df;其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数,y表示当前帧X对应的语音活动侦测值,f表示所述高斯随机过程隐变量模型,γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。
在具体实施中,所述语音活动侦测单元302将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数为:且M=K+σ2I;其中,yT表示当前帧的语音活动侦测分值的转置矩阵,K表示协方差函数,σ2表示预设的噪音功率,I表示单位矩阵。
在本发明一实施例中,所述分帧处理单元301得到的多个帧中的每个帧的帧长为20ms,采样点为160个,采样率为8kHz。
上述的方案,通过高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值,并计算得到的语音活动侦测分值与预设的阈值进行比较,并在确定计算得到的语音活动侦测分值小于预设的阈值,确定当前帧中包括语音信号,因采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值可以不受噪音类型的影响,因而提高语音活动侦测的速度。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种语音活动侦测方法,其特征在于,包括:
对输入的声音信号对应的声音数据进行分帧处理得到多个帧;
对所述多个帧进行遍历,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值;
当确定计算得出的语音活动侦测分值小于预设的阈值时,确定当前帧中包括语音信息。
2.根据权利要求1所述的语音活动侦测方法,其特征在于,所述采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值,包括:
建立训练样本条件概率的对数似然函数;
将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数;
采用梯度法对所述偏导数做最小化得到所述超参数的最优解;
基于所述超参数的最优解,计算得到对应的平方指数协方差函数的长度尺度参数值,作为当前帧的语音活动侦测分值。
3.根据权利要求2所述的语音活动侦测方法,其特征在于,所述对数似然函数为:
logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df;
其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数,y表示当前帧X对应的语音活动侦测值,f表示所述高斯随机过程隐变量模型,
γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。
4.根据权利要求3所述的语音活动侦测方法,其特征在于,所述将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数,包括:
M=K+σ2I;
其中,yT表示当前帧的语音活动侦测分值的转置矩阵,K表示协方差函数,σ2表示预设的噪音功率,I表示单位矩阵。
5.根据权利要求1所述的语音活动侦测方法,其特征在于,所述多个帧中的每个帧的帧长为20ms,采样点为160个,采样率为8kHz。
6.一种语音活动侦测装置,其特征在于,包括:
分帧处理单元,适于对输入的声音信号对应的声音数据进行分帧处理得到多个帧;
语音活动侦测单元,适于对所述多个帧进行遍历,采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值;当确定计算得出的语音活动侦测分值小于预设的阈值时,确定当前帧中包括语音信息。
7.根据权利要求6所述的语音活动侦测装置,其特征在于,所述语音活动侦测单元适于建立训练样本条件概率的对数似然函数;将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数;采用梯度法对所述偏导数做最小化得到所述超参数的最优解;基于所述超参数的最优解,计算得到对应的平方指数协方差函数的长度尺度参数值,作为当前帧的语音活动侦测分值。
8.根据权利要求7所述的语音活动侦测装置,其特征在于,所述语音活动侦测单元适于建立的对数似然函数为:
logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df;
其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数,y表示当前帧X对应的语音活动侦测值,f表示所述高斯随机过程隐变量模型,
γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。
9.根据权利要求8所述的语音活动侦测装置,其特征在于,所述语音活动侦测单元将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导,得到对应的偏导数为:
M=K+σ2I;
其中,yT表示当前帧的语音活动侦测分值的转置矩阵,K表示协方差函数,σ2表示预设的噪音功率,I表示单位矩阵。
10.根据权利要求7所述的语音活动侦测装置,其特征在于,所述分帧处理单元得到的多个帧中的每个帧的帧长为20ms,采样点为160个,采样率为8kHz。
CN201610505472.1A 2016-06-30 2016-06-30 语音活动侦测方法及装置 Pending CN107564545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610505472.1A CN107564545A (zh) 2016-06-30 2016-06-30 语音活动侦测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610505472.1A CN107564545A (zh) 2016-06-30 2016-06-30 语音活动侦测方法及装置

Publications (1)

Publication Number Publication Date
CN107564545A true CN107564545A (zh) 2018-01-09

Family

ID=60969348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610505472.1A Pending CN107564545A (zh) 2016-06-30 2016-06-30 语音活动侦测方法及装置

Country Status (1)

Country Link
CN (1) CN107564545A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412945A (zh) * 2013-08-23 2013-11-27 山东师范大学 一种基于类边界分布特性的音频分类器训练方法
CN103988426A (zh) * 2011-09-26 2014-08-13 Actiwave公司 音频处理及增强系统
EP2793105A1 (en) * 2013-04-19 2014-10-22 Alcatel Lucent Controlling a user interface of an interactive device
WO2014189550A1 (en) * 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
CN104409080A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 语音端点检测方法和装置
CN104423578A (zh) * 2013-08-25 2015-03-18 何安莉 交互式输入系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103988426A (zh) * 2011-09-26 2014-08-13 Actiwave公司 音频处理及增强系统
EP2793105A1 (en) * 2013-04-19 2014-10-22 Alcatel Lucent Controlling a user interface of an interactive device
WO2014189550A1 (en) * 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
CN103412945A (zh) * 2013-08-23 2013-11-27 山东师范大学 一种基于类边界分布特性的音频分类器训练方法
CN104423578A (zh) * 2013-08-25 2015-03-18 何安莉 交互式输入系统和方法
CN104409080A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 语音端点检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何志昆等: "高斯过程回归方法综述", 《控制与决策》 *
沈赟等: "基于高斯过程模型的语音增强", 《计算机工程》 *

Similar Documents

Publication Publication Date Title
CN103886871B (zh) 语音端点的检测方法和装置
US20170162192A1 (en) Method and Apparatus for Evaluating Trigger Phrase Enrollment
KR102072730B1 (ko) 핫워드 적합성을 결정하는 방법 및 장치
CN102568475B (zh) 用于普通话水平测评的系统和方法
US20180336883A1 (en) Language recognition method, apparatus and device and computer storage medium
US20190080688A1 (en) Language model generating device, language model generating method, and recording medium
WO2019134247A1 (zh) 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN106033669B (zh) 语音识别方法及装置
CN104240696A (zh) 语音处理设备及方法
CN104103280B (zh) 基于动态时间归整算法的离线语音端点检测的方法和装置
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
EP2806415B1 (en) Voice processing device and voice processing method
CN106297795B (zh) 语音识别方法及装置
CN107564512B (zh) 语音活动侦测方法及装置
CN106920543B (zh) 语音识别方法及装置
Bocklet et al. Age determination of children in preschool and primary school age with gmm-based supervectors and support vector machines/regression
CN106340310B (zh) 语音检测方法及装置
KR20170010978A (ko) 통화 내용 패턴 분석을 통한 보이스 피싱 방지 방법 및 장치
CN107564545A (zh) 语音活动侦测方法及装置
CN107993666A (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN105989838B (zh) 语音识别方法及装置
CN110600010B (zh) 一种语料提取方法及装置
JP3913626B2 (ja) 言語モデル生成方法、その装置及びそのプログラム
CN108255808A (zh) 文本划分的方法、装置和存储介质以及电子设备
CN112908363B (zh) 一种发音检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180109

RJ01 Rejection of invention patent application after publication