CN110895930A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN110895930A
CN110895930A CN201910945249.2A CN201910945249A CN110895930A CN 110895930 A CN110895930 A CN 110895930A CN 201910945249 A CN201910945249 A CN 201910945249A CN 110895930 A CN110895930 A CN 110895930A
Authority
CN
China
Prior art keywords
sound frame
frame
current
current sound
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910945249.2A
Other languages
English (en)
Other versions
CN110895930B (zh
Inventor
孙廷玮
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201910945249.2A priority Critical patent/CN110895930B/zh
Publication of CN110895930A publication Critical patent/CN110895930A/zh
Application granted granted Critical
Publication of CN110895930B publication Critical patent/CN110895930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种语音识别方法及装置,所述语音识别方法包括:将获取的声音数据进行分帧处理,以得到至少两个声音帧;从所述至少两个声音数据帧中选取满足选取条件的声音帧;计算所述满足选取条件的声音帧的语音识别分值;当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。上述的方案可以节约计算资源,提升语音识别的速度。

Description

语音识别方法及装置
本申请为申请日为2015年05月25日,申请号为:201510271782.7,名称为:语音识别方法及装置的分案申请。
技术领域
本发明属于语音识别技术领域,特别是涉及一种语音识别方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
但是,现有技术中的语音识别方法,在进行语音识别时,存在着计算量大、识别速度慢的问题。
发明内容
本发明实施例解决的问题是节省语音识别的计算资源,提高语音识别的速度。
为解决上述问题,本发明实施例提供了一种语音识别方法,所述语音识别方法包括:
将获取的声音数据进行分帧处理,以得到至少两个声音帧;
从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算所述满足选取条件的声音帧的语音识别分值;
当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
可选地,所述从所述至少两个声音数据帧中选取满足选取条件的声音帧,包括:
计算当前声音帧的后信噪比;
根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;
计算当前声音帧的第一选取阈值;
当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。
可选地,采用如下的公式计算当前声音帧的后信噪比:
Figure BDA0002223967900000021
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。
可选地,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:
D(t)=|log E(t)-log E(t-1)|×SNRpost(t);其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。
可选地,采用如下的公式计算当前声音帧的第一选取阈值:
T(t)=Da(t)×f(logEnoise(t)),其中,T(t)表示当前声音帧的第二选取阈值,Da(t)表示当前声音帧之前的连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数。
可选地,所述从得到的多个声音数据帧中选取满足预设的选取条件的声音帧,包括:
计算当前声音帧的后信噪比;
当确定计算得到的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
可选地,采用如下的公式计算当前声音帧的后信噪比:
Figure BDA0002223967900000031
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。
可选地,采用如下的公式计算所述满足选取条件的声音帧的语音识别分值,包括:
Figure BDA0002223967900000032
其中,Mn表示计算得到的语音识别分值,n表示当前声音帧的位序,n-表示所选取的声音帧中起始声音帧的位序,n+表示所选取的声音帧中终止声音帧的位序,α表示预设的调整参数,m表示随着所选取的声音帧位序变化的正整数,f(α×(n+m))表示移动平均法预测模型。
本发明实施例还提供了一种语音识别装置,所述语音识别装置包括:
分帧处理单元,适于将获取的声音数据进行分帧处理,以得到至少两个声音帧;
选取单元,适于从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算单元,适于计算所述满足选取条件的声音帧的语音识别分值;
识别单元,适于当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
可选地,所述选取单元适于计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第二选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第二选取阈值时,则选取当前声音帧。
可选地,所述选取单元适于计算当前声音帧的后信噪比;当确定计算得到的后信噪比大于预设的第一选取阈值时,选取当前声音帧。
与现有技术相比,本发明的技术方案具有以下的优点:
通过从待识别的声音数据中选取满足预设条件的声音帧进行语音识别,可以排除不包括语音信息的非语音数据帧,而仅对所选取的声音帧均进行语音识别处理,因此,可以节约计算资源,提升语音识别的速度,提升用户的使用体验。
进一步地,根据计算得到的当前声音帧的后信噪比,计算得到当前声音帧和前一声音帧的后验信噪比权重能量距离,并将计算得到的后验信噪比权重能量距离与计算得到的当前声音帧的第二选取阈值进行比较,与仅仅计算当前声音帧的后信噪比相比,可以将更多的不包括语音信息的非语音声音帧排除在外,因此,可以进一步节省计算资源,提升语音识别的速度。
进一步地,通过仅仅将计算得到的当前声音帧的后信噪比与预设的第一选取阈值进行比较,可以将更多的不包括语音信息的声音帧排除,并可以节省计算资源,因此,可以进一步提高语音识别的速度。
附图说明
图1是本发明实施例中的一种语音识别方法的流程图;
图2是本发明实施例中的另一种语音识别方法的流程图;
图3是本发明实施例中的又一种语音识别方法的流程图;
图4是本发明实施例中的一种语音识别装置的结构示意图。
具体实施方式
现有技术中的语音识别方法,在进行语音识别时,通常以固定帧率(Fixed FrameRate,FFR)对待识别的声音数据划分得到的多个声音帧进行语音识别处理。由于划分得到的多个声音帧中的某些声音帧中并不包括语音信息,对这些不包括语音信息的非语音帧进行语音识别处理,不仅对于语音识别毫无意义,而且还会浪费计算资源,降低语音的识别速度。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过从待识别的声音数据中选取满足预设条件的声音帧进行语音识别,可以节约计算资源,提升语音识别的速度,提升用户的使用体验。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括:
步骤S101:将获取的声音数据进行分帧处理,以得到至少两个声音帧。
在具体实施中,可以采用麦克来对输入的声音信号进行实时采集。当采集到声音数据时,通过相应的处理,将输入的声音信号转换成为对应的声音数据。之后,可以对转换得到的声音数据进行分帧处理,从而得到至少两个声音帧。
步骤S102:从所述至少两个声音数据帧中选取满足选取条件的声音帧。
现有的语音识别方法,在进行语音识别时,通常需要对声音数据划分得到的所述至少两个声音帧均进行相应的语音识别处理。但是,并不是每个声音帧中均包括语音信息,而对不包括语音信息的声音帧进行语音识别处理将会浪费资源,并且会降低语音识别的速度。因此,在本发明实施例中,首先从划分得到的至少两个的声音帧中选取部分声音帧,将部分不包括语音数据的声音帧排除,这样,可以节省资源,并可以提升语音识别的速度。
步骤S103:计算所述满足选取条件的声音帧的语音识别分值。
在具体实施中,所述选取条件可以根据实际的需要进行设置。
步骤S104:当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
在具体实施中,当根据所选取的声音帧计算得到的语音识别分值大于预设的分值阈值时,可以确定所获取的声音数据中包含有用户的语音信息,此时,可以对获取的声音数据进行语音识别。反之,则不需要对其进行语音识别。其中,语音识别分值可以根据实际的需要进行设置。
图2示出了本发明实施例中的另一种语音识别方法的流程图。如图2所示的语音识别方法,可以包括:
步骤S201:将获取的声音数据进行分帧处理,以得到至少两个声音帧。
步骤S202:遍历所述至少两个声音帧。
步骤S203:计算当前声音帧的后信噪比。
在具体实施中,为了确定选取哪些声音帧,可以遍历所述至少两个声音帧,并对各个声音帧分别采用如下的公式计算对应的后信噪比(post SNR):
Figure BDA0002223967900000071
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音(noisy speech)能量,Enoise(t)表示当前声音帧的噪音能量。
步骤S204:根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离。
在本发明一实施例中,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:
D(t)=|log E(t)-log E(t-1)|×SNRpost(t) (2)
其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。
步骤S205:计算当前声音帧的第一选取阈值。
在本发明一实施例中,需要对所获取的声音数据划分得到的每个声音帧均计算相应的第一选取阈值。具体地,各个声音帧的第一选取阈值可以采用如下的公式计算得到:
T(t)=Da(t)×f(logEnoise(t)) (3)
其中,T(t)表示当前声音帧的第一选取阈值,Da(t)表示包括当前声音帧在内的两个连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数(sigmoidfunction)。
这里需要指出的是,Da(t)并不是一个常量,其随着声音帧的变化而变化。以所获取的声音数据划分得到3个声音帧——第一声音帧、第二声音帧和第三声音帧为例,其中,D(1)表示第一声音帧与前一声音帧的后验信噪比权重能量距离(为第一声音帧的能量对数与第一声音帧的后信噪比的乘积),D(2)表示第二声音帧和第一声音帧的后验信噪比权重能量距离,D(3)表示第三声音帧和第二声音帧的后验信噪比权重能量距离。那么,在采用公式(3)计算第一声音帧的第一选取阈值时,Da(1)等于D(1);计算第二声音帧的第一选取阈值时,Da(2)为D(1)和D(2)的平均值;计算第三声音帧的第一选取阈值时,Da(3)为D(1)、D(2)和D(3)的平均值。因此,可见,Da(t)随着声音帧进行更新。
步骤S206:将所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离与当前声音帧的第一选取阈值进行比较。
步骤S207:当确定所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,选取当前声音帧。
步骤S208:计算所述满足选取条件的声音帧的语音识别分值。
在本发明一实施例中,可以采用移动平均法(moving average method)来计算满足选取条件的声音帧的语音识别分值,具体为采用如下的公式计算所述满足选取条件的声音帧的语音识别分值,包括:
Figure BDA0002223967900000081
其中,Mn表示计算得到的语音识别分值,n表示所选取的声音帧中位于中间的声音帧的位序,n-表示所选取的声音帧中起始声音帧的位序,n+表示所选取的声音帧中终止声音帧的位序,α表示预设的调整参数,m表示随着所选取的声音帧位序变化的正整数,f(α×(n+m))表示移动平均法预测模型。
在采用上述的公式(4)计算满足选取条件的声音帧的语音识别分值时,计算得到的Mn是以10ms的帧移计算得出的,可以用于作为平均移动窗口内的声音帧的平均数量的衡量。
步骤S209:当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
在具体实施中,当当计算得到的语音识别分值大于预设的分值阈值时,确定所获取的声音数据中包括语音信息,接着便可以对所获取的声音数据进行语音识别。
在具体实施中,当识别出所获取的声音数据中的语音信息时,移动终端可以执行相应的操作。例如,当移动终端识别出的语音信息为“打开FACEBOOK”时,移动终端将会为用户打开FACEBOOK。
在具体实施中,为了进一步将不包括语音数据的声音帧排除在外,可以仅仅通过将各个声音帧的后信噪比与预设的第二选取阈值进行比较来进行确定,这样不仅可以节省计算资源,同时也可以进一步提高语音识别的速度,具体请参见图3所示。
图3示出了本发明实施例中的另一种语音识别方法的流程图。如图3所示的语音识别方法,可以包括:
步骤S301:将获取的声音数据进行分帧处理,以得到至少两个声音帧。
在本发明一实施例中,为了便于对声音帧的分析处理,将获取的声音数据划分得到的至少两个声音帧中各个声音帧的长度为25ms,相邻两个声音帧之间的帧移为1ms。
步骤S302:遍历所得到的至少两个声音帧,并计算当前声音帧的后信噪比。
在本发明实施例中,采用上述的公式(1)计算出的后信噪比,可以直接用在在后续步骤中判断是否选取当前声音帧。
这里需要指出的是,与计算先信噪比(priori SNR)相比,采用声音帧的后信噪比来确定是否选取声音帧将变得更加直观、明确,因为在计算各个声音帧的先信噪比需要对当前声音帧中的纯净语音的能量进行预估,而对声音帧中的纯净语音能量进行评估将是一件相当不易的事情。
步骤S303:将当前声音帧的后信噪比与预设的第二选取阈值进行比较。
在具体实施中,第二选取阈值可以根据实际的需要进行设定。
步骤S304:当确定当前帧的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
在具体实施中,当确定当前帧的后信噪比大于第二选取阈值时,说明当前帧中可能包括有语音信息,此时选取当前帧。反之,则舍弃当前帧,而继续进行下一声音帧的判断。
步骤S305:计算所述满足选取条件的声音帧的语音识别分值。
步骤S306:当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
图4示出了本发明实施例还提供了一种语音识别装置。如图4所示的语音识别装置,可以包括分帧处理单元401、选取单元402、计算单元403和识别单元404,其中:
分帧处理单元401,适于将获取的声音数据进行分帧处理,以得到至少两个声音帧。
选取单元402,适于从所述至少两个声音数据帧中选取满足选取条件的声音帧。在本发明一实施例中,选取单元402适于计算当前声音帧的后信噪比。当确定计算得到的后信噪比大于预设的第一选取阈值时,选取当前声音帧。在本发明另一实施例中,选取单元402适于计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第二选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第二选取阈值时,则选取当前声音帧。
计算单元403,适于计算所述满足选取条件的声音帧的语音识别分值。
识别单元404,适于当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (8)

1.一种语音识别方法,其特征在于,包括:
将获取的声音数据进行分帧处理,以得到至少两个声音帧;
从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算所述满足选取条件的声音帧的语音识别分值;
当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别;其中,所述从所述至少两个声音数据帧中选取满足选取条件的声音帧,包括:
计算当前声音帧的后信噪比,包括:采用如下的公式计算当前声音帧的后信噪比:
Figure RE-FDA0002364499810000011
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量;
根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;
计算当前声音帧的第一选取阈值;
当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。
2.根据权利要求1所述语音识别方法,其特征在于,采用如下的公式计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离:
D(t)=|logE(t)-logE(t-1)|×SNRpost(t);其中,D(t)表示前一声音帧和当前声音帧之间的后验信噪比权重能量距离,logE(t)表示当前声音帧的对数能量,logE(t-1)表示前一声音帧的对数能量。
3.根据权利要求2所述的语音识别方法,其特征在于,采用如下的公式计算当前声音帧的第一选取阈值:
T(t)=Da(t)×f(logEnoise(t)),其中,T(t)表示当前声音帧的第一选取阈值,Da(t)表示当前声音帧之前的连续声音帧的后验信噪比权重能量距离均值,f(logEnoise(t))为S型函数。
4.根据权利要求1所述的语音识别方法,其特征在于,所述从得到的多个声音数据帧中选取满足预设的选取条件的声音帧,包括:
计算当前声音帧的后信噪比;
当确定计算得到的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
5.根据权利要求4所述的语音识别方法,其特征在于,采用如下的公式计算当前声音帧的后信噪比:
Figure RE-FDA0002364499810000021
其中,SNRpost(t)表示当前声音帧的后信噪比,t表示当前声音帧的位序,E(t)表示当前声音帧的嘈杂语音能量,Enoise(t)表示当前声音帧的噪音能量。
6.根据权利要求5所述的语音识别方法,其特征在于,采用如下的公式计算所述满足选取条件的声音帧的语音识别分值,包括:
Figure RE-FDA0002364499810000022
其中,Mn表示计算得到的语音识别分值,n表示当前声音帧的位序,n-表示所选取的声音帧中起始声音帧的位序,n+表示所选取的声音帧中终止声音帧的位序,α表示预设的调整参数,m表示随着所选取的声音帧位序变化的正整数,f(α×(n+m))表示移动平均法预测模型。
7.一种语音识别装置,其特征在于,包括:
分帧处理单元,适于将获取的声音数据进行分帧处理,以得到至少两个声音帧;
选取单元,适于从所述至少两个声音数据帧中选取满足选取条件的声音帧;
计算单元,适于计算所述满足选取条件的声音帧的语音识别分值;
识别单元,适于当计算得到的语音识别分值大于预设的分值阈值时,对所述获取的声音数据进行语音识别;
其中,所述选取单元适于计算当前声音帧的后信噪比;根据所述当前声音帧的后信噪比计算前一声音帧和当前声音帧之间的后验信噪比权重能量距离;计算当前声音帧的第一选取阈值;当所述前一声音帧和当前声音帧之间的后验信噪比权重能量距离大于当前声音帧的第一选取阈值时,则选取当前声音帧。
8.根据权利要求7所述的语音识别装置,其特征在于,所述选取单元适于计算当前声音帧的后信噪比;当确定计算得到的后信噪比大于预设的第二选取阈值时,选取当前声音帧。
CN201910945249.2A 2015-05-25 2015-05-25 语音识别方法及装置 Active CN110895930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910945249.2A CN110895930B (zh) 2015-05-25 2015-05-25 语音识别方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910945249.2A CN110895930B (zh) 2015-05-25 2015-05-25 语音识别方法及装置
CN201510271782.7A CN106297795B (zh) 2015-05-25 2015-05-25 语音识别方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201510271782.7A Division CN106297795B (zh) 2015-05-25 2015-05-25 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN110895930A true CN110895930A (zh) 2020-03-20
CN110895930B CN110895930B (zh) 2022-01-28

Family

ID=57634654

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510271782.7A Active CN106297795B (zh) 2015-05-25 2015-05-25 语音识别方法及装置
CN201910945249.2A Active CN110895930B (zh) 2015-05-25 2015-05-25 语音识别方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201510271782.7A Active CN106297795B (zh) 2015-05-25 2015-05-25 语音识别方法及装置

Country Status (1)

Country Link
CN (2) CN106297795B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107738622B (zh) * 2017-08-29 2020-09-11 科大讯飞股份有限公司 车辆智能响应方法及装置、存储介质、电子设备
CN107702706B (zh) * 2017-09-20 2020-08-21 Oppo广东移动通信有限公司 路径确定方法、装置、存储介质及移动终端
CN112420079B (zh) * 2020-11-18 2022-12-06 青岛海尔科技有限公司 语音端点检测方法和装置、存储介质及电子设备
WO2023050301A1 (zh) * 2021-09-30 2023-04-06 华为技术有限公司 语音质量评估、语音识别质量预测与提高的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354870A (zh) * 1999-02-08 2002-06-19 高通股份有限公司 噪声信号中语音的端点定位
CN1773605A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
WO2008148323A1 (fr) * 2007-06-07 2008-12-11 Huawei Technologies Co., Ltd. Procédé et dispositif de détection d'activité vocale
CA2778343A1 (en) * 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI226035B (en) * 2003-10-16 2005-01-01 Elan Microelectronics Corp Method and system improving step adaptation of ADPCM voice coding
JP5070873B2 (ja) * 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
CN103730110B (zh) * 2012-10-10 2017-03-01 北京百度网讯科技有限公司 一种检测语音端点的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354870A (zh) * 1999-02-08 2002-06-19 高通股份有限公司 噪声信号中语音的端点定位
CN1773605A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
WO2008148323A1 (fr) * 2007-06-07 2008-12-11 Huawei Technologies Co., Ltd. Procédé et dispositif de détection d'activité vocale
CA2778343A1 (en) * 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李光源等: "一种基于噪声估计的语音激活检测算法", 《信息技术》 *

Also Published As

Publication number Publication date
CN106297795A (zh) 2017-01-04
CN106297795B (zh) 2019-09-27
CN110895930B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN110364144B (zh) 一种语音识别模型训练方法及装置
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
WO2019101123A1 (zh) 语音活性检测方法、相关装置和设备
US9607619B2 (en) Voice identification method and apparatus
EP3828885A1 (en) Voice denoising method and apparatus, computing device and computer readable storage medium
CN103325386B (zh) 用于信号传输控制的方法和系统
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
JP2015504184A (ja) 背景雑音の存在下でのボイスアクティビティ検出
CN110895930B (zh) 语音识别方法及装置
CN111325386B (zh) 交通工具运行状态的预测方法、装置、终端及存储介质
WO2014114048A1 (zh) 一种语音识别的方法、装置
CN106024002B (zh) 时间零收敛单麦克风降噪
CN104103278A (zh) 一种实时语音去噪的方法和设备
CN112751648B (zh) 丢包数据恢复方法和相关装置、设备及存储介质
CN108831508A (zh) 语音活动检测方法、装置和设备
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
CN111754982A (zh) 语音通话的噪声消除方法、装置、电子设备及存储介质
CN106033669B (zh) 语音识别方法及装置
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN107564512B (zh) 语音活动侦测方法及装置
CN111739515B (zh) 语音识别方法、设备、电子设备和服务器、相关系统
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质
CN106340310A (zh) 语音检测方法及装置
CN111179966A (zh) 一种语音分析的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant