CN103632667B - 声学模型优化方法、装置及语音唤醒方法、装置和终端 - Google Patents
声学模型优化方法、装置及语音唤醒方法、装置和终端 Download PDFInfo
- Publication number
- CN103632667B CN103632667B CN201310603784.2A CN201310603784A CN103632667B CN 103632667 B CN103632667 B CN 103632667B CN 201310603784 A CN201310603784 A CN 201310603784A CN 103632667 B CN103632667 B CN 103632667B
- Authority
- CN
- China
- Prior art keywords
- characteristic parameters
- acoustic model
- acoustical characteristic
- phoneme
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000005457 optimization Methods 0.000 title claims abstract description 59
- 230000006399 behavior Effects 0.000 claims description 20
- 238000005520 cutting process Methods 0.000 claims description 14
- 230000002618 waking effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000001755 vocal effect Effects 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 241000207961 Sesamum Species 0.000 description 3
- 235000003434 Sesamum indicum Nutrition 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 241001413866 Diaphone Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Landscapes
- Telephone Function (AREA)
Abstract
本发明实施例提供一种声学模型优化方法、装置及语音唤醒方法、装置和终端,其中声学模型优化方法包括:接收语音信号,提取所述语音信号的声学特征参数;判断所述声学特征参数是否与设定用户相对应;在所述声学特征参数与设定用户相对应时,使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。通过本发明实施例提供的声学模型优化方法所优化的声学模型能够与特定用户进行自适应。
Description
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及一种声学模型优化方法、装置及语音唤醒方法、装置和终端。
背景技术
目前用户使用语音进行交互的习惯正在形成,在当前的语音交互过程中,用户需要先点亮终端设备的屏幕、解除锁屏、寻找和启动终端设备安装的语音软件才可使用语音进行交互,这种语音交互过程并没有完全释放双手。语音唤醒技术正好可以解决这个问题,语音唤醒技术可在手机锁屏状态下唤醒手机,自动启动语音软件,能给用户带来更好的语音交互体验。
语音唤醒技术涉及到对用户语音的识别,为了提高语音唤醒的准确率,必须设法降低语音识别的误识别率和提高语音识别的准确率,声学模型作为语音识别系统的最为重要的部分,在降低语音识别的误识别率和提高语音识别的准确率方面具有重要的作用。
本发明的发明人在实现本发明的过程中发现:目前在进行语音识别时,均是采用针对所有人的通用声学模型进行语音的识别,由于通用声学模型与特定用户并无法自适应,因此无论特定用户使用多少次语音,使用了多长时间的语音,在对降低特定用户的语音识别的误识别率,和提高特定用户的语音识别的准确率方面,现有通用声学模型均没有帮助。
发明内容
有鉴于此,本发明实施例提供一种声学模型优化方法、装置及语音唤醒方法、装置和终端,以解决现有声学模型与特定用户并无法自适应,对降低特定用户的语音识别的误识别率,和提高特定用户的语音识别的准确率方面没有帮助的问题。
为实现上述目的,本发明实施例提供如下技术方案:
第一方面,本发明实施例提供一种声学模型优化方法,所述方法包括:
接收语音信号,提取所述语音信号的声学特征参数;
判断所述声学特征参数是否与设定用户相对应;
在所述声学特征参数与设定用户相对应时,使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
结合第一方面,在第一方面的第一种可能的实现方式中,所述判断所述声学特征参数是否与设定用户相对应包括:
通过所述声学特征参数、预先注册的设定用户的声纹,及声纹模型计算似然概率,若所述似然概率在预定值范围内,则确定所述声学特征参数与设定用户相对应,若所述似然概率不在预定值范围内,则确定所述声学特征参数与设定用户不对应。
结合第一方面,在第一方面的第二种可能的实现方式中,所述使用所述声学特征参数对当前声学模型的统计参数进行修正包括:
利用当前声学模型对所述声学特征参数进行音素串识别;
将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
结合第一方面的第二种可能的实现方式,在第三种可能实现方式中,所述利用当前声学模型对所述声学特征参数进行音素串识别包括:
计算所述声学特征参数,与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串,所述概率最大的音素串为所识别出的音素串。
结合第一方面的第二种可能的实现方式,或第三种可能实现方式,在第四种可能实现方式中,所述利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正包括:
计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;
根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;
将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
第二方面,本发明实施例提供一种声学模型优化装置,所述装置包括:
第一接收模块,用于接收语音信号;
第一提取模块,用于提取所述语音信号的声学特征参数;
第一判断模块,用于判断所述声学特征参数是否与设定用户相对应;
第一修正模块,用于在所述第一判断模块的判断结果为是时,使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
第三方面,本发明实施例提供一种终端,包括上述所述的声学模型优化装置。
第四方面,本发明实施例提供一种语音唤醒方法,应用于终端设备,所述方法包括:
接收语音信号,提取所述语音信号的声学特征参数;
通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配;
若所述声学特征参数与唤醒词对应的声学特征参数相匹配,生成唤醒信号,对所述终端设备进行唤醒;
所述优化后的声学模型的优化过程包括:在所述终端设备所接收的语音信号的声学特征参数,与设定用户相对应时,使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
第五方面,本发明实施例提供一种语音唤醒装置,应用于终端设备,所述装置包括:
第二接收模块,用于接收语音信号;
第二提取模块,用于提取所述语音信号的声学特征参数;
匹配判断模块,用于通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配;
唤醒模块,用于在所述匹配判断模块的判断结果为是时,生成唤醒信号,对所述终端设备进行唤醒;
声学模型优化模块,用于在所述终端设备所接收的语音信号的声学特征参数,与设定用户相对应时,使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
第六方面,本发明实施例提供一种终端,包括上述所述的语音唤醒装置。
基于上述技术方案,本发明实施例提供的声学模型优化方法,可在所接收的语音信号为设定用户发出时,使用该语音信号的声学特征参数对当前声学模型的统计参数进行修正,从而使得终端设备的声学模型能够与特定用户进行自适应,随着特定用户使用语音的次数和时间的增多,声学模型与特定用户的适应度也将提升,从而提升了对特定用户的语音识别的准确率,降低了对特定用户的语音识别的误识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声学模型优化方法的流程图;
图2为本发明实施例提供的使用声学特征参数对当前声学模型的统计参数进行修正的方法流程图;
图3为本发明实施例提供的对当前声学模型中对应音素的状态的统计参数进行修正的方法流程图;
图4为本发明实施例提供的声学模型优化方法的另一流程图;
图5为本发明实施例提供的声学模型优化装置的结构框图;
图6为本发明实施例提供的第一修正模块的结构框图;
图7为本发明实施例提供的音素串识别单元的结构框图;
图8为本发明实施例提供的参数修正单元的结构框图;
图9为本发明实施例提供的终端设备的结构框图;
图10为本发明实施例提供的语音唤醒方法的流程图;
图11为本发明实施例提供的语音唤醒方法的另一流程图;
图12为本发明实施例提供的语音唤醒装置的结构框图;
图13为本发明实施例提供的语音唤醒装置的另一结构框图;
图14为本发明实施例提供的终端设备的另一结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的声学模型优化方法的流程图,该方法可应用于终端设备,该终端设备可以装载有语音软件,终端设备可以是智能手机,平板电脑,笔记本电脑等终端处理设备;参照图1,该方法可以包括:
步骤S100、接收语音信号,提取所述语音信号的声学特征参数;
用户可对着终端设备的麦克风(microphone)说话,从而使得终端设备接收到语音信号;声学特征参数可以MFCC(Mel Frequency Cepstrum Coefficient,美尔频率倒谱系数)参数,基频参数等。
步骤S110、判断所述声学特征参数是否与设定用户相对应,若是,执行步骤S120,若否,执行步骤S130;
终端设备可预先对设定用户的声学特征参数进行注册,如可针对设定用户进行声纹注册;通过所述声学特征参数,预先注册的设定用户的声纹及声纹模型从而判断出所述声学特征参数是否与设定用户对应;可选的,可通过所述声学特征参数、预先注册的设定用户的声纹,及声纹模型计算似然概率,若所述似然概率在预定值范围内,则确定所述声学特征参数与设定用户相对应,否则,确定所述声学特征参数与设定用户不对应。
步骤S120、使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化;
当前声学模型可以是通用声学模型,如在当前为第一次对声学模型进行优化时;当前声学模型也可以是已对通用声学模型进行优化后的声学模型,如在当前不为第一次对声学模型进行优化时;
当前声学模型的统计参数可以是指当前声学模型中的声学特征参数的统计量,比如MFCC的均值、方差等。
步骤S130、结束流程。
本发明实施例提供的声学模型优化方法,可在所接收的语音信号为设定用户发出时,使用该语音信号的声学特征参数对当前声学模型的统计参数进行修正,从而使得终端设备的声学模型能够与特定用户进行自适应,随着特定用户使用语音的次数和时间的增多,声学模型与特定用户的适应度也将提升,从而提升了对特定用户的语音识别的准确率,降低了对特定用户的语音识别的误识别率。
可选的,图1所示步骤S120使用声学特征参数对当前声学模型的统计参数进行修正的方式可以具有多种,作为优选的方式,本发明实施例可基于音素实现对当前声学模型的统计参数的修正,对应的,图2示出了本发明实施例提供的使用声学特征参数对当前声学模型的统计参数进行修正的方法流程,参照图2,该方法可以包括:
步骤S200、利用当前声学模型对所述声学特征参数进行音素串识别;
可选的,可计算所述声学特征参数与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串,所述概率最大的音素串即为所识别出的音素串。
步骤S210、将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
在音素串识别完成后,可对音素串进行音素级切分,区分各小段语音对应的音素,如“芝麻开门”中的第一个音素为zh,进一步对各音素进行状态级切分,将一个音素分成n个状态;
步骤S220、利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
可选的,图3示出了步骤S220的可选实现方式,参照图3,对当前声学模型中对应音素的状态的统计参数进行修正的方法可以包括:
步骤S300、计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;
步骤S310、根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;
步骤S320、将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
其中,具有步骤S320所确定的模型参数的声学模型即为优化后的声学模型。
可选的,若当前终端设备的资源使用状况较多时,如终端设备的CPU占用率较高时,本发明实施例可在确定语音信号的声学特征参数与设定用户相对应后,先对所述声学特征参数进行存储;直至当前终端设备的资源使用状况达到预定使用状况时,如CPU占用率降低,达到了预定的CPU占用率时,再调用所存储的声学特征参数对当前声学模型的统计参数进行修正。对应的,图4示出了本发明实施例提供的声学模型优化方法的另一流程,参照图4,该方法可以包括:
步骤S400、接收语音信号,提取所述语音信号的声学特征参数;
步骤S410、判断所述声学特征参数是否与设定用户相对应,若否,执行步骤S420,若是,执行步骤S430;
步骤S420、结束流程;
步骤S430、判断终端设备的资源使用状况是否达到预定使用状况,若是,执行步骤S440、若否,执行步骤S450;
步骤S440、使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化;
步骤S450、存储所述声学特征参数,在终端设备的资源使用状况达到预定使用状况时,调用所存储的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
下面对本发明实施例提供的声学模型优化装置进行介绍,下文描述的声学模型优化装置与上文描述的声学模型优化方法可相互对应参照。
图5为本发明实施例提供的声学模型优化装置的结构框图,该装置可应用于终端设备中,终端设备可以装载有语音软件,参照图5,该装置可以包括:
第一接收模块100,用于接收语音信号;
第一提取模块110,用于提取所述语音信号的声学特征参数;
第一判断模块120,用于判断所述声学特征参数是否与设定用户相对应;
第一修正模块130,用于在第一判断模块120的判断结果为是时,使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
可选的,第一判断模块120可通过所述声学特征参数、预先注册的设定用户的声纹,及声纹模型计算似然概率,若所述似然概率在预定值范围内,则确定所述声学特征参数与设定用户相对应,否则,确定所述声学特征参数与设定用户不对应。
可选的,图6示出了第一修正模块130的一种可选结构,参照图6,第一修正模块130可以包括:
音素串识别单元131,用于利用当前声学模型对所述声学特征参数进行音素串识别;
状态切分单元132,用于将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
参数修正单元133,用于利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
可选的,图7示出了音素串识别单元131的一种可选结构,参照图7,音素串识别单元131可以包括:
第一计算子单元1311,用于计算所述声学特征参数,与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串;
第一确定子单元1312,用于将所述概率最大的音素串确定为所识别出的音素串。
可选的,图8示出了参数修正单元133的一种可选结构,参照图8,参数修正单元133可以包括:
第二计算子单元1331,用于计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;
调整子单元1332,用于根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;
第二确定子单元1333,用于将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
可选的,若当前终端设备的资源使用状况较多时,如终端设备的CPU占用率较高时,本发明实施例可在确定语音信号的声学特征参数与设定用户相对应后,先对所述声学特征参数进行存储;直至当前终端设备的资源使用状况达到预定使用状况时,如CPU占用率降低,达到了预定的CPU占有率时,再调用所存储的声学特征参数对当前声学模型的统计参数进行修正。
本发明实施例提供的声学模型优化装置能够使得终端设备的声学模型与特定用户进行自适应,从而提升了对特定用户的语音识别的准确率,降低了对特定用户的语音识别的误识别率。
本发明实施例还提供一种终端,该终端可以是装载有语音软件的终端,该终端可以包括上文所述的声学模型优化装置,对于声学模型优化装置的描述可参照上文图5~图8部分的描述,此处不再赘述。
下面对本发明实施例提供的具有声学模型优化功能的终端设备的硬件结构进行描述,下文描述中涉及声学模型优化方法的内容可参与上文对应部分的描述。图9为本发明实施例提供的终端设备的结构框图,终端设备可能是包含计算能力的手机,平板电脑等智能移动终端,本发明具体实施例并不对终端设备的具体实现做限定,参照图9,终端设备可以包括:处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1,用于执行程序;
存储器3,用于存放程序;
程序可以包括程序代码,所述程序代码包括计算机操作指令。
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
接收语音信号,提取所述语音信号的声学特征参数;
判断所述声学特征参数是否与设定用户相对应;
在所述声学特征参数与设定用户相对应时,使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
下面对本发明实施例提供的语音唤醒方法进行介绍,下文描述的语音唤醒方法基于上文描述的声学模型优化方法,对于涉及声学模型优化方法的内容可参照上文对应部分的描述。
图10为本发明实施例提供的语音唤醒方法的流程图,该方法应用于终端设备,该终端设备可以装载有语音软件,终端设备可以是智能手机,平板电脑,笔记本电脑等终端处理设备;参照图10,该方法可以包括:
步骤S500、接收语音信号,提取所述语音信号的声学特征参数;
步骤S510、通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配,若是,执行步骤S520,若否,执行步骤S530;
优化后的声学模型可以是采用图1~图4所示的声学模型优化方法进行优化的声学模型;优化后的声学模型的优化过程可以为:在终端设备所接收的语音信号的声学特征参数,与设定用户相对应时,使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化;
唤醒词对应的声学特征参数可以是预先设定的语音信号所对应的声学特征参数,如设置唤醒词为“芝麻开门”,则唤醒词对应的声学特征参数即是“芝麻开门”这一语音所对应的声学特征参数。
步骤S520、生成唤醒信号,对所述终端设备进行唤醒;
对终端设备进行唤醒可以是解除终端设备的锁屏,开启语音软件等。
步骤S530、结束流程。
可选的,本发明实施例可基于音素实现对当前声学模型的统计参数的修正,实现方式可以为:利用当前声学模型对所接收的语音信号的声学特征参数进行音素串识别;将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
可选的,本发明实施例进行音素串识别的实现方式可以为:计算所接收的语音信号的声学特征参数,与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串,所述概率最大的音素串为所识别出的音素串。
可选的,本发明实施例利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正的实现方式可以为:计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
可选的,本发明实施例可通过所接收的语音信号的声学特征参数再次得对优化后的声学模型进行优化;对应的图11示出了本发明实施例提供的语音唤醒方法的另一流程,参照图11,该方法可以包括:
步骤S600、接收语音信号,提取所述语音信号的声学特征参数;
步骤S610、通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配,若否,执行步骤S620,若是,执行步骤S630;
步骤S620、结束流程;
步骤S630、生成唤醒信号,对所述终端设备进行唤醒;
步骤S640、在生成唤醒信号后,判断所述声学特征参数是否与设定用户相对应,若否,执行步骤S650,若是,执行步骤S660;
步骤S650、结束流程;
步骤S660、存储所述声学特征参数;
步骤S670、判断终端设备的资源使用状况是否达到预定使用状况,若是,执行步骤S680,若否,执行步骤S670;
步骤S680、使用所存储的声学特征参数对所述优化后的声学模型的统计参数进行修正,以对优化后的声学模型再次进行优化。
本发明实施例提供的语音唤醒方法使用优化后的声学模型进行终端设备的唤醒,而优化后的声学模型能够与特定用户进行自适应,使得语音唤醒能够针对特定用户提高识别准确率、降低误识率。
下面对本发明实施例提供的语音唤醒装置进行描述,下文描述的语音唤醒装置与上文描述的语音唤醒方法可相互对应参照。
图12为本发明实施例提供的语音唤醒装置的结构框图,该装置可应用于终端设备,终端设备可以是装载有语音软件的终端设备,参照图12,该装置可以包括:
第二接收模块200,用于接收语音信号;
第二提取模块210,用于提取所述语音信号的声学特征参数;
匹配判断模块220,用于通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配;
唤醒模块230,用于在匹配判断模块220的判断结果为是时,生成唤醒信号,对所述终端设备进行唤醒;
声学模型优化模块240,用于在所述终端设备所接收的语音信号的声学特征参数,与设定用户相对应时,使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
可选的,声学模型优化模块240可以包括:
音素串识别单元,用于利用当前声学模型对所述声学特征参数进行音素串识别;
状态切分单元,用于将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
参数修正单元,用于利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
可选的,音素串识别单元可以包括:
第一计算子单元,用于计算所述声学特征参数,与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串;
第一确定子单元,用于将所述概率最大的音素串确定为所识别出的音素串。
可选的,参数修正单元可以包括:
第二计算子单元,用于计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;
调整子单元,用于根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;
第二确定子单元,用于将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
图13为本发明实施例提供的语音唤醒装置的另一结构框图,结合图12和图13所示,该装置还可以包括:
身份判断模块250,用于在唤醒模块230在生成唤醒信号后,判断所述声学特征参数是否与设定用户相对应;
存储模块260,用于在身份判断模块250的判断结果为是时,存储所述声学特征参数;
资源使用状况判断模块270,用于判断所述终端设备的资源使用状况是否达到预定使用状况;
优化触发模块280,用于在资源使用状况判断模块270的判断结果为是时,触发声学模型优化模块240使用所存储的声学特征参数对所述优化后的声学模型的统计参数进行修正,以对所述优化后的声学模型进行优化。
本发明实施例提供的语音唤醒装置使用优化后的声学模型进行终端设备的唤醒,而优化后的声学模型能够与特定用户进行自适应,使得语音唤醒能够针对特定用户提高识别准确率、降低误识率。
本发明实施例还提供一种终端,该终端可以是装载有语音软件的终端,该终端可以包括上述所述的语音唤醒装置,对于语音唤醒装置的描述可参照上文对应部分,此处不再赘述。
下面对本发明实施例提供的具有语音唤醒功能的终端设备的硬件结构进行介绍,下文介绍中涉及语音唤醒的部分可与上文描述的语音唤醒方法相对应参照。
图14为本发明实施例提供的终端设备的另一结构框图,终端设备可能是包含计算能力的手机,平板电脑等智能移动终端,本发明具体实施例并不对终端设备的具体实现做限定。参照图14,终端设备可以包括:处理器1’,通信接口2’,存储器3’和通信总线4’;
其中处理器1’、通信接口2’、存储器3’通过通信总线4’完成相互间的通信;
处理器1’,用于执行程序;
存储器3’,用于存放程序;
程序可以包括程序代码,所述程序代码包括计算机操作指令。
处理器1’可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3’可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
接收语音信号,提取所述语音信号的声学特征参数;
通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配;
若所述声学特征参数与唤醒词对应的声学特征参数相匹配,生成唤醒信号,对所述终端设备进行唤醒;
所述优化后的声学模型的优化过程包括:在所述终端设备所接收的语音信号的声学特征参数,与设定用户相对应时,使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种声学模型优化方法,其特征在于,包括:
接收语音信号,提取所述语音信号的声学特征参数;
判断所述声学特征参数是否与设定用户相对应;
在所述声学特征参数与设定用户相对应时,使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化,从而提高对所述设定用户的语音识别的准确率;
其中,所述使用所述声学特征参数对当前声学模型的统计参数进行修正包括:
利用当前声学模型对所述声学特征参数进行音素串识别;
将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
2.根据权利要求1所述的方法,其特征在于,所述判断所述声学特征参数是否与设定用户相对应包括:
通过所述声学特征参数、预先注册的设定用户的声纹,及声纹模型计算似然概率,若所述似然概率在预定值范围内,则确定所述声学特征参数与设定用户相对应,若所述似然概率不在预定值范围内,则确定所述声学特征参数与设定用户不对应。
3.根据权利要求1所述的方法,其特征在于,所述利用当前声学模型对所述声学特征参数进行音素串识别包括:
计算所述声学特征参数,与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串,所述概率最大的音素串为所识别出的音素串。
4.根据权利要求1或3所述的方法,其特征在于,所述利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正包括:
计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;
根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;
将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
5.一种声学模型优化装置,其特征在于,包括:
第一接收模块,用于接收语音信号;
第一提取模块,用于提取所述语音信号的声学特征参数;
第一判断模块,用于判断所述声学特征参数是否与设定用户相对应;
第一修正模块,用于在所述第一判断模块的判断结果为是时,使用所述声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化,从而提高对所述设定用户的语音识别的准确率;
其中,所述第一修正模块包括:
音素串识别单元,用于利用当前声学模型对所述声学特征参数进行音素串识别;
状态切分单元,用于将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
参数修正单元,用于利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
6.根据权利要求5所述的装置,其特征在于,所述音素串识别单元包括:
第一计算子单元,用于计算所述声学特征参数,与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串;
第一确定子单元,用于将所述概率最大的音素串确定为所识别出的音素串。
7.根据权利要求5或6所述的装置,其特征在于,所述参数修正单元包括:
第二计算子单元,用于计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;
调整子单元,用于根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;
第二确定子单元,用于将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
8.一种终端,其特征在于,包括权利要求5-7任一项所述的声学模型优化装置。
9.一种语音唤醒方法,其特征在于,应用于终端设备,所述方法包括:
接收语音信号,提取所述语音信号的声学特征参数;
通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配;
若所述声学特征参数与唤醒词对应的声学特征参数相匹配,生成唤醒信号,对所述终端设备进行唤醒;
所述优化后的声学模型的优化过程包括:在所述终端设备所接收的语音信号的声学特征参数,与设定用户相对应时,使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化,从而提高对所述设定用户的语音识别的准确率;
其中,所述使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正包括:
利用当前声学模型对所接收的语音信号的声学特征参数进行音素串识别;
将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
10.根据权利要求9所述的方法,其特征在于,所述利用当前声学模型对所述声学特征参数进行音素串识别包括:
计算所接收的语音信号的声学特征参数,与当前声学模型中的每个音素的特征参数的统计参数的似然概率,得到概率最大的音素串,所述概率最大的音素串为所识别出的音素串。
11.根据权利要求9或10所述的方法,其特征在于,所述利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正包括:
计算各音素的每个状态所对应的声学特征参数,和当前声学模型中对应音素的状态的统计参数的似然概率;
根据所述似然概率计算更新因子,使用所述更新因子调整当前声学模型中对应音素的状态的统计参数,使得统计参数和对应声学特征参数的差值减小;
将调整后的当前声学模型中对应音素的状态的统计参数,确定为声学模型的模型参数。
12.根据权利要求9所述的方法,其特征在于,还包括:
在生成唤醒信号后,判断所述声学特征参数是否与设定用户相对应;
在所述声学特征参数与设定用户相对应时,存储所述声学特征参数;
在所述终端设备的资源使用状况达到预定使用状况时,使用所存储的声学特征参数对所述优化后的声学模型的统计参数进行修正,以对所述优化后的声学模型再次进行优化。
13.一种语音唤醒装置,其特征在于,应用于终端设备,所述装置包括:
第二接收模块,用于接收语音信号;
第二提取模块,用于提取所述语音信号的声学特征参数;
匹配判断模块,用于通过优化后的声学模型检测所述声学特征参数,是否与唤醒词对应的声学特征参数相匹配;
唤醒模块,用于在所述匹配判断模块的判断结果为是时,生成唤醒信号,对所述终端设备进行唤醒;
声学模型优化模块,用于在所述终端设备所接收的语音信号的声学特征参数,与设定用户相对应时,使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正,以对当前声学模型进行优化,从而提高对所述设定用户的语音识别的准确率;
其中,所述使用所接收的语音信号的声学特征参数对当前声学模型的统计参数进行修正包括:
利用当前声学模型对所接收的语音信号的声学特征参数进行音素串识别;
将所识别的音素串中的各音素进行状态级切分,将一个音素分成若干个状态;
利用各音素的每个状态所对应的声学特征参数,对当前声学模型中对应音素的状态的统计参数进行修正。
14.根据权利要求13所述的装置,其特征在于,还包括:
身份判断模块,用于在所述唤醒模块在生成唤醒信号后,判断所述声学特征参数是否与设定用户相对应;
存储模块,用于在所述身份判断模块的判断结果为是时,存储所述声学特征参数;
资源使用状况判断模块,用于判断所述终端设备的资源使用状况是否达到预定使用状况;
优化触发模块,用于在所述资源使用状况判断模块的判断结果为是时,触发所述声学模型优化模块使用所存储的声学特征参数对所述优化后的声学模型的统计参数进行修正,以对所述优化后的声学模型再次进行优化。
15.一种终端,其特征在于,包括权利要求13或14所述的语音唤醒装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310603784.2A CN103632667B (zh) | 2013-11-25 | 2013-11-25 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310603784.2A CN103632667B (zh) | 2013-11-25 | 2013-11-25 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103632667A CN103632667A (zh) | 2014-03-12 |
CN103632667B true CN103632667B (zh) | 2017-08-04 |
Family
ID=50213644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310603784.2A Active CN103632667B (zh) | 2013-11-25 | 2013-11-25 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103632667B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104103272B (zh) * | 2014-07-15 | 2017-10-10 | 无锡中感微电子股份有限公司 | 语音识别方法、装置和蓝牙耳机 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN104464723B (zh) * | 2014-12-16 | 2018-03-20 | 科大讯飞股份有限公司 | 一种语音交互方法及系统 |
CN104616655B (zh) * | 2015-02-05 | 2018-01-16 | 北京得意音通技术有限责任公司 | 声纹模型自动重建的方法和装置 |
EP3282445A4 (en) | 2015-04-10 | 2018-05-02 | Huawei Technologies Co. Ltd. | Voice recognition method, voice wake-up device, voice recognition device and terminal |
CN105161092B (zh) * | 2015-09-17 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN106653010B (zh) * | 2015-11-03 | 2020-07-24 | 络达科技股份有限公司 | 电子装置及其透过语音辨识唤醒的方法 |
CN105609103A (zh) * | 2015-12-18 | 2016-05-25 | 合肥寰景信息技术有限公司 | 一种语音即时识别系统 |
CN105590625A (zh) * | 2016-03-18 | 2016-05-18 | 上海语知义信息技术有限公司 | 声学模型自适应方法及系统 |
CN105654955B (zh) * | 2016-03-18 | 2019-11-12 | 华为技术有限公司 | 语音识别方法及装置 |
CN105845130A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 用于语音识别的声学模型训练方法及装置 |
CN107545889B (zh) * | 2016-06-23 | 2020-10-23 | 华为终端有限公司 | 适用于模式识别的模型的优化方法、装置及终端设备 |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
CN106611597B (zh) * | 2016-12-02 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
US20190043295A1 (en) * | 2017-08-07 | 2019-02-07 | Microchip Technology Incorporated | Voice-Activated Actuation of Automotive Features |
CN107610702B (zh) * | 2017-09-22 | 2021-01-29 | 百度在线网络技术(北京)有限公司 | 终端设备待机唤醒方法、装置及计算机设备 |
CN107910008B (zh) * | 2017-11-13 | 2021-06-11 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN108389577B (zh) * | 2018-02-12 | 2019-05-31 | 广州视源电子科技股份有限公司 | 优化语音识别声学模型的方法、系统、设备及存储介质 |
CN110555918B (zh) * | 2018-06-01 | 2022-04-26 | 杭州海康威视数字技术股份有限公司 | 考勤管理的方法和考勤管理设备 |
CN109448720A (zh) * | 2018-12-18 | 2019-03-08 | 维拓智能科技(深圳)有限公司 | 便民服务自助终端及其语音唤醒方法 |
CN110473536B (zh) * | 2019-08-20 | 2021-10-15 | 北京声智科技有限公司 | 一种唤醒方法、装置和智能设备 |
CN110600008A (zh) * | 2019-09-23 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 语音唤醒的优化方法及系统 |
US11741943B2 (en) * | 2020-04-27 | 2023-08-29 | SoundHound, Inc | Method and system for acoustic model conditioning on non-phoneme information features |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1841496A (zh) * | 2005-03-31 | 2006-10-04 | 株式会社东芝 | 测量语速的方法和装置以及录音设备 |
CN102510426A (zh) * | 2011-11-29 | 2012-06-20 | 安徽科大讯飞信息科技股份有限公司 | 个人助理应用访问方法及系统 |
CN202512508U (zh) * | 2012-02-17 | 2012-10-31 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒装置 |
CN102929390A (zh) * | 2012-10-16 | 2013-02-13 | 广东欧珀移动通信有限公司 | 一种在待机状态下应用程序的启动方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW490655B (en) * | 2000-12-27 | 2002-06-11 | Winbond Electronics Corp | Method and device for recognizing authorized users using voice spectrum information |
JP3836815B2 (ja) * | 2003-05-21 | 2006-10-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
KR101154011B1 (ko) * | 2010-06-07 | 2012-06-08 | 주식회사 서비전자 | 다중 모델 적응화와 음성인식장치 및 방법 |
CN102915731B (zh) * | 2012-10-10 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 一种个性化的语音识别的方法及装置 |
-
2013
- 2013-11-25 CN CN201310603784.2A patent/CN103632667B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1841496A (zh) * | 2005-03-31 | 2006-10-04 | 株式会社东芝 | 测量语速的方法和装置以及录音设备 |
CN102510426A (zh) * | 2011-11-29 | 2012-06-20 | 安徽科大讯飞信息科技股份有限公司 | 个人助理应用访问方法及系统 |
CN202512508U (zh) * | 2012-02-17 | 2012-10-31 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒装置 |
CN102929390A (zh) * | 2012-10-16 | 2013-02-13 | 广东欧珀移动通信有限公司 | 一种在待机状态下应用程序的启动方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103632667A (zh) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103632667B (zh) | 声学模型优化方法、装置及语音唤醒方法、装置和终端 | |
CN105009204B (zh) | 语音识别功率管理 | |
CN106653010B (zh) | 电子装置及其透过语音辨识唤醒的方法 | |
CN110428810B (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
EP3274988B1 (en) | Controlling electronic device based on direction of speech | |
CN105575395A (zh) | 语音唤醒方法及装置、终端及其处理方法 | |
EP2946383B1 (en) | Methods and apparatus for detecting a voice command | |
CN110070857B (zh) | 语音唤醒模型的模型参数调整方法及装置、语音设备 | |
CN106448663A (zh) | 语音唤醒方法及语音交互装置 | |
CN110534102B (zh) | 一种语音唤醒方法、装置、设备及介质 | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
CN105556920A (zh) | 用于控制对应用程序的访问的方法和设备 | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
JP2007501444A (ja) | 信号対雑音比による音声認識方法 | |
WO2021179854A1 (zh) | 声纹唤醒方法及装置、设备、存储介质 | |
CN106796785A (zh) | 用于产生声音检测模型的声音样本验证 | |
CN106940998A (zh) | 一种设定操作的执行方法及装置 | |
CN110544468B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN110364153A (zh) | 一种分布式语音控制方法、系统、计算机设备及存储介质 | |
CN109313903A (zh) | 语音用户接口 | |
CN110473536B (zh) | 一种唤醒方法、装置和智能设备 | |
CN105210146A (zh) | 用于控制语音激活的方法和设备 | |
CN110890093A (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN103456305A (zh) | 终端和基于多个声音采集单元的语音处理方法 | |
CN111462756A (zh) | 声纹识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220216 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Patentee after: Huawei Cloud Computing Technologies Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |