CN113096652A - 语音唤醒方法及芯片系统 - Google Patents
语音唤醒方法及芯片系统 Download PDFInfo
- Publication number
- CN113096652A CN113096652A CN202010022883.1A CN202010022883A CN113096652A CN 113096652 A CN113096652 A CN 113096652A CN 202010022883 A CN202010022883 A CN 202010022883A CN 113096652 A CN113096652 A CN 113096652A
- Authority
- CN
- China
- Prior art keywords
- voice
- keyword
- detection module
- module
- chip system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 121
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000004913 activation Effects 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000003860 storage Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 23
- 230000003068 static effect Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 12
- 230000007246 mechanism Effects 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Power Sources (AREA)
Abstract
本发明提供了一种语音唤醒方法、芯片系统及计算机可读存储介质,语音唤醒方法包括如下步骤:在低功耗模式下,语音采集模块生成语音电信号;第一语音检测模块进行第一次语音特征计算处理和初级判断;在二次唤醒模式下,第二语音检测模块提取关键词语音特征,将关键词语音特征与其关键词训练模型特征库中预存的关键词语音特征进行匹配,若匹配正确,则芯片系统进入激活模式,否则将第二语音检测模块断电,芯片系统退回低功耗模式;激活模式下,芯片系统启动各功能应用模块工作。本发明的语音唤醒方法、芯片系统及计算机可读存储介质能有效的控制功耗,使得应用本技术方案的产品或设备在语音唤醒过程中处于低功耗状态并能提升唤醒率。
Description
【技术领域】
本发明涉及语音唤醒技术领域,尤其涉及一种语音唤醒方法及芯片系统。
【背景技术】
目前,随着语音唤醒技术不断发展,通过语音唤醒方式实现用户与产品进行互动的应用越来越广泛,其中,例如智能音箱、机顶盒、智能手机、平板电脑等越来越多使用语音唤醒功能。
相关技术的语音唤醒的技术方案一般有四个方案:
方案一为整个语音识别系统工作模块,等待关键词唤醒指令(比如“天猫精灵”“小爱同学”“Alexa”),唤醒指令唤醒后连接网络接受语音命令(比如“今天的天气”“我想听刘德华的歌”),然后云端进行语音识别和语义识别解析成语音命令(“珠海今天的天气”“网络上检索歌手刘德华的歌”)然后反馈回设备执行该语音命令。这类产品代表有:亚马逊ECHO音箱,阿里巴巴的天猫精灵,小米音箱,腾讯听听,科大讯飞音箱等等市面上的非常流行产品。然而,这类设备在等待关键词唤醒指令的时候功耗非常高,整个系统中的硬件模块基本都是供电工作的,导致基本都只能市电供电。
方案二为方案一的改进版,在方案一的语音识别系统上增加一个专用语音唤醒芯片,在等待语音唤醒指令的时候将执行应用处理的芯片关电,然后留语音唤醒芯片和语音采集的麦克风工作,当有关键词唤醒语音来的时候,唤醒芯片检测到唤醒命令后再给后面高功耗的应用处理的芯片上电重启,而应用处理芯片上电后加载WIFI联网然后接收关键词后的正常交互语音命令。然而,这类设备在因为分离的双芯片,导致关键词唤醒后再去上电工作应用处理芯片,而应用处理芯片的系统非常复杂,启动比较慢,存在响应时间和体验问题,同时语音唤醒芯片本身的功耗还是相对比较大。
方案三为在方案二的基础上进一步优化功耗的方案:将语音唤醒芯片简化,然后放在数字麦克风中,这样产品依然还是只有应用处理器和麦克风,目标是带有唤醒识别芯片的麦克风在等待关键词唤醒的低功耗状态下供电工作,应用处理器芯片这边可以不供电工作,这个方案可以节省方案的一颗芯片。然而,这类设备为了能够整合到麦克风中在尝试将语音识别芯片更接近麦克风降低噪声想省掉关键词识别的计算量从而节省功耗和面积,但是因为这颗关键词识别唤醒芯片为了低功耗只能省计算量也就会牺牲关键词识别率等性能指标,唤醒体验非常不好,同时麦克风中的语音唤醒芯片不能缓存语音数据供应用处理器二次唤醒和处理,这种方案的误唤醒率会非常高;另外,这个方式只能整合数字麦克风,数字麦克风价格贵,依然没有解决掉启动时间和体验问题。
方案四为端-云方式,设备端只做低运算量的关键词唤醒词识别,然后联网在云端做二次关键词唤醒词识别,识别完成后才能进行后续的语音交互命令。这个方式目的是上设备端关键词识别的运算量降下来省功耗,同时云端二次唤醒词识别的准备性来解决准确性这个体验问题。然而,这类设备的方案因为关键词唤醒就得联网,而联网方式本身功耗就不小,同时还有网络稳定性和延时大的弊端。
因此,实有必要提供一种新的方法和系统来解决上述技术问题。
【发明内容】
本发明的目的是提供一种在等待语音唤醒指令休眠时的功耗低的语音唤醒方法、芯片系统及计算机可读存储介质,使得用户的体验的良好,并使得等待关键词唤醒状态的功耗最省。
为了实现上述目的,本发明提供一种语音唤醒方法,该方法包括如下步骤:
在低功耗模式下,语音采集模块采集语音生成语音电信号并发送至第一语音检测模块;
所述第一语音检测模块对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断,若所述初级判断结果得到所述语音电信号为关键词语音信号,则第二语音检测模块上电工作进入到二次唤醒模式;
在所述二次唤醒模式下,所述第二语音检测模块接收所述第一语音检测模块发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与其的关键词训练模型特征库中预存的关键词语音特征进行匹配,若匹配正确,则芯片系统进入激活模式,否则将所述第二语音检测模块断电,所述芯片系统退回所述低功耗模式;
所述激活模式下,所述芯片系统启动各功能应用模块工作。
更优的,所述二次唤醒模式下,若在预设时间内无任务处理,所述芯片系统退回所述低功耗模式,所述第二语音检测模块断电。
更优的,所述初级判断方法包括:
所述第一语音检测模块将所述语音电信号的语音特征与预存的所述关键词语音信号的语音特征进行匹配比对;其中,所述语音特征包括语音能量、频谱及时间。
更优的,所述步骤还包括:
所述第一语音检测模块将所述语音电信号存储于静态随机存取存储器,并记录所述关键词语音信号中所述关键词的开始位置点和长度;其中,所述静态随机存取存储器设置于所述第一语音检测模块内;
所述第二语音检测模块上电工作后,所述第一语音检测模块将所述静态随机存取存储器存储的该关键词语音信号发送至所述第二语音检测模块,所述第二语音检测模块启动读取所述关键词的开始位置点和长度进行计算、并与所述关键词训练模型特征库中预存的关键词语音特征进行匹配。
更优的,在所述二次唤醒模式下,所述步骤还包括:
所述芯片系统通过数据连接更新所述关键词语音特征、所述关键词语音信号及所述关键词训练模型特征库中的所述语音特征;其中,所述数据连接包括互联网、蓝牙、WI-FI、3G、4G及5G。
更优的,所述激活模式下,所述芯片系统启动各功能应用模块工作步骤包括:
所述芯片系统启动第一模块上电工作后,可同时启动其他各所述功能应用模块上电工作,启动的所述功能应用模块均用于实现已匹配的所述关键词语音特征相应的功能;
其中,所述功能应用模块至少包括一种:数字信号处理器、中央处理器、直接存储器访问单元、双倍速率同步动态随机存储器、闪存、WI-FI模块以及显示模组。
更优的,所述低功耗模式下,所述语音采集模块采集语音生成所述语音电信号并发送至所述第一语音检测模块具体为:
在所述低功耗模式下,配置低功耗的数字麦克风电路或模拟麦克风电路采集语音;
本发明还提供一种芯片系统,该芯片系统包括处理器和存储器,所述处理器用于读取所述存储器中的程序,执行如上述内容中的任一项所述的语音唤醒方法中的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有执行如上述内容中任一项所述的语音唤醒方法的步骤。
本发明还提供一种芯片系统,所述芯片系统包括:
语音采集模块,所述语音采集模块用于采集语音生成语音电信号并发送;
第一语音检测模块,所述第一语音检测模块与所述语音采集模块电连接;所述第一语音检测模块用于对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断;
第二语音检测模块,所述第二语音检测模块与所述第一语音检测模块电连接;所述第二语音检测模块包括关键词训练模型特征库;若所述初级判断结果得到所述语音电信号为关键词语音信号,则所述第二语音检测模块上电工作进入到二次唤醒模式;所述第二语音检测模块用于接收所述第一语音检测模块发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与所述关键词训练模型特征库中预存的关键词语音特征进行匹配;其中,若匹配正确,则由芯片系统进入激活模式,所述芯片系统启动各功能应用模块工作;否则将所述第二语音检测模块断电,所述芯片系统退回所述低功耗模式;
功能应用模块,所述功能应用模块与所述第二语音检测模块电连接;所述功能应用模块包括第一模块;所述功能应用模块用于通过实现已匹配的所述关键词语音特征相应的功能。
更优的,所述第一语音检测模块还用于将所述语音电信号的语音特征与预存的所述关键词语音信号的语音特征进行匹配比对;其中,所述语音特征包括语音能量、频谱及时间。
更优的,所述第一语音检测模块包括静态随机存取存储器;所述第一语音检测模块用于将所述语音电信号存储于静态随机存取存储器,并记录所述关键词语音信号中所述关键词的开始位置点和长度;所述第二语音检测模块上电工作后,所述第一语音检测模块用于将所述静态随机存取存储器存储的该关键词语音信号发送至所述第二语音检测模块,所述第二语音检测模块用于启动读取所述关键词的开始位置点和长度进行计算、并与所述关键词训练模型特征库中预存的关键词语音特征进行匹配。
更优的,在所述二次唤醒模式下,所述芯片系统用于通过数据连接更新所述关键词语音特征、所述关键词语音信号及所述关键词训练模型特征库中的所述语音特征;其中,所述数据连接包括互联网、蓝牙、WI-FI、3G、4G及5G。
更优的,所述功能应用模块至少包括其中一种:数字信号处理器、中央处理器、直接存储器访问单元、双倍速率同步动态随机存储器、闪存、WI-FI模块以及显示模组。
与现有技术相比,本发明的一种语音唤醒方法、芯片系统及计算机可读存储介质通过如下步骤:在低功耗模式下,语音采集模块采集语音生成语音电信号并发送至第一语音检测模块;所述第一语音检测模块对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断,若所述初级判断结果得到所述语音电信号为关键词语音信号,则第二语音检测模块上电工作进入到二次唤醒模式;在所述二次唤醒模式下,所述第二语音检测模块接收所述第一语音检测模块发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与其的关键词训练模型特征库中预存的关键词语音特征进行匹配,若匹配正确,则芯片系统进入激活模式,否则将所述第二语音检测模块断电,所述芯片系统退回所述低功耗模式;所述激活模式下,所述芯片系统启动各功能应用模块工作。综合上述,本发明的语音唤醒方法、芯片系统及计算机可读存储介质通过将芯片系统中的功能模块进行电源切分,并通过在语音唤醒到实际工作中设置了三种模式:低功耗模式、二次唤醒模式及激活模式,从而使得使应用本技术方案的产品或设备在等待语音唤醒指令休眠时的功耗低,并因为低功耗功能的实现可以实现便携式可移动化,还可以灵活控制供电电源进而有效的控制功耗,从而使用户体验好。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明语音唤醒方法的流程框图;
图2为本发明语音唤醒方法的一种实施例的流程框图;
图3为本发明芯片系统的结构框图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请同时参考图1-3所示,本发明提供一种语音唤醒方法,所述语音唤醒方法应用于芯片系统100。请参考图3所示,芯片系统100包括语音采集模块1、第一语音检测模块2、第二语音检测模块3以及多个功能应用模块4。其中,第一语音检测模块2包括静态随机存取存储器21;第二语音检测模块3包括关键词训练模型特征库31。
所述语音唤醒方法包括如下步骤:
步骤S1、在低功耗模式下,语音采集模块1采集语音生成语音电信号并发送至第一语音检测模块2。步骤S1为处在芯片系统100等待唤醒期间,芯片系统100只保留语音采集模块1和第一语音检测模块2进行工作,使芯片系统100处于语音唤醒的低功耗模式中工作。该设置使芯片系统100功耗低。
在本实施方式中,步骤S1中,所述语音信号为语音采集模块1通过脉冲编码调制(英文为PulseCodeModulation,简称PCM)生成。当然,其他电子格式的语音信号也是可以采用的。
在本实施方式中,在所述低功耗模式下,第一语音检测模块2具体为:配置低功耗的数字麦克风电路或模拟麦克风电路采集语音。
步骤S2、第一语音检测模块2对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断,若所述初级判断结果得到所述语音电信号为关键词语音信号,则第二语音检测模块3上电工作进入到二次唤醒模式。
其中,所述初级判断方法包括:第一语音检测模块2将所述语音电信号的语音特征与预存的所述关键词语音信号的语音特征进行匹配比对。其中,所述语音特征包括语音能量、频谱及时间。在本实施方式中,所述匹配比对为将所述语音能量与所述时间和/或所述语音能量与所述频谱分别比较是否匹配。
步骤S2为处在芯片系统100等待唤醒期间,芯片系统100只保留语音采集模块1和第一语音检测模块2进行工作,使芯片系统100处于语音唤醒的低功耗模式中工作。该设置使芯片系统100功耗低。
在本实施方式中,步骤S2中还包括:步骤S21、第一语音检测模块2将所述语音电信号存储于静态随机存取存储器21,并记录所述关键词语音信号中所述关键词的开始位置点和长度。其中,静态随机存取存储器21设置于第一语音检测模块2内。该设置使得所述关键词语音信号存储于静态随机存取存储器21不易丢失。
步骤S3、在所述二次唤醒模式下,第二语音检测模块3接收第一语音检测模块2发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与关键词训练模型特征库31中预存的关键词语音特征进行匹配。
若匹配正确,则芯片系统100进入激活模式。即进入步骤S4。
否则将第二语音检测模块3断电,芯片系统100退回所述低功耗模式。
步骤S3该过程使芯片系统100处于二次唤醒模式。既可以保证真实的唤醒词语音能够准确的唤醒系统,同时也能保证非关键词语音的类似语音输入不唤醒系统。这样二次唤醒机制就能最大限度的降低高功耗的芯片系统100功能正常工作被误唤醒的可能,同时又能保证非相似关键词语音输入时候系统一直处理最低功耗的低功耗模式,二次唤醒机制的设计做到语音唤醒的常工作模式下的最低功耗。在其他的应用场景中,例如二次唤醒机制特别是漏电占比非常高的高阶工艺的语音处理的芯片中,这个非常关键和必要的节能效果。
在本实施方式中,步骤S3中还包括:步骤S31、第二语音检测模块3上电工作后,第一语音检测模块2将静态随机存取存储器21存储的该关键词语音信号发送至第二语音检测模块3,第二语音检测模块3启动读取所述关键词的开始位置点和长度进行计算、并与关键词训练模型特征库31中预存的关键词语音特征进行匹配。该设置使得第二语音检测模块3可以快速确认所述关键词,从而使芯片系统100快速启动相应的功能。
在本实施方式中,步骤S3中还包括:步骤S32、芯片系统100通过数据连接更新所述关键词语音特征、所述关键词语音信号及关键词训练模型特征库31中的所述语音特征。其中,所述数据连接包括互联网、蓝牙、WI-FI、3G、4G及5G。该设置使芯片系统100具有自学习自适应机制。
二次唤醒模式下对关键词做二次识别,二次识别可以进一步验证所述关键词识别的结果是否准确无误,如果识别有误则需要更新关键词训练模型特征库31的关键词识别的参数,比如噪声环境的变化或者人员变化导致的语音特征的细微变化等均可以经过这个自学习自适应机制调整,可以不断改进和完善关键词的识别率和误唤醒的指标。
同时关键词训练模型特征库31包括二次唤醒次识别使用的训练库模型,该模型可以根据联网与否和云端做进一步自学习自训练的机制,也可以只单项更新,在云端不断积累的训练库结果满足不同人不同地址方言语色的训练结果,可以采用下载方式更新到关键词训练模型特征库31中,然后更新训练库后就能更加准确的实现所述关键词的识别和匹配。同样针对所述关键词的特征优化的升级或者更新关键词,第二语音检测模块3可以直接接收从云端下载对应参数配置。这个适应调整机制可以满足产品拥有者主动优化关键词唤醒参数的需求。
在本实施方式中,所述二次唤醒模式下,若在预设时间内无任务处理,芯片系统100退回所述低功耗模式,第二语音检测模块3断电。该设置可以使得芯片系统100节能降低待机功耗。
步骤S4、所述激活模式下,芯片系统100启动各功能应用模块4工作。其中,功能应用模块4包括第一模块。
在本实施方式中,步骤S4中还包括:步骤S41、芯片系统100启动所述第一模块上电工作后,可同时启动其他各功能应用模块4上电工作。启动的功能应用模块4均用于实现已匹配的所述关键词语音特征相应的功能。
功能应用模块4至少包括一种:数值信号处理器41(简称DSP)、中央处理器42(简称CPU)、直接存储器访问单元43(简称DMA)、双倍速率同步动态随机存储器44(简称DDR)、闪存45(简称Flash)、WI-FI模块46以及显示模组47。上述模块均为本领域常用的模块器件,在此不做详细描述。还需要指出的是,语音采集模块1、第一语音检测模块2、第二语音检测模块3以及功能应用模块4均为本领域常用的模块器件,在此不做详细描述。
在本实施方式中,所述第一模块为中央处理器42。当然不限于此,其他专用控制器件或者电路模块都可以作为所述第一模块。
本发明芯片系统100针对整个智能语音的功能应用模块4划分成不同的电源模式,不同电源模式下供电的具体的模块不同,通过电源模式去控制各个模块间的供电电源,只有对应的电路模块供电,其他模块彻底断开电源,将漏电电流也省掉。
在步骤S4中,系统处理高性能的且具有高功耗的模块在这个模式下才真正上电,该模式下含有高运算能力的硬件模块,同时启动多路高性能的麦克风采集电路,beamforming,DOE,NS,AEC等预处理算法(算法功能,算法本身可选),同时启动操作系统(可选),连接网络(可选),进行高性能高功耗的随机人机互动的沟通模式。在这个模式下可以连接云端或者特别专用领域的语音识别训练库,可以做远场或近场的语音识别,也可以启动语义识别或情感识别等等,也可以结合视频进行语音-手势识别等等其他高功耗的应用。
本发明还提供一种芯片系统100,包括处理器和存储器,所述处理器用于读取所述存储器中的程序,执行所述语音唤醒方法中的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有所述语音唤醒方法的程序,所述语音唤醒方法的程序被处理器执行时实现所述语音唤醒方法的步骤。
请参考图3所示,芯片系统100的一种实施例。具体为,芯片系统100包括语音采集模块1、第一语音检测模块2、第二语音检测模块3以及功能应用模块4。
语音采集模块1用于采集语音生成语音电信号。
第一语音检测模块2与语音采集模块1电连接。具体的,第一语音检测模块2用于对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断。其中,第一语音检测模块2还用于将所述语音电信号的语音特征与预存的所述关键词语音信号的语音特征进行匹配比对;其中,所述语音特征包括语音能量、频谱及时间。
第二语音检测模块3与第一语音检测模块2电连接。第二语音检测模块3包括关键词训练模型特征库31。若所述初级判断结果得到所述语音电信号为关键词语音信号,则第二语音检测模块3上电工作进入到二次唤醒模式;第二语音检测模块3用于接收第一语音检测模块2发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与关键词训练模型特征库31中预存的关键词语音特征进行匹配。其中,若匹配正确,则由芯片系统100进入激活模式,芯片系统100启动各功能应用模块4工作;否则将第二语音检测模块3断电,芯片系统100退回所述低功耗模式。
在本实施方式中,当所述关键词语音特征与关键词训练模型特征库31中预存的关键词语音特征的匹配不正确时,第二语音检测模块3将所述关键词语音特征发送至第一语音检测模块2以用于其更新特征参数。
功能应用模块4与第二语音检测模块3电连接。功能应用模块4包括多个。功能应用模块4包括第一模块。功能应用模块4用于通过实现已匹配的所述关键词语音特征相应的功能。
功能应用模块4至少包括其中一种:数值信号处理器41(简称DSP)、中央处理器42(简称CPU)、直接存储器访问单元43(简称DMA)、双倍速率同步动态随机存储器44(简称DDR)、闪存45(简称Flash)、WI-FI模块46以及显示模组47。上述模块均为本领域常用的模块器件,在此不做详细描述。还需要指出的是,语音采集模块1、第一语音检测模块2、第二语音检测模块3以及功能应用模块4均为本领域常用的模块器件,在此不做详细描述。
在本实施方式中,在所述二次唤醒模式下,芯片系统100用于通过数据连接更新所述关键词语音特征、所述关键词语音信号及关键词训练模型特征库31中的所述语音特征。其中,所述数据连接包括互联网、蓝牙、WI-FI、3G、4G及5G。该设置使芯片系统100具有自学习自适应机制。
为了可以快速将芯片系统100进行启动。在本实施方式中,第一语音检测模块2包括静态随机存取存储器21;第一语音检测模块2用于将所述语音电信号存储于静态随机存取存储器21,并记录所述关键词语音信号中所述关键词的开始位置点和长度。第二语音检测模块3上电工作后,第一语音检测模块2用于将静态随机存取存储器21存储的该关键词语音信号发送至第二语音检测模块3,第二语音检测模块3用于启动读取所述关键词的开始位置点和长度进行计算、并与所述关键词训练模型特征库中预存的关键词语音特征进行匹配。该过程中静态随机存取存储器21和语音采集模块1不间断工作来实现数据完全不丢失。
其中,所述关键词语音特征匹配确认使芯片系统100从所述二次唤醒模式转入所述激活模式。该过程增加快速启动机制,在进入所述低功耗模式前,对芯片系统100的参数配置做了相应的保存,在从所述二次唤醒模式下起来的时候,直接根据预设状态直接走快速启动流程,恢复芯片系统100的参数配置,从而使芯片系统100能直接正常运作相应的功能,其中,包括麦克风采集系统的多路高性能模式的恢复,还有包括后续连网等,从而使接收语音指令执行的芯片系统100的服务程序过程中,通过快速的启动机制保证整个过程中用户的良好的体验。
与现有技术相比,本发明的一种语音唤醒方法、芯片系统及计算机可读存储介质通过如下步骤:在低功耗模式下,语音采集模块采集语音生成语音电信号并发送至第一语音检测模块;所述第一语音检测模块对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断,若所述初级判断结果得到所述语音电信号为关键词语音信号,则第二语音检测模块上电工作进入到二次唤醒模式;在所述二次唤醒模式下,所述第二语音检测模块接收所述第一语音检测模块发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与其的关键词训练模型特征库中预存的关键词语音特征进行匹配,若匹配正确,则芯片系统进入激活模式,否则将所述第二语音检测模块断电,所述芯片系统退回所述低功耗模式;所述激活模式下,所述芯片系统启动各功能应用模块工作。综合上述,本发明的语音唤醒方法、芯片系统及计算机可读存储介质通过将芯片系统中的功能模块进行电源切分,并通过在语音唤醒到实际工作中设置了三种模式:低功耗模式、二次唤醒模式及激活模式,从而使得使应用本技术方案的产品或设备在等待语音唤醒指令休眠时的功耗低,并因为低功耗功能的实现可以实现便携式可移动化,还可以做到电池供电,从而使用户体验好。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
Claims (14)
1.一种语音唤醒方法,其特征在于,该方法包括如下步骤:
在低功耗模式下,语音采集模块采集语音生成语音电信号并发送至第一语音检测模块;
所述第一语音检测模块对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断,若所述初级判断结果得到所述语音电信号为关键词语音信号,则第二语音检测模块上电工作进入到二次唤醒模式;
在所述二次唤醒模式下,所述第二语音检测模块接收所述第一语音检测模块发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与其的关键词训练模型特征库中预存的关键词语音特征进行匹配,若匹配正确,则芯片系统进入激活模式,否则将所述第二语音检测模块断电,所述芯片系统退回所述低功耗模式;
所述激活模式下,所述芯片系统启动各功能应用模块工作。
2.根据权利要求1所述的语音唤醒方法,其特征在于,所述二次唤醒模式下,若在预设时间内无任务处理,所述芯片系统退回所述低功耗模式,所述第二语音检测模块断电。
3.根据权利要求1所述的语音唤醒方法,其特征在于,所述初级判断方法包括:
所述第一语音检测模块将所述语音电信号的语音特征与预存的所述关键词语音信号的语音特征进行匹配比对;其中,所述语音特征包括语音能量、频谱及时间。
4.根据权利要求1所述的语音唤醒方法,其特征在于,所述步骤还包括:
所述第一语音检测模块将所述语音电信号存储于静态随机存取存储器,并记录所述关键词语音信号中所述关键词的开始位置点和长度;其中,所述静态随机存取存储器设置于所述第一语音检测模块内;
所述第二语音检测模块上电工作后,所述第一语音检测模块将所述静态随机存取存储器存储的该关键词语音信号发送至所述第二语音检测模块,所述第二语音检测模块启动读取所述关键词的开始位置点和长度进行计算、并与所述关键词训练模型特征库中预存的关键词语音特征进行匹配。
5.根据权利要求1所述的语音唤醒方法,其特征在于,在所述二次唤醒模式下,所述步骤还包括:
所述芯片系统通过数据连接更新所述关键词语音特征、所述关键词语音信号及所述关键词训练模型特征库中的所述语音特征;其中,所述数据连接包括互联网、蓝牙、WI-FI、3G、4G及5G。
6.根据权利要求1所述的语音唤醒方法,其特征在于,所述激活模式下,所述芯片系统启动各功能应用模块工作步骤包括:
所述芯片系统启动第一模块上电工作后,可同时启动其他各所述功能应用模块上电工作,启动的所述功能应用模块均用于实现已匹配的所述关键词语音特征相应的功能;
其中,所述功能应用模块至少包括一种:数字信号处理器、中央处理器、直接存储器访问单元、双倍速率同步动态随机存储器、闪存、WI-FI模块以及显示模组。
7.根据权利要求1所述的语音唤醒方法,其特征在于,所述低功耗模式下,所述语音采集模块采集语音生成所述语音电信号并发送至所述第一语音检测模块具体为:
在所述低功耗模式下,配置低功耗的数字麦克风电路或模拟麦克风电路采集语音。
8.一种芯片系统,其特征在于,所述芯片系统包括:
语音采集模块,所述语音采集模块用于采集语音生成语音电信号并发送;
第一语音检测模块,所述第一语音检测模块与所述语音采集模块电连接;所述第一语音检测模块用于对所述语音电信号进行第一次语音特征计算处理,根据处理结果进行关键词语音特征匹配的初级判断;
第二语音检测模块,所述第二语音检测模块与所述第一语音检测模块电连接;所述第二语音检测模块包括关键词训练模型特征库;若所述初级判断结果得到所述语音电信号为关键词语音信号,则所述第二语音检测模块上电工作进入到二次唤醒模式;所述第二语音检测模块用于接收所述第一语音检测模块发送的所述关键词语音信号,根据所述关键词语音信号提取关键词语音特征,将所述关键词语音特征与所述关键词训练模型特征库中预存的关键词语音特征进行匹配;其中,若匹配正确,则由芯片系统进入激活模式,所述芯片系统启动各功能应用模块工作;否则将所述第二语音检测模块断电,所述芯片系统退回所述低功耗模式;
功能应用模块,所述功能应用模块与所述第二语音检测模块电连接;所述功能应用模块包括第一模块;所述功能应用模块用于通过实现已匹配的所述关键词语音特征相应的功能。
9.根据权利要求8所述的芯片系统,其特征在于,所述第一语音检测模块还用于将所述语音电信号的语音特征与预存的所述关键词语音信号的语音特征进行匹配比对;其中,所述语音特征包括语音能量、频谱及时间。
10.根据权利要求8所述的芯片系统,其特征在于,所述第一语音检测模块包括静态随机存取存储器;所述第一语音检测模块用于将所述语音电信号存储于静态随机存取存储器,并记录所述关键词语音信号中所述关键词的开始位置点和长度;所述第二语音检测模块上电工作后,所述第一语音检测模块用于将所述静态随机存取存储器存储的该关键词语音信号发送至所述第二语音检测模块,所述第二语音检测模块用于启动读取所述关键词的开始位置点和长度进行计算、并与所述关键词训练模型特征库中预存的关键词语音特征进行匹配。
11.根据权利要求8所述的芯片系统,其特征在于,在所述二次唤醒模式下,所述芯片系统用于通过数据连接更新所述关键词语音特征、所述关键词语音信号及所述关键词训练模型特征库中的所述语音特征;其中,所述数据连接包括互联网、蓝牙、WI-FI、3G、4G及5G。
12.根据权利要求8所述的芯片系统,其特征在于,所述功能应用模块至少包括其中一种:数字信号处理器、中央处理器、直接存储器访问单元、双倍速率同步动态随机存储器、闪存、WI-FI模块以及显示模组。
13.一种芯片系统,其特征在于,该芯片系统包括处理器和存储器,所述处理器用于读取所述存储器中的程序,执行如权利要求1至7中的任一项所述的语音唤醒方法中的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有执行如权利要求1至7中任一项所述的语音唤醒方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010022883.1A CN113096652A (zh) | 2020-01-09 | 2020-01-09 | 语音唤醒方法及芯片系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010022883.1A CN113096652A (zh) | 2020-01-09 | 2020-01-09 | 语音唤醒方法及芯片系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113096652A true CN113096652A (zh) | 2021-07-09 |
Family
ID=76664122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010022883.1A Pending CN113096652A (zh) | 2020-01-09 | 2020-01-09 | 语音唤醒方法及芯片系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096652A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023143544A1 (zh) * | 2022-01-29 | 2023-08-03 | 深圳市九天睿芯科技有限公司 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106161755A (zh) * | 2015-04-20 | 2016-11-23 | 钰太芯微电子科技(上海)有限公司 | 一种关键词语音唤醒系统及唤醒方法及移动终端 |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN110600029A (zh) * | 2019-09-17 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 用于智能语音设备的自定义唤醒方法和装置 |
-
2020
- 2020-01-09 CN CN202010022883.1A patent/CN113096652A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106161755A (zh) * | 2015-04-20 | 2016-11-23 | 钰太芯微电子科技(上海)有限公司 | 一种关键词语音唤醒系统及唤醒方法及移动终端 |
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN110600029A (zh) * | 2019-09-17 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 用于智能语音设备的自定义唤醒方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023143544A1 (zh) * | 2022-01-29 | 2023-08-03 | 深圳市九天睿芯科技有限公司 | 语音控制方法、装置、设备、介质及智能语音采集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912092B (zh) | 人机交互中的语音唤醒方法及语音识别装置 | |
US11714477B2 (en) | Low-power ambient computing system with machine learning | |
CN107704275B (zh) | 智能设备唤醒方法、装置、服务器及智能设备 | |
CN107360327B (zh) | 语音识别方法、装置和存储介质 | |
TWI474317B (zh) | 訊號處理裝置以及訊號處理方法 | |
CN107277672B (zh) | 一种支持唤醒模式自动切换的方法和装置 | |
US20140149122A1 (en) | Voice control device and voice control method | |
CN107450879A (zh) | 终端操作方法及装置 | |
CN110111789B (zh) | 语音交互方法、装置、计算设备和计算机可读介质 | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
WO2016078214A1 (zh) | 终端处理方法、装置及计算机存储介质 | |
CN111161714A (zh) | 一种语音信息处理方法、电子设备及存储介质 | |
CN108735217A (zh) | 电子设备控制方法、装置、存储介质及电子设备 | |
CN106612367A (zh) | 一种基于麦克风的语音唤醒方法及移动终端 | |
CN110032321A (zh) | 应用程序处理方法和装置、电子设备、计算机可读存储介质 | |
CN206259172U (zh) | 多功能语音控制系统 | |
CN110853644A (zh) | 语音唤醒方法、装置、设备及存储介质 | |
CN113096652A (zh) | 语音唤醒方法及芯片系统 | |
CN108093350B (zh) | 麦克风的控制方法和麦克风 | |
CN111862965A (zh) | 唤醒处理方法、装置、智能音箱及电子设备 | |
CN112634922A (zh) | 语音信号处理方法、设备及计算机可读存储介质 | |
CN114391165A (zh) | 语音信息处理方法、装置、设备及存储介质 | |
CN110109529A (zh) | Sd卡供电控制方法、装置、存储介质及电子设备 | |
US11417334B2 (en) | Dynamic speech recognition method and apparatus therefor | |
CN206489875U (zh) | 语音控制取货柜 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |