CN112334977B - 一种语音识别方法、可穿戴设备及系统 - Google Patents
一种语音识别方法、可穿戴设备及系统 Download PDFInfo
- Publication number
- CN112334977B CN112334977B CN201880094840.5A CN201880094840A CN112334977B CN 112334977 B CN112334977 B CN 112334977B CN 201880094840 A CN201880094840 A CN 201880094840A CN 112334977 B CN112334977 B CN 112334977B
- Authority
- CN
- China
- Prior art keywords
- sound signal
- voice
- wearable device
- sensor
- voice sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000005236 sound signal Effects 0.000 claims abstract description 248
- 230000001133 acceleration Effects 0.000 claims description 82
- 238000004891 communication Methods 0.000 claims description 49
- 230000006854 communication Effects 0.000 claims description 49
- 210000000988 bone and bone Anatomy 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 description 52
- 238000001228 spectrum Methods 0.000 description 37
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 238000007726 management method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000013461 design Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 230000004044 response Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 230000001976 improved effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
一种用于终端上的语音识别方法、可穿戴设备及系统。该方法包括:可穿戴设备获取第一语音传感器采集到的第一声音信号;可穿戴设备判断第一声音信号是否满足预设条件;当第一声音信号满足预设条件时,可穿戴设备获取第二语音传感器采集到的第二声音信号,第二语音传感器能够感知到的振动频率范围与第一语音传感器能够感知到的振动频率范围不同;可穿戴设备向终端发送语音信息,语音信息包括第二语音传感器采集到的第二声音信号,以使得终端对语音信息进行语音识别。该方法可降低语音识别功能给可穿戴设备带来的功耗,并降低可穿戴设备被误唤醒的几率。
Description
技术领域
本申请涉及终端领域,尤其涉及一种语音识别方法、可穿戴设备及系统。
背景技术
语音识别技术是指让机器(例如手机、可穿戴设备等)通过识别和理解过程把声音信号转变为相应的文本或命令的技术。目前,许多终端都安装了语音助手等用于语音识别的应用。为了使语音助手能够及时检测并响应用户发出的语音指令,终端一般会预先设置一个或多个唤醒信号(例如,敲击信号或者“你好,小E”等唤醒词)。当检测到用户输入这些唤醒信号时,说明用户此时有使用语音识别功能的意图,因此,可触发终端打开语音助手进行语音识别。
由于用户输入上述唤醒信号的时机不确定,因此,终端通常将麦克风等用于采集上述唤醒信号的传感器以及检测电路设置为常开(always on)状态,这使得语音识别功能给手机和可穿戴设备带来的功耗显著增加。
发明内容
本申请提供一种语音识别方法、可穿戴设备及系统,可降低语音识别功能给终端或可穿戴设备带来的功耗,并降低终端或可穿戴设备被误唤醒的几率。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种语音识别方法,包括:可穿戴设备获取第一语音传感器采集到的第一声音信号;进而,可穿戴设备可判断第一声音信号是否满足预设条件;当第一声音信号满足预设条件时,说明佩戴用户正在说话,可穿戴设备可获取第二语音传感器采集到的第二声音信号,其中,第二语音传感器能够感知到的振动频率范围与第一语音传感器能够感知到的振动频率范围不同;进而,可穿戴设备可向终端发送包含上述第二声音信号的语音信息,以使得终端对该语音信息进行语音识别。
也就是说,本申请实施例中可首先利用第一语音传感器识别佩戴可穿戴设备的用户是否正在说话。如果识别出佩戴可穿戴设备的用户正在说话,则说明用户此时可能需要使用语音识别功能,此时可穿戴设备可进一步获取第二语音传感器202采集到的声音信号,并将该声音信号发送给终端进行语音识别。这样,在佩戴用户没有开启语音识别功能的需求时,可穿戴设备不用开启第二语音传感器,也无需运行对应的语音识别算法,从而可以降低实现语音识别功能时可穿戴设备的功耗。
同时,在用户佩戴可穿戴设备并发声时,可穿戴设备中的第一语音传感器才能采集到第一声音信号。而在非佩戴状态下,或者在背景音(例如录音或噪音)干扰的状态下无法唤醒上述第一语音传感器进行采集,从而降低了语音识别功能被误唤醒的几率。
在一种可能的设计方法中,可穿戴设备判断第一声音信号是否满足预设条件,包括:可穿戴设备确定第一声音信号中是否具有预设的振动特征;若具有预设的振动特征,则可穿戴设备确定第一声音信号满足该预设条件,否则,可穿戴设备确定第一声音信号不满足该预设条件。上述预设的振动特征可以是普通用户发声时的振动特征,也可以是指定用户发声时的振动特征。
在一种可能的设计方法中,当第一声音信号满足预设条件时,可穿戴设备获取第二语音传感器采集到的第二声音信号,包括:当第一声音信号满足预设条件时,可穿戴设备打开第二语音传感器,并使用第二语音传感器采集第二声音信号。也就是说,在第一声音信号不满足预设条件时,无需打开第二语音传感器采集声音信号,从而降低可穿戴设备的功耗。
在一种可能的设计方法中,在可穿戴设备获取第二语音传感器采集到的第二声音信号之后,还包括:可穿戴设备识别第二声音信号中是否包含预设的唤醒词;其中,可穿戴设备向终端发送语音信息,包括:若第二声音信号中包含预设的唤醒词,则可穿戴设备向终端发送该语音信息。也就是说,语音识别过程可以由可穿戴设备和终端共同完成,当可穿戴设备识别出采集到的声音信号中包括唤醒词时,再唤醒终端进行语音识别,从而降低终端进行语音识别的功耗。
在一种可能的设计方法中,在可穿戴设备获取第一语音传感器采集到的第一声音信号时,第二语音传感此时也可处于打开状态;那么,在可穿戴设备判断出第一声音信号是否满足预设条件之前,还包括:可穿戴设备使用第二语音传感器采集第三声音信号,并保存最近预设时间内采集到的第三声音信号,第三声音信号与第一声音信号来自同一语音输入。也就是说,在判断出佩戴用户正在说话之前,可穿戴设备可同时打开第一语音传感器和第二语音传感器采集声音信号。
在一种可能的设计方法中,该语音信息还包括第三声音信号。这样,在语音识别时,可基于第二语音传感器缓存的第三声音信号和第二声音信号这两部分声音信号(即更完整的声音信号)进行语音识别,从而提高语音识别的准确率。
在一种可能的设计方法中,当第一声音信号满足预设条件时,可穿戴设备获取第二语音传感器采集到的第二声音信号,包括:当第一声音信号满足预设条件时,可穿戴设备使用第二语音传感器采集第二声音信号,并保存采集到的第二声音信号。
在一种可能的设计方法中,在可穿戴设备获取第二语音传感器采集到的第二声音信号之后,还包括:可穿戴设备识别第四声音信号中是否包含预设的唤醒词,第四声音信号为已保存的第三声音信号和第二声音信号;其中,可穿戴设备向终端发送语音信息,包括:若第四声音信号中包含预设的唤醒词,则可穿戴设备向终端发送该语音信息。
在一种可能的设计方法中,当第一声音信号满足预设条件时,该方法还包括:可穿戴设备使用第一语音传感器采集到第五声音信号,第五声音信号与第二声音信号来自同一语音输入;若预设时间内采集到的第五声音信号均不具有预设的振动特征,说明用户已经停止发声,则可穿戴设备关闭第二语音传感器,从而降低第二语音传感器工作为可穿戴设备带来的功耗开销。
在一种可能的设计方法中,在可穿戴设备获取第一语音传感器采集到的第一声音信号之前,包括:可穿戴设备检测是否处于佩戴状态;若处于佩戴状态,说明用户此时有使用可穿戴设备的操作意图,则可穿戴设备打开第一语音传感器;或者,若处于佩戴状态,则可穿戴设备打开第一语音传感器和第二语音传感器。否则,可穿戴设备可进入休眠状态以降低可穿戴设备的功耗。
在一种可能的设计方法中,第二语音传感器能够感知到的最大振动频率大于第一语音传感器能够感知到的最大振动频率,即第二语音传感器采集的到的声音信号相比于第一语音传感器采集的到的声音信号更加全面。
第二方面,本申请提供一种语音识别方法,该方法包括:获取第一语音传感器采集到的第一声音信号;获取第二语音传感器采集到的第三声音信号(第三声音信号和第一声音信号来自同一语音输入),其中,第二语音传感器能够感知到的振动频率范围与第一语音传感器能够感知到的振动频率范围不同;进而,判断第一声音信号是否满足预设条件;当第一声音信号满足预设条件时,说明佩戴用户正在说话,可继续使用第二语音传感器采集第二声音信号;对包含第二声音信号的语音信息进行语音识别。
在一种可能的设计方法中,当第一声音信号满足预设条件时,还包括:可穿戴设备识别第三声音信号中是否包含预设的唤醒词;若第三声音信号中包含预设的唤醒词,则可穿戴设备将语音信息发送给终端。
在一种可能的设计方法中,上述语音信息中还包括第一声音信号和/或第三声音信号。
第三方面,本申请提供一种可穿戴设备,包括:第一语音传感器;第二语音传感器,第二语音传感器能够感知到的振动频率范围与第一语音传感器能够感知到的振动频率范围不同;计算模块;存储模块;通信模块;以及一个或多个计算机程序,其中该一个或多个计算机程序被存储在该存储模块中,该一个或多个计算机程序包括指令,当该指令被可穿戴设备执行时,使得可穿戴设备执行上述任一项语音识别方法。
在一种可能的设计方法中,可穿戴设备为蓝牙耳机;第一语音传感器设置在用户佩戴可穿戴设备时靠近用户的一侧;第一语音传感器为第一加速度传感器,第二语音传感器为第二加速度传感器、气传导麦克风或骨传导麦克风。
第四方面,本申请提供一种计算机存储介质,包括计算机指令,当计算机指令在可穿戴设备上运行时,使得可穿戴设备执行上述任一项语音识别方法。
第五方面,本申请提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述任一项语音识别方法。
第六方面,本申请提供一种语音识别系统,所述系统包括可穿戴设备和终端,所述可穿戴设备与所述终端之间通信连接;所述可穿戴设备包括第一语音传感器和第二语音传感器,所述第二语音传感器能够感知到的振动频率范围与所述第一语音传感器能够感知到的振动频率范围不同;其中,所述可穿戴设备,用于:获取所述第一语音传感器采集到的第一声音信号;判断所述第一声音信号是否满足预设条件;当所述第一声音信号满足预设条件时,获取第二语音传感器采集到的第二声音信号;向终端发送语音信息,所述语音信息包括所述第二语音传感器采集到的第二声音信号;所述终端用于:接收所述可穿戴设备发送的所述语音信息;对所述语音信息进行语音识别。
可以理解地,上述提供的第三方面所述的可穿戴设备、第四方面所述的计算机存储介质,第五方面所述的计算机程序产品以及第六方面所述的语音识别系统均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种语音识别系统的架构示意图;
图2为本申请实施例提供的一种可穿戴设备的结构示意图一;
图3为本申请实施例提供的一种终端的结构示意图;
图4为本申请实施例提供的一种语音识别方法的场景示意图一;
图5为本申请实施例提供的一种语音识别方法的场景示意图二;
图6为本申请实施例提供的一种语音识别方法的场景示意图三;
图7为本申请实施例提供的一种语音识别方法的场景示意图四;
图8为本申请实施例提供的一种语音识别方法的场景示意图五;
图9为本申请实施例提供的一种语音识别方法的场景示意图六;
图10为本申请实施例提供的一种语音识别方法的场景示意图七;
图11为本申请实施例提供的一种可穿戴设备的结构示意图二。
具体实施方式
下面将结合附图对本申请实施例的实施方式进行详细描述。
如图1所示,本申请实施例提供的一种语音识别方法可以应用于可穿戴设备11与终端12组成的语音识别系统中。可穿戴设备11与终端12之间可以建立无线通信连接或有线通信连接。
其中,可穿戴设备11可以是无线耳机、有线耳机、智能眼镜、智能头盔或者智能腕表等。终端12可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、个人数字助理(personal digital assistant,PDA)等设备,本申请实施例对此不做任何限制。
在本申请实施例中,可穿戴设备11上设置有两类语音传感器,即第一语音传感器201和第二语音传感器202。第一语音传感器201和第二语音传感器202均能采集到用户发声时通过介质(例如空气、皮肤或骨头等)传播产生的声音信号,该声音信号实际为一种振动信号。不同的是,第一语音传感器201在工作时能够感知到的振动频率范围与第二语音传感器202在工作时能够感知到的振动频率范围不同。例如,第一语音传感器201在工作时能够感知到的振动频率范围较小,而第二语音传感器202在工作时能够感知到的振动频率范围较大。因此,在采集同一段语音输入时,第二语音传感器202采集到的声音信号相比于第一语音传感器201采集到的声音信号更加丰富和全面,但第一语音传感器201的功耗低于第二语音传感器202的功耗。
示例性的,上述第一语音传感器201可以为传统的加速度传感器(本申请中称为第一加速度传感器),第一加速度传感器可感知到频率小于1000Hz的振动信号,并将感知到的振动信号转换为电信号。由于普通用户的发声频率在100Hz到10000Hz的范围内,因此使用第一加速度传感器采集到的声音信号进行语音识别的准确率不高。但是,不同用户发声时引起的振动信号具有一些共有的振动特征,在本申请实施例中,可穿戴设备11可根据第一加速度传感器采集到的振动信号,确定出该振动信号中是否具有上述振动特征,从而确定采集到的振动信号是否是用户发声引起的。
进一步地,还可以将上述第一语音传感器201设置在用户佩戴可穿戴设备11时能够与用户直接接触的一侧,或者,可以将上述第一语音传感器201设置在用户佩戴可穿戴设备11时能够与用户直接接触的壳体上。以图1所示的蓝牙耳机为可穿戴设备11举例,可以将第一语音传感器201设置在蓝牙耳机的听筒附近。这样,用户佩戴该蓝牙耳机后,第一语音传感器201可检测到与第一语音传感器201接触的皮肤上产生的振动信号,该振动信号实际是由用户发出的语音以用户身体为介质传播引起的。如果该振动信号中的振动特征符合用户发声时共有的振动特征,则蓝牙耳机可确定出此时佩戴该蓝牙耳机的佩戴用户正在说话。
图1所示的可穿戴设备11是以头戴式的无线耳机举例说明的,可以理解的是,该可穿戴设备11还可以是挂耳式的无线耳机,本申请实施例对此不做任何限制。另外,当可穿戴设备11的体积越小时,第一语音传感器201在可穿戴设备11上的具体位置对于第一语音传感器201采集振动信号的精确度的影响越小,因此,本申请实例中对第一语音传感器201在可穿戴设备11上的具体设置位置不做任何限制。
示例性的,上述第二语音传感器202可以为功耗较高的加速度传感器(本申请中称为第二加速度传感器)。相比于第一加速度传感器,第二加速度传感器可感知到的振动频率范围更广。例如,第二加速度传感器可感知到振动频率在0-2000Hz左右的振动信号。并且,第二加速度传感器也可将感知到的振动信号转换为电信号。由于第二加速度传感器在工作时能够感知到的振动频率范围更广,因此,使用第二加速度传感器采集到的声音信号较为准确和全面,后续可穿戴设备11可基于该声音信号识别出用户输入的具体语音内容。
又或者,第二加速度传感器能够感知到的振动频率范围也可以高于第一加速度传感器能够感知到的振动频率范围。例如,第一加速度传感器能够感知到的振动频率范围为0-1000Hz,而第二加速度传感器能够感知到的振动频率范围为1000Hz-2000Hz。当蓝牙耳机根据第一加速度传感器采集到的声音信号确定出佩戴用户在说话时,可打开第二加速度传感器采集声音信号,同时保持第一加速度传感器的打开状态。这样,佩戴用户开始说话后,第一加速度传感器可检测到0-1000Hz内的声音信号,第二加速度传感器可检测到1000Hz-2000Hz内的声音信号,后续蓝牙耳机可基于这两份声音信号识别出用户输入的具体语音内容。
需要说明的是,上述第一加速度传感器和第二加速度传感器可以是由一个加速度传感器实现的。例如,如果加速度传感器A能够感知到的振动频率可以达到2000Hz,那么,可以预先设置该加速度传感器A的两种工作模式:低功耗模式和高功耗模式。当加速度传感器A在低功耗模式下运行时,可将加速度传感器A采集的振动频率上限设置为1000Hz,当加速度传感器A在高功耗模式下运行时,可将加速度传感器A采集的振动频率上限设置为2000Hz。这样,当加速度传感器A在低功耗模式下运行时,可将该加速度传感器A作为上述第一加速度传感器,当加速度传感器A在高功耗模式下运行时,可将该加速度传感器A作为上述第二加速度传感器。当然,第一加速度传感器和第二加速度传感器也可以是两种独立型号的加速度传感器集成在可穿戴设备11内。并且,本申请实施例对第一加速度传感器和第二加速度传感器的具体个数不做限制。
或者,上述第二语音传感器202还可以为气传导麦克风或骨传导麦克风等能够采集声音信号的传感器。其中,气传导麦克风采集声音信号的方式是通过空气将发声时的振动信号传至麦克风,骨传导麦克风采集声音信号的方式是通过骨头将发声时的振动信号传至麦克风。当第二语音传感器202为骨传导麦克风时,也需要将骨传导麦克风设置在用户佩戴可穿戴设备11时能够与用户直接接触的一侧,以便骨传导麦克风能够采集到经骨头传播后得到的声音信号。
无论是第二加速度传感器、气传导麦克风还是骨传导麦克风,这些第二语音传感器202在工作时采集到的声音信号均能满足语音识别所要求的精度。但由于第二语音传感器202的功耗较高,因此,本申请实施例中可利用功耗较低的第一语音传感器201识别佩戴可穿戴设备11的用户是否正在说话。如果识别出佩戴可穿戴设备11的用户正在说话,则说明用户此时可能需要使用语音识别功能,此时可穿戴设备11可获取第二语音传感器202采集到的声音信号并进行语音识别,从而避免可穿戴设备11长时间打开第二语音传感器202导致的功耗较高的问题。
进一步地,如图2所示,除了上述第一语音传感器201和第二语音传感器202之外,可穿戴设备11中还可以包括接近光传感器204、通信模块205、听筒206、计算模块207、存储模块208以及电源209等部件。可以理解的是,上述可穿戴设备11可以具有比图2中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图2中所示出的各种部件可以在包括一个或多个信号处理或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
如图3所示,上述语音控制系统中的终端12具体可以为手机100。手机100可以包括处理器110,外部存储器接口120,内部存储器121,USB接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,射频模块150,通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及SIM卡接口195等。其中传感器模块可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器等。
本发明实施例示意的结构并不构成对手机100的限定。可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以是集成在同一个处理器中。
控制器可以是指挥手机100的各个部件按照指令协调工作的决策者。是手机100的神经中枢和指挥中心。控制器根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器中的存储器为高速缓冲存储器。可以保存处理器刚用过或循环使用的指令或数据。如果处理器需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括接口。其中接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器可以包含多组I2C总线。处理器可以通过不同的I2C总线接口分别耦合触摸传感器,充电器,闪光灯,摄像头等。例如:处理器可以通过I2C接口耦合触摸传感器,使处理器与触摸传感器通过I2C总线接口通信,实现手机100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器可以包含多组I2S总线。处理器可以通过I2S总线与音频模块耦合,实现处理器与音频模块之间的通信。在一些实施例中,音频模块可以通过I2S接口向通信模块传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块与通信模块可以通过PCM总线接口耦合。在一些实施例中,音频模块也可以通过PCM接口向通信模块传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信,两种接口的采样速率不同。
UART接口是一种通用串行数据总线,用于异步通信。该总线为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器与通信模块160。例如:处理器通过UART接口与蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块可以通过UART接口向通信模块传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器与显示屏,摄像头等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(display serialinterface,DSI)等。在一些实施例中,处理器和摄像头通过CSI接口通信,实现手机100的拍摄功能。处理器和显示屏通过DSI接口通信,实现手机100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以配置为控制信号,也可配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器与摄像头,显示屏,通信模块,音频模块,传感器等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口可以用于连接充电器为手机100充电,也可以用于手机100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。还可以用于连接其他电子设备,例如AR设备等。
本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机100的结构限定。手机100可以采用本发明实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块可以通过USB接口接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块可以通过手机100的无线充电线圈接收无线充电输入。充电管理模块为电池充电的同时,还可以通过电源管理模块141为终端设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块接收所述电池和/或充电管理模块的输入,为处理器,内部存储器,外部存储器,显示屏,摄像头,和通信模块等供电。电源管理模块还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在一些实施例中,电源管理模块141也可以设置于处理器110中。在一些实施例中,电源管理模块141和充电管理模块也可以设置于同一个器件中。
手机100的无线通信功能可以通过天线1,天线2,射频模块150,通信模块160,调制解调器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将蜂窝网天线复用为无线局域网分集天线。在一些实施例中,天线可以和调谐开关结合使用。
射频模块150可以提供应用在手机100上的包括2G/3G/4G/5G等无线通信的解决方案的通信处理模块。可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(LowNoise Amplifier,LNA)等。射频模块由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调器进行解调。射频模块还可以对经调制解调器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,射频模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,射频模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调器可以包括调制器和解调器。调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器,受话器等)输出声音信号,或通过显示屏显示图像或视频。在一些实施例中,调制解调器可以是独立的器件。在一些实施例中,调制解调器可以独立于处理器,与射频模块或其他功能模块设置在同一个器件中。
通信模块160可以提供应用在手机100上的包括无线局域网(wireless localarea networks,WLAN),蓝牙(bluetooth,BT),全球导航卫星系统(global navigationsatellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(nearfield communication,NFC),红外技术(infrared,IR)等无线通信的解决方案的通信处理模块。通信模块160可以是集成至少一个通信处理模块的一个或多个器件。通信模块经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器。通信模块160还可以从处理器接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,手机100的天线1和射频模块耦合,天线2和通信模块耦合。使得手机100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multipleaccess,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(longterm evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigationsatellite system,GLONASS),北斗卫星导航系统(beidou navigation satellitesystem,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS))和/或星基增强系统(satellite based augmentation systems,SBAS)。
手机100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏包括显示面板。显示面板可以采用LCD(liquid crystal display,液晶显示屏),OLED(organic light-emitting diode,有机发光二极管),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,手机100可以包括1个或N个显示屏,N为大于1的正整数。
仍如图3所示,手机100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏以及应用处理器等实现拍摄功能。
ISP用于处理摄像头反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,手机100可以包括1个或N个摄像头,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当手机100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。手机100可以支持一种或多种编解码器。这样,手机100可以播放或录制多种编码格式的视频,例如:MPEG1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现手机100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机100的存储能力。外部存储卡通过外部存储器接口与处理器通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机100的各种功能应用以及数据处理。存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,其他易失性固态存储器件,通用闪存存储器(universal flash storage,UFS)等。
手机100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块还可以用于对音频信号编码和解码。在一些实施例中,音频模块可以设置于处理器110中,或将音频模块的部分功能模块设置于处理器110中。
在本申请实施例中,音频模块170可以通过上述I2S接口接收通信模块160传递的声音信号,实现通过可穿戴设备接听电话、播放音乐等功能。例如,蓝牙耳机可以将采集到的声音信号发送给手机100的通信模块160,由通信模块160将该声音信号传递给音频模块170。音频模块170可使用语音识别算法对接收到的声音信号进行语音识别,得到该声音信号中的具体音频信息,例如“你好,小E”、“打电话给张三”等。进而,基于识别出的音频信息,音频模块170可唤醒处理器110执行与该具体音频信息对应的操作指令,例如,打开语音助手APP或者打开音乐APP播放音乐等。
或者,音频模块170也可以将接收到的声音信号进行模数转换,并将模数转换后的声音信号发送给处理器110,由处理器110使用语音识别算法对该声音信号进行语音识别,得到该声音信号中的具体音频信息,并执行与该具体音频信息对应的操作指令。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。手机100可以通过扬声器收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当手机100接听电话或语音信息时,可以通过将受话器靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风发声,将声音信号输入到麦克风。手机100可以设置至少一个麦克风。在一些实施例中,手机100可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在一些实施例中,手机100还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口可以是USB接口,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器可以设置于显示屏。压力传感器的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器,电极之间的电容改变。手机100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏,手机100根据压力传感器检测所述触摸操作强度。手机100也可以根据压力传感器的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定手机100的运动姿态。在一些实施例中,可以通过陀螺仪传感器确定手机100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器检测手机100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消手机100的抖动,实现防抖。陀螺仪传感器还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,手机100通过气压传感器测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。手机100可以利用磁传感器检测翻盖皮套的开合。在一些实施例中,当手机100是翻盖机时,手机100可以根据磁传感器检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测手机100在各个方向上(一般为三轴)加速度的大小。当手机100静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。手机100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,手机100可以利用距离传感器测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。通过发光二极管向外发射红外光。使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定手机100附近有物体。当检测到不充分的反射光时,可以确定手机100附近没有物体。手机100可以利用接近光传感器检测用户手持手机100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。手机100可以根据感知的环境光亮度自适应调节显示屏亮度。环境光传感器也可用于拍照时自动调节白平衡。环境光传感器还可以与接近光传感器配合,检测手机100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。手机100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,手机100利用温度传感器检测的温度,执行温度处理策略。例如,当温度传感器上报的温度超过阈值,手机100执行降低位于温度传感器附近的处理器的性能,以便降低功耗实施热保护。
触摸传感器180K,也称“触控面板”。可设置于显示屏。用于检测作用于其上或附近的触摸操作。可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型,并通过显示屏提供相应的视觉输出。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器可以获取人体声部振动骨块的振动信号。骨传导传感器也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器也可以设置于耳机中。音频模块170可以基于所述骨传导传感器获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键可以是机械按键。也可以是触摸式按键。手机100接收按键输入,产生与手机100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏不同区域的触摸操作,也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接用户标识模块(subscriber identity module,SIM)。SIM卡可以通过插入SIM卡接口,或从SIM卡接口拔出,实现和手机100的接触和分离。手机100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口可以支持Nano SIM卡,MicroSIM卡,SIM卡等。同一个SIM卡接口可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口也可以兼容不同类型的SIM卡。SIM卡接口也可以兼容外部存储卡。手机100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,手机100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在手机100中,不能和手机100分离。
为了便于理解,以下结合附图对本申请实施例提供的一种语音识别方法进行具体介绍。以下实施例中均以手机作为终端,以蓝牙耳机作为可穿戴设备举例说明。
仍如图1所示,手机可与蓝牙耳机之间建立蓝牙连接。
具体的,当用户希望使用蓝牙耳机时,可打开蓝牙耳机的蓝牙功能。此时,蓝牙耳机可对外发送配对广播。如果手机已经打开了蓝牙功能,则手机可以接收到该配对广播并提示用户已经扫描到相关的蓝牙设备。当用户在手机上选中蓝牙耳机作为连接设备后,手机可与蓝牙耳机进行配对并建立蓝牙连接。后续,手机与蓝牙耳机之间可通过该蓝牙连接进行通信。当然,如果手机与蓝牙耳机在建立本次蓝牙连接之前已经成功配对,则手机可自动与扫描到的蓝牙耳机建立蓝牙连接。
或者,如果用户使用的耳机具有Wi-Fi功能,用户也可操作手机与该耳机建立Wi-Fi连接。又或者,如果用户使用的耳机为有线耳机,用户也可将耳机线的插头插入手机相应的耳机接口中建立有线连接,本申请实施例对此不做任何限制。
另外,在手机与蓝牙耳机建立蓝牙连接时,手机还可以将此时连接的蓝牙耳机作为合法蓝牙设备。例如,手机可以将该合法蓝牙设备的标识(例如蓝牙耳机的MAC地址等)保存在手机本地。这样,后续手机接收到某一蓝牙设备发来的操作指令或数据(例如,采集到的声音信号)时,手机可根据已保存的合法蓝牙设备的标识判断此时通信的蓝牙设备是否为合法蓝牙设备。当手机判断出有非法蓝牙设备向手机发送操作指令或数据时,手机可丢弃该操作指令或数据,以提高手机使用过程中的安全性。当然,一个手机可以管理一个或多个合法蓝牙设备。如图4所示,用户可以从设置功能中进入合法设备的管理界面401,用户在管理界面401中可以添加或删除合法蓝牙设备。
手机与蓝牙耳机建立蓝牙连接后,如果在预设时间内没有检测到用户对蓝牙耳机的任何操作,则蓝牙耳机也可以自动进入休眠状态。例如,蓝牙耳机可进入BLE(bluetoothlow energy,低功耗蓝牙)模式,从而降低蓝牙耳机的功耗。
蓝牙耳机进入休眠状态时可保留一个或多个传感器(例如上述第一加速度传感器、接近光传感器等)以一定的频率进行工作。蓝牙耳机可利用这些传感器检测当前是否处于佩戴状态。如果蓝牙耳机处于佩戴状态,则说明用户此时有使用蓝牙耳机的操作意图,那么,蓝牙耳机可从休眠状态切换为工作模式,以便开始采集用户声音信号进行语音识别。
示例性的,仍如图2所示,蓝牙耳机中可设置接近光传感器204和第一加速度传感器,其中,接近光传感器204设置在用户佩戴时与用户接触的一侧。该接近光传感器204和第一加速度传感器可定期启动以获取当前检测到的测量值。也就是说,蓝牙耳机既可以使用第一加速度传感器检测到的测量值确定蓝牙耳机的佩戴状态,后续还可以使用第一加速度传感器检测到的测量值确定佩戴用户是否在说话。当然,蓝牙耳机还可以使用第一加速度传感器实现与加速度相关的功能,本申请实施例对此不做任何限制。
当用户佩戴蓝牙耳机后会挡住射入接近光传感器204的光线,如果接近光传感器204检测到的光强小于预设的光强阈值时,蓝牙耳机可认为此时处于佩戴状态。又因为,用户佩戴蓝牙耳机后一般不会处于绝对静止的状态,而第一加速度传感器能够感知到细微的晃动。如果第一加速度传感器检测到的加速度值大于预设的加速度阈值(例如,加速度阈值为0)时,蓝牙耳机可确定此时处于佩戴状态。
或者,当接近光传感器204检测到的光强小于预设的光强阈值时,可触发第一加速度传感器检测此时的加速度值。如果检测到的加速度值大于预设的加速度阈值,则蓝牙耳机可确定此时处于佩戴状态。又或者,当第一加速度传感器检测到的加速度值大于预设的加速度阈值时,可触发接近光传感器204检测此时环境光的光强。如果检测到的光强小于预设的光强阈值,则蓝牙耳机可确定此时处于佩戴状态。
需要说明的是,本申请实施例对蓝牙耳机检测当前是否处于佩戴状态这一过程与蓝牙耳机和手机之间建立蓝牙连接这一过程的先后顺序不做限定。蓝牙耳机可以在与手机建立蓝牙连接后,根据接近光传感器204和第一加速度传感器的测量值确定是否处于佩戴状态。或者,蓝牙耳机也可以在确定出当前处于佩戴状态后,打开蓝牙功能与手机建立蓝牙连接。
如果蓝牙耳机确定出当前处于佩戴状态,蓝牙耳机可使用上述第一语音传感器201采集声音信号(本实施例可称为第一声音信号)。具体的,如果蓝牙耳机确定出当前处于佩戴状态,说明用户此时可能有使用蓝牙耳机(或使用蓝牙耳机控制手机)的意图。蓝牙耳机可先打开第一语音传感器201,使用第一语音传感器201采集到第一声音信号,但此时蓝牙耳机可暂时不开启功耗较高的第二语音传感器202。如果蓝牙耳机基于第一语音传感器201采集到的第一声音信号识别出佩戴用户在说话,则说明用户有使用蓝牙耳机(或手机)中语音识别功能的需求。进而,蓝牙耳机可打开第二语音传感器202采集用户的声音信号并进行语音识别。
以第一语音传感器201为上述第一加速度传感器举例。如图5所示,蓝牙耳机确定出当前处于佩戴状态后,可打开第一加速度传感器。第一加速度传感器可设置在与佩戴用户接触的位置,或者,第一加速度传感器可设置在与佩戴用户接触的壳体上。当佩戴用户发声时,发声产生的声音信号可引起佩戴用户的皮肤振动,最终传导至第一加速度传感器。第一加速度传感器感知到用户发声时产生的振动信号后,可将该振动信号转换为对应的电信号,得到第一声音信号的第一音频图谱。
另外,蓝牙耳机内可预先存储普通用户发声时的振动特征。例如,开发人员可预先采集不同用户佩戴蓝牙耳机发声时,蓝牙耳机内的第一加速度传感器形成的音频图谱。进而,通过机器学习等人工智能算法可提取这些音频图谱中共有的振动特征,形成普通用户发声时的振动模型,并将该振动模型存储在蓝牙耳机内。
这样一来,第一语音传感器201采集到第一声音信号的第一音频图谱后,可将第一音频图谱与上述振动模型进行匹配。如果第一音频图谱与上述振动模型的匹配度大于阈值,则说明第一语音传感器201采集到的第一声音信号确实是由于当前佩戴蓝牙耳机的用户发声引起的,即佩戴用户正在说话。否则,说明第一语音传感器201采集到的第一声音信号可能是背景音或者是由于用户触摸或运动引起的噪音。
或者,蓝牙耳机内也可预先存储特定用户(例如某个用户或某一类用户)发声时的振动特征。例如,当用户A首次使用蓝牙耳机时,蓝牙耳机可提示用户A发声以采集用户A发声时的音频图谱。进而,通过机器学习等人工智能算法可从采集到的音频图谱中提取用户A发声时的振动模型,并将该振动模型存储在蓝牙耳机内。
这样一来,第一语音传感器201采集到上述第一音频图谱后,可将第一音频图谱与用户A的振动模型进行匹配。如果第一音频图谱与用户A的振动模型之间的匹配度大于阈值,则说明用户A正在说话。否则,可说明当前发声的用户不是蓝牙耳机的合法用户,则蓝牙耳机也无需响应采集到的声音信号,此时蓝牙耳机可将采集到的声音信号丢弃,从而提高语音识别过程的准确性和安全性。
又或者,开发人员可预先采集不同类型的用户(例如儿童、男人、女人)戴蓝牙耳机发声时,蓝牙耳机内的第一加速度传感器形成的音频图谱。进而,通过机器学习等人工智能算法可提取这些音频图谱中共有的振动特征,形成不同类型的用户发声时的振动模型,并将该振动模型存储在蓝牙耳机内。这样一来,第一语音传感器201采集到上述第一音频图谱后,可将第一音频图谱与不同类型的用户的振动模型进行匹配,从而识别出正在说话的用户类型。对于不同类型的用户,蓝牙耳机后续可采用不同的语音识别算法或参数进行语音识别,从而提高后续语音识别的准确率。
又或者,蓝牙耳机内也可预先存储用户发出一个或多个特定唤醒词时的振动特征。例如,蓝牙耳机可预先采集各个用户发出“你好小E”这一唤醒词时的音频图谱。进而,通过机器学习等人工智能算法可从采集到的音频图谱中提取用户发出“你好小E”这一唤醒词时的振动模型,并将该振动模型存储在蓝牙耳机内。
这样一来,第一语音传感器201采集到上述第一音频图谱后,可将第一音频图谱与“你好小E”这一唤醒词的振动模型进行匹配。如果第一音频图谱与“你好小E”的振动模型之间的匹配度大于阈值,则说明佩戴用户说出了用于打开语音识别功能的唤醒词,即佩戴用户后续有进行语音识别的需求。否则,当前佩戴用户发声的目的可能并不是进行语音识别,则蓝牙耳机也无需响应采集到的声音信号,此时蓝牙耳机可将采集到的声音信号丢弃,从而提高语音识别过程的准确性和安全性。
其中,第一音频图谱可以是第一语音传感器201根据采集到的第一声音信号连续输出的,因此,蓝牙耳机在匹配第一音频图谱与上述振动模型时也可以是实时进行的。例如,蓝牙耳机可以以10ms为单位将第一音频图谱划分为多份音频图谱,进而蓝牙耳机可计算每一份音频图谱与振动模型的匹配度。如果连续多份(例如3份)音频图谱均与上述振动模型匹配,则蓝牙耳机可确定第一音频图谱与上述振动模型匹配。又或者,蓝牙耳机可以实时缓存最近一段时间(例如1s)内第一语音传感器201采集到的第一声音信号的第一音频图谱,那么,当蓝牙耳机计算出缓存的第一音频图谱与上述振动模型匹配时,说明佩戴用户开始发声。
进一步地,如果第一语音传感器201形成的第一音频图谱与上述振动模型进行匹配,说明佩戴用户正在说话,同时也说明佩戴用户此时使用语音识别功能的需求较强。因此,仍如图5所示,蓝牙耳机此时可打开功耗较高的第二语音传感器202,使用第二语音传感器202采集声音信号(本实施例中称为第二声音信号)。以第二语音传感器202为气传导麦克风举例,气传导麦克风打开后可采集到通过空气传播引起的第二声音信号的振动信号。气传导麦克风可以将感应到的振动信号转换为对应的电信号,得到第二声音信号的第二音频图谱。
虽然气传导麦克风的功耗大于上述第一语音传感器201的功耗,但气传导麦克风工作时形成的第二声音信号的第二音频图谱能够更加准确的还原出用户输入的语音信息。因此,后续蓝牙耳机或手机可根据气传导麦克风形成的第二音频图谱对第二声音信号进行语音识别,以保证语音识别结果的准确度。
可以看出,在本申请实施例中,蓝牙耳机可先开启功耗较小的第一语音传感器201采集第一声音信号,通过采集到的第一声音信号判断佩戴用户是否正在说话。如果判断出佩戴用户正在说话,则说明佩戴用户此时有开启语音识别功能的需求,因此,蓝牙耳机可开启功耗较大的第二语音传感器202采集第二声音信号,并对采集到的第二声音信号进行语音识别。这样,在佩戴用户没有开启语音识别功能的需求时,蓝牙耳机不用开启功耗较大的第二语音传感器202,也无需运行对应的语音识别算法,从而可以降低实现语音识别功能时蓝牙耳机的功耗。
同时,在用户佩戴蓝牙耳机并发声时,会使蓝牙耳机中的第一语音传感器201(例如上述第一加速度传感器)形成上述第一声音信号的第一音频图谱。而在非佩戴状态下,或者在背景音(例如录音或噪音)干扰的状态下无法唤醒上述第一语音传感器201,从而降低了语音识别功能被误唤醒的几率。
另外,蓝牙耳机打开第二语音传感器202后,第一语音传感器201可以仍处于开启状态。即第二语音传感器202在采集第二声音信号的同时,第一语音传感器201也可以实时的采集声音信号(本实施例中可称为第五声音信号,第五声音信号与第二声音信号来同一语音输入)。并且,蓝牙耳机可将第一语音传感器201采集到的第五声音信号的音频图谱不断地与上述振动模型进行匹配,从而实时的确定出佩戴用户是否正在说话。
以蓝牙耳机使用每10ms第一语音传感器201输出的音频图谱与上述振动模型进行匹配举例。如果当前这10ms内输出的音频图谱与振动模型匹配,则说明用户还未结束发声,第一语音传感器201和第二语音传感器202可继续采集声音信号。当某一10ms内输出的音频图谱与振动模型不匹配时,则说明用户已经结束发声,则蓝牙耳机可关闭第二语音传感器202,以降低蓝牙耳机的功耗。而第一语音传感器201仍可处于工作状态,当再次确定出第一语音传感器201形成的音频图谱与振动模型匹配时,可触发蓝牙耳机再次打开第二语音传感器202进行语音识别。
又或者,如果第一语音传感器201输出的音频图谱与上述振动模型不匹配,蓝牙耳机也可以不立即关闭第二语音传感器202,而是保持第二语音传感器202继续工作预设时间(例如2秒)。仍以蓝牙耳机使用每10ms第一语音传感器201输出的音频图谱与上述振动模型进行匹配举例,在这2秒内,如果第一语音传感器201每次输出的音频图谱与振动模型均不匹配,则说明佩戴用户此时确实已经停止说话,则蓝牙耳机可关闭第二语音传感器202。
相应的,如果在这2秒内,第一语音传感器201有一次或多次输出的音频图谱与振动模型匹配,则说明佩戴用户刚才在输入语音时有短暂的停顿,用户实际上并未结束发声。因此,蓝牙耳机可继续使用第二语音传感采集声音信号,避免用户发声时的短暂停顿造成蓝牙耳机频繁打开、关闭第二语音传感器202带来的功耗损失。
又例如,蓝牙耳机打开第二语音传感器202后也可以关闭第一语音传感器201。此时,蓝牙耳机可根据第二语音传感器202确定用户停止发声的时间。例如,当第二语音传感器202打开后,如果连续一段时间内没有采集到振动信号,则可确定用户停止发声,此时,蓝牙耳机可关闭第二语音传感器202。又或者,当第二语音传感器202打开后,蓝牙耳机也可将第二语音传感器202在采集第二声音信号时形成的音频图谱不断地与上述振动模型进行匹配,从而实时的确定出佩戴用户是否正在说话。其具体方法可参见蓝牙耳机将第一语音传感器201形成的音频图谱与上述振动模型进行匹配的方法,故此处不再赘述。
在本申请的另一些实施例中,如果蓝牙耳机确定出当前处于佩戴状态,则蓝牙耳机也可同时打开功耗较低的第一语音传感器201以及功耗较高的第二语音传感器202。
仍以第一语音传感器201为第一加速度传感器,第二语音传感器202为气传导麦克风举例,如图6所示,确定出蓝牙耳机处于佩戴状态后,蓝牙耳机可打开第一加速度传感器采集第一声音信号,同时,蓝牙耳机还可打开气传导麦克风采集声音信号(本实施例中可称为第三声音信号,第三声音信号与第一声音信号来同一语音输入),并缓存最近一段时间(例如最近2秒)采集到的第三声音信号。同时,第一加速度传感器也可以采集到用户发声时引起的振动信号,进而得到第一声音信号的第一音频图谱。
仍如图6所示,蓝牙耳机可确定上述第一音频图谱与预设的振动模型是否匹配。如果匹配,则说明佩戴用户正在说话,此时佩戴用户使用语音识别功能的意图较为强烈。那么,除了气传导麦克风最近一段时间采集到的第三声音信号之外,蓝牙耳机可继续使用气传导麦克风持续采集声音信号(即上述第二声音信号),直至第一加速度传感器形成的音频图谱与上述振动模型不匹配(即用户停止发声)为止。同时,蓝牙耳机确定出上述第一音频图谱与预设的振动模型匹配后,还可以开启相关的语音识别算法,对气传导麦克风采集到的声音信号(例如上述第二声音信号和/或第三声音信号)进行语音识别。如果上述第一音频图谱与预设的振动模型不匹配,则蓝牙耳机可删除第一语音传感器201和第二语音传感器202采集到的声音信号。
也就是说,在确定出佩戴用户正在说话之前,蓝牙耳机可以保存第二语音传感器202(即气传导麦克风)最近2秒采集到的第三声音信号。并且,在确定出佩戴用户正在说话之后,蓝牙耳机可通过第二语音传感器202(即气传导麦克风)继续采集到用户发出的声音信号(即第二声音信号),直至蓝牙耳机确定出用户停止发声为止。那么,仍如图6所示,后续蓝牙耳机或手机可结合第二语音传感器202采集到的这两部分声音信号进行语音识别。
这样一来,第二语音传感器202不会丢失掉蓝牙耳机在确定出佩戴用户正在说话之前采集到的声音信号。例如,检测出用户佩戴蓝牙耳机后,如果蓝牙耳机仅打开了第一语音传感器201,则用户发出“打电话给张三”的语音输入时,蓝牙耳机可能在用户发出“话”字的时候才通过第一语音传感器201形成的音频图谱确定出佩戴用户正在说话。如果此时蓝牙耳机再打开第二语音传感器202采集到“话”字之后的第二声音信号,则第二语音传感器202采集到的第二声音信号可能只包括“话给张三”这样不完整的声音信号。
因此,在本申请实施例中,在检测出用户佩戴蓝牙耳机后,蓝牙耳机可同时打开第一语音传感器201和第二语音传感器202。在确定出佩戴用户正在说话之前,第二语音传感器202可缓存最近一段时间的声音信号,而在确定出佩戴用户正在说话之后,第二语音传感器202可持续缓存采集到的声音信号。这样,后续手机或蓝牙耳机可基于第二语音传感器202缓存的两部分声音信号(即更完整的声音信号)进行语音识别,从而提高语音识别的准确率。
当然,如果第二语音传感器202采集到的第二声音信号不完整,或者第二声音信号加上第二语音传感器202缓存的第一声音信号也不完整时,蓝牙耳机也可以对不完整的声音信号进行语音识别,本申请实施例对此不做任何限制。
另外,蓝牙耳机虽然在检测出用户佩戴蓝牙耳机后就打开了第二语音传感器202,但蓝牙耳机或手机可以是在确定出佩戴用户正在说话之后,才唤醒相关的语音识别算法进行语音识别的。因此,相比于蓝牙耳机长时间打开麦克风和语音识别算法进行实时语音识别的方法,上述实施例提供的语音识别方法仍然可一定程度的降低实现语音识别功能的功耗。
在本申请实施例中,基于上述第二语音传感器202采集的声音信号进行语音识别的过程可以是蓝牙耳机执行的,也可以是手机执行的,还可以是蓝牙耳机与手机协同完成的。
示例性的,蓝牙耳机内的存储模块208中可预先存储相应的语音识别算法。那么,第二语音传感器202可以将采集到的声音信号发送给蓝牙耳机内的计算模块207,由计算模块207使用存储模块208中的语音识别算法对第二语音传感器202采集到的声音信号进行语音识别,得到语音识别结果。
例如,蓝牙耳机可以在第二语音传感器202停止工作后,将第二语音传感器202采集到的所有声音信号(例如,确定佩戴用户说话之前10ms的声音信号以及确定佩戴用户说话之后1s的声音信号)统一发送给计算模块207,由计算模块207对接收到的声音信号进行语音识别。例如,计算模块207识别出的语音识别结果为“给Alice打电话”。
又例如,第二语音传感器202也可以将采集到的声音信号实时的发送给计算模块207。例如,第二语音传感器202可将每10ms采集到的声音信号实时发送给计算模块207,直至第二语音传感器202停止工作。这样,计算模块207可以实时的基于接收到的声音信号进行语音识别,提高语音识别的识别速度。
蓝牙耳机得到语音识别结果后,如图7中的(a)所示,蓝牙耳机可以通过通信模块205将语音识别结果发送给手机。手机接收到该语音识别结果后,可执行与该语音识别结果对应的操作指令。例如,如果上述语音识别结果为“给Alice打电话”,那么,手机可打开已安装的通话应用,并在通话应用中拨打联系人“Alice”的电话号码。
或者,如图7中的(b)所示,蓝牙耳机得到语音识别结果后,也可由蓝牙耳机的计算模块207确定与该语音识别结果对应的操作指令。进而,蓝牙耳机可将确定出的操作指令发送给手机,手机接收到该操作指令后可执行该操作指令,从而实现用户通过向蓝牙耳机输入相关语音来控制手机的功能。
在本申请的另一些实施例中,手机中的语音识别功能可以是在用户说出特定的唤醒词后才被唤醒的。示例性的,可以在蓝牙耳机的存储模块208中预先存储上述特定的唤醒词,例如“你好小E”、“hi google”等。此时,如图8所示,第二语音传感器202可将采集到的声音信号先发送给蓝牙耳机的计算模块207,由计算模块207识别接收到的声音信号中是否包含该唤醒词。如果包含该唤醒词,则说明用户后续准备使用手机中的语音识别功能,因此,蓝牙耳机可将第二语音传感器202可采集到的声音信号发送给手机,由手机开启语音识别算法对接收到的声音信号进行语音识别,并执行与语音识别结果对应的操作指令。
这样一来,蓝牙耳机只需识别第二语音传感器202采集到的声音信号中是否包含唤醒词,这使得蓝牙耳机内的算法复杂度和实现复杂度大大降低,同时可降低蓝牙耳机的功耗。并且,在用户说出特定的唤醒词之前,蓝牙耳机不会唤醒手机的语音识别功能,从而可降低手机的功耗。
示例性的,第二语音传感器202可以将采集到的声音信号实时的发送给蓝牙耳机的计算模块207,这样计算模块207可以实时的识别出用户有没有说出预设的唤醒词。例如,第二语音传感器202可以将每10ms采集到的声音信号发送给计算模块207,如果计算模块207根据第1秒的声音信号识别出上述唤醒词,则蓝牙耳机可以将第1秒之后第二语音传感器202将采集到的剩余的声音信号实时的发送给手机。这样手机只需对用户说出唤醒词之后的声音信号进行语音识别,从而降低手机的功耗。
当然,蓝牙耳机可以将上述第1秒的声音信号(即包含唤醒词的声音信号)发送给手机,手机可以对该唤醒词进行二次识别,以保证语音识别功能的准确性和安全性。
另外,第二语音传感器202在采集声音信号的过程中,如果蓝牙耳机根据该声音信号识别出上述唤醒词,则蓝牙耳机还可以向手机发送一个唤醒指令。此时,如果手机处于息屏状态,则手机可响应于该唤醒指令点亮屏幕或发出语音提示,从而提示用户已经开启语音识别功能。如果手机处于亮屏状态,则手机可自动打开语音助手应用,并显示出与语音助手的对话界面。
示例性的,如图9所示,为手机显示出的与语音助手的对话界面901。蓝牙耳机可以将识别出的语音识别结果发送给手机,手机可以在对话界面901中显示蓝牙耳机识别出的唤醒词,例如对话界面901中的“你好小E”。并且,手机也可以在对话界面901中显示手机对接收到的声音信号的语音识别结果,例如对话界面901中的“今天天气怎么样”。另外,手机还可以在对话界面901中显示语音助手对各条语音识别结果的响应信息。例如,对话界面901中手机对“你好小E”的响应信息为“你好,主人”,手机对“今天天气怎么样”的响应信息为西安市的天气预报内容。并且,手机可将语音助手生成的响应信息转换为语音信息发送给蓝牙耳机,由蓝牙耳机播放该语音信息,这样用户通过手机或蓝牙耳机均可获知语音助手对其声音信号的响应结果。
另外,手机或蓝牙耳机识别出上述声音信号的语音识别结果后,还可以基于语音识别结果的安全性对用户身份进行鉴权。如果在语音识别结果中检测到“解锁”、“支付”等安全等级较高的词语时,手机可要求用户输入指纹进行指纹识别,或者要求用户发声进行声纹识别等鉴权方法,以验证发出上述声音信号的用户是否为合法用户。当用户通过身份鉴权(即用户为合法用户)后,手机可执行与语音识别结果对应的操作指令,以提高用户通过语音控制手机时的安全性。
在本申请的另一些实施例中,如图10所示,蓝牙耳机还可以将第二语音传感器202采集到的声音信号发送给手机,由手机对该声音信号进行语音识别,以降低蓝牙耳机的实现复杂度和功耗。在手机进行语音识别的过程中,可以先使用手机的音频模块170(例如DSP)识别接收到的声音信号中是否包含预设的唤醒词。如果识别出预设的唤醒词,则手机可启动处理器110(例如应用处理器)使用相应的语音识别算法对上述声音信号进行语音识别。处理器110通过语音识别算法可得到上述声音信号的语音识别结果,进而处理器110可执行与该语音识别结果对应的操作指令。相应的,如果没有识别出上述唤醒词,说明用户此时并没有开启语音识别功能的需求,则手机无需唤醒处理器110进行后续的语音识别处理,从而降低手机的功耗。
无论是上述实施例中图7-图10所示的哪一种语音识别方法,蓝牙耳机在与手机交互之前,还可以检测此时蓝牙耳机与手机之间的蓝牙连接的工作状态。如果蓝牙耳机与手机之间的蓝牙连接处于BLE模式,则蓝牙耳机可先恢复与手机之间建立的蓝牙连接,再基于该蓝牙连接向手机发送语音识别结果或第二语音传感器202采集到的声音信号。
如果蓝牙耳机与手机之间的蓝牙连接处于数据交互的状态,例如,蓝牙耳机正在播放手机中的音频,或者,用户正在使用蓝牙耳机打电话等。此时,蓝牙耳机无需恢复与手机之间建立的蓝牙连接,可直接基于该蓝牙连接向手机发送语音识别结果或第二语音传感器202采集到的声音信号。
在本申请的另一些实施例中,本申请实施例公开了一种可穿戴设备,如图11所示,该可穿戴设备可以包括:第一语音传感器201;第二语音传感器202;一个或多个处理器1002;存储器1003;通信接口1004;一个或多个应用程序(未示出);以及一个或多个计算机程序1005,上述各器件可以通过一个或多个通信总线1006连接。处理器1002与上述图3中的处理器110可以相同也可以不同。存储器1003与上述图3中的存储器121可以相同也可以不同。其中该一个或多个计算机程序1005被存储在上述存储器1003中并被配置为被该一个或多个处理器1002执行,该一个或多个计算机程序1005包括指令,上述指令可以用于执行如图5-图10及相应实施例中的各个步骤。
另外,结合图2所示的可穿戴设备,上述处理器1002可以为图2中的计算模块207,存储器1003可以为图2中的存储模块208,通信接口1004可以为图2中的通信模块205。当然,图10所示的可穿戴设备还可以包括图2所示接近光传感器204、听筒206以及电源209等部件,本申请实施例对此不做任何限制。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种语音识别方法,其特征在于,包括:
可穿戴设备获取第一语音传感器采集到的第一声音信号;
所述可穿戴设备判断所述第一声音信号是否满足预设条件;
当所述第一声音信号满足预设条件时,所述可穿戴设备获取第二语音传感器采集到的第二声音信号,所述第二语音传感器能够感知到的振动频率范围与所述第一语音传感器能够感知到的振动频率范围不同;
所述可穿戴设备向终端发送语音信息,所述语音信息包括所述第二语音传感器采集到的第二声音信号,以使得所述终端对所述语音信息进行语音识别;
所述可穿戴设备判断所述第一声音信号是否满足预设条件,包括:
所述可穿戴设备确定所述第一声音信号中是否具有预设的振动特征;
若具有预设的振动特征,则所述可穿戴设备确定所述第一声音信号满足所述预设条件,否则,所述可穿戴设备确定所述第一声音信号不满足所述预设条件。
2.根据权利要求1所述的语音识别方法,其特征在于,当所述第一声音信号满足预设条件时,所述可穿戴设备获取第二语音传感器采集到的第二声音信号,包括:
当所述第一声音信号满足预设条件时,所述可穿戴设备打开所述第二语音传感器,并使用所述第二语音传感器采集第二声音信号。
3.根据权利要求2所述的语音识别方法,其特征在于,在所述可穿戴设备获取第二语音传感器采集到的第二声音信号之后,还包括:
所述可穿戴设备识别所述第二声音信号中是否包含预设的唤醒词;
其中,所述可穿戴设备向终端发送语音信息,包括:
若所述第二声音信号中包含预设的唤醒词,则所述可穿戴设备向所述终端发送所述语音信息。
4.根据权利要求1所述的语音识别方法,其特征在于,在可穿戴设备获取第一语音传感器采集到的第一声音信号时,所述第二语音传感器处于打开状态;
其中,在所述可穿戴设备判断出所述第一声音信号是否满足预设条件之前,还包括:
所述可穿戴设备使用所述第二语音传感器采集第三声音信号,并保存最近预设时间内采集到的第三声音信号,所述第三声音信号与所述第一声音信号来自同一语音输入。
5.根据权利要求4所述的语音识别方法,其特征在于,所述语音信息还包括所述第三声音信号。
6.根据权利要求4或5所述的语音识别方法,其特征在于,当所述第一声音信号满足预设条件时,所述可穿戴设备获取第二语音传感器采集到的第二声音信号,包括:
当所述第一声音信号满足预设条件时,所述可穿戴设备使用所述第二语音传感器采集所述第二声音信号,并保存采集到的所述第二声音信号。
7.根据权利要求6所述的语音识别方法,其特征在于,在所述可穿戴设备获取第二语音传感器采集到的第二声音信号之后,还包括:
所述可穿戴设备识别第四声音信号中是否包含预设的唤醒词,所述第四声音信号为已保存的所述第三声音信号和所述第二声音信号;
其中,所述可穿戴设备向终端发送语音信息,包括:
若所述第四声音信号中包含预设的唤醒词,则所述可穿戴设备向所述终端发送所述语音信息。
8.根据权利要求1所述的语音识别方法,其特征在于,当所述第一声音信号满足预设条件时,所述方法还包括:
所述可穿戴设备使用所述第一语音传感器采集到第五声音信号,所述第五声音信号与所述第二声音信号来自同一语音输入;
若预设时间内采集到的所述第五声音信号均不具有预设的振动特征,则所述可穿戴设备关闭所述第二语音传感器。
9.根据权利要求1所述的语音识别方法,其特征在于,在可穿戴设备获取第一语音传感器采集到的第一声音信号之前,包括:
所述可穿戴设备检测是否处于佩戴状态;
若处于佩戴状态,则所述可穿戴设备打开所述第一语音传感器;或者,
若处于佩戴状态,则所述可穿戴设备打开所述第一语音传感器和所述第二语音传感器。
10.根据权利要求1所述的语音识别方法,其特征在于,所述第二语音传感器能够感知到的最大振动频率大于所述第一语音传感器能够感知到的最大振动频率。
11.一种语音识别方法,其特征在于,包括:
获取第一语音传感器采集到的第一声音信号;
获取第二语音传感器采集到的第三声音信号,所述第三声音信号和所述第一声音信号来自同一语音输入,所述第二语音传感器能够感知到的振动频率范围与所述第一语音传感器能够感知到的振动频率范围不同;
判断所述第一声音信号是否满足预设条件;
当所述第一声音信号满足预设条件时,继续使用所述第二语音传感器采集第二声音信号;
对语音信息进行语音识别,所述语音信息中包括所述第二声音信号;
所述判断所述第一声音信号是否满足预设条件,包括:
确定所述第一声音信号中是否具有预设的振动特征;
若具有预设的振动特征,则确定所述第一声音信号满足所述预设条件,否则,确定所述第一声音信号不满足所述预设条件。
12.根据权利要求11所述的语音识别方法,其特征在于,当所述第一声音信号满足预设条件时,还包括:
可穿戴设备识别所述第三声音信号中是否包含预设的唤醒词;
若所述第三声音信号中包含预设的唤醒词,则所述可穿戴设备将所述语音信息发送给终端。
13.根据权利要求11或12所述的语音识别方法,其特征在于,所述语音信息中还包括所述第一声音信号和/或所述第三声音信号。
14.一种可穿戴设备,其特征在于,包括:
第一语音传感器;
第二语音传感器,所述第二语音传感器能够感知到的振动频率范围与所述第一语音传感器能够感知到的振动频率范围不同;
计算模块;
存储模块;
通信模块;
以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储模块中,所述一个或多个计算机程序包括指令,当所述指令被所述可穿戴设备执行时,使得所述可穿戴设备执行如权利要求1-10或权利要求11-13中任一项所述的语音识别方法。
15.根据权利要求14所述的可穿戴设备,其特征在于,所述可穿戴设备为蓝牙耳机;
所述第一语音传感器设置在用户佩戴所述可穿戴设备时靠近用户的一侧;所述第一语音传感器为第一加速度传感器,所述第二语音传感器为第二加速度传感器、气传导麦克风或骨传导麦克风。
16.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在可穿戴设备上运行时,使得所述可穿戴设备执行如权利要求1-10或权利要求11-13中任一项所述的语音识别方法。
17.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得计算机执行如权利要求1-10或权利要求11-13中任一项所述的语音识别方法。
18.一种语音识别系统,其特征在于,所述系统包括可穿戴设备和终端,所述可穿戴设备与所述终端之间通信连接;所述可穿戴设备包括第一语音传感器和第二语音传感器,所述第二语音传感器能够感知到的振动频率范围与所述第一语音传感器能够感知到的振动频率范围不同;其中,
所述可穿戴设备,用于:获取所述第一语音传感器采集到的第一声音信号;判断所述第一声音信号是否满足预设条件;当所述第一声音信号满足预设条件时,获取第二语音传感器采集到的第二声音信号;向终端发送语音信息,所述语音信息包括所述第二语音传感器采集到的第二声音信号;
所述可穿戴设备,还用于:确定所述第一声音信号中是否具有预设的振动特征;若具有预设的振动特征,则所述可穿戴设备确定所述第一声音信号满足所述预设条件,否则,所述可穿戴设备确定所述第一声音信号不满足所述预设条件;
所述终端用于:接收所述可穿戴设备发送的所述语音信息;对所述语音信息进行语音识别。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/100517 WO2020034104A1 (zh) | 2018-08-14 | 2018-08-14 | 一种语音识别方法、可穿戴设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112334977A CN112334977A (zh) | 2021-02-05 |
CN112334977B true CN112334977B (zh) | 2024-05-17 |
Family
ID=69524633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880094840.5A Active CN112334977B (zh) | 2018-08-14 | 2018-08-14 | 一种语音识别方法、可穿戴设备及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112334977B (zh) |
WO (1) | WO2020034104A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11942107B2 (en) * | 2021-02-23 | 2024-03-26 | Stmicroelectronics S.R.L. | Voice activity detection with low-power accelerometer |
CN113220073B (zh) * | 2021-05-06 | 2023-07-28 | 恒玄科技(上海)股份有限公司 | 一种控制方法、装置以及可穿戴设备 |
CN113782038A (zh) * | 2021-09-13 | 2021-12-10 | 北京声智科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN113825063B (zh) * | 2021-11-24 | 2022-03-15 | 珠海深圳清华大学研究院创新中心 | 耳机的语音识别启动方法及耳机的语音识别方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104144377A (zh) * | 2013-05-09 | 2014-11-12 | Dsp集团有限公司 | 话音激活设备的低功率激活 |
CN104284485A (zh) * | 2014-09-26 | 2015-01-14 | 生迪光电科技股份有限公司 | 智能照明装置、照明系统及智能照明控制方法 |
CN105191172A (zh) * | 2013-05-16 | 2015-12-23 | 三星电子株式会社 | 通信方法和装置 |
CN105432060A (zh) * | 2014-07-09 | 2016-03-23 | Lg电子株式会社 | 移动终端及其控制方法 |
CN105493180A (zh) * | 2013-08-26 | 2016-04-13 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
KR20160053472A (ko) * | 2014-11-05 | 2016-05-13 | 넥시스 주식회사 | 글라스형 웨어러블 디바이스를 이용한 이벤트정보 제공서비스 시스템, 방법 및 글라스형 웨어러블 디바이스용 어플리케이션 |
CN106465006A (zh) * | 2014-06-30 | 2017-02-22 | 三星电子株式会社 | 麦克风的操作方法和支持该方法的电子设备 |
CN106686488A (zh) * | 2015-11-10 | 2017-05-17 | 北京卓锐微技术有限公司 | 麦克风 |
CN106714023A (zh) * | 2016-12-27 | 2017-05-24 | 广东小天才科技有限公司 | 一种基于骨传导耳机的语音唤醒方法、系统及骨传导耳机 |
CN106850963A (zh) * | 2016-12-27 | 2017-06-13 | 广东小天才科技有限公司 | 一种可穿戴设备的通话控制方法及可穿戴设备 |
CN107079220A (zh) * | 2014-11-12 | 2017-08-18 | 高通股份有限公司 | 经缩减的麦克风通电等待时间 |
CN107357549A (zh) * | 2017-07-13 | 2017-11-17 | 联想(北京)有限公司 | 一种处理方法及可穿戴电子设备 |
CN107484233A (zh) * | 2017-08-28 | 2017-12-15 | 北京小米移动软件有限公司 | 终端振动方法、终端及计算机可读存储介质 |
CN108024223A (zh) * | 2017-12-07 | 2018-05-11 | 北京小米移动软件有限公司 | 数据分享方法及装置 |
CN108052195A (zh) * | 2017-12-05 | 2018-05-18 | 广东小天才科技有限公司 | 一种麦克风设备的控制方法及终端设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10747498B2 (en) * | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
KR20180085931A (ko) * | 2017-01-20 | 2018-07-30 | 삼성전자주식회사 | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
-
2018
- 2018-08-14 WO PCT/CN2018/100517 patent/WO2020034104A1/zh active Application Filing
- 2018-08-14 CN CN201880094840.5A patent/CN112334977B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104144377A (zh) * | 2013-05-09 | 2014-11-12 | Dsp集团有限公司 | 话音激活设备的低功率激活 |
CN105191172A (zh) * | 2013-05-16 | 2015-12-23 | 三星电子株式会社 | 通信方法和装置 |
CN105493180A (zh) * | 2013-08-26 | 2016-04-13 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
CN106465006A (zh) * | 2014-06-30 | 2017-02-22 | 三星电子株式会社 | 麦克风的操作方法和支持该方法的电子设备 |
CN105432060A (zh) * | 2014-07-09 | 2016-03-23 | Lg电子株式会社 | 移动终端及其控制方法 |
CN104284485A (zh) * | 2014-09-26 | 2015-01-14 | 生迪光电科技股份有限公司 | 智能照明装置、照明系统及智能照明控制方法 |
KR20160053472A (ko) * | 2014-11-05 | 2016-05-13 | 넥시스 주식회사 | 글라스형 웨어러블 디바이스를 이용한 이벤트정보 제공서비스 시스템, 방법 및 글라스형 웨어러블 디바이스용 어플리케이션 |
CN107079220A (zh) * | 2014-11-12 | 2017-08-18 | 高通股份有限公司 | 经缩减的麦克风通电等待时间 |
CN106686488A (zh) * | 2015-11-10 | 2017-05-17 | 北京卓锐微技术有限公司 | 麦克风 |
CN106714023A (zh) * | 2016-12-27 | 2017-05-24 | 广东小天才科技有限公司 | 一种基于骨传导耳机的语音唤醒方法、系统及骨传导耳机 |
CN106850963A (zh) * | 2016-12-27 | 2017-06-13 | 广东小天才科技有限公司 | 一种可穿戴设备的通话控制方法及可穿戴设备 |
CN107357549A (zh) * | 2017-07-13 | 2017-11-17 | 联想(北京)有限公司 | 一种处理方法及可穿戴电子设备 |
CN107484233A (zh) * | 2017-08-28 | 2017-12-15 | 北京小米移动软件有限公司 | 终端振动方法、终端及计算机可读存储介质 |
CN108052195A (zh) * | 2017-12-05 | 2018-05-18 | 广东小天才科技有限公司 | 一种麦克风设备的控制方法及终端设备 |
CN108024223A (zh) * | 2017-12-07 | 2018-05-11 | 北京小米移动软件有限公司 | 数据分享方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020034104A1 (zh) | 2020-02-20 |
CN112334977A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364151B (zh) | 一种语音唤醒的方法和电子设备 | |
CN112289313A (zh) | 一种语音控制方法、电子设备及系统 | |
CN111742361B (zh) | 一种终端更新语音助手的唤醒语音的方法及终端 | |
CN110750772B (zh) | 一种电子设备及传感器控制方法 | |
CN112334977B (zh) | 一种语音识别方法、可穿戴设备及系统 | |
CN112585599A (zh) | 一种语音识别方法、可穿戴设备及电子设备 | |
CN112334860B (zh) | 一种可穿戴设备的触控方法、可穿戴设备及系统 | |
CN112651510A (zh) | 模型更新方法、工作节点及模型更新系统 | |
CN113438364B (zh) | 振动调节方法、电子设备、存储介质 | |
CN114221402A (zh) | 终端设备的充电方法、装置和终端设备 | |
CN115665632B (zh) | 音频电路、相关装置和控制方法 | |
CN109285563B (zh) | 在线翻译过程中的语音数据处理方法及装置 | |
CN113129916A (zh) | 一种音频采集方法、系统及相关装置 | |
CN117093068A (zh) | 基于穿戴设备的振动反馈方法、系统、穿戴设备和电子设备 | |
CN115389927B (zh) | 马达阻尼的测算方法和系统 | |
CN113467904B (zh) | 确定协同模式的方法、装置、电子设备和可读存储介质 | |
CN113467747B (zh) | 音量调节方法、电子设备及存储介质 | |
CN113838478B (zh) | 异常事件检测方法、装置和电子设备 | |
CN111309130B (zh) | 一种实现进水保护的移动终端及方法 | |
CN115731923A (zh) | 命令词响应方法、控制设备及装置 | |
CN114116610A (zh) | 获取存储信息的方法、装置、电子设备和介质 | |
CN113867520A (zh) | 设备控制方法、电子设备和计算机可读存储介质 | |
CN116708317B (zh) | 数据包mtu的调整方法、装置和终端设备 | |
CN114125144B (zh) | 一种防误触的方法、终端及存储介质 | |
CN113364067B (zh) | 充电精度校准方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |