CN108492825A - 一种语音识别的启动方法、头戴式设备及语音识别系统 - Google Patents
一种语音识别的启动方法、头戴式设备及语音识别系统 Download PDFInfo
- Publication number
- CN108492825A CN108492825A CN201810198664.1A CN201810198664A CN108492825A CN 108492825 A CN108492825 A CN 108492825A CN 201810198664 A CN201810198664 A CN 201810198664A CN 108492825 A CN108492825 A CN 108492825A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- headset equipment
- voice
- user
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 239000011521 glass Substances 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 4
- 210000000988 bone and bone Anatomy 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 210000003128 head Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 210000001508 eye Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种语音识别的启动方法、头戴式设备及语音识别系统,所述方法包括:头戴式设备实时监测用户头部动作;如头戴式设备监测到一个特定的有效头部动作发生,则发送启动语音识别的指令;头戴式设备采集用户语音上传;语音识别系统接收语音数据并进行语音识别。本发明可在用户有需求时,通过自主意识做出特定的有效头部动作,便捷地启动语音识别功能,摆脱了语音唤醒方法的高功耗和按键唤醒的繁琐缺点,反应迅速,准确率高,尤其适用于可穿戴设备的应用,具有良好的公共利益。
Description
技术领域
本发明涉及语音识别技术,尤其涉及一种语音识别的启动方法、头戴式设备及语音识别系统。
背景技术
随着智能化技术的发展,穿戴式设备对语音识别功能的需求不断增加,这种需求不仅体现在语音识别的准确率上,而且也包含语音识别启动的操控便捷性和可靠性,以及对设备续航能力的影响。
现有公知的语音识别唤醒技术,通常需要用手在设备上进行触摸操作或发出特定唤醒词语音后,才能激活语音识别的开启。前者具有操控便捷性差的缺点,往往需要手与眼睛的配合,按键数次才能开启语音录入,这在用户不便于腾出双手的使用场景,比如驾车、骑行、作业,是难以操控的;而后者具有持续功耗较高的缺点,难以应用于采用有限容量电池的穿戴式设备,且唤醒率也有待提升。
发明内容
本发明提供一种语音识别的启动方法、头戴式设备及语音识别系统,通过识别特定头部动作的有效性,使其转换为启动语音识别的控制指令,让用户在有需求时,通过简单易行的有效头部动作,即可实现启动语音识别,操控简洁可靠,完全解放双手和眼睛。
为实现上述方案,本发明提供一种语音识别的启动方法,所述方法包括:
S1、头戴式设备实时监测用户头部动作;
S2、如头戴式设备监测到一个具有启动语音识别指令属性的有效头部动作发生,则发送启动语音识别指令;
S3、头戴式设备采集用户语音;
S4、语音识别系统接收语音数据并进行语音识别。
进一步的,所述发送启动语音识别指令包括:
头戴式设备发送用户语音采集指令;
头戴式设备向语音识别系统发送启动语音识别的触发指令。
本发明还提供一种头戴式设备,包括:陀螺仪芯片,用于采集用户的头部动作角速度数据;控制模块,用于监测用户特定头部动作的有效性,并转换为启动语音识别指令;麦克风,用于采集用户语音;扬声器,用于播放音频;通讯模块,用于与语音识别系统通讯。
进一步的,所述头戴式设备预先定义语音识别休眠状态下用户一个特定的有效头部动作具有启动语音识别的指令属性;当已定义具有启动语音识别指令属性的有效头部动作被监测到发生一次时,头戴式设备即发送启动语音识别指令。
进一步的,所述头戴式设备识别的有效头部动作包括点头动作。
进一步的,所述头戴式设备包括头戴式耳机、蓝牙耳机、蓝牙眼镜、智能眼镜、AR/VR眼镜、骨传导耳机、骨传导眼镜、智能头盔、智能头箍。
本发明还提供一种语音识别系统,包括:语音识别触发单元,用于接收头戴式设备发送的触发指令,并启动语音识别系统工作;语音接收单元,用于接收头戴式设备上传的语音数据;语音识别单元,用于对语音数据进行识别;语音控制单元,用于将识别结果用作相应的控制。
本发明的有益效果是,通过自主控制做出特定的有效头部动作,用户可在有需求时,便捷地启动语音识别工作,摆脱了语音唤醒启动方法的高功耗和按键操作的繁琐缺点,操控迅速,准确率高,功耗极低,具有良好的公共利益。
附图说明
为清楚说明本发明实施例的技术方案,下面对实施例描述中所需的附图作简要介绍,显而易见,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术用户来讲,在不付出创造性劳动的前提下,还可以据此获得其他的附图。
图1为本发明中一个实施例的头戴式设备原理框图;
图2为本发明中一个实施例的语音识别系统原理框图;
图3为本发明中一个实施例的语音识别的启动方法流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述。显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术用户在不脱离本发明本质和精神的情况下所获得的所有其他实施例,都属于本发明公开和保护的范围。
图1为本发明中一个实施例的头戴式设备100原理框图。所述头戴式设备100可以是头戴式耳机、蓝牙耳机、蓝牙眼镜、智能眼镜、AR/VR眼镜、骨传导耳机、骨传导眼镜、智能头盔或智能头箍中的任意一种形态和功能的产品,至少包括:陀螺仪芯片110,用于采集用户的头部动作角速度数据,可采用商用MEMS陀螺仪芯片;控制模块120,用于识别用户特定头部动作的有效性,并转换为启动语音识别指令,可采用MCU微处理器芯片;麦克风130,用于采集用户语音;扬声器140,用于播放音频;通讯模块150,用于与语音识别系统200通讯。
所述通讯模块150可包含蓝牙模块、Wi-Fi或移动通信网络模块。
图2为本发明中一个实施例的语音识别系统200原理框图。所述语音识别系统200,包括:语音识别触发单元210,用于接收头戴式设备发送的触发指令,并启动语音识别系统200工作;语音接收单元220,用于接收头戴式设备100上传的语音数据;语音识别单元230,用于对语音数据进行语音识别;语音控制单元240,用于将语音识别结果用作相应的控制。
实际应用中,所述语音识别系统200的硬件架构,可以由智能终端与安装语音识别算法的云端服务器共同组成;或可以仅为安装有离线语音包的智能终端;或可以仅为安装语音识别算法的云端服务器。所述智能终端包括智能手机、平板电脑。所述云端服务器可以是一台服务器,也可以是由若干个服务器组成的服务器集群,或者可以是一个云计算中心。
在此基础上,头戴式设备100可通过蓝牙模块连接智能终端与云端服务器建立通讯;或可通过蓝牙模块与智能终端建立通讯;或可通过Wi-Fi、移动通信网络模块直接与云端服务器建立通讯。
图3为本发明中一个实施例的语音识别的启动方法流程图
当用户佩戴头戴式设备100并开启后,控制模块120开始执行应用程序,实时监测用户头部动作的有效性。头戴式设备100设定用户做抬头、低头动作时围绕的旋转轴为X轴。
控制模块120从陀螺仪芯片110专用寄存器中读取在X轴上的旋转角速度数据,根据数据的正负极性判定单向头部动作的方向,同时对旋转角速度进行数学积分,计算出头部动作在X轴上的旋转角度,分别与X轴上的角度阈值比较,比较结果用于判定头部动作是否有效及头部动作类别。
单向头部动作有效性及类别的判定条件是:
当X轴旋转角速度ωx为负,且计算旋转角度θx大于角度阈值θ0时,控制模块120判定发生有效的低头动作。
当X轴旋转角速度ωx为正,且计算旋转角度θx大于角度阈值θ0时,控制模块120判定发生有效的抬头动作。
角度阈值θ0可设置为20度。
在判定单向头部动作类别和有效性的基础上,控制模块120根据连续的各类别单向头部动作的逻辑关系,和时间阈值条件,进一步判断组合头部动作的类别和有效性。
组合头部动作有效性及类别的判定条件是:
当在设定时间阈值T0内发生先低头动作、后抬头动作时,判定为发生有效的点头动作。时间阈值T0一般设定为1-2秒。
在符合用户思维习惯的前提下,头戴式设备100预先定义语音识别休眠状态下用户所做一个特定的有效头部动作,如点头动作,具有启动语音识别的指令属性,这与人表示同意的思维习惯可保持一致,以方便用户对设备语音识别启动操控的需求。
进一步的,所述头戴式设备预先定义语音识别休眠状态下识别到用户一个特定的有效头部动作作为启动语音识别的指令;当已定义具有启动语音识别指令属性的有效头部动作被监测到发生一次时,头戴式设备即发出启动语音识别指令。
在未发生有效点头动作的情况下,用户的其他各类头部动作均不会启动语音识别。
当用户需要启动语音识别工作时,其自主产生的意识才可以控制自己做出一个有效的点头动作,例如在1秒时间内做出一个有效的点头动作。当控制模块120监测到有效点头动作发生时,视为用户发出启动语音识别的指令,随即向语音识别系统200的语音识别触发单元210发出触发指令,同时向头戴式设备100上的扬声器140发出语音输入的提示音,用于提示用户开始输入语音,并打开麦克风130开始采集用户语音并上传。
语音识别触发单元210收到触发指令后,随即启动语音识别系统200开始工作。语音接收单元220接收头戴式设备100经由通讯模块150上传的语音数据,提供给语音识别单元230进行语音识别,解析后的语音命令被发送到语音控制单元240,进一步进行相应的操控。
由于有效的点头动作必须在用户自主产生需求意识并实施后才能发生,既可有效降低语音识别误启动发生的概率,又有产生的高准确率和便捷性,不受客观环境的干扰影响。
由于基于MEMS工艺技术制造的陀螺仪芯片110可工作于极低功耗水平,工作电流仅仅在十微安左右的量级,所以即使用于长期实时监测用户的头部动作,其功耗相较于数百毫安时的头戴式设备100锂电池来说,不会导致显著降低设备的续航能力,这就使得本实施例所述的技术方案具有实施的可行性。
通过在一定时间内做出有幅度要求的特定组合头部动作,用户可在有需求时,可靠而便捷地启动语音识别工作,且符合人的思维,摒弃了手动操作的繁琐,反应迅速,准确率高,误操作率低,有利于普及推广应用,具有良好的公共利益。
Claims (7)
1.一种语音识别的启动方法,其特征在于所述方法包括:
S1、头戴式设备实时监测用户头部动作;
S2、如头戴式设备监测到一个具有启动语音识别指令属性的有效头部动作发生,则发送启动语音识别指令;
S3、头戴式设备采集用户语音;
S4、语音识别系统接收语音数据并进行语音识别。
2.根据权利要求1所述的一种语音识别的启动方法,其特征在于所述发送启动语音识别指令包括:
头戴式设备发送用户语音采集指令;
头戴式设备向语音识别系统发送启动语音识别的触发指令。
3.一种头戴式设备,其特征在于所述头戴式设备包括:陀螺仪芯片,用于采集用户的头部动作角速度数据;控制模块,用于监测用户特定头部动作的有效性,并转换为启动语音识别指令;麦克风,用于采集用户语音;扬声器,用于播放音频;通讯模块,用于与语音识别系统通讯。
4.根据权利要求3所述的一种头戴式设备,其特征在于所述头戴式设备预先定义语音识别休眠状态下用户一个特定的有效头部动作具有启动语音识别的指令属性;当已定义具有启动语音识别指令属性的有效头部动作被监测到发生一次时,头戴式设备即发送启动语音识别指令。
5.根据权利要求3所述的一种头戴式设备,其特征在于所述特定的有效头部动作包括点头动作。
6.根据权利要求3所述的一种头戴式设备,其特征在于所述头戴式设备包括头戴式耳机、蓝牙耳机、蓝牙眼镜、智能眼镜、AR/VR眼镜、骨传导耳机、骨传导眼镜、智能头盔、智能头箍。
7.一种语音识别系统,其特征在于所述语音识别系统包括:语音识别触发单元,用于接收头戴式设备发送的启动语音识别的触发指令,并启动语音识别系统工作;语音接收单元,用于接收头戴式设备上传的语音数据;语音识别单元,用于对语音数据进行识别;语音控制单元,用于将识别结果用作相应的控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810198664.1A CN108492825A (zh) | 2018-03-12 | 2018-03-12 | 一种语音识别的启动方法、头戴式设备及语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810198664.1A CN108492825A (zh) | 2018-03-12 | 2018-03-12 | 一种语音识别的启动方法、头戴式设备及语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108492825A true CN108492825A (zh) | 2018-09-04 |
Family
ID=63338362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810198664.1A Pending CN108492825A (zh) | 2018-03-12 | 2018-03-12 | 一种语音识别的启动方法、头戴式设备及语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108492825A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109727596A (zh) * | 2019-01-04 | 2019-05-07 | 北京市第一〇一中学 | 控制遥控器的方法和遥控器 |
CN110164440A (zh) * | 2019-06-03 | 2019-08-23 | 清华大学 | 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 |
CN110445931A (zh) * | 2019-08-01 | 2019-11-12 | 花豹科技有限公司 | 语音识别开启方法及电子设备 |
CN110444213A (zh) * | 2019-09-03 | 2019-11-12 | 上海擎测机电工程技术有限公司 | 一种基于ar设备的语音识别方法及系统 |
CN110970023A (zh) * | 2019-10-17 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音设备的控制装置、语音交互方法、装置及电子设备 |
CN111131950A (zh) * | 2019-12-26 | 2020-05-08 | 广东思派康电子科技有限公司 | 三轴加速度感应器控制麦克风开关的方法、电子设备、计算机可读存储介质 |
CN112216277A (zh) * | 2019-07-12 | 2021-01-12 | Oppo广东移动通信有限公司 | 通过耳机进行语音识别的方法、耳机、语音识别装置 |
-
2018
- 2018-03-12 CN CN201810198664.1A patent/CN108492825A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109727596A (zh) * | 2019-01-04 | 2019-05-07 | 北京市第一〇一中学 | 控制遥控器的方法和遥控器 |
CN109727596B (zh) * | 2019-01-04 | 2020-03-17 | 北京市第一〇一中学 | 控制遥控器的方法和遥控器 |
CN110164440A (zh) * | 2019-06-03 | 2019-08-23 | 清华大学 | 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 |
CN112216277A (zh) * | 2019-07-12 | 2021-01-12 | Oppo广东移动通信有限公司 | 通过耳机进行语音识别的方法、耳机、语音识别装置 |
CN110445931A (zh) * | 2019-08-01 | 2019-11-12 | 花豹科技有限公司 | 语音识别开启方法及电子设备 |
CN110444213A (zh) * | 2019-09-03 | 2019-11-12 | 上海擎测机电工程技术有限公司 | 一种基于ar设备的语音识别方法及系统 |
CN110970023A (zh) * | 2019-10-17 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音设备的控制装置、语音交互方法、装置及电子设备 |
CN111131950A (zh) * | 2019-12-26 | 2020-05-08 | 广东思派康电子科技有限公司 | 三轴加速度感应器控制麦克风开关的方法、电子设备、计算机可读存储介质 |
CN111131950B (zh) * | 2019-12-26 | 2021-06-29 | 广东思派康电子科技有限公司 | 三轴加速度感应器控制麦克风开关的方法、电子设备、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492825A (zh) | 一种语音识别的启动方法、头戴式设备及语音识别系统 | |
CN106714023B (zh) | 一种基于骨传导耳机的语音唤醒方法、系统及骨传导耳机 | |
WO2020083110A1 (zh) | 一种语音识别、及语音识别模型训练方法及装置 | |
CN109120790B (zh) | 通话控制方法、装置、存储介质及穿戴式设备 | |
WO2020244257A1 (zh) | 语音唤醒方法、系统、电子设备及计算机可读存储介质 | |
CN109116991A (zh) | 穿戴式设备的控制方法、装置、存储介质及穿戴式设备 | |
CN105575395A (zh) | 语音唤醒方法及装置、终端及其处理方法 | |
WO2021184549A1 (zh) | 单耳耳机、智能电子设备、方法和计算机可读介质 | |
CN110060678B (zh) | 一种基于智能设备的虚拟角色控制方法及智能设备 | |
CN110070863A (zh) | 一种语音控制方法及装置 | |
WO2020073248A1 (zh) | 一种人机交互的方法及电子设备 | |
CN107277904A (zh) | 一种终端及语音唤醒方法 | |
KR20190009101A (ko) | 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버 | |
CN109151637A (zh) | 无线耳机、用于无线耳机的智能语音控制系统及方法 | |
CN110675873A (zh) | 智能设备的数据处理方法、装置、设备及存储介质 | |
CN104754112A (zh) | 用户信息获取方法及移动终端 | |
CN112995402A (zh) | 控制方法及装置、计算机可读介质和电子设备 | |
US20220230657A1 (en) | Voice control method and apparatus, chip, earphones, and system | |
WO2021254131A1 (zh) | 一种语音唤醒的方法、电子设备、可穿戴设备和系统 | |
US10488831B2 (en) | Biopotential wakeup word | |
CN108762644A (zh) | 用于终端的控制方法和装置以及耳机 | |
CN109446297A (zh) | 信息处理方法、信息处理设备以及设备可读介质 | |
CN111614841B (zh) | 闹钟控制方法、装置、存储介质及移动终端 | |
CN113870856A (zh) | 一种公共场所数字人防误唤醒方法、相关装置和存储介质 | |
CN115691498A (zh) | 语音交互方法、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180904 |