CN110444213A - 一种基于ar设备的语音识别方法及系统 - Google Patents
一种基于ar设备的语音识别方法及系统 Download PDFInfo
- Publication number
- CN110444213A CN110444213A CN201910841013.4A CN201910841013A CN110444213A CN 110444213 A CN110444213 A CN 110444213A CN 201910841013 A CN201910841013 A CN 201910841013A CN 110444213 A CN110444213 A CN 110444213A
- Authority
- CN
- China
- Prior art keywords
- local
- recognition result
- score
- recognition
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 230000003993 interaction Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000000151 deposition Methods 0.000 claims 1
- 230000001360 synchronised effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于AR设备的语音识别方法,其包括如下步骤:S1:采集现场的语音信号;S2:查询当前是否有网络,若有则跳转至S3,若无则跳转至S7;S3:将语音信号上传至云端服务器进行识别分析并输出在线识别结果,同时在本地AR装置上识别分析并输出本地识别结果;S4:分别对在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分;S5:在线分析得分与本地分析得分进行比例运算、当比例值大于阈值时,跳转至S6;当比例值小于阈值时,跳转至S7;S6:将在线识别结果反馈至本地AR装置进行播放;S7:本地AR装置播放本地识别结果。本发明能够提升语音识别的响应速度,简化用户的控制操作,提升用户语音控制的准确度。
Description
技术领域
本发明属于语音识别技术领域,具体来说涉及一种基于AR设备的语音识别方法,以及用于实现该方法的一种基于AR设备的语音识别系统。
背景技术
AR技术,也称增强显示技术,是一种将原本在现实空间范围中比较难以进行体验的实体信息在电脑等科学技术的基础上,实施模拟仿真处理,通过将虚拟信息内容叠加在真实世界中,并使得这一过程中能够被人类感官感知,从而实现超现实感官体验的新技术。近年来,AR技术被广泛应用于工业、影视、医疗、教育等领域。但是尚未被很好的应用到语音识别的技术领域中。而现有的语音识别技术存在响应速度慢,操作较为繁琐的问题。因此,如何研发出一种基于AR设备的语音识别技术,能够克服现有语音识别领域存在的上述问题,是本领域技术人员需要研究的方向。
发明内容
本发明的目的是提供一种基于AR设备的一种语音识别方法,能够提升语音识别的响应速度,简化用户的控制操作,提升用户语音控制的准确度。
其采用的技术方案如上:
一种基于AR设备的语音识别方法,其包括如下步骤:S1:基于本地AR装置采集现场的语音信号;S2:本地AR装置查询当前是否有网络,若有网络则跳转至S3,若无网络则跳转至S7;S3:本地AR装置将S1采集所得语音信号上传至云端服务器,云端服务器对该语音信号进行识别分析、并输出在线识别结果,同时在本地AR装置上对该语音信号进行同步识别分析、并输出本地识别结果;S4:分别基于S3所得在线识别结果和本地识别结果进行评分运算、求得在线分析得分和本地分析得分;S5:将S4所得在线分析得分与本地分析得分进行比例运算、求得比例值,当所述比例值大于预存的阈值时,跳转至S6;当所述比例值小于预存的阈值时,跳转至S7;S6:将所述在线识别结果反馈至本地AR装置、本地AR装置播放在线识别结果;S7:本地AR装置播放本地识别结果。
通过采用上述技术方案:基于本地AR装置与云端服务器在线识别相结合的方法进行语音识别反馈。当网络不通时,利于本地AR装置进行语音识别和反馈输出。而当网络通畅时,同步在云端和本地对采集的语音进行识别,并将云端和本地的识别结果的比对,在本地设备上输出结果较优的识别结果,由此实现了脱离云端服务器的本地语音识别操作、降低了云端服务器的工作压力。保证了播放的识别结果的识别精度。
为实现上述基于AR设备的语音识别方法,本发明还进一步研发了一种基于AR设备的语音识别系统,其采用的技术方案如下:
一种基于AR设备的语音识别系统,其特征在于,包括:本地AR装置,通信器和云服务器;所述通信器用于实现本地AR装置与云服务器之间的信号交互;所述本地AR装置包括语音接收器,第一语音识别引擎,播放器;所述语音接收器用于采集现场的语音信号;所述第一语音识别引擎用于读取语音接收器、对语音信号进行识别分析并输出本地识别结果;所述播放器用于根据云服务器输出的在线识别播放命令/本地识别播放命令,播放在线识别结果/本地识别结果;所述云服务器包括第二语音识别引擎,运算器和控制器;所述第二语音识别引擎用于远程读取语音接收器、对语音信号进行识别分析并输出在线识别结果;所述运算器用于读取在线识别结果和本地识别结果、将该在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分,并将该在线分析得分与本地分析得分进行比例运算、求得比例值;所述控制器用于读取运算器、在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
与现有技术相比,本发明结构简单,易于实现,能够提升语音识别的响应速度,简化用户的控制操作,提升用户语音控制的准确度。
附图说明
上面结合附图与具体实施方式对本发明作进一步详细的说明:
图1为本发明实施例1的流程示意图;
图2为本发明实施例1的系统框图。
各附图标记与部件名称对应关系如下:
1、本地AR装置;2、通信器;3、云服务器;11、语音接收器;12、第一语音识别引擎;13、播放器;31、第二语音识别引擎;32、运算器;33、控制器。
具体实施方式
为了更清楚地说明本发明的技术方案,上面将结合各个实施例作进一步描述。
如图1-2示为本发明的实施例1:
一种基于AR设备的语音识别系统,其包括:本地AR装置1,通信器2和云服务器3。
其中,所述通信器2用于实现本地AR装置1与云服务器3之间的信号交互。所述本地AR装置1包括语音接收器11,第一语音识别引擎12,播放器13;所述语音接收器11用于采集现场的语音信号;所述第一语音识别引擎12用于读取语音接收器11、对语音信号进行识别分析并输出本地识别结果;所述播放器13用于根据云服务器3输出的在线识别播放命令/本地识别播放命令,播放在线识别结果/本地识别结果;所述云服务器3包括第二语音识别引擎31,运算器32和控制器33;所述第二语音识别引擎31用于远程读取语音接收器11、对语音信号进行识别分析并输出在线识别结果;所述运算器32用于读取在线识别结果和本地识别结果、将该在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分,并将该在线分析得分与本地分析得分进行比例运算、求得比例值;所述控制器33用于读取运算器32、在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
实践中,其工作过程如下:
S1:基于语音接收器11采集现场的语音信号;
S2:本地AR装置1查询当前是否有网络,若有网络则跳转至S3,若无网络则跳转至S7;
S3:本地AR装置1通过通信器2将采集所得语音信号上传至云端服务器3,云端服务器3通过第二语音识别引擎31对该语音信号进行识别分析、并输出在线识别结果,同时本地AR装置1通过第一语音识别引擎12对该语音信号进行同步识别分析、并输出本地识别结果;
S4:本地识别结果通过通信器2上传至云端服务器3,云端服务器3通过运算器32分别对在线识别结果和本地识别结果进行评分运算、求得在线分析得分和本地分析得分、并将所得在线分析得分与本地分析得分进行比例运算、求得比例值;
S5:云端服务器3通过控制器33读取运算器32的输出,当所述比例值大于预存的阈值时,在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
S6:本地AR装置1上的播放器读取云端服务器3,在控制器33输出在线识别播放命令时播放在线识别结果,在控制器33输出本地识别播放命令时,播放本地识别结果。
以上所述,仅为本发明的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。
Claims (2)
1.一种基于AR设备的语音识别方法,其特征在于,包括如下步骤:
S1:基于本地AR装置(1)采集现场的语音信号;
S2:本地AR装置(1)查询当前是否有网络,若有网络则跳转至S3,若无网络则跳转至S7;
S3:本地AR装置(1)将S1采集所得语音信号上传至云端服务器(3),云端服务器(3)对该语音信号进行识别分析、并输出在线识别结果,同时在本地AR装置(1)上对该语音信号进行同步识别分析、并输出本地识别结果;
S4:分别基于S3所得在线识别结果和本地识别结果进行评分运算、求得在线分析得分和本地分析得分;
S5:将S4所得在线分析得分与本地分析得分进行比例运算、求得比例值,当所述比例值大于预存的阈值时,跳转至S6;当所述比例值小于预存的阈值时,跳转至S7;
S6:将所述在线识别结果反馈至本地AR装置(1)、本地AR装置(1)播放在线识别结果;
S7:本地AR装置(1)播放本地识别结果。
2.一种基于AR设备的语音识别系统,其特征在于,包括:本地AR装置(1),通信器(2)和云服务器(3);
所述通信器(2)用于实现本地AR装置(1)与云服务器(3)之间的信号交互;
所述本地AR装置(1)包括语音接收器(11),第一语音识别引擎(12),播放器(13);所述语音接收器(11)用于采集现场的语音信号;所述第一语音识别引擎(12)用于读取语音接收器(11)、对语音信号进行识别分析并输出本地识别结果;所述播放器(13)用于根据云服务器(3)输出的在线识别播放命令/本地识别播放命令,播放在线识别结果/本地识别结果;
所述云服务器(3)包括第二语音识别引擎(31),运算器(32)和控制器(33);所述第二语音识别引擎(31)用于远程读取语音接收器(11)、对语音信号进行识别分析并输出在线识别结果;所述运算器(32)用于读取在线识别结果和本地识别结果、将该在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分,并将该在线分析得分与本地分析得分进行比例运算、求得比例值;所述控制器(33)用于读取运算器(32)、在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910841013.4A CN110444213A (zh) | 2019-09-03 | 2019-09-03 | 一种基于ar设备的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910841013.4A CN110444213A (zh) | 2019-09-03 | 2019-09-03 | 一种基于ar设备的语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110444213A true CN110444213A (zh) | 2019-11-12 |
Family
ID=68439424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910841013.4A Pending CN110444213A (zh) | 2019-09-03 | 2019-09-03 | 一种基于ar设备的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444213A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382292A (zh) * | 2020-12-11 | 2021-02-19 | 北京百度网讯科技有限公司 | 基于语音的控制方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207442A1 (en) * | 2013-01-24 | 2014-07-24 | Nuance Communications, Inc. | Protection of Private Information in a Client/Server Automatic Speech Recognition System |
CN106847291A (zh) * | 2017-02-20 | 2017-06-13 | 成都启英泰伦科技有限公司 | 一种本地和云端相结合的语音识别系统及方法 |
CN107424607A (zh) * | 2017-07-04 | 2017-12-01 | 珠海格力电器股份有限公司 | 语音控制模式切换方法、装置及具有该装置的设备 |
EP2783365B1 (en) * | 2011-11-21 | 2018-02-21 | Robert Bosch GmbH | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance |
CN108492825A (zh) * | 2018-03-12 | 2018-09-04 | 陈火 | 一种语音识别的启动方法、头戴式设备及语音识别系统 |
-
2019
- 2019-09-03 CN CN201910841013.4A patent/CN110444213A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2783365B1 (en) * | 2011-11-21 | 2018-02-21 | Robert Bosch GmbH | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance |
US20140207442A1 (en) * | 2013-01-24 | 2014-07-24 | Nuance Communications, Inc. | Protection of Private Information in a Client/Server Automatic Speech Recognition System |
CN106847291A (zh) * | 2017-02-20 | 2017-06-13 | 成都启英泰伦科技有限公司 | 一种本地和云端相结合的语音识别系统及方法 |
CN107424607A (zh) * | 2017-07-04 | 2017-12-01 | 珠海格力电器股份有限公司 | 语音控制模式切换方法、装置及具有该装置的设备 |
CN108492825A (zh) * | 2018-03-12 | 2018-09-04 | 陈火 | 一种语音识别的启动方法、头戴式设备及语音识别系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382292A (zh) * | 2020-12-11 | 2021-02-19 | 北京百度网讯科技有限公司 | 基于语音的控制方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101936692B1 (ko) | 댄스 키모션 자동생성을 이용한 댄스 트레이닝 장치 및 방법 | |
CN102883784B (zh) | 提供触控游戏的方法、装置及记录媒体 | |
CN106710590A (zh) | 基于虚拟现实环境的具有情感功能的语音交互系统及方法 | |
CN113946211A (zh) | 基于元宇宙的多个对象的交互方法及相关设备 | |
CN111953910B (zh) | 基于人工智能的视频处理方法、装置及电子设备 | |
CN108345385A (zh) | 虚拟陪跑人物建立与交互的方法及装置 | |
CN106625678A (zh) | 机器人表情控制方法和装置 | |
CN107436921A (zh) | 视频数据处理方法、装置、设备及存储介质 | |
CN107526437A (zh) | 一种基于音频多普勒特征量化的手势识别方法 | |
CN108074440A (zh) | 一种钢琴演奏的纠错方法及系统 | |
CN109344794B (zh) | 一种钢琴演奏评分方法、装置及计算机存储介质 | |
CN111383642A (zh) | 基于神经网络的语音应答方法、存储介质以终端设备 | |
WO2023155442A1 (zh) | 用于控制空调器的方法及装置、空调器、存储介质 | |
CN113703574A (zh) | 一种基于5g的vr医疗学习方法及系统 | |
CN110444213A (zh) | 一种基于ar设备的语音识别方法及系统 | |
CN104898589B (zh) | 一种用于智能管家机器人的智能应答方法和装置 | |
CN114007064A (zh) | 特效同步评估方法、装置、设备及存储介质、程序产品 | |
CN111564064A (zh) | 基于游戏互动的智能教育系统与方法 | |
CN114697685A (zh) | 解说视频生成方法、装置、服务器及存储介质 | |
CN110741327B (zh) | 基于增强现实及数字图像处理的泥胶玩具系统及其方法 | |
CN107135407B (zh) | 一种钢琴视频教学中的同步方法及系统 | |
CN105989132A (zh) | 图像文件处理及语音控制方法 | |
CN115081488A (zh) | 一种基于全息投影技术的场景控制方法 | |
CN108563688A (zh) | 一种影视剧本人物情绪识别方法 | |
CN112567734B (zh) | 消息输出装置、学习装置、消息输出方法、学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191112 |