CN110444213A - 一种基于ar设备的语音识别方法及系统 - Google Patents

一种基于ar设备的语音识别方法及系统 Download PDF

Info

Publication number
CN110444213A
CN110444213A CN201910841013.4A CN201910841013A CN110444213A CN 110444213 A CN110444213 A CN 110444213A CN 201910841013 A CN201910841013 A CN 201910841013A CN 110444213 A CN110444213 A CN 110444213A
Authority
CN
China
Prior art keywords
local
recognition result
score
recognition
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910841013.4A
Other languages
English (en)
Inventor
高巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Engineering And Mechanics Engineering Technology Co Ltd
Original Assignee
Shanghai Engineering And Mechanics Engineering Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Engineering And Mechanics Engineering Technology Co Ltd filed Critical Shanghai Engineering And Mechanics Engineering Technology Co Ltd
Priority to CN201910841013.4A priority Critical patent/CN110444213A/zh
Publication of CN110444213A publication Critical patent/CN110444213A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于AR设备的语音识别方法,其包括如下步骤:S1:采集现场的语音信号;S2:查询当前是否有网络,若有则跳转至S3,若无则跳转至S7;S3:将语音信号上传至云端服务器进行识别分析并输出在线识别结果,同时在本地AR装置上识别分析并输出本地识别结果;S4:分别对在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分;S5:在线分析得分与本地分析得分进行比例运算、当比例值大于阈值时,跳转至S6;当比例值小于阈值时,跳转至S7;S6:将在线识别结果反馈至本地AR装置进行播放;S7:本地AR装置播放本地识别结果。本发明能够提升语音识别的响应速度,简化用户的控制操作,提升用户语音控制的准确度。

Description

一种基于AR设备的语音识别方法及系统
技术领域
本发明属于语音识别技术领域,具体来说涉及一种基于AR设备的语音识别方法,以及用于实现该方法的一种基于AR设备的语音识别系统。
背景技术
AR技术,也称增强显示技术,是一种将原本在现实空间范围中比较难以进行体验的实体信息在电脑等科学技术的基础上,实施模拟仿真处理,通过将虚拟信息内容叠加在真实世界中,并使得这一过程中能够被人类感官感知,从而实现超现实感官体验的新技术。近年来,AR技术被广泛应用于工业、影视、医疗、教育等领域。但是尚未被很好的应用到语音识别的技术领域中。而现有的语音识别技术存在响应速度慢,操作较为繁琐的问题。因此,如何研发出一种基于AR设备的语音识别技术,能够克服现有语音识别领域存在的上述问题,是本领域技术人员需要研究的方向。
发明内容
本发明的目的是提供一种基于AR设备的一种语音识别方法,能够提升语音识别的响应速度,简化用户的控制操作,提升用户语音控制的准确度。
其采用的技术方案如上:
一种基于AR设备的语音识别方法,其包括如下步骤:S1:基于本地AR装置采集现场的语音信号;S2:本地AR装置查询当前是否有网络,若有网络则跳转至S3,若无网络则跳转至S7;S3:本地AR装置将S1采集所得语音信号上传至云端服务器,云端服务器对该语音信号进行识别分析、并输出在线识别结果,同时在本地AR装置上对该语音信号进行同步识别分析、并输出本地识别结果;S4:分别基于S3所得在线识别结果和本地识别结果进行评分运算、求得在线分析得分和本地分析得分;S5:将S4所得在线分析得分与本地分析得分进行比例运算、求得比例值,当所述比例值大于预存的阈值时,跳转至S6;当所述比例值小于预存的阈值时,跳转至S7;S6:将所述在线识别结果反馈至本地AR装置、本地AR装置播放在线识别结果;S7:本地AR装置播放本地识别结果。
通过采用上述技术方案:基于本地AR装置与云端服务器在线识别相结合的方法进行语音识别反馈。当网络不通时,利于本地AR装置进行语音识别和反馈输出。而当网络通畅时,同步在云端和本地对采集的语音进行识别,并将云端和本地的识别结果的比对,在本地设备上输出结果较优的识别结果,由此实现了脱离云端服务器的本地语音识别操作、降低了云端服务器的工作压力。保证了播放的识别结果的识别精度。
为实现上述基于AR设备的语音识别方法,本发明还进一步研发了一种基于AR设备的语音识别系统,其采用的技术方案如下:
一种基于AR设备的语音识别系统,其特征在于,包括:本地AR装置,通信器和云服务器;所述通信器用于实现本地AR装置与云服务器之间的信号交互;所述本地AR装置包括语音接收器,第一语音识别引擎,播放器;所述语音接收器用于采集现场的语音信号;所述第一语音识别引擎用于读取语音接收器、对语音信号进行识别分析并输出本地识别结果;所述播放器用于根据云服务器输出的在线识别播放命令/本地识别播放命令,播放在线识别结果/本地识别结果;所述云服务器包括第二语音识别引擎,运算器和控制器;所述第二语音识别引擎用于远程读取语音接收器、对语音信号进行识别分析并输出在线识别结果;所述运算器用于读取在线识别结果和本地识别结果、将该在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分,并将该在线分析得分与本地分析得分进行比例运算、求得比例值;所述控制器用于读取运算器、在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
与现有技术相比,本发明结构简单,易于实现,能够提升语音识别的响应速度,简化用户的控制操作,提升用户语音控制的准确度。
附图说明
上面结合附图与具体实施方式对本发明作进一步详细的说明:
图1为本发明实施例1的流程示意图;
图2为本发明实施例1的系统框图。
各附图标记与部件名称对应关系如下:
1、本地AR装置;2、通信器;3、云服务器;11、语音接收器;12、第一语音识别引擎;13、播放器;31、第二语音识别引擎;32、运算器;33、控制器。
具体实施方式
为了更清楚地说明本发明的技术方案,上面将结合各个实施例作进一步描述。
如图1-2示为本发明的实施例1:
一种基于AR设备的语音识别系统,其包括:本地AR装置1,通信器2和云服务器3。
其中,所述通信器2用于实现本地AR装置1与云服务器3之间的信号交互。所述本地AR装置1包括语音接收器11,第一语音识别引擎12,播放器13;所述语音接收器11用于采集现场的语音信号;所述第一语音识别引擎12用于读取语音接收器11、对语音信号进行识别分析并输出本地识别结果;所述播放器13用于根据云服务器3输出的在线识别播放命令/本地识别播放命令,播放在线识别结果/本地识别结果;所述云服务器3包括第二语音识别引擎31,运算器32和控制器33;所述第二语音识别引擎31用于远程读取语音接收器11、对语音信号进行识别分析并输出在线识别结果;所述运算器32用于读取在线识别结果和本地识别结果、将该在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分,并将该在线分析得分与本地分析得分进行比例运算、求得比例值;所述控制器33用于读取运算器32、在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
实践中,其工作过程如下:
S1:基于语音接收器11采集现场的语音信号;
S2:本地AR装置1查询当前是否有网络,若有网络则跳转至S3,若无网络则跳转至S7;
S3:本地AR装置1通过通信器2将采集所得语音信号上传至云端服务器3,云端服务器3通过第二语音识别引擎31对该语音信号进行识别分析、并输出在线识别结果,同时本地AR装置1通过第一语音识别引擎12对该语音信号进行同步识别分析、并输出本地识别结果;
S4:本地识别结果通过通信器2上传至云端服务器3,云端服务器3通过运算器32分别对在线识别结果和本地识别结果进行评分运算、求得在线分析得分和本地分析得分、并将所得在线分析得分与本地分析得分进行比例运算、求得比例值;
S5:云端服务器3通过控制器33读取运算器32的输出,当所述比例值大于预存的阈值时,在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
S6:本地AR装置1上的播放器读取云端服务器3,在控制器33输出在线识别播放命令时播放在线识别结果,在控制器33输出本地识别播放命令时,播放本地识别结果。
以上所述,仅为本发明的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。

Claims (2)

1.一种基于AR设备的语音识别方法,其特征在于,包括如下步骤:
S1:基于本地AR装置(1)采集现场的语音信号;
S2:本地AR装置(1)查询当前是否有网络,若有网络则跳转至S3,若无网络则跳转至S7;
S3:本地AR装置(1)将S1采集所得语音信号上传至云端服务器(3),云端服务器(3)对该语音信号进行识别分析、并输出在线识别结果,同时在本地AR装置(1)上对该语音信号进行同步识别分析、并输出本地识别结果;
S4:分别基于S3所得在线识别结果和本地识别结果进行评分运算、求得在线分析得分和本地分析得分;
S5:将S4所得在线分析得分与本地分析得分进行比例运算、求得比例值,当所述比例值大于预存的阈值时,跳转至S6;当所述比例值小于预存的阈值时,跳转至S7;
S6:将所述在线识别结果反馈至本地AR装置(1)、本地AR装置(1)播放在线识别结果;
S7:本地AR装置(1)播放本地识别结果。
2.一种基于AR设备的语音识别系统,其特征在于,包括:本地AR装置(1),通信器(2)和云服务器(3);
所述通信器(2)用于实现本地AR装置(1)与云服务器(3)之间的信号交互;
所述本地AR装置(1)包括语音接收器(11),第一语音识别引擎(12),播放器(13);所述语音接收器(11)用于采集现场的语音信号;所述第一语音识别引擎(12)用于读取语音接收器(11)、对语音信号进行识别分析并输出本地识别结果;所述播放器(13)用于根据云服务器(3)输出的在线识别播放命令/本地识别播放命令,播放在线识别结果/本地识别结果;
所述云服务器(3)包括第二语音识别引擎(31),运算器(32)和控制器(33);所述第二语音识别引擎(31)用于远程读取语音接收器(11)、对语音信号进行识别分析并输出在线识别结果;所述运算器(32)用于读取在线识别结果和本地识别结果、将该在线识别结果和本地识别结果进行评分运算求得在线分析得分和本地分析得分,并将该在线分析得分与本地分析得分进行比例运算、求得比例值;所述控制器(33)用于读取运算器(32)、在比例值大于预存阈值时输出在线识别播放命令,在比例值小于预存阈值时输出本地识别播放命令。
CN201910841013.4A 2019-09-03 2019-09-03 一种基于ar设备的语音识别方法及系统 Pending CN110444213A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910841013.4A CN110444213A (zh) 2019-09-03 2019-09-03 一种基于ar设备的语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910841013.4A CN110444213A (zh) 2019-09-03 2019-09-03 一种基于ar设备的语音识别方法及系统

Publications (1)

Publication Number Publication Date
CN110444213A true CN110444213A (zh) 2019-11-12

Family

ID=68439424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910841013.4A Pending CN110444213A (zh) 2019-09-03 2019-09-03 一种基于ar设备的语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN110444213A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382292A (zh) * 2020-12-11 2021-02-19 北京百度网讯科技有限公司 基于语音的控制方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140207442A1 (en) * 2013-01-24 2014-07-24 Nuance Communications, Inc. Protection of Private Information in a Client/Server Automatic Speech Recognition System
CN106847291A (zh) * 2017-02-20 2017-06-13 成都启英泰伦科技有限公司 一种本地和云端相结合的语音识别系统及方法
CN107424607A (zh) * 2017-07-04 2017-12-01 珠海格力电器股份有限公司 语音控制模式切换方法、装置及具有该装置的设备
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
CN108492825A (zh) * 2018-03-12 2018-09-04 陈火 一种语音识别的启动方法、头戴式设备及语音识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US20140207442A1 (en) * 2013-01-24 2014-07-24 Nuance Communications, Inc. Protection of Private Information in a Client/Server Automatic Speech Recognition System
CN106847291A (zh) * 2017-02-20 2017-06-13 成都启英泰伦科技有限公司 一种本地和云端相结合的语音识别系统及方法
CN107424607A (zh) * 2017-07-04 2017-12-01 珠海格力电器股份有限公司 语音控制模式切换方法、装置及具有该装置的设备
CN108492825A (zh) * 2018-03-12 2018-09-04 陈火 一种语音识别的启动方法、头戴式设备及语音识别系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382292A (zh) * 2020-12-11 2021-02-19 北京百度网讯科技有限公司 基于语音的控制方法和装置

Similar Documents

Publication Publication Date Title
KR101936692B1 (ko) 댄스 키모션 자동생성을 이용한 댄스 트레이닝 장치 및 방법
CN102883784B (zh) 提供触控游戏的方法、装置及记录媒体
CN106710590A (zh) 基于虚拟现实环境的具有情感功能的语音交互系统及方法
CN113946211A (zh) 基于元宇宙的多个对象的交互方法及相关设备
CN111953910B (zh) 基于人工智能的视频处理方法、装置及电子设备
CN108345385A (zh) 虚拟陪跑人物建立与交互的方法及装置
CN106625678A (zh) 机器人表情控制方法和装置
CN107436921A (zh) 视频数据处理方法、装置、设备及存储介质
CN107526437A (zh) 一种基于音频多普勒特征量化的手势识别方法
CN108074440A (zh) 一种钢琴演奏的纠错方法及系统
CN109344794B (zh) 一种钢琴演奏评分方法、装置及计算机存储介质
CN111383642A (zh) 基于神经网络的语音应答方法、存储介质以终端设备
WO2023155442A1 (zh) 用于控制空调器的方法及装置、空调器、存储介质
CN113703574A (zh) 一种基于5g的vr医疗学习方法及系统
CN110444213A (zh) 一种基于ar设备的语音识别方法及系统
CN104898589B (zh) 一种用于智能管家机器人的智能应答方法和装置
CN114007064A (zh) 特效同步评估方法、装置、设备及存储介质、程序产品
CN111564064A (zh) 基于游戏互动的智能教育系统与方法
CN114697685A (zh) 解说视频生成方法、装置、服务器及存储介质
CN110741327B (zh) 基于增强现实及数字图像处理的泥胶玩具系统及其方法
CN107135407B (zh) 一种钢琴视频教学中的同步方法及系统
CN105989132A (zh) 图像文件处理及语音控制方法
CN115081488A (zh) 一种基于全息投影技术的场景控制方法
CN108563688A (zh) 一种影视剧本人物情绪识别方法
CN112567734B (zh) 消息输出装置、学习装置、消息输出方法、学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112