CN110060668A - 一种语音识别控制中减少识别延时的系统及方法 - Google Patents
一种语音识别控制中减少识别延时的系统及方法 Download PDFInfo
- Publication number
- CN110060668A CN110060668A CN201810104040.9A CN201810104040A CN110060668A CN 110060668 A CN110060668 A CN 110060668A CN 201810104040 A CN201810104040 A CN 201810104040A CN 110060668 A CN110060668 A CN 110060668A
- Authority
- CN
- China
- Prior art keywords
- identification
- score value
- output
- recording
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明公开了一种语音识别控制中减少识别延时的系统,包括:本地终端,用于录音;云端语音识别服务器,用于识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器;本地语音识别服务器,用于识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。本发明还公开了一种语音识别控制中减少识别延时的方法。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别控制中减少识别延时的系统及方法。
背景技术
目前云端语音识别受制于宽带网络阻塞和无线网络信号不稳定等因素的限制,经常出现语音识别延时的情况,因此用户在语音控制某个设备时,经常出现说完语音控制指令后,过了2~3秒后甚至更久才会有识别结果返回,用户很可能在此等待的过程中,又说了一遍甚至多遍语音控制指令,用户体验会很差,为此本发明提出一种语音识别控制中减少识别延时的解决方案。
发明内容
基于此,本发明提供一种语音识别控制中减少识别延时的系统及方法,能够完全有效解决上述技术问题。
本发明的技术方案是:一种语音识别控制中减少识别延时的系统,包括:
本地终端,用于录音,并将录音同时发送至本地语音识别服务器和云端语音识别服务器;
云端语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器;
本地语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
在优选的实施例中,所述的本地语音识别服务器包括:
语音识别引擎模块,用于接收录音数据,识别录音内容,得出第二识别结果和第二识别分值;
识别分值判断模块,用于判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
为解决技术问题,本发明还提供一种语音识别控制中减少识别延时的方法,包括如下过程:
S1、录音;
S2、对录音进行本地识别和云端识别;
S3、判断本地识别是否成功,若是,则输出识别结果,否则,判断云端识别是否成功,若是,则输出识别结果,否则不做输出或输出请重新录音的提示;
在优选的实施例中,步骤S2包括如下过程:
S21、对录音进行本地识别,给出本地识别的识别结果和识别分值;
S22、对录音进行云端识别,给出云端识别的识别结果和识别分值。
在优选的实施例中,步骤S3包括如下过程:
S31、判断本地识别的识别分值是否大于识别分值阈值,若是,则输出本地识别的识别结果,否则,进入下一步;
S32、判断云端识别的识别分值是否大于识别分值阈值,若是,则输出云端识别的识别结果,否则,不做输出或输出提示重新录音的提示音。
本发明的有益效果是:用户在实际使用中,常用的的语音控制指令识别,在本地识别完成,更丰富的语音控制指令在云端识别完成,在保证用户说语音控制指令丰富程度的基础上,最大程度的降低了识别延时,极大的提高了用户体验,让用户实现说完语音控制指令就出结果,完成了控制。
附图说明
图1是本发明实施例所述语音识别控制中减少识别延时的系统的原理框图;
图2是本发明实施例所述语音识别控制中减少识别延时的方法的流程图;
附图标记说明:
100-本地终端,200-本地语音识别服务器,300-云端语音识别服务器,201-语音识别引擎模块,202-识别分值判断模块。
具体实施方式
下面对本发明进行详细说明。
实施例
如图1所示,一种语音识别控制中减少识别延时的系统,包括:
本地终端100,用于录音,并将录音同时发送至本地语音识别服务器200和云端语音识别服务器300;利用本地终端(可以是嵌入式系统、PC、或者其他SOC系统)的录音设备,持续的接收录音,收到录音后,进行端点检测、语音分帧、语音特征值提取。
云端语音识别服务器300,用于接收本地终端100的录音,识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器200。
本地语音识别服务器200,用于接收本地终端100的录音,识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器300发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
在另一个实施例中,所述的本地语音识别服务器200包括:
语音识别引擎模块201,用于接收录音数据,识别录音内容,得出第二识别结果和第二识别分值;
识别分值判断模块202,用于判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器300发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
如图2所示,为解决技术问题,本发明还提供一种语音识别控制中减少识别延时的方法,包括如下过程:
S1、录音;具体地,利用本地终端(可以是嵌入式系统、PC、或者其他SOC系统)的录音设备,持续的接收录音,收到录音后,进行端点检测、语音分帧、语音特征值提取。
S2、对录音进行本地识别和云端识别;具体的,将录音的语音特征值分别送到本地的语音识别引擎和云端的服务器接口做本地识别计算和云端识别计算;本地识别是指利用本地终端设备录音,并在本地语音识别服务器上做语音识别计算,无需联网,本地识别一般运行中小词汇量的语音识别,在本地终端持续录音的情况下,将录制的声音送到本地语音识别服务器上的识别引擎去做识别,返回结果包括识别出的语音控制指令的内容以及此次识别分值;云端识别是指在大型服务器上运行语音识别引擎,此引擎为大词汇量语音识别引擎,可以支持海量的语音识别内容识别,此引擎支持多线程,支持多个硬件终端通过宽带网络或者无线网络同时送录音数据,同时做语音识别的计算,识别后将识别结果和识别分值返回给终端设备。
S3、判断本地识别是否成功,若是,则输出识别结果,否则,判断云端识别是否成功,若是,则输出识别结果,否则不做输出或输出请重新录音的提示。
上述过程中,每次语音控制指令说完后,录音后同时送到本地识别引擎和云端语音识别服务器,两者同时运行。利用本地识别的识别时间短,无识别延时的优势,优先采用本地识别中识别出的语音控制指令。本地能识别的语音控制指令基本包括了用户常用的语音控制指令。利用云端识别的识别内容更丰富,如本地无法识别语音控制指令时,再采用云端识别结果。云端识别可采用大词汇量语音识别,包括了用户的语音控制中基本上所有可能的语音控制指令的说法,让各种用户人群,各种不同说法,都可以识别,并去做控制。此发明在保证语音识别控制说法丰富的基础上,有效的降低识别的延时。
在另一个实施例中,步骤S2包括如下过程:
S21、对录音进行本地识别,给出本地识别的识别结果和识别分值;
S22、对录音进行云端识别,给出云端识别的识别结果和识别分值。
在另一个实施例中,步骤S3包括如下过程:
S31、判断本地识别的识别分值是否大于识别分值阈值,若是,则输出本地识别的识别结果,否则,进入下一步;
S32、判断云端识别的识别分值是否大于识别分值阈值,若是,则输出云端识别的识别结果,否则,不做输出或输出提示重新录音的提示音。
上述实施例中,比如用户要调节空调温度,我们把常用的调节空调温度的语音控制指令放在本地识别,比如“空调调到20度”、“把空调调到20度”、“温度调到20度”、“把温度调到20度”、“调到20度”和“20度”等语音控制指令均在本地识别,当用户说这些语音控制指令时,在本地即可完成识别(毫无延时)并控制空调调节温度,但不同区域的人说法各不相同,有些用户会说“空调打到20度”、“把空调打到20度”等等其他调节空调温度的语音控制指令都放到云端识别上去,这样即使用户说的这些非常用的温度调节的语音控制指令,也可识别并响应。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (5)
1.一种语音识别控制中减少识别延时的系统,其特征在于,包括:
本地终端,用于录音,并将录音同时发送至本地语音识别服务器和云端语音识别服务器;
云端语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器;
本地语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
2.根据权利要求1所述的语音识别控制中减少识别延时的系统,其特征在于,所述的本地语音识别服务器包括:
语音识别引擎模块,用于接收录音数据,识别录音内容,得出第二识别结果和第二识别分值;
识别分值判断模块,用于判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
3.一种语音识别控制中减少识别延时的方法,其特征在于,包括如下过程:
S1、录音;
S2、对录音进行本地识别和云端识别;
S3、判断本地识别是否成功,若是,则输出识别结果,否则,判断云端识别是否成功,若是,则输出识别结果,否则不做输出或输出请重新录音的提示。
4.根据权利要求3所述的语音识别控制中减少识别延时的方法,其特征在于,步骤S2包括如下过程:
S21、对录音进行本地识别,给出本地识别的识别结果和识别分值;
S22、对录音进行云端识别,给出云端识别的识别结果和识别分值。
5.根据权利要求4所述的语音识别控制中减少识别延时的方法,其特征在于,步骤S3包括如下过程:
S31、判断本地识别的识别分值是否大于识别分值阈值,若是,则输出本地识别的识别结果,否则,进入下一步;
S32、判断云端识别的识别分值是否大于识别分值阈值,若是,则输出云端识别的识别结果,否则,不做输出或输出提示重新录音的提示音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810104040.9A CN110060668A (zh) | 2018-02-02 | 2018-02-02 | 一种语音识别控制中减少识别延时的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810104040.9A CN110060668A (zh) | 2018-02-02 | 2018-02-02 | 一种语音识别控制中减少识别延时的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110060668A true CN110060668A (zh) | 2019-07-26 |
Family
ID=67315325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810104040.9A Withdrawn CN110060668A (zh) | 2018-02-02 | 2018-02-02 | 一种语音识别控制中减少识别延时的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110060668A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509585A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 车载设备的语音处理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247291A (zh) * | 2013-05-07 | 2013-08-14 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN103440867A (zh) * | 2013-08-02 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
-
2018
- 2018-02-02 CN CN201810104040.9A patent/CN110060668A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247291A (zh) * | 2013-05-07 | 2013-08-14 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
CN103440867A (zh) * | 2013-08-02 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509585A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 车载设备的语音处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200312329A1 (en) | Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words | |
CN102971787B (zh) | 录音结束点检测方法及系统 | |
CN104935615B (zh) | 实现语音控制家电设备的系统及方法 | |
CN103440867B (zh) | 语音识别方法及系统 | |
CN110970016B (zh) | 一种唤醒模型生成方法、智能终端唤醒方法及装置 | |
CN108520743A (zh) | 智能设备的语音控制方法、智能设备及计算机可读介质 | |
CN106560892B (zh) | 智能机器人及其云端交互方法、云端交互系统 | |
US11557301B2 (en) | Hotword-based speaker recognition | |
CN106328148A (zh) | 基于本地和云端混合识别的自然语音识别方法、装置和系统 | |
CN108182944A (zh) | 控制智能终端的方法、装置及智能终端 | |
US20110235870A1 (en) | Information processing device, information processing method, and program | |
WO2013177981A1 (zh) | 一种基于环境声音的场景识别方法、装置及移动终端 | |
CN104485103B (zh) | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 | |
CN103187077B (zh) | 应用于车载设备的音频控制方法及装置、车载设备 | |
US9014347B2 (en) | Voice print tagging of interactive voice response sessions | |
CN109473092A (zh) | 一种语音端点检测方法及装置 | |
CN109817211A (zh) | 一种电器控制方法、装置、存储介质及电器 | |
CN109509465A (zh) | 语音信号的处理方法、组件、设备及介质 | |
US20190228770A1 (en) | Voice control method, device, and computer storage medium | |
CN106952645A (zh) | 语音指令的识别方法、语音指令的识别装置和空调器 | |
CN105609103A (zh) | 一种语音即时识别系统 | |
JP2000214880A (ja) | 音声認識方法及び音声認識装置 | |
WO2022083969A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN110060668A (zh) | 一种语音识别控制中减少识别延时的系统及方法 | |
CN108648752A (zh) | 一种基于云处理的智能语音控制系统及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190726 |
|
WW01 | Invention patent application withdrawn after publication |