CN110060668A - 一种语音识别控制中减少识别延时的系统及方法 - Google Patents

一种语音识别控制中减少识别延时的系统及方法 Download PDF

Info

Publication number
CN110060668A
CN110060668A CN201810104040.9A CN201810104040A CN110060668A CN 110060668 A CN110060668 A CN 110060668A CN 201810104040 A CN201810104040 A CN 201810104040A CN 110060668 A CN110060668 A CN 110060668A
Authority
CN
China
Prior art keywords
identification
score value
output
recording
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810104040.9A
Other languages
English (en)
Inventor
朱建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hua Zhen Electronic Technology Co Ltd
Original Assignee
Shanghai Hua Zhen Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hua Zhen Electronic Technology Co Ltd filed Critical Shanghai Hua Zhen Electronic Technology Co Ltd
Priority to CN201810104040.9A priority Critical patent/CN110060668A/zh
Publication of CN110060668A publication Critical patent/CN110060668A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了一种语音识别控制中减少识别延时的系统,包括:本地终端,用于录音;云端语音识别服务器,用于识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器;本地语音识别服务器,用于识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。本发明还公开了一种语音识别控制中减少识别延时的方法。

Description

一种语音识别控制中减少识别延时的系统及方法
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别控制中减少识别延时的系统及方法。
背景技术
目前云端语音识别受制于宽带网络阻塞和无线网络信号不稳定等因素的限制,经常出现语音识别延时的情况,因此用户在语音控制某个设备时,经常出现说完语音控制指令后,过了2~3秒后甚至更久才会有识别结果返回,用户很可能在此等待的过程中,又说了一遍甚至多遍语音控制指令,用户体验会很差,为此本发明提出一种语音识别控制中减少识别延时的解决方案。
发明内容
基于此,本发明提供一种语音识别控制中减少识别延时的系统及方法,能够完全有效解决上述技术问题。
本发明的技术方案是:一种语音识别控制中减少识别延时的系统,包括:
本地终端,用于录音,并将录音同时发送至本地语音识别服务器和云端语音识别服务器;
云端语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器;
本地语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
在优选的实施例中,所述的本地语音识别服务器包括:
语音识别引擎模块,用于接收录音数据,识别录音内容,得出第二识别结果和第二识别分值;
识别分值判断模块,用于判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
为解决技术问题,本发明还提供一种语音识别控制中减少识别延时的方法,包括如下过程:
S1、录音;
S2、对录音进行本地识别和云端识别;
S3、判断本地识别是否成功,若是,则输出识别结果,否则,判断云端识别是否成功,若是,则输出识别结果,否则不做输出或输出请重新录音的提示;
在优选的实施例中,步骤S2包括如下过程:
S21、对录音进行本地识别,给出本地识别的识别结果和识别分值;
S22、对录音进行云端识别,给出云端识别的识别结果和识别分值。
在优选的实施例中,步骤S3包括如下过程:
S31、判断本地识别的识别分值是否大于识别分值阈值,若是,则输出本地识别的识别结果,否则,进入下一步;
S32、判断云端识别的识别分值是否大于识别分值阈值,若是,则输出云端识别的识别结果,否则,不做输出或输出提示重新录音的提示音。
本发明的有益效果是:用户在实际使用中,常用的的语音控制指令识别,在本地识别完成,更丰富的语音控制指令在云端识别完成,在保证用户说语音控制指令丰富程度的基础上,最大程度的降低了识别延时,极大的提高了用户体验,让用户实现说完语音控制指令就出结果,完成了控制。
附图说明
图1是本发明实施例所述语音识别控制中减少识别延时的系统的原理框图;
图2是本发明实施例所述语音识别控制中减少识别延时的方法的流程图;
附图标记说明:
100-本地终端,200-本地语音识别服务器,300-云端语音识别服务器,201-语音识别引擎模块,202-识别分值判断模块。
具体实施方式
下面对本发明进行详细说明。
实施例
如图1所示,一种语音识别控制中减少识别延时的系统,包括:
本地终端100,用于录音,并将录音同时发送至本地语音识别服务器200和云端语音识别服务器300;利用本地终端(可以是嵌入式系统、PC、或者其他SOC系统)的录音设备,持续的接收录音,收到录音后,进行端点检测、语音分帧、语音特征值提取。
云端语音识别服务器300,用于接收本地终端100的录音,识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器200。
本地语音识别服务器200,用于接收本地终端100的录音,识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器300发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
在另一个实施例中,所述的本地语音识别服务器200包括:
语音识别引擎模块201,用于接收录音数据,识别录音内容,得出第二识别结果和第二识别分值;
识别分值判断模块202,用于判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器300发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
如图2所示,为解决技术问题,本发明还提供一种语音识别控制中减少识别延时的方法,包括如下过程:
S1、录音;具体地,利用本地终端(可以是嵌入式系统、PC、或者其他SOC系统)的录音设备,持续的接收录音,收到录音后,进行端点检测、语音分帧、语音特征值提取。
S2、对录音进行本地识别和云端识别;具体的,将录音的语音特征值分别送到本地的语音识别引擎和云端的服务器接口做本地识别计算和云端识别计算;本地识别是指利用本地终端设备录音,并在本地语音识别服务器上做语音识别计算,无需联网,本地识别一般运行中小词汇量的语音识别,在本地终端持续录音的情况下,将录制的声音送到本地语音识别服务器上的识别引擎去做识别,返回结果包括识别出的语音控制指令的内容以及此次识别分值;云端识别是指在大型服务器上运行语音识别引擎,此引擎为大词汇量语音识别引擎,可以支持海量的语音识别内容识别,此引擎支持多线程,支持多个硬件终端通过宽带网络或者无线网络同时送录音数据,同时做语音识别的计算,识别后将识别结果和识别分值返回给终端设备。
S3、判断本地识别是否成功,若是,则输出识别结果,否则,判断云端识别是否成功,若是,则输出识别结果,否则不做输出或输出请重新录音的提示。
上述过程中,每次语音控制指令说完后,录音后同时送到本地识别引擎和云端语音识别服务器,两者同时运行。利用本地识别的识别时间短,无识别延时的优势,优先采用本地识别中识别出的语音控制指令。本地能识别的语音控制指令基本包括了用户常用的语音控制指令。利用云端识别的识别内容更丰富,如本地无法识别语音控制指令时,再采用云端识别结果。云端识别可采用大词汇量语音识别,包括了用户的语音控制中基本上所有可能的语音控制指令的说法,让各种用户人群,各种不同说法,都可以识别,并去做控制。此发明在保证语音识别控制说法丰富的基础上,有效的降低识别的延时。
在另一个实施例中,步骤S2包括如下过程:
S21、对录音进行本地识别,给出本地识别的识别结果和识别分值;
S22、对录音进行云端识别,给出云端识别的识别结果和识别分值。
在另一个实施例中,步骤S3包括如下过程:
S31、判断本地识别的识别分值是否大于识别分值阈值,若是,则输出本地识别的识别结果,否则,进入下一步;
S32、判断云端识别的识别分值是否大于识别分值阈值,若是,则输出云端识别的识别结果,否则,不做输出或输出提示重新录音的提示音。
上述实施例中,比如用户要调节空调温度,我们把常用的调节空调温度的语音控制指令放在本地识别,比如“空调调到20度”、“把空调调到20度”、“温度调到20度”、“把温度调到20度”、“调到20度”和“20度”等语音控制指令均在本地识别,当用户说这些语音控制指令时,在本地即可完成识别(毫无延时)并控制空调调节温度,但不同区域的人说法各不相同,有些用户会说“空调打到20度”、“把空调打到20度”等等其他调节空调温度的语音控制指令都放到云端识别上去,这样即使用户说的这些非常用的温度调节的语音控制指令,也可识别并响应。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (5)

1.一种语音识别控制中减少识别延时的系统,其特征在于,包括:
本地终端,用于录音,并将录音同时发送至本地语音识别服务器和云端语音识别服务器;
云端语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第一识别结果和第一识别分值,并将第一识别结果和第一识别分值发送至本地语音识别服务器;
本地语音识别服务器,用于接收本地终端的录音,识别录音内容,得出第二识别结果和第二识别分值,并判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
2.根据权利要求1所述的语音识别控制中减少识别延时的系统,其特征在于,所述的本地语音识别服务器包括:
语音识别引擎模块,用于接收录音数据,识别录音内容,得出第二识别结果和第二识别分值;
识别分值判断模块,用于判断第二识别分值是否大于识别分值阈值,若是,则输出第二识别结果,否则,继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值,若是,则输出第一识别结果,否则,不做输出或输出提示重新录音的提示音。
3.一种语音识别控制中减少识别延时的方法,其特征在于,包括如下过程:
S1、录音;
S2、对录音进行本地识别和云端识别;
S3、判断本地识别是否成功,若是,则输出识别结果,否则,判断云端识别是否成功,若是,则输出识别结果,否则不做输出或输出请重新录音的提示。
4.根据权利要求3所述的语音识别控制中减少识别延时的方法,其特征在于,步骤S2包括如下过程:
S21、对录音进行本地识别,给出本地识别的识别结果和识别分值;
S22、对录音进行云端识别,给出云端识别的识别结果和识别分值。
5.根据权利要求4所述的语音识别控制中减少识别延时的方法,其特征在于,步骤S3包括如下过程:
S31、判断本地识别的识别分值是否大于识别分值阈值,若是,则输出本地识别的识别结果,否则,进入下一步;
S32、判断云端识别的识别分值是否大于识别分值阈值,若是,则输出云端识别的识别结果,否则,不做输出或输出提示重新录音的提示音。
CN201810104040.9A 2018-02-02 2018-02-02 一种语音识别控制中减少识别延时的系统及方法 Withdrawn CN110060668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810104040.9A CN110060668A (zh) 2018-02-02 2018-02-02 一种语音识别控制中减少识别延时的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810104040.9A CN110060668A (zh) 2018-02-02 2018-02-02 一种语音识别控制中减少识别延时的系统及方法

Publications (1)

Publication Number Publication Date
CN110060668A true CN110060668A (zh) 2019-07-26

Family

ID=67315325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810104040.9A Withdrawn CN110060668A (zh) 2018-02-02 2018-02-02 一种语音识别控制中减少识别延时的系统及方法

Country Status (1)

Country Link
CN (1) CN110060668A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509585A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 车载设备的语音处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103247291A (zh) * 2013-05-07 2013-08-14 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN103440867A (zh) * 2013-08-02 2013-12-11 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103247291A (zh) * 2013-05-07 2013-08-14 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN103440867A (zh) * 2013-08-02 2013-12-11 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509585A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 车载设备的语音处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US20200312329A1 (en) Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words
CN102971787B (zh) 录音结束点检测方法及系统
CN104935615B (zh) 实现语音控制家电设备的系统及方法
CN103440867B (zh) 语音识别方法及系统
CN110970016B (zh) 一种唤醒模型生成方法、智能终端唤醒方法及装置
CN108520743A (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
CN106560892B (zh) 智能机器人及其云端交互方法、云端交互系统
US11557301B2 (en) Hotword-based speaker recognition
CN106328148A (zh) 基于本地和云端混合识别的自然语音识别方法、装置和系统
CN108182944A (zh) 控制智能终端的方法、装置及智能终端
US20110235870A1 (en) Information processing device, information processing method, and program
WO2013177981A1 (zh) 一种基于环境声音的场景识别方法、装置及移动终端
CN104485103B (zh) 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN103187077B (zh) 应用于车载设备的音频控制方法及装置、车载设备
US9014347B2 (en) Voice print tagging of interactive voice response sessions
CN109473092A (zh) 一种语音端点检测方法及装置
CN109817211A (zh) 一种电器控制方法、装置、存储介质及电器
CN109509465A (zh) 语音信号的处理方法、组件、设备及介质
US20190228770A1 (en) Voice control method, device, and computer storage medium
CN106952645A (zh) 语音指令的识别方法、语音指令的识别装置和空调器
CN105609103A (zh) 一种语音即时识别系统
JP2000214880A (ja) 音声認識方法及び音声認識装置
WO2022083969A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN110060668A (zh) 一种语音识别控制中减少识别延时的系统及方法
CN108648752A (zh) 一种基于云处理的智能语音控制系统及其控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190726

WW01 Invention patent application withdrawn after publication