CN103871408B - 一种语音识别方法及装置、电子设备 - Google Patents

一种语音识别方法及装置、电子设备 Download PDF

Info

Publication number
CN103871408B
CN103871408B CN201210545922.1A CN201210545922A CN103871408B CN 103871408 B CN103871408 B CN 103871408B CN 201210545922 A CN201210545922 A CN 201210545922A CN 103871408 B CN103871408 B CN 103871408B
Authority
CN
China
Prior art keywords
identification
instruction
wake
engine
wakes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210545922.1A
Other languages
English (en)
Other versions
CN103871408A (zh
Inventor
戴海生
陆游龙
王茜莺
李向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201210545922.1A priority Critical patent/CN103871408B/zh
Priority to US14/104,402 priority patent/US20140172423A1/en
Publication of CN103871408A publication Critical patent/CN103871408A/zh
Application granted granted Critical
Publication of CN103871408B publication Critical patent/CN103871408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供了一种语音识别方法及装置、电子设备,接收语音输入,并通过唤醒引擎将所述语音输入识别为唤醒指令,在使用所述唤醒指令唤醒搜索引擎的同时,确定与所述唤醒指令对应的识别范围,与识别引擎全部的识别范围相比,与所述唤醒指令对应的识别范围相对较小,因此,缩小了识别引擎的识别范围,与较大的识别范围相比,在较小的范围内搜索到目标的精度更高。

Description

一种语音识别方法及装置、电子设备
技术领域
本发明涉及模式识别领域,尤其涉及一种语音识别方法及装置、电子设备。
背景技术
目前,语音识别技术得到了越来越广泛的应用。现有的应用于智能电视的语音识别的方法,通常先接受用户输入的唤醒指令,依据唤醒指令唤醒语音控制模式,再依据用户的语音指令搜索对象,将搜索到的对象呈现给用户。例如,智能电视接受用户输入的唤醒指令“语音助手”,即进入语音控制模块,再接收用户的语音“西游记”,则将与“西游记”相关的对象呈现给用户。通常,识别引擎的搜索范围往往是海量的,因此,现有的语音识别方法获取的搜索结果往往精度不高,从而不能满足用户的需求。
发明内容
有鉴于此,本发明实施例提供了一种语音识别方法及装置、电子设备,目的在于解决现有的语音识别方法精度不高的问题。
为了实现上述目的,本发明实施例提供了以下技术方案:
一种语音识别方法,应用于电子设备,包括:
接收语音输入;
通过唤醒引擎将所述语音输入识别为唤醒指令;
根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述识别引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
优选地,所述方法还包括:
在根据所述唤醒指令唤醒识别引擎之后,关闭所述唤醒引擎。
优选地,所述方法还包括:
获取用户输入的识别指令;
依据所述识别指令,在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。
优选地,在所述获得搜索结果之后,还包括:
如果所述唤醒引擎处于关闭状态,则开启所述唤醒引擎。
优选地,所述方法还包括:
如果在所述接收语音输入时,所述电子设备播放音频,则利用回波抵消技术还原所述语音输入;
如果在所述根据所述唤醒指令唤醒识别引擎后,所述电子设备播放音频,则关闭或降低所述电子设备播放音频的音量。
优选地,所述识别引擎包括:
本地识别引擎;或者,
云端识别引擎。
一种语音识别装置,应用于电子设备,包括:
语音接收模块,用于接收语音输入;
指令获取模块,用于通过唤醒引擎将所述语音输入识别为唤醒指令;
确定模块,用于根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
优选地,所述装置还包括:
第一控制模块,用于在根据所述唤醒指令唤醒识别引擎之后,关闭所述唤醒引擎。
优选地,所述装置还包括:
识别模块,用于获取用户输入的识别指令,并依据所述识别指令,在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。
优选地,所述装置还包括:
第二控制模块,如果所述唤醒引擎处于关闭状态,则开启所述唤醒引擎。
优选地,所述装置还包括:
回波抵消模块,用于如果在所述接收语音输入时,所述电子设备播放音频,则利用回波抵消技术还原所述语音输入;
音量控制模块,用于如果在所述根据所述唤醒指令唤醒识别引擎后,所述电子设备播放音频,则关闭或降低所述电子设备播放音频的音量。
一种电子设备,包括:
输入输出接口,用于接收语音输入;
处理器,用于通过唤醒引擎将所述语音输入识别为唤醒指令,并根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
本发明实施例提供的语音识别方法及装置、电子设备,接收语音输入,并通过唤醒引擎将所述语音输入识别为唤醒指令,在使用所述唤醒指令唤醒搜索引擎的同时,确定与所述唤醒指令对应的识别范围,与识别引擎全部的识别范围相比,与所述唤醒指令对应的识别范围相对较小,因此,缩小了识别引擎的识别范围,与较大的识别范围相比,在较小的范围内搜索到目标的精度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种语音识别方法的流程图;
图2为本发明实施例公开的又一种语音识别方法的流程图;
图3为本发明实施例公开的又一种语音识别方法的流程图;
图4为本发明实施例公开的又一种语音识别方法的流程图;
图5为本发明实施例公开的一种语音识别装置的结构示意图;
图6为本发明实施例公开的又一种语音识别装置的结构示意图;
图7为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
本发明实施例公开了一种语音识别方法及装置、电子设备,目的在于通过唤醒指令在唤醒识别引擎的同时,依据唤醒指令缩小识别引擎的识别范围,与海量的识别相比,在较小的识别范围中进行语音识别的精度更高,因此,能够提高语音识别的精度。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种语音识别方法,应用于电子设备,如图1所示,所述方法包括:
S101:接收语音输入;
本实施例中,所述语音可以由用户发出,所述电子设备利用音频获取装置接收语音输入。
S102:通过唤醒引擎将所述语音输入识别为唤醒指令;
其中,所述唤醒引擎为电子设备中触发语音识别的引擎,通常,在唤醒引擎接收到语音后,会进行判断,如果判定接收到的语音为预设的触发口令,则认为所述语音为唤醒指令。
需要强调的是,本实施例中的唤醒指令与现有的语音识别方式中的唤醒指令不同,本实施例中的唤醒指令不仅具备唤醒语音识别引擎的功能,还具有指示不同的识别领域的功能。
S103:根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,其中,所述识别引擎具有N个识别项,M小于N,所述M和N均为大于或等于1的整数。
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
也就是说,不同的唤醒指令对应不同的识别范围,当唤醒指令不同时,识别引擎确定出的识别范围是不同的,不同识别范围中的识别项的数量可以相同,也可以不同,即M1与M2可以相同或不同,但均小于识别引擎的全部识别项的数量N。例如,唤醒指令“我要看视频”和“我要听音乐”分别指示的识别领域为“视频”和“音乐”。
下面以智能电视为执行主体,对本实施例所述的方法进行举例描述:
现有技术中,智能电视接收用户的语音输入“语音助手”,则通过唤醒引擎将语音数据识别为唤醒指令,并依据唤醒指令唤醒识别引擎,识别引擎依据用户再次输入的语音数据在全部识别项中进行语音识别。
而本实施例所述的方法中,智能电视通过麦克采集用户的语音输入,当用户的语音输入“我要看视频”被智能电视采集到时,智能电视通过唤醒引擎将所述语音输入“我要看视频”识别为唤醒指令,并根据所述唤醒指令唤醒识别引擎,在唤醒识别引擎的同时,因为所述语音中的“视频”指示了识别范围,因此,使得识别引擎确定与唤醒指令对应的包含M个视频识别项的范围为识别范围,在确定的识别范围内进行识别,相比于在全部识别引擎的识别项中进行识别相比,范围缩小了,相当于在识别之前进行了一次识别范围的筛选,因此,能够提高识别的精度。
进一步地,当智能电视采集到用户输入的语音“我要听音乐”时,智能电视在唤醒识别引擎的同时,确定与“音乐”对应的识别范围,并在“音乐”的范围内进行识别,可见,可以预先针对不同的识别领域定义不同的唤醒指令,从而缩小语音识别的范围。
本实施例所述的语音识别方法,唤醒引擎在唤醒识别引擎的同时,识别引擎能够依据唤醒指令从所有的识别项中,确定出当前的识别范围,因为小范围识别与大范围识别能够获得更高的识别结果,因此,本实施例所述的语音识别方法具有识别精度高的优势。
本发明实施例公开的又一种语音识别方法,应用于电子设备,所述电子设备可以为具有语音获取及唤醒、识别功能的电子设备,如图2所示,所述方法包括:
S201:接收语音输入;
S202:通过唤醒引擎将所述语音输入识别为唤醒指令;
S203:根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述识别引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
本实施例中,所述识别引擎可以为本地识别引擎,也可以为网络识别引擎,而无论本地识别引擎还是网络识别引擎,均能够在本地和/或网络进行识别,这里不做限定。
S204:关闭所述唤醒引擎。
本实施例中所述的语音识别方法,与上述实施例相比,区别在于,在唤醒识别引擎之后,将唤醒引擎关闭,一方面,能够避免唤醒引擎继续消耗电能,达到节省能源的目的,另一方面,能够避免在语音识别的同时继续采集语音输入,并唤醒识别引擎,而对当前的语音识别过程造成干扰。
本发明公开的又一种语音识别方法,应用于电子设备,如图3所示,所述方法包括:
S301:接收语音输入;
例如,接收用户的语音输入“我要看电影”。
S302:通过唤醒引擎将所述语音输入识别为唤醒指令;
需要说明的是,如果语音输入为预设的口令,则可以识别为唤醒指令,例如,将“我要看电影”识别为唤醒指令,而如果语音输入不是预设的口令,例如,用户之间聊天的内容,则不会被识别为唤醒口令,也就是说,可以实时监听用户的语音输入,当其为预设的口令时,则识别为唤醒指令。
S303:根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述识别引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
S304:获取用户输入的识别指令;
本实施例中,用户输入的识别语音为用户欲获得的对象的名称,例如“无间道”。
用户输入的识别语音可以从S301中接收到的语音输入中获取,也可以利用音频获取设备直接接收用户的输入,第一种情况下,S301中用户输入的语音中既包括唤醒指令也包括识别指令,例如接收用户的语音输入“我要看电影无间道”,其中,将“我要看电影”识别为唤醒指令,将“无间道”作为识别指令,此时,可以看作接收到的用户的语音输入为一句话,即用户同时输入唤醒指令和识别指令;在第二种情况下,S301中用户输入的语音只包括唤醒指令,在唤醒指令之后,用户再次输入识别指令,例如,用户先输入语音“我要看电影”,停顿之后再次输入语音“无间道”,此时,可以看作接收到的用户的语音输入为两句话,即用户分别输入唤醒指令和识别指令。
在第一种情况下,S304可以在S302之前执行,这里不做限定。
S305:依据所述识别指令,在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。
优选地,在S305之后,还可以包括:
S306:判断所述唤醒引擎是否处于关闭状态,如果是,执行S307,如果否,则执行S308;
S307:开启所述唤醒引擎;
S308:实时监听用户的语音输入。
其中,本实施例中及上述实施例中对唤醒引擎进行开启或关闭的操作可以使用硬件开关进行控制,也可以使用软件范畴的指令进行控制,这里不做限定。
下面仍然以智能电视为例,对本实施例中所述的语音识别方法进行举例:
智能电视接收用户的语音输入“我要看电影”,通过唤醒引擎将“我要看电影”识别为唤醒指令,根据所述唤醒指令唤醒识别引擎,并确定与“电影”对应的识别范围,智能电视再次接收用户输入的语音“无间道”,从确定出的识别范围内识别与“无间道”对应的识别项。
或者,智能电视接收用户的语音输入“我要看电影无间道”,通过唤醒引擎将“我要看电影”识别为唤醒指令,根据所述唤醒指令唤醒识别引擎,并确定与“电影”对应的识别范围,并从“我要看电影无间道”中获取识别指令“无间道”,从确定的识别范围内识别与“无间道”对应的识别项。
又或者,
智能电视接收用户的语音输入“我要听音乐无间道”,通过唤醒引擎将“我要听音乐”识别为唤醒指令,根据所述唤醒指令唤醒识别引擎,并确定与“音乐”对应的识别范围,并从“我要听音乐无间道”中获取识别指令“无间道”,从确定的识别范围内识别与“无间道”对应的识别项。
需要说明的是,与“电影”对应的识别范围跟与“音乐”对应的识别范围是不同的,识别出的识别项也是不同的。当语音输入为“我要看电影无间道”时,识别出的可能为名为“无间道”的电影,而当语音输入为“我要听音乐无间道”时,识别出的可能为电影《无间道》的插曲。
而现有的语音识别方法,只能接收用户统一的唤醒语音,例如“语音助手”,唤醒引擎将识别引擎唤醒后,获取用户的识别指令,例如“无间道”,依据识别指令,在识别引擎包含的所有的识别项中进行识别,识别出与“无间道”有关的所有内容,包括视频和音频。
由此可见,本实施例中所述的语音识别方法,与现有技术相比,能够具体到某一领域的识别范围内进行识别,因为减少了识别项,所以能够提高识别效率,同时,能够提高识别的精度,识别的结果更符合用户的要求。
本发明实施例公开的又一种语音识别方法,应用于电子设备,如图4所示,包括:
S401:接收语音输入;
S402:判断所述电子设备是否正在播放音频,如果是,执行S403,如果否,执行S404;
S403:利用回波抵消技术还原所述语音输入;
其中,回波抵消技术是指,在二线传输的两个方向上同时间、同频谱地占用线路,在线路上两个方向传输的信号完全混在一起,本端发信号的回波即成为本端收信号的干扰信号,利用自适应滤波器可抵消回波以达到较好的接收信号质量。
简单而言,本实施例中,回波抵消技术是指电子设备利用自身发出的音频,从接收到的语音输入与自身发出的音频的混合音频中,消除自身发出的音频,从而还原语音数据。
使用回波抵消技术,可以避免语音输入收到电子设备自身外放音频的干扰,从后续的语音识别奠定基础,能够保证语音识别的正确性。
S404:通过唤醒引擎将所述语音输入识别为唤醒指令;
S405:根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述识别引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
S406:判断所述电子设备是否正在播放音频,如果是,执行S407,如果否,执行S408;
S407:关闭或降低所述电子设备播放音频的音量;
如果电子设备在语音识别阶段还在播放音频,可能会影响识别指令的接收,因此,需要关闭或降低所述电子设备播放音频的音量,以便于提高识别的准确性。
S408:获取用户输入的识别指令;
S409:依据所述识别指令,在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。
例如,智能电视接收语音输入“我要看电影”时,判断出正在外放音频,则利用回波抵消技术还原语音输入“我要看电影”,唤醒引擎将其识别为唤醒指令,根据所述唤醒指令唤醒识别引擎,确定识别范围,如果唤醒识别引擎后,判断出自身仍然外放音频,则关闭或降低外放音频的音量,使得不会干扰用户输入的语音,当再次接收到语音“无间道”时,在确定的范围内识别出与“无间道”对应的识别项。
与前述实施例相比,本实施例所述的语音识别方法,在接收语音输入后判断电子设备是否播放音频,如果是,则利用回波抵消技术还原所述语音输入,当识别引擎被唤醒后,意味着即将获取语音识别指令,则再次判断电子设备是否播放音频,如果是,则关闭或降低外放音频的音量,其中回波抵消技术使得使用电子设备播放音频时,依然能够准确地检测到用户输入的语音,而当识别引擎被唤醒后关闭或降低外放音频的音量,能够最大限度地保证语音识别的准确性。
与上述方法实施例相对应的,本发明实施例公开了一种语音识别装置,应用于电子设备,如图5所示,包括:
语音接收模块501,用于接收语音输入;
指令获取模块502,用于通过唤醒引擎将所述语音输入识别为唤醒指令;
确定模块503,用于根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
本实施例所述的语音识别装置进行语音识别的过程为:接收用户的语音输入,例如“我要看小说”,唤醒引擎将语音输入识别为唤醒指令,依据所述唤醒指令唤醒识别引擎,使得识别引擎从全部识别项中确定与“小说”对应的识别范围。因此缩小了识别范围,所以能够提高语音识别的精度。
本发明实施例公开的又一种语音识别装置,如图6所示,包括:
语音接收模块601,用于接收语音输入;
回波抵消模块602,用于如果在所述接收语音输入时,所述电子设备播放音频,则利用回波抵消技术还原所述语音输入;
指令获取模块603,用于通过唤醒引擎将所述语音输入识别为唤醒指令;
确定模块604,用于根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
第一控制模块605,用于在根据所述唤醒指令唤醒识别引擎之后,关闭所述唤醒引擎;
音量控制模块606,用于如果在所述根据所述唤醒指令唤醒识别引擎后,所述电子设备播放音频,则关闭或降低所述电子设备播放音频的音量;
识别模块607,用于获取用户输入的识别指令,并依据所述识别指令,在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果;
第二控制模块608,如果所述唤醒引擎处于关闭状态,则开启所述唤醒引擎。
本实施例所述的语音识别装置中,回波抵消模块、第一控制模块、音量控制模块、识别模块、第二控制模块均为优选模块。所述语音识别装置能够缩小识别的范围,从而提高识别精度和效率。
本发明实施例还公开了一种电子设备,如图7所示,包括:
输入输出接口701,用于接收语音输入;
处理器702,用于通过唤醒引擎将所述语音输入识别为唤醒指令,根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
所述电子设备可以为智能电视、PC、PAD、移动通信终端等。
本实施例所述的电子设备,在依据语音输入进行语音识别的过程中,依据唤醒指令确定与唤醒指令对应的识别范围,因此识别范围相比与识别引擎全部的识别项而言进行了缩小,因此,能够提高识别精度。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种语音识别方法,其特征在于,应用于电子设备,包括:
接收语音输入;
通过唤醒引擎将所述语音输入识别为唤醒指令;
根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述识别引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
2.根据权利要求1所述的方法,其特征在于,还包括:
在根据所述唤醒指令唤醒识别引擎之后,关闭所述唤醒引擎。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取用户输入的识别指令;
依据所述识别指令,在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。
4.根据权利要求3所述的方法,其特征在于,在所述获得识别结果之后,还包括:
如果所述唤醒引擎处于关闭状态,则开启所述唤醒引擎。
5.根据权利要求1或3所述的方法,其特征在于,还包括:
如果在所述接收语音输入时,所述电子设备播放音频,则利用回波抵消技术还原所述语音输入;
如果在所述根据所述唤醒指令唤醒识别引擎后,所述电子设备播放音频,则关闭或降低所述电子设备播放音频的音量。
6.根据权利要求1所述的方法,其特征在于,所述识别引擎包括:
本地识别引擎;或者,
云端识别引擎。
7.一种语音识别装置,其特征在于,应用于电子设备,包括:
语音接收模块,用于接收语音输入;
指令获取模块,用于通过唤醒引擎将所述语音输入识别为唤醒指令;
确定模块,用于根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
8.根据权利要求7所述的装置,其特征在于,还包括:
第一控制模块,用于在根据所述唤醒指令唤醒识别引擎之后,关闭所述唤醒引擎。
9.根据权利要求7所述的装置,其特征在于,还包括:
识别模块,用于获取用户输入的识别指令,并依据所述识别指令,在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。
10.根据权利要求9所述的装置,其特征在于,还包括:
第二控制模块,如果所述唤醒引擎处于关闭状态,则开启所述唤醒引擎。
11.根据权利要求7所述的装置,其特征在于,还包括:
回波抵消模块,用于如果在所述接收语音输入时,所述电子设备播放音频,则利用回波抵消技术还原所述语音输入;
音量控制模块,用于如果在所述根据所述唤醒指令唤醒识别引擎后,所述电子设备播放音频,则关闭或降低所述电子设备播放音频的音量。
12.一种电子设备,其特征在于,包括:
输入输出接口,用于接收语音输入;
处理器,用于通过唤醒引擎将所述语音输入识别为唤醒指令,并根据所述唤醒指令唤醒识别引擎,以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围,所述引擎具有N个识别项,M小于N,所述M和N为大于或等于1的整数;
其中,当所述唤醒指令为第一唤醒指令时,所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围;
当所述唤醒指令为第二唤醒指令时,所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围,其中,M1、M2均为小于N的整数。
CN201210545922.1A 2012-12-14 2012-12-14 一种语音识别方法及装置、电子设备 Active CN103871408B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210545922.1A CN103871408B (zh) 2012-12-14 2012-12-14 一种语音识别方法及装置、电子设备
US14/104,402 US20140172423A1 (en) 2012-12-14 2013-12-12 Speech recognition method, device and electronic apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210545922.1A CN103871408B (zh) 2012-12-14 2012-12-14 一种语音识别方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN103871408A CN103871408A (zh) 2014-06-18
CN103871408B true CN103871408B (zh) 2017-05-24

Family

ID=50909872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210545922.1A Active CN103871408B (zh) 2012-12-14 2012-12-14 一种语音识别方法及装置、电子设备

Country Status (2)

Country Link
US (1) US20140172423A1 (zh)
CN (1) CN103871408B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10529359B2 (en) * 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
CN105824857A (zh) * 2015-01-08 2016-08-03 中兴通讯股份有限公司 一种语音搜索方法、装置及终端
JP6564058B2 (ja) 2015-04-10 2019-08-21 華為技術有限公司Huawei Technologies Co.,Ltd. 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
CN105183081A (zh) * 2015-09-07 2015-12-23 北京君正集成电路股份有限公司 一种智能眼镜的语音控制方法及智能眼镜
US10777205B2 (en) 2015-09-30 2020-09-15 Huawei Technologies Co., Ltd. Voice control processing method and apparatus
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN105976814B (zh) * 2015-12-10 2020-04-10 乐融致新电子科技(天津)有限公司 头戴设备的控制方法和装置
CN105743879B (zh) * 2016-01-20 2019-08-16 深圳Tcl数字技术有限公司 智能电视身份识别方法及系统
CN106558305B (zh) * 2016-11-16 2020-06-02 北京云知声信息技术有限公司 语音数据处理方法及装置
CN106910500B (zh) 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
CN107358954A (zh) * 2017-08-29 2017-11-17 成都启英泰伦科技有限公司 一种实时更换唤醒词的设备及方法
CN108470568B (zh) * 2018-01-22 2021-03-23 科大讯飞股份有限公司 智能设备控制方法及装置、存储介质、电子设备
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
CN108766446A (zh) * 2018-04-18 2018-11-06 上海问之信息科技有限公司 声纹识别方法、装置、存储介质及音箱
CN108962240B (zh) * 2018-06-14 2021-09-21 百度在线网络技术(北京)有限公司 一种基于耳机的语音控制方法及系统
CN110718215A (zh) * 2018-07-13 2020-01-21 深圳市优必选科技有限公司 终端的控制方法、控制装置及终端
CN109087650B (zh) * 2018-10-24 2022-02-22 北京小米移动软件有限公司 语音唤醒方法及装置
CN109462707A (zh) * 2018-11-13 2019-03-12 平安科技(深圳)有限公司 基于自动外呼系统的语音处理方法、装置和计算机设备
CN109215658A (zh) * 2018-11-30 2019-01-15 广东美的制冷设备有限公司 设备的语音唤醒方法、装置和家电设备
CN111096680B (zh) * 2019-12-31 2022-02-01 广东美的厨房电器制造有限公司 烹饪设备、电子设备、语音服务器、语音控制方法和装置
CN113096651A (zh) * 2020-01-07 2021-07-09 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、可读存储介质及电子设备
CN111261160B (zh) * 2020-01-20 2023-09-19 联想(北京)有限公司 一种信号处理方法及装置
CN111354360A (zh) * 2020-03-17 2020-06-30 北京百度网讯科技有限公司 语音交互处理方法、装置和电子设备
CN111833874B (zh) * 2020-07-10 2023-12-05 上海茂声智能科技有限公司 一种基于标识符的人机交互方法、系统、设备和存储介质
CN113076444A (zh) * 2021-03-31 2021-07-06 维沃移动通信有限公司 歌曲识别方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192220A (zh) * 2006-11-21 2008-06-04 财团法人资讯工业策进会 标签建构方法及系统
CN102024454A (zh) * 2009-09-10 2011-04-20 三菱电机株式会社 基于语音输入激活多种功能的系统和方法
CN102054481A (zh) * 2009-10-30 2011-05-11 大陆汽车有限责任公司 用于激活和/或进行语音对话的装置、系统和方法
CN102316361A (zh) * 2011-07-04 2012-01-11 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7036080B1 (en) * 2001-11-30 2006-04-25 Sap Labs, Inc. Method and apparatus for implementing a speech interface for a GUI
TWI293753B (en) * 2004-12-31 2008-02-21 Delta Electronics Inc Method and apparatus of speech pattern selection for speech recognition
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
US9099972B2 (en) * 2012-03-13 2015-08-04 Motorola Solutions, Inc. Method and apparatus for multi-stage adaptive volume control
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US8799959B2 (en) * 2012-08-16 2014-08-05 Hoi L. Young User interface for entertainment systems
US9112984B2 (en) * 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
KR102208477B1 (ko) * 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192220A (zh) * 2006-11-21 2008-06-04 财团法人资讯工业策进会 标签建构方法及系统
CN102024454A (zh) * 2009-09-10 2011-04-20 三菱电机株式会社 基于语音输入激活多种功能的系统和方法
CN102054481A (zh) * 2009-10-30 2011-05-11 大陆汽车有限责任公司 用于激活和/或进行语音对话的装置、系统和方法
CN102316361A (zh) * 2011-07-04 2012-01-11 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统

Also Published As

Publication number Publication date
CN103871408A (zh) 2014-06-18
US20140172423A1 (en) 2014-06-19

Similar Documents

Publication Publication Date Title
CN103871408B (zh) 一种语音识别方法及装置、电子设备
CN103440862B (zh) 一种语音与音乐合成的方法、装置以及设备
CN107144819B (zh) 一种声源定位方法、装置及电子设备
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN108681440A (zh) 一种智能设备音量控制方法及系统
CN109218535B (zh) 智能调节音量的方法、装置、存储介质及终端
CN109243444B (zh) 语音交互方法、设备及计算机可读存储介质
CN109493849A (zh) 语音唤醒方法、装置及电子设备
CN103971681A (zh) 一种语音识别方法及系统
CN107146614A (zh) 一种语音信号处理方法、装置及电子设备
CN109087669A (zh) 音频相似度检测方法、装置、存储介质及计算机设备
CN106200853A (zh) 一种唤醒电路及唤醒方法
CN106935253A (zh) 音频文件的裁剪方法、装置及终端设备
CN104158506A (zh) 调节音量的方法、装置及终端
CN103347070B (zh) 推送语音数据的方法、终端、服务器及系统
CN109003609A (zh) 语音设备、智能语音系统、设备控制方法及装置
CN108712566A (zh) 一种语音助手唤醒方法及移动终端
CN105895126A (zh) 指示和控制播放音频/音视频数据的方法及装置
CN103546617A (zh) 一种声音调节的方法及终端
CN112230877A (zh) 一种语音操作方法、装置、存储介质及电子设备
CN105744609B (zh) 改善移动终端功耗的方法及装置
CN108733341B (zh) 一种语音交互方法及装置
CN106940997A (zh) 一种向语音识别系统发送语音信号的方法和装置
CN110223696A (zh) 一种语音信号的采集方法、装置及终端设备
CN109242555A (zh) 基于语音的广告播放方法及相关产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant