CN103871408B

CN103871408B - 一种语音识别方法及装置、电子设备

Info

Publication number: CN103871408B
Application number: CN201210545922.1A
Authority: CN
Inventors: 戴海生; 陆游龙; 王茜莺; 李向阳
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2012-12-14
Filing date: 2012-12-14
Publication date: 2017-05-24
Anticipated expiration: 2032-12-14
Also published as: CN103871408A; US20140172423A1

Abstract

本发明提供了一种语音识别方法及装置、电子设备，接收语音输入，并通过唤醒引擎将所述语音输入识别为唤醒指令，在使用所述唤醒指令唤醒搜索引擎的同时，确定与所述唤醒指令对应的识别范围，与识别引擎全部的识别范围相比，与所述唤醒指令对应的识别范围相对较小，因此，缩小了识别引擎的识别范围，与较大的识别范围相比，在较小的范围内搜索到目标的精度更高。

Description

一种语音识别方法及装置、电子设备

技术领域

本发明涉及模式识别领域，尤其涉及一种语音识别方法及装置、电子设备。

背景技术

目前，语音识别技术得到了越来越广泛的应用。现有的应用于智能电视的语音识别的方法，通常先接受用户输入的唤醒指令，依据唤醒指令唤醒语音控制模式，再依据用户的语音指令搜索对象，将搜索到的对象呈现给用户。例如，智能电视接受用户输入的唤醒指令“语音助手”，即进入语音控制模块，再接收用户的语音“西游记”，则将与“西游记”相关的对象呈现给用户。通常，识别引擎的搜索范围往往是海量的，因此，现有的语音识别方法获取的搜索结果往往精度不高，从而不能满足用户的需求。

发明内容

有鉴于此，本发明实施例提供了一种语音识别方法及装置、电子设备，目的在于解决现有的语音识别方法精度不高的问题。

为了实现上述目的，本发明实施例提供了以下技术方案：

一种语音识别方法，应用于电子设备，包括：

接收语音输入；

通过唤醒引擎将所述语音输入识别为唤醒指令；

根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述识别引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

其中，当所述唤醒指令为第一唤醒指令时，所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围；

当所述唤醒指令为第二唤醒指令时，所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围，其中，M1、M2均为小于N的整数。

优选地，所述方法还包括：

在根据所述唤醒指令唤醒识别引擎之后，关闭所述唤醒引擎。

优选地，所述方法还包括：

获取用户输入的识别指令；

依据所述识别指令，在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。

优选地，在所述获得搜索结果之后，还包括：

如果所述唤醒引擎处于关闭状态，则开启所述唤醒引擎。

优选地，所述方法还包括：

如果在所述接收语音输入时，所述电子设备播放音频，则利用回波抵消技术还原所述语音输入；

如果在所述根据所述唤醒指令唤醒识别引擎后，所述电子设备播放音频，则关闭或降低所述电子设备播放音频的音量。

优选地，所述识别引擎包括：

本地识别引擎；或者，

云端识别引擎。

一种语音识别装置，应用于电子设备，包括：

语音接收模块，用于接收语音输入；

指令获取模块，用于通过唤醒引擎将所述语音输入识别为唤醒指令；

确定模块，用于根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

优选地，所述装置还包括：

第一控制模块，用于在根据所述唤醒指令唤醒识别引擎之后，关闭所述唤醒引擎。

优选地，所述装置还包括：

识别模块，用于获取用户输入的识别指令，并依据所述识别指令，在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。

优选地，所述装置还包括：

第二控制模块，如果所述唤醒引擎处于关闭状态，则开启所述唤醒引擎。

优选地，所述装置还包括：

回波抵消模块，用于如果在所述接收语音输入时，所述电子设备播放音频，则利用回波抵消技术还原所述语音输入；

音量控制模块，用于如果在所述根据所述唤醒指令唤醒识别引擎后，所述电子设备播放音频，则关闭或降低所述电子设备播放音频的音量。

一种电子设备，包括：

输入输出接口，用于接收语音输入；

处理器，用于通过唤醒引擎将所述语音输入识别为唤醒指令，并根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

本发明实施例提供的语音识别方法及装置、电子设备，接收语音输入，并通过唤醒引擎将所述语音输入识别为唤醒指令，在使用所述唤醒指令唤醒搜索引擎的同时，确定与所述唤醒指令对应的识别范围，与识别引擎全部的识别范围相比，与所述唤醒指令对应的识别范围相对较小，因此，缩小了识别引擎的识别范围，与较大的识别范围相比，在较小的范围内搜索到目标的精度更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种语音识别方法的流程图；

图2为本发明实施例公开的又一种语音识别方法的流程图；

图3为本发明实施例公开的又一种语音识别方法的流程图；

图4为本发明实施例公开的又一种语音识别方法的流程图；

图5为本发明实施例公开的一种语音识别装置的结构示意图；

图6为本发明实施例公开的又一种语音识别装置的结构示意图；

图7为本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

本发明实施例公开了一种语音识别方法及装置、电子设备，目的在于通过唤醒指令在唤醒识别引擎的同时，依据唤醒指令缩小识别引擎的识别范围，与海量的识别相比，在较小的识别范围中进行语音识别的精度更高，因此，能够提高语音识别的精度。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种语音识别方法，应用于电子设备，如图1所示，所述方法包括：

S101：接收语音输入；

本实施例中，所述语音可以由用户发出，所述电子设备利用音频获取装置接收语音输入。

S102：通过唤醒引擎将所述语音输入识别为唤醒指令；

其中，所述唤醒引擎为电子设备中触发语音识别的引擎，通常，在唤醒引擎接收到语音后，会进行判断，如果判定接收到的语音为预设的触发口令，则认为所述语音为唤醒指令。

需要强调的是，本实施例中的唤醒指令与现有的语音识别方式中的唤醒指令不同，本实施例中的唤醒指令不仅具备唤醒语音识别引擎的功能，还具有指示不同的识别领域的功能。

S103：根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，其中，所述识别引擎具有N个识别项，M小于N，所述M和N均为大于或等于1的整数。

其中，当所述唤醒指令为第一唤醒指令时，所述识别引擎确定与所述第一唤醒指令对应的具有M1个识别项的第一识别范围；当所述唤醒指令为第二唤醒指令时，所述识别引擎确定与所述第二唤醒指令对应的具有M2个识别项的第二识别范围，其中，M1、M2均为小于N的整数。

也就是说，不同的唤醒指令对应不同的识别范围，当唤醒指令不同时，识别引擎确定出的识别范围是不同的，不同识别范围中的识别项的数量可以相同，也可以不同，即M1与M2可以相同或不同，但均小于识别引擎的全部识别项的数量N。例如，唤醒指令“我要看视频”和“我要听音乐”分别指示的识别领域为“视频”和“音乐”。

下面以智能电视为执行主体，对本实施例所述的方法进行举例描述：

现有技术中，智能电视接收用户的语音输入“语音助手”，则通过唤醒引擎将语音数据识别为唤醒指令，并依据唤醒指令唤醒识别引擎，识别引擎依据用户再次输入的语音数据在全部识别项中进行语音识别。

而本实施例所述的方法中，智能电视通过麦克采集用户的语音输入，当用户的语音输入“我要看视频”被智能电视采集到时，智能电视通过唤醒引擎将所述语音输入“我要看视频”识别为唤醒指令，并根据所述唤醒指令唤醒识别引擎，在唤醒识别引擎的同时，因为所述语音中的“视频”指示了识别范围，因此，使得识别引擎确定与唤醒指令对应的包含M个视频识别项的范围为识别范围，在确定的识别范围内进行识别，相比于在全部识别引擎的识别项中进行识别相比，范围缩小了，相当于在识别之前进行了一次识别范围的筛选，因此，能够提高识别的精度。

进一步地，当智能电视采集到用户输入的语音“我要听音乐”时，智能电视在唤醒识别引擎的同时，确定与“音乐”对应的识别范围，并在“音乐”的范围内进行识别，可见，可以预先针对不同的识别领域定义不同的唤醒指令，从而缩小语音识别的范围。

本实施例所述的语音识别方法，唤醒引擎在唤醒识别引擎的同时，识别引擎能够依据唤醒指令从所有的识别项中，确定出当前的识别范围，因为小范围识别与大范围识别能够获得更高的识别结果，因此，本实施例所述的语音识别方法具有识别精度高的优势。

本发明实施例公开的又一种语音识别方法，应用于电子设备，所述电子设备可以为具有语音获取及唤醒、识别功能的电子设备，如图2所示，所述方法包括：

S201：接收语音输入；

S202：通过唤醒引擎将所述语音输入识别为唤醒指令；

S203：根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述识别引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

本实施例中，所述识别引擎可以为本地识别引擎，也可以为网络识别引擎，而无论本地识别引擎还是网络识别引擎，均能够在本地和/或网络进行识别，这里不做限定。

S204：关闭所述唤醒引擎。

本实施例中所述的语音识别方法，与上述实施例相比，区别在于，在唤醒识别引擎之后，将唤醒引擎关闭，一方面，能够避免唤醒引擎继续消耗电能，达到节省能源的目的，另一方面，能够避免在语音识别的同时继续采集语音输入，并唤醒识别引擎，而对当前的语音识别过程造成干扰。

本发明公开的又一种语音识别方法，应用于电子设备，如图3所示，所述方法包括：

S301：接收语音输入；

例如，接收用户的语音输入“我要看电影”。

S302：通过唤醒引擎将所述语音输入识别为唤醒指令；

需要说明的是，如果语音输入为预设的口令，则可以识别为唤醒指令，例如，将“我要看电影”识别为唤醒指令，而如果语音输入不是预设的口令，例如，用户之间聊天的内容，则不会被识别为唤醒口令，也就是说，可以实时监听用户的语音输入，当其为预设的口令时，则识别为唤醒指令。

S303：根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述识别引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

S304：获取用户输入的识别指令；

本实施例中，用户输入的识别语音为用户欲获得的对象的名称，例如“无间道”。

用户输入的识别语音可以从S301中接收到的语音输入中获取，也可以利用音频获取设备直接接收用户的输入，第一种情况下，S301中用户输入的语音中既包括唤醒指令也包括识别指令，例如接收用户的语音输入“我要看电影无间道”，其中，将“我要看电影”识别为唤醒指令，将“无间道”作为识别指令，此时，可以看作接收到的用户的语音输入为一句话，即用户同时输入唤醒指令和识别指令；在第二种情况下，S301中用户输入的语音只包括唤醒指令，在唤醒指令之后，用户再次输入识别指令，例如，用户先输入语音“我要看电影”，停顿之后再次输入语音“无间道”，此时，可以看作接收到的用户的语音输入为两句话，即用户分别输入唤醒指令和识别指令。

在第一种情况下，S304可以在S302之前执行，这里不做限定。

S305：依据所述识别指令，在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。

优选地，在S305之后，还可以包括：

S306：判断所述唤醒引擎是否处于关闭状态，如果是，执行S307，如果否，则执行S308；

S307：开启所述唤醒引擎；

S308：实时监听用户的语音输入。

其中，本实施例中及上述实施例中对唤醒引擎进行开启或关闭的操作可以使用硬件开关进行控制，也可以使用软件范畴的指令进行控制，这里不做限定。

下面仍然以智能电视为例，对本实施例中所述的语音识别方法进行举例：

智能电视接收用户的语音输入“我要看电影”，通过唤醒引擎将“我要看电影”识别为唤醒指令，根据所述唤醒指令唤醒识别引擎，并确定与“电影”对应的识别范围，智能电视再次接收用户输入的语音“无间道”，从确定出的识别范围内识别与“无间道”对应的识别项。

或者，智能电视接收用户的语音输入“我要看电影无间道”，通过唤醒引擎将“我要看电影”识别为唤醒指令，根据所述唤醒指令唤醒识别引擎，并确定与“电影”对应的识别范围，并从“我要看电影无间道”中获取识别指令“无间道”，从确定的识别范围内识别与“无间道”对应的识别项。

又或者，

智能电视接收用户的语音输入“我要听音乐无间道”，通过唤醒引擎将“我要听音乐”识别为唤醒指令，根据所述唤醒指令唤醒识别引擎，并确定与“音乐”对应的识别范围，并从“我要听音乐无间道”中获取识别指令“无间道”，从确定的识别范围内识别与“无间道”对应的识别项。

需要说明的是，与“电影”对应的识别范围跟与“音乐”对应的识别范围是不同的，识别出的识别项也是不同的。当语音输入为“我要看电影无间道”时，识别出的可能为名为“无间道”的电影，而当语音输入为“我要听音乐无间道”时，识别出的可能为电影《无间道》的插曲。

而现有的语音识别方法，只能接收用户统一的唤醒语音，例如“语音助手”，唤醒引擎将识别引擎唤醒后，获取用户的识别指令，例如“无间道”，依据识别指令，在识别引擎包含的所有的识别项中进行识别，识别出与“无间道”有关的所有内容，包括视频和音频。

由此可见，本实施例中所述的语音识别方法，与现有技术相比，能够具体到某一领域的识别范围内进行识别，因为减少了识别项，所以能够提高识别效率，同时，能够提高识别的精度，识别的结果更符合用户的要求。

本发明实施例公开的又一种语音识别方法，应用于电子设备，如图4所示，包括：

S401：接收语音输入；

S402：判断所述电子设备是否正在播放音频，如果是，执行S403，如果否，执行S404；

S403：利用回波抵消技术还原所述语音输入；

其中，回波抵消技术是指，在二线传输的两个方向上同时间、同频谱地占用线路，在线路上两个方向传输的信号完全混在一起，本端发信号的回波即成为本端收信号的干扰信号，利用自适应滤波器可抵消回波以达到较好的接收信号质量。

简单而言，本实施例中，回波抵消技术是指电子设备利用自身发出的音频，从接收到的语音输入与自身发出的音频的混合音频中，消除自身发出的音频，从而还原语音数据。

使用回波抵消技术，可以避免语音输入收到电子设备自身外放音频的干扰，从后续的语音识别奠定基础，能够保证语音识别的正确性。

S404：通过唤醒引擎将所述语音输入识别为唤醒指令；

S405：根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述识别引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

S406：判断所述电子设备是否正在播放音频，如果是，执行S407，如果否，执行S408；

S407：关闭或降低所述电子设备播放音频的音量；

如果电子设备在语音识别阶段还在播放音频，可能会影响识别指令的接收，因此，需要关闭或降低所述电子设备播放音频的音量，以便于提高识别的准确性。

S408：获取用户输入的识别指令；

S409：依据所述识别指令，在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果。

例如，智能电视接收语音输入“我要看电影”时，判断出正在外放音频，则利用回波抵消技术还原语音输入“我要看电影”，唤醒引擎将其识别为唤醒指令，根据所述唤醒指令唤醒识别引擎，确定识别范围，如果唤醒识别引擎后，判断出自身仍然外放音频，则关闭或降低外放音频的音量，使得不会干扰用户输入的语音，当再次接收到语音“无间道”时，在确定的范围内识别出与“无间道”对应的识别项。

与前述实施例相比，本实施例所述的语音识别方法，在接收语音输入后判断电子设备是否播放音频，如果是，则利用回波抵消技术还原所述语音输入，当识别引擎被唤醒后，意味着即将获取语音识别指令，则再次判断电子设备是否播放音频，如果是，则关闭或降低外放音频的音量，其中回波抵消技术使得使用电子设备播放音频时，依然能够准确地检测到用户输入的语音，而当识别引擎被唤醒后关闭或降低外放音频的音量，能够最大限度地保证语音识别的准确性。

与上述方法实施例相对应的，本发明实施例公开了一种语音识别装置，应用于电子设备，如图5所示，包括：

语音接收模块501，用于接收语音输入；

指令获取模块502，用于通过唤醒引擎将所述语音输入识别为唤醒指令；

确定模块503，用于根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

本实施例所述的语音识别装置进行语音识别的过程为：接收用户的语音输入，例如“我要看小说”，唤醒引擎将语音输入识别为唤醒指令，依据所述唤醒指令唤醒识别引擎，使得识别引擎从全部识别项中确定与“小说”对应的识别范围。因此缩小了识别范围，所以能够提高语音识别的精度。

本发明实施例公开的又一种语音识别装置，如图6所示，包括：

语音接收模块601，用于接收语音输入；

回波抵消模块602，用于如果在所述接收语音输入时，所述电子设备播放音频，则利用回波抵消技术还原所述语音输入；

指令获取模块603，用于通过唤醒引擎将所述语音输入识别为唤醒指令；

确定模块604，用于根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

第一控制模块605，用于在根据所述唤醒指令唤醒识别引擎之后，关闭所述唤醒引擎；

音量控制模块606，用于如果在所述根据所述唤醒指令唤醒识别引擎后，所述电子设备播放音频，则关闭或降低所述电子设备播放音频的音量；

识别模块607，用于获取用户输入的识别指令，并依据所述识别指令，在所述与所述唤醒指令对应的包含M个识别项的识别范围内获得识别结果；

第二控制模块608，如果所述唤醒引擎处于关闭状态，则开启所述唤醒引擎。

本实施例所述的语音识别装置中，回波抵消模块、第一控制模块、音量控制模块、识别模块、第二控制模块均为优选模块。所述语音识别装置能够缩小识别的范围，从而提高识别精度和效率。

本发明实施例还公开了一种电子设备，如图7所示，包括：

输入输出接口701，用于接收语音输入；

处理器702，用于通过唤醒引擎将所述语音输入识别为唤醒指令，根据所述唤醒指令唤醒识别引擎，以使得所述识别引擎确定与所述唤醒指令对应的包含M个识别项的识别范围，所述引擎具有N个识别项，M小于N，所述M和N为大于或等于1的整数；

所述电子设备可以为智能电视、PC、PAD、移动通信终端等。

本实施例所述的电子设备，在依据语音输入进行语音识别的过程中，依据唤醒指令确定与唤醒指令对应的识别范围，因此识别范围相比与识别引擎全部的识别项而言进行了缩小，因此，能够提高识别精度。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备（可以是个人计算机，服务器，移动计算设备或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，应用于电子设备，包括：

接收语音输入；

通过唤醒引擎将所述语音输入识别为唤醒指令；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

获取用户输入的识别指令；

4.根据权利要求3所述的方法，其特征在于，在所述获得识别结果之后，还包括：

如果所述唤醒引擎处于关闭状态，则开启所述唤醒引擎。

5.根据权利要求1或3所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述识别引擎包括：

本地识别引擎；或者，

云端识别引擎。

7.一种语音识别装置，其特征在于，应用于电子设备，包括：

语音接收模块，用于接收语音输入；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求7所述的装置，其特征在于，还包括：

10.根据权利要求9所述的装置，其特征在于，还包括：

11.根据权利要求7所述的装置，其特征在于，还包括：

12.一种电子设备，其特征在于，包括：

输入输出接口，用于接收语音输入；