CN105976813A

CN105976813A - 语音识别系统及其语音识别方法

Info

Publication number: CN105976813A
Application number: CN201610144748.8A
Authority: CN
Inventors: 金兑润; 金想荷; 韩昌玗; 李在原
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-03-13
Filing date: 2016-03-14
Publication date: 2016-09-28
Anticipated expiration: 2036-03-14
Also published as: EP3067884B1; EP3067884A1; US10699718B2; CN105976813B; US20160267913A1

Abstract

一种语音识别系统及其语音识别方法。一种装置通过使用唤醒关键字模型从接收到的用户的语音信号中检测唤醒关键字，向语音识别服务器发送唤醒关键字被检测到/未被检测到信号和接收到的用户的语音信号。语音识别服务器通过根据唤醒关键字被检测到或未被检测到设置语音识别模型来对用户的语音信号执行识别处理。

Description

语音识别系统及其语音识别方法

本申请要求2015年3月13日提交的第62/132,909号美国临时专利申请和2016年1月29日提交到韩国知识产权局的第10-2016-0011838号韩国专利申请的权利，其公开的内容全部通过引用被合并于此。

技术领域

与示例性实施例一致的设备和方法涉及语音识别，更具体地，涉及基于唤醒关键字的语音识别。

背景技术

具有语音识别的智能装置的数量正稳定地增加，其中，所述语音识别用于使装置的功能能够通过使用用户的语音信号而被执行。

为了启用装置的语音识别功能，需要激活装置的语音识别功能。通过使用固定的唤醒关键字来激活相关技术的语音识别功能。相应地，当具有相同的语音识别功能的多个装置彼此接近地存在时，无意的装置的语音识别功能会被使用固定的唤醒关键字的用户激活。

此外，相关技术的语音识别功能分别处理用户的唤醒关键字和语音命令。因此，在输入唤醒关键字之后，用户需要在装置的语音识别功能被激活之后输入语音命令。如果用户针对相同的装置或不同的装置连续地或大体上同时输入唤醒关键字和语音命令，则相关技术的语音识别功能会不被正确激活或被正确激活，或者虽然语音识别功能被激活但是会发生针对输入语音命令的语音识别错误。

因此，需要在可靠地发起装置的语音识别功能时能够准确地识别用户语音命令的方法和装置。

发明内容

示例性实施例至少解决上面的问题和/或上面的缺点和未在上面描述的其他缺点。此外，不要求示例性实施例克服上面描述的缺点，示例性实施例可不克服上面描述的任何问题。

一个或更多个示例性实施例提供连续地识别个性化的唤醒关键字和语音命令的连续和准确的语音识别功能。

一个或更多个示例性实施例提供通过使用个性化的唤醒关键字而被更有效地激活的语音识别功能。

一个或更多个示例性实施例提供通过根据基于装置的环境信息使用个性化的唤醒关键字而被更有效地激活的语音识别功能。

根据示例性实施例的一方面，一种装置包括：音频输入单元，被配置为接收用户的语音信号；存储器，被配置为存储唤醒关键字模型；通信器，被配置为与语音识别服务器通信；处理器，被配置为当通过音频输入单元接收到用户的语音信号时，通过使用唤醒关键字模型从用户的语音信号中识别唤醒关键字，经由通信器向语音识别服务器发送唤醒关键字被检测到/未被检测到信号和用户的语音信号，经由通信器从语音识别服务器接收语音识别结果，并根据语音识别结果控制装置。

根据示例性实施例的一方面，一种语音识别服务器包括：通信器，被配置为与至少一个装置通信；存储器，被配置为存储唤醒关键字模型和语音识别模型；处理器，被配置为当经由通信器从至少一个装置中选择的一个装置接收唤醒关键字被检测到/未被检测到信号和用户的语音信号时设置与唤醒关键字模型相组合的语音识别模型，通过使用设置的语音识别模型来识别用户的语音信号，将唤醒关键字从针对用户的语音信号的语音识别结果中移除，并经由通信息向装置发送唤醒关键字被移除的语音识别结果。

根据示例性实施例的一方面，一种语音识别系统包括：装置，被配置为从用户的语音信号中检测唤醒关键字；语音识别服务器，被配置为当从装置接收到唤醒关键字被检测到/未被检测到信号和用户的语音信号时设置与唤醒关键字模型相组合的语音识别模型，通过使用设置的语音识别模型来识别用户的语音信号，并向装置发送语音识别结果。

根据示例性实施例的一方面，一种由装置执行的语音识别方法，包括：当用户的语音信号被接收到时，通过使用唤醒关键字模型从用户的语音信号中检测唤醒关键字；向语音识别服务器发送唤醒关键字被检测到/未被检测到信号和用户的语音信号；从语音识别服务器接收识别用户的语音信号的结果；根据识别用户的语音信号的结果来控制装置。

根据示例性实施例的一方面，一种由语音识别服务器执行的语音识别方法，包括：从装置接收唤醒关键字被检测到/未被检测到信号和用户的语音信号；根据唤醒关键字被检测到/未被检测到信号来设置语音识别模型；通过使用设置的语音识别模型来识别用户的语音信号；将唤醒关键字从识别用户的语音信号的结果中移除；向装置发送唤醒关键字被移除的识别用户的语音信号的结果。

唤醒关键字模型是基于各种各样的环境信息的多个唤醒关键字模型中的一个唤醒关键字模型，所述方法还包括：从装置接收与装置有关的环境信息，设置语音识别模型的步骤包括：设置与多个唤醒关键字模型中对应于装置的环境信息的唤醒关键字模型相组合的语音识别模型。

所述方法还包括从装置接收用户的标识信息，其中，设置语音识别模型的步骤包括：设置与基于装置的环境信息和用户的标识信息的唤醒关键字模型相组合的语音识别模型。

根据示例性实施例的一方面，一种由语音识别系统执行的语音识别方法，包括：在装置和语音识别服务器中登记唤醒关键字模型；当通过装置接收到用户的语音信号时通过使用唤醒关键字模型从用户的语音信号中检测唤醒关键字；将唤醒关键字被检测到/未被检测到信号和用户的语音信号从装置发送到语音识别服务器；由语音识别服务器根据唤醒关键字被检测到/未被检测到信号来设置语音识别模型；由语音识别服务器通过使用设置的语音识别模型来识别用户的语音信号；由语音识别服务器将唤醒关键字从识别用户的语音信号的结果中移除；将唤醒关键字被移除的识别用户的语音信号的结果从语音识别服务器发送到装置；由装置根据接收到的识别用户的语音信号的结果来控制装置。

根据示例性实施例的一方面，一种装置，包括：音频输入接收器，被配置为从用户接收音频信号，所述音频信号包括唤醒关键字；存储器，被配置为存储用于从接收到的音频信号中识别唤醒关键字的唤醒关键字模型；处理器，被配置为执行以下操作：通过将包括在接收到的音频信号中的唤醒关键字与存储的唤醒关键字模型相匹配从接收到的音频信号中检测唤醒关键字，基于匹配的结果来产生指示唤醒关键字是否已经被检测到的检测值，向服务器发送检测值和接收到的音频信号，从服务器接收基于检测值转化的音频信号的语音识别结果，并基于语音识别结果在执行装置功能时控制装置的可执行应用。

检测值指示已经在接收到的音频信号中检测到唤醒关键字，处理器被配置为接收包括用于执行应用的用户命令的语音识别结果，其中，在语音识别结果中不存在唤醒关键字本身。

音频输入接收器被配置为预先接收包含各个关键字的各个用户输入，其中，所述各个关键字与对装置的可执行应用的控制相关，并且存储器被配置为存储基于接收到的各个关键字的唤醒关键字模型。

根据示例性实施例的一方面，一种方法包括：在第一存储器中存储用于识别唤醒关键字的唤醒关键字模型；从用户接收音频信号，所述音频信号包括唤醒关键字；通过将包括在接收到的音频信号中的唤醒关键字与存储的唤醒关键字模型相匹配从接收到的音频信号中检测唤醒关键字；基于匹配的结果来产生指示唤醒关键字是否已经被检测到的检测值；向服务器发送检测值和接收到的音频信号；从服务器接收基于检测值转化的音频信号的语音识别结果；基于语音识别结果在执行装置应用时控制装置的可执行应用。

所述方法还包括：在第二存储器中存储用于转化用户的音频信号的语音识别模型和与存储在第一存储器中的唤醒关键字模型同步的唤醒关键字模型，其中，接收语音识别结果的步骤包括：由装置从检测值中识别音频信号是否包含唤醒关键字；由服务器响应于指示音频信号包含唤醒关键字的检测值基于组合模型将音频信号转化为语音识别结果，其中，在组合模型中语音识别模型与各自的唤醒关键字模型相组合。

接收语音识别结果的步骤还包括：由服务器通过将唤醒关键字从语音识别结果中移除来产生语音识别结果，从服务器接收唤醒关键字已经被移除的音频信号的语音识别结果；其中，控制的步骤包括：根据唤醒关键字已经被移除的语音识别结果来控制装置的可执行应用。

所述转化的步骤包括：响应于指示音频信号不包含唤醒关键字的检测值，通过仅使用语音识别模型将音频信号转化为语音识别结果。

附图说明

上述和/或其他方面将通过参照附图描述特定的示例性实施例而变得更加清楚，在附图中：

图1是描述根据示例性实施例的语音识别系统的示图；

图2是根据示例性实施例的语音识别方法的流程图，其中，基于包括在语音识别系统中的装置和语音识别服务器来执行所述语音识别方法；

图3是根据示例性实施例的在语音识别方法中登记唤醒关键字模型的处理的流程图；

图4是根据示例性实施例的在语音识别方法中登记唤醒关键字模型的另一处理的流程图；

图5A和图5B示出根据示例性实施例的显示在包括在语音识别系统中的装置的显示器上的候选唤醒关键字模型的示例；

图6和图7是根据示例性实施例的语音识别方法的流程图，其中，基于包括在语音识别系统中的装置和语音识别服务器来执行所述语音识别方法；

图8是根据示例性实施例的由装置执行的语音识别方法的流程图；

图9和图10是根据示例性实施例的包括在语音识别系统中的装置的配置示图；

图11是根据示例性实施例的包括在语音识别系统中的语音识别服务器的配置示图；

图12是根据示例性实施例的语音识别系统的配置示图。

具体实施方式

下面将参照附图更详细地描述特定的示例性实施例。

在下面的描述中，即使在不同的附图中，同样的附图标号用于同样的元件。提供在描述中限定的事项(诸如，详述的构造和元件)以帮助全面理解示例性实施例。然而，显然可在不存在那些具体限定的事项的情况下来实施示例性实施例。此外，由于公知的功能或构造将在不必要的细节上使描述模糊，因此不详细描述公知的功能或构造。

如这里所使用，术语“和/或”包括一个或多个相关联的列出的项目的任何及所有组合。

将理解，当区域被称为“被连接到”或“被耦合到”另一区域时，区域可被直接连接或耦合到所述另一区域或者可存在居间区域。将理解，当在这里被使用时，诸如“包括”和“具有”的术语指定存在声明的元件，但不排除存在或附加一个或更多个其他元件。

这里使用的术语“唤醒关键字”指的是能够激活或发起语音识别功能的信息。这里使用的唤醒关键字可指的是唤醒单词。这里使用的唤醒关键字可基于用户的语音信号，但不限于此。例如，这里使用的唤醒关键字可包括基于用户的手势的声音(或音频信号)。

基于用户的手势的声音可包括例如当用户使他/她的手指撞击在一起时产生的声音。基于用户的手势的声音可包括例如当用户咂他/她的舌头时产生的声音。基于用户的手势的声音可包括例如用户的欢笑的声音。基于用户的手势的声音可包括例如当用户的嘴唇颤抖时产生的声音。基于用户的手势的声音可包括例如用户的口哨的声音。基于用户的手势的声音不限于上述的那些声音。

当这里使用的唤醒关键字包括基于用户的手势的声音时，唤醒关键字可指示唤醒关键字信号。

这里使用的唤醒关键字模型指的是被预登记在装置和/或语音识别服务器中的唤醒关键字，以便检测或识别唤醒关键字。唤醒关键字模型可包括个性化听觉模型和/或个性化语言模型，但不限于此。听觉模型将用户的语音的信号特征(或基于用户的手势的声音)建模。语言模型将单词的语言顺序或与识别词汇相应的音节建模。

由于登记在装置中的唤醒关键字模型用于检测唤醒关键字，所以这里使用的唤醒关键字模型可指的是用于唤醒关键字检测的模型。由于登记在语音识别服务器中的唤醒关键字模型用于检测唤醒关键字，所以这里使用的唤醒关键字模型可指示用于唤醒关键字识别的模型。

用于关键字检测的模型和用于唤醒关键字识别的模型可彼此相同或彼此不同。例如，当用户唤醒关键字检测的模型包括与个性化的唤醒关键字“你好”相应的听觉模型时，用于唤醒关键字识别的模型可包括例如与个性化的唤醒关键字“你好”和与唤醒关键字相关联并标识唤醒关键字的标签(例如，“！”)相应的听觉模型。用于唤醒关键字检测的模型和用于唤醒关键字识别的模型不限于上面描述的那些模型。

用于唤醒关键字检测的模型和用于唤醒关键字识别的模型可被称为唤醒关键字模型。然而，登记在装置中的唤醒关键字模型可被理解为用于唤醒关键字检测的模型，登记在语音识别服务器中的唤醒关键字模型可被理解为用于唤醒关键字识别的模型。

可由装置或语音识别服务器来产生唤醒关键字模型。装置或语音识别服务器可发送和接收数据，从而彼此共享产生的唤醒关键字模型。

这里使用的语音识别功能可的是将用户的语音信号转换为字符串或文本。文本可以是人类可感知的短语、句子或一组单词。用户的语音信号可包括语音命令。语音命令可执行装置的具体功能。

这里使用的装置的具体功能可包括执行设置在装置中的可执行应用，但不限于此。

例如，当装置是智能电话时，应用的执行操作可包括电话呼叫、路线寻找、互联网浏览、闹钟设置和/或在智能电话中可用的任何其他合适的可执行功能。当装置是智能电视机(TV)时，应用的执行操作可包括程序搜索、频道搜索、互联网浏览和/或可在智能TV中获得的任何其他合适的可执行功能。当装置是智能烤箱时，应用的执行操作可包括食谱搜索等。当装置是智能冰箱时，应用的执行操纵可包括制冷状态检查、冷冻状态检查等。当装置是智能车辆时，应用的执行操作可包括自动启动、自动巡航、自动停车、自动媒体装置开启和关闭、自动空气控制等。可执行应用的上述示例不限于此。

这里使用的语音命令可以是单词、句子或短语。这里使用的语音识别模型可包括个性化的听觉模型和/或个性化的语言模型。

图1是用于描述根据示例性实施例的语音识别系统10的示图。语音识别系统10可包括装置100和语音识别服务器110。

装置100可从用户101接收语音信号，其中，语音信号可包括唤醒关键字和语音命令。装置100可通过使用唤醒关键字模型从接收到的用户101的语音信号中检测唤醒关键字。装置100可预先产生唤醒关键字模型并且在装置100中登记并存储产生的唤醒关键字模型。装置100可向语音识别服务器110发送产生的唤醒关键字模型。作为另一示例，装置100可存储已经从语音识别服务器110接收到的唤醒关键字模型。

装置100可使用登记的唤醒关键字模型或唤醒关键字模型从接收到的用户101的语音信号中检测唤醒关键字。然而，从装置100接收到的用户101的语音信号可能不包括唤醒关键字或者装置100可能不能够将唤醒关键字与存储的唤醒关键字模型相匹配。

装置100可产生唤醒关键字被检测到/未被检测到信号，并向语音识别服务器110发送唤醒关键字被检测到/未被检测到信号和接收到的用户101的语音信号。唤醒关键字被检测到/未被检测到信号是指示是否已经中接收到的用户101的语音信号中检测到唤醒关键字的信号。

装置100可用二进制数据来表示唤醒关键字被检测到/未被检测到信号。当已经从接收到的用户101的语音信号中检测到唤醒关键字时，装置100可用例如“0”来表示唤醒关键字被检测到/未被检测到信号。当尚未从接收到的用户101的语音信号中检测到唤醒关键字时，装置100可用例如“1”来表示唤醒关键字被检测到/未被检测到信号。

语音识别服务器110可从装置100接收唤醒关键字被检测到/未被检测到信号和用户101的语音信号。从装置100接收到的用户101的语音信号可大体上与由装置100接收到的用户101的语音信号相同。另外，装置100可发送唤醒关键字模型。

语音识别服务器110可根据接收到的唤醒关键字被检测到/未被检测到信号来设置语音识别模型。当唤醒关键字被检测到/未被检测到信号指示唤醒关键字被包括在用户101的语音信号中，语音识别服务器110可通过使用组合模型来设置语音识别模型以识别用户101的语音信号，其中，在组合模型中语音识别模型与由服务器110存储或接收到的唤醒关键字模型相组合。

在语音识别服务器110中，与语音识别模型相组合的唤醒关键字模型与由装置100检查到的唤醒关键字相匹配。例如，当由装置100检测到的唤醒关键字是“你好”时，语音是比服务器110可通过使用“你好+语音识别模型(例如，播放音乐)”来设置语音识别模型以识别用户101的语音信号。当唤醒关键字模型与语音识别模型相组合时，语音识别服务器110可考虑唤醒关键字模型和语音识别模型之间的静默持续时间。

如上所述，语音识别服务器110可通过对唤醒关键字和包括在用户101的语音信号中的语音命令连续执行识别处理来稳定地保护用户101的语音信号，从而提高语音识别系统10的语音识别性能。

当唤醒关键字被检测到/未被检测到信号指示唤醒关键字未被包括在用户101的语音信号中时，语音识别服务器110可通过使用不与唤醒关键字模型相组合的语音识别模型来设置用于识别用户101的语音信号的语音识别模型。可选择地，语音识别服务器110可验证唤醒关键字被包括或未被包括在接收到的用户101的语音信号中。

语音识别服务器110可根据唤醒关键字被检测到/未被检测到信号来动态配置(或切换)用于识别用户101的语音的语音识别模型。因此，由语音识别服务器110执行的根据唤醒关键字被检测到/未被检测到信号来设置语音识别模型的操作可以是根据唤醒关键字被检测到或未被检测到来确定语音识别模型的配置。

在语音识别服务器110中设置语音识别模型的操作可包括加载语音识别模型。相应地，唤醒关键字被检测到/未被检测到信号可被理解为包括语音识别模型加载请求信号、语音信号模型设置请求信号或语音识别模型加载触发信号。对于这里使用的唤醒关键字被检测到/未被检测到信号的表达不限于上面描述的那些表达。

语音识别服务器110可产生用于识别语音命令的语音识别模型。语音识别模型可包括听觉模型和语言模型。听觉模型将语音的信号特征建模。语言模型将单词的语言顺序关系或与识别词汇相应的音节建模。

语音识别服务器110可仅从接收到的用户101的语音信号中检测语言部分。语音识别服务器110可从检测到的语音部分中提取语音特征。语音识别服务器110可通过使用提取出的语音特征、预登记的听觉模型的特征和语言模型来对于接收到的用户101的语音信号执行语音识别处理。语音识别服务器110可通过将提取出的语音特征与预登记的听觉模型相比较来执行语音识别处理。由语音识别服务器110对接收到的用户101的语音信号执行的语音识别处理不限于上面描述的那些语音识别处理。

语音识别服务器110可将唤醒关键字从语音识别处理的语音识别结果中移除。语音识别服务器110可向装置110发送唤醒关键字被移除的语音识别结果。

语音识别服务器110可产生唤醒关键字模型。语音识别服务器110可向装置100发送产生的唤醒关键字模型，同时在语音识别服务器110中登记(或存储)产生的唤醒关键字模型。相应地，装置100和语音识别服务器110可彼此共享唤醒关键字模型。

装置100可根据从语音识别服务器110接收到的语音识别结果来控制装置100的功能。

当装置100或语音识别服务器110产生多个唤醒关键字模型时，装置100或语音识别服务器110可将标识信息分配给唤醒关键字模型中的每个唤醒关键字模型。当标识信息被分配给唤醒关键字模型中的每个唤醒关键字模型时，从装置100发送到语音识别服务器110的唤醒关键字被检测到/未被检测到信号可包括与检测到的唤醒关键字有关的标识信息。

当装置100是便携式装置时，装置100可包括以下多个项中的至少一个装置：智能电话、笔记本计算机、智能图板、平板个人计算机(PC)、手持装置、手持计算机、多媒体播放器、电子书装置和个人数字助理(PDA)，但不限于此。

当装置100是可穿戴装置时，装置100可包括以下多个项中的至少一个装置：智能眼镜、智能手表、智能带状物(例如，智能腰带、智能发带等)、各种智能配件(例如，智能戒指、智能手镯、智能脚镯、智能发夹、智能夹子、智能项链等)、各种身体保护装置(例如，智能护膝、智能护肘等)、智能鞋、智能手套、智能服装、智能帽子、智能人造腿和智能人造手，但不限于此。

装置100可包括基于机器对机器(M2M)或物联(IoT)网的装置(例如，智能家用电器、智能传感器等)、车辆和车辆导航装置，但不限于此。

装置100和语音识别服务器110可经由有线和/或无线网络被彼此连接。装置100和语音识别服务器110可经由短距离无线网络和/或长距离无线网络被彼此连接。

图2是根据示例性实施例的语音识别方法的流程图，其中，基于包括在语音识别系统10中的装置100和语音识别服务器110来执行语音识别方法。图2示出基于用户101的语音信号来执行语音识别的情况。

参照图2，在操作S201中，如下面参照图3和图4的详细描述，装置100可登记唤醒关键字模型。

图3是根据示例性实施例的在语音识别方法中登记唤醒关键字模型的流程图。

参照图3，在操作S301中，装置100可接收用户101的语音信号。在操作S301中接收到的用户101的语音信号用于登记唤醒关键字模型。在操作S301中，装置100可接收基于用户101的具体手势而不是用户101的语音信号的声音(或音频信号)。

在操作S302中，装置100可通过使用语音识别模型来识别用户101的语音信号。语音识别模型可包括基于自动语音识别(ASR)的听觉模型和/或语言模型，但不限于此。

在操作S303中，装置100可基于用户101的语音信号的语音匹配率来确定接收到的用户101的语音信号是否有效作为唤醒关键字模型。

例如，在装置100识别用户101的语音信号两次或更多次并比较识别结果的情况下，如果一致的结果出现预设次数或更多次数，则装置100可确定接收到的用户101的语音信号作为唤醒关键字模型是有效的。

当在操作S303中确定接收到的用户101的语音信号是有效的作为唤醒关键字模型时，在操作S304中，装置100在装置100中产生和/或登记唤醒关键字模型。对于唤醒关键字模型的登记的步骤可意指在装置100中存储唤醒关键字模型。

在操作S303中，在装置100识别用户101的语音信息号两次或更多次并比较识别结果的情况下，如果一致的识别结果的次数低于预设次数，则装置100可确定接收到的用户101的语音信号作为唤醒关键字模型是无效的。

当在操作S303中确定接收到的用户101的语音信号作为唤醒关键字模型是无效的时，装置100不将接收到的用户101的语音信号登记为唤醒关键字模型。

当在操作S303中确定接收到的用户101的语音信号作为唤醒关键字模型是无效的时，装置100可输出通知消息。通知消息可具有各种形式和内容。例如，通知消息可包括指示“当前输入的用户101的语音信号未被登记为唤醒关键字模型”的消息。通知消息可包括引导用户101输入可被登记为唤醒关键字模型的语音信号。

图4是根据示例性实施例的在语音识别方法中登记唤醒关键字模型的流程图。

在操作S401中，装置100可请求这里存储的候选唤醒关键字模型。对于候选关键字模型的请求可基于用户101的语音信号，但不限于此。例如，装置100可根据装置100的具体按钮控制(或专用按钮)或基于触摸的输入来接收请求候选唤醒关键字模型的用户输入。

在操作S402中，装置100可输出候选唤醒关键字模型。装置100可通过装置100的显示器来输出候选唤醒关键字模型。

图5A和图5B示出根据示例性实施例的在语音识别系统10中所包括的装置100的显示器上显示的候选唤醒关键字模型的示例。

图5A示出显示在装置100的显示器98上的候选唤醒关键字模型列表的示例。参照图5A，以文本的形式提供候选唤醒关键字模型。

当基于图5A中示出的候选唤醒关键字模型列表选择第一候选唤醒关键字模型的基于触摸的输入被接收到时，如图5B中所示，装置100可输出与被选择的第一候选唤醒关键字相应的音频信号，同时显示选择的第一候选唤醒关键字模型的语音波形。相应地，在选择唤醒关键字模型之前，用户101可确认将被选择的候选关键字模型。

在操作S402中，装置100可通过装置100的音频输出发送器(例如，扬声器)来输出候选唤醒关键字模型。

当在操作S403中选择候选唤醒关键字模型中的一个候选唤醒关键字模型的选择信号被接收到时，在操作S404中，装置100可自动产生和/或登记选择的候选唤醒关键字模型。作为另一示例，装置100可请求与选择的候选唤醒关键字模型相应的用户101的语音信号的输入，产生接收到的用户101的语音信号作为唤醒关键字模型，并且/或者登记唤醒关键字模型。

再次参照图2，在操作S201中，装置100可为语音识别服务器110设置通信信道，并在经由设置的通信信道向语音识别服务器110发送接收到的用户101的语音信号的同时请求唤醒关键字模型。相应地，装置100可接收由语音识别服务器110产生的唤醒关键字模型。

在操作S202中，语音识别服务器110可登记唤醒关键字模型。在操作S202中，语音识别服务器110可登记从装置100接收到的唤醒关键字模型，但是，在语音识别服务器110中登记唤醒关键字模型的方法不限于上面描述的那些方法。

例如，语音识别服务器110可请求装置100发送唤醒关键字模型并接收唤醒关键字模型。为此，语音识别服务器110可监控装置100。语音识别服务器110可周期性地监控装置100。

在操作S202中，当唤醒关键字模型被登记时，语音识别服务器110可向唤醒关键字模型添加标识唤醒关键字的标签。可用特别的符号(例如，！)来表示标签，但不限于此。

在操作S202中，登记在语音识别服务器110中的唤醒关键字模型可与登记在装置100中的唤醒关键字模型同步。当登记在装置100中的唤醒关键字模型被更新时，登记在语音识别服务器110中的唤醒关键字模型可被更新。

作为另一示例，在操作S202中，在操作S201之前，语音识别服务器110可从装置100接收用户101的语音信号并且产生并登记唤醒关键字模型。如上面参照图3或图4的描述，语音识别服务器110可产生唤醒关键字模型。

在操作S203中，装置100可接收用户101的语音信号。在操作S204中，装置100可通过使用登记的唤醒关键字模型从接收到的用户100的语音信号中检测唤醒关键字。装置100可通过在登记的唤醒关键字模型和接收到的用户101的语音信号之间比较信号特征相比较来检测唤醒关键字。

在操作S205中，装置100可向语音识别服务器110发送唤醒关键字被检测到/未被检测到信号和接收到的用户101的语音信号。

在操作S206中，语音识别服务器110可根据接收到的唤醒关键字被检测到/未被检测到信号来设置语音识别模型。对于语音识别模型的设置可与参照图1的描述相同。也就是说，当唤醒关键字被检测到/未被检测到信号指示唤醒关键字已经被检测到时，语音识别服务器110可设置与唤醒关键字模型相组合的语音识别模型。当唤醒关键字被检测到/未被检测到信号指示唤醒关键字尚未被检测到时，语音识别服务器110可设置不与唤醒关键字模型相组合的语音识别模型。

在操作S207中，语音识别服务器110可通过使用设置的语音识别模型来识别接收到的用户101的语音信号。在操作S208中，语音识别服务器110可将唤醒关键字从语音识别结果中移除。当唤醒关键字模型被登记时，语音识别服务器110可通过使用被添加到唤醒关键字的标签来将唤醒关键字从语音识别结果中移除。

在操作S209中，语音识别服务器110可向装置100发送唤醒关键字被移除的语音识别结果。在操作S210中，装置100可根据接收到的语音识别结果来控制装置100。

图6是根据示例性实施例的语音识别方法的流程图，其中，基于包括在语音识别系统10中的装置100和语音识别服务器110来执行语音识别方法。图6示出通过使用根据基于装置100的环境信息的唤醒关键字模型来执行的语音识别的示例。

在操作S601中，装置100可基于环境信息来登记多个唤醒关键字模型。环境信息可包括位置信息。位置信息可包括物理位置信息和逻辑位置信息。物理位置信息指示由纬度和经度表示的信息。逻辑位置信息指示由语义信息(诸如，家、办公室或咖啡厅)表示的信息。环境信息可包括天气信息。环境信息可包括时间信息。环境信息可包括日程信息。环境信息可包括位置、时间、天气和/或日程信息。环境信息不限于此，环境信息可包括直接或间接影响用户101的状况信息或情况信息。

例如，装置100可以以不同方式登记当装置100的位置是家时的唤醒关键字模型和当装置100的位置是办公室时的唤醒关键字模型。装置100可以以不同方式登记当由装置100检测到的时间是午前6点时的唤醒关键字模型和当由装置100检测到的时间是午后6点时的唤醒关键字模型。装置100可以以不同方式登记当由装置100检测到的天气是晴时的唤醒关键字模型和当由装置100检测到的天气是雨时的唤醒关键字模型。装置100可根据由装置100检测到的用户101的日程来登记不同的唤醒关键字模型。

在操作S601中，装置100基于环境信息从语音识别服务器110接收多个唤醒关键字模型，并且如操作S201中的描述，登记多个唤醒关键字模型。

在操作S602中，语音识别服务器110可基于环境信息登记多个唤醒关键字模型。

登记在语音识别服务器110中的多个唤醒关键字模型可与登记在装置100中的多个唤醒关键字模型实时同步。相应地，每当登记在装置100中的多个唤醒关键字模型被更新时，登记在语音识别服务器110中的多个唤醒关键字模型可被更新。

在操作S602中，语音识别服务器110可登记从装置100接收到的多个唤醒关键字模型。在操作S602中，语音识别服务器110可请求装置100将发送多个唤醒关键字模型并从装置100接收多个唤醒关键字模型。

在操作S602中，如操作S202中的描述，语音识别服务器110可设置装置100和语音识别服务器110之间的通信信道并通过使用经由设置的通信信道从装置100接收到的用户101的语音信号来登记基于上述环境信息的多个唤醒关键字模型。语音识别服务器110可向装置100提供登记的多个唤醒关键字模型。

在操作S603中，装置100可接收用户101的语音信号。在操作S604中，装置100可检测基于装置100的环境信息。装置100可通过使用包括在装置100中的传感器或设置在装置100中的应用来检测基于装置100的环境信息。

例如，装置100可通过使用包括在装置100中的位置传感器(例如，全球定位系统(GPS)传感器)来检测位置信息。装置100可通过使用设置在装置100中的计时器应用来检测事件信息。装置100可通过使用设置在装置100中的天气应用来检测天气信息。装置100可通过使用设置在装置100中的日程应用来检测用户101的日程。

在操作S605中，装置100可通过使用登记的多个唤醒关键字模型中与检测到的环境信息相应的唤醒关键字模型从接收到的用户101的语音信号中检测唤醒关键字。

例如，在家中的唤醒关键字模型是“你好”并且办公室中的唤醒关键字模型是“很好”的情况下，如果由装置100检测到的装置100的位置是办公室，则装置100可通过使用“很好”从接收到的用户101的语音信号中检测唤醒关键字。

在操作S606中，装置100可向语音识别服务器110发送检测到的环境信息、唤醒关键字被检测到/未被检测到信号和接收到的用户101的语音信号。

在操作S607中，语音识别服务器110可根据唤醒关键字被检测到/未被检测到信号和接收到的基于装置100的环境信息来确定唤醒关键字模型，并且设置与确定的唤醒关键字模型组合的语音识别模型。

在操作S608中，语音识别服务器110可通过使用设置的语音识别模型来识别接收到的用户101的语音信号。在操作S609中，语音识别服务器110可将唤醒关键字从语音识别结果中移除。当唤醒关键字模型被登记时，语音识别服务器110可通过使用添加到唤醒关键字的标签来将唤醒关键字从语音识别结果中移除。

在操作S610中，语音识别服务器110可向装置100发送唤醒关键字被移除的语音识别结果。在操作S611中，装置100可根据接收到的语音识别结果来控制装置100。

图7是根据示例性实施例的语音识别方法的流程图，其中，基于包括在语音识别系统10中的装置100和语音识别服务器110来执行语音识别方法。图7示出通过根据用户101的标识信息、基于装置100的环境信息和唤醒关键字被检测到/未被检测到信号来设置语音识别模型来执行的语音识别的示例。

在操作S701中，装置100可基于环境信息登记多个唤醒关键字模型。环境信息可大体上与图6的操作S601中的描述相同，但不限于此。在操作S701中，装置100可登记从语音识别服务器110接收到的多个唤醒关键字模型。

在操作S702中，语音识别服务器110可基于环境信息和用户101的标识信息来登记多个唤醒关键字模型。例如，语音识别服务器110可基于针对用户101的标识信息A的环境信息来登记多个唤醒关键字模型。语音识别服务器110可基于针对用户101的标识信息B的环境信息来登记多个唤醒关键字模型。

可针对每个用户将登记在语音识别服务器110中的多个唤醒关键字模型同步。例如，当用户A的多个唤醒关键字模型被更新时，登记在语音识别服务器110中的多个唤醒关键字模型中的用户A的多个唤醒关键字模型也被更新。

在操作S702中，语音识别服务器110可基于从装置100接收到的用户101的语音信号来登记唤醒关键字模型。在这样的情况下，语音识别服务器110可向装置100提供登记的多个唤醒关键字模型。

在操作S703中，装置100可接收用户101的语音信号。在操作S704中，装置100可检测基于装置100的环境信息。在操作S705中，装置100可基于接收到的用户101的语音信号来获取用户101的标识信息。用户101的标识信息可包括用户101的昵称、性别、和姓名，但不限于此。

在操作S705中，可通过使用指纹识别技术或虹膜识别技术来获取用户101的标识信息。

在操作S706中，装置100可通过使用登记的多个唤醒关键字模型中与检测到的环境信息相应的唤醒关键字模型从接收到的用户101的语音信号中检测唤醒关键字。

在操作S707中，装置100可向语音识别服务器110发送检测到的环境信息、用户101的标识信息、唤醒关键字被检测到/未被检测到信号和接收到的用户101的语音信号。

在操作S708中，语音识别服务器110可根据唤醒关键字被检测到/未被检测到信号、接收到的基于装置100的环境信息和用户101的标识信息来确定唤醒关键字模型，并且设置与确定的唤醒关键字模型相组合的语音识别模型。

在操作S709中，语音识别服务器110可通过使用设置的语音识别模型来识别接收到的用户101的语音信号。在操作S710中，语音识别服务器110可将唤醒关键字从语音识别结果中移除。当唤醒关键字模型被登记时，语音识别服务器110可通过使用被添加到唤醒关键字的标签来将唤醒关键字从语音识别结果中移除。

在操作S711中，语音识别服务器110可向装置100发送唤醒关键字被移除的语音识别结果。在操作S712中，装置100可根据接收到的语音识别结果来控制装置100。

图8是根据示例性实施例的由装置100执行的语音识别方法的流程图。图8示出由装置100执行语音识别而不考虑语音识别服务器110的情况。

在操作S801中，装置100可登记唤醒关键字模型。当唤醒关键字模型被登记时，装置100可将标签添加到唤醒关键字以便标识唤醒关键字。在操作S801中，装置100可从语音识别服务器110接收唤醒关键字模型并登记接收到的唤醒关键字模型。

在操作S802中，装置100可接收用户101的语音信号。在操作S803中，装置100可通过使用唤醒关键字模型从用户101的语音信号中检测唤醒关键字。

当在操作S804中确定唤醒关键字被检测到时，装置100进入操作S805以设置与唤醒关键字模型相组合的语音识别模型。在操作S806中，装置100可通过使用语音识别模型对接收到的用户101的语音信号执行语音识别处理。

在操作S807中，装置100可将唤醒关键字从语音识别结果中移除。装置100可通过使用标识唤醒关键字的标签来将唤醒关键字从语音识别结果中移除。在操作S808中，装置100可根据唤醒关键字被移除的语音识别结果来控制装置100。

当在操作S804中确定唤醒关键字未被检测到时，装置100进入操作S809以设置与不与唤醒关键字模型相组合的语音识别模型。在操作S810中，装置100可通过使用语音识别模型来对接收到的用户101的语音信号执行语音识别处理。在操作S811中，装置100可根据语音识别结果来控制装置100。

图8的语音识别方法可被修改为如参照图6描述的基于环境信息来登记多个唤醒关键字模型并识别语音信号。

图2、图6、图7和/或图8的语音识别方法可被修改为不考虑环境信息地登记多个关键字模型并且识别语音信号。可针对每个用户设置多个唤醒关键字模型。当多个唤醒关键字模型被登记时，唤醒关键字模型中的每个可包括能够标识唤醒关键字的标识信息。

图9是根据示例性实施例的装置100的功能框图。

参照图9，装置100可包括音频输入接收器910、通信器920、处理器930、显示器940、用户输入接收器950和存储器960。

音频输入接收器910可接收用户101的语音信号。音频输入接收器910可接收基于用户101的具体手势的声音(音频信号)。

音频输入接收器910可接收从装置100的外部输入的音频信号。音频输入接收器910可将接收的音频信号转换为电音频信号并向处理器930发送电音频信号。音频出入接收器910可被配置为执行基于各种去噪算法的操作，其中，所述去噪算法用于移除在接收外部听觉信号的处理中产生的噪声。音频输入接收器910可包括麦克风。

通信器920可被配置为经由有线和/或无线网络将装置100连接到语音识别服务器110。通信器920可被实现为具有大体上与将参照图10描述的通信器1040相同的配置。

处理器930可以是控制装置100的操作的控制器。处理器930可控制音频输入接收器910、通信器920、显示器940、用户输入接收器950和存储器960。当通过音频输入接收器910接收到用户101的语音信号时，处理器930可使用唤醒关键字模型实时执行语音识别处理。

处理器930可在存储器960中登记唤醒关键字模型。处理器可在存储器960中登记经由通信器920从语音识别服务器110接收到的唤醒关键字模型。处理器930可基于用户101的语音信号来请求唤醒关键字模型，同时向语音识别服务器110发送经由音频输入接收器910接收到的用户的语音信号，。

处理器930可经由通信器920向语音识别服务器110发送登记在存储器960中的唤醒关键字模型。当经由通信器920从语音识别服务器110接收到唤醒关键字模型请求信号时，处理器930可向语音识别服务器110发送登记的唤醒关键字模型。当在存储器960中登记唤醒关键字模型的同时，处理器930可向语音识别服务器110发送登记的唤醒关键字模型。

当通过音频输入接收器910接收到用户101的语音信号时，处理器930可通过使用登记在存储器960中的唤醒关键字模型从接收到的用户101的语音信号中检测唤醒关键字。处理器930可经由通信器920向语音识别服务器110发送唤醒关键字被检测到/未被检测到信号和接收到的用户101的语音信号。

处理器930可经由通信器920从语音识别服务器110接收语音识别结果。处理器930可根据接收到的语音识别结果来控制装置100。

当通过音频输入接收器910接收到用于登记唤醒关键字模型的音频信号时，如上所述，处理器930可基于音频信号的匹配率来确定音频信号是否可用作唤醒关键字模型。

处理器930可根据通过用户输入接收器950接收到的用户输入在存储器960中登记从存储在存储器960中的候选唤醒关键字模型中选出的候选唤醒关键字模型。

根据装置100的实现类型，处理器930可包括主处理器和子处理器。子处理器可被设置为低功率处理器。

显示器940可被配置为在处理器930的控制下显示由用户101请求的候选唤醒关键字。显示器940可包括液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT-LCD)、有机发光二极管(OLED)、柔性显示器、三维(3D)显示器或电泳显示器(EPD)。显示器940可包括例如触摸屏，但不限于此。

用户输入接收器950可被配置为接收针对装置100的用户输入。用户输入接收器可接收请求登记唤醒关键字的用户输入，从多个候选关键字中选择一个候选关键字的用户输入，和/或登记选择的候选唤醒关键字的用户输入。通过用户输入接收器950接收的用户输入不限于此。用户输入接收器950可向处理器930发送接收到的用户输入。

存储器960可存储唤醒关键字模型。存储器960可存储用于处理和处理器930的控制的程序。存储在存储器960中的程序可包括操作系统(OS)和各种应用程序。各种应用程序可包括语音识别程序和相机程序。存储器960可存储有应用程序管理的信息(例如，用户101的唤醒关键字使用历史信息)、用户101的日程信息和/或用户101的配置信息。

存储在存储器960中的程序根据其功能可包括多个模块。所述多个模块可包括例如移动通信模块、无线保真(Wi-Fi)模块、蓝牙模块、数字多媒体播放(DMB)模块、相机模块、传感器模块、GPS模块、视频再现模块、音频再现模块、电源模块、触摸屏模块、用户界面(UI)模块和/或应用模块。

存储器960可包括闪速存储器、硬盘、多媒体卡微型存储器、卡式存储器(例如，SD或XD存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘或光盘。

图10是根据示例性实施例的装置100的框图。

参照图10，装置100可包括传感器组1010、UI 1020、存储器1030、通信器1040、图像处理器1050、音频输出发送器1060、音频输入接收器1070、相机1080和处理器1090。

装置100可包括电池。电池可被包括在装置100内部或可被可拆卸地包括在装置100中。电池可向包括在装置100中的所有元件供电。可经由通信器1040从外部电源(未示出)向装置100供电。装置100还可包括可连接到外部电源的连接器。

图10中示出的包括在UI 1020中的处理器1090、显示器1021和用户输入装置1022、以及存储器1030、音频输入接收器1070和通信器1040可大体上与图9中示出的处理器930、音频输入接收器910、通信器920、显示器940、用户出入接收器950和存储器960相似或相同。

存储在存储器1030中的程序根据其功能可包括多个模块。例如，存储在存储器1030中的程序可包括UI模块1031、通知模块1032和应用模块1033，但不限于此。例如，如在图9的存储器960中，存储在存储器1030中的程序可包括多个模块。

UI模块1031可为处理器1090提供用于登记语音识别的唤醒关键字的图形UI(GUI)信息、指示语音识别结果的GUI信息(例如，文本信息)和指示语音识别波形的GUI信息。处理器1090可基于从UI模块1031接收到的GUI信息在显示器1021上显示屏幕。UI模块1031可向处理器1090提供针对安装在装置100中的每个应用专门化的UI和/或GUI。

通知模块1032可提供基于语音识别的通知、基于唤醒关键字的登记的通知、基于唤醒关键字的错误输入的通知或基于唤醒关键字的识别的通知，但不限于此。

通知模块1032可通过显示器1021以视频信号来输出通知信号或可通过视频输出发送器1060以音频信号来输出通知信号，但不限于此。

应用模块1033可包括除了上面描述的语音识别应用之外的各种应用。

通信器1040可包括用于装置100和至少一个外部装置(例如，语音识别服务器110、智能TV、智能表、智能镜子和/或基于IoT网络的装置等)之间的通信的一个或更多个元件。例如，通信器1040可包括短距离无线通信器1041、移动通信器1042和广播接收器1043中的至少一个，但不限于此。

短距离无线通信器1041可包括蓝牙通信模块、低功耗蓝牙(BLE)通信模块、近场通信(NFC)模块、无线局域网(WLAN)(WiFi)通信模块、紫峰(Zigbee)通信模块、Ant+通信模块、Wi-Fi直连(WFD)通信模块、信标通信模块和超宽带(UWB)通信模块中的至少一个，但不限于此。例如，短距离无线通信器1041可包括红外数据协会(IrDA)通信模块。

移动通信器1042可经由无线通信网络与基站、外部装置和服务器中的至少一个发送并接收无线信号。根据对于文本/多媒体消息的发送和接收，无线信号可包括语音呼叫信号、视频呼叫信号或各种该类型的数据。

广播接收器1043可经由广播信道从外部接收广播信号和/或与广播相关的信息。

广播信道可包括为行信道、地上信道和无线信道中的至少一个信道，但不限于此。

在示例性实施例中，通信器1040可向至少一个外部装置发送由装置100产生的至少一条信息，或可从至少一个外部装置接收信息。

传感器组1010可包括：接近传感器1011，被配置为感测用户101向装置100的接近；生物传感器1012(例如，心跳传感器、血流计、糖尿病传感器、血压传感器和/或应力传感器)，被配置为感测装置100的用户101的健康信息；照度传感器1013(例如，发光二极管(LED)传感器)，被配置为感测装置100的环境照度；情绪范围传感器1014，被配置为感测装置100的用户101的情绪；活动传感器1015，被配置为感测活动；位置传感器1016(例如，GPS接收器)被配置为检测装置100的位置；陀螺仪传感器1017，被配置为测量装置100的方位角；加速计传感器1018，被配置为测量装置100相对于地球表面的倾斜度和加速度；和/或地磁传感器1019，被配置为感测装置100的方位朝向，但不限于此。

例如，传感器组1010可包括温度/湿度传感器、重力传感器、高度传感器、化学传感器(例如，气味传感器)、气压传感器、细小灰尘测量传感器、紫外传感器、臭氧传感器、二氧化碳(CO₂)传感器和/或网络传感器(例如，基于Wi-Fi、蓝牙、3G、长期演进(LTE)和/或NFC的网络传感器)，但不限于此。

传感器组1010可包括压力传感器(例如，触摸传感器、压电传感器、物理按钮等)、状态传感器(例如，耳机终端、DMB天线等)、标准终端(例如，能够识别是否正在进行充电的终端、能够识别PC是否被连接的终端、能够识别扩展坞是否被连接的终端等)和/或时间传感器，但不限于此。

传感器组1010可包括比图10中示出的传感器少的传感器。例如，传感器组1010可仅包括位置传感器1016。在传感器组1010仅包括位置传感器1016的状态下，传感器组1010可被称作GPS接收器。

由传感器组1010感测到的结果(或感测值)可被发送到处理器1090。当从传感器组1010接收到的感测值是指示位置的值时，传感器1090可基于接收到的感测值来确定装置100的当前位置是在家还是在办公室。

处理器1090可作为被配置为控制装置100的整体操作的控制器。例如，处理器1090可通过执行存储在存储器1030中的程序来控制传感器组1010、存储器1030、UI 1020、图像处理器1050、音频输出发送器1060、音频输入接收器1070、相机1080和/或发送器1040。

处理器1090可同样地用作图9的处理器930。针对从存储器1030中读取数据的操作，处理器1090可执行经由通信器1040从外部装置接收数据的操作。针对向存储器1030写入数据的操作，存储器1090可执行经由通信器1040向外部装置发送数据的操作。

处理器1090可执行上面参照图2、图3和图4至图8描述的至少一个操作。处理器1090可以是被配置为控制上述操作的控制器。

图像处理器1050可被配置为在显示器1021上显示从通信器1040接收到的图像数据或存储在存储器1030中的图像数据。

音频输出发送器1060可输出从通信器1040接收到的音频数据或存储在存储器1030中的音频输出。音频输出发送器1060可输出与由装置100执行的功能相关的音频信号(例如，通知声音)。

音频输出发送器1060可包括扬声器和蜂鸣器，但不限于此。

图11是根据示例性实施例的语音识别服务器110的功能框图。

参照图11，语音识别服务器110可包括通信器1110、处理器1120和存储器1130，但不限于此。语音识别服务器110可包括比图11中更是出的元件少或多的元件。

通信器1110可与图10中示出的通信器1040大体上相同。通信器1110可向装置100发送与语音识别相关的信号并从装置100接收与语音识别相关的信号。

处理器1120可执行上面参照图2、图6和图7描述的语音识别服务器110的操作。

存储器1130可在处理器1120的控制下存储唤醒关键字模型1131和语音识别模型1132，并且可向处理器1120提供唤醒关键字模型1131和语音识别模型1132。语音是比模型1132可被称作用于识别语音命令的模型。

可根据经由通信器1110接收到的信息来更新存储在存储器1130中的唤醒关键字模型1131和语音识别模型1132。可根据由操作者输入的信息来更新存储在存储器1130中的唤醒关键字模型1131和语音识别模型1132。

图12是根据示例性实施例的语音识别系统1200的配置图。图12示出语音识别服务器110识别从多个装置1208接收到的用户101的语音信号的情况。

多个装置1028可包括移动终端100、可穿戴眼镜1210、智能手表1220、IoT装置1230、IoT传感器1240和/或智能TV 1250。

多个装置1208的用户可以是相同的人或不同的人。当多个装置1208的用户是相同的人时，语音识别服务器110可为每个装置登记唤醒关键字模型，并执行语音识别功能。当多个装置1208的用户是不同的人时，语音识别服务器110可通过使用每个装置的装置标识信息和用户标识信息来登记唤醒关键字模型，并执行语音识别功能。相应地，语音识别系统1200可提供各种各样并且更准确的语音识别服务。语音识别服务器110可向多个装置1208提供登记的唤醒关键字模型。

此外，语音识别服务器110可根据对于唤醒关键字和语音命令的连续识别处理通过使用语音信号以及唤醒关键字来估计多个装置1208周围的噪声级或识别环境信息。语音识别服务器110可通过向多个装置1208提供估计的噪声级和识别的环境信息以及语音识别结果来向用户提供用户控制多个装置1208而使用、估计或识别的信息。

网络1260可以是有线网络和/或无线网网络。网络1260可使数据能够基于上面结合图10中示出的通信器1040描述的通信方法中的至少一个通信方法在多个装置1208和服务器110之间被发送并被接收。

可由计算机程序来实现上面参照图2、图3和图4至图8描述的方法。例如，在图2中示出的装置100的操作可由安装在装置100上的语音识别应用来执行。图2中示出的语音识别服务器110的操作可由安装在语音识别服务器110上的语音识别应用来执行。计算机程序可运行在安装在装置100上的OS环境下。计算机程序可运行在安装在语音识别服务器110上的OS环境中。装置100可将计算机程序写入存储介质并可从存储介质中读取计算机程序。语音识别服务器110可将计算机程序写入存储介质并可从存储介质中读取计算机程序。

根据示例性实施例，装置100可包括：音频输入接收器910，被配置为从用户接收音频信号，其中，音频信号包括唤醒关键字；存储器960，被配置为存储用于从接收到的语音信号中识别唤醒关键字的唤醒关键字模型；处理器930，被配置为执行通过以下操作从接收到的音频信号中检测唤醒关键字：将包括在接收到的音频信号中的唤醒关键字与存储的唤醒关键字模型相匹配，基于匹配的结果产生指示唤醒关键字是否已经被检测到或尚未被检测到的检测值，向服务器发送检测值和接收到的音频信号，从服务器接收基于检测值转化的音频信号的语音识别结果，基于语音识别结果在执行装置功能时控制装置的可执行应用。

检测值指示已经在接收到的语音信号中检测到唤醒关键字，处理器930被配置为接收包括用于执行应用的用户命令的语音识别结果，其中，在语音识别结果中不存在唤醒关键字本身。

音频输入接收器910被配置为预先接收各个用户输入，其中，所述各个用户输入包含与装置100的可执行应用的控制相关的各个关键字；存储器960，被配置为基于接收到的各个关键字存储唤醒关键字模型。

根据示例性实施例，一种方法可包括：在第一存储器中存储用于标识唤醒关键字的唤醒关键字模型；从用户接收包括唤醒关键字的语音信号；通过以下操作从接收到的音频信号中检测唤醒关键字：将包括在接收到的音频信号中的唤醒关键字与存储的唤醒关键字模型相匹配，基于匹配的结果产生指示唤醒关键字是否已经被检测到或尚未被检测到的检测值，向服务器发送检测值和接收到的音频信号，从服务器接收基于检测值转化的音频信号的语音识别结果，基于语音识别结果在执行装置功能时控制装置的可执行应用。

所述方法还包括：在第二存储器中存储用于转化用户的音频信号的语音识别模型和与存储在第一存储器中的唤醒关键字模型同步的唤醒关键字模型，其中，接收语音识别结果的步骤包括：由服务器从检测值中识别音频信号是否包含唤醒关键字；由服务器响应于指示音频信号好汉唤醒关键字的检测值基于组合模型来将音频信号转化为语音识别结果，其中，语音识别模型与各个唤醒关键字模型相组合。第一存储器和第二存储器可被包括在存储器960中。

接收语音识别结果的步骤还包括：由服务器通过将唤醒关键字从语音识别结果中移除来产生语音识别结果；从服务器110接收唤醒关键字已经被移除的音频信号的语音识别结果；其中，控制的步骤包括：根据唤醒关键字已经被移除的语音识别结果来控制装置100的可执行应用。

所述转化的步骤包括：响应于指示音频信号不包含唤醒关键字的检测结果通过仅使用语音识别模型来将音频信号转化为语音识别结果。

可在包括可由计算机执行的指令代码的存储介质(诸如，由计算机执行的程序模块)中实施示例性实施例。计算机可读介质可以是可被计算机访问并可包括任何易失性/非易失性介质和任何可移除/不可移除介质的任何可用的介质。另外，计算机可读介质可包括任何计算机存储器和通信介质。计算机存储介质可包括可由特定方法或技术实施的任何易失性/非易失性和可移除/不可移除介质，其中，所述特定方法或技术用于存储诸如计算机可读指令代码、数据结构、程序模块或其他数据的信息。通信介质可包括计算机可读指令代码、数据结构、程序模块、调制的数据信号的其他数据或其他传输机制，并可包括任何信息传输介质。

前述示例性实施例和优点仅仅是示例性的并且不被理解为限制。本教导可被容易地应用到其他类型的应用。另外，对于示例性实施例的描述意图是说明性的，并不限制权利要求的范围，许多可选方案、修改和变化将对本领域技术人员将是清楚的。

Claims

1.一种装置，包括：

音频输入接收器，被配置为接收用户的语音信号；

存储器，被配置为存储唤醒关键字模型；

通信器，被配置为与语音识别服务器通信；

处理器，被配置为响应于接收到用户的语音信号通过使用唤醒关键字模型从用户的语音信号检测唤醒关键字，经由通信器向语音识别服务器发送唤醒关键字被检测到/未被检测到信号和用户的语音信号，经由通信器从语音识别服务器接收基于唤醒关键字被检测到/未被检测到信号的语音信号的语音识别结果，并根据语音识别结果来控制装置。

2.如权利要求1所述的装置，还包括：环境信息传感器，被配置为感测关于装置的环境信息，

其中，唤醒关键字模型是基于各种环境信息的多个唤醒关键字模型中的一个唤醒关键字模型，

处理器还被配置为通过使用所述多个唤醒关键字模型中的与感测到的装置的环境信息相应的唤醒关键字模型，从接收到的用户的语音信号检测唤醒关键字。

3.如权利要求2所述的装置，其中，处理器还被配置为：基于接收到的用户的语音信号获取用户的标识信息，经由通信器向语音识别服务器发送用户的标识信息和装置的环境信息，并从语音识别服务器接收基于以下项中的至少两项的语音识别结果：唤醒关键字被检测到/未被检测到信号、用户的标识信息和装置的环境信息。

4.如权利要求1所述的装置，其中，当通过音频输入单元接收到用于登记唤醒关键字模型的音频信号时，处理器还被配置为基于音频信号的识别的匹配率来确定音频信号作为唤醒关键字模型是否有效。

5.如权利要求1所述的装置，还包括：用户输入接收器，被配置为接收用户输入，

其中，存储器被配置为存储候选唤醒关键字模型，

处理器还被配置为根据通过用户输入接收器接收到的用户输入来登记从存储的候选关键字模型中选择出的候选唤醒关键字模型。

6.一种语音识别服务器，包括：

通信器，被配置为与装置通信；

存储器，被配置为存储唤醒关键字模型和语音识别模型；

处理器，被配置为响应于经由通信器从装置接收到唤醒关键字被检测到/未被检测到信号和用户的语音信号来设置与唤醒关键字模型组合的语音识别模型，通过使用设置的语音识别模型来识别用户的语音信号并产生语音信号的语音识别结果，从用户的语音信号的语音识别结果移除唤醒关键字，并经由通信器向装置发送唤醒关键字已经被移除的语音识别结果。

7.如权利要求6所述的语音识别服务器，其中，唤醒关键字模型是基于各种环境信息的多个唤醒关键字模型中的一个唤醒关键字模型，

处理器还被配置为响应于经由通信器接收到装置的环境信息来设置语音识别模型，并基于装置的环境信息来产生语音识别结果，其中，所述语音识别模型与所述多个唤醒关键字模型中的与装置的环境信息相应的唤醒关键字模型相组合。

8.如权利要求7所述的语音识别服务器，其中，处理器还被配置为响应于经由通信器接收到用户的标识信息来设置与用户的标识信息以及对应于装置的环境信息的唤醒关键字模型相组合的语音识别模型，并还基于用户的标识信息来产生语音识别结果。

9.一种由装置执行的语音识别方法，所述语音识别方法包括：

接收用户的语音信号；

通过使用唤醒关键字模型从接收到的用户的语音信号检测唤醒关键字；

向语音识别服务器发送唤醒关键字被检测到/未被检测到信号和用户的语音信号；

从语音识别服务器接收基于唤醒关键字被检测到/未被检测到信号识别用户的语音信号的结果；

根据识别用户的语音信号的结果来控制装置。

10.一种由语音识别服务器执行的语音识别方法，所述语音识别方法包括：

从装置接收唤醒关键字被检测到/未被检测到信号和用户的语音信号；

根据唤醒关键字被检测到/未被检测到信号来设置语音识别模型；

通过使用设置的语音识别模型来识别用户的语音信号并产生语音信号的语音识别结果；

从语音识别结果移除唤醒关键字；

向装置发送唤醒关键字已经被移除的语音识别结果。