CN110100277B

CN110100277B - 语音识别方法和装置

Info

Publication number: CN110100277B
Application number: CN201780078008.1A
Authority: CN
Inventors: 崔成子; 金银璟; 柳知相; 洪知延; 柳宗烨; 李在原
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-12-15
Filing date: 2017-10-17
Publication date: 2024-01-23
Anticipated expiration: 2037-10-17
Also published as: EP3533052B1; EP3533052A4; KR20180069660A; CN110100277A; KR102409303B1; EP3533052A1

Abstract

提供了一种语音识别方法和装置，用于响应于基于情形确定的激活词来执行语音识别。语音识别方法和装置包括人工智能(AI)系统及其应用，其使用诸如深度学习的机器学习算法来模拟诸如人脑的识别和判断的功能。

Description

语音识别方法和装置

技术领域

本公开涉及一种人工智能(AI)系统及其应用，其使用诸如深度学习的机器学习算法来模拟诸如人脑的识别和判断的功能。

本公开涉及一种语音识别方法和装置。更具体地，本公开涉及一种语音识别方法和装置，其用于响应于基于与语音识别装置在其中进行操作的情形有关的信息所确定的激活词来执行语音识别。

背景技术

人工智能(AI)系统是实施人类水平智能的计算机系统。与现有的基于规则的智慧(smart)系统不同，AI系统是机器自主地学习、判断并且变得智慧的系统。AI系统使用越多，则识别率可以被提高得更多并且可以更精确地理解用户偏好，因此现有的基于规则的智慧系统逐渐地被基于深度学习的AI系统所取代。

AI技术包括机器学习(深度学习)和利用机器学习的要素(element)技术。机器学习是一种自主地对输入数据的特征进行分类/学习的基于算法的技术。要素技术是以下一种技术：其使用诸如深度学习的机器学习算法来模拟诸如识别和判断的人脑的功能，并且包括诸如语言理解、视觉理解、推断/预测、知识表示和运动控制等技术领域。

AI技术可以应用于各种领域。语言理解是用于识别、应用和处理人类语言/字符的技术，包括：自然语言处理、机器翻译、对话系统、查询响应、语音识别/合成等。视觉理解是用于像在人类视觉中所执行的那样识别和处理对象的技术，包括：对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解和图像增强。推断/预测是用于判断以及逻辑地推断和预测信息的技术，包括：基于知识/概率的推断、优化预测、基于偏好的计划、推荐等。知识表示是用于将人类体验信息自动化为知识数据的技术，包括：知识构建(数据生成/分类)和知识管理(数据利用)。运动控制是用于控制车辆的自主行驶和机器人的运动的技术，包括：运动控制(导航、碰撞避免、行驶)、操作控制(行为控制)等。

随着已经开发了以复杂方式执行各种功能的电子设备(诸如智慧电话)，正在引入配备有语音识别功能的电子设备。语音识别功能的优点在于，通过识别用户的语音而不依赖于单独按钮的操作或触摸模块的接触，用户可以容易地控制设备。

根据语音识别功能，例如，诸如智慧电话的便携式终端可以在不按下按钮的情况下执行呼叫功能或文本消息发送，并且可以容易地设置诸如路线搜索、因特网搜索、闹钟设置等的各种功能。

以上信息仅作为背景信息呈现，以帮助理解本公开。关于上述任何是否适用于关于本公开的现有技术，没有做出确定并且没有进行断言。

发明内容

技术问题

本公开的方面要解决至少上述问题和/或缺点，并且要提供至少下述优点。因此，本公开的方面提供了一种方法，该方法可以在用户自然地与语音识别装置交互时通过说话来控制语音识别装置，从而增强用户的便利性。

另外的方面将在下面的描述中部分地阐述并且根据描述将部分地明显，或者可以通过实践所呈现的实施例而习得。

解决方案

根据本公开的方面，提供了一种语音识别方法。该方法包括：基于与语音识别装置在其中进行操作的情形有关的信息来确定至少一个激活词；接收输入音频信号；基于用于说出在至少一个激活词中所包括的激活词的语音信号是否已经被包括在输入音频信号中，对输入音频信号执行语音识别；以及输出执行语音识别的结果。

根据本公开的另一方面，提供了一种语音识别装置。该装置包括：接收器，被配置为接收输入音频信号；至少一个处理器，被配置为基于与语音识别装置在其中进行操作的情形有关的信息来确定至少一个激活词，并且基于用于说出在至少一个激活词中所包括的激活词的语音信号是否已经被包括在输入音频信号中，对输入音频信号执行语音识别；以及输出器，被配置为输出语音识别的结果。

根据本公开的另一方面，提供了一种非暂时性计算机可读记录介质。其上记录有至少一个程序的非暂时性计算机可读记录介质包括用于允许语音识别装置执行语音识别方法的指令。语音识别方法包括：基于与语音识别装置在其中进行操作的情形有关的信息来确定至少一个激活词；接收输入音频信号；基于用于说出在至少一个激活词中所包括的激活词的语音信号是否已经被包括在输入音频信号中，对输入音频信号执行语音识别；以及输出执行语音识别的结果。

根据以下结合附图公开了本公开的各种实施例的详细描述，本公开的其他方面、优点和显着特征对于本领域技术人员将变得明显。

附图说明

根据以下结合附图的描述，本公开的某些实施例的以上和其他方面、特征和优点将更加明显，在附图中：

图1A、图1B和图1C是用于说明根据本公开的实施例的语音识别系统的视图；

图2A是根据本公开的实施例的通常语音识别装置的操作方法的图；

图2B是根据本公开的实施例的语音识别装置的操作方法的图；

图3是根据本公开的实施例的通过语音识别装置执行语音识别的方法的流程图；

图4是根据本公开的实施例的通过语音识别装置执行语音识别的方法的图；

图5是示出根据本公开的实施例的通过语音识别装置执行语音识别的方法的流程图；

图6是根据本公开的实施例的输出通过语音识别装置执行的语音识别的结果的方法的流程图；

图7A和图7B示出了根据本公开的实施例的语音识别装置被包括在家用机器人中的示例；

图8示出了根据本公开的实施例的语音识别装置将“空调”确定为与当前情形相对应的激活词的情况；

图9是根据本公开的实施例的通过语音识别装置执行的确定语音命令是直接命令还是间接命令的方法的流程图；

图10是根据本公开的实施例的通过语音识别装置执行的确定分别地与情形相对应的候选激活词的方法的流程图；以及

图11A和图11B是根据本公开的实施例的语音识别装置的框图。

贯穿附图，相同的附图标记将被理解为指代相同的部件、组件和结构。

具体实施方式

提供参考附图的以下描述以帮助全面的理解如由权利要求及其等同物所定义的本公开的各种实施例。其包括各种具体的细节以帮助理解，但这些仅被视为示例性的。因此，本领域普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在以下描述和权利要求中使用的术语和词不限于书面含义，而是仅由发明人使用以使得能够清楚和一致的理解本公开。因此，对于本领域技术人员应当明显的是，提供本公开的各种实施例的以下描述仅用于说明目的，而不用于限制由所附权利要求及其等同物所定义的本公开的目的。

将理解，除非上下文另外地清楚地规定，否则单数形式“一”、“一个”和“该”包括复数指示物。因此，例如，对“组件表面”的引用包括对一个或多个这样的表面的引用。

本公开的各种实施例可以由功能块配置和各种处理操作表示。这些功能块中的一些或全部可以采用执行特定功能的各种数量的硬件和/或软件配置来实施。例如，本公开的功能块可以通过一个或多个微处理器来实施，或者通过针对给定功能的电路配置来实施。另外，本公开的功能块可以以各种编程或脚本语言来实施。功能块可以采用在一个或多个处理器上运行的算法来实施。本公开还可以利用根据相关技术的用于电子配置、信号处理和/或数据处理等的技术。

图中所示的组件之间的连接线或连接构件仅是功能连接和/或物理或电路连接的示意。在实际设备中，组件之间的连接可以通过可以替换或添加的各种功能连接、物理连接或电路连接来表示。

将参考附图来详细地描述本公开。

图1A、图1B和图1C是用于说明根据本公开的实施例的语音识别系统的视图。

参考图1A至图1C，语音识别系统可以是基于深度学习的人工智能(AI)系统。语音识别系统可以使用人工智能技术来推断和预测语音识别装置在其中进行操作的情形，并且可以识别、应用和处理人类语言。

参考图1A，语音识别系统可以包括语音识别装置100-1。例如，语音识别装置100-1可以是：移动计算装置，诸如智慧电话、平板型个人计算机(PC)、PC、智慧电视(TV)、个人数字助理(PDA)、膝上计算机、媒体播放器、微服务器、全球定位系统(GPS)、电子书阅读器、数字广播终端、导航设备、自助服务终端(kiosk)、运动图像专家组阶段1或阶段2(MPEG-1或MPEG-2)音频层3(MP3)播放器、数码相机、车辆的电子控制设备、中央信息显示器(CID)等；或者非移动计算装置，但不限于此。语音识别装置100-1可以接收包括由用户10说出的语音信号的音频信号，并且对语音信号执行语音识别。语音识别装置100-1可以输出语音识别结果。

参考图1B，语音识别系统可以包括语音识别装置100-2和连接到语音识别装置100-2的电子装置110。语音识别装置100-2和电子装置110可以通过线缆或无线地连接。例如，耦合到语音识别装置100-2的电子装置110可以是：移动计算装置，诸如智慧电话、平板型PC、PC、智慧电视、车辆的电子控制设备、CID；或者非移动计算装置。语音识别装置100-2可以是但不限于：与电子装置110协作的可穿戴设备、智慧电话、平板型PC、PC、导航系统或智慧电视。

语音识别装置100-2可以接收包括由用户10说出的语音信号的音频信号，并且将输入的音频信号发送到电子装置110。语音识别装置100-2可以接收包括由用户10说出的语音信号的音频信号，并且可以将从输入音频信号检测到的语音信号发送到电子装置110。语音识别装置100-2可以接收包括由用户10说出的语音信号的音频信号，并且将从输入音频信号检测到的语音信号的特征发送到电子装置110。

电子装置110可以基于从语音识别装置100-2接收的信号来执行语音识别。例如，电子装置110可以对从输入自语音识别装置100-2的音频信号所检测到的语音信号执行语音识别。电子装置110可以输出语音识别结果或者将语音识别结果发送到语音识别装置100-2，使得语音识别装置100-2输出语音识别结果。

参考图1C，语音识别系统可以包括语音识别装置100-3和连接到语音识别装置100-3的服务器120。语音识别装置100-3和服务器120可以有线地或无线地连接。

语音识别装置100-3可以接收包括由用户10说出的语音信号的音频信号，并且将输入的音频信号发送到服务器120。语音识别装置100-3还可以接收包括由用户10说出的语音信号的音频信号，并且可以将从输入音频信号检测到的语音信号发送到服务器120。语音识别装置100-3还可以接收包括由用户10说出的语音信号的音频信号，并且将从输入音频信号检测到的语音信号的特征发送到服务器120。

服务器120可以基于从语音识别装置100-3接收的信号来执行语音识别。例如，服务器120可以对从输入自语音识别装置100-3的音频信号所检测到的语音信号执行语音识别。服务器120可以将语音识别结果发送到语音识别装置100-3，使得语音识别装置100-3输出语音识别结果。

图1A、图1B和图1C中所示的语音识别系统的优点在于：通过识别用户的语音，用户可以容易地控制装置。

然而，当语音识别装置连续地激活语音识别功能时，因为对于语音识别装置难以区分输入音频信号是作为语音识别对象的语音还是不作为语音识别对象的噪声，所以识别性能恶化。此外，如果语音识别装置持续语音检测操作和语音识别操作，则语音识别装置可能不必要地消耗电力或存储容量。

因此，语音识别装置应当能够仅在用户说出语音命令时激活语音识别功能。

作为示例，根据相关技术的语音识别装置使用当用户按下按钮时激活语音识别功能的方法。该激活方法的缺点在于：用户必须位于距语音识别装置的特定物理距离内，并且当不期望激活语音识别功能时，用户应当小心不要按下按钮。

作为另一示例，根据相关技术的语音识别装置使用在说出预定的特定激活词时激活语音识别功能的方法。该激活方法的缺点在于：在说出语音命令之前，用户必须说出特定激活词是不自然的。

如上所述，根据相关技术，语音识别装置需要用户的激活动作以便激活语音识别功能。因此，因为当不涉及到用户的激活动作时可能无法开始语音识别功能，所以语音识别装置在通过语音识别提供主动(proactive)服务方面具有局限性。

因此，根据本公开的实施例的语音识别装置提供了一种通过下述来增强用户的便利性的方法：使得用户能够通过像用户自然地与语音识别装置交互一样地说话来控制语音识别装置。即使在没有用户的直接操作时，语音识别装置也可以提供主动服务。实施例提供了一种基于根据语音识别装置在其中进行操作的情形指定的多个激活词来激活语音识别功能的方法。另外，实施例提供了一种语音识别装置在执行语音识别之前进行操作的方法。

图2A是根据本公开的实施例的通常语音识别装置的操作方法的图。

参考图2A，示出了以下示例，在该示例中，当说出一个特定激活词“Hi Galaxy(你好Galaxy)”时，通常语音识别装置100激活语音识别功能。

如图2A所示，用户10必须在用于询问今天的天气的语音命令之前说出激活词“HiGalaxy”。

当接收到用于说出激活词“Hi Galaxy”的语音信号时，语音识别装置100可以激活语音识别功能。语音识别装置100可以对用户的语音命令“What is the weather liketoday？(今天天气怎么样？)”——其为在激活词之后说出的句子——执行语音识别，并且可以提供天气信息“Today’s weather is fine(今天的天气很好)”作为对于用户的语音命令的响应。

接下来，用户10应当在用于询问当前时间的语音命令之前说出激活词“HiGalaxy”。

当接收到用于说出激活词“Hi Galaxy”的语音信号时，语音识别装置100可以激活语音识别功能。语音识别装置100可以对用户的语音命令“What time is it？(几点了？)”——其为在激活词之后说出的句子——执行语音识别，并且可以提供时间信息“下午3:20”作为对于用户的语音命令的响应。

如图2A所示，当仅使用指定的激活词来激活语音识别功能时，每次都说出激活词对于用户是麻烦的并且不自然的。

因此，根据本发明的实施例，语音识别装置可以针对用户自然说出的语音命令执行语音识别，而不需要用户说出单独的激活词或激活语音识别功能。

图2B是根据本公开的实施例的语音识别装置的操作方法的图。

参考图2B，为了询问今天的天气，用户10可以说出语音命令“What is theweather like today？”——其为用于询问今天的天气的语音命令——而无需任何单独的激活操作。当接收到用于说出语音命令“What is the weather like today？”的语音信号时，语音识别装置100可以激活语音识别功能。语音识别装置100可以对用户的语音命令“What is the weather like today？”来执行语音识别，并且可以提供天气信息“Today’sweather is fine(今天的天气好)”作为对于用户的语音命令的响应。

接下来，为了询问当前时间，用户10可以说出作为用于询问当前时间的语音命令“What time is it？”，而无需单独的激活操作。当接收到用于说出语音命令“What time isit？”的语音信号时，语音识别装置100可以激活语音识别功能。语音识别装置100可以针对用户的语音命令“What time is it？”来执行语音识别，并且提供时间信息“下午3:20”作为对于用户的语音命令的响应。

以下描述根据本公开的实施例的通过语音识别装置来执行语音识别方法的具体方法。然而，如图1A、图1B和图1C所示，语音识别系统可以包括至少一个语音识别装置，并且还可以包括服务器或电子设备。在下文中，为了便于解释，将描述在“语音识别装置”中执行的语音识别方法。然而，下面描述的语音识别装置的一些或全部操作也可以通过服务器执行，并且可以通过多个电子装置部分地执行。

图3是根据本公开的实施例的通过语音识别装置执行语音识别的方法的流程图。

参考图3，在操作S310中，根据实施例的语音识别装置100可以基于与语音识别装置100在其中进行操作的情形有关的信息来确定至少一个激活词(activation word)。根据实施例的语音识别装置100可以利用人工智能技术来推断和预测语音识别装置100在其中进行操作的情形，并且确定至少一个激活词。

与情形有关的信息可以包括以下中的至少一个：与语音识别装置100的位置和时间有关的信息、语音识别装置100是否连接到另一电子装置、语音识别装置100连接到的网络的类型以及使用语音识别装置100的用户的特征。

作为示例，语音识别装置100可以获得关于连接到语音识别装置100的至少一个电子装置的信息。语音识别装置100可以将与至少一个电子设备相关联的词确定为至少一个激活词。作为另一示例，语音识别装置100可以获取关于语音识别装置100连接到的网络的信息。语音识别装置100可以基于关于语音识别装置100连接到的网络的信息来识别语音识别装置100在其中进行操作的情形。例如，语音识别装置100可以基于关于语音识别装置100连接到的网络的信息来确定语音识别装置100在其中进行操作的位置。

例如，当语音识别装置100连接到安装在房屋中的Wi-Fi网络时，语音识别装置100可以确定语音识别装置100的位置是在房屋中。语音识别装置100可以确定与房屋相对应的至少一个激活词。语音识别装置100可以将TV、空调、吸尘器(cleaner)、天气、日程等确定为与房屋相对应的激活词。

语音识别装置100还可以包括：在确定至少一个激活词之前，分别地存储与多个情形相对应的多个候选激活词。语音识别装置100可以获取与语音识别装置100在其中进行操作的情形有关的信息并且检索(retrieve)存储的数据，使得可以提取与语音识别装置100在其中进行操作的情形相对应的至少一个候选激活词。语音识别装置100可以将至少一个候选激活词确定为至少一个激活词。

语音识别装置100可以接收关于语音识别装置100在多个情形下从用户接收的语音命令的信息，以存储多个候选激活词。语音识别装置100可以提取包括在语音命令中的多个词。语音识别装置100可以基于在多个情形中的特定情形下接收的语音命令中包括多个词的频率，将至少一个词存储为与特定情形相对应的候选激活词。

语音识别装置100可以基于语音识别装置100的语音识别功能被灵敏地激活的程度来确定所确定的至少一个激活词的数量。

例如，语音识别装置100的语音识别功能被灵敏地激活的程度可以意味着以下中的至少一个：语音识别装置100响应于各种语音信号而被激活的速度、语音识别装置100被激活的难度水平以及语音识别装置100被激活的频率。例如，当响应于各种语音信号以高频率激活语音识别装置100时，可以确定语音识别装置100的语音识别功能被灵敏地激活。当响应于各种语音信号以相对地低的频率激活语音识别装置100时，可以确定语音识别装置100的语音识别功能被不太灵敏地激活。

语音识别功能被灵敏地激活的程度可以基于用户输入来确定，或者可以基于语音识别装置100的位置来确定。例如，当语音识别装置100位于诸如房屋的私人空间中时，可以确定语音识别功能被灵敏地激活；而当语音识别装置100位于诸如公司的公共空间中时，可以确定语音识别功能被不太灵敏地激活。例如，当语音识别装置100位于诸如房屋的私人空间中时，可以确定以高频率激活语音识别功能；而当语音识别装置100位于诸如公司的公共空间中时，可以确定以相对地低的频率激活语音识别功能。

在操作S320中，语音识别装置100可以接收输入音频信号。例如，语音识别装置100可以以预定长度的帧单位(frame unit)来实时地划分输入的输入音频信号，并且处理以帧单位划分的输入音频信号。可以从以帧单位划分的输入音频信号中检测帧单位的语音信号。

根据实施例的语音识别装置100可以接收并且存储输入音频信号。例如，语音识别装置100可以通过语音激活检测(Voice Activation Detection，VAD)或结束点检测(EndPoint Detection，EPD)来检测话语(utterance)的存在或不存在。

例如，语音识别装置100可以在话语开始时确定句子开始，并且可以开始存储输入音频信号。语音识别装置100可以在暂停之后话语开始时确定句子开始，并且可以开始存储输入音频信号。

如果话语结束而未说出激活词，则语音识别装置100可以确定句子结束，并且可以开始存储输入音频信号。替选地，语音识别装置100可以以预定时间长度单位来接收和存储音频信号，如图5所示。

在操作S330中，语音识别装置100可以基于用于说出在至少一个激活词中所包括的激活词的语音信号是否被包括在输入音频信号中，对输入音频信号执行语音识别。语音识别装置100可以通过使用人工智能技术来识别、应用和处理包括在输入音频信号中的说话者(speaker)的语言。

语音识别装置100可以对包括用于说出在至少一个激活词中所包括的激活词的语音信号的输入音频信号执行语音识别。

语音识别装置100可以确定输入音频信号是否包括用于说出激活词的语音信号。当确定输入音频信号包括用于说出在至少一个激活词中所包括的激活词的语音信号时，语音识别装置100可以对存储的输入音频信号和此后接收的输入音频信号执行语音识别。

语音识别装置100可以将包括包含激活词的语音命令的音频信号发送到服务器(或嵌入式语音识别模块)。服务器(或嵌入式语音识别模块)可以从接收的音频信号中提取激活词。服务器(或嵌入式语音识别模块)可以确定是识别包括激活词的语音命令，还是移除激活词并且识别位于激活词之前或之后的语音命令。服务器(或嵌入式语音识别模块)可以基于确定结果执行语音识别。当激活词在语音命令中具有意义时，语音识别装置100可以对包括激活词的语音命令执行语音识别。另一方面，当激活词在语音命令中不具有意义时，语音识别装置100可以对从其移除了激活词的先前(previous)句子或后续(succeeding)句子执行语音识别。

例如，为了激活语音识别装置100的语音识别功能，作为示例说明其中将“HiRobot(你好机器人)”确定为基本激活词并且将“weather(天气)”确定为与当前情形相对应的激活词的情况。

用户可以向语音识别装置100说出“Hi Robot Call Hana(你好机器人，呼叫Hana)”。因为语音识别装置100已经接收到用于说出激活词“Hi Robot”的语音信号，所以语音识别装置100可以向服务器(或嵌入式语音识别模块)发送包括激活词的语音命令“HiRobot Call Hana”。因为激活词“Hi Robot”是在语音命令中没有意义的基本激活词，所以服务器(或嵌入式语音识别模块)可以仅对从其移除激活词的、作为语音命令的“Call Hana(呼叫Hana)”执行语音识别。

替选地，用户可以向语音识别装置100说出“What is the weather like today？(今天天气怎么样？)”。因为语音识别装置100已经接收到用于说出激活词“weather”的语音信号，所以语音识别装置100可以向服务器(或嵌入式语音识别模块)发送作为包括激活词的语音命令“What is the weather like today？”。因为激活词“weather”在语音命令中具有意义，所以服务器(或嵌入式语音识别模块)可以对包括激活词的语音命令“What is theweather like today？”执行语音识别。

语音识别装置100可以向服务器(或嵌入式语音识别模块)发送从输入音频信号中移除了用于说出激活词的语音命令的音频信号。语音识别装置100可以从输入音频信号中提取激活词。语音识别装置100可以确定：是向服务器(或嵌入式语音识别模块)发送包括用于说出激活词的语音命令的音频信号，还是向服务器(或嵌入式语音识别模块)发送移除了用于说出激活词的语音命令的音频信号。当激活词在语音命令中具有意义时，语音识别装置100可以向服务器(或嵌入式语音识别模块)发送包括用于说出激活词的语音命令的音频信号。另一方面，当激活词在语音命令中没有意义时，语音识别装置100可以向服务器(或嵌入式语音识别模块)发送移除了用于说出激活词的语音命令的先前句子或后续句子。

例如，为了激活语音识别装置100的语音识别功能，作为示例，将描述“Hi Robot”被确定为基本激活词的情况。

用户可以向语音识别装置100说出“Hi Robot Call Hana(你好机器人，呼叫Hana)”。因为激活词“Hi Robot”是在语音命令中没有意义的基本激活词，所以语音识别装置100可以向服务器(或嵌入式语音识别模块)仅发送移除了用于说出激活词的语音命令的音频信号“Call Hana(呼叫Hana)”。

当确定输入音频信号包括用于说出激活词的语音信号时，语音识别装置100可以确定在输入音频信号中所包括的语音命令是否是请求语音识别装置100的响应的直接命令。语音识别装置100可以基于关于提取的文本的自然语言理解和句子分析来确定语音命令是直接命令还是间接命令。例如，语音识别装置100可以基于语音命令的终止尾端(termination end)、语调、接收语音命令的方向以及语音命令的大小中的至少一个来确定语音命令是直接命令还是间接命令。语音识别装置100可以根据所确定的语音命令的类型来确定是将语音命令发送到服务器(或嵌入式语音识别模块)还是对语音命令执行语音识别。例如，语音识别装置100可以使用人工智能技术来执行自然语言理解和句子类型分析。

当确定语音命令是直接命令时，语音识别装置100可以向服务器(或嵌入式语音识别模块)发送包括包含激活词的语音命令的音频信号。当接收到用于说出激活词的语音信号时，语音识别装置100可以将存储的输入音频信号和之后接收的输入音频信号发送到服务器(或嵌入式语音识别模块)。

语音识别装置100可以从存储的输入音频信号中搜索并且提取包括包含激活词的句子的信号。语音识别装置100可以将包括包含激活词的句子的音频信号发送到服务器(或嵌入式语音识别模块)。服务器(或嵌入式语音识别模块)可以对语音命令执行语音识别。

另一方面，当语音识别装置100确定语音命令不是请求语音识别装置100的响应的直接命令而是间接命令时，语音识别装置100可以不向服务器(或嵌入式语音识别模块)发送包括语音信号的音频信号。语音识别装置100可以重复接收和存储新的输入音频信号的操作，同时忽略先前的输入音频信号。语音识别装置100可以确定新的输入音频信号是否包括用于说出激活词的语音信号。

在操作S340中，根据实施例的语音识别装置100可以输出执行语音识别的结果。

语音识别装置100可以输出通过服务器(或嵌入式语音识别模块)执行的语音识别的结果。作为示例，执行语音识别的结果可以包括从语音命令提取的文本。作为另一示例，执行语音识别的结果可以是执行与执行语音识别的结果相对应的操作的屏幕。语音识别装置100可以执行与执行语音识别的结果相对应的操作。例如，语音识别装置100可以确定与执行语音识别的结果相对应的语音识别装置100的功能，并且输出执行该功能的屏幕。替选地，语音识别装置100可以将与执行语音识别的结果相对应的关键词发送到外部服务器，从服务器接收与发送的关键词有关的信息以及在屏幕上输出接收的信息。

语音识别装置100可以基于分析语音命令的分析结果来确定输出执行语音识别的结果的方法。

作为示例，语音识别装置100可以响应于语音命令以诸如声音、光、图像和振动的各种方式来输出执行的语音识别的结果。作为另一示例，语音识别装置100可以在等待对语音命令的响应的同时通知用户正在等待响应。语音识别装置100可以以诸如声音、光、图像和振动的各种方式来通知用户正在等待响应。作为另一示例，语音识别装置100可以存储执行语音识别的结果，然后当用户说出与执行语音识别的结果有关的话语时，输出执行语音识别的结果。

语音识别装置100可以确定在输入音频信号中所包括的语音命令是否是请求语音识别装置100的响应的直接命令。语音识别装置100可以根据所确定的语音命令的类型来确定是立即输出执行语音识别的结果，还是当从用户接收到确认命令时，输出执行语音识别的结果。

语音识别装置100可以通过对输入音频信号执行语音识别来提取用户说出的文本。语音识别装置100可以基于关于提取的文本的自然语言理解和句子类型分析，来确定在输入音频信号中所包括的语音命令是否是请求语音识别装置100的响应的直接命令。当确定语音命令是直接命令时，语音识别装置100可以执行对语音命令进行响应的操作。

当确定语音命令不是直接命令时，语音识别装置100可以显示对语音命令的响应是可能的并且正在等待响应。当从用户接收到确认命令时，语音识别装置100可以执行对语音命令进行响应的操作。

图4是用于说明根据本公开的实施例的通过语音识别装置100执行语音识别的方法的图。

参考图4，示出了语音识别装置100连接到车辆的电子控制装置401并且进行操作的示例。例如，语音识别装置100可以经由蓝牙与车辆的电子控制装置401通信。

根据实施例的语音识别装置100可以基于语音识别装置100连接到车辆的电子控制装置401的信息，来确定语音识别装置100的位置是车辆。语音识别装置100可以确定与车辆相对应的至少一个激活词。例如，语音识别装置100可以提取：与车辆相对应的候选激活词，包括导航、空调、窗户、燃气源、行李箱、侧镜等；和与车辆中可用的功能相对应的候选激活词，例如，包括文本消息、日程等。语音识别装置100可以将提取的候选激活词确定为适合于当前情形的激活词。

此外，语音识别装置100可以基于语音识别装置100是否正在移动来确定激活词。当车辆正在行驶时，语音识别装置100可以仅将与车辆相对应的候选激活词中不干扰安全车辆操作的候选激活词和与车辆中可用的功能相对应的候选激活词确定为激活词。

例如，当车辆停止时，语音识别装置100可以确定与车辆有关的所有候选激活词，诸如，导航、空调、燃气源、行李箱、侧镜、文本消息、日程等。另一方面，当车辆正在行驶时，语音识别装置100可以确定激活词，以使得语音识别装置100不对可能干扰安全车辆操作的语音命令进行响应。例如，当车辆正在行驶时，通过语音命令打开车辆的行李箱或打开燃气源可能干扰安全车辆操作。因此，当车辆正在行驶时，语音识别装置100可以仅将不干扰安全车辆操作的一些候选激活词(诸如，导航、空调、文本消息和日程)确定为激活词。

语音识别装置100可以在执行语音识别之前接收并且存储输入音频信号。语音识别装置100可以分析输入音频信号，以确定输入音频信号是否包括用于说出激活词的语音信号。

用户10可以使用语音识别功能而不必说出诸如“Hi Robot”的特定激活词来被引导到火车站。用户10可以说出作为用于询问到达火车站的指引的语音命令的“Find theway to the train station on the navigation！(在导航上查找到火车站的路！)”。当接收到用于说出作为与车辆相对应的激活词的“navigation(导航)”的语音信号时，语音识别装置100可以激活语音识别功能。

语音识别装置100可以对作为包括用于说出“navigation”的语音信号的整个语音命令的“Find the way to the train station on the navigation！”执行语音识别。当接收到用于说出“navigation”的语音信号时，语音识别装置100可以将在激活词之后(或之前)接收的语音命令“Find at(在……查找)”发送到服务器(或嵌入式语音识别模块)并且执行语音识别。另外，语音识别装置100可以将先前接收和存储的语音命令与在激活词之后接收的语音命令一起发送到服务器(或嵌入式语音识别模块)并且执行语音识别。当接收到用于说出“navigation”的语音信号时，语音识别装置100可以对在激活词之前接收和存储的语音命令“the way to the train station”、激活词“navigation”以及在激活词之后接收的语音命令“Find at”执行语音识别。

语音识别装置100可以引导到火车站的路线作为对用户10的语音命令的响应。

在图4中，作为示例，示出了语音识别装置100的位置是车辆的情况。然而，本公开的实施例不限于此。例如，当确定语音识别装置100的位置是房屋时，可以将灯、电视、空调、洗衣机、冰箱、天气、日期、时间等确定为与房屋相对应的激活词。

与相应的情形相对应的激活词的具体示例如下。

语音识别装置100可以基于语音识别装置100的位置或语音识别装置100位于的空间的特征来确定至少一个激活词。

语音识别装置100可以基于连接到语音识别装置100的电子装置、连接到语音识别装置100的网络或连接到语音识别装置100的基站，来获取与语音识别装置100的位置有关的信息。

例如，当语音识别装置100经由蓝牙方法连接到车辆中的音频时，语音识别装置100可以确定语音识别装置100位于车辆中。替选地，语音识别装置100可以通过在语音识别装置100中所包括的GPS模块来获取与当前位置有关的信息。

作为示例，当语音识别装置100位于房屋中时，语音识别装置100可以将与房屋中语音识别装置100可以控制的电子装置或电子装置的功能相关联的词确定为激活词。当语音识别装置100在房屋中的位置改变时，语音识别装置100可以根据位置将不同的词确定为激活词。例如，当语音识别装置100位于起居室中时，语音识别装置100可以将与房屋中的所有电子装置相关联的词确定为激活词。另一方面，当语音识别装置100位于房间中时，语音识别装置100可以仅将与房间中的电子装置相关联的词确定为激活词。

作为另一示例，当语音识别装置100位于车辆中时，语音识别装置100可以将与车辆中语音识别装置100可以控制的电子装置或电子装置的功能相关联的词确定为激活词。甚至当车辆中的语音识别装置100的位置改变或者语音识别装置100的用户的特征改变时，语音识别装置100也可以确定不同的激活词。

当语音识别装置100位于驾驶员座位中或者语音识别装置100的用户正在驾驶时，语音识别装置100可以将与车辆中驾驶员可以控制的所有电子装置和功能有关的词确定为激活词。另一方面，当语音识别装置100位于驾驶员座位以外的座位中或者语音识别装置100的用户不在驾驶时，语音识别装置100可以仅将与不干扰驾驶的电子装置和功能有关的词确定为激活词。

例如，当语音识别装置100的用户是正在驾驶的驾驶员时，与车辆驾驶有关的词——诸如“侧镜”、“灯”和“方向盘”等)——作为激活词。另一方面，当语音识别装置100的用户是不在驾驶的乘客时，仅与和车辆的驾驶无关的电子装置有关的词——诸如“空调”、“收音机”等)——作为激活词。

作为另一示例，当语音识别装置100位于室外时，语音识别装置100可以基于是否存在其中存在噪声的环境来确定激活词。例如，语音识别装置100可以不将其特征与频繁地生成噪声的环境中的噪声的特征类似的词确定为激活词。

作为另一示例，语音识别装置100可以基于语音识别装置100位于的空间是公共空间还是私人空间来确定激活词。例如，当语音识别装置100位于诸如公司的走廊的公共空间中时，语音识别装置100可以仅将与公共空间相对应的词确定为激活词。另一方面，当语音识别装置100位于诸如私人办公室的私人空间中时，语音识别装置100可以将与私人事务有关的词和与公共空间相对应的词一起确定为激活词。例如，当语音识别装置100位于公共空间中时，语音识别装置100可以通过与公共空间相对应的激活词——诸如，“空调”、“灯”等——来激活语音识别功能。然而，当语音识别装置100位于私人空间中时，语音识别装置100还可以通过与私人事务有关的词——诸如“电话”或“文本消息”——和与公共空间相对应的激活词——诸如“空调”、“灯”等——一起来激活语音识别功能。

作为另一示例，语音识别装置100可以基于语音识别装置100位于的区域来将反映本地语言特征的词确定为激活词。例如，当语音识别装置100位于使用方言的区域中时，语音识别装置100可以将反映方言的词确定为激活词。

根据实施例的语音识别装置100可以基于时间确定至少一个激活词。

作为示例，针对特定时间段，语音识别装置100可以使用特定词作为激活词。在特定时间段之后，语音识别装置100可以不再使用特定词作为激活词。

语音识别装置100可以通过学习从用户接收的语音命令来将其使用频率最近增加的词作为激活词。例如，如果用户即将前往济州岛，则用户可能频繁地将与“济州岛(JejuIsland)”有关的语音命令输入到语音识别装置100，以获得与“济州岛”有关的信息。语音识别装置100可以将频繁出现超过阈值频率数量的词添加为激活词。因此，即使用户没有单独地激活语音识别功能，用户也可以通过简单地说出包括添加的激活词的语音命令来使用语音识别功能。

作为另一示例，语音识别装置100可以基于语音识别装置100正在进行操作的当前时间信息来确定激活词。例如，语音识别装置100可以依赖于季节、天(day)、日期、周末或工作日以及时区来使用不同的激活词。语音识别装置100可以根据季节、天、日期、时间等来学习从用户接收的语音命令，从而更新适合于每个情形的激活词并且使用更新的激活词。

作为另一示例，语音识别装置100可以基于语音识别装置100的用户的移动来确定至少一个激活词。语音识别装置100可以依赖于语音识别装置100的用户是停止移动、是行走、还是跑步，而在确定激活词时反映话语特征的变化。例如，当语音识别装置100的用户正在行走或跑步时，语音识别装置100可以反映呼气(breathe out)的用户的特征，以确定激活词。

语音识别装置100可以基于与使用语音识别装置100的用户的特征有关的信息来确定至少一个激活词。

作为示例，语音识别装置100可以基于语音识别装置100的用户的年龄来确定至少一个激活词。

当语音识别装置100的用户是成年人时，语音识别装置100可以将与成人的共同兴趣有关的词确定为激活词。例如，语音识别装置100可以将与成人的共同兴趣有关的诸如新闻、体育等的词确定为激活词。

如果语音识别装置100的用户不是成年人，则语音识别装置100可以将与未成年人的特征有关的词确定为激活词。例如，当用户是高中学生时，语音识别装置100可以将与高中学生的共同兴趣有关的诸如测试、数学、微分积分等的词确定为激活词。

作为另一示例，语音识别装置100可以基于语音识别装置100的用户的性别来确定至少一个激活词。

当语音识别装置100的用户是女性时，语音识别装置100可以将与女性的共同兴趣有关的词确定为激活词。例如，语音识别装置100可以将与女性的共同兴趣有关的词“化妆品”确定为激活词。

作为另一示例，语音识别装置100可以基于语音识别装置100的用户的职业或爱好来确定至少一个激活词。

语音识别装置100可以将反映根据职业的用户的特征的词或与爱好有关的词确定为激活词。例如，当语音识别装置100的用户的爱好是听音乐时，语音识别装置100可以将与爱好有关的诸如音乐、收音机等的词确定为激活词。

另一方面，语音识别装置100可以依赖于语音识别装置100是仅由一个人使用还是由几个人使用而不同地操作。当语音识别装置100由几个人使用时，在执行语音识别之前，语音识别装置100可以通过分析语音的特征来识别用户的性别或年龄，或者可以通过分析面部特征来执行识别用户的操作。语音识别装置100可以将适合于所识别的用户的词确定为激活词。

语音识别装置100可以在确定激活词时反映使用词的历史。

语音识别装置100可以在确定激活词时反映与用户无关的共同使用词的历史。语音识别装置100可以共同地、与用户无关地从包括与每个情形相对应的候选激活词的数据库中确定激活词。然而，本公开的实施例不限于此。

语音识别装置100可以在确定激活词时反映由每个个体使用词的历史。语音识别装置100可以管理包括适合于每个个体的候选激活词的数据库。语音识别装置100可以通过累积每个个体在每个情形下使用词的频率来更新个性化数据库。语音识别装置100可以从个性化数据库确定适合于当前情形的激活词。

图5是示出根据本公开的实施例的通过语音识别装置100执行语音识别的方法的流程图。

图5的操作S510和S520可以对应于图3的操作S310，图5的操作S530可以对应于图3的操作S320，图5的操作S540至S580可以对应于图3的操作S330，并且图5的操作S590可以对应于图3的操作S340。图3的描述可以适用于与图3的每个操作相对应的图5的每个操作。因此，省略了对冗余操作的描述。

在操作S510中，语音识别装置100可以获取与语音识别装置100在其中进行操作的情形有关的信息。

语音识别装置100可以包括一个或多个传感器，并且可以感测用于确定语音识别装置100在其中进行操作的情形的各种信息。例如，在语音识别装置100中所包括的传感器可以感测：语音识别装置100的位置、与语音识别装置100的移动有关的信息、能够标识正在使用语音识别装置100的用户的信息和语音识别装置100的周围环境信息等。

例如，语音识别装置100可以包括照度传感器、生物传感器、倾斜传感器、位置传感器、接近传感器、地磁传感器、陀螺仪传感器、温度/湿度传感器、红外线传感器和速度/加速度传感中的至少一个，或者其组合。

语音识别装置100可以获取由外部电子装置感测的信息来作为与语音识别装置100在其中进行操作的情形有关的信息。例如，外部电子装置可以是照度传感器、生物传感器、倾斜传感器、位置传感器、接近传感器、地磁传感器、陀螺仪传感器、温度/湿度传感器、红外线传感器和速度/加速度传感中的至少一个，或者其组合。

语音识别装置100可以获取用户输入作为与语音识别装置100在其中进行操作的情形有关的信息。语音识别装置100可以从用户输入获取与语音识别装置100在其中进行操作的位置或语音识别装置100的用户的特征有关的信息。

语音识别装置100可以通过与另一电子装置的通信来获取与语音识别装置100在其中进行操作的情形有关的信息。例如，当语音识别装置100通过近距离通信连接到被识别为存在于房屋中的电子装置时，语音识别装置100可以确定语音识别装置100存在于房屋中。例如，语音识别装置100可以获取诸如房屋、室内、私人空间的信息作为语音识别装置100的位置。

在操作S520中，根据实施例的语音识别装置100可以基于在操作S510中获得的信息来确定至少一个激活词。

作为示例，语音识别装置100可以在确定激活词之前针对多个情形存储适合于每个情形的候选激活词。基于在操作S510中获得的信息，语音识别装置100可以从存储的数据中检索适合于当前情形的候选激活词。语音识别装置100可以将检索到的候选激活词中的至少一个确定为激活词。

作为另一示例，语音识别装置100可以在确定激活词之前与服务器通信，该服务器关于多个情形存储适合于每个情形的候选激活词。基于在操作S510中获得的信息，语音识别装置100可以从服务器检索适合于当前情形的候选激活词。语音识别装置100可以将检索到的候选激活词中的至少一个确定为激活词。在服务器中所存储的用于每个情形的候选激活词可以由多个语音识别装置共享和使用。

语音识别装置100可以基于语音识别装置100的语音识别功能被灵敏地激活的程度来确定要确定的激活词的数量。可以针对每个情形对候选激活词分配优先级。语音识别装置100可以基于语音识别功能被灵敏地激活的程度和优先级，将候选激活词中的一些确定为至少一个激活词。

语音识别装置100可以基于与语音识别装置100的用户的特征有关的信息来确定至少一个激活词。作为示例，由各个年龄的家庭使用的语音识别装置100可以通过以下方式确定不同的激活词：通过识别言语年龄、通过识别用户的面部或最初输入用户信息来识别语音年龄。

例如，当父母在房屋中使用语音识别装置100时，语音识别装置100可以将与房屋有关的所有候选激活词——诸如TV、空调、真空吸尘器、天气、日程、互联网连接、观看儿童电视频道、加热、冷却、湿度控制等——确定为至少一个激活词。另一方面，当儿童在房屋中使用语音识别装置100时，语音识别装置100可以确定激活词，以便仅对允许通过儿童的语音命令来控制的语音命令进行响应。因此，语音识别装置100可以仅将一些候选激活词——诸如天气、观看儿童电视频道等——确定为至少一个激活词。

在操作S530中，语音识别装置100可以接收并且储输入音频信号。

在操作S540中，语音识别装置100可以确定是否已经存储了长度长于预定时间的输入音频信号。如果存储了长度长于预定时间的输入音频信号，则在操作S560，语音识别装置100可以删除过去接收的输入音频信号。

虽然图5示出了以预定时间长度为单位来接收音频信号的示例，但是本公开的实施例不限于图5中所示的实施例。如上所述，语音识别装置100可以以句子为单位接收和存储音频信号。替选地，语音识别装置100可以以预定大小的数据为单位接收和存储音频信号。

在操作S550中，根据实施例的语音识别装置100可以确定是否已经接收到用于说出激活词的语音信号。

当接收到用于说出激活词的语音信号时，在操作S570中，语音识别装置100可以向服务器(或嵌入式语音识别模块)发送存储的输入音频信号和之后接收的输入音频信号。语音识别装置100可以从存储的输入音频信号中搜索并且提取包括包含激活词的句子的信号。语音识别装置100可以将包括包含激活词的句子的音频信号发送到服务器(或嵌入式语音识别模块)。

语音识别装置100可以使用以下方法来搜索和提取包括包含激活词的句子的信号。

作为示例，语音识别装置100可以基于静音区段(silence section)的长度、句子结构和语调中的至少一个来确定句子的开始和结束。语音识别装置100可以基于确定的结果将与包括激活词的句子相对应的音频信号发送到服务器(或嵌入式语音识别模块)。

作为另一示例，语音识别装置100可以从说出激活词的语音信号中确定预定长度的过去音频信号和当前接收的音频信号作为句子的开始和结束。语音识别装置100可以基于确定的结果将与包括激活词的句子相对应的音频信号发送到服务器(或嵌入式语音识别模块)。

作为另一示例，语音识别装置100可以基于激活词的语法位置来确定说出激活词的语音信号之前的可变长度的过去语音信号和说出激活词的语音信号之后的可变长度的语音信号作为句子的开始和结束。语音识别装置100可以基于确定的结果将与包括激活词的句子相对应的音频信号发送到服务器(或嵌入式语音识别模块)。

在操作S550中，如果确定尚未接收到用于说出激活词的语音信号，则语音识别装置100可以重复地执行接收和存储长度长于预定长度的输入音频信号的操作。

在操作S580中，语音识别装置100可以执行语音识别。语音识别装置100可以从输入音频信号中提取语音信号的频率特征，并使用声学模型和语言模型来执行语音识别。在操作S590中，根据实施例的语音识别装置100可以输出执行语音识别的结果。语音识别装置100可以以诸如声音、光、图像、振动等的各种方式输出执行语音识别的结果。

图6是根据本公开的实施例的输出通过语音识别装置执行的语音识别的结果的方法的流程图。

参考图6，图6中的操作S610至S650可以对应于图3中的操作S330。

在操作S610中，根据实施例的语音识别装置100可以分析语音命令。语音识别装置100可以通过自然语言理解和对话管理来分析语音命令。

语音识别装置100可以对执行语音识别的结果执行自然语言理解。语音识别装置100可以通过对语音命令执行语音识别来提取估计已经由说话者说出的文本。语音识别装置100可以对估计已经由说话者说出的文本执行自然语言理解。语音识别装置100可以通过自然语言处理来掌握说话者的意图。

在操作S620中，语音识别装置100可以确定语音命令是否是用于请求语音识别装置100的响应的直接命令。语音识别装置100可以基于语音命令的句子结构、语调、接收语音命令的方向、语音命令的大小和自然语言理解的结果中的至少一个来确定语音命令是直接命令还是间接命令。

语音命令可以意味着由语音识别装置100接收的任何声学语音信号，或者可以意味着由语音识别装置100接收的声学语音信号中由人类说出的语音信号。直接命令可以包括语音命令，该语音命令由用户有意地说出以允许语音识别装置100执行对语音命令进行响应的操作。间接指令可以包括由用户说出的语音命令中除了直接命令之外的所有语音命令。例如，间接命令可以包括由用户说出的、不意图通过语音识别装置100执行语音识别的语音信号。在操作S630中，当确定语音命令是直接命令时，根据实施例的语音识别装置100可以执行对语音命令进行响应的操作。

如果确定语音命令是除了用于请求来自语音识别装置100的响应的直接命令之外的间接命令，则在操作S640，根据实施例的语音识别装置100可以显示对语音命令的响应是可能的。语音识别装置100可以在等待对语音命令的响应的同时通知用户正在等待响应。

在操作S650中，语音识别装置100可以从用户接收确认命令。当从用户接收到确认命令时，语音识别装置100可以执行对语音命令进行响应的操作。

图7A和图7B示出了语音识别装置被包括在家用机器人中的示例。

参考图7A和图7B，本公开的实施例不限于图7A和图7B，并且语音识别装置100可以是各种移动计算装置或非移动计算装置。替选地，语音识别装置100可以被包括在控制连接房屋中的各种家用电器的家庭网络的中央控制装置中。

图7A和图7B示出了根据本公开的实施例、语音识别装置100将“weather(天气)”确定为与当前情形相对应的激活词的情况。

参考图7A，用户10可以在与另一说话者的对话期间说出“I do not know whatthe weather will be like tomorrow(我不知道明天会是什么样的天气)”，其表达了想知道明天的天气的意图。因为语音识别装置100已经接收到用于说出激活词“weather(天气)”的语音信号，所以语音识别装置100可以对包括激活词的句子“I do not know what theweather will be like tomorrow”执行语音识别。当接收到用于说出激活词“weather”的语音信号时，语音识别装置100可以激活语音识别功能。

语音识别装置100可以对作为包括用于说出激活词“weather”的语音信号的整个语音命令的“I do not know what the weather will be like tomorrow”执行语音识别。

替选地，当接收到用于说出激活词“weather”的语音信号时，语音识别装置100可以向服务器发送在激活词之后(或之前)接收的语音命令“I do not know what(我不知道……什么样……)”，以允许服务器执行语音识别。另外，语音识别装置100可以将先前接收并且存储的语音命令与在激活词之后接收的语音命令一起发送到服务器，并且从服务器接收由服务器执行的语音识别的结果。当接收到用于说出激活词“weather”的语音信号时，语音识别装置100可以对在激活词之前接收并且存储的语音命令“tomorrow(明天)”、激活词“weather”以及在激活词之后接收的语音命令“I do not know what”执行语音识别。

语音识别装置100可以将作为与执行语音识别的结果相对应的关键词的“tomorrow weather(明天天气)”发送到外部服务器，并且可以从服务器接收和存储“sunny(晴天)”作为与发送的关键词有关的信息。

语音识别装置100可以对已经执行了语音识别的语音命令执行自然语言处理和句子结构分析，以确定语音命令是否是用于请求语音识别装置100的响应的直接命令。例如，语音识别装置100可以确定图7A的说出的语音命令是间接命令。

因为确定语音命令是除了用于请求语音识别装置100的响应的直接命令之外的间接命令，所以语音识别装置100可以显示对语音命令的响应是可能的。例如，语音识别装置100可以以诸如声音、光、图像、振动等的各种方式通知用户10正在等待响应。

参考图7B，用户10可以识别出语音识别装置100正在等待响应，并且可以发出(issue)确认命令以请求对语音命令的响应。例如，用户10可以通过说出作为先前确认的确认命令的“Say Robot(说话，机器人)”来向语音识别装置100发出确认命令。当从用户10接收到确认命令时，语音识别装置100可以输出语音“It will be sunny tomorrow(明天将是晴天)”作为对语音命令进行响应的操作。

如上所述，即使用户10没有执行用于直接激活语音识别功能的操作，语音识别装置100也可以仅通过做出适合于情形的自然话语来执行语音识别。语音识别装置100可以通过将在由用户10说出的在适合于情形的自然语言中的所包括的词识别为激活词来执行语音识别。

另外，如图7A和图7B所示，可以在接收用户10的语音命令“Say Robot”之前预先获取关于用户10想要知道的内容“today’s weather(今天的天气)”。语音识别装置100可以在用户10说出语音命令之前提供主动服务，使得语音识别装置100执行语音识别功能。

图7A和图7B示出了在语音命令是间接命令时语音识别装置100以通知用户10对语音命令的响应正在等待的方式进行操作的示例。然而，实施例不限于图7A和图7B。

例如，如图8所示，语音识别装置100可以仅在语音命令是用于请求语音识别装置100的响应的直接命令时输出执行语音识别的结果。语音识别装置100在语音命令不是用于请求语音识别装置100的响应的直接命令时，可以不采取单独的动作。

图8示出了根据本公开的实施例、语音识别装置100将“air conditioner(空调)”确定为与当前情形相对应的激活词的情况。

参考图8，第一用户10可以在与第二用户20的对话期间说出“Today is theweather to turn on the air conditioner(今天是打开空调的天气)”以说明当前天气。

因为语音识别装置100已经接收到用于说出激活词“air conditioner”的语音信号，所以语音识别装置100可以确定包括激活词的语音命令“Today is the weather toturn on the air conditioner”是直接命令还是间接命令。

语音识别装置100可以确定第一用户10的语音命令不是直接命令。例如，语音识别装置100可以确定第一用户10的语音命令不是直接命令，因为第一用户10的语音命令不具有提问或发出命令的句子结构。语音识别装置100可以不将包括语音命令的音频信号发送到服务器(或嵌入式语音识别模块)，因为确定第一用户10的语音命令不是直接命令。语音识别装置100可以忽略已经接收和存储的第一用户10的话语，并且重复重新接收和存储输入音频信号的操作。

接下来，在图8中，第二用户20可以响应于第一用户10的话语而说出“turn on theair conditioner(打开空调)”，其为请求语音识别装置100打开空调的语音命令。

因为语音识别装置100已经接收到用于说出激活词“air conditioner”的语音信号，所以语音识别装置100可以确定包括激活词的语音命令“turn on the airconditioner”是否是直接命令。

语音识别装置100可以确定第二用户20的语音命令是直接命令。例如，语音识别装置100可以确定第二用户20的语音命令是直接命令，因为第二用户20的语音命令具有发出命令的句子结构。语音识别装置100可以将包括包含激活词的语音命令的音频信号发送到服务器(或嵌入式语音识别模块)，因为确定第二用户20的语音命令是直接命令。服务器(或嵌入式语音识别模块)可以对语音命令执行语音识别。语音识别装置100可以控制空调，以使得响应于语音识别结果接通空调的电力。

图9是根据本公开的实施例的通过语音识别装置执行的确定语音命令是直接命令还是间接命令的方法的流程图。

参考图9，图9中的操作S910至S930对应于图6中的操作S610。

在操作S910中，语音识别装置100可以基于以自然语言理解为基础的匹配准确度来过滤语音命令。语音识别装置100可以基于自然语言理解来计算指示用户的语音命令可以与机器可识别命令匹配的程度的匹配准确度。语音识别装置100可以通过将计算出的匹配准确度与预定阈值进行比较来初始(primarily)确定语音命令是否是用于请求语音识别装置100的响应的直接命令。

在操作S920中，语音识别装置100可以通过分析语音命令的句子结构来二次(secondarily)确定语音命令是否是直接命令。语音识别装置100可以分析在语音命令中所包括的语素，并且基于最终结尾(ending)来分析语音命令的语句结构。例如，当语音识别装置100确定语音命令是疑问型句子(例如，“how…？(如何......？)”、“what…？(什么......？)”等)或祈使型句子(例如，“close…！(关闭......！)”、“stop…！(停止...！)”、“do…！(执行......！)”等)时，语音命令可以将权重分配给作为直接命令的可靠性值。

在操作S930中，语音识别装置100可以基于在操作S910和S920中计算出的可靠性值来过滤语音命令。语音识别装置100可以通过将通过操作S910和S920计算出的可靠性值与预定阈值进行比较来最终地确定语音命令是否是直接命令。

语音识别装置100可以在确定适合于情形的激活词之前根据每个情形提取候选激活词。语音识别装置100可以将提取的候选激活词存储在嵌入式数据库或在外部服务器中所包括的数据库中。

图10是根据本公开的实施例的通过语音识别装置执行的确定分别地对应于情形的候选激活词的方法的流程图。

参考图10，在操作S1010中，语音识别装置100可以对根据每个情形可以说出的语音命令进行分组。在每个情形下可以说出的语音命令可以包括在每个情形下预期由用户说出的语音命令或者在每个情形下已经由用户说出的语音命令。

语音识别装置100可以接收在多个情形下由用户说出的语料库(corpus)以及在接收的语料库中所包括的分组语音命令。语音识别装置100可以与语料库一起接收关于说出在语料库中所包括的语音命令的情形的信息。

在操作S1020中，语音识别装置100可以提取在关于针对每个情形可以说出的语音命令中所包括的词的统计。语音识别装置100可以提取在多个情形中的每个情形中接收的语音命令中所包括的多个词的频率。

在操作S1030中，语音识别装置100可以针对每个情形提取以高频率唯一地在语音命令中所包括的至少一个词。

语音识别装置100可以从以高频率唯一地在特定情形下说出的语音命令中所包括的词中排除在多个情形下说出的语音命令中共同地高于阈值频率频繁地出现的词。语音识别装置100可以将仅在特定情形下说出的语音命令中高于阈值频率频繁地出现的词确定为在特定情形下说出的语音命令中以高频率唯一地出现的词。

在操作S1040中，语音识别装置100可以针对每个情形将提取的至少一个词确定为候选激活词。语音识别装置100可以针对多个情形存储适合于每个情形的候选激活词。

语音识别装置100可以从存储的数据中提取与当前情形相对应的至少一个候选激活词。语音识别装置100可以将提取的候选激活词中的至少一个确定为激活词。

参考图10，作为示例，已经描述了通过分析包括在多个情形下可能说出的语音命令的语料库来确定候选激活词的情况。然而，本公开的实施例不限于图10。用户可以直接地输入或删除与每个情形相对应的候选激活词。语音识别装置100可以基于用户输入将与特定情形相对应的候选激活词存储在数据库中或者删除特定候选激活词。例如，如果用户在房屋中新近安装了空气净化器，则语音识别装置100可以基于用户输入添加“air purifier(空气净化器)”作为与房屋相关联的候选激活词。

在下文中，将描述根据本公开的实施例的语音识别装置100的组件。下面描述的语音识别装置100的每个组件可以执行由上述语音识别装置100执行的语音识别的方法的每个操作。

图11A和图11B是根据本公开的实施例的语音识别装置的框图。

参考图11A，语音识别装置100可以包括接收器1110、处理器1120和输出器1130。然而，语音识别装置100可以通过比图11A和图11B中所示的所有组件更多的组件来实施。如图11B所示，语音识别装置100还可以包括存储器1140、用户输入器1150、通信器1160和感测单元1170中的至少一个。

例如，根据本公开的实施例的语音识别装置100可以包括在非移动计算设备、移动计算设备、车辆的电子控制装置和服务器中的至少一个中，或者可以有线地或无线地连接到非移动计算设备、移动计算设备、车辆的电子控制装置和服务器中的至少一个。

接收器1110可以接收音频信号。例如，接收器1110可以通过由麦克风将外部声音转换为电声数据来直接地接收音频信号。替选地，接收器1110可以接收从外部装置发送的音频信号。在图11A中，接收器1110被示出为包括在语音识别装置100中，但是接收器1110可以包括在单独的装置中并且可以通过线缆或无线地连接到语音识别装置100。

处理器1120可以控制语音识别装置100的整体操作。例如，处理器1120可以控制接收器1110和输出器1130。根据实施例的处理器1120可以使用人工智能技术控制语音识别装置100的操作。虽然图11A示出了一个处理器，但是语音识别装置可以包括一个或多个处理器。

处理器1120可以基于与语音识别装置100在其中进行操作的情形有关的信息来确定至少一个激活词。处理器1120可以获得例如语音识别装置100的位置、时间、语音识别装置100是否连接到另一电子装置、语音识别装置100是否正在移动以及与语音识别装置100的用户的特征有关的信息中的至少一个来作为与语音识别装置100在其中进行操作的情形有关的信息。

在确定与当前情形相对应的至少一个激活词时，处理器1120可以基于语音识别装置100的语音识别功能被灵敏地激活的程度来确定与当前情形相对应的至少一个激活词的数量。

当确定已经接收到用于说出在至少一个激活词中所包括的激活词的语音信号时，处理器1120可以对输入音频信号执行语音识别。

处理器1120可以从输入自接收器1110的音频信号中检测语音信号，并且对语音信号执行语音识别。处理器1120可以包括用于执行语音识别的语音识别模块。处理器1120可以从输入音频信号中提取语音信号的频率特征，并且使用声学模型和语言模型来执行语音识别。频率特征可以指代通过分析输入的声学的频谱所提取的输入的声学的频率分量的分布。因此，如图11B所示，语音识别装置1100还可包括存储声学模型和语言模型的存储器1140。

当确定已经接收到用于说出激活词的语音信号时，处理器1120可以对包括用于说出激活词的语音信号的输入音频信号执行语音识别。

处理器1120可以在执行语音识别之前接收并且存储输入音频信号。处理器1120可以确定输入音频信号是否包括用于说出激活词的语音信号。当确定输入音频信号包括用于说出在至少一个激活词中所包括的激活词的语音信号时，处理器1120可以对存储的输入音频信号和随后接收的输入音频信号执行语音识别。

处理器1120可以确定是立即地输出执行语音识别的结果，还是在从用户接收到确认命令时输出执行语音识别的结果。处理器1120可以通过对输入音频信号执行语音识别来提取用户说出的文本。处理器1120可以基于对提取的文本的自然语言理解和句子分析来确定在输入音频信号中所包括的语音命令是否是用于请求语音识别装置的响应的直接命令。

当确定语音命令是直接命令时，处理器1120可以执行对语音命令进行响应的操作。当确定语音命令不是直接命令时，处理器1120可以控制输出器1130显示对语音命令的响应是可能的。当通过接收器1110从用户接收到确认命令时，处理器1120可以执行对语音命令进行响应的操作。

根据实施例的处理器1120可以采用执行特定功能的硬件和/或软件组件来实施。例如，处理器1120可以包括：用户情形分析器(未示出)，用于分析语音识别装置100在其中进行操作的情形；候选激活词提取器(未示出)，用于从数据库中提取与当前情形相对应的候选激活词；激活词切换器(未示出)，用于根据当前情形切换激活词；以及音频信号处理器(未示出)，用于处理包括用于说出激活词的语音命令的音频信号。

由处理器1120执行的功能可以通过至少一个微处理器来实施，或者通过用于相关功能的电路组件来实施。由处理器1120执行的功能的一些或所有可以通过以在处理器1120中运行的各种编程语言或脚本语言配置的软件模块来实施。图11A和图11B示出了语音识别装置100包括一个处理器1120，但是实施例不限于此。语音识别装置100可以包括多个处理器。

根据实施例的输出器1130可以输出对输入音频信号执行的语音识别的结果。输出器1130可以向用户通知执行语音识别的结果或者将结果发送到外部设备(例如，智慧电话、智慧电视、智慧手表、服务器等)。例如，输出器1130可以包括能够输出音频信号或视频信号的扬声器或显示器。

替选地，输出器1130可以执行与执行语音识别的结果相对应的操作。例如，语音识别装置100可以确定与执行语音识别的结果相对应的语音识别装置100的功能，并且可以通过输出器1130输出执行功能的屏幕。替选地，语音识别装置100可以向外部服务器发送与执行语音识别的结果相对应的关键词，从服务器接收与发送的关键词有关的信息以及通过输出器1130在屏幕上输出信息。

输出器1130可以输出从外部接收的信息、由处理器1120处理的信息或者以光、声音、图像和振动中的至少一个的形式存储的信息。例如，输出器1130还可以包括用于输出文本或图像的显示器、用于输出声音的声学输出器和用于输出振动的振动电机中的至少一个。

图11B的存储器1140可以存储由处理器1120执行的语音识别的结果。存储器1140可以存储通过接收器1110接收的输入音频信号。存储器1140可以以句子为单位、以预定的时间长度为单位或以预定的数据大小为单位来接收和存储输入音频信号。

存储器1140可以存储在处理器1120中运行的指令以控制语音识别装置100。

根据实施例的存储器1140可以存储包括分别对应于多个情形的多个候选激活词的数据库。在确定至少一个激活词时，处理器1120可以从在存储器1140中所存储的数据中检索与语音识别装置100在其中进行操作的情形相对应的至少一个候选激活词。处理器1120可以将检索的候选激活词中的至少一个确定为激活词。

存储器1140可以包括数据库，该数据库包括关于句子结构和语法的信息。处理器1120可以通过使用在存储器1140中所存储的关于句子结构和语法的信息来确定在输入音频信号中所包括的语音命令是否是直接命令。

存储器1140可以包括以下中的至少一个类型的存储介质：闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如，安全数字(SD)或极速数字(XD))、随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁盘、磁盘、磁盘或光盘。

根据实施例的用户输入器1150可以接收用于控制语音识别装置100的用户输入。用户输入器1150可以包括用户输入设备，该用户输入设备包括用于接收用户的触摸的触摸板、用于接收用户的推动操作的按钮、用于接收用户的旋转操作的滚轮、键盘、圆顶开关等，但不限于此。

通信器1160可以通过有线通信或无线通信与外部电子装置或服务器通信。例如，通信器1160可以与存储数据库的服务器通信，该数据库包括针对多个情形适合于每个情形的候选激活词。通信器1160可以从服务器检索和提取适合于当前情形的至少一个候选激活词。处理器1120可以将检索的候选激活词中的至少一个确定为激活词。

通信器1160可以从外部电子装置获取与语音识别装置100在其中进行操作的情形有关的信息。通信器1160可以获取由外部电子装置感测的信息作为与语音识别装置100在其中进行操作的情形有关的信息。

通信器1160可以与执行语音识别功能的服务器通信。例如，通信器1160可以将包括包含激活词的句子的音频信号发送到服务器。通信器1160可以接收由服务器执行的语音识别的结果。

通信器1160可以包括近距离通信模块、有线通信模块、移动通信模块、广播接收模块等。

感测单元1170可以包括一个或多个传感器并且感测用于确定语音识别装置100在其中进行操作的情形的各种信息。例如，感测单元1170可以感测语音识别装置100的位置、与语音识别装置100的运动有关的信息、可以标识使用语音识别装置100的用户的信息、语音识别装置100的周围环境信息等。

感测单元1170可以包括照度传感器、生物传感器、倾斜传感器、位置传感器、接近传感器、地磁传感器、陀螺仪传感器、温度/湿度传感器，红外线传感器和速度/加速度传感器中的至少一个或其组合。

图11A和图11B中所示的框图也可以适用于语音识别服务器。语音识别服务器可以包括用于从语音识别装置接收输入音频信号的接收器。语音识别服务器可以有线地或无线地连接到语音识别装置。

另外，语音识别服务器可以包括处理器和输出器，并且还可以包括存储器和通信器。语音识别服务器的处理器可以从输入音频信号中检测语音信号，并且对语音信号执行语音识别。

语音识别服务器的输出器可以将执行语音识别的结果发送到语音识别装置。语音识别装置可以输出从语音识别服务器接收的执行语音识别的结果。

上述实施例可以实施在通用数字计算机中，该通用数字计算机可以被创建为可以在计算机中运行的程序并且使用计算机可读的介质来操作程序。此外，可以通过各种手段将上述实施例中使用的数据的结构记录在计算机可读介质上。此外，上述实施例可以以包括由计算机运行的、可由计算机运行的指令(诸如程序模块)的记录介质的形式体现。例如，采用软件模块或算法实施的方法可以作为可以由计算机读取和运行的代码或程序指令而存储在计算机可读介质中。

本公开的一个或多个实施例可以被编写为计算机程序，并且可以在使用非暂时性计算机可读记录介质运行程序的通用数字计算机中实施。另外，本公开的实施例中使用的数据结构可以通过各种手段写入非暂时性计算机可读记录介质中。一个或多个实施例可以体现为记录介质上的计算机可读代码/指令，例如，将在计算机中运行的程序模块，其包括计算机可读命令。例如，实施为软件模块或算法的方法可以存储为在非暂时性计算机可读记录介质上可运行的计算机可读代码或程序指令。

计算机可读介质可以包括可以由计算机访问的任何记录介质、易失性和非易失性介质以及可拆卸和不可拆卸介质。计算机可读介质的示例包括但不限于：磁存储介质(例如，ROM、软盘、硬盘等)、光学记录介质(例如，压缩盘只读存储器(CD-ROM)或者数字通用盘(DVD))等。另外，计算机可读介质可以包括计算机存储介质。

非暂时性计算机可读记录介质可以分布在网络耦合的计算机系统上，并且存储在分布式记录介质中的数据(例如程序命令和代码)可以通过使用至少一个计算机来运行。

本公开中描述的特定执行仅是示例性的，并且不旨在以任何方式限制本公开的范围。为了描述的简洁，根据相关技术可以省略对系统的各种电子组件、控制系统、软件和其他功能方面的描述。

当在本文中使用时，术语“单元”、“模块”等意味着用于处理至少一个功能或操作的单元，其可以以硬件或软件或者硬件和软件的组合来实施。术语“单元”和“模块”可以通过存储在寻址存储介质上并且可由处理器运行的程序来实施。

例如，作为示例，“单元”和“模块”可以包括：组件(诸如软件组件、面向对象的软件组件、类组件和任务组件)、处理、功能、属性、过程、子例程、程序代码片段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、数组和变量。

应当理解的是，本文描述的实施例应当仅被认为是描述性的，而不是为了限制的目的。通常应当认为对每个实施例中的特征或方面的描述可用于其他实施例中的其他类似的特征或方面。

虽然已经参考本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，在不脱离如所附的权利要求及其等同物所定义的本公开的精神和范围的情况下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种语音识别方法，包括：

基于与语音识别装置在其中进行操作的情形有关的信息来确定至少一个激活词；

接收输入音频信号；

基于用于说出在至少一个激活词中所包括的激活词的语音信号是否已经被包括在输入音频信号中，对输入音频信号执行语音识别；以及

输出执行语音识别的结果，

其中，所述执行语音识别包括：

通过对输入音频信号执行语音识别来提取由用户说出的文本；

基于所提取的文本的自然语言理解和句子结构分析来确定包括在输入音频信号中的语音命令是直接命令还是间接命令，其中，所述直接命令是用户说出的语音，意图让语音识别装置执行对语音命令进行响应的操作，并且其中，所述间接命令是用户说出的语音，使得语音识别装置不能确定用户意图让语音识别装置执行对语音命令进行响应的操作；

当确定语音命令是直接命令时，执行对语音命令进行响应的操作；

当确定语音命令是间接命令时：

输出指示能够对语音命令进行响应的信息，

确定是否检测到来自用户的确认命令，并且

响应于检测到来自用户的确认命令，执行对语音命令进行响应的操作，

其中，所述至少一个激活词对应于语音识别装置的可执行功能。

2.根据权利要求1所述的语音识别方法，其中，与情形有关的信息包括以下中的至少一个：语音识别装置的位置、时间、语音识别装置是否连接到另一电子装置、语音识别装置是否移动或与语音识别装置的用户的特征有关的信息。

3.根据权利要求1所述的语音识别方法，其中，确定至少一个激活词包括：基于语音识别装置的激活的语音识别功能的灵敏程度来确定所确定的至少一个激活词的数量。

4.根据权利要求1所述的语音识别方法，还包括：存储分别与多个情形相对应的多个激活词，

其中，确定至少一个激活词包括：

获得与语音识别装置在其中进行操作的情形有关的信息；和

确定与语音识别装置在其中进行操作的情形相对应的至少一个激活词。

5.根据权利要求1所述的语音识别方法，

其中，接收输入音频信号包括存储输入音频信号，以及

其中，执行语音识别包括：

确定输入音频信号是否包括用于说出在至少一个激活词中所包括的激活词的语音信号，和

当确定输入音频信号包括用于说出在至少一个激活词中所包括的激活词的语音信号时，对存储的输入音频信号和随后接收的输入音频信号执行语音识别。

6.根据权利要求1所述的语音识别方法，其中，执行语音识别包括：对包括用于说出在至少一个激活词中所包括的激活词的语音信号的输入音频信号执行语音识别。

7.根据权利要求1所述的语音识别方法，还包括：

接收关于在多个情形中从用户接收到的语音命令的信息，其中，接收由语音识别装置执行；

提取在语音命令中所包括的多个词；以及

基于在多个情形中的特定情形中接收的语音命令中所包括的多个词的频率，存储至少一个词作为与特定情形相对应的激活词。

8.根据权利要求1所述的语音识别方法，其中，确定至少一个激活词包括：

获得关于连接到语音识别装置的至少一个电子装置的信息；以及

将与至少一个电子装置有关的词确定为至少一个激活词。

9.一种语音识别装置，包括：

接收器，被配置为接收输入音频信号；

至少一个处理器，被配置为

基于与语音识别装置在其中进行操作的情形有关的信息来确定至少一个激活词，并且

基于用于说出在至少一个激活词中所包括的激活词的语音信号是否已经被包括在输入音频信号中，对输入音频信号执行语音识别；以及输出器，被配置为输出语音识别的结果，

其中，所述至少一个处理器还被配置为：

基于所提取的文本的自然语言理解和句子结构分析来确定包括在输入音频信号中的语音命令是直接命令还是间接命令，其中，所述直接命令是用户说出的语音，意图让语音识别装置执行对语音命令进行响应的操作，并且其中，所述间接命令是用户说出的语音，使得语音识别装置不能确定意图让语音识别装置执行对语音命令进行响应的操作；

当确定语音命令是间接命令时：

输出指示能够对语音命令进行响应的信息，

确定是否检测到来自用户的确认命令，并且

10.根据权利要求9所述的语音识别装置，其中，与情形有关的信息包括以下中的至少一个：语音识别装置的位置、时间、语音识别装置是否连接到另一电子装置、语音识别装置是否移动或与语音识别装置的用户的特征有关的信息。

11.根据权利要求9所述的语音识别装置，其中，在确定至少一个激活词时，处理器还被配置为基于语音识别装置的激活的语音识别功能的灵敏程度来确定所确定的至少一个激活词的数量。

12.一种其上记录有至少一个程序的非暂时性计算机可读记录介质，所述至少一个程序包括用于允许语音识别装置执行语音识别方法的指令，该语音识别方法包括：

接收输入音频信号；

输出执行语音识别的结果，

其中，所述执行语音识别包括：

当确定语音命令是间接命令时：

输出指示能够对语音命令进行响应的信息，

确定是否检测到来自用户的确认命令，并且