CN112912955B

CN112912955B - 提供基于语音识别的服务的电子装置和系统

Info

Publication number: CN112912955B
Application number: CN201980069994.3A
Authority: CN
Inventors: 河志宪; 安纽现
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-10-23
Filing date: 2019-10-23
Publication date: 2024-01-09
Anticipated expiration: 2039-10-23
Also published as: EP3847641A4; CN112912955A; US20200125603A1; EP3847641A1; WO2020085784A1; KR20200045851A

Abstract

在根据实施例的系统中包括的存储器，可以被配置为存储自动语音识别(ASR)模块和自然语言理解(NLU)模块，并且存储器被配置为存储指令，该指令在被执行时，使处理器：通过麦克风接收用于调用基于语音的智能辅助服务的唤醒话语；在唤醒话语之后，通过麦克风接收第一用户话语；使用NLU模块处理第一用户话语；基于处理后的第一用户话语生成第一响应；在接收到唤醒话语之后选定的时间间隔内，通过麦克风接收第二用户话语；使用ASR模块，提取第二用户话语的文本；当第二用户话语的文本中包括选定词或选定短语时，使用NLU模块处理第二用户话语以生成第二响应；以及当第二用户话语的文本中不包括选定词或选定短语时，不生成对第二用户话语的响应。

Description

提供基于语音识别的服务的电子装置和系统

技术领域

本公开涉及用于提供语音识别服务的技术。

背景技术

由于电子装置具有各种功能和高性能，所以语音识别技术正越来越多地被应用于电子装置。应用了语音识别技术的电子装置可以基于用户的话语来识别用户的意图(功能请求)，并且可以根据用户的意图来提供响应。当接收到唤醒话语(例如，“嗨Bixby”)或按钮输入时，电子装置可以运行指定的应用(智能应用)或提供语音识别服务的智能辅助服务，可以通过指定的应用接收用户话语，并且可以在根据基于用户话语的用户意图提供单个响应后终止指定的应用。之后，电子装置需要再次接收唤醒话语或按钮输入以提供语音识别服务。

以上信息仅作为背景信息提供，以帮助理解本公开。关于以上内容中的任何内容是否可以用作关于本公开的现有技术，没有做出任何确定，也没有做出任何断言。

发明内容

技术问题

因此，出于通过使用语音识别服务来请求多种功能的目的，用户需要重复地交替执行唤醒话语(或按钮输入)和用户话语，这是不便的。

问题的解决方案

根据本公开的一方面，一种系统可以包括：麦克风；扬声器；至少一个处理器，所述至少一个处理器可操作地连接到所述麦克风和所述扬声器；以及至少一个存储器，所述至少一个存储器可操作地连接到所述处理器。所述存储器可以被配置为存储自动语音识别(ASR)模块和自然语言理解(NLU)模块，并且所述存储器可以被配置为存储指令，所述指令在被执行时，使所述处理器：通过所述麦克风，接收用于调用基于语音的智能辅助服务的唤醒话语；在所述唤醒话语之后，通过所述麦克风接收第一用户话语；使用所述NLU模块处理所述第一用户话语；基于处理后的第一用户话语生成第一响应；在接收到所述唤醒话语之后选定的时间间隔内，通过所述麦克风接收第二用户话语；使用所述ASR模块，提取所述第二用户话语的文本；当所述第二用户话语的文本中包括选定词或选定短语时，使用所述NLU模块处理所述第二用户话语以生成第二响应；以及当所述第二用户话语的文本中不包括选定词或选定短语时，不生成对所述第二用户话语的响应。

根据本公开的另一方面，一种系统可以包括：用户界面；麦克风；扬声器；至少一个处理器，所述至少一个处理器可操作地连接到所述用户界面、所述麦克风和所述扬声器；以及至少一个存储器，所述至少一个存储器可操作地连接到所述处理器。所述存储器可以被配置为存储自动语音识别(ASR)模块和自然语言理解(NLU)模块，并且所述存储器可以被配置为存储指令，所述指令在被执行时，使所述处理器：通过所述用户界面，接收用于调用基于语音的智能辅助服务的用户输入；在接收到所述用户输入之后，通过所述麦克风接收第一用户话语；使用所述NLU模块处理所述第一用户话语；基于处理后的第一用户话语生成第一响应；在接收到所述用户输入之后选定的时间间隔内，通过所述麦克风接收第二用户话语；使用所述ASR模块，提取所述第二用户话语的文本；当所述第二用户话语的文本中包括选定词或选定短语时，使用所述NLU模块处理所述第二用户话语以生成第二响应；以及当所述第二用户话语中不包括选定词或选定短语时，不生成对所述第二用户话语的响应。

根据本公开的另一方面，一种电子装置可以包括：通信电路；输入电路；麦克风；可操作地连接到所述通信电路、所述输入电路和所述麦克风的处理器；以及可操作地连接到所述处理器的存储器。所述存储器可以存储指令，所述指令在被执行时，使所述处理器：当通过所述麦克风接收到用于调用语音识别服务的唤醒话语时，执行能够提供语音识别服务的智能应用；使用所述智能应用，通过所述麦克风接收第一用户话语；使用所述智能应用，执行基于所述第一用户话语确定的第一动作；在从执行所述第一动作的时间点开始选定的时间内，通过所述麦克风接收第二用户话语；使用所述智能应用，确定在所述选定时间内是否识别出基于所述第二用户话语的选定的词或短语；当在所述选定时间内基于所述第二用户话语识别出选定词或选定短语时，使用所述智能应用执行基于所述第二用户话语确定的第二动作；以及当在所述选定时间内未识别出所述第二用户话语中的选定词或选定短语时，终止所述智能应用。

通过以下结合附图公开了本公开的各种实施例的详细描述，本公开的其他方面、优点和显着特征对于本领域技术人员将变得更加明显。

发明的有益效果

本公开的各方面将至少解决上述问题和/或缺点，并至少提供下述优点。因此，本公开的一方面在于提供一种提供语音识别服务的电子装置和系统，该语音识别服务能够在一个唤醒话语之后提供分别对应于多个用户话语的多个响应。

附图说明

通过以下结合附图的描述，本公开的某些实施例的上述和其他方面、特征和优点将变得更加明显，其中：

图1是根据实施例的集成智能系统的配置图；

图2是根据实施例的电子装置的框图；

图3a示出了根据实施例的在未设置对话模式的使用的情况下的用于电子装置的语音识别服务的操作模式；

图3b示出了根据实施例的在未设置对话模式的使用的情况下的语音识别服务的示例；

图4a示出了根据实施例的在设置了对话模式的使用的情况下的用于电子装置的语音识别服务的操作模式；

图4b示出了根据实施例的在设置了对话模式的使用的情况下的语音识别服务的示例；

图5a示出了根据实施例的用于设置对话模式的使用的UI屏幕；

图5b示出了根据实施例的用于设置对话模式的时间的UI屏幕；

图5c示出了根据实施例的用于设置对话模式的触发词的UI屏幕的示例；

图5d示出了根据实施例的用于设置对话模式的触发词的UI屏幕的另一示例；

图6示出了根据实施例的处理器的组件的示例；

图7示出了根据实施例的处理器的组件的另一示例；

图8示出了根据实施例的由集成智能系统进行的语音识别服务提供方法；

图9示出了根据实施例的由电子装置进行的语音识别服务提供方法；

图10示出了根据各种实施例的在网络环境中的电子装置的框图；

图11是示出了根据实施例的集成智能系统的框图；

图12是示出了根据实施例的概念和动作之间的关系信息被存储在数据库中的形式的图；以及

图13是示出根据实施例的用户终端显示用于处理通过智能应用接收到的语音输入的屏幕的视图。

具体实施方式

图1是根据实施例的集成智能系统的配置图。

参照图1，根据实施例，当通过麦克风接收唤醒话语(例如，嗨Bixby)时，电子装置20可以运行提供语音识别服务的智能应用(或智能代理)或智能辅助服务。唤醒话语可以包括特定词、特定短语或特定句子，并且可以是具有特定的用户的声学特性(例如，特定频率特性)的话语。根据各种实施例，在电子装置20包括输入电路(例如，触摸传感器或物理按钮)的情况下，当电子装置20通过输入电路识别到指定输入(例如，触摸或按压)时，电子装置20可以运行智能应用或智能辅助服务。

根据实施例，当通过麦克风接收第一用户话语(语音输入)时，电子装置20的智能应用或智能辅助服务可以基于第一用户话语根据用户意图执行动作。例如，当接收到第一用户话语时，电子装置20的智能应用或智能辅助服务可以将第一用户话语转换为第一语音数据(例如，脉冲编码调制(PCM)数据)并且可以向智能服务器10发送第一语音数据。当接收到第一语音数据时，智能服务器10可以将第一语音数据转换为文本数据，并且可以基于转换后的文本数据确定用户的意图。智能服务器10可以根据所确定的用户意图来确定第一动作，可以生成与所确定的第一动作的运行相关联的信息，并且可以将所生成的与第一动作的运行相关联的信息发送给电子装置20。例如，与第一动作的运行相关联的信息可以包括执行第一动作的应用的信息和由相应的应用运行的功能信息。当从智能服务器10接收与第一动作相关联的信息时，电子装置20可以由智能应用或智能辅助服务基于与第一动作的运行相关联的信息来执行与第一用户话语相对应的第一动作。在执行第一动作时或当第一动作的运行完成时，电子装置20可以输出与第一动作的运行相关联的第一声音。例如，与第一动作的运行相关联的第一声音可以是从智能服务器10提供的声音，或者可以是电子装置20基于与第一动作相关联的信息生成的声音。例如，与第一动作的运行相关联的第一声音可以是引导执行第一动作的过程的声音或引导执行第一动作的结果的声音。

根据实施例，电子装置20的智能应用或智能辅助服务可以基于在从第一动作的运行完成的时间点开始的选定时间内通过麦克风接收到的第二用户话语，确定是否识别出触发词。当基于在从第一动作的运行完成的时间点开始的选定时间内接收到的第二用户话语识别出触发词时，电子装置20的智能应用或智能辅助服务可以执行基于包含触发词的句子而确定的第二动作。另一方面，当基于在从第一动作的运行完成的时间点开始的选定时间内的第二用户话语没有识别出触发词时，电子装置20的智能应用或智能辅助服务可以终止。

根据上述实施例，电子装置20可以通过一次尝试(例如，唤醒话语或指定输入)执行分别与多个用户话语相对应的多个动作，以运行智能应用或智能辅助服务(或调用语音识别服务)。

图2是根据实施例的电子装置的框图。

参照图2，电子装置20可以包括输入电路210、麦克风220、通信电路230、扬声器240、存储器250和处理器260。在实施例中，电子装置20可以排除一些组件或者可以进一步包括其他附加组件。例如，电子装置20可以不包括输入电路210。在实施例中，电子装置20的一些组件可以被组合以形成一个实体，该实体可以相同地执行相应组件在组合之前的功能。

根据实施例，输入电路210可以包括触摸屏显示器、可按压按钮或可触摸按钮中的至少一个。例如，可按压按钮或可触摸按钮可以是设置在电子装置20的前表面或侧表面上的按钮。当输入电路210包括触摸屏显示器时，电子装置20可以通过触摸屏显示器提供显示功能。

根据实施例，麦克风220可以接收用户话语。例如，麦克风220可以接收用户话语，并且可以输出与接收到的用户话语相对应的模拟或数字信号。麦克风220可以包括始终启用的第一麦克风221(例如，低功率麦克风)和取决于处理器260的指令而启用或停用的第二麦克风222(例如，高性能麦克风)。在至少不运行智能应用或智能辅助服务的状态下，停用第二麦克风222。在本说明书中，实施例被例示为包括第一麦克风221和第二麦克风222的麦克风220。然而，实施例不限于此。例如，麦克风220可以仅包括始终启用的第一麦克风221，或者可以包括三个或更多个麦克风(例如，包括第一麦克风221和第二麦克风222)。

根据实施例，通信电路230可以通过指定的通信信道与智能服务器10通信。例如，指定的通信信道可以包括诸如3G、4G、5G、Wi-Fi等的无线通信方案的通信信道。

根据实施例，扬声器240可以根据处理器260的指令输出声音。

根据实施例，存储器250可以存储例如与电子装置20的至少一个其他组件相关联的指令或数据。存储器250可以存储指令，该指令在被执行时使处理器260，在通过麦克风220(例如，第一麦克风221)接收到唤醒话语(例如，嗨Bixby)时，运行提供语音识别服务的智能应用或智能辅助服务，使用智能应用或智能辅助服务来执行基于通过麦克风220接收到的第一用户话语所确定的动作，使用智能应用或智能辅助服务基于在从第一动作的运行完成的时间点开始而选择的时间(选定时间)内通过麦克风220接收到的第二用户话语来确定是否识别出触发词，当基于第二用户话语识别出触发词时执行基于第二用户话语确定的第二动作，以及当基于在从第一动作的运行完成的时间点开始的选定时间内的第二用户话语未识别出触发词时，终止智能应用或智能辅助服务。唤醒话语可以包括特定词或特定短语，并且可以是具有特定的用户的声学特性(例如，特定频率特性)的话语。选定时间可以包括在第一动作的运行完成的时间点之后的时间。触发词可以由通过输入电路210的用户输入来选择，或者可以包括由处理器260选择的词或短语。

根据实施例，处理器260可以通过使用存储在存储器250中的指令，执行与电子装置20的至少一个或更多个其他组件的控制和/或通信相关联的数据处理或操作。当通过第一麦克风221接收到唤醒话语时(待机模式)，处理器260可以运行提供语音识别服务的智能应用或智能辅助服务。同时，当处理器260通过输入电路(例如，触摸传感器或物理按钮)识别出指定的输入(例如，触摸或按压)时，处理器260可以运行智能应用或智能辅助服务。

根据实施例，处理器260可以使用智能应用或智能辅助服务来执行基于通过第二麦克风222接收到的第一用户话语所确定的动作。例如，当接收到第一用户话语时，处理器260可以将第一用户话语转换为第一语音数据，并且可以通过通信电路230将转换后的第一语音数据发送到智能服务器10(语音识别模式)。当接收到第一语音数据时，智能服务器10可以将接收到的第一语音数据转换成文本，并且可以基于转换后的文本来确定用户的意图。智能服务器10可以根据所确定的用户意图来确定第一动作，可以生成与所确定的第一动作的运行相关联的信息，并且可以将所生成的与第一动作的运行相关联的信息发送到电子装置20(理解模式)。当接收到与第一动作的运行相关联的信息时，电子装置20可以使用智能应用或智能辅助服务，基于与第一动作的运行相关联的信息，执行基于第一用户话语确定的第一动作(动作执行模式)。在执行所确定的动作时或在所确定的动作的运行完成时，处理器260可以使用智能应用或智能辅助服务，通过扬声器240输出与动作的运行相关联的第一声音。例如，与动作的运行相关联的第一声音可以是从智能服务器10提供的声音，或者可以是电子装置20基于与动作的运行相关联的信息生成的声音。例如，与动作的运行相关联的第一声音可以是引导执行动作的过程的声音或引导执行动作的结果的声音。

根据实施例，处理器260可以基于在从第一动作的运行完成的时间点开始的选定时间内通过第二麦克风222接收到的第二用户话语，使用智能应用或智能辅助服务来确定是否识别出触发词(对话模式)。例如，处理器260可以使用智能应用或智能辅助服务，将第二用户话语转换为第二语音数据，可以将第二语音数据转换为文本，并且可以确定触发词是否包括在转换后的文本中。选定时间(例如，大约30分钟)可以是默认设置的时间或者设置为由用户改变的时间。例如，触发词可以包括与请求动作相关联的词，该动作是能够由电子装置20执行的多个动作之中的通过输入电路210指定的动作。对于另一个示例，触发词可以包括与请求动作相关联的词(与类别相关联的词)，该动作是能够由电子装置20执行的多个动作之中的属于通过输入电路210指定的类别的动作。触发词可以包括以下中的至少一项：用于请求能够由电子装置20执行的多个动作中的动作的短语、指定主题改变词、指示电子装置20的词。

根据实施例，在基于第二用户话语识别触发词之前，处理器260可以基于第二用户话语识别语速变化、音调(tone)变化和语调(intonation)变化。处理器260可以确定所识别的语速变化、所识别的音调变化和所识别的语调变化是否满足第一指定条件；当所识别的语速变化、所识别的音调变化和所识别的语调变化满足第一指定条件时，处理器260可以基于第二用户话语来确定是否识别出触发词。例如，当语速减小指定速度或更多时，当音调频率减小指定频率或更少时，或者当语调变化在指定范围内时，处理器260可以确定所识别的语速变化、所识别的音调变化和所识别的语调变化满足第一指定条件。当所识别的语速变化、所识别的音调变化和所识别的语调变化不满足第一指定条件时，处理器260基于第二用户话语不能识别出触发词。例如，当所识别的语速变化、所识别的音调变化和所识别的语调变化不满足第一指定条件时，处理器260可以不将第二用户话语转换为第二语音数据。

根据实施例，当在从第一动作的运行完成的时间点开始的选定时间内识别出触发词时，处理器260可以使用智能应用或者智能辅助服务来确定包括触发词的句子(文本)。例如，在将通过第二麦克风222接收到的第二用户话语转换为文本的过程中，处理器260可以识别第二用户话语的接收时间间隔(例如，第二麦克风222的输出信号间隔)，并且可以通过基于所识别的时间间隔识别第二用户话语的终点来确定包括触发词的句子。

处理器260可以通过通信电路230将包括触发词的句子发送到智能服务器10(理解模式)。当接收到包括触发词的句子时，智能服务器10可以基于接收到的句子来确定用户的意图。智能服务器10可以根据所确定的用户意图来确定第二动作，并且可以将与所确定的第二动作的运行相关联的信息发送到电子装置20。当接收到与第二动作的运行相关联的信息时，电子装置20可以基于与第二动作的运行相关联的信息来执行基于第二用户话语所确定的第二动作。在执行所确定的第二动作时或当所确定的第二动作的运行完成时，处理器260可以通过扬声器240输出与该动作的运行相关联的第二声音。

根据实施例，在处理器260确定包括触发词的句子然后将所确定的句子发送到智能服务器10之前，处理器260可以基于触发词在所确定的句子中的位置来确定该句子是否被错误识别(对话模式)。例如，当触发词位于句子的末尾时，处理器260可以确定该句子未被错误识别。对于另一示例，当触发词位于句子的前面时，处理器260可以确定该句子被错误识别。当处理器260确定包括触发词的句子被错误识别时，处理器260可以不将包括触发词的句子发送到智能服务器10。另外，当处理器260确定包括触发词的句子被错误识别时，处理器260可以通过扬声器240输出用于请求对包括触发词的句子进行重发话语的声音。例如，当处理器260识别出“让我知道”的触发词并且没有识别出要通知的目标时，处理器260可以输出用于请求诸如“你想让我告诉你什么”之类的话语的声音。

根据实施例，在处理器260可以确定包括触发词的句子并且然后将所确定的句子发送给智能服务器10之前，处理器260可以确定包括触发词的句子是否包括拒绝词(例如，其他选定词或短语)；当包括触发词的句子包括拒绝词时，处理器260可以不将句子发送到智能服务器10。例如，拒绝词可以由用户通过输入电路210选择，并且可以包括通过处理器260的操作选择的其他词或短语。根据各种实施例，处理器260可以首先确定在基于第二用户话语识别出的每个句子中是否包括拒绝词；并且仅当不包括拒绝词时，处理器260才可以确定在第二用户话语中是否包括触发词。

根据实施例，处理器260可以基于在从第二动作的运行完成的时间点开始的选定时间内的第三用户话语，使用智能应用或智能辅助服务来确定是否识别出触发词。当基于在从第二动作的运行完成的时间点开始的选定时间内的第三用户话语识别出触发词时，处理器260可以延长智能应用或智能辅助服务的运行时间，并且可以当基于在从第二动作的运行完成的时间点开始的选定时间内的第三用户话语未识别出触发词时，终止智能应用或智能辅助服务。

根据实施例，当基于在从第一动作的运行完成的时间点开始的选定时间内的第二用户话语未识别出触发词时，处理器260可以终止智能应用或智能辅助服务(待机模式)。当智能应用或智能辅助服务终止时，处理器260可以在接收到唤醒话语或指定输入之后提供语音识别服务。

根据各种实施例，当处理器260基于第二用户话语识别出用于请求终止语音识别服务的停止请求词(例如，其他选定词或短语)时，即使选定的时间没有到期，处理器260也可以停用第二麦克风222，并且可以终止智能应用或智能辅助服务。

根据各种实施例，处理器260可以确定是否设置了通过输入电路210的对话模式的使用，并且取决于是否设置了对话模式的使用，在基于第一用户话语的第一动作的运行完成之后，可以确定是否延长智能应用或智能辅助服务的运行时间，或者可以确定是否终止智能应用或智能辅助服务。例如，当通过输入电路210设置了对话模式(或对话功能)的使用时，在处理器260执行第一动作之后，处理器260可以在基于第二用户话语选定的时间内至少一次监视是否识别出触发词。另一方面，当没有通过输入电路210设置对话模式的使用时，在处理器260执行第一动作之后，处理器260可以立即终止智能应用或智能辅助服务。根据各种实施例，可以基于通过麦克风220接收到的用户话语来设置对话模式的使用。

根据各种实施例，以及包括触发词的句子，处理器260可以将包括触发词的句子的先前句子(包括至少一个句子)发送到智能服务器10。

根据各种实施例，当电子装置20基于第一用户话语或第二用户话语确定用户意图，然后能够根据确定的用户意图来生成与动作的运行相关联的信息(例如，当包括NLU模块时)时，电子装置20可以在不与智能服务器10通信的情况下基于第一用户话语或第二用户话语自行确定用户的意图，并且可以根据确定的意图生成与动作的运行相关联的信息。

根据上述实施例，当电子装置20接收到唤醒话语(或指定输入)并然后开始语音识别服务时，电子装置20可以实时监视在用户话语中是否包括触发词，并且可以基于代替唤醒话语的用户话语的一部分(触发词)，执行与用户话语相对应的动作。因此，可以解决用户需要重复执行唤醒话语以使用语音识别服务来请求多个动作的传统不便。

根据实施例，一种系统(例如，图1的集成智能系统10、20)包括：用户界面；麦克风(例如，图2的麦克风220)；扬声器(例如，图2的扬声器240)；可操作地连接到用户界面、麦克风和扬声器的至少一个处理器(例如，图2的处理器260)；以及可操作地连接到处理器的至少一个存储器(例如，图2的存储器250)，其中存储器被配置为存储自动语音识别(ASR)模块(例如，图6的ASR模块620和NLU模块640)和自然语言理解(NLU)模块，并且其中存储器被配置为存储指令，该指令在被执行时使处理器：通过麦克风接收用于调用基于语音的智能辅助服务的唤醒话语；在唤醒话语之后通过麦克风接收第一用户话语；使用NLU模块处理第一用户话语；基于处理后的第一用户话语生成第一响应；在接收到唤醒话语后选定的时间间隔内通过麦克风接收第二用户话语；使用ASR模块提取第二用户话语的文本；基于在第二用户话语的文本中包括选定词或短语，使用NLU模块处理第二用户话语，以生成第二响应话语；以及基于在第二用户话语的文本中不包括选定词或短语，不对第二用户话语产生响应。

该指令使处理器提供被配置为接收选定词或短语，或通过处理器的操作确定选定词或短语的用户界面。

该指令使处理器提供被配置为接收选定时间间隔的用户界面。

选定时间包括在生成第一响应之后的时间。

选定词或短语包括与类别相关联的词。

该指令使处理器基于第一用户话语来识别语速变化、音调变化和语调变化，并基于语速变化、音调变化和语调变化满足指定条件，来确定在第二用户话语中是否包括选定词或短语。

该指令使处理器确定第二用户话语中是否包括与选定词或短语不同的另一选定词或短语，基于第二用户话语中不包括另一选定词或短语，使用NLU模块来处理第二用户话语以生成第二响应，以及基于第二用户话语中包括另一个选定词或短语，不生成对第二用户话语的响应。

该指令使处理器基于包括选定词或短语的句子中的选定词或短语的位置来确定句子是否被错误识别，并且基于该句子被错误识别，通过扬声器输出用于请求对包括选定词或短语的句子的重发话语的声音。

根据实施例，一种系统包括：用户界面；麦克风；扬声器；可操作地连接到用户界面、麦克风和扬声器的至少一个处理器；以及可操作地连接到处理器的至少一个存储器，其中，存储器被配置为存储ASR模块和NLU模块，并且其中存储器配置为存储指令，这些指令在被执行时使处理器：通过用户界面接收用于调用基于语音的智能辅助服务的用户输入；在接收到用户输入后通过麦克风接收第一用户话语；使用NLU模块处理第一用户话语；基于处理后的第一用户话语生成第一响应；在接收到用户输入之后选定的时间间隔内通过麦克风接收第二用户话语；使用ASR模块提取第二用户话语的文本；基于在第二用户话语中包括选定词或短语，使用NLU模块处理第二用户话语以生成第二响应；以及基于在第二用户话语中不包括选定词或短语，不生成对第二用户话语的响应。

用户界面包括触摸屏显示器、可按压按钮或可触摸按钮中的至少一个。

该指令使处理器提供被配置为接收选定词或短语或通过处理器的操作确定选定词或短语的用户界面。

根据实施例，一种电子装置，包括：通信电路；输入电路；麦克风；可操作地连接到通信电路、输入电路和麦克风的处理器；以及可操作地连接到处理器的存储器，其中存储器存储有指令，该指令在被执行时，使处理器：基于通过麦克风接收到用于调用语音识别服务的唤醒话语，运行能够提供语音识别服务的智能应用；使用智能应用通过麦克风接收第一用户话语；使用智能应用执行基于第一用户话语确定的第一动作；在从执行第一动作的时间点开始的选定时间内，通过麦克风接收第二用户话语；使用智能应用，确定在选定时间内是否识别出基于第二用户话语的选定词或短语；基于在选定时间内基于第二用户话语识别出选定词或短语，使用智能应用执行基于第二用户的话语确定的第二动作；以及基于在选定时间内未识别出第二用户话语中的选定词或短语，终止智能应用。

该指令还使处理器：当在从执行第一动作的时间点开始的选定时间内识别出选定词或短语时，确定包括选定词或短语的句子；通过通信电路将句子发送给外部电子装置；从外部电子装置接收与基于句子所确定的第二动作的运行相关联的信息；以及基于与第二动作的运行相关联的信息执行第二动作。

该指令还使处理器：确定句子中是否包括另一个选定词或短语；当句子中不包括另一个选定词或短语时，通过通信电路将该句子发送到外部电子装置；以及当句子中包括另一选定词或短语时，不将该句子发送到外部电子装置。

电子装置还包括扬声器，其中，所述指令还使处理器：基于选定词或短语在句子中的位置来确定所确定的句子是否被错误识别；以及当句子被错误识别时，通过扬声器输出用于请求对包括选定词或短语的句子进行重发话语的声音。

该指令还使处理器在基于第二用户话语识别出又一选定词或短语时，终止智能应用。

选定词或短语包括与动作请求相关联的词，该动作是能够由电子装置执行的多个动作之中的通过输入电路指定的动作。

选定词或短语包括与动作请求相关联的词，该动作是能够由电子装置执行的多个动作之中的属于通过输入电路指定的类别的动作。

选定词或短语还包括以下中的至少一项：用于请求能够由电子装置执行的多个动作的词、用于改变主题的词以及指示电子装置的词。

该指令还使处理器：基于第一用户话语识别语速变化、音调变化和语调变化；以及当语速变化、音调变化、语调变化满足指定条件时，确定在第二用户发声中是否包括选定词或短语。

图3a示出了根据实施例的在未设置对话模式的使用的情况下的用于电子装置的语音识别服务的操作模式。

参照图3a，在待机模式310中，当电子装置20通过麦克风(例如，第一麦克风221)接收唤醒话语(例如，嗨Bixby)或通过输入电路210接收指定输入时，电子装置图20可以运行智能应用或智能辅助服务，并且可以切换到语音接收模式320。在待机模式310中，可以启用第一麦克风221，可以停用第二麦克风222，并且可以不运行智能应用或智能辅助服务。在语音接收模式320中，电子装置20可以启用第二麦克风222，并且可以运行提供语音识别服务的智能应用或智能辅助服务。

在语音接收模式320中，电子装置20可以将通过第二麦克风222接收到的第一用户话音转换为第一语音数据，并且可以通过通信电路230将第一语音数据发送到智能服务器10。在这种情况下，智能服务器10可以将接收到的语音数据转换为文本。

当第一用户话语的接收完成时，电子装置20的模式可以从语音接收模式320切换到理解模式330。例如，当在其他选定时间内未接收到第一用户话语时，电子装置20可以确定第一用户话语的接收完成，并且电子装置20的模式可以从语音接收模式320切换到理解模式330。在理解模式330中，智能服务器10可以基于第一用户话语的文本来确定用户的意图，并且可以根据所确定的用户意图来确定第一动作。智能服务器10可以将与所确定的第一动作的运行相关联的信息发送到电子装置20。

当电子装置20从智能服务器10接收到与第一动作的运行相关联的信息时，电子装置20的模式可以切换到动作执行模式340。在动作执行模式340中，电子装置20可以基于与从智能服务器10接收到的第一动作的运行相关联的信息，执行与第一用户话语相对应的第一动作。当电子装置20完成第一动作的运行时，电子装置20可以终止智能应用或智能辅助服务，然后电子装置20的模式可以切换到待机模式310。

图3b示出了根据实施例的在未设置对话模式的使用的情况下的语音识别服务的示例。

参照图3b，在未设置对话模式的使用的情况下，当电子装置20接收到唤醒话语351(待机模式)时，电子装置20可以运行智能应用或智能辅助服务(语音识别模式)。在语音识别模式下，电子装置20可以接收“让我知道明天的天气”的用户话语352，可以将用户话语352转换为第一语音数据，并且可以将第一语音数据发送到智能服务器10。智能服务器10可以基于第一语音数据来确定与第一用户话语相对应的第一动作，并且可以将与第一动作的运行相关联的信息发送到电子装置20(理解模式)。电子装置20可以从智能服务器10接收与第一动作的运行相关联的信息，并且可以基于与第一动作的运行相关联的信息执行将星期五的天气通知给用户的第一动作353，例如，输出“星期五的天气将会是晴天”声音的第一动作(动作执行模式)。在执行第一动作之后，电子装置20可以终止智能应用或智能辅助服务，然后电子装置20的模式可以切换到待机模式。

在待机模式下，电子装置20可以再次接收唤醒话语354；电子装置20的模式可以切换到语音接收模式，然后电子装置20可以接收“让我知道水原市有名的饭店”的用户话语355，以将用户话语355发送到智能服务器10。当电子装置20完成用户话语355的接收时，电子装置20的模式可以切换到理解模式。在理解模式下，智能服务器10可以基于用户话语355来确定第二动作，并且可以将与所确定的第二动作的运行相关联的信息发送到电子装置20。当电子装置20从智能服务器10接收与基于用户话语355确定的第二动作的运行相关联的信息时，电子装置20的模式可以从理解模式切换到动作执行模式。在动作执行模式中，在基于与接收到的动作的运行相关联的信息执行了通知用户水原市有名的饭店的动作365(例如，输出“在水原市有有名的饭店XXX和XXA”的声音的动作)之后，电子装置20可以终止智能应用或智能辅助服务，然后电子装置20的模式可以再次切换到待机模式。

在待机模式下，电子装置20可以再次接收唤醒话语367，然后电子装置20的模式可以被切换为语音接收模式；电子装置20可以接收用户话语368“让我知道星期六的天气”，以将用户话语368发送到智能服务器10。当电子装置20完成用户话语368的接收时，电子装置20的模式可以切换到理解模式。在理解模式下，智能服务器10可以基于用户话语368确定第三动作，并且可以将与第三动作的运行相关联的信息发送到电子装置20。当电子装置20从智能服务器10接收与基于用户话语368确定的第三动作的运行相关联的信息时，电子装置20的模式可以从理解模式切换到动作执行模式。在动作执行模式中，电子装置20可以基于与所接收的动作的运行相关联的信息来执行通知用户星期六的天气的动作369，例如，输出“星期六的天气将会是多云”的声音的动作，然后电子装置20的模式可以再次切换到待机模式。

如在上述实施例中一样，当未通过输入电路210设置对话模式的使用时，电子装置20需要总共三个唤醒话语351、354和367，来执行分别与三个用户话语352、355和368相对应的三个动作353、365和369，从而给用户带来不便。另外，通过重复执行和终止用于语音识别服务的智能应用或智能辅助服务，处理负载可能很大并且处理可能变得复杂。

图4a示出了根据实施例的在设置了对话模式的使用的情况下的用于电子装置的语音识别服务的操作模式。

参照图4a，在设置了对话模式的使用的情况下，当电子装置20在待机模式下通过第一麦克风221识别唤醒话语或在待机模式下通过输入电路210接收指定输入时，电子装置20的模式可以切换到语音接收模式。电子装置20可以在语音接收模式下通过智能应用或智能辅助服务启用第二麦克风222，并且可以运行智能应用或智能辅助服务。当电子装置20在语音接收模式下完成第一用户话语的接收时，电子装置20的模式可以切换到理解模式。智能服务器10可以基于第一用户话语来确定用户的意图，并且可以根据所确定的用户的意图来确定第一动作。智能服务器10可以生成与所确定的第一动作的运行相关联的信息，并且可以将所生成的与第一动作的运行相关联的信息发送到电子装置20。当电子装置20接收到与第一动作的运行相关联的信息时，电子装置20的模式可以从理解模式切换到动作执行模式。在动作执行模式下，电子装置20可以基于与第一动作的运行相关联的信息，通过智能应用或智能辅助服务来执行基于第一用户话语确定的第一动作。

当设置了对话模式的使用时，电子装置20的模式可以从动作执行模式切换到对话模式。在对话模式下，电子装置20可以基于在动作的运行完成之后的选定时间内通过第二麦克风222接收到的第二用户话语来确定是否识别出触发词。例如，电子装置20可以将通过第二麦克风222接收的第二用户话语转换为文本，并且可以确定是否从转换后的文本中识别出触发词。当基于第二用户话语识别出触发词时，电子装置20可以确定包括触发词的句子，并且可以将所确定的句子发送给智能服务器10。智能服务器10可以基于根据从电子装置20接收到的句子而确定的第二用户话语来确定用户的意图，并且可以根据所确定的用户意图来确定第二动作。智能服务器10可以将与基于接收到的句子而确定的第二动作的运行相关联的信息发送到电子装置20。当电子装置20接收到与第二动作的运行相关联的信息时，电子装置20的模式可以从理解模式切换到动作执行模式。在动作执行模式下，电子装置20可以基于与第二动作的运行相关联的信息来执行通知用户星期六的天气的第二动作。当电子装置20完成第二动作的运行时，电子装置20的模式可以再次从动作执行模式切换到对话模式。

当电子装置20在对话模式下基于通过第二麦克风222接收到的第二用户话语未识别出触发词时，电子装置20的模式可以切换到待机模式。在电子装置20的模式切换到待机模式之前，电子装置20可以停用第二麦克风222，并且可以终止智能应用或智能辅助服务的运行。

图4b示出了根据实施例的在设置了对话模式的使用的情况下的语音识别服务的示例。

参照图4b，在设置了对话模式的使用的情况下，当电子装置20在待机模式下接收到唤醒话语410时，电子装置20的模式可以切换到语音接收模式，然后电子装置20可以将接收到的“让我知道明天的天气”的第一用户话语420发送到智能服务器10。当电子装置20完成第一用户话语420的接收时，电子装置20的模式可以切换到理解模式。在理解模式下，智能服务器10可以将与基于第一用户话语420确定的动作的运行相关联的信息发送到电子装置20。当电子装置20从智能服务器10接收到与基于第一用户话语420确定的第一动作的运行相关联的信息时，电子装置20的模式可以从理解模式切换到动作执行模式，然后电子装置20可以基于在动作执行模式下接收到的与第一动作的运行相关联的信息，执行输出“星期五的天气将会是晴天”的第一声音的第一动作，以提供星期五的天气的通知，然后电子装置20的模式可以切换到对话模式。

电子装置20可以基于在对话模式下的选定时间内接收到的用户话语450，来识别作为用户话语450的一部分的触发词(例如，让我知道)。当电子装置20识别出触发词“让我知道”时，电子装置20可以确定包括触发词“让我知道”的句子“让我知道水原市有名的饭店”，并且可以将所确定的句子发送给智能服务器10，然后将电子装置20的模式切换为理解模式。智能服务器10从电子装置20接收包括触发词的“让我知道水原市有名的饭店”的句子，可以基于“让我知道水原市有名的饭店”来确定用户的意图，并且可以根据确定的用户意图来确定提供水原市有名的饭店的通知第二动作。智能服务器10可以生成与提供水原市有名的饭店的通知的第二动作的运行相关联的信息，并且可以将所生成的与第二动作的运行相关联的信息发送到电子装置20。

当电子装置20接收到与第二动作的运行相关联的信息时，电子装置20的模式可以从理解模式切换到动作执行模式。在动作执行模式下，电子装置20可以基于与动作的运行相关联的信息来执行通知用户水原市有名的饭店的第二动作。例如，电子装置20可以执行用于引导附近有名的饭店的应用“MangoPlate”，并且可以输出“执行MangoPlate”的声音。

如在上述实施例中那样，当通过输入电路210设置了对话模式的使用时，在电子装置20基于用户话语连续或频繁地请求响应时，因为电子装置20仅需要一个唤醒话语410来执行与第一用户话语420和第二用户话语450相对应的多个动作430和460，所以可以提高语音识别服务的便利性。

图5a示出了根据实施例的用于设置对话模式的使用的用户界面(UI)屏幕。

参照图5a，例如，在屏幕510中，电子装置20可以提供用于启用或停用对话模式的使用的虚拟按钮511，该按钮能够依据通过输入电路210的用户输入而移动。当虚拟按钮511位于右侧时，电子装置20可以确定设置了对话模式的使用，并且可以提供(例如，启用)虚拟按钮512和用于对话模式的详细设置的虚拟按钮513。另一方面，当虚拟按钮511位于左侧时，电子装置20可以确定未设置对话模式的使用并且可以不提供(例如，停用)虚拟按钮512和用于对话模式的详细设置的虚拟按钮513。根据各种实施例，在屏幕510中，电子装置20可以显示用于解释对话模式的短语515。例如，电子装置20可以在屏幕510的下端显示短语515“电子装置可以在选定时间内监听周围的语音并参与谈话而无需唤醒话语”，以解释对话模式。

在设置了对话框模式的使用的状态下，当虚拟按钮512通过输入电路210被选择时，电子装置20可以显示用于设置对话框模式的时间的UI屏幕。根据各种实施例，在设置了对话框模式的使用的状态下，当虚拟按钮513通过输入电路210被选择时，电子装置20可以显示用于通过输入电路210指定对话模式的触发词的UI屏幕。

图5b示出了根据实施例的用于设置对话模式的时间的UI屏幕。

参照图5b，在屏幕520中，电子装置20可以显示用于设置对话模式的时间的UI。例如，当在图5a的屏幕510中选择虚拟按钮512时，电子装置20可以显示屏幕520。屏幕520可以包括用于选择(或设置)对话模式的选定时间的虚拟按钮521至524。在屏幕520中，当选择了与5分钟相关联的虚拟按钮523时，电子装置20可将选定时间设置为5分钟。对于另一示例，当选择了与任意地设置对话模式的选定时间的功能相关联的虚拟按钮524(屏幕520的用户设置)时，电子装置20可以提供能够根据用户输入任意地设置选定时间的界面。根据各种实施例，在屏幕520中，电子装置20可以显示用于解释对话模式的时间设置的短语525。

图5c示出了根据实施例的用于设置对话模式的触发词的UI屏幕的示例。

参照图5c，在屏幕530中，电子装置20可以显示用于设置对话模式的触发词的UI。例如，当在图5a的屏幕510中选择了虚拟按钮513时，电子装置20可以显示屏幕530。在屏幕530中，电子装置20可以显示能够被指定的触发词列表(531a、532a、533a、534a或535a)和用于选择每个触发词列表(531a、532a、533a、534a或535a中的至少一个)的虚拟按钮列表(531b、532b、533b、534b或535b)。在屏幕530中，当通过输入电路210选择了虚拟按钮531b和虚拟按钮533b时，电子装置20可以将“搜索”和“让我知道”指定为触发词。在屏幕530中，当通过输入电路210选择了与任意设置触发词的功能534a相关联的虚拟按钮534b时，电子装置20可以提供界面，用户可以在该界面中任意键入触发词，并且可以将通过提供的界面而键入的词设置为触发词。

根据各种实施例，在屏幕530中，当选择了虚拟按钮535b，其允许电子装置20通过输入电路210自动选择触发词，电子装置20(例如，图2的处理器260)可以设置(选择)以下中的至少一个为触发词：指定的主题改变词(例如，嘿、然后)，或指示电子装置20的词(例如，Bixby或Bix)，和用于请求能够由电子装置20执行的多个动作的词(例如，搜索)。

图5d示出了根据实施例的用于设置对话模式的触发词的UI屏幕的另一示例。

参照图5d，在屏幕540中，电子装置20可以显示用于指定对话模式的触发词所属的触发类别的UI。例如，当在图5a的屏幕510中选择虚拟按钮513时，电子装置20可以显示屏幕540。在屏幕540中，电子装置20可以显示能够被设置的触发类别(541a、542a、543a、544a或545a)和用于选择每个触发类别列表(541a、542a、543a、544a或545a中的至少一个)的虚拟按钮列表(541b、542b、543b、544b或545b)。

在屏幕540中，当通过输入电路210选择虚拟按钮541b和虚拟按钮543b时，电子装置20可以指定在用于请求属于搜索类别的动作的词集(例如，搜索、查找或让我知道)和用于请求属于音乐类别的动作的词(或短语)集(例如，播放音乐、搜索音乐、调高音量或调低音量)中包括的词(或短语)为对话模式的触发词。就这一点而言，电子装置20的存储器250可以存储用于请求属于每个触发类别列表的动作的词集，并且当通过输入电路210选择每个触发类别时，电子装置20可以将用于请求属于所选类别的动作的所有词集指定为的触发词。根据各种实施例，在屏幕540中，当选择了虚拟按钮545b，其允许电子装置20通过输入电路210自动选择触发词，电子装置20(例如，图2的处理器260)可以设置(选择)以下中的至少一个为触发词：指定的主题改变词(例如，嘿、然后)，或指示电子装置20的词(例如，Bixby或Bix)，和用于请求能够由电子装置20执行的多个动作的词(例如，搜索)。

图6示出了根据实施例的处理器的组件的示例。

参照图6，根据实施例，处理器(例如，图2的处理器260)可以包括客户端模块610、自动语音识别(ASR)模块620和触发识别模块630。处理器260的每个组件可以是单独的硬件模块，或者可以是由至少一个处理器260实现的软件模块。例如，处理器260中包括的每个模块的功能可以由一个处理器执行，或者可以由每个单独的处理器执行。

在待机模式下，可以在唤醒话语之后执行客户端模块610；在语音接收模式下，客户端模块610可以预处理通过第二麦克风222接收到的第一用户话语，可以将第一用户话语转换为第一语音数据，并且可以将第一语音数据发送到智能服务器10。当接收到第一语音数据时，智能服务器10可以使用ASR模块(未示出)(例如，高性能ASR模块)和NLU模块640基于第一语音数据来确定用户的意图，可以生成与所确定的用户意图相对应的第一动作的运行相关联的信息，并且可以将所生成的与第一动作的运行相关联的信息发送到电子装置20中的智能代理270(理解模式)。当从智能服务器10接收到与第一动作的运行相关联的信息时，客户端模块610可以在动作执行模式下基于与第一动作的运行相关联的信息来执行第一动作。

在对话模式下，客户端模块610可以预处理通过第二麦克风222接收的用户话语，以将用户话语转换为语音数据。例如，客户端模块610可以从接收到的用户话语中去除回声和噪声，以将去除了回声和噪声的用户话语转换为语音数据。客户端模块610可以基于所接收的用户话语的时间间隔来检测终点，并且可以生成终点信息。客户端模块610可以将在对话模式下转换的语音数据和终点信息发送到ASR模块620。

当在对话模式下接收到语音数据和终点信息时，ASR模块620可以将语音数据转换为文本，并且可以基于终点信息以句子为单位输出转换后的文本。

在对话模式下，触发识别模块630可以将每个句子中包括的文本与指定触发词(触发词)进行比较，并且可以基于比较结果来确定是否从每个句子中识别出(例如，包括)触发词。当在选定时间内识别出触发词时，触发识别模块630可以将包括触发词的句子发送给智能服务器10。例如，触发词可以包括与请求动作相关联的词，该动作是能够由电子装置20中的智能代理270执行的多个动作之中的通过输入电路210指定的动作。

当在理解模式下接收到包括触发词的句子时，智能服务器10可以使用NLU模块640基于接收到的句子来确定用户的意图，并且可以根据所确定的用户意图来确定第二动作。NLU模块640可以生成与所确定的第二动作的运行相关联的信息，并且可以将所生成的与第二动作的运行相关联的信息发送到客户端模块610。

在动作执行模式下，客户端模块610或另一模块可以基于与第二动作的运行相关联的信息来执行与包括触发词的句子相对应的第二动作。

在上述实施例中，在对话模式下(例如，从第一动作的运行完成的时间点开始)，当基于第二用户话语未识别出触发词时，可以终止客户端模块610、ASR模块620和触发识别模块630的运行(待机模式)。

根据各种实施例，ASR模块(未示出)和NLU模块640可以包括在电子装置20的智能代理270中。

图7示出了根据实施例的处理器的组件的另一示例。

参照图7，根据实施例，处理器260(例如，图2的处理器260)可以包括客户端模块710、ASR模块720、第一NLU模块730和触发识别模块740。处理器260的每个组件可以是单独的硬件模块，或者可以是由至少一个处理器260实现的软件模块。例如，处理器260中包括的每个模块的功能可以由一个处理器执行，或者可以由每个单独的处理器执行。

在待机模式下，可以在唤醒话语之后执行客户端模块710；在语音接收模式下，客户端模块710可以预处理通过第二麦克风222接收到的第一用户话语，可以将第一用户话语转换为第一语音数据，并且可以将第一语音数据发送到智能服务器10。当接收到第一语音数据时，智能服务器10可以使用ASR模块(未示出)(例如，高性能ASR模块)和第二NLU模块750基于第一语音数据来确定用户的意图，可以生成与所确定的用户意图相对应的第一动作的运行相关联的信息，以及可以将所生成的与第一动作的运行相关联的信息发送到电子装置20中的智能代理270(理解模式)。当从智能服务器10接收到与第一动作的运行相关联的信息时，客户端模块710可以在动作执行模式下基于与第一动作的运行相关联的信息来执行第一动作。

在对话模式下，客户端模块710可以预处理通过第二麦克风222接收到的用户话语，以将用户话语转换为语音数据。例如，客户端模块710可以从接收到的用户话语中去除回声和噪声，以将去除了回声和噪声的用户话语转换为语音数据。客户端模块710可以基于所接收的用户话语的时间间隔来检测终点，并且可以生成终点信息。客户端模块710可以将在对话模式下转换的语音数据和终点信息发送到ASR模块720。

当在对话模式下接收到语音数据和终点信息时，ASR模块720(例如，低性能的ASR模块)可以将语音数据转换为文本，并且可以基于终点信息以句子为单位输出转换后的文本。

在对话模式下，第一NLU模块730(例如，低性能NLU模块)可以将每个句子划分为句法单元(例如，词、短语或词素)，并且可以根据每个句子中包含的词的含义将每个句子所属的类别分类。例如，第一NLU模块730可以基于递归神经网络(RNN)算法，使用存储在存储器250中的第一自然语言识别数据库来确定每个句子中包括的词的含义是否属于通过输入电路210选择的(或由电子装置20中的智能代理270选择的)类别。

在对话模式下，触发识别模块740可以将每个句子中包括的文本与从存储器250获得的所选类别相关联的多个触发词(一个触发词)进行比较，并且可以基于比较结果确定在每个句子中是否包括(识别)了至少一个触发词。当在每个句子中包括触发词时，触发识别模块740可以将包括触发词的句子发送到智能服务器10。对于另一示例，触发词可以包括与请求动作相关联的词(与类别相关联的词)，该动作是能够由电子装置20中的智能代理270执行的多个动作之中的属于通过输入电路210指定的类别的动作。可选地，触发词可以包括以下中的至少一项：用于请求能够由电子装置20中的智能代理270执行的多个动作中的一个动作的短语、指定的话题改变词或指示电子装置20中的智能代理270的词。

当接收到包括触发词的句子时，智能服务器10可以基于使用第二NLU模块750接收到的句子来确定用户的意图，并且可以根据所确定的用户意图来确定动作。第二NLU模块750可以生成与所确定的动作的运行相关联的信息，并且可以将所生成的与动作的运行相关联的信息发送至客户端模块710(理解模式)。

客户端模块710或另一模块可以基于与动作的运行相关联的信息来执行与包括触发词的句子相对应的动作。

在上述实施例中，在对话模式下(例如，从第一动作的运行完成的时间点开始)，当基于第二用户话语未识别出触发词时，可以终止客户端模块710、ASR模块720、第一NLU模块730和触发识别模块740的运行(待机模式)。

根据各种实施例，ASR模块(未示出)和第二NLU模块750可以包括在电子装置20的智能代理270中。

图8示出了根据实施例的由集成智能系统进行的语音识别服务提供方法800。

参照图8，在操作810中，电子装置20可以通过麦克风(例如，第一麦克风221)接收用于调用基于语音的智能辅助服务(语音识别服务)的唤醒话语。当接收到唤醒话语时，电子装置20可以运行智能应用或智能辅助服务，并且可以启用第二麦克风222。

在操作820中，电子装置20可以在唤醒话语之后通过麦克风(例如，第二麦克风222)接收第一用户话语。

在操作830中，电子装置20可以使用NLU模块(例如，图7的第二NLU模块750)来处理第一用户话语。例如，电子装置20可以将第一用户话语转换为第一语音数据，并且可以将第一语音数据发送到智能服务器10。智能服务器10可以使用NLU模块750基于第一语音数据来确定用户的意图，并且可以根据所确定的用户意图来确定第一动作。

在操作840中，智能服务器10可以基于处理后的第一用户话语来生成第一响应。例如，智能服务器10可以生成与所确定的第一动作的运行相关联的信息(或第一响应)，并且可以将所生成的与第一动作的运行相关联的信息发送至电子装置20。当从智能服务器10接收到与第一动作相关联的信息时，电子装置20可以基于与第一动作的运行相关联的信息来执行与第一用户话语相对应的第一动作。

在操作850中，电子装置20可以在执行第一动作之后通过麦克风(例如，第二麦克风222)接收第二用户话语。在接收到唤醒话语之后，电子装置20可以在选定时间间隔内通过麦克风来接收第二用户话语。

在操作860中，电子装置20可以使用ASR模块(例如，图7的ASR模块720)提取第二用户话语的文本。例如，电子装置20可以将第二用户话语转换为第二语音数据，并且可以将第二语音数据转换为文本。电子装置20可以基于第二用户话语的接收时间间隔来检测终点，并且可以基于该终点来提取句子单元的文本。

在操作870，电子装置20可以确定在第二用户话语中是否包括选定(或指定)词或短语。例如，电子装置20可以将每个句子中包括的文本与选定词或短语进行比较，并且可以基于比较结果来确定每个句子中是否包括选定词或短语。

在操作880中，当在第二用户话语中包括选定词或短语时，智能服务器10可以处理第二用户话语以生成第二响应。例如，当在第二用户话语中包括选定词或短语时，电子装置20可以将包括选定词或短语的句子发送到智能服务器10。智能服务器10可以使用NLU模块750基于包括选定词或短语的句子来确定用户的意图，并且可以根据所确定的用户意图来确定第二动作。智能服务器10可以生成与第二动作的运行相关联的信息(或第二响应)，并且可以将所生成的与第二动作的运行相关联的信息发送至电子装置20。电子装置20可以基于与第二动作的运行相关联的信息来执行与第二用户话语相对应的第二动作。

在操作870中，当在第二用户话语中不包括选定词或短语时，智能服务器10可以处理第二用户话语以不生成第二响应。例如，当在第二用户话语中不包括选定词或短语时，电子装置20可以在处理第二用户话语之后终止智能应用或智能辅助服务。

根据各种实施例，在操作810中，电子装置20可以通过输入电路210，而不是唤醒话语，来接收用户输入以调用基于语音的智能辅助服务。

图9示出了根据实施例的由电子装置进行的语音识别服务提供方法900。

参照图9，在操作910中，电子装置20可以通过麦克风220接收唤醒话语，或者可以通过输入电路210接收指定输入。

在操作920中，当接收到唤醒话语或指定输入时，电子装置20可以运行提供语音识别服务的智能应用或智能辅助服务。

在操作930中，电子装置20可以通过麦克风220接收第一用户话语。当接收到第一用户话语时，电子装置20可以将第一用户话语转换为第一语音数据，以将第一语音数据发送到智能服务器10。智能服务器10可以使用NLU模块750基于第一语音数据来确定用户的意图，并且可以根据所确定的用户意图来确定第一动作。智能服务器10可以生成与所确定的第一动作的运行相关联的信息(或第一响应)，并且可以将所生成的与第一动作的运行相关联的信息发送至电子装置20。

在操作940中，电子装置20可以执行基于第一用户话语确定的第一动作。例如，电子装置20可以从智能服务器10接收与第一动作相关联的信息，并且可以基于与第一动作的运行相关联的信息来执行基于第一用户话语所确定的第一动作。

在操作950中，电子装置20可以在从执行第一动作的时间点开始的选定时间内通过麦克风220接收第二用户话语。在操作950中，电子装置20可以实时地将第二用户话语转换为第二语音数据，并且可以在接收到第二用户话语的同时将第二语音数据转换为文本。电子装置20可以基于第二用户话语的接收时间间隔来检测终点，并且可以基于该终点来提取句子单元的文本。选定时间可以包括生成了第一响应的时间点之后的时间。

在操作960中，电子装置20可以确定在第二用户话语中是否包括选定词或短语。例如，电子装置20可以确定第二用户话语的文本(句子单元的文本)中是否包括选定词或短语。

在操作970中，当基于在从执行了动作(执行了动作的运行)的时间点开始的选定时间内的第二用户话语识别出选定词或短语时，电子装置20可以执行基于第二用户话语确定的第二动作。例如，当第二用户话语的文本中包括选定词或短语时，电子装置20可以将包括选定词或短语的句子发送给智能服务器10。智能服务器10可以使用NLU模块750基于包括选定词或短语的句子来确定用户的意图，并且可以根据所确定的用户意图来确定第二动作。智能服务器10可以生成与所确定的第二动作的运行相关联的信息(或第二响应)，并且可以将所生成的与第二动作的运行相关联的信息发送至电子装置20。当接收到与第二动作的运行相关联的信息时，电子装置20可以基于与第二动作的运行相关联的信息来执行与第二用户话语相对应的第二动作。

在操作960中，当基于在从执行了第一动作的时间点开始的选定时间内的第二用户话语未识别出选定词或短语时，电子装置20可以在操作970中终止智能应用或智能辅助服务。

根据上述实施例，当电子装置20接收到唤醒话语(或指定输入)然后开始语音识别服务时，电子装置20可以实时监视在用户话语中是否包括触发词，并且可以基于将用户话语的一部分(触发词)代替唤醒话语，来执行与用户话语相对应的动作。因此，电子装置20可以解决用户需要重复执行唤醒话语以请求多个动作的传统电子装置的不便。

图10是示出根据各种实施例的网络环境1000中的电子装置1001的框图。参照图10，网络环境1000中的电子装置1001可经由第一网络1098(例如，短距离无线通信网络)与电子装置1002进行通信，或者经由第二网络1099(例如，长距离无线通信网络)与电子装置1004或服务器1008进行通信。根据实施例，电子装置1001可经由服务器1008与电子装置1004进行通信。根据实施例，电子装置1001可包括处理器1020、存储器1030、输入装置1050、声音输出装置1055、显示装置1060、音频模块1070、传感器模块1076、接口1077、触觉模块1079、相机模块1080、电力管理模块1088、电池1089、通信模块1090、用户识别模块(SIM)1096或天线模块1097。在一些实施例中，可从电子装置1001中省略所述部件中的至少一个(例如，显示装置1060或相机模块1080)，或者可将一个或更多个其它部件添加到电子装置1001中。在一些实施例中，可将所述部件中的一些部件实现为单个集成电路。例如，可将传感器模块1076(例如，指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置1060(例如，显示器)中。

处理器1020可运行例如软件(例如，程序1040)来控制电子装置1001的与处理器1020连接的至少一个其它部件(例如，硬件部件或软件部件)，并可执行各种数据处理或计算。根据一个实施例，作为所述数据处理或计算的至少部分，处理器1020可将从另一部件(例如，传感器模块1076或通信模块1090)接收到的命令或数据加载到易失性存储器1032中，对存储在易失性存储器1032中的命令或数据进行处理，并将结果数据存储在非易失性存储器1034中。根据实施例，处理器1020可包括主处理器1021(例如，中央处理器(CPU)或应用处理器(AP))以及与主处理器1021在操作上独立的或者相结合的辅助处理器1023(例如，图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地，辅助处理器1023可被适配为比主处理器1021耗电更少，或者被适配为具体用于指定的功能。可将辅助处理器1023实现为与主处理器1021分离，或者实现为主处理器1021的部分。

在主处理器1021处于未启用(例如，睡眠)状态时，辅助处理器1023可控制与电子装置1001(而非主处理器1021)的部件之中的至少一个部件(例如，显示装置1060、传感器模块1076或通信模块1090)相关的功能或状态中的至少一些，或者在主处理器1021处于启用状态(例如，运行应用)时，辅助处理器1023可与主处理器1021一起来控制与电子装置1001的部件之中的至少一个部件(例如，显示装置1060、传感器模块1076或通信模块1090)相关的功能或状态中的至少一些。根据实施例，可将辅助处理器1023(例如，图像信号处理器或通信处理器)实现为在功能上与辅助处理器1023相关的另一部件(例如，相机模块1080或通信模块1090)的部分。

存储器1030可以存储辅助处理器1023在主处理器1021处于未启用(例如，睡眠)状态时，辅助处理器1023可控制与电子装置1001(而非主处理器1021)的部件之中的至少一个部件(例如，显示装置1060、传感器模块1076或通信模块1090)相关的功能或状态中的至少一些，或者在主处理器1021处于启用状态(例如，运行应用)时，辅助处理器1023可与主处理器1021一起来控制与电子装置1001的部件之中的至少一个部件(例如，显示装置1060、传感器模块1076或通信模块1090)相关的功能或状态中的至少一些。根据实施例，可将辅助处理器1023(例如，图像信号处理器或通信处理器)实现为在功能上与辅助处理器1023相关的另一部件(例如，相机模块1080或通信模块1090)的部分。

存储器1030可存储由电子装置1001的至少一个部件(例如，处理器1020或传感器模块1076)使用的各种数据。所述各种数据可包括例如软件(例如，程序1040)以及针对与其相关的命令的输入数据或输出数据。存储器1030可包括易失性存储器1032或非易失性存储器1034。

可将程序1040作为软件存储在存储器1030中，并且程序1040可包括例如操作系统(OS)1042、中间件1044或应用1046。

输入装置1050可从电子装置1001的外部(例如，用户)接收将由电子装置1001的其它部件(例如，处理器1020)使用的命令或数据。输入装置1050可包括例如麦克风、鼠标、键盘或数字笔(例如，手写笔)。

声音输出装置1055可将声音信号输出到电子装置1001的外部。声音输出装置1055可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的，接收器可用于呼入调用。根据实施例，可将接收器实现为与扬声器分离，或实现为扬声器的部分。

显示装置1060可向电子装置1001的外部(例如，用户)视觉地提供信息。显示装置1060可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例，显示装置1060可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如，压力传感器)。

音频模块1070可将声音转换为电信号，反之亦可。根据实施例，音频模块1070可经由输入装置1050获得声音，或者经由声音输出装置1055或与电子装置1001直接(例如，有线地)连接或无线连接的外部电子装置(例如，电子装置1002)的耳机输出声音。

传感器模块1076可检测电子装置1001的操作状态(例如，功率或温度)或电子装置1001外部的环境状态(例如，用户的状态)，然后产生与检测到的状态相应的电信号或数据值。根据实施例，传感器模块1076可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。

接口1077可支持将用来使电子装置1001与外部电子装置(例如，电子装置1002)直接(例如，有线地)或无线连接的一个或更多个特定协议。根据实施例，接口1077可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。

连接端1078可包括连接器，其中，电子装置1001可经由所述连接器与外部电子装置(例如，电子装置1002)物理连接。根据实施例，连接端1078可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如，耳机连接器)。

触觉模块1079可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如，振动或运动)或电刺激。根据实施例，触觉模块1079可包括例如电机、压电元件或电刺激器。

相机模块1080可捕获静止图像或运动图像。根据实施例，相机模块1080可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。

电力管理模块1088可管理对电子装置1001的供电。根据实施例，可将电力管理模块1088实现为例如电力管理集成电路(PMIC)的至少部分。

电池1089可对电子装置1001的至少一个部件供电。根据实施例，电池1089可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。

通信模块1090可支持在电子装置1001与外部电子装置(例如，电子装置1002、电子装置1004或服务器1008)之间建立直接(例如，有线)通信信道或无线通信信道，并经由建立的通信信道执行通信。通信模块1090可包括能够与处理器1020(例如，应用处理器(AP))独立操作的一个或更多个通信处理器，并支持直接(例如，有线)通信或无线通信。根据实施例，通信模块1090可包括无线通信模块1092(例如，蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1094(例如，局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络1098(例如，短距离通信网络，诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络1099(例如，长距离通信网络，诸如蜂窝网络、互联网、或计算机网络(例如，LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如，单个芯片)，或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如，多个芯片)。无线通信模块1092可使用存储在用户识别模块1096中的用户信息(例如，国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络1098或第二网络1099)中的电子装置1001。

天线模块1097可将信号或电力发送到电子装置1001的外部(例如，外部电子装置)或者从电子装置1001的外部(例如，外部电子装置)接收信号或电力。根据实施例，天线模块1097可包括天线，所述天线包括辐射元件，所述辐射元件由形成在基底(例如，PCB)中或形成在基底上的导电材料或导电图案构成。根据实施例，天线模块1097可包括多个天线。在这种情况下，可由例如通信模块1090(例如，无线通信模块1092)从所述多个天线中选择适合于在通信网络(诸如第一网络1098或第二网络1099)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块1090和外部电子装置之间发送或接收信号或电力。根据实施例，除了辐射元件之外的另外的组件(例如，射频集成电路(RFIC))可附加地形成为天线模块1097的一部分。

上述部件中的至少一些可经由外设间通信方案(例如，总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如，命令或数据)。

根据实施例，可经由与第二网络1099连接的服务器1008在电子装置1001和外部电子装置1004之间发送或接收命令或数据。电子装置1002和电子装置1004中的每一个可以是与电子装置1001相同类型的装置，或者是与电子装置1001不同类型的装置。根据实施例，将在电子装置1001运行的全部操作或一些操作可在外部电子装置1002、外部电子装置1004或服务器1008中的一个或更多个运行。例如，如果电子装置1001应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务，则电子装置1001可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分，而不是运行所述功能或服务，或者电子装置1001除了运行所述功能或服务以外，还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分，或者执行与所述请求相关的另外功能或另外服务，并将执行的结果传送到电子装置1001。电子装置1001可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此，可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。

图11是示出根据实施例的集成智能系统的框图。

参照图11，根据实施例，集成智能系统110(例如，图1的集成智能系统10或20)可以包括用户终端1100(例如，图2的电子装置20)、智能服务器1200(例如，图1的智能服务器10)和服务服务器1300。

根据实施例的用户终端1100可以是能够连接到互联网的终端装置(或电子装置)，并且可以是例如移动电话、智能电话、个人数字助理(PDA)、笔记本计算机、电视(TV)、白色家用电器、可穿戴装置、HMD或智能扬声器。

根据图示的实施例，用户终端1100可以包括通信接口1110(例如，图2的通信电路230)、麦克风1120(例如，图2的麦克风220)、扬声器1130(例如，图2的扬声器240)、显示器1140(例如，图2的显示器210)、存储器1150(例如，图2的存储器250)或处理器1160(例如，图2的处理器260)。所列出的组件可以彼此可操作地或电气地连接。

根据实施例的通信接口1110可以被配置为向外部装置发送数据或从外部装置接收数据。根据实施例的麦克风1120可以接收声音(例如，用户话语)以将声音转换为电信号。根据实施例的扬声器1130可以将电信号输出为声音(例如，语音)。根据实施例的显示器1140可以被配置为显示图像或视频。根据实施例的显示器1140可以显示正在运行的应用(或应用程序)的图形用户界面(GUI)。

根据实施例的存储器1150可以存储客户端模块1151、软件开发套件(SDK)1153和多个应用1155。客户端模块1151和SDK 1153可以构成用于执行通用功能的框架(或解决方案程序)。此外，客户端模块1151或SDK 1153可以构成用于处理语音输入的框架。

在根据实施例的存储器1150中，多个应用1155可以是用于执行指定功能的程序。根据实施例，多个应用1155可以包括第一应用1155_1和第二应用1155_2。根据实施例，多个应用1155中的每一个可以包括用于执行指定功能的多个动作。例如，这些应用可以包括警报应用、消息应用和/或调度应用。根据实施例，多个应用1155可以由处理器1160运行以顺序地执行多个动作中的至少一部分。

根据实施例，处理器1160可以控制用户终端1100的整体动作。例如，处理器1160可以电连接到通信接口1110、麦克风1120、扬声器1130和显示器1140，以执行指定动作。

此外，根据实施例的处理器1160可以运行存储在存储器1150中的程序以执行指定功能。例如，根据实施例，处理器1160可以执行客户端模块1151或SDK 1153中的至少一个，以执行以下用于处理语音输入的动作。处理器1160可以经由SDK 1153控制多个应用1155的动作。被描述为客户端模块1151或SDK 1153的动作的以下动作可以是由处理器1160的运行的动作。

根据实施例，客户端模块1151可以接收语音输入。例如，客户端模块1151可以接收与经由麦克风1120检测到的用户话语相对应的语音信号。客户端模块1151可以将接收到的语音输入发送到智能服务器1200。客户端模块1151可以将用户终端1100的状态信息与接收到的语音输入一起发送到智能服务器1200。例如，状态信息可以是应用的运行状态信息。

根据实施例，客户端模块1151可以接收与接收到的语音输入相对应的结果。例如，当智能服务器1200能够计算与接收到的语音输入相对应的结果时，客户端模块1151可以接收与接收到的语音输入相对应的结果。客户端模块1151可以在显示器1140中显示接收到的结果。

根据实施例，客户端模块1151可以接收与接收到的语音输入相对应的计划。客户端模块1151可以根据计划在显示器1140中显示运行应用的多个动作的结果。例如，客户端模块1151可以在显示器中顺序显示多个动作的运行结果。对于另一个示例，用户终端1100可以在显示器中仅显示执行多个动作的结果的一部分(例如，最后动作的结果)。

根据实施例，客户端模块1151可以从智能服务器1200接收对获取计算与语音输入相对应的结果所需的信息的请求。根据实施例，客户端模块1151可以响应于该请求将必要的信息发送到智能服务器1200。

根据实施例，客户端模块1151可以将与依据计划运行多个动作的结果有关的信息发送到智能服务器1200。智能服务器1200可以使用结果信息来确定接收到的语音输入已被正确处理。

根据实施例，客户端模块1151可以包括语音识别模块。根据实施例，客户端模块1151可以经由语音识别模块来识别语音输入以执行受限功能。例如，客户端模块1151可以经由指定输入(例如，唤醒！)来运行智能应用(或智能应用或智能辅助服务)，该应用处理用于执行有机动作(organic action)的语音输入。

根据实施例，智能服务器1200可以通过通信网络从用户终端1100接收与用户的语音输入相关联的信息。根据实施例，智能服务器1200可以将与接收到的语音输入相关联的数据改变为文本数据。根据实施例，智能服务器1200可以基于文本数据生成用于执行与用户语音输入相对应的任务的计划。

根据实施例，该计划可以由人工智能(AI)系统生成。AI系统可以是基于规则的系统，或者可以是基于神经网络的系统(例如，前馈神经网络(FNN)或递归神经网络(RNN))。可选地，AI系统可以是上述系统的组合或不同于上述系统的AI系统。根据实施例，该计划可以从一组预定义的计划中选择或者可以响应于用户请求而实时地生成。例如，AI系统可以在多个预定义的计划中选择至少一个计划。

根据实施例，智能服务器1200可以将根据生成的计划的结果发送到用户终端1100，或者可以将生成的计划发送到用户终端1100。根据实施例，用户终端1100可以在显示器上显示根据计划的结果。根据实施例，用户终端1100可以在显示器上显示根据计划运行动作的结果。

根据实施例的智能服务器1200可以包括前端1210、自然语言平台1220、胶囊数据库(DB)1230、运行引擎1240、端用户界面1250、管理平台1260、大数据平台1270或分析平台1280。

根据实施例，前端1210可以接收从用户终端1100接收到的语音输入。前端1210可以发送与语音输入相对应的响应。

根据实施例，自然语言平台1220可以包括自动语音识别(ASR)模块1221、自然语言理解(NLU)模块1223、计划器模块1225、自然语言生成器(NLG)模块1227或文本到语音模块(TTS)模块1229。

根据实施例，ASR模块1221可以将从用户终端1100接收到的语音输入转换为文本数据。根据实施例，NLU模块1223可以使用语音输入的文本数据来掌握用户的意图。例如，NLU模块1223可以通过执行句法分析或语义分析来掌握用户的意图。根据实施例，NLU模块1223可以通过使用诸如词素或短语的语言特征(例如，句法元素)来掌握从语音输入中提取的词的含义，并且可以通过将所掌握的词的含义与意图进行匹配来确定用户的意图。

根据实施例，计划器模块1225可以通过使用由NLU模块1223确定的意图和参数来生成计划。根据实施例，计划器模块1225可以基于所确定的意图来确定执行任务所需的多个域。计划器模块1225可以确定在基于意图而确定的多个域中的每个域中包括的多个动作。根据实施例，计划器模块1225可以确定执行所确定的多个动作所需的参数或者通过运行多个动作而输出的结果值。参数和结果值可以定义为指定形式(或类)的概念。这样，该计划可以包括由用户的意图确定的多个动作和多个概念。计划器模块1225可以逐步地(或分层地)确定多个动作和多个概念之间的关系。例如，计划器模块1225可以基于多个概念来确定基于用户的意图而确定的多个动作的运行顺序。换句话说，计划器模块1225可以基于执行多个动作所需的参数和通过执行多个动作而输出的结果来确定多个动作的运行顺序。这样，计划器模块1225可以生成包括多个动作和多个概念之间的关系的信息(例如，本体)的计划。计划器模块1225可以使用存储在胶囊DB 1230中的信息来生成计划，该胶囊DB 1230存储了概念与动作之间的一组关系。

根据实施例，NLG模块1227可以将指定的信息改变为文本形式的信息。改变为文本形式的信息可以是自然语言话语的形式。根据实施例的TTS模块1229可以将文本形式的信息改变为语音形式的信息。

根据实施例，自然语言平台1220的全部或部分功能也可以在用户终端1100中实现。

胶囊DB 1230可以存储关于动作与对应于多个域的多个概念之间的关系的信息。根据实施例，胶囊可以包括计划中包括的多个动作对象(或动作信息)和概念对象(或概念信息)。根据实施例，胶囊DB 1230可以以概念动作网络(CAN)的形式存储多个胶囊。根据实施例，多个胶囊可以被存储在胶囊DB 1230中包括的功能注册表中。

胶囊DB 1230可以包括策略注册表，该策略注册表存储确定与语音输入相对应的计划所需的策略信息。策略信息可以包括用于在存在与语音输入相对应的多个计划时确定单个计划的参考信息。根据实施例，胶囊DB 1230可以包括后续注册表，该后续注册表存储用于在指定的上下文中向用户建议后续动作的后续动作信息。例如，后续动作可以包括后续话语。根据实施例，胶囊DB 1230可以包括布局注册表，用于存储经由用户终端1100输出的信息的布局信息。根据实施例，胶囊DB 1230可以包括存储在胶囊信息中包括的词汇信息的词汇注册表。根据实施例，胶囊DB 1230可以包括存储关于与用户的对话(或交互)的信息的对话注册表。胶囊DB 1230可以更新经由开发者工具存储的对象。例如，开发者工具可以包括用于更新动作对象或概念对象的功能编辑器。开发者工具可以包括用于更新词汇的词汇编辑器。开发者工具可以包括生成并注册用于确定计划的策略的策略编辑器。开发者工具可以包括与用户创建对话的对话编辑器。开发者工具可以包括能够启用后续目标并编辑后续话语以提供提示的后续编辑器。可以基于当前设置的目标、用户的偏好或环境条件来确定后续目标。根据实施例的胶囊DB 1230也可以在用户终端1100中实现。

根据实施例，运行引擎1240可以使用所生成的计划来计算结果。端用户界面1250可以将计算的结果发送到用户终端1100。这样，用户终端1100可以接收结果并且可以向用户提供接收到的结果。根据实施例，管理平台1260可以管理由智能服务器1200使用的信息。根据实施例，大数据平台1270可以收集用户的数据。根据实施例，分析平台1280可以管理智能服务器1200的服务质量(QoS)。例如，分析平台1280可以管理智能服务器1200的组件和处理速度(或效率)。

根据实施例，服务服务器1300可以向用户终端1100提供指定服务(例如，食物订单或旅馆预订)。根据实施例，服务服务器1300可以是由第三方操作的服务器。根据实施例，服务服务器1300可以向智能服务器1200提供用于生成与所接收的语音输入相对应的计划的信息。提供的信息可以存储在胶囊DB 1230中。此外，服务服务器1300可以向智能服务器1200提供根据计划的结果信息。

在上述集成智能系统110中，用户终端1100可以响应于用户输入向用户提供各种智能服务。用户输入可以包括例如通过物理按钮、触摸输入或语音输入的输入。

根据实施例，用户终端1100可以经由存储在其中的智能应用(或语音识别应用)来提供语音识别服务。在这种情况下，例如，用户终端1100可以识别经由麦克风接收到的用户话语或语音输入，并且可以向用户提供与所识别的语音输入相对应的服务。

根据实施例，用户终端1100可以基于接收到的语音输入，独立地或与智能服务器和/或服务服务器一起执行指定的动作。例如，用户终端1100可以运行与接收到的语音输入相对应的应用，并且可以经由运行的应用来执行指定动作。

根据实施例，当用户终端1100与智能服务器1200和/或服务服务器一起提供服务时，用户终端可以使用麦克风1120检测用户话语，并且可以生成与检测到的用户话语相对应的信号(或语音数据)。用户终端可以使用通信接口1110将语音数据发送到智能服务器1200。

根据实施例，作为对从用户终端1100接收到的语音输入的响应，智能服务器1200可以生成用于执行与语音输入相对应的任务的计划或根据该计划执行动作的结果。例如，该计划可以包括用于执行与用户的语音输入相对应的任务的多个动作以及与该多个动作相关联的多个概念。该概念可以定义要针对运行多个动作而输入的参数或通过运行多个动作而输出的结果值。该计划可以包括多个动作和多个概念之间的关系信息。

根据实施例，用户终端1100可以使用通信接口1110来接收响应。用户终端1100可以使用扬声器1130将在用户终端1100中生成的语音信号输出到外部，或者可以使用显示器1140将在用户终端1100中生成的图像输出到外部。

图12是示出了根据各种实施例的概念和动作之间的关系信息被存储在数据库中的形式的图。

智能服务器1200的胶囊数据库(例如，胶囊DB 1230)可以以概念动作网络(CAN)的形式存储胶囊。胶囊数据库可以以CAN形式存储用于处理与语音输入相对应的任务的动作和该动作所需的参数。

胶囊数据库可以存储分别对应于多个域(例如，应用)的多个胶囊，胶囊A 4010和胶囊B 4040。根据实施例，单个胶囊(例如，胶囊A 4010)可以对应于一个域(例如，位置(地理位置)或应用)。此外，用于执行与胶囊相关联的域的功能的至少一个服务提供商(例如，CP 1 4020或CP 2 4030)可以对应于单个胶囊。根据实施例，单个胶囊可以包括至少一个或更多个动作4100和用于执行指定功能的至少一个或更多个概念4200。

自然语言平台1220可以使用存储在胶囊数据库中的胶囊来生成用于执行与所接收的语音输入相对应的任务的计划。例如，自然语言平台的计划器模块1225可以使用在胶囊数据库中存储的胶囊来生成计划。例如，计划器模块1225可以使用胶囊A 4010的动作4011和4013以及概念4012和4014以及胶囊B 4040的动作4041和概念4042来生成计划4070。

图13是示出根据各种实施例的用户终端处理通过智能应用接收到的语音输入的屏幕的视图。

用户终端1100可以运行智能应用以处理通过智能服务器1200的用户输入。

根据实施例，在屏幕3100中，当识别出指定的语音输入(例如，唤醒！)或经由硬件密钥(例如，专用硬件密钥)接收输入时，用户终端1100可以启动用于处理语音输入的智能应用。例如，用户终端1100可以在正在运行调度应用的状态下启动智能应用。根据实施例，用户终端1100可以在显示器1140中显示与智能应用相对应的对象(例如，图标)3110。根据实施例，用户终端1100可以接收通过用户话语输入的语音。例如，用户终端1100可以接收说“让我知道本周的行程！”的语音输入。根据实施例，用户终端1100可以在显示器中显示智能应用的用户界面(UI)3130(例如，输入窗口)，其中显示了接收到的语音输入的文本数据。

根据实施例，在屏幕3200中，用户终端1100可以在显示器中显示与接收到的语音输入相对应的结果。例如，用户终端1100可以接收与所接收的用户输入相对应的计划，并且可以根据计划在显示器中显示“本周的行程”。

根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如，智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例，电子装置不限于以上所述的那些电子装置。

应该理解的是，本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例，而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述，相似的参考标号可用来指代相似或相关的元件。将理解的是，与术语相应的单数形式的名词可包括一个或更多个事物，除非相关上下文另有明确指示。如这里所使用的，诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。如这里所使用的，诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分，并且不在其它方面(例如，重要性或顺序)限制所述部件。将理解的是，在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下，如果一元件(例如，第一元件)被称为“与另一元件(例如，第二元件)结合”、“结合到另一元件(例如，第二元件)”、“与另一元件(例如，第二元件)连接”或“连接到另一元件(例如，第二元件)”，则意味着所述一元件可与所述另一元件直接(例如，有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。

如这里所使用的，术语“模块”可包括以硬件、软件或固件实现的单元，并可与其他术语(例如，“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如，根据实施例，可以以专用集成电路(ASIC)的形式来实现模块。

可将在此阐述的各种实施例实现为包括存储在存储介质(例如，内部存储器1036或外部存储器1038)中的可由机器(例如，电子装置1001)读取的一个或更多个指令的软件(例如，程序1040)。例如，在处理器的控制下，所述机器(例如，电子装置1001)的处理器(例如，处理器1020)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中，术语“非暂时性”仅意味着所述存储介质是有形装置，并且不包括信号(例如，电磁波)，但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。

根据实施例，可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如，紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品，或者可经由应用商店(例如，Play Store^TM)在线发布(例如，下载或上传)计算机程序产品，或者可直接在两个用户装置(例如，智能电话)之间分发(例如，下载或上传)计算机程序产品。如果是在线发布的，则计算机程序产品中的至少部分可以是临时产生的，或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。

根据各种实施例，上述部件中的每个部件(例如，模块或程序)可包括单个实体或多个实体。根据各种实施例，可省略上述部件中的一个或更多个部件，或者可添加一个或更多个其它部件。可选择地或者另外地，可将多个部件(例如，模块或程序)集成为单个部件。在这种情况下，根据各种实施例，该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式，执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例，由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行，或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略，或者可添加一个或更多个其它操作。

根据本公开中公开的实施例，可以提供能够在一个唤醒话语之后提供分别与多个用户话语相对应的多个响应的语音识别服务。此外，可以提供通过本公开直接或间接理解的各种效果。

尽管已经参照本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，可以在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下对形式和细节进行各种改变。

Claims

1.一种电子装置，所述电子装置包括：

显示器；

麦克风；

扬声器；

至少一个处理器，所述至少一个处理器可操作地连接到所述显示器、所述麦克风和所述扬声器；以及

至少一个存储器，所述至少一个存储器可操作地连接到所述处理器，

其中，所述存储器被配置为存储自动语音识别ASR模块和自然语言理解NLU模块，并且

其中，所述存储器被配置为存储指令，所述指令在被执行时，使所述处理器：

基于第一用户输入设置用于接收第二用户话语的时间间隔；

基于第二用户输入设置至少一个触发词或短语，所述至少一个触发词或短语用于请求多个动作当中的能够由所述电子装置执行的动作，其中，所述至少一个触发词或短语不同于用于激活基于语音的智能辅助服务的预定唤醒词；

响应于接收到与所述预定唤醒词对应的唤醒话语，激活所述基于语音的智能辅助服务；

在所述唤醒话语之后，通过所述麦克风接收第一用户话语；

使用所述NLU模块处理所述第一用户话语；

基于处理后的第一用户话语生成第一响应；

当所述基于语音的智能辅助服务被激活时，在接收到所述唤醒话语之后在所述时间间隔内，通过所述麦克风接收所述第二用户话语；

使用所述ASR模块，提取所述第二用户话语的文本；

基于所述第二用户话语的文本中包括所述至少一个触发词或短语，使用所述NLU模块处理所述第二用户话语以生成第二响应；以及

基于所述第二用户话语的文本中不包括所述至少一个触发词或短语，不生成对所述第二用户话语的响应并将所述基于语音的智能辅助服务去激活。

2.根据权利要求1所述的电子装置，其中，所述指令使所述处理器：

提供被配置为接收用于设置所述至少一个触发词或短语的所述第二用户输入的用户界面。

3.根据权利要求1所述的电子装置，其中，所述指令使所述处理器：

提供被配置为接收用于设置所述时间间隔的所述第一用户输入的用户界面。

4.根据权利要求1所述的电子装置，其中，所述时间间隔包括生成了所述第一响应之后的时间。

5.根据权利要求1所述的电子装置，其中，所述至少一个触发词或短语包括与类别相关联的词，所述类别与所述动作相关联。

6.根据权利要求1所述的电子装置，其中，所述指令使所述处理器：

基于所述第一用户话语来识别语速变化、音调变化和语调变化；以及

基于所述语速变化、所述音调变化和所述语调变化满足特定条件，确定所述第二用户话语中是否包括所述至少一个触发词或短语。

7.根据权利要求1所述的电子装置，其中，所述指令使所述处理器：

确定所述第二用户话语中是否包括不同于所述至少一个触发词或短语的选定词或选定短语；

基于所述第二用户话语中不包括所述选定词或选定短语，使用所述NLU模块处理所述第二用户话语，以生成所述第二响应；以及

基于所述第二用户话语中包括所述选定词或选定短语，不生成对所述第二用户话语的响应。

8.根据权利要求1所述的电子装置，其中，所述指令使所述处理器：

基于所述至少一个触发词或短语在包括所述至少一个触发词或短语的句子中的位置，确定所述句子是否被错误识别；以及

基于所述句子被错误识别，通过所述扬声器输出用于请求对包括所述至少一个触发词或短语的所述句子进行重发话语的声音。