CN112513984A

CN112513984A - 电子设备及其控制方法

Info

Publication number: CN112513984A
Application number: CN201980052036.5A
Authority: CN
Inventors: 金昌汉; 金宝元; 李振硕; 林贤泽; 徐廷宽
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-08-29
Filing date: 2019-07-26
Publication date: 2021-03-16
Also published as: EP3796316A1; WO2020045835A1; EP3796316A4; US20210256965A1; KR102628211B1; KR20200025226A

Abstract

本公开的电子设备包括：通信单元；存储器；以及处理器，其用于：在电子设备获取的音频信号中检测语音部分；识别在检测到的语音部分中包括的用户语音中是否存在存储于存储器中的唤醒词；当识别出在用户语音中存在唤醒词时，经由通信单元将用户语音发送到用于提供语音辨识服务的服务器；并且当从服务器接收到针对用户语音的响应信息时，基于接收到的响应信息提供对用户语音的响应，其中当用户语音的一部分与唤醒词匹配时，处理器识别出在用户语音中存在唤醒词。具体地，一种用于获取提供响应的自然语言的方法可以采用根据机器学习、神经网络和深度学习算法中的至少一种来学习的人工智能模型。

Description

电子设备及其控制方法

技术领域

本公开涉及一种电子设备及其控制方法，并且更具体地涉及一种用于检测语音部分并辨识语音的电子设备及其控制方法。

背景技术

近年来，随着电子技术的不断发展，已经开发出了各种各样的电子设备。尤其是最近已经开发出了能够提供语音辨识服务的电子设备，这种语音辨识服务采用实现了人类智能水平的人工智能(AT)模型来提供对用户语音的响应。

同时，一种供用户调用语音辨识服务的方法可以包括按压电子设备的按钮或说出调用命令的方法。具体地，说出调用命令的方法的优点在于：当用户与电子设备相隔较远时，该用户能够调用语音辨识服务，这比按压按钮更容易，并且可以向用户提供流畅的用户界面(UI)。

然而，当用户说出调用命令时，该调用命令只有在处于沉默间隙时才可以被辨识到，因此，存在着如下的问题：只有在沉默之后说出调用命令并且随后紧跟沉默部分时，才能通过辨识调用命令来调用语音辨识服务。

同时，当连续地调用语音辨识服务时，用户必须针对每次调用说出调用命令。另外，在对话中，通常每次都用代词来称呼一个人，而不是用他/她的名字。但是，用户在每次调用语音辨识服务时必须说出调用命令而不是代词，从而给用户带来了差异感。

发明内容

【技术问题】

考虑到以上需求而实现了本公开，本公开的目的在于提供一种电子设备及其控制方法，用于即使用户连续地发出包含调用命令的用户语音，也可以检测该调用命令以调用语音辨识服务。

【技术解决方案】

根据本公开的一方面，提供了一种电子设备，包括：通信器；以及处理器，被配置为：从电子设备获得的音频信号中检测语音部分，识别在检测到的语音部分中包括的用户语音中是否存在唤醒词，基于识别出在用户语音中存在唤醒词，经由通信器将用户语音发送到用于提供语音辨识服务的服务器，以及基于从服务器接收到与用户语音有关的响应信息，基于所接收的响应信息提供对用户语音的响应，其中处理器被配置为：基于用户语音的一部分与唤醒词匹配，识别出在用户语音中存在唤醒词。

处理器可以被配置为：基于音频信号的水平，从音频信号中检测语音部分和沉默部分；以及基于检测到的语音部分中包括的用户语音的一部分与唤醒词匹配，识别出在用户语音中存在唤醒词。

处理器可以被配置为：从音频信号中检测幅度等于或大于预定水平的部分，作为语音部分；以及从音频信号中检测幅度小于预定水平的部分，作为沉默部分。

处理器可以被配置为：通过以音素为单位划分用户语音来从用户语音中获得多个音素；以及基于由所获得的多个音素构成的词与唤醒词匹配，识别出在用户语音中存在唤醒词。

处理器可以被配置为：基于识别出在用户语音中存在唤醒词，将用户语音中的除了唤醒词之外的其余用户语音发送到服务器。

处理器可以被配置为：从音频信号中检测多个语音部分；以及基于多个语音部分中的任何一个语音部分中包括的用户语音的一部分与唤醒词匹配，将任何一个语音部分中包括的用户语音之中除了唤醒词之外的其余用户语音和其余语音部分中包括的用户语音发送到服务器。

处理器可以被配置为：基于在识别出用户语音中存在唤醒词之后的预定时间段内获得音频信号，识别在音频信号的语音部分中包括的用户语音中是否存在预定词；并且基于识别出存在预定词，经由通信器将语音部分中包括的用户语音发送到服务器。

预定词可以包括代词。

根据本公开的另一方面，提供了一种用于控制电子设备的方法，方法包括：从电子设备获得的音频信号中检测语音部分，识别在检测到的语音部分中包括的用户语音中是否存在唤醒词，基于识别出在用户语音中存在唤醒词，将用户语音发送到用于提供语音辨识服务的服务器，以及基于从服务器接收到与用户语音有关的响应信息，基于所接收的响应信息提供对用户语音的响应，其中识别包括：基于用户语音的一部分与唤醒词匹配，识别出在用户语音中存在唤醒词。

检测可以包括：基于音频信号的水平，从音频信号中检测语音部分和沉默部分；以及基于检测到的语音部分中包括的用户语音的一部分与唤醒词匹配，识别出在用户语音中存在唤醒词。

检测可以包括：从音频信号中检测幅度等于或大于预定水平的部分，作为语音部分；以及从音频信号中检测幅度小于预定水平的部分，作为沉默部分。

识别可以包括：通过以音素为单位划分用户语音来从用户语音中获得多个音素；以及基于由所获得的多个音素构成的词与唤醒词匹配，识别出在用户语音中存在唤醒词。

发送可以包括：基于识别出在用户语音中存在唤醒词，将用户语音中的除了唤醒词之外的其余用户语音发送到服务器。

检测可以包括：从音频信号中检测多个语音部分；以及其中发送可以包括：基于多个语音部分中的任何一个语音部分中包括的用户语音的一部分与唤醒词匹配，将任何一个语音部分中包括的用户语音之中除了唤醒词之外的其余用户语音和其余语音部分中包括的用户语音发送到服务器。

该方法还可以包括：基于在识别出用户语音中存在唤醒词之后的预定时间段内获得音频信号，识别在音频信号的语音部分中包括的用户语音中是否存在预定词；并且基于识别出存在预定词，经由通信器将语音部分中包括的用户语音发送到服务器。

预定词可以包括代词。

【发明效果】

根据本公开的各种实施例，可以提供一种电子设备及其控制方法，即使用户在自然地说话的情况下连续地说出包括调用命令的用户语音，该电子设备也可以检测出用户语音中包括的调用命令以调用语音辨识服务。

另外，当连续地调用语音辨识服务时，即使用户说出的是包括代词的预定词，也可以按照与调用命令的说出方式相同的方式来调用语音辨识服务，从而向用户提供自然的用户界面。

附图说明

图1是示出了根据实施例的用于提供语音辨识服务的系统的图；

图2是根据实施例的电子设备的框图；

图3a和图3b是示出了根据实施例的用于控制电子设备的方法的图；

图4a至图4c是示出了确定唤醒词的具体示例的图；

图5是示出了确定预定词的具体示例的图；

图6是具体示出了根据实施例的电子设备的配置的框图；并且

图7是示出了根据实施例的用于控制电子设备的方法的流程图。

具体实施方式

在描述本公开时，当确定了对现有技术或配置的详细描述可能不必要地使本公开的主旨变得模糊时，可以省略这样的详细描述。另外，以下实施例可以以各种形式加以改变，并且本公开的技术思想的范围并不局限于以下实施例。提供这些实施例是为了使本公开变得完整并将本公开的技术思想完整地传递给本领域技术人员。

应注意，本公开中所公开的技术并非用于将本公开的范围限制为特定实施例，而是应将其解释为包括本公开的实施例的所有修改、等同形式和/或替代形式。关于附图的说明，相似的附图标记可以用于相似的元件。

在本公开中使用的“第一”、“第二”等表述可以表示各种元件，而与顺序和/或重要性无关，并且这些表述可以用于将一个元件与另一个元件区分开，并不对这些元件加以限制。

在本公开中，诸如“A或B”、“A[和/或]B中的至少一个”或“A[和/或]B中的一个或多个”之类的表述包括所列出项目的所有可能的组合。例如，“A或B”、“A和B中的至少一个”或“A或B中的至少一个”包括(1)至少一个A、(2)至少一个B或(3)至少一个A和至少一个B中的任何一项。

在本公开中，除非另有特别定义，否则单数表述可以涵盖复数表述。应当理解，诸如“包括”或“由...组成”之类的术语在本文中用于表示特征、数量、步骤、操作、元件、部件或其组合的存在，而不是排除一个或多个其他特征、数量、步骤、操作、元件、部件或其组合的存在或添加它们的可能性。

如果描述了特定元件(例如，第一元件)与另一元件(例如，第二元件)“操作地或通信地耦合”或“连接到”该另一元件，则应当理解的是，该特定元件可以直接地或通过又一个元件(例如，第三元件)连接到该另一个元件。另一方面，如果描述了特定元件(例如，第一元件)“直接地耦合到”另一元件(例如，第二元件)或“直接地连接到”该另一元件，则可以理解为在该特定元件与该另一元件之间不存在元件(例如，第三元件)。

此外，在本公开中使用的表述“配置为”可以与其他表述互换地使用，诸如“适合于”、“具有...的能力”、“设计为”、“适于”、“制造为”和“能够”，具体视情况而定。表述“配置为(或设置为)”不一定指的是就硬件而言“专门设计为...”的设备。相反，在某些情况下，表述“配置为...的设备”可以指该设备“能够”与另一设备或组件一起执行操作。例如，短语“配置(或设置)为执行A、B和C的处理器”可以指(例如但不限于)用于执行相应操作的专用处理器(例如，嵌入式处理器)、或者可以通过执行存储在存储器设备中的一个或多个软件程序来执行操作的通用处理器(例如，CPU或应用处理器)等。

本公开中的电子设备可以实现为诸如以下设备：智能电话、平板电脑、扬声器、移动电话、电话、电子书阅读器、台式电脑、膝上型电脑、工作站、服务器、PDA、便携式多媒体播放器(PMP)、MP3播放器、医疗设备、照相机、电视、数字化视频光盘(DVD)播放器、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如，SAMSUNG HOMESYNC^TM、APPLE TV^TM或GOOGLE TV^TM)、游戏机(例如，XBOX^TM、PLAYSTATION^TM)、电子词典、电子钥匙、便携式摄像机、电子相框或可穿戴设备。本文的可穿戴设备可以包括附件类型中的至少一个(例如，手表、戒指、手镯、脚链、项链、眼镜、隐形眼镜或头戴式设备(HMD))；面料或服装嵌入型(例如：电子布)；皮肤附着型(例如，皮肤垫或纹身)；或者生物植入物型(植入式电路)。

在下文中，将参照附图详细地描述本公开的各种实施例。

图1是示出了根据实施例的用于提供语音辨识服务的系统的图。

参照图1，一种用于提供语音辨识服务的系统可以包括电子设备100和服务器200。

参照图1，电子设备100可以实现为扬声器，该扬声器是可与服务器200通信的设备。然而，这仅是示例，并且电子设备100可以实现为如上所述的各种类型的设备。

电子设备100可以提供通过执行用户语音的语音辨识来提供信息或执行操作的服务(在下文中，可以称为语音辨识服务或辅助服务)。

为此，电子设备100可以获得用户语音，并将所获得的用户语音发送到提供语音辨识服务的服务器200。在这种情况下，电子设备100可以经由有线或无线网络连接到服务器200，以便发送和接收各种信息。

具体而言，电子设备100可以从用户语音中检测唤醒词(或调用命令)，当从用户语音中检测到唤醒词时唤醒电子设备100，并将用户语音发送到服务器200。在本文中，唤醒可以指电子设备100激活(或调用)语音辨识服务。

同时，当从电子设备100接收到用户语音时，服务器200可以执行与接收到的用户语音有关的语音辨识。在本文中，服务器200可以是使用人工智能(AI)代理来提供语音辨识服务的服务器。

为此，服务器200可以包括使用人工智能模型来提供对用户语音的响应的对话系统。

具体而言，服务器200可以执行与用户语音有关的语音辨识以将用户语音转换为文本，并且基于语音辨识结果来掌握用户语音的意图和本质。服务器200可以基于自然语言理解结果来获得与对用户语音的响应有关的信息，并且基于所获得的信息来获得作为用户语音的响应信息的自然语言。服务器200可以将该响应信息发送到电子设备100。

为此，服务器200可以包括自动语音辨识(ASR)模块、自然语言理解(NLU)模块、对话管理(DM)模块、自然语言生成(NLG)模块等。

同时，电子设备100可以基于接收到的响应信息来提供对用户语音的响应。

例如，电子设备100可以通过文本转语音(TT)将接收到的响应信息中包括的文本转换为语音，进而输出该语音，或者可以经由电子设备100的显示器(未示出)显示包括对应文本的用户界面。

上述对话系统可以提供对用户语音的响应，因此，用户可以与电子设备100进行对话。

同时，即使对于同一个词，用户仍可以以不同的说话速度、沉默(在音节或词之间的暂停)、发音方式等来说出该词，这具体取决于用户的语言习惯或当前状况(口吃、发音障碍等)。例如，用户可以在没有任何沉默的情况下连续地说出包含唤醒词和特定词(或者短语、分句或句子)的用户语音，或者可以先说出其他词，然后再说出唤醒词，而不是首先说出唤醒词。

在这种情况下，根据本公开的实施例的电子设备100在检测到唤醒词时可以将用户语音划分为语音部分和沉默部分，并以音素为单位中对语音部分中包括的用户语音进行分析，以检测唤醒词。

因此，电子设备100不仅可以在用户在没有任何沉默的情况下连续说出包括唤醒词和特定词的用户语音时从用户语音中检测唤醒词，而且也可以在用户先说出其他词然后再说出唤醒词时从用户语音中检测唤醒词。

因此，可以改善用于调用语音辨识服务的唤醒词的检测范围及其准确性，并且用户能够在自然地说话的情况下调用语音辨识服务。因此可以提高用户的满意度和便利性。

在下文中，将参照附图详细地描述本公开。

图2是根据实施例的电子设备的框图。

参照图2，电子设备100可以包括通信器110和处理器120。

通信器110可以根据各种类型的通信方法与外部设备进行通信。例如，通信器110可以经由有线或无线网络连接到服务器200或外部电子设备以执行通信。在本文中，服务器200可以包括使用经过训练的人工智能模型来提供语音辨识服务的服务器。

在这种情况下，通信器110可以将电子设备100获得的用户语音发送到服务器200，并且从服务器200接收与经由人工智能模型获得的用户语音相对应的响应信息。

为此，通信器110可以包括Wi-Fi芯片、以太网芯片、蓝牙芯片和无线通信芯片中的至少一个。

处理器120可以控制电子设备100的总体操作。

具体地，处理器120可以从电子设备100获得的音频信号中检测语音部分，识别在检测到的语音部分中包括的用户语音中是否存在唤醒词，在识别出在用户语音中存在唤醒词时，经由通信器110将用户语音发送到提供语音辨识服务的服务器200，并且在从服务器200接收到与用户语音有关的响应信息时，基于接收到的响应信息提供对用户语音的响应。

具体而言，电子设备100可以从用户发出的语音中获得音频信号。例如，电子设备100可以从经由内部麦克风或外部麦克风输入的由用户发出的语音中获得音频信号。在另一实施例中，电子设备100可以从外部电子设备(未示出)接收输入到该外部电子设备(未示出)的由用户发出的语音，并从接收到的语音中获得音频信号。

在这种情况下，处理器120可以将电子设备100获得的音频信号存储在存储器(未示出)中。

同时，处理器120可以从电子设备100获得的音频信号中检测语音部分。具体而言，处理器120可以通过首先从音频信号中去除周围噪声或无线电噪声然后再去除沉默部分(或非语音部分)的方法来检测语音部分。

在这种情况下，处理器120可以基于音频信号的水平从音频信号中检测语音部分和沉默部分。在本文中，音频信号的水平可以是音频信号的电压(或功率)值或平均电压(或功率)值。具体而言，处理器120可以从音频信号中检测幅度等于或大于预定水平的部分，作为语音部分，并且从音频信号中检测幅度小于预定水平的部分，作为沉默部分。例如，一般情况下，如果将15分贝(dB)(即，人悄声说话时的水平)设置为参考水平，则处理器120可以从音频信号中检测幅度等于或大于15分贝的部分，作为语音部分，并检测幅度小于15分贝的部分，作为沉默部分。

处理器120可以识别(或检测)在检测到的语音部分中包括的用户语音中是否存在唤醒词。

此时，唤醒词可以指用于执行语音辨识服务或请求语音辨识服务的响应的触发词(或调用命令)，并且用户可以说出唤醒词，从而通过语音来调用语音辨识服务。这样的唤醒词可以是用于提供语音辨识服务的人工智能的名称等。

为此，处理器120可以以音素为单位划分用户语音以从用户语音中获得多个音素，并获得由所获得的多个音素构成的词。

具体而言，处理器120可以通过语音转文本(STT)处理以音素为单位将检测到的语音部分中包括的用户语音划分成文本。在文本中，音素可以指声音的最小单位。处理器120可以从发音词典中搜索发音与音素集的发音相同的词，并且从所获得的多个音素中获得具有含义的词。备选地，处理器120可以将所获得的多个音素输入到经过训练的人工智能模型，以从所获得的多个音素中获得具有含义的词。在这种情况下，人工智能模型可以是被训练为通过考虑用户的说话意图、一个音节与该音节之前和之后的其他音节之间的关系等来从所获得的多个音素中获得具有含义的词的模型。

在下文中，处理器120可以识别出在语音部分中包括的用户语音中是否存在唤醒词。

具体而言，当因为以音素为单位对语音部分中包括的用户语音进行分析而获得的词与唤醒词匹配、或者作为分析结果而获得的多个词中的至少一个词与唤醒词匹配时，处理器120可以确定在用户语音中存在唤醒词。此时，不仅在所获得的词与唤醒词匹配时，而且在两个词的相似度等于或大于预定值时，处理器120都可以确定各个词相互之间是匹配的。

例如，假设“Bixby”是唤醒词，并且用户说“Bixby，天气怎么样？”

在这种情况下，处理器120可以从语音部分中检测到诸如“Bixby，天气怎么样？”之类的用户语音，并以音素为单位对该用户语音进行分析，以便从诸如“Bixby，天气怎么样？”之类的用户语音中获得诸如“Bixby”、“天气”、“怎么样”之类的词。此时，由于所获得的词中的“Bixby”与唤醒词匹配，处理器120可以确定在诸如“Bixby，天气怎么样？”之类的用户语音中存在唤醒词。

在另一个示例中，假设“Bixby”是唤醒词，并且用户说“嘿，Bixby，天气怎么样？”

在这种情况下，处理器120可以去除沉默部分，从每个语音部分中检测诸如“嘿，Bixby，天气怎么样？”之类的用户语音，并且以音素为单位对该用户语音进行分析，以便从诸如“嘿，Bixby，天气怎么样？”之类的用户语音中获得诸如“嘿”、“Bixby”、“天气”、“怎么样”之类的词。此时，由于所获得的词中的“Bixby”与唤醒词匹配，因此，处理器120可以确定在诸如“嘿，Bixby，天气怎么样？”之类的用户语音中存在唤醒词。

因此，当用户语音中的某些词与唤醒词匹配时，处理器120可以识别出在用户语音中存在唤醒词。

同时，处理器120可以以音素为单位划分用户语音以从用户语音中获得多个音素，并确定在所获得的多个音素中是否存在与唤醒词对应的音素。在本文中，与唤醒词对应的音素可以是以音素为单位从唤醒词中划分出的音素中的第一音素。

当确定了在所获得的多个音素中存在与唤醒词对应的音素时，处理器120可以优先将从与唤醒词对应的音素中依次获得的多个音素组合，从而获得由所获得的多个音素构成的词。

例如，假设

(对应于Bixby的韩语字母)是唤醒词，并且用户说出“

(嘿，Bixby)”。在本文中，与唤醒词对应的音素可以是

其是以音素为单位从预定唤醒词中划分出的音素

一和

中的第一音素。

作为参考，与韩语辅音对应的发音与下表1中相同，并且与韩语元音对应的发音与下表2中相同。

【表1】

【表2】

在这种情况下，处理器120可以从语音部分中检测到诸如“

(嘿)”和“

(Bixby)”之类的用户语音，并以音素为单位对这些用户语音进行分析，以便从用户语音中获得诸如“

和

”以及“

和

”之类的音素。在本文中，当使用从用户语音获得的音素来获得词时，处理器120可以优先获得由“

和

”构成的词“

(Bixby)”，这些音素是从

依次获得的音素，而

是与唤醒词对应的音素。由于所获得的词“Bixby”与唤醒词匹配，因此，处理器120可以识别出在用户语音中存在唤醒词。

因此，优先从用户语音中获得唤醒词，以提高识别出用户语音中是否存在唤醒词的速度。

同时，当识别出在用户语音中存在唤醒词时，处理器120可以唤醒电子设备100，以提供语音辨识服务。

具体而言，当识别出在用户语音中存在唤醒词时，处理器120可以经由通信器110将用户语音发送到用于提供语音辨识服务的服务器200。此时，处理器120可以将包含音频信息或文本信息的用户语音发送到服务器200。

在本文中，当识别出在用户语音中存在唤醒词时，处理器120可以将用户语音中除了唤醒词之外的其余用户语音发送到服务器200。

例如，假设“Bixby”是唤醒词，并且用户说“Bixby，天气怎么样？”在这种情况下，处理器120可以从用户语音中获得诸如“Bixby”、“天气”、“怎么样”之类的词。在本文中，由于在所获得的词中”Bixby”与唤醒词匹配，因此，处理器120可以确定在用户语音中存在唤醒词。此时，处理器120可以向服务器200发送“天气怎么样”，其是除了唤醒词之外的其余用户语音。

在本文中，处理器120可以从音频信号中检测多个语音部分，并且当多个语音部分中的任何一个语音部分中包括的用户语音的一部分与唤醒词匹配时，处理器120可以将任何一个语音部分中包括的用户语音中除了唤醒词之外的其余用户语音和其余语音部分中包括的用户语音发送到服务器200。在本文中，可以按照保持沉默的时间段(或沉默部分的长度)对多个语音部分进行划分。

例如，假设“Bixby”是唤醒词，并且用户说“嘿，Bixby，天气怎么样？”在这种情况下，处理器120可以从电子设备100获得的音频信号中依次检测到“嘿，Bixby(第一语音部分)”、“沉默部分”和“天气怎么样(第二语音部分)”的多个语音部分。此时，由于“Bixby”(其是在检测到的多个语音部分中的“嘿，Bixby(第一语音部分)”中包括的用户语音的一部分)与唤醒词匹配，因此，处理器120可以将“嘿”(其是“嘿，Bixby(第一语音部分)”中包括的除了唤醒词之外的其余部分)以及“天气怎么样”(其是其余的第二语音部分中包括的用户语音)发送到服务器200。

同时，处理器120可以将在识别出用户语音中存在唤醒词的时刻之前或之后的预定时间段内获得的用户语音发送到服务器200。

例如，假设唤醒词是“Bixby”，并且用户说“你好？嘿，Bixby，天气怎么样？”在这种情况下，处理器120可以去除沉默部分，从每个语音部分中检测到诸如“你好”、“嘿”、“Bixby”和“天气怎么样”之类的用户语音，并且以音素为单位对这些用户语音进行分析，以从这些用户语音中获得诸如“你好”、“嘿”、“Bixby”、“天气”和“怎么样”之类的词。在本文中，由于在所获得的词中“Bixby”与唤醒词匹配，因此，处理器120可以识别出在用户语音中存在唤醒词。

假设在识别出”Bixby”的时刻之前的预定时间段内获得的用户语音为“嘿”并且在识别出“Bixby”的时刻之后的预定时间段内获得的用户语音为“天气”，那么，在除了唤醒词“Bixby”之外的其余用户语音中，处理器120可以将包含“嘿”(其在识别出”Bixby”的时刻之前的预定时间段内获得)的用户语音和包含“天气”(其在识别出“Bixby”的时刻之后的预定时间段内获得)的用户语音发送到服务器200。

同时，当从服务器200接收到与用户语音有关的响应信息时，处理器120可以基于接收到的响应信息提供对用户语音的响应。

为此，服务器200可以从电子设备100接收用户语音，执行与用户语音有关的语音辨识以获得与用户语音有关的响应信息，并且将用户语音的响应信息发送到电子设备100。

当从服务器200接收到与用户语音有关的响应信息时，处理器120可以基于接收到的响应信息，以声音、文本、图像和视频中的至少一种形式提供对用户语音的响应，或者基于接收到的响应信息执行特定操作(例如，关闭客厅灯的操作)，作为对用户语音的响应。此时，处理器120可以通过文本转语音(TTS)技术将接收到的响应信息中包括的文本转换为声音以输出该声音，或者基于接收到的响应信息，经由用户界面在电子设备100的显示器(未示出)上显示接收到的响应信息中包括的文本。

同时，当在识别出在用户语音中存在唤醒词之后的预定时间段内获得音频信号时，处理器120可以识别出在该音频信号的语音部分中包括的用户语音中是否存在预定词，并且当识别出存在预定词时，经由通信器110将该语音部分中包括的用户语音发送到服务器200。

在本文中，预定词可以包括代词。例如，预定词可以包括诸如你、甜心、亲爱的或宝贝之类的代词，并且用户可以添加或改变预定词。

根据上述实施例，用户可以在检测到唤醒词之后的预定时间段内说出包括代词的预定词以调用语音辨识服务，并且用户可以如同与人正常对话一样通过流畅的对话来执行语音辨识。因此，可以提高连续调用语音辨识服务的用户的便利性和满意度。

图3a和图3b是示出了根据实施例的用于控制电子设备的方法的图。

参照图3a，处理器120可以从电子设备100获得的音频信号中检测语音部分(S300)。

接下来，处理器可以识别在检测到的语音部分中包括的用户语音中是否存在唤醒词。

具体而言，处理器120可以以音素为单位对检测到的语音部分中包括的用户语音进行分析，以从用户语音获得音素(S305)。

处理器120可以对在语音部分结束之前获得的音素进行累积以获得多个音素，并获得由所获得的多个音素构成的词(S310)。

处理器120可以确定语音部分是否已经结束(S315)。此时，沉默部分的长度可以作为确定语音部分是否已经结束的参考。例如，当保持沉默的时间满足预定时间段时，处理器120可以确定语音部分已经结束。

作为确定语音部分是否结束的结果，当语音部分已经结束时(S315，是)，处理器120可以确定包括由所获得的多个音素构成的词在内的用户语音是否与唤醒词匹配(S320)，而当语音部分尚未结束时(S315，否)，处理器120可以再次从检测到的语音部分中获得多个音素(S310)。

作为确定用户语音是否与唤醒词匹配的结果，当用户语音的一部分与唤醒词匹配时(S320，是)，处理器120可以识别出在用户语音中存在唤醒词。同时，当用户语音与唤醒词不匹配时(S320，否)，处理器120可以再次执行从电子设备100获得的音频信号中检测语音部分的操作(S300)。

当识别出在用户语音中存在唤醒词时，处理器120可以经由通信器110将用户语音发送到提供语音辨识服务的服务器200。

当从服务器接收到与用户语音有关的响应信息时，处理器120可以基于接收到的响应信息来提供对用户语音的响应(S330)。

作为另一实施例，参照图3b，将描述在从识别出存在唤醒词的时刻起的预定时间段内获得音频信号的情况。

处理器120可以从在识别出存在唤醒词的时刻起的预定时间段内由电子设备100获得的音频信号中检测语音部分(S340)，以音素为单位对检测到的语音部分中包括的用户语音进行分析以从用户语音获得音素(S345)，对在语音部分结束之前获得的音素进行累积以获得多个音素，并获得由所获得的多个音素构成的词(S350)。

处理器120可以确定语音部分是否已经结束(S355)，并且当语音部分已经结束时(S355，是)，确定包括由所获得的多个音素构成的词在内的用户语音是否与预定词匹配(S360)。

在本文中，预定词可以包括代词。例如，预定词可以包括诸如“你、甜心、亲爱的或宝贝”之类的代词。

当识别出在用户语音中存在预定词时(S360，是)，处理器120可以经由通信器110将音频信号的语音部分中包括的用户语音发送到服务器200(S365)。

当从服务器200接收到与用户语音有关的响应信息时，处理器120可以基于接收到的响应信息提供对用户语音的响应(S370)。

图4a至图4c是示出了根据实施例的确定唤醒词的具体示例的图。在本文中，假设唤醒词被设置为“Bixby”。

参照图4a，用户说“

(Bixby，你推荐哪家餐厅？)”

在这种情况下，处理器120可以从用户说出的语音中检测语音部分和沉默部分，诸如“

(Bixby)(第一语音部分)”、(沉默部分)和“

(你推荐哪家餐厅)(第二语音部分)”，并且以音素为单位对检测到的语音部分进行分析以获得多个音素，例如“

和

”以及“

和

”。

处理器120可以将所获得的多个音素输入到经过训练的人工智能模型，以从所获得的多个音素中获得诸如“Bixby”、“你”、“推荐”、“餐厅”之类的词。由于在所获得的词中“Bixby”与唤醒词匹配，因此，处理器120可以确定在用户语音中存在唤醒词。

处理器120可以将其余用户语音中的除了唤醒词之外的“你推荐哪家餐厅”发送到服务器200。当从服务器200接收到作为与“你推荐哪家餐厅”有关的辨识结果的响应信息时，处理器120可以基于接收到的响应信息提供诸如“位于XXX的YYY餐厅怎么样？”之类的响应。

参照图4b，用户说“

(Bixby，你推荐哪家餐厅？)”

在这种情况下，处理器120可以从用户说出的语音中检测到作为语音部分的“

(Bixby，你推荐哪家餐厅)”，并且以音素为单位对检测到的语音部分进行分析以获得多个音素，诸如“

和

”。

处理器120可以将所获得的多个音素输入到经过训练的人工智能模型，以从所获得的多个音素中获得诸如“Bixby”、“你”、“推荐”、“餐厅”和之类的词。由于所获得的词中“Bixby”与唤醒词匹配，因此，处理器120可以确定在用户语音中存在唤醒词。

参照图4c，用户说“

(现在几点了，Bixby？)”

(现在几点了)(第一语音部分)”、(沉默部分)和“

(Bixby)(第二语音部分)”，并且以音素为单位对检测到的语音部分进行分析以获得多个音素，诸如“

和

”、“

和

”。

处理器120可以将所获得的多个音素输入到经过训练的人工智能模型，以从所获得的多个音素中获得诸如“现在”、“几”、“点了”、“Bixby”之类的词。由于所获得的词中“Bixby”与唤醒词匹配，因此，处理器120可以确定在用户语音中存在唤醒词。

此时，处理器120可以将其余用户语音中的除了唤醒词之外的“现在几点了”发送到服务器200。当从服务器200接收到作为与“现在几点了”有关的辨识结果的响应信息时，处理器120可以基于接收到的响应信息提供诸如“当前时间是下午3点”之类的响应。

图5是示出了根据实施例的确定预定词的具体示例的图。在本文中，假设在唤醒电子设备100之后的预定时间段内获得音频信号，并且还假设预定词被设置为“嘿”。

参照图5，用户在唤醒电子设备100之后的预定时间段内说“

(嘿，现在几点了？)”。

(嘿)(第一语音部分)”、(沉默部分)和“

(现在几点了)(第二语音部分)”，并且以音素为单位对检测到的语音部分进行分析以获得多个音素，诸如“

和

”。

处理器120可以将所获得的多个音素输入到经过训练的人工智能模型，以从所获得的多个音素中获得诸如“嘿”、“现在”、“几”、“点了”之类的词。由于所获得的词中“嘿”与预定词匹配，因此，处理器120可以确定在用户语音中存在预定词。

此时，处理器120可以将其余用户语音中的除了预定词之外的“现在几点了”发送到服务器200。当从服务器200接收到与“现在几点了”有关的响应信息时，处理器120可以基于接收到的响应信息提供诸如“当前时间是下午3点”之类的响应。

图6是具体示出了根据实施例的电子设备的配置的框图。

参照图6，电子设备100可以包括通信器110、处理器120、存储器130、输入单元140、麦克风150、扬声器160和显示器170。

通信器110可以根据各种通信方法与各种类型的外部设备进行通信。通信器110可以包括蓝牙芯片111、Wi-Fi芯片112、无线通信芯片113和以太网芯片114中的至少一个。

在本文中，通信器110可以由处理器120控制来与服务器200或各种外部设备进行通信。

具体地，通信器110可以经由经过训练的人工智能模型与服务器200进行通信以执行语音辨识服务。换言之，通信器110可以向服务器200发送包括与多个时隙有关的信息的输入数据，并且从服务器200接收与自然语言有关的信息，该自然语言与通过人工智能模型获得的输入数据相对应。

处理器120(或控制器)可以控制电子设备100的总体操作。

处理器120可以包括RAM 121、ROM 122、图形处理器123、主CPU 124、第一接口125-1至第n接口125-n以及总线126。RAM 121、ROM 122、图形处理器123、主CPU 124以及第一接口125-1至第n接口125-n可以经由总线126彼此连接。

存储器130可以存储电子设备100的操作所必需的各种程序和数据。具体地，存储器130可以存储与语音辨识服务有关的至少一个指令或数据。

存储器130可以包括非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器130可以由处理器120访问，并且可以执行处理器120对数据的读取、记录、编辑、删除或更新。在本公开中，术语“存储器”可以包括存储器130、处理器120中的RAM 121或ROM 122或者安装在电子设备100上的存储卡(未示出)(例如，微型SD卡或存储棒)。

另外，存储器130可以存储用于配置要在显示器170的显示区域中显示的各种图像的程序和数据、要经由扬声器160作为声音输出的各种程序和数据等。此外，存储器130可以存储本公开的各种人工智能模型。

输入单元140可以接收各种用户输入以将这些用户输入发送到处理器120。输入单元140可以包括例如触摸面板、(数字)笔传感器或键。触摸面板可以使用例如静电型、压敏型、红外型或超声型中的至少一种。另外，触摸面板可以进一步包括控制电路。触摸面板可以进一步包括触觉层，并且可以向用户提供触感。(数字)笔传感器可以是例如触摸面板的一部分，或者可以包括用于辨识的单独薄片。键可以包括例如物理按钮、光学键或小键盘。

麦克风150可以获得语音。具体地，麦克风150可以设置在电子设备100中，但是这仅仅是一个实施例，并且麦克风150可以被提供为电连接到或经由网络连接到电子设备100的外部设备。

扬声器160不仅可以输出通过执行各种处理(诸如由音频处理器(未示出)进行的解码、放大或噪声过滤)而获得的各种音频数据，而且还可以输出各种警报或语音消息。具体地，输出声音的配置可以实现为扬声器160，但这仅仅是一个实施例，并且该配置可以实现为能够输出音频数据的输出终端。

具体地，扬声器160可以经由TTS(未示出)输出经由自然语言生成单元(未示出)获得的自然语言，作为语音消息。

显示器170可以在显示区域(或显示器)上显示在图像处理器(未示出)中处理的图像数据。显示区域可以指显示器170的暴露于电子设备100的外壳的一个表面的至少一部分。显示器170的这一部分可以与柔性显示器形式的电子设备100的前表面区域、侧表面区域和后表面区域中的至少一个区域组合。柔性显示器可以弯折、弯曲或卷曲穿过薄纸柔性基板而不会造成任何损坏。

首先，电子设备100可以从所获得的音频信号中检测语音部分(S710)。

根据实施例，从音频信号中检测语音部分可以包括：基于音频信号的水平从音频信号中检测语音部分和沉默部分，并且基于检测到的语音部分中包括的用户语音的一部分与唤醒词匹配，识别出在用户语音中存在唤醒词。

这里，从音频信号中检测语音部分可以包括：从音频信号中检测幅度等于或大于预定水平的部分作为语音部分，并且从音频信号中检测幅度小于预定水平的部分作为沉默部分。

同时，从音频信号中检测语音部分可以包括从音频信号中检测多个语音部分。

接下来，可以识别在检测到的语音部分中包括的用户语音中是否存在唤醒词(S720)。具体地，当用户语音的一部分与唤醒词匹配时，可以识别出在用户语音中存在唤醒词。

根据实施例，识别在用户语音中是否存在唤醒词可以包括：通过以音素为单位划分用户语音来从用户语音中获得多个音素，并且基于由所获得的多个音素构成的词与唤醒词匹配，识别出在用户语音中存在唤醒词。

接下来，当识别出在用户语音中存在唤醒词时，可以经由通信器将用户语音发送到提供语音辨识服务的服务器200(S730)。

这里，将用户语音发送到提供语音辨识服务的服务器200可以包括：将用户语音中的除了唤醒词之外的其余用户语音发送到服务器200。

这里，将用户语音发送到提供语音辨识服务的服务器200可以包括：基于多个语音部分中的任何一个语音部分中包括的用户语音的一部分与唤醒词匹配，将该任何一个语音部分中包括的用户语音中除了唤醒词之外的其余用户语音和其余语音部分中包括的用户语音发送到服务器200。

接下来，当从服务器200接收到与用户语音有关的响应信息时，可以基于接收到的响应信息提供对用户语音的响应(S740)。

同时，根据本公开的实施例，当在识别出用户语音中存在唤醒词后的预定时间段内获得音频信号时，可以识别在该音频信号的语音部分中包括的用户语音中是否存在预定词，并且基于识别出存在预定词，可以将语音部分中包括的用户语音发送到服务器200。

这里，预定词可以包括代词。

在本公开中，术语“单元”或“模块”可以包括用硬件、软件或固件实现的单元，并且可以与例如逻辑、逻辑块、部件或电路等术语互换地使用。“单元”或“模块”可以是一体形成的部件或最小单元或执行一个或多个功能的部件的一部分。例如，该模块可以实现为专用集成电路(ASIC)。

本公开的各种实施例可以实现为包括存储在机器(例如，计算机)可读存储介质中的指令的软件。机器是调用存储在存储介质中的指令并根据调用指令进行操作的设备，并且可以包括根据所公开的实施例的电子设备(例如，电子设备100)。在指令由处理器执行的情况下，该处理器可以在处理器的控制下直接地或通过使用其他元件来执行与指令相对应的功能。指令可以包括由编译器生成的代码或可由解释器执行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。这里，“非暂时性”存储介质是有形的并且可以不包括信号，并且它不区分数据是半永久地还是临时地存储在存储介质中。

可以在计算机程序产品中提供根据各种实施例的方法。该计算机程序产品可以作为市售商品在卖方与买方之间交易。该计算机程序产品可以以机器可读存储介质(例如，光盘只读存储器(CD-ROM))的形式分发，或者通过应用商店(例如，PlayStore^TM)在线分发。在在线分发的情况下，计算机程序产品的至少一部分可以至少临时地存储在存储介质中或在该存储介质中临时地生成，该存储介质例如是制造商的服务器、应用商店的服务器或中继服务器的存储器。

根据上述各种实施例的每个元件(例如，模块或程序)可以包括单个实体或多个实体，并且上述子元件中的一些子元件可以省略，或者其他子元件可以进一步包括在各种实施例中。备选地或附加地，可以将一些元件(例如，模块或程序)集成到一个实体中，以执行由每个相应元件在集成之前执行的相同或相似的功能。根据各种实施例，由模块、程序或其他元件执行的操作可以按照并行、重复或启发的方式顺序地执行，或者至少一些操作可以按照不同的顺序执行，可以被省略或者可以添加不同的操作。

Claims

1.一种电子设备，包括：

通信器；以及

处理器，被配置为：

从所述电子设备获得的音频信号中检测语音部分，

识别在检测到的语音部分中包括的用户语音中是否存在唤醒词，

基于识别出在所述用户语音中存在所述唤醒词，经由所述通信器将所述用户语音发送到用于提供语音辨识服务的服务器，以及

基于从所述服务器接收到与所述用户语音有关的响应信息，基于所接收的响应信息提供对所述用户语音的响应，

其中所述处理器被配置为：基于所述用户语音的一部分与所述唤醒词匹配，识别出在所述用户语音中存在所述唤醒词。

2.根据权利要求1所述的设备，其中所述处理器被配置为：

基于所述音频信号的水平，从所述音频信号中检测所述语音部分和沉默部分；以及

基于检测到的语音部分中包括的用户语音的一部分与所述唤醒词匹配，识别出在所述用户语音中存在所述唤醒词。

3.根据权利要求2所述的设备，其中所述处理器被配置为：

从所述音频信号中检测幅度等于或大于预定水平的部分，作为所述语音部分；以及

从所述音频信号中检测幅度小于所述预定水平的部分，作为所述沉默部分。

4.根据权利要求1所述的设备，其中所述处理器被配置为：

通过以音素为单位划分所述用户语音来从所述用户语音中获得多个音素；以及

基于由所获得的多个音素构成的词与所述唤醒词匹配，识别出在所述用户语音中存在所述唤醒词。

5.根据权利要求1所述的设备，其中所述处理器被配置为：基于识别出在所述用户语音中存在所述唤醒词，将所述用户语音中的除了所述唤醒词之外的其余用户语音发送到所述服务器。

6.根据权利要求5所述的设备，其中所述处理器被配置为：

从所述音频信号中检测多个语音部分；以及

基于所述多个语音部分中的任何一个语音部分中包括的用户语音的一部分与所述唤醒词匹配，将所述任何一个语音部分中包括的用户语音之中除了所述唤醒词之外的其余用户语音和其余语音部分中包括的用户语音发送到所述服务器。

7.根据权利要求1所述的设备，其中所述处理器被配置为：基于在识别出所述用户语音中存在所述唤醒词之后的预定时间段内获得音频信号，识别在所述音频信号的语音部分中包括的用户语音中是否存在预定词；并且基于识别出存在所述预定词，经由所述通信器将所述语音部分中包括的用户语音发送到所述服务器。

8.根据权利要求7所述的设备，其中所述预定词包括代词。

9.一种用于控制电子设备的方法，所述方法包括：

从所述电子设备获得的音频信号中检测语音部分，

基于识别出在所述用户语音中存在所述唤醒词，将所述用户语音发送到用于提供语音辨识服务的服务器，以及

其中所述识别包括：基于所述用户语音的一部分与所述唤醒词匹配，识别出在所述用户语音中存在所述唤醒词。

10.根据权利要求9所述的方法，其中所述检测包括：

11.根据权利要求10所述的方法，其中所述检测包括：

12.根据权利要求9所述的方法，其中所述识别包括：

13.根据权利要求9所述的方法，其中所述发送包括：基于识别出在所述用户语音中存在所述唤醒词，将所述用户语音中的除了所述唤醒词之外的其余用户语音发送到所述服务器。

14.根据权利要求11所述的方法，其中所述检测包括：从所述音频信号中检测多个语音部分；以及

其中所述发送包括：基于所述多个语音部分中的任何一个语音部分中包括的用户语音的一部分与所述唤醒词匹配，将所述任何一个语音部分中包括的用户语音之中除了所述唤醒词之外的其余用户语音和其余语音部分中包括的用户语音发送到所述服务器。

15.根据权利要求9所述的方法，还包括：

基于在识别出所述用户语音中存在所述唤醒词之后的预定时间段内获得音频信号，识别在所述音频信号的语音部分中包括的用户语音中是否存在预定词；并且基于识别出存在所述预定词，将所述语音部分中包括的用户语音发送到所述服务器。