CN103943103B

CN103943103B - 电子设备及其语音处理方法

Info

Publication number: CN103943103B
Application number: CN201410029493.1A
Authority: CN
Inventors: 李周瑛; 朴相信
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-01-22
Filing date: 2014-01-22
Publication date: 2019-05-28
Anticipated expiration: 2034-01-22
Also published as: EP2757557B1; KR102112742B1; US20140207470A1; US9830911B2; EP2757557A1; CN103943103A; KR20140094330A

Abstract

提供了一种电子设备及其语音处理方法。提供涉及一种电子设备和及其语音处理方法的设备和方法。更具体地，所述设备和方法涉及一种能够识别用户语音的电子设备以及所述设备的语音处理方法。所述电子设备包括：语音识别器，被构造为识别用户语音；存储器，被构造为具有预先存储的指令；功能执行器，执行预定功能；控制器，被构造为响应于与指令相应的用户语音被输入，响应于所述指令来控制功能执行器执行功能，并响应于用于执行功能的对话语音和预设的对话选择信号被用户输入，控制功能执行器根据外部服务器分析用户语音的结果来执行功能。

Description

电子设备及其语音处理方法

技术领域

与示例性实施例一致的设备和方法涉及一种电子设备及其语音处理方法。更具体地讲，示例性实施例涉及一种能够识别用户的语音的电子设备及其语音处理方法。

背景技术

除了音频/视频（AV）设备（诸如蓝光光盘（BD）/数字多功能盘（DVD）播放器以及电视机）的最近的各种功能，使用麦克风进行语音识别以控制设备的功能已经被使用，超越了利用现有的远程控制器的输入方法。

语音识别方法包括识别预先存储的指令的语音命令处理方法，以及不识别预先存储的指令而识别语音的处理对话语音的方法。例如，为了调高电子设备的音量，可通过预先存储的指令“音量升高”或通过处理语音“增加音量”的对话语音识别来控制电子设备的音量，其中，语音“增加音量”具有与“音量升高”相同的含义但未被存储。在对话语音识别的情况下，外部语音识别服务器用来分析用户的语音并确定该语音的含义。

这两种语音识别系统目前使用在语音识别服务器中分析用户的口语语音的方法。已经确定是否存在命令模式处理。响应于与预先存储的指令相应的口语语音，相关功能被执行；否则，所述口语语音由对话模式处理来处理。

在前述方法中，当用户讲对话语音时，口语语音必须无条件地经历命令模式处理和对话模式处理两者。然而，这引起关于在执行命令模式处理和对话模式处理两者所花费的时间的问题，以及关于操作该系统的低效率的问题，其中，在操作该系统时，指令处理被浪费地执行。

发明内容

一个或多个示例性实施例可提供一种电子设备和考虑到用户语音的识别来处理所述电子设备的语音处理方法的方法，其中，时间延迟被降低并且设备的效率被提高。

此外，另一示例性实施例提供一种电子设备和处理语音的方法，其中，考虑到用户语音的识别，可引起并增强用户体验。

通过提供以下电子设备可实现本公开的上述和/或其他方面，所述电子设备包括：语音识别器，被构造为识别用户语音；存储器，被构造为预先存储指令；功能执行器，被构造为执行预定功能；控制器，被构造为响应于与指令相应的用户语音被输入，响应于所述指令控制功能执行器执行功能，并被构造为响应于用于执行功能的对话语音和预设的对话选择信号被用户输入，根据外部服务器分析用户语音的结果控制功能执行器执行功能。

根据另一示例性实施例的一方面，对话选择信号可包括用户语音信号。

根据另一示例性实施例的一方面，电子设备还可包括被构造为包括开关按钮的用户输入装置。

可通过提供以下电子设备来实现本示例性实施例的以上和/或其他方面，所述电子设备包括：语音识别器，被构造为识别用户语音；存储器，被构造为预先存储指令；功能执行器，被构造为执行预定功能；控制器，被构造为基于由用户输入的处理选择信号，通过指令处理和对话处理中的一个来处理用户语音，并被构造为控制功能执行器执行与处理的用户语音相应的功能，其中，在指令处理中，根据与用户语音相应的指令来执行功能，在对话处理中，根据外部服务器分析用户语音的结果来执行功能。

根据另一示例性实施例的一方面，所述处理选择信号可包括用于选择指令处理和对话处理中的一个的用户语音信号。

根据另一示例性实施例的一方面，语音识别器被构造为从用户顺序地接收与处理选择信号相应的用户语音以及用于执行功能的用户语音。

通过提供包括预先存储指令的存储器的电子设备的语音处理方法来实现示例性实施例的上述和/或其他方面，所述方法包括：识别用户语音；确定预设的对话选择信号是否被输入；响应于确定对话选择信号被输入，根据外部服务器分析识别的用户语音的结果来执行预定功能，并且响应于确定对话选择信号没有被输入，响应于与用户语音相应的指令来执行功能。

根据另一示例性实施例的一方面，在选择对话处理时，对话选择信号可包括用户语音信号。

另一示例性实施例可提供电子设备，所述电子设备包括：功能执行器，被构造为执行预定功能；控制器，被构造为响应于与指令相应的用户语音被输入，响应于接收到的所述指令来控制功能执行器执行功能，并响应于用于执行功能的对话语音和预设的对话选择信号被用户输入，控制功能执行器根据外部服务器分析用户语音的结果来执行功能。

电子设备还可包括：语音识别器，被构造为识别用户语音；存储器，被构造为具有预先存储的指令。对话选择信号可包括用户语音信号。

电子设备还可包括包含有开关按钮的用户输入装置，其中，对话选择信号通过开关按钮来产生。

附图说明

从结合附图进行的示例性实施例的以下描述，以上和/或其他方面将变得明显和更容易理解，其中：

图1是根据示例性实施例的电子设备的控制框图；

图2是根据示例性实施例的解释控制电子设备的方法的控制流程图；

图3是根据另一示例性实施例的解释控制电子设备的方法的控制流程图；

图4是根据示例性实施例的电子设备的控制框图。

具体实施方式

下面，将参照附图详细地描述示例性实施例，以便容易被具有本领域普通知识的人理解。所述示例性实施例可以以各种形式被实现，而不受限于在此阐述的实施例。为了清楚，省略公知部分的描述，并且相同的附图标号始终指示相同的元件。

图1是根据示例性实施例的电子设备的控制框图。在此示例性实施例中，电子设备1可包括电视机、计算机系统、机顶盒、蓝光光盘（BD）播放器、数字多功能盘（DVD）播放器、MP3播放器、可再现音频和图像文件的音频/视频（AV）装置等。电子设备1可被实现为个人数字助理（PDA）、膝上型计算机、家用或移动电话等，或可被实现为家用电器（诸如洗衣机和微波炉）。在此示例性实施例中，电子设备1可识别用户语音，并根据用户语音执行各种功能。为此，电子设备1包括语音识别器10、存储器20、功能执行器30和控制器40。

语音识别器10包括接收用户语音或各种声音的麦克风。语音识别器10响应于接收到用户语音而从接收到的声音提取用户语音，并将提取到的用户语音转换为可由电子设备1处理的机器语言，从而确定提取到的用户语音的含义。此外，响应于识别的语音是用于基于语音识别执行功能，语音识别器10将与所述语音相关的信息发送到控制器40。

根据另一示例性实施例，电子设备1可仅包括用于接收语音的麦克风，并可通过外部服务器确定用户语音，所述外部服务器通过分析接收到的声音来提取语音并确定所述语音的含义。

存储器20存储用于基于用户语音执行电子设备1的各种功能的指令。响应于电子设备1的功能通过基于除了根据使用按键、按钮或触摸传感器的用户的控制的输入之外的语音输入被执行，预先存储可用于执行所述功能的被预先设置的指令。例如，响应于电子设备1为电视机，可将诸如“音量升高”、“音量降低”、“频道改变”、“记录开始”等的指令存储在存储器20中。响应于识别出的用户语音与存储在存储器20中的指令匹配，控制器40根据所述指令执行电子设备1的功能。因此，响应于接收到与存储在存储器20中的指令匹配的用户语音，确定语音识别处理的控制器40执行作为指令处理的功能。在指令处理的情况下，响应于接收到的用户语音与存储的指令匹配或具有和与存储的指令相应的语音相同或类似的含义，控制器40根据所述用户语音不执行任何功能。

用户可直接将各种指令输入到存储器20，或可改变或删除指令。存储经常使用的指令，使得可快速并迅速地执行功能。

功能执行器30象征性地表示与可由电子设备1执行的各种功能相应的执行器。功能执行器30可包括用于执行各种功能所需的硬件或软件，并且所述功能可不通过用户语音来执行而通过用户的直接控制来执行。

控制器40响应于从语音识别器10接收到用户语音的识别结果，来控制用户语音以进行指令处理和对话处理中的一个，从而操作功能执行器30。在对话处理中，响应于用户语音不与存储在存储器20中的指令匹配，用户语音被发送到外部服务器2并被处理，以基于来自服务器2的分析结果执行功能。例如，响应于用户输入诸如“你可以调高音量吗？”或“大点声”的语音（具有与存储的“音量升高”类似的含义）而不是“音量升高”，控制器40将识别的用户语音发送到服务器2，允许服务器2确定所述语音的含义，并从服务器2接收确定的结果。服务器2确定用户语音，并将与在存储的指令中的一个指令相关的信息或与用于执行功能的算法相关的信息发送到电子设备1。

在本示例性实施例中，控制器40根据由用户输入的预设的对话选择信号来使用指令处理和对话处理中的一个以处理用户语音。也就是说，响应于用户输入用于通过对话处理来处理语音的对话选择信号，控制器40通过对话处理来处理用户语音。另一方面，响应于对话选择信号没有被输入，可通过指令处理来处理用户语音。

例如，响应于用户输入“对话”的语音以及用于执行功能的语音，控制器40将用于执行功能的语音发送到服务器2，进而从服务器接收分析结果。在此情况下，对话选择信号是用于选择对话处理的用户语音。响应于对话选择信号是用户语音，用户可根据他/她的个人喜好设置各种对话选择信号。因此，通过麦克风输入语音并将其存储，使得可提高电子设备1的可用性，并且用户可积累他/她使用电子设备1的经验。

众所周知，当用户输入语音时，通过指令处理来处理他/她的语音。此时，响应于用户语音与存储的指令不匹配，通过对话处理再次处理所述语音。在已知的控制下，即使响应于用户语音与指令不匹配，指令处理也必须被浪费地实现，因此在响应于用户语音和无用的控制使机械效率恶化时，时间被延迟。

在本示例性实施例中，如果他/她想通过对话处理来处理他/她的将被处理的语音，则用户可输入用于选择处理的信号和用于命令的语音。因此，电子设备1可更快速有效地响应于用户的命令。另外，即使用户没有逐个记住存储在存储器20中的多个指令，也可使用各种言辞，以执行用户期望的功能。

响应于用户仅输入用于执行功能的语音而不输入对话选择信号，控制器40根据指令处理来处理用户语音。此时，响应于由用户输入的语音与存储的指令不匹配，控制器40切换到对话处理并处理用户语音。这是因为即使用户不输入对话选择信号，也会根据用户的意图来实现功能。

根据另一示例性实施例，控制器40存储由对话处理所处理的用户语音的历史和记录。响应于特定语音被重复输入，所述历史和记录可被存储在存储器20中。在功能通过存储在存储器20中的指令被执行的情况下，这种情况比使用外部服务器2来执行所述功能的情况要快。因此，存储用户语音模式，以便引起指令处理而不是对话处理。在此情况下，控制器40可通过图形用户界面（GUI）等来通知用户：由用户经常使用的指令不是通过对话处理而是通过指令处理被处理。

图2是根据示例性实施例的解释控制电子设备的方法的控制流程图。参照图2，根据示例性实施例的电子设备的语音处理方法如下所示。

电子设备1从用户接收用于执行功能的用户语音并识别该语音（S10）。

将由语音识别器10识别的用户语音发送到控制器40，然后控制器40确定所述用户语音是否涉及预设的对话选择信号，即，对话选择信号是否被输入（S20）。

结果，响应于确定对话选择信号被输入，控制器40确定对话处理被选择；请求服务器2对识别的用户语音进行分析；根据从服务器2接收到的分析结果来执行电子设备1的功能（S30）。

另一方面，响应于确定对话选择信号没有被输入，控制器40确定指令处理被选择；并根据与用户语音匹配的指令来执行电子设备1的功能（S40）。

图3是根据另一示例性实施例的解释控制电子设备的方法的控制流程图。在此示例性实施例中，控制器40基于用于选择对话处理或指令处理的选择信号使用指令处理和对话处理中的一个，以便处理用户语音，其中，所述指令处理根据来自服务器2的与用户语音匹配的指令来执行功能，所述对话处理根据用户语音的分析结果来执行功能；并且控制器40控制功能执行器30执行与处理的用户语音相应的功能。也就是说，根据示例性实施例的电子设备1从用户接收选择信号，以明确地选择指令处理或对话处理。

如图3所示，根据示例性实施例，用户将用于选择处理的处理选择信号与用于执行功能的语音一起输入到电子设备1（S11）。所述处理选择信号可包括用于选择指令处理和对话处理中的一个的用户语音。在此情况下，语音识别器10顺序地接收用于选择处理的用户语音和用于执行功能的用户语音。

控制器40确定由用户输入的处理选择信号是对话选择信号还是指令选择信号（S21）。

结果，如图2的S30中所示，响应于处理选择信号是对话选择信号，控制器40通过服务器2分析识别出的用户语音，并根据分析结果执行电子设备1的功能（S30）。

同样地，响应于处理选择信号不是对话选择信号而是指令选择信号，控制器40确定指令处理被选择，并根据与用户语音匹配的指令来执行电子设备1的功能（S40）。

图4是根据示例性实施例的电子设备的控制框图。如图所示，在此实施例中的电子设备1还包括用户输入装置50。用户输入装置50可包括开关按钮51，并还可包括触摸传感器（诸如触摸板）。用户可控制开关按钮51来产生对话选择信号或处理选择信号。也就是说，用户可使用开关按钮51来选择用于用户语音识别的处理。响应于用户想要通过他/她的语音来执行电子设备1的功能，他/她可激活或去激活开关按钮51，从而选择指令处理和对话处理中的一个。可选地，另外，当开关按钮51被激活时可设置用户的喜好处理，因此，方便用户通过他/她的语音来执行功能。

虽然已经示出并描述了一些示例性实施例，但是本领域的技术人员将理解，在不脱离本发明的原则和精神的情况下，可在这些示例性实施例中进行改变，其中，本发明的范围由权利要求及其等同物来限定。

Claims

1.一种电子设备，包括：

语音识别器，被构造为识别用户语音；

存储器，被构造为存储多个指令；

控制器，被构造为：

确定用户语音是否包括指示选择对话处理的语音部分，

响应于确定用户语音不包括指示选择对话处理的语音部分，执行指令处理以根据用户语音执行与存储器中存储的多个指令中的一个指令相应的功能，

响应于确定用户语音包括指示选择对话处理的语音部分，执行对话处理以将用户语音发送到分析用户语音的外部服务器并且根据外部服务器的分析结果来执行功能。

2.如权利要求1所述的电子设备，其中，语音识别器顺序地接收来自用户的用于选择对话处理的语音部分和用于执行功能的语音部分。

3.如权利要求1所述的电子设备，还包括包含有开关按钮的用户输入装置，

其中，对话处理通过所述开关按钮来选择的。

4.一种包括被构造为存储指令的存储器的电子设备的语音处理方法，所述方法包括：

识别用户语音；

确定用户语音是否包括指示选择对话处理的语音部分；

响应于确定用户语音包括指示选择对话处理的语音部分，执行对话处理以根据外部服务器分析识别的用户语音的结果来执行预定功能，并且

响应于确定用户语音不包括指示选择对话处理的语音部分，执行指令处理以响应于与用户语音相应的指令来执行功能。

5.如权利要求4所述的方法，其中，用户语音包括来自用户的用于选择对话处理的语音部分和用于执行功能的语音部分。

6.如权利要求4所述的方法，其中，所述电子设备包括包含开关按钮的用户输入装置，

其中，对话处理是通过所述开关按钮来选择的。