CN104978965A

CN104978965A - 电子装置及利用电子装置和服务器的语音识别执行方法

Info

Publication number: CN104978965A
Application number: CN201510162292.3A
Authority: CN
Inventors: 郑晳荣; 金炅泰
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-04-07
Filing date: 2015-04-07
Publication date: 2015-10-14
Anticipated expiration: 2035-04-07
Also published as: US20190080696A1; CN104978965B; EP2930716B1; US10074372B2; CN109949815A; US10643621B2; US20150287413A1; US20170236519A1; US9640183B2; EP2930716A1

Abstract

本发明公开一种电子装置及利用电子装置和服务器的语音识别执行方法。所述电子装置包括：处理器，利用存储于存储器中的语音识别模型而执行针对语音输入的自动语音识别(ASR；automatic speech recognition)；以及通信模块，将所述语音输入提供给服务器，并从所述服务器接收对应于所述语音输入的语音命令，并且可根据针对自动语音识别的执行结果的可信度而执行不同的操作。此外，还可以实现能够通过说明书而掌握的多样的实施例。

Description

电子装置及利用电子装置和服务器的语音识别执行方法

技术领域

本发明的多种实施例涉及一种利用装载于电子装置的语音识别模型和可在服务器中利用的语音识别模型来识别用户的语音输入并执行语音命令的技术。

背景技术

除利用键盘或鼠标的传统输入方式之外，最近的电子装置还可支持利用用户的语音(speech)的输入方式。例如，诸如智能手机或平板电脑的电子装置可对在特定功能(例如，S-Voice或Siri等)被执行的状态下输入的用户的语音进行分析而将该语音变换为文本，或者可执行对应于语音的操作。此外，一些电子装置中语音识别功能一直被激活(always-on)，因此随时可根据用户的语音而被唤醒(awake)、解除锁定(unlocked)、或者可执行诸如互联网检索、通话或SMS/E-mail阅读的功能。

发明内容

虽然已知与语音识别相关联的多样的研究和技术，但是在电子装置中执行语音识别的方法只能是局限性的。例如，电子装置为了实现针对语音输入的迅速的响应而可以利用自行装载于电子装置的语音识别模型。然而，电子装置的存储空间和处理能力有限，由此导致可识别的语音输入的数量或种类也有限。

为了针对语音输入而获得较为准确且确切的结果，电子装置可将语音输入传送给服务器而请求语音识别，并提供从服务器回复的结果，或者可基于回复的结果而执行特定操作。然而，这一方法增加电子装置的通信使用量，并带来相对较慢的响应速度。

本说明书中公开的多样的实施例可提供一种语音识别执行方法，其利用两种以上的互不相同的语音识别能力或语音识别模型，来改善在前述的各种情况下可能发生的低效率，并且可以给用户提供快的响应速度和高的准确性。

根据本发明的多样的实施例的一种电子装置，可包括：处理器，利用存储于存储器中的语音识别模型而执行针对语音输入的自动语音识别(ASR；automatic speech recognition)；以及通信模块，将所述语音输入提供给服务器，并从所述服务器接收对应于所述语音输入的语音命令。其中，所述处理器(1)在所述自动语音识别的执行结果的可信度为第一临界值以上的情况下可执行对应于所述自动语音识别的执行结果的操作，(2)在所述自动语音识别的执行结果的可信度小于第二临界值的情况下可提供针对所述可信度的反馈。

根据本发明的多样的实施例，利用自行装载于电子装置的语音识别模型而执行语音识别，并基于其语音识别结果而补充利用通过服务器的语音识别结果，从而可以提供具有快的响应速度和高的准确性的语音识别功能。

此外，可将利用电子装置和服务器的语音识别结果进行比较，并基于比较结果而在语音识别模型或语音识别算法中予以反映。据此，准确率和响应速度可随着语音识别的反复执行而越来越持续地得到改善。

附图说明

图1表示根据本发明的一个实施例的电子装置以及通过网络与电子装置连接的服务器。

图2表示根据本发明的另一实施例的电子装置和服务器。

图3表示根据本发明的一个实施例的语音识别执行方法的流程图。

图4表示根据本发明的另一实施例的语音识别执行方法的流程图。

图5表示根据本发明的一个实施例的更新临界值的方法的流程图。

图6表示根据本发明的一个实施例的更新语音识别模型的方法的流程图。

图7表示根据本发明的一个实施例的网络环境内的电子装置。

图8表示根据本发明的一个实施例的电子装置的框图。

具体实施方式

以下，参考附图记载本发明的多样的实施例。然而，这不是为了将本发明限定在特定的实施方式，应该理解为本发明包括对实施例进行的多样的变更、均等物和/或替代物。关于对附图的说明，对类似的构成要素可使用类似的附图标记。

在本说明书中，“具有”、“可具有”、“包括”或“可包括”等表述用于表示相关特征(例如，数值、功能、操作或部件等构成要素)的存在，其并不排除附加性的特征的存在。

在本说明书中，“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或一个以上”等表述可包括一并罗列的项目的所有可能的组合。例如，“A或B”、“A和B中的至少一个”或“A或B中的至少一个”可以指：(1)包括至少一个A的情形；(2)包括至少一个B的情形；或(3)将至少一个A和至少一个B都包括的情形。

在多样的实施例中使用的“第一”、“第二”、“首先”或“其次”等表述可以与顺序和/或重要程度无关地修饰多样的构成要素，且并不限定相关构成要素。例如，第一用户设备和第二用户设备可以与顺序或重要程度无关地表示互不相同的用户设备。例如，在不脱离本发明的权利范围的前提下，第一构成要素可命名为第二构成要素，类似地，第二构成要素也可以更名为第一构成要素。

当提到某一构成要素(例如，第一构成要素)(以功能方式或通信方式)连接到((operatively or communicatively)coupled with/to)或接入到(connectedto)另一构成要素(例如，第二构成要素)时，应理解为所述某一构成要素直接连接到所述另一构成要素，或者通过其他构成要素(例如，第三构成要素)连接到所述另一构成要素。相反，当提到某一构成要素(例如，第一构成要素)“直接连接到”或“直接接入到”另一构成要素(例如，第二构成要素)时，可理解为所述某一构成要素与所述另一构成要素之间并不存在其他构成要素(例如，第三构成要素)。

本说明书中使用的“构成为(或设置为)(configured to)...”这一表述可根据情况与例如“适合于(suitable for)...”、“具备…能力的(having the capacityto)”、“设计为(designed to)...”、“变更为(adapted to)...”、“制造为(madeto)...”或“能够(capable of)...”等互换使用。“构成为(或设置为)”这一术语并不局限于表示以硬件方式“特别设计(specifically designed to)”。在某些情况下，“构成为…的装置”这一表述可以表示该装置能够与其他装置或部件一起构成。例如，句子“构成(或设置)为执行A、B和C的处理器”可表示用于执行相关操作的专用处理器(例如，嵌入式处理器)或通用处理器(generic-purpose processor)(例如，CPU或应用处理器(applicationprocessor))，其中所述通用处理器可通过执行存储于存储器装置的一个以上的软件程序而执行相关操作。

本说明书中使用的术语只是用于说明特定的实施例，并非旨在限定其他实施例的范围。只要在文脉上并不表示明确不同的含义，则单数的表述也可以包含复数的表述。包括技术或科学方面的术语在内，这里使用的所有术语可具有与本发明所属的技术领域中具有普通知识的人员通常理解的含义相同的含义。通常使用的定义于词典中的术语可被解释为具有与相关技术在文脉上具有的含义相同或者类似的含义，只要没有在本说明书中明确定义，就不会被解释为理想化或者过于形式化的含义。根据情况，即使是本说明书中定义的术语，也不能被解释为排除本发明的实施例。

尤其，在一些实施例中，大于关系(“>”)可互换为大于等于关系(“≥”)。

以下，参考附图而说明根据多样的实施例的电子装置。在本说明书中，用户可以指使用电子装置的人或使用电子装置的设备(例如，人工智能电子设备)。

参考图1，电子装置可包括诸如用户终端100的构成要素。例如，用户终端100可包括麦克风110、控制器120、自动语音识别(ASR；automatic speechrecognition)模块130、自动语音识别模型140、收发器150、扬声器170以及显示器180。图1所示的用户终端100的构成为示例性的，可变形为能够实现本说明书中公开的多种实施例的多样的形态。例如，电子装置可包括：诸如图2所示的用户终端101、图7所示的电子装置701、图8所示的电子装置801的构成要素，或者可以利用这些构成要素而适当地变性。以下，以用户终端100为基准而说明本发明的多样的实施例。

用户终端100可通过麦克风110而从用户处获取语音输入。例如，在用户执行与语音识别相关联的应用或者语音识别一直处于激活状态的情况下，用户的讲话(speech)可通过麦克风110而被获取。麦克风110可包括用于将模拟信号变换为数字信号的模数转换器(ADC；Analog-Digital Convertor)。然而，在一些实施例中，控制器120可包括模数转换器、数模转换器(DAC；Digital-Analog Convertor)以及多样的信号处理电路或预处理(pre-processing)电路。

控制器120可将通过麦克风110获取的语音输入或者基于语音输入而生成的音频信号(或语音信号)提供给自动语音识别模块130和收发器150。由控制器120提供给自动语音识别模块130的音频信号可以是为了语音识别而经过预处理的信号。例如，所述音频信号可以是噪声过滤(noise filtering)信号或应用适于人类的语音的均衡器(equalizer)的信号。相反，由控制器120提供给收发器150的信号却可以是语音输入本身。不同于向自动语音识别模块130传送的信号，控制器120向接收器150传送原声数据，从而可以借助于服务器200而实现更恰当或者性能更优的音频信号处理。

控制器120可控制用户终端100的一般操作。例如，控制器120控制来自用户的语音输入，并控制语音识别操作，且可以控制基于语音识别的功能的执行。

自动语音识别模块130可对由控制器120提供的音频信号执行语音识别。自动语音识别模块130可对语音输入(音频信号)执行孤立词识别(isolatedword recognition)、连接词语音识别(connected word recognition)、大容量词汇识别(large vocabulary recognition)等。由自动语音识别模块130执行的自动语音识别可以是以说者无关(speaker-independent)方式实现，或者也可以是以说者相依(speaker-dependent)方式实现。自动语音识别模块130无需非得由一个语音识别引擎构成，也可以由两个以上的语音识别引擎构成。此外，当自动语音识别模块130包括多个语音识别引擎时，各个语音识别引擎的识别目的可不同。例如，一个语音识别引擎可识别用于激活自动语音识别功能的讲话(wakeup speech)，例如可以识别“Hi,Galaxy(喂，盖世)”，而另一个语音识别引擎可识别语音命令讲话(command speech)，例如可识别“read a recent e-mail(阅读最近的电子邮件)”。自动语音识别模块130基于自动语音识别模型140而执行语音识别，于是可以指定可由自动语音识别模型140识别的语音输入的范围(例如，种类或数量)。对自动语音识别模块130的上述说明也适用于后述的服务器的自动语音识别模块230。

自动语音识别模块130可将语音输入变换为文本。自动语音识别模块130可针对语音输入确定将由电子装置执行的操作或功能。此外，自动语音识别模块130还可针对自动语音识别的执行结果而一并确定可信度(confidencelever或者confidence score)。

自动语音识别模型140可包括语法(grammar)。其中，语法除了可以包括语言学方面的语法之外，还可以包括(通过用户输入或网页上的收集)以统计方式生成的多种形态的语法。在多样的实施例中，自动语音识别模块140可包括声学模型(acoustic model)、语言模型(language model)等。或者，自动语音识别模型140可成为使用于孤立词识别的语音识别模型。在多样的实施例中，自动语音识别模型140可包括识别模型，该识别模型通过考虑用户终端100的运算能力和存储能力而执行适当水平的语音识别。例如，所述语法可以与语言方面的语法无关地包括用于指定的命令结构的语法。例如，“call[user name]”作为用于向[user name(用户名)]的用户发出呼叫(call)的语法，可包含于所述自动语音识别模型140。

收发器150可将由控制器120提供的语音信号通过网络10而传送给服务器200。此外，可从服务器200接收与所传送的语音信号对应的语音识别的执行结果。

扬声器170和显示器180可用于与用户输入相互作用。例如，如果通过麦克风110而由用户提供语音输入，则语音识别的执行结果显示于显示器180，并可通过扬声器170而输出。当然，扬声器170和显示器180可分别执行用户终端100的一般声音输出功能和画面输出功能。

服务器200可包括用于对由用户终端100通过网络10提供的语音输入执行语音识别的构成要素。据此，服务器200的一部分构成要素可能与用户终端100对应。例如，服务器200可包括收发器210、控制器220、自动语音识别模块230、自动语音识别模型240等。此外，服务器200还可以包括诸如自动语音识别模型转换器250或自然语言处理器(NLP；Natural LanguageProcessor)260构成要素。

控制器220可控制在服务器200中用于执行语音识别的功能模块。例如，控制器220可以与自动语音识别模块230和/或自然语言处理器260连接。此外，控制器220可以与用户终端100联动而执行与识别模型更新相关联的功能。此外，控制器220可执行对通过网络10传送的语音信号的预处理并提供给自动语音识别模块230。其中，预处理可具有不同于在用户终端100中执行的预处理的其他方式或效果。在一些实施例中，服务器200的控制器220可被喻为“管弦乐师(orchestrator)”。

自动语音识别模块230可对由控制器220提供的语音信号执行语音识别。对自动语音识别模块130的说明中的至少一部分可适用于自动语音识别模块230。只是，虽然服务器用自动语音识别模块230与用户终端用自动语音识别模块130执行部分类似的功能，但是所包含的功能范围或算法可不同。自动语音识别模块230基于自动语音识别模型240而执行语音识别，由此可以生成与用户终端100的自动语音识别模块130的语音识别结果不同的结果。具体而言，在服务器200中借助于自动语音识别模块230和自然语言处理器260并基于语音识别、自然语言理解(Natural Language Understanding；NLU)、会话管理(Dialog Management；DM)或者其组合而生成识别结果，而在用户终端100中可借助于自动语音识别模块130而生成识别结果。例如，自动语音识别模块130执行自动语音识别的结果是，可针对语音输入确定第一操作信息和第一可信度，自动语音识别模块230执行语音识别的结果是，可确定第二操作信息和第二可信度。在一些实施例中，自动语音识别模块130的执行结果与自动语音识别模块230的执行结果既可以一致，也可以有至少一部分不同。例如，虽然第二操作信息与第二操作信息相互对应，但是第二可信度可具有高于第一可信度的分数(score)。在多样的实施例中，由用户终端100的自动语音识别模块130执行的语音识别(ASR)可被定义为第一语音识别，由服务器200的自动语音识别模块230执行的语音识别(ASR)可被定义为第二语音识别。

在多样的实施例中，如果在自动语音识别模块130中执行的第一语音识别的算法与在自动语音识别模块230中执行的第二语音识别的算法不同或者使用于语音识别的模型不同，则服务器200可包括用于相互之间的模型变换的自动语音识别模型转换器250。

此外，服务器200可包括用于基于在自动语音识别模块230中识别的结果来掌握用户的意图并确定将执行的功能的自然语言处理器260。自然语言处理器260可执行如下功能：自然语言解析，对人类讲话的语言现象进行机械性分析，从而制作为计算机可理解的形态；或者自然语言处理，用于将所述计算机可理解的形态重新表现为人类可理解的语言。

图2表示根据本发明的另一实施例的电子装置和服务器。

在图2中，示出以不同于图1的方式实现的电子装置的示例。然而，本说明书中公开的语音识别方法除了可以借助于图1或图2或者后述的图7和图8中的电子装置/用户终端执行之外，还可以借助于可由此变形的多种形态的装置执行。

参考图2，用户终端101可包括处理器121和存储器141。处理器121可包括用于执行语音识别的自动语音识别引擎131。存储器141可存储自动语音识别引擎131为了执行语音识别而使用的自动语音识别模型143。例如，对于各个构成要素执行的功能而言，图2的处理器121、自动语音识别引擎131以及自动语音识别模型143(或者存储器141)可理解为分别与图1的控制器120、自动语音识别模块130以及自动语音识别模型140对应。以下，省略关于对应或重复的内容的说明。

用户终端101可利用语音识别模块111(例如，麦克风110)而从用户处获取语音输入。处理器121可利用存储于存储器141的自动语音识别模型143而对所获取的语音输入执行自动语音识别。此外，用户终端101可通过通信模块151而将语音输入提供给服务器200，并从服务器200接收对应于语音输入的语音命令(例如，第二操作信息)。用户终端101可利用显示器181(或者扬声器)来输出可借助于自动语音识别引擎131和服务器200而获取的语音识别结果。

以下，参考图3至图6而以用户终端100为基准对多样的语音识别方法进行说明。

在操作301中，用户终端100可利用诸如麦克风语音获取模块来获取用户的语音输入。该操作可在由用户执行与语音识别相关联的预定功能或应用的状态下执行。然而，在一些实施例中，用户终端100的语音识别可以一直处于操作状态(always-on)(例如，麦克风一直处于激活的状态)，在此情况下，操作301可针对用户的讲话而被一直执行。或者，如前所述，借助于互不相同的语音识别引擎，可通过预定的语音输入(例如，“Hi,Galaxy”)而激活自动语音识别，并执行针对后续输入的语音识别的自动语音识别。

在操作303中，用户终端100可将语音信号(或者语音信号的至少一部分)传送给服务器200。在装置内部，语音信号(或者将语音输入变换为(数字)语音信号并对语音信号执行预处理的音频信号)可通过处理器(例如，控制器120)而被提供给自动语音识别模块130。换言之，在操作303中，用户终端100可将作为识别对象的语音信号提供给可执行语音识别的位于装置内部以及外部的自动语音识别模块。用户终端100可一并运用自行的语音识别和通过服务器200的语音识别。

在操作305中，可在用户终端100中执行自行的语音识别。该语音识别可定义为ASR1。例如，自动语音识别模块130可利用自动语音识别模型140来执行针对语音输入的语音识别。例如，自动语音识别模型140可对语音信号中的至少一部分执行ASR1。ASR1的执行结果是，可获取对语音输入的执行结果。例如，在用户提供如“明日天气”的语音输入的情况下，用户终端100可利用针对语音输入的语音识别功能来确定诸如“执行天气应用、输出明日天气”的操作信息。此外，语音识别的执行结果除了包括所述操作信息以外，还可以包括针对操作信息的可信度。例如，虽然自动语音识别模块130可在对用户的讲话进行分析的结果为“明日天气”被确定的情况下确定95％的可信度，但在对讲话进行分析的结果为不确定“每日天气”还是“明日天气”的情况下，可将60％的可信度赋予确定的操作信息。

在操作307中，处理器可判断可信度是否为指定的临界值(threshold)以上。例如，当关于由自动语音识别模块130确定的操作信息的可信度为指定的水平(例如，80％)以上时，在操作309中，用户终端100可执行与通过ASR1而识别的语音命令对应的操作，该ASR1即为用户终端100自身的语音识别功能。所述操作可以包括例如：可借助于处理器而执行的至少一个功能的执行、至少一个应用的执行、或者基于自动语音识别的执行结果的输入中的至少一种。

操作309可在从服务器200获取语音识别的结果(例如，操作315)之前执行。换言之，如果在用户终端100中自行执行语音识别的结果为识别出具有足够的可信度的语音命令，则用户终端不等待从服务器200获取的额外的语音识别结果而直接执行相关操作，从而可确保针对用户的语音输入的迅捷的响应速度。

在操作307中，如果可信度小于临界值，则用户终端100可在操作315中一直等到从服务器200获取语音识别结果。在等待操作进行的时段内，用户终端100可显示适当的短消息、图标或图像等，从而表示对语音输入的语音识别正在执行。

在操作311中，可针对在操作303中传送给服务器200的语音信号执行借助于服务器的语音识别。该语音识别可定义为ASR2(第二自动语音识别)。此外，在操作313中可执行自然语言处理(Natural Language Processing；NLP)。例如，借助于服务器200的自然语言处理器260而可对语音输入或ASR2的识别结果执行自然语言处理。在一些实施例中，这一过程也可以选择性地执行。

如果在操作315中从服务器200获取ASR2或ASR2和NLP被执行的语音识别结果(例如，第二操作信息和第二可信度)，则在操作317中可执行与借助于ASR2而识别的语音命令(例如，第二操作信息)对应的操作。对于操作317而言，除了需要执行用户终端自身的语音识别所用的时间之外，还额外需要在操作303中传送语音信号并在操作315中获取语音识别结果所用的时间，因此可能会比基于操作309的操作的执行需要更长的响应时间。然而，通过操作317，可对无法自行处理的语音识别或即使能够自行处理却具有低的可信度的语音识别执行具有相对较高的可信度和准确性的操作。

参考图4，语音获取操作401、语音信号传送操作403、ASR1操作405、ASR2操作415以及自然语言处理操作417分别与参考图3说明的操作301、303、305、311以及313对应，因此省略其说明。

参考图4而说明的语音识别执行方法以两个临界值为标准而执行。以第一临界值和与小于第一临界值的可信度相关的第二临界值为标准，在操作405的ASR1的执行结果的可信度处于如下三种情况时可分别执行互不相同的操作(例如，分别为操作409、413、421)：(1)可信度为第一临界值以上；(2)可信度小于第二临界值；以及(3)可信度介于第一临界值(不含)与第二临界值(含)之间。其中，所述不含/含的关系可多样地组合。

当操作407中可信度为第一临界值以上时，用户终端100可在操作409中执行与ASR1的执行结果对应的操作。如果操作407中可信度小于第一临界值，则可在操作411中判断可信度是否小于第二临界值。

在操作411中，如果可信度小于第二临界值，则用户终端100可提供针对所述可信度的反馈。该反馈可包括用于表示用户的语音输入未被电子装置正常识别或者即使得到识别却无法信任其识别结果的消息或音频的输出。例如，用户终端100可显示诸如“语音未得到识别，请再说一遍”的引导消息或者通过扬声器而输出。或者，用户终端100例如还可以通过诸如“您说的是“XXX”吗？”的反馈而引导相对而言容易识别的语音输入(例如，“是的”、“不”、“不是”、“怎么会”、“完全没有”等)，从而可确认具有低的可信度的识别结果的准确性。

如果在操作413中提供反馈，则即使以后经过一定时间之后在操作419中获取语音识别结果也可以不执行操作421。这是因为可通过反馈由用户发生新的语音输入，在此情况下执行针对之前发生的语音输入的操作却并不妥当。然而，在一些实施例中，即使有操作413的反馈，如果在预定时间内没有从用户发生任何附加输入，且在操作419中从服务器200接收到的语音识别结果(例如，第二操作信息和第二可信度)满足指定的条件(例如，第二可信度为第一临界值或任意的第三临界值以上)，则操作421可在操作413之后执行。

在操作411中，如果在操作405中获取的可信度为第二临界值以上(换言之，可信度介于所述第一临界值(不含)与所述第二临界值(含)之间)，则用户终端100可在操作419中从服务器200获取语音识别结果。在操作421中，用户终端100可执行与通过ASR2识别的语音命令(第二操作信息)对应的操作。

在图4的实施例中，将借助于用户终端100的语音识别结果的可信度区分为可使用的水平和不可使用的水平、以及通过参考服务器200的自动语音识别结果而可以使用的水平，从而可以根据可信度而执行恰当的操作。尤其，在可信度过低的情况下，无论是否从服务器200接收到结果，用户终端100提供反馈而引导用户重新输入，从而可以防止在经过一段响应等待时间以后才给用户提供诸如“未能识别”的消息的情形。

参考图5，语音获取操作501、语音信号传送操作503、ASR1操作505、ASR2操作511以及自然语言处理操作513分别与前面在图3中说明的操作301、303、305、311以及313对应，因此省略其说明。

在操作507中，如果针对ASR1的执行结果的可信度为临界值(例如，第一临界值)以上，则可进行操作509而执行与通过ASR1识别的语音命令(例如，第一操作信息)对应的操作。如果操作507中ASR1的执行结果的可信度小于临界值，则可执行图3的操作315以后的过程或图4的操作411以后的过程。

在图5的实施例中，在执行操作509以后流程并不终止而可以执行操作515至操作517。在操作515中，用户终端100可从服务器200获取语音识别结果。例如，针对在操作503中传送的语音信号，用户终端100可获取作为ASR2的执行结果的第二操作信息和第二可信度。

在操作517中，用户终端100可将ASR1与ASR2的识别结果进行比较。例如，用户终端可判断ASR1与ASR2的识别结果彼此相同(或者对应)还是互不相同。例如，当ASR1的识别结果为识别出诸如“明日天气”的语音且ASR2的识别结果为识别出诸如“明日天气呢？”语音时，两种情况下操作信息均可包括“执行天气应用，输出明日天气”。在这种情况下，ASR1与ASR2的识别结果可被理解为彼此对应。然而，如果语音识别结果为将执行互不相同的操作，则可判断两个(或两个以上)的语音识别结果并不彼此对应。

在操作519中，用户终端100可将自行的自动语音识别执行结果与从服务器接收到的语音命令进行比较而变更临界值。例如，用户终端100在第一操作信息与第二操作信息包含有彼此相同或对应的语音命令的情况下，可减小所述第一临界值。例如，针对某一语音输入，先前只有在表现出80％以上的可信度的情况下才会不等待服务器200的响应而采取用户终端100的自行的语音识别的执行结果，而现在通过更新临界值即使只获取70％以上的可信度也可以利用用户终端100自行的语音识别结果。临界值的更新可以每当用户使用语音识别功能时反复执行，结果，针对用户经常使用的语音识别设定低的临界值，因此可带来迅捷的响应速度。

然而，如果ASR1的执行结果与ASR2的执行结果互不相同，则所述临界值可增加。在一些实施例中，临界值更新操作可在指定的条件累积指定的次数之后发生。例如，针对某一语音输入，当ASR1的执行结果与ASR2的执行结果一致的次数出现5次以上时可更新(调低)临界值。

参考图6，语音获取操作601、语音信号传送操作603、ASR1操作605、ASR2操作611以及自然语言处理操作613分别与前面参考图3说明的操作301、303、305、311以及313对应，因此省略其说明。

在操作607中，当ASR1的执行结果的可信度为临界值(例如，第一临界值)以上时，可执行图3的操作309、图4的操作409、图5的操作509以后的操作。

在操作607中，当针对ASR1的执行结果的可信度小于临界值时，在操作609中用户终端100从服务器200获取语音识别结果，并可在操作615中执行与通过ASR2识别的语音命令对应的操作。操作609和操作615可与图3的操作315和操作317对应，或者与图4的操作419和操作421对应。

在操作617中，用户终端100可将ASR1与ASR2的语音识别结果进行比较。操作617可对应于图5的操作517。

在操作619中，用户终端100可基于操作617的比较结果而更新用户终端100的语音识别模型(例如，自动语音识别模型140)。例如，用户终端100可将针对语音输入的ASR2的语音识别结果(例如，第二操作信息；或者第二操作信息和第二可信度)添加到语音识别模型。例如，当所述第一可信度小于所述第一临界值时，可将针对语音输入的所述第二操作信息和所述第二可信度添加到利用于所述第一语音识别的语音识别模型。例如，当第一操作信息与第二操作信息并不彼此对应时，用户终端100可基于第一可信度和第二可信度(例如，第二可信度高于第一可信度的情形)而将所述第二操作信息(以及所述第二可信度)添加到利用于所述第一语音识别的语音识别模型。与图5的实施例类似地，语音识别模型更新操作可在指定的条件累积指定的次数以后发生。

图7表示根据本发明的一个实施例的网络环境内的电子装置。

参考图7，示出了多样的实施例中网络环境700内的电子装置701。电子装置701可包括总线710、处理器720、存储器730、输入输出接口750、显示器760以及通信接口770。在某些实施例中，电子装置701可省去上述构成要素中的至少一个，或者可额外配备其他构成要素。

总线710可包括例如：电路，用于使构成要素710至770相互连接，并传递构成要素之间的通信(例如，控制消息和/或数据)。

处理器720可包括中央处理器(CPU)、应用处理器(AP；applicationprocessor)或通信处理器(CP；communication processor)中的一个或一个以上。处理器720可执行例如关于电子装置701的至少一个其他构成要素的控制和/或通信的运算或数据处理。

存储器730可包括易失性和/或非易失性存储器。存储器730可存储例如与电子装置701的至少一个其他构成要素相关联的命令或数据。根据一个实施例，存储器730可存储软件和/或程序740。程序740可包括例如内核(kernel)741、中间件(middleware)743、应用程序编程接口(API；applicationprogramming interface)745和/或应用程序(或“应用”)747等。内核741、中间件743或应用程序编程接口745的至少一部分可被称为操作系统(operatingsystem；OS)。

内核741可对例如用于执行其他程序(例如，中间件743、应用程序编程接口745或应用程序747)所实现的操作或功能的系统资源(例如，总线710、处理器720或存储器730等)进行控制或管理。此外，内核741可从中间件743、应用程序编程接口745或应用程序747访问电子装置701的个别构成要素，从而可提供用于控制或管理系统资源的接口。

中间件743可执行例如使应用程序编程接口745或应用程序747与内核741进行通信而收发数据的中继作用。

此外，中间件743可对从应用程序747接收的一个以上的作业请求按优先顺序进行处理。例如，中间件743可对应用程序747中的至少一个赋予能够使用电子装置701的系统资源(例如，总线710、处理器720或存储器730等)的优先顺序。例如，中间件743根据赋予所述至少一个应用程序的优先顺序而对所述一个以上的作业请求进行处理，从而可执行针对所述一个以上的作业请求的排程(scheduling)或负载均衡(load balancing)等。

应用程序编程接口745例如作为应用程序747控制由所述内核741或中间件743提供的功能的接口，可包括例如用于文件控制、窗口控制、图像处理或文字控制等的至少一个接口或函数(例如，命令)。

输入输出接口750例如可以起到能够将从用户或其他外部设备输入的命令或数据传递给电子装置701的其他构成要素的接口的作用。而且，输入输出接口750可将从电子装置701的其他构成要素接收的命令或数据输出到用户或其他外部设备。

显示器760可包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、微电子机械系统(microelectromechanicalsystems；MEMS)显示器、或者电子纸张(electronic paper)显示器。显示器760例如可将各种内容(例如，文本、图像、视频、图标或符号等)显示给用户。显示器760可包括触摸屏，例如，可接收利用电子笔或用户的身体的一部分的触摸、手势、靠近或悬停(hovering)输入。

通信接口770可设定例如电子装置701与外部装置(例如，第一外部电子装置702、第二外部电子装置704或服务器706)之间的通信。例如，通信接口770通过无线通信或有线通信而连接于网络762，从而可以与所述外部装置(例如，第二外部电子装置704或服务器706)进行通信。

无线通信作为例如蜂窝通信协议而可使用例如LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro或GSM等中的至少一种。此外，无线通信可包括例如近距离通信网764。近距离通信网764可包括例如Wi-Fi、蓝牙(Bluetooth),近场通信(NFC；near field communication)或全球定位系统(GPS；globalpositioning system)等中的至少一种。有线通信可包括例如通用串行总线(USB：universal serial bus)、高清晰度多媒体接口(HDMI；high definitionmultimedia interface)、RS-232(推荐性标准(recommended standard)832)或普通老式电话业务(POTS：plain old telephone service)等中的至少一种。网络762可包括通信网络(telecommunications network)，例如可包括计算机网络(computer network)(例如，LAN或WAN)、互联网或电话网(telephonenetwork)中的至少一种。

第一外部电子装置702和第二外部电子装置704分别可以是与电子装置701相同或不同的类型的装置。根据一个实施例，服务器706可包括一个或一个以上的服务器的组。根据多样的实施例，在电子装置701中执行的操作的全部或一部分可在其他的一个或多个电子装置(例如，电子装置702、704或服务器706)中执行。根据一个实施例，当电子装置701需要自动或根据请求而执行某一功能或服务时，电子装置701可以代替自行执行功能或服务或者额外地向其他装置(例如，电子装置702、704或服务器706)请求与自行执行的功能或服务相关联的至少一部分功能。其他电子装置(例如，电子装置702、704或服务器706)可执行被请求的功能或附加功能，并将其结果传递给电子装置701。电子装置701可对接收到的结果不加处理或额外进行处理，从而提供被请求的功能或服务。为此，例如，可以利用云计算(cloudcomputing)、分散计算、或客户端-服务器计算技术。

图8表示根据本发明的一个实施例的电子装置的框图。

参考图8，电子装置801可包括例如图7所示电子装置701的全部或一部分。电子装置801可包括：一个以上的处理器(例如，应用处理器(AP)810、通信模块820、加入者识别模块824、存储器830、传感器模块840、输入装置850、显示器860、接口870、音频模块880、摄像机模块891、功率管理模块895、电池896、指示器897以及马达898)。

处理器810例如可通过驱动操作系统或应用程序而控制连接于处理器810的多个硬件或软件构成要素，并执行各种数据处理和运算。处理器810例如可以由片上系统(SoC；system on chip)实现。根据一个实施例，处理器810还可以包括图形处理单元(GPU；graphic processing unit)和/或图像信号处理器(image signal processor)。处理器810还可以包括图8所示构成要素中的至少一部分(例如，蜂窝模块821)。处理器810可将从其他构成要素(例如，非易失性存储器)中的至少一个接收到的命令或数据加载到(load)易失性存储器而进行处理，并将多样的数据存储于非易失性存储器。

通信模块820可具有与图7的所述通信接口770相同或类似的构造。通信模块820可包括例如蜂窝模块821、Wi-Fi模块823、蓝牙模块825、GPS模块827、近场通信模块828以及射频(RF；radio frequency)模块829。

蜂窝模块821可通过例如通信网提供语音通话、图像通话、文字服务或互联网服务等。根据一个实施例，蜂窝模块821可利用加入者识别模块(例如，SIM卡)824而在通信网络内执行电子装置801的区分和认证。根据一个实施例，蜂窝模块821可执行处理器810可提供的功能中的至少一部分功能。根据一个实施例，蜂窝模块821可包括通信处理器(CP)。

Wi-Fi模块823、蓝牙模块825、GPS模块827或近场通信模块828分别可以包括例如用于处理通过相关模块收发的数据的处理器。根据某些实施例，蜂窝模块821、Wi-Fi模块823、蓝牙模块825、GPS模块827或近场通信模块828中的至少一部分(例如，两个以上)可包含于一个集成芯片(IC；integrated chip)或集成芯片封装件内。

射频模块829可收发例如通信信号(例如，射频信号)。射频模块829可包括例如收发器(transceiver)、功率放大模块(PAM；power amp module)、频率过滤器(frequency filter)、低噪声放大器(LNA；low noise amplifier)或天线等。根据另一实施例，蜂窝模块821、Wi-Fi模块823、蓝牙模块825、GPS模块827或近场通信模块828中的至少一个可通过专门的射频模块而收发射频信号。

加入者识别模块824可包括例如包含有加入者识别模块的卡片和/或内置SIM(embedded SIM)，并且可包括固有的识别信息(例如，集成电路卡识别码(ICCID；integrated circuit card identifier))或加入者信息(例如，国际移动用户识别码(IMSI；international mobile subscriber identity))。

存储器830(例如，存储器730)可包括例如内置存储器832或外置存储器834。内置存储器832可包括例如易失性存储器(例如，动态随机存取存储器(DRAM：dynamic RAM)、静态随机存取存储器(SRAM：static RAM)或同步动态随机存储器(SDRAM：synchronous dynamic RAM)等)、非易失性存储器(例如，一次可编程只读存储器(OTPROM：one time programmable ROM)、可编程只读存储器(PROM：programmable ROM)、可擦除可编程只读存储器(EPROM：erasable and programmable ROM)、电可擦可编程只读存储器(EEPROM：electrically erasable and programmable ROM)等)、掩膜(mask)ROM、快闪(flash)ROM、闪存(例如，NAND闪存或NOR闪存等)、硬盘驱动器(hard drive)或固态硬盘(SSD；solid state drive)中的至少一种。

外置存储器834可包括闪盘驱动器(flash drive)，还可以包括例如CF(compact flash)卡、SD(secure digital)卡、微型SD卡、迷你SD卡、XD(extreme digital)卡、多媒体卡(MMC；MultiMedia Card)或记忆棒(memorystick)等。外置存储器834可通过多样的接口而以功能方式和/或物理方式与电子装置801连接。

传感器模块840可例如计测物理量或感测电子装置801的工作状态而将计测或感测到的信息变换为电信号。传感器模块840可包括例如手势传感器840A、陀螺仪传感器840B、气压传感器840C、磁传感器840D、加速度传感器840E、手握传感器840F、接近传感器840G、颜色传感器840H(例如，RGB传感器)、生物传感器840I、温度/湿度传感器840J、照度传感器840K、或紫外线(UV；ultra violet)传感器840M中的至少一种。附加地或作为替代，传感器模块840还可以包括例如嗅觉传感器(E-nose sensor)、肌电图(EMG；electromyography)传感器、脑电图(EEG；electroencephalogram)传感器、心电图(ECG；electrocardiogram)传感器、红外线(IR；infrared)传感器、彩虹传感器和/或指纹传感器。传感器模块840还可以包括用于控制包含于其中的至少一个传感器的控制电路。在某些实施例中，电子装置801还可以包括作为处理器810的一部分或者单独地被构成为控制传感器模块840的处理器，从而可在处理器810处于睡眠(sleep)状态的时段内控制传感器模块840。

输入装置850可包括例如触摸面板(touch panel)852、(数码)笔传感器854、键(key)856、或超声波(ultrasonic)输入装置858。触摸面板852可使用例如静电式、减压式、红外线式或超声波式中的至少一种方式。此外，触摸面板852还可以包括控制电路。触摸面板852还可以包括触觉层(tactilelayer)，从而可以给用户提供触觉反应。

数码笔传感器854例如可以是触摸面板的一部分，或者可包括专门的识别用片(sheet)。键856可包括例如物理按钮、光学式键或键盘。超声波输入装置858通过麦克风(例如，麦克风888)感测出从输入工具产生的超声波，从而可以确认与所述感测到的超声波对应的数据。

显示器860(例如，显示器760)可包括面板862、全息图装置864或投影机866。面板862可包括与图7的显示器760相同或类似的构造。面板862例如可实现为例如具有柔韧性(flexible)、具有透明性(transparent)或者具有可穿戴性(wearable)。面板862与触摸面板852可构成为一个模块。全息图装置864可利用光的干涉而将立体图像显示于空白的空间。投影机866可将光投射于屏幕而显示图像。屏幕可位于例如电子装置801的内部或外部。根据一个实施例，显示器860还可以包括用于控制所述面板862、所述全息显影装置864或投影机866的控制电路。

接口870可包括例如HDMI接口872、USB接口874、光接口(opticalinterface)876或D-sub(D-subminiature)接口878。接口870可包含于例如图7所示的通信接口770。附加地或作为替代，接口870可包括例如移动高清连接(MHL；mobile high-definition link)接口、SD卡/多媒体卡接口、或红外数据协议(IrDA；infrared data association)规范接口。

音频模块880可实现例如声音(sound)与电信号的双向变换。音频模块880的至少一部分构成要素可包含于例如图7所示的输入输出接口750。音频模块880可对通过例如扬声器882、接收器884、耳机886或麦克风888等输入或输出的声音信息进行处理。

摄像机模块891作为例如可拍摄静止图像和视频的装置，根据一个实施例，可包括一个以上的图像传感器(例如，正面传感器或背面传感器)、透镜、图像信号处理器(ISP；image signal processor)或闪光灯(flash)(例如，LED或氙灯(xenon lamp))。

功率管理模块895可管理例如电子装置801的功率。根据一个实施例，功率管理模块895可包括电源管理集成电路(PMIC；power managementintegrated circuit)、充电集成电路(charger integrated circuit)、电池或燃料计量器(battery or fuel gauge)。电源管理集成电路可具备有线和/或无线充电方式。无线充电方式包括例如磁共振方法、磁感应方式或电磁波方式等。还可以包括用于无线充电的附加的电路，例如，线圈回路、共振电路或整流器等。电池计量器可测量例如电池896的余量、充电中的电压、电流或温度。电池896可包括例如充电式电池(rechargeable battery)和/或太阳能电池(solarbattery)。

指示器897可显示电子装置801或者其一部分(例如，处理器810)的特定状态，例如可显示启动(booting)状态、消息状态或充电状态等。马达898可将电信号变换为机械振动，并可产生振动(vibration)效果或触觉(haptic)效果等。虽然没有图示，但电子装置801可包含用于支持移动电视(TV)的处理装置(例如，GPU)。用于支持移动电视的处理装置可对例如基于数字多媒体广播(DMB；digital multimedia broadcasting)、数字视频广播(DVB；digital video broadcasting)或媒体流(MediaFloTM)等规范的媒体数据进行处理。

本说明书中记载的各个构成要素可由一个或一个以上的部件构成，相关构成要素的名称可根据电子装置的种类而不同。在多样的实施例中，电子装置可包含本说明书中记载的构成要素中的至少一个而构成，且可以省略一部分构成要素或者还包括附加性的其他构成要素。此外，根据多样的实施例的电子装置的构成要素中的一部分可结合而构成个体(entity)，从而可以同样执行结合之前的相关构成要素的功能。

本说明书中使用的术语“模块”可表示例如包括硬件、软件或固件(firmware)中的一个或两个以上的组合的单位(unit)。“模块”可以与例如单元(unit)、逻辑(logic)、逻辑块(logical block)、部件或电路等术语互换而使用(interchangeably use)。“模块”可以是构成为一体的部件的最小单位或者其一部分。“模块”也可以是用于执行一个或一个以上的功能的最小单位或者其一部分。“模块”可通过机械方式或电子方式实现。例如，“模块”可包括已知的或今后将会研发的用于执行某些操作的专用集成电路(ASIC；application-specific integrated circuit)芯片、现场可编程门阵列(FPGA；field-programmable gate arrays)或可编程逻辑装置(programmable-logic device)中的至少一种。

根据多样的实施例的装置(例如，模块或者其功能)或方法(例如，操作)的至少一部分例如可以由例如以程序模块的形态存储于计算机可读存储介质(computer-readable storage media)中的命令实现。

例如，所述存储介质可存储有用于执行如下操作和功能的命令：当执行时使电子装置的处理器从用户获取语音输入而生成语音信号的操作；执行对所述语音信号的至少一部分的第一语音识别而获取第一操作信息和第一可信度(confidence score)的操作；为了执行第二语音识别而将所述语音信号的至少一部分传送给服务器的操作；从所述服务器接收针对所述传送的信号的第二操作信息的操作；(1)当所述第一可信度为第一临界值以上时，执行对应于所述第一操作信息的功能；(2)当所述第一可信度小于第二临界值时，提供对所述第一可信度的反馈；(3)当所述第一可信度介于所述第一临界值(不含)与所述第二临界值(含)之间时，执行对应于所述第二操作信息的功能。

根据多样的实施例的模块或程序模块可包含前述构成要素中的至少一个，或者可以有一部分被省略，或者还可以包含有附加性的其他构成要素。由根据多样的实施例的模块、程序模块或其他构成要素执行的操作可通过顺序式、并行式、重复式或启发(heuristic)的方法执行。并且，一些操作可按不同的顺序执行，或者被省去，或者可以有其他操作的附加。

另外，本说明书中公开的实施例是为了所公开的技术内容的说明和理解而提出的，而并非旨在限定本发明的范围。因此，本发明的范围应当被解释为包括基于本发明的技术思想的一切变更或多样的其他实施例。

Claims

1.一种电子装置，包括：

处理器，利用存储于存储器中的语音识别模型而执行针对语音输入的自动语音识别；以及

通信模块，将所述语音输入提供给服务器，并从所述服务器接收对应于所述语音输入的语音命令，

其中，所述处理器在所述自动语音识别的执行结果的可信度为第一临界值以上的情况下执行对应于所述自动语音识别的执行结果的操作，而在所述自动语音识别的执行结果的可信度小于第二临界值的情况下提供针对所述可信度的反馈。

2.如权利要求1所述的电子装置，其中，所述处理器在所述可信度小于所述第一临界值且大于或等于所述第二临界值的情况下执行从所述服务器接收的所述语音命令。

3.如权利要求1所述的电子装置，其中，当所述可信度为所述第一临界值以上时，与所述语音命令的接收与否无关地执行对应于所述自动语音识别的执行结果的操作。

4.如权利要求3所述的电子装置，其中，对应于所述自动语音识别的执行结果的操作包括能够借助于所述处理器而执行的至少一个功能的执行、至少一个应用的执行、或者基于所述自动语音识别的执行结果的输入中的至少一种。

5.如权利要求1所述的电子装置，其中，所述反馈包括用于表示所述语音输入未被识别或者表示所述自动语音识别的执行结果不可信的消息或音频的输出。

6.如权利要求1所述的电子装置，其中，从所述服务器接收的所述语音命令为基于与存储于所述存储器中的所述语音识别模型不同的语音识别模型而在所述服务器中针对提供的语音输入执行语音识别而产生的命令。

7.如权利要求6所述的电子装置，其中，在所述服务器中执行的语音识别包括自然语言处理。

8.如权利要求1所述的电子装置，其中，所述处理器将针对所述语音输入应用预处理的音频信号提供给用于执行所述自动语音识别的自动语音识别引擎，并通过所述通信模块而将所述语音输入本身提供给所述服务器。

9.如权利要求1所述的电子装置，其中，所述处理器在所述可信度为所述第一临界值以上的情况下，将所述自动语音识别的执行结果与从所述服务器接收到的所述语音命令进行比较，并基于比较结果而变更所述第一临界值。

10.如权利要求9所述的电子装置，其中，所述处理器在所述自动语音识别的执行结果与从所述服务器接收到的所述语音命令对应的情况下减小所述第一临界值，而在该执行结果与该语音命令不对应的情况下增加所述第一临界值。

11.如权利要求1所述的电子装置，其中，所述处理器在所述可信度小于所述第一临界值的情况下，将所述自动语音识别的执行结果与从所述服务器接收到的所述语音命令进行比较，并基于比较结果而更新所述语音识别模型。

12.如权利要求11所述的电子装置，其中，

所述通信模块从所述服务器接收所述语音命令，且一并接收针对所述语音命令的可信度，

所述处理器针对于所述语音输入将所述语音命令以及所述语音命令的可信度添加到所述语音识别模型。

13.一种语音识别执行方法，作为电子装置的语音识别执行方法，包括如下操作：

从用户处获取语音输入而生成语音信号；

执行针对所述语音信号的至少一部分的第一语音识别而获取第一操作信息和第一可信度；

为了执行第二语音识别而将所述语音信号的至少一部分传送给服务器；

从所述服务器接收针对所传送的信号的第二操作信息；以及

当所述第一可信度为第一临界值以上时，执行对应于所述第一操作信息的功能，当所述第一可信度小于第二临界值时，提供针对所述第一可信度的反馈，当所述第一可信度小于所述第一临界值且大于或等于所述第二临界值时，执行对应于所述第二操作信息的功能。

14.如权利要求13所述的语音识别执行方法，其中，还包括如下操作：

当对应于所述第一操作信息的功能与对应于所述第二操作信息的功能一致时，减小所述第一临界值。

15.如权利要求13所述的语音识别执行方法，其中，还包括如下操作：

当对应于所述第一操作信息的功能与对应于所述第二操作信息的功能并不一致时，增加所述第一临界值。