CN111312235B

CN111312235B - 一种语音交互方法、装置及系统

Info

Publication number: CN111312235B
Application number: CN201811513712.8A
Authority: CN
Inventors: 祝俊; 袁英灿; 王德淼; 孟伟; 吴逸超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2023-06-30
Anticipated expiration: 2038-12-11
Also published as: CN111312235A; WO2020119542A1; TW202025138A

Abstract

本发明公开了一种语音交互方法、装置及系统。其中，语音交互方法包括步骤：发送用户输入的第一语音数据，以接收根据第一语音数据确认的交互场景；基于交互场景获取配置信息；以及基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应。本发明一并公开了相应的计算设备。

Description

一种语音交互方法、装置及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音交互方法、装置及系统。

背景技术

过去十几年来，互联网在人们生活的各个领域不断深化，人们可以通过互联网方便地进行购物、社交、娱乐、理财等活动。同时，为提高用户体验，研究人员实现了很多交互方案，如文字输入、手势输入、语音输入等。其中，智能语音交互由于其操作的便捷性而成为新一代交互模式的研究热点。

随着语音交互技术的逐步发展，越来越多的智能设备具有了语音唤醒功能。当前市面上比较流行的智能设备都配置有固定的唤醒词，当接收到用户输入的语音数据时，直接判断用户输入的语音数据与预设的固定唤醒词是否匹配。若两者匹配，则将处于休眠状态的智能设备转为交互状态或工作状态。这样，每次用户想与智能设备进行交互时，必须先使用固定的唤醒词将该设备唤醒，再输入语音指令。当结束一次语音交互的过程后，若用户要再次与该智能设备进行交互，需要再次输入固定的唤醒词将其唤醒，再输入语音指令。

这种方式下，在每一次语音交互之前，用户需要先输入固定唤醒词，这无疑增加了用户的操作次数，从而会增加交互成本，降低用户的交互体验。因此，需要一种优化的语音交互方案。

发明内容

为此，本发明提供了一种语音交互方法、装置及系统，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种语音交互方法，包括步骤：将用户输入的第一语音数据发送给服务器，以便服务器根据所述第一语音数据确认交互场景；基于交互场景获取配置信息；以及基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应。

可选地，根据本发明的方法还包括步骤：预先设置各交互场景下的配置信息，其中，配置信息中包含至少一条用于在该交互场景下使用的目标数据。

可选地，在根据本发明的方法中，基于配置信息对用户输入的第二语音数据进行处理并输出响应的步骤包括：判断用户输入的第二语音数据与配置信息中的目标数据是否匹配；若匹配则获取当前时刻的状态数据；将第二语音数据与状态数据发送给服务器，以便服务器根据状态数据对第二语音数据进行识别处理并返回响应指令；以及根据响应指令输出响应给用户。

可选地，根据本发明的方法还包括接收用户输入的第三语音数据的步骤：检测用户输入的第三语音数据中是否包含预定对象；以及若第三语音数据中包含预定对象，则进入交互状态。

可选地，在根据本发明的方法中，将用户输入的第一语音数据发送给服务器，以便服务器根据第一语音数据确认交互场景的步骤包括：响应于用户输入第一语音数据，获取当前时刻的状态数据；以及将第一语音数据与状态数据发送给服务器，以便服务器根据状态数据对所述第一语音数据进行识别处理并返回响应指令，其中响应指令中还包括交互场景。

可选地，在根据本发明的方法中，基于交互场景获取配置信息的步骤还包括：根据响应指令输出响应给用户。

可选地，根据本发明的方法还包括步骤：响应于用户切换交互场景的请求，转发请求至服务器，以便服务器确认待切换的交互场景；判断是否关闭切换前的交互场景；若关闭切换前的交互场景，则基于切换后的交互场景得到配置信息；以及若不关闭切换前的交互场景，则基于切换前的交互场景和切换后的交互场景得到配置信息。

根据本发明的另一方面，提供了一种语音交互方法，包括步骤：根据用户输入的第一语音数据确定交互场景；基于交互场景获取配置信息；以及基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应。

根据本发明的又一方面，提供了一种语音交互装置，包括：连接管理单元，适于接收用户输入的第一语音数据并发送给服务器，以便服务器根据第一语音数据确认交互场景；信息获取单元，适于基于交互场景获取配置信息；以及数据处理单元，适于基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应。

可选地，根据本发明的装置还包括信息存储单元，适于预先存储各交互场景下的配置信息，其中，配置信息中包含至少一条用于在该交互场景下使用的目标数据。

可选地，在根据本发明的装置中，数据处理单元还包括判断模块，适于判断用户输入的第二语音数据与配置信息中的目标数据是否匹配；信息获取单元还适于在第二语音数据与所述目标数据匹配时，获取当前时刻的状态数据；连接管理单元还适于将第二语音数据与状态数据发送给服务器，并接收该服务器根据状态数据对第二语音数据进行识别处理后返回的响应指令；以及连接管理单元还适于根据该响应指令输出响应给用户。

可选地，在根据本发明的装置中，连接管理单元还适于接收用户输入的第三语音数据；装置还包括检测单元，适于检测用户输入的第三语音数据中是否包含预定对象，并在第三语音数据包含预定对象时进入交互状态。

可选地，在根据本发明的装置中，连接管理单元还适于响应于用户切换交互场景的请求，转发请求至服务器，以便服务器确认待切换的交互场景；信息获取单元还包括判决模块，适于判断是否关闭切换前的交互场景；信息获取单元还适于在关闭切换前的交互场景时，基于切换后的交互场景得到配置信息，且在不关闭切换前的交互场景时，基于切换前的交互场景和切换后的交互场景得到配置信息。

根据本发明的再一个方面，提供了一种语音交互系统，包括：客户端，包括如上所述的语音交互装置；以及服务器，适于接收来自客户端的语音数据和状态数据，并基于状态数据和语音数据，确定客户端的交互场景。

可选地，在根据本发明的系统中，服务器还适于根据状态数据对语音数据进行识别处理、返回响应指令给客户端。

可选地，在根据本发明的系统中，客户端是智能音箱。

根据本发明的再一方面，提供了一种智能音箱，包括：接口单元，适于接收用户输入的第一语音数据；交互控制单元，适于根据用户输入的第一语音数据确定交互场景，并基于交互场景获取配置信息，交互控制单元还适于基于配置信息对第二语音数据进行处理，并输出响应。

根据本发明的再一个方面，提供了一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上所述任一方法的指令。

根据本发明的再一个方面，提供了一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上所述的任一方法。

根据本发明的语音交互方法，客户端在接收到用户输入的第一语音数据时，将第一语音数据转发给服务器，由服务器确认交互场景；而后客户端根据交互场景获取配置信息，在该交互场景下，只要用户输入的语音数据与配置信息中的目标数据相匹配，则直接唤醒客户端进行语音交互。相比于现有的语音交互方案，本方案能够降低交互成本，提高用户体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的语音交互系统100的场景示意图；

图2示出了根据本发明一个实施例的计算设备200的示意图；

图3示出了根据本发明一个实施例的语音交互方法300的交互流程图；

图4示出了根据本发明另一个实施例的语音交互方法400的流程示意图；以及

图5示出了根据本发明一个实施例的语音交互装置500的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的语音交互系统100的场景示意图。如图1所示，系统100中包括客户端110和服务器120。应当指出，图1所示的系统100仅作为一个示例，本领域技术人员可以理解，在实际应用中，系统100通常包括多个客户端110和服务器120，本发明对系统100中所包括的客户端110和服务器120的数量均不做限制。

客户端110为具有语音交互装置(如，根据本发明实施例的语音交互装置500)的智能设备，其可以接收用户发出的语音指示，以及向用户返回语音或非语音信息。一个典型的语音交互装置包括麦克风等语音输入单元、扬声器等语音输出单元以及处理器。语音交互装置可以内置在客户端110中，也可以作为一个独立的模块与客户端110配合使用(例如经由API或通过其它方式与客户端110进行通信，调用客户端110上的功能或应用)，本发明的实施例对此不做限制。客户端110例如可以是具有语音交互装置的移动设备(如，智能音箱)、智能机器人、智能家电(包括智能电视、智能冰箱、智能微波炉等)，但不限于此。客户端110的一个应用场景为家用场景，即，客户端110放置于用户家中，用户可以向客户端110发出语音指示以实现某些功能，例如上网、点播歌曲、购物、了解天气预报、对家中的其他智能家居设备进行控制，等等。

服务器120与客户端110通过网络进行通信，其例如可以是物理上位于一个或多个地点的云服务器。服务器120为客户端110上接收的语音数据提供识别服务，以得到用户输入的语音数据的文本表示；服务器120还会基于文本表示得到用户意图的表示，并生成响应指令，返回给客户端110。客户端110根据该响应指令执行相应的操作，来为用户提供相应的服务，例如设置闹钟、拨打电话、发送邮件、播报资讯、播放歌曲、视频等。当然，客户端110也可以根据响应指令输出相应的语音响应给用户，本发明的实施例对此不做限制。

根据一些实施例，在客户端110中，语音交互模块的麦克风持续接收外部声音。当用户要使用客户端110进行语音交互时，需要先说出相应的唤醒词来唤醒客户端110(更具体地说，通过输入唤醒词来唤醒客户端110中的语音交互模块)，使其进入交互状态。在客户端110结束一次语音交互后，若用户要再次使用客户端110进行交互，就需要再次输入唤醒词来唤醒客户端110。

以下示例性地示出了一些语音交互过程。其中，固定的唤醒词设置为“小精灵”。

用户：小精灵。

客户端：我在，你说。

用户；我想听**的歌。

客户端：好的，即将为你播放**的歌。

用户：小精灵。

客户端：我在，你说。

用户：把声音调到50。

客户端：好的，声音已调到50。

用户；小精灵，收藏这首歌。

客户端：好的，歌曲已收藏。

用户：小精灵，播放收藏。

客户端：好的，即将为你播放收藏。

用户：小精灵。

客户端：我在，你说。

用户：下一首。

客户端：好的。

用户：小精灵，上一首。

客户端：好的。

从上例可以看到，用户在每次交互时，都需要先输入唤醒词、再输入相应的语音指令。也就是说，用户每要指示客户端110去执行一个操作，都需要先输入一次唤醒词。对用户而言，这样的交互方式过于繁琐。为降低交互成本，减少用户重复输入唤醒词，在根据本发明的系统100中，根据用户与客户端110进行语音交互的交互场景，预先设置各交互场景下，用户可能要使用的一条或多条目标数据，以此构成各交互场景下的配置信息。换句话说，配置信息中包含了各种交互场景对应的交互模板。根据本发明的实施方式，在特定的交互场景下，用户无需多次输入唤醒词来与客户端110进行交互，只要输入的语音指令中包含了该交互场景下的目标数据即可。

例如，在上述示例中所展现的听歌的交互场景中，目标数据就可以是：“上一首”“下一首”“收藏这首歌”“声音大一点”“暂停播放”“继续播放”“当前是什么歌”等等，这些目标数据就构成了听歌的交互场景所对应的配置信息。应当指出，上述说明仅作为示例，本发明的实施例并不限于此。在具体的实施例中，目标数据可以设置为“声音大一点”，也可以设置为“调大音量”，等等。

根据本发明的实施方式，客户端110在接收到用户输入的语音数据后，还会获取当前时刻客户端110上的状态数据，连同该语音数据一并传送给服务器120。客户端110的状态数据例如是用户正在操作客户端110上的某个应用或者类似软件的状态。例如，用户可能正在使用某个应用播放视频流数据；又如，用户正在使用某个社交软件与特定个人进行交流；但不限于此。

服务器120在生成响应指令的同时，还可以依据状态数据和语音数据进行场景分析，以确认出用户输入语音数据时所期望进入的交互场景。例如，用户输入语音数据——“我想看剧”，服务器120通过状态数据确认当前客户端110上正在使用音乐播放器软件，服务器120基本可以确定出用户期望进入播放视频的交互场景。又如，用户输入语音数据——“现在杭州的天气怎样”，服务器120基本能够确认出用户期望进入查看天气预报的交互场景。

服务器120将确认的交互场景连同响应指令返回给客户端110。客户端110根据该交互场景，获取其对应的配置信息。这样，在该交互场景下，客户端110只需要判断用户输入的语音数据与配置信息中的目标数据是否一致，若一致则直接输出响应。

还是以上述示例中所展现的听歌的交互场景为例，在根据本发明的语音交互系统100中，用户和客户端110的语音交互过程可以优化为：

用户：小精灵。

客户端：我在，你说。

用户；我想听**的歌。

客户端：好的，即将为你播放**的歌。

用户：把声音调到50。

客户端：好的，声音已调到50。

用户；收藏这首歌。

客户端：好的，歌曲已收藏。

用户：播放收藏。

客户端：好的，即将为你播放收藏。

用户：下一首。

客户端：好的。

用户：上一首。

客户端：好的。

对比上面示出的交互过程可以看出，根据本发明的语音交互系统100，只要没有切换出当前的交互场景，客户端110就一直处于交互状态，用户可以直接输入语音指令来指示客户端110执行相应的操作。这样，系统100无需多次重复之前已经执行过的交互流程(例如，唤醒客户端110的流程)，降低了交互成本，提高了用户体验。

以下以客户端110被实现为智能音箱为例，概括说明根据本发明实施例的语音交互方案。

除基本的配置外，根据本发明一个实施例的智能音箱还包括：接口单元和交互控制单元。其中，接口单元接收用户输入的第一语音数据；交互控制单元根据用户输入的第一语音数据确定交互场景，并基于该交互场景获取配置信息，同时，交互控制单元还能够基于配置信息对第二语音数据进行处理，并输出响应。

关于智能音箱进行语音交互过程的具体描述，可参考前文及下文关于图3的相关描述，此处不再进行赘述。

应当指出，在根据本发明的另一些实施方式中，服务器120也可以实现为通过网络与客户端110相连的其他电子设备(如，同处于一个物联网环境中的其他计算设备)。甚至，当客户端110具有足够的存储空间和算力的条件下，服务器120也可以实现为客户端110本身。

根据本发明的实施方式，客户端110和服务器120均可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的示意图。

如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然，计算设备200也可以实现为小尺寸便携(或者移动)电子设备的一部分。在根据本发明的实施例中，计算设备200被配置为执行根据本发明的语音交互方法。计算设备200的应用222中包含执行根据本发明的语音交互方法300的多条程序指令。

图3示出了根据本发明一个实施例的语音交互方法300的交互流程图。该交互方法300适于在上述系统100中执行。需要说明的是，为使下述说明更清楚，此处将用户输入的语音数据(或语音指令)区分为，第三语音数据(用于唤醒客户端110的语音数据，一般包含预定对象/唤醒词)、第一语音数据(在客户端110被唤醒后，用户输入的包含一般指令的语音数据)、第二语音数据(在确认交互场景后，用户输入的语音数据，一般会包含目标数据)。但应当理解，它们都是用户输入的语音数据，本发明不受限于此。

如图3所示，方法300始于步骤S301。

在步骤S301中，客户端110接收用户输入的第三语音数据，并检测其中是否包含预定对象(预定对象例如是预定的唤醒词)，若包含预定对象则进入交互状态。

在根据本发明的实施例中，第三语音数据一般用于唤醒客户端110，使其处于交互状态。需要说明的是，预定对象可以在客户端110出厂时预先设置，也可以由用户在使用客户端110的过程中自行设置，本发明对预定对象的长短、内容均不做限制。

在一种实施例中，客户端110在检测到第三语音数据中包含预定对象时，以播放语音的方式响应用户，例如，客户端110播放语音——“你好，请讲”，以此来告知用户，客户端110已处于交互状态，可以开始语音交互。

随后在步骤S302中，客户端110接收用户输入的第一语音数据，并且响应于用户输入，获取客户端110在当前时刻的状态数据。

客户端110的状态数据可以包括任意可以得到的客户端110上的信息。在一些实施例中，客户端110的状态数据包括下列信息中的一个或多个：客户端的进程数据、客户端的应用列表、客户端上应用使用历史数据、关联于该客户端的用户个人数据、从客户端的至少一个传感器上获得的数据(如客户端的位置信息、环境信息等)、客户端显示界面中的文本数据，但不限于此。

随后在步骤S303中，客户端110将来自用户的第一语音数据与本地的状态数据，一并发送给服务器120。

随后，在步骤S304中，服务器120根据所接收到的状态数据对第一语音数据进行识别处理。

在根据本发明的实施例中，服务器120对第一语音数据的识别处理可以分为两部分。

首先，服务器120通过ASR(Automatic Speech Recognition)语音识别技术对第一语音数据进行识别。服务器120可以先将第一语音数据表示为文本数据，再对文本数据进行分词处理，得到第一语音数据的文本表示(应当指出，也可以采用其他方式来表示语音数据，本发明的实施例并不限于文本表示)。典型的ASR语音识别方法例如可以是：基于声道模型和语音知识的方法、模板匹配的方法、以及利用神经网络的方法等，本发明的实施例对采用何种ASR方法进行语音识别处理并不做过多限制，任何已知的或未来可知的此类算法均可以与本发明的实施例相结合，以实现本发明的方法300。

需要说明的是，服务器120在通过ASR技术进行识别时，还可以包括对第一语音数据的一些预处理操作，如：采样、量化、去除不包含语音内容的语音数据(如，静默的语音数据)、对语音数据进行分帧、加窗等处理，等等。本发明的实施例在此处不做过多展开。

然后，服务器120再结合状态数据对文本表示进行处理，以理解用户意图，最终得到用户意图的表示。在一些实施例中，服务器120可以采用NLP(Natural LanguageProcessing)自然语言处理方法来对用户输入的第一语音数据进行理解，最终识别出用户的意图，用户的意图往往对应着实际的操作，如播放音乐、查看通讯录等。在另一些实施例中，服务器120还可以进一步确定用户意图的参数，如具体播放哪首歌或哪位歌手的歌曲，等等。本发明的实施例对采用何种NLP算法来理解用户意图并不做过多限制，任何已知的或未来可知的此类算法均可以与本发明的实施例相结合，以实现本发明的方法300。

在根据本发明的实施例中，服务器120通过分析用户意图，确定当前的交互场景。交互场景表征的是客户端110当前或(按照用户输入)即将处于的交互场景。交互场景例如可以是通话场景、短消息场景、音乐场景、视频场景、浏览资讯场景等等。

在根据本发明的实施例中，服务器120在对第一语音数据进行上述识别后，生成响应指令。

一方面，响应指令包含了对用户意图的响应、及具体的执行参数。例如，用户输入的第一语音数据为——“我要听歌”，服务器120生成的响应指令中就包含了播放指令。同时，响应指令中还可以包含相应的文本数据，用以回复用户输入的语音数据。例如，响应指令中包含“好的，即将为您播放”的文本数据。除此之外，响应指令中还可以包含播放指令的执行参数，如播放列表、播放歌曲的封面、下载地址等等，不限于此。

另一方面，响应指令还包含了交互场景。例如，服务器120通过处理分析得到，“我要听歌”对应的交互场景是“音乐场景”，那么，服务器120生成的响应指令中除上述参数外，还包含“音乐场景”。

随后，在步骤S305中，服务器120返回上述响应指令给客户端110。

之后在步骤S306中，客户端110一方面基于所接收到的响应指令中的交互场景，获取配置信息。

如前文所述，客户端110上预先设置有各交互场景下的配置信息。其中，配置信息中包含至少一条用于在该交互场景下使用的目标数据。关于配置信息的具体描述可参考前文图1的相关描述，此处不再赘述。

另一方面，客户端110根据该响应指令中的相关指令和执行参数，输出响应给用户。例如，客户端110通过TTS技术将响应指令中包含的文本数据转换为语音数据，通过语音回复用户——“好的，即将为您播放”；同时，客户端110执行播放指令，为用户播放歌曲。在又一些实施例中，客户端110还可以根据执行参数下载相应的歌曲、封面等，此处不再一一赘述。

接下来，在步骤S307中，客户端110接收用户输入的第二语音数据，并判断用户输入的第二语音数据与配置信息中的目标数据是否匹配。

根据本发明的实施例，若第二语音数据与配置信息中的至少一条目标数据相匹配，则直接进入交互状态。即，用户不用再次输入预定对象，即可唤醒客户端110。接上例，在音乐场景下，用户输入第二语音数据——“下一首”，客户端110经判断后确认该第二语音数据与音乐场景下的目标数据相匹配，则直接进入交互状态。

需要说明的是，关于采用何种方法来判断第二语音数据和目标数据是否匹配，本发明的实施例并不做过多地限制。例如，本领域技术人员可以通过任意一种方式来计算第二语音数据和目标数据的匹配度，当匹配度高于预设值时，就判定二者相匹配。

客户端110在交互状态下，同步骤S302所描述的，获取当前时刻的状态数据。此处不再赘述。

随后在步骤S308中，客户端110将第二语音数据与状态数据发送给服务器120。

接下来，在步骤S309中，服务器120根据所接收到的状态数据对对应的第二语音数据进行识别。在根据本发明的实施例中，对第二语音数据的处理与对第一语音数据的处理过程完全一致，故关于识别的具体内容，可参考步骤S304的相关描述，此处不再进行赘述。

随后，在步骤S310中，服务器120返回响应指令给客户端110。由客户端110根据该响应指令输出响应给用户。

之后，只要用户输入的第二语音数据与配置信息中的目标数据相匹配，即，一直处于当前的交互场景中，则重复步骤S307～步骤S310的过程。

根据一些实施方式，方法300中还可能包含切换交互场景的情形。

在步骤S311中，响应于用户切换交互场景的请求，客户端110转发该请求给服务器120。

在根据本发明的实施例中，用户切换交互场景的请求可以由如下两种方式来触发。

在一种实施例中，用户重新发送包含预定对象的第三语音数据给客户端110。此时，客户端110检测到预定对象，则判定用户要切换交互场景。例如，在音乐场景下，用户输入——“小精灵，帮我查一下当前天气”，即触发切换交互场景的请求。

在另一种实施例中，用户切换客户端110的显示界面，使客户端110跳转到其他应用或业务。例如在视频场景下，客户端110的显示界面是视频播放界面，当用户切换显示界面到图片拍摄的显示界面时，就触发了切换交互场景的请求。

在随后的步骤S312中，服务器120确认待切换的交互场景，并在随后的步骤S313中，返回响应指令。

服务器120可以根据用户输入的第三语音数据，来分析用户想切换的交互场景。例如，用户输入——“小精灵，帮我查一下当前天气”，服务器120可以据此分析出待切换的交互场景为天气查询场景。

另外，响应于切换交互场景的请求，客户端110同样会采集当前时刻的状态数据，并与该请求一起，发送给服务器120。这样，服务器120就可以利用状态数据来进行场景分析，以确认待切换的交互场景。例如，当客户端110的显示界面由视频播放界面切换到图片拍摄界面时，服务器120可以分析出待切换的交互场景是图片拍摄场景。

当然，服务器120还可以结合状态数据和用户输入的第三语音数据来进行场景分析，以确认待切换的交互场景。关于本部分的具体内容可参考前文步骤S304中的相关描述，此处不做赘述。

在确认出待切换的交互场景后，服务器120生成相应的响应指令给客户端110，由其输出响应给用户。例如，切换到用户期望打开的应用。响应指令的相关描述可参见前文描述，此处不再展开。

同时，在步骤S314中，客户端110判断是否关闭切换前的交互场景。

根据本发明的实施方式，客户端110通过状态数据来判断是否关闭切换前的交互场景。客户端110获取正在执行的进程数据来进行判断：若正在执行的进程数据中不包含切换前的交互场景所对应的进程数据，则说明上一个进程已经被关闭，故关闭切换前的交互场景；若正在执行的进程数据中还包含切换前的交互场景所对应的进程数据，则说明上一个进程还在执行中，故不关闭切换前的交互场景。

接着，在经判断确认关闭切换前的交互场景时，基于切换后的交互场景得到配置信息。在经判断确认不关闭切换前的交互场景时，基于切换前的交互场景和切换后的交互场景得到配置信息。即，在保有原先的配置信息的同时，获取切换后的交互场景对应的配置信息。关于获取配置信息的内容可参考前文步骤S306的相关描述，此处不再赘述。

在实际的应用场景中，用户常常一边听音乐，一边浏览资讯、聊天等。设想一种场景，用户正在通过音频播放类应用播放歌曲(即，客户端110处于音乐场景)，此时，用户输入第三语音数据——“小精灵，我要看最新的新闻”，客户端110根据响应指令打开客户端110上的某个新闻类应用。此时，客户端110的显示界面就跳转到了该新闻类应用，但是音频播放类应用依然可以在后台播放歌曲。客户端110通过收集状态数据来进行判断分析，最终确认不用关闭切换前的交互场景(即，音乐场景)，从而基于切换前的交互场景和切换后的交互场景(即，浏览资讯场景)得到配置信息。即，保留客户端110上当前正在使用的音乐场景下的配置信息，再获取浏览资讯场景下的配置信息。之后，用户可以同时使用这两套配置信息中的目标数据来与客户端110进行语音交互。

基于上述描述，通过本发明的语音交互方案，客户端结合本地状态、用户习惯等信息，为不同的交互场景预先设置不同的配置信息，以支持在各交互场景下，快捷唤醒客户端，即能直接响应用户无唤醒词(即，预定对象)的语音指令。

根据本发明的语音交互方法300，客户端110在接收到用户输入的第一语音数据时，将第一语音数据转发给服务器120，由服务器120确认交互场景；而后客户端110根据交互场景获取配置信息，在该交互场景下，只要用户输入的语音数据与配置信息中的目标数据相匹配，则直接唤醒客户端110，进行语音交互。相比于现有的语音交互方案，本方案具有响应快、成本低等优势。另外，服务器120基于客户端110上的状态数据进行场景分析，将对语音数据的识别与客户端110的当前状态、交互场景紧密结合，能够显著提升识别的准确率。

方法300的执行涉及到系统100中的各个部件，为此，在图4中示出了根据本发明另一个实施例的语音交互方法400的流程示意图。图4所示的方法500适于在客户端110中执行，是图3所示方法的进一步说明。

如图4所示，方法400包括步骤S410，将用户输入的第一语音数据发送给服务器120，以便服务器120根据第一语音数据确认交互场景。

需要说明的是，客户端110在接收到用户输入的第一语音数据后，也可以在本地根据用户输入的第一语音数据确定出当前的交互场景。例如，客户端110根据当前的状态数据(如，当前正在使用的应用程序，不限于此)，来确认当前的交互场景。本发明的实施例对此不做限制。

随后在步骤S420中，基于交互场景获取配置信息。随后在步骤S430中，基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应。

除此之外，方法400还包括步骤：预先设置各交互场景下的配置信息。根据本发明的实施方式，配置信息中包含至少一条用于在该交互场景下使用的目标数据。通过这些目标数据，可以直接唤醒客户端进入交互状态。配置信息中的目标数据可以结合客户端本身的状态、用户的输入偏好等来设置；可以在出厂时预先设置，也可以由用户在使用客户端110的过程中自行设置，本发明的实施例对此不做限制。

当然，在接收来自客户端110的第一语音数据之前，还包括根据用户输入的第三语音数据将客户端110由休眠状态切换到交互状态的过程。以及，在交互状态下，响应于用户切换交互场景的请求，重新加载配置信息的步骤。关于整个语音交互流程的描述，可参考前文方法300中的具体阐述，篇幅所限，此处不做赘述。

为配合图3～图4的相关描述进一步说明客户端110，图5示出了根据本发明一个实施例的驻留在客户端110中的语音数据识别装置500的示意图。

如图5所示，除基本的配置外，语音交互装置500至少包括：信息存储单元510、连接管理单元520、信息获取单元530、数据处理单元540。

根据一种实施方式，信息存储单元510预先存储各交互场景下的配置信息，其中，配置信息中包含至少一条用于在该交互场景下使用的目标数据。连接管理单元520用于实现语音交互装置500的各种输入/输出操作，例如，接收用户输入的第一语音数据并发送给服务器120，以便服务器120根据第一语音数据确认交互场景。信息获取单元530基于交互场景获取配置信息。数据处理单元540基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应。

在一些实施例中，数据处理单元540还包括判断模块542，适于判断用户输入的第二语音数据与配置信息中的目标数据是否匹配。在第二语音数据与目标数据相匹配时，信息获取单元530获取当前时刻的状态数据。连接管理单元520将第二语音数据与状态数据发送给服务器120，并接收该服务器120根据状态数据对第二语音数据进行识别处理后返回的响应指令。最后，连接管理单元520还会根据该响应指令输出响应给用户。

当然，连接管理单元520还用于接收用户输入的第三语音数据。

语音交互装置500除了上述各部分外，还包括检测单元(未示出)。检测单元检测用户输入的第三语音数据中是否包含预定对象，客户端110在第三语音数据包含预定对象时进入交互状态。

在又一些实施例中，连接管理单元520还可以响应用户切换交互场景的请求，转发请求给服务器120，以便服务器120确认待切换的交互场景。进一步地，信息获取单元530还包括判决模块532，该判决模块532用于判断是否关闭切换前的交互场景。若经判断后确认要关闭切换前的交互场景，则信息获取单元530基于切换后的交互场景得到配置信息；若经判断后确认不关闭切换前的交互场景，则信息获取单元530基于切换前的交互场景和切换后的交互场景得到配置信息。

关于语音交互装置500中各部分所执行操作的具体描述可参见前文关于图1、图3、图4的相关内容，此处不再赘述。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种语音交互方法，包括步骤：

将用户输入的第一语音数据发送给服务器，以便所述服务器根据所述第一语音数据确认交互场景；

基于所述交互场景获取配置信息；以及

基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应；

还包括步骤：响应于用户切换交互场景的请求，转发所述请求至服务器，以便服务器确认待切换的交互场景；以及，判断是否关闭切换前的交互场景，其中，若关闭切换前的交互场景，则基于切换后的交互场景得到配置信息，反之则基于切换前的交互场景和切换后的交互场景得到配置信息。

2.如权利要求1所述的方法，还包括步骤：

预先设置各交互场景下的配置信息，

其中，所述配置信息中包含至少一条用于在该交互场景下使用的目标数据。

3.如权利要求2所述的方法，其中，所述基于配置信息对用户输入的第二语音数据进行处理并输出响应的步骤包括：

判断用户输入的第二语音数据与所述配置信息中的目标数据是否匹配；

若匹配则获取当前时刻的状态数据；

将所述第二语音数据与状态数据发送给所述服务器，以便所述服务器根据状态数据对所述第二语音数据进行识别处理并返回响应指令；以及

根据所述响应指令输出响应给用户。

4.如权利要求1-3中任一项所述的方法，其中，在所述将用户输入的第一语音数据发送给服务器，以便服务器根据所述第一语音数据确认交互场景的步骤之前，还包括接收用户输入的第三语音数据的步骤：

检测用户输入的第三语音数据中是否包含预定对象；以及

若所述第三语音数据中包含预定对象，则进入交互状态。

5.如权利要求1-3中任一项所述的方法，其中，所述将用户输入的第一语音数据发送给服务器，以便服务器根据所述第一语音数据确认交互场景的步骤包括：

响应于用户输入第一语音数据，获取当前时刻的状态数据；以及

将所述第一语音数据与状态数据发送给服务器，以便服务器根据状态数据对所述第一语音数据进行识别处理并返回响应指令，

其中所述响应指令中还包括交互场景。

6.如权利要求5所述的方法，其中，所述基于交互场景获取配置信息的步骤还包括：

根据所述响应指令输出响应给用户。

7.如权利要求4所述的方法，其中，所述将用户输入的第一语音数据发送给服务器，以便服务器根据所述第一语音数据确认交互场景的步骤包括：

其中所述响应指令中还包括交互场景。

8.如权利要求7所述的方法，其中，所述基于交互场景获取配置信息的步骤还包括：

根据所述响应指令输出响应给用户。

9.一种语音交互方法，包括步骤：

根据用户输入的第一语音数据确定交互场景；

基于所述交互场景获取配置信息；以及

还包括步骤：响应于用户切换交互场景的请求，确认待切换的交互场景；以及，判断是否关闭切换前的交互场景，其中，若关闭切换前的交互场景，则基于切换后的交互场景得到配置信息，反之则基于切换前的交互场景和切换后的交互场景得到配置信息。

10.一种语音交互装置，包括：

连接管理单元，适于接收用户输入的第一语音数据并发送给服务器，以便所述服务器根据所述第一语音数据确认交互场景；

信息获取单元，适于基于所述交互场景获取配置信息；以及

数据处理单元，适于基于所获取的配置信息对用户输入的第二语音数据进行处理并输出响应；

其中，所述连接管理单元还适于响应用户切换交互场景的请求，转发所述请求至服务器，以便服务器确认待切换的交互场景；所述信息获取单元包括判决模块，所述判决模块适于判断是否关闭切换前的交互场景，其中，若关闭切换前的交互场景，则所述信息获取单元基于切换后的交互场景得到配置信息，反之则所述信息获取单元基于切换前的交互场景和切换后的交互场景得到配置信息。

11.如权利要求10所述的装置，还包括：

信息存储单元，适于预先存储各交互场景下的配置信息，其中，所述配置信息中包含至少一条用于在该交互场景下使用的目标数据。

12.一种语音交互系统，包括：

客户端，包括如权利要求10或11所述的语音交互装置；以及

服务器，适于接收来自客户端的语音数据和状态数据，并基于状态数据和语音数据，确定所述客户端的交互场景。

13.如权利要求12所述的系统，其中，

所述服务器还适于根据状态数据对语音数据进行识别处理、返回响应指令给客户端。

14.如权利要求12或13所述的系统，其中，所述客户端是智能音箱。

15.一种智能音箱，包括：

接口单元，适于接收用户输入的第一语音数据；

交互控制单元，适于根据用户输入的第一语音数据确定交互场景，并基于所述交互场景获取配置信息，所述交互控制单元还适于基于所述配置信息对第二语音数据进行处理，并输出响应；

以及，所述交互控制单元还适于：响应于用户切换交互场景的请求，确认待切换的交互场景；以及，判断是否关闭切换前的交互场景，其中，若关闭切换前的交互场景，则基于切换后的交互场景得到配置信息，反之则基于切换前的交互场景和切换后的交互场景得到配置信息。

16.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。

17.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述的方法。