CN111383631A

CN111383631A - 一种语音交互方法、装置及系统

Info

Publication number: CN111383631A
Application number: CN201811512518.8A
Authority: CN
Inventors: 姜迪建; 袁英灿; 祝俊; 徐贤仲; 王德淼; 孟伟; 吴逸超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2020-07-07
Anticipated expiration: 2038-12-11
Also published as: TW202025139A; WO2020119569A1; CN111383631B

Abstract

本发明公开了一种语音交互方法、装置及系统。其中，语音交互方法包括步骤：获取语音指令和显示页面上的至少一个对象；根据所获取的对象对语音指令进行识别，以得到识别结果；基于至少一个预设语料，从所获取的对象中为识别结果匹配到一个目标对象；以及基于目标对象生成响应指令。本发明一并公开了相应的计算设备。

Description

一种语音交互方法、装置及系统

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音交互方法、装置及系统。

背景技术

过去十几年来，互联网在人们生活的各个领域不断深化，人们可以通过互联网方便地进行购物、社交、娱乐、理财等活动。同时，为提高用户体验，研究人员实现了很多交互方案，如文字输入、手势输入、语音输入等。其中，智能语音交互由于其操作的便捷性而成为新一代交互模式的研究热点。

当前，随着物联网及智能化的快速发展，市场上出现了一些智能语音设备，例如智能音箱、包含智能交互模块的各种智能电子设备(如移动设备、智能电视、智能冰箱等)。在一些使用场景中，智能语音设备可以通过语音识别技术来识别用户输入的语音数据，进而为用户提供个性化服务。但现有技术中，语音交互尚存在一些局限，例如，用户输入的交互指令要有固定的模板，又如，无法准确地识别含义歧义的语音指令(如语音指令中出现各种同音字、近音字)，等等，这些势必会影响用户的交互体验。

因此，需要一种优化的语音交互方案，以提升用户体验。

发明内容

为此，本发明提供了一种语音交互方法、装置及系统，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种语音交互方法，包括步骤：获取语音指令和显示页面上的至少一个对象；根据所获取的对象对语音指令进行识别，以得到识别结果；基于至少一个预设语料，从至少一个对象中为识别结果匹配到一个目标对象；以及基于目标对象生成响应指令。

可选地，在根据本发明的方法中，预设语料与显示页面相关联。

可选地，在根据本发明的方法中，基于至少一个预设语料，从至少一个对象中为识别文本匹配到一个目标对象的步骤包括：利用预设语料与至少一个对象生成至少一条候选结果；将各候选结果与识别结果分别进行匹配处理；以及若候选结果与识别结果中有连续的预定数目个字匹配一致，则确认生成该候选结果的对象为目标对象。

可选地，在根据本发明的方法中，获取语音指令和显示页面上的至少一个对象的步骤还包括：获取显示页面的属性信息。

可选地，根据本发明的方法还包括步骤：基于显示页面的属性信息，判断语音指令是否可信；若语音指令可信，则基于预设语料，从至少一个对象中为该识别结果匹配到一个目标对象。

可选地，在根据本发明的方法中，基于显示页面的属性信息，判断语音指令是否可信的步骤包括：根据显示页面的属性信息判断显示页面是否安全；若确认显示页面安全，则判断是否存在显示页面的页面标识；以及若存在显示页面的页面标识，则确认语音指令可信。

可选地，根据本发明的方法还包括步骤：根据显示页面上的至少一个对象生成语音识别模型。

可选地，在根据本发明的方法中，根据所获取的对象对语音指令进行识别，以得到识别结果的步骤还包括：利用语音识别模型对语音指令进行识别，以得到识别结果。

可选地，根据本发明的方法还包括步骤：若经判断确认语音指令不可信，则从至少一个对象中为识别结果匹配到一个目标对象。

根据本发明的另一个方面，提供了一种语音交互方法，包括步骤：获取语音指令和显示页面上的至少一个对象；基于至少一个预设语料，从所获取的对象中为该语音指令匹配到一个目标对象；以及基于目标对象生成响应指令。

根据本发明的另一个方面，提供了一种语音交互方法，包括步骤：获取来自客户端的语音指令和页面信息；根据页面信息对语音指令进行识别，以得到识别结果；基于至少一个预设语料和页面信息，对识别结果进行处理，以确定目标对象；以及根据目标对象生成响应指令，并返回给客户端。

可选地，在根据本发明的方法中，页面信息被配置为在客户端接收到用户输入的语音指令时被获取，且页面信息包含客户端上显示页面的属性信息及显示页面的至少一个被显示对象；另外，页面信息还被配置为在客户端检测到显示页面被切换时被获取，且页面信息还包含客户端上显示页面的至少一个对象。

根据本发明的又一方面，提供了一种语音交互装置，包括：连接管理单元，适于获取语音指令和显示页面上的至少一个对象；第一处理单元，适于根据所获取的对象对语音指令进行识别，以得到识别结果；第二处理单元，适于基于至少一个预设语料，从至少一个对象中为识别结果匹配到一个目标对象，还适于基于目标对象生成响应指令。

可选地，在根据本发明的装置中，第二处理单元包括：生成模块，适于利用预设语料与至少一个对象生成至少一条候选结果；匹配模块，适于将各候选结果与识别结果分别进行匹配处理，以及，在候选结果与识别结果中有连续的预定数目个字匹配一致时，确认生成该候选结果的对象为目标对象。

根据本发明的再一个方面，提供了一种语音交互系统，包括：客户端，适于接收用户的语音指令；以及服务器，包括如上所述的语音交互装置，适于对来自客户端的语音指令进行处理，以返回响应指令给该客户端。

可选地，在根据本发明的系统中，客户端是智能音箱。

根据本发明的又一方面，提供了一种智能音箱，包括：接口单元，适于获取语音指令和显示页面上的至少一个对象；处理单元，适于基于至少一个预设语料，从所获取的对象中为语音指令匹配到一个目标对象，并基于目标对象生成响应指令。

根据本发明的再一个方面，提供了一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上所述任一方法的指令。

根据本发明的再一个方面，提供了一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上所述的任一方法。

根据本发明的语音交互方案，用户在浏览网页时，可以直接将从显示页面上看到的感兴趣内容，通过语音“告诉”客户端。由其根据显示页面的页面信息对用户的语音指令进行处理，最终从显示页面中确定用户的目标对象，进而输出响应给用户。为用户提供了一种所见即可说的交互体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一些实施例的语音交互系统100的场景示意图；

图2示出了根据本发明一些实施例的计算设备200的示意图；

图3示出了根据本发明一些实施例的语音交互方法300的流程图；

图4示出了根据本发明另一些实施例的语音交互方法400的流程图；以及

图5示出了根据本发明一些实施例的语音交互装置500的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一些实施例的语音交互系统100的场景示意图。如图1所示，系统100中包括客户端110和服务器120。应当指出，图1所示的系统100仅作为一个示例，本领域技术人员可以理解，在实际应用中，系统100通常包括多个客户端110和服务器120，本发明对系统100中所包括的客户端110和服务器120的数量不做限制。

客户端110为具有语音交互模块的设备，其可以接收用户发出的语音指令，以及向用户返回相应的响应，该响应中可以包含语音或非语音的信息。一个典型的语音交互模块包括麦克风等语音输入单元、扬声器等语音输出单元以及处理器。语音交互模块可以内置在客户端110中，也可以作为一个独立的模块与客户端110配合使用(例如经由API或通过其它方式与客户端110进行通信，调用客户端110上的功能或应用接口的服务)，本发明的实施例对此不做限制。此外，客户端110上还布置有支持显示输出的模块(如触摸显示屏、投影模块，不限于此)，用于向用户展示信息，以及，接收用户的触摸输入。

客户端110例如可以是具有语音交互模块的移动设备、智能音箱、智能机器人、智能家电(包括智能电视、智能冰箱、智能微波炉等)等，但不限于此。客户端110的一个应用场景为家用场景，即，客户端110放置于用户家中，用户可以向客户端110发出语音指令以实现某些功能，例如上网、点播歌曲、购物、了解天气预报、对家中的其他智能家居设备进行控制，等等。在一些优选的实施例中，用户还可以通过客户端110上的触摸显示屏来浏览信息，当用户看到某个感兴趣内容时，通过语音指令来控制客户端110，实现交互。

服务器120与客户端110通过网络进行通信，其例如可以是物理上位于一个或多个地点的云服务器。服务器120中包含语音交互装置500，用于为客户端110上接收的语音指令提供识别服务，以得到用户输入的语音指令的文本表示(当然，本发明实施例并不限于用文本表示语音指令)，以及，在基于文本表示得到用户意图的表示后，生成响应指令并返回给客户端110。

根据本发明的实施方式，服务器120上预存了各种场景下用户可能输入的语音指令，作为预设语料。例如，在播放视频的场景下，用户可能会输入——“我要看***”、“我要***”、“请播放***”等语音指令。又如，在健身的场景下，用户可能会输入——“我要练***”、“请为我搜索***”、“设置时间***”等语音指令。更具体地，在购物场景中，在商品列表页面、商品详情页面、商品下单页面等显示页面上，用户可能会输入各种不同的语音指令。例如在商品列表页面，用户可能会输入——“搜索***(***可以是店铺、也可以是商品名称)”，在商品下单页面，用户可能会输入——“购买***(***可以是商品尺寸、数量等)”。鉴于此，服务器120通过显示页面来区分不同的预设语料，将这些语音指令分别作为不同显示页面下对应的预设语料进行缓存，以构成与各显示页面相关联的预设语料集。预设语料可以看作是在当前的显示页面下，对用户意图的表示。

客户端110在监测到满足预设的触发条件时(触发条件例如是当前的显示页面被切换、用户输入包含预设词的语音指令，不限于此)，获取显示页面的页面信息，并连同用户的语音指令一并传送至与其相连的服务器120。其中，页面信息包含页面上至少一个对象及页面的属性信息，例如页面所属应用的应用包名、页面标识等。

服务器120根据所获取的对象、预设语料集等对该语音指令进行识别，得到识别结果。而后，服务器120根据识别结果，从所获取的对象中匹配出目标对象，并基于目标对象生成响应指令，返回给客户端110。

以下以客户端110被实现为智能音箱为例，概括说明根据本发明实施例的语音交互方案。

除基本的配置外，根据本发明一个实施例的智能音箱还包括：接口单元和控制单元。其中，接口单元获取用户输入的语音指令和显示页面上的至少一个对象；控制单元获取通过至少一个预设语料，从这些对象中为该语音指令匹配到的目标对象，并基于该目标对象生成响应指令。

在一些实施例中，接口单元可以将所获取的语音指令和显示页面上的对象传送给服务器120，以便服务器120基于至少一个预设语料，从这些对象中为该语音指令匹配到一个目标对象(关于匹配到目标对象的过程，可参见下文方法300中步骤S320和步骤S350的相关描述)。而后，控制单元再基于该目标对象生成响应指令给用户。当然，也可以由服务器120基于目标对象生成响应指令给智能音箱，由智能音箱直接输出响应给用户。本发明的实施例对此不做过多限制。

应当指出，在根据本发明的另一些实施方式中，服务器120也可以实现为通过网络与客户端110相连的其他电子设备(如，同处于一个物联网环境中的其他计算设备)。甚至，当客户端110具有足够的存储空间和算力的条件下，服务器120也可以实现为客户端110本身。

根据本发明的实施方式，客户端110和服务器120均可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的示意图。

如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然，计算设备200也可以实现为小尺寸便携(或者移动)电子设备的一部分。

在根据本发明的实施例中，计算设备200被配置为执行根据本发明的语音交互方法。计算设备200的程序数据224中包含执行根据本发明的交互方法的多条程序指令。

图3示出了根据本发明一些实施例的语音交互方法300的流程图。该交互方法300适于在系统100的服务器120中执行。如图3所示，方法300始于步骤S310。

在步骤S310中，获取语音指令和显示页面上的至少一个对象。在根据本发明的一些实施例中，语音指令和显示页面上的至少一个对象可以是从客户端110上获取的。

在一种实施场景中，客户端110在检测到当前的显示页面被切换时，获取切换后所显示的页面的信息。一般地，所获取的页面信息包括该显示页面上的至少一个对象。应当理解，当显示页面较大时，当前显示屏幕并不能完全展示该显示页面，可能需要通过上下滑动、左右滑动等方式来显示页面上的信息。也就是说，显示页面上的对象，有一些在当前显示屏上被显示了，有一些在当前显示屏上尚未被显示。在根据本发明的实施例中，当检测到显示页面被切换时，所获取的对象既包括已经在当前显示屏幕上显示的对象，还包括尚未在当前显示屏幕上显示出来的对象。

而后，客户端110将上述对象传送给服务器120，由服务器120根据显示页面上的这些对象，来生成语音识别模型。该语音识别模型主要是为了解决当显示页面上的对象与其他对象有歧义时，优先识别为显示页面上的对象。例如，显示页面上有一个对象——“笑话大全”，用户输入语音——“我想看笑话”，有可能会被理解为——“我想看校花”，此时，通过该语音识别模型就可以将其优先识别为显示页面上的对象，即“我想看笑话”，更符合用户意图。

在一种实施例中，服务器120可以利用神经网络的方法来生成语音识别模型。应当指出，本发明的实施例对具体采用何种算法来生成语音识别模型并不做过多限制。

同时，客户端110在接收到用户输入的语音指令时，获取当前显示页面的页面信息。通常在客户端110中，语音交互模块的麦克风持续接收外部声音，当用户要使用客户端110进行语音交互时，需要先说出相应的唤醒词来唤醒客户端110。客户端110只有在收到包含相应唤醒词的语音指令时，才被触发获取当前显示页面的页面信息。唤醒词可以在客户端110出厂时预先设置，也可以由用户在使用客户端110的过程中自行设置，本发明对唤醒词的长短、内容均不做限制。

另外，所获取的页面信息包括该显示页面上，至少一个被显示的对象。而后，客户端110将所获取的对象和语音指令传送给服务器120。在一些优选的实施例中，客户端110还会将该显示页面的属性信息一并传送给服务器120。应当指出，服务器120亦可以在获取到显示页面的对象和语音指令后，再从客户端110上获取该显示页面的属性信息。本发明的实施例对此不做限制。其中，属性信息例如是显示页面所属应用的应用包名、页面标识，但不限于此。

综上，服务器120所获取的显示页面上的对象包含两部分：一部分是在发生切换显示页面的操作时，获取的显示页面上已经被显示的和尚未显示的对象；另一部分是在接收到用户的唤醒语音指令时，获取的显示页面上正在显示的对象。

在获取到上述各种对象后，在步骤S320中，根据所获取的对象对语音指令进行识别，以得到识别结果。

通常，服务器120通过ASR(Automatic Speech Recognition)技术对语音指令进行识别，服务器120可以先将语音指令表示为文本数据，再对文本数据进行分词处理，得到识别文本，作为识别结果。典型的语音识别方法例如可以是：基于声道模型和语音知识的方法、模板匹配的方法以及利用神经网络的方法等，本发明的实施例对采用何种ASR技术进行语音识别并不做过多限制。另外，服务器120在通过ASR技术进行识别时，还可以包括对语音指令的一些预处理操作，如：采样、量化、去除不包含语音内容的语音数据(如，静默的语音数据)、对语音数据进行分帧、加窗等处理，等等。本发明的实施例在此处不做过多展开。

在根据本发明的实施例中，服务器120为显示页面生成了相应的语音识别模型。故，在识别语音指令时，服务器120利用该语音识别模型，对用户输入的语音指令进行识别，以得到优化的识别结果。如前文所述，该语音识别模型可以在语音指令中包含有歧义的对象时，将其优先识别为显示页面上的对象。例如，用户输入语音指令——“我喜欢大山”，对于一些用户，“大三”和“大山”的发音是一样的，都是“da san”，此时，服务器120就可以利用语音识别模型来决策，识别结果应该是在显示页面上已存在的对象：“大山”。

在一些优选的实施例中，语音识别模型可以优先从显示页面上已显示的对象中进行匹配，当在已显示的对象中匹配不到合适的对象时，再从显示页面上尚未显示的对象中进行匹配，最终生成识别结果。当然，本发明的实施例不限于此，也可以通过设置匹配度值来筛选出最匹配的对象。

根据本发明的实施例，为避免不信任的页面恶意伪造页面对象，干扰用户正常的语音会话，故在基于识别结果理解用户意图之前，会先执行步骤S330，基于所获取的显示页面的属性信息，判断语音指令是否可信。

根据本发明的一种实施例，采用如下方式来判断语音指令是否可信。

(1)根据显示页面的属性信息判断显示页面是否安全。例如，用所获取的显示页面的应用包名，与服务器120中预存的应用包名进行比对，以此来判断该显示页面是否安全。

(2)若确认显示页面安全，则判断服务器120中是否存在显示页面的页面标识。

(3)若存在显示页面的页面标识，则确认语音指令可信。

在经判断确认该语音指令不可信时(例如，在新闻资讯的显示页面上，出现了被篡改的商品展示信息)，执行步骤S340，按照通用的语义理解方法，得到识别结果的用户意图表示，并从所获取的对象中为识别结果匹配出一个目标对象，作为意图的参数。本发明的实施例对采用何种语义理解方法并不做过多限制。

在经判断确认该语音指令可信时，执行步骤S350，基于至少一个预设语料，从至少一个对象中为识别结果匹配到一个目标对象。在根据本发明的实施例中，预设语料与显示页面相关联，例如，在服务器120中，关联存储各显示页面的页面标识与至少一条预设语料。预设语料是该显示页面下，用户可能输入的意图表示。例如，显示页面是与播放音乐相关的页面，则预设语料可以是：“我要听***”、“请为我播放***”、“上一首”、“下一首”等。

根据一种实施例，步骤S350可以按照如下步骤执行。

第一步，利用预设语料与所获取的对象生成至少一条候选结果。

以播放视频的显示页面为例，如表1示出了显示页面上的部分对象和部分预设语料。需要说明的是，表1所示出的仅作为示例，以便于更好地说明根据本发明实施例的交互方法，本发明实施例不受限于此。

表1显示页面上的对象和预设语料示例(部分)

将给显示页面对应的每条预设语料和每个对象一一对应，就生成了多个候选结果。如表1，可以生成以下候选结果：“我要看三生三世十里桃花”，“我要看天龙八部”，“我要看射雕英雄传”，“我要看鹿鼎记”，“请播放三生三世十里桃花”，…，以此类推。

第二步，将各候选结果与经步骤S320得到的识别结果，分别进行匹配处理。当候选结果与识别结果中有连续的预定数目个字匹配一致，就确认生成该候选结果的对象为目标对象。

在一些优选的实施例中，服务器120通过对识别结果和候选结果的匹配，首先匹配出用户意图(即，播放、暂停、切换)，而后抽取意图的参数，若候选结果中表示意图的参数(即，显示页面上的对象)与识别结果中表示意图的参数，有连续的预定数目个字匹配一致，则确认生成该候选结果的对象为目标对象。

例如，用户在浏览显示页面时，看到“三生三世十里桃花”，但这个对象名称太长了，用户不一定有耐心将其念完，大多数情况下，用户可能只会输入前面的几个字，如，用户输入语音指令——“播放三生三世”。服务器120经处理后得到的识别结果是“播放三生三世”。从识别结果中判断出用户意图是——“播放”，抽取出表示意图的参数是——“三生三世”。接着，遍历显示页面上的对象，可以在有连续的预定数目个字匹配一致时，就确认用户想输入的就是这个对象。预定数目例如取4，这个时候，用户输入的“三生三世”与候选结果中的对象“三生三世十里桃花”相匹配，即，确认“三生三世十里桃花”就是目标对象。

随后，在步骤S360中，基于所确定的目标对象生成响应指令，并返回给客户端110。

根据一种实施例，根据目标对象(“三生三世十里桃花”)生成响应指令，模拟点击事件的效果。客户端110接收到响应指令，点击对象“三生三世十里桃花”对应的位置，进入播放界面，开始播放。

应当指出，服务器120亦可以直接将所确定的目标对象和用户意图返回给客户端110，由客户端根据相应的规则生成响应的操作，如点击操作。本发明的实施例对此不做限制。

根据本发明的语音交互方案，当用户在观看视频、播放音乐、购物、打电话、健身、玩小游戏等时，可以直接将从显示页面上看到的感兴趣内容，通过语音“告诉”客户端110。与客户端110相连的服务器120会根据显示页面的页面信息对用户的语音指令进行处理，最终从显示页面中确定用户的目标对象，进而输出响应给用户。为用户提供了一种新的“所见即可说”的交互体验。

另外，考虑到显示页面上的一些对象名称太长，用户可以只说出连续的几个字，只要显示页面中有包含这几个字的对象，该对象就会被匹配到，作为目标对象。

图4示出了根据本发明另一些实施例的语音交互方法400的流程示意图。方法400适于在服务器120中执行，是对方法300的进一步阐述。如图4所示，方法400始于步骤S410。

在步骤S410中，获取来自客户端110的语音指令和页面信息。

根据一种实施例，页面信息被配置为，在客户端110接收到用户输入的语音指令时被获取，且页面信息包含客户端110上显示页面的属性信息及显示页面的至少一个被显示对象。

通常在客户端110中，语音交互模块的麦克风持续接收外部声音，当用户要使用客户端110进行语音交互时，需要先说出相应的唤醒词来唤醒客户端110。客户端110只有在收到包含相应唤醒词的语音指令时，才被触发获取当前显示页面的页面信息。

另外，所获取的页面信息包括该显示页面上，至少一个被显示的对象、以及显示页面的属性信息。

根据另一种实施例，页面信息还被配置为在客户端110检测到显示页面被切换时被获取，且页面信息还包含客户端110上显示页面的至少一个对象。

客户端110在检测到当前的显示页面被切换时，获取切换后所显示的页面的信息。一般地，所获取的页面信息包括该显示页面上的至少一个对象。

应当理解，当显示页面较大时，当前显示屏幕并不能完全展示该显示页面，可能需要通过上下滑动、左右滑动等方式来显示页面上的信息。也就是说，显示页面上的对象，有一些在当前显示屏上被显示了，有一些在当前显示屏上尚未被显示。在根据本发明的实施例中，当检测到显示页面被切换时，所获取的对象既包括已经在当前显示屏幕上显示的对象，还包括尚未在当前显示屏幕上显示出来的对象。当检测到用户的语音指令时，所获取的对象只包含已经在当前显示屏幕上显示的对象。更多关于获取页面信息的内容可参见前文步骤S310的相关描述，此处不再赘述。

随后在步骤S420中，根据页面信息对语音指令进行识别，以得到识别结果。

在根据本发明的实施例中，服务器120为显示页面生成了相应的语音识别模型。故，在识别语音指令时，服务器120利用该语音识别模型，对用户输入的语音指令进行识别，使得得到的识别结果更贴近显示页面上的信息。

随后，在步骤S430中，基于至少一个预设语料和页面信息，对识别结果进行处理，以确定目标对象。

随后在步骤S440中，根据目标对象生成响应指令，并返回给客户端110。

关于方法400中的具体实施过程可参考前文图1、图3的相关描述，篇幅所限，此处不做赘述。

图5示出了根据本发明一些实施例的语音交互装置500的示意图。语音交互装置500布置在服务器120中，以便服务器120执行方法300或方法400，实现根据本发明实施方式的语音交互方案。

如图5所示，装置500至少包括：连接管理单元510、第一处理单元520和第二处理单元530。

连接管理单元510获取语音指令、和显示页面上的至少一个对象。

第一处理单元520根据所获取的对象对语音指令进行识别，以得到识别结果。

第二处理单元530基于至少一个预设语料，从至少一个对象中为识别结果匹配到一个目标对象。

根据本发明的实施例，第二处理单元530包括：生成模块532和匹配模块534。其中，生成模块532利用预设语料与所获取的至少一个对象生成至少一条候选结果。匹配模块534将各候选结果与识别结果分别进行匹配处理，并且在候选结果与识别结果中有连续的预定数目个字匹配一致时，就确认生成该候选结果的对象为目标对象。

同时，第二处理单元530还可以基于目标对象生成响应指令。

最后经由连接管理单元510，返回响应指令。

关于交互装置500中各部分所执行操作的具体描述可参见前文关于图1、图3的相关内容，此处不再赘述。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种语音交互方法，包括步骤：

获取语音指令和显示页面上的至少一个对象；

根据所获取的对象对所述语音指令进行识别，以得到识别结果；

基于至少一个预设语料，从所述至少一个对象中为所述识别结果匹配到一个目标对象；以及

基于所述目标对象生成响应指令。

2.如权利要求1所述的方法，其中，所述预设语料与所述显示页面相关联。

3.如权利要求1或2所述的方法，其中，所述基于至少一个预设语料，从至少一个对象中为识别文本匹配到一个目标对象的步骤包括：

利用预设语料与所述至少一个对象生成至少一条候选结果；

将各候选结果与所述识别结果分别进行匹配处理；以及

若候选结果与识别结果中有连续的预定数目个字匹配一致，则确认生成该候选结果的对象为目标对象。

4.如权利要求1-3中任一项所述的方法，其中，所述获取语音指令和显示页面上的至少一个对象的步骤还包括：

获取所述显示页面的属性信息。

5.如权利要求4所述的方法，其中，在所述基于至少一个预设语料，从至少一个对象中为所述识别结果匹配到一个目标对象的步骤之前，还包括步骤：

基于所述显示页面的属性信息，判断所述语音指令是否可信；

若所述语音指令可信，则基于预设语料，从至少一个对象中为所述识别结果匹配到一个目标对象。

6.如权利要求5所述的方法，其中，所述基于显示页面的属性信息，判断语音指令是否可信的步骤包括：

根据显示页面的属性信息判断所述显示页面是否安全；

若确认所述显示页面安全，则判断是否存在所述显示页面的页面标识；以及

若存在所述显示页面的页面标识，则确认所述语音指令可信。

7.如权利要求1-6中任一项所述的方法，其中，所述获取语音指令和显示页面上的至少一个对象的步骤，还包括：

根据所述显示页面上的至少一个对象生成语音识别模型。

8.如权利要求7所述的方法，其中，所述根据所获取的对象对所述语音指令进行识别，以得到识别结果的步骤还包括：

利用语音识别模型对所述语音指令进行识别，以得到识别结果。

9.如权利要求5所述的方法，还包括步骤：

若经判断确认所述语音指令不可信，则从所述至少一个对象中为所述识别结果匹配到一个目标对象。

10.一种语音交互方法，包括步骤：

获取语音指令和显示页面上的至少一个对象；

基于至少一个预设语料，从所获取的对象中为所述语音指令匹配到一个目标对象；以及

基于所述目标对象生成响应指令。

11.一种语音交互方法，包括步骤：

获取来自客户端的语音指令和页面信息；

根据所述页面信息对所述语音指令进行识别，以得到识别结果；

基于至少一个预设语料和页面信息，对所述识别结果进行处理，以确定目标对象；以及

根据所述目标对象生成响应指令，并返回给客户端。

12.如权利要求11所述的方法，其中，

所述页面信息被配置为在所述客户端接收到用户输入的语音指令时被获取，且所述页面信息包含所述客户端上显示页面的属性信息及显示页面的至少一个被显示对象。

13.如权利要求12所述的方法，其中，

所述页面信息还被配置为在所述客户端检测到显示页面被切换时被获取，且所述页面信息还包含所述客户端上显示页面的至少一个对象。

14.一种语音交互装置，包括：

连接管理单元，适于获取语音指令和显示页面上被显示的至少一个对象；

第一处理单元，适于根据所获取的对象对所述语音指令进行识别，以得到识别结果；以及

第二处理单元，适于基于至少一个预设语料，从所述至少一个对象中为所述识别结果匹配到一个目标对象，还适于基于所述目标对象生成响应指令。

15.如权利要求14所述的装置，其中，所述第二处理单元包括：

生成模块，适于利用预设语料与所述至少一个对象生成至少一条候选结果；

匹配模块，适于将各候选结果与所述识别结果分别进行匹配处理，以及，在候选结果与识别结果中有连续的预定数目个字匹配一致时，确认生成该候选结果的对象为目标对象。

16.一种语音交互系统，包括：

客户端，适于接收用户的语音指令；以及

服务器，包括如权利要求14或15所述的语音交互装置，适于对来自所述客户端的语音指令进行处理，以返回响应指令给所述客户端。

17.如权利要求16所述的系统，其中，

所述客户端是智能音箱。

18.一种智能音箱，包括：

接口单元，适于获取语音指令和显示页面上的至少一个对象；

控制单元，适于获取通过至少一个预设语料，从所述对象中为所述语音指令匹配到的目标对象，并基于所述目标对象生成响应指令。

19.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-13中任一项所述方法的指令。

20.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-13中任一项所述的方法。