CN108281141A

CN108281141A - 一种用于提供语音响应信息的方法与设备

Info

Publication number: CN108281141A
Application number: CN201711407344.4A
Authority: CN
Inventors: 张伟萌; 戴帅湘
Original assignee: Beijing Moran Cognitive Technology Co Ltd
Current assignee: Hangzhou Suddenly Cognitive Technology Co ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-07-13
Anticipated expiration: 2037-12-22
Also published as: CN108281141B

Abstract

本发明的目的是提供一种用于提供语音响应信息的方法与设备。具体地，获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音；根据所述背景音，确定对应的场景信息；根据所述自然语言命令与所述场景信息，确定对应的语音响应信息；将所述语音响应信息提供给所述用户。与现有技术相比，本发明不仅实现了语音响应信息提供的实时性和精准度，相应地，也提高了用户的信息获取效率，并提升了用户的语音交互体验。

Description

一种用于提供语音响应信息的方法与设备

技术领域

本发明涉及语音交互技术领域，尤其涉及一种用于提供语音响应信息的技术。

背景技术

语音识别技术简单来说就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，其已在家电、汽车电子、消费电子产品等领域斩露头角，极大便利了人们与设备的交互。现有的语音识别技术在语音识别过程中背景音通常作为噪声被过滤掉，未被利用。然而，用户在不同背景音所体现的场景下的需求是不同的，如用户在车载场景下说“去**怎么走”，用户要么需要在现有技术提供的响应结果中进行驾车线路、公交线路、骑行线路、步行线路等类别的选择，要么获得的驾车线路并不是合适的线路，需要用户重新选择，这增加了用户的交互成本，降低了信息获取效率，影响了用户的语音交互体验。

发明内容

本发明的一个目的是提供一种用于提供语音响应信息的方法与设备。

根据本发明的一个实施例，提供了一种用于提供语音响应信息的方法，其中，该方法包括以下步骤：

a获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音；

b根据所述背景音，确定对应的场景信息；

c根据所述自然语言命令与所述场景信息，确定对应的语音响应信息；

d将所述语音响应信息提供给所述用户。

根据本发明的另一个实施例，还提供了一种用于提供语音响应信息的提供设备，其中，该提供设备包括：

获取装置，用于获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音；

第一确定装置，用于根据所述背景音，确定对应的场景信息；

第二确定装置，用于根据所述自然语言命令与所述场景信息，确定对应的语音响应信息；

提供装置，用于将所述语音响应信息提供给所述用户。

根据本发明的又一实施例，还提供了一种计算设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如前述根据本发明一个实施例的一种用于提供语音响应信息的方法。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如前述根据本发明一个实施例的一种用于提供语音响应信息的方法。

与现有技术相比，本发明的一个实施例通过获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音，并根据所述背景音，确定对应的场景信息，然后根据所述自然语言命令与所述场景信息，确定对应的语音响应信息，接着将所述语音响应信息提供给所述用户，不仅实现了语音响应信息提供的实时性和精准度，相应地，也提高了用户的信息获取效率，并提升了用户的语音交互体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种用于提供语音响应信息的提供设备的设备示意图；

图2示出本发明一个实施例的语音响应信息的提供示意图；

图3示出本发明一个实施例的一种用于提供语音响应信息的提供设备的设备示意图；

图4示出根据本发明另一个方面的一种用于提供语音响应信息的方法流程图；

图5示出本发明一个实施例的一种用于提供语音响应信息的方法流程图；

图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的一种用于提供语音响应信息的提供设备1，其中，提供设备1包括获取装置11、第一确定装置12、第二确定装置13和提供装置14。具体地，获取装置11获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音；第一确定装置12根据所述背景音，确定对应的场景信息；第二确定装置13根据所述自然语言命令与所述场景信息，确定对应的语音响应信息；提供装置14将所述语音响应信息提供给所述用户。

在此，提供设备1是指一种能够根据用户输入的自然语言命令与基于用户输入所述自然语言命令时所伴随的背景音所确定的场景信息，确定对应的语音响应信息，并能够将其提供给用户的设备。在具体实施例中，提供设备1可由智能终端实现，也可由网络设备与智能终端通过网络相集成所构成的设备(即由智能终端和网络设备相配合)实现，还可以作为软件模块和/或硬件模块被包含于智能终端中，也可以作为硬件设备与智能终端通过有线或无线的方式连接。在此，所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此，云由基于云计算(CloudComputing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此，所述智能终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC、手机、智能手机、PDA、可穿戴设备、掌上电脑PPC、可穿戴设备、平板电脑、智能车机、智能电视、智能音箱等。在实际应用中，提供设备1为智能终端时，其上可搭载/安装能够理解、处理并响应用户的自然语言命令并将响应结果进行输出的客户端(可以是APP形式)，也可以是该客户端仅能对用户输入的自然语言命令进行语音识别但需对应的服务器来对该自然语言命令进行理解、处理并响应用户的自然语言命令并将响应结果返回客户端进行输出。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述提供设备1仅为举例，其他现有的或今后可能出现的网络设备或智能终端如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。在此，网络设备及智能终端均包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。

在一个实施例中，若提供设备1为用户的智能终端，则提供设备1首先通过其自身所提供的应用程序接口(API)，或者通过拾音设备所提供的应用程序接口(API)，获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音；然后，提供设备1根据所述背景音确定对应的场景信息；接着，提供设备1根据所述自然语言命令与所述场景信息，确定对应的语音响应信息，并将所述语音响应信息提供给所述用户。

在另一个实施例中，若提供设备1为网络设备和智能终端相集成的设备，即提供设备1由智能终端和网络设备相配合实现，则智能终端首先通过其自身所提供的应用程序接口(API)，或者通过拾音设备所提供的应用程序接口(API)，获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音；然后，智能终端将所述自然语言命令和所述背景音发送至网络设备，由网络设备先根据所述背景音确定对应的场景信息；接着，网络设备根据所述自然语言命令与所述场景信息，确定对应的语音响应信息，并将所述语音响应信息发送至智能终端，由智能终端将所述语音响应信息提供给所述用户。

在还一个实施例中，若提供设备1为网络设备和智能终端相集成的设备，即提供设备1由智能终端和网络设备相配合实现，则智能终端首先通过其自身所提供的应用程序接口(API)，或者通过拾音设备所提供的应用程序接口(API)，获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音；接着，智能终端根据所述背景音，确定对应的场景信息；然后，智能终端将所述自然语言命令和所述场景信息发送至网络设备，由网络设备根据所述自然语言命令与所述场景信息，确定对应的语音响应信息，并将所述语音响应信息发送至智能终端，由智能终端将所述语音响应信息提供给所述用户。

具体地，获取装置11首先通过智能终端自身所提供的应用程序接口(API)，或者通过诸如拾音设备等第三方设备所提供的应用程序接口(API)，获取用户输入的自然语言命令和该用户输入所述自然语言命令时所伴随的背景音的这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户输入的自然语言命令(即主体音)和所捕获到的背景音相分离，即可获取到获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音。

例如，假设用户A去北京国际鲜花港，其上车之后，打开智能车机，该智能车机上搭载/安装了能够理解、处理并响应用户的自然语言命令并将响应结果进行输出的客户端(如语音助手APP)，然后用户A说“北京国际鲜花港怎么走”，则获取装置11首先通过智能车机自身所提供的应用程序接口(API)，获取到用户A输入的自然语言命令“北京国际鲜花港怎么走”，以及相伴随的背景音(如风噪、发动机噪声等)的这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户输入的自然语言命令(即主体音)和所捕获到的背景音相分离，即可获取到获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音。

再如，假设用户A打算通过智能电视订咖啡，该智能电视上搭载/安装了能够理解、处理并响应用户的自然语言命令并将响应结果进行输出的客户端(如语音助手APP)，用户A说“我要吃肯德基”，则获取装置11首先通过智能电视自身所提供的应用程序接口(API)，获取到用户A输入的自然语言命令“我要吃肯德基”，以及相伴随的背景音(如冰箱压缩机运行时的嗡嗡声、洗衣机工作声音、楼上掉落物品的声音等)的这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户输入的自然语言命令“我要吃肯德基”(即主体音)和所捕获到的背景音相分离，即可获取到获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音。

接着，第一确定装置12根据所述背景音，确定对应的场景信息。在此，所述场景信息是指用户输入自然语言命令时所处的环境、场合、情景，如图书馆、地铁上、公交站、餐厅、家里、马路边、商场、公司、户外、车载场景等。

例如，接上例，则第一确定装置12通过对风噪、发动机噪声等背景音进行分析，确定当前的场景信息为车载场景。

再如，第一确定装置12通过对冰箱压缩机运行时的嗡嗡声、洗衣机工作声音、楼上掉落物品的声音等背景音进行分析，确定当前的场景信息为室内。

本领域技术人员应能理解上述场景信息仅为举例，其他现有的或今后可能出现的场景信息如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

本领域技术人员应能理解上述获取所述场景信息的方式仅为举例，其他现有的或今后可能出现的获取所述场景信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

然后，第二确定装置13根据所述自然语言命令与所述场景信息，确定对应的语音响应信息。在此，第二确定装置13确定所述语音响应信息的方式包括但不限于以下至少任一项：

1)根据所述自然语言命令与所述场景信息，确定所述语音响应信息，其中，所述语音响应信息的内容与所述自然语言命令的语义信息，以及所述场景信息适配。

在此，与所述自然语言命令所对应的语义信息，以及所述场景信息适配的含义包括但不限于如与所述自然语言命令所对应的语义信息以及所述场景信息完全匹配、部分匹配等。

例如，接上例，由于用户A输入的自然语言命令为“北京国际鲜花港怎么走”，对应的场景信息为车载场景，则第二确定装置13可确定对应的语音响应信息为到北京国际鲜花港的车载线路，其中，该语音响应信息的内容与所述自然语言命令的语义信息，以及所述场景信息均匹配；又如，假设此时的场景信息为“地铁里”，则可确定对应的语音响应信息为到北京国际鲜花港的公交线路。

再如，由于用户A输入的自然语言命令为“我要吃肯德基”，对应的场景信息为“室内”，则第二确定装置13可确定对应的语音响应信息为可直接进行肯德基外卖下单的页面；又如，假设此时的场景信息为“车载场景”，则可确定对应的语音响应信息为附近的肯德基餐厅。

2)根据所述自然语言命令与所述场景信息，确定所述语音响应信息，其中，所述语音响应信息的内容与所述自然语言命令的语义信息、所述自然语言命令所对应的语音特征信息，以及所述场景信息适配。

在此，所述语音特征信息包括但不限于如反映用户语音深度特征的口音、语速、语气、语调等。在此，与所述自然语言命令的语义信息、所述自然语言命令所对应的语音特征信息，以及所述场景信息适配包括但不限于如所述自然语言命令的语义信息、所述自然语言命令所对应的语音特征信息，以及所述场景信息完全匹配、部分匹配等。

例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，则第二确定装置13可首先根据该自然语言命令，提取该自然语言命令所对应的语音特征信息，如分析得到用户A的语速较快，从而判断用户A为急性子，然后，第二确定装置13根据该自然语言命令，以及对应的场景信息如为车载场景，确定对应的语音响应信息为时间最短的车载路线。

再如，对于用户A输入的自然语言命令“我要吃肯德基”，则第二确定装置13可首先根据该自然语言命令，提取该自然语言命令所对应的语音特征信息，如根据用户A的口音判断用户A为四川人，然后，第二确定装置13根据该自然语言命令，以及对应的场景信息如为室内，确定对应的语音响应信息为可直接进行辣味肯德基餐品外卖下单的页面。

本领域技术人员应能理解上述确定所述语音响应信息的方式仅为举例，其他现有的或今后可能出现的确定所述语音响应信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

接着，提供装置14通过https、http等约定的通信方式，将所述语音响应信息提供给所述用户。

在一个实施例中(参考图1)，提供设备1还包括第三确定装置(未示出)。具体地，第三确定装置根据所述场景信息，确定所述语音响应信息的呈现类型；其中，提供装置14根据所述呈现类型，将所述语音响应信息提供给所述用户。在此，所述呈现类型是指所述呈现类型是指语音响应信息的呈现形式，其包括但不限于如图文类型、视频类型、语音类型、富媒体类型等。

例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，假设此时的场景信息为车载场景，而对应的语音响应信息为到北京国际鲜花港的车载线路，由于该场景下比较适合语音+图文类型的语音响应信息，则第三确定装置可确定在车载场景下，语音响应信息的呈现类型为语音+图文类型，从而提供装置14可根据该呈现类型，向用户A语音播报语音响应信息的确定结果(如语音播报：找到三种到北京国际鲜花港的车载线路方案)并在地图中以图文类型展示于用户A的车机上，如图2所示。

本领域技术人员应能理解上述呈现类型仅为举例，其他现有的或今后可能出现的呈现类型如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

在还一个实施例中(参考图1)，若所述用户为多个，所述自然语言命令为多个所述用户之间的对话，则第二确定装置13根据所述对话与所述场景信息，确定对应的语音响应信息。例如，对于用户A，其打算通过智能电视订咖啡，该智能电视上搭载/安装了能够理解、处理并响应用户的自然语言命令并将响应结果进行输出的客户端(如语音助手APP)，用户A说“我要吃肯德基”，而此时用户A的家人用户B说“要吃过瘾炸鸡桶”，则获取装置11首先通过智能电视自身所提供的应用程序接口(API)，获取到用户A与用户B之间的以上对话，以及相伴随的背景音(如冰箱压缩机运行时的嗡嗡声、洗衣机工作声音、楼上掉落物品的声音等)这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户A与用户B之间的以上对话(即主体音)和所捕获到的背景音相分离；接着，第一确定装置12通过对背景音进行分析，确定当前的场景信息为室内；接着，第二确定装置13根据用户A与用户B之间的对话，以及对应的场景信息“室内”，确定语音响应信息为可直接进行过瘾炸鸡桶外卖下单的页面。

图3示出本发明一个实施例的一种用于提供语音响应信息的提供设备1的设备示意图，其中，提供设备1包括获取装置11’、第一确定装置12’、第二确定装置13’、提供装置14’和第四确定装置15’。具体地，获取装置11’获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音；第一确定装置12’根据所述背景音，确定对应的场景信息；第二确定装置13’根据所述自然语言命令与所述场景信息，确定对应的语音响应信息；第四确定装置15’根据所述自然语言命令与所述场景信息，确定对应的目标呈现信息；提供装置14’将所述语音响应信息和所述目标呈现信息提供给所述用户。

在此，获取装置11’、第一确定装置12’和第二确定装置13’与图1实施例中对应装置的内容相同或相似，为简明起见，在此不在赘述，并以引用的方式包含于此。

具体地，第四确定装置15’根据所述自然语言命令与所述场景信息，确定对应的目标呈现信息。在此，所述目标呈现信息是指向用户提供的能够在一定程度上满足用户需求的呈现信息，其包括但不限于如图文类型呈现信息、展示类呈现信息、视频类型呈现信息、语音类型呈现信息、富媒体类型呈现信息等。

具体地，第四确定装置15’可首先根据所述自然语言命令，确定内容与所述自然语言命令适配的一个或多个候选呈现信息；然后，根据所述场景信息，从所述一个或多个候选呈现信息中筛选出目标呈现信息，其中，所述目标呈现信息的信息呈现类型与所述场景信息适配。

在此，与所述自然语言命令适配包括以下至少任一项：

-与所述自然语言命令所对应的语义信息适配；

-与所述自然语言命令所对应的语音特征信息适配。

例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，则第四确定装置15’首先可根据该自然语言命令，从呈现信息库中筛选出内容与该自然语言命令所对应的语义信息适配的呈现信息，以作为所述候选呈现信息，如得到以下候选呈现信息：

i内容为关于北京国际鲜花港中特有的奇花异草的图文类型呈现信息；

ii内容为关于北京国际鲜花港中特有的奇花异草的语音类型呈现信息

iii内容为销售北京国际鲜花港中特有的奇花异草的店铺的富媒体类型呈现信息；

iv内容为销售畅销花卉的店铺的富媒体类型呈现信息；

v内容为关于如何养花卉的图文类型呈现信息；

vi内容为与花卉相关的图文类型呈现信息；

vii内容为有关其他植物园/公园的视频类型呈现信息。

接着，第四确定装置15’根据所述场景信息，从所述一个或多个候选呈现信息中筛选出目标呈现信息，其中，所述目标呈现信息的信息呈现类型与所述场景信息适配。在此，所述信息呈现类型是指广告的呈现形式，其包括但不限于如图文类型、视频类型、语音类型、富媒体类型等。例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，假设此时的场景信息为马路边，由于该场景下比较适合视频类型呈现信息和富媒体类型呈现信息，则对于候选呈现信息i-vii，第四确定装置15’可从中将呈现类型为视频类型和富媒体类型的候选呈现信息即候选呈现信息iii、iv和vii作为目标呈现信息；再如，假设此时的场景信息为地铁里，由于该场景下为公众场合，比较适合图文类型呈现信息，则对于候选呈现信息i-vii，第四确定装置15’可从中将呈现类型为图文类型的候选呈现信息即候选呈现信息i、v和vi作为目标呈现信息。

再如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，则第四确定装置15’可首先根据该自然语言命令，提取该自然语言命令所对应的语音特征信息，如分析得到用户A的口音为南方口音，从而判断用户A为南方人，如分析得到用户A的语速较快、语调明朗且声音洪亮，从而判断用户A的性格为爽朗；然后，从呈现信息库中筛选出内容与该自然语言命令所对应的语音特征信息适配的呈现信息，以作为所述候选呈现信息，如得到以下候选呈现信息(其中，I、II、IV和V与用户A为南方人有关，III与用户A的性格有关)：

I内容为关于南方植物/花卉的图文类型呈现信息；

II内容为销售南方植物/花卉的店铺的富媒体类型呈现信息；

III内容为销售南方植物/花卉的店铺的语音类型呈现信息

IV内容为关于颜色鲜艳的花卉的图文类型呈现信息；

V内容为种植有南方植物/花卉的其他植物园/公园的视频类型呈现信息；

VI内容为关于北方花卉如腊梅的图文类型呈现信息。

接着，第四确定装置15’根据所述场景信息，从所述一个或多个候选呈现信息中筛选出目标呈现信息，其中，所述目标呈现信息的信息呈现类型与所述场景信息适配，假设此时的场景信息为车载场景，由于该场景下为不影响导航比较适合图文类型呈现信息，则对于候选呈现信息I-VI，第四确定装置15’可从中将呈现类型为图文类型的候选呈现信息即候选呈现信息I、IV、VI作为目标呈现信息。

本领域技术人员应能理解上述目标呈现信息仅为举例，其他现有的或今后可能出现的目标呈现信息如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

本领域技术人员应能理解上述确定所述目标呈现信息的方式仅为举例，其他现有的或今后可能出现的确定所述目标呈现信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

提供装置14’通过诸如https、http等约定的通信方式，将所述语音响应信息和所述目标呈现信息提供给所述用户。

在此，本发明在提供语音响应信息的同时，还可提供目标呈现信息，进一步提高了用户获取信息的效率，提升了用户的语音交互体验。

在此，本领域技术人员应当理解，第二确定装置13’和第四确定装置15’可串行执行，也可并行执行。

在一个实施例中(参考图3)，提供设备1还包括检测装置(未示出)，具体地，检测装置检测是否满足提供所述目标呈现信息的提供条件；其中，若满足所述提供条件，提供装置14’将所述语音响应信息和所述目标呈现信息提供给所述用户。

具体地，检测装置检测是否满足提供所述目标呈现信息的提供条件，在此，所述提供条件包括但不限于以下至少任一项：i)所述用户选择了允许提供呈现信息的设置信息；2)所述用户当前处于心情愉悦状态。在此，本领域技术人员应能理解上述提供条件仅为举例，其他现有的或今后可能出现的提供条件如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

例如，假设对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，检测装置根据该自然语言命令的语气，判断用户A的当前心情为愉悦状态，便判断满足提供所述目标呈现信息的提供条件。

优选地，若不满足所述提供条件，提供装置14’将所述语音响应信息提供给所述用户。

例如，假设对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，检测装置根据该自然语言命令的语气，判断用户A的当前比较着急，便判断不满足提供所述目标呈现信息的提供条件，则提供装置14’仅将语音响应信息提供给用户A。

在此，本发明还实现了仅在一定条件下才向用户提供目标呈现信息，进一步提高了呈现信息的提供精准度，以及信息呈现效率，也提高了用户对所提供的呈现信息的满意度，相应地，还进一步增加了呈现信息的流量。

图4示出根据本发明另一个方面的一种用于提供语音响应信息的方法流程图。

其中，该方法包括步骤S1、步骤S2、步骤S3和步骤S4。

具体地，在步骤S1中，提供设备1获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音；在步骤S2中，提供设备1根据所述背景音，确定对应的场景信息；在步骤S3中，提供设备1根据所述自然语言命令与所述场景信息，确定对应的语音响应信息；在步骤S4中，提供设备1将所述语音响应信息提供给所述用户。

具体地，在步骤S1中，提供设备1首先通过智能终端自身所提供的应用程序接口(API)，或者通过诸如拾音设备等第三方设备所提供的应用程序接口(API)，获取用户输入的自然语言命令和该用户输入所述自然语言命令时所伴随的背景音的这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户输入的自然语言命令(即主体音)和所捕获到的背景音相分离，即可获取到获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音。

例如，假设用户A去北京国际鲜花港，其上车之后，打开智能车机，该智能车机上搭载/安装了能够理解、处理并响应用户的自然语言命令并将响应结果进行输出的客户端(如语音助手APP)，然后用户A说“北京国际鲜花港怎么走”，则在步骤S1中，提供设备1首先通过智能车机自身所提供的应用程序接口(API)，获取到用户A输入的自然语言命令“北京国际鲜花港怎么走”，以及相伴随的背景音(如风噪、发动机噪声等)的这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户输入的自然语言命令(即主体音)和所捕获到的背景音相分离，即可获取到获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音。

再如，假设用户A打算通过智能电视订咖啡，该智能电视上搭载/安装了能够理解、处理并响应用户的自然语言命令并将响应结果进行输出的客户端(如语音助手APP)，用户A说“我要吃肯德基”，则在步骤S1中，提供设备1首先通过智能电视自身所提供的应用程序接口(API)，获取到用户A输入的自然语言命令“我要吃肯德基”，以及相伴随的背景音(如冰箱压缩机运行时的嗡嗡声、洗衣机工作声音、楼上掉落物品的声音等)的这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户输入的自然语言命令“我要吃肯德基”(即主体音)和所捕获到的背景音相分离，即可获取到获取用户输入的自然语言命令，以及用户输入所述自然语言命令时所伴随的背景音。

接着，在步骤S2中，提供设备1根据所述背景音，确定对应的场景信息。在此，所述场景信息是指用户输入自然语言命令时所处的环境、场合、情景，如图书馆、地铁上、公交站、餐厅、家里、马路边、商场、公司、户外、车载场景等。

例如，接上例，则在步骤S2中，提供设备1通过对风噪、发动机噪声等背景音进行分析，确定当前的场景信息为车载场景。

再如，在步骤S2中，提供设备1通过对冰箱压缩机运行时的嗡嗡声、洗衣机工作声音、楼上掉落物品的声音等背景音进行分析，确定当前的场景信息为室内。

然后，在步骤S3中，提供设备1根据所述自然语言命令与所述场景信息，确定对应的语音响应信息。在此，在步骤S3中，提供设备1确定所述语音响应信息的方式包括但不限于以下至少任一项：

例如，接上例，由于用户A输入的自然语言命令为“北京国际鲜花港怎么走”，对应的场景信息为车载场景，则在步骤S3中，提供设备1可确定对应的语音响应信息为到北京国际鲜花港的车载线路，其中，该语音响应信息的内容与所述自然语言命令的语义信息，以及所述场景信息均匹配；又如，假设此时的场景信息为“地铁里”，则可确定对应的语音响应信息为到北京国际鲜花港的公交线路。

再如，由于用户A输入的自然语言命令为“我要吃肯德基”，对应的场景信息为“室内”，则在步骤S3中，提供设备1可确定对应的语音响应信息为可直接进行肯德基外卖下单的页面；又如，假设此时的场景信息为“车载场景”，则可确定对应的语音响应信息为附近的肯德基餐厅。

例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，则在步骤S3中，提供设备1可首先根据该自然语言命令，提取该自然语言命令所对应的语音特征信息，如分析得到用户A的语速较快，从而判断用户A为急性子，然后，在步骤S3中，提供设备1根据该自然语言命令，以及对应的场景信息如为车载场景，确定对应的语音响应信息为时间最短的车载路线。

再如，对于用户A输入的自然语言命令“我要吃肯德基”，则在步骤S3中，提供设备1可首先根据该自然语言命令，提取该自然语言命令所对应的语音特征信息，如根据用户A的口音，判断用户A为四川人，然后，在步骤S3中，提供设备1根据该自然语言命令，以及对应的场景信息如为室内，确定对应的语音响应信息为可直接进行辣味肯德基餐品外卖下单的页面。

接着，在步骤S4中，提供设备1通过https、http等约定的通信方式，将所述语音响应信息提供给所述用户。

在一个实施例中(参考图4)，提供设备1还包括步骤S6(未示出)。具体地，在步骤S6中，提供设备1根据所述场景信息，确定所述语音响应信息的呈现类型；其中，在步骤S4中，提供设备1根据所述呈现类型，将所述语音响应信息提供给所述用户。

在此，所述呈现类型是指所述呈现类型是指语音响应信息的呈现形式，其包括但不限于如图文类型、视频类型、语音类型、富媒体类型等。

例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，假设此时的场景信息为车载场景，而对应的语音响应信息为到北京国际鲜花港的车载线路，由于该场景下比较适合语音+图文类型的语音响应信息，则在步骤S6中，提供设备1可确定在车载场景下，语音响应信息的呈现类型为语音+图文类型，从而在步骤S4中，提供设备1可根据该呈现类型，向用户A语音播报语音响应信息的确定结果(如语音播报：找到三种到北京国际鲜花港的车载线路方案)并在地图中以图文类型展示于用户A的车机上，如图2所示。

在还一个实施例中(参考图4)，若所述用户为多个，所述自然语言命令为多个所述用户之间的对话，则在步骤S3中，提供设备1根据所述对话与所述场景信息，确定对应的语音响应信息。例如，对于用户A，其打算通过智能电视订咖啡，该智能电视上搭载/安装了能够理解、处理并响应用户的自然语言命令并将响应结果进行输出的客户端(如语音助手APP)，用户A说“我要吃肯德基”，而此时用户A的家人用户B说“要吃过瘾炸鸡桶”，则在步骤S1中，提供设备1首先通过智能电视自身所提供的应用程序接口(API)，获取到用户A与用户B之间的以上对话，以及相伴随的背景音(如冰箱压缩机运行时的嗡嗡声、洗衣机工作声音、楼上掉落物品的声音等)这两种声音的混合音；然后，通过诸如音频处理软件如Audacity等将用户A与用户B之间的以上对话(即主体音)和所捕获到的背景音相分离；接着，在步骤S2中，提供设备1通过对背景音进行分析，确定当前的场景信息为室内；接着，在步骤S3中，提供设备1根据用户A与用户B之间的对话，以及对应的场景信息“室内”，确定语音响应信息为可直接进行过瘾炸鸡桶外卖下单的页面。

图5示出本发明一个实施例的一种用于提供语音响应信息的方法流程图。

其中，该方法包括步骤S1’、步骤S2’、步骤S3’、步骤S4’和步骤S5’。

具体地，在步骤S1'中，提供设备1获取用户输入的自然语言命令，以及所述用户输入所述自然语言命令时所伴随的背景音；在步骤S2'中，提供设备1根据所述背景音，确定对应的场景信息；在步骤S3'中，提供设备1根据所述自然语言命令与所述场景信息，确定对应的语音响应信息；在步骤S5'中，提供设备1根据所述自然语言命令与所述场景信息，确定对应的目标呈现信息；在步骤S4'中，提供设备1将所述语音响应信息和所述目标呈现信息提供给所述用户。

在此，步骤S1'、步骤S2'和步骤S3'与图4实施例中对应步骤的内容相同或相似，为简明起见，在此不在赘述，并以引用的方式包含于此。

具体地，在步骤S5'中，提供设备1根据所述自然语言命令与所述场景信息，确定对应的目标呈现信息。在此，所述目标呈现信息是指向用户提供的能够在一定程度上满足用户需求的呈现信息，其包括但不限于如图文类型呈现信息、展示类呈现信息、视频类型呈现信息、语音类型呈现信息、富媒体类型呈现信息等。

具体地，在步骤S5'中，提供设备1可首先根据所述自然语言命令，确定内容与所述自然语言命令适配的一个或多个候选呈现信息；然后，根据所述场景信息，从所述一个或多个候选呈现信息中筛选出目标呈现信息，其中，所述目标呈现信息的信息呈现类型与所述场景信息适配。

在此，与所述自然语言命令适配包括以下至少任一项：

-与所述自然语言命令所对应的语义信息适配；

-与所述自然语言命令所对应的语音特征信息适配。

例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，则在步骤S5'中，提供设备1首先可根据该自然语言命令，从呈现信息库中筛选出内容与该自然语言命令所对应的语义信息适配的呈现信息，以作为所述候选呈现信息，如得到以下候选呈现信息：

iv内容为销售畅销花卉的店铺的富媒体类型呈现信息；

v内容为关于如何养花卉的图文类型呈现信息；

vi内容为与花卉相关的图文类型呈现信息；

vii内容为有关其他植物园/公园的视频类型呈现信息。

接着，在步骤S5'中，提供设备1根据所述场景信息，从所述一个或多个候选呈现信息中筛选出目标呈现信息，其中，所述目标呈现信息的信息呈现类型与所述场景信息适配。在此，所述信息呈现类型是指广告的呈现形式，其包括但不限于如图文类型、视频类型、语音类型、富媒体类型等。例如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，假设此时的场景信息为马路边，由于该场景下比较适合视频类型呈现信息和富媒体类型呈现信息，则对于候选呈现信息i-vii，在步骤S5'中，提供设备1可从中将呈现类型为视频类型和富媒体类型的候选呈现信息即候选呈现信息iii、iv和vii作为目标呈现信息；再如，假设此时的场景信息为地铁里，由于该场景下为公众场合，比较适合图文类型呈现信息，则对于候选呈现信息i-vii，在步骤S5'中，提供设备1可从中将呈现类型为图文类型的候选呈现信息即候选呈现信息i、v和vi作为目标呈现信息。

再如，对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，则在步骤S5'中，提供设备1可首先根据该自然语言命令，提取该自然语言命令所对应的语音特征信息，如分析得到用户A的口音为南方口音，从而判断用户A为南方人，如分析得到用户A的语速较快、语调明朗且声音洪亮，从而判断用户A的性格为爽朗；然后，从呈现信息库中筛选出内容与该自然语言命令所对应的语音特征信息适配的呈现信息，以作为所述候选呈现信息，如得到以下候选呈现信息(其中，I、II、IV和V与用户A为南方人有关，III与用户A的性格有关)：

I内容为关于南方植物/花卉的图文类型呈现信息；

II内容为销售南方植物/花卉的店铺的富媒体类型呈现信息；

III内容为销售南方植物/花卉的店铺的语音类型呈现信息

IV内容为关于颜色鲜艳的花卉的图文类型呈现信息；

VI内容为关于北方花卉如腊梅的图文类型呈现信息。

接着，在步骤S5'中，提供设备1根据所述场景信息，从所述一个或多个候选呈现信息中筛选出目标呈现信息，其中，所述目标呈现信息的信息呈现类型与所述场景信息适配，假设此时的场景信息为车载场景，由于该场景下为不影响导航比较适合图文类型呈现信息，则对于候选呈现信息I-VI，在步骤S5'中，提供设备1可从中将呈现类型为图文类型的候选呈现信息即候选呈现信息I、IV、VI作为目标呈现信息。

在步骤S4'中，提供设备1通过诸如https、http等约定的通信方式，将所述语音响应信息和所述目标呈现信息提供给所述用户。

在此，本领域技术人员应当理解，在步骤S3'中，提供设备1和在步骤S5'中，提供设备1可串行执行，也可并行执行。

在一个实施例中(参考图5)，提供设备1还包括步骤S7'(未示出)，具体地，在步骤S7'中，提供设备1检测是否满足提供所述目标呈现信息的提供条件；其中，若满足所述提供条件，在步骤S4'中，提供设备1将所述语音响应信息和所述目标呈现信息提供给所述用户。

具体地，在步骤S7'中，提供设备1检测是否满足提供所述目标呈现信息的提供条件，在此，所述提供条件包括但不限于以下至少任一项：i)所述用户选择了允许提供呈现信息的设置信息；2)所述用户当前处于心情愉悦状态。在此，本领域技术人员应能理解上述提供条件仅为举例，其他现有的或今后可能出现的提供条件如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

例如，假设对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，在步骤S7'中，提供设备1根据该自然语言命令的语气，判断用户A的当前心情为愉悦状态，便判断满足提供所述目标呈现信息的提供条件。

优选地，若不满足所述提供条件，在步骤S4'中，提供设备1将所述语音响应信息提供给所述用户。

例如，假设对于用户A输入的自然语言命令“北京国际鲜花港怎么走”，在步骤S7'中，提供设备1根据该自然语言命令的语气，判断用户A的当前比较着急，便判断不满足提供所述目标呈现信息的提供条件，则在步骤S4'中，提供设备1仅将语音响应信息提供给用户A。

图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。图6显示的计算机系统/服务器2仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统/服务器2以通用计算设备的形式表现。计算机系统/服务器2的组件可以包括但不限于：一个或者多个处理器或者处理单元21、系统存储器22、连接不同系统组件(包括系统存储器22和处理单元21)的总线23。

总线23表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MAC)总线、增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器2典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器2访问的可用介质，包括易失性和非易失性介质、可移动的和不可移动的介质。

系统存储器22可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)221和/或高速缓存存储器222。计算机系统/服务器2可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统223可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线23相连。系统存储器22可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块225的程序/实用工具224，可以存储在例如系统存储器22中，这样的程序模块225包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块225通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器2也可以与一个或多个外部设备25(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器2交互的设备通信，和/或与使得该计算机系统/服务器2能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口26进行。并且，计算机系统/服务器2还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器20通过总线23与计算机系统/服务器2的其它模块通信。应当明白，尽管图6中未示出，可以结合计算机系统/服务器2使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元21通过运行存储在系统存储器22中的程序，从而执行各种功能应用以及数据处理，例如实现以下一种用于提供语音响应信息的方法，其中，该方法包括以下步骤：

b根据所述背景音，确定对应的场景信息；

d将所述语音响应信息提供给所述用户。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或子。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或子可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或子的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于提供语音响应信息的方法，其中，该方法包括以下步骤：

b根据所述背景音，确定对应的场景信息；

d将所述语音响应信息提供给所述用户。

2.根据权利要求1所述的方法，其中，所述步骤c包括：

-根据所述自然语言命令与所述场景信息，确定所述语音响应信息，其中，所述语音响应信息的内容与所述自然语言命令的语义信息，以及所述场景信息适配。

3.根据权利要求1或2所述的方法，其中，所述步骤c包括：

-根据所述自然语言命令与所述场景信息，确定所述语音响应信息，其中，所述语音响应信息的内容与所述自然语言命令的语义信息、所述自然语言命令所对应的语音特征信息，以及所述场景信息适配。

4.根据权利要求1至3中任一项所述的方法，其中，该方法还包括步骤：

-根据所述场景信息，确定所述语音响应信息的呈现类型；

其中，所述步骤d包括：

-根据所述呈现类型，将所述语音响应信息提供给所述用户。

5.根据权利要求1至4中任一项所述的方法，其中，该方法还包括步骤：

-根据所述自然语言命令与所述场景信息，确定对应的目标呈现信息；

其中，所述步骤d包括：

-将所述语音响应信息和所述目标呈现信息提供给所述用户。

6.根据权利要求5所述的方法，其中，该方法还包括步骤：

-检测是否满足提供所述目标呈现信息的提供条件；

其中，所述步骤d包括：

-若满足所述提供条件，将所述语音响应信息和所述目标呈现信息提供给所述用户。

7.根据权利要求6所述的方法，其中，所述步骤d还包括：

-若不满足所述提供条件，将所述语音响应信息提供给所述用户。

8.根据权利要求1至7中任一项所述的方法，其中，若所述用户为多个，所述自然语言命令为多个所述用户之间的对话。

9.一种用于提供语音响应信息的提供设备，其中，该提供设备包括：

提供装置，用于将所述语音响应信息提供给所述用户。

10.根据权利要求9所述的提供设备，其中，所述第二确定装置用于：

11.根据权利要求9或10所述的提供设备，其中，所述第二确定装置用于：

12.根据权利要求9至11中任一项所述的提供设备，其中，该提供设备还包括：

第三确定装置，用于根据所述场景信息，确定所述语音响应信息的呈现类型；

其中，所述提供装置用于：

-根据所述呈现类型，将所述语音响应信息提供给所述用户。

13.根据权利要求9至12中任一项所述的提供设备，其中，该提供设备还包括：

第四确定装置，用于根据所述自然语言命令与所述场景信息，确定对应的目标呈现信息；

其中，所述提供装置用于：

-将所述语音响应信息和所述目标呈现信息提供给所述用户。

14.根据权利要求13所述的提供设备，其中，该提供设备还包括：

检测装置，用于检测是否满足提供所述目标呈现信息的提供条件；

其中，所述提供装置用于：

15.根据权利要求14所述的提供设备，其中，所述提供装置还用于：

16.根据权利要求9至15中任一项所述的提供设备，其中，若所述用户为多个，所述自然语言命令为多个所述用户之间的对话。

17.一种计算设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1至8中任一项所述的方法。