CN108428452B

CN108428452B - 终端支架和远场语音交互系统

Info

Publication number: CN108428452B
Application number: CN201810210026.7A
Authority: CN
Inventors: 苏红; 李鹏; 赵立峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2019-12-13
Anticipated expiration: 2038-03-14
Also published as: JP6799573B2; JP2019159307A; CN108428452A; US11315555B2; US20190287521A1

Abstract

本申请实施例公开了终端支架和远场语音交互系统。该终端支架的一具体实施方式包括：远场收音器件和语音分析器件；远场收音器件接收用户发送的语音信息，将语音信息发送至语音分析器件；语音分析器件对语音信息进行分析，确定语音信息中是否包含预设唤醒词，若包含预设唤醒词，将语音信息发送至与终端支架通信连接的终端。该实施方式通过支持远场收音功能的终端支架接收用户发送的语音信息，从而有助于实现对终端进行远场语音控制。

Description

终端支架和远场语音交互系统

技术领域

本申请实施例涉及计算机技术领域，具体涉及终端支架和远场语音交互系统。

背景技术

随着智能终端(例如智能手机)越来越普及，人们使用智能终端的时间也越来越长，在任何时间、任何地方均有使用智能终端的需求。由于受尺寸的限制，智能终端通常内置近场收音器件(例如麦克风)和近场放音器件(例如手机扬声器)，以支持近场语音交互功能。即在用户距离智能终端较近的情况下，通过说话就可以得到反馈结果。这种交互方式是人类最自然最轻松的交互方式，能高效的解放双手，且可以最大程度地降低操作难度。然而，在用户距离智能终端较远的情况下，由于智能终端不支持远场语音交互功能，用户通常就不能够对智能终端进行语音控制。

发明内容

本申请实施例提出了终端支架和远场语音交互系统。

第一方面，本申请实施例提出了一种终端支架，包括远场收音器件和语音分析器件；远场收音器件接收用户发送的语音信息，将语音信息发送至语音分析器件；语音分析器件对语音信息进行分析，确定语音信息中是否包含预设唤醒词，若包含预设唤醒词，将语音信息发送至与终端支架通信连接的终端。

在一些实施例中，终端支架还包括远场放音器件，远场放音器件播放从终端接收到的语音播放信息。

在一些实施例中，远场放音器件包括用于放大语音播放信息的功率的功率放大器。

在一些实施例中，终端支架还包括蓝牙模块，若语音信息中包含预设唤醒词，终端支架的蓝牙模块向终端的蓝牙模块发送通信链路建立指令，以触发终端的蓝牙模块与终端支架的蓝牙模块之间建立蓝牙同步定向连接链路。

在一些实施例中，终端支架通过蓝牙同步定向连接链路将语音信息发送至终端，终端支架通过蓝牙同步定向连接链路从终端接收语音播放信息。

第二方面，本申请实施例提出了一种远场语音交互系统，包括终端以及如第一方面中任一实施例所描述的终端支架，终端与终端支架通信连接。

在一些实施例中，终端包括控制器件和执行器件；控制器件对语音信息进行分析处理，确定与语音信息对应的控制信息，将控制信息发送至执行器件；执行器件执行与控制信息对应的操作。

在一些实施例中，远场语音交互系统包括云服务器；云服务器接收终端发送的语音信息，对语音信息进行分析处理，确定与语音信息对应的控制信息，将包括控制信息的控制指令发送至终端，以使终端的执行器件执行与控制信息对应的操作。

在一些实施例中，当控制信息中包括语音播放信息时，终端将语音播放信息发送至终端支架，终端支架的远场放音器件播放语音播放信息。

在一些实施例中，终端包括近场收音器件和近场放音器件，在终端与终端支架之间建立通信链路之后，终端将近场收音器件和近场放音器件的工作状态切换至关闭状态。

本申请实施例提出的终端支架和远场语音交互系统，终端支架通过远场收音器件接收用户发送的语音信息，以便于将语音信息发送至语音分析器件。之后，语音分析器件对语音信息进行分析，以确定语音信息中是否包含预设唤醒词，在包含预设唤醒词的情况下，将语音信息发送至与终端支架通信连接的终端。也就是说，通过支持远场收音功能的终端支架接收用户发送的语音信息，从而有助于实现对终端进行远场语音控制。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请提供的终端支架的一个实施例的结构示意图；

图2是本申请提供的终端支架的又一个实施例的结构示意图；

图3是本申请提供的远场语音交互系统的一个实施例的结构示意图；

图4是本申请提供的远场语音交互系统的一个应用场景的内部交互流程图；

图5是本申请提供的远场语音交互系统的又一个应用场景的内部交互流程图。

具体实施方式

下面结合附图和实施例对本申请的原理和特征作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参见图1所示，其示出了本申请提供的终端支架的一个实施例的结构示意图。本实施例中的终端支架可以包括远场收音器件11和语音分析器件12。

在本实施例中，远场收音器件11可以首先接收用户发送的语音信息，然后将语音信息发送至语音分析器件12。语音分析器件12可以对语音信息进行分析，从而确定语音信息中是否包含预设唤醒词，在确定语音信息中包含预设唤醒词的情况下，将语音信息发送至与终端支架通信连接的终端。

现有的终端(例如智能手机)，由于受终端尺寸的限制，其内部通常仅设置近场收音器件(例如麦克风)，支持近场(例如1米之内)收音功能。然而，当用户距离终端较远时(例如5米之内)，终端的近场收音器件通常无法接收到用户发送的语音信息。这里，可以通过终端支架中的远场收音器件11接收用户发送的语音信息，以使终端从与其通信连接的终端支架获取语音信息，以实现对终端进行远场语音控制。

在本实施例中，远场收音器件11可以是各种可接收远距离用户所发送的语音信息的器件，例如麦克风阵列(Microphone Array)。其中，麦克风阵列可以是由一定数目，一定空间构型的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。实践中，线性、环形、球形麦克风阵列在原理上并无太大区别，只是由于空间构型不同，导致不同形状的麦克风阵列可分辨的空间范围不同。比如，在声源定位上，线性阵列只有一维信息，只能分辨180度，环形阵列是平面阵列，有两维信息，能分辨360度，球形阵列是立体三维空间阵列，有三维信息，能分辨360度的方位角和180度俯仰角。这里，为了便于不同位置的用户对终端的远场语音控制，通常采用环形麦克风阵列或球形麦克风阵列作为远场收音器件11。其次，麦克风阵列中的麦克风的数量越多，波束能区分的空间越精细，在嘈杂环境下所接收到的语音信息的质量越高。然而，麦克风阵列中的麦克风的数量越多，其成本也越高。因此，可以结合远场语音交互的距离确定出合适的麦克风数目。

此外，为了提高后续对语音信息进行识别的准确度，远场收音器件11还可以采用一些处理算法(例如去噪算法、用于消除回声、去除混响等的声学算法等)对语音信息进行处理。例如，远场收音器件11可以基于波束形成的方法，通过将麦克风阵列中的多个麦克风所接收的语音信息进行加权相加，在目标方向形成一个拾音波束，同时衰减来自其他方向的反射声，从而得到一路干净的语音信息。

在本实施例中，语音分析器件12可以采用常用的语音分析方法(例如语音识别方法、语义理解方法)，来对远场收音器件11接收的语音信息进行分析。例如，语音分析器件12可以首先利用语音识别技术(Automatic Speech Recognition，ASR)对语音信息进行语音识别，将语音信息中的词汇内容转换为书面语言形式的词汇内容；然后利用分词技术(例如全切分方法)，把书面语言形式的词汇内容分割成词；最后确定所分割成的词中是否存在预设唤醒词(例如“AA”、“你好”等)，在确定语音信息中包含预设唤醒词的情况下，将语音信息发送至与终端支架通信连接的终端，以实现对终端进行远场语音控制，在确定语音信息中不包含预设唤醒词的情况下，结束流程。也就是说，若用户想要对终端进行远场语音控制，需要同时说出预设唤醒词和对终端进行控制的信息。

在本实施例中，终端与终端支架可以通过多种方式建立通信连接。

作为一种示例，终端支架可以设置有线端口器件。有线端口器件可以与网线连接，从而实现有线网络连接。其中，有线端口器件中可以包括有线接口，如RJ45(RegisteredJack 45，连接器)中的插座。这样，当网线的接头插入该插座后，便可以实现有线网络连接。可以理解的是，这种有线连接方式，可以即插即用，而无需繁琐的配置网络流程。并且通常情况下不会出现断网现象，网络运行较稳定。

作为另一种示例，终端支架可以配置有Wi-Fi(WIreless-Fidelity，无线局域网)芯片。Wi-Fi芯片可以触发终端支架连接无线局域网络。这样，只要在无线局域网信号的覆盖范围内，即Wi-Fi芯片可以接收到无线信号，可以任意布置终端支架的摆放位置，而不受网线的约束，从而提高了用户使用的便捷性。

作为又一种示例，终端支架可以配置蓝牙模块。蓝牙模块可以触发终端与终端支架之间建立短距离无线通信连接。也就是说，终端支架与终端之间可以使用蓝牙传输信息。这样，可以丰富终端支架与终端之间的交互方式，而不用依赖终端支架连接网络。

需要说明的是，终端通常被固定放置在终端支架上。其中，终端支架的形状可以不受限制，只要能够将终端固定放置在适当的位置即可。

本申请实施例提出的终端支架，终端支架通过远场收音器件接收用户发送的语音信息，以便于将语音信息发送至语音分析器件。之后，语音分析器件对语音信息进行分析，以确定语音信息中是否包含预设唤醒词，在包含预设唤醒词的情况下，将语音信息发送至与终端支架通信连接的终端。也就是说通过支持远场收音功能的终端支架接收用户发送的语音信息，从而有助于实现对终端进行远场语音控制。

继续参见图2，其示出了本申请提供的终端支架的又一个实施例的结构示意图。本实施例中的终端支架可以包括远场收音器件11、语音分析器件12、远场放音器件13和蓝牙模块14。

在本实施例中，远场收音器件11可以首先接收用户发送的语音信息，然后将语音信息发送至语音分析器件12。语音分析器件12可以对语音信息进行分析，从而确定语音信息中是否包含预设唤醒词，在确定语音信息中包含预设唤醒词的情况下，终端支架的蓝牙模块14向终端的蓝牙模块发送通信链路建立指令，以触发终端的蓝牙模块与终端支架的蓝牙模块14之间建立蓝牙SCO(Synchronous Connection Oriented，同步定向连接)链路。终端支架可以通过蓝牙SCO链路将语音信息发送至终端。同时，终端支架还可以包括远场放音器件13，远场放音器件13可以通过蓝牙SCO链路从终端接收语音播放信息，并播放从终端接收到的语音播放信息。

现有的终端(例如智能手机)，由于受终端尺寸的限制，其内部通常仅设置近场放音器件(例如手机扬声器)，支持近场(例如1米之内)语音播放功能。然而，当用户距离终端较远时(例如5米之内)，终端的近场放音器件播放出的语音播放信息通常无法被用户很好的接收。这里，可以通过终端支架中的远场放音器件13播放语音播放信息，以使语音播放信息可以被用户很好的接收。

在本实施例中，远场放音器件13可以由多个不同方位的扬声器组合而成，以使不同位置的用户均能接收到语音播放信息。通常，远场放音器件13设置有功率放大器，用于放大语音播放信息的功率。这样，可以增大远场放音器件13播放的语音播放信息的音量，以使距离终端较远的用户也可以很好的接收到语音播放信息。

在本实施例中，终端支架通常支持NFC(Near Field Communication，近距离无线通信)功能、蓝牙功能或BLE(Bluetooth Low Energy，蓝牙低能耗)功能。例如，当把一台支持NFC功能的终端放置在支持NFC功能的终端支架上时，终端可以通过预装的特定应用与终端支架建立蓝牙和BLE连接。当用户对着终端支架说出预设唤醒词时，终端支架的蓝牙模块14就可以向终端的蓝牙模块发送通信链路建立指令，以触发终端的蓝牙模块与终端支架的蓝牙模块14之间建立蓝牙SCO链路。其中，蓝牙是一种支持设备短距离通信的无线电技术。蓝牙技术规定每一对设备之间进行蓝牙通信时，必须设置一台设备为主设备，另一台设备为从设备，以实现这对设备之间进行通信。通常，由主设备进行查找，发起配对，主设备与从设备之间建立蓝牙物理链路，以使主设备和从设备之间通过蓝牙物理链路收发信息。通常，蓝牙物理链路可以包括两种类型：SCO链路和ACL(Asynchronous Connection Less，异步无连接)链路。SCO链路主要用于同步话音传送，ACL链路主要用于分组数据传送。

从图2中可以看出，与图1对应的实施例相比，本实施例中的终端支架增加了远场放音器件13和蓝牙模块14。由此，本实施例描述的终端支架不仅支持远场收音功能，还支持远场放音功能，从而使终端支架支持远场语音交互功能；终端支架与终端之间可以通过蓝牙建立通信连接，丰富了终端支架与终端之间的交互方式。

本申请实施例还提供了一种远场语音交互系统，该远场语音交互系统可以包括终端和上述各实施例中所描述的终端支架。其中，终端可以与终端支架通信连接。作为示例，远场语音交互系统可以如图3所示，其示出了本申请提供远场语音交互系统的一个实施例的结构示意图。

如图3所示，远场语音交互系统可以包括终端2和终端支架1。终端2和终端支架1通信连接。

在本实施例中，终端2与终端支架1可以通过多种方式建立通信连接，包括但不限于有线网络连接、无线网络连接和蓝牙连接等等。

在本实施例中，在接收到终端支架1发送的语音信息之后，终端2可以通过多种方式获取与语音信息对应的控制信息。

作为一种示例，终端2可以包括控制器件和执行器件。其中，控制器件可以首先对语音信息进行分析处理，从而确定与语音信息对应的控制信息，然后将控制信息发送至执行器件。执行器件可以执行与控制信息对应的操作。例如，终端2本地可以预先存储样本语音信息集合和与每个样本语音信息的对应的样本控制信息。具体地，控制器件可以将语音信息与样本语音信息集合中的每个样本语音信息逐个进行匹配，若样本语音信息集合中存在一个样本语音信息与语音信息相同或相似的样本语音信息，则该样本语音信息与语音信息匹配。此时，控制器件可以在本地查找出与该样本语音信息对应的样本控制信息，作为与语音信息对应的控制信息，并发送至执行器件，以使执行器件执行与控制信息对应的操作。这里，执行器件可以是多个，例如，若语音信息是“AA，播放影片名为《XX》的电影”，那么控制信息可以是电影《XX》的视频信息，执行器件可以是终端2的显示屏和扬声器。其中，显示屏可以显示电影《XX》的视频信息中的画面信息，扬声器可以播放电影《XX》的视频信息中的音频信息。

作为另一种示例，远场语音交互系统还可以包括云服务器，云服务器与终端2通信连接。其中，云服务器可以接收终端2发送的语音信息，从而对语音信息进行分析处理，以确定与语音信息对应的控制信息；然后将包括控制信息的控制指令发送至终端，以使终端的执行器件执行与控制信息对应的操作。例如，云服务器可以预先存储样本语音信息集合和与每个样本语音信息的对应的样本控制信息。具体地，云服务器可以首先从与其通信连接的终端2中获取语音信息；然后将语音信息与样本语音信息集合中的每个样本语音信息逐个进行匹配，若样本语音信息集合中存在一个样本语音信息与语音信息相同或相似的样本语音信息，则该样本语音信息与语音信息匹配。此时，云服务器可以查找出与该样本语音信息对应的样本控制信息，作为与语音信息对应的控制信息，并发送至与其通信连接的终端2，以使终端2执行与控制信息对应的操作。

在本实施例的一些可选的实现方式中，当控制信息中包括语音播放信息时，终端2可以将语音播放信息发送至终端支架1，终端支架1的远场放音器件13可以播放语音播放信息。这样，利用远场放音器件13播放语音播放信息，从而使语音播放信息可以被远距离用户很好的接收。例如，若控制信息是电影《XX》的视频信息，那么终端2可以将电影《XX》的视频信息中的音频信息发送至终端支架1，终端2的显示屏显示电影《XX》的视频信息中的画面信息的同时，终端支架2播放电影《XX》的视频信息中的音频信息。

在本实施例的一些可选的实现方式中，终端2可以包括近场收音器件和近场放音器件，在终端2与终端支架1之间建立通信链路之后，终端2可以将近场收音器件和近场放音器件的工作状态切换至关闭状态。

本申请实施例还提供了远场语音交互系统的一个应用场景。图4示出了本申请提供的远场语音交互系统的一个应用场景的内部交互流程400。首先如401所示，用户可以对着远场语音交互系统中的终端支架1说出语音信息：“AA，给小明打电话”；此时如402所示，终端支架1的远场收音器件可以接收用户发送的语音信息，并将语音信息发送至终端支架1的语音分析器件；而后如403所示，语音分析器件对语音信息进行分析，确定出语音信息中包含预设唤醒词“AA”；此时如404所示，终端支架1的蓝牙模块可以向终端2的蓝牙模块发送通信链路建立指令，以触发终端2的蓝牙模块与终端支架1的蓝牙模块之间建立蓝牙SCO链路；之后如405所示，终端支架2可以通过蓝牙SCO链路将语音信息发送至终端2；此时如406所示，终端2可以将语音信息发送至云服务器；然后如407所示，云服务器可以对语音信息进行分析处理，并根据处理结果将小明的电话号码和拨打电话的指令返回给终端2；最后如408所示，终端2可以拨打小明的电话，并将接收到的语音播放信息通过蓝牙SCO链路发送至终端支架1，以使终端支架1的远场放音器件播放语音播放信息。

本申请实施例还提供了远场语音交互系统的又一个应用场景。图5示出了本申请提供的远场语音交互系统的又一个应用场景的内部交互流程500。首先如501所示，用户可以对着远场语音交互系统中的终端支架1说出语音信息：“AA，播放影片名为《XX》的电影”；此时如502所示，终端支架1的远场收音器件可以接收用户发送的语音信息，并将语音信息发送至终端支架1的语音分析器件；而后如503所示，语音分析器件对语音信息进行分析，确定出语音信息中是含预设唤醒词“AA”；此时如504所示，终端支架1的蓝牙模块可以向终端2的蓝牙模块发送通信链路建立指令，以触发终端2的蓝牙模块与终端支架1的蓝牙模块之间建立蓝牙SCO链路；之后如505所示，终端支架2可以通过蓝牙SCO链路将语音信息发送至终端2；此时如506所示，终端2可以将语音信息发送至云服务器；然后如507所示，云服务器可以对语音信息进行分析处理，并根据处理结果将电影《XX》的视频信息和播放电影的指令返回给终端2；最后如508所示，终端2可以通过蓝牙SCO链路将电影《XX》的视频信息中的音频信息发送至终端支架1，终端2的显示屏显示电影《XX》的视频信息中的画面信息的同时，终端支架2的远场放音器件播放电影《XX》的视频信息中的音频信息。

本申请实施例提出的远场语音交互系统，通过终端支架的远场收音器件接收用户发送的语音信息，以便于将语音信息发送至终端；终端获取与语音信息对应的控制信息，以执行与控制信息对应的操作。也就是说，远场语音交互系统通过支持远场语音交互功能的终端支架实现了对终端的远场语音控制。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种终端支架，包括远场收音器件和语音分析器件；

所述远场收音器件接收用户发送的语音信息，将语音信息发送至语音分析器件；

所述语音分析器件对所述语音信息进行分析，确定所述语音信息中是否包含预设唤醒词，若包含所述预设唤醒词，将所述语音信息发送至与所述终端支架通信连接的终端；

其中，所述终端支架还包括蓝牙模块，若所述语音信息中包含所述预设唤醒词，所述终端支架的蓝牙模块向所述终端的蓝牙模块发送通信链路建立指令，以触发所述终端的蓝牙模块与所述终端支架的蓝牙模块之间建立蓝牙同步定向连接链路；

其中，所述终端包括近场收音器件和近场放音器件，在所述终端与所述终端支架之间建立通信链路之后，所述终端将所述近场收音器件和所述近场放音器件的工作状态切换至关闭状态；

其中，所述终端支架还包括远场放音器件，所述远场放音器件播放从所述终端接收到的语音播放信息。

2.根据权利要求1所述的终端支架，其中，所述远场放音器件包括用于放大所述语音播放信息的功率的功率放大器。

3.根据权利要求2所述的终端支架，其中，所述终端支架通过所述蓝牙同步定向连接链路将所述语音信息发送至所述终端，所述终端支架通过所述蓝牙同步定向连接链路从所述终端接收所述语音播放信息。

4.一种远场语音交互系统，包括终端以及如权利要求1-3之一所述的终端支架，所述终端与所述终端支架通信连接。

5.根据权利要求4所述的远场语音交互系统，所述终端包括控制器件和执行器件；

所述控制器件对所述语音信息进行分析处理，确定与所述语音信息对应的控制信息，将所述控制信息发送至所述执行器件；

所述执行器件执行与所述控制信息对应的操作。

6.根据权利要求4所述的远场语音交互系统，其中，所述远场语音交互系统包括云服务器；

所述云服务器接收所述终端发送的语音信息，对所述语音信息进行分析处理，确定与所述语音信息对应的控制信息，将包括所述控制信息的控制指令发送至所述终端，以使所述终端的执行器件执行与所述控制信息对应的操作。

7.根据权利要求5或6所述的远场语音交互系统，其中，当所述控制信息中包括语音播放信息时，所述终端将所述语音播放信息发送至所述终端支架，所述终端支架的远场放音器件播放所述语音播放信息。