CN113593571A

CN113593571A - 声音信息传输方法和装置

Info

Publication number: CN113593571A
Application number: CN202110878193.0A
Authority: CN
Inventors: 林永楷; 俞凯; 樊帅; 朱成亚
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-02

Abstract

本发明公开声音信息传输方法和装置，其中，一种声音信息传输方法，用于发送设备，包括：响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本；获取与所述自然语言文本对应的元信息，并将所述自然语言文本转换为语音信息；将所述语音信息基于第一声音频率通过声波发送至接收设备，将所述元信息基于第二声音频率通过声波发送至所述接收设备。通过将自然语言文本转换为语音信息并基于第一声音频率通过声波发送，获取与自然语言文本对应的元信息并基于第二声音频率通过声波发送，从而可以实现设备之间只需要一个基于声音的接口通过声音就能够进行交互，进一步地提高了使用设备的安全性和通用性。

Description

声音信息传输方法和装置

技术领域

本发明属于数据传输技术领域，尤其涉及声音信息传输方法和装置。

背景技术

随着物联网和人工智能技术的发展和普及，设备数量越来越多，在功能上越来越智能，设备与设备之间的交互需求越来越迫切，比如设备发现、自动联网、设备控制等。设计一种通用、快捷、可扩展能力强、不依赖于公共网络的机器与机器交互的方法具有很高的应用价值。

常规基于互联网的技术包括基于Wifi的组网和蜂窝通信技术，例如，5G、4G、3G、NB-IoT、LoRa。

进一步地，还有互联网+局域网的技术，例如，从WIFI/有线网络连接Zigbee、从蜂窝降到WIFI和从声波升到WIFI。点对点技术，例如蓝牙技术、非接触式射频(NFC近场通信技术，RFID)和声波通信技术。传输协议，其中，基于互联网的进程之间通信主要基于TCP/IP协议和UDP协议；基于点对点技术以及Zigbee的通信通常用的是协议自行设计的专用协议。

在组网方面,不同组网方式都有各自的优缺点.并没有哪个技术是最优的,也没有哪个技术是最差的,技术只有在结合具体的应用场景后才能作比较。就目前家居环境来说最普及的是基于WIFI的组网方式，但基于WIFI的组网方式对于用户来说配置复杂，并且所有IOT配置接入前都需要配置好ssid及密码，对于无屏的IOT设备并不友好。

例如，蜂窝通信技术(5G，4G)的缺点为成本高，功率大，智能手机与设备之间无直接通信(必须通过基站)。蜂窝通信技术(NB-IoT)的缺点是当前性能指标夸大、网络覆盖不佳。Wifi技术的缺点是配置复杂，稳定性差，功耗较大。

进一步地，发明人在实现本申请的过程中发现现有技术的方案至少存在以下一个或多个缺陷：

互联网+局域网技术缺陷包括：从WIFI/有线网络连接Zigbee缺点是需要有一个网关作为互联网与ZIGBEE网络的桥梁，ZIGBEE本身数据传输速率低，抗干扰性差，和IP协议对接比较复杂等。从蜂窝降到WIFI的前提是两个设备都同时连接了蜂窝与WIFI，成本高且配置复杂。从声波升到WIFI的缺点是从声波升到WIFI后,WIFI需要连接到互联网,才可以操作设备。

点对点技术的缺陷包括：蓝牙技术的缺点是蓝牙的各个版本不兼容，组网能力差。非接触式射频(NFC近场通信技术，RFID)的缺点是需要专门的硬件。声波通信技术的缺点是传播距离短,数据传输速率低，无法指定接受者,容易受干扰。数据传输的缺陷包括：只能在预先设计好的设备上进行特定功能的信息交换，缺少一定的普适性,想要让设备互相传输并互相理解更多的内容,都必须靠提前定义好新功能接口的数据格式。

目前想要让机器与机器之间的交互达到灵活性高且用户友好的标准仍然存在以下问题：1、机器与机器之间交互需要借助互联网：当前机器同机器的信息交互通常都需要借助互联网，比如家庭中对智能家居设备进行控制的场景，大部分的网关设备操作需要通过互联网进行，新设备通常需要先配网才可以。故现有技术中存在数据交互不便利、交互困难的现象。2、不同任务的业务接口不同，需要事先约定好：在设备同设备进行交互时,通常都需要先约定好接口,才能进行特定内容的交换或者执行某种操作。对于交互中的每一个功能,都需要有一个接口或者参数来定义。

发明内容

本发明实施例提供一种声音信息传输方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种声音信息传输方法，用于发送设备，包括：响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本；获取与所述自然语言文本对应的元信息，并将所述自然语言文本转换为语音信息；将所述语音信息基于第一声音频率通过声波发送至接收设备，将所述元信息基于第二声音频率通过声波发送至所述接收设备，其中，所述第一声音频率能够被人类听到，所述第二声音频率不能够被人类听到。

第二方面，本发明实施例提供一种声音信息传输方法，用于接收设备，包括：响应于接收到发送设备发送的语音信息和与所述语音信息对应的元信息，分别获取所述语音信息和所述元信息，其中，所述语音信息通过声波传输并能够被人类听到，所述语音信息通过声波传输并不能够被人类听到；基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息；若是，将所述语音信息解码为交互意图并执行所述交互意图。

第三方面，本发明实施例提供一种声音信息传输装置，用于发送设备，包括：编码程序模块，配置为响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本；获取转换程序模块，配置为获取与所述自然语言文本对应的元信息，并将所述自然语言文本转换为语音信息；发送程序模块，配置为将所述语音信息基于第一声音频率通过声波发送至接收设备，将所述元信息基于第二声音频率通过声波发送至所述接收设备，其中，所述第一声音频率能够被人类听到，所述第二声音频率不能够被人类听到。

第四方面，本发明实施例提供一种声音信息传输装置，用于接收设备，包括：接收获取程序模块，配置为响应于接收到发送设备发送的语音信息和与所述语音信息对应的元信息，分别获取所述语音信息和所述元信息，其中，所述语音信息通过声波传输并能够被人类听到，所述语音信息通过声波传输并不能够被人类听到；判断程序模块，配置为基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息；解码执行程序模块，配置为若是，将所述语音信息解码为交互意图并执行所述交互意图。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的声音信息传输方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的声音信息传输方法的步骤。

本申请的方法和装置通过将发送设备的交互意图编码成自然语言文本，将自然语言文本转换为语音信息并基于第一声音频率通过声波发送至接收设备，获取与自然语言文本对应的元信息并基于第二声音频率通过声波发送至接收设备，从而可以实现设备之间只需要一个基于声音的接口并且无需配网，通过声音就能够进行交互，更加便捷。进一步地，还提高了使用设备的安全性和通用性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种声音信息传输方法的流程图，用于发送设备；

图2为本发明一实施例提供的一种声音信息传输方法的流程图，用于接收设备；

图3为本发明一实施例提供的另一种声音信息传输方法的流程图；

图4为本发明一实施例提供的声音信息传输方法的一个具体示例的两种不同频率声波图；

图5为本发明一实施例提供的声音信息传输方法的一个具体示例的流程图；

图6为本发明一实施例提供的一种用于发送设备的声音信息传输装置的框图；

图7为本发明一实施例提供的一种用于接收设备的声音信息传输装置的框图；

图8是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的声音信息传输方法一实施例的流程图，用于发送设备，其中，发送设备可以是具备发音和/或拾音功能的设备，如智能音箱、智能手机、平板、电脑等。

如图1所示，在步骤101中，响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本；

在步骤102中，获取与所述自然语言文本对应的元信息，并将所述自然语言文本转换为语音信息；

在步骤103中，将所述语音信息基于第一声音频率通过声波发送至接收设备，将所述元信息基于第二声音频率通过声波发送至所述接收设备，其中，所述第一声音频率能够被人类听到，所述第二声音频率不能够被人类听到。

在本实施例中，对于步骤101，声音信息传输装置响应于发送设备的交互意图，并将交互意图编码成自然语言文本，例如，获取到用户的语音指令，基于用户的语音指令生成交互意图，并将交互意图基于自然语言编码为自然语言文本，例如，基于交互意图在预设词表中选择符合交互意图的词语，并基于语法规则将符合交互意图的词语组合成交互意图。

然后，对于步骤102，声音信息传输装置获取与自然语言文本对应的元信息，并将自然语言文本转换为语音信息，例如，将自然语言文本进行语音合成为语音信息并能够被用户听到和识别，其中，元信息是关于信息的信息，元信息允许服务器提供所发送数据的信息，接收方通过元信息可以判断本设备是否是该音频的接收者。

最后，对于步骤103，声音信息传输装置将语音信息基于第一声音频率通过声波发送至接收设备，将元信息基于第二声音频率通过声波发送至接收设备，其中，第一声音频率能够被人类听到，第二声音频率不能够被人类听到，例如，将语音信息作为主体通过可听声音频率发送至接收设备，这一过程中，发送的语音信息能够被用户听到并识别，进一步地，通过不可听声音频率发送经过编码的简短的元信息，其中，元信息能够基于预设的固定频率发送，可以同时将多个互不干扰的频率作为不可听声音的载体。

本实施例的方法通过将交互意图编码成自然语言文本，将自然语言文本转换为语音信息并基于第一声音频率通过声波发送至接收设备，获取与自然语言文本对应的元信息并基于第二声音频率通过声波发送至接收设备，从而可以实现设备之间只需要一个基于声音的接口并且无需配网，通过声音就能够进行远程操作，进一步地，还提高了使用设备的安全性和通用性。

在上述实施例所述的方法中，所述元信息可以包括：发送设备的ID、接收设备的ID和所述语音信息的校验信息。本实施例的方法通过元信息中包含的发送设备的ID、接收设备的ID和语音信息的校验信息，从而可以实现准确的将交互意图传输至接收设备。

在上述实施例所述的方法中，所述将所述语音信息基于第一声音频率通过声波发送，将所述元信息基于第二声音频率通过声波发送，包括：将第一声音频率的语音信息与第二声音频率的元信息同步发送至接收设备，例如，同时以可听声音频率以及不可听声音频率同步发出声波,完成信息的传输，除同步发送声波以外，还能够错开发送，例如，将其中的某一个先几百毫秒发送，或一前一后的发送。本实施例的方法通过将第一声音频率的语音信息与第二声音频率的元信息同步发送至接收设备，从而可以实现同步发出声音波可以在不增加可听声音内容的情况下增加信息传输的内容。

进一步参考图2，其示出了本申请一实施例提供的一种声音信息传输方法的流程图，用于接收设备，其中，接收设备可以是具备拾音和/或发音功能的设备，如智能音箱、智能手机、平板、电脑等。

如图2所示，在步骤201中，响应于接收到发送设备发送的语音信息和与所述语音信息对应的元信息，分别获取所述语音信息和所述元信息，其中，所述语音信息通过声波传输并能够被人类听到，所述语音信息通过声波传输并不能够被人类听到；

在步骤202中，基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息；

在步骤203中，若是，将所述语音信息解码为交互意图并执行所述交互意图。

在本实施例中，对于步骤201，声音信息传输装置响应于接收到发送设备发送的语音信息和与语音信息对应的元信息，分别获取语音信息和元信息，例如，当接收到声波后，通过一个预设的频率阈值将接收到的语音信息与语音信息对应的元信息分隔开，可以分别得到语音信息部分和元信息部分，其中，语音信息通过声波传输并能够被人类听到，语音信息通过声波传输并不能够被人类听到。

之后，对于步骤202，声音信息传输装置基于元信息判断语音信息是否是发送给接收设备的语音信息，例如，元信息中至少包含接收设备ID，对元信息进行解码后能够得到接收设备ID，判断是否是发送给当前接收设备的语音信息。

最后，对于步骤203，若是发送得当前接收设备的语音信息，将语音信息解码为交互意图并执行交互意图，例如，将语音信息转换成自然语言文本，并基于词表和语法规则将自然语言解码为交互意图并执行。

本实施例的方法通过获取语音信息和与语音信息对应元信息，并基于元信息判断语音信息是否是发送给接收设备的语音信息，从而可以实现通过声音就能够进行远程交互，提高了设备的安全性和通用性。

在上述实施例所述的方法中，所述元信息至少可以包括接收设备ID，所述基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息包括：判断元信息中的接收设备ID是否与当前接收设备的接收设备ID匹配，例如，若元信息中的接收设备ID与当前接收设备的接收设备ID匹配，则对发送给当前设备的信息进行响应，若元信息中的接收设备ID与当前接收设备的接收设备ID不匹配，则直接结束交互。

本实施例所述的方法通过判断元信息中的接收设备ID是否与当前接收设备的接收设备ID匹配，从而可以实现在当前接收设备准确的对发送设备进行响应的同时降低其他接收设备的功耗。

进一步参考图3，其示出了本申请一实施例提供的另一种声音信息传输方法的流程图。该流程图主要是对流程图2“将所述语音信息解码为交互意图并执行所述交互意图”之后的流程进一步限定的步骤的流程图。

如图3所示，在步骤301中，判断是否执行完成所述语音信息的交互意图；

在步骤302中，若执行完成，将执行结果通过声波反馈至所述发送设备；

在步骤303中，若执行未完成，将执行结果通过声波反馈至所述发送设备，以经由所述发送设备重新与所述接收设备进行交互。

在本实施例中，对于步骤301，声音信息传输装置判断是否执行完成语音信息的交互意图；之后，对于步骤302，若执行完成语音信息的交互意图，将执行结果通过声波反馈至发送设备；最后，对于步骤303，若执行未完成语音信息的交互意图，将执行结果通过声波反馈至发送设备，以经由发送设备重新与接收设备进行交互，例如，交互意图以打开空调为例，接收设备就是空调，若空调打开则会播报空调已打开，若空调未打开或未响应则会播报空调未打开，发送设备接收到空调已打开的反馈之后结束与接收设备的交互，若发送设备接收到空调未打开的反馈之后，重新生成打开空调的交互意图并与空调重新交互。

本实施例的方法通过判断是否执行完成语音信息的交互意图，从而可以实现更好的完成发送设备的交互意图，增加设备的智能性。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：首先，机器同机器之间的信息交互是需要基于某种载体或者介质，目前在家居环境中最普及的，能够作为载体的技术是WIFI。由于互联网与WIFI的普及，在家居场景下的IOT设备，技术人员倾向于直接借助互联网操作IOT设备，比如通过智能音箱控制家里的电灯。但是大多数产品的数据链接是相当复杂的，现有方案大致的实现步骤如下:

由音箱请求音箱的网络服务，然后由音箱的网络服务请求灯泡公司的网络服务，最后再由灯泡公司的网络服务通过互联网下放操作指令给家里的电灯，而不是直接由音箱发指令给电灯。

因此想要控制电灯，必须要让电灯接入到能够访问互联网的WIFI网络下。而由于WIFI的协议规定了只有配网成功后才能加入到网络，这就需要第一次配网的IOT设备通过输入密码的形式完成配置，继而造成了IOT设备配网复杂的现象。

在数据传输方面，如果使用WIFI作为组网技术，那么设备同设备的交互通常是基于TCP/IP协议，在使用TCP/IP类似的协议时，需要约定好协议族、网络地址和传输层端口后才能传输内容(数据包)。

基于TCP/IP协议传输的内容是由运行在接收方的程序进行解析，这就要求发送者发送的内容必须是接入方要求的结构,否则接收者将正确解析内容。

就目前来说，由于设备与设备之间缺乏一种通用的类似人类语言的协议交流的媒介，因此TCP/IP传输的内容通常是事先约定好的特定结构的内容，比如一段JSON或者XML。

这就导致了即便是相同的功能，在不同公司之间使用的接口通常也是不一样的。因此为了让A厂家和B厂家的智能网关都能够操作灯泡X，灯泡厂家需要同时兼容A厂家与B厂家的接口。

上述这些是该领域长期存在的问题。

相关技术中，为了降低WIFI配网的复杂度,让设备更容易的连接到无线网络，通常优化思路有两种。1、优化IOT设备首次连接WIFI的过程。

比如通过APP发送WIFI的SSID与密码给新的IOT设备，传输的机器可以基于蓝牙技术,也可以基于声波传递,或者其它点对点的组网技术。2、直接使用其它配网方便的组网技术控制IOT设备，比如Zigbee。

发明人在实现本申请的过程中发现：第一种优化思路只是在一定程度上简化了配网过程,本质上仍然需要配网，仍然不方便。第二种优化思路目前在家居环境下有部分厂家使用Zigbee作为组网技术，但Zigbee的网关通常只能控制自己公司的IOT设备，因此也并未大规模流行。同时，以上两种思路都未能解决设备与设备之间之间的数据传输需要依赖提前制定好的网络接口的问题。

发明人还发现，在互联网时代，互联网是绝大多数应用场景的落地载体，技术人员对互联网比较熟悉，思考方案时想要跳出互联网基础设施就变得比较困难。

目前还没有成熟的基于声波组网的协议，使用声波传输数据仍然面临着挑战。声波相比电磁波带宽小，传输速度慢，技术人员难以使用声波进行大量数据信息的传输。并且，普通频段的声波非常容易受环境噪音的干扰的特性，增加了数据传输的难度。在不能解决以上问题的情况下，很难说服技术人员，基于声波的组网及数据传输方案是可行的。

本申请的方案主要从以下几个方面入手进行设计和优化：

本申请实施例设计了适用于设备同设备之间基于声波进行数据交换的方法，方法同时以可听声音频率以及不可听声音频率同步发出声波，完成数据的传输。同步发出声音波可以在不增加可听声音内容的情况下增加数据传输内容。

可听声音频率发出的内容为经过特殊设计的自然语言编解码系统生成的文本对应的合成音，能够有效降低设备进行语音识别，语义理解的难度。将自然语言作为消息的主体可以借助语言本身的丰富语义达到“言简意赅”的效果，解决经过编码的数据体积太大不适合基于声波进行传输的问题。

不可听声音频率发出的内容为经过编码的简短的元信息，包括声音发送方设备ID，声音接收方的设备ID，可听声音的校验信息。能够解决由于声波是向四周进行传播的，在传播的过程中可能会有多个设备都收到请求的问题，但是声音发送方可能只想让某个设备进行响应的问题。不可听声音基于固定的频率发出，可以同时将多个互不干扰的频率作为不可听声音的载体。

当接收方收到声波后，基于预设的频率的阈值将声音分隔为可听声音频率的声音，以及不可听声音频率的声音，可以分别得到自然语言部分以及元信息数据部分的语音，通过使用自然语言编解码工具对可听声音频率的语音进行识别及解码得到识别结果与语义结果。通过本申请实施例的方法提供的解码工具对不可听声音频率的声音进行解码可以得到元数据，基于元数据设备可以知道当前消息是否是发送给该设备的，并只对发送给该设备的消息进行响应。

请参考图4，其示出了本发明一实施例提供的声音信息传输方法的一个具体示例的两种不同频率声波图。

如图4所示，首先，使用可听声波传输自然语言(人类语言)作为设备交互的消息主体，就如同人与人之间的交流一样。比如打开电灯，通过语言本身的丰富的信息完成设备与设备之间的信息交换。

其次，使用超声波，或接近超声波的频率传输额外的元信息，元信息至少包括接收方,可选地引入发送方的信息以及校验与纠错用的信息。

最后，将两个不同频率的声音合并到一起进行发送。

结合以上两种通道的声波，则可以在无需连接到互联网的情况下就可以让机器同机器之间完成类似人与人的交流模式。

进一步参考图5，其示出了本发明一实施例提供的声音信息传输方法的一个具体示例的流程图。

如图5所示，步骤1：设备100接收到用户要求打开灯光的请求(需要说明的是，此处的请求不一定是语音的请求，也可以是基于APP或者定时条件的操作，本申请在此没有限制)。

步骤2：设备100基于词法及语法规则生成了一句符合词法及语法规则的人耳可听语音，基于本申请实施例的协议将设备200作为消息接收者的信息编码并生成人耳不可听频率的声音，将两段语音进行合并。

步骤3：设备100通过发音装备发出指令，声音经过声波的传播到达设备200。

步骤4：设备200收到一条有效的语音(符合基于自然语言的声音传输方法)。

步骤5：设备200需要确认这条消息是发给设备200的，否则的话无需解析。

步骤6：设备200基于自然语言编解码工具获取识别内容及语义信息。

步骤7：设备200完成开启灯光的要求，并同时返回一句基于自然语言的声音传输方法语音作为反馈。

发明人在实现本发明的过程中发现本发明至少存在以下有益效果：只需要使用最基础的拾音及发音装备就能够进行数据的传输，不需要增加额外的设备，能够有效减低设备的成本，设备同设备之间的数据交换不再依赖于无线网络。进一步的，相互交流理解对方的意图，让设备同设备之间的通信内容变的更加自由灵活而不必通过事先约定好网络接口再相互调用，降低了设备交互的成本以及使用难度。天然的支持了跨设备跨品牌的联动与通信。另外，基于语音的特性能够让人类知道设备之间交流的内容，增加用户的安全感及体验。可以预见，尤其是对于经常在科幻片中出现的人形智能机器人，以及在智能家居场景下，本申请实施例的设计，可以将会让设备之间的交流更加的方便,高效准确。

总结来说，本申请实施例介绍的基于自然语言的声音传输方法，至少能够解决以下问题中的一个或多个：经过编码的数据体积太大不适合基于声波进行传输的问题；以及声音传播时，在不新增可听声音内容的情况下，接受到声波的设备无法确认声音是不是传输给自己的问题。

发明人在实现本发明的过程中发现本申请实施例能够达到的更深层次的效果：通信基于声波，只要设备有收音装制，都可以响应基于自然语言的请求。对于当前IOT设备来说，配网一直是用户头疼的问题，尤其是对于不大熟悉互联网设备的小孩及老年人，无需配网的特性无疑将提高IOT设备的用户体验，同时考虑到暴露在互联网的设备在遭遇网络攻击将可能泄漏用户隐私，对于一些常见家用IOT设备，能够不连接互联网就能够进行远程操作，对于使用者来说能够带来更强的安全感，并且能够提升产品对用户的吸引力。

相对于无线电波来说，普通用户对于语音无疑更熟悉，如果设备同设备之间的交互也是基于声音，那么在设备同设备进行交互时，就可以做到这些信息对用户是可感知的，可以降低技术带给用户的陌生感。

相关技术中，当设备与设备交互是基于网络接口时，设备只有提前知道对方的接口地址，才可能进行交互，而通常设备基于安全性考虑，是不会暴露接口给第三方的，即便暴露接口也只是少部分接口用于二次开发。当前使用网络接口的对接形式，决定了接口的数量是一个有限的集合，比如一个故事机设备，播放音乐需要一个接口，切换下一首需要一个接口，设置闹钟也需要一个接口，删除闹钟也需要一个接口。

而如果是基于本申请实施例的自然语言编解码的声音协议系统，只要设备收到的信息是能够正确被解析并理解的，就可以直接执行操作，对于设备来说只需要提供一个基于声音的接口就可以同其它设备进行交互了，甚至当收到超过能力的请求时，也可能明确拒绝并告知原因。

请参考图6，其示出了本发明一实施例提供的用于发送设的声音信息传输装置的框图。

如图6所示，声音信息传输装置600，包括编码程序模块610、获取转换程序模块620和发送程序模块630。

其中，编码程序模块610，配置为响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本；获取转换程序模块620，配置为获取与所述自然语言文本对应的元信息，并将所述自然语言文本转换为语音信息；发送程序模块630，配置为将所述语音信息基于第一声音频率通过声波发送至接收设备，将所述元信息基于第二声音频率通过声波发送至所述接收设备，其中，所述第一声音频率能够被人类听到，所述第二声音频率不能够被人类听到。

请参考图7，其示出了本发明一实施例提供的用于接收设备的声音信息传输装置的框图。

如图7所示，声音信息传输装置700，包括接收获取程序模块710、判断程序模块720和解码执行程序模块730。

其中，接收获取程序模块710，配置为响应于接收到发送设备发送的语音信息和与所述语音信息对应的元信息，分别获取所述语音信息和所述元信息，其中，所述语音信息通过声波传输并能够被人类听到，所述语音信息通过声波传输并不能够被人类听到；判断程序模块720，配置为基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息；解码执行程序模块730，配置为若是，将所述语音信息解码为交互意图并执行所述交互意图。

应当理解，图6和图7中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6和图7中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如编码程序模块可以描述为响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如编码程序模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的声音信息传输方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本；

获取与所述自然语言文本对应的元信息，并将所述自然语言文本转换为语音信息；

将所述语音信息基于第一声音频率通过声波发送至接收设备，将所述元信息基于第二声音频率通过声波发送至所述接收设备，其中，所述第一声音频率能够被人类听到，所述第二声音频率不能够被人类听到。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于接收到发送设备发送的语音信息和与所述语音信息对应的元信息，分别获取所述语音信息和所述元信息，其中，所述语音信息通过声波传输并能够被人类听到，所述语音信息通过声波传输并不能够被人类听到；

基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息；

若是，将所述语音信息解码为交互意图并执行所述交互意图。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据声音信息传输装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至声音信息传输装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项声音信息传输方法。

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该设备包括：一个或多个处理器810以及存储器820，图8中以一个处理器810为例。声音信息传输方法的设备还可以包括：输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例声音信息传输方法。输入装置830可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于声音信息传输装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

作为另一种实施方式，上述电子设备应用于声音信息传输装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声音信息传输方法，用于发送设备，包括：

2.根据权利要求1所述的方法，其中，所述元信息包括：发送设备的ID、接收设备的ID和所述语音信息的校验信息。

3.根据权利要求1所述的方法，其中，所述将所述语音信息基于第一声音频率通过声波发送，将所述元信息基于第二声音频率通过声波发送，包括：

将所述第一声音频率的语音信息与所述第二声音频率的元信息同步发送至所述接收设备。

4.一种声音信息传输方法，用于接收设备。包括：

5.根据权利要求4所述的方法，其中，所述元信息至少包括接收设备ID，所述基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息包括：

判断所述元信息中的接收设备ID是否与当前接收设备的接收设备ID匹配。

6.根据权利要求4所述的方法，其中，在所述将所述语音信息解码为交互意图并执行所述交互意图之后，还包括：

判断是否执行完成所述语音信息的交互意图；

若执行完成，将执行结果通过声波反馈至所述发送设备；

若执行未完成，将执行结果通过声波反馈至所述发送设备，以经由所述发送设备重新与所述接收设备进行交互。

7.一种声音信息传输装置，用于发送设备，包括：

编码程序模块，配置为响应于所述发送设备的交互意图，将所述交互意图编码成自然语言文本；

获取转换程序模块，配置为获取与所述自然语言文本对应的元信息，并将所述自然语言文本转换为语音信息；

发送程序模块，配置为将所述语音信息基于第一声音频率通过声波发送至接收设备，将所述元信息基于第二声音频率通过声波发送至所述接收设备，其中，所述第一声音频率能够被人类听到，所述第二声音频率不能够被人类听到。

8.一种声音信息传输装置，用于接收设备。包括：

接收获取程序模块，配置为响应于接收到发送设备发送的语音信息和与所述语音信息对应的元信息，分别获取所述语音信息和所述元信息，其中，所述语音信息通过声波传输并能够被人类听到，所述语音信息通过声波传输并不能够被人类听到；

判断程序模块，配置为基于所述元信息判断所述语音信息是否是发送给所述接收设备的语音信息；

解码执行程序模块，配置为若是，将所述语音信息解码为交互意图并执行所述交互意图。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。