CN115021966A

CN115021966A - 一种语音接入方法、用户接入设备和远端系统

Info

Publication number: CN115021966A
Application number: CN202210485793.5A
Authority: CN
Inventors: 陈鹞; 万红星; 杨作兴; 房汝明; 向志宏
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-09-06

Abstract

本发明实施例提供了一种语音接入方法、用户接入设备和远端系统。其中的方法包括：向远端系统发送用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；在接收到所述远端系统针对所述用户身份认证请求返回的认证通过消息后，采集语音信号；获取所述语音信号对应的目标用户身份信息，并将所述目标用户身份信息嵌入所述语音信号中，得到待发送的目标语音信号；将所述目标语音信号发送至所述远端系统的目标接入节点。本发明实施例可以在实现语音接入远端系统的基础上，可以保证语音接入的用户身份的合法性，进而提高远端系统的安全性。

Description

一种语音接入方法、用户接入设备和远端系统

技术领域

本发明涉及智能家居技术领域，尤其涉及一种语音接入方法、用户接入设备和远端系统。

背景技术

随着智能家居技术的发展，越来越多的智能家居设备接入智能家居系统中。智能家居系统以住宅为平台，利用综合布线技术、网络通信技术、智能家居-系统设计方案安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成，构建高效的住宅设施与家庭日常事务的管理系统，提升家居安全性、便利性、舒适性、艺术性，并实现环保节能的居住环境。

用户可以通过语音与智能家居设备进行信息交互，从而实现用户通过语音操作控制智能家居设备，为用户带来极大的便利。

然而，目前智能家居技术更多关注于智能家居设备之间的交互，对于智能家居设备的交互安全性考虑不够，存在非法侵入的风险。

发明内容

本发明实施例提供一种语音接入方法、用户接入设备和远端系统，可以在实现语音接入远端系统的基础上，可以保证语音接入的用户身份的合法性，进而提高远端系统的安全性。

第一方面，本发明实施例公开了一种语音接入方法，应用于用户接入设备，所述方法包括：

向远端系统发送用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；

在接收到所述远端系统针对所述用户身份认证请求返回的认证通过消息后，采集语音信号；

获取所述语音信号对应的目标用户身份信息，并将所述目标用户身份信息嵌入所述语音信号中，得到待发送的目标语音信号；

将所述目标语音信号发送至所述远端系统的目标接入节点。

第二方面，本发明实施例公开了一种语音接入方法，应用于远端系统，所述方法包括：

接收用户接入设备发送的用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；

对所述用户身份信息进行认证，并向所述用户接入设备返回所述用户身份认证请求的认证结果消息；

通过目标接入节点接收所述用户接入设备发送的目标语音信号，所述目标语音信号为所述用户接入设备对采集的语音信号嵌入该语音信号对应的目标用户身份信息所得到。

第三方面，本发明实施例公开了一种用户接入设备，所述用户接入设备包括：

身份认证请求模块，用于向远端系统发送用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；

语音采集模块，用于在接收到所述远端系统针对所述用户身份认证请求返回的认证通过消息后，采集语音信号；

语音融合模块，用于获取所述语音信号对应的目标用户身份信息，并将所述目标用户身份信息嵌入所述语音信号中，得到待发送的目标语音信号，并将所述目标语音信号发送至所述远端系统的目标接入节点。

第四方面，本发明实施例公开了一种远端系统，所述远端系统包括：

身份认证模块，用于接收用户接入设备发送的用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；对所述用户身份信息进行认证，并向所述用户接入设备返回所述用户身份认证请求的认证结果消息；

语音接收模块，用于通过目标接入节点接收所述用户接入设备发送的目标语音信号，所述目标语音信号为所述用户接入设备对采集的语音信号嵌入该语音信号对应的目标用户身份信息所得到。

第五方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音接入方法。

本发明实施例包括以下优点：

本发明实施例通过用户接入设备实现将用户的语音信号接入远端系统。用户接入设备先向远端系统发送用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息，以保证用户身份的合法性。对于通过用户身份信息认证的合法的用户身份信息，才可以执行后续的语音接入步骤，以保证接入所述远端系统的语音信号的合法性和安全性。此外，本发明实施例将采集的语音信号对应的目标用户身份信息嵌入该语音信号中，得到目标语音信号，将该目标语音信号发送至所述远端系统的目标接入节点。由此，远端系统通过该目标语音信号中隐藏的目标用户身份信息可以识别该目标语音信号对应的用户身份。再者，本发明实施例将目标用户身份信息隐藏在语音信号中，可以避免窃听者的检查，提高用户信息的安全性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音接入方法实施例的步骤流程图；

图2是本发明的一种用户接入设备接入元宇宙的系统示意图；

图3是本发明的另一种语音接入方法实施例的步骤流程图；

图4是本发明的一种用户接入设备实施例的结构框图；

图5是本发明的一种远端系统实施例的结构框图；

图6是本发明的一个示例中两个用户通过各自的用户接入设备接入远端系统的交互示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

参照图1，示出了本发明的一种语音接入方法实施例的步骤流程图，所述方法可应用于用户接入设备，所述方法可以包括如下步骤：

步骤101、用户接入设备向远端系统发送用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；

步骤102、在接收到所述远端系统针对所述用户身份认证请求返回的认证通过消息后，用户接入设备采集语音信号；

步骤103、用户接入设备获取所述语音信号对应的目标用户身份信息，并将所述目标用户身份信息嵌入所述语音信号中，得到待发送的目标语音信号；

步骤104、用户接入设备将所述目标语音信号发送至所述远端系统的目标接入节点。

本发明提供的语音接入方法可以实现将用户的语音信号接入远端系统，并且在实现语音接入远端系统的基础上，可以保证语音接入的用户身份的合法性，进而提高远端系统的安全性。

所述远端系统可以包括智能家居系统或者元宇宙等。所述用户接入设备指接入所述远端系统的用户端设备，本发明实施例对所述用户接入设备的具体形态不做限制。例如，在所述远端系统为智能家居系统时，所述用户接入设备可以为智能家居系统中的语音采集设备，该语音采集设备可以为集成在智能家居系统中的智能家居设备上的模块，或者，该语音采集设备可以为独立于智能家居设备的子设备。又如，在所述远端系统为元宇宙时，所述用户接入设备可以为VR(Virtual Reality，虚拟现实)头盔或者VR眼镜等。

在本发明实施例中，目标接入节点可以在云端，也可以是本地的局域网。

所述目标接入节点为用户与所述远端系统的交互枢纽。例如，在所述远端系统为智能家居系统时，所述目标接入节点可以为接入该智能家居系统的任一智能家居设备。本发明实施例可以将用户的语音信号通过目标接入节点接入智能家居系统，进而实现对智能家居系统中的智能家居设备进行语音控制，并且可以提高智能家居系统的安全性。

为了防止非法身份入侵智能家居系统，提高智能家居系统的安全性，本发明实施例首先由远端系统对登录所述用户接入设备的用户身份信息进行认证，在确认用户身份信息合法之后，由用户接入设备采集用户的语音信号。此外，本发明实施例还由用户接入设备获取采集的语音信号对应的目标用户身份信息，并将获取的目标用户身份信息嵌入该语音信号中，得到待发送的目标语音信号；由用户接入设备将该目标语音信号发送至所述远端系统的目标接入节点。该目标语音信号中携带有目标用户身份信息，在目标接入节点接收到该目标语音信号之后，可以进一步识别该目标用户身份信息是否合法，若合法，则可以响应该目标语音信号，执行该目标语音信号对应的控制指令；否则可以拒绝响应该目标语音信号。由此，本发明实施例在对用户身份信息进行认证之后，对于每一条接入智能家居设备的语音信号，都嵌入了发出该语音信号的用户的身份信息，可以进一步增强智能家居系统的安全性。

可选地，在所述远端系统为智能家居系统时，所述用户接入设备可以为语音采集设备，所述用户身份认证请求可以包括所述语音采集设备采集的语音唤醒指令，所述用户身份认证请求中携带的用户身份信息可以包括从所述语音唤醒指令中提取的声纹特征。所述远端系统可以对该声纹特征进行验证，若该声纹特征通过身份认证(如该声纹特征与已注册的合法用户的声纹特征相匹配)，则可以向用户接入设备返回认证通过消息。

一个示例中，假设智能家居系统包括智能音箱、智能网关、以及智能插座，目标接入节点为智能音箱，通过本发明实施例可以实现对该目标接入节点进行语音控制。例如，由远端系统对用户身份信息进行认证后，假设采集到用户的语音信号为打开智能音箱的控制指令，则将携带有目标用户身份信息的目标语音信号发送至目标接入点(智能音箱)后，目标接入节点可以识别该目标语音信号中携带的目标用户身份信息是否合法，若合法，则可以打开智能音箱。进一步地，通过本发明实施例，还可以实现通过所述目标接入点对与该目标接入节点连接的其他智能家居设备进行语音控制。例如，在上述示例中，智能插座通过智能网关与智能音箱相连，则在经过用户身份信息认证之后，假设采集到用户的语音信号为打开智能插座的控制指令，则将携带目标用户身份信息的目标语音信号发送至目标接入节点(智能音箱)后，目标接入节点可以识别目标语音信号中携带的目标用户身份信息是否合法，若合法，则目标接入节点可以通过智能网关将该打开智能插座的控制指令发送至智能插座，从而控制打开智能插座。

在所述远端系统为元宇宙时，所述目标接入节点可以为元宇宙的虚拟端口，该虚拟端口对应真实用户在元宇宙中的一个虚拟用户。

本发明实施例通过用户接入设备实现用户与远端系统之间的连接，远端系统对登录所述用户接入设备的用户身份信息进行身份认证，实现对用户身份信息进行标识以及合法性验证。对于通过身份认证的合法的用户身份信息，才可以执行后续的语音接入步骤，以保证接入所述远端系统的语音信号的合法性和安全性。

需要说明的是，本发明实施例对用户登录所述用户接入设备的具体方式不做限制。例如，可以采用账户密码的方式登录，或者，还可以采用U盾的方式登录，或者，还可以采用声纹识别的方式登录，等等。

在本发明的一种可选实施例中，所述向所述远端系统发送用户身份认证请求之前，所述方法还可以包括：向所述远端系统发送设备认证请求，所述设备认证请求中携带有所述用户接入设备的设备信息。

为进一步提高远端系统的安全性，避免非法设备的入侵，本发明实施例在对登录用户接入设备的用户身份信息进行用户身份认证之前，还可以对用户接入设备进行设备认证，以保证接入所述远端系统的用户接入设备的合法性。需要说明的是，本发明实施例对设备认证和用户身份认证的具体方式不做限制。示例性地，可以采用公钥算法或者HMAC(Hash-based Message Authentication Code，密钥相关的哈希运算消息认证码)算法实现设备认证和用户身份认证。

进一步地，所述向所述远端系统发送用户身份认证请求，可以包括：在接收到所述远端系统针对所述设备认证请求返回的认证通过消息后，向所述远端系统发送用户身份认证请求。

在具体实施中，远端设备可以先对用户接入设备进行设备认证，实现用户接入设备的认证和鉴权。在通过设备认证之后，远端系统再对登录所述用户接入设备的用户身份信息进行用户身份认证，实现用户身份的标识和合法性验证。在通过设备认证和用户身份认证的双重认证之后，才可以进行语音接入，以进一步保证远端系统的安全性。

本发明的语音接入方法可以实现将用户的语音信号接入智能家居系统，并对接入智能家居系统的语音信号的设备信息以及用户身份信息进行认证，保证智能家居系统的安全性。

具体地，对于某个用户持有的用户接入设备，在该用户启动该用户接入设备并登录该用户的用户身份信息之后，该用户接入设备可以向智能家居系统发送设备认证请求，该设备认证请求中携带有该用户接入设备的设备信息。该智能家居系统接收到该设备认证请求之后，对其中携带的设备信息进行合法性认证，并返回认证结果消息。在接收到该智能家居系统针对该设备认证请求返回的认证通过消息后，该用户接入设备可以向该智能家居系统发送用户身份认证请求，该用户身份认证请求中携带有登录该用户接入设备的用户身份信息。该智能家居系统接收到该用户身份认证请求之后，对其中携带的用户身份信息进行用户身份认证，并返回认证结果消息。在接收到该智能家居系统针对该用户身份认证请求返回的认证通过消息后，该用户接入设备可以采集用户的语音信号，并获取采集的语音信号对应的目标用户身份信息(如该用户登录的用户身份信息)，并将该目标用户身份信息嵌入采集的语音信号中，得到待发送的目标语音信号；该用户接入设备将该目标语音信号发送至该智能家居系统的目标接入节点，从而实现将用户的语音信号接入该智能家居系统。

所述目标接入节点可以为已接入所述智能家居系统的任一智能家居设备，从而可以实现用户对已接入所述智能家居系统中的智能家居设备进行语音控制。在智能家居系统的应用场景中，智能家居系统可以通过目标接入节点接收来自用户接入设备的目标语音信号，该目标语音信号中携带有目标用户身份信息，由此可以区分接收到的目标语音信号的用户身份，从而实现语音信号与用户身份的绑定，可以防止非法身份入侵，进而增强智能家居系统的安全性。

本发明的语音接入方法可以实现将用户的语音信号接入元宇宙，并对接入元宇宙的语音信号的设备信息以及用户身份信息进行认证，以保证元宇宙的系统安全性。此外，通过本发明的语音接入方法还可以实现虚拟用户之间的语音交流。

元宇宙可以理解为是人们所熟知的日常生活的数字版本。元宇宙的实现基于芯片技术、网络通信技术、VR(Virtual Reality，虚拟现实)/AR(Augmented Reality，增强现实)/MR(Mixed Reality，混合现实)/XR(Extended Reality，扩展现实)技术、游戏技术(如游戏引擎、游戏代码、多媒体资源等)、AI(Artificial Intelligence，人工智能)技术、区块链技术等。现实世界中的用户在元宇宙中的形象可以称为数字化身，通常通过2D或3D形象展示，并具有用户的实际特征。

在具体实施中，每个用户可以独立使用各自的用户接入设备。参照图2，示出了本发明的一种用户接入设备接入元宇宙的系统示意图。如图2所示，用户A使用自己的用户接入设备A，登录用户A的用户身份信息。在用户接入设备A通过远端系统的设备认证以及用户A的用户身份信息通过远端系统的身份认证之后，用户接入设备A可以采集用户A的语音信号。由于用户A独立使用自己的用户接入设备A，因此可以确定采集的语音信号对应的目标用户身份信息即为用户A的用户身份信息，此时用户接入设备A可以将用户A的用户身份信息嵌入采集的语音信号中，得到待发送的目标语音信号，并将该目标语音信号发送至所述远端系统的目标接入节点。同样地，对于用户B，用户B可以使用自己的用户接入设备B，登录用户B的用户身份信息，在通过设备认证和用户身份认证之后，用户接入设备B可以将嵌入用户B的用户身份信息的目标语音信号发送至所述远端系统的目标接入节点。

在本发明的一种可选实施例中，所述远端系统可以为元宇宙，在元宇宙的应用场景中，真实用户分别在元宇宙中对应有各自的虚拟用户(或称为数字化身)。因此，在所述远端系统为元宇宙时，所述远端系统可以包括至少一个接入节点，每个接入节点对应真实用户在元宇宙中的一个虚拟用户，也即，每个接入节点与用户身份信息具有一一对应的绑定关系。本发明实施例对所述接入节点的具体形式不做限制，示例性地，所述接入节点可以为元宇宙的虚拟端口。在具体实施中，所述接入节点还可以实现用户接入设备与元宇宙的物理层连接。

所述将所述目标语音信号发送至所述远端系统的目标接入节点，可以包括：将所述目标语音信号发送至与所述目标语音信号对应的用户身份信息绑定的目标接入节点。

示例性地，假设用户A的用户身份信息绑定的接入节点为接入节点1，用户B的用户身份信息绑定的接入节点为接入节点2。在上述示例中，用户接入设备A可以将嵌入用户A的用户身份信息的目标语音信号发送至所述远端系统的接入节点1。用户接入设备B可以将嵌入用户B的用户身份信息的目标语音信号发送至所述远端系统的接入节点2。

进一步地，所述方法还可以包括：接收所述目标接入节点返回的对端语音信号，所述对端语音信号来自所述目标接入节点的对端接入节点。

所述对端接入节点指与所述目标接入节点进行语音交互的接入节点。在所述远端系统为元宇宙时，所述远端系统可以包括与不同用户身份信息绑定的接入节点，所述接入节点可以作为真实用户在元宇宙中的数字化身。通过接入节点之间的交互可以实现虚拟用户之间的语音交互。

以上述示例为例，假设用户A对应的虚拟用户与用户B对应的虚拟用户需要进行语音交互。在接入节点1为目标接入节点时，接入节点2则为接入节点1的对端接入节点。反之，在接入节点2为目标接入节点时，接入节点1则为接入节点2的对端接入节点。

用户接入设备A将嵌入用户A的用户身份信息的目标语音信号发送至所述远端系统的接入节点1之后，接入节点1还可以将该嵌入用户A的用户身份信息的目标语音信号发送至接入节点2。接入节点2接收到接入节点1发送的该目标语音信号之后，根据该目标语音信号中携带的用户身份信息即可得知该目标语音信号来自于用户A。同样地，用户接入设备B将嵌入用户B的用户身份信息的目标语音信号发送至所述远端系统的接入节点2之后，接入节点2还可以将该嵌入用户B的用户身份信息的目标语音信号发送至接入节点1。接入节点1接收到接入节点2发送的该目标语音信号之后，根据该目标语音信号中携带的用户身份信息即可得知该目标语音信号来自于用户B。由此，可以实现用户A和用户B在元宇宙中对应的虚拟用户之间的语音交互。

在本发明的一种可选实施例中，所述对端接入节点的个数可以大于或等于1。

本发明实施例对元宇宙中的语音交互方式不做限制。所述语音交互方式可以包括但不限于如下任意一种：单点对单点、单点对多点、以及广播。其中，单点对单点指两个用户之间一对一的交互方式。单点对多点指一个用户对一个群组的交互方式。广播指一个用户对元宇宙中所有用户的交互方式。

在本发明实施例中，所述目标语音信号中可以携带有对端标识，用于标识该目标语音信号需要发送至哪个对端接入节点。在所述远端系统为元宇宙时，所述远端系统可以包括至少一个接入节点，每个接入节点对应真实用户在元宇宙中的一个虚拟用户，也即，每个接入节点与用户身份信息具有一一对应的绑定关系。因此，所述对端标识可以为对端接入节点的节点标识，或者，所述对端标识可以为对端接入节点对应的用户身份信息等，本发明对此不做限制。例如，在上述示例中，对于用户A需要发送给元宇宙中用户B的目标语音信号，该目标语音信号中携带的对端标识可以为用户B的用户身份信息，则该目标语音信号可以经由元宇宙中用户A对应的接入节点发送至元宇宙中用户B对应的接入节点。又如，对于用户A需要发送给元宇宙中某个群组中各用户的目标语音信号，该目标语音信号中携带的对端标识可以为该群组的群组标识(或者该对端标识可以包括该群组中各用户的用户身份信息)，则该目标语音信号可以经由元宇宙中用户A对应的接入节点发送至元宇宙中该群组各用户对应的接入节点。再如，对于用户A需要发送给元宇宙中所有用户的目标语音信号，该目标语音信号中携带的对端标识可以为广播标识，则该目标语音信号可以经由元宇宙中用户A对应的接入节点发送至元宇宙中所有用户对应的接入节点。

在具体实施中，本发明实施例还可以实现多个用户共同使用一个用户接入设备接入远端系统，以节省用户接入设备的硬件成本。

在本发明的一种可选实施例中，登录所述用户接入设备的用户身份信息的个数大于1，所述获取所述语音信号对应的目标用户身份信息，可以包括：

步骤S11、对采集的语音信号进行声纹识别，得到所述语音信号对应的声纹特征；

步骤S12、根据预先建立的用户身份信息与声纹特征的映射关系，确定所述语音信号对应的目标用户身份信息。

在多个用户共同使用一个用户接入设备时，可以通过该用户接入设备的语音采集装置同时采集多个用户的语音信号。在某一时刻采集到一个用户的语音信号时，可以对该语音信号提取声纹特征，根据提取的声纹特征确定该语音信号对应的目标用户身份信息。在某一时刻采集到多个用户的语音信号时，可以对每个语音信号分别提取声纹特征，以确定每个语音信号对应的目标用户身份信息。

具体地，本发明实施例可以预先建立已注册的用户身份信息与声纹特征的映射关系。这样，在多个用户共同使用一个用户接入设备时，可以对采集每个的语音信号进行声纹识别，得到每个语音信号对应的声纹特征，根据预先建立的用户身份信息与声纹特征的映射关系，即可确定每个语音信号对应的目标用户身份信息，从而可以将相应目标用户身份信息嵌入相应的语音信号中。如果用户接入设备识别到当前采集的语音信号对应的声纹特征在预先建立的映射关系中不存在相匹配的声纹特征，说明当前采集的语音信号可能是旁人的声音或其他噪音等，此时可以忽略该语音信号。

在本发明的一种可选示例中，登录所述用户接入设备的用户身份信息的个数大于1，所述采集语音信号，可以包括：通过所述用户接入设备外接的多个子设备(比如，麦克风)分别采集不同用户身份信息对应的语音信号，所述子设备与用户身份信息具有一一对应的绑定关系。

在远端系统为元宇宙的场景中，存在不同虚拟用户之间需要进行语音交互的情况，也即，需要将现实世界中的多个用户的语音信号接入远端系统。多个用户可以独立使用各自的用户接入设备或者共同使用一个用户接入设备。多个用户共同使用一个用户接入设备(如同一个VR眼镜)时，该用户接入设备可以支持同时登录多个用户身份信息，且该用户接入设备可以外接的多个子设备(如麦克风)，每个麦克风与已登录的一个用户身份信息具有绑定关系，由此，通过不同麦克风可以分别采集不同用户身份信息对应的语音信号。

在本发明实施例中，每个用户可以使用一个子设备与共用的用户接入设备相连接，由于子设备与用户身份信息具有一一对应的绑定关系，因此，通过子设备采集的语音信号与该子设备绑定的用户身份信息相对应，用户接入设备即可得知每个子设备采集的语音信号对应的目标用户身份信息。通过子设备采集用户的语音信号可以实现语音信号与用户身份信息的绑定，可以避免多个用户使用同一个语音采集装置导致语音信号相互干扰的问题，进而提高语音质量，并且用户接入设备无需执行声纹特征提取以及声纹特征匹配的操作，可以减少用户接入设备的操作步骤，提高语音接入的实时性。

本发明实施例对子设备的形式不做限制，所述子设备可以是具有语音采集功能的任意设备，如麦克风。

需要说明的是，本发明实施例对采集的语音信号的格式不做限制。示例性地，为保证语音质量，采集的语音信号可以为PCM(Pulse Code Modulation，脉冲编码调制)或ADPCM(Adaptive Differential Pulse Code Modulation，自适应差分脉冲编码调制)格式的原始语音信号。

在本发明的一种可选实施例中，所述将所述目标用户身份信息嵌入所述语音信号中，得到待发送的目标语音信号，可以包括：

步骤S21、对所述语音信号进行第一变换，得到中间语音信号；

步骤S22、对所述目标用户身份信息进行加密，得到身份信息密文；

步骤S23、将所述身份信息密文嵌入所述中间语音信号，并将嵌入后的中间语音信号进行第二变换，得到目标语音信号。

本发明实施例对于在语音信号中嵌入目标用户身份信息的实现方式不做限制。可选地，本发明实施例采用语音信息隐藏算法或者语音水印算法，将目标用户身份信息嵌入语音信号。

本发明实施例采用语音信息隐藏算法或者语音水印算法，将目标用户身份信息加密后隐藏在语音信号中，为目标用户身份信息的传递提供伪装，不但隐藏了信息的内容而且隐藏了信息的存在。该目标语音信号仍然是正常的语音信号，在这个语音信号中隐藏着目标用户身份信息，可以逃避窃听者的检查，进而可以提高语音信号传输的安全性，以及保证用户身份信息的安全性。

其中，第一变换用于将所述语音信号做预处理变换，便于后续将用户身份信息嵌入语音信号中，该变换的目的是为了降低嵌入的身份信息对原始语音信号质量的影响，同时提高嵌入后的身份信息抗干扰的鲁棒性。第二变换包括身份信息的嵌入过程和将嵌入身份信息后的中间语音信号重新变换为语音信号的过程。

第一变换和第二变换的具体变换过程与嵌入方法相关，嵌入方法可以包括但不限于基于时域、频域、编码域等方法。基于时域如扩频法、LSB(Least Significant Bit，最低有效位)法等。基于频域如DCT(Discrete Cosine Transform，离散余弦变换)法、DWT(Discrete Wavelet Transform，离散小波变换)法、SVD(Singular Value Decomposition，奇异值分解)法等。

以基于DCT-SVD的嵌入方法为例，第一变换过程可以包括：先对采集的语音信号作DCT处理得到DCT信号，然后对DCT信号作SVD处理，得到中间语音信号。第二变换过程可以包括：先对中间语音信号嵌入目标用户身份信息，如采用QIM(Quantized index modulation，量化索引调制)方法将身份信息密文嵌入所述中间语音信号，然后再对嵌入后的中间语音信号先作ISVD(InverseSingular Value Decomposition，反奇异值分解)处理，接着再作IDCT(Inverse Discrete Cosine Transform，反离散余弦变换)处理，从而得到嵌入目标用户身份信息的目标语音信号。

参照图3，示出了本发明的另一种语音接入方法实施例的步骤流程图，所述方法可应用于远端系统，所述方法可以包括如下步骤：

步骤301、由远端系统接收用户接入设备发送的用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；

步骤302、远端系统对所述用户身份信息进行认证，并向所述用户接入设备返回所述用户身份认证请求的认证结果消息；

步骤303、远端系统通过目标接入节点接收所述用户接入设备发送的目标语音信号，所述目标语音信号为所述用户接入设备对采集的语音信号嵌入该语音信号对应的目标用户身份信息所得到。

其中，所述认证结果消息包括认证通过或者认证失败。

所述远端系统在语音接入过程中执行的操作步骤与图1所示的实施例中的操作步骤相对应，此处不再进行赘述。

可选地，所述接收用户接入设备发送的用户身份认证请求之前，所述方法还可以包括：

步骤S31、接收所述用户接入设备发送的设备认证请求，所述设备认证请求中携带有所述用户接入设备的设备信息；

步骤S32、对所述设备信息进行认证，并向所述用户接入设备返回所述设备认证请求的认证结果消息。

可选地，所述远端系统可以包括智能家居系统或者元宇宙。

可选地，所述远端系统为元宇宙，所述远端系统中的目标接入节点与用户身份信息具有一一对应的绑定关系，所述通过目标接入节点接收所述用户接入设备发送的目标语音信号，可以包括：通过与所述目标语音信号对应的用户身份信息绑定的目标接入节点接收所述目标语音信号。

可选地，所述方法还可以包括：通过所述目标接入节点将所述目标语音信号发送至所述目标接入节点的对端接入节点。

可选地，所述方法还可以包括：通过所述对端接入节点接收对端语音信号，并将所述对端语音信号发送至所述目标接入节点。

综上，本发明实施例通过用户接入设备实现将用户的语音信号接入远端系统。用户接入设备先向远端系统发送用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息，以保证用户身份的合法性。对于通过用户身份信息认证的合法的用户身份信息，才可以执行后续的语音接入步骤，以保证接入所述远端系统的语音信号的合法性和安全性。此外，本发明实施例将采集的语音信号对应的目标用户身份信息嵌入该语音信号中，得到目标语音信号，将该目标语音信号发送至所述远端系统的目标接入节点。由此，远端系统通过该目标语音信号中隐藏的目标用户身份信息可以识别该目标语音信号对应的用户身份。再者，本发明实施例将目标用户身份信息隐藏在语音信号中，可以避免窃听者的检查，提高用户信息的安全性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种用户接入设备实施例的结构框图，所述用户接入设备可以包括：

身份认证请求模块401，用于向远端系统发送用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；

语音采集模块402，用于在接收到所述远端系统针对所述用户身份认证请求返回的认证通过消息后，采集语音信号；

语音融合模块403，用于获取所述语音信号对应的目标用户身份信息，并将所述目标用户身份信息嵌入所述语音信号中，得到待发送的目标语音信号，并将所述目标语音信号发送至所述远端系统的目标接入节点。

可选地，所述用户接入设备还包括：

设备认证请求模块，用于向所述远端系统发送设备认证请求，所述设备认证请求中携带有所述用户接入设备的设备信息；

所述身份认证请求模块，具体用于在接收到所述远端系统针对所述设备认证请求返回的认证通过消息后，向所述远端系统发送用户身份认证请求。

可选地，登录所述用户接入设备的用户身份信息的个数大于1，所述用户接入设备还包括身份识别模块，用于对采集的语音信号进行声纹识别，得到所述语音信号对应的声纹特征；根据预先建立的用户身份信息与声纹特征的映射关系，确定所述语音信号对应的目标用户身份信息。

可选地，登录所述用户接入设备的用户身份信息的个数大于1，所述语音采集模块，具体用于通过所述用户接入设备外接的多个子设备分别采集不同用户身份信息对应的语音信号，所述子设备与用户身份信息具有一一对应的绑定关系。

可选地，所述语音融合模块，包括：

第一变换子模块，用于对所述语音信号进行第一变换，得到中间语音信号；

信息加密子模块，用于对所述目标用户身份信息进行加密，得到身份信息密文；

第二变换子模块，用于将所述身份信息密文嵌入所述中间语音信号，并将嵌入后的中间语音信号进行第二变换，得到目标语音信号。

可选地，所述远端系统为元宇宙，所述远端系统中的目标接入节点与用户身份信息具有一一对应的绑定关系，所述语音融合模块，具体用于将所述目标语音信号发送至与所述目标语音信号对应的用户身份信息绑定的目标接入节点。

可选地，所述用户接入设备还包括：

语音接收模块，用于接收所述目标接入节点返回的对端语音信号，所述对端语音信号来自所述目标接入节点的对端接入节点。

参照图5，示出了本发明的一种远端系统实施例的结构框图，所述远端系统可以包括：

身份认证模块501，用于接收用户接入设备发送的用户身份认证请求，所述用户身份认证请求中携带有登录所述用户接入设备的用户身份信息；对所述用户身份信息进行认证，并向所述用户接入设备返回所述用户身份认证请求的认证结果消息；

语音接收模块502，用于通过目标接入节点接收所述用户接入设备发送的目标语音信号，所述目标语音信号为所述用户接入设备对采集的语音信号嵌入该语音信号对应的目标用户身份信息所得到。

可选地，所述远端系统还包括：

设备认证模块，用于接收所述用户接入设备发送的设备认证请求，所述设备认证请求中携带有所述用户接入设备的设备信息；对所述设备信息进行认证，并向所述用户接入设备返回所述设备认证请求的认证结果消息。

可选地，所述远端系统包括智能家居系统或者元宇宙。

可选地，所述远端系统为元宇宙，所述远端系统中的目标接入节点与用户身份信息具有一一对应的绑定关系，所述语音接收模块，具体用于通过与所述目标语音信号对应的用户身份信息绑定的目标接入节点接收所述目标语音信号。

可选地，所述远端系统还包括：

语音发送模块，用于通过所述目标接入节点将所述目标语音信号发送至所述目标接入节点的对端接入节点。

可选地，所述对端接入节点，用于接收对端语音信号，并将所述对端语音信号发送至所述目标接入节点。

参照图6，示出了本发明的一个示例中两个用户通过各自的用户接入设备接入远端系统的交互示意图。如图6所示，用户A使用自己的用户接入设备A，登录用户A的用户身份信息。用户B使用自己的用户接入设备B，登录用户B的用户身份信息。用户接入设备A包括设备认证请求模块、身份认证请求模块、语音采集模块和语音融合模块。用户接入设备B包括设备认证请求模块、身份认证请求模块、语音采集模块和语音融合模块。元宇宙包括设备认证模块、身份认证模块、接入节点1和接入节点2。其中，接入节点1与用户A的用户身份信息具有绑定关系，接入节点2与用户B的用户身份信息具有绑定关系。进一步地，所述接入节点1和接入节点2可以分别包括语音接收模块和语音发送模块。

如图6所示，以用户接入设备A侧为例，通过设备认证请求模块发起设备认证请求，经由接入节点1将该设备认证请求发送至设备认证模块完成用户接入设备A的设备准入认证。用户接入设备A通过身份认证请求模块发起用户身份认证请求，经由接入节点1将该用户身份认证请求发送至身份认证模块完成用户A的身份准入认证，并通过身份认证请求模块将用户A的用户身份信息传递给语音融合模块。通过语音采集模块采集用户A的语音信号，并将采集的语音信号传递给语音融合模块。语音融合模块将用户A的用户身份信息(即为目标用户身份信息)嵌入到用户A的语音信号中，得到用户A的目标语音信息，并经由接入节点1将用户A的目标语音信号接入元宇宙，该接入节点1作为元宇宙中用户A与用户B之间语音交互的信息载体。

可以理解的是，本发明实施例对接入远端系统的用户接入设备的数量以及接入远端系统的用户身份信息的数量，均不做限制。在多个用户共同使用一个用户接入设备时，例如，用户A、用户C、用户D共同使用上述用户接入设备A，则用户接入设备A还包括身份识别模块，用于对语音采集模块采集的每个语音信号进行身份识别，并且将识别得到的每个语音信号对应的目标身份信息传入语音融合模块。为便于描述，本发明实施例中主要以两个用户身份信息为例，其他数量的用户接入设备以及用户身份信息的应用场景相似，相互参照即可。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行前文图1或图2所对应实施例中语音接入方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音接入方法、用户接入设备、远端系统和机器可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音接入方法，其特征在于，应用于用户接入设备，所述方法包括：

将所述目标语音信号发送至所述远端系统的目标接入节点。

2.根据权利要求1所述的方法，其特征在于，所述向所述远端系统发送用户身份认证请求之前，所述方法还包括：

向所述远端系统发送设备认证请求，所述设备认证请求中携带有所述用户接入设备的设备信息；

所述向所述远端系统发送用户身份认证请求，包括：

在接收到所述远端系统针对所述设备认证请求返回的认证通过消息后，向所述远端系统发送用户身份认证请求。

3.根据权利要求1所述的方法，其特征在于，登录所述用户接入设备的用户身份信息的个数大于1，所述获取所述语音信号对应的目标用户身份信息，包括：

对采集的语音信号进行声纹识别，得到所述语音信号对应的声纹特征；

根据预先建立的用户身份信息与声纹特征的映射关系，确定所述语音信号对应的目标用户身份信息。

4.根据权利要求1所述的方法，其特征在于，登录所述用户接入设备的用户身份信息的个数大于1，所述采集语音信号，包括：

通过所述用户接入设备外接的多个子设备分别采集不同用户身份信息对应的语音信号，所述子设备与用户身份信息具有一一对应的绑定关系。

5.根据权利要求1所述的方法，其特征在于，所述将所述目标用户身份信息嵌入所述语音信号中，得到待发送的目标语音信号，包括：

对所述语音信号进行第一变换，得到中间语音信号；

对所述目标用户身份信息进行加密，得到身份信息密文；

将所述身份信息密文嵌入所述中间语音信号，并将嵌入后的中间语音信号进行第二变换，得到目标语音信号。

6.根据权利要求1至5任一所述的方法，其特征在于，所述远端系统包括智能家居系统或者元宇宙。

7.根据权利要求1所述的方法，其特征在于，所述远端系统为元宇宙，所述远端系统中的目标接入节点与用户身份信息具有一一对应的绑定关系，所述将所述目标语音信号发送至所述远端系统的目标接入节点，包括：

将所述目标语音信号发送至与所述目标语音信号对应的用户身份信息绑定的目标接入节点。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收所述目标接入节点返回的对端语音信号，所述对端语音信号来自所述目标接入节点的对端接入节点。

9.一种语音接入方法，其特征在于，应用于远端系统，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述接收用户接入设备发送的用户身份认证请求之前，所述方法还包括：

接收所述用户接入设备发送的设备认证请求，所述设备认证请求中携带有所述用户接入设备的设备信息；

对所述设备信息进行认证，并向所述用户接入设备返回所述设备认证请求的认证结果消息。

11.根据权利要求9或10所述的方法，其特征在于，所述远端系统包括智能家居系统或者元宇宙。

12.根据权利要求9所述的方法，其特征在于，所述远端系统为元宇宙，所述远端系统中的目标接入节点与用户身份信息具有一一对应的绑定关系，所述通过目标接入节点接收所述用户接入设备发送的目标语音信号，包括：

通过与所述目标语音信号对应的用户身份信息绑定的目标接入节点接收所述目标语音信号。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

通过所述目标接入节点将所述目标语音信号发送至所述目标接入节点的对端接入节点。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

通过所述对端接入节点接收对端语音信号，并将所述对端语音信号发送至所述目标接入节点。

15.一种用户接入设备，其特征在于，所述用户接入设备包括：

16.一种远端系统，其特征在于，所述远端系统包括：

17.一种机器可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至8或9至14中任一所述的语音接入方法。