CN114885249B

CN114885249B - 一种基于数字信号处理的用户跟随型指向发声系统

Info

Publication number: CN114885249B
Application number: CN202210807600.3A
Authority: CN
Inventors: 翟昱鑫
Original assignee: Guangzhou Chenan Network Technology Co ltd
Current assignee: Zhai Yuxin
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-09-27
Anticipated expiration: 2042-07-11
Also published as: CN114885249A

Abstract

本发明公开一种基于数字信号处理的用户跟随型指向发声系统，包括数据接收模块、用户耳部位置感应模块、用户图像获取模块、机器学习用户分析模块、数据处理模块以及超声波指向性发声装置；本发明超声波用户跟随型指向发声系统可以生成个人随动声场，并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息，能够自动化跟随用户耳部并避免干扰周围其他人员，对声音数据信息进行过滤和分类处理，提高了声音识别能力，并且能够根据用户图像获取用户状态，以音频的形式给出提醒建议，并在播放时同样能够自动化避免干扰周围其他人员，提高用户体验，保障用户隐私。

Description

一种基于数字信号处理的用户跟随型指向发声系统

技术领域

本发明涉及一种指向性声源系统，且更具体地涉及一种基于数字信号处理的用户跟随型指向发声系统。

背景技术

增强现实是一种将数字信息融合于真实世界的技术，该技术通过视觉，听觉及其他感官刺激达到用户对真实世界感受的扩增。当用户接收增强现实系统的语音信息时，用户隐私的保护极为重要。如果直接采用全方向性发声方法，用户则毫无隐私可言。采用耳机的方式可以到达到保护音频隐私的目的，然而在一些需要接受外界声音信号的场景下耳机可能造成不便。目前其他一些指向性发声方法亦可达成上述目的，指向性发声是一种将人耳可听的声学信息幅度调制于超声波信号之上，并利用超声波的强指向性与空气中非线性传播并将人耳可听的声学信息自动解调的现象。

然而前述指向性发声方法只能将声音投射在特定区域，使用者位置发生变化就无法接受声音，如何实现用户跟随型指向发声，提高用户体验是亟待解决的问题。

发明内容

针对上述技术的不足，本发明公开一种基于数字信号处理的用户跟随型指向发声系统为了实现上述技术效果，本发明采用以下技术方案：

一种基于数字信号处理的用户跟随型指向发声系统，其中包括:

数据接收模块，通过有线连接方式或者无线连接方式接收需要被传入用户耳朵的音频数据信息；所述数据接收模块设置有数据预处理模块，所述数据预处理模块包括噪音去除模块和声音增强模块，其中噪音去除模块的方法是对输入的振动信号进行反相处理，将音频信号与反相处理之后的振动信号进行叠加，以消除音频信号中的噪声信号；声音增强模块包括放大器；

用户耳部位置感应模块，用于获取当前用户头部的位置信息，并发送给数据处理模块；

用户图像获取模块，用户获取用户图像，并将获取的用户图像发送给机器学习用户分析模块，所述用户图像包括用户姿态图像和用户表情图像；

机器学习用户分析模块：接收用户图像，输入用户分析神经网络模型，输出用户状态，并获取用户状态相对应的用户提醒建议，发送给数据处理模块；

数据处理模块，与所述数据接收模块、用户耳部位置感应模块以及机器学习用户分析模块相连，用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息，并根据所位置信息计算声学波束成形所需参数，所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理，并对数字信号处理过的音频信号进行幅度调制，数字信号处理过的音频信号调制为超声波信号，并发送至超声波指向性发声装置；

超声波指向性发声装置：接收数据处理模块发送的信息，进行音频播放。

作为本发明进一步的技术方案，数据处理模块包括超声波信号发生模块、声音分辨模块、波束成形模块和信息调制模块，其中所述超声波信号发生模块和波束成形模块的输出端均与信息调制模块的输入端连接，声音分辨模块的输出端与波束成形模块的输入端连接；声音分辨模块的输入端连接数据接收模块和机器学习用户分析模块的输出端，波束成形模块的输入端连接用户耳部位置感应模块的输出端。

作为本发明进一步的技术方案，超声波指向性发声装置包括功率放大器和换能器，所述功率放大器连接换能器。

作为本发明进一步的技术方案，功率放大器内设置有驱动器。

作为本发明进一步的技术方案，所述驱动器包括接口电路，所述接口电路输出端与场效应管电路连接，所述场效应管电路与晶体管电路连接。

作为本发明进一步的技术方案，声音分辨模块包括声音编码模块、声音匹配模块、声音隔离模块和声音提取模块，其中所述声音编码模块的输出端与声音匹配模块的输入端连接，所述声音匹配模块的输出端与声音隔离模块的输入端连接，所述声音隔离模块的输出端和声音提取模块的输入端连接。

作为本发明进一步的技术方案，数字信号处理的方法为：

对音频数据信号进行幅度调制，输入音频数据信息数据集的状态估计函数为：

(1)

公式(1)中，T表示采样数据经过的周期，E表示音频数据信息数据函数估计，x表示音频输入变量，k表示音频类型，

表示输入音频数据信息变量的平均值；

根据状态数据估计函数值进行实时调整得到自适应数据预测方差p：

(2)

公式(2)中，LMD表示音频数据传输过程中滤波扰动函数，W _i表示单个自适应数据表达式，其中N表示时间变化因子的量差，n表示传递音频振幅，音频量差函数为：

(3)

公式(3)中，X _i表示音频数据随时间变化因子的差值，X _i’表示音频数据估计时间因子的差值，Q(k)表示音频数据常参量；根据状态估计方程得到用户跟踪性指向发声数据滤波扰动函数式为：

(4)

公式(4)中，diag( )表示矩阵数据提取函数，从音频数据样本数据中得到：

(5)

公式(5)中，

表示样本初始音频数据和变化数据的关系式，

表示初始音频数据，通过样本数据估计指标和状态估计函数，得到音频数据转移函数传递到用户耳朵转移状态为：

(6)

公式(6)中，γ(1)表示第一组状态音频数据维数，γ^T(1)表示经过一段时间后的转台维数，ρ表示数据输入过程中的衰减因子；取ρ=0.95，V ₀(k)表示用户耳朵感知输入音频数据转移表达式。

作为本发明进一步的技术方案，音频数据转移过程中音频数据衰减量比例为：

(7)

公式(7)中，音频数据通过衰减比例得到数据处理矩阵：

(8)

公式(8)中，W _k表示数据感知时刻的预测扰动，W _k ’表示经过衰减之后其他用户边缘感知的实际音频数据，S ^t-k表示数据扰动变化的动荡倍数，R(k)表示衰减前边缘感知自适应变化量；用户指向发声输出音频函数为：

(9)

公式(9)中，Z _i表示实际系统输出量矩阵，Z _i ’表示系统输入量矩阵增益。

本发明有益的积极效果在于：

本发明提供的一种基于数字信号处理的用户跟随型指向发声系统，可以生成个人随动声场，并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息，能够自动化跟随用户耳部，对声音数据信息进行过滤和分类处理，提高了声音识别能力，并且能够根据用户图像获取用户状态，以音频的形式给出提醒建议，并在播放时同样能够自动化避免干扰周围其他人员，提高用户体验，保障用户隐私。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明整体架构示意图；

图2为本发明中数据处理模块的架构示意图；

图3为本发明中声音分辨模块架构示意图；

图4为本发明中驱动器的电路原理示意图；

图5为本发明中机器学习用户分析模块中卷积神经网络模型的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，一种基于数字信号处理的用户跟随型指向发声系统，包括：

数据接收模块1，通过有线连接方式或者无线连接方式接收需要被传入用户耳朵的音频数据信息；所述数据接收模块设置有数据预处理模块，所述数据预处理模块包括噪音去除模块和声音增强模块，其中噪音去除模块的方法是对输入的振动信号进行反相处理，将音频信号与反相处理之后的振动信号进行叠加，以消除音频信号中的噪声信号；声音增强模块包括放大器；

用户耳部位置感应模块2，用于获取当前用户头部的位置信息，并发送给数据处理模块；

用户图像获取模块3，用户获取用户图像，并将获取的用户图像发送给机器学习用户分析模块，所述用户图像包括用户姿态图像和用户表情图像；

具体实施例中，用户图像获取模块可以是用户耳部位置感应模块中的一个装置，具体是人工智能深度摄像头，当然也可以是扫描仪及数字转换设备等能够获取图像的设备。

机器学习用户分析模块4：接收用户图像，输入用户分析神经网络模型，输出用户状态，并获取用户状态相对应的用户提醒建议，发送给数据处理模块；

数据处理模块5，与所述数据接收模块、用户耳部位置感应模块以及机器学习用户分析模块相连，用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息，并根据所位置信息计算声学波束成形所需参数，所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理，并对数字信号处理过的音频信号进行幅度调制，数字信号处理过的音频信号调制为超声波信号，并发送超声波指向性发声装置；

超声波指向性发声装置6：接收数据处理模块发送的信息，进行音频播放。

在上述实施例中，如图2所示，为本发明中数据处理模块的架构示意图包括数据处理模块包括超声波信号发生模块11、声音分辨模块12、波束成形模块13和信息调制模块14，其中所述超声波信号发生模块11和波束成形模块13的输出端均与信息调制模块14的输入端连接，声音分辨模块12的输出端与波束成形模块13的输入端连接；声音分辨模块12的输入端连接数据接收模块1和机器学习用户分析模块4的输出端，波束成形模块13的输入端连接用户耳部位置感应模块2的输出端。

在上述实施例中，功率放大器内设置有驱动器。

在上述实施例中，所述驱动器包括接口电路，所述接口电路输出端与场效应管电路连接，所述场效应管电路与晶体管电路连接。

需说明的是，本发明实施例是采用波束成型的方式发射超声波，所以超声波指向性发声装置中的每一列换能器都设置一个驱动器，实现对换能阵列的每一列进行分别管控。

超声波指向性发声装置能够将高频电能转化为机械能的装置。由材料的压电效应将电信号转换为机械振动。超声波指向性发声装置作为能量转换器件，将输入的电功率转换成机械功率（即超声波）再传递出去，在具体实施例中，需要考虑功率、阻抗匹配、频率等方面因素。

在上述实施例中，如图3，声音分辨模块12包括声音编码模块131、声音匹配模块132、声音隔离模块133和声音提取模块134，其中所述声音编码模块131的输出端与声音匹配模块132的输入端连接，所述声音匹配模块132的输出端与声音隔离模块133的输入端连接，所述声音隔离模块133的输出端和声音提取模块134的输入端连接。

在具体实施例中，所述声音编码模块131用于对输入的声音音频数据信息按不同振动方式进行编码，声音匹配模块132对编码后的数据信息与数据库中的标准数据库进行匹配，比如男声音或者女声音，中高音或则中低音等。声音隔离模块133用于将识别输出声音按照不同的音频频道进行隔离，以实现不同声音的分离。声音提取模块134将分离出的数据信息按照不同的传递方式输出。

在上述实施例中，如图4所示，接口电路是双通道TTL/MOS 接口电路(双与非门),用于实现电平转换,以便于控制MOS 管的漏极电流，在具体应用中还要设置限流电阻,用于限制MOS 管的最大漏极电流与,以避免MOS管击穿。在具体实施例中，接口电路可以为SN75732芯片电路。

超声波指向性发声装置具有定向传播功能，实现声音的定向、定点发声，满足了人们对声音传播方向、区域等一系列特殊需求。在正对发声器产生的波束的波面的方向能够听到正常的音频信号．而在其他方向则听不到声音，同时还有音量控制、频谱采集和显示等功能．极大程度上为使用者提供了方便。

在上述实施例中，数字信号处理的方法为：

(1)

表示输入音频数据信息变量的平均值；

(2)

(3)

(4)

(5)

公式(5)中，

表示样本初始音频数据和变化数据的关系式，

(6)

在上述实施例中，音频数据转移过程中音频数据衰减量比例为：

(7)

公式(7)中，音频数据通过衰减比例得到数据处理矩阵：

(8)

(9)

公式(9)中，Z _i表示实际系统输出量矩阵，Z _i ’表示系统输入量矩阵增益。数字信号处理过的音频信号调制在超声波信号，这种声音只跟随特定用户而不受其他无关人员影响，并输出用户头部需调整的角度和距离，以最大程度地接收声音信号。在一种具体实施例中，超声波信号可以为40KHz。在上述实施例中，通过机器学习用户分析模块进行信息分析。

机器学习用户分析模块：接收用户图像，输入用户分析神经网络模型，输出用户状态，并获取用户状态相对应的处理建议，发送给换能器；用户分析神经网络模型为人工神经网络模型，其中人工神经网络模型为卷积神经网络，循环神经网络或者多层感知器。

用户图像中包括用户姿态图像和用户表情图像，将用户姿态图像和用户表情图像用户分析神经网络模型，根据用户姿态图像和用户表情图像识别出用户是否状态，如是否疲惫，如姿态是否需要注意等，然后根据用户状态获取事先存储的相应建议，发送给数据处理模块；

数据处理模块，与所述数据接收模块、用户耳部位置感应模块以及机器学习用户分析模块相连，用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息，并根据所位置信息计算声学波束成形所需参数，所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理，并对数字信号处理过的音频信号进行幅度调制，数字信号处理过的音频信号调制为超声波信号，并发送超声波指向性发声装置；

至此，将用户想要播放的音频信号，根据用户耳部位置感应模块获取的用户位置，生成个人随动声场，并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息，能够自动化跟随用户耳部并避免干扰周围其他人员，且根据用户图像识别用户状态，并将对应的用户提醒建议，也进行处理，使得同样能够自动化避免干扰周围其他人员，向用户进行播放，需注意的是，当播放用户提醒建议时，原有的音频信号暂停，当用户提醒建议播放完毕后，原有的音频信号继续播放。

如图5为本发明实施例提供的卷积神经网络模型的结构示意图，包括卷积层1，池化层1，卷积层2，池化层2，全连接层1，全连接层2，以及Softmax层，然后输出结果。

卷积层是一个卷积神经网络中最重要的部分；和传统全连接层不同，卷积层中的每一个节点的输入只是上一层神经网络中的一小块，这个小块的大小有3*3或者5*5。卷积层试图将神经网络中的每一个小块进行更加深入的分析从而得到抽象程度更高的特征。一般来说，通过卷积层处理的节点矩阵会变得更深；池化层，池化层神经网络不会改变三维矩阵的深度，但是它可以缩小矩阵的大小。池化操作可以认为是将一张分辨率较高的图片转化为分辨率较低的图片。通过池化层，可以进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中的参数的目的；全连接层，在经过多轮卷积层和池化层处理之后，在卷积神经网络的最后一般会由1到2个全连接层来给出最后的输出结果；Softmax层，经过Softmax层，可以得到当前样例中属于不同种类的概率分布情况。

本发明公开一种基于数字信号处理的用户跟随型指向发声系统，包括超声波指向性发声装置、数据接收模块、用户耳部位置感应模块、数据处理模块以及机器学习用户分析装置，能够数字信号处理过的音频信号进行幅度调制，数字信号处理过的音频信号调制在超声波信号。该超声波用户跟随型指向发声系统可以生成个人随动声场，并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息，能够自动化避免干扰周围其他人员，对声音数据信息进行过滤和分类处理，提高了声音识别能力，并且能够根据用户图像获取用户状态，以音频的形式给出提醒建议，提高用户体验，保障用户隐私。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于数字信号处理的用户跟随型指向发声系统，其特征在于，包括：

用户图像获取模块，用于获取用户图像，并将获取的用户图像发送给机器学习用户分析模块，所述用户图像包括用户姿态图像和用户表情图像；

机器学习用户分析模块：接收用户图像，输入用户分析人工神经网络模型，输出用户状态，并获取用户状态相对应的用户提醒建议，发送给数据处理模块；

数据处理模块，与所述数据接收模块、机器学习用户分析模块以及用户耳部位置感应模块相连，用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息，并根据所述位置信息计算声学波束成形参数，所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理，并对数字信号处理过的音频信号进行幅度调制，数字信号处理过的音频信号调制为超声波信号，并发送到超声波指向性发声装置；

超声波指向性发声装置：接收数据处理模块发送的超声波信号，进行音频播放。

2.根据权利要求1所述的一种基于数字信号处理的用户跟随型指向发声系统，其特征在于：数据处理模块包括超声波信号发生模块、声音分辨模块、波束成形模块和信息调制模块，其中所述超声波信号发生模块和波束成形模块的输出端均与信息调制模块的输入端连接，声音分辨模块的输出端与波束成形模块的输入端连接；声音分辨模块的输入端连接数据接收模块和机器学习用户分析模块的输出端，波束成形模块的输入端连接用户耳部位置感应模块的输出端。

3.根据权利要求1所述的一种基于数字信号处理的用户跟随型指向发声系统，其特征在于，超声波指向性发声装置包括功率放大器和换能器，所述功率放大器连接换能器。

4.根据权利要求3所述的一种基于数字信号处理的用户跟随型指向发声系统，其特征在于：功率放大器内设置有驱动器。

5.根据权利要求4所述的一种基于数字信号处理的用户跟随型指向发声系统，其特征在于：所述驱动器包括接口电路，所述接口电路输出端与场效应管电路连接，所述场效应管电路与晶体管电路连接。

6.根据权利要求2所述的一种基于数字信号处理的用户跟随型指向发声系统，其特征在于：声音分辨模块包括声音编码模块、声音匹配模块、声音隔离模块和声音提取模块，其中所述声音编码模块的输出端与声音匹配模块的输入端连接，所述声音匹配模块的输出端与声音隔离模块的输入端连接，所述声音隔离模块的输出端和声音提取模块的输入端连接。