CN114885249B - 一种基于数字信号处理的用户跟随型指向发声系统 - Google Patents

一种基于数字信号处理的用户跟随型指向发声系统 Download PDF

Info

Publication number
CN114885249B
CN114885249B CN202210807600.3A CN202210807600A CN114885249B CN 114885249 B CN114885249 B CN 114885249B CN 202210807600 A CN202210807600 A CN 202210807600A CN 114885249 B CN114885249 B CN 114885249B
Authority
CN
China
Prior art keywords
module
user
sound
data
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210807600.3A
Other languages
English (en)
Other versions
CN114885249A (zh
Inventor
翟昱鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhai Yuxin
Original Assignee
Guangzhou Chenan Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Chenan Network Technology Co ltd filed Critical Guangzhou Chenan Network Technology Co ltd
Priority to CN202210807600.3A priority Critical patent/CN114885249B/zh
Publication of CN114885249A publication Critical patent/CN114885249A/zh
Application granted granted Critical
Publication of CN114885249B publication Critical patent/CN114885249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/34Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
    • H04R1/345Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation

Abstract

本发明公开一种基于数字信号处理的用户跟随型指向发声系统,包括数据接收模块、用户耳部位置感应模块、用户图像获取模块、机器学习用户分析模块、数据处理模块以及超声波指向性发声装置;本发明超声波用户跟随型指向发声系统可以生成个人随动声场,并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息,能够自动化跟随用户耳部并避免干扰周围其他人员,对声音数据信息进行过滤和分类处理,提高了声音识别能力,并且能够根据用户图像获取用户状态,以音频的形式给出提醒建议,并在播放时同样能够自动化避免干扰周围其他人员,提高用户体验,保障用户隐私。

Description

一种基于数字信号处理的用户跟随型指向发声系统
技术领域
本发明涉及一种指向性声源系统,且更具体地涉及一种基于数字信号处理的用户跟随型指向发声系统。
背景技术
增强现实是一种将数字信息融合于真实世界的技术,该技术通过视觉,听觉及其他感官刺激达到用户对真实世界感受的扩增。当用户接收增强现实系统的语音信息时,用户隐私的保护极为重要。如果直接采用全方向性发声方法,用户则毫无隐私可言。采用耳机的方式可以到达到保护音频隐私的目的,然而在一些需要接受外界声音信号的场景下耳机可能造成不便。目前其他一些指向性发声方法亦可达成上述目的,指向性发声是一种将人耳可听的声学信息幅度调制于超声波信号之上,并利用超声波的强指向性与空气中非线性传播并将人耳可听的声学信息自动解调的现象。
然而前述指向性发声方法只能将声音投射在特定区域,使用者位置发生变化就无法接受声音,如何实现用户跟随型指向发声,提高用户体验是亟待解决的问题。
发明内容
针对上述技术的不足,本发明公开一种基于数字信号处理的用户跟随型指向发声系统为了实现上述技术效果,本发明采用以下技术方案:
一种基于数字信号处理的用户跟随型指向发声系统,其中包括:
数据接收模块,通过有线连接方式或者无线连接方式接收需要被传入用户耳朵的音频数据信息;所述数据接收模块设置有数据预处理模块,所述数据预处理模块包括噪音去除模块和声音增强模块,其中噪音去除模块的方法是对输入的振动信号进行反相处理,将音频信号与反相处理之后的振动信号进行叠加,以消除音频信号中的噪声信号;声音增强模块包括放大器;
用户耳部位置感应模块,用于获取当前用户头部的位置信息,并发送给数据处理模块;
用户图像获取模块,用户获取用户图像,并将获取的用户图像发送给机器学习用户分析模块,所述用户图像包括用户姿态图像和用户表情图像;
机器学习用户分析模块:接收用户图像,输入用户分析神经网络模型,输出用户状态,并获取用户状态相对应的用户提醒建议,发送给数据处理模块;
数据处理模块,与所述数据接收模块、用户耳部位置感应模块以及机器学习用户分析模块相连,用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息,并根据所位置信息计算声学波束成形所需参数,所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理,并对数字信号处理过的音频信号进行幅度调制,数字信号处理过的音频信号调制为超声波信号,并发送至超声波指向性发声装置;
超声波指向性发声装置:接收数据处理模块发送的信息,进行音频播放。
作为本发明进一步的技术方案,数据处理模块包括超声波信号发生模块、声音分辨模块、波束成形模块和信息调制模块,其中所述超声波信号发生模块和波束成形模块的输出端均与信息调制模块的输入端连接,声音分辨模块的输出端与波束成形模块的输入端连接;声音分辨模块的输入端连接数据接收模块和机器学习用户分析模块的输出端,波束成形模块的输入端连接用户耳部位置感应模块的输出端。
作为本发明进一步的技术方案,超声波指向性发声装置包括功率放大器和换能器,所述功率放大器连接换能器。
作为本发明进一步的技术方案,功率放大器内设置有驱动器。
作为本发明进一步的技术方案,所述驱动器包括接口电路,所述接口电路输出端与场效应管电路连接,所述场效应管电路与晶体管电路连接。
作为本发明进一步的技术方案,声音分辨模块包括声音编码模块、声音匹配模块、声音隔离模块和声音提取模块,其中所述声音编码模块的输出端与声音匹配模块的输入端连接,所述声音匹配模块的输出端与声音隔离模块的输入端连接,所述声音隔离模块的输出端和声音提取模块的输入端连接。
作为本发明进一步的技术方案,数字信号处理的方法为:
对音频数据信号进行幅度调制,输入音频数据信息数据集的状态估计函数为:
Figure 396297DEST_PATH_IMAGE001
(1)
公式(1)中,T表示采样数据经过的周期,E表示音频数据信息数据函数估计,x表示 音频输入变量,k表示音频类型,
Figure 895411DEST_PATH_IMAGE002
表示输入音频数据信息变量的平均值;
根据状态数据估计函数值进行实时调整得到自适应数据预测方差p
Figure 257122DEST_PATH_IMAGE003
(2)
公式(2)中,LMD表示音频数据传输过程中滤波扰动函数,W i 表示单个自适应数据表达式,其中N表示时间变化因子的量差,n表示传递音频振幅,音频量差函数为:
Figure 499885DEST_PATH_IMAGE004
(3)
公式(3)中,X i 表示音频数据随时间变化因子的差值,X i ’表示音频数据估计时间因子的差值,Q(k)表示音频数据常参量;根据状态估计方程得到用户跟踪性指向发声数据滤波扰动函数式为:
Figure 630652DEST_PATH_IMAGE005
(4)
公式(4)中,diag( )表示矩阵数据提取函数,从音频数据样本数据中得到:
Figure 35088DEST_PATH_IMAGE006
(5)
公式(5)中,
Figure 884096DEST_PATH_IMAGE007
表示样本初始音频数据和变化数据的关系式,
Figure 399391DEST_PATH_IMAGE008
表示初始音频 数据,通过样本数据估计指标和状态估计函数,得到音频数据转移函数传递到用户耳朵转 移状态为:
Figure 883199DEST_PATH_IMAGE009
(6)
公式(6)中,γ(1)表示第一组状态音频数据维数,γT(1)表示经过一段时间后的转台维数,ρ表示数据输入过程中的衰减因子;取ρ=0.95,V 0(k)表示用户耳朵感知输入音频数据转移表达式。
作为本发明进一步的技术方案,音频数据转移过程中音频数据衰减量比例为:
Figure 989696DEST_PATH_IMAGE010
(7)
公式(7)中,音频数据通过衰减比例得到数据处理矩阵:
Figure 591578DEST_PATH_IMAGE011
(8)
公式(8)中,W k 表示数据感知时刻的预测扰动,W k 表示经过衰减之后其他用户边缘感知的实际音频数据,S t-k 表示数据扰动变化的动荡倍数,R(k)表示衰减前边缘感知自适应变化量;用户指向发声输出音频函数为:
Figure 910564DEST_PATH_IMAGE012
(9)
公式(9)中,Z i 表示实际系统输出量矩阵,Z i 表示系统输入量矩阵增益。
本发明有益的积极效果在于:
本发明提供的一种基于数字信号处理的用户跟随型指向发声系统,可以生成个人随动声场,并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息,能够自动化跟随用户耳部,对声音数据信息进行过滤和分类处理,提高了声音识别能力,并且能够根据用户图像获取用户状态,以音频的形式给出提醒建议,并在播放时同样能够自动化避免干扰周围其他人员,提高用户体验,保障用户隐私。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明整体架构示意图;
图2为本发明中数据处理模块的架构示意图;
图3为本发明中声音分辨模块架构示意图;
图4为本发明中驱动器的电路原理示意图;
图5为本发明中机器学习用户分析模块中卷积神经网络模型的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种基于数字信号处理的用户跟随型指向发声系统,包括:
数据接收模块1,通过有线连接方式或者无线连接方式接收需要被传入用户耳朵的音频数据信息;所述数据接收模块设置有数据预处理模块,所述数据预处理模块包括噪音去除模块和声音增强模块,其中噪音去除模块的方法是对输入的振动信号进行反相处理,将音频信号与反相处理之后的振动信号进行叠加,以消除音频信号中的噪声信号;声音增强模块包括放大器;
用户耳部位置感应模块2,用于获取当前用户头部的位置信息,并发送给数据处理模块;
用户图像获取模块3,用户获取用户图像,并将获取的用户图像发送给机器学习用户分析模块,所述用户图像包括用户姿态图像和用户表情图像;
具体实施例中,用户图像获取模块可以是用户耳部位置感应模块中的一个装置,具体是人工智能深度摄像头,当然也可以是扫描仪及数字转换设备等能够获取图像的设备。
机器学习用户分析模块4:接收用户图像,输入用户分析神经网络模型,输出用户状态,并获取用户状态相对应的用户提醒建议,发送给数据处理模块;
数据处理模块5,与所述数据接收模块、用户耳部位置感应模块以及机器学习用户分析模块相连,用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息,并根据所位置信息计算声学波束成形所需参数,所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理,并对数字信号处理过的音频信号进行幅度调制,数字信号处理过的音频信号调制为超声波信号,并发送超声波指向性发声装置;
超声波指向性发声装置6:接收数据处理模块发送的信息,进行音频播放。
在上述实施例中,如图2所示,为本发明中数据处理模块的架构示意图包括数据处理模块包括超声波信号发生模块11、声音分辨模块12、波束成形模块13和信息调制模块14,其中所述超声波信号发生模块11和波束成形模块13的输出端均与信息调制模块14的输入端连接,声音分辨模块12的输出端与波束成形模块13的输入端连接;声音分辨模块12的输入端连接数据接收模块1和机器学习用户分析模块4的输出端,波束成形模块13的输入端连接用户耳部位置感应模块2的输出端。
作为本发明进一步的技术方案,超声波指向性发声装置包括功率放大器和换能器,所述功率放大器连接换能器。
在上述实施例中,功率放大器内设置有驱动器。
在上述实施例中,所述驱动器包括接口电路,所述接口电路输出端与场效应管电路连接,所述场效应管电路与晶体管电路连接。
需说明的是,本发明实施例是采用波束成型的方式发射超声波,所以超声波指向性发声装置中的每一列换能器都设置一个驱动器,实现对换能阵列的每一列进行分别管控。
超声波指向性发声装置能够将高频电能转化为机械能的装置。由材料的压电效应将电信号转换为机械振动。超声波指向性发声装置作为能量转换器件,将输入的电功率转换成机械功率(即超声波)再传递出去,在具体实施例中,需要考虑功率、阻抗匹配、频率等方面因素。
在上述实施例中,如图3,声音分辨模块12包括声音编码模块131、声音匹配模块132、声音隔离模块133和声音提取模块134,其中所述声音编码模块131的输出端与声音匹配模块132的输入端连接,所述声音匹配模块132的输出端与声音隔离模块133的输入端连接,所述声音隔离模块133的输出端和声音提取模块134的输入端连接。
在具体实施例中,所述声音编码模块131用于对输入的声音音频数据信息按不同振动方式进行编码,声音匹配模块132对编码后的数据信息与数据库中的标准数据库进行匹配,比如男声音或者女声音,中高音或则中低音等。声音隔离模块133用于将识别输出声音按照不同的音频频道进行隔离,以实现不同声音的分离。声音提取模块134将分离出的数据信息按照不同的传递方式输出。
在上述实施例中,如图4所示,接口电路是双通道TTL/MOS 接口电路(双与非门),用于实现电平转换,以便于控制MOS 管的漏极电流,在具体应用中还要设置限流电阻,用于限制MOS 管的最大漏极电流与,以避免MOS管击穿。在具体实施例中,接口电路可以为SN75732芯片电路。
超声波指向性发声装置具有定向传播功能,实现声音的定向、定点发声,满足了人们对声音传播方向、区域等一系列特殊需求。在正对发声器产生的波束的波面的方向能够听到正常的音频信号.而在其他方向则听不到声音,同时还有音量控制、频谱采集和显示等功能.极大程度上为使用者提供了方便。
在上述实施例中,数字信号处理的方法为:
对音频数据信号进行幅度调制,输入音频数据信息数据集的状态估计函数为:
Figure 281503DEST_PATH_IMAGE013
(1)
公式(1)中,T表示采样数据经过的周期,E表示音频数据信息数据函数估计,x表示 音频输入变量,k表示音频类型,
Figure 27742DEST_PATH_IMAGE014
表示输入音频数据信息变量的平均值;
根据状态数据估计函数值进行实时调整得到自适应数据预测方差p
Figure 585762DEST_PATH_IMAGE015
(2)
公式(2)中,LMD表示音频数据传输过程中滤波扰动函数,W i 表示单个自适应数据表达式,其中N表示时间变化因子的量差,n表示传递音频振幅,音频量差函数为:
Figure 708439DEST_PATH_IMAGE016
(3)
公式(3)中,X i 表示音频数据随时间变化因子的差值,X i ’表示音频数据估计时间因子的差值,Q(k)表示音频数据常参量;根据状态估计方程得到用户跟踪性指向发声数据滤波扰动函数式为:
Figure 668305DEST_PATH_IMAGE017
(4)
公式(4)中,diag( )表示矩阵数据提取函数,从音频数据样本数据中得到:
Figure 585445DEST_PATH_IMAGE018
(5)
公式(5)中,
Figure 896341DEST_PATH_IMAGE019
表示样本初始音频数据和变化数据的关系式,
Figure 822708DEST_PATH_IMAGE020
表示初始音频 数据,通过样本数据估计指标和状态估计函数,得到音频数据转移函数传递到用户耳朵转 移状态为:
Figure 637081DEST_PATH_IMAGE021
(6)
公式(6)中,γ(1)表示第一组状态音频数据维数,γT(1)表示经过一段时间后的转台维数,ρ表示数据输入过程中的衰减因子;取ρ=0.95,V 0(k)表示用户耳朵感知输入音频数据转移表达式。
在上述实施例中,音频数据转移过程中音频数据衰减量比例为:
Figure 990702DEST_PATH_IMAGE022
(7)
公式(7)中,音频数据通过衰减比例得到数据处理矩阵:
Figure 523314DEST_PATH_IMAGE023
(8)
公式(8)中,W k 表示数据感知时刻的预测扰动,W k 表示经过衰减之后其他用户边缘感知的实际音频数据,S t-k 表示数据扰动变化的动荡倍数,R(k)表示衰减前边缘感知自适应变化量;用户指向发声输出音频函数为:
Figure 253373DEST_PATH_IMAGE024
(9)
公式(9)中,Z i 表示实际系统输出量矩阵,Z i 表示系统输入量矩阵增益。数字信号处理过的音频信号调制在超声波信号,这种声音只跟随特定用户而不受其他无关人员影响,并输出用户头部需调整的角度和距离,以最大程度地接收声音信号。在一种具体实施例中,超声波信号可以为40KHz。在上述实施例中,通过机器学习用户分析模块进行信息分析。
机器学习用户分析模块:接收用户图像,输入用户分析神经网络模型,输出用户状态,并获取用户状态相对应的处理建议,发送给换能器;用户分析神经网络模型为人工神经网络模型,其中人工神经网络模型为卷积神经网络,循环神经网络或者多层感知器。
用户图像中包括用户姿态图像和用户表情图像,将用户姿态图像和用户表情图像用户分析神经网络模型,根据用户姿态图像和用户表情图像识别出用户是否状态,如是否疲惫,如姿态是否需要注意等,然后根据用户状态获取事先存储的相应建议,发送给数据处理模块;
数据处理模块,与所述数据接收模块、用户耳部位置感应模块以及机器学习用户分析模块相连,用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息,并根据所位置信息计算声学波束成形所需参数,所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理,并对数字信号处理过的音频信号进行幅度调制,数字信号处理过的音频信号调制为超声波信号,并发送超声波指向性发声装置;
至此,将用户想要播放的音频信号,根据用户耳部位置感应模块获取的用户位置,生成个人随动声场,并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息,能够自动化跟随用户耳部并避免干扰周围其他人员,且根据用户图像识别用户状态,并将对应的用户提醒建议,也进行处理,使得同样能够自动化避免干扰周围其他人员,向用户进行播放,需注意的是,当播放用户提醒建议时,原有的音频信号暂停,当用户提醒建议播放完毕后,原有的音频信号继续播放。
如图5为本发明实施例提供的卷积神经网络模型的结构示意图,包括卷积层1,池化层1,卷积层2,池化层2,全连接层1,全连接层2,以及Softmax层,然后输出结果。
卷积层是一个卷积神经网络中最重要的部分;和传统全连接层不同,卷积层中的每一个节点的输入只是上一层神经网络中的一小块,这个小块的大小有3*3或者5*5。卷积层试图将神经网络中的每一个小块进行更加深入的分析从而得到抽象程度更高的特征。一般来说,通过卷积层处理的节点矩阵会变得更深;池化层,池化层神经网络不会改变三维矩阵的深度,但是它可以缩小矩阵的大小。池化操作可以认为是将一张分辨率较高的图片转化为分辨率较低的图片。通过池化层,可以进一步缩小最后全连接层中节点的个数,从而达到减少整个神经网络中的参数的目的;全连接层,在经过多轮卷积层和池化层处理之后,在卷积神经网络的最后一般会由1到2个全连接层来给出最后的输出结果;Softmax层,经过Softmax层,可以得到当前样例中属于不同种类的概率分布情况。
本发明公开一种基于数字信号处理的用户跟随型指向发声系统,包括超声波指向性发声装置、数据接收模块、用户耳部位置感应模块、数据处理模块以及机器学习用户分析装置,能够数字信号处理过的音频信号进行幅度调制,数字信号处理过的音频信号调制在超声波信号。该超声波用户跟随型指向发声系统可以生成个人随动声场,并且在不限制用户位置以及姿态的情况下使用户享有具有隐私性的个人的开放式增强现实声音信息,能够自动化避免干扰周围其他人员,对声音数据信息进行过滤和分类处理,提高了声音识别能力,并且能够根据用户图像获取用户状态,以音频的形式给出提醒建议,提高用户体验,保障用户隐私。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (6)

1.一种基于数字信号处理的用户跟随型指向发声系统,其特征在于,包括:
数据接收模块,通过有线连接方式或者无线连接方式接收需要被传入用户耳朵的音频数据信息;所述数据接收模块设置有数据预处理模块,所述数据预处理模块包括噪音去除模块和声音增强模块,其中噪音去除模块的方法是对输入的振动信号进行反相处理,将音频信号与反相处理之后的振动信号进行叠加,以消除音频信号中的噪声信号;声音增强模块包括放大器;
用户耳部位置感应模块,用于获取当前用户头部的位置信息,并发送给数据处理模块;
用户图像获取模块,用于获取用户图像,并将获取的用户图像发送给机器学习用户分析模块,所述用户图像包括用户姿态图像和用户表情图像;
机器学习用户分析模块:接收用户图像,输入用户分析人工神经网络模型,输出用户状态,并获取用户状态相对应的用户提醒建议,发送给数据处理模块;
数据处理模块,与所述数据接收模块、机器学习用户分析模块以及用户耳部位置感应模块相连,用于获取数据接收模块获得的音频信号、机器学习用户分析模块发送的音频信号与所述用户头部的位置信息,并根据所述位置信息计算声学波束成形参数,所述数据处理模块依据声学波束成形参数对所述获得的音频信号进行数字信号处理,并对数字信号处理过的音频信号进行幅度调制,数字信号处理过的音频信号调制为超声波信号,并发送到超声波指向性发声装置;
超声波指向性发声装置:接收数据处理模块发送的超声波信号,进行音频播放。
2.根据权利要求1所述的一种基于数字信号处理的用户跟随型指向发声系统,其特征在于:数据处理模块包括超声波信号发生模块、声音分辨模块、波束成形模块和信息调制模块,其中所述超声波信号发生模块和波束成形模块的输出端均与信息调制模块的输入端连接,声音分辨模块的输出端与波束成形模块的输入端连接;声音分辨模块的输入端连接数据接收模块和机器学习用户分析模块的输出端,波束成形模块的输入端连接用户耳部位置感应模块的输出端。
3.根据权利要求1所述的一种基于数字信号处理的用户跟随型指向发声系统,其特征在于,超声波指向性发声装置包括功率放大器和换能器,所述功率放大器连接换能器。
4.根据权利要求3所述的一种基于数字信号处理的用户跟随型指向发声系统,其特征在于:功率放大器内设置有驱动器。
5.根据权利要求4所述的一种基于数字信号处理的用户跟随型指向发声系统,其特征在于:所述驱动器包括接口电路,所述接口电路输出端与场效应管电路连接,所述场效应管电路与晶体管电路连接。
6.根据权利要求2所述的一种基于数字信号处理的用户跟随型指向发声系统,其特征在于:声音分辨模块包括声音编码模块、声音匹配模块、声音隔离模块和声音提取模块,其中所述声音编码模块的输出端与声音匹配模块的输入端连接,所述声音匹配模块的输出端与声音隔离模块的输入端连接,所述声音隔离模块的输出端和声音提取模块的输入端连接。
CN202210807600.3A 2022-07-11 2022-07-11 一种基于数字信号处理的用户跟随型指向发声系统 Active CN114885249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210807600.3A CN114885249B (zh) 2022-07-11 2022-07-11 一种基于数字信号处理的用户跟随型指向发声系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210807600.3A CN114885249B (zh) 2022-07-11 2022-07-11 一种基于数字信号处理的用户跟随型指向发声系统

Publications (2)

Publication Number Publication Date
CN114885249A CN114885249A (zh) 2022-08-09
CN114885249B true CN114885249B (zh) 2022-09-27

Family

ID=82682776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210807600.3A Active CN114885249B (zh) 2022-07-11 2022-07-11 一种基于数字信号处理的用户跟随型指向发声系统

Country Status (1)

Country Link
CN (1) CN114885249B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102860041A (zh) * 2010-04-26 2013-01-02 剑桥机电有限公司 对收听者进行位置跟踪的扬声器
WO2018086056A1 (zh) * 2016-11-11 2018-05-17 吴新龙 一种自动识别捕捉人脸定位的组合式音响系统
CN108702571A (zh) * 2016-01-07 2018-10-23 诺威托系统有限公司 音频通信系统和方法
CN110626300A (zh) * 2018-06-20 2019-12-31 佛吉亚内饰系统股份有限公司 用于车辆乘客用的类3d声音体验的私人音频系统及其创建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0415625D0 (en) * 2004-07-13 2004-08-18 1 Ltd Miniature surround-sound loudspeaker
CN103165125B (zh) * 2013-02-19 2015-04-15 深圳创维-Rgb电子有限公司 音频定向处理方法和装置
US9510089B2 (en) * 2013-10-21 2016-11-29 Turtle Beach Corporation Dynamic location determination for a directionally controllable parametric emitter
CN108470569B (zh) * 2018-02-27 2020-10-20 广东顶力视听科技有限公司 一种音频跟随装置及其实现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102860041A (zh) * 2010-04-26 2013-01-02 剑桥机电有限公司 对收听者进行位置跟踪的扬声器
CN108702571A (zh) * 2016-01-07 2018-10-23 诺威托系统有限公司 音频通信系统和方法
WO2018086056A1 (zh) * 2016-11-11 2018-05-17 吴新龙 一种自动识别捕捉人脸定位的组合式音响系统
CN110626300A (zh) * 2018-06-20 2019-12-31 佛吉亚内饰系统股份有限公司 用于车辆乘客用的类3d声音体验的私人音频系统及其创建方法

Also Published As

Publication number Publication date
CN114885249A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
US10019912B2 (en) Providing information to a user through somatosensory feedback
Chan et al. AER EAR: A matched silicon cochlea pair with address event representation interface
CN109410976B (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
Algazi et al. Physical and filter pinna models based on anthropometry
CN109040641B (zh) 一种视频数据合成方法及装置
CN101827150A (zh) 一种具有导盲功能的手机及导盲方法
US20220246161A1 (en) Sound modification based on frequency composition
CN108647556A (zh) 基于分频和深度神经网络的声源定位方法
CN108122559A (zh) 一种数字助听器中基于深度学习的双耳声源定位方法
WO2021203880A1 (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN114885249B (zh) 一种基于数字信号处理的用户跟随型指向发声系统
WO2016131793A1 (en) Method of transforming visual data into acoustic signals and aid device for visually impaired or blind persons
CN102688120B (zh) 彩色声像导盲方法及彩色声像导盲仪
EP4207195A1 (en) Speech separation method, electronic device, chip and computer-readable storage medium
KR102062454B1 (ko) 음악 장르 분류 장치 및 방법
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
CN111862932B (zh) 一种将图像转化为声音的可穿戴助盲系统及方法
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
Ravindran et al. A physiologically inspired method for audio classification
Deleforge Acoustic space mapping: A machine learning approach to sound source separation and localization
CN114007169B (zh) 用于tws蓝牙耳机的音频调节方法、系统和电子设备
Danylenko et al. Research of Digital-Analog Conversion Method for Reproduction of Mechanical Oscillations.
Wong et al. A stereo auditory display for visually impaired
Xu et al. An End-to-End EEG Channel Selection Method with Residual Gumbel Softmax for Brain-Assisted Speech Enhancement
Nandy et al. Neural models for auditory localization based on spectral cues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20220920

Address after: No. 5, Building 50, North Block, No. 1, Arding Street, Kundulun District, Baotou City, Inner Mongolia Autonomous Region, 014030

Applicant after: Zhai Yuxin

Address before: 510320 No. 5, East Huayou 1st lane, Tuhua, Haizhu District, Guangzhou, Guangdong Province

Applicant before: Guangzhou chenan Network Technology Co.,Ltd.

TA01 Transfer of patent application right