CN108024179A - 使用递归神经网络的扬声器自适应校正 - Google Patents
使用递归神经网络的扬声器自适应校正 Download PDFInfo
- Publication number
- CN108024179A CN108024179A CN201711047363.0A CN201711047363A CN108024179A CN 108024179 A CN108024179 A CN 108024179A CN 201711047363 A CN201711047363 A CN 201711047363A CN 108024179 A CN108024179 A CN 108024179A
- Authority
- CN
- China
- Prior art keywords
- audio
- signal
- loudspeaker
- output
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/007—Protection circuits for transducers
Abstract
描述了一种针对线性和非线性失真进行校正的音频系统。所述系统可包括:物理扬声器系统,其响应于音频输入信号;例如具有递归神经网络的自适应电路,其用于针对来自所述扬声器的非线性失真进行校正。
Description
技术领域
本公开的方面提供了扬声器校正系统和方法,例如,所述系统和方法使用连接到车辆、家庭或其他合适环境中的音频系统中的扬声器的反馈和神经网络。
背景技术
扬声器在其性能上可具有非线性,这降低了由扬声器产生的声音质量。当使用移动线圈来产生声音时,可能通过随锥体偏移发生的音圈电感变化、线圈热效应、多普勒失真、悬架弹簧力和非线性弹簧力产生非线性。现有的非线性校正方案使用基于“物理模型”或基于“低复杂度黑箱模型”的校正器来减少由扬声器产生的非线性失真。
发明内容
如本文所述,描述了建模系统或音频处理系统。所述系统可包括:物理系统,其包括被配置来响应于音频输入信号产生音频的扬声器;音频处理器,其用于将经处理的信号输出到所述扬声器,所述音频处理器包括递归神经网络,其用于针对来自所述扬声器的非线性失真进行校正;以及自适应反馈系统,其从所述扬声器接收音频输出并将所述接收到的音频输出与目标进行比较,以向所述递归神经网络提供校正参数,所述自适应反馈系统被配置来预测从所述第一递归神经网络接收输出的所述扬声器的性能,并向所述递归神经网络提供校正的参数。
在示例性实施方案中,所述递归神经网络接收所述音频输入信号,并将经校正的音频信号输出到所述扬声器。
在示例性实施方案中,所述递归神经网络输出驱动信号扬声器。
在示例性实施方案中,所述音频处理器将目标线性传递函数应用于所述输入信号以产生所述扬声器的所述经处理的信号。
在示例性实施方案中,所述递归神经网络接收所述音频输入信号,并输出期望的输出信号。
在示例性实施方案中,求和电路用于对所述系统输出和所述期望的输出信号进行求和以产生误差信号,所述误差信号作为控制信号被所述两个递归神经网络接收。
在示例性实施方案中,所述递归神经网络是前置校正器。
在示例性实施方案中,使用来自所述扬声器的输出与来自前向模型的输出之间的误差信号来对所述递归神经网络进行训练。
在示例性实施方案中,所述音频输入信号是多音调、扫描、重叠的日志扫描和/或音乐信号。
如本文所述,建模系统用于预测音频系统的性能并且校正所述音频系统中非线性和线性失真。所述音频建模系统包括:物理系统,其包括被配置来响应于音频输入信号产生音频的扬声器;第一递归神经网络,其用于针对来自所述扬声器的非线性失真进行校正;以及第二递归神经网络,其用于预测从所述第一递归神经网络接收输出的所述扬声器的性能,并对所述第一递归神经网络执行校正。
在实例中,第一递归神经网络接收音频输入信号并将经校正的音频信号输出到第二递归神经网络,并且第二递归神经网络输出级联输出信号。
在实例中,第一递归神经网络将经校正的音频信号输出到输出系统输出的扬声器系统模型/实际扬声器。
在实例中,目标线性传递函数接收音频输入信号,并输出期望的输出信号。
在实例中,求和电路用于对系统输出和期望的输出信号进行求和以产生误差信号,所述误差信号作为控制信号被第一递归神经网络和第二递归神经网络接收。
在实例中,第一递归神经网络是前置校正器,并且第二递归神经网络是前向模型RNN。
在实例中,从前向模型RNN开始,并使用从目标线性传递函数到前向模型RNN的误差信号来校正前向模型RNN,以对前置校正器进行训练。
在实例中,使用来自物理系统的输出与来自前向模型RNN的输出之间的误差信号来对前向模型RNN进行训练。
在实例中,音频输入信号是多音调、扫描、重叠的日志扫描和/或音乐信号。
音频系统可包括:扬声器,其包括基于输入到所述扬声器的音频信号的非线性失真和线性失真;非线性失真去除参数,其从以下各项开发:第一递归神经网络,其用于针对来自扬声器的非线性失真进行校正,和第二递归神经网络,其用于预测从第一递归神经网络接收输出的扬声器的性能,并校正第一递归神经网络的参数;以及电路,其用于将非线性失真去除参数应用于扬声器中的音频信号。
在实例中,电路在放大器中,所述放大器将通过非线性失真去除参数校正的音频信号发送到扬声器,以响应于音频信号减少扬声器处的非线性失真。
在实例中,非线性失真去除参数在音频信号校正矩阵中,所述非线性失真去除参数被数学地应用于输入到放大器的音频信号,所述放大器将经校正的音频输出信号输出到扬声器。
在实例中,矩阵包括线性失真校正参数,所述线性失真校正参数被数学地应用于输入到放大器的音频信号,所述放大器将经校正的音频输出信号输出到扬声器。
在实例中,第一递归神经网络接收音频输入信号并将经校正的音频信号输出到第二递归神经网络,并且第二递归神经网络输出级联输出信号。
在实例中,第一递归神经网络将经校正的音频信号输出到输出系统输出的扬声器系统模型。
在实例中,目标线性传递函数接收音频输入信号,并输出期望的输出信号。
在实例中,求和电路用于对系统输出和期望的输出信号进行求和以产生误差信号,所述误差信号作为控制信号被第一递归神经网络和第二递归神经网络接收。
在实例中,第一递归神经网络是前置校正器,并且第二递归神经网络是前向模型RNN。
附图说明
在所附权利要求书中具体地指出了本公开的实施方案。然而,通过结合附图参考以下详细描述,各种实施方案的其他特征将变得更加明显并且将得到最好的理解,在附图中:
图1示出根据实施方案的音频系统的示意图;
图2示出根据实施方案的音频系统的示意图;
图3示出根据实施方案的音频系统的示意图;
图4示出用于扬声器性能的自适应校正的方法;
图5示出根据实施方案的音频系统的前向建模系统的示意图;
图6示出根据实施方案的音频系统的后置校正器学习方案的示意图;
图7示出根据实施方案的音频系统的前向模型的前置校正器的示意图;并且
图8示出根据实施方案的音频系统的学习方案的示意图。
具体实施方式
按照需要,本文公开了详细实施方案;然而,应理解,所公开的实施方案仅仅是可以各种形式和替代形式体现的本发明的实例。附图不一定按比例绘制;可放大一些特征或使一些特征最小化以便示出具体部件的细节。因此,本文所公开的特定结构细节和功能细节不应被解释为是限制性的,而是仅仅作为教导本领域技术人员以不同方式运用本公开的代表性基础。
本公开的实施方案一般上提供多个电路或其他电气设备。对电路和其他电气设备以及其各自所提供的功能的全部参考并不意图仅限于涵盖本文所示出和描述的内容。虽然可将具体的标签分配给所公开的各种电路或其他电气设备,但是此类标签并不意图限制电路和其他电气设备的操作范围。基于期望的电气/操作实现方式的具体类型,此类电路和其他电气设备可以任何方式彼此组合和/或分开。应认识到,本文所公开的任何电路或其他电气设备可包括任何数量的微处理器、集成电路、存储器设备(例如,闪存、随机存取存储器(RAM)、只读存储器(ROM)、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或上述存储器的其他合适的变体)以及指令(例如,软件),上述各者彼此协作来执行本文所公开的操作。此外,电气设备中的任何一个或多个可被配置来执行体现在计算机可读介质中的计算机程序,所述计算机程序被编程来执行任何数量的所公开的功能和特征。计算机可读介质可以是非暂时性的或者呈可由机器或电气部件读取的任何形式。
本文所公开的方面可提供扬声器性能的校正。扬声器性能的校正可校正扬声器非线性。本系统和方法可使用利用神经网络(例如,递归神经网络(RNN))的扬声器自适应校正。RNN可以是黑箱模型,其对于非线性动力系统(例如,扬声器或扬声器系统)建模非常有用。此外,RNN具有极好的泛化能力。因此,描述了基于RNN和实时反馈的自适应校正方案。RNN可产生校正器模型或校正器参数以校正扬声器的高度非线性方面,例如,分裂模式、空气路径失真、压缩室和相位塞失真、端口非线性、滞后、热效应和/或其他非线性效应。
图1示出用于感测和产生校正参数以校正扬声器110中的非线性的音频系统100。音频信号源101产生输入到RNN 105中并输入到传递函数107中的音频信号103。音频信号源101可以是播放音乐的录制品的设备或音频发生器。音频源101可输出音频信号103,所述音频信号103包含多个音调(例如,音高标准、质量和强度),并且移动通过多个频率。音频源101可产生音频信号103,所述音频信号103包括同时移动通过音频频谱以形成互调扩展的至少两个音调。互调可包括由(例如,扬声器110中的)系统100中的非线性引起的包含两个或更多个不同频率的信号的幅度调制。音频信号103的每个频率分量之间的互调将在某些频率处形成附加信号,其不仅在任一频率分量的谐波频率(整数倍)处,像谐波失真,而且在原始频率的和频与差频处,并且在这些和频与差频的倍数处。音频信号103可以是光谱密集的并且随着时间而变化。音频信号103可维持一段持续时间,其允许扬声器110产生可包含由于线性不规则性或非线性不规则性而造成的不规则性的声音,例如,大于5秒、多达约10秒或更多。在实例中,音频信号103可包括音乐、重叠的日志扫描(例如,同时移动通过频谱以形成互调输入的扩展的两个音调)和扫描;上述所有都处于高电压输入电平和中级电压输入电平,其组合成6秒长的激励。电压输入电平可以是输入到扬声器中的信号。
RNN 105是可被编程到计算设备中的人工神经网络。RNN 105是机器学习设备,其使用互连的人工神经元来执行校正参数的非线性统计数据建模或非线性学习,以将实际输入与期望输入进行匹配。RNN 105包括形成定向循环的内部单元,其产生允许所述RNN表现动态时间行为的网络的内部状态。这种定向循环将包括具有RNN本身的反馈回路。RNN可使用其内部存储器来处理任意输入序列,例如,音频信号103。RNN可以是双向RNN或连续时间RNN。RNN 105还从学习算法120接收新参数,并且将旧参数发送回学习算法120。RNN将经校正的音频信号转发到扬声器组件108,所述扬声器组件108可包括扬声器保护电路109和扬声器110。
扬声器保护电路109充当扬声器110的保护器,其保护扬声器110免受从RNN 105输出的音频信号的影响。有时,RNN 105可改变其从音频源101接收的音频信号103,以产生可能损坏扬声器110的输出音频信号。电路109可包括带通滤波器、幅度限幅电路或其组合。
扬声器110可以是单个扬声器或扬声器阵列。扬声器110是用于确定线性和非线性不规则性的待测设备。扬声器110可从广播音频中的输入电子音频信号输出失真。由扬声器110生成的信号失真可能与扬声器设计中使用的材料的几何形状和特性有关。此类失真可能出现在所有扬声器中。此类音频失真可能是由平衡感知到的声音质量、最大输出、成本、重量和大小的优化过程造成的。线性失真源包括线圈、锥体、悬架、电输入阻抗、声学负载、机械振动阻尼、封闭效应和空间效应。非线性效应源包括但不限于:任何音圈、信号路径和线圈磁体处的非线性力因数和电感因数、非线性悬架、扬声器机械和声学系统的非线性损耗、涉及开口扬声器的非线性气流阻力、散热器效应的部分振动、多普勒效应和喇叭中的非线性声音传播。本系统100可确定这些效应并输出校正参数以降低非线性扬声器失真的影响。
麦克风115定位在扬声器110的输出端处,以检测来自扬声器115的输出,并将信号输出到求和电路117。在实例中,来自麦克风115的信号可表示扬声器110所位于的空间中的声压级。声压级可包括来自扬声器110的线性不规则性和非线性不规则性。
传递函数107操作来将来自音频源101的音频信号103转换成应从扬声器110输出的期望信号。传递函数107可以是描述扬声器的无失真响应的线性滤波器。在实例中,传递函数107可以是扬声器在低输入电平处的传递函数,在该处失真是低程度的或不可检测的。作为传递函数的这个无失真响应操作为扬声器对宽范围的输入的目标响应。求和电路117通过从传递函数信号中减去麦克风信号来产生误差信号119。误差信号被馈送到学习算法120。学习算法120产生新参数以输入到RNN 105中。学习算法120可存储在远离RNN 105和扬声器组件108的系统中。在实例中,学习算法120是可通过网络访问的服务器的一部分。新参数可以是RNN的权重。可对与RNN 105的各种神经元的输入连接进行加权。输入的权重被估计为学习算法和训练过程的一部分。RNN 105使用新参数来学习输入音频信号的新变化,以针对感测到的扬声器不规则性进行校正。不规则性可例如以高增益或大量地从扬声器输出。
图2示出音频扬声器校正方法200。在201处,产生了扬声器系统的模型。这个模型可以是目标物理系统的前向模型,其可包括压缩驱动器、喇叭驱动器、低音扬声器驱动器或其组合。也可对其他扬声器驱动器建模。前向模型也可同样考虑到功率测试结果。这导致RNN前向模型。RNN前向模型响应于例如输入信号的激励来预测物理扬声器系统的线性和非线性输出。RNN前向模型可能比在扬声器上进行实际物理测量更加有效。此外,RNN前向模型提供了解析的可辨元素,所述可辨元素允许通过一系列这些元素的梯度。这提供了前置校正器的误差和参数的控制和相关性。
在202处,学习了后置校正器。后置校正器可针对来自扬声器(例如,来自线性不规则性)的失真或不规则性进行校正。后置校正器可以是学习前置校正器的初始状态的RNN。后置校正器可以使供应到扬声器或来自步骤201的RNN前向模型的音频信号预失真。后置校正器可为使用RNN的建模系统提供启动参数,以确定扬声器的校正参数,从而针对线性失真和非线性失真进行校正。
在203处,学习了前置校正器。前置校正器可针对来自扬声器(例如,来自非线性不规则性)的失真或不规则性进行校正。前置校正器可以是学习非线性不规则性的RNN。前置校正器可使用来自扬声器的反馈来进行开发。前置校正器操作来固定对扬声器建模的前向模型。
在204处,前置校正器和后置校正器组合在RNN中。这个组合操作来微调各自包括在RNN中的前置校正器和前向模型。输入音频被发送到前置校正器中以输出在步骤202中确定的输入到RNN中的预失真音频输入信号。使用RNN输出生成输出信号。前置校正器和RNN可从系统输出和期望输出的比较中接收误差信号。系统输出来自扬声器模型系统/实际扬声器,其从前置校正器接收其输入。期望输出来自经过线性的、期望的输出传递函数之后的音频输入。
前置校正器、RNN和后置校正器都可以是在机器上运行的电路或专用的特定指令,所述机器在指令加载时形成特定的专用机器。前置校正器和后置校正器都可以包括RNN。RNN可具有多个层,其中每个层包括多个神经元。这些神经元中的每一个可包括用于将传入数据适当地加权到所述神经元的权重。神经元可从在第一层处输入到系统的输入或从前层处的神经元接收多个数据输入。递归神经网络还可将来自某一层的输出馈送到其自身或前层。
图3示出用于开发在前置校正器中使用的前向模型的前向模型学习系统300。对这个系统300的激励是音频信号(例如,音频源101)。输入信号103可以是包括通过各种频率和时间的多个音调、音乐和扫描的信号。输入信号应当是移动到不同的音频音调的密集的信号。物理系统301作为传递函数或实际物理扬声器系统被包括。根据被建模的扬声器系统,物理系统301可对喇叭驱动器、压缩驱动器、平面宽度变换器等进行建模。物理系统模型301输出系统输出信号302。RNN前向模型304(即,扬声器系统的虚拟驱动器)也接收音频输入信号103。RNN前向模型304输出模型输出信号305。求和电路306接收模型输出信号305和系统输出信号302,并且然后比较两个信号以产生误差信号307。误差信号307作为控制输入被馈送到RNN前向模型304中。RNN前向模型304使用误差信号307来校正模型输出信号305。可针对来自源101的多个输入信号103重复所述过程。前向模型学习信号系统300产生前向模型参数。
图4示出后置校正器学习系统400。后置校正器用于针对已知失真(例如,线性失真)的某些离线环境进行校正。像在前向学习模型中一样,音频源101输入音频测试信号103。信号103被输入到期望的线性目标传递函数401和自适应校正算法320中。自适应校正算法320可以是RNN的一部分。求和电路406也从线性目标传递函数401接收目标输出信号402并从输出到扬声器的信号接收输出信号405。求和电路将目标输出信号402与经后校正的输出信号405进行比较,以产生误差信号407。误差信号407作为控制输入参数被馈送到自适应算法320中。可充当RNN后置校正器的自适应算法320改变其对前向模型的输出信号的校正操作,以产生经后校正的输出信号405。如本文所述,来自自适应算法320的最终参数可用作前置校正器的初始条件。
图5示出前置校正器学习系统500,其使用级联连接的RNN处理器501和扬声器或扬声器模型510来针对扬声器系统中的线性和非线性失真进行校正。RNN处理器501可以是来自RNN后置校正器404的最终结果,例如,RNN后置校正器404的参数作为RNN处理器501的启动参数被输入。如系统500所示,处理器501在将音频输入信号103馈送到扬声器或扬声器510之前校正音频输入信号103。处理器501从求和电路406接收误差信号507。误差信号507基于来自目标线性传递函数401的输出402与来自扬声器模型510的输出505之间的差值。扬声器模型510从RNN处理器501接收输出503。扬声器模型510应用在系统300中确定的参数以产生输出505。扬声器模型510对来自RNN处理器501的经预失真的信号503进行操作。处理器501操作来校正扬声器模型510中的任何失真。
上述系统300-500可一起用于设置前置校正器或RNN处理器501和扬声器模型510。在示例性实施方案中,扬声器模型是可用泛化训练输入模式确定的虚拟模型。输入端101输出音频信号103(例如,音乐、重叠的日志扫描(同时移动通过频谱以形成互调扩展的两个音调)和扫描);上述所有都处于高电平和中电平,其组合成6秒长的激励。因此,扬声器模型也在一定程度上学习了热压缩。泛化训练模式包括扬声器或扬声器模型上的一对输入和单次测量。
还可使用泛化训练输入模式作为输入信号来设置自适应算法320。自适应算法320是由使用初始RNN处理器501的训练造成的。可使用与扬声器模型级联的泛化训练输入模式来设置RNN处理器501。这个初始的经训练的前置校正器501和前向模型304用作校正感兴趣的特定激励(例如,对特定扬声器的多音调输入)的良好起始点。
经训练的前置校正器501的这些初始模型和前向模型304以实时批量方式进行调整,其中首先将前向模型在来自先前迭代的经预校正的输入和所得的输出测量上进行训练。前向模型利用泛化训练序列和先前迭代测量作为输入训练较少的迭代。这样做是为了防止前向模型遗忘泛化训练序列,而同时提高多音调输入信号上的性能。
前置校正器501随后训练较少的迭代,以便使级联模型与期望目标的输出之间的误差最小化。随后,利用经训练的前置校正器501的输出作为对实际物理系统的输入来对实际物理系统进行测量。
分析所得的性能。可使用对所得性能的各种统计分析。例如,可使用归一化的均方根误差或标准误差来确定误差度量。分析性能的另一个实例可使用级联输出与未经预校正的输出之间的谐波/互调失真结果的比较。这个性能度量显示了使用预校正实现的校正量。
可重复上述过程,直到实现可接受的性能。
一些实例使用至少两个RNN来对扬声器系统的性能进行建模和测试。使用多个RNN将前置校正器和前向模型解耦,以实现本算法的效率。在实例中,多个RNN可组合成具有中间输出的单个RNN,所述中间输出复制前置校正器输出和将会是级联输出的最终输出。这种RNN会具有反馈连接并且训练效率较低。
图6示出扬声器校正方法600。在601处,执行设置系统校正。设置系统校正操作来(例如)通过使用滤波器均衡RNN的响应来初始化RNN的参数。设置系统校正可将声级(例如,来自声卡或扬声器的输出)校准到麦克风输入(例如,麦克风115(图1))。在实例中,声卡处的声级。例如,音频源101与从扬声器110输出的或由麦克风115拾取的音频源相同。
在603处,关于激励信号的设计和所得的测量对激励信号进行测试。设计激励信号,并测量扬声器系统响应。激励信号可以是来自音频源101的音频信号103。针对系统响应对激励信号的线性或非线性失真分析系统响应。如果激励信号足以产生校正器响应,则选定激励信号。如果激励信号将不会产生校正器响应,则选定新的激励信号。在选定激励信号时,选定了一般激励。测量对一般激励信号的扬声器系统响应。如果一般激励信号未产生大到足以训练校正器的失真,则选定新的一般激励并重复所述过程。如果一般激励信号可产生大到足以训练校正器的失真,则所述过程继续进行。
在607处,计算期望的线性传递函数。低电平系统响应被测量并用于将低电平响应设置为RNN中的目标响应。低电平是低电平信号,其允许具有线性和非线性失真的系统仅充当线性系统。目标响应用于生成特殊激励和一般激励的期望的系统响应。一般激励可以是诸如音乐、多音调、扫描和重叠的日志扫描的多种激励的组合。一般激励确保前置校正器和前向模型适用于多个电平和频谱范围。任选的特殊激励通常可由一组受限的激励组成。限制在(高/中)电平或稀疏/密集频谱的意义上,像多音调。一般激励减少了前置校正器在宽范围的激励上的平均误差,而特殊激励允许前置校正器特殊化并进一步减少特殊激励的误差。在实时情况下,一般前置校正器可用作起始点/周期性复位点,前置校正器使用其进行“特殊化”,并更好地预校正所使用的激励。将低电平响应系统响应设置为RNN前置校正器的期望目标响应。
在609处,开发了初始前向模型RNN。选定了前向模型的RNN架构。使用一般激励作为输入并且使用对应的系统响应作为输出来训练前向模型。使用一般激励和特殊激励计算前向模型RNN。如果前向模型RNN的性能是不可接受的,则重复这个步骤。如果前向模型RNN的性能是可接受的,则过程600移动到步骤611。使用本文概述的度量来评估前向模型的性能。在前向模型的情况下,所测量的系统输出与模型输出之间的失真结果显示了模型的匹配和精度。
在611处,开发了初始前置校正器RNN。选定了前置校正器RNN的架构。使用前向模型输出作为输入并使用期望的系统响应作为后置校正器RNN的输出来训练后置校正器RNN。经训练的后置校正器RNN被设置为初始前置校正器RNN。如果性能是不可接受的,则选定前置校正器RNN的新架构,并重复步骤611。如果性能是可接受的,则使用利用一般激励的多次迭代进一步训练前置校正器RNN。随后将前置校正器RNN设置在具有前向模型RNN的级联配置中。基于级联输出测试级联配置的性能。如果前置校正器RNN和前向模型RNN的级联配置是不可接受的,则所述过程使用利用一般激励的多次迭代来执行附加的前置校正器RNN训练。如果级联配置可接受地执行,则过程600移动到步骤613。在613处,执行前置校正器RNN的实时训练。使用由前置校正器RNN预校正的一般激励来测量系统响应。可(例如)使用归一化的均方根误差来统计评估所测量的响应。
在615处,使用由前置校正器RNN预校正的特殊化激励来执行前置处理器RNN的附加实时训练。来自步骤613的参数可用作前置校正器RNN的初始条件。在实例中,这个步骤是任选的。
图7示出用于使用本文所述的RNN开发的非线性失真校正参数和线性校正参数的系统700。计算机701可将非线性失真校正参数和线性校正参数存储在存储器中。参数可存储在可被加载到声卡703中的矩阵704中。矩阵704可应用于发送到扬声器705的音频信号,以针对扬声器705的非线性失真和线性失真进行校正。声卡703可从麦克风707接收音频信号,所述音频信号也可能遭受非线性失真和线性失真。声卡703可将矩阵704应用于从麦克风707接收的音频信号。
图8示出用于使用本文所述的RNN开发的非线性失真校正参数和线性校正参数的系统800。校正数据源801将非线性失真校正参数和线性校正参数存储在存储器中。参数可下载到扬声器8111或多个扬声器8111、8112……811N,以用于校正扬声器811中固有的非线性失真和线性失真。扬声器811可以全部都是同一类型的,并因此在本文描述的系统和方法中对所述同一类型进行建模。可替代地,用于校正由如本文所述的RNN设置的线性和非线性的失真的参数被存储在校正数据源801中,所述校正数据源801是放大器或信号调节器810的一部分。放大器810接收音频信号并对其进行处理,例如,均衡、放大等,包括在使音频输出信号转向到扬声器811之前应用参数来校正失真。在这个实例中,扬声器811是本文描述的方法和系统中的待测物理设备。
在示例性实施方案中,音频系统包括:物理系统,其包括被配置来响应于音频输入信号产生音频的扬声器;第一递归神经网络,其用于针对来自扬声器的非线性失真进行校正;以及第二递归神经网络,其用于预测从第一递归神经网络接收输出的扬声器的性能,并对第一递归神经网络执行校正。第一递归神经网络接收音频输入信号并将经校正的音频信号输出到第二递归神经网络,并且第二递归神经网络输出级联输出信号。第一递归神经网络将经校正的音频信号输出到输出系统输出的扬声器系统模型/实际扬声器。目标线性传递函数被配置来接收音频输入信号并输出期望的输出信号。
在示例性实施方案中,求和电路被配置来对系统输出和期望的输出信号进行求和以产生误差信号,所述误差信号作为控制信号被第一递归神经网络和第二递归神经网络接收。
在示例性实施方案中,第一递归神经网络是前置校正器,并且第二递归神经网络是前向模型RNN。
在示例性实施方案中,从前向模型RNN开始,并使用从目标线性传递函数到前向模型RNN的误差信号来校正前向模型RNN,以对前置校正器进行训练。
在示例性实施方案中,使用来自物理系统的输出与来自前向模型RNN的输出之间的误差信号来对前向模型RNN进行训练。
在示例性实施方案中,所述音频输入信号是多音调、扫描、重叠的日志扫描和/或音乐信号。
本公开不限于特定类型的扬声器或具体类型的反馈信号。对于不同的扬声器,RNN的大小和特定架构可发生变化。此外,对于不同的反馈信号,在误差信号的计算中可能需要微小的改变。另外,单个RNN或RNN的组合可用于校正扬声器阵列。
虽然上文描述了示例性实施方案,但并不意味着这些实施方案描述了本发明的所有可能形式。实际上,在说明书中使用的措词是描述性而非限制性的措辞,并且应理解,可在不背离本发明的精神和范围的情况下做出各种改变。另外,可对各种所实现的实施方案的特征加以组合以形成本发明的另外的实施方案。
Claims (18)
1.一种音频系统,包括:
物理系统,其包括被配置来响应于音频输入信号产生音频的扬声器;
音频处理器,其用于将经处理的信号输出到所述扬声器,所述音频处理器包括递归神经网络以便针对来自所述扬声器的非线性失真进行校正;以及
自适应反馈系统,其从所述扬声器接收音频输出并将所述接收到的音频输出与目标进行比较,以向所述递归神经网络提供校正参数,所述自适应反馈系统被配置来预测从所述第一递归神经网络接收输出的所述扬声器的性能,并向所述递归神经网络提供校正的参数。
2.如权利要求1所述的系统,其中所述递归神经网络接收所述音频输入信号,并将经校正的音频信号输出到所述扬声器。
3.如权利要求2所述的系统,其中所述递归神经网络输出驱动信号扬声器。
4.如权利要求3所述的系统,其中所述音频处理器将目标线性传递函数应用于所述输入信号以产生用于所述扬声器的所述经处理的信号。
5.如权利要求4所述的系统,其中所述递归神经网络接收所述音频输入信号,并输出期望的输出信号。
6.如权利要求4所述的系统,其还包括求和电路,所述求和电路用于对所述系统输出和所述期望的输出信号进行求和以产生误差信号,所述误差信号作为控制信号被所述两个递归神经网络接收。
7.如权利要求6所述的系统,其中所述递归神经网络是前置校正器。
8.如权利要求7所述的系统,其中使用来自所述扬声器的输出与来自前向模型的输出之间的误差信号来对所述递归神经网络进行训练。
9.如权利要求1所述的系统,其中所述音频输入信号是多音调、扫描、重叠的日志扫描和/或音乐信号。
10.一种音频系统,包括:
扬声器,其包括基于输入到所述扬声器的音频信号的非线性失真和线性失真;
非线性失真去除参数,其从以下各项开发:第一递归神经网络,用于针对来自所述扬声器的非线性失真进行校正,和第二递归神经网络,用于预测从所述第一递归神经网络接收输出的所述扬声器的性能,并校正所述第一递归神经网络的参数;以及
电路,其用于将所述非线性失真去除参数应用于所述扬声器中的所述音频信号。
11.如权利要求10所述的音频系统,其中所述电路在放大器中,所述放大器将通过所述非线性失真去除参数校正的音频信号发送到所述扬声器,以响应于所述音频信号来减少所述扬声器处的非线性失真。
12.如权利要求11所述的音频系统,其中所述非线性失真去除参数在音频信号校正矩阵中,所述非线性失真去除参数被数学地应用于输入到所述放大器的音频信号,所述放大器将经校正的音频输出信号输出到所述扬声器。
13.如权利要求11所述的音频系统,其中所述矩阵包括线性失真校正参数,所述线性失真校正参数被数学地应用于输入到所述放大器的所述音频信号,所述放大器将所述经校正的音频输出信号输出到所述扬声器。
14.如权利要求10所述的音频系统,其中所述第一递归神经网络接收所述音频输入信号并将经校正的音频信号输出到所述第二递归神经网络,并且所述第二递归神经网络输出级联输出信号。
15.如权利要求14所述的音频系统,其中所述第一递归神经网络将所述经校正的音频信号输出到输出系统输出的扬声器系统模型。
16.如权利要求15所述的音频系统,还包括目标线性传递函数,所述目标线性传递函数接收所述音频输入信号,并输出期望的输出信号。
17.如权利要求16所述的音频系统,还包括求和电路,所述求和电路用于对所述系统输出和所述期望的输出信号进行求和以产生误差信号,所述误差信号作为控制信号被所述第一递归神经网络和所述第二递归神经网络接收。
18.如权利要求17所述的音频系统,其中所述第一递归神经网络是前置校正器,并且所述第二递归神经网络是前向模型RNN。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/339,045 US10127921B2 (en) | 2016-10-31 | 2016-10-31 | Adaptive correction of loudspeaker using recurrent neural network |
US15/339,045 | 2016-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108024179A true CN108024179A (zh) | 2018-05-11 |
CN108024179B CN108024179B (zh) | 2021-11-02 |
Family
ID=60083780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711047363.0A Active CN108024179B (zh) | 2016-10-31 | 2017-10-31 | 音频系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10127921B2 (zh) |
EP (1) | EP3316595A1 (zh) |
CN (1) | CN108024179B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872730A (zh) * | 2019-03-14 | 2019-06-11 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN112188360A (zh) * | 2020-09-28 | 2021-01-05 | 深圳市潮流网络技术有限公司 | 音频通信方法和装置、通信设备以及计算机可读存储介质 |
CN111461229B (zh) * | 2020-04-01 | 2023-10-31 | 北京工业大学 | 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 |
WO2023230819A1 (en) * | 2022-05-31 | 2023-12-07 | Zte Corporation | Digital predistortion method and apparatus |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019059941A1 (en) * | 2017-09-25 | 2019-03-28 | Hewlett-Packard Development Company, L.P. | AUDIO COMPONENT SETTING |
US10558852B2 (en) * | 2017-11-16 | 2020-02-11 | Adobe Inc. | Predictive analysis of target behaviors utilizing RNN-based user embeddings |
CN111193973B (zh) * | 2018-11-15 | 2022-07-22 | 马克西姆综合产品公司 | 扬声器的动态消除蜂鸣器 |
US11153684B2 (en) * | 2018-11-15 | 2021-10-19 | Maxim Integrated Products, Inc. | Dynamic debuzzer for speakers |
CN109861991B (zh) * | 2019-01-11 | 2020-12-08 | 浙江大学 | 一种基于麦克风非线性特性的设备指纹提取方法 |
DE102019210414A1 (de) * | 2019-07-15 | 2021-01-21 | Robert Bosch Gmbh | Auswerteeinrichtung und Verfahren zur Analyse einer Beschallungsanlage sowie Beschallungsanlage |
KR102114335B1 (ko) * | 2020-01-03 | 2020-06-18 | 주식회사 지브이코리아 | 인공지능모델을 이용한 음향 조율 시스템이 적용된 오디오 앰프 |
FR3107982B1 (fr) * | 2020-03-05 | 2023-05-19 | Faurecia Clarion Electronics Europe | Procédé et système de détermination de filtres d’égalisation sonore d’un système audio |
US11962981B2 (en) * | 2020-09-16 | 2024-04-16 | Crestron Electronics, Inc. | Multi-voice conferencing device soundbar test system and method |
US11622194B2 (en) * | 2020-12-29 | 2023-04-04 | Nuvoton Technology Corporation | Deep learning speaker compensation |
WO2024017837A1 (en) * | 2022-07-21 | 2024-01-25 | Sony Group Corporation | Methods and electronic devices |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258790A (ja) * | 1996-03-27 | 1997-10-03 | Seiko Epson Corp | ニューラルネットワーク音声モデル再学習方法および装置 |
US5694476A (en) * | 1993-09-27 | 1997-12-02 | Klippel; Wolfgang | Adaptive filter for correcting the transfer characteristic of electroacoustic transducer |
US20080037804A1 (en) * | 2006-08-01 | 2008-02-14 | Dts, Inc. | Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
CN103105773A (zh) * | 2012-12-27 | 2013-05-15 | 电子科技大学 | 基于神经网络逆辨识与自适应pid的声参量阵控制方法 |
CN105023580A (zh) * | 2015-06-25 | 2015-11-04 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
US20160275376A1 (en) * | 2015-03-20 | 2016-09-22 | Netra, Inc. | Object detection and classification |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6601054B1 (en) | 1999-08-16 | 2003-07-29 | Maryland Technology Corporation | Active acoustic and structural vibration control without online controller adjustment and path modeling |
JP4388033B2 (ja) | 2006-05-15 | 2009-12-24 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US8204210B2 (en) * | 2010-02-09 | 2012-06-19 | Nxp B.V. | Method and system for nonlinear acoustic echo cancellation in hands-free telecommunication devices |
US9628926B2 (en) | 2015-05-01 | 2017-04-18 | Harman International Industries, Inc. | Modeling loudspeakers based on cascading lumped parameter models with neural networks |
US10425730B2 (en) * | 2016-04-14 | 2019-09-24 | Harman International Industries, Incorporated | Neural network-based loudspeaker modeling with a deconvolution filter |
DE112017001830B4 (de) * | 2016-05-06 | 2024-02-22 | Robert Bosch Gmbh | Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen |
-
2016
- 2016-10-31 US US15/339,045 patent/US10127921B2/en active Active
-
2017
- 2017-10-10 EP EP17195581.8A patent/EP3316595A1/en not_active Ceased
- 2017-10-31 CN CN201711047363.0A patent/CN108024179B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5694476A (en) * | 1993-09-27 | 1997-12-02 | Klippel; Wolfgang | Adaptive filter for correcting the transfer characteristic of electroacoustic transducer |
JPH09258790A (ja) * | 1996-03-27 | 1997-10-03 | Seiko Epson Corp | ニューラルネットワーク音声モデル再学習方法および装置 |
US20080037804A1 (en) * | 2006-08-01 | 2008-02-14 | Dts, Inc. | Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer |
CN101512938A (zh) * | 2006-08-01 | 2009-08-19 | Dts(英属维尔京群岛)有限公司 | 用于补偿音频变换器的线性和非-线性失真的神经网络滤波技术 |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
CN103105773A (zh) * | 2012-12-27 | 2013-05-15 | 电子科技大学 | 基于神经网络逆辨识与自适应pid的声参量阵控制方法 |
US20160275376A1 (en) * | 2015-03-20 | 2016-09-22 | Netra, Inc. | Object detection and classification |
CN105023580A (zh) * | 2015-06-25 | 2015-11-04 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
Non-Patent Citations (1)
Title |
---|
吴新龙: "《基于神经网络的参量声源逆控制方法研究与实现》", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872730A (zh) * | 2019-03-14 | 2019-06-11 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN109872730B (zh) * | 2019-03-14 | 2021-01-12 | 广州飞傲电子科技有限公司 | 音频数据的失真补偿方法、模型建立方法和音频输出设备 |
CN111461229B (zh) * | 2020-04-01 | 2023-10-31 | 北京工业大学 | 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 |
CN112188360A (zh) * | 2020-09-28 | 2021-01-05 | 深圳市潮流网络技术有限公司 | 音频通信方法和装置、通信设备以及计算机可读存储介质 |
CN112188360B (zh) * | 2020-09-28 | 2022-05-24 | 深圳市潮流网络技术有限公司 | 音频通信方法和装置、通信设备以及计算机可读存储介质 |
WO2023230819A1 (en) * | 2022-05-31 | 2023-12-07 | Zte Corporation | Digital predistortion method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
US10127921B2 (en) | 2018-11-13 |
CN108024179B (zh) | 2021-11-02 |
EP3316595A1 (en) | 2018-05-02 |
US20180122401A1 (en) | 2018-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108024179A (zh) | 使用递归神经网络的扬声器自适应校正 | |
JP7451720B2 (ja) | プリディストーション方法、システム、装置及び記憶媒体 | |
US20140314182A1 (en) | Modeling of a Target Volterra Series Using an Orthogonal Parallel Wiener Decomposition | |
Tarver et al. | Neural network DPD via backpropagation through a neural network model of the PA | |
JP2013542696A5 (zh) | ||
CN108153943A (zh) | 基于时钟循环神经网络的功率放大器的行为建模方法 | |
CN107703418A (zh) | 基于多径向基神经网络的局部放电定位误差补偿方法 | |
CN107231590A (zh) | 用于调谐扬声器的失真响应的技术 | |
Kobal et al. | Digital predistortion of RF power amplifiers with phase-gated recurrent neural networks | |
CN111859795A (zh) | 针对功率放大器的多项式辅助神经网络行为建模系统及方法 | |
CN109872730A (zh) | 音频数据的失真补偿方法、模型建立方法和音频输出设备 | |
Guldenschuh et al. | Prediction filter design for active noise cancellation headphones | |
Yin et al. | Robust Q-gradient subband adaptive filter for nonlinear active noise control | |
Dunn et al. | Memory polynomial model for digital predistortion of broadband solid-state radar amplifiers | |
Aguilar‐Lobo et al. | Application of the NARX neural network as a digital predistortion technique for linearizing microwave power amplifiers | |
Zhang et al. | Extreme learning machine for the behavioral modeling of RF power amplifiers | |
Dunn et al. | Frequency-dependent power amplifier modeling and correction for distortion in wideband radar transmissions | |
CN106068460A (zh) | 用于对被测设备进行测试的测试装置和方法 | |
Mišić et al. | Volterra kernels extraction from neural networks for amplifier behavioral modeling | |
CN116305886A (zh) | 基于神经网络滤波器的自适应前馈式主动降噪方法、计算机可读存储介质、电子设备 | |
CN110533169A (zh) | 一种基于复值神经网络模型的数字预失真方法及系统 | |
CN110188382B (zh) | 基于fft与bp神经网络模型的功率放大器频域行为建模方法 | |
de Miguel et al. | Virtual pre-test analysis for optimization of multi-channel control strategies in direct field acoustic testing | |
JP2010050908A (ja) | プリディストータ | |
CN106105032B (zh) | 用于自适应滤波器的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |