CN118120013A - 音频信号重构 - Google Patents

音频信号重构 Download PDF

Info

Publication number
CN118120013A
CN118120013A CN202280068624.XA CN202280068624A CN118120013A CN 118120013 A CN118120013 A CN 118120013A CN 202280068624 A CN202280068624 A CN 202280068624A CN 118120013 A CN118120013 A CN 118120013A
Authority
CN
China
Prior art keywords
audio signal
amplitude spectrum
data
estimate
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280068624.XA
Other languages
English (en)
Inventor
Z·I·斯科迪利斯
D·德瓦苏伦德拉
V·拉金德兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN118120013A publication Critical patent/CN118120013A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)

Abstract

一种方法包括接收包括描述音频信号的幅度谱数据的音频数据。该方法还包括将该音频数据作为输入提供给神经网络,以针对该音频信号的一个或多个样本生成初始相位估计。该方法还包括基于该初始相位估计和该音频信号的该一个或多个样本的由该幅度谱数据指示的幅度谱,使用相位估计算法来确定该音频信号的该一个或多个样本的目标相位数据。该方法还包括基于该音频信号的该一个或多个样本的由该目标相位数据指示的目标相位并且基于该幅度谱来重构该音频信号。

Description

音频信号重构
相关申请的交叉引用
本申请要求2021年10月18日提交的共同拥有的希腊临时专利申请20210100708号的优先权的权益,该希腊临时专利申请的内容全文以引用方式明确地并入本文。
技术领域
本公开整体涉及音频信号重构。
背景技术
技术进步已导致更小且更强大的计算设备。例如,当前存在各种各样的便携式个人计算设备,包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以通过无线网络传送话音和数据分组。此外,许多此类设备并入有附加功能性,诸如数字静态相机、数字摄像机、数字记录器和音频文件播放器。此外,此类设备可以处理可执行指令,包括软件应用,诸如网络浏览器应用,其可用于访问互联网。照此,这些设备可以包括显著的计算能力。
移动设备(诸如移动电话)可用于编码和解码音频。作为非限制性示例,第一移动设备可检测来自用户的语音并且将语音编码为生成的编码音频信号。编码音频信号可被传送到第二移动设备,且在接收到编码音频信号后,第二移动设备可对音频信号进行解码以重构语音以供重放。在一些场景中,可使用复杂电路来解码音频信号。然而,复杂电路可留下相对大的存储器占用。在不使用复杂电路来重构语音的其他场景中,语音的重构包括时间密集型操作。例如,可以使用需要多次迭代的语音重构算法来重构语音。作为多次迭代的结果,处理效率可能降低。
发明内容
根据本公开的一个具体实施,一种设备包括存储器和耦合到该存储器的一个或多个处理器。一个或多个处理器被可操作地配置为接收包括描述音频信号的幅度谱数据的音频数据。一个或多个处理器还被可操作地配置为将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计。一个或多个处理器还被可操作地配置为基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据。一个或多个处理器进一步被可操作地配置为基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号。
根据本公开的另一个具体实施,一种方法包括接收包括描述音频信号的幅度谱数据的音频数据。该方法还包括将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计。该方法还包括基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据。该方法还包括基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号。
根据本公开的另一个具体实施,一种非暂态计算机可读介质包括指令,该指令在由一个或多个处理器执行时使得一个或多个处理器接收包括描述音频信号的幅度谱数据的音频数据。该指令在由一个或多个处理器执行时进一步使得一个或多个处理器将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计。该指令在由一个或多个处理器执行时还使得一个或多个处理器基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据。该指令在由一个或多个处理器执行时进一步使得一个或多个处理器基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号。
根据本公开的另一个具体实施,一种装置包括用于接收包括描述音频信号的幅度谱数据的音频数据的构件。该装置还包括用于将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计的构件。该装置还包括用于基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据的构件。该装置还包括用于基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号的构件。
本公开的其他方面、优点和特征将在审阅包括以下部分的整个申请后变得显而易见:附图说明、具体实施方式和权利要求书。
附图说明
图1是根据本公开的一些示例的被配置为使用神经网络和相位估计算法重构音频信号的系统的特定例示性方面的框图。
图2是根据本公开的一些示例的被配置为使用相位估计算法基于来自神经网络的初始相位估计来重构音频信号的系统的特定例示性方面的框图。
图3是根据本公开的一些示例的被配置为基于重构音频信号向神经网络提供反馈的系统的特定例示性方面的框图。
图4是根据本公开的一些示例的被配置为针对相位估计算法生成初始相位估计的系统的特定例示性方面的框图。
图5是根据本公开的一些示例的重构音频信号的方法的特定具体实施的图。
图6是集成电路中的解码设备的组件的特定示例的图。
图7是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法重构音频信号的电路的移动设备的图。
图8是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法重构音频信号的电路的头戴式耳机的图。
图9是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法重构音频信号的电路的可穿戴电子设备的图。
图10是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法重构音频信号的电路的声控扬声器系统的图。
图11是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法l重构音频信号的电路的相机的图。
图12是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法重构音频信号的电路的头戴式设备(诸如虚拟现实头戴式设备、混合现实头戴式设备或增强现实头戴式设备)的图。
图13是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法重构音频信号的电路的交通工具的第一示例的图。
图14是根据本公开的一些示例的包括被配置为使用神经网络和相位估计算法重构音频信号的电路的交通工具的第二示例的图。
图15是根据本公开的一些示例的可操作以使用神经网络和相位估计算法重构音频信号的设备的特定例示性示例的框图。
具体实施方式
公开了使用神经网络和相位估计算法重构音频信号的系统和方法。为了例示,移动设备可接收编码音频信号。作为非限制性示例,可将捕获的语音生成为音频信号并且在远程设备处编码,并且可将编码音频信号传送到移动设备。响应于接收到编码音频信号,移动设备可执行解码操作以提取与音频信号的不同特征相关联的音频数据。为了例示,移动设备可执行解码操作以提取描述音频信号的幅度谱数据。
所检索的音频数据可以作为输入提供给神经网络。例如,幅度谱数据可以作为输入提供给神经网络,并且神经网络可以基于幅度谱数据生成第一音频信号估计。为了减少存储器占用,神经网络可以是低复杂性神经网络(例如,低复杂性自回归生成神经网络)。可基于由神经网络生成的第一音频信号估计的相位来标识针对音频信号的一个或多个样本的初始相位估计。
初始相位估计连同从解码操作提取的幅度谱数据所指示的幅度谱可以被相位估计算法用来确定音频信号的一个或多个样本的目标相位。作为非限制性示例,移动设备可使用Griffin-Lim算法来基于初始相位估计和幅度谱确定目标相位。“Griffin-Lim算法”对应于基于短期傅立叶变换的冗余的相位重构算法。如本文所用,“目标相位”对应于与幅度谱一致的相位估计,使得具有目标相位的重构音频信号听起来与原始音频信号基本上相同。在一些场景中,目标相位可对应于原始音频信号的相位的副本。在其他场景中,目标相位可不同于原始音频信号的相位。因为使用基于神经网络的输出确定的初始相位估计而不是使用随机或默认相位估计来初始化相位估计算法,所以相位估计算法可经历相对少量的迭代(例如,一次迭代、两次迭代、少于五次迭代、少于二十次迭代等)以确定音频信号的一个或多个样本的目标相位。作为非限制性示例,可基于相位估计算法的单次迭代来确定目标相位,而不是在使用随机或默认相位估计来初始化相位估计算法的情况下使用数百次迭代。因此,可以提高处理效率和其他性能定时度量。通过使用目标相位和由从解码操作提取的幅度谱数据所指示的幅度谱,移动设备可以重构音频信号并且可以将重构音频信号提供给扬声器以供播放。
因此,本文中描述的技术使得能够使用低复杂性神经网络通过将神经网络与相位估计算法组合来重构与目标音频信号匹配的音频信号。在没有将神经网络与相位估计算法组合的情况下,仅单独使用神经网络来生成高质量音频输出可能需要非常大且复杂的神经网络。通过使用相位估计算法来对神经网络的输出执行处理(例如,后处理),可在维持高音频质量的同时显著降低神经网络的复杂性。神经网络复杂性的降低使得神经网络能够在没有高电池消耗的情况下在典型移动设备中运行。在不能够对神经网络实现这种复杂性降低的情况下,可能不能运行神经网络来在典型移动设备中获得高质量音频。还应当理解,通过将神经网络与相位估计算法组合,可经历相位估计算法的相对少量的迭代(例如,一次或两次迭代)来确定目标相位,而不是在不存在神经网络的情况下通常将必须经历的大量迭代(例如,介于一百次与五百次迭代之间)。
下面参考附图描述本公开的特定方面。在本说明书中,共用的特征由共用的参考标号来指定。如本文所使用的,各种术语仅用于描述特定具体实施的目的,而并不旨在对具体实施进行限制。例如,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另外明确指示。此外,本文所描述的一些特征在一些具体实施中是单数,而在其他具体实施中是复数。为了例示,图6描绘了包括一个或多个处理器(图6的“处理器”610)的具体实施600,这指示在一些场景中,具体实施600包括单个处理器610,并且在其他场景中,具体实施600包括多个处理器610。为了便于本文引用,这样的特征通常被引入为“一个或多个”特征,并且后续以单数形式来提及,除非描述了与多个特征相关的方面。
可以进一步理解的是,术语“包括”可与“包含”互换地使用。另外,应当理解,术语“其中”可与“在其中”互换地使用。如本文所使用的,“示例性的”可指示示例、具体实施和/或方面,而不应理解为限制性的或指示优选项或优选具体实施。如本文所使用的,用于修饰元素(诸如,结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或顺序,而只是将该元素与具有相同名称(但使用序数术语)的另一元素相区分。如本文所使用的,术语“集合”是指一个或多个特定元素,而术语“多个”是指多个(例如,两个或更多个)特定元素。
如本文所使用的,“耦合”可以包括“通信地耦合”、“电耦合”或“物理地耦合”,以及还可以(或另选地)包括它们的任何组合。两个设备(或组件)可经由一个或多个其他设备、组件、导线、总线、网络(例如,有线网络、无线网络或它们的组合)等直接或间接耦合(例如,通信地耦合、电耦合或物理地耦合)。作为例示性、非限制性示例,电耦合的两个设备(或组件)可包括在相同的设备中,也可包括在不同的设备中,并且可经由电子器件、一个或多个连接器或电感耦合来连接。在一些具体实施中,通信地耦合(诸如电连通)的两个设备(或组件)可经由一个或多个导线、总线、网络等直接或间接地发送和接收信号(例如,数字信号或模拟信号)。如本文所使用的,“直接耦合”可包括在没有中间组件的情况下耦合(例如,通信地耦合、电耦合或物理地耦合)的两个设备。
在本公开中,诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可以用于描述如何执行一个或多个操作。应当注意,此类术语不应被解读为限制性的,并且可以利用其他技术来执行类似的操作。另外,如本文所提及的,“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换使用。例如,“生成”、“计算”、“估计”或“确定”参数(或信号)可以是指主动生成、估计、计算或确定该参数(或信号),或者可以是指使用、选择或访问(诸如,由另一组件或设备)已经生成的参数(或信号)。
参考图1,公开了被配置为使用神经网络和相位估计算法重构音频信号的系统的特定例示性方面,并且总体上将其指定为100。系统100包括神经网络102和音频信号重构单元104。根据一个具体实施,神经网络102和音频重构信号单元104可被集成到移动设备中。作为非限制性示例,神经网络102和音频重构信号单元104可被集成到移动电话、可穿戴设备、头戴式设备、交通工具、无人机、膝上型计算机等中。在一些具体实施中,神经网络102和音频重构信号单元104可被集成到移动设备的解码器中。根据另一个具体实施,神经网络102和音频重构信号单元104可被集成到其他设备(例如,非移动设备)中。作为非限制性示例,神经网络102和音频重构信号单元104可被集成到计算机、物联网(IoT)设备等中。
神经网络102可被配置为接收音频数据110。根据一个具体实施,音频数据110可对应于从音频解码器(未示出)接收的去量化值。例如,音频解码器可执行解码操作以提取(例如,检索、解码、生成等)音频数据110。音频数据110包括描述音频信号的幅度谱数据114。根据一个示例,“音频信号”可对应于在远程设备处被编码并且传送到与系统100相关联的设备的语音信号。尽管幅度谱数据114在图1中例示,但在其他具体实施中,描述其他特征(例如,语音特征)的数据可被包括在音频数据110中。作为非限制性示例,音频数据110还可包括描述音频信号的音高数据、描述音频信号的相位估计数据等。
神经网络102可被配置为基于音频数据110生成音频信号的一个或多个样本的初始相位估计116。例如,如相对于图4所述,神经网络102可基于音频数据110生成第一音频信号估计130。第一音频信号估计130可对应于时域中音频信号的一个或多个样本的初步(或初始)重构。可对第一音频信号估计130执行变换操作(例如,短时傅立叶变换(STFT)操作)以生成音频信号c的一个或多个样本的初始相位估计116。初始相位估计116被提供给音频信号重构单元104。
神经网络102可以是低复杂性神经网络,其具有相对小的存储器占用并且消耗相对少量的处理能力。神经网络102可以是自回归神经网络。根据一个具体实施,神经网络102可以是用于音频生成的单层递归神经网络(RNN),诸如WaveRNN。WaveRNN的一个示例是LPCNet。
音频信号重构单元104包括目标相位估计器106。目标相位估计器106可被配置为运行相位估计算法108以确定音频信号的一个或多个样本的目标相位118。作为非限制性示例并且如相对于图2进一步所述,相位估计算法108可对应于Griffin-Lim算法。然而,在其他具体实施中,相位估计算法108可对应于其他算法。作为非限制性示例,相估计算法108可对应于Gerchberg-Saxton(GS)算法、Wirtinger流(WF)算法等。
一般来讲,相位估计算法108可对应于从谱幅度的冗余表示估计谱相位的任何信号处理算法(或语音处理算法)。为了例示,幅度谱数据114在由音频信号重构单元104处理时可指示音频信号的一个或多个样本的幅度谱140(例如,原始幅度谱(Aorig)140)。幅度谱(Aorig)140可以对应于与相邻窗口化短时幅度谱重叠的窗口化短时幅度谱。例如,与幅度谱(Aorig)140的第一部分相关联的第一窗口可以和与幅度谱(Aorig)140的第二部分相关联的第二窗口重叠。在该示例中,幅度谱(Aorig)140的第一部分对应于音频信号的一个或多个样本的第一样本的幅度谱,并且幅度谱(Aorig)140的第二部分对应于音频信号的一个或多个样本的第二样本的幅度谱。根据一个具体实施,第一窗口的至少百分之五十与第二窗口的至少百分之五十重叠。根据另一个具体实施,第一窗口的一个样本与第二窗口的一个样本重叠。
基于原始幅度谱(Aorig)140和初始相位估计116,目标相位估计器106可以运行相位估计算法108以确定音频信号的一个或多个样本的目标相位118。例如,目标相位估计器106可基于初始相位估计116和原始幅度谱(Aorig)140执行逆变换操作(例如,逆短时傅立叶变换(ISTFT)操作)以生成第二音频信号估计142。第二音频信号估计142可对应于时域中音频信号的一个或多个样本的初步(或初始)重构。通过对第二音频信号估计142执行变换操作(例如,STFT操作),可确定目标相位118。音频信号重构单元104可被配置为基于目标相位118和原始幅度谱(Aorig)140执行逆变换操作(例如,ISTFT操作)以生成重构音频信号120。
相对于图1所述的技术通过使用低复杂性神经网络102来减少与生成重构音频信号120相关联的存储器占用。另外,因为使用基于神经网络102的输出确定的初始相位估计116而不是使用随机或默认相位估计(例如,不基于音频数据110的相位估计)来初始化相位估计算法108,所以相位估计算法108可经历相对少量的迭代以确定重构音频信号120的目标相位118。作为非限制性示例,目标相位估计器106可基于相位估计算法108的单次迭代来确定目标相位118,而不是在使用随机相位估计来初始化相位估计算法108的情况下使用数百次迭代。因此,可以提高处理效率和其他性能度量(诸如功率利用率)。
参考图2,公开了被配置为使用相位估计算法基于来自神经网络的初始相位估计来重构音频信号的系统的特定例示性方面,并且总体上将其指定为200。系统200包括相位选择器202、幅度谱选择器204、逆变换操作单元206和变换操作单元208。根据一个具体实施,相位选择器202、幅度谱选择器204、逆变换操作单元206和变换操作单元208可被集成到图1的音频信号重构单元104中。
根据一个具体实施,系统200例示了运行相位估计算法108的非限制性示例。作为非限制性示例,系统200可描绘由音频信号重构单元104用来生成重构音频信号120的Griffin-Lim算法的单次迭代250。单次迭代250可以用于确定目标相位118,并且由虚线描绘。如下所述,响应于确定目标相位118,可以基于目标相位118和原始幅度谱(Aorig)140来生成重构音频信号120。
根据图2的示例,来自神经网络102的初始相位估计116被提供给相位选择器202,并且由幅度谱数据114指示的原始幅度谱(Aorig)140被提供给幅度谱选择器204。相位选择器202可选择初始相位估计116来初始化相位估计算法108,并且幅度谱选择器204可以选择原始幅度谱(Aorig)140来初始化相位估计算法108。因此,在单次迭代250期间,初始相位估计116和原始幅度谱(Aorig)140被提供给逆变换操作单元206。
逆变换操作单元206可被配置为基于初始相位估计116和原始幅度谱(Aorig)140执行逆变换操作以生成第二音频信号估计142。作为非限制性示例,逆变换操作单元206可以使用初始相位估计116和原始幅度谱(Aorig)140来执行ISTFT操作以生成第二音频信号估计142,使得 其中xr对应于第二音频信号估计142,并且θr对应于初始相位估计116。尽管描述了ISTFT操作,但是在其他具体实施中,逆变换操作单元206可以基于初始相位估计116和原始幅度谱(Aorig)140来执行其他逆变换操作。作为非限制性示例,逆变换操作单元206可执行傅立叶逆变换操作、离散傅立叶逆变换操作等。
变换操作单元208可被配置为对第二音频信号估计142执行变换操作以确定目标相位118。作为非限制性示例,变换操作单元208可以对第二音频信号估计142执行STFT操作以生成频域信号(未例示)。频域信号可以具有相位(例如,目标相位118)和幅度(例如,幅度谱)。由于与原始幅度谱(Aorig)140相关联的显著窗口重叠,目标相位118略微不同于初始相位估计116。目标相位118被提供给相位选择器202以用于生成重构音频信号120。频域信号的幅度可以被丢弃。尽管描述了STFT操作,但在其他具体实施中,变换操作单元208可以对第二音频信号估计142执行其他变换操作。作为非限制性示例,变换操作单元208可执行傅立叶变换操作、离散傅立叶变换操作等。
在单次迭代250之后,相位选择器202可以选择目标相位118以提供给逆变换操作单元206,并且幅度谱选择器204可以选择原始幅度谱(Aorig)140以提供给逆变换操作单元206。逆变换操作单元206可被配置为基于目标相位118和原始幅度谱(Aorig)140执行逆变换操作以生成重构音频信号120。作为非限制性示例,逆变换操作单元206可以使用目标相位118和原始幅度谱(Aorig)140来执行ISTFT操作以生成重构音频信号120,使得其中xr,new对应于重构音频信号120,并且θr,new对应于目标相位118。
应当理解,相对于图2所描述的技术仅描绘相位估计算法108的一个非限制性示例。其他相位估计算法和具体实施可用于基于来自神经网络102的初始相位估计116来生成重构音频信号120。
相对于图2所述的技术可导致相位估计算法的迭代次数减少(例如,单次迭代250)。例如,因为使用基于神经网络102的输出确定的初始相位估计116而不是不基于音频数据的相位估计(诸如随机或默认相位估计)来初始化系统200的操作,所以相位估计算法可使用相对少量的迭代进行收敛以确定重构音频信号120的目标相位118。作为非限制性示例,系统200可基于单次迭代250来确定目标相位118,而不是在使用随机相位估计来初始化相位估计系统200的情况下使用数百次迭代。因此,可以提高处理效率和其他性能度量。
参考图3,公开了被配置为基于重构音频信号向神经网络提供反馈的系统的特定例示性方面,并且总体上将其指定为300。系统300包括与图1的系统100类似的组件,并且可以以基本上类似的方式操作。例如,系统300包括神经网络102和音频信号重构单元104。
然而,在图3所例示的示例中,与重构音频信号120相关联的第一重构数据样本作为输入被提供给神经网络102作为延迟302之后的反馈。通过将重构音频信号120提供给神经网络102,重构音频信号120可用于生成音频信号的附加样本(例如,一个或多个第二样本)的相位估计。例如,神经网络102可以使用来自与重构音频信号120相关联的第一重构数据样本的幅度和相位信息来生成一个或多个后续样本的相位估计。
相对于图3所述的技术使得神经网络102能够生成改进的音频信号估计。例如,通过向神经网络102提供重构数据样本作为反馈,神经网络102可以生成改进的输出(例如,信号估计和相位估计)。可以使用改进的初始相位估计来初始化相位估计算法108,这使得相位估计算法108能够以更准确地再现原始音频信号的方式来生成重构音频信号120。
参考图4,公开了被配置为针对相位估计算法生成初始相位估计的系统的特定例示性方面,并且总体上将其指定为400。系统400包括帧速率单元402、采样速率单元404、滤波器408和变换操作单元410。根据一个具体实施,系统400的一个或多个组件可以被集成到神经网络102中。
帧速率单元402可以接收音频数据110。根据一个具体实施,音频数据110对应于从音频解码器(诸如反馈递归自编码器(FRAE)的解码器部分、自适应多速率译码器等)接收的去量化值。帧速率单元402可被配置为将音频数据110以特定帧速率提供给采样速率单元404。作为非限制性示例,如果以每秒六十帧的速率捕获音频,则帧速率单元402可每六十分之一秒提供单个帧的音频数据110。
采样速率单元404可以包括两个门控递归单元(GRU),其可以对激励信号(et)的概率分布进行建模。激励信号(et)被采样且与来自滤波器408(例如,LPC滤波器)的预测(Pt)组合以生成音频样本(st)。变换操作单元410可对音频样本(st)执行变换操作以生成提供给音频信号重构单元104的第一音频信号估计130。
重构音频信号120和音频样本(st)作为反馈被提供给采样速率单元404。音频样本(st)经受第一延迟412,并且重构音频信号120经受第二延迟302。在特定方面,第一延迟412不同于第二延迟302。通过将重构音频信号120提供给采样速率单元404,重构音频信号120可用于训练系统400并且改善来自系统400的未来音频信号估计。
参考图5,示出了重构音频信号的方法500的特定具体实施。在特定方面,方法500的一个或多个操作由图1的系统100、图2的系统200、图3的系统300、图4的系统400或它们的组合来执行。
方法500包括在框502处接收包括描述音频信号的幅度谱数据的音频数据。例如,参考图1,系统100接收包括幅度谱数据114的音频数据110。
方法500还包括在框504处将该音频数据作为输入提供给神经网络,以针对该音频信号的一个或多个样本生成初始相位估计。例如,参考图1,音频数据110作为输入被提供给神经网络102以生成初始相位估计116。神经网络102可包括自回归神经网络。
根据一些具体实施,方法500包括使用神经网络基于音频数据生成第一音频信号估计。例如,参考图1,神经网络102基于音频数据110生成第一音频信号估计130。方法500还可包括基于第一音频信号估计130生成初始相位估计116。例如,生成初始相位估计116可包括对第一音频信号估计130执行短时傅立叶变换(STFT)操作以确定幅度(例如,振幅)和相位。该相位可对应于初始相位估计116。
方法500还包括在框506处基于初始相位估计和与幅度谱数据相关联的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据。例如,参考图2,系统200可以基于初始相位估计和原始幅度谱(Aorig)140来确定目标相位118。
方法500还包括在框508处基于该音频信号的该一个或多个样本的由该目标相位数据指示的目标相位并且基于该幅度谱来重构该音频信号。例如,参考图2,系统200可以基于目标相位118和原始幅度谱(Aorig)140来生成重构音频信号120。根据一些具体实施,方法500包括基于初始相位估计和幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计。例如,参考图2,逆变换操作单元206可基于初始相位估计116和原始幅度谱(Aorig)140执行ISTFT操作以生成第二音频信号估计142。方法500还可包括对第二音频信号估计执行短时傅立叶变换(STFT)以确定目标相位。例如,参考图2,变换操作单元208可对第二音频信号估计142执行STFT操作以确定目标相位118。方法500还可包括基于目标相位和幅度谱执行ISTFT操作以重构音频信号。例如,参考图2,逆变换操作单元206可基于目标相位118和原始幅度谱(Aorig)140执行ISTFT操作以生成重构音频信号120。
根据一些具体实施,方法500还可包括将与重构音频信号相关联的第一重构数据样本作为输入提供给神经网络,以针对音频信号的一个或多个第二样本生成相位估计。例如,参考图3,神经网络102可接收重构音频信号120作为反馈以针对音频信号的其他样本生成附加相位估计。
图5的方法500通过使用低复杂性神经网络102来减少与生成重构音频信号120相关联的存储器占用。另外,因为使用基于神经网络102的输出确定的初始相位估计116而不是不基于音频信号的相位估计来初始化相位估计算法108,所以相位估计算法108可经历相对少量的迭代以确定重构音频信号120的目标相位118。作为非限制性示例,目标相位估计器106可基于相位估计算法108的单次迭代来确定目标相位118,而不是在使用随机相位估计来初始化相位估计算法108的情况下使用数百次迭代。因此,可以提高处理效率和其他性能度量。
方法500可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(诸如中央处理单元(CPU))、数字信号处理单元(DSP)、控制器、另一硬件设备、固件设备、或它们的任何组合实现。作为示例,方法500可由执行指令的处理器执行,诸如参考图6至图7所描述的。
图6描绘了具体实施600,其中设备602包括一个或多个处理器610,该一个或多个处理器包括图1的系统100的组件。例如,设备602包括神经网络102和音频信号重构单元104。尽管未明确例示,但设备602可包括图2的系统200、图3的系统300、图4的系统400或它们的组合的一个或多个组件。
设备602还包括被配置为接收音频数据110的输入接口604(例如,一个或多个有线或无线接口)以及被配置为将重构音频信号120提供给重放设备(例如,扬声器)的输出接口606(例如,一个或多个有线或无线接口)。根据一个具体实施,输入接口604可从音频解码器接收音频数据110。作为例示性非、限制性示例,设备602可对应于片上系统或可以集成到其他系统中以提供音频解码的其他模块化设备,诸如在移动电话、另一通信设备、娱乐系统或交通工具内。根据一些具体实施,设备1302可被集成到服务器、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视、游戏控制台、音乐播放器、收音机、数字视频播放器、DVD播放器、调谐器、相机、导航设备、头戴式设备、增强现实头戴式设备、混合现实头戴式设备、虚拟现实头戴式设备、机动交通工具(诸如汽车)、或它们的任何组合中。
在例示的具体实施600中,设备602包括存储器620(例如,一个或多个存储器设备),其包括指令622。设备602还包括耦合到存储器620并且被配置为执行来自存储器620的指令622的一个或多个处理器610。在具体实施600中,神经网络102和/或音频信号重构单元104可对应于指令622或经由该指令来实现。例如,当指令622由处理器610执行时,处理器610可接收包括描述音频信号的幅度谱数据114的音频数据110。处理器610可进一步将音频数据110作为输入提供给神经网络102以生成音频信号的一个或多个样本的初始相位估计116。处理器610还可基于初始相位估计116和音频信号的一个或多个样本的由幅度谱数据114指示的幅度谱140,使用相位估计算法108来确定音频信号的一个或多个样本的目标相位118。处理器610还可基于目标相位118和幅度谱140来重构音频信号(例如,生成重构音频信号120)。
图7描绘了具体实施700,其中设备602被集成到移动设备702(诸如电话或平板设备)中,作为例示性、非限制性示例。移动设备702包括被定位成主要捕获用户语音的麦克风710,被配置为输出声音的扬声器720以及显示屏704。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。例如,音频数据可作为编码位流的一部分被传输到移动设备702。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由扬声器720处理并作为声音输出。
图8描绘了具体实施800,其中设备602被集成到头戴式耳机设备802中。头戴式耳机设备802包括被定位成主要捕获用户的语音的麦克风810以及一个或多个耳机820。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。作为非限制性示例,可将音频数据作为编码位流的一部分或作为介质位流的一部分传输到头戴式耳机设备802。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由耳机820处理并作为声音输出。
图9描绘了具体实施900,其中设备602被集成到例示为“智能手表”的可穿戴电子设备902中。可穿戴电子设备902可包括麦克风910、扬声器920和显示屏904。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。例如,音频数据可作为编码位流的一部分被传输到可穿戴电子设备902。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由扬声器920处理并作为声音输出。
图10是具体实施1000,其中设备602被集成到无线扬声器和话音激活设备1002中。无线扬声器和话音激活设备1002可具有无线网络连接性,并且被配置为执行辅助操作。无线扬声器和话音激活设备1002包括麦克风1010和扬声器1020。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由扬声器1020处理并作为声音输出。
图11描绘了具体实施1100,其中设备602被集成到与相机设备1102相对应的便携式电子设备中。相机设备1102包括麦克风1110和扬声器1120。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由扬声器1120处理并作为声音输出。
图12描绘了具体实施1200,其中设备602被集成到与扩展现实(“XR”)头戴式设备1202(诸如虚拟现实(“VR”)头戴式设备、增强现实(“AR”)头戴式设备或混合现实(“MR”)头戴式设备)相对应的便携式电子设备中。将视觉接口设备定位在用户的眼睛前方,以使得能够在佩戴头戴式设备1202时向用户显示增强现实或虚拟现实图像或场景。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由扬声器1220处理并输出。在特定示例中,视觉接口设备被配置为显示指示来自麦克风1210的用户语音的通知或指示来自由扬声器1220输出的声音的用户语音的通知。
图13描绘了具体实施1300,其中设备602对应于交通工具1302或被集成在该交通工具内,该交通工具被示出为有人驾驶或无人驾驶的航空设备(例如,包裹递送无人机)。交通工具1302包括麦克风1310和扬声器1320。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由扬声器1320处理并作为声音输出。
图14描绘了另一个具体实施1400,其中设备602对应于交通工具1402或被集成在该交通工具内,该交通工具被示出为汽车。交通工具1402还包括麦克风1410和扬声器1420。麦克风1410定位成捕获交通工具1402的操作者的话语。设备602可以接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。设备602可进一步将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。设备602还可基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位(例如,目标相位118)。设备602还可基于目标相位和幅度谱来重构音频信号(例如,生成重构音频信号120)。重构音频信号可以由扬声器1420处理并作为声音输出。交通工具1402的一个或多个操作可基于诸如通过经由显示器1420或扬声器1420提供反馈或信息而检测的一个或多个关键字(例如,“解锁”、“启动引擎”、“播放音乐”、“显示天气预报”或另一话音命令)来发起。
参考图15,描绘了设备的特定例示性具体实施的框图,并且总体上将其指定为1500。在各种具体实施中,设备1500可以具有比图15所示的更多或更少的组件。在例示性具体实施中,设备1500可以执行参考图1至图14所描述的一个或多个操作。
在特定具体实施中,设备1500包括处理器1506(例如,CPU)。设备1500可包括一个或多个附加处理器1510(例如,一个或多个数字信号处理器(DSP)、一个或多个图形处理单元(GPU)、或它们的组合)。处理器1510可包括语音和音乐编码器-解码器(编解码器)1508。语音和音乐编解码器1508可包括话音译码器(“声码器”)编码器1536、声码器解码器1538或两者。在特定方面中,声码器解码器1538包括神经网络102和音频信号重构单元104。尽管未明确例示,但声码器解码器1538可包括图2的系统200、图3的系统300、图4的系统400或它们的组合的一个或多个组件。
设备1500还包括存储器1586和编解码器1534。存储器1586可包括指令1556,该指令可由一个或多个附加处理器1510(或处理器1506)执行以实现参考图1的系统100、图2的系统200、图3的系统300、图4的系统400或它们的组合所描述的功能性。设备1500可包括经由收发器1550耦合到天线1590的调制解调器1540。
设备1500可包括耦合到显示控制器1526的显示器1528。扬声器1596和麦克风1594可以耦合到编解码器1534。编解码器1534可包括数模转换器(DAC)1502和模数转换器(ADC)1504。在特定具体实施中,编解码器1534可以从麦克风1594接收模拟信号,使用模数转换器1504来将模拟信号转换为数字信号,并且将数字信号提供给语音和音乐编解码器1508。语音和音乐编解码器1508可以处理数字信号。在特定具体实施中,语音和音乐编解码器1508可将数字信号提供给编解码器1534。根据一个具体实施,编解码器1534可根据相对于图1至图14所描述的技术来处理数字信号以生成重构音频信号120。编解码器1534可使用数模转换器1502将数字信号(例如,重构音频信号120)转换为模拟信号,并且可将模拟信号提供给扬声器1596。
在特定具体实施中,设备1500可被包括在系统级封装或片上系统设备1522中。在特定具体实施中,存储器1586、处理器1506、处理器1510、显示控制器1526、编解码器1534和调制解调器1540被包括在系统级封装或片上系统设备1522中。在特定具体实施中,输入设备1530和电源1544耦合到系统级封装或片上系统设备1522。此外,在特定具体实施中,如图15所例示,显示器1528、输入设备1530、扬声器1596、麦克风1594、天线1590和电源1544在系统级封装或片上系统设备1522的外部。在特定具体实施中,显示器1528、输入设备1530、扬声器1596、麦克风1594、天线1590和电源1544中的每一者可以耦合到系统级封装或片上系统设备1522的组件(诸如接口或控制器)。在一些具体实施中,设备1500包括在系统级封装或片上系统设备1522外部并且经由接口或控制器耦合到系统级封装或片上系统设备1522的附加存储器。
设备1500可包括智能扬声器(例如,处理器1506可以执行指令1556来运行声控数字助理应用)、音箱、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视、游戏控制台、音乐播放器、收音机、数字视频播放器、DVD播放器、调谐器、相机、导航设备、头戴式设备、增强现实头戴式设备、混合现实头戴式设备、虚拟现实头戴式设备、交通工具、或它们的任何组合。
结合所描述的具体实施,一种装置包括用于接收包括描述音频信号的幅度谱数据的音频数据的构件。例如,用于接收的构件包括图15的神经网络102、音频信号重构单元104、幅度谱选择器204、帧速率单元402、输入接口604、处理器610、处理器1506、处理器1510、调制解调器1540、收发器1550、语音和音乐编解码器1508、声码器解码器1538、被配置为接收音频数据的一个或多个其他电路或组件、或它们的任何组合。
该装置还包括用于将音频数据作为输入提供给神经网络,以针对音频信号的一个或多个样本生成初始相位估计的构件。例如,用于将音频数据作为输入提供给神经网络的构件包括图15的处理器610、处理器1506、处理器1510、语音和音乐编解码器1508、声码器解码器1538、被配置为将音频数据作为输入提供给神经网络的一个或多个其他电路或组件、或它们的任何组合。
该装置还包括用于基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱,使用相位估计算法来确定音频信号的一个或多个样本的目标相位数据的构件。例如,用于确定目标相位数据的构件包括图15的音频信号重构单元104、目标相位估计器106、相位选择器202、幅度谱选择器204、逆变换操作单元206、变换操作单元208、处理器610、处理器1506、处理器1510、语音和音乐编解码器1508、声码器解码器1538、被配置为确定目标相位数据的一个或多个其他电路或组件、或它们的任何组合。
该装置还包括用于基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号的构件。例如,用于重构音频信号的构件包括图15的音频信号重构单元104、目标相位估计器106、相位选择器202、幅度谱选择器204、逆变换操作单元206、变换操作单元208、处理器610、处理器1506、处理器1510、语音和音乐编解码器1508、声码器解码器1538、被配置为重构音频信号的一个或多个其他电路或组件、或它们的任何组合。
在一些具体实施中,一种非暂态计算机可读介质包括指令,该指令在由设备的一个或多个处理器执行时使得一个或多个处理器接收包括描述音频信号的幅度谱数据(例如,幅度谱数据114)的音频数据(例如,音频数据110)。该指令在由一个或多个处理器执行时使得一个或多个处理器将音频数据作为输入提供到神经网络(例如,神经网络102)以针对音频信号的一个或多个样本生成初始相位估计(例如,初始相位估计116)。该指令在由一个或多个处理器执行时使得一个或多个处理器基于初始相位估计和音频信号的一个或多个样本的由幅度谱数据指示的幅度谱(例如,幅度谱140),使用相位估计算法(例如,相位估计算法108)来确定音频信号的一个或多个样本的目标相位数据(例如,目标相位118)。该指令在由一个或多个处理器执行时使得一个或多个处理器基于音频信号的一个或多个样本的由目标相位数据指示的目标相位并且基于幅度谱来重构音频信号。
本公开包括以下实施例。
实施例1包括一种设备,所述设备包括:存储器;和一个或多个处理器,所述一个或多个处理器耦合到所述存储器并且被能够操作地配置为:接收包括描述音频信号的幅度谱数据的音频数据;将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计;基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据;并且基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号。
实施例2包括根据实施例1所述的设备,其中所述神经网络被配置为基于所述音频数据生成第一音频信号估计,并且其中所述指令在被执行时进一步使得所述一个或多个处理器基于所述第一音频信号估计生成所述初始相位估计。
实施例3包括根据实施例2所述的设备,其中所述一个或多个处理器被能够操作地配置为对所述第一音频信号估计执行短时傅立叶变换(STFT)操作以确定所述初始相位估计。
实施例4包括根据实施例1至3中任一项所述的设备,其中一个或多个处理器被能够操作地配置为:基于所述初始相位估计和所述幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计;对所述第二音频信号估计执行短时傅立叶变换(STFT)以确定所述目标相位;并且基于所述目标相位和所述幅度谱执行ISTFT操作以重构所述音频信号。
实施例5包括根据实施例1至4中任一项所述的设备,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
实施例6包括根据实施例5所述的设备,其中所述第一窗口的至少一个样本与所述第二窗口的至少一个样本重叠。
实施例7包括根据实施例1至6中任一项所述的设备,其中所述一个或多个处理器被能够操作地配置为:将与所重构的音频信号相关联的第一重构数据样本作为输入提供给所述神经网络,以针对所述音频信号的一个或多个第二样本生成相位估计。
实施例8包括根据实施例1至7中任一项所述的设备,其中所述神经网络包括自回归神经网络。
实施例9包括根据实施例1至8中任一项所述的设备,其中所述相位估计算法对应于Griffin-Lim算法,并且其中使用所述Griffin-Lim算法的一次迭代或所述Griffin-Lim算法的两次迭代来确定所述目标相位数据。
实施例10包括根据实施例1至9中任一项所述的设备,其中所述音频数据对应于从音频解码器接收的去量化值。
实施例11包括一种方法,所述方法包括:接收包括描述音频信号的幅度谱数据的音频数据;将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计;基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据;以及基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号。
实施例12包括根据实施例11所述的方法,还包括:基于所述音频数据使用所述神经网络来生成基于所述音频数据的第一音频信号估计;以及基于所述第一音频信号估计生成所述初始相位估计。
实施例13包括根据实施例12所述的方法,其中生成所述初始相位估计包括对所述第一音频信号估计执行短时傅立叶变换(STFT)操作。
实施例14包括根据实施例11至13中任一项所述的方法,还包括:基于所述初始相位估计和所述幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计;对所述第二音频信号估计执行短时傅立叶变换(STFT)以确定所述目标相位;以及基于所述目标相位和所述幅度谱执行ISTFT操作以重构所述音频信号。
实施例15包括根据实施例11至14中任一项所述的方法,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
实施例16包括根据实施例15所述的方法,其中所述第一窗口的至少一个样本与所述第二窗口的至少一个样本重叠。
实施例17包括根据实施例11至16中任一项所述的方法,还包括:将与所重构的音频信号相关联的第一重构数据样本作为输入提供给所述神经网络,以针对所述音频信号的一个或多个第二样本生成相位估计。
实施例18包括根据实施例11至17中任一项所述的方法,其中所述神经网络包括自回归神经网络。
实施例19包括根据实施例11至18中任一项所述的方法,其中所述相位估计算法对应于Griffin-Lim算法,并且其中使用所述Griffin-Lim算法的五次或更少次迭代来确定所述目标相位数据。
实施例20包括根据实施例11至19中任一项所述的方法,其中与所述神经网络一起使用所述相位估计算法来重构所述音频信号使得所述神经网络能够是低复杂性神经网络。
实施例21包括一种包括指令的非暂态计算机可读介质,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器:接收包括描述音频信号的幅度谱数据的音频数据;将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计;基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据;并且基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号。
实施例22包括根据实施例21所述的非暂态计算机可读介质,其中所述神经网络被配置为基于所述音频数据生成第一音频信号估计,并且其中所述指令在被执行时进一步使得所述一个或多个处理器基于所述第一音频信号估计生成所述初始相位估计。
实施例23包括根据实施例22所述的非暂态计算机可读介质,其中所述指令在被执行时使得所述一个或多个处理器对所述第一音频信号估计执行短时傅立叶变换(STFT)操作以确定所述初始相位估计。
实施例24包括根据实施例21至23中任一项所述的非暂态计算机可读介质,其中所述指令在被执行时进一步使得所述一个或多个处理器:基于所述初始相位估计和所述幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计;对所述第二音频信号估计执行短时傅立叶变换(STFT)以确定所述目标相位;并且基于所述目标相位和所述幅度谱执行ISTFT操作以重构所述音频信号。
实施例25包括根据实施例21至24中任一项所述的非暂态计算机可读介质,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
实施例26包括根据实施例21至25中任一项所述的非暂态计算机可读介质,其中所述第一窗口的至少一个样本与所述第二窗口的至少一个样本重叠。
实施例27包括根据实施例21至26中任一项所述的非暂态计算机可读介质,其中所述指令在被执行时进一步使得所述一个或多个处理器:将与所重构的音频信号相关联的第一重构数据样本作为输入提供给所述神经网络,以针对所述音频信号的一个或多个第二样本生成相位估计。
实施例28包括根据实施例21至27中任一项所述的非暂态计算机可读介质,其中所述神经网络包括自回归神经网络。
实施例29包括根据实施例21至28中任一项所述的非暂态计算机可读介质,其中所述相位估计算法对应于Griffin-Lim算法,并且其中使用所述Griffin-Lim算法的五次或更少次迭代来确定所述目标相位数据。
实施例30包括根据实施例21至29中任一项所述的非暂态计算机可读介质,其中所述音频数据对应于从音频解码器接收的去量化值。
实施例31包括一种装置,所述装置包括:用于接收包括描述音频信号的幅度谱数据的音频数据的构件;用于将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计的构件;用于基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据的构件;和用于基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号的构件。
实施例32包括根据实施例31所述的装置,还包括:用于基于所述音频数据使用所述神经网络来生成基于所述音频数据的第一音频信号估计的构件;和用于基于所述第一音频信号估计生成所述初始相位估计的构件。
实施例33包括根据实施例31至32中任一项所述的装置,其中生成所述初始相位估计包括对所述第一音频信号估计执行短时傅立叶变换(STFT)操作。
实施例34包括根据实施例31至33中任一项所述的装置,还包括:用于基于所述初始相位估计和所述幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计的构件;用于对所述第二音频信号估计执行短时傅立叶变换(STFT)以确定所述目标相位的构件;和用于基于所述目标相位和所述幅度谱执行ISTFT操作以重构所述音频信号的构件。
实施例35包括根据实施例31至34中任一项所述的装置,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
实施例36包括根据实施例31至35中任一项所述的装置,其中所述第一窗口的至少一个样本与所述第二窗口的至少一个样本重叠。
实施例37包括根据实施例31至36中任一项所述的装置,还包括:用于将与所重构的音频信号相关联的第一重构数据样本作为输入提供给所述神经网络,以针对所述音频信号的一个或多个第二样本生成相位估计的构件。
实施例38包括根据实施例31至37中任一项所述的装置,其中所述神经网络包括自回归神经网络。
实施例39包括根据实施例31至38中任一项所述的装置,其中所述相位估计算法对应于Griffin-Lim算法,并且其中使用所述Griffin-Lim算法的五次或更少次迭代来确定所述目标相位数据。
实施例40包括根据实施例31至39中任一项所述的装置,其中所述音频数据对应于从音频解码器接收的去量化值。
技术人员还将明白的是,结合本文所公开的具体实施来描述的各个例示性的逻辑块、配置、模块、电路和算法步骤可以被实现为电子硬件、由处理器执行的计算机软件、或这两者的组合。各种例示性的组件、块、配置、模块、电路和步骤已在上文根据其功能性进行了一般性描述。此类功能性是被实现为硬件还是处理器可执行指令取决于特定应用和施加于整体系统的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能性,此类具体实施决策将不被解释为致使脱离本公开的范围。
结合本文中所公开的具体实施所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可以驻留在随机存取存储器(RAM)、闪存存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩光盘只读存储器(CD-ROM)、或本领域中已知的任何其他形式的非暂态存储介质。示例性存储介质耦合到处理器,使得处理器可以从该存储介质读取信息以及向该存储介质写入信息。在另选方案中,存储介质可与处理器成一整体。处理器和存储介质可以驻留在专用集成电路(ASIC)中。该ASIC可以驻留在计算设备或者用户终端中。在另选方案中,处理器和存储介质可作为分立组件驻留在计算设备或用户终端中。
提供对所公开各方面的先前描述是为使本领域技术人员能够制作或使用所公开各方面。对这些方面的各种修改对于本领域技术人员而言将是显而易见的,并且本文中定义的原理可被应用于其他方面而不会脱离本公开的范围。由此,本公开并非旨在限定于本文中示出的各方面,而是应被授予可能与如由以下权利要求书所定义的原理和新颖性特征一致的最广义的范围。

Claims (30)

1.一种设备,包括:
存储器;和
一个或多个处理器,所述一个或多个处理器耦合到所述存储器并且被能够操作地配置为:
接收包括描述音频信号的幅度谱数据的音频数据;
将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计;
基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据;并且
基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号。
2.根据权利要求1所述的设备,其中所述神经网络被配置为基于所述音频数据生成第一音频信号估计,并且其中所述指令在被执行时进一步使得所述一个或多个处理器基于所述第一音频信号估计生成所述初始相位估计。
3.根据权利要求2所述的设备,其中所述一个或多个处理器被能够操作地配置为对所述第一音频信号估计执行短时傅立叶变换(STFT)操作以确定所述初始相位估计。
4.根据权利要求1所述的设备,其中所述一个或多个处理器被能够操作地配置为:
基于所述初始相位估计和所述幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计;
对所述第二音频信号估计执行短时傅立叶变换(STFT)以确定所述目标相位;并且
基于所述目标相位和所述幅度谱执行ISTFT操作以重构所述音频信号。
5.根据权利要求1所述的设备,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
6.根据权利要求5所述的设备,其中所述第一窗口的至少一个样本与所述第二窗口的至少一个样本重叠。
7.根据权利要求1所述的设备,其中所述一个或多个处理器被能够操作地配置为:
将与所重构的音频信号相关联的第一重构数据样本作为输入提供给所述神经网络,以针对所述音频信号的一个或多个第二样本生成相位估计。
8.根据权利要求1所述的设备,其中所述神经网络包括自回归神经网络。
9.根据权利要求1所述的设备,其中所述相位估计算法对应于Griffin-Lim算法,并且其中使用所述Griffin-Lim算法的五次或更少次迭代来确定所述目标相位数据。
10.根据权利要求1所述的设备,其中所述音频数据对应于从音频解码器接收的去量化值。
11.一种方法,包括:
接收包括描述音频信号的幅度谱数据的音频数据;
将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计;
基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据;以及
基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号。
12.根据权利要求11所述的方法,还包括:
基于所述音频数据使用所述神经网络来生成基于所述音频数据的第一音频信号估计;以及
基于所述第一音频信号估计生成所述初始相位估计。
13.根据权利要求12所述的方法,其中生成所述初始相位估计包括对所述第一音频信号估计执行短时傅立叶变换(STFT)操作。
14.根据权利要求11所述的方法,还包括:
基于所述初始相位估计和所述幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计;
对所述第二音频信号估计执行短时傅立叶变换(STFT)以确定所述目标相位;以及
基于所述目标相位和所述幅度谱执行ISTFT操作以重构所述音频信号。
15.根据权利要求11所述的方法,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
16.根据权利要求15所述的方法,其中所述第一窗口的一个样本与所述第二窗口的一个样本重叠。
17.根据权利要求11所述的方法,还包括:
将与所重构的音频信号相关联的第一重构数据样本作为输入提供给所述神经网络,以针对所述音频信号的一个或多个第二样本生成相位估计。
18.根据权利要求11所述的方法,其中所述神经网络包括自回归神经网络。
19.根据权利要求11所述的方法,其中所述相位估计算法对应于Griffin-Lim算法,并且其中使用所述Griffin-Lim算法的五次或更少次迭代来确定所述目标相位数据。
20.根据权利要求11所述的方法,其中与所述神经网络一起使用所述相位估计算法来重构所述音频信号使得所述神经网络能够是低复杂性神经网络。
21.一种包括指令的非暂态计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器:
接收包括描述音频信号的幅度谱数据的音频数据;
将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计;
基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据;并且
基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号。
22.根据权利要求21所述的非暂态计算机可读介质,其中所述神经网络被配置为基于所述音频数据生成第一音频信号估计,并且其中所述指令在被执行时进一步使得所述一个或多个处理器基于所述第一音频信号估计生成所述初始相位估计。
23.根据权利要求22所述的非暂态计算机可读介质,其中所述指令在被执行时使得所述一个或多个处理器对所述第一音频信号估计执行短时傅立叶变换(STFT)操作以确定所述初始相位估计。
24.根据权利要求21所述的非暂态计算机可读介质,其中所述指令在被执行时进一步使得所述一个或多个处理器:
基于所述初始相位估计和所述幅度谱执行逆短时傅立叶变换(ISTFT)操作以生成第二音频信号估计;
对所述第二音频信号估计执行短时傅立叶变换(STFT)以确定所述目标相位;并且
基于所述目标相位和所述幅度谱执行ISTFT操作以重构所述音频信号。
25.根据权利要求21所述的非暂态计算机可读介质,其中与所述幅度谱的第一部分相关联的第一窗口和与所述幅度谱的第二部分相关联的第二窗口重叠,其中所述幅度谱的所述第一部分对应于所述一个或多个样本中的第一样本的幅度谱,并且其中所述幅度谱的所述第二部分对应于所述一个或多个样本中的第二样本的幅度谱。
26.根据权利要求21所述的非暂态计算机可读介质,其中所述神经网络包括自回归神经网络。
27.根据权利要求21所述的非暂态计算机可读介质,其中所述相位估计算法对应于Griffin-Lim算法,并且其中使用所述Griffin-Lim算法的五次或更少次迭代来确定所述目标相位数据。
28.根据权利要求21所述的非暂态计算机可读介质,其中所述音频数据对应于从音频解码器接收的去量化值。
29.一种装置,包括:
用于接收包括描述音频信号的幅度谱数据的音频数据的构件;
用于将所述音频数据作为输入提供给神经网络,以针对所述音频信号的一个或多个样本生成初始相位估计的构件;
用于基于所述初始相位估计和所述音频信号的所述一个或多个样本的由所述幅度谱数据指示的幅度谱,使用相位估计算法来确定所述音频信号的所述一个或多个样本的目标相位数据的构件;和
用于基于所述音频信号的所述一个或多个样本的由所述目标相位数据指示的目标相位并且基于所述幅度谱来重构所述音频信号的构件。
30.根据权利要求29所述的装置,其中所述音频数据对应于从音频解码器接收的去量化值。
CN202280068624.XA 2021-10-18 2022-09-09 音频信号重构 Pending CN118120013A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GR20210100708 2021-10-18
GR20210100708 2021-10-18
PCT/US2022/076172 WO2023069805A1 (en) 2021-10-18 2022-09-09 Audio signal reconstruction

Publications (1)

Publication Number Publication Date
CN118120013A true CN118120013A (zh) 2024-05-31

Family

ID=83598442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280068624.XA Pending CN118120013A (zh) 2021-10-18 2022-09-09 音频信号重构

Country Status (3)

Country Link
CN (1) CN118120013A (zh)
TW (1) TW202333144A (zh)
WO (1) WO2023069805A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797002B (zh) * 2020-01-03 2020-05-19 同盾控股有限公司 语音合成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2023069805A1 (en) 2023-04-27
TW202333144A (zh) 2023-08-16

Similar Documents

Publication Publication Date Title
CN109147806B (zh) 基于深度学习的语音音质增强方法、装置和系统
US11715480B2 (en) Context-based speech enhancement
EP2596496B1 (en) A reverberation estimator
KR20160125984A (ko) 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들
US11636866B2 (en) Transform ambisonic coefficients using an adaptive network
US20120155674A1 (en) Sound processing apparatus and recording medium storing a sound processing program
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
JP2002140093A (ja) ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
CN118120013A (zh) 音频信号重构
US20240355344A1 (en) Audio signal reconstruction
US10540990B2 (en) Processing of speech signals
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
KR101748039B1 (ko) 효율적인 음성 통화를 위한 샘플링 레이트 변환 방법 및 시스템
CN112133279B (zh) 车载信息播报方法、装置及终端设备
CN114333891A (zh) 一种语音处理方法、装置、电子设备和可读介质
EP4196981A1 (en) Trained generative model speech coding
JP6264673B2 (ja) ロストフレームを処理するための方法および復号器
US20240144910A1 (en) Text-to-speech system with variable frame rate
CN117316160B (zh) 无声语音识别方法、装置、电子设备和计算机可读介质
WO2023212442A1 (en) Audio sample reconstruction using a neural network and multiple subband networks
CN118696369A (zh) 使用流水线式处理单元进行的样本生成
CN116504236A (zh) 基于智能识别的语音交互方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination