CN109155006A - 使用神经网络进行基于频率的音频分析 - Google Patents

使用神经网络进行基于频率的音频分析 Download PDF

Info

Publication number
CN109155006A
CN109155006A CN201780029211.XA CN201780029211A CN109155006A CN 109155006 A CN109155006 A CN 109155006A CN 201780029211 A CN201780029211 A CN 201780029211A CN 109155006 A CN109155006 A CN 109155006A
Authority
CN
China
Prior art keywords
layer
convolutional
frequency domain
output
domain character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780029211.XA
Other languages
English (en)
Inventor
多米尼克·罗博列克
马修·谢里菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN109155006A publication Critical patent/CN109155006A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

用于使用神经网络进行基于频率的音频分析的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。这些方法中的一种包括在训练数据上训练包括多个神经网络层的神经网络,其中,所述神经网络被配置成接收音频样本的频域特征并且处理所述频域特征以针对所述音频样本生成神经网络输出,其中,所述神经网络包括(i)被配置成将频域特征映射到对数标度频域特征的卷积层,其中,所述卷积层包括一个或多个卷积层滤波器,以及(ii)具有相应的层参数、被配置成处理所述对数标度频域特征以生成所述神经网络输出的一个或多个其它神经网络层。

Description

使用神经网络进行基于频率的音频分析
技术领域
本说明书涉及通过神经网络的层来处理输入以生成输出。
背景技术
神经网络是采用非线性单元的一个或多个层来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层依照相应的参数集的当前值来从接收到的输入生成输出。
发明内容
一般而言,本说明书中描述的主题的一个创新方面可实现在一种用于在训练数据上训练包括多个神经网络层的神经网络的方法中,其中,神经网络被配置成接收音频样本的频域特征并且处理频域特征以针对音频样本生成神经网络输出,其中,神经网络包括(i)被配置成将频域特征映射到对数标度频域特征的卷积层,其中,卷积层包括一个或多个卷积层滤波器,以及(ii)具有相应的层参数、被配置成处理对数标度频域特征以生成神经网络输出的一个或多个其它神经网络层,其中,该方法包括以下各项的动作:获得训练数据,所述训练数据对于多个训练音频样本中的每一个训练音频样本包括训练音频样本的频域特征和针对训练音频样本的已知输出;以及在训练数据上训练神经网络以调整其它神经网络层的参数的值并且调整一个或多个卷积层滤波器以确定频域特征到对数标度频域特征的最佳对数卷积映射。
此方面的其它实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,所述对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序各自被配置成执行方法的动作。一个或多个计算机的系统可被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作,所述软件、固件、硬件或其任何组合在操作中可以使系统执行动作。一个或多个计算机程序可被配置成借助于包括指令来执行特定操作或动作,所述指令当由数据处理装置执行时使装置执行动作。
上述和其它实施例可单独或相结合地各自可选地包括以下特征中的一个或多个。在一些实施方式中训练音频样本的频域特征存在于包括一个或多个频带的频谱中。
在一些情况下在训练数据上训练神经网络包括对于卷积层:接收训练音频样本的频域特征;确定一个或多个卷积层滤波器中的每一个的大小;放大一个或多个频带以与所确定的一个或多个卷积层滤波器的大小匹配;使用卷积层来处理一个或多个放大的频带以生成卷积层输出;从卷积层上方的神经网络层接收用于频域特征的反向传播梯度;相对于一个或多个卷积层滤波器计算用于神经网络的误差函数的梯度,其中,误差函数取决于一个或多个卷积层滤波器和所接收到的反向传播梯度;以及使用所计算的梯度来更新一个或多个卷积层滤波器。
在一些实施方式中确定一个或多个卷积层滤波器中的每一个的相应的大小包括:选择与频谱的最高部分相对应的频带;以及基于所选择的频带确定一个或多个卷积层滤波器中的每一个的相应的大小。
在一些情况下确定一个或多个卷积层滤波器中的每一个的相应的大小包括确定一个或多个卷积层滤波器中的每一个的预定相应的大小。
在一些实施方式中放大一个或多个频带以与所确定的一个或多个卷积层滤波器的大小匹配包括使用插值方法来放大一个或多个频带。
在一些实施方式中训练音频样本的频域特征包括线性频域特征。
本说明书中描述的主题的另一创新方面可实现在一种用于通过神经网络的多个层中的每一个来处理数据输入的方法中,其中,神经网络被配置成接收音频样本的频域特征并且处理频域特征以针对音频样本生成神经网络输出,其中,神经网络包括(i)被配置成将频域特征映射到对数标度频域特征的卷积层,其中,卷积层包括一个或多个卷积层滤波器,以及(ii)具有相应的层参数、被配置成处理对数标度频域特征以生成神经网络输出的一个或多个其它神经网络层,并且其中,该方法包括以下各项的动作:获得包括音频样本的频域特征的数据输入;使用卷积层来处理频域特征以生成卷积层输出,其中,卷积层输出包括对数标度频域特征;以及使用一个或多个其它神经网络层来处理所生成的卷积层输出以生成神经网络输出。
此方面的其它实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,所述对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序各自被配置成执行方法的动作。一个或多个计算机的系统可被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作,所述软件、固件、硬件或其任何组合在操作中可以使系统执行动作。一个或多个计算机程序可被配置成借助于包括指令来执行特定操作或动作,所述指令当由数据处理装置执行时使装置执行动作。
上述和其它实施例可单独或相结合地各自可选地包括以下特征中的一个或多个。在一些实施方式中使用卷积层来处理频域特征以生成卷积层输出,其中,卷积层输出包括对数标度频域特征,包括:在卷积层处接收频域特征,其中,频域特征存在于包括一个或多个频带的频谱中;对于每个频带,基于频带缩减相应的卷积滤波器的大小;以及使用经缩减的一个或多个卷积滤波器来处理一个或多个频带以生成卷积层输出。
本说明书中描述的主题的另一创新方面可实现在由一个或多个计算机实现的神经网络系统中,神经网络系统包括多个神经网络层,其中,神经网络系统被配置成获得音频样本的频谱图并且处理频谱图以针对音频样本生成神经网络输出,所述多个神经网络层包括:第一子网络,所述第一子网络包括被配置成执行频域特征到多标度频域特征的卷积映射的多个卷积神经网络级的序列,其中,卷积神经网络级的序列中的每个卷积神经网络级包括各自具有相应的卷积层参数的一个或多个卷积神经网络层,其中,(i)卷积神经网络级的序列中的第一卷积神经网络级被配置成获得音频样本的频谱图并且生成第一卷积输出,并且(ii)卷积神经网络级的序列中的每个后续卷积神经网络级被配置成接收由卷积神经网络级的序列中的前一个卷积神经网络级生成的卷积输出并且生成相应的卷积神经网络输出;第二子网络,所述第二子网络包括至少(i)隐藏神经网络层和(ii)输出层,所述隐藏神经网络层和所述输出层各自具有相应的层参数,其中,(i)隐藏神经网络层被配置成接收由卷积神经网络层的序列中的卷积神经网络层生成的卷积神经网络输出中的一个或多个并且生成隐藏神经网络层输出,(ii)输出层被配置成接收隐藏神经网络输出并且针对音频样本生成神经网络输出。
此方面的其它实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,所述对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序各自被配置成执行方法的动作。一个或多个计算机的系统可被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作,所述软件、固件、硬件或其任何组合在操作中可以使系统执行动作。一个或多个计算机程序可被配置成借助于包括指令来执行特定操作或动作,所述指令当由数据处理装置执行时使装置执行动作。
上述和其它实施方案可单独或相结合地各自可选地包括以下特征中的一个或多个。在一些实施方式中第一卷积神经网络级被配置成:接收音频样本的频谱图,其中,频谱图包括与频带相对应的多个行和与时间带相对应的多个列;将高度H乘长度L的时间带压缩为大小为H乘一的一个或多个矢量;并且将大小为H乘一的一个或多个矢量提供给卷积神经网络级的序列中的后续卷积神经网络级以进行处理。
在一些情况下每个后续卷积神经网络级被配置成:从前一个卷积神经网络级接收一个或多个矢量输入;以因子二将接收到的一个或多个矢量输入的大小减小以生成相应的卷积神经网络级输出;并且将相应的卷积神经网络级输出提供给后续神经网络层以进行处理。
在一些实施方式中包括在后续卷积神经网络级中的卷积层参数包括高度3和行步幅2的卷积层滤波器。
在一些情况下每个后续卷积神经网络级包括至少(ⅰ)后面是具有行步幅2的最大池化层的具有行步幅为1的1x1x2卷积层,(ⅱ)3x1xD卷积层,以及(iii)后面是具有行步幅2的最大池化层的具有行步幅1的3×1×D逐深度可分离卷积,其中,D表示卷积层滤波器深度。
在一些实施方式中每个子后续卷积神经网络级包括整流线性单元。
在一些情况下隐藏神经网络层被配置成接收每个生成的卷积级输出的行级联。
在一些情况下隐藏神经网络层被配置成接收与卷积神经网络级的序列中的最终卷积相对应的输出。
在一些情况下卷积神经网络级的序列中的每个卷积神经网络层的深度通过卷积神经网络级的序列而增加。
在一些实施方式中卷积神经网络级的序列中的每个卷积神经网络层的深度大于一。
在一些情况下神经网络系统在训练数据上被训练以调整其它神经网络层的层参数的值并且调整一个或多个相应的卷积层参数以确定频域特征到多标度频域特征的最佳卷积映射,其中,训练包括:获得训练数据,所述训练数据对于多个训练音频样本中的每一个训练音频样本包括训练音频样本的频谱图和针对训练音频样本的已知输出;以及在训练数据上训练神经网络以调整第二子网络的层的参数的值并且调整一个或多个卷积层参数以确定频域特征到多标度频域特征的最佳卷积映射,其中,训练包括对于第一子网络中的每个卷积层:接收相应的卷积层输入;通过卷积层来处理所接收到的卷积层输入以生成卷积层输出;从卷积层上方的神经网络层接收用于频谱图的反向传播梯度;计算用于神经网络的误差函数的梯度,其中,误差函数取决于相应的卷积层参数和所接收到的反向传播梯度;以及使用所计算的梯度来更新相应的卷积层参数。
可在特定实施例中实现本说明书中描述的主题以便实现以下优点中的一个或多个。
诸如语音辨识、内容识别、音乐辨识、紧急警笛检测和其它分类问题的音频处理任务通常与作为输入的频域特征一起工作。例如,可在对数标度上表达人类听觉,并且结果,一些音频处理系统试图通过例如在梅尔频率标度上和/或使用梅尔频率倒谱系数来将接收到的频域特征(例如,线性标度频域特征)映射到对数或近对数标度频域特征来模拟这个人类听觉。然后可以将经映射的频域特征作为输入提供给音频分类系统,例如神经网络,以训练用于给定分类或辨识任务的分类器。
然而,在映射过程期间可能丢失重要信息并且硬编码的固定标度映射可能不会为给定任务提供频域特征的最佳映射。因此,可以降低接收经映射的频域特征的音频分类系统的准确性和性能。
如本说明书中所描述的对数标度卷积神经网络系统学习频域特征(例如,线性频域特征)上的对数标度卷积,可以针对给定分类任务跨越整个频谱均匀地应用所述对数标度卷积。特别地,如本说明书中所描述的对数标度卷积神经网络系统针对不同的分类任务和不同的输入信号特性来学习不同的对数标度卷积。当与在使用神经网络系统来处理频率特征之前应用固定标度频率映射的系统相比较对原始输入样本进行分类时,实现如本说明书中所描述的对数标度卷积的神经网络系统因此可以实现较高水平的准确性,例如,较高质量的特征提取。
如本说明书中所描述的级联卷积神经网络系统学习频域特征(例如,线性频域特征)上的可变大小的卷积。特别地,如本说明书中所描述的级联卷积神经网络系统产生可变大小的卷积窗口,其中可以在来自卷积级联的级联输出中产生所有分辨率。紧跟卷积级联之后的层可选择对频谱的不同部分最有用的标度。因此,如本说明书中所描述的级联卷积神经网络系统可以优于其它神经网络系统而实现改进的准确性和更可靠的特征提取,因为系统不要求针对给定任务做出关于特定分辨率的艰难选择。
此外,如本说明书中所描述的级联卷积神经网络系统可以能够实现较高水平的计算效率,同时由于神经网络系统的特定架构与其它神经网络系统相比较需要减少的计算资源量。例如,可以在资源受约束设备上(例如,在移动设备上)实现如本说明书中所描述的级联卷积神经网络系统。
此外,如本说明书中所描述的级联卷积神经网络系统可以在存储器中并在磁盘上要求低覆盖区。
在下面的附图和描述中阐述本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据说明书、附图和权利要求变得显而易见。
附图说明
图1是对数标度卷积神经网络系统的示例。
图2是级联卷积神经网络系统的示例。
图3是用于从输入生成对数标度卷积神经网络系统输出的示例过程的流程图。
图4是用于从输入生成级联卷积神经网络系统输出的示例过程的流程图。
图5是用于训练卷积神经网络层和一个或多个其它神经网络层的示例过程的流程图。
图6是用于在训练音频样本上训练对数标度卷积神经网络系统的卷积层的示例过程的流程图。
图7是用于训练级联卷积神经网络系统的示例过程的流程图。
在各个附图中相似的附图标记和名称指示相似的元件。
具体实施方式
本说明书描述用于在线性频谱图上学习可变大小卷积的方法。在一些方面中,模型被训练来学习跨越整个频谱均匀地应用的单个对数卷积映射。在其它方面中,模型使用卷积的级联来按照对数级数创建跨越不同分辨率聚合的特征。不同标度的卷积被级联成单个特征,跨越时间卷积并提供给一个或多个神经网络层,例如,用于分类或回归目的。
图1示出示例对数标度卷积神经网络系统100。对数标度卷积神经网络系统100是作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统的示例,其中可实现在下面所描述的系统、组件和技术。
对数标度卷积神经网络系统100是接收系统输入并且从系统输入生成系统输出的机器学习系统。神经网络系统100可被配置成接收音频样本102的频域特征并且基于输入生成相应的输出112。
在一些实施方式中,相应的输出可以包括相应的分数或音频样本分类。例如,如果神经网络系统100的输入包括表示发言的音频样本的频域特征中的一个或多个,则由神经网络系统100生成的输出可以是针对文本块集合中的每一个文本块的分数,每个分数表示该文本块是发言或发言序列的正确转录的估计似然率。在一些示例中,神经网络系统100可以是内容识别系统的一部分并且由神经网络系统100生成的输出可以是针对设定内容块中的每一个或每个设定内容块中的每个分段的分数。作为另一示例,神经网络系统100可以是紧急警笛检测系统的一部分并且由神经网络系统100生成的输出可以是将输入分类为警笛或者不为警笛的分数。
在其它实施方式中,相应的输出可以用于预测单个值或多个值(例如,回归)。例如,神经网络系统输出112可以估计输入到系统的音频样本中的某种类型的噪声(例如,语音)的水平。作为另一示例,神经网络系统输出112可以包括记录通过音频样本表示的歌曲的年份的预测。作为另一个示例,神经网络系统可以用于生成音频,例如回声消除。例如,音频样本输入102可以包括两个子输入,例如,混合信号和背景信号,并且相应的神经网络系统输出112可以包括通过将混合信号减去背景信号而生成的音频样本。
音频样本102的频域特征可以包括音频样本的线性标度频域特征。频域特征存在于包括一个或多个频带的频谱(例如,通过下频率和上频率界定的频域中的间隔)中。
对数标度卷积神经网络系统100包括多个神经网络层,例如卷积层104和神经网络层108。对数标度卷积神经网络系统100中的神经网络层中的每一个均被配置成接收相应的层输入并且处理该层输入以从该输入生成相应的层输出。神经网络层共同地处理由神经网络系统100接收到的神经网络输入以针对每个接收到的神经网络输入生成相应的神经网络输出。在下面参考图3更详细地描述从输入生成对数标度卷积神经网络系统输出。
神经网络系统100的一些或所有层与相应的参数集相关联。神经网络层依照用于神经网络层的参数的当前值从输入生成输出。例如,一些层可以将所接收到的输入乘以当前参数值的相应的参数矩阵作为从所接收到的输入生成输出的一部分。
对数标度卷积神经网络系统100中的神经网络层中的至少一个是卷积层,例如卷积层104。尽管为了方便在图1中描绘了仅一个卷积层,然而神经网络系统100可以包括多个卷积神经网络层。
卷积神经网络层是其神经元或节点在逻辑上按照三维阵列:宽度、高度和深度排列的神经网络层。卷积神经网络层内部的神经元连接到卷积神经网络层之前的层的小区域,被称作接受域,并且卷积神经网络层内部的每个神经元检测相同的特征,从而构成平移不变性的特性。通常相邻层的神经元之间的局部连接模式是强制执行的。在“Convolutional Neural Networks for Speech Recognition”Ossama Abdel-Hamid,Abdel-rahman Mohamed,Hui Jiang,Li Deng,Gerald Penn,and Dong Yu,IEEE/ACMTRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING,VOL.22,NO.10,OCTOBER2014中更详细地描述了示例卷积神经网络层。
用于卷积神经网络层的相关联的层参数集包括相应的可学习卷积层滤波器集。卷积层滤波器集中的每个卷积层滤波器具有小接受域并且贯穿相应的卷积神经网络层的全深度。例如,可以使用表示法<滤波器_高度>×<滤波器_宽度>×<深度>来描述滤波器。卷积神经网络层的超参数(例如,深度、步幅和填充)控制卷积神经网络层的输出的大小并且是可变的。卷积层滤波器集的大小(例如,<滤波器_高度>×<滤波器_宽度>)可以包括固定基本大小,然而还可以根据要由神经网络系统执行的任务而变化。
卷积层104是被配置成将接收到的频域特征输入(例如,线性标度频域特征输入)映射到对数标度频域输出的卷积神经网络层。卷积层104通过调整用于层104的相应的卷积层滤波器集的大小来将接收到的频域特征输入映射到对数标度频域输出。在下面参考图3更详细地描述调整相应的卷积层滤波器集的大小以将频域特征输入映射到对数标度频域输入。
神经网络层108包括一个或多个其它神经网络层,例如神经网络层110。尽管为了方便在图1中描绘了仅一个神经网络层110,然而神经网络系统100可以包括多个神经网络层。包括在神经网络系统100中的神经网络层108的数目取决于神经网络系统100被配置成执行的任务。此外,包括在神经网络系统100中的神经网络层108的类型取决于神经网络系统被配置成执行的任务。例如,在一些实施方式中一个或多个其它神经网络层可以包括一个或多个完全连接的神经网络层。在其它实施方式中一个或多个神经网络可以包括递归神经网络层,例如,长短期记忆(LSTM)层。在这些实施方式中,神经网络系统100可以接收与时间步长集相对应的音频样本的输入频域特征的序列作为输入。卷积层104可以处理所接收到的输入频域特征的序列中的每个输入以生成映射的对数频域特征的相应序列作为输出,所述输出进而可以被提供给神经网络层108。
可在多个训练音频样本上训练对数标度卷积神经网络系统100以便确定神经网络层的参数的训练值,即,以将参数的值从初始值调整到训练值。例如,在训练期间,对数标度卷积神经网络系统100可处理多个训练音频样本中的每一个的特征并且为每个训练音频样本生成相应的神经网络输出。神经网络输出然后可用于调整对数标度卷积神经网络系统100的参数值,例如,以调整一个或多个卷积层滤波器。在一些实施方式中对数标度卷积神经网络系统100使用梯度下降和反向传播神经网络训练技术来调整参数的值。在下面参考图5和图6更详细地描述训练对数标度卷积神经网络系统100。
一旦对数标度卷积神经网络系统100已被训练,该神经网络系统就可以接收新的神经网络输入以进行处理并且通过神经网络层来处理该神经网络输入以依照对数标度卷积神经网络系统100的参数的训练值来为输入生成新的神经网络输出。
图2示出示例级联卷积神经网络系统200。级联卷积神经网络系统200是作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统的示例,其中可实现在下面所描述的系统、组件和技术。
级联卷积神经网络系统200是接收系统输入并且从系统输入生成系统输出的机器学习系统。神经网络系统200可被配置成接收音频样本202的频域特征并且基于输入生成相应的输出214。
在一些实施方式中相应的输出可以包括相应的分数或音频样本分类。例如,如果神经网络系统200的输入包括表示发言的音频样本的一个或多个频域特征,则由神经网络系统200生成的输出可以是针对文本块集中的每一个文本块的分数,每个分数表示该文本块是发言或发言序列的正确转录的估计似然率。在一些示例中,神经网络系统200可以是内容识别系统的一部分并且由神经网络系统200生成的输出可以是针对设定内容块中的每一个或每个设定内容块中的每个分段的分数。作为另一示例,神经网络系统200可以是紧急警笛检测系统的一部分并且由神经网络系统200生成的输出可以是将输入分类为警笛或者不是警笛的分数。
在其它实施方式中相应的输出可以用于预测单个值或多个值(例如,回归)。例如,神经网络系统输出214可以估计输入到系统的音频样本中的某种类型的噪声(例如,语音)的水平。作为另一示例,神经网络系统输出214可以包括记录通过音频样本表示的歌曲的年份的预测。作为另一个示例,神经网络系统可以用于生成音频,例如回声消除。例如,音频样本输入202可以包括两个子输入,例如,混合信号和背景信号,并且相应的神经网络系统输出214可以包括通过将混合信号减去背景信号而生成的音频样本。
音频样本202的频域特征可以包括音频样本的线性标度频域特征。频域特征可以通过频谱图(例如,表示时间的水平轴、表示频率的垂直轴以及指示在特定频率和时间的幅度的第三维度(例如,通过颜色的强度来表示)的二维阵列)来表示。可以使用DFT、FFT或其它频率变换来生成频谱图。在使用傅立叶变换来生成频谱图的情况下,可以取复数的量级或对数量级来产生实数的频谱图。
级联卷积神经网络系统200包括多个神经网络层,例如,包括在卷积级A-N(如下所述)中的每一个中的一个或多个卷积层、隐藏神经网络层210和输出层212。级联卷积神经网络系统200中的神经网络层中的每一个均被配置成接收相应的层输入并且处理该层输入以从该输入生成相应的层输出。神经网络层共同地处理由神经网络系统200接收到的神经网络输入以针对每个接收到的神经网络输入生成相应的神经网络输出。在下面参考图4更详细地描述从输入生成级联卷积神经网络系统输出。
神经网络系统200的一些或所有层与相应的参数集相关联。神经网络层依照用于神经网络层的参数的当前值从输入生成输出。例如,一些层可以将所接收到的输入乘以当前参数值的相应的参数矩阵作为从所接收到的输入生成输出的一部分。
级联卷积神经网络系统200包括第一子网络204,所述第一子网络204包括一个或多个卷积神经网络级(例如,卷积级A-N)的序列。卷积神经网络级的序列中的每个卷积神经网络级包括卷积层和可选地一个或多个其它神经网络层。在上面关于图1对卷积神经网络层进行了详细的描述。尽管为了方便在图2中描绘了五个卷积级,然而神经网络系统200可以包括更多或更少的卷积级。
卷积神经网络级的序列中的第一卷积神经网络级(例如,卷积神经网络级A)被配置成接收音频样本202的频域特征并且生成可以被提供给后续卷积神经网络级(例如,卷积神经网络级B)是相应的第一卷积级输出。
在一些实施方式中第一卷积神经网络级跨越窄频带(例如,对应频谱图的三行)以及长度L的指定时间带和H个频谱图列的步长捕获所接收到的频域特征202的频率和时间特性。第一卷积神经网络级A可以将大小为H×L的时间带压缩为大小为H×1的矢量,或者在一些实施方式中压缩为大小为H×1的D0+1矢量,其中D0表示包括在卷积神经网络级A中的底部卷积神经网络层的深度。在一些实施方式中卷积神经网络级A-N的序列中的每个卷积神经网络级的深度通过序列而增加。在一些情况下卷积神经网络级的序列中的每个卷积神经网络级的深度大于一。
在一些实施方式中第一卷积神经网络级A可以用于在计算级联之前在时间、频率或时间和频率两者中执行频谱图的滤波。第一卷积神经网络级A可以包括一的步长。在一些情况下第一卷积神经网络级A允许对频谱图应用平滑。
卷积神经网络级A-N的序列中的后续卷积神经网络级B-N被配置成接收由卷积神经网络级的序列中的前一个卷积神经网络级生成的相应的卷积输出并且生成可以被提供给后续卷积神经网络级、提供给第二子网络208或两者的相应的卷积神经网络输出,例如,卷积级C接收由卷积级B生成的相应的卷积输出作为输入并且生成被提供给卷积级D的相应的卷积神经网络输出。还可以将所生成的相应的卷积输出提供给第二子网络208,例如,提供给隐藏神经网络层210,如通过图2中的虚线箭头所指示的。
在一些实施方式中每个后续卷积神经网络级以因子二将所接收到的由前一个卷积神经网络级生成的相应的卷积输出的高度减小。例如,卷积的序列可以使用高度三和行步幅二的卷积滤波器来允许滤波器重叠以便在滤波器的邻近应用之间实现一些拖尾效应。
在一些实施方式中后续卷积神经网络级B-N中的每一个均可以由至少以下各项组成:(i)后面是具有行步幅2的最大池化层的具有行步幅为1的1×1×2卷积层,(ii)3×1×D卷积层,以及(iii)后面是具有行步幅2的最大池化层的具有行步幅1的3×1×D逐深度可分离卷积,其中D表示卷积层滤波器深度。在一些情况下后续卷积神经网络级B-N中的每一个均包括整流线性单元。
级联卷积神经网络系统200包括第二子网络208,所述第二子网络208包括至少一个隐藏神经网络层(例如,隐藏神经网络层210)和输出层212。尽管为了方便在图2的第二子网络208中描绘了两个层,然而神经网络系统200可以包括具有更多或更少层的第二子网络。
隐藏神经网络层210被配置成从第一子网络204接收生成的卷积级输出。在一些实施方式中隐藏神经网络层210可以被配置成接收每个生成的卷积级输出的行级联,如通过图2中的虚线箭头所指示的。在其它实施方式中隐藏神经网络层210可以被配置成接收与卷积神经网络级的序列中的最终卷积相对应的输出,如通过从卷积级N导向第二子网络208的实线箭头所指示的。在一些实施方式中卷积层的输出可以由隐藏神经网络层210级联和处理,从而允许隐藏神经网络层210学习用于频率范围的不同标度的权重s。
隐藏神经网络层210可以被配置成处理所接收到的卷积级输出以生成被提供给第二子网络输出层212的隐藏神经网络输出。在一些实施方式中隐藏神经网络层210包括定义来自第一子网络204所接收到的卷积神经网络输出的加权的一个或多个层参数。输出层212处理隐藏神经网络输出以生成神经网络输出214。
可在多个训练音频样本上训练级联卷积神经网络系统200以便确定神经网络层的参数的训练值,即,以将参数的值从初始值调整为训练值。例如,在训练期间,级联卷积神经网络系统200可处理多个训练音频样本中的每一个的特征并且为每个训练音频样本生成相应的神经网络输出。神经网络输出然后可用于调整级联卷积神经网络系统200的参数的值。在一些实施方式中级联卷积神经网络系统200使用梯度下降和反向传播神经网络训练技术来调整参数的值。在下面参考图7更详细地描述训练级联卷积神经网络系统200。
一旦级联卷积神经网络系统200已被训练,该神经网络系统就可以接收新的神经网络输入以进行处理并且通过神经网络层来处理该神经网络输入以依照级联卷积神经网络系统200的参数的训练值来为输入生成新的神经网络输出。
图3是用于从输入生成对数标度卷积神经网络系统输出的示例过程300的流程图。为了方便,过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如,依照本说明书适当地编程的被配置成将频域特征映射到对数标度频域特征的神经网络系统(例如,具有在下面依照图5和图6训练的图1的卷积层104的对数标度卷积神经网络系统100)可执行过程300。
系统获得包括音频样本的频域特征的数据输入(步骤302)。频域特征存在于包括一个或多个频带的频谱中。例如,频域特征可以是对音频样本的时域特征应用离散傅立叶变换的结果。在其它示例中频域特征可以是对音频样本的时域特征应用快速傅里叶变换、滤波器组或梅尔频率倒谱的结果。在一些实施方式中音频样本的频域特征可以包括线性标度频域特征,例如,在使用快速傅立叶变换来将音频样本的时域特征变换为频域特征的情况下。
系统使用卷积层(例如,卷积层104)来处理频域特征以生成卷积层输出(步骤304)。所生成的卷积层输出包括对数标度频域特征。在一些实施方式中系统使用卷积层通过以下步骤来处理频域特征:在卷积层处接收频域特征,并且,针对包括在频域特征存在于的频谱中的每个频带,基于频带缩减包括在卷积层中的相应的卷积滤波器的大小。系统然后可以使用经缩减的一个或多个卷积滤波器来处理一个或多个频带以生成卷积层输出。
系统使用一个或多个其它神经网络层来处理所生成的卷积层输出以生成神经网络输出(步骤306)。例如,系统可以使用一个或多个其它神经网络层(例如,图1的神经网络层108)来处理所生成的卷积层输出以生成神经网络输出。所生成的神经网络输出可以包括上面参考步骤302所描述的音频样本的分类。例如,如果音频样本表示发言或发言序列,则所生成的神经网络输出可以包括针对文本块集中的每一个文本块的分数,每个分数表示该文本块是发言或发言序列的正确转录的估计似然率。在一些情况下所生成的神经网络输出可以用于预测单个值或多个值(例如,回归)。
图4是用于从输入生成级联卷积神经网络系统输出的示例过程400的流程图。为了方便,过程400将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如,依照本说明书适当地编程的被配置成将频域特征映射到可变标度频域特征的神经网络系统(例如,图2的级联卷积神经网络系统200)可执行过程400。
系统获得音频样本的频谱图(步骤402)。在一些实施方式中频谱图可以通过包括表示频带的一个或多个行和表示时间带的一个或多个列的二维阵列来表示。包括在频谱图中的频域特征可以包括线性标度频域特征。
系统使用卷积神经网络级的序列的第一卷积神经网络级来处理频谱图以生成第一卷积输出(步骤404)。如上面关于步骤402所描述的,在一些实施方式中频谱图可以通过包括表示频带的一个或多个行和表示时间带的一个或多个列的二维阵列来表示。在此类情况下,使用第一卷积神经网络级来处理频谱图可以包括将H×L的时间带(其中H表示高度和L表示长度)压缩为大小H×1的一个或多个矢量并且将大小H×1的一个或多个矢量提供给卷积神经网络级的序列中的后续卷积神经网络级以进行处理。
系统通过序列中的后续卷积神经网络级来处理第一卷积输出以生成相应的卷积神经网络级输出(步骤406)。在一些实施方式中,对于每个后续卷积神经网络级,系统可以从前一个卷积神经网络级接收一个或多个矢量输入,以因子二将所接收到的一个或多个矢量输入的大小减小以生成相应的卷积神经网络级输出并且将该相应的卷积神经网络级输出提供给后续神经网络级以进行处理。例如,对于紧跟卷积神经网络级的序列中的第一卷积神经网络级之后的卷积神经网络级,系统可以接收大小为H×1的一个或多个矢量并且减小这一个或多个矢量的大小以生成包括大小为H/2×1的一个或多个矢量的卷积网络级输出。所生成的相应的卷积神经网络级输出包括例如按照对数级数创建跨越不同分辨率聚合的音频样本特征的卷积的级联。
系统组合一个或多个生成的卷积神经网络级输出以生成第一子网络输出(步骤408)。在一些实施方式中第一子网络输出包括所生成的卷积级输出中的每一个的行级联,例如,如在图2中通过离开卷积级A-C的虚线箭头中的每一个以及离开卷积级N的最终实线箭头所指示的。在其它实施方式中第一子网络输出包括与卷积神经网络级的序列中的最终卷积输出相对应的单个输出,例如,在图2中离开卷积级N的实线箭头。在另外的实施方式中第一子网络输出包括所生成的卷积级输出中的一个或多个的组合。
系统通过其它神经网络层的序列来处理第一子网络层输出以生成神经网络输出(步骤410)。所生成的神经网络输出可以像上面参考步骤402所描述的那样对音频样本进行分类。例如,如果音频样本的频谱图表示发言,则由神经网络系统200生成的输出可以是针对文本块集中的每一个文本块的分数,每个分数表示该文本块是发言或发言序列的正确转录的估计似然率。在其它示例中神经网络输出可以用于预测单个值或多个值(例如,回归)。
图5是用于训练卷积神经网络层和一个或多个其它神经网络层的示例过程500的流程图。为了方便,过程500将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如,依照本说明书适当地编程的对数标度卷积神经网络(例如,图1的对数标度卷积神经网络系统100)可执行过程500。
系统获得训练数据,所述训练数据对于训练音频样本集中的每一个训练音频样本包括训练音频样本的频域特征和针对训练音频样本的已知输出(步骤502)。在一些实施方式中训练数据可以包括训练音频样本的时域特征和针对训练音频样本的已知分类。频域特征存在于包括一个或多个频带的频谱中。例如,频域特征可以是对音频样本的时域特征应用离散傅立叶变换的结果。在其它示例中频域特征可以是对音频样本的时域特征应用快速傅里叶变换、滤波器组或梅尔频率倒谱的结果。在一些实施方式中音频样本的频域特征可以包括线性标度频域特征,例如,在使用快速傅立叶变换来将音频样本的时域特征变换为频域特征的情况下。
系统在训练数据上训练神经网络以调整其它神经网络层的参数的值并且以调整一个或多个卷积层滤波器以确定经训练的参数集(步骤504)。系统通过将训练数据作为神经网络的输入进行处理来训练神经网络以生成训练数据神经网络输出,如上面参考图3所描述的。在下面参考图6更详细地描述在训练音频样本上训练对数标度卷积神经网络系统的卷积层以调整一个或多个卷积层滤波器以确定经训练的参数集。
该经训练的参数集定义频域特征到对数标度频域特征的最佳对数卷积映射。
图6是用于在训练音频样本上训练对数标度卷积神经网络系统的卷积层的示例过程600的流程图。为了方便,过程600将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如,依照本说明书适当地编程的对数标度卷积神经网络(例如,图1的对数标度卷积神经网络系统100)可执行过程600。
系统接收训练音频样本的频域特征作为卷积神经网络层的输入(步骤602)。如上面参考图5所描述的,训练音频样本的频域特征存在于包括一个或多个频带的频谱中。
系统确定一个或多个卷积层滤波器中的每一个的大小(步骤604)。在一些实施方式中系统通过选择与频谱的最高部分相对应的频带并且基于所选择的频带确定一个或多个卷积层滤波器中的每一个的相应的大小来确定一个或多个卷积层滤波器中的每一个的相应的大小。在一些情况下系统通过确定一个或多个卷积层滤波器中的每一个的预定相应的大小来确定一个或多个卷积层滤波器中的每一个的相应的大小。
系统放大一个或多个频带以与所确定的一个或多个卷积层滤波器的大小匹配(步骤606)。在一些实施方式中系统使用插值方法(诸如线性、二次或样条插值方法)来放大一个或多个频带以和所确定的一个或多个卷积层滤波器的大小匹配。例如,频率窗口可以在表示频域特征的频谱图上滑动,其中窗口具有基于窗口被放置在频谱图中的地方的上、中或下频率确定的可变高度。因为卷积滤波器具有足够的参数来捕获最高频带处的频谱图的全分辨率,所以在所有其它频率处频谱图的窗口被放大以和卷积滤波器的大小匹配。例如,在步骤604处,基于选择与频谱的最高部分相对应的频带,系统可以将一个或多个卷积滤波器的大小确定为51×1。在频率一半处系统可以将25×1补片放大到51×1,使得在对数标度上应用相应的卷积滤波器。在一些实施方式中卷积滤波器可以跨越时间被执行,并且因此可以包括多于一列。
系统使用卷积层来处理经放大的一个或多个频带以生成卷积层输出(步骤608)。通过处理经放大的频带,系统能够学习最高分辨率卷积并且在对数标度上应用一个或多个卷积滤波器。跨越整个频谱均匀地应用对数卷积映射。在一些实施方式中,可以通过调谐对数的基数以及其它卷积层超参数来调整对数卷积映射。
系统从卷积层上方的神经网络层接收用于频域特征的反向传播梯度(步骤610)。例如,可通过计算神经网络中的顶层的梯度并且然后使用反向传播技术来通过神经网络层反向传播所计算的梯度来生成反向传播梯度。
系统相对于当前卷积层滤波器计算用于神经网络的误差函数的梯度(步骤612)。例如,在一些实施方式中误差函数可以取决于一个或多个卷积层滤波器和所接收到的反向传播梯度。
系统使用所计算的梯度来更新一个或多个卷积层滤波器(步骤614)。例如,系统可以使用机器学习训练技术(例如,通过对梯度和矢量求和或者通过将梯度乘以学习速率并且然后将乘积加到矢量)来更新完全指定卷积层滤波器的矢量的值。
图7是用于训练卷积神经网络级和一个或多个其它神经网络层的级联的示例过程700的流程图。为了方便,过程700将被描述为由位于一个或多个位置中的一个或多个计算机的系统来执行。例如,依照本说明书适当地编程的包括卷积级的级联的神经网络系统(例如,图2的级联卷积神经网络系统200)可执行过程700。
系统获得训练数据,所述训练数据对于多个训练音频样本中的每一个训练音频样本包括训练音频样本的频谱图和针对训练音频样本的已知输出(步骤702)。在一些实施方式中训练数据可以包括训练音频样本的时域特征和针对训练音频样本的已知分类。
系统在训练数据上训练神经网络以调整其它神经网络层的参数的值并且以调整用于每个卷积神经网络级中的卷积神经网络层的一个或多个卷积层参数的值以确定经训练的参数集(步骤704)。系统通过将训练数据作为神经网络的输入进行处理来训练神经网络以生成训练数据神经网络输出,如上面参考图4所描述的。
在一些实施方式中在训练数据上训练神经网络系统包括,对于第一子网络中的卷积级的序列中的每个卷积层,接收相应的卷积层输入,例如,对于第一卷积级中的第一卷积神经网络层接收频谱图,或者对于第二卷积神经网络级中的第一卷积层接收第一卷积级输出。训练神经网络系统还可以包括,对于第一子网络中的每个卷积层,通过卷积层来处理所接收到的卷积层输入以生成卷积层输出,例如,如上面参考图4所描述的,从卷积层上方的神经网络层接收用于频谱图的反向传播梯度,计算用于神经网络的误差函数的梯度,其中,误差函数取决于相应的卷积层滤波器和所接收到的反向传播梯度,以及使用所计算的梯度来更新相应的卷积层滤波器。
经训练的参数定义频域特征到多标度频域特征的最佳卷积映射(步骤706)。级联卷积神经网络系统中的其它神经网络层(例如,输出层)能够从级联卷积神经网络级输出中选择并使用适当的特征,从而使得神经网络系统能够对给定任务定制并优化频域特征到多标度频域特征的卷积映射。例如,在一些设定(例如,语音识别设定)中,确定的频域特征到多标度频域特征的最佳卷积映射可以包括频域特征到对数或近对数标度频域特征的卷积映射。
本说明书中描述的主题和功能操作的实施例可用数字电子电路、用有形地具体实现的计算机软件或固件、用计算机硬件(包括本说明书中公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题的实施例可作为一个或多个计算机程序(即,编码在有形非暂时性程序载体上以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块)被实现。可替选地或此外,可将程序指令编码在人工生成的传播信号(例如,机器生成的电、光或电磁信号)上,所述信号被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备,或它们中的一个或多个的组合。然而,计算机存储介质不是传播信号。
术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器,作为示例包括可编程处理器、计算机或多个处理器或计算机。装置可包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外,还可包括为所述计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序(其也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可用任何形式的编程语言编写,所述编程语言包括编译或解释语言或声明或过程语言,并且它可被以任何形式部署,包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。计算机程序可以但不必与文件系统中的文件相对应。可在保持其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中或者在多个协调文件(例如,存储一个或多个模块、子程序或代码的各部分的文件)中存储程序。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者分布在多个站点上并且通过通信网络互连的多个计算机上执行。
如本说明书中所使用的,“引擎”或“软件引擎”指代提供与输入不同的输出的软件实现的输入/输出系统。引擎可以是功能性的编码块,诸如库、平台、软件开发套件(“SDK”)或对象。可在包括一个或多个处理器和计算机可读介质的任何适当类型的计算设备上实现每个引擎,所述计算设备例如服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其它固定或便携式设备。附加地,可以在相同的计算设备上或者在不同的计算设备上实现两个或更多个引擎。
本说明书中描述的过程和逻辑流程可通过一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能而被执行。过程和逻辑流程也可由专用逻辑电路执行,并且装置也可作为专用逻辑电路被实现,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
作为示例,适合于执行计算机程序的计算机可基于通用微处理器或专用微处理器或两者,或任何其它种类的中央处理单元。一般地,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。一般地,计算机还将包括或者在操作上耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)接收数据或者将数据传送到用于存储数据的一个或多个大容量存储设备,或者兼而有之。然而,计算机不必具有此类设备。此外,计算机可被嵌入在另一设备(例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如,通用串行总线(USB)闪速驱动器)等)中。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括半导体存储器设备,例如,EPROM、EEPROM和闪速存储器设备;磁盘,例如,内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充,或者并入专用逻辑电路。
为了提供与用户的交互,可在计算机上实现本说明书中描述的主题的实施例,所述计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可用来向该计算机提供输入的键盘和指针设备,例如,鼠标或轨迹球。其它种类的设备也可用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声学、语音或触觉输入。此外,计算机可通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。
可在计算系统中实现本说明书中描述的主题的实施例,所述计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机),或者包括一个或多个此类后端、中间件或前端组件的任何组合。系统的组件可通过任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如,因特网。
计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中,例如,为了向与用户设备交互的用户显示数据并且从与用户设备交互的用户接收用户输入,服务器向用户设备发送数据,例如,HTML页面,所述用户设备作为客户端。可在服务器处从用户设备接收例如作为用户交互的结果在用户设备处生成的数据。
虽然本说明书包含许多具体实施方式细节,但是这些不应该被解释为对任何发明的或可以要求保护的范围构成限制,而是相反被解释为可能特定于特定发明的特定实施例的特征的描述。也可在单个实施例中相结合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地,也可在多个实施例中单独地或者按照任何适合的子组合实现在单个实施例的上下文中描述的各种特征。此外,尽管特征可以在上面被描述为按照某些组合起作用并且甚至最初如此要求保护,但是可在一些情况下从该组合中去除来自要求保护的组合的一个或多个特征。
类似地,虽然在附图中按照特定次序描绘操作,但是这不应该被理解为要求按照所示特定次序或者按照顺序次序执行此类操作,或者要求执行所有图示的操作以实现所希望的结果。在某些情况下,多任务处理和并行处理可以是有利的。此外,上述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这种分离,并且应该理解的是,所描述的程序组件和系统通常可一般地被一起集成在单个软件产品中或者包装到多个软件产品中。
已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如,权利要求中叙述的动作可被按照不同的次序执行并仍然实现所希望的结果。作为一个示例,附图中描绘的过程不一定要求所示的特定次序或顺序次序来实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。

Claims (20)

1.一种用于在训练数据上训练包括多个神经网络层的神经网络的方法,
其中,所述神经网络被配置成接收音频样本的频域特征并且处理所述频域特征以针对所述音频样本生成神经网络输出,
其中,所述神经网络包括(i)被配置成将频域特征映射到对数标度频域特征的卷积层,其中,所述卷积层包括一个或多个卷积层滤波器,以及(ii)具有相应的层参数、被配置成处理所述对数标度频域特征以生成所述神经网络输出的一个或多个其它神经网络层,并且
其中,所述方法包括:
获得训练数据,所述训练数据对于多个训练音频样本中的每一个训练音频样本包括所述训练音频样本的频域特征和针对所述训练音频样本的已知输出;以及
在所述训练数据上训练所述神经网络以调整所述其它神经网络层的所述参数的值并且调整所述一个或多个卷积层滤波器以确定频域特征到对数标度频域特征的最佳对数卷积映射。
2.根据权利要求1所述的方法,其中,所述训练音频样本的所述频域特征存在于包括一个或多个频带的频谱中。
3.根据权利要求2所述的方法,其中,在所述训练数据上训练所述神经网络包括对于所述卷积层:
接收所述训练音频样本的所述频域特征;
确定所述一个或多个卷积层滤波器中的每一个的大小;
放大所述一个或多个频带以与所确定的所述一个或多个卷积层滤波器的大小匹配;
使用所述卷积层来处理所述一个或多个放大的频带以生成卷积层输出;
从所述卷积层上方的神经网络层接收用于所述频域特征的反向传播梯度;
相对于所述一个或多个卷积层滤波器计算用于所述神经网络的误差函数的梯度,其中,所述误差函数取决于所述一个或多个卷积层滤波器和所接收到的反向传播梯度;以及
使用所计算的梯度来更新所述一个或多个卷积层滤波器。
4.根据权利要求3所述的方法,其中,确定所述一个或多个卷积层滤波器中的每一个的相应的大小包括:
选择与所述频谱的最高部分相对应的频带;以及
基于所选择的频带确定所述一个或多个卷积层滤波器中的每一个的相应的大小。
5.根据权利要求3所述的方法,其中,确定所述一个或多个卷积层滤波器中的每一个的相应的大小包括确定所述一个或多个卷积层滤波器中的每一个的预定相应的大小。
6.根据权利要求3至5中的任一项所述的方法,其中,放大所述一个或多个频带以与所确定的所述一个或多个卷积层滤波器的大小匹配包括使用插值方法来放大所述一个或多个频带。
7.根据权利要求1至6中的任一项所述的方法,其中,所述训练音频样本的所述频域特征包括线性频域特征。
8.一种用于通过神经网络的多个层中的每一个层来处理数据输入的方法,
其中,所述神经网络被配置成接收音频样本的频域特征并且处理所述频域特征以针对所述音频样本生成神经网络输出,
其中,所述神经网络包括(i)被配置成将频域特征映射到对数标度频域特征的卷积层,其中,所述卷积层包括一个或多个卷积层滤波器,以及(ii)具有相应的层参数、被配置成处理所述对数标度频域特征以生成所述神经网络输出的一个或多个其它神经网络层,并且
其中,所述方法包括:
获得包括音频样本的频域特征的数据输入;
使用所述卷积层来处理所述频域特征以生成卷积层输出,其中,所述卷积层输出包括对数标度频域特征;以及
使用所述一个或多个其它神经网络层来处理所生成的卷积层输出以生成神经网络输出。
9.根据权利要求8所述的方法,其中,使用所述卷积层来处理所述频域特征以生成卷积层输出,其中,所述卷积层输出包括对数标度频域特征,包括:
在所述卷积层处接收所述频域特征,其中,所述频域特征存在于包括一个或多个频带的频谱中;
对于每个频带,基于所述频带缩减相应的卷积滤波器的大小;
使用经缩减的一个或多个卷积滤波器来处理所述一个或多个频带以生成所述卷积层输出。
10.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行操作以实现:
神经网络系统,所述神经网络系统包括多个神经网络层,其中,所述神经网络系统被配置成获得音频样本的频谱图并且处理所述频谱图以针对所述音频样本生成神经网络输出,所述多个神经网络层包括:
第一子网络,所述第一子网络包括被配置成执行频域特征到多标度频域特征的卷积映射的多个卷积神经网络级的序列,
其中,所述卷积神经网络级的序列中的每个卷积神经网络级包括各自具有相应的卷积层参数的一个或多个卷积神经网络层,
其中,(i)所述卷积神经网络级的序列中的第一卷积神经网络级被配置成获得所述音频样本的所述频谱图并且生成第一卷积输出,并且(ii)所述卷积神经网络级的序列中的每个后续卷积神经网络级被配置成接收由所述卷积神经网络级的序列中的前一个卷积神经网络级生成的卷积输出并且生成相应的卷积神经网络输出;
第二子网络,所述第二子网络包括至少(i)隐藏神经网络层和(ii)输出层,所述隐藏神经网络层和所述输出层各自具有相应的层参数,
其中(i)所述隐藏神经网络层被配置成接收由所述卷积神经网络层的序列中的所述卷积神经网络层生成的所述卷积神经网络输出中的一个或多个并且生成隐藏神经网络层输出,(ii)所述输出层被配置成接收从所述隐藏神经网络输出取得的输出并且针对所述音频样本生成所述神经网络输出。
11.根据权利要求10所述的系统,其中,所述第一卷积神经网络级被配置成:
接收所述音频样本的所述频谱图,其中,所述频谱图包括与频带相对应的多个行和与时间带相对应的多个列;
将高度H乘长度L的时间带压缩为大小为H乘一的一个或多个矢量;并且
将大小为H乘一的所述一个或多个矢量提供给所述卷积神经网络级的序列中的后续卷积神经网络级以进行处理。
12.根据权利要求11所述的系统,其中,每个后续卷积神经网络级被配置成:
从前一个卷积神经网络级接收一个或多个矢量输入;
以因子二将接收到的一个或多个矢量输入的大小减小以生成相应的卷积神经网络级输出;并且
将所述相应的卷积神经网络级输出提供给后续神经网络层以进行处理。
13.根据权利要求12所述的系统,其中,包括在所述后续卷积神经网络级中的卷积层参数包括高度3和行步幅2的卷积层滤波器。
14.根据权利要求12所述的系统,其中,每个后续卷积神经网络级包括至少(i)后面是具有行步幅2的最大池化层的具有行步幅为1的1x1x2卷积层,(ii)3x1xD卷积层,以及(iii)后面是具有行步幅2的最大池化层的具有行步幅1的3×1×D逐深度可分离卷积,其中,D表示卷积层滤波器深度。
15.根据权利要求14所述的系统,其中,每个后续卷积神经网络级包括整流线性单元。
16.根据权利要求10至15中的任一项所述的系统,其中,所述隐藏神经网络层被配置成接收每个生成的卷积级输出的行级联。
17.根据权利要求10至15中的任一项所述的系统,其中,所述隐藏神经网络层被配置成接收与所述卷积神经网络级的序列中的最终卷积相对应的输出。
18.根据权利要求17所述的系统,其中,所述卷积神经网络级的序列中的每个卷积神经网络层的深度通过所述卷积神经网络级的序列而增加。
19.根据权利要求10至18中的任一项所述的系统,其中,所述卷积神经网络级的序列中的每个卷积神经网络层的深度大于一。
20.根据权利要求10至19中的任一项所述的系统,其中,所述神经网络系统在训练数据上被训练以调整所述其它神经网络层的所述层参数的值并且调整所述一个或多个相应的卷积层参数以确定频域特征到多标度频域特征的最佳卷积映射,其中,训练包括:
获得训练数据,所述训练数据对于多个训练音频样本中的每一个训练音频样本包括所述训练音频样本的频谱图和针对所述训练音频样本的已知输出;以及
在所述训练数据上训练所述神经网络以调整所述第二子网络的层的参数的值并且调整所述一个或多个卷积层参数以确定频域特征到多标度频域特征的所述最佳卷积映射,其中,训练包括对于所述第一子网络中的每个卷积层:
接收相应的卷积层输入;
通过所述卷积层来处理所接收到的卷积层输入以生成卷积层输出;
从所述卷积层上方的神经网络层接收用于所述频谱图的反向传播梯度;
计算用于所述神经网络的误差函数的梯度,其中,所述误差函数取决于所述相应的卷积层参数和所接收到的反向传播梯度;以及
使用所计算的梯度来更新所述相应的卷积层参数。
CN201780029211.XA 2016-05-10 2017-05-10 使用神经网络进行基于频率的音频分析 Pending CN109155006A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/151,362 US10460747B2 (en) 2016-05-10 2016-05-10 Frequency based audio analysis using neural networks
US15/151,362 2016-05-10
PCT/US2017/031890 WO2017196931A1 (en) 2016-05-10 2017-05-10 Frequency based audio analysis using neural networks

Publications (1)

Publication Number Publication Date
CN109155006A true CN109155006A (zh) 2019-01-04

Family

ID=58993193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780029211.XA Pending CN109155006A (zh) 2016-05-10 2017-05-10 使用神经网络进行基于频率的音频分析

Country Status (6)

Country Link
US (1) US10460747B2 (zh)
EP (1) EP3440598B1 (zh)
JP (1) JP6765445B2 (zh)
KR (1) KR102213013B1 (zh)
CN (1) CN109155006A (zh)
WO (1) WO2017196931A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070867A (zh) * 2019-04-26 2019-07-30 珠海普林芯驰科技有限公司 语音指令识别方法、计算机装置及计算机可读存储介质
CN111199747A (zh) * 2020-03-05 2020-05-26 北京花兰德科技咨询服务有限公司 人工智能通信系统及通信方法
CN111640444A (zh) * 2020-04-17 2020-09-08 宁波大学 基于cnn的自适应音频隐写方法和秘密信息提取方法
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN113270091A (zh) * 2020-02-14 2021-08-17 声音猎手公司 音频处理系统和方法
CN114360526A (zh) * 2022-03-16 2022-04-15 杭州研极微电子有限公司 音频检测设备、方法、装置及存储介质

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3497630B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CA3155320A1 (en) 2016-09-06 2018-03-15 Deepmind Technologies Limited Generating audio using neural networks
US10224058B2 (en) 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
WO2018081089A1 (en) 2016-10-26 2018-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
CN106710589B (zh) * 2016-12-28 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法及装置
US10878837B1 (en) 2017-03-01 2020-12-29 Snap Inc. Acoustic neural network scene detection
AU2018226844B2 (en) * 2017-03-03 2021-11-18 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US11410024B2 (en) * 2017-04-28 2022-08-09 Intel Corporation Tool for facilitating efficiency in machine learning
WO2018213840A1 (en) * 2017-05-19 2018-11-22 Google Llc Depthwise separable convolutions for neural machine translation
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US11030722B2 (en) * 2017-10-04 2021-06-08 Fotonation Limited System and method for estimating optimal parameters
CN110019931B (zh) * 2017-12-05 2023-01-24 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
US11688160B2 (en) 2018-01-17 2023-06-27 Huawei Technologies Co., Ltd. Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
US20190220737A1 (en) * 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
DE102018200878B3 (de) * 2018-01-19 2019-02-21 Zf Friedrichshafen Ag Detektion von Gefahrengeräuschen
CN110083448B (zh) * 2018-01-25 2023-08-18 腾讯科技(深圳)有限公司 一种计算资源调整方法、装置以及相关设备
US11604979B2 (en) * 2018-02-06 2023-03-14 International Business Machines Corporation Detecting negative experiences in computer-implemented environments
US11902369B2 (en) * 2018-02-09 2024-02-13 Preferred Networks, Inc. Autoencoder, data processing system, data processing method and non-transitory computer readable medium
JP6872197B2 (ja) * 2018-02-13 2021-05-19 日本電信電話株式会社 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
KR102473447B1 (ko) * 2018-03-22 2022-12-05 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US11462209B2 (en) * 2018-05-18 2022-10-04 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
US11416741B2 (en) 2018-06-08 2022-08-16 International Business Machines Corporation Teacher and student learning for constructing mixed-domain model
US11651206B2 (en) * 2018-06-27 2023-05-16 International Business Machines Corporation Multiscale feature representations for object recognition and detection
US11205419B2 (en) * 2018-08-28 2021-12-21 International Business Machines Corporation Low energy deep-learning networks for generating auditory features for audio processing pipelines
CN109284782B (zh) * 2018-09-13 2020-10-02 北京地平线机器人技术研发有限公司 用于检测特征的方法和装置
US11676008B2 (en) * 2018-09-27 2023-06-13 Google Llc Parameter-efficient multi-task and transfer learning
CN111259385B (zh) * 2018-11-30 2023-10-31 北京奇虎科技有限公司 应用程序识别方法、装置及神经网络系统
US20200184991A1 (en) * 2018-12-05 2020-06-11 Pascal Cleve Sound class identification using a neural network
CN109525787B (zh) * 2018-12-13 2021-03-16 南京邮电大学 面向直播场景的实时字幕翻译及系统实现方法
KR102645659B1 (ko) 2019-01-04 2024-03-11 삼성전자주식회사 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
CN109948452A (zh) * 2019-02-22 2019-06-28 中国电子科技集团公司第三十六研究所 一种时序信号预测方法和装置
US10511908B1 (en) * 2019-03-11 2019-12-17 Adobe Inc. Audio denoising and normalization using image transforming neural network
CN111898614A (zh) * 2019-05-05 2020-11-06 阿里巴巴集团控股有限公司 神经网络系统以及图像信号、数据处理的方法
KR102330496B1 (ko) * 2019-08-20 2021-11-24 주식회사 포켓메모리 음성인식 방법 및 장치
CN110619887B (zh) * 2019-09-25 2020-07-10 电子科技大学 一种基于卷积神经网络的多说话人语音分离方法
CN111179971A (zh) * 2019-12-03 2020-05-19 杭州网易云音乐科技有限公司 无损音频检测方法、装置、电子设备及存储介质
CN111090758B (zh) * 2019-12-10 2023-08-18 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及存储介质
CN111292724A (zh) * 2020-02-13 2020-06-16 上海凯岸信息科技有限公司 一种基于深度学习的语音情绪识别方案
CN111429215B (zh) * 2020-03-18 2023-10-31 北京互金新融科技有限公司 数据的处理方法和装置
CN111444967B (zh) * 2020-03-30 2023-10-31 腾讯科技(深圳)有限公司 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111477250B (zh) * 2020-04-07 2023-11-28 北京达佳互联信息技术有限公司 音频场景识别方法、音频场景识别模型的训练方法和装置
CN111583940A (zh) * 2020-04-20 2020-08-25 东南大学 极低功耗关键词唤醒神经网络电路
CN111583957B (zh) * 2020-04-21 2023-04-28 华南理工大学 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN112244873A (zh) * 2020-09-29 2021-01-22 陕西科技大学 一种基于混合神经网络的脑电时空特征学习与情感分类方法
CN112633175A (zh) * 2020-12-24 2021-04-09 哈尔滨理工大学 复杂环境下基于多尺度卷积神经网络单音符实时识别算法
CN112712060A (zh) * 2021-01-15 2021-04-27 国网浙江省电力有限公司电力科学研究院 一种高压支柱瓷绝缘子声信号自动识别方法
CN112802484B (zh) * 2021-04-12 2021-06-18 四川大学 一种混合音频下的大熊猫声音事件检测方法及系统
CN115736907A (zh) * 2021-09-04 2023-03-07 天津大学 基于级联卷积神经网络的可穿戴微波无损检测人体血糖
CN113990303B (zh) * 2021-10-08 2024-04-12 华南理工大学 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117814A2 (en) * 2006-03-29 2007-10-18 Motorola, Inc. Voice signal perturbation for speech recognition
US20110082574A1 (en) * 2009-10-07 2011-04-07 Sony Corporation Animal-machine audio interaction system
CN103026407A (zh) * 2010-05-25 2013-04-03 诺基亚公司 带宽扩展器
US20150161995A1 (en) * 2013-12-06 2015-06-11 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
CN105118522A (zh) * 2015-08-27 2015-12-02 广州市百果园网络科技有限公司 噪声检测方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2495553B (en) * 2011-10-14 2018-01-03 Snell Advanced Media Ltd Re-sampling method and apparatus
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
US20150032449A1 (en) 2013-07-26 2015-01-29 Nuance Communications, Inc. Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition
US9665823B2 (en) 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
US9715642B2 (en) 2014-08-29 2017-07-25 Google Inc. Processing images using deep neural networks
US10438112B2 (en) * 2015-05-26 2019-10-08 Samsung Electronics Co., Ltd. Method and apparatus of learning neural network via hierarchical ensemble learning
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
US9842609B2 (en) * 2016-02-16 2017-12-12 Red Pill VR, Inc. Real-time adaptive audio source separation
US10726326B2 (en) * 2016-02-24 2020-07-28 International Business Machines Corporation Learning of neural network
US9836820B2 (en) * 2016-03-03 2017-12-05 Mitsubishi Electric Research Laboratories, Inc. Image upsampling using global and local constraints

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117814A2 (en) * 2006-03-29 2007-10-18 Motorola, Inc. Voice signal perturbation for speech recognition
US20110082574A1 (en) * 2009-10-07 2011-04-07 Sony Corporation Animal-machine audio interaction system
CN103026407A (zh) * 2010-05-25 2013-04-03 诺基亚公司 带宽扩展器
US20150161995A1 (en) * 2013-12-06 2015-06-11 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
CN105118522A (zh) * 2015-08-27 2015-12-02 广州市百果园网络科技有限公司 噪声检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PARESH M. CHAUHAN 等: "Mel Frequency Cepstral Coefficients (MFCC) based speaker identification in noisy environment using wiener filter", 《2014 INTERNATIONAL CONFERENCE ON GREEN COMPUTING COMMUNICATION AND ELECTRICAL ENGINEERING (ICGCCEE)》 *
胡炼 等: "基于NPC和改进的MFCC鲁棒语音特征提取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070867A (zh) * 2019-04-26 2019-07-30 珠海普林芯驰科技有限公司 语音指令识别方法、计算机装置及计算机可读存储介质
CN113270091A (zh) * 2020-02-14 2021-08-17 声音猎手公司 音频处理系统和方法
CN113270091B (zh) * 2020-02-14 2024-04-16 声音猎手公司 音频处理系统和方法
CN111199747A (zh) * 2020-03-05 2020-05-26 北京花兰德科技咨询服务有限公司 人工智能通信系统及通信方法
CN111640444A (zh) * 2020-04-17 2020-09-08 宁波大学 基于cnn的自适应音频隐写方法和秘密信息提取方法
CN111640444B (zh) * 2020-04-17 2023-04-28 宁波大学 基于cnn的自适应音频隐写方法和秘密信息提取方法
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN114360526A (zh) * 2022-03-16 2022-04-15 杭州研极微电子有限公司 音频检测设备、方法、装置及存储介质

Also Published As

Publication number Publication date
WO2017196931A1 (en) 2017-11-16
US10460747B2 (en) 2019-10-29
US20170330586A1 (en) 2017-11-16
KR20190005217A (ko) 2019-01-15
EP3440598A1 (en) 2019-02-13
EP3440598B1 (en) 2023-11-08
JP6765445B2 (ja) 2020-10-07
JP2019520600A (ja) 2019-07-18
KR102213013B1 (ko) 2021-02-08

Similar Documents

Publication Publication Date Title
CN109155006A (zh) 使用神经网络进行基于频率的音频分析
Kahl et al. BirdNET: A deep learning solution for avian diversity monitoring
CN110366734B (zh) 优化神经网络架构
US11900232B2 (en) Training distilled machine learning models
US10971142B2 (en) Systems and methods for robust speech recognition using generative adversarial networks
US20210256379A1 (en) Audio processing with neural networks
US9984683B2 (en) Automatic speech recognition using multi-dimensional models
US10529317B2 (en) Neural network training apparatus and method, and speech recognition apparatus and method
CN105719001B (zh) 使用散列的神经网络中的大规模分类
US20190259409A1 (en) Enhanced multi-channel acoustic models
CN108197652B (zh) 用于生成信息的方法和装置
US20180276540A1 (en) Modeling of the latent embedding of music using deep neural network
US9129190B1 (en) Identifying objects in images
US9224068B1 (en) Identifying objects in images
US20190026630A1 (en) Information processing apparatus and information processing method
CN107705805A (zh) 音频查重的方法及装置
EP4254408A1 (en) Speech processing method and apparatus, and apparatus for processing speech
TWI740315B (zh) 聲音分離方法、電子設備和電腦可讀儲存媒體
CN114008666A (zh) 动态图像分辨率评估
CN116542783A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
Siva Teja et al. Identification of sloshing noises using convolutional neural network
CN113569960A (zh) 基于域适应的小样本图像分类方法及系统
EP4105672A1 (en) Systems and methods for provisioning training data to enable neural networks to analyze signals in nmr measurements
CN116524952A (zh) 音频还原方法、装置、存储介质及电子设备
CN117577097A (zh) 模型训练方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination