CN103189913A - 用于分解多信道音频信号的方法、设备和机器可读存储媒体 - Google Patents

用于分解多信道音频信号的方法、设备和机器可读存储媒体 Download PDF

Info

Publication number
CN103189913A
CN103189913A CN2011800515093A CN201180051509A CN103189913A CN 103189913 A CN103189913 A CN 103189913A CN 2011800515093 A CN2011800515093 A CN 2011800515093A CN 201180051509 A CN201180051509 A CN 201180051509A CN 103189913 A CN103189913 A CN 103189913A
Authority
CN
China
Prior art keywords
signal
vector
basis function
arbitrary
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800515093A
Other languages
English (en)
Other versions
CN103189913B (zh
Inventor
埃里克·维瑟
金莱轩
申钟元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103189913A publication Critical patent/CN103189913A/zh
Application granted granted Critical
Publication of CN103189913B publication Critical patent/CN103189913B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)

Abstract

本发明揭示使用到达方向估计、基底函数库存和稀疏恢复技术的多信道信号分解。

Description

用于分解多信道音频信号的方法、设备和机器可读存储媒体
依据35U.S.C.§119的优先权申明
本专利申请案要求于2010年10月25日递交的发明名称为“多麦克风基于稀疏性的音乐场景分析(MULTI-MICROPHONE SPARSITY-BASED MUSIC SCENEANALYSIS)”的第61/406,561号临时申请案的优先权,所述申请案转让给本受让人。
技术领域
本发明涉及音频信号处理。
背景技术
便携式装置(例如,智能手机、上网本、便携式计算机、平板计算机)或电子游戏机上的许多音乐应用程序可供单个用户使用。在这些情况下,装置的用户哼唱旋律、演唱歌曲或演奏乐器,同时装置记录所得音频信号。所记录的信号接着可由应用程序来分析其音高/音调升降曲线,并且用户可以选择处理操作,例如,纠正或以其它方式变更升降曲线,用不同音高或乐器音色来对信号进行上混操作(upmix)等。此类应用程序的实例包含QUSIC应用程序(QUALCOMM公司,圣地亚哥(San Diego),CA);例如吉他英雄(GuitarHero)和摇滚乐队(Rock Band)(Harmonix音乐系统,剑桥,MA)等的电子游戏;以及卡拉OK、单人乐队(one-man-band)及其它记录应用程序。
许多电子游戏(例如,吉他英雄、摇滚乐队)和音乐会音乐场景可能涉及多个乐器和歌手同时演出。当前市售游戏和音乐制作系统要求顺序地或在具有紧密定位的麦克风的情况下演奏这些情形,以能够单独地对这些情形进行分析、后处理及上混操作。这些约束可在音乐制作的情况下限制控制干扰和/或记录空间效应的能力,且可在电子游戏的情况下导致受限制的用户体验。
发明内容
一种根据一般配置分解音频信号的方法包含针对多信道音频信号的在时间片段中的多个频率分量中的每一者,计算到达方向的对应指示。这种方法还包含基于所计算的方向指示,选择所述多个频率分量的子集。这种方法还包含基于所述选定子集和多个基底函数计算激活系数的向量。在这种方法中,所述向量的每一激活系数对应于所述多个基底函数中的不同基底函数。还揭示具有有形特征的计算机可读存储媒体(例如,非瞬时媒体),所述有形特征使读取所述特征的机器执行此种方法。
一种用于根据一般配置分解音频信号的设备包含用于针对多信道音频信号的在时间片段中的多个频率分量中的每一者计算到达方向的对应指示的装置;用于基于所计算的方向指示选择所述多个频率分量的子集的装置;以及用于基于所述选定子集和多个基底函数计算激活系数的向量的装置。在这种设备中,所述向量的每一激活系数对应于所述多个基底函数中的不同基底函数。
一种用于根据另一一般配置分解音频信号的设备包含经配置以针对多信道音频信号的在时间片段中的多个频率分量中的每一者计算到达方向的对应指示的方向估计器;经配置以基于所计算的方向指示选择所述多个频率分量的子集的滤波器;以及经配置以基于所述选定子集和多个基底函数计算激活系数的向量的系数向量计算器。在这种设备中,所述向量的每一激活系数对应于所述多个基底函数中的不同基底函数。
附图说明
图1A展示了根据一般配置的方法M100的流程图。
图1B展示了方法M100的实施方案M200的流程图。
图1C展示了根据一般配置的用于分解音频信号的设备MF100的方框图。
图1D展示了根据另一一般配置的用于分解音频信号的设备A100的方框图。
图2A展示了方法M100的实施方案M300的流程图。
图2B展示了设备A100的实施方案A300的方框图。
图2C展示了设备A100的另一实施方案A310的方框图。
图3A展示了方法M200的实施方案M400的流程图。
图3B展示了方法M200的实施方案M500的流程图。
图4A展示了方法M100的实施方案M600的流程图。
图4B展示了设备A100的实施方案A700的方框图。
图5展示了设备A100的实施方案A800的方框图。
图6展示了基底函数库存的第二实例。
图7展示了具有和声鸣响的语音的声谱图。
图8展示了在图6的库存中的图7的声谱图的稀疏表示。
图9图解说明模型Bf=y。
图10展示由方法M100产生的分离结果的曲线图。
图11图解说明图9的模型的修改B′f=y。
图12展示了在钢琴和长笛的音调的未定期间基底函数的时域演化的曲线图。
图13展示了由方法M400产生的分离结果的曲线图。
图14展示了在音调F5处的钢琴和长笛的基底函数的曲线图(左)和在音调F5处的钢琴和长笛的预加重基底函数的曲线图(右)。
图15图解说明多个声源在有效的情形。
图16图解说明源紧密地挨在一起且一个源位于另一源之后的情形。
图17图解说明分析个别空间集群的结果。
图18展示了基底函数库存的第一实例。
图19展示了吉他音调的声谱图。
图20展示了在图18的库存中的图19的声谱图的稀疏表示。
图21展示了将根据图32的方法应用于两个不同复合信号实例的结果的声谱图。
图22到图25表明将基于开始检测的后处理应用于第一复合信号实例的结果。
图26到图30表明将基于开始检测的后处理应用于第二复合信号实例的结果。
图31展示了一张表。
图32和图33展示了用于单信道稀疏恢复方案的信号处理流程图。
图34A展示了根据一般配置的方法的处理流程图。
图34B展示了设备A950的方框图。
图35A展示根据一般配置的方法X100的流程图。
图35B展示了方法X100的实施方案X110的流程图。
图36展示了图19中所示的信号的“空间频率范围”的声谱图,且图解说明观测到的信号的“空间频率范围”的对应于激活的基底函数的区域。
图37展示了残余混合声谱图。
图38和图39图解说明基底函数矩阵的扩充。
图40A展示了阵列R100的实施方案R200的方框图。
图40B展示了阵列R200的实施方案R210的方框图。
图41A展示了多麦克风音频传感装置D10的方框图。
图41B展示了通信装置D20的方框图。
图42展示了手机H100的正视图、后视图和侧视图。
具体实施方式
揭示了使用基底函数库存和稀疏恢复技术来分解音频信号,其中基底函数库存包含与音调的未定期间音符的频谱改变有关的信息。此类分解可用以支持信号的分析、编码、再现和/或合成。本文中展示了对包含来自和声(即,非打击)和打击乐器的声音的混合物的音频信号的定量分析的实例。
除非由其上下文明确限制,否则本文中使用术语“信号”来指示其普通意义中的任一者,包括在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以其它方式产生。除非由其上下文明确限制,否则本文中使用术语“计算”来指示其普通意义中的任一者,例如计算、评估、平滑和/或从多个值中进行选择。除非由其上下文明确限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由其上下文明确限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、应用和/或使用两者或两者以上的集合中的不到全部的至少一者。在术语“包括”用于本描述及权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如“A基于B”)用以指示其普通意义中的任一者,包含情况(i)“从……导出”(例如,“B是A的前驱体”),(ii)“至少基于”(例如,“A至少基于B”)及在特定上下文中适当的情况下(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包含“至少响应于”。
对多麦克风音频传感装置的麦克风的“位置”的参考指示麦克风的声学敏感面的中心的位置,除非上下文以其它方式指示。根据特定上下文,术语“信道”有时用以指示信号路径,且在其它时候指示由此路径携带的信号。除非以其它方式指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示以十为底数的对数,但此运算延伸到其它底数(例如,底数二)属于本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如信号的频域表示的样本(例如,通过快速傅里叶变换产生)或信号的子带(例如,巴克(Bark)标度或梅尔(mel)标度子带)。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考方法、设备和/或系统来使用,如其特定上下文所指示。术语“方法”、“过程”、“程序”和“技术”被一般地且可互换地使用,除非特定上下文以其它方式指示。术语“设备”和“装置”也被一般地且可互换地使用,除非特定上下文以其它方式指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非其上下文明确地限制,否则术语“系统”在本文中用以指示其普通意义中的任一者,包含“交互以服务共同目的的元素的群组”。任何以引用的方式并入有文献的一部分还应理解为并入有所述部分内所提及的术语或变量的定义(在此类定义出现在文献的其它地方的情况下),及所并入有部分中所提及的任何图式。除非开始由定冠词引入,否则用以修饰权利要求元素的序数术语(例如,“第一”、“第二”、“第三”等)自身并不指示权利要求元素相对于所述此的任何优先级或次序,而是仅区别权利要求元素与具有同一名称(但使用序数术语)的另一权利要求元素。除非其上下文明确地限制,否则术语“多个”在本文中用以指示大于一的整数量。
如本文中所描述的方法可经配置以将所捕获的信号作为一系列片段来处理。典型片段长度范围在约五或十毫秒到约四十或五十毫秒之间,且片段可重叠(例如,邻近片段重叠25%或50%)或不重叠。在一个特定实例中,信号被分成各自具有十毫秒长度的一系列不重叠片段或“帧”。由此种方法进行处理的片段还可以是由不同操作进行处理的较大片段的片段(即,“子帧”),或反之亦然。
可需要对音乐场景进行分解,以从两个或两个以上乐器和/或声音信号的混合物中提取个别音调/音高轮廓。潜在使用实例包含用多个麦克风录制音乐会/电子游戏场景,通过空间/稀疏恢复处理来分解乐器和声音,提取音高/音调轮廓,部分地或完全地用经纠正的音高/音调轮廓来对个别源进行上混操作。此类操作可用以使音乐应用程序(例如,Qualcomm的QUSIC应用程序、例如摇滚乐队或吉他英雄等的电子游戏)的能力延伸到多演奏者/歌唱者情形。
可需要使音乐应用程序能够处理特定的情形,在所述特定的情形中,一个以上歌手在有效和/或多个乐器同时演奏(例如,如图A2/0中所示)。可需要此能力以支持实际音乐录制情形(多音高场景)。尽管用户可能想要单独地编辑且重新合成每一源的能力,但产生音轨可能需要同时记录所述源。
本发明描述可用以允许实现多个源可同时有效的音乐应用程序的使用实例的方法。此种方法可经配置以使用基于基底函数库存的稀疏恢复(例如,稀疏分解)技术来分析音频混合信号。
可需要通过找到基底函数集合的激活系数的最稀疏向量(例如,使用有效稀疏恢复算法),来将混合信号频谱分解成源分量。可使用激活系数向量(例如,与基底函数集合一起)来重构混合信号,或重构混合信号的选定部分(例如,来自一个或一个以上选定乐器)。还可需要对稀疏系数向量进行后处理(例如,根据量值和时间支持)。
图1A展示了根据一般配置的分解音频信号的方法M100的流程图。方法M100包含任务T100,所述任务T100基于来自音频信号的帧的信息,计算在频率范围内的对应信号表示。方法M100还包含任务T200,所述任务T200基于由任务T100计算的信号表示和多个基底函数,来计算激活系数的向量,其中激活系数中的每一者对应于多个基底函数中的不同基底函数。
可实施任务T100以将信号表示计算为频域向量。此向量的每一元素可指示可根据梅尔或巴克标度获得的一组子带中的对应者的能量。然而,通常使用例如快速傅里叶变换(FFT)或短时傅里叶变换(STFT)等的离散傅里叶变换(DFT)来计算此向量。此向量可具有(例如)64、128、256、512或1024个分格的长度。在一实例中,音频信号具有8kHz的采样率,且对于长度为32毫秒的每一帧,0到4kHz频带由256分格的频域向量表示。在另一实例中,对音频信号的重叠片段使用经修改的离散余弦变换(MDCT)来计算信号表示。
在另一实例中,实施任务T100以将信号表示计算为倒谱系数(例如,梅尔倒频谱系数或MFCC)的向量,所述向量表示帧的短期功率谱。在此情况下,可实施任务T100以计算此向量,计算的方式是将梅尔标度滤波器组应用于帧的DFT频域向量的量值,求得滤波器输出的对数,及求得对数值的DCT。例如,在标题为“STQ:DSR--前端特征提取算法;压缩算法(STQ:DSR-Front-end feature extraction algorithm;compressionalgorithm)”的ETSI文献ES 201 108(欧洲电信标准协会,2000)中所描述的极光标准(Aurora standard)中描述了此程序(procedure)。
乐器通常具有界限清楚的音色。乐器的音色可由其频谱包络(例如,频率范围内能量的分布)描述,使得可使用编码个别乐器的频谱包络的基底函数库存来建模不同乐器的音色范围。
每一基底函数包括在频率范围内的对应信号表示。可需要每一信号表示具有与由任务T100计算的信号表示相同的形式。举例来说,每一基底函数可为长度为64、128、256、512或1024分格的频域向量。或者,每一基底函数可为倒谱域向量,例如MFCC的向量等。在另一实例中,每一基底函数为小波域向量。
基底函数库存A可包含每一乐器n(例如,钢琴、长笛、吉他、鼓等)的基底函数集合An。举例来说,乐器的音色通常是依赖于音高的,使得每一乐器n的基底函数集合An通常将包含在某所要音高范围内的每一音高的至少一基底函数,所述音高范围可在乐器之间变化。对应于调谐到(例如)半音阶的乐器的基底函数集合可包含每八音度十二个音高中的每一音高的不同基底函数。钢琴的基底函数集合可包含钢琴的每一基调的不同基底函数,总计八十八个基底函数。在另一实例中,每一乐器的基底函数集合包含在所要音高范围(例如,五个八音度(例如,56个音高)或六个八音度(例如,67个音高)等)中的每一音高的不同基底函数。这些基底函数集合An可不相交,或两个或两个以上集合可共享一个或一个以上基底函数。
图6展示了特定和声乐器的十四个基底函数的集合的曲线图(音高指数对频率)的实例,其中所述集合的每一基底函数编码在不同对应音高处的乐器的音色。在音乐信号的上下文中,人类话音可被视为乐器,使得库存可包含一个或一个以上人类话音模型中的每一者的基底函数集合。图7展示了具有和声鸣响的语音的声谱图(以Hz为单位的频率对以样本为单位的时间),且图8展示了此信号在图6中所示的和声基底函数集合中的表示。可看出此特定库存编码信号的汽车鸣响分量,而不编码语音分量。
基底函数的库存可基于从特别记录的个别乐器记录中获知的通用乐器音高数据库,和/或基于分离的混合物流(例如,使用例如独立分量分析(ICA)、期望最大化(EM)等的分离方案)。
基于由任务T100计算的信号表示且基于来自库存A的多个基底函数B,任务T200计算激活系数的向量。此向量的每一系数对应于多个基底函数B中的不同基底函数。举例来说,任务T200可经配置以计算向量,使得所述向量根据多个基底函数B指示信号表示的最有可能模型。图9图解说明此模型Bf=y,其中多个基底函数B为矩阵,使得B的列为个别基底函数,f为基底函数激活系数的列向量,且y为所记录的混合信号的帧的列向量(例如,呈声谱图频率向量形式的五、十或二十毫秒的帧)。
任务T200可经配置以通过求解线性程序设计问题来恢复音频信号的每一帧的激活系数向量。可用以求解此问题的方法的实例包含非负矩阵因式分解(NNMF)。可配置基于NNMF的单信道参考方法以使用期望最大化(EM)更新规则(例如,如下文所描述),来同时计算基底函数和激活系数。
可需要通过找到已知或部分已知基底函数空间中的最稀疏激活系数向量,将音频混合信号分解成个别乐器(其可包含一个或一个以上人类话音)。举例来说,可配置任务T200以使用已知乐器基底函数的集合通过找到基底函数库存中的最稀疏激活系数向量(例如,使用有效稀疏恢复算法),将混合频谱分解成源分量(例如,一个或一个以上个别乐器)。
已知地是,对线性方程的欠定系统(即,具有多于方程的未知数的系统)的最小L1范数解常常也是对所述系统的最稀疏解。可如下执行通过L1范数的最小化而进行的稀疏恢复。
假定目标向量f0是具有K<N个非零项(即,“K稀疏”)的长度为N的稀疏向量,且对于大小约为K的集合,投影矩阵(即,基底函数矩阵)A是非相干的(类似随机)。观测到信号y=Af0。接着,求解服从于
Figure BDA00003102316700081
(其中
Figure BDA00003102316700082
定义为
Figure BDA00003102316700083
)将精确地恢复f0。此外,可通过求解易处理的程序,从
Figure BDA00003102316700084
个非相干量度中恢复f0。量度的数目M大约等于有效分量的数目。
一种方法是使用来自压缩传感的稀疏恢复算法。在压缩传感(也称作“经压缩传感”)信号恢复Φx=y的一实例中,y是长度为M的观测到的信号向量,x是具有K<N个非零项(即,“K稀疏模型”)的长度为N的稀疏向量(其为y的精简表示),且Φ是大小为M×N的随机投影矩阵。随机投影Φ不是满秩的,但其对于稀疏/可压缩信号模型以高几率可逆(即,随机投影Φ求解了病态求逆问题)。
图10展示了由方法M100的稀疏恢复实施方案产生的分离结果的曲线图(音高指数对帧指数)。在此情况下,输入混合信号包含演奏音调序列C5-F5-G5-G#5-G5-F5-C5-D#5的钢琴和演奏音调序列C6-A#5-G#5-G5的长笛。钢琴的经分离的结果以虚线展示(音高序列0-5-7-8-7-5-0-3),且长笛的经分离的结果以实线展示(音高序列12-10-8-7)。
可认为激活系数向量f包含每一乐器n的子向量fn,所述子向量fn包含对应基底函数集合An的激活系数。可独立地处理此些乐器特定激活子向量(例如,在后处理操作中)。举例来说,可需要强加一个或一个以上稀疏性约束(例如,向量元素的至少一半为零,乐器特定子向量中的非零元素的数目不超过最大值等)。激活系数向量的处理可包含编码每一帧的每一非零激活系数的指数编号,编码每一非零激活系数的指数和值,或编码整个稀疏向量。可使用此信息(例如,在另一时间和/或位置)来使用所指示的有效基底函数再现混合信号,或仅再现混合信号的特定部分(例如,仅再现由特定乐器演奏的音调)。
由乐器产生的音频信号可建模为被称作音调的一系列事件。演奏音调的和声乐器的声音可在时间上分成不同区域:举例来说,开始阶段(也被称作起奏)、固定阶段(也被称作维持)和偏移阶段(也被称作释放)。对音调(ADSR)的时间包络的另一描述包含在起奏与维持之间的额外衰减阶段。在此上下文中,音调的持续时间可定义为从起奏阶段的开始到释放阶段的结束(或到终止音调的另一事件,例如同一根弦上的另一音调的开始等)的时间间隔。假定音调具有单一音高,但还可以实施库存以建模具有单一起奏和多个音高的音调(例如,如由例如颤音或滑音等的音高弯曲效应所产生)。一些乐器(例如,钢琴、吉他或竖琴)可以在被称作和弦的事件中一次产生一个以上音调。
由不同乐器产生的音调可在维持阶段期间具有类似音色,使得可能难以在此时段识别哪一乐器正在演奏。然而,可预期音调的音色在阶段之间变化。举例来说,识别有效乐器可能在起奏或释放阶段期间比在维持阶段期间更为容易。
图12展示了钢琴(虚线)和长笛(实线)的八音度C5到C6中的十二个不同音高的基底函数的时域演化的曲线图(音高指数对时域帧指数)。可看出(例如)钢琴基底函数的起奏与维持阶段之间的关系显著不同于长笛基底函数的起奏与维持阶段之间的关系。
为了增加激活系数向量将指示适当基底函数的可能性,可能需要最大化基底函数之间的差异。举例来说,可能需要使基底函数包含与音调的随时间推移的频谱改变有关的信息。
可能需要基于随时间推移的音色改变来选择基底函数。举例来说,可能需要将与音调的音色的此时域演化有关的信息编码成基底函数库存。举例来说,特定乐器n的基底函数的集合An可包含每一音高处的两个或两个以上对应信号表示,使得此些信号表示中的每一者对应于音调的演化中的不同时间(例如,起奏阶段一个信号表示,维持阶段一个信号表示,且释放阶段一个信号表示)。可从演奏音调的乐器的记录的对应帧中提取此些基底函数。
图1C展示了根据一般配置的用于分解音频信号的设备MF100的方框图。设备MF100包含用于基于来自音频信号的帧的信息计算在频率范围内的对应信号表示的装置F100(例如,如本文中参考任务T100所描述)。设备MF100还包含装置F200,所述装置F200用于基于由装置F100计算的信号表示和多个基底函数,来计算激活系数的向量,其中激活系数中的每一者对应于多个基底函数中的不同基底函数(例如,如本文中参考任务T200所描述)。
图1D展示了根据另一一般配置的用于分解音频信号的设备A100的方框图,所述设备A100包含变换模块100和系数向量计算器200。变换模块100经配置以基于来自音频信号的帧的信息计算在频率范围内的对应信号表示(例如,如本文中参考任务T100所描述)。系数向量计算器200经配置以基于由变换模块100计算的信号表示和多个基底函数,来计算激活系数的向量,其中激活系数中的每一者对应于多个基底函数中的不同基底函数(例如,如本文中参考任务T200所描述)。
图1B展示了方法M100的实施方案M200的流程图,其中基底函数库存包含针对每一乐器的每一音高的多个信号表示。此些多个信号表示中的每一者描述在频率范围内的多个不同能量分布(例如,多个不同音色)。库存还可经配置以包含针对不同时间相关模态的不同多个信号表示。在一个这样的实例中,库存包含在每一音高处用弓拉弦的多个信号表示,和在每一音高处拨弦(例如,拨奏)的不同的多个信号表示。
方法M200包含任务T100(在此实例中,任务T100A和T100B)的多个例子,其中每一例子基于来自音频信号的对应不同帧的信息,计算在频率范围内的对应信号表示。可串接各种信号表示,且同样,每一基底函数可为多个信号表示的串接。在此实例中,任务T200将混合帧的串接与每一音高处的信号表示的串接相匹配。图11展示了图S5的模型Bf=y的修改B′f=y的实例,其中混合信号y的帧p1、p2被串接以用于匹配。
可构造库存以使得从训练信号的连续帧中获得每一音高处之多个信号表示。在其它实施方案中,可能需要使每一音高处的多个信号表示横跨较大的时间窗。举例来说,可能需要使每一音高处的多个信号表示包含来自起奏阶段、维持阶段与释放阶段当中的至少两者的信号表示。通过包含关于音调的时域演化的更多信息,可增加不同音调的基底函数集合之间的差异。
在左边,图14展示了音调F5处的钢琴的基底函数(虚线)和音调F5处的长笛的基底函数(实线)的曲线图(振幅对频率)。可看出指示此特定音高处的乐器的音色的此些基底函数极为类似。因此,实践中可预期所述基底函数之间的某一程度的不匹配。为了得到更稳健的分离结果,可能需要最大化库存的基底函数之间的差异。
长笛的实际音色含有比钢琴的实际音色多的高频能量,但图14的左曲线图中所示的基底函数未编码此信息。在右边,图14展示了音调F5处的钢琴的基底函数(虚线)和音调F5处的长笛的基底函数(实线)的另一曲线图(振幅对频率)。在此情况下,除了已预加重源信号的高频区域之外,从与左曲线图中的基底函数相同的源信号导出基底函数。因为钢琴源信号含有显著少于长笛源信号的高频能量,所以右曲线图中所示的基底函数之间的差异明显大于左曲线图中所示的基底函数之间的差异。
图2A展示了方法M100的实施方案M300的流程图,所述实施方案M300包含加重片段的高频的任务T300。在此实例中,任务T100经布置以计算在预加重之后的片段的信号表示。图3A展示了包含任务T300的多个例子T300A、T300B的方法M200的实施方案M400的流程图。在一实例中,预加重任务T300增加了高于200Hz的能量对总能量的比率。
图2B展示了设备A100的实施方案A300的方框图,所述实施方案A300包含经布置以在变换模块100的上游对音频信号执行高频加重的预加重滤波器300(例如,高通滤波器,例如一阶高通滤波器等)。图2C展示了设备A100的另一实施方案A310的方框图,在所述实施方案A310中,预加重滤波器300经布置以对变换系数执行高频预加重。在此些情况下,还可能需要对多个基底函数B执行高频预加重(例如,高通滤波)。图13展示了由方法M300对于与图10的分离结果相同的输入混合信号产生的分离结果的曲线图(音高指数对帧指数)。
音符可包含赋色效应,例如,颤音和/或颤声等。颤音是具有通常在四或五赫兹到七、八、十或十二赫兹的范围中的调制率的频率调制。归因于颤音的音高改变对于歌唱者来说可在0.6到2个半音程之间变化,且对于管乐器和弦乐器来说通常小于+/-0.5半音程(例如,对于弦乐器来说,在0.2与0.35半音程之间)。颤声是通常具有类似调制率的振幅调制。
可能难以在基底函数库存中建模此类效应。可能需要检测此类效应的存在。举例来说,颤音的存在可由在4Hz到8Hz的范围中的频域峰值来指示。还可能需要记录所检测到的效应的水平的量度(例如,作为此峰值的能量),这是因为可使用此特性来在再现期间还原所述效应。对于颤声检测和量化,可在时域中执行类似处理。一旦效应已被检测到且可能经量化,就可能需要通过针对颤音使频率在时间上平滑或针对颤声使振幅在时间上平滑,来移除调制。
图4B展示了设备A100的实施方案A700的方框图,所述实施方案A700包含调制水平计算器MLC。计算器MLC经配置以计算且可能记录如上文所描述的音频信号的片段中的所检测到的调制的量度(例如,在时域或频域中所检测到的调制峰值的能量)。
本发明描述可用以允许实现多个源可同时有效的音乐应用程序的使用实例的方法。在此情况下,可能需要在计算激活系数向量之前使源分离(如果有可能的话)。为了实现此目的,提出了多信道和单信道技术的组合。
图3B展示了方法M100的实施方案M500的流程图,所述实施方案M500包含将信号分离成空间集群的任务T500。任务T500可经配置以将源隔离成尽可能多的空间集群。在一实例中,任务T500使用多麦克风处理来将所记录的声学情形分离成尽可能多的空间集群。此处理可基于麦克风信号之间的增益差和/或相位差,其中可跨越整个频带来评估此类差或在多个不同频率子带或频率分格中的每一者处评估此类差。
空间分离方法可能不足以实现所要的分离水平。举例来说,一些源可能太靠近麦克风阵列或以其它方式次最佳地相对于麦克风阵列布置(例如,多个小提琴手和/或和声乐器可位于一个角落;打击乐器乐手通常位于后面)。在典型乐队情形下,源可能紧密地挨在一起或甚至在其它源之后(例如,如图16中所示),使得单独使用空间信息来处理由处于相对于乐队的同一大体方向的麦克风阵列捕获的信号可能无法将所有的源所述此相区分。任务T100和T200使用如本文中所描述的单信道基于基底函数库存的稀疏恢复(例如,稀疏分解)技术来分析个别空间集群以分离个别乐器(如图17中所示)。
为了处理多演奏者使用实例,提出了具有基于空间和稀疏性的信号处理方案的手机/上网本/便携式计算机上安装的麦克风阵列。一个这样的方法包含a)使用多个麦克风来记录多信道混合信号;b)对有限频率范围中的混合信号的时间-频率(T-F)点关于其DOA/TDOA(到达方向/到达时差)进行分析,以识别且提取一组方向上相干T-F点;c)使用稀疏恢复算法来将所提取的空间上相干T-F振幅点与有限频率范围中的乐器/歌手基底函数库存匹配;d)从整个频率范围中的原始记录的振幅中减去所识别的空间基底函数,以获得残余信号,及接着e)将残余信号振幅与基底函数库存匹配。
通过两个或两个以上麦克风的阵列,有可能获得关于特定声音的到达方向(即,声源相对于阵列的方向)的信息。虽然有时有可能基于其到达方向分离来自不同声源的信号分量,但一般来说,单独的空间分离方法可能不足以实现所要分离水平。举例来说,一些源可能太靠近麦克风阵列或以其它方式次最佳地相对于麦克风阵列布置(例如,多个小提琴手和/或和声乐器可位于一个角落;打击乐器乐手通常位于后面)。在典型乐队情形下,源可能紧密地挨在一起或甚至在其它源之后(例如,如图15中所示),使得单独使用空间信息来处理由处于相对于乐队的同一大体方向的麦克风阵列捕获的信号可能无法将所有的源所述此相区分。
通过将所观测到的混合信号的特定有限频率范围与基底函数库存相匹配以识别由此范围激活的基底函数来开始。基于此些所识别的基底函数,接着从整个频率范围内的原始混合信号中减去对应源分量。此些减去的区域可能在时间和频率上都不连续。还可能需要通过将所得残余混合信号与基底函数库存匹配(例如,以识别信号中的下一个最有效乐器,或识别一个或一个以上空间上分散的源)来继续。
图34A展示了包含任务U510、U520、U530、U540和U550的此种方法的处理流程图。任务U510测量混合频谱。任务U520从混合声谱图中提取一个或一个以上空间上一致的点源(例如,基于每一T-F点的到达方向的指示)。任务U530将所提取的源声谱图与“空间频率范围”中的基底函数库存相匹配,以识别由混合信号的“空间频率范围”激活的基底函数。任务U540使用匹配的基底函数来从完整频率范围中的混合声谱图移除所提取的源。还可能包含任务U550,以将残余混合声谱图与基底函数库存匹配,以提取额外源。
图35A展示了根据一般配置的处理多信道信号的另一方法X100的流程图,所述方法X100包含任务U110、U120、U130和U140。任务U110估计在多信道信号的减小的频率范围(也被称作“空间频率范围”)内的多信道信号的每一时间-频率(T-F)点的源方向。空间频率范围与用以捕获多信道信号的阵列的转换器(例如,麦克风)之间的间距有关。举例来说,空间频率范围的低端可由阵列的麦克风之间的最大可用间距来确定,且空间频率范围的高端可由阵列的邻近麦克风之间的间距来确定。
图34B展示了根据一般配置的设备A950的方框图。设备A590包含方向估计器Z10,其经配置以针对多信道音频信号的在时间片段中的多个频率分量中的每一者,计算到达方向的对应指示。设备A590还包含滤波器Z20和系数向量计算器200的例项,滤波器Z20经配置以基于所计算的方向指示选择多个频率分量的子集,系数向量计算器200经配置以基于选定子集和多个基底函数计算激活系数的向量。在此实例中,设备A590还包含残余计算器Z30和播放模块Z40,残余计算器Z30经配置以通过从多信道音频信号中的至少一信道中减去多个基底函数当中的至少一者,基于来自所计算的向量的信息产生残余信号,播放模块Z40经配置以基于来自所计算的向量的信息,使用多个基底函数中的至少一者中的每一者来重构多信道信号的对应分量。
对于给定麦克风阵列,可用以提供明确的源定位信息(例如,DOA)的由阵列捕获的信号的频率范围通常由与阵列的尺寸有关的因素限制。举例来说,此有限频率范围的较低端与阵列的孔径有关,所述孔径可能太小以致不能提供低频率处的可靠空间信息。此有限频率范围的较高端与邻近麦克风之间的最小距离有关,所述最小距离设定了关于明确的空间信息的频率上限(归因于空间混叠)。对于给定麦克风阵列,把可获得可靠空间信息的频率范围称作阵列的“空间频率范围”。图36展示了图19中所示的吉他音调的声谱图的空间频率范围的声谱图(以Hz为单位的频率对以样本为单位的时间)。应用如本文中所描述的方法来从所观测到的信号的此范围中提取时间-频率(T-F)点。
任务U110可经配置以基于多信道信号的不同信道中的T-F点的相位之间的差,来估计每一T-F点的源方向(相位差对频率的比率是到达方向的指示)。额外地或替代性地,任务U110可经配置以基于多信道信号的不同信道中的T-F点的增益(即,量值)之间的差估计每一T-F点的源方向。
任务U120基于T-F点的估计的源方向选择T-F点的集合。在一实例中,任务U120选择T-F点,其估计的源方向类似于所指定的源方向(例如,相差不超过十、二十或三十度)。所指定的源方向可为预设值,且可针对不同所指定的源方向(例如,针对不同空间扇区)重复任务U120。或者,可配置任务U120的此实施方案以根据具有类似估计的源方向的T-F点的数目和/或总能量,选择一个或一个以上指定的源方向。在此情况下,任务U120可经配置以选择类似于某一指定数目的T-F点(例如,百分之二十或三十)的估计的源方向的方向作为指定的源方向。
在另一实例中,任务U120选择在估计的源方向和频率方面与空间频率范围中的其它T-F点有关的T-F点。在此情况下,任务U120可经配置以选择具有在和声上相关的类似估计源方向和频率的T-F点。
任务U130将基底函数库存当中的一个或一个以上者与T-F点的选定集合匹配。任务U130使用单信道稀疏恢复技术来分析选定T-F点。任务U130只使用基底函数矩阵A的“空间频率范围”部分和混合信号向量y中的所识别的点源来找到最稀疏系数。
归因于乐器的声谱图的和声结构,可从低频带和/或中频带中的频率内容推断高频带中的频率内容,使得分析“空间频率范围”就可能足以识别相关基底函数(例如,当前由源激活的基底函数)。如上文所描述,任务T130使用来自空间频率范围的信息,来识别库存中的当前由点源激活的基底函数。一旦已识别空间频率范围中的与点源相关的基底函数,就可使用此些基底函数来将空间信息外推到可靠空间信息可能不可用的输入信号的另一频率范围。举例来说,基底函数可用以从在整个频率范围内的原始混合频谱移除对应音乐源。
图36中的底部图图解说明所观测到的信号的“空间频率范围”的对应于由信号的此范围激活的基底函数的区域。(尽管出于方便起见,此图展示了在时间上连续的区域,但注意到此些区域可能在时间和频率上都不连续)。
任务U140使用匹配的基底函数来选择多信道信号的在空间频率范围之外的T-F点。可预期此些点源于产生T-F点的选定集合的相同的一个或一个以上声音事件。举例来说,如果任务U130将T-F点的选定集合与对应于演奏音调C6(1046.502Hz)的长笛的基底函数匹配,那么可预期任务U140所选择的其它T-F点源于同一长笛音调。
图35B展示了方法X100的实施方案X110的流程图,所述实施方案X110包含任务U150和U160。任务U150从多信道信号中的至少一个信道中移除在任务U120和U140中选择的T-F点,以产生残余信号(例如,如图37中所示)。举例来说,任务U150可经配置以移除(即,归零)多信道信号中的主信道中的选定T-F点,以产生单信道残余信号。任务U160对残余信号执行稀疏恢复操作。举例来说,任务U160可经配置以确定基底函数库存当中的哪一基底函数(如果有的话)由残余信号来激活。
可能需要搜寻包含位置提示的乐器的最稀疏表示。举例来说,可能需要基于“稀疏分解”的单一标准执行联合地执行以下两个任务的稀疏性驱动的多麦克风源分离:(1)将源隔离为可区别的空间集群及(2)查找对应基底函数。
上文所描述的方法可使用编码个别乐器的音色的基底函数库存来实施。可能需要执行使用维度上扩充的基底函数矩阵的替代方法,所述矩阵也含有与起始于空间中的某些扇区的点源相关联的相位信息。此基底函数库存接着可用以通过直接将所记录的声谱图的相位和振幅信息与基底函数库存匹配,来同时(即,联合地)求解DOA映射和乐器分离。
此种方法可实施为基于稀疏分解将单信道源分离延伸到多麦克风情况中。此种方法可具有相比于单独地且顺序地执行空间分解(例如,波束成形)和单信道频谱分解的方法的一个或一个以上优势。举例来说,此联合方法可以最大地利用随着加入额外空间域的大大增加的稀疏性。通过波束成形,空间上分离的信号仍有可能含有来自非视向的不想要的信号的显著部分,其可能限制通过单信道稀疏分解来正确地提取目标源的性能。
在此情况下,单信道输入声谱图y(例如,指示各别信道中的时间-频率点的振幅)由包含相位信息的多麦克风复合声谱图替换。基底函数库存A还扩充到A□,如下文所描述。重构现可包含基于点源的所识别的DOA的空间滤波。此稀疏性驱动的波束成形方法还可包含额外空间约束,所述额外空间约束包含于定义稀疏恢复问题的线性约束的集合中。此多麦克风稀疏分解方法将允许实现多演奏者情形,且藉此极大地增强用户体验。
通过联合方法,现试图找到附以适当DOA的最有可能频谱量值基底。替代执行波束成形,试图寻找DOA信息。因此,可推迟多麦克风处理(例如,波束成形或ICA)直到识别适当基底函数之后。
也可通过联合方法获得强回声路径信息(DOA和时滞)。一旦回声路径足够强,就可检测到此路径。使用通过所提取的连续帧的互相关,可获得相关源(换言之,回声源)的时滞信息。
通过联合方法,类似EM的基底更新仍为可能的,使得以下各者中的任一者是可能的:如在单信道情况下的频谱包络的修改;信道间差的修改(例如,可解决麦克风之间的增益不匹配和/或相位不匹配);在解附近的空间分辨率的修改(例如,可适应性地改变空间域中的可能的方向搜寻范围)。
图38图解说明2D声谱图到具有空间域的3D空间的扩充。右上方图展示了2D单信道情况,其中每一信道的每一帧的所观测到的声谱图是长度为L的列向量(例如,FFT长度),基底函数矩阵A具有长度为L的M个列向量(基底函数),且稀疏系数向量是长度为M的列向量。
图38中的右下方图展示了L×M基底函数矩阵A如何扩充到大小为(L×N)×(M×S)的矩阵A□,其中N是用以捕获声谱图
Figure BDA00003102316700153
的麦克风的数目,且S是源将定位在的空间跨度(角度跨度)。矩阵A的基底函数中的每一者通过与向量
Figure BDA00003102316700154
的逐元素相乘而扩充到A□的一列中,其中A□的N个垂直单元中的每一者具有在0到N-1之间的对应值n,
Figure BDA00003102316700161
是长度为L的向量,所述向量的元素是2πl/L,l在0到L-1之间,且τs具有值τ×s,其中τ指示麦克风间的距离除以声音的速度,且A□的S个水平单元中的每一者(未在图38中明确地展示)具有在0到S-1之间的对应值s。通过以此方式延伸单信道方法,可使用信号中的DOA信息来识别最佳频谱量值响应。图39展示了此经扩充的模型的另一图解说明。
此扩充还允许额外空间约束。举例来说,最小||f||l1和||y′-A′f||l2可能不保证所有固有的特性,例如空间位置的连续性等。可施加的一个空间约束涉及来自同一乐器的同一音调的低音部(base)。在此情况下,描述同一乐器的一个音调的多个基底函数当其被激活时应驻留于相同或类似的空间位置中。举例来说,可约束音调的起奏、衰减、维持和释放部分以在类似空间位置中出现。
可施加的另一空间约束涉及由同一乐器产生的所有音调的低音部。在此情况下,表示同一乐器的激活的基底函数的位置应以高几率具有时间连续性。可施加此些空间约束以动态地减小搜寻空间和/或对暗示位置转变的几率进行处罚。
图36中的顶部图展示了混合信号的声谱图的实例。图36中的中间图展示了此信号的“空间频率范围”(即,可在给定用以捕获信号的麦克风阵列的尺寸的情况下获得明确的源到达方向(DOA)的频率范围)的声谱图。应用如本文中所描述的方法来从此所观测到的信号中提取时间-频率[“(t,f)”]点。
通过将所观测到的信号的“空间频率范围”与基底函数库存相匹配以识别由此范围激活的基底函数来开始。图36中的底部图图解说明所观测到的信号的“空间频率范围”的对应于由信号的此范围激活的基底函数的区域。(尽管出于方便起见,此图展示了在时间上连续的区域,但注意到此些区域可能在时间和频率上都不连续)。
基于此些识别的基底函数,接着可从在整个频率范围内的原始混合信号中减去对应的源分量,如图37中所示(如参看图26的底部图所注明,此些区域可能在时间和频率上都不连续)。还可能需要通过将所得残余混合声谱图与基底函数库存匹配(例如,以识别信号中的下一个最有效乐器,或在如下文所描述的空间延伸的方法中识别一个或一个以上空间上分散的源)来继续(例如,对方法进行重复)。
可能需要使用维度上扩充的基底函数矩阵执行如上文所描述的方法,以提取空间上定位的点源(例如,使得也在空间上定位从“空间频率范围”识别的基底函数)。此种方法可包含计算“空间频率范围”中的混合声谱图(t,f)点的空间原点。此定位可基于所观测到的麦克风信号的水平(例如,增益或量值)和/或相位之间的差。此种方法还可包含从混合声谱图中提取空间上一致的点源,且将所提取的点源声谱图与“空间频率范围”中的基底函数库存相匹配。此种方法可包含使用匹配的基底函数来从完整频率范围中的混合声谱图移除空间点源。此种方法还可包含将残余混合声谱图与基底函数库存相匹配,以提取空间上分散的源。
可能需要搜寻包含位置提示的乐器的最稀疏表示。举例来说,可能需要基于“稀疏分解”的单一标准执行联合地执行以下两个任务的稀疏性驱动的多麦克风源分离:(1)将源隔离为可区别的空间集群及(2)查找对应基底函数。
图39展示了图9的模型从单信道情况到多麦克风情况的延伸。在此情况下,单信道输入声谱图y(例如,指示时间-频率点的振幅)由包含相位信息的多麦克风复合声谱图
Figure BDA00003102316700171
替换。基底函数矩阵B还扩充到B□,如本文中所描述。重构现可包含基于点源的所识别的DOA的空间滤波。
为了便于计算处理,可能需要多个基底函数B显著地小于基底函数库存A。可能需要从大库存开始,针对给定分离任务缩减库存。在一个实例中,此减小可通过以下方式来执行:确定片段是包含来自打击乐器的声音还是包含来自和声乐器的声音,及从库存中选择适当的多个基底函数B以用于匹配。与和声声音的水平线相反,打击乐器倾向于具有类似脉冲的声谱图(例如,垂直线)。
在声谱图中,和声乐器的特征通常可为某一基本音高和相关联的音色,及此和声模式的对应较高频率延伸。因此,在另一实例中,可能需要通过仅分析此些频谱的较低八音度来减小计算任务,这是因为可基于低频副本来预测其较高频率副本。在匹配之后,可将有效基底函数外推到较高频率,且从混合信号减去,以获得可以编码和/或进一步分解的残余信号。
还可通过用户在图形用户界面中的选择和/或通过基于第一轮稀疏恢复或最大可能性拟合预先分类最有可能的乐器和/或音高来执行此减小。举例来说,可执行第一轮稀疏恢复操作以获得经恢复的稀疏系数的第一集合,且基于此第一集合,可对于另一轮稀疏恢复操作缩减可适用的音调基底函数。
一个减小方法包含通过测量某些音程中的稀疏性得分,来检测某些乐器音调的存在。此方法可包含基于最初音高估计来改进一个或一个以上基底函数的频谱形状,及使用改进的基底函数作为方法M100中的多个B。
减小方法可经配置以通过测量投影到对应基底函数中的音乐信号的稀疏性得分来识别音高。在给定最佳音高得分的情况下,可使基底函数的振幅形状优化,以识别乐器音调。接着可使用有效基底函数的减小的集合作为方法M100中的多个B。
图18展示了可用于第一轮方法中的稀疏和声信号表示的基底函数库存的实例。图19展示了吉他音调的声谱图(以Hz为单位的频率对以样本为单位的时间),且图20展示了在图18中所示的基底函数集合中此声谱图的稀疏表示(基底函数数目对以帧为单位的时间)。
图4A展示了包含此第一轮库存减小的方法M100的实施方案M600的流程图。方法M600包含任务T600,所述任务T600计算在非线性频域(例如,其中邻近元素之间的频率距离随频率而增加,如按梅尔或巴克标度)中的片段的信号表示。在一实例中,任务T600经配置以使用常数Q变换来计算非线性信号表示。方法M600还包含任务T700,所述任务T700基于非线性信号表示和多个类似非线性基底函数,计算激活系数的第二向量。基于来自第二激活系数向量的信息(例如,来自激活的基底函数的恒等式,其可指示有效音高范围),任务T800选择用于任务T200中的多个基底函数B。明确地注意到方法M200、M300和M400还可经实施以包含此些任务T600、T700和T800。
图5展示了设备A100的实施方案A800的方框图,所述实施方案A800包含经配置以从基底函数的较大集合中(例如,从库存中)选择多个基底函数的库存减小模块IRM。模块IRM包含第二变换模块110,第二变换模块110经配置以计算非线性频域中的片段的信号表示(例如,根据常数Q变换)。模块IRM还包含第二系数向量计算器,第二系数向量计算器经配置以基于非线性频域中的所计算的信号表示和如本文中所描述的第二多个基底函数,计算激活系数的第二向量。模块IRM还包含基底函数选择器,基底函数选择器经配置以基于如本文中所描述的来自第二激活系数向量的信息,从基底函数的库存当中选择多个基底函数。
图32展示了单信道稀疏恢复方案的信号处理流程图,单信道稀疏恢复方案包含开始检测(例如,检测音符的开始)和后处理以改进和声乐器稀疏系数,且图33展示了具有任务T360的不同版本T360A的类似方案的流程图。基底函数库存A可包含每一乐器n的基底函数集合An。这些集合可不相交,或两个或两个以上集合可共享一个或一个以上基底函数。可认为所得激活系数向量f包含每一乐器n的对应子向量fn,所述子向量fn包含乐器特定基底函数集合An的激活系数,且可独立地处理此些子向量(例如,如任务T360和T360A中所示)。图21到图30图解说明了将此方案用于复合信号实例1(在同一八音度下演奏的钢琴和长笛)和复合信号实例2(伴随打击乐器在同一八音度下演奏的钢琴和长笛)的音乐分解的方面。
一般开始检测方法可基于频谱量值(例如,能量差)。举例来说,此种方法可包含基于频谱能量和/或峰值斜率找到峰值。图21展示了将此种方法分别应用于复合信号实例1(在同一八音度下演奏的钢琴和长笛)和复合信号实例2(伴随打击乐器在同一八音度下演奏的钢琴和长笛)的结果的声谱图(以Hz为单位的频率对以帧为单位的时间),其中垂直线指示所检测到的开始。
可能还需要检测每一个别乐器的开始。举例来说,在和声乐器之间的检测开始的方法可基于时间的对应系数差。在一个这样的实例中,如果当前帧的乐器n的系数向量(子向量fn)的最高量值元素的指数不等于先前帧的乐器n的稀疏向量的最高量值元素的指数,那么触发和声乐器n的开始检测。可对于每一乐器,重复进行此操作。
可能需要执行和声乐器的稀疏系数向量的后处理。举例来说,对于和声乐器,可能需要保持对应子向量的具有高量值和/或满足指定的标准(例如,足够尖)的起奏轮廓的系数,和/或移除(例如,归零)残余系数。
对于每一和声乐器,可能需要在每一开始帧处(例如,当指示了开始检测时)对系数向量进行后处理,使得保持具有支配量值和可接受起奏时间的系数,且使残余系数归零。可根据例如时间平均量值等的标准来评估起奏时间。在一个这样的实例中,如果系数的当前平均值小于系数的过去平均值(例如,如果在当前窗(例如,从帧(t-5)到帧(t+4))中系数的值的总和小于在过去窗(例如,从帧(t-15)到帧(t-6))中的系数的值的总和),那么使当前帧t的乐器的每一系数归零(即,起奏时间不可被接受)。在每一开始帧处的和声乐器的系数向量的此后处理还可包含保持具有最大量值的系数,且使其它系数归零。对于每一和声乐器,在每一非开始帧处,可能需要对系数向量进行后处理,以便只保持在先前帧中值非零的系数,且使向量的其它系数归零。
图22到图25表明将基于开始检测的后处理应用于复合信号实例1(演奏同一八音度的钢琴和长笛)的结果。在此些图中,垂直轴是稀疏系数指数,水平轴是以帧为单位的时间,且垂直线指示特定帧,在所述特定帧处指示了开始检测。图22和图23分别展示了在后处理之前和之后的钢琴稀疏系数。图24和图25分别展示了在后处理之前和之后的长笛稀疏系数。
图26到图30表明将基于开始检测的后处理应用于复合信号实例2(伴随打击乐器演奏同一八音度的钢琴和长笛)的结果。在此些图中,垂直轴是稀疏系数指数,水平轴是以帧为单位的时间,且垂直线指示特定帧,在所述特定帧处指示了开始检测。图26和图27分别展示了在后处理之前和之后的钢琴稀疏系数。图28和图29分别展示了在后处理之前和之后的长笛稀疏系数。图30展示了鼓稀疏系数。
图31展示了使用由文森特(Vincent)等人描述的评估尺度(盲音频源分离中的性能测量,IEEE Trans.ASSP,第14卷,第4期,2006年7月,第1462到1469页)来评估应用于钢琴-长笛测试情况的如图32中所示的方法的性能的结果。信号干扰比(SIR)是对不想要的源的抑制的量度,且定义为10log10(||starget||2||/||einterf||2)。信号伪影比(SAR)是已由分离过程引入的伪影(例如,音乐噪声等)的量度,且定义为10log10(||starget+einterf||2/||eartif||2)。信号失真比(SDR)是性能的总体量度,这是因为SDR考虑以上标准两者,且定义为10log10(||starget||2/||eartif+einterf||2)。此定量评估展示了具有可接受的伪影产生水平的稳健源分离。
EM算法可用以产生最初基底函数矩阵和/或更新基底函数矩阵(例如,基于激活系数向量)。现描述EM方法的更新规则的实例。在给定声谱图Vft的情况下,希望对于每一时间帧估计频谱基底向量P(f|z)和加权向量Pt(z)。此些分布提供了矩阵分解。
如下应用EM算法:首先,随机地初始化加权向量Pt(z)和频谱基底向量P(f|z)。接着,在以下步骤之间重复直到收敛为止:1)期望(E)步骤-在给定频谱基底向量P(f|z)和加权向量Pt(z)的情况下,估计后验分布Pt(z|f)。此估计可表达如下:
P t ( z | f ) = P t ( f | z ) P ( z ) Σ z P t ( f | z ) P ( z ) .
2)最大化(M)步骤-在给定后验分布Pt(z|f)的情况下,估计加权向量Pt(z)和频谱基底向量P(f|z)。加权向量的估计可表达如下:
P t ( z ) = Σ f V ft P t ( z | f ) Σ z Σ f V ft P t ( z | f ) .
频谱基底向量的估计可表达如下:
P ( f | z ) = Σ f V ft P t ( z | f ) Σ t Σ f V ft P t ( z | f ) .
在多麦克风音频传感装置的操作期间,阵列R100产生多信道信号,其中每一信道基于麦克风中的对应者对声学环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得对应信道不同于所述此,从而共同提供比使用单一麦克风可捕获的声学环境表示更完整的声学环境表示。
可能需要使阵列R100对由麦克风产生的信号执行一个或一个以上处理操作,以产生由设备A100处理的多信道信号MCS。图40A展示了阵列R100的实施方案R200的方框图,所述实施方案R200包含经配置以执行一个或一个以上此些操作的音频预处理级AP10,一个或一个以上此些操作可包含(不限于)阻抗匹配、模数转换、增益控制和/或模拟和/或数字域中的滤波。
图40B展示了阵列R200的实施方案R210的方框图。阵列R210包含音频预处理级AP10的实施方案AP20,所述实施方案AP20包含模拟预处理级P10a和P10b。在一实例中,级P10a和P10b各自经配置以对于对应的麦克风信号执行高通滤波操作(例如,具有50、100或200Hz的截止频率)。
可能需要使阵列R100产生多信道信号作为数字信号,即,作为样本的序列。举例来说,阵列R210包含各自经布置以对于对应模拟信道采样的模数转换器(ADC)C10a和C10b。声学应用程序的典型采样率包含8kHz、12kHz、16kHz和在约8kHz到约16kHz的范围中的其它频率,但也可使用高达约44.1、48和192kHz的采样率。在此特定实例中,阵列R210还包含各自经配置以对于对应数字化信道执行一个或一个以上预处理操作(例如,回声消除、噪声减小和/或频谱整形)以产生多信道信号MCS的对应信道MCS-1、MCS-2的数字预处理级P20a和P20b。另外或在替代例中,可实施数字预处理级P20a和P20b以对于对应数字化信道执行频率变换(例如,FFT或MDCT操作),以产生多信道信号MCS10的在对应频域中的对应信道MCS10-1、MCS10-2。虽然图40A和40B展示了两个信道的实施方案,但将理解,相同的原理可延伸到任意数目个麦克风和多信道信号MCS10的对应信道(例如,如本文中所描述的阵列R100的三个、四个或五个信道实施方案)。
阵列R100的每一麦克风可具有全向、双向或单向(例如,心形)的响应。可用于阵列R100中的各种类型的麦克风包含(不限于)压电麦克风、动态麦克风和驻极体麦克风。在用于便携式话音通信的装置(例如,手机或头戴式耳机等)中,阵列R100的邻近麦克风之间的中心到中心间距通常在约1.5cm到约4.5cm的范围中,但在例如手机或智能手机等的装置中,较大间距(例如,高达10或15cm)也是可能的,且在例如平板计算机等的装置中,甚至更大间距(例如,高达20、25或30cm或30cm以上)是可能的。对于远场应用,阵列R100的邻近麦克风之间的中心到中心间距通常在约4厘米到10厘米的范围中,但在例如平面电视显示器等的装置中,邻近麦克风对中的至少一些之间的较大间距(例如,高达20、30或40厘米或40厘米以上)也是可能的。阵列R100的麦克风可沿着线(具有均匀或不均匀麦克风间距)或交替地布置,使得麦克风的中心位于二维(例如,三角形)或三维形状的顶点处。
明确注意到,麦克风可更一般地实施为对辐射或发射而非声音敏感的转换器。在一个这样的实例中,麦克风对被实施为超声转换器对(例如,对大于15、20、25、30、40或50千赫兹或50千赫兹以上的声学频率敏感的转换器)。
可能需要在便携式音频传感装置内执行如本文中所描述的方法,所述便携式音频传感装置具有经配置以接收声学信号的两个或两个以上麦克风的阵列R100。可经实施以包含此阵列且可用于音频记录和/或话音通信应用的便携式音频传感装置的实例包含电话手机(例如,蜂窝式电话手机);有线或无线头戴式耳机(例如,蓝牙头戴式耳机);手持式音频和/或视频记录器;经配置以记录音频和/或视频内容的个人媒体播放器;个人数字助理(PDA)或其它手持式计算装置;及笔记本计算机、便携式计算机、上网本计算机、平板计算机或其它便携式计算装置。便携式计算装置的类别当前包含具有以下名称的装置:例如,便携式计算机、笔记本计算机、上网本计算机、超便携式计算机、平板计算机、移动因特网装置、智能本和智能手机等。此装置可具有包含显示屏幕的顶部面板和可包含键盘的底部面板,其中两个面板可以蛤壳方式或其它铰接关系连接。此装置可类似地实施为在顶部表面上包含触摸屏显示器的平板计算机。可经构造以执行此方法且包含阵列R100的例项且可用于音频记录和/或话音通信应用的音频传感装置的其它实例包含电视显示器、机顶盒及音频和/或视频会议装置。
图41A展示了根据一般配置的多麦克风音频传感装置D10的方框图。装置D10包含本文中所揭示的麦克风阵列R100的实施方案中的任一者的例项和本文中所揭示的设备A100(或MF100)的实施方案中的任一者的例项,且本文中所揭示的音频传感装置中的任一者可实施为装置D10的例项。装置D10还包含设备A100,所述设备A100经配置以通过执行如本文中所揭示的方法的实施方案,来处理多信道音频信号MCS。设备A100可实施为硬件(例如,处理器)与软件和/或与固件的组合。
图41B展示了通信装置D20的方框图,所述通信装置D20是装置D10的实施方案。装置D20包含芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组),芯片或芯片组CS10包含如本文中所描述的设备A100(或MF100)的实施方案。芯片/芯片组CS10可包含一个或一个以上处理器,所述处理器可经配置以执行设备A100或MF100的操作的全部或部分(例如,作为指令)。芯片/芯片组CS10还可包含阵列R100的处理元件(例如,如下文所描述的音频预处理级AP10的元件)。
芯片/芯片组CS10包含接收器,所述接收器经配置以接收射频(RF)通信信号(例如,通过天线C40),且解码并再现(例如,通过扬声器SP10)编码于RF信号内的音频信号。芯片/芯片组CS10还包含发射器,发射器经配置以编码基于由设备A100产生的输出信号的音频信号,且传输描述经编码音频信号的RF通信信号(例如,通过天线C40)。举例来说,芯片/芯片组CS10的一个或一个以上处理器可经配置以对多信道信号的一个或一个以上信道执行如上文所描述的噪声减小操作,使得经编码音频信号基于噪声减小的信号。在此实例中,装置D20还包含小键盘C10和显示器C20以支持用户控制和交互。
图42展示了可实施为装置D20的例项的手机H100(例如,智能手机)的正视图、后视图和侧视图。手机H100包含布置于正面的三个麦克风MF10、MF20和MF30;及布置于后面的两个麦克风MR10和MR20及照相机镜头L10。扬声器LS10布置于麦克风MF10附近在正面的顶部中心中,且还提供两个其它扬声器LS20L、LS20R(例如,用于免提电话应用)。此手机的麦克风之间的最大距离通常约为10或12厘米。明确地揭示,本文中所揭示的系统、方法和设备的适用性不限于本文中所注明的特定实例。
本文中所揭示的方法和设备可大体上应用于任何收发和/或音频传感应用中,所述应用包含此些应用的移动或其它便携式例项和/或对来自远场源的信号分量的传感。举例来说,本文中所揭示的配置的范围包含驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员已知的广泛范围的技术的各种通信系统中的任一者中,例如,经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)传输信道使用IP语音(VoIP)的系统等。
明确地考虑且在此揭示,本文中所揭示的通信装置可适用于为包交换(例如,经布置以根据例如VoIP等的协议携带音频传输的有线和/或无线网络)和/或电路交换的网络中。还明确地考虑且在此揭示,本文中所揭示的通信装置可适用于窄频带译码系统(例如,编码约为4或5千赫兹的音频频率范围的系统)和/或适用于宽频带译码系统(例如,编码大于5千赫兹的音频频率的系统),宽频带译码系统包含全频带宽频带译码系统和分离频带宽频带译码系统。
提供对所描述配置的以上呈现以使所属领域的技术人员能够制作或使用本文所揭示的方法及其它结构。本文中所示及描述的流程图、方框图及其它结构只是实例,且此些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所示的配置,而是应符合与在本文中(包括在所递交的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将了解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中参考的数据、指令、命令、信息、信号、比特及符号。
尤其是对于例如压缩的音频或视听信息(例如,根据压缩格式编码的文件或流,例如,本文中所识别的实例中的一者等)的播放等的计算密集型应用,或用于宽频带通信(例如,在高于8千赫兹(例如,12、16、44.1、48或192kHz等)的采样率下的话音通信)的应用,用于实施如本文中所揭示的配置的重要设计要求可包含最小化处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS为单位测量)。
多麦克风处理系统的目标可包含实现10到12dB的总噪声减小,在所要扬声器的移动期间保留话音水平和色调,获得噪声已被移到背景中而非激进的噪声移除的感知,对语音进行去混响,和/或启用用于实现更激进的噪声减小的后处理选项。
如本文中所揭示的设备(例如,设备A100和MF100)可以被认定适用于所希望的应用的硬件与软件和/或与固件的任何组合来实施。举例来说,此设备的元件可被制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。设备的元件中的任意两者或两者以上或甚至全部可实施于相同的一个或一个以上阵列内。此一个或一个以上阵列可实施于一个或一个以上芯片内(例如,包含两个或两个以上芯片的芯片组内)。
本文中所揭示的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路)等)上执行的一个或一个以上指令集。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器,也称作“处理器”),且此些元件中的任何两者或两者以上或甚至全部可实施于相同的此一个或一个以上计算机内。
如本文中所揭示的处理器或用于处理的其它装置可制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的一个或一个以上电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。所述一个或一个以上阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。此些阵列的实例包含固定或可编程逻辑元件阵列,例如,微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC等。如本文中所揭示的处理器或用于处理的其它装置还可体现为一个或一个以上计算机(例如,包含经编程以执行一个或一个以上指令集或序列的一个或一个以上阵列的机器)或其它处理器。有可能将如本文中所描述的处理器用以执行任务或执行其它指令集,所述任务或指令集不直接与如本文中所描述的音乐分解程序有关,例如,与嵌入有处理器的装置或系统(例如,音频传感装置)的另一操作有关的任务等。还有可能由音频传感装置的处理器执行如本文中所揭示的方法的部分,且在一个或一个以上其它处理器的控制下执行方法的另一部分。
所述领域的技术人员将了解,结合本文所揭示的配置描述的各种说明性模块、逻辑块、电路和测试及其它操作可实施为电子硬件、计算机软件,或两者的组合。此些模块、逻辑块、电路和操作可通过通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行。举例来说,此配置可至少部分实施为硬连线电路、制造为专用集成电路的电路配置,或载入到非易失性存储器中的固件程序或作为机器可读代码从数据存储媒体载入或载入到数据存储媒体中的软件程序,此代码是可由例如通用处理器或其它数字信号处理单元等的逻辑元件阵列执行的指令。通用处理器可以是微处理器,但在替代例中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器,或任何其它此配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、例如闪存RAM等的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘、CD-ROM或所述技术中已知的任何其它形式的存储媒体。说明性存储媒体耦合到处理器,使得处理器可以从存储媒体读取信息以及将信息写入存储媒体。在替代例中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代例中,处理器及存储媒体可作为离散组件驻留于用户终端中。
注意到,本文中所揭示的各种方法(例如,方法M100和通过描述本文中所描述的各种设备的操作而揭示的其它方法)可由例如处理器等的逻辑元件阵列执行,且如本文中所描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指代包含呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应了解,多个模块或系统可组合为一个模块或系统,且一个模块或系统可被分离成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的元素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关的任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列,以及此类实例的任何组合。程序或代码段可存储在处理器可读存储媒体中,或由以传输媒体或通信链路上的载波形式体现的计算机数据信号来传输。
本文中所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如本文中所列出的一个或一个以上计算机可读媒体中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一个或一个以上指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可拆卸和不可拆卸媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、闪存、可擦除ROM(EROM)、软盘或其它磁性存储器、CD-ROM/DVD或其它光学存储器、硬盘、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如,电子网络信道、光纤、空气、电磁、RF链路等)传播的任何信号。可经由例如因特网或企业内部网络等的计算机网络来下载代码段。在任何情况下,本发明的范围不应被解释为受此些实施例限制。
本文中所描述的方法的任务中的每一者可直接以硬件来体现,以由处理器执行的软件模块来体现,或以两者的组合来体现。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能所有)还可实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如,磁盘、闪存或其它非易失性存储卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此阵列或机器执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行,所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如,使用一个或一个以上协议,例如,VoIP等)。举例来说,此装置可包含经配置以接收和/或传输经编码帧的RF电路。
明确地揭示,本文中所揭示的各种方法可由例如手机、头戴式耳机或便携式数字助理(PDA)等的便携式通信装置执行,且本文中所描述的各种设备可包括于此类装置内。典型的实时(例如,在线)应用是使用此类移动装置进行的电话会话。
在一个或一个以上示范性实施例中,本文中所描述的操作可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么此些操作可作为一个或一个以上指令或代码存储在计算机可读媒体上或通过计算机可读媒体来传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,传输)媒体。通过实例,但不限于,计算机可读存储媒体可包括存储元件阵列,例如,半导体存储器(其可包含,但不限于,动态或静态RAM、ROM、EEPROM和/或闪存RAM)或铁电、磁阻、双向开关半导体、聚合或相变存储器;CD-ROM或其它光盘存储器;和/或磁盘存储器或其它磁性存储装置。此存储媒体可存储可由计算机存取的呈指令或数据结构形式的信息。通信媒体可包括可用以携带呈指令或数据结构形式的所要程序代码且可由计算机存取的任何媒体,包含促进计算机程序从一处传送到另一处的任何媒体。又,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字用户线(DSL)或例如红外线、无线电和/或微波等的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光缆、双绞线、DSL或例如红外线、无线电和/或微波等的无线技术包含于媒体的定义中。如本文中所使用的磁盘和光盘包含光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘、蓝光光盘TM(蓝光光盘协会,Universal City,CA),其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上文的组合也应包含在计算机可读媒体的范围内。
如本文中所描述的声学信号处理设备(例如,设备A100或MF100)可并入到接受语音输入以便控制某些操作或可以其它方式受益于所要噪声与背景噪声的分离的电子装置中,例如,通信装置等。许多应用可受益于增强清晰的所要声音,或将清晰的所要声音与起始于多个方向的背景声音分离。此些应用可包含在电子或计算装置中的人机接口,其并入有例如话音辨识及检测、语音增强及分离、话音激活式控制等的能力。可能需要实施此声学信号处理设备以适于在只提供有限处理能力的装置中使用。
本文中所描述的模块、元件和装置的各种实施方案的元件可被制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片中的电子和/或光学装置。此装置的一个实例为逻辑元件(例如,晶体管或门)的固定或可编程阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一个或一个以上指令集。
有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行任务或执行其它指令集,所述任务或指令集不直接与设备的操作相关,例如,与设备所嵌入于的装置或系统的另一操作相关的任务等。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。

Claims (37)

1.一种分解多信道音频信号的方法,所述方法包括:
针对所述多信道音频信号的在时间片段中的多个频率分量中的每一者,计算到达方向的对应指示;
基于所述所计算的方向指示,选择所述多个频率分量的子集;以及
基于所述选定子集和多个基底函数,计算激活系数的向量,
其中所述向量的每一激活系数对应于所述多个基底函数中的不同基底函数。
2.根据权利要求1所述的方法,其中所述多个基底函数中的每一者包括(A)在频率范围内的第一对应信号表示,及(B)相对于所述第一对应信号表示延迟的在所述频率范围内的第二对应信号表示。
3.根据权利要求1和2中任一权利要求所述的方法,其中所述选择子集是基于对于所述多个频率分量中的每一者所述对应方向指示与所指定的方向之间的关系。
4.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包括基于所述激活系数中的至少一者,从所述片段的频率分量的第二子集中的每一者中减去能量,以产生残余信号,其中频率分量的所述第二子集不同于频率分量的所述选定子集。
5.根据权利要求4所述的方法,其中频率分量的所述第二子集是由至少一个基底函数确定,所述至少一个基底函数由激活系数的所述向量指示。
6.根据权利要求1到5中任一权利要求所述的方法,其中所述计算激活系数的所述向量包括最小化激活系数的所述向量的L1范数。
7.根据权利要求1到6中任一权利要求所述的方法,其中所述向量的所述激活系数的至少百分之五十为零值。
8.根据权利要求1到7中任一权利要求所述的方法,其中对于所述多个频率分量中的每一者,所述计算到达方向的所述对应指示是基于所述片段的对应信道之间的相位差和增益差当中的至少一者。
9.根据权利要求1到8中任一权利要求所述的方法,其中所述选定子集和所述第二子集的所述频率分量和声地相关。
10.根据权利要求1到9中任一权利要求所述的方法,其中所述方法包括基于来自所述所计算的向量的信息,通过从所述多信道音频信号的至少一个信道中减去所述多个基底函数当中的至少一者来产生残余信号。
11.根据权利要求1到10中任一权利要求所述的方法,其中所述多个基底函数中的每一者描述对应乐器在频率范围内的音色。
12.根据权利要求1到11中任一权利要求所述的方法,其中所述方法包括基于来自所述所计算的向量的信息,使用所述多个基底函数中的至少一者中的每一者来重构所述多信道信号的对应分量。
13.一种用于分解音频信号的设备,所述设备包括:
用于针对所述多信道音频信号的在时间片段中的多个频率分量中的每一者计算到达方向的对应指示的装置;
用于基于所述所计算的方向指示选择所述多个频率分量的子集的装置;以及
用于基于所述选定子集和多个基底函数计算激活系数的向量的装置,
其中所述向量的每一激活系数对应于所述多个基底函数中的不同基底函数。
14.根据权利要求13所述的设备,其中所述多个基底函数中的每一者包括(A)在频率范围内的第一对应信号表示,及(B)相对于所述第一对应信号表示延迟的在所述频率范围内的第二对应信号表示。
15.根据权利要求13和14中任一权利要求所述的设备,其中所述选择子集是基于对于所述多个频率分量中的每一者所述对应方向指示与所指定的方向之间的关系。
16.根据权利要求13到15中任一权利要求所述的设备,其中所述设备包括用于基于所述激活系数中的至少一者从所述片段的频率分量的第二子集中的每一者中减去能量以产生残余信号的装置,其中频率分量的所述第二子集不同于频率分量的所述选定子集。
17.根据权利要求16所述的设备,其中频率分量的所述第二子集是由至少一个基底函数确定,所述至少一个基底函数由激活系数的所述向量指示。
18.根据权利要求13到17中任一权利要求所述的设备,其中所述用于计算激活系数的所述向量的装置经配置以最小化激活系数的所述向量的L1范数。
19.根据权利要求13到18中任一权利要求所述的设备,其中所述向量的所述激活系数的至少百分之五十为零值。
20.根据权利要求13到19中任一权利要求所述的设备,其中对于所述多个频率分量中的每一者,所述计算到达方向的所述对应指示是基于所述片段的对应信道之间的相位差和增益差当中的至少一者。
21.根据权利要求13到20中任一权利要求所述的设备,其中所述选定子集和所述第二子集和声地相关。
22.根据权利要求13到21中任一权利要求所述的设备,其中所述设备包括用于基于来自所述所计算的向量的信息通过从所述多信道音频信号的至少一个信道中减去所述多个基底函数当中的至少一者而产生残余信号的装置。
23.根据权利要求13到22中任一权利要求所述的设备,其中所述多个基底函数中的每一者描述对应乐器在频率范围内的音色。
24.根据权利要求13到23中任一权利要求所述的设备,其中所述设备包括用于基于来自所述所计算的向量的信息使用所述多个基底函数中的至少一者中的每一者来重构所述多信道信号的对应分量的装置。
25.一种用于分解音频信号的设备,所述设备包括:
方向估计器,其经配置以针对多信道音频信号的在时间片段中的多个频率分量中的每一者,计算到达方向的对应指示;
滤波器,其经配置以基于所述所计算的方向指示选择所述多个频率分量的子集;以及
系数向量计算器,其经配置以基于所述选定子集和多个基底函数计算激活系数的向量,
其中所述向量的每一激活系数对应于所述多个基底函数中的不同基底函数。
26.根据权利要求25所述的设备,其中所述多个基底函数中的每一者包括(A)在频率范围内的第一对应信号表示,及(B)相对于所述第一对应信号表示延迟的在所述频率范围内的第二对应信号表示。
27.根据权利要求25和26中任一权利要求所述的设备,其中所述选择子集是基于对于所述多个频率分量中的每一者所述对应方向指示与所指定的方向之间的关系。
28.根据权利要求25到27中任一权利要求所述的设备,其中所述设备包括经配置以基于所述激活系数中的至少一者从所述片段的频率分量的第二子集中的每一者中减去能量以产生残余信号的残余计算器,其中频率分量的所述第二子集不同于频率分量的所述选定子集。
29.根据权利要求28所述的设备,其中频率分量的所述第二子集是由至少一个基底函数确定,所述至少一个基底函数由激活系数的所述向量指示。
30.根据权利要求25到29中任一权利要求所述的设备,其中所述系数向量计算器经配置以最小化激活系数的所述向量的L1范数。
31.根据权利要求25到30中任一权利要求所述的设备,其中所述向量的所述激活系数的至少百分之五十为零值。
32.根据权利要求25到31中任一权利要求所述的设备,其中对于所述多个频率分量中的每一者,所述计算到达方向的所述对应指示是基于所述片段的对应信道之间的相位差和增益差当中的至少一者。
33.根据权利要求25到32中任一权利要求所述的设备,其中所述选定子集和所述第二子集和声地相关。
34.根据权利要求25到33中任一权利要求所述的设备,其中所述设备包括经配置以基于来自所述所计算的向量的信息通过从所述多信道音频信号的至少一个信道中减去所述多个基底函数当中的至少一者而产生残余信号的残余计算器。
35.根据权利要求25到34中任一权利要求所述的设备,其中所述多个基底函数中的每一者描述对应乐器在频率范围内的音色。
36.根据权利要求25到35中任一权利要求所述的设备,其中所述设备包括经配置以基于来自所述所计算的向量的信息使用所述多个基底函数中的至少一者中的每一者来重构所述多信道信号的对应分量的播放模块。
37.一种机器可读存储媒体,所述机器可读存储媒体包括在由机器读取时致使所述机器执行根据权利要求1到12中任一权利要求所述的方法的有形特征。
CN201180051509.3A 2010-10-25 2011-10-25 用于分解多信道音频信号的方法和设备 Expired - Fee Related CN103189913B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US40656110P 2010-10-25 2010-10-25
US61/406,561 2010-10-25
US13/280,309 2011-10-24
US13/280,309 US9111526B2 (en) 2010-10-25 2011-10-24 Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
PCT/US2011/057723 WO2012058229A1 (en) 2010-10-25 2011-10-25 Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal

Publications (2)

Publication Number Publication Date
CN103189913A true CN103189913A (zh) 2013-07-03
CN103189913B CN103189913B (zh) 2015-02-11

Family

ID=44993887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180051509.3A Expired - Fee Related CN103189913B (zh) 2010-10-25 2011-10-25 用于分解多信道音频信号的方法和设备

Country Status (6)

Country Link
US (1) US9111526B2 (zh)
EP (1) EP2633524B1 (zh)
JP (1) JP5749346B2 (zh)
KR (1) KR101521368B1 (zh)
CN (1) CN103189913B (zh)
WO (1) WO2012058229A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134444A (zh) * 2014-07-11 2014-11-05 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN105580074A (zh) * 2013-09-24 2016-05-11 美国亚德诺半导体公司 音频信号的时频定向处理
CN110111773A (zh) * 2019-04-01 2019-08-09 华南理工大学 基于卷积神经网络的音乐信号多乐器识别方法
CN113808606A (zh) * 2021-09-18 2021-12-17 思必驰科技股份有限公司 语音信号处理方法和装置

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089390A1 (en) * 2010-08-27 2012-04-12 Smule, Inc. Pitch corrected vocal capture for telephony targets
US9689959B2 (en) * 2011-10-17 2017-06-27 Foundation de l'Institut de Recherche Idiap Method, apparatus and computer program product for determining the location of a plurality of speech sources
US9661413B2 (en) * 2011-12-16 2017-05-23 Avnera Corporation Acoustic layer in media device providing enhanced audio performance
US9729960B1 (en) 2011-12-16 2017-08-08 Avnera Corporation Audio layer in keyboard device providing enhanced audio performance
US9998819B2 (en) 2011-12-16 2018-06-12 Avnera Corporation Audio layer in keyboard device providing enhanced audio performance
US9305570B2 (en) 2012-06-13 2016-04-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9520141B2 (en) * 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
US10113870B2 (en) 2013-03-20 2018-10-30 Cognex Corporation Machine vision system for forming a digital representation of a low information content scene
US9453730B2 (en) * 2013-03-20 2016-09-27 Cognex Corporation Machine vision 3D line scan image acquisition and processing
MY173644A (en) * 2013-05-24 2020-02-13 Dolby Int Ab Audio encoder and decoder
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
WO2015029296A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
JP6106571B2 (ja) * 2013-10-16 2017-04-05 日本電信電話株式会社 音源位置推定装置、方法及びプログラム
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
US10650841B2 (en) * 2015-03-23 2020-05-12 Sony Corporation Sound source separation apparatus and method
US9883121B2 (en) 2016-01-15 2018-01-30 Cognex Corporation Machine vision system for forming a one dimensional digital representation of a low information content scene
WO2018055455A1 (en) * 2016-09-23 2018-03-29 Eventide Inc. Tonal/transient structural separation for audio effects
US9652692B1 (en) 2016-09-26 2017-05-16 Cognex Corporation Machine vision system for capturing a digital image of a sparsely illuminated scene
US11212637B2 (en) 2018-04-12 2021-12-28 Qualcomm Incorproated Complementary virtual audio generation
CN111816208B (zh) * 2020-06-17 2023-05-05 厦门快商通科技股份有限公司 一种语音分离质量评估方法、装置及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060277035A1 (en) * 2005-06-03 2006-12-07 Atsuo Hiroe Audio signal separation device and method thereof
CN101086846A (zh) * 2006-01-18 2007-12-12 索尼株式会社 语音信号分离设备和方法
CN101278337A (zh) * 2005-07-22 2008-10-01 索福特迈克斯有限公司 噪声环境中语音信号的健壮分离

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003093775A2 (en) 2002-05-03 2003-11-13 Harman International Industries, Incorporated Sound detection and localization system
US6993460B2 (en) 2003-03-28 2006-01-31 Harris Corporation Method and system for tracking eigenvalues of matrix pencils for signal enumeration
JP2004325127A (ja) 2003-04-22 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音源検出方法、音源分離方法、およびこれらを実施する装置
JP4247195B2 (ja) 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
JP5070873B2 (ja) 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
JP2008145610A (ja) 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US8831936B2 (en) 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
CN102138176B (zh) 2008-07-11 2013-11-06 日本电气株式会社 信号分析装置、信号控制装置及其方法
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
JP5405130B2 (ja) 2009-01-09 2014-02-05 クラリオン株式会社 音再生装置および音再生方法
JP2010193323A (ja) 2009-02-19 2010-09-02 Casio Hitachi Mobile Communications Co Ltd 録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060277035A1 (en) * 2005-06-03 2006-12-07 Atsuo Hiroe Audio signal separation device and method thereof
CN101278337A (zh) * 2005-07-22 2008-10-01 索福特迈克斯有限公司 噪声环境中语音信号的健壮分离
CN101086846A (zh) * 2006-01-18 2007-12-12 索尼株式会社 语音信号分离设备和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXEY OZEROV, ET AL.: "A General Modular Framework for Audio Source Separation", 《9TH INTERNATIONAL CONFERENCE ON LATENT VARIABLE ANALYSIS AND SIGNAL SEPARATION (LVA/ICA"10)2010》 *
JUAN JOSÉ BURRED: "Supervised Musical Source Separation from Mono and Stereo Mixtures based on Sinusoidal Modeling", 《URL:HTTP://WWW.JJBURRED.COM/RESEARCH/PDF/BURRED_TALK08_WEB.PDF》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105580074A (zh) * 2013-09-24 2016-05-11 美国亚德诺半导体公司 音频信号的时频定向处理
CN105580074B (zh) * 2013-09-24 2019-10-18 美国亚德诺半导体公司 信号处理系统和方法
CN104134444A (zh) * 2014-07-11 2014-11-05 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN104134444B (zh) * 2014-07-11 2017-03-15 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
CN110111773A (zh) * 2019-04-01 2019-08-09 华南理工大学 基于卷积神经网络的音乐信号多乐器识别方法
CN113808606A (zh) * 2021-09-18 2021-12-17 思必驰科技股份有限公司 语音信号处理方法和装置
CN113808606B (zh) * 2021-09-18 2023-06-23 思必驰科技股份有限公司 语音信号处理方法和装置

Also Published As

Publication number Publication date
WO2012058229A1 (en) 2012-05-03
KR20130108391A (ko) 2013-10-02
EP2633524A1 (en) 2013-09-04
US9111526B2 (en) 2015-08-18
EP2633524B1 (en) 2014-08-20
KR101521368B1 (ko) 2015-05-18
US20120128165A1 (en) 2012-05-24
CN103189913B (zh) 2015-02-11
JP5749346B2 (ja) 2015-07-15
JP2013545137A (ja) 2013-12-19

Similar Documents

Publication Publication Date Title
CN103189913B (zh) 用于分解多信道音频信号的方法和设备
CN103189915B (zh) 使用具有时间演化信息的基底函数来分解音乐信号
Cano et al. Musical source separation: An introduction
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
WO2005066927A1 (ja) 多重音信号解析方法
CN104246796A (zh) 使用多模匹配方案的对象辨识
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
Wu et al. Polyphonic pitch estimation and instrument identification by joint modeling of sustained and attack sounds
Durrieu et al. An iterative approach to monaural musical mixture de-soloing
Wang et al. Playing technique recognition by joint time–frequency scattering
Wu et al. Multipitch estimation by joint modeling of harmonic and transient sounds
Marolt Automatic transcription of bell chiming recordings
Cwitkowitz Jr End-to-End Music Transcription Using Fine-Tuned Variable-Q Filterbanks
Voinov et al. Implementation and Analysis of Algorithms for Pitch Estimation in Musical Fragments
US20230306943A1 (en) Vocal track removal by convolutional neural network embedded voice finger printing on standard arm embedded platform
Stöter Separation and Count Estimation for Audio Sources Overlapping in Time and Frequency
Reis Una aproximación genética a la transcripción automática de música
Wu Addressing the data challenge in automatic drum transcription with labeled and unlabeled data
Cobos et al. Blind estimation of reverberation time from monophonic instrument recordings based on non-negative matrix factorization
Mazhar et al. Automatic scoring of guitar chords
CN116403613A (zh) 基于bp神经网络模型的音乐主旋律识别方法及装置
Triki et al. Perceptually motivated quasi-periodic signal selection for polyphonic music transcription
Pinón Audio source separation for music in low-latency and high-latency scenarios
Tryfou Time-frequency reassignment for acoustic signal processing. From speech to singing voice applications
CN118248119A (zh) 歌唱合成优化方法、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150211

Termination date: 20201025