CN109997186B - 一种用于分类声环境的设备和方法 - Google Patents

一种用于分类声环境的设备和方法 Download PDF

Info

Publication number
CN109997186B
CN109997186B CN201680089170.9A CN201680089170A CN109997186B CN 109997186 B CN109997186 B CN 109997186B CN 201680089170 A CN201680089170 A CN 201680089170A CN 109997186 B CN109997186 B CN 109997186B
Authority
CN
China
Prior art keywords
band
attenuation rate
reverberation
sound signal
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680089170.9A
Other languages
English (en)
Other versions
CN109997186A (zh
Inventor
米洛斯·马尔科维奇
尤尔根·盖格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN109997186A publication Critical patent/CN109997186A/zh
Application granted granted Critical
Publication of CN109997186B publication Critical patent/CN109997186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种设备,配备输入端,用于接收从所述设备所在的声环境中捕获的声音信号。所述设备还包括信号处理器,用于从所述声音信号获取混响特征并根据所述混响特征将所述声环境分类为特定类型。所述设备还包括控制器,用于根据所述声环境的分类控制所述设备的操作。通过利用所述混响特征来分类环境,所述设备不依赖于在捕获所述声音信号时必须存在于环境中的特定类型的信号。环境的混响特征将通过从所述环境捕获的任何声音信号来体现。

Description

一种用于分类声环境的设备和方法
本发明涉及一种用于将设备所在的环境分类为特定类型的设备和方法。
声场景分类(Acoustic Scene Classification,简称ASC)这一术语描述的是旨在仅根据记录的声音识别环境类型的技术。这些声音可以是在特定环境中发生的声音和/或所述环境产生的声音。可以将ASC视为将语义标签与可识别特定环境的音频流相关联的任务。常用标签的示例包括汽车、办公室、街道、家、餐馆等。
ASC过程通常分为训练阶段和分类阶段。首先,使用从表示训练集中的特定声场景的每个音频实例获得的特征向量来训练统计模型,所述统计模型总结属于相同类别的声景的属性(如图1所示)。然后,分类阶段涉及从未知音频样本中提取相同的特征。根据统计模型和特征向量这两项的输入,未知音频样本被分类为最匹配的类别(如图2所示)。
ASC的一个重要部分是定义和提取音频特征,这些音频特征将信号表征为从特定环境获得的一种信号。当前最先进的ASC系统利用几类音频特征,包括频带能量特征、发声特征和检测到的事件,来分类记录的声音。这种方法的问题是它依赖于在正确的时间发出正确的声音。如果在录制时,通常在特定环境中发生的声音类型(声音事件)由于某种原因没有发生,或者被其它声音淹没,ASC过程可能会错误地分类环境。
本发明的目的在于提供一种能够更可靠地分类周围环境的概念。
上述及其它目的通过独立权利要求的特征来实现。根据从属权利要求、说明书以及附图,进一步的实现形式是显而易见的。
根据第一方面,提供了一种设备,所述设备具有用于接收从设备所在的声环境捕获的声音信号的输入端。所述设备还包括信号处理器,用于从声音信号获取混响特征(英文:reverberation signature)并根据所述混响特征将声环境分类为特定类型。还包括控制器,用于根据声环境的分类控制所述设备的操作。通过利用混响特征来分类环境,所述设备不依赖于在捕获声音信号时必须存在于环境中的特定类型的信号。环境的混响特性将通过从所述环境捕获的任何声音信号来体现。需要注意的是,不同的环境可能具有相同或几乎相同的混响特征。
所述信号处理器可用于通过确定声音信号体现的混响的多个不同测量值,从声音信号获取混响特征。所述信号处理器还可用于根据所述多个不同测量值对声环境进行分类。使用混响的多个测量值是有利的,因为混响特征中包含的混响测量值越多,归向所述环境的特征就更加明显。因此,使用混响的多个测量值往往会提高分类的准确性。
所述信号处理器可用于将声音信号转换至频域,以获得将声音信号表示为多个频谱分量的信号频谱,其中每个频谱分量包含在声音信号的多个频带的相应频带中。所述信号处理器还可用于确定以下一组中的至少一个混响测量值:声音信号的多个频带中的每个频带内的衰减率分布;声音信号的多个频带的衰减率分布;以及声音信号的多个频带中的不同频带内的衰减率分布的比率。所述信号处理器还可用于根据所确定的至少一个混响测量值获取混响特征。列出的三个混响测量值均提供有关环境混响特性的有用信息。每个测量值描述声环境混响特性的不同方面。不同的环境在频带内和频带上具有不同的衰减率分布。此外,不同环境的不同频带内衰减率分布的比率也不同。
所述信号处理器可用于将声音信号转换至频域,以获得将声音信号表示为多个频谱分量的信号频谱,其中每个频谱分量包含在声音信号的多个频带的相应频带中。所述信号处理器可用于识别每个频带的频谱分量中随时间流逝分布的一个或多个峰值。所述信号处理器还可用于计算与每个识别的峰值相关的衰减率(其中衰减率可适当地描述峰值之后的信号斜率)。所述信号处理器可用于根据计算的衰减率获取混响特征。在峰值处观察到的能量衰减通常总是与环境中的混响有关。因此根据能量衰减,可以实现更可靠的声环境分类。
所述信号处理器可用于计算每个频带在一段时间内的衰减率统计测量值(例如,平均值),来确定多个频带中的每个频带的频带特定的衰减率分布,其中所述衰减率与在相应频带中识别的峰值相关。所述信号处理器可用于根据频带特定的衰减率分布获取混响特征。频带特定的衰减率分布提供有关环境混响特性的详细信息。文献中有证据表明,根据环境的不同,不同频段的衰减率分布也有所不同。因此根据衰减率分布,可以实现更可靠的声环境分类。
所述信号处理器可用于通过计算以下一项或两项来确定多个频带的总体衰减率分布:(i)多个频带的频带特定的衰减率分布的平均值;及(ii)多个频带的频带特定的衰减率分布的偏斜度。所述信号处理器可用于根据多个频带的总体衰减率分布获取混响特征。这些测量值揭示了不同频带间衰减率分布的任何不对称性,这有助于分类,因为不同的环境往往表现出不同的不对称性。
所述信号处理器可用于确定频带特定的衰减率分布的多个比率,其中每个所述比率比较不同频带组合的频带特定的衰减率分布。所述比率提供有用的混响测量值,因为对于特定环境而言这些比率往往大不相同。这是由于不同环境中声音传播的物理属性导致的(例如,主导模式或高阶反射)。
所述信号处理器可用于确定频带特定的衰减率分布的低音比率,其中所述低音比率是指频谱中相对较低频带的至少一个频带特定的衰减率分布与频谱的中频带的至少一个频带特定的衰减率分布的比率。所述低音比率构成一对比率的一半,对于从不同声环境中捕获的信号而言所述一对比率通常不同。所述低音比率为信号频谱的较低部分提供这一特别的测量值。所述低音比率取决于声环境中主导模式的数量。
所述信号处理器可用于通过确定以下项的比率来确定低音比率:(i)频谱中两个相对较低频段的频带特定的衰减率分布的总和;及(ii)频谱中两个中频带的频带特定的衰减率分布的总和。对两个不同频带的频带特定的衰减率分布求和可提供比只使用一个频带时更具代表性的图片。
所述信号处理器可用于确定频带特定的衰减率分布的高音比率,其中所述高音比率是指频谱中相对较高频带的至少一个频带特定的衰减率分布与频谱的中频带的至少一个频带特定的衰减率分布的比率。所述高音比率构成一对比率的一半,对于从不同声环境中捕获的信号而言所述一对比率通常不同。所述高音比率为信号频谱的较高部分提供这一特别的测量值。所述高音比率取决于声环境中高阶反射的数量。
所述信号处理器可用于通过确定以下项的比率来确定高音比率:(i)频谱中两个相对较高频段的频带特定的衰减率分布的总和;及(ii)频谱中两个中频带的频带特定的衰减率分布的总和。对两个不同频带的频带特定的衰减率分布求和可提供比只使用一个频带时更具代表性的图片。
所述信号处理器可用于通过将声音信号的混响特征与一组预定义的混响特征进行比较来对声环境进行分类,其中每个预定义的混响特征都代表特定类型的声环境的典型混响特征。这为所述信号处理器提供了一种直接的机制,用于根据从声音信号中获得的混响特征来对环境进行分类。
所述控制器可用于根据声环境的分类来控制与声音信号处理无关的所述设备的操作。环境分类代表有关所述设备周围环境的有用信息,可以将其馈送到各种应用程序以增强用户体验。
根据第二方面,提供了一种方法,包括接收从设备所在的声环境中捕获的声音信号。所述方法包括从声音信号获取混响特征,并根据所述混响特征将声环境分类为特定类型。它还包括根据声环境的分类控制所述设备的操作。
根据第三方面,提供了一种非瞬时机器可读存储介质,其上存储有实现方法的处理器可执行指令。所述方法包括接收从设备所在的声环境中捕获的声音信号。所述方法包括从声音信号获取混响特征,并根据所述混响特征将声环境分类为特定类型。它还包括根据声环境的分类控制所述设备的操作。
现将参考附图通过实施例描述本发明。在附图中:
图1示出了声场景训练阶段的示例;
图2示出了声场景分类阶段的示例;
图3示出了根据本发明实施例的一种设备;
图4示出了根据本发明实施例的说明可由图3中的设备执行ASC过程的流程图;
图5和图6更详细地示出了根据本发明实施例获取混响特征的方法;
图7示出了根据本发明实施例的图3中的设备用于获取混响特征使用的不同参数的可能实现方式。
图3示出了根据本发明实施例的设备300。所述设备300包括输入端301、信号处理器302和控制器303。如图3所示,所述信号处理器302可以包括特征提取器304和分类器305。图4示出了所述设备操作的概览图。所述输入端301用于接收从所述设备所在的声环境中捕获的声音信号(步骤S401)。环境可以是封闭环境或开放环境。在大多数实施例中,声音信号可能是由麦克风捕获的信号,所述麦克风也构成所述设备的一部分。但是,也可能存在所述麦克风与所述设备分离并通过有线或无线连接将声音信号传送到所述设备这样的实现方式。所述信号处理器302,特别是所述特征提取器304,用于处理声音信号并从中获取混响特征(步骤S402)。然后,所述信号处理器302,特别是所述分类器305,根据混响特征将环境分类为特定类型(步骤S403)。所述分类器305可能通过将混响特征与一组预先确定且被选为特定环境的典型已知混响特征进行比较来实现这一目的。可以使用任何合适的技术来执行此比较,例如,模式识别。然后,所述控制器303根据环境分类控制所述设备行为的某些方面(步骤S404)。这可能涉及所述控制器直接控制所述设备中的其它功能块,或可能涉及所述控制器间接控制所述设备的其它功能块,例如,通过将指示环境分类的控制信号输出到所述设备中的其它控制单元。
所述设备300不限于任何特定类型或类别的设备。可以设想,本文描述的实施例最有可能由个人用户设备实施,例如智能可穿戴设备、移动电话、智能手机、笔记本电脑、平板电脑等。
图3示出了用图说明包括多个功能模块的所述设备300。在实践中,至少其中一些块可能使用软件实现。具体示例包括所述控制器303和所述信号处理器302。图3中所示的功能块可以由存储在非瞬时机器可读存储介质上的单个计算机程序来体现。在其它实施例中,图3中的一个或多个功能块可以由多个单独的计算机程序来体现。图3不意在规定软件中不同程序、过程或功能之间的严格划分。在一种实现方式中,所述信号处理器由数字信号处理器(Digital Signal Processor,简称DSP)实现,所述控制器由所述DSP或整个所述设备的集中处理器实现。
在其它实现方式中,图3中所示的部分或全部功能块可以全部或部分地以硬件的方式实现。具体地,本文描述的部分或全部信号处理操作可以全部或部分地采用硬件执行。这尤其适用于结合重复算术运算的技术,例如滤波与频率变换。
应当理解的是,此解释和所附权利要求指的是,所述设备通过执行某些步骤或程序或通过实施特定技术来执行某些操作,而这不会妨碍所述设备执行其它步骤或程序或者实施其它技术(作为同一流程的一部分)。换言之,在所述设备被描述为“通过”某些指定方法执行某些操作时,“通过”一词的意思是所述设备执行“包括”指定方法而不是“只包含”这些方法的流程。
混响是由声音信号从声源传播到麦克风时的多径传播引起的。每个环境都会表现出某种形式的混响。它是环境的声品质,经过它的每个声音信号都会留下它的痕迹。因此,混响特征捕获声环境本身的特性。它可以从任何声音信号中获得。因此,基于混响的ASC技术是有利的,因为这种技术可以使用在环境中捕获的任何声音信号来工作,而不管所述声音信号是否是所述环境的典型声音信号。
虽然混响特征不是特定环境独有的,但是它可用来指示特定环境。可以从在不同类型的环境中捕获的声音信号获得相同的混响特征,因此所述不同类型的环境属于不同的语义标签。从不同环境获得的混响特征之间的相似性可以取决于使用的混响测量值。在下面描述的一些示例中,信号处理器302确定在单个声音信号中体现的多个不同的混响测量。通常,使用的混响测量越多,每个混响特征就越明显,也就可以更可靠地将一个环境的混响特征与其它环境的混响特征区分开。
在对环境进行分类时,混响特征可以与从声音信号获得的其它信息相结合。混响特征还可以与所述设备通过内部装置(例如,通过所述设备中的一个或多个传感器)或通过外部装置(例如,通过从附近的另一台设备接收的信息)收集的有关所述设备周围环境的其它信息相结合。所述其它信息也可以纳入环境分类流程。例如,可以将来自指示所述设备正在移动的移动传感器的信息或来自指示所述设备位于室内的温度传感器的信息馈送到分类流程中。
图4所示的流程可帮助设备搞清它们的环境。设备可以通过多种方式使用环境分类。其中许多与声音信号或这些信号的处理方式无关。将环境分类提供给在所述设备上运行的其它应用程序会很有益。在一示例中,所述设备(更具体地,所述控制器303)可以使用环境分类来为用户提供智能个人协助。例如,如果所述设备确定进入了商店,则它可能显示购物清单。在另一示例中,所述设备可以根据环境分类确定它应根据特定使用场景进行操作。例如,所述设备可以调节其铃声的音量。例如,与当所述设备确定它在汽车中时相比,不同的音量适合用于会议场景。公共交通和私人交通也可能适合使用不同的音量。
图5示出了可以使用所述信号处理器302执行来获取混响特征的ASC技术的图形概览。使用自上而下的方法更加详细地说明所述技术。
级别1:在最一般级别上,所述技术涉及从音频录制中提取基于混响的特征。可以使用衰减率分布(Decay Rate Distribution,简称DRD)特征提取算法实现此目的。下文将介绍这种算法的示例。所述方法适用于单或多声道音频录制(前面提到的音频信号)。其结果是可以用于计算音频场景分析的特征向量。
级别2:所述DRD特征提取算法包含三个主要步骤。首先,音频录制被转换为合适的频率表示。换言之,声音信号转换至频域,以获得将声音信号表示为多个频谱分量的信号频谱,其中每个频谱分量包含在声音信号的多个频带的相应频带中。其次,会应用峰值检测算法,以便根据每个频带的频谱分量中的预定义级别阈值来检测相关峰值。最后,计算每个检测到的峰值的衰减率。此外,还会对确定的衰减率应用统计模型。其结果是从音频录制中自动提取衰减率统计数据。
级别3:例如,可以通过将音频信号转换为对数幅度频谱表示来将音频信号转换为频域,然后利用滤波器组对所述频域进行处理,以便可以在多个频带中对其进行分析。此外,在每个频带中检测到峰值之后(如级别2中所述),获取预定义时窗内每个峰值的衰减,以便确定每个峰值的衰减率(或者也称为斜率)。对分布在不同频带的衰减率应用统计模型。
级别4:与每个频带随时间的衰减率分布有关的统计提供音频录制特征向量的第一部分。或者换言之,所述信号处理器302用于通过计算每个频带在一段时间内(上面提到的时窗)的衰减率统计测量值,来确定多个频带中的每个频带的频带特定的衰减率分布,其中所述衰减率与在相应频带中识别的峰值相关;多个频带的衰减率分布提供所述特征向量的第二部分。或者换言之,所述信号处理器进一步用于确定所述多个频带的总体衰减率分布。可通过计算以下一项或两项实现这一目的:(i)多个频带的频带特定的衰减率分布的平均值;及(ii)多个频带的频带特定的衰减率分布的偏斜度。
级别5:通过组合不同频带的衰减率分布统计数据来获取所述特征向量的第三部分。例如,所述信号处理器302可用于确定频带特定的衰减率分布的多个比率,其中每个所述比率比较不同频带组合的频带特定的衰减率分布。
所确定的多个比率,频带特定的衰减率分布和总体衰减率分布共同构成所提到的混响特征。在更简单的实施例中,只需一个或两个这些提到的测量值就可构成混响特征。
图6示出了所述信号处理器302可以使用的DRD特征提取算法的更详细概览图。在该示例中,混响特征由具有上述三个关键成分的所谓“最终特征向量”体现:频带特定的衰减率分布;总体衰减率分布;以及不同频带的频带特定的衰减率分布的一个或多个比率。
音频信号先变换至频域。所述变换使用短时傅里叶变换(Short Term FourierTransform,简称STFT)算法适当地执行。STFT是傅里叶相关的变换,用于确定信号随时间变化时其局部部分的正弦频率和相含量。可以通过将音频信号分成相等长度的短段,然后分别对每个短段计算傅里叶变换来计算STFT。其结果是音频信号的每个短段的傅立叶频谱,为所述信号处理器提供作为时间函数的音频信号的变化频谱。因此,每个频谱分量均具有幅度和时间广度。
计算得到的STFT频谱的幅度的对数,以便获得音频信号的对数幅度频谱表示。通过应用梅尔滤波器组,宽带频谱也被适当地变换为感知量度。也可以应用其它类型的滤波器组,例如倍频程、等效矩形带宽带等。其结果是多个频带的对数幅度频谱。频带的数量,也就是频谱分量的数量表示为Nb
如前所述,所述信号处理器302使用峰值检测算法分析对数幅度频谱。可以使用任何合适的算法。在一示例中,根据预定义的阈值检测频谱分量的峰值,所述阈值表示所述频谱分量中感兴趣样本的幅度与(时域内)相邻样本的幅度之差。扫过信号的整个长度,获得满足阈值条件的峰值。通过对从峰值样本开始并在某个预定义的时间段之后结束的点集应用线性最小二乘拟合算法来计算每个检测到的峰值的斜率。计算得到的斜率定义每个峰值的衰减率。衰减率的数量(与检测到的峰值的数量相同,Np(j))通常在频带之间各不相同。相应频带内的峰值衰减率定义每个频带的向量(Dj),其中j=(1,2,...,Nb)。每个峰值对应于能量的短最大值(英文:a short maximum in energy),因此峰值后紧跟的信号对应于能量衰减(混响),其取决于环境的声学特性。使用斜率拟合,所述信号处理器以衰减率的形式捕获音频信号体现的混响特性。
每个频带内的衰减率分布可以由所述信号处理器302通过平均值(mt)等确定,如等式1所示:
Figure GDA0001990997170000061
其结果是,长度等于频带数(Nb)的向量Mt,其中每个向量元素mt(j)表示相应频带内随时间的衰减速率分布的平均值。这里使用平均值作为众所周知的统计描述符,以便表征衰减率随时间的分布。因此,它表示声音信号在一段时间内的衰减率统计测量值。还可以应用任何其它合适的统计参数代替平均值来获取有关衰减率群的信息。其它合适的示例包括中值、模式、方差等。前面已经提到,包括频带特定的衰减率分布的所得向量Mt用作构成混响特征的最终特征向量的第一部分。
构成混响特征的最终特征向量的第二部分从频带特定的衰减率分布获得。为此,计算包括在第一个分布计算步骤中获得的频带特定的衰减率的向量Mt的平均值(mb)和偏斜度(sb):
mb=mean(Mt) (2)
sb=skewness(Mt) (3)
偏斜度参数探究所有频带的衰减率分布的任何不对称性。不同声环境的衰减率在频带上可以表现出不同的分布不对称性。例如,根据环境的不同,不同的声环境可以或多或少地偏向低频或高频。
构成混响特征的最终特征向量的第三部分被创建为最终特征向量的第一部分的元素的函数。这些是在第一个分布计算步骤中获得的元素,即,每个频带和随时间的衰减率的统计测量值。在图6的示例中,根据不同频段的随时间的两个不同衰减率比率构成最终特征向量的第三部分。
定义相对较低频带和中频带之间的衰减率分布的比率的函数的示例是低音比率(bass ratio,简称BR)。定义相对较高频带和中频带之间的衰减率分布的比率的函数的示例是高音比率(treble ratio,简称TR)。这两个比率的示例分别在等式4和5中定义,其中两个相对较低频带被选择为具有125Hz和250Hz中心频率,两个中频带被选择为具有500Hz和1kHz中心频率,两个相对较高频带被选择为具有2kHz和4kHz中心频率:
Figure GDA0001990997170000071
Figure GDA0001990997170000072
这些比率揭示了声环境之间的进一步差异。不同的声环境通常表现出不同的低中频带衰减率和高中频带衰减率的比率。
中频带是处于被分析声音信号的整个频率范围的中间附近的频带。中频带通常介于500Hz和2kHz(含)之间。在BR和TR比率中与中频带相比较的高频带和低频带,被称为“相对”较高频带和较低频带,因为它们:(i)分别高于或低于中频频段;及(ii)分别朝向被分析声音信号的整个频率范围的高端或低端。因此,根据一些客观测量,这些频带在被分析声音信号的上下文中相对较“高”或“低”,而不一定是“高”或“低”频率。通常,相对较高频带将等于或大于2kHz,相对较低频带将等于或低于300Hz。
模拟结果
上述特征提取算法已在软件中实现,并且已对从不同声环境中捕获的声音信号的数据库进行测试。所述算法使用机器学习算法的支持向量机(Support Vector Machine,简称SVM)类实现。图7提供了这种实现方式的技术细节。
通过应用窗口长度为1024点和跳尺寸为256点的STFT来获取每个音频文件的对数幅度频谱表示。使用频率点为2048的分辨率计算频谱。使用基于26梅尔频带和0至8kHz频率范围的感知滤波器组将频谱分成26个频带。对于每个频带,应用幅度阈值为10dB的峰值检测算法。对于每个峰值,对从峰值开始延伸到5ms时间窗口结束的一组连续点使用线性最小二乘拟合执行线性回归。这使得可以计算每个峰值的拟合线的斜率。所述斜率被视为所述峰值的衰减率。
通过计算每个频带的衰减率随时间的平均值来获取最终特征向量的第一部分。所述特征向量的所述第一部分由26个值组成。每个值表示26个频带中每个频带的衰减率分布(随时间的平均衰减率)。使用平均值和偏斜度对这26个值进行统计分析,以创建最终特征向量的第二部分。最后,通过根据等式4和5计算BR和TR获得最终特征向量的第三部分。在此示例中,第2频带和第3频带被选择作为相对较低频带,第12频带和第13频带被选择作为中频带,第24频带和第25频带被选择作为相对较高频带。
最终特征向量有30个元素:26个频带特定的衰减率分布、2个总体衰减率分布测量值和2个比率。然后,将最终特征向量与基线特征集组合,并将得到的特征向量与SVM分类器一起用于ASC目的。
为了展示本发明实施例的优势以及验证所提出的混响特征对声场景分类有用,使用不同的声场景数据库进行了实验。使用一组训练声音信号训练场景模型。使用图7所示的流程从训练集中的每个信号提取混响特征。然后,使用所有类信号的平均准确率作为客观的性能测量,在独立测试集中评估此流程的性能。
其中一个测试集是公开可用的数据库D-CASE 16。此数据库包含15种不同类声环境的录音,包括:湖畔海滩、公共汽车、咖啡馆/餐厅、汽车、市中心、林间小路、杂货店、家、图书馆、地铁站、办公室、城市公园、住宅区、火车和电车。使用高质量的双耳麦克风对每种环境进行录音。录音被拆分成30秒的段,每个场景有78个段。训练和测试录音进一步被分成4秒的段,并重叠2秒。
基线系统使用线性SVM核与训练成对SVM分类器。通过30秒的段做出分类决定。按照开发集的正式协议,使用4折交叉验证评估系统。对于测试集录音,使用对总时长为30秒的段的所有可用窗口的多数投票。
作为基线特征集,使用平均值和标准偏差作为函数的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)(20个系数,+deltas和delta-deltas)(在4秒窗口内)。这产生了120个特征。
公共基线系统使用具有框架式MFCC特征的GMM分类器。它的准确率达到71.3%。表1汇总了实验结果。
表1:各种特征集的D-CASE 16数据集的声场景分类准确率
特征 N<sub>f</sub> 平均准确率
MFCC 120 75.9
MFCC+DRD 150 77.8
同样,将DRD特征添加到基线MFCC特征提高了分类器的准确率。结果表明,DRD特征对基线特征集起补充作用,有助于提高ASC系统的准确率。
由于算法复杂度低,并且可以实时执行,因此DRD特征集的计算很快。与基线特征集相比,其特征数较少,这有助于将分类器的复杂度保持在较低程度。
因此,通过实验证明了将混响特征结合到ASC中的优势。具体地,混响特征实现了以下好处:
·准确率:通过将混响特征结合到特征集中,当与传统系统相比时,ASC系统的准确率得以提高;
·计算速度:混响特征提取足够快,可以实现实时场景分类;
·复杂度:利用有限数量的特征取得了高准确率,这有助于提高ASC流程的总体计算速度。
申请人在此独立地公开了本文所述的每个单个特征以及两个或多个所述特征的任何组合,只要所述特征或组合能够根据本领域技术人员的的公知常识基于本说明书作为整体实施,而不管所述特征或特征的组合是否解决了本文公开的任何问题,而且不限于权利要求的范围。申请人指出本发明的各方面可以包括任何所述的单个特征或特征的组合。基于前面的描述,对于本领域技术人员显而易见的是,可以在本发明的范围内进行各种修改。

Claims (19)

1.一种声音信号处理设备(300),其特征在于,包括:
输入端(301),用于接收从所述设备所在的声环境中捕获的声音信号;
信号处理器(302),用于从所述声音信号获取混响特征并根据所述混响特征将所述声环境分类为特定类型;
控制器(303),用于根据所述声环境的分类控制所述设备的操作;
所述信号处理器(302)用于:
将所述声音信号转换至频域,以获得将所述声音信号表示为多个频谱分量的信号频谱,其中每个频谱分量包含在所述声音信号的多个频带的相应频带中;
识别每个频带的所述频谱分量中的一个或多个峰值;
计算与每个识别的峰值相关的衰减率;
根据所述计算得到的衰减率获取所述混响特征。
2.根据权利要求1所述的设备(300),其特征在于,所述信号处理器(302)用于:
通过确定所述声音信号体现的混响的多个不同测量值,从所述声音信号获取所述混响特征;
根据所述的多个不同测量值对所述声环境进行分类。
3.根据权利要求1或2所述的设备(300),其特征在于,所述信号处理器(302)用于:
通过计算每个频带在一段时间内的衰减率统计测量值,来确定所述多个频带中的每个频带的频带特定的衰减率分布,其中所述衰减率与在相应频带中识别的峰值相关;
根据所述频带特定的衰减率分布,获取所述混响特征。
4.根据权利要求3所述的设备(300),其特征在于,所述信号处理器(302)用于:
通过计算以下一项或两项来确定所述多个频带的总体衰减率分布:(i)所述多个频带的频带特定的衰减率分布的平均值;及(ii)所述多个频带的频带特定的衰减率分布的偏斜度;
根据所述多个频带的总体衰减率分布,获取所述混响特征。
5.根据权利要求3所述的设备(300),其特征在于,所述信号处理器(302)用于确定所述频带特定的衰减率分布的多个比率,其中每个所述比率比较不同频带组合的所述频带特定的衰减率分布。
6.根据权利要求4所述的设备(300),其特征在于,所述信号处理器(302)用于确定所述频带特定的衰减率分布的多个比率,其中每个所述比率比较不同频带组合的所述频带特定的衰减率分布。
7.根据权利要求6所述的设备(300),其特征在于,所述信号处理器(302)用于确定所述频带特定的衰减率分布的低音比率,其中所述低音比率是指频谱中低频带的至少一个频带特定的衰减率分布与频谱的中频带的至少一个频带特定的衰减率分布的比率。
8.根据权利要求5所述的设备(300),其特征在于,所述信号处理器(302)用于确定所述频带特定的衰减率分布的低音比率,其中所述低音比率是指频谱中低频带的至少一个频带特定的衰减率分布与频谱的中频带的至少一个频带特定的衰减率分布的比率。
9.根据权利要求8所述的设备(300),其特征在于,所述信号处理器(302)用于确定以下项的比率来确定低音比率:(i)所述频谱中两个低频段的所述频带特定的衰减率分布的总和;及(ii)所述频谱中两个中频带的所述频带特定的衰减率分布的总和。
10.根据权利要求7所述的设备(300),其特征在于,所述信号处理器(302)用于确定所述频带特定的衰减率分布的高音比率,其中所述高音比率是指频谱中高频带的至少一个频带特定的衰减率分布与频谱的中频带的至少一个频带特定的衰减率分布的比率。
11.根据权利要求10所述的设备(300),其特征在于,所述信号处理器(302)用于确定以下项的比率来确定高音比率:(i)所述频谱中两个高频段的所述频带特定的衰减率分布的总和;及(ii)所述频谱中两个中频带的所述频带特定的衰减率分布的总和。
12.根据权利要求1或2所述的设备(300),其特征在于,所述信号处理器(302)用于通过将所述声音信号的所述混响特征与一组预定义的混响特征进行比较来对所述声环境进行分类,其中每个预定义的混响特征代表特定类型的声环境的典型混响特征。
13.根据权利要求1或2所述的设备(300),其特征在于,所述控制器(303)用于根据所述声环境的分类来控制与处理声音信号无关的设备的操作。
14.一种声音信号处理方法,其特征在于,包括:
接收从设备(300)所在的声环境中捕获的声音信号(S401);
从所述声音信号获取混响特征(S402),并根据所述混响特征将所述声环境分类为特定类型(S403);
根据所述声环境的分类控制所述设备(300)的操作(S404);
其中,
所述从所述声音信号获取所述混响特征,包括:
将所述声音信号转换至频域,以获得将所述声音信号表示为多个频谱分量的信号频谱,其中每个频谱分量包含在所述声音信号的多个频带的相应频带中;
识别每个频带的所述频谱分量中的一个或多个峰值;
计算与每个识别的峰值相关的衰减率;
根据所述计算得到的衰减率获取所述混响特征。
15.根据权利要求14所述的方法,其特征在于,所述从所述声音信号获取混响特征(S402),并根据所述混响特征将所述声环境分类为特定类型(S403),包括:
通过确定所述声音信号体现的混响的多个不同测量值,从所述声音信号获取所述混响特征;
根据所述的多个不同测量值对所述声环境进行分类。
16.根据权利要求14或15所述的方法,其特征在于,所述根据所述计算得到的衰减率获取所述混响特征,包括:
通过计算每个频带在一段时间内的衰减率统计测量值,来确定所述多个频带中的每个频带的频带特定的衰减率分布,其中所述衰减率与在相应频带中识别的峰值相关;
根据所述频带特定的衰减率分布,获取所述混响特征。
17.根据权利要求16所述的方法,其特征在于,所述根据所述频带特定的衰减率分布,获取所述混响特征,包括:
通过计算以下一项或两项来确定所述多个频带的总体衰减率分布:(i)所述多个频带的频带特定的衰减率分布的平均值;及(ii)所述多个频带的频带特定的衰减率分布的偏斜度;
根据所述多个频带的总体衰减率分布,获取所述混响特征。
18.根据权利要求15所述的方法,其特征在于,所述对所述声环境进行分类,包括:
通过将所述声音信号的所述混响特征与一组预定义的混响特征进行比较来对所述声环境进行分类,其中每个预定义的混响特征代表特定类型的声环境的典型混响特征。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括程序代码,当在计算机上执行时,所述程序代码用于执行根据权利要求14至18任一项所述的方法。
CN201680089170.9A 2016-09-09 2016-09-09 一种用于分类声环境的设备和方法 Active CN109997186B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/071272 WO2018046088A1 (en) 2016-09-09 2016-09-09 A device and method for classifying an acoustic environment

Publications (2)

Publication Number Publication Date
CN109997186A CN109997186A (zh) 2019-07-09
CN109997186B true CN109997186B (zh) 2021-10-15

Family

ID=56889086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680089170.9A Active CN109997186B (zh) 2016-09-09 2016-09-09 一种用于分类声环境的设备和方法

Country Status (4)

Country Link
US (1) US10665248B2 (zh)
EP (1) EP3504708B1 (zh)
CN (1) CN109997186B (zh)
WO (1) WO2018046088A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10943602B2 (en) * 2019-01-07 2021-03-09 Stmicroelectronics International N.V. Open vs enclosed spatial environment classification for a mobile or wearable device using microphone and deep learning method
CN111489760B (zh) * 2020-04-01 2023-05-16 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
US20220164662A1 (en) * 2020-11-24 2022-05-26 Qualcomm Incorporated Context-based model selection
KR102626550B1 (ko) * 2021-03-25 2024-01-18 국민대학교산학협력단 딥러닝 기반 환경 사운드 분류 방법 및 장치
CN113724720B (zh) * 2021-07-19 2023-07-11 电信科学技术第五研究所有限公司 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715372A (en) 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
US5918223A (en) 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
FI19992350A (fi) 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Parannettu puheentunnistus
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
AU2002346116A1 (en) 2001-07-20 2003-03-03 Gracenote, Inc. Automatic identification of sound recordings
US7158931B2 (en) 2002-01-28 2007-01-02 Phonak Ag Method for identifying a momentary acoustic scene, use of the method and hearing device
US7245767B2 (en) 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
US7516074B2 (en) 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
WO2013159809A1 (en) * 2012-04-24 2013-10-31 Phonak Ag Method of controlling a hearing instrument
US9449613B2 (en) * 2012-12-06 2016-09-20 Audeme Llc Room identification using acoustic features in a recording
EP2959939A3 (en) * 2014-06-26 2016-04-13 Oticon Medical A/S A hearing assistance device comprising an implantable part

Also Published As

Publication number Publication date
EP3504708B1 (en) 2020-07-15
EP3504708A1 (en) 2019-07-03
CN109997186A (zh) 2019-07-09
US20190206418A1 (en) 2019-07-04
WO2018046088A1 (en) 2018-03-15
US10665248B2 (en) 2020-05-26

Similar Documents

Publication Publication Date Title
CN109997186B (zh) 一种用于分类声环境的设备和方法
Foggia et al. Reliable detection of audio events in highly noisy environments
Valero et al. Gammatone cepstral coefficients: Biologically inspired features for non-speech audio classification
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
US10242677B2 (en) Speaker dependent voiced sound pattern detection thresholds
US9959886B2 (en) Spectral comb voice activity detection
US20150228277A1 (en) Voiced Sound Pattern Detection
CN106251874A (zh) 一种语音门禁和安静环境监控方法及系统
Zhao et al. Audio splicing detection and localization using environmental signature
Jia et al. SoundLoc: Accurate room-level indoor localization using acoustic signatures
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
Jaafar et al. Automatic syllables segmentation for frog identification system
May et al. Computational speech segregation based on an auditory-inspired modulation analysis
Sharma et al. Two-stage supervised learning-based method to detect screams and cries in urban environments
Zhao et al. Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification
Poorjam et al. A parametric approach for classification of distortions in pathological voices
WO2018001125A1 (zh) 一种音频识别方法和装置
Krijnders et al. Tone-fit and MFCC scene classification compared to human recognition
JP2004325127A (ja) 音源検出方法、音源分離方法、およびこれらを実施する装置
CN112992175B (zh) 一种语音区分方法及其语音记录装置
Dov et al. Voice activity detection in presence of transients using the scattering transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant