CN107945816A - 用于音频帧处理的设备和方法 - Google Patents
用于音频帧处理的设备和方法 Download PDFInfo
- Publication number
- CN107945816A CN107945816A CN201710951055.4A CN201710951055A CN107945816A CN 107945816 A CN107945816 A CN 107945816A CN 201710951055 A CN201710951055 A CN 201710951055A CN 107945816 A CN107945816 A CN 107945816A
- Authority
- CN
- China
- Prior art keywords
- energy
- single order
- scattering signatures
- audio
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 title claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 27
- 239000006185 dispersion Substances 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
一种用于计算用于音频信号识别的散射特征的设备(200)和方法。接口(240)接收通过处理器(210)处理(S610)的音频信号,以获得音频帧。处理器(210)根据至少一个音频帧计算(S620)一阶散射特征,然后针对一阶散射特征计算(S630)一阶散射特征是否包括用于精确的音频信号识别的足够信息的估计。仅在一阶散射特征不包括用于准确的音频信号识别的足够信息的情况下,处理器(240)根据一阶散射特征计算(S650)二阶散射特征。由于仅当认为必要时才计算二阶特征,所以该设备可以使用更少的处理能力,这能够导致设备使用的功率更少。
Description
技术领域
本公开总体涉及音频识别,特别地涉及音频识别特征的计算。
背景技术
本部分是为了向读者介绍可能与下文所述的和/或所要求保护的本公开各个方面相关的现有技术的各方面。相信该讨论有助于向读者提供背景信息以便于更好地理解本公开的各个方面。因此,应当理解:这些陈述应按这种方式解读,而不是作为对现有技术的承认。
音频(声学的,声音)识别由于其是相对非侵入性的而特别适用于监测人类活动,不需要除了麦克风之外的其它检测器,并且是相对精确的。然而,为了成功经常需要密集的计算操作,这也是一项具有挑战性的任务。
图1示出了一般常规的音频分类处理流程100,所述音频分类处理流程100包括:音频传感器110,捕获原始音频信号;预处理模块120,为特征提取模块130准备所捕获到的音频;特征提取模块130,向分类器模块140输出所提取到的特征(即,标志系数);分类器模块140,使用音频数据库150中的条目来标记随后被输出的音频。
用户接受音频识别的主要约束是保护隐私。因此,音频处理应当优选地在本地执行,而不是使用云服务。因此,CPU消耗和在某些情况下的电池寿命可能是在便携式设备中部署此类服务的严重限制。
相反的约束是技术性的:许多不同的音频事件具有非常相似的特性,这些特性需要繁琐的处理能力来提取使得能够区分这些音频事件的特征。可以通过利用音频信号的精细时频特性来增强识别,然而,这增加了计算成本。实际上,在构成音频识别的功能中,特征提取是最苛刻的。特征提取与每音频帧(缓冲区)的某些标志系数的计算相对应,每音频帧的某些标志系数表征随时间、频率或两者而变化的音频信号。
特别地,Andén和Mallat已经提供了能够实现高识别精度的音频识别的有效系数,参见
●J.Andén and S.Mallat:“Multiscale Scattering for AudioClassification.”ISMIR-International Society for Music Information Retrievalconference.2011.(J.Andén和S.Mallat,“音频分类的多尺度散射”,ISMIR-国际音乐信息检索学会会议,2011)
●J.Andén and S.Mallat:“Deep Scattering Spectrum”,IEEE Transactionson Signal Processing,2014.(J.Andén和S.Mallat,“深散射谱”,IEEE信号处理学报,2014)
他们的方法在理论和经验上被证明优于通常用于声学分类的基线方法,例如梅尔频率倒频谱系数(MFCC),参见P.Atrey,M.Namunu,and K.Mohan,“Audio based eventdetection for multimedia surveillance”ICASSP-IEEE International Conference onAcoustics,Speech and Signal Processing,2006.(P.Atrey,M.Namunu和K.Mohan,“用于多媒体监控的基于音频的事件检测”,ICASSP-IEEE国际声学、语音和信号处理会议,2006)和D.Stowell,D.Giannoulis,E.Benetos,M.Lagrange and M.Plumbley,“Detection andclassification of acoustic scenes and events”IEEE Transactions on Multimedia,2015.(D.Stowell,D.Giannoulis,E.Benetos,M.Lagrange和M.Plumbley.“声场和事件的检测和分类”,IEEE多媒体学报,2015)。
他们的方法包括计算散射特征。首先,从所捕获到的原始音频信号中获得由x表示的帧(固定持续时间的音频缓冲区)。利用复小波滤波器组来卷积该帧,所述复小波滤波器组包括带通滤波器ψλ(λ表示给定滤波器的中心频率指数)和低通滤波器φ,被设计为覆盖整个频谱。然后,应用模运算符(|·|),其将能量推向较低的频率[参见S.Mallat:“Groupinvariant scattering.”Communications on Pure and Applied Mathematics,2012(S.Mallat,“组不变散射”,纯数学与应用数学通讯,2012)]。在应用模运算符之后获得的所生成的系数的集合的低通部分被存储,并且被标记为“0阶”散射特征(S0)。为了计算更高的“散射阶数”系数(S1,S2,...),递归地对由带通滤波器生成的系数的所有剩余序列应用这些操作。这有效地产生了树状表示,如图4的“深散射谱”所示。可以看出,随着散射阶数的增加,计算成本快速增长。换句话说,该方法的辨别力通常随散射阶数的增加而增加。虽然更高的散射阶数通常导致更好的分类,但是也需要更详尽的特征计算,并且因此导致更重的计算负荷,这在某些情况下导致更高的电池消耗。
应当理解,希望有解决常规解决方案的缺点中的至少一些的解决方案。本原理提供了这种解决方案。
发明内容
在第一方面中,本原理涉及一种用于计算用于音频信号识别的散射特征的设备。该设备包括:接口,被配置为接收音频信号;以及处理器,被配置为处理音频信号以获得音频帧,根据至少一个音频帧计算一阶散射特征,并且仅在具有最高能量的n个第一阶散射特征中的能量低于阈值的情况下,根据一阶散射特征计算二阶散射特征,其中n是整数。
第一方面的各种实施例包括:
●处理器还被配置为:在具有最高能量的n个一阶散射特征中的能量高于阈值的情况下,仅基于一阶散射特征执行音频分类。在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下,处理器可以基于一阶散射特征和至少二阶散射特征执行音频分类。
●在具有最高归一化能量的n个一阶散射特征的归一化能量之和高于第二阈值的情况下,所述能量高于阈值。第二阈值的最低可能值可以是0,并且最高可能值可以是1,并且第二阈值可以介于0.7和0.9之间。
●处理器被配置为迭代地根据低一阶散射系数计算更高阶散射系数,直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。
在第二方面中,本原理涉及一种用于计算用于音频信号识别的散射特征的方法。处理器处理所接收到的音频信号以获得至少一个音频帧,根据至少一个音频帧计算一阶散射特征,并且仅在具有最高能量的n个第一阶散射特征中的能量低于阈值的情况下,根据一阶散射特征计算二阶散射特征,其中n是整数。
第二方面的各种实施例包括:
●在具有最高能量的n个一阶散射特征中的能量高于阈值的情况下,处理器仅基于一阶散射特征执行音频分类。在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下,处理器可以基于一阶散射特征和至少二阶散射特征执行音频分类。
●在具有最高归一化能量的n个一阶散射特征的归一化能量之和高于第二阈值的情况下,所述能量高于阈值。第二阈值的最低可能值可以是0,并且最高可能值可以是1,并且第二阈值可以介于0.7和0.9之间。
●处理器迭代地根据低一阶散射系数计算更高阶散射系数,直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。
附图说明
现在将参考附图通过非限制性示例来描述本原理的优选特征,在附图中:
图1示出了一般的常规音频分类处理流程;
图2示出了根据本原理的用于音频识别的设备;
图3示出了本原理的声学分类处理流程的特征提取模块;
图4示出了示例性一阶系数的相关性图;
图5示出了示例性能的精度/召回曲线(recall curve);以及
图6示出了根据本原理的音频识别的方法的流程图。
具体实施方式
支持本原理的构思是通过包括自适应于音频信号的时变特性的特征提取模块来自适应地降低音频事件识别的计算复杂度,音频信号的时变特性是在音轨的固定帧上计算的,并且表示对给定的散射特征的集的分类性能中的教义(belief)的分类器独立估计。通过使用度量,可以优化散射变换的阶数。
本原理优选地将上文所述的“散射变换”用作为有效的特征提取器。如图2的“Multiscale Scattering for Audio Classification,”(“音频分类的多尺度散射”)所示,根据散射变换计算出的一阶散射特征与传统的MFCC特征非常相似。然而,对于由二阶系数丰富的散射特征,分类误差可以显著降低。使用更高阶散射变换的优点在于能够恢复通过MFCC计算而平均出来的声信号的缺失快速时间变化。例如,如“Multiscale Scatteringfor Audio Classification,”(“音频分类的多尺度散射”)所述,(丰富的)二阶散射特征的辨别力来自于这样的事实:与仅与高达二阶矩相关的一阶系数相反,二阶散射特征依赖于更高阶统计矩(高达第4阶)。然而,即使利用较低阶的散射变换也可以很好地表示一些类型的信号,这被假定为是这些信号的主低带宽内容的结果。因此,通过检测该属性,可以隐含地得出这样的结论:所计算出的特征(即,较低阶特征)对于音频信号的精确分类是足够的。
因此可以看出,如果相对于所观察到的音频信号的时变特性每帧自适应地选择散射阶数,则本原理可能可以实现显著的处理能力的节省。
图2示出了根据本原理的用于音频识别的设备200。设备200包括至少一个硬件处理单元(“处理器”)210,该至少一个硬件处理单元210被配置为执行第一软件程序的指令并且处理音频以用于识别,如下文将进一步描述的。设备200还包括至少一个存储器220(例如,ROM、RAM和闪存或它们的组合),该至少一个存储器220被配置为存储软件程序和处理输出数据包所需的数据。设备200也包括用于与用户接口联系的至少一个用户通信接口(“用户I/O”)230。
设备200还包括输入接口240和输出接口250。输入接口240被配置为获得用于处理的音频;输入接口240可以适用于捕获音频(例如,麦克风),但是其也可以是适用于接收所捕获到的音频的接口。输出接口250被配置为输出关于所分析的音频的信息,例如用以在屏幕上呈现或者被传送至另一设备。
设备200优选地被实现为单个设备,但是其功能也可以分布在多个设备上。
图3示出了本原理的声学分类处理流程的特征提取模块330。特征提取模块330包括用于计算一阶散射特征的第一子模块332和用于计算二阶散射特征的第二子模块334,如图1所示的常规的特征提取模块130一样。此外,特征提取模块330也包括能量保存估计量,用以决定散射变换的最小必要阶数,如下文将进一步描述的。
在“Group invariant scattering.”(“组不变散射”)中,S.Mallat认为:随着散射阶数的增加,散射表示的能量接近输入信号的能量。本原理将该属性用作散射表示的信息内容(因此辨别性能)的代理指示符。
基于不同阶数的散射特征,假设存在一组预训练分类器。因此,一旦估计出了给定的音频帧的必要散射阶数,并且计算出了对应的特征,则使用适当的模型来执行分类。分类是相当低的计算复杂度的操作。
在下文的描述中,表述“信号”被解释为除了低通部分之外的从先前散射阶数m≥0的父节点中获得的任意系数序列因此,m=0序列就是音频信号本身。由于不同的信号包含不同频带中的能量,所以首先通过计算相关性图来标记重要的频带,即由每个带通滤波器ψi滤波的信号的归一化能量:
得到的正数{γλ}的序列加起来为1。γλ的较大值指示更重要的频带,并且可以看作对观测给定的频带中的信号能量的似然性进行建模的概率质量函数P的峰值。这种概率质量函数的示例在图4中示出,图4示出了示例性一阶系数的相关性图。如所看到的,认为左边的几个频带是最相关的。
如前面所提及的,对每个信号应用低通滤波器φ,限制信号的频率范围。这也限制了滤波后的信号的信息内容。根据本原理,相对于输入信号的由低通滤波的保存的相对能量被测量为:
对于归一化滤波器φ,该比率必然在0和1之间的界限内,并且指示给定频带的能量的保存:比率越大,在给定特征内所捕获的能量就越大。
根据本原理,仅在使用相关性图估计的“重要”的频带中监测能量保存。首先,按降序方式来排序标准化的能量{γλ}(图4示出了排序后的相关性图)。然后,γλ的累积和达到阈值μ的前n个频带(即,)被视为是“重要的”。换句话说,用户定义的阈值0<μ≤1含蓄地用参数表示重要频带的数量;阈值μ的值越低,则越少的频带被视为是重要的。
然后,最终能量保存估计量被计算为β=minε∈[1,n]αε,其中{αλ}根据{γλ}的降序而排列,并且0<β≤1是重要频带中的能量的最小相对量。通过为β设置较低阈值τ,可以确定给定的散射特征是否包含用于精确分类的足够信息,或者是否需要计算更高散射阶数的特征。在发明人的试验中,针对0.5≤τ≤0.85和0.7≤μ≤0.9获得了最优性能。图5中所示的精度/召回曲线中呈现了示例性能,其中“计算节省”量是在相对于所考虑的音频帧的总数量来说一阶散射被估计为是足够(因此无需计算二阶系数)的情况下的百分比。应当注意,这是示例性值,因设置的不同而可以不同(例如,根据阈值μ和音频信号的类型中的至少一个)。
图6示出了根据本原理的音频识别的方法的流程图。虽然所示方法使用一阶散射特征和二阶散射特征,但是应当理解,所述方法容易地扩展到更高阶数,以决定散射阶数m-1的特征是否足够,或者是否需要计算第m阶散射特征。
在步骤S605中,接口(图2中的240)接收音频信号。在步骤S610中,处理器(图2中的210)获得根据音频信号计算出并由预处理(图1中的120)输出的音频帧。注意,可以在处理器中执行预处理。在步骤S620中,处理器以常规方式计算一阶散射特征。在步骤S630中,处理器计算能量保存估计量β,如前所述。在步骤S640中,处理器确定能量保存估计量β是否大于或等于低阈值τ(当然,严格地大于也是可以的)。在能量保存估计量β低于低阈值τ的情况下,处理器在步骤S650中计算对应的二阶散射特征;否则,不执行二阶散射特征的计算。最后,如果已经计算出了一阶散射特征和二阶散射特征,则处理器在步骤S660中使用一阶散射特征和二阶散射特征中的至少一个来执行音频分类。
技术人员将理解,能量保存估计是与分类器无关的度量。然而,如果分类器预先被指定并提供某些置信度量(例如,类概率估计),则可以一起考虑估计值以试图提高性能。
应当理解,本原理可以提供用于音频识别的解决方案,该解决方案能够实现:
●通过使得能够以低计算成本使用目前已知的散射特征来节省CPU资源,特别是对于具有有限资源的平台(比如,便携式设备或住宅网关)。
●对于移动设备中的嵌入式系统,延长了电池寿命并优化了电池寿命持续时间。
●分类器不可知的方法。
●提供成功的估计:给定散射特征序列,分类将精确到何种程度?
●扩展到不同于音频信号的其它类型的信号(直接扩展到诸如图像、视频之类的其它类型的信号)。
应理解的是,附图所示的单元可以以硬件、软件、或其组合的各种形式来实现。优选地,这些单元以一个或更多个适当编程的通用设备上的硬件和软件的组合来实现,所述适当编程的通用设备可以包括处理器、存储器和输入/输出接口。文中,词语“耦接”被定义为表示直接连接或通过一个或更多个中间组件间接连接。这种中间组件可以包括硬件和基于软件的组件二者。
本说明书示出了本公开的原理。因此,可以理解的是,本领域的技术人员将能够设计出虽然没有明确地在此描述或示出但体现了本公开的原理并包括在本公开范围之内的各种布置。
本文中记载的所有示例和条件语言预期用于教导目的,以帮助读者理解本公开的原理和发明人为改进现有技术而贡献的构思,并且应解释为不限于这些具体记载的示例和条件。
此外,本文中对本公开的原理、方面、实施例及本公开的特定示例做出引述的所有声明意在包括本发明的结构和功能上的等同物。附加地,这种等同物旨在包括当前已知的等同物以及将来开发的等同物,即,为执行相同功能开发的任何单元,而与结构无关。
因此,例如,本领域的技术人员应当理解,本文中所呈现的框图表示体现本公开原理的解说性电路的概念图。类似地,应当理解,任何流程图、流程框图、状态转移图、伪代码等表示实质上可以在计算机可读介质中表示的、并且因此由计算机或处理器执行的各个处理,无论是否明确示出该计算机或处理器。
可以通过使用专用硬件以及能够与适当的软件相关联地执行软件的硬件来提供附图中示出的各个单元的功能。当由处理器来提供时,这些功能可以由单个专用处理器、单个共享处理器、或多个单独的处理器来提供,所述多个单独的处理器中的一些可以是共享的。此外,明确使用的术语“处理器”或“控制器”不应被解释为排他地指代能够执行软件的硬件,而可以隐含地包括而不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储设备。
也可以包括常规和/或定制的其它硬件。类似地,附图所示的任何开关都仅是概念性的。其功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑的交互、或甚至手动地执行,实现者可选择的具体技术可以从上下文中得到明确的理解。
在权利要求中,被表述为用于执行指定功能的装置的任意单元意在包括执行该功能的任何方式,包括例如a)执行该功能的电路元件的组合、b)任何形式的软件,因而包括固件、微代码等,其与适当的电路组合以运行该软件来执行该功能。由这种权利要求限定的本公开在于由各种记载的设备提供的功能以权利要求所要求的方式组合在一起。因此,将可以提供这些功能的任何设备认为是等同于本文所示的设备。
Claims (12)
1.一种用于计算用于音频信号识别的散射特征的设备(200),所述设备(200)包括:
接口(240),被配置为接收音频信号;以及
处理器(210),被配置为:
处理所述音频信号以获得音频帧;
根据至少一个音频帧计算一阶散射特征;以及
仅在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下,根据所述一阶散射特征计算二阶散射特征,其中n是整数。
2.根据权利要求1所述的设备,其中,所述处理器(210)还被配置为:在具有最高能量的n个一阶散射特征中的能量高于所述阈值的情况下,仅基于所述一阶散射特征执行音频分类。
3.根据权利要求2所述的设备,其中,所述处理器(210)还被配置为:在具有最高能量的n个一阶散射特征中的能量低于所述阈值的情况下,基于所述一阶散射特征和至少所述二阶散射特征执行音频分类。
4.根据权利要求1所述的设备,其中,在具有最高归一化能量的n个一阶散射特征的归一化能量之和高于第二阈值的情况下,所述能量高于所述阈值。
5.根据权利要求4所述的设备,其中,所述第二阈值的最低可能值是0,并且最高可能值是1,并且所述第二阈值介于0.7和0.9之间。
6.根据权利要求1所述的设备,其中,所述处理器(210)被配置为迭代地根据低一阶散射系数计算更高阶散射系数,直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。
7.一种用于计算用于音频信号识别的散射特征的方法,所述方法包括:
通过处理器(210)处理(S610)所接收到的音频信号,以获得至少一个音频帧;
通过处理器(210)根据至少一个音频帧计算(S620)一阶散射特征;以及
仅在具有最高能量的n个一阶散射特征中的能量低于阈值的情况下,通过所述处理器(210)根据所述一阶散射特征计算(S650)二阶散射特征,其中n是整数。
8.根据权利要求7所述的方法,还包括:在具有最高能量的n个一阶散射特征中的能量高于所述阈值的情况下,仅基于所述一阶散射特征执行音频分类(S660)。
9.根据权利要求8所述的方法,还包括:在具有最高能量的n个一阶散射特征中的能量低于所述阈值的情况下,基于所述一阶散射特征和所述二阶散射特征执行音频分类(S660)。
10.根据权利要求7所述的方法,其中,在具有最高归一化能量的n个一阶散射特征的归一化能量之和高于第二阈值的情况下,所述能量高于所述阈值。
11.根据权利要求10所述的方法,其中,所述第二阈值的最低可能值是0,并且最高可能值是1,并且所述第二阈值介于0.7和0.9之间。
12.根据权利要求7所述的方法,还包括:迭代地根据低一阶散射系数计算更高阶散射系数,直到所计算的具有最高能量的散射特征的集合的能量高于第三阈值为止。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16306350.6 | 2016-10-13 | ||
EP16306350.6A EP3309777A1 (en) | 2016-10-13 | 2016-10-13 | Device and method for audio frame processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107945816A true CN107945816A (zh) | 2018-04-20 |
Family
ID=57206183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710951055.4A Pending CN107945816A (zh) | 2016-10-13 | 2017-10-12 | 用于音频帧处理的设备和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20180108345A1 (zh) |
EP (1) | EP3309777A1 (zh) |
JP (1) | JP2018109739A (zh) |
KR (1) | KR20180041072A (zh) |
CN (1) | CN107945816A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3367261A1 (de) * | 2017-02-28 | 2018-08-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum klassifizieren von information und klassifizierungsprozessor |
US11328010B2 (en) * | 2017-05-25 | 2022-05-10 | Microsoft Technology Licensing, Llc | Song similarity determination |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020023020A1 (en) * | 1999-09-21 | 2002-02-21 | Kenyon Stephen C. | Audio identification system and method |
CN102446506A (zh) * | 2010-10-11 | 2012-05-09 | 华为技术有限公司 | 音频信号的分类识别方法及装置 |
CN102982804A (zh) * | 2011-09-02 | 2013-03-20 | 杜比实验室特许公司 | 音频分类方法和系统 |
CN104347067A (zh) * | 2013-08-06 | 2015-02-11 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US20150317990A1 (en) * | 2014-05-02 | 2015-11-05 | International Business Machines Corporation | Deep scattering spectrum in acoustic modeling for speech recognition |
CN105424800A (zh) * | 2015-11-06 | 2016-03-23 | 西北工业大学 | 基于格栅效应的室内周期矩形声扩散体散射系数预测方法 |
CN105761728A (zh) * | 2015-12-02 | 2016-07-13 | 中国传媒大学 | 中国典型听觉文化符号特征选择方法 |
-
2016
- 2016-10-13 EP EP16306350.6A patent/EP3309777A1/en not_active Withdrawn
-
2017
- 2017-10-11 JP JP2017197654A patent/JP2018109739A/ja active Pending
- 2017-10-12 CN CN201710951055.4A patent/CN107945816A/zh active Pending
- 2017-10-12 US US15/730,843 patent/US20180108345A1/en not_active Abandoned
- 2017-10-12 KR KR1020170132338A patent/KR20180041072A/ko unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020023020A1 (en) * | 1999-09-21 | 2002-02-21 | Kenyon Stephen C. | Audio identification system and method |
CN102446506A (zh) * | 2010-10-11 | 2012-05-09 | 华为技术有限公司 | 音频信号的分类识别方法及装置 |
CN102982804A (zh) * | 2011-09-02 | 2013-03-20 | 杜比实验室特许公司 | 音频分类方法和系统 |
CN104347067A (zh) * | 2013-08-06 | 2015-02-11 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US20150317990A1 (en) * | 2014-05-02 | 2015-11-05 | International Business Machines Corporation | Deep scattering spectrum in acoustic modeling for speech recognition |
CN105424800A (zh) * | 2015-11-06 | 2016-03-23 | 西北工业大学 | 基于格栅效应的室内周期矩形声扩散体散射系数预测方法 |
CN105761728A (zh) * | 2015-12-02 | 2016-07-13 | 中国传媒大学 | 中国典型听觉文化符号特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2018109739A (ja) | 2018-07-12 |
US20180108345A1 (en) | 2018-04-19 |
EP3309777A1 (en) | 2018-04-18 |
KR20180041072A (ko) | 2018-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9258425B2 (en) | Method and system for speaker verification | |
WO2017202292A1 (zh) | 一种回声时延跟踪方法及装置 | |
KR101734829B1 (ko) | 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버 | |
JP5697803B2 (ja) | 対象検出装置及び対象検出方法 | |
JP6147873B2 (ja) | キーボードのタイピング検出と抑制 | |
TWI569263B (zh) | 聲頻訊號的訊號擷取方法與裝置 | |
JP6493889B2 (ja) | 音声信号を検出するための方法および装置 | |
CN107945816A (zh) | 用于音频帧处理的设备和方法 | |
WO2019192237A1 (zh) | 基于声学信道的个人计算机使用行为监测方法及系统 | |
US20220399007A1 (en) | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data | |
Narkhede et al. | Acoustic scene identification for audio authentication | |
Xie et al. | Detecting frog calling activity based on acoustic event detection and multi-label learning | |
CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
CN117082118A (zh) | 基于数据推导及端口预测的网络连接方法 | |
Jleed et al. | Acoustic environment classification using discrete hartley transform features | |
US9215350B2 (en) | Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same | |
CN112581975B (zh) | 基于信号混叠和双声道相关性的超声波语音指令防御方法 | |
JP2018022305A (ja) | 境界値特定プログラム、境界値特定方法および境界値特定装置 | |
CN113312619A (zh) | 基于小样本学习的恶意进程检测方法、装置、电子设备及存储介质 | |
Lancini et al. | Audio content identification by using perceptual hashing | |
CN113177514B (zh) | 无人机信号检测方法、装置及计算机可读存储介质 | |
US11971332B2 (en) | Feature extraction apparatus, anomaly score estimation apparatus, methods therefor, and program | |
KR102443221B1 (ko) | 수면 음성 분석 장치 및 방법 | |
Jahanirad et al. | Blind Source Computer Device Identification from Recorded Calls | |
Kaur et al. | Performance evaluation of speaker recognition system using area under ROC curve for extracted novel features from SDM and MDM speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190524 Address after: Paris France Applicant after: Interactive digital CE patent holding Co. Address before: I Si Eli Murli Nor, France Applicant before: THOMSON LICENSING |
|
TA01 | Transfer of patent application right | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20231201 |
|
AD01 | Patent right deemed abandoned |