CN102498514A - 用于音频信号分类的方法和装置 - Google Patents
用于音频信号分类的方法和装置 Download PDFInfo
- Publication number
- CN102498514A CN102498514A CN2009801614830A CN200980161483A CN102498514A CN 102498514 A CN102498514 A CN 102498514A CN 2009801614830 A CN2009801614830 A CN 2009801614830A CN 200980161483 A CN200980161483 A CN 200980161483A CN 102498514 A CN102498514 A CN 102498514A
- Authority
- CN
- China
- Prior art keywords
- value
- signal
- root
- noise level
- lpf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims description 42
- 238000004590 computer program Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims description 55
- 230000003139 buffering effect Effects 0.000 claims description 17
- 230000001419 dependent effect Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/171—Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
- G10H2240/201—Physical layer or hardware aspects of transmission to or from an electrophonic musical instrument, e.g. voltage levels, bit streams, code words or symbols over a physical link connecting network nodes or instruments
- G10H2240/241—Telephone transmission, i.e. using twisted pair telephone lines or any type of telephone network
- G10H2240/251—Mobile telephone transmission, i.e. transmitting, accessing or controlling music data wirelessly via a wireless or mobile telephone receiver, analogue or digital, e.g. DECT, GSM, UMTS
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Telephone Function (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得该装置至少执行:确定音频信号的信号识别值;确定所述音频信号的至少一个噪声水平值;将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及取决于所述比较来识别所述音频信号。
Description
技术领域
本发明涉及用于音频信号分类的装置。本发明进一步涉及但不限于用于移动设备的装置。
背景技术
在许多应用中,存在对识别和分类音频信号的强烈兴趣。一个这样的分类是自动识别音频信号何时是话音音频信号、音乐音频信号、或静默。尽管人类耳朵可以例如通过聆听短片段数秒而容易地在话音和音乐音频信号之间进行区分,但已发现自动识别或区分是技术上困难的问题。
在无线通信系统装置中,对音频信号是音乐还是话音的这样的识别尤其有益。无线通信系统中的装置内的音频信号处理可以取决于信号是话音、音乐还是静默而对信号实施不同的编码和解码算法。所使用的算法的类型可以更优化地处理所考虑的音频信号的特性,从而优化地处理音频信号以使得不丢失话音音频信号中的可懂度、不显著劣化音乐音频信号的保真度、并且不在通信静默时使用显著的网络资源。
先前已经多次处理了话音和音乐音频信号的自动音频信号分类。这些方法经常需要使用诸如神经网之类的模式识别装置的复杂的分析来尝试对信号是话音还是音乐进行分类。然而,这样的高处理强度方法不适合于通信设备、尤其是其中处理能力带来功率消耗和成本损失的便携式设备。
例如,在用户设备处在蜂窝无线通信中从基站接收的下行链路编码音频信号的自动分类将不适合于诸如神经网处理之类的高处理强度技术。此外,在这样的环境中,存在要克服的三个具体障碍。
首先,音频信号通常使用自适应多速率(AMR)压缩方案来编码和解码。使用诸如算术码激发线性预测(ACELP)之类的技术的AMR编码选择编解码器模式以满足本地无线电信道能力要求。AMR编码的该编解码器的选择显著影响音频信号。
其次,如上所述的识别器或分类器需要尽可能高效以使得它可以在用户设备中实施而不需要显著的处理或功率要求并且影响用户设备的通信能力。
第三,识别器或分类器应当生成低概率的音乐的误报识别。换言之,算法将话音识别为音乐的概率必须非常低。因为用户设备的角色是提供话音通信,所以音频信号实际是话音的情况下的音乐的误报将导致话音音频信号的劣化,因为音乐编解码器或音乐编解码器设置被选择为解码话音音频信号。
发明内容
本发明的至少一些实施例的目标在于解决这些问题中的一个或多介。
根据本发明,存在一种方法,其包括:确定音频信号的信号识别值;确定所述音频信号的至少一个噪声水平值;将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及取决于所述比较来识别所述音频信号。
识别所述音频信号可以包括:当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时,将所述音频信号识别为音乐音频信号。
识别所述音频信号可以进一步包括:当所述信号识别值等于或大于所述信号识别阈值,和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时,将所述音频信号识别为话音音频信号。
确定所述信号识别值可以包括:对所述音频信号采样值进行低通滤波;确定经低通滤波的音频信号值的至少两个均方根值;从所述均方根值中选择最大均方根值和最小均方根值;确定所述最大均方根值和所述最小均方根值的比率;以及对所述最大均方根值和所述最小均方根值的比率进行低通滤波。
该方法可以进一步包括:确定所述最小均方根值小于信号水平阈值;以及取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。
确定所述音频信号的所述至少一个噪声水平值中的一个可以包括:对所述音频信号采样值进行高通滤波;确定经高通滤波的音频信号值的至少两个均方根值;从所述均方根值中选择最小均方根值;以及对来自所述均方根值的最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。
确定所述音频信号的所述至少一个噪声水平值中的第二个可以包括:对所述音频信号采样值进行高通滤波;确定经高通滤波的音频信号值的至少两个均方根值;从经所述高通滤波的音频信号值的均方根值中选择最小均方根值;对来自经所述高通滤波的音频信号值的均方根值的最小均方根值进行低通滤波;对所述音频信号采样值进行低通滤波;确定经所述低通滤波的音频信号值的至少两个均方根值;从经所述低通滤波的音频信号值的均方根值中选择最小均方根值;对来自经所述低通滤波的音频信号值的最小均方根值进行低通滤波;确定经所述低通滤波的来自经所述低通滤波和经高通滤波音频信号的最小均方根值的比率;以及将所述音频信号的所述至少一个噪声水平值中的第二个确定为经低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率或经低通滤波的最小均方根值的先前的比率。
该方法可以进一步包括缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。
该方法可以进一步包括重置缓冲的值。
该方法可以进一步包括缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。
该方法可以进一步包括重置缓冲的值。
该方法可以进一步包括取决于所述识别而解码所述音频信号。
该方法可以进一步包括取决于所述识别而从音乐库中选择要播放的音乐。
该方法可以进一步包括取决于所述识别而实施话音到文本应用。
根据本发明的第二方面,提供了一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得所述装置至少执行:确定音频信号的信号识别值;确定所述音频信号的至少一个噪声水平值;将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及取决于所述比较来识别所述音频信号。
识别所述音频信号可以使得所述装置至少执行:当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时,将所述音频信号识别为音乐音频信号。
识别所述音频信号可以进一步使得所述装置至少执行:当所述信号识别值等于或大于所述信号识别阈值,和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时,将所述音频信号识别为话音音频信号。
确定所述信号识别值可以使得所述装置至少执行:对所述音频信号采样值进行低通滤波;确定经低通滤波的音频信号值的至少两个均方根值;从所述均方根值中选择最大均方根值和最小均方根值;确定所述最大均方根值和所述最小均方根值的比率;以及对所述最大均方根值和所述最小均方根值的比率进行低通滤波。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:确定所述最小均方根值小于信号水平阈值;以及取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。
确定所述音频信号的所述至少一个噪声水平值中的一个可以使得所述装置至少执行:对所述音频信号采样值进行高通滤波;确定经高通滤波的音频信号值的至少两个均方根值;从所述均方根值中选择最小均方根值;以及对来自所述均方根值的最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。
确定所述音频信号的所述至少一个噪声水平值中的第二个可以使得该装置至少执行:对所述音频信号采样值进行高通滤波;确定经高通滤波的音频信号值的至少两个均方根值;从经所述高通滤波的音频信号值的均方根值中选择最小均方根值;对来自经所述高通滤波的音频信号值的均方根值的最小均方根值进行低通滤波;对所述音频信号采样值进行低通滤波;确定经所述低通滤波的音频信号值的至少两个均方根值;从经所述低通滤波的音频信号值的均方根值中选择最小均方根值;对来自经所述低通滤波的音频信号值的最小均方根值进行低通滤波;确定经所述低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率;以及将所述音频信号的所述至少一个噪声水平值中的第二个确定为经所述低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率或经低通滤波的最小均方根值的先前的比率。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:重置缓冲的值。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:重置缓冲的值。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:取决于所述识别而解码所述音频信号。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:取决于所述识别而从音乐库中选择要播放的音乐。
所述至少一个处理器和至少一个存储器可以进一步使得所述装置至少执行:取决于所述识别而实施话音到文本应用。
根据本发明的第三方面,提供了一种装置,其包括:信号参数估计器,被配置为确定音频信号的信号识别值;噪声水平估计器,被配置为确定所述音频信号的至少一个噪声水平值;以及信号分类器,被配置为取决于将所述信号识别值与信号识别阈值比较以及将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较来识别所述音频信号。
所述信号分类器优选地被配置为:当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时,将所述音频信号识别为音乐音频信号。
所述信号分类器优选地进一步被配置为:当所述信号识别值等于或大于所述信号识别阈值和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时,将所述音频信号识别为话音音频信号。
所述信号参数估计器可以包括:低通滤波器,被配置为对所述音频信号采样值进行低通滤波;信号处理器,被配置为确定经低通滤波的音频信号值的至少两个均方根值;至少一个选择器,被配置为从所述均方根值中选择最大均方根值和最小均方根值;比率计算器,被配置为确定所述最大均方根值和所述最小均方根值的比率;以及进一步的低通滤波器,被配置为对所述最大均方根值和所述最小均方根值的比率进行低通滤波。
所述信号参数估计器可以进一步包括:开关,被配置为取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。
所述噪声水平估计器可以包括:高通滤波器,被配置为对所述音频信号采样值进行高通滤波;信号处理器,被配置为确定经高通滤波的音频信号值的至少两个均方根值;选择器,被配置为从所述均方根值选择最小均方根值;以及低通滤波器,被配置为对来自所述均方根值的最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。
所述噪声水平估计器可以进一步包括:低通滤波器,被配置为对来自所述信号参数估计器至少一个选择器的最小均方根值进行低通滤波;比率估计器,被配置为确定经低通滤波的来自所述信号参数估计器至少一个选择器以及来自所述噪声水平估计器选择器的最小均方根值的比率;以及开关,被配置为作为所述至少一个噪声水平值中的第二个而输出由所述比率估计器所确定的比率或历史比率值。
所述开关优选地被配置为:当由所述比率确定器所确定的比率大于所述历史比率值并且所述音频信号的所述至少一个噪声水平值中的所述一个大于相关联的阈值时,在所述至少一个噪声水平值中的第二个输出由所述比率值所确定的比率。
所述噪声水平估计器可以进一步包括:缓冲器,被配置为接收所述开关的输出;以及增益,被配置为向所述缓冲器的输出应用增益以生成所述历史比率值。
所述信号参数估计器可以进一步包括至少一个缓冲器,被配置为缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。
该装置可以进一步包括缓冲控制器,其被配置为重置缓冲的值。
所述噪声水平估计器可以进一步包括至少一个缓冲器,其被配置为缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。
该装置可以进一步包括进一步的缓冲控制器,其被配置为重置所述噪声水平估计器缓冲器缓冲的值。
该装置可以进一步包括解码器,其被配置为取决于所述信号分类器而解码所述音频信号。
该装置可以进一步包括处理器,其被配置为取决于所述信号分类器而从音乐库中选择要播放的音乐。
该装置可以进一步包括处理器,其被配置为取决于所述信号分类器而实施话音到文本应用。
根据本发明的第四方面,提供了一种用指令编码的计算机可读介质,所述指令当被计算机执行时,执行:确定音频信号的信号识别值;确定所述音频信号的至少一个噪声水平值;将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及取决于所述比较来识别所述音频信号。
根据本发明的第五方面,提供了一种设备,其包括:用于确定音频信号的信号识别值的装置;用于确定所述音频信号的至少一个噪声水平值的装置;用于将所述信号识别值与信号识别阈值比较并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较的装置;以及用于取决于所述比较来识别所述音频信号的装置。
一种电子设备可以包括如上所述的装置。
一种芯片组可以包括如上所述的装置。
附图说明
为了更好地理解本发明,现在以示例的方式参考以下附图:
图1示意性地示出了采用本申请的一些实施例的电子设备;
图2示意性地示出了根据本申请的一些实施例的合适的装置;以及
图3示出了图2中所示的识别和噪声水平估计装置的操作的流程图。
具体实施方式
以下更详细地描述了用于提供识别或分类所接收的下行链路音频信号为包含话音还是音乐的合适的装置和可能的机制。就此而言,首先参考图1,其示出了示例性装置或电子设备10的示意框图,该示例性装置或电子设备10从经低通滤波的信号识别若干帧内的最大和最小均方根(RMS)值。在这样的装置中,为了改进噪声方面的鲁棒性,实施用于检测噪声导致识别不可能的情况的背景噪声估计器。这样描述的装置可以具有三个主要优点。首先,该装置可以将目标定在使话音优先从而产生低误报音乐检测。其次,可以操作该装置以考虑到噪声水平。第三,由于该方案和实施该方案所需的装置的相对的简单性和低复杂度,可以将该装置实施到用户设备中。
在一些实施例中,电子设备10可以是无线通信系统的移动终端或用户设备。
在一些实施例中,电子设备10包括麦克风11,该麦克风11经由模数转换器(ADC)14链接到处理器21。在一些实施例中,处理器21进一步经由数模(DAC)转换器32链接到扬声器33。在一些实施例中,处理器21进一步链接到收发器(TX/RX)13、链接到用户接口(UI)15、以及链接到存储器22。
在一些实施例中,处理器21可以被配置为执行多种程序代码。在一些实施例中,所实施的程序代码可以包括编码代码例程。在一些实施例中,所实施的程序代码23可以进一步包括音频解码代码。此外,在一些实施例中,所实施的程序代码可以包括分类代码例程。所实施的程序代码23例如可以存储在存储器22中以供处理器21在需要时获取。存储器22可以进一步提供部分24以供存储数据。
在一些实施例中,用户接口15可以使得用户能够例如经由键盘向电子设备10输入命令,和/或例如经由显示器从电子设备10获得信息。在一些实施例中,收发器13使得能够进行例如经由无线通信网络的与其他电子设备的通信。在一些实施例中,收发器13可以被配置为通过有线连接与其他电子设备通信。
再次将理解,电子设备10的结构可以以许多方式补充和改变。
在一些实施例中,电子设备10的用户可以使用麦克风11以输入要发送到一些其他电子设备、或要存储在存储器22的数据部分24中的话音或其他声音信号。在一些实施例中,可以由用户经由用户接口15为此激活对应的应用。可以由处理器21运行的该应用使得处理器21执行存储在存储器22中的编码代码。
在一些实施例中,模数转换器14可以将输入模拟音频信号转换为数字音频信号,并且向处理器21提供该数字音频信号。
在一些实施例中,收发器13可以接收比特流以供发送到另一电子设备。备选地,经编码数据可以存储在存储器22的数据部分24中,例如供随后的发送或供由相同的电子设备10进行的随后的展示。
在一些实施例中,处理器21也可以被配置为使用存储在存储器22中的分类代码,根据话音/音乐音频分类来分类或识别数字音频信号。
在一些实施例中,电子设备10还可以经由收发器13从诸如基站之类的另一电子设备接收具有对应经编码数据的比特流。在该情况下,在一些实施例中,处理器21可以执行存储在存储器22中的解码程序代码以解码所接收的数据,并且向本申请后面将更详细描述的话音/音乐音频分类过程提供经解码的数据。在一些实施例中,处理器可以在执行解码过程之前应用话音/音乐音频分类过程,其中解码过程至少部分取决于分类过程的结果来确定。
此外,在一些实施例中,处理器可以向数模转换器32提供经解码的数据。在一些实施例中,数模转换器32可以将数字的经解码的数据转换为模拟音频数据,并且向扬声器33输出模拟信号。解码程序代码的执行也可以由已经由用户经由用户接口15调用的应用触发。
在一些实施例中,扬声器33可以由头戴式耳机组件补充或替换,该头戴式耳机组件可以例如通过经由收发器13通信的蓝牙简档与电子设备10或装置无线地通信,或使用传统有线连接通信。
将理解,图2中所描述的示意性结构和图3中的方法步骤仅仅表示示例性地示出为实施在图1所示的电子设备中的用户设备的操作的一部分。
参考图2,示出了适合于执行本发明的一些实施例的操作的装置。该装置包括在一些实施例中被配置为接收音频信号并且产生信号识别值的识别器201、在一些实施例中被配置为还接收音频信号并且产生噪声水平的估计的噪声水平估计器203、以及在一些实施例中被配置为接收识别器201和噪声水平估计器203的输出并且确定就音频信号是音乐还是话音而言的音频信号的分类的话音/音乐检测器。
在一些实施例中,识别器201、噪声水平估计器203和话音/音乐检测器207表示位于相同或不同的芯片组中的、被配置为执行如下所述的过程的处理器。
备选地,处理器21被配置为执行全部过程,并且图2例示了根据本申请的一些实施例的音频信号的分析和分类。
在一些实施例中,识别器201可以包括第一低通滤波器(LPF1)211,其被配置为接收音频信号的采样。在图3中由步骤301示出了在识别器处接收信号采样的操作。
第一低通滤波器211可以取决于实施例利用合适的滚降频率和滚降梯度来配置,以通过去除音频信号的高频成分来改进识别器201的噪声容限。低通滤波器211的输出被传递到帧均方根(RMS)计算器213。在图3中由步骤303示出了向信号采样应用低通滤波的操作。
在一些实施例中,识别器201还包括帧均方根计算器213。帧均方根(RMS)计算器213接收经低通滤波音频信号采样并且对于帧计算均方根值。在一些实施例中,RMS计算器可以使用以下方程计算帧采样值的RMS值:
其中M是帧的长度,并且xi是帧内的第i个采样的经滤波的值。帧RMS计算器213向缓冲器215输出帧的均方根值。在图3中由步骤305示出了帧的RMS值的计算。
在一些实施例中,识别器201还包括缓冲器215。在一些实施例中,缓冲器215接收帧RMS值并且将其存储在缓冲器215存储器中。缓冲器215被配置为存储最后N帧RMS值。在一些实施例中,值N是10。在一些实施例中,N的值是预定义的。在一些实施例中,N的值可以改变。由于N的值确定用于确定音频信号是否是音乐的冲击时间(attack time),所以就具有短检测延迟而言该值越小越好。从而相信可以利用小至2并且大至100的N的值来实施一些实施例,但在一些实施例中该值的范围优选为从5到20。在图3中由步骤307示出了N帧RMS值的缓冲。在一些实施例中,缓冲器215向最大RMS选择器217和最小RMS选择器219两者输出最后N帧的RMS值。
在一些实施例中,识别器201还包括最大RMS选择器217。在一些实施例中,最大RMS选择器217接收最后N帧的缓冲RMS值,并且从最后N帧中选择最大RMS值Imax。在一些实施例中,所选择的最大RMS值Imax可以被传递到比率计算器221。
在一些实施例中,识别器201还包括最小RMS选择器219。在一些实施例中,最小RMS选择器219还接收最后N帧的RMS值,并且从这最后N帧中选择最小RMS值Imin。在一些实施例中,这N帧的最小RMS值Imin还被传递到比率计算器221。
在图3中由步骤309示出了来自最后N帧RMS值的最大Imax和最小Imin RMS值。
在一些实施例中,识别器201还可以包括比率计算器221。在一些实施例中,比率计算器221从最后N帧RMS值接收最大RMS值和最小RMS值,并且计算最大RMS值与最小RMS值的比率。在一些实施例中,由比率计算器221计算的比率Ir可以继而被传递到识别器开关222。在图3中由步骤311示出了最大与最小值比率Ir的确定。
在一些实施例中,识别器201还包括识别器开关222,其被配置为接收由比率计算器221计算的比率Ir,并且还被配置为在比较输入端处接收最小RMS值Imin。在一些实施例中,识别器开关222可以被配置为当最小RMS值Imin大于开关阈值Lth时输出由比率计算器221计算的比率Ir。开关阈值Lth可以是预定的,以避免当最小RMS值低时输出比率值Ir,从而量化噪声将在最小RMS值中显著。
在图3中由步骤312示出了最小RMS值Imin是否大于开关阈值Lth的检测。当该检测确定Imin大于开关阈值Lth时,在图3中由步骤314示出了要输出的新比率值Ir的选择,而在图3中由步骤313示出了新比率值Ir的阻塞。
在一些实施例中,比率值Ir可以被输出到第二低通滤波器(LPF2)223。
在一些实施例中,识别器201还可以包括第二低通滤波器(LPF2)223。在一些实施例中,第二低通滤波器(LPF2)223接收最大比最小RMS比率值Ir,并且在该比率值上执行低通滤波以有效地平滑该比率值。在一些实施例中,它可以由一阶无限脉冲响应(IIR)滤波器来实施。第二低通滤波器223的输出可以被定义为信号识别器值y并且在一些实施例中被输出到话音/音乐检测器207。在图3中由步骤315示出了比率值的第二低通滤波。
如图3中由步骤301所示,噪声水平估计器203还接收信号采样。
噪声水平估计器203包括高通滤波器(HPF)230。高通滤波器(HPF)230可以通过任何合适的方法来实施,并且被配置为尝试过滤音频信号从而选择音频信号的高频噪声成分而同时阻断音频信号的语音和低频音乐成分。在一些实施例中,高通滤波器向噪声水平估计器203RMS计算器231输出经滤波的音频信号。在图3中由步骤320示出了音频信号的高通滤波。
噪声水平估计器203进一步包括RMS计算器231,其计算帧上的RMS值。在实施例中,可以与上面对于识别器201中所实施的经低通滤波的音频信号RMS计算器213所描述的方式类似的方式,来实施经高通滤波的音频信号的RMS值的计算。RMS计算器231向噪声水平估计器缓冲器233输出逐帧值上的RMS值。在图3中由步骤321示出了计算RMS值的操作。
在一些实施例中,噪声水平估计器203还可以包括噪声水平估计器缓冲器233,其接收帧噪声水平估计器RMS值并且将其存储在缓冲器233存储器中。缓冲器233被配置为存储最后N帧噪声水平估计器RMS值。如上所述,在一些实施例中,值N是10。在一些实施例中,N的值是预定义的。在一些实施例中,N的值可以在装置的操作期间改变。同样如上所述,可以利用小至2并且大至认为合适的N的值来实施一些实施例,因为N的值越大则检测延迟越长。在图3中由步骤323示出N帧噪声水平估计器RMS值的缓冲。在一些实施例中,缓冲器233向最小噪声水平估计器RMS值选择器235输出最后N帧的RMS值。
在一些实施例中,噪声估计器203还可以包括最小RMS选择器235。在一些实施例中,最小RMS选择器235从缓冲器233接收噪声水平估计器RMS值并且选择噪声水平估计器最小RMS值。最小RMS选择器235向第三低通滤波器(LPF3’)237输出最小RMS值。
在图3中由步骤325示出了选择噪声水平估计器最小RMS值rmin的操作。
在一些实施例中,噪声水平估计器203还可以包括第三低通滤波器(LPF3’)237。在这些实施例中,第三低通滤波器(LPF3’)237向噪声水平估计器最小RMS值应用低通滤波,并且向乘法器239输出经低通滤波的值rh以确定最小RMS值比率。
在一些实施例中,噪声水平估计器203还可以包括进一步的第三低通滤波器(LPF3)209,其被配置为从识别器最小RMS选择器219接收最小RMS值Imin,并且在噪声水平估计器最小RMS值rmin上应用与第三低通滤波器(LPF3’)237中所采用的低通滤波相同的低通滤波。在一些实施例中,第三低通滤波器237和进一步的低通滤波器209这两者可以由一阶IIR滤波器来实施。进一步的第三低通滤波器(LPF3)209向反转器210输出经滤波的最小RMS值ri。
在一些实施例中,噪声水平估计器203还可以包括反转器210,其反转经滤波的最小RMS值ri。在一些实施例中,经反转的值被传递到乘法器239。
在一些实施例中,噪声水平估计器203还包括乘法器239,其接收经滤波的噪声水平估计器最小RMS值rh和经滤波经反转的最小RMS值1/ri这两者,以确定信号识别器和噪声水平估计器最小RMS值rr之间的比率。在一些实施例中,“最小比率”值rr继而可以被输出到第二开关241。在图3中由步骤327示出了“最小比率”值rr的确定。
在一些实施例中,噪声水平估计器203还可以包括第二开关241。在一些实施例中,第二开关241内部地存储历史比率值rz。在一些实施例中,第二开关241还可以内部地存储噪声阈值Hth。噪声阈值Hth是噪声水平阈值并且确定最小噪声水平阈值。
在一些实施例中,第二开关241被配置为接收由乘法器239计算的“最小比率”比率rr,并且还被配置为接收经滤波的噪声水平估计器最小RMS值rh。在一些实施例中,第二开关可以被配置为当经滤波的噪声水平估计器RMS值rh大于噪声阈值Hth并且“最小比率”值rr大于历史比率值rz时输出“最小比率”rr作为r的下一值。否则,在这些实施例中,第二开关241被配置为输出历史比率值rz作为r的下一值。噪声阈值Hth可以是预定的,以避免当噪声水平估计最小RMS值低或其相对历史值rz下降时输出比率值rr。
在图3中由步骤328示出了经滤波的噪声水平估计器最小RMS值rh是否大于噪声阈值Hth以及“最小比率”值rr是否大于历史比率值rz的检测。当该检测确定经滤波的噪声水平估计器最小RMS值rh大于噪声阈值Hth并且“最小比率”值rr大于历史比率值rz时,在图3中由步骤329示出了要输出为r的新比率值rr的选择,而在图3中由步骤334示出了输出历史比率值rz作为下一值。
在一些实施例中,第二开关241可以向话音/音乐检测器207、并且还向延迟元件243输出噪声水平估计参数r的下一值。
在一些实施例中,噪声水平估计器203还可以包括延迟元件243。在这些实施例中,延迟元件243存储r的下一值,并且向滤波器增益元件245输出值r。
在一些实施例中,噪声水平估计器203还包括滤波器增益元件245,其被配置为接收值r,将其乘以增益因子gt,并且将其输出作为要用于第二开关241中的新的历史比率值rz。增益因子可以是任何合适的增益值。
在一些实施例中,话音/音乐检测器207接收信号识别器值y和噪声识别器值r(其可以是rr或rz的值)两者,并且来自这些值的经低通滤波的噪声水平估计最小RMS值rh然后确定当前音频信号是话音还是音乐。在一些实施例中,话音/音乐检测器确定信号识别器值y是否小于阈值Yth。此外,在一些实施例中,话音/音乐检测器207确定噪声识别器值r是否也小于阈值Rth、或经低通滤波的噪声水平估计最小RMS值rh是否小于噪声阈值Hth。
如果话音/音乐检测器207确定条件为真,换言之信号和至少一个噪声值小于相关联的阈值,则在一些实施例中话音/音乐检测器207确定当前音频信号是音乐。如果信号或两个噪声值不小于其相关联的阈值,则在这些实施例中话音/音乐检测器207确定当前音频信号是话音。在一些实施例中,话音/音乐检测器207输出利用确定的结果进行编码的指示符。检查值r和rh的第二确定或条件确定指示:如果话音/音乐检测器207在这些实施例中确定存在太多噪声以至于rh和r值两者都高于阈值,则在信号中存在太多噪声从而无法进行可靠识别,并且检测器选择输出话音指示。
在图3中由步骤332示出了条件的确定,并且因此示出了关于是话音还是音乐的检测。此外,在图3中由步骤333示出了指示音频信号的操作,而在图3中由步骤335示出了指示音频信号是话音的操作。
在一些实施例中,话音/音乐检测器207对于若干帧M存储如上所述的条件检查的结果。在这样的实施例中,话音/音乐检测器207可以被配置为仅仅在如上所述的条件检查对于存储了条件检查结果的所述若干(在该例子中为M)帧一致地为真时,确定被处理的音频信号为音乐。例如在一些实施例中,M的值可以是20。这些实施例进一步辅助音乐/话音音频信号的检测并且帮助避免生成音乐音频信号的过早的确定。
在其他实施例中,如果话音/音乐检测器确定对于所存储的M个条件检查中的若干个(例如L个)满足上述条件,则可以进行音乐音频信号的确定。在进一步的实施例中,M个条件检查中的L个必须是相邻的帧条件检查——换言之,音频信号一致地被确定为音乐音频信号。
在一些实施例中,装置的应用进一步包括重置操作器205。重置操作器205被配置为在每个新呼叫的开始或通信的开始重置噪声水平估计器缓冲器233和识别器缓冲器215。此外,在一些实施例中,重置操作器205可以被配置为保持或暂停识别器/噪声水平估计器缓冲器,换言之,避免当设备不在接收任何数据时考虑到RMS值。
上面示出的装置以及上面描述的方法可以用于窄带或宽带下行链路信号这两者。然而,取决于所考虑的实施例的应用,可以选择帧长度M、缓冲的帧N和阈值Rth、Hth和Yth的不同的值。
已经利用一些话音和音乐采样模拟了以上方法。在这些模拟中,白噪声被添加到采样中以评估模拟的装置方法噪声鲁棒性。模拟的结果指示,在50dB的信噪比,检测到全部话音帧中的100%,而音乐帧的检测精度(当音乐信号帧被检测为音乐)在84%到89%之间。利用40dB的减少的信噪比,音乐的检测精度被减少为63%,并且随着信噪比进一步减少,模拟的装置性能进一步劣化。然而,在正常的实践中,不太可能将在这样嘈杂的条件下向用户设备播放音乐。
从而,概括而言,根据一些实施例,存在一种方法,其包括:确定音频信号的信号识别值;确定所述音频信号的至少一个噪声水平值;将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及取决于所述比较来识别所述音频信号。
在本发明的一些实施例中,话音/音乐识别器可以被实施为用户设备中的应用以检测用户是否在等待线或待机场景中被迫使聆听音乐。在这些实施例中,当检测到等待线音乐时,该应用可以触发用户设备用来自用户设备自身的音乐库的音乐进行替换,而不是在等待线中播放的“电梯音乐”。
在一些进一步的实施例中,可以在诸如话音到文本应用之类的应用中实施话音/音乐检测装置,其中话音到文本功能确定何时在输入话音以及何时在输入音乐,以避免话音到文本应用尝试转译音乐并因此产生错误。
一般的下行链路音频处理算法可以实施这些实施例,并且从而具有对于话音和音乐音频信号这两者的不同的优化调谐参数。如上所述的音频信号特性的检测从而使得这些下行链路音频处理算法能够更高效地工作。
在本发明的一些实施例中,识别器噪声水平估计器和话音/音乐检测装置可以实施在音频链中信号解码之后以及任何修改信号的算法之前,以产生对音频信号的最有效的分析。
在这些实施例中,以上装置和方法将具有三个优点。首先,这些实施例对于AMR解码的信号尤其有效。其次,这些实施例对于具有良好信噪比的音频信号具有良好性能,并且不需要大量的存储器或计算能力。第三,这些实施例最小化由于背景噪声水平估计造成的话音被识别为音乐的错误。
应当理解,术语用户设备旨在覆盖任何合适类型的无线用户设备,诸如移动电话、便携式数据处理设备或便携式web浏览器。此外,将理解,术语声学声音通道旨在覆盖声音出口、通道和空腔。并且这样的声音通道可以与换能器整体形成、或形成为换能器与设备的机械集成的一部分。
一般地,可以在硬件或专用电路、软件、逻辑或其任何组合中实施本发明的多种实施例。例如,一些方面可以实施在硬件中,而其他方面可以实施在可以由控制器、微处理器或其他计算设备执行的固件或软件中,但本发明不限于此。尽管本发明的多个方面可以被图示和描述为框图、流程图,或使用一些其他形象表示来图示和描述,但众所周知本发明所描述的这些块、装置、系统和技术或方法可以实施在(作为非限制性例子)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其组合中。
从而,至少一些实施例可以是一种装置,其包括:信号参数估计器,其被配置为确定音频信号的信号识别值;噪声水平估计器,其被配置为确定所述音频信号的至少一个噪声水平值;以及信号分类器,其被配置为取决于将所述信号识别值与信号识别阈值比较以及将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较来识别所述音频信号。
本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件、或通过硬件、或通过软件和硬件的组合来实施。就此而言,进一步应当注意如图中的逻辑流的任何块可以表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤或逻辑电路、块和功能的组合。软件可以存储在诸如以下的物理介质上:存储器芯片、或在处理器内实施的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如例如DVD的光介质及其数据变体CD。
从而,在一些实施例中,可以存在一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得所述装置至少执行:确定音频信号的信号识别值;确定所述音频信号的至少一个噪声水平值;将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及取决于所述比较来识别所述音频信号。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实施,诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性例子可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)专用集成电路(ASIC)、门级别电路和基于多核处理器架构的处理器。
可以在诸如集成电路模块之类的多种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑层设计转换为准备好刻蚀并形成在半导体衬底上的半导体电路设计。
诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣荷塞的Cadence设计公司所提供的程序之类的程序使用良好建立的设计规则以及预存储的设计模块的库来在半导体芯片上自动地对导体布线以及定位元件。一旦已经完成半导体电路的设计,处于标准化电子格式(例如Opus、GDSII等)的作为结果的设计可以被发送到半导体制造设备或制造(fabrication)的简称“fab”。
如在本申请中所使用的,术语“电路”指以下全部:
(a)仅硬件的电路实施(诸如仅模拟和/或数字电路中的实施)以及
(b)电路和软件(和/或硬件)的组合,诸如:(i)处理器的组合或(ii)一起工作以使得诸如移动电话或服务器之类的装置执行多种功能的处理器/软件(包括数字信号处理器)、软件和存储器的部分,以及
(c)需要软件或固件以进行操作的(即使软件或固件并不物理地存在)诸如微处理器或微处理器的部分之类的电路。
“电路”的定义适用于包括任何权利要求的本申请中对该术语的全部使用。作为进一步的例子,如在本申请中所使用的,术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的部分及其伴随的软件和/或固件的实施方式。例如并且如果适用,术语“电路”还将覆盖特定的权利要求元素,即用于移动电话的基带集成电路或应用处理器集成电路、或服务器、蜂窝网络设备或其他网络设备中的类似的集成电路。
以上描述通过示例和非限制性例子的方式提供了对本发明的示例实施例的完整和启发性的描述。然而,当与附图和所附权利要求结合阅读以上描述时,鉴于以上描述,许多修改和改造可以对于相关领域技术人员变得明显。然而,对本发明的教导的全部这样和类似的修改将仍然落入如所附权利要求中所定义的本发明的范围中。
Claims (29)
1.一种方法,包括:
确定音频信号的信号识别值;
确定所述音频信号的至少一个噪声水平值;
将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及
取决于所述比较来识别所述音频信号。
2.如权利要求1所述的方法,其中识别所述音频信号包括:当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时,将所述音频信号识别为音乐音频信号。
3.如权利要求2所述的方法,其中识别所述音频信号进一步包括:当所述信号识别值等于或大于所述信号识别阈值,和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时,将所述音频信号识别为话音音频信号。
4.如权利要求1至3所述的方法,其中确定所述信号识别值包括:
对所述音频信号采样值进行低通滤波;
确定经所述低通滤波的音频信号值的至少两个均方根值;
从所述均方根值中选择最大均方根值和最小均方根值;
确定所述最大均方根值和所述最小均方根值的比率;以及
对所述最大均方根值和所述最小均方根值的比率进行低通滤波。
5.如权利要求4所述的方法,进一步包括:
确定所述最小均方根值小于信号水平阈值;以及
取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。
6.如权利要求4和5所述的方法,其中确定所述音频信号的所述至少一个噪声水平值中的一个包括:
对所述音频信号采样值进行高通滤波;
确定经高通滤波的音频信号值的至少两个均方根值;
从所述均方根值中选择最小均方根值;以及
对来自所述均方根值的所述最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。
7.如权利要求6所述的方法,其中确定所述音频信号的所述至少一个噪声水平值中的第二个包括:
对所述音频信号采样值进行高通滤波;
确定经高通滤波的音频信号值的至少两个均方根值;
从经所述高通滤波的音频信号值的均方根值中选择最小均方根值;
对来自经所述高通滤波的音频信号值的均方根值的所述最小均方根值进行低通滤波;
对所述音频信号采样值进行低通滤波;
确定经所述低通滤波的音频信号值的至少两个均方根值;
从经所述低通滤波的音频信号值的均方根值中选择最小均方根值;
对来自经所述低通滤波的音频信号值的所述最小均方根值进行低通滤波;
确定经所述低通滤波的来自经所述低通滤波和经所述高通滤波的音频信号的最小均方根值的比率;以及
将所述音频信号的所述至少一个噪声水平值中的第二个确定为经所述低通滤波的来自经所述低通滤波和经高通滤波的音频信号的最小均方根值的比率或经所述低通滤波的最小均方根值的先前的比率。
8.如权利要求4至7所述的方法,进一步包括缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。
9.如权利要求7所述的方法,进一步包括缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。
10.一种装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一同使得所述装置至少执行:
确定音频信号的信号识别值;
确定所述音频信号的至少一个噪声水平值;
将所述信号识别值与信号识别阈值比较,并且将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较;以及
取决于所述比较来识别所述音频信号。
11.如权利要求10所述的装置,其中识别所述音频信号使得所述装置至少执行:当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时,将所述音频信号识别为音乐音频信号。
12.如权利要求11所述的装置,其中识别所述音频信号进一步使得所述装置至少执行:当所述信号识别值等于或大于所述信号识别阈值,和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时,将所述音频信号识别为话音音频信号。
13.如权利要求10至12所述的装置,其中确定所述信号识别值使得所述装置至少执行:
对所述音频信号采样值进行低通滤波;
确定经所述低通滤波的音频信号值的至少两个均方根值;
从所述均方根值中选择最大均方根值和最小均方根值;
确定所述最大均方根值和所述最小均方根值的比率;以及
对所述最大均方根值和所述最小均方根值的比率进行低通滤波。
14.如权利要求13所述的装置,所述至少一个处理器和至少一个存储器进一步使得所述装置至少执行:
确定所述最小均方根值小于信号水平阈值;以及
取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。
15.如权利要求13所述的装置,其中确定所述音频信号的所述至少一个噪声水平值中的一个使得所述装置至少执行:
对所述音频信号采样值进行高通滤波;
确定经高通滤波的音频信号值的至少两个均方根值;
从所述均方根值中选择最小均方根值;以及
对来自所述均方根值的所述最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。
16.如权利要求15所述的装置,其中确定所述音频信号的所述至少一个噪声水平值中的第二个使得该装置至少执行:
对所述音频信号采样值进行高通滤波;
确定经高通滤波的音频信号值的至少两个均方根值;
从经所述高通滤波的音频信号值的均方根值中选择最小均方根值;
对来自经所述高通滤波的音频信号值的均方根值的所述最小均方根值进行低通滤波;
对所述音频信号采样值进行低通滤波;
确定经所述低通滤波的音频信号值的至少两个均方根值;
从经所述低通滤波的音频信号值的均方根值中选择最小均方根值;
对来自经所述低通滤波的音频信号值的所述最小均方根值进行低通滤波;
确定经所述低通滤波的来自经所述低通滤波和经所述高通滤波的音频信号的最小均方根值的比率;以及
将所述音频信号的所述至少一个噪声水平值中的第二个确定为经所述低通滤波的来自经所述低通滤波和经高通滤波音频信号的最小均方根值的比率或经所述低通滤波的最小均方根值的先前的比率。
17.如权利要求13至16所述的装置,所述至少一个处理器和至少一个存储器进一步使得所述装置至少执行:缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。
18.如权利要求16所述的装置,所述至少一个处理器和至少一个存储器进一步使得该装置至少执行:缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。
19.一种装置,包括:
信号参数估计器,被配置为确定音频信号的信号识别值;
噪声水平估计器,被配置为确定所述音频信号的至少一个噪声水平值;以及
信号分类器,被配置为取决于将所述信号识别值与信号识别阈值比较以及将所述至少一个噪声水平值中的每个与相关联的噪声水平阈值比较来识别所述音频信号。
20.如权利要求19所述的装置,其中所述信号分类器被配置为:当所述信号识别值小于所述信号识别阈值、并且所述至少一个噪声水平值中的至少一个小于所述相关联的噪声水平阈值时,将所述音频信号识别为音乐音频信号。
21.如权利要求20所述的装置,其中所述信号分类器进一步被配置为:当所述信号识别值等于或大于所述信号识别阈值,和/或所述至少一个噪声水平值全部等于或大于所述相关联的噪声水平阈值时,将所述音频信号识别为话音音频信号。
22.如权利要求19至21所述的装置,其中所述信号参数估计器包括:
低通滤波器,被配置为对所述音频信号采样值进行低通滤波;
信号处理器,被配置为确定经低通滤波的音频信号值的至少两个均方根值;
至少一个选择器,被配置为从所述均方根值中选择最大均方根值和最小均方根值;
比率计算器,被配置为确定所述最大均方根值和所述最小均方根值的比率;以及
进一步的低通滤波器,其被配置为对所述最大均方根值和所述最小均方根值的比率进行低通滤波。
23.如权利要求22所述的装置,其中所述信号参数估计器进一步包括:
开关,被配置为取决于确定所述最小均方根值小于信号水平阈值而丢弃所述最大均方根值和所述最小均方根值的所确定的比率。
24.如权利要求22所述的装置,其中所述噪声水平估计器包括:
高通滤波器,被配置为对所述音频信号采样值进行高通滤波;
信号处理器,被配置为确定经高通滤波的音频信号值的至少两个均方根值;
选择器,被配置为从所述均方根值中选择最小均方根值;以及
低通滤波器,对来自所述均方根值的所述最小均方根值进行低通滤波以确定所述音频信号的所述至少一个噪声水平中的一个。
25.如权利要求24所述的装置,其中所述噪声水平估计器进一步包括:
低通滤波器,被配置为对来自所述信号参数估计器至少一个选择器的最小均方根值进行低通滤波;
比率估计器,被配置为确定经低通滤波的来自所述信号参数估计器至少一个选择器以及来自所述噪声水平估计器选择器的最小均方根值的比率;以及
开关,被配置为作为所述至少一个噪声水平值中的第二个而输出由所述比率估计器所确定的比率或历史比率值。
26.如权利要求25所述的装置,其中所述开关被配置为:当由所述比率确定器所确定的比率大于所述历史比率值并且所述音频信号的所述至少一个噪声水平值中的所述一个大于相关联的阈值时,在所述至少一个噪声水平值中的第二个输出由所述比率值所确定的比率。
27.如权利要求25和26所述的装置,其中所述噪声水平估计器进一步包括:缓冲器,被配置为接收所述开关的输出;以及增益,其被配置为向所述缓冲器的输出应用增益以生成所述历史比率值。
28.如权利要求22至27所述的装置,其中所述信号参数估计器进一步包括至少一个缓冲器,其被配置为缓冲经所述低通滤波的音频信号值的所述至少两个均方根值。
29.如权利要求24至27所述的装置,其中所述噪声水平估计器进一步包括至少一个缓冲器,其被配置为缓冲经所述高通滤波的音频信号值的所述至少两个均方根值。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2009/060122 WO2011015237A1 (en) | 2009-08-04 | 2009-08-04 | Method and apparatus for audio signal classification |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102498514A true CN102498514A (zh) | 2012-06-13 |
CN102498514B CN102498514B (zh) | 2014-06-18 |
Family
ID=42025767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980161483.0A Expired - Fee Related CN102498514B (zh) | 2009-08-04 | 2009-08-04 | 用于音频信号分类的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9215538B2 (zh) |
CN (1) | CN102498514B (zh) |
DE (1) | DE112009005215T8 (zh) |
WO (1) | WO2011015237A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732970A (zh) * | 2013-12-20 | 2015-06-24 | 中国科学院声学研究所 | 一种基于综合特征的舰船辐射噪声识别方法 |
CN105872899A (zh) * | 2016-04-20 | 2016-08-17 | 乐视控股(北京)有限公司 | 音频播放方法、装置和终端设备 |
CN106104684A (zh) * | 2014-01-13 | 2016-11-09 | 诺基亚技术有限公司 | 多通道音频信号分类器 |
CN107146631A (zh) * | 2016-02-29 | 2017-09-08 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
CN108431746A (zh) * | 2016-03-29 | 2018-08-21 | 微晶片科技德国公司 | 电容按钮上水的强固性及检测 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011015237A1 (en) * | 2009-08-04 | 2011-02-10 | Nokia Corporation | Method and apparatus for audio signal classification |
US9633667B2 (en) | 2012-04-05 | 2017-04-25 | Nokia Technologies Oy | Adaptive audio signal filtering |
US9646626B2 (en) * | 2013-11-22 | 2017-05-09 | At&T Intellectual Property I, L.P. | System and method for network bandwidth management for adjusting audio quality |
US9564128B2 (en) * | 2013-12-09 | 2017-02-07 | Qualcomm Incorporated | Controlling a speech recognition process of a computing device |
ES2941782T3 (es) | 2013-12-19 | 2023-05-25 | Ericsson Telefon Ab L M | Estimación de ruido de fondo en señales de audio |
CN103854646B (zh) * | 2014-03-27 | 2018-01-30 | 成都康赛信息技术有限公司 | 一种实现数字音频自动分类的方法 |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
US9749733B1 (en) * | 2016-04-07 | 2017-08-29 | Harman Intenational Industries, Incorporated | Approach for detecting alert signals in changing environments |
CN109147770B (zh) | 2017-06-16 | 2023-07-28 | 阿里巴巴集团控股有限公司 | 声音识别特征的优化、动态注册方法、客户端和服务器 |
US12016098B1 (en) | 2019-09-12 | 2024-06-18 | Renesas Electronics America | System and method for user presence detection based on audio events |
US11889288B2 (en) * | 2020-07-30 | 2024-01-30 | Sony Group Corporation | Using entertainment system remote commander for audio system calibration |
CN112162041B (zh) * | 2020-09-30 | 2024-06-14 | 陕西师范大学 | 一种基于幅度均方根值的高斯分布识别金属材料的方法 |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4133976A (en) * | 1978-04-07 | 1979-01-09 | Bell Telephone Laboratories, Incorporated | Predictive speech signal coding with reduced noise effects |
DE3102385A1 (de) * | 1981-01-24 | 1982-09-02 | Blaupunkt-Werke Gmbh, 3200 Hildesheim | Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern |
JPH02110658A (ja) * | 1988-10-19 | 1990-04-23 | Hitachi Ltd | 文書編集装置 |
DE69011709T2 (de) * | 1989-03-10 | 1994-12-15 | Nippon Telegraph & Telephone | Einrichtung zur Feststellung eines akustischen Signals. |
KR940001861B1 (ko) * | 1991-04-12 | 1994-03-09 | 삼성전자 주식회사 | 오디오 대역신호의 음성/음악 판별장치 |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
JP3484757B2 (ja) * | 1994-05-13 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び雑音区間検出方法 |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US6819863B2 (en) | 1998-01-13 | 2004-11-16 | Koninklijke Philips Electronics N.V. | System and method for locating program boundaries and commercial boundaries using audio categories |
US6714909B1 (en) * | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
US6801895B1 (en) * | 1998-12-07 | 2004-10-05 | At&T Corp. | Method and apparatus for segmenting a multi-media program based upon audio events |
FI118359B (fi) * | 1999-01-18 | 2007-10-15 | Nokia Corp | Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin |
US6556967B1 (en) * | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
US7065416B2 (en) * | 2001-08-29 | 2006-06-20 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to melodic movement properties |
US7242421B2 (en) * | 2000-11-10 | 2007-07-10 | Perceptive Network Technologies, Inc. | Methods of establishing a communications link using perceptual sensing of a user's presence |
US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
EP2242049B1 (en) * | 2001-03-28 | 2019-08-07 | Mitsubishi Denki Kabushiki Kaisha | Noise suppression device |
JP2004536348A (ja) * | 2001-07-20 | 2004-12-02 | グレースノート インコーポレイテッド | 録音の自動識別 |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
SE524162C2 (sv) * | 2002-08-23 | 2004-07-06 | Rickard Berg | Förfarande för att behandla signaler |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
JP3984526B2 (ja) * | 2002-10-21 | 2007-10-03 | 富士通株式会社 | 音声対話システム及び方法 |
US20040167767A1 (en) * | 2003-02-25 | 2004-08-26 | Ziyou Xiong | Method and system for extracting sports highlights from audio signals |
JP4348970B2 (ja) * | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
WO2004095315A1 (en) * | 2003-04-24 | 2004-11-04 | Koninklijke Philips Electronics N.V. | Parameterized temporal feature analysis |
US20060229878A1 (en) * | 2003-05-27 | 2006-10-12 | Eric Scheirer | Waveform recognition method and apparatus |
MXPA05012785A (es) * | 2003-05-28 | 2006-02-22 | Dolby Lab Licensing Corp | Metodo, aparato y programa de computadora para el calculo y ajuste de la sonoridad percibida de una senal de audio. |
US20050091066A1 (en) * | 2003-10-28 | 2005-04-28 | Manoj Singhal | Classification of speech and music using zero crossing |
US20050096898A1 (en) * | 2003-10-29 | 2005-05-05 | Manoj Singhal | Classification of speech and music using sub-band energy |
EP1531458B1 (en) * | 2003-11-12 | 2008-04-16 | Sony Deutschland GmbH | Apparatus and method for automatic extraction of important events in audio signals |
FR2863080B1 (fr) * | 2003-11-27 | 2006-02-24 | Advestigo | Procede d'indexation et d'identification de documents multimedias |
US7179980B2 (en) * | 2003-12-12 | 2007-02-20 | Nokia Corporation | Automatic extraction of musical portions of an audio stream |
US7120576B2 (en) * | 2004-07-16 | 2006-10-10 | Mindspeed Technologies, Inc. | Low-complexity music detection algorithm and system |
US7454333B2 (en) * | 2004-09-13 | 2008-11-18 | Mitsubishi Electric Research Lab, Inc. | Separating multiple audio signals recorded as a single mixed signal |
MX2007005027A (es) * | 2004-10-26 | 2007-06-19 | Dolby Lab Licensing Corp | Calculo y ajuste de la sonoridad percibida y/o el balance espectral percibido de una senal de audio. |
US8214214B2 (en) * | 2004-12-03 | 2012-07-03 | Phoenix Solutions, Inc. | Emotion detection device and method for use in distributed systems |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8126706B2 (en) | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
WO2007127023A1 (en) * | 2006-04-27 | 2007-11-08 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
TWI312982B (en) * | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US20080033583A1 (en) * | 2006-08-03 | 2008-02-07 | Broadcom Corporation | Robust Speech/Music Classification for Audio Signals |
US8948428B2 (en) * | 2006-09-05 | 2015-02-03 | Gn Resound A/S | Hearing aid with histogram based sound environment classification |
US8046218B2 (en) * | 2006-09-19 | 2011-10-25 | The Board Of Trustees Of The University Of Illinois | Speech and method for identifying perceptual features |
US20100046765A1 (en) * | 2006-12-21 | 2010-02-25 | Koninklijke Philips Electronics N.V. | System for processing audio data |
WO2008106036A2 (en) * | 2007-02-26 | 2008-09-04 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
ATE514163T1 (de) * | 2007-09-12 | 2011-07-15 | Dolby Lab Licensing Corp | Spracherweiterung |
JP4327886B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
US9344051B2 (en) * | 2009-06-29 | 2016-05-17 | Nokia Technologies Oy | Apparatus, method and storage medium for performing adaptive audio equalization |
WO2011015237A1 (en) * | 2009-08-04 | 2011-02-10 | Nokia Corporation | Method and apparatus for audio signal classification |
CN102044244B (zh) * | 2009-10-15 | 2011-11-16 | 华为技术有限公司 | 信号分类方法和装置 |
US9066171B2 (en) * | 2009-12-24 | 2015-06-23 | Nokia Corporation | Loudspeaker protection apparatus and method thereof |
WO2011141772A1 (en) * | 2010-05-12 | 2011-11-17 | Nokia Corporation | Method and apparatus for processing an audio signal based on an estimated loudness |
-
2009
- 2009-08-04 WO PCT/EP2009/060122 patent/WO2011015237A1/en active Application Filing
- 2009-08-04 DE DE112009005215T patent/DE112009005215T8/de not_active Expired - Fee Related
- 2009-08-04 CN CN200980161483.0A patent/CN102498514B/zh not_active Expired - Fee Related
- 2009-08-04 US US13/388,988 patent/US9215538B2/en active Active
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732970A (zh) * | 2013-12-20 | 2015-06-24 | 中国科学院声学研究所 | 一种基于综合特征的舰船辐射噪声识别方法 |
CN104732970B (zh) * | 2013-12-20 | 2018-12-04 | 中国科学院声学研究所 | 一种基于综合特征的舰船辐射噪声识别方法 |
CN106104684A (zh) * | 2014-01-13 | 2016-11-09 | 诺基亚技术有限公司 | 多通道音频信号分类器 |
CN107146631A (zh) * | 2016-02-29 | 2017-09-08 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
CN107146631B (zh) * | 2016-02-29 | 2020-11-10 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
CN108431746A (zh) * | 2016-03-29 | 2018-08-21 | 微晶片科技德国公司 | 电容按钮上水的强固性及检测 |
CN108431746B (zh) * | 2016-03-29 | 2022-03-25 | 微晶片科技德国公司 | 电容按钮上水的强固性及检测 |
CN105872899A (zh) * | 2016-04-20 | 2016-08-17 | 乐视控股(北京)有限公司 | 音频播放方法、装置和终端设备 |
Also Published As
Publication number | Publication date |
---|---|
US9215538B2 (en) | 2015-12-15 |
US20130103398A1 (en) | 2013-04-25 |
WO2011015237A1 (en) | 2011-02-10 |
CN102498514B (zh) | 2014-06-18 |
DE112009005215T5 (de) | 2012-10-04 |
DE112009005215T8 (de) | 2013-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102498514B (zh) | 用于音频信号分类的方法和装置 | |
RU2417456C2 (ru) | Системы, способы и устройства для обнаружения изменения сигналов | |
JP3685812B2 (ja) | 音声信号送受信装置 | |
CN107408392B (zh) | 译码方法和设备 | |
CN102741918A (zh) | 用于话音活动检测的方法和设备 | |
RU2284664C2 (ru) | Способ улучшенного обнаружения ошибок скорости в приемниках с переменной скоростью и устройство для его осуществления | |
CN103841491A (zh) | 用于管理多个麦克风和扬声器的自适应系统 | |
CN104956437B (zh) | 执行增益控制的系统及方法 | |
CN103026407A (zh) | 带宽扩展器 | |
KR20070042565A (ko) | 오디오 신호 내에서 음성활동 탐지 | |
WO1995012879A1 (en) | Discriminating between stationary and non-stationary signals | |
CN101149921A (zh) | 一种静音检测方法和装置 | |
CN111433737A (zh) | 电子装置及其控制方法 | |
JP2019053321A (ja) | 音声信号を検出するための方法および装置 | |
EP2309498B1 (en) | A communication device with reduced noise speech coding | |
CN104269177A (zh) | 一种语音处理方法及电子设备 | |
DK2102861T3 (en) | SYSTEMS AND PROCEDURES FOR DYNAMIC NORMALIZATION TO REDUCE LOSS IN PRECISION FOR LOW LEVEL SIGNALS | |
CN1046366C (zh) | 静态和非静态信号的鉴别 | |
EP2127088B1 (en) | Audio quantization | |
US20150023508A1 (en) | Apparatus and method for automatic audio system and recovery from unexpected behaviors | |
JP4551817B2 (ja) | ノイズレベル推定方法及びその装置 | |
CN103916511A (zh) | 信息处理的方法及电子设备 | |
JPH1093454A (ja) | デジタル受信機内にノイズを発生する装置および方法 | |
CN110895930B (zh) | 语音识别方法及装置 | |
JP2005253097A (ja) | 音声信号送受信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160115 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140618 Termination date: 20160804 |