CN101740038B - 声音处理装置、声音处理方法 - Google Patents

声音处理装置、声音处理方法 Download PDF

Info

Publication number
CN101740038B
CN101740038B CN200910209328.3A CN200910209328A CN101740038B CN 101740038 B CN101740038 B CN 101740038B CN 200910209328 A CN200910209328 A CN 200910209328A CN 101740038 B CN101740038 B CN 101740038B
Authority
CN
China
Prior art keywords
sound
volume
import
unit
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910209328.3A
Other languages
English (en)
Other versions
CN101740038A (zh
Inventor
难波隆一
安部素嗣
西口正之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101740038A publication Critical patent/CN101740038A/zh
Application granted granted Critical
Publication of CN101740038B publication Critical patent/CN101740038B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种声音处理装置、声音处理方法及程序。提供了一种声音处理装置,包括:声音分离单元,将输入声音分离为由多个声源产生的多个声音;声音类型估计单元,估计经声音分离单元分离的多个声音的声音类型;混合比计算单元,根据由声音类型估计单元估计出的声音类型计算每个声音的混合比;以及声音混合单元,以由混合比计算单元计算出的混合比来混合经声音分离单元分离的多个声音。

Description

声音处理装置、声音处理方法
技术领域
本发明涉及声音处理装置、声音处理方法及程序,并且更具体地涉及对基于输入声音特性而分离的声音进行重新混合的声音处理装置、声音处理方法及程序。 
背景技术
通话语音、拍摄对象的声音等通常是由诸如移动电话和摄录像机之类的装配有能够记录声音的声音记录装置的设备来记录的。记录在声音记录装置中的声音具有源自各种声源的声音,包括人发出的语音以及混合在其中的环境噪声。如果源自各种声源的声音被混合并且源自所希望声源的声音比源自其它声源的声音相对低地被记录,则存在的问题在于难以确定所希望声音的内容。 
因此,已公开了如下技术:对源自各种声源的声音在其中被混合的经混合声音进行分离,并且随后以所希望的音量重新混合每个经分离的声音(例如,日本专利申请早期公开No.2003-131686以及日本专利申请早期公开No.5-56007)。根据日本专利申请早期公开No.2003-131686,预先学习表示语音的相似度或音乐的相似度的特性数据并且针对旁白信号被叠加在其上的音乐信号估计出语音信号对音乐信号的混合比,以能够强调所希望的语音。根据日本专利申请早期公开No.5-56007,被预先添加了用于将广播语音分离为语音信号和背景噪声的额外信息的广播语音在被接收之后被分离为语音信号和背景噪声,以使得可以以所希望的音量重新混合语音信号。 
发明内容
然而,日本专利申请早期公开No.2003-131686存在的问题在于难以 在不预先学习的情况下来分离经混合的声音。日本专利申请早期公开No.5-56007存在的问题在于难以在不预先添加信息的情况下以所希望的比率重新混合语音。 
本发明是鉴于上面的问题作出的,并且希望提供能够在不用预先学习的情况下分离源自各种声源的经混合声音并以所希望比率重新混合的新颖的经改进声音处理装置、声音处理方法以及程序。 
根据本发明的一个实施例,提供了一种声音处理装置,包括:声音分离单元,将输入声音分离为由多个声源产生的多个声音;声音类型估计单元,估计经声音分离单元分离的多个声音的声音类型;混合比计算单元,根据由声音类型估计单元估计出的声音类型计算每个声音的混合比;以及声音混合单元,以由混合比计算单元计算出的混合比来混合经声音分离单元分离的多个声音。 
根据上面的配置,输入到声音处理装置的输入声音被分离为由多个声源产生的声音,并且多个经分离声音的类型被估计。然后,根据估计出的声音类型计算每个声音的混合比,并且以该混合比重新混合每个经分离的声音。因此,通过分离源自各个声源的经混合声音并以所希望比率重新混合各个经分离的声音,变得能够独立地控制源自不同声源的声音。可以防止所希望声音因被音量高于所希望声音的音量的声音掩盖而难以被听见。而且,可以将源自各个声源的音量调节为所希望音量,而无需针对每个不同声源布置麦克风等。 
声音分离单元可以以预定长度的块为单位将输入声音分离为多个声音,包括:相同性确定单元,判断经声音分离单元分离的声音在多个块间是否相同;以及记录单元,以块为单位记录经声音分离单元分离的声音的音量信息。 
声音分离单元可以利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。 
声音分离单元可以利用声源的时间频率成分之间的少量重叠(apaucity of overlapping),来将输入声音分离为源自特定声源的声音以及其它声音。 
声音类型估计单元可以利用输入声音的离散时间处的幅度信息分布、方向、音量、过零数等来估计输入声音是稳定声音还是不稳定声音。 
声音类型估计单元可以对被估计为不稳定声音的声音是噪声声音还是人发出的语音进行估计。 
混合比计算单元可以计算出不会显著改变被声音类型估计单元估计为稳定声音的声音的音量的混合比。 
混合比计算单元可以计算出使被声音类型估计单元估计为噪声声音的声音的音量降低而不使被估计为人发出的语音的声音的音量降低的混合比。 
根据本发明的另一实施例,提供了一种声音处理方法,包括以下步骤:将由声音处理装置输入的输入声音分离为多个声音;估计多个经分离声音的声音类型;根据估计出的声音类型计算每个声音的混合比;以及以计算出的混合比来混合多个经分离声音。 
根据本发明的另一实施例,提供了一种使得计算机用作声音处理装置的程序,所述声音处理装置包括:声音分离单元,将输入声音分离为多个声音;声音类型估计单元,估计经声音分离单元分离的多个声音的声音类型;混合比计算单元,根据由声音类型估计单元估计出的声音类型计算每个声音的混合比;以及声音混合单元,以由混合比计算单元计算出的混合比来混合由声音分离单元分离的多个声音。 
根据本发明,如上所述,源自各种声源的经混合声音可以被分离,并且随后以所希望比率被重新混合而不用执行预处理。 
附图说明
图1是示出根据本发明实施例的声音处理装置的功能配置的框图; 
图2是示出根据本实施例的声音类型估计单元的配置的功能框图; 
图3是示出基于两个输入声音的相位差来估计输入声音的声源位置的状态的示意图; 
图4是示出基于三个输入声音的相位差来估计输入声音的声源位置的状态的示意图; 
图5是示出基于两个输入声音的音量来估计输入声音的声源位置的状态的示意图; 
图6是示出基于三个输入声音的音量来估计输入声音的声源位置的状态的示意图; 
图7是图示出根据本实施例的微调降低比率的状态的示意图;以及 
图8是示出根据本实施例由声音处理装置执行的声音处理方法的处理流程的流程图。 
具体实施方式
下面,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,用相同的标号表示具有基本上相同的功能和结构的结构元件,并且省略对这些结构元件的重复说明。 
将以如下所示的顺序来描述“具体实施方式”: 
[1]实施例的目的 
[2]声音处理装置的功能配置 
[3]声音处理装置的操作 
[1]实施例的目的 
首先,将描述本发明实施例的目的。通话语音、拍摄对象的声音等通常是由诸如移动电话和摄录像机之类的装配有能够记录声音的声音记录装置的设备来记录的。记录在声音记录装置中的声音具有源自各种声源的声音,包括人发出的语音以及混合在其中的环境噪声。如果源自各种声源的声音被混合并且源自所希望声源的声音比源自其它声源的声音相对低地被记录,则存在的问题在于难以确定所希望声音的内容。 
因此,已公开了如下技术:对源自各种声源的声音在其中被混合的经混合声音进行分离,并且随后以所希望的音量重新混合每个经分离的声音。例如已知了如下技术:预先学习表示语音的相似度或音乐的相似度的特性数据并且针对旁白信号被叠加在其上的音乐信号来估计出语音信号对音乐信号的混合比,以能够强调所希望的语音。此外,已知了如下技术: 被预先添加了用于将广播语音分离为语音信号和背景噪声的额外信息的广播语音在被接收之后被分离为语音信号和背景噪声,以使得可以以所希望的音量重新混合语音信号。 
然而,在相关技术中,存在的问题在于难以在不预先学习或不预先添加信息的情况下分离经混合的声音或以所希望比率重新混合声音。即,由于与实时输入的声音或广播声音不同,难以针对个人拍摄的内容等进行预先学习或预先添加信息,因此,难以获取所希望的声音。因此,鉴于所关注的上述情形,开发出了根据本发明实施例的声音处理装置10。根据本实施例中的声音处理装置10,源自各种声源的经混合声音可以被分离并且随后以所希望比率被重新混合而不用执行预处理。 
[2]声音处理装置的功能配置 
接下来,将参考图1描述声音处理装置10的功能配置。如上所述,根据本实施例的声音处理装置10可以分离源自各种声源的经混合声音,并且随后以所希望比率进行重新混合而不用执行预处理。作为声音处理装置10,例如,可以以安装在成像装置中的声音记录/再现装置为例。 
为了利用安装在成像装置中的声音处理装置来记录声音信号,源自所希望声源的声音可能因为被源自其它声源的声音掩盖所以未以成像装置的操作者所希望的适当音量平衡被记录。此外,如果在多种情形中记录的声音被再现,则记录水平可能波动较大,所以通常难以以固定再现音量舒适地收听声音。然而,根据本实施例中的声音处理装置10,通过以固定再现音量来记录声音,变得能够以操作者所希望的适当音量平衡来记录源自所希望声源的声音或舒适地收听声音。 
图1是示出根据本实施例的声音处理装置10的功能配置的框图。如图1所示,声音处理装置10包括:声音记录单元110、声音分离单元112、记录单元114、存储单元116、相同性确定单元118、混合比计算单元120、声音类型估计单元122以及声音混合单元124。 
声音记录单元110记录声音并离散地量化所记录的声音。声音记录单元110包含两个或更多个实体上分离的记录单元(例如,麦克风)。声音 记录单元110可以包含两个记录单元,一个记录单元用于记录左边的声音,而另一个记录单元用于记录右边的声音。声音记录单元110将经离散量化的声音作为输入声音提供给声音分离单元112。声音记录单元110可以以预定长度的块为单位将输入声音提供给声音分离单元112。 
声音分离单元112具有将输入声音分离为源自多个声源的多个声音的功能。更具体地,利用声源的统计独立性以及空间传输特性差异来分离由声音记录单元110提供的输入声音。如上所述,当以预定长度的块为单位从声音记录单元110来提供输入声音时,可以以块为单位来分离声音。 
作为通过声音分离单元112分离声源的具体技术,例如可以使用利用独立成分分析的技术(文章1:Y.Mori,H.Saruwatari,T.Takatani,S.Ukai,K.Shikano,T.Hietaka,T.Morita的Real-Time Implementation of Two-StageBlind Source Separation Combining SIMO-ICA and Binary Masking,IWAENC2005学报,(2005))。还可以使用利用声音的时间-频率成分之间的少量重叠的技术(文章2:0.Yilmaz和S.Richard的BlindSeparation of Speech Mixtures via Time-Frequency Masking,IEEETRANSACTIONS ON SIGNAL PROCESSING,VOL.52,NO.7,7月(2004))。 
相同性确定单元118具有如下功能:当声音分离单元112以块为单位将输入声音分离为多个声音时,判断分离后的声音在多个块间是否相同。相同性确定单元118例如利用由声音分离单元112提供的经分离声音在离散时间处的幅度信息分布、音量、方向信息等,来判断连续块之间的分离声音是否源自相同声源。 
记录单元114具有以块为单位将经声音分离单元分离的声音的音量信息记录在存储单元116中的功能。记录在存储单元116中的音量信息例如包括:由相同性确定单元118获取的每个经分离声音的声音类型信息,以及由声音分离单元112获取的经分离声音的平均值、最大值、方差等。除了实时声音之外,还可以记录过去被执行了声音处理的经分离声音的音量平均值。如果在输入声音之前可获得该输入声音的音量信息,则可以记录音量信息。 
声音类型估计单元122具有估计经声音分离单元112分离的多个声音的声音类型的功能。例如根据从经分离声音的音量以及幅度信息的分布、最大值、平均值、方差、过零数等获得的声音信息以及方向距离信息,来估计声音类型(稳定或不稳定,噪声或声音)。这里,将描述声音类型估计单元122的详细功能。下面将描述声音处理装置10被安装在成像装置中的情况。声音类型估计单元122判断源自成像装置附近的任何声音,例如成像装置的操作者的语音或操作者的操作产生的噪声是否被包含。从而,可以估计出产生声音的声源。 
图2是示出声音类型估计单元122的配置的功能框图。声音类型估计单元122包括音量检测单元130、声音质量检测单元138、距离/方向估计器144以及声音估计器146,其中,音量检测单元130包括音量检测器132、平均音量检测器134和最大音量检测器136,声音质量检测单元138包括频谱检测器140和声音质量检测器142。 
音量检测器132检测以预定长度的帧(例如,数十msec)给出的输入声音的音量值序列(幅度),并且将检测到的输入声音的音量值序列输出给平均音量检测器134、最大音量检测器136、声音质量检测器142和距离/方向估计器144。 
平均音量检测器134基于从音量检测器132输入的以帧为单位的音量值序列,例如以帧为单位检测输入声音的音量的平均值。平均音量检测器134将检测到的音量平均值输出给声音质量检测器142和声音估计器146。 
最大音量检测器136基于从音量检测器132输入的以帧为单位的音量值序列,例如以帧为单位检测输入声音的音量的最大值。最大音量检测器136将检测到的输入声音的音量最大值输出给声音质量检测器142和声音估计器146。 
频谱检测器140例如通过对输入声音执行FFT(快速傅立叶变换)来检测在输入声音的频域中的各个频谱。频谱检测器140将检测到的频谱输出给声音质量检测器142和距离/方向估计器144。 
声音质量检测器142具有输入给它的输入声音、音量的平均值、音量 的最大值以及频谱,检测人类语音的相似度、音乐的相似度、稳定性以及输入声音的脉冲特性(impulse property),然后将检测结果输出到声音估计器146。人类语音的相似度可以是指示出部分还是所有输入声音与人类语音相匹配或者输入声音与人类语音的类似程度的信息。此外,音乐的相似度可以是指示部分还是所有输入声音与音乐相匹配或者输入声音与音乐的类似程度的信息。 
稳定性例如指示像空调声音的,声音的统计特性不随时间显著改变的一种特性。脉冲特性例如指示像吹出的声音或爆破音的,能量集中在较短的时间段中的充满噪声的一种特性。 
声音质量检测器142例如可以基于输入声音的频谱分布与人类语音的频谱分布的匹配程度来检测人类语音的相似度。声音质量检测器142还可以通过将各帧的音量的最大值相比较或者与其它帧相比较,来检测音量的最大值增加时的较高脉冲特性。 
声音质量检测器142可以利用诸如过零方法和LPC(线性预测编码)分析之类的信号处理技术来分析输入声音的声音质量。根据过零方法,输入声音的基本周期被检测到,因此,声音质量检测器142可以根据该基本周期是否包含在人类语音的基本周期(例如,100到200Hz)中来检测人类语音的相似度。 
距离/方向估计器144具有输入给它的输入声音、输入声音的音量值序列、输入声音的频谱等。距离/方向估计器144具有如下功能:基于输入,作为位置信息计算单元来估计输入声音的声源,或者诸如产生了输入声音所包含的主导声音的声源的方向信息和距离信息之类的位置信息。距离/方向估计器144通过将输入声音的相位、音量和音量值序列与基于过去的平均音量值和最大音量值的声源位置信息估计方法相结合,即使在由成像装置的主体引起的声音的回响或反射具有较大影响时,也可以总地估计出声源的位置。将参考图3至图6描述距离/方向估计器144对方向信息和距离信息的估计方法的一个示例。 
图3是示出了基于两个输入声音的相位差来估计输入声音的声源位置的状态的示意图。如果假设声源是点声源,则可以测量到达构成声音记录 单元110的麦克风M1和麦克风M2的每个输入声音的相位以及输入声音的相位差。此外,可以根据输入声音的相位差以及频率f和声速c的值来计算从麦克风M1到输入声音的声源位置的距离与从麦克风M2到输入声音的声源位置的距离之间的差值。声源出现在距离差是常数的一组点上。已经知道,距离差是常数的这样一组点形成了双曲线。 
例如,假设麦克风M1位于(x1,0)而麦克风M2位于(x2,0)(基于该假设,不失一般性)。如果要确定的一组声源位置上的点在(x,y)处并且距离差为d,则下面所示的公式1成立: 
[式1] 
( x - x 1 ) 2 + y 2 - ( x - x 2 ) 2 + y 2 = d (公式1)
此外,公式1可被扩展为公式2,从公式2导出表示双曲线的公式3: 
[式2] 
{(x-x1)2+2y2+(x-x2)2-d2}2=4{(x-x1)2+y2}{(x-x2)2+y2
                                         (公式2)
[式3] 
( x - x 1 + x 2 2 ) 2 ( d 2 ) 2 - y 2 ( 1 2 ) 2 = 1 (公式3)
距离/方向估计器144还可以基于由麦克风M1和麦克风M2所记录的输入声音之间的音量差,来确定距离/方向估计器144更接近麦克风M1和麦克风M2中的哪个。因此,例如如图3所示,可以确定声源出现在更接近麦克风M2的双曲线1上。 
顺便提及,用来计算相位差的输入声音的频率f需要满足公式4中的与麦克风M1和麦克风M2之间的距离有关的条件: 
[式4] 
f < c 2 d (公式4)
图4是示出了基于三个输入声音间的相位差来估计输入声音的声源位置的状态的示意图。假设构成了声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置如图4所示。与到达麦克风M3和麦克风M4的输入声音的相位相比,到达麦克风M5的输入声音的相位可能被延迟。在此情况中,距离/方向估计器144可以确定声源位于相对于连接麦克风M3和麦克风M4的直线1的、麦克风M5的相对侧(前/后确定(front/backdetermination))。 
此外,距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的相位差来计算声源将出现在其上的双曲线2。随后,距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的相位差来计算声源将出现在其上的双曲线3。结果,距离/方向估计器144可以估计出双曲线2和双曲线3的交点P1是声源位置。 
图5是示出了基于两个输入声音的音量来估计输入声音的声源位置的状态的示意图。如果假设声源是点声源,则根据平方反比定律(inversesquare law),在一点处测得的音量与距离的平方成反比。如果假设了如图5所示的构成声音记录单元110的麦克风M6和麦克风M7,则到达麦克风M6和麦克风M7的音量的比率为常数的一组点形成圆周。距离/方向估计器144可以通过根据从音量检测器132输入的音量值来确定音量的比率,从而确定声源将出现在其上的圆周的半径和中心位置。 
如图5所示,假设麦克风M6位于(x3,0)而麦克风M7位于(x4,0)。在此情况中(基于该假设,不失一般性),如果要确定的一组声源位置上的点在(x,y),则从每个麦克风到声源的距离r1和r2可以表达为下面的公式5: 
[式5] 
r 1 = ( x - x 3 ) 2 + y 2 r 2 = ( x - x 4 ) 2 + y 2 (公式5)
这里,由于平方反比定律,下面的公式6成立: 
[式6] 
(公式6) 
利用正常数d(例如,4)将公式6变换为公式7: 
[式7] 
r 2 2 r 1 2 = d (公式7)
通过将r1和r2代入公式7得出了下面的公式8: 
[式8] 
( x - x 4 ) 2 + y 2 ( x - x 3 ) 2 + y 2 = d
( x - x 4 - d x 3 1 - d ) 2 + y 2 = d ( x 4 - x 3 ) 2 ( 1 - d ) 2 (公式8)
如图5所示,从公式8,距离/方向估计器144可以估计出声源出现在圆周1上,圆周1的中心坐标用公式9表示并且其半径用公式10表示。 
[式9] 
( x 4 - dx 3 1 - d , 0 ) (公式9)
[式10] 
| x 4 - x 3 1 - d | d (公式10) 
图6是示出了基于三个输入声音的音量来估计输入声音的声源位置的状态的示意图。假设了如图6所示的构成声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置。与到达麦克风M3或麦克风M4的输入声音的相位相比,到达麦克风M5的输入声音的相位可能被延迟。在此情况中,距离/方向估计器144可以确定声源位于相对于连接麦克风M3和麦克风M4的直线2的、麦克风M5的相对侧(前/后确定)。 
此外,距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的音量比率来计算声源将出现在其上的圆周2。随后,距离/方 向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的音量比率来计算声源将出现在其上的圆周3。结果,距离/方向估计器144可以估计出圆周2和圆周3的交点P2是声源位置。如果使用四个或更多个麦克风,则距离/方向估计器144可以进行更精确地估计,包括声源的空间布置。 
距离/方向估计器144如上所述那样基于输入声音的相位差或音量比率来估计输入声音的声源的位置,并且将估计出的声源的方向信息或距离信息输出给声音估计器146。下面的表1列出了上述音量检测单元130、声音质量检测单元138和距离/方向估计器144的每个组件的输入/输出。 
[表1] 
  块   输入   输出
  音量检测器   输入声音   以帧为单位的音量值  序列(幅度)
  平均音量检测器   以帧为单位的音量值  序列(幅度)   音量的平均值
  最大音量检测器   以帧为单位的音量值  序列(幅度)   音量的最大值
  频谱检测器   输入声音   频谱
  声音质量检测器   输入声音  音量的平均值  音量的最大值  频谱   人类语音的相似度  音乐的相似度  稳定或不稳定  脉冲特性
  距离/方向估计器   输入声音  以帧为单位的音量值  序列(幅度)  频谱   方向信息  距离信息
如果源自多个声源的声音被叠加在输入声音上,则距离/方向估计器144难以精确地估计出输入声音中所主要包含的声音的声源位置。然而,距离/方向估计器144可以估计出与输入声音中所主要包含的声音的声源位置接近的位置。估计出的声源位置可以用作声音分离单元112进行声音分离的初始值,因此,声音处理装置10即使在距离/方向估计器144估计出 的声源位置存在误差时,也可以执行所希望的操作。
将参考图2继续描述声音类型估计单元122的配置。声音估计器146基于输入声音的音量、声音质量和位置信息中的至少一个,总地判断输入声音中是否包含源自声音处理装置10附近的特定声源的任何邻近声音,例如操作者的语音或从操作者的操作产生的噪声。如果声音估计器146确定输入声音中包含邻近声音,则声音估计器146具有如下功能:作为声音确定单元来将在输入声音中包含邻近声音的消息(操作者语音出现信息)以及由距离/方向估计器144估计出的位置信息输出到声音分离单元112。 
更具体地,如果距离/方向估计器144估计出输入声音的声源的位置在成像方向上处于对视频成像的成像单元(未示出)之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量,则声音估计器146可以确定邻近声音被包含在输入声音中。 
如果输入声音的声源的位置在成像方向上处于成像单元之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量,则声音估计器146可以确定在输入声音中主要包含操作者的语音作为邻近声音。结果,可从后面所述的声音混合单元124获得降低了操作者语音的声音比率的经混合声音。 
声音估计器146使输入声音的声源的位置在离记录位置设置距离的范围内(声音处理装置10的附近,例如,声音处理装置10的1m内)。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量,则声音估计器146可以确定输入声音包含由特定声源产生的邻近声音。这里,当成像装置的操作者操作成像装置的按钮或者将成像装置从一只手移到另一只手时,通常会产生诸如“滴答”和“砰”之类的脉冲声音。此外,脉冲声音由装配有声音处理装置10的成像装置产生,因此,很有可能记录较大音量的脉冲声音。 
因此,声音估计器146使输入声音的声源的位置在离记录位置设置距离的范围内。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量,则输入声音可被确定为主要包含从操作者的操作产生的噪声作为邻近声音。结果,可从后面所述的声音混合单元124获得降低了从操作者的操 作产生的噪声的声音比率的经混合声音。 
另外,表2总结了输入到声音估计器146的信息以及声音估计器146基于输入信息的确定结果的示例。通过组合近程传感器(proximitysensor)、温度传感器等,可以提高声音估计器146的确定精度。 
[表2] 
Figure G2009102093283D00141
返回图1,混合比计算单元120具有根据由声音类型估计单元122估计出的声音类型计算每个声音的混合比的功能。例如,利用由声音分离单元112分离的经分离声音、声音类型估计单元122的声音类型信息以及记录在记录单元114中的音量信息来计算降低主导声音的音量的混合比。 
当声音类型较稳定时,也参考输出类型估计单元122的输出信息来计 算使得连续块之间的音量信息不会显著地改变的混合比。当声音类型不稳定(非稳定)并且更可能是噪声时,混合比计算单元120降低所关注的声音的音量。另一方面,如果声音类型是不稳定的并且更可能是由人发出的语音,则与噪声声音相比,较少地降低所关注的声音的音量。 
这里,将参考图7描述对降低比率进行微调(fine-tune)的方法。人类听觉或掩盖效应(masking effect)的频率特性(响度特性)可以用作微调降低比率的方法。更具体地,可以考虑如下方法。在人类听觉特性中,可感知2至4kHz的频率成分。如果其音量占主导的经分离声音主要包含这个频带,则具有倾向性地来设置混合比以使得与其它频带相比较多地抑制所关注频带。 
如图7所示,针对2至4kHz(频带a),即人类更易感知到的频带设置较小的混合比。因此,可以避免其它经分离声音被主导音量的经分离声音掩盖。针对具有较小分离精度的频带(频带b)相对地减小混合比。 
此外,考虑频谱掩盖效应(即这样的现象,其中,如果某个时刻在某个频率处存在较大声音,则邻近频率中的声音因被掩盖而不能听见)。在此情况中,声音分离单元112的分离精度不充分有保证的频带(频带b)中的声音的混合比相对地被减小。因此,可以设置具有倾向性以便被邻近频率(其分离精度充分有保证)的声音掩盖的混合比。 
通过利用上面的技术,自动地计算出了这样的经分离声音的重新混合比,其使得能够听见因较低幅度而被主导声源掩盖的声音。就此而言,在从经分离声音的音量信息和重新混合比确定的先前块和当前块之间的每个声源的音量没有显著改变的情况下,如果可能,可以使总音量在时间方向上可平滑连接的范围内保持恒定。可替代地,可以根据用户指定的设置来计算使特定声源显著减小的混合比。 
返回图1,声音混合单元124具有以混合比计算单元120提供的混合比来混合经声音分离单元112分离的多个声音的功能。例如,声音混合单元124可以将声音处理装置10的邻近声音与要记录的声音相混合,以使得邻近声音所占的音量比率低于邻近声音在输入声音中所占的音量比率。因此,如果输入声音的邻近声音的音量不必要地高,则可以获得这样的混 合声音,其中,从要记录的声音在输入声音中所占的音量比率起增加要记录的声音在混合声音中所占的音量比率。结果,可以防止要记录的声音被邻近声音埋没。 
[3]声音处理装置的操作 
在前面已描述了根据本实施例的声音处理装置10的功能配置。接下来,将参考图8描述由声音处理装置10执行的声音处理方法。图8是示出了根据本实施例由声音处理装置10执行的声音处理方法的处理流程的流程图。如图8所示,首先,声音处理装置10的声音记录单元110记录声音(S102)。 
接下来,声音记录单元110判断声音是否被输入(S104)。如果在步骤S104中不存在输入声音,则声音记录单元110终止处理。如果在步骤S104中存在输入声音,则声音分离单元112将输入声音分离为多个声音(S106)。在步骤S106,声音分离单元112可以以预定长度的块为单位来分离输入声音。 
然后,相同性确定单元118判断在步骤S106中以预定长度的块为单位被分离的输入声音在多个块间是否相同(S108)。相同性确定单元118可以利用在步骤S106中分离的以块为单位的声音在离散时间处的幅度信息的分布、音量、方向信息等,来确定相同性。 
接下来,声音类型估计单元122计算每块的音量信息(S110)以估计每块的声音类型(S112)。在步骤S112,声音类型估计单元122将声音分离为由操作者发出的语音、对象产生的声音、从操作者的操作产生的噪声、脉冲声音、稳定环境声音等。 
接下来,混合比计算单元120根据在步骤S112中估计出的声音类型来计算每个声音的混合比(S114)。混合比计算单元120基于在步骤S110中计算出的音量信息以及在步骤S112中计算出的声音类型信息来计算减小主导声音的音量的混合比。 
然后,利用在步骤S114中计算出的每个声音的混合比来混合在步骤S106中分离的多个声音(S116)。在前面,已描述了由声音处理装置10 执行的声音分离方法。 
根据上面的实施例,如上所述,输入到声音处理装置10的输入声音被分离为由多个声源产生的声音,并且多个经分离的声音类型被估计。然后,根据估计出的声音类型计算每个声音的混合比,并且以该混合比重新混合每个经分离的声音。因此,可以独立地控制源自不同声源的音量。此外,可以防止所希望声音因被音量高于所希望声音的音量的声音掩盖而不能被听见。而且,可以将源自各个声源的音量调节为所希望音量,而无需针对每个不同声源布置麦克风等。此外,即使所希望声音的音量在预定长度的各块间不同,也可以自动地调节音量,而不用用户的任何音量操作。 
本领域的技术人员应当明白,可以根据设计要求和其它因素进行各种修改、组合、子组合和变更,只要它们在所附权利要求或其等同物的范围之内。 
在上面的实施例中,例如,通过应用到装配有声音处理装置10的成像装置来描述了本发明,然而,本发明不限于这种示例。例如,本发明还可以应用到通信装置或者一般没有成像功能的声音记录装置。 
本申请包含与2008年11月04日向日本专利局提交的日本优先权专利申请JP 2008-283067中公开的主题有关的主题。 

Claims (8)

1.一种声音处理装置,包括:
声音分离单元,所述声音分离单元将输入声音分离为由多个声源产生的多个声音;
声音类型估计单元,所述声音类型估计单元估计经所述声音分离单元分离的多个声音的声音类型;
混合比计算单元,所述混合比计算单元根据由所述声音类型估计单元估计出的声音类型计算每个声音的混合比;以及
声音混合单元,所述声音混合单元以由所述混合比计算单元计算出的混合比来混合经所述声音分离单元分离的多个声音,
其中所述声音分离单元以预定长度的块为单位将所述输入声音分离为多个声音,并且所述声音处理装置还包括:相同性确定单元,所述相同性确定单元判断经所述声音分离单元分离的声音在多个块间是否相同;以及记录单元,所述记录单元以块为单位记录经所述声音分离单元分离的声音的音量信息,
并且其中所述混合比计算单元还根据所述记录单元中的所述音量信息来计算每个声音的混合比,并且,在从经分离声音的音量信息和所述混合比确定的先前块和当前块之间的每个声源的音量没有显著改变、在时间方向上能平滑连接的范围内,使总音量尽可能保持恒定。
2.根据权利要求1所述的声音处理装置,其中,所述声音分离单元利用声音的统计独立性以及空间传输特性的差异来将所述输入声音分离为多个声音。
3.根据权利要求1所述的声音处理装置,其中,所述声音分离单元利用声源的时间频率成分之间的少量重叠,来将所述输入声音分离为源自特定声源的声音以及其它声音。
4.根据权利要求1所述的声音处理装置,其中,所述声音类型估计单元利用所述输入声音的离散时间处的幅度信息分布、方向、音量、过零数来估计输入声音是稳定声音还是不稳定声音。
5.根据权利要求4所述的声音处理装置,其中,所述声音类型估计单元对被估计为不稳定声音的声音是噪声声音还是人发出的语音进行估计。
6.根据权利要求4所述的声音处理装置,其中,所述混合比计算单元计算不会显著改变被所述声音类型估计单元估计为稳定声音的声音的音量的混合比。
7.根据权利要求6所述的声音处理装置,其中,所述混合比计算单元计算使被所述声音类型估计单元估计为噪声声音的声音的音量降低而不使被估计为人发出的语音的声音的音量降低的混合比。
8.一种声音处理方法,包括以下步骤:
将由声音处理装置输入的输入声音分离为多个声音,并且以预定长度的块为单位将所述输入声音分离为多个声音;
判断经分离的声音在多个块间是否相同;
以块为单位记录经分离的声音的音量信息;
估计多个经分离声音的声音类型;
根据估计出的声音类型和所记录的音量信息来计算每个声音的混合比;以及
以计算出的混合比来混合多个经分离声音,
其中在从经分离声音的音量信息和所述混合比确定的先前块和当前块之间的每个声源的音量没有显著改变、在时间方向上能平滑连接的范围内,使总音量尽可能保持恒定。
CN200910209328.3A 2008-11-04 2009-11-04 声音处理装置、声音处理方法 Expired - Fee Related CN101740038B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008283067A JP4952698B2 (ja) 2008-11-04 2008-11-04 音声処理装置、音声処理方法およびプログラム
JP2008-283067 2008-11-04

Publications (2)

Publication Number Publication Date
CN101740038A CN101740038A (zh) 2010-06-16
CN101740038B true CN101740038B (zh) 2013-07-10

Family

ID=42131423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910209328.3A Expired - Fee Related CN101740038B (zh) 2008-11-04 2009-11-04 声音处理装置、声音处理方法

Country Status (3)

Country Link
US (1) US8996367B2 (zh)
JP (1) JP4952698B2 (zh)
CN (1) CN101740038B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5581329B2 (ja) 2010-06-30 2014-08-27 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
US9195740B2 (en) 2011-01-18 2015-11-24 Nokia Technologies Oy Audio scene selection apparatus
JP5737808B2 (ja) * 2011-08-31 2015-06-17 日本放送協会 音響処理装置およびそのプログラム
WO2013079993A1 (en) 2011-11-30 2013-06-06 Nokia Corporation Signal processing for audio scene rendering
CN103310787A (zh) * 2012-03-07 2013-09-18 嘉兴学院 一种用于楼宇安防的异常声音快速检方法
CN104063155B (zh) * 2013-03-20 2017-12-19 腾讯科技(深圳)有限公司 内容分享方法、装置及电子设备
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
JP6329753B2 (ja) * 2013-11-18 2018-05-23 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理システム、および、音判定方法
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
JP6313619B2 (ja) * 2014-03-20 2018-04-18 日本放送協会 音声信号処理装置及びプログラム
WO2015150066A1 (en) * 2014-03-31 2015-10-08 Sony Corporation Method and apparatus for generating audio content
JP6169526B2 (ja) * 2014-04-28 2017-07-26 日本電信電話株式会社 特定音声抑圧装置、特定音声抑圧方法及びプログラム
JP6501260B2 (ja) * 2015-08-20 2019-04-17 本田技研工業株式会社 音響処理装置及び音響処理方法
EP3387648B1 (en) 2015-12-22 2020-02-12 Huawei Technologies Duesseldorf GmbH Localization algorithm for sound sources with known statistics
US9830931B2 (en) * 2015-12-31 2017-11-28 Harman International Industries, Incorporated Crowdsourced database for sound identification
JP7404067B2 (ja) 2016-07-22 2023-12-25 ドルビー ラボラトリーズ ライセンシング コーポレイション ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送
JP6472823B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
CN109389989B (zh) * 2017-08-07 2021-11-30 苏州谦问万答吧教育科技有限公司 混音方法、装置、设备及存储介质
CN107736037A (zh) * 2017-08-30 2018-02-23 万魔声学科技有限公司 声音播放方法、设备及可读存储介质
JP6771681B2 (ja) * 2017-10-11 2020-10-21 三菱電機株式会社 空調用コントローラ
WO2019229199A1 (en) * 2018-06-01 2019-12-05 Sony Corporation Adaptive remixing of audio content
CN110111808B (zh) * 2019-04-30 2021-06-15 华为技术有限公司 音频信号处理方法及相关产品
CN116990755A (zh) * 2023-09-22 2023-11-03 海宁市微纳感知计算技术有限公司 一种鸣笛声源定位方法、系统、电子设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246690A (zh) * 2007-02-15 2008-08-20 索尼株式会社 声音处理设备、声音处理方法及程序

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236499A (ja) * 2000-12-06 2002-08-23 Matsushita Electric Ind Co Ltd 音楽信号圧縮装置、音楽信号圧縮伸張装置及び前処理制御装置
JP3933909B2 (ja) * 2001-10-29 2007-06-20 日本放送協会 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
JP4237699B2 (ja) * 2004-12-24 2009-03-11 防衛省技術研究本部長 混合信号分離・抽出装置
JP4649437B2 (ja) * 2007-04-03 2011-03-09 株式会社東芝 信号分離抽出装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246690A (zh) * 2007-02-15 2008-08-20 索尼株式会社 声音处理设备、声音处理方法及程序

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JP特开2006-178314A 2006.07.06
JP特开2008-258808A 2008.10.23
JP特开平5-56007A 1993.03.05
Ozgur Yilmaz et al.Blind Separation of Speech Mixtures via Time-Frequency Masking.《IEEE TRANSACTIONS ON SIGNAL PROCESSING》.2004,第52卷(第7期),1830-1847. *

Also Published As

Publication number Publication date
US20100111313A1 (en) 2010-05-06
JP4952698B2 (ja) 2012-06-13
JP2010112994A (ja) 2010-05-20
US8996367B2 (en) 2015-03-31
CN101740038A (zh) 2010-06-16

Similar Documents

Publication Publication Date Title
CN101740038B (zh) 声音处理装置、声音处理方法
CN101740027A (zh) 声音处理装置、声音处理方法及程序
CN101740035B (zh) 通话语音处理装置、通话语音处理方法
CN104781880B (zh) 用于提供通知的多信道语音存在概率估计的装置和方法
Ward et al. Particle filtering algorithms for tracking an acoustic source in a reverberant environment
EP3189521B1 (en) Method and apparatus for enhancing sound sources
US9813833B1 (en) Method and apparatus for output signal equalization between microphones
Georganti et al. Sound source distance estimation in rooms based on statistical properties of binaural signals
US9936328B2 (en) Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program
CN105409247A (zh) 用于音频信号处理的多声道直接-周围分解的装置及方法
CN105284133B (zh) 基于信号下混比进行中心信号缩放和立体声增强的设备和方法
CN103650537A (zh) 采用分解器产生输出信号的装置和方法
Vesa Binaural sound source distance learning in rooms
Shujau et al. Separation of speech sources using an acoustic vector sensor
Carlo et al. dEchorate: a calibrated room impulse response dataset for echo-aware signal processing
CN103901400A (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN109997186A (zh) 一种用于分类声环境的设备和方法
Nakano et al. Automatic estimation of position and orientation of an acoustic source by a microphone array network
Lopatka et al. Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks
Nakamura et al. Blind spatial sound source clustering and activity detection using uncalibrated microphone array
US20210368263A1 (en) Method and apparatus for output signal equalization between microphones
EP3029671A1 (en) Method and apparatus for enhancing sound sources
Park et al. Non-stationary sound source localization based on zero crossings with the detection of onset intervals
Wilson Estimating uncertainty models for speech source localization in real-world environments
Cem Catalbas et al. 3D Moving Sound Source Localization via Conventional Microphones.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130710

Termination date: 20201104

CF01 Termination of patent right due to non-payment of annual fee