CN110493692B - 信息处理装置 - Google Patents

信息处理装置 Download PDF

Info

Publication number
CN110493692B
CN110493692B CN201910827384.7A CN201910827384A CN110493692B CN 110493692 B CN110493692 B CN 110493692B CN 201910827384 A CN201910827384 A CN 201910827384A CN 110493692 B CN110493692 B CN 110493692B
Authority
CN
China
Prior art keywords
sound collection
information processing
processing apparatus
sound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910827384.7A
Other languages
English (en)
Other versions
CN110493692A (zh
Inventor
关矢俊之
小山裕一郎
平野雄哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/JP2016/073655 external-priority patent/WO2017064914A1/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority claimed from CN201680058465.XA external-priority patent/CN108141654B/zh
Publication of CN110493692A publication Critical patent/CN110493692A/zh
Application granted granted Critical
Publication of CN110493692B publication Critical patent/CN110493692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/03Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/025Arrangements for fixing loudspeaker transducers, e.g. in a box, furniture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3028Filtering, e.g. Kalman filters or special analogue or digital filters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3046Multiple acoustic inputs, multiple acoustic outputs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/04Supports for telephone transmitters or receivers
    • H04M1/05Supports for telephone transmitters or receivers specially adapted for use on head, throat or breast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Abstract

公开了一种信息处理装置,包括:第一声音收集单元;与第一声音收集单元不同的第二声音收集单元;报告单元,其通过以闪烁模式点亮来报告预定信息;保持构件,其保持第一声音收集单元、第二声音收集单元和所述报告单元;信号处理单元,其基于从第一声音收集单元收集的声音和从第二声音收集单元收集的声音,在保持构件佩戴在用户颈部上时提取用户说出的语音;其中,保持构件具有部分开口的环形形状以及在端部的至少一部分中具有流线型形状的突出部,其中,在保持构件佩戴在用户颈部上的情况下,保持构件保持第一声音收集单元面向基本上的竖直向上方向,并且保持第二声音收集单元面向用户的基本上前侧。

Description

信息处理装置
本申请是国际申请号为PCT/JP2016/079855,中国申请号为201680058465.X,申请日为2016年10月6日,发明名称为“信息处理装置”的中国发明专利申请的分案申请。
技术领域
本公开内容涉及一种信息处理装置。
背景技术
近年来,随着通信技术的进步或各种装置的小型化,诸如所谓的信息处理装置之类的装置的类型已经多样化。信息处理装置不限于个人计算机(PC)等,并且可以被用户携带的信息处理装置(例如智能电话或平板终端)也已经普及。特别地,最近还提出了可以佩戴在用户的身体部位上以能够在携带时使用的所谓可穿戴装置。
此外,近年来,随着所谓的语音识别技术或自然语言处理技术的发展,具有用户接口(UI)的信息处理装置也已经普及,利用该UI用户可以通过语音输入指示执行各种处理。
引用列表
专利文献
专利文献1:JP-2012-203122A
发明内容
技术问题
此外,在能够收集用户讲出的语音以用于语音识别、语音通话等的信息处理装置中,已经研究了能够通过抑制除了收集目标语音之外的其他声音(即噪声)来进一步提高声音收集质量的结构。例如,专利文献1公开了用于抑制噪声的结构的示例。
另一方面,在信息处理装置在户外使用的情况下等等,由于信息处理装置的使用场景多样化,所以假设信息处理装置的周围环境动态地改变的情况。在这种情况下,也可以假设从信息处理装置产生的声音(例如风噪声或伴随振动的声音)被收集作为噪声的情况。由于发生的位置或发生时间不规律,所以这样的声音是随机发生的噪声。
因此,本公开内容提出了一种即使在噪声随机发生的环境下也能够以更适合的方式收集目标声音的信息处理装置。
问题的解决方案
根据本公开内容,提供了一种信息处理装置,包括:声音收集单元;以及保持构件,其被配置成在其至少一部分中具有带流线型形状的突出部,并且保持声音收集单元,使得声音收集单元位于突出部的前端处或前端附近。
本发明的有益效果
上面描述的本公开内容提供了一种即使在噪声随机发生的环境下也能够以更适合的方式收集目标声音的信息处理装置。
注意,上述效果不一定是限制性的。与上述效果一起或替代于上述效果,可以实现本说明书中描述的效果中的任何一种效果或可以从本说明书掌握的其他效果。
附图说明
图1是示出根据本公开内容的第一实施方式的信息处理装置的示意性配置的示例的说明图。
图2是示出根据本公开内容的实施方式的信息处理装置的示意性配置的示例的说明图。
图3是示出在其中测量风声的影响的测量环境的示例的说明图。
图4是示出安装在信息处理装置中的多个声音收集单元的安装位置的示例的图。
图5是示出在风以不同角度到达信息处理装置的情况下由声音收集单元对风声进行的测量结果的示例的说明图。
图6是示出根据该实施方式的信息处理装置的功能配置的示例的框图。
图7是示出根据该实施方式的信息处理装置中的基于多个声音收集单元中的每一个的声音收集结果来获取目标声音的处理的示例的图。
图8是示出根据该实施方式的信息处理装置的一系列处理的流程的示例的流程图。
图9是示出根据示例1的信息处理装置的示例的说明图。
图10是示出根据示例1的信息处理装置的另一示例的说明图。
图11是示出根据示例1的信息处理装置的另一示例的说明图。
图12是示出根据示例2的信息处理装置的示例的说明图。
图13是示出根据示例2的信息处理装置的另一示例的说明图。
图14是示出根据示例2的信息处理装置的另一示例的说明图。
图15是示出根据实例2的信息处理装置的另一示例的说明图。
图16是示出根据示例3的信息处理装置的示例的说明图。
图17是示出根据修改示例3的信息处理装置30的使用形式的示例的说明图。
图18是示出根据示例4的信息处理装置的示例的说明图。
图19是示出根据示例4的信息处理装置的另一示例的说明图。
图20是示出根据示例5的信息处理装置的示例的说明图。
图21是示出根据示例5的信息处理装置中的成像单元的透镜附近的示意性配置的示例的说明图。
图22是示出根据本公开内容的第二实施方式的信息处理装置的功能配置的示例的框图。
图23是示出不相关分量功率估计单元的处理的基本原理的说明图。
图24是示出根据本公开内容的第三实施方式的信息处理装置的功能配置的示例的框图。
图25是示出根据该实施方式的信号处理装置的硬件配置的示例的图。
具体实施方式
在下文中,将参照附图详细描述本公开内容的(一个或多个)优选实施方式。注意,在本说明书和附图中,具有基本相同的功能和结构的结构元件用相同的附图标记表示,并且省略对这些结构元件的重复说明。
此外,将按照以下顺序进行描述。
1.第一实施方式
1.1.概述
1.2.声音收集单元的安装位置的研究
1.3.功能配置
1.4.处理
1.5.示例
1.5.1.示例1:佩戴在颈部的可穿戴装置的示例
1.5.2.示例2:佩戴在头部的可穿戴装置的示例
1.5.3.示例3:便携式信息终端的应用示例
1.5.4.示例4:手表式可穿戴装置的应用示例
1.5.5.示例5:成像装置的应用示例
2.第二实施方式
2.1.概述
2.2.功能配置
2.3.不相关分量功率估计单元的细节
2.4.随机噪声功率估计单元的细节
2.5.评价
3.第三实施方式
3.1.概述
3.2.功能配置
3.3.计算多通道维纳滤波器的方法的细节
3.4.评价
4.硬件配置
5.结论
<<1.第一实施方式>>
<1.1.概述>
首先,将参照图1描述根据本公开内容的第一实施方式的信息处理装置的示意性配置的示例。随后,将描述根据该实施方式的信息处理装置的技术问题。图1是示出根据本公开内容的第一实施方式的信息处理装置的示意性配置的示例的说明图。
在图1所示的示例中,信息处理装置10包括所谓的可穿戴装置。更具体地,信息处理装置10形成为部分开口的环形形状(换言之,头带形式或U形形式)并且被佩戴在用户身上,使得环形形状的内表面的至少一部分与用户的颈部的一部分接触(即,挂在颈上)。
此外,信息处理装置10包括声音收集单元(诸如所谓的麦克风),并且收集由用户讲出的语音作为来自声音收集单元的声音信息。例如,在图1所示的示例中,信息处理装置10包括由附图标记111至113表示的多个声音收集单元。更具体地,声音收集单元111至113例如由信息处理装置10的壳体101保持。
例如,图2是示出根据该实施方式的信息处理装置10的示意性配置的示例的说明图,并且是示出声音收集单元111被安装在信息处理装置10中的一部分的配置的示例的图。如图1和图2所示,当信息处理装置10被佩戴在用户的颈部时,具有流线型形状并且朝向用户的前侧突出的突出部被安装在用户的嘴部附近,并且声音收集单元111安装在突出部的前端处(或在前端附近)以面向突出部突出的方向。此外,声音收集单元111可以是与信息处理装置10分离的装置,并且可以保持在突出部的前端处(或在前端附近)以面向突出部突出的方向。此外,在以下描述中,在描述了声音收集单元110被安装在信息处理装置10中的情况下,假设还包括以下情况:声音收集单元110与信息处理装置10分离,并且被信息处理装置10的至少一部分保持。
此外,如图1所示,声音收集单元112和113被安装成在信息处理装置10中面向相互不同的方向。更具体地,当信息处理装置10被佩戴在用户的颈部时,声音收集单元112和113被安装在将用户的颈部设置作为参考的彼此基本对称的位置处。此外,下面将分别详细描述安装声音收集单元的位置。此外,在图1所示的示例中,声音收集单元112和113安装在具有环形形状的壳体101上,以面向环的外侧(即,与环的中心相反的一侧)。即,声音收集单元112和113被安装成面向彼此相反的方向。
在该配置中,例如,信息处理装置10可以通过基于语音识别技术或自然语言处理技术对声音收集单元(例如声音收集单元111至113)所收集的用户的语音(声音信息)执行分析来识别用户讲出的内容。因此,例如,信息处理装置10可以识别来自用户的指令内容,并且可以根据识别结果来执行各种处理(应用)。
此外,作为另一示例,信息处理装置10可以具有所谓的通话功能。在这种情况下,信息处理装置10可以将由声音收集单元(例如声音收集单元111至113)收集的语音传送给作为通话伙伴的另一信息处理装置。
另一方面,例如,假设信息处理装置10的周围环境在各种使用场景中动态地改变的情况,例如可以由用户携带的信息处理装置10(诸如图1所示的所谓的可穿戴装置)在户外使用的情况。在这种情况下,例如,在一些情况下,由信息处理装置10的声音收集单元收集随机发生的噪声,例如风声、伴随着振动的噪声以及由于佩戴装置而伴随的沙沙声。
因此,在本公开内容中,作为即使在噪声随机发生的环境中也能够以更合适的方式收集目标声音的结构的示例,将详细描述每个声音收集单元的安装位置以及基于由声音收集单元获得的声音收集结果的信号处理的示例。
<1.2.声音收集单元的安装位置的研究>
首先,将描述在根据该实施方式的信息处理装置10包括如图1所示的那样佩戴在用户颈部的可穿戴装置的情况的示例中能够以更合适的方式收集用户语音的声音收集单元的安装位置的研究的结果。更具体地,假设所谓的风声作为噪声,将描述由信息处理装置10中的声音收集单元中的每一个对风声进行的测量结果的示例,在该信息处理装置10中,在风以相互不同的角度到达的情况下声音收集单元被安装在多个地点。
例如,图3是示出测量风声的影响的测量环境的示例的说明图。在测量中,如图3所示,信息处理装置10被佩戴在假人偶U1的颈部,类似于用户胸部以上的部位,并且循环扇(circulator)U2被设置在假人偶U1的前方。然后,通过将假人偶U1的垂直方向设置为轴并且在0度至360度的范围内将假人偶U1旋转10度,风从循环扇U2到达信息处理装置10的角度被改变,并且测量由每个声音收集单元收集的风声的水平。
图4是示出在测量时安装在信息处理装置10中的多个声音收集单元的安装位置的示例的图。具体地,在图4所示的示例中,声音收集单元M1至M6安装在信息处理装置10中。附加在信息处理装置10中的标记示意性地指示安装声音收集单元M1至M6的位置。此外,在附加有箭头的标记中,箭头指示与标记对应的声音收集单元的方向。此外,对于没有附加箭头的标记,假设与标记对应的声音收集单元(即声音收集单元M3和M6)被设置成面向信息处理装置10的竖直向上方向(即,在附图的深度方向上的近侧)。
具体地,声音收集单元M1等同于参照图1描述的信息处理装置10中的声音收集单元111。即,当信息处理装置10被佩戴在用户身上时,声音收集单元M1安装在突出部的前端处,该突出部被安装成在等同于用户嘴部附近的位置处朝向用户的前侧突出。此外,声音收集单元M5等同于参照图1描述的信息处理装置10中的声音收集单元112。即,当信息处理装置10被佩戴在用户身上时,声音收集单元M5被安装在等同于用户左侧的位置处的信息处理装置10的壳体101的外部(图3中大约为270度的方向),以面向壳体101的外部(换言之,图3中大约270度的方向)。
此外,当信息处理装置10被佩戴在用户身上时,声音收集单元M2至M4和M6被安装在等同于用户右前方的区域的位置处(换言之,图3中大约45度的方向)。此时,声音收集单元M2被安装成经由信息处理装置10的壳体101与用户颈部之间的空间面向壳体101的内部。此外,声音收集单元M4安装在信息处理装置10的壳体101的外部,以面向壳体101的外部(换言之,图3中大约45度的方向)。此外,如上所述,声音收集单元M3和M6被安装成面向竖直向上方向。
此外,图5是示出在风以不同角度到达信息处理装置10的情况下由声音收集单元对风声进行的测量结果的示例的说明图。即,图5示出了在参照图3所描述的测量环境中由参照图4所描述的声音收集单元M1至M6对风声进行的声音收集结果的示例。此外,在示出声音收集单元M1至M6的声音收集结果的曲线图中,如图5所示,沿圆周方向书写的数值指示风从循环扇U2到达的方向。此外,沿曲线图的径向方向书写的数值指示由对应的声音收集单元收集的声音的水平(即,声音收集单元的测量水平)。即,在图5所示的示出声音收集单元M1至M6的声音收集结果的曲线图中,随着测量水平越小(换言之,测量值位于曲线图的内侧),意味着风声(即噪声)的影响越小。
此处,特别地,当关注声音收集单元M1的测量结果时,可以理解的是,在风从用户的前方到达的情况下(即0度的方向),风声的影响很小。此外,对于声音收集单元M1,可以理解的是,即使在风从正面以外的方向到达的情况下,风声的影响也小于其他声音收集单元中的风声的影响。
由此,例如,预计的是,可以通过以下方式来降低随机发生的噪声(例如风声)的影响:在流线型突出部的前端处(或在前端附近)安装声音收集单元,以面向突出部突出的方向,如图1所示的声音收集单元111中那样。
此外,当关注声音收集单元M5和M6的测量结果时,可以理解的是,在风从用户的颈部侧到达声音收集单元的情况下风声的影响很小。预计的是,这是因为风被用户的颈部或头部阻挡,并且因此风声的影响降低。
由此,例如,预计的是,通过以下方式来补偿另一声音收集单元(例如图1所示的声音收集单元111)的特性:安装声音收集单元以使得用户的佩戴有信息处理装置10的部位(例如颈部或头部)可以用作抵抗风的屏障等,如图1所示的声音收集单元112和113中那样。
上面已经参照图3至图5描述了在根据该实施方式的信息处理装置10包括佩戴在用户颈部的可穿戴装置的情况的示例中能够以更适合的方式(即,使诸如风声的噪声的影响更小)收集用户语音的声音收集单元的安装位置的研究的结果。
<1.3.功能配置>
接下来,将参照图6,特别是通过关注基于信息处理装置10中的多个声音收集单元中的每一个的声音收集结果来获取目标声音(例如用户的语音)的处理,来描述根据该实施方式的信息处理装置10的功能配置的示例。图6是示出根据该实施方式的信息处理装置10的功能配置的示例的框图。
如图6所示,信息处理装置10包括多个声音收集单元111至11M(其中M是正整数)、频率分解单元13、通道功率估计单元15、滤波器估计单元16、滤波器处理单元17以及频率组合单元18。此外,在下面的描述中,在声音收集单元111至11M彼此没有特别区分的情况下,声音收集单元111至11M在一些情况下被称为“声音收集单元110”。此外,声音收集单元110的数目(即M)不受特别限制,只要声音收集单元的数目是多个。声音收集单元的数目优选为3个或更多个。
声音收集单元110包括收集外部环境的声音(即通过外部环境传播并且到达的声音)的声音收集装置,如所谓的麦克风。此外,由声音收集单元110收集从用户输入的语音以被信息处理装置10接收。此外,例如,声音收集单元110可以包括多个声音收集装置,如麦克风阵列。声音收集单元110将基于外部环境的声音的声音收集结果的声音信号输出至频率分解单元13。此外,从声音收集单元110输出的声音信号的增益可以由例如放大器等来调节,经调节的声音信号可以通过AD转换从模拟信号转换成数字信号,并且数字信号可以输入至频率分解单元13。此外,在下面的描述中,在m(其中1≤m≤M)是声音收集单元110的通道编号,并且n是离散时间的情况下,从声音收集单元110输出的声音信号被表示为xm(n)。
频率分解单元13将从声音收集单元110输出的声音信号xm(n)分解成频率分量,并且输出频率分量。具体地,频率分解单元13通过对获取的声音信号xm(n)执行诸如帧划分、应用预定窗口函数、时频转换(例如快速傅立叶变换(FFT)、离散傅立叶变换(DFT)等)等的处理,来将声音信号xm(n)分解成频率分量。此外,在下面的描述中,声音信号xm(n)的频率分量在一些情况下被书写为Xm(i,k)。此处,i指示帧编号,k指示离散频率编号。然后,频率分解单元13将获取的声音信号xm(n)的每个频率分量Xm(i,k)输出至位于后级的滤波器处理单元17和通道功率估计单元15中的每一个。因此,关于声音收集单元111至11M中的每一个,声音信号xm(n)的每个频率分量Xm(i,k)被输出至滤波器处理单元17和通道功率估计单元15中的每一个。
通道功率估计单元15从频率分解单元13获取每个声音收集单元110(即,声音收集单元111至11M中的每一个)的声音信号xm(n)的每个频率分量Xm(i,k)。随后,通道功率估计单元15基于与每个声音收集单元110对应的声音信号xm(n)的每个频率分量Xm(i,k),针对每个频率估计每个声音收集单元110的功率谱。此处,在Pm(i,k)是第m个声音收集单元110(即声音收集单元11m)中与i帧和频率k对应的功率谱的情况下,功率谱Pm(i,k)被表示在下面示为(表达式1)的计算表达式中。此外,在下面的(表达式1)中,Xm*(i,k)指示Xm(i,k)的共轭复数。此外,在(表达式1)中,r是用于抑制功率谱中的突然变化的帧方向的平滑系数(0≤r<1)。
[数学式1]
Pm(i,k)=r·Pm(i-1,k)+(1-r)·Xm(i,k)·Xm *(i,k)
…(表达式1)
然后,通道功率估计单元15针对每个频率向滤波器估计单元16输出每个声音收集单元110的功率谱Pm(i,k)的估计结果。
滤波器估计单元16计算用于将在下面描述的滤波器处理单元17的滤波器系数,以基于从通道功率估计单元15输出的针对每个频率的每个声音收集单元110的功率谱Pm(i,k)的估计结果,来执行滤波处理。
具体地,滤波器估计单元16基于针对每个频率从通道功率估计单元15获取的每个声音收集单元110的功率谱Pm(i,k)的估计结果,来生成在下面的(表达式2)中表示的矩阵R(i,k)。
[数学式2]
Figure BDA0002189536140000101
此外,针对每个声音收集单元110,滤波器估计单元16基于声音收集单元110与目标声音的声源(例如用户的嘴部等)之间的距离,针对每个频率来计算阵列流形向量(arraymanifold vector)a(k),该阵列流形向量a(k)指示到声音收集单元110之前的衰减和延迟特性。此外,当信息处理装置10被佩戴在用户身上时,可以基于声源与信息处理装置10(进一步地,安装在信息处理装置10中的每个声音收集单元110)之间的相对位置关系预先指定目标声音的声源与每个声音收集单元110之间的距离。
此处,阵列流形向量a(k)被表示在下面被示为(表达式3)和(表达式4)的计算表达式中。此外,在下面的计算表达式中,dm指示目标声音的声源(例如嘴部)与第m个声音收集单元110(即声音收集单元11m)之间的距离。此外,gm指示目标声音到达声音收集单元11m之前的衰减。此外,ωk指示与离散频率编号k对应的角频率。此外,C指示声速。此外,附有上标T的矩阵是矩阵的转置。此外,在下面的描述中,在一些情况下将附有上标T的矩阵称为“转置向量矩阵”。
[数学式3]
Figure BDA0002189536140000111
a(k)=[a1(k),a2(k),…,aM(k)]T
…(表达式4)
然后,滤波器估计单元16计算用于下面将要描述的滤波器处理单元17的滤波器系数w(i,k),以基于所生成的矩阵R(i,k)、计算的阵列流形向量a(k)以及如下面(表达式5)表示的条件来执行滤波处理。此处,附有上标H的矩阵指示矩阵的复共轭转置。此外,在下面的描述中,附有上标H的矩阵在一些情况下被称为“复共轭转置向量矩阵”。
[数学式4]
minw(i,k)HR(i,k)w(i,k)约束条件:wH(i,k)a(k)=1
…(表达式5)
针对每个频率的滤波器系数w(i,k)被表示在下面示为(表达式6)的计算表达式中。此外,i指示帧编号,k指示离散频率编号。
[数学式5]
Figure BDA0002189536140000112
此外,如上面(表达式6)指示的滤波器系数w(i,k)是以下系数:该系数将从目标声音的声源(例如嘴部)到达的分量a(k)的增益保持为1,并且使噪声分量(例如风声等)最小化,如上面(表达式5)中所表示的。然后,滤波器估计单元16将针对每个频率计算的滤波器系数w(i,k)输出至滤波器处理单元17。
滤波器处理单元17从频率分解单元13获取每个声音收集单元110(即,声音收集单元111至11M中的每一个)的声音信号xm(n)的每个频率分量Xm(i,k)。此外,滤波器处理单元17从滤波器估计单元16获取针对每个频率计算的滤波器系数w(i,k)。滤波器处理单元17使用每个声音收集单元110的声音信号xm(i,k)的每个频率分量Xm(i,k)作为输入信号,并且通过基于所获取的每个频率的滤波器系数w(i,k)执行滤波处理来生成输出信号Y(i,k)。
具体地,滤波器处理单元17使用每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)作为输入信号,并且通过以下方式来生成针对每个频率的输出信号Y(i,k):基于针对每个频率的所获取的滤波器系数w(i,k)对输入信号执行加权相加。例如,输出信号Y(i,k)被表示在下面示为(表达式7)的计算表达式中。此外,i指示帧编号,k指示离散频率编号。
[数学式6]
Figure BDA0002189536140000121
然后,滤波器处理单元17将针对每个频率生成的输出信号Y(i,k)输出至频率组合单元18。
频率组合单元18从滤波器处理单元17获取针对每个频率生成的输出信号Y(i,k)。频率组合单元18通过组合针对每个频率的所获取的输出信号Y(i,k)来生成声音信号y(n)。即,频率组合单元18执行与上述频率分解单元13相反的处理。具体地,频率组合单元18生成声音信号y(n),其中,通过对每个频率的输出信号Y(i,k)执行诸如频率-时间转换(例如逆FFT(IFFT)、逆DFT(IDFT)等)、应用预定窗函数、帧组合等的处理来组合每个频率的输出信号Y(i,k)。
例如,图7是示出在根据该实施方式的信息处理装置10中基于多个声音收集单元中的每一个的声音收集结果来获取目标声音的处理的示例的图。图7所示的示例指示使用四个麦克风(即,声音收集单元111至114)作为多个声音收集单元110的情况的示例。即,图7所示的示例指示声音收集单元111至114的声音收集结果(即收集的声音信号)的示例以及声音信号(组合声音)的示例,在该声音信号中,通过由信息处理装置10进行的信号处理而组合声音收集单元111至114的声音收集结果。
如上所述,将多个声音收集单元110中的每一个的声音收集结果(更具体地,声音信号xm(n)的每个频率分量Xm(i,k))进行组合的滤波处理的系数w(i,k)具有以下特性:在该特性中,从目标声音的声源(例如嘴部)到达的分量a(k)的增益保持为1,并且使噪声分量(例如风声等)最小化。在该配置中,每个声音收集单元110的声音收集结果被组合,使得噪声分量的水平较低的声音收集单元110的输入(换言之,噪声分量的影响较小的声音收集单元110)被加权,以进一步被优先化。通过该处理,即使在诸如风声的噪声随机发生的环境中,也可以通过抑制噪声的影响以更适当的方式收集目标声音。
此外,如上所述,根据该实施方式的信息处理装置10具有根据多个声音收集单元110的声音收集结果而组合目标声音的配置,并且不同于在多个声音收集单元110之间仅切换用于获取声音收集结果的声音收集单元110的配置。更具体地,在仅切换用于获取声音收集结果的声音收集单元110的配置的情况下,在一些情况下声音信号在切换之前和切换之后恶化。特别地,在诸如风声的噪声的到达方向动态改变的情况下,容易显现出声音信号的恶化。然而,根据本实施方式的信息处理装置10通过上述信号处理来组合目标声音。因此,即使在诸如风声的噪声的到达方向动态改变的情况下,也不会发生声音信号的恶化,并且可以以更自然的形式获取目标声音。
此外,对上述每个声音收集单元110的声音收集结果的信号处理仅是示例,并且信号处理的内容不受限制,只要每个声音收集单元110的声音收集结果可以被组合成使得噪声分量的水平较低的声音收集单元110的输入被加权以进一步被优先化。
然后,频率组合单元18输出生成的声音信号y(n),作为目标声音的声音收集结果。从频率组合单元18输出的声音信号y(n)用于例如由信息处理装置10执行的各种处理(例如语音识别、语音通话等)。
此外,图6所示的配置仅是示例,并且信息处理装置10的配置不限于图6所示的示例,只要能够实现上述各种处理。例如,在图6所示的示例中,针对声音收集单元111至11m中的每一个安装频率分解单元13,但一个频率分解单元13可以处理从多个声音收集单元110中的每一个输出的声音信号。此外,可以将配置的一部分附接至信息处理装置10的外部。作为具体示例,多个声音收集单元110中的至少一些可以从信息处理装置10分离开,以及可以附接到信息处理装置10。
上面参照图6和图7通过关注基于信息处理装置10中的多个声音收集单元中的每个声音收集单元的声音收集结果来获取目标声音的处理而描述了根据该实施方式的信息处理装置10的功能配置的示例。
<1.4.处理>
接下来,将参照图8,特别地通过关注基于信息处理装置10中的多个声音收集单元中的每个声音收集单元的声音收集结果来获取目标声音(例如用户的语音)的处理,来描述根据该实施方式的信息处理装置10的一系列处理的处理的示例。图8是示出根据该实施方式的信息处理装置10的一系列处理的流程的示例的流程图。
(步骤S101)
由多个声音收集单元110收集外部环境的声音以被信息处理装置10接收。声音收集单元110基于声音收集结果来调节声音信号(模拟信号)的增益、通过AD转换将经调节的声音信号从模拟信号转换成数字信号、并且将经转换的声音信号(数字信号)xm(n)输出至频率分解单元13。
(步骤S103)
频率分解单元13通过对从声音收集单元110输出的声音信号xm(n)执行帧划分、应用预定窗口函数、时频转换等,将声音信号xm(n)分解成频率分量。然后,频率分解单元13将声音信号xm(n)的每个频率分量Xm(i,k)输出至位于后级的滤波器处理单元17和通道功率估计单元15中的每一个。因此,对于多个声音收集单元110中的每一个,声音信号xm(n)的频率分量Xm(i,k)被输出至滤波器处理单元17和通道功率估计单元15中的每一个。
(步骤S105)
通道功率估计单元15从频率分解单元13获取每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)。随后,通道功率估计单元15基于与每个声音收集单元110对应的声音信号xm(n)的频率分量Xm(i,k),针对每个频率估计每个声音收集单元110的功率谱。然后,通道功率估计单元15将针对每个频率的每个声音收集单元110的功率谱Pm(i,k)的估计结果输出至滤波器估计单元16。
(步骤S107)
滤波器估计单元16计算用于下面将描述的滤波器处理单元17的滤波器系数w(i,k),以基于从通道功率估计单元15输出的针对每个频率的每个声音收集单元110的功率谱Pm(i,k)的估计结果来执行滤波处理。
具体地,滤波器估计单元16基于每个声音收集单元110的功率谱Pm(i,k)来生成矩阵R(i,k)。此外,对于每个声音收集单元110,滤波器估计单元16基于声音收集单元110与目标声音的声源之间的距离针对每个频率来计算阵列流形向量a(k),该阵列流形向量a(k)指示到声音收集单元110之前的衰减和延迟特性。然后,滤波器估计单元16基于所生成的矩阵R(i,k)和所计算的阵列流形向量a(k)来计算滤波器系数w(i,k),并且将滤波器系数w(i,k)输出至滤波器处理单元17。
(步骤S109)
滤波器处理单元17从频率分解单元13获取每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)。此外,滤波器处理单元17从滤波器估计单元16获取针对每个频率计算的滤波器系数w(i,k)。滤波器处理单元17使用每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)作为输入信号,并且通过以下方式针对每个频率生成输出信号Y(i,k):基于针对每个频率的所获取的滤波器系数w(i,k)对输入信号执行加权相加。然后,滤波器处理单元17将针对每个频率生成的输出信号Y(i,k)输出至频率组合单元18。
(步骤S111)
频率组合单元18通过对从滤波器处理单元17输出的针对每个频率的输出信号Y(i,k)执行诸如频时转换、应用预定窗口函数、以及帧组合的处理来组合针对每个频率的输出信号Y(i,k)。因此,生成声音信号y(n),在该声音信号y(n)中,每个声音收集单元110的声音收集结果被组合。此外,由频率组合单元18生成的声音信号y(n)用作例如由信息处理装置10执行的各种处理(例如语音识别、语音通话等)的声音收集结果。
已经参照图8,特别通过关注基于信息处理装置10中的多个声音收集单元中的每个声音收集单元的声音收集结果来获取目标声音的处理,描述了根据该实施方式的信息处理装置10的一系列处理的处理的示例。
<1.5.示例>
接下来,将描述根据该实施方式的其他类型的信息处理装置10作为示例。
<1.5.1.示例1:佩戴在颈部的可穿戴装置的示例>
首先,根据示例1,将参照图9至图11来描述包括可以安装在用户的颈部的可穿戴装置(诸如图1所示的所谓的颈带型可穿戴装置)的信息处理装置的示例。
例如,图9是示出根据示例1的信息处理装置的示例、并且示出包括可以佩戴在用户颈部的可穿戴装置的信息处理装置的示例的说明图。此外,在描述中,在一些情况下,图9所示的信息处理装置被称为“信息处理装置10a”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图9所示,信息处理装置10a包括声音收集单元111至114。声音收集单元111至113与上面参照图1描述的信息处理装置10的声音收集单元111至113对应。此外,在信息处理装置10a被佩戴在用户颈部的情况下,声音收集单元114被安装成在用户后侧的位置处面向用户的后侧。在该配置中,例如,可以进一步减轻从用户后侧到达的噪声的影响。
此外,在信息处理装置10a中,在安装有声音收集单元112至114的位置处安装具有流线型形状的突出部,该突出部在声音收集单元112至114所面向的方向上突出,并且在突出部的前端处安装声音收集单元112至114。在该配置中,如声音收集单元111中那样,可以减轻诸如风声的噪声的影响,并且因此声音收集单元112至114可以以更合适的方式收集沿突出部突出的方向(即,声音收集单元所面向的方向)到达的声音。
此外,安装突出部的位置(即安装声音收集单元110的位置)不受特别限制。因此,例如,通过安装诸如驱动器、电池等的各种电路,可以将突出部安装在壳体101中出现凸起的点处,并且声音收集单元110可以安装在突出部的前端处(或在前端附近)。
此外,图10是示出根据示例1的信息处理装置的另一示例、并且示出包括可以佩戴在用户颈部的可穿戴装置的信息处理装置的示例的说明图。此外,在描述中,图10所示的信息处理装置在一些情况下被称为“信息处理装置10b”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图10所示,信息处理装置10b具有环形形状,并且具有附图标记19所表示的部分可以被打开的配置。此外,通过打开附图标记19所表示的部分而彼此分开的端部可以被拆卸以及附接。在该配置中,信息处理装置10b被佩戴在用户身上,使得环形部分的内表面与用户的颈部接触(即佩戴在颈部)。
此外,在信息处理装置10b中,声音收集单元115至118被安装成在沿着形成为环形形式的壳体的外周的相互不同位置处面向环的外侧(即环的中心的相反侧)。此外,在信息处理装置10b中,声音收集单元115至118等同于根据上述实施方式的声音收集单元110(例如图1所示的声音收集单元111至113等)。
在该配置中,对于声音收集单元115至118中的每一个,由于从相对侧到达声音收集单元所面向的方向的噪声被佩戴有信息处理装置10b的用户的部位(即颈部)遮挡,所以噪声的影响被减轻。具体地,在图10所示的信息处理装置10b中,由于声音收集单元115至118中的每一个被保持为比图1所示的信息处理装置10更靠近用户的颈部,所以进一步减轻了诸如风声的噪声(特别是从用户的颈部侧到达的噪声)的影响。也明显的是,在参照图5所描述的声音收集单元M5和M6中(即,更靠近用户的部位的声音收集单元),从用户的所述部位侧到达的噪声的影响被进一步减轻。此外,由于声音收集单元115至118被安装成面向彼此不同的方向,所以例如,也可以基于一些声音收集单元的声音收集结果来补偿其他声音收集单元的特性。
此外,即使在图10所示的信息处理装置10b中,具有流线型形状的突出部可以被安装在壳体的至少一些部分中,并且声音收集单元110(例如声音收集单元115至118中的至少一些)可以被安装在突出部的前端处(或在前端附近)。
此外,图11是示出根据示例1的信息处理装置的又一示例、并且示出包括具有所谓的项链形状的可穿戴装置的信息处理装置的示例的说明图。此外,在描述中,图11所示的信息处理装置在某些情况下被称为“信息处理装置10c”,以将该该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
在图11中,附图标记119表示根据上述实施方式的信息处理装置10的声音收集单元110的示例。即,在具有项链形状的信息处理装置10c中,例如,当用户佩戴信息处理装置10c时,流线型突出部可以被安装在与所谓的挂件相当的部分中以面向用户的前侧。声音收集单元119可以被安装在突出部的前端处(或在前端附近)。
此外,在图11所示的示例中,一个声音收集单元110安装在信息处理装置10c中,但可以安装多个声音收集单元110。此外,在多个声音收集单元110安装在信息处理装置10c中的情况下,多个声音收集单元110可以各自安装成面向彼此不同的方向。
作为示例1,上面已经参照图9至图11描述了包括佩戴在用户颈部的可穿戴装置(诸如图1所示的所谓的颈带型可穿戴装置)的信息处理装置10的示例。
<1.5.2.示例2:佩戴在头部的可穿戴装置的示例>
接下来,根据示例2,将参照图12至图15描述包括可以佩戴在头部的可穿戴装置的信息处理装置的示例。
例如,图12是示出根据示例2的信息处理装置的示例、并且示出包括可以佩戴在用户头部的可穿戴装置的信息处理装置的示例的说明图。此外,在描述中,图12所示的信息处理装置在一些情况下被称为“信息处理装置20a”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图12所示,当信息处理装置20a被佩戴在用户的头部时,其中嵌入有电路等以实现各种功能的壳体被保持在用户的耳部附近。作为具体示例,在图12所示的示例中,信息处理装置20a包括:耳机单元,其插入用户耳孔;以及保持构件,其具有线缆形式,并且当保持构件钩挂在用户的耳部上时支承壳体。在信息处理装置20a中,壳体通过耳机单元和具有线缆形式的保持构件而保持在用户的耳部附近。
此外,如图12所示,信息处理装置20a包括声音收集单元211和212。此外,在信息处理装置20a中,声音收集单元211和212等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如图1所示的声音收集单元111至113等)。
具体地,信息处理装置20a在壳体的端部处具有带流线型形状的突出部,该突出部突出以面向前侧,该壳体被保持在用户的耳部附近,并且在信息处理装置20a被佩戴在用户头部的状态下该端部位于用户的前侧。然后,声音收集单元211安装在突出部的前端,以面向突出部突出的方向(用户的前侧)。此外,在信息处理装置20a被佩戴在用户头部的情况下,声音收集单元212被安装在位于壳体的外部(即,与用户头部相反的一侧)的侧表面的至少一部分上,以面向外侧方向(即,用户的横向方向)。此外,信息处理装置20a可以包括具有流线型形状的突出部,该突出部在壳体的侧表面上沿壳体的外部方向突出,并且声音收集单元212可以安装在突出部的前端。
此外,已经描述了图12所示的示例,其关注在用户的左耳附近保持的壳体,但在用户右耳附近保持的壳体也可以具有与在左耳附近保持的壳体类似的配置。具体地,保持在右耳上的壳体可以与声音收集单元212具有等同的配置,或可以与声音收集单元211和212具有等同的配置。
此外,图13是示出根据示例2的信息处理装置的另一示例、并且示出包括可以佩戴在用户头部的所谓的眼镜型可佩戴装置的信息处理装置的示例的说明图。此外,在描述中,图13所示的信息处理装置在某些情况下被称为“信息处理装置20b”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图13所示,信息处理装置20b包括声音收集单元213至215。此外,在信息处理装置20b中,声音收集单元213至215等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如图1所示的声音收集单元111至113等)。
例如,在信息处理装置20b中,声音收集单元213安装在等同于眼镜正面的部分的至少一部分中。作为更具体的示例,信息处理装置20b包括具有流线型形状的突出部,该突出部在与眼镜的中梁(bridge)相当的部分中在前侧上突出,并且声音收集单元213被安装在突出部的前端处,以面向突出部突出的方向。此外,作为另一示例,如附图标记213'所示,突出部和声音收集单元可以安装在等同于眼镜正面的部分中、与等同于中梁的部分不同的另一部分中。
此外,在信息处理装置20b中,声音收集单元214和215安装在等同于眼镜镜腿的部分的至少一部分中。此外,例如,在信息处理装置20b佩戴在用户头部的情况下,声音收集单元214和215可以被安装成面向头部的相对侧的方向(用户的横向方向)。
此外,图14是示出根据示例2的信息处理装置的又一示例、并且示出包括可以佩戴在用户头部的可穿戴装置的信息处理装置的另一示例的说明图。此外,在描述中,图14所示的信息处理装置在一些情况下被称为“信息处理装置20c”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图14所示,信息处理装置20c包括声音收集单元216至218。此外,在信息处理装置20c中,声音收集单元216至218等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如图1所示的声音收集单元111至113等)。
更具体地,声音收集单元216至218被安装在等同于眼镜框架的部分(例如正面和镜腿)的相互不同位置处,以面向相互不同的方向。更具体地,在信息处理装置20c被佩戴在用户头部的情况下,声音收集单元216至218被安装成面向头部的相对侧的方向。
在该配置中,对于声音收集单元216至218中的每一个,由于从相对侧到达声音收集单元所面向的方向的噪声被用户的头部遮挡,所以减轻了噪声的影响。此外,由于声音收集单元216至218被安装成面向彼此不同的方向,所以例如也可以基于一些声音收集单元的声音收集结果来补偿其他声音收集单元的特性。
此外,图15是示出根据示例2的信息处理装置的又一示例、并且示出包括顶置式可穿戴装置(诸如所谓的头戴式耳机)的信息处理装置的示例的说明图。此外,在描述中,图15所示的信息处理装置在某些情况下被称为“信息处理装置20d”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
在图15所示的示例中,信息处理装置20d包括成像单元25和声音收集单元219。此外,在信息处理装置20d中,声音收集单元219等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如图1所示的声音收集单元111至113等)。
具体地,在信息处理装置20d被佩戴在用户头部的情况下,成像单元25被安装在信息处理装置20d的壳体中的以下位置处:在该位置处,用户的前侧处于视角内。例如,在图15所示的示例中,成像单元25安装在信息处理装置20d的壳体上以面向用户的前侧。
此外,信息处理装置20d具有带流线型形状的突出部,在信息处理装置20d佩戴在用户头部的状态下,该突出部在壳体的至少一部分中在用户的前侧上突出,并且声音收集单元219安装在突出部的前端处,以面向突出部突出的方向。例如,在图15所示的示例中,声音收集单元219安装在成像单元25附近。此外,作为另一示例,如附图标记219'所示,可以在将信息处理装置20d保持在用户头部上的保持构件的至少一部分中安装具有流线型形状的突出部,该突出部突出成面向用户的前侧,声音收集单元可以安装在突出部的前端处,以面向突出部突出的方向。
作为示例2,上面已经参照图12至图15描述了包括可以佩戴在头部的可穿戴装置的信息处理装置的示例。此外,上述示例仅是示例,并且本公开内容不一定限于前述示例。作为具体示例,包括具有所谓头带形状的头戴式可穿戴装置的信息处理装置可以具有与根据上述实施方式的信息处理装置10的声音收集单元110等同的配置。
<1.5.3.示例3:便携式信息终端的应用示例>
接下来,根据示例3,将参照图16和图17描述包括便携式信息终端(诸如所谓的智能电话)的信息处理装置的示例。
例如,图16是示出根据示例3的信息处理装置的示例的说明图。此外,在说明中,图16所示的信息处理装置在一些情况下被称为“信息处理装置30”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图16所示,信息处理装置30包括声音收集单元311至314。此外,在信息处理装置30中,声音收集单元311至314等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如图1所示的声音收集单元111至113等)。
具体地,信息处理装置30的壳体在至少一部分中具有大致矩形的表面36,具有流线型形状的突起部形成在包括表面36的角部(即,角部或角部附近)的预定区域中,以面向壳体的外部。换言之,信息处理装置30的壳体具有大致平坦的表面36以及形成为沿表面36的端部面向不同方向的多个侧表面371至374,以及在预定区域中的具有流线型形状的突出部,该预定区域包括侧表面连接的部分。此外,表面36可以等同于例如安装有显示单元(诸如显示器)的表面。此外,信息处理装置30的壳体的角部可以是突出部。然后,声音收集单元311至314中的每一个安装在突出部的一个前端处(或在前端附近),以面向信息处理装置30的壳体的外部。
此外,图17是示出根据修改示例3的信息处理装置30的使用形式的示例、并且示出用户使用信息处理装置30执行语音通话的情况的示例的说明图。
如图17所示,例如,在用户在将信息处理装置30保持在用户右耳附近的同时执行语音通话的情况下,信息处理装置30被保持成使得声音收集单元312面向用户的基本上前侧。在该配置中,例如,在用户在移动中执行语音通话的情况下,声音收集单元312很少受到以下风声的影响:该风声伴随着由于用户的移动而从前侧到达的风。此外,还可以假设用户在将信息处理装置30保持在用户左耳附近的同时执行语音通话的情况。在这种情况下,信息处理装置30被保持成使得声音收集单元311面向用户的基本上前侧,并且因此声音收集单元311很少受到以下风声的影响:该风声伴随着由于用户的移动而从前侧到达的风。即,信息处理装置30可以基于上述配置减轻以下风声的影响:该风声伴随着由于用户的移动而从前侧到达的风。
此外,在信息处理装置30中,声音收集单元311至314被安装成面向彼此不同的方向。在该配置中,信息处理装置30可以基于至少一些声音收集单元的声音收集结果来补偿其他声音收集单元的特性。
作为示例3,上面已经参照图16和图17描述了包括便携式信息终端(诸如所谓的智能电话)的信息处理装置的示例。
<1.5.4.示例4:手表式可穿戴装置的应用示例>
接下来,根据示例4,将参照图18和图19描述包括可以佩戴在手臂上的所谓手表式可穿戴装置的信息处理装置的示例。
例如,图18是示出根据示例4的信息处理装置的示例的说明图。此外,在描述中,图18所示的信息处理装置在一些情况下被称为“信息处理装置40a”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图18所示,信息处理装置40a包括声音收集单元411至415。此外,在信息处理装置30中,声音收集单元411至415等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如图1所示的声音收集单元111至113等)。
具体地,信息处理装置40a包括:壳体481,在该壳体481中嵌入有电路等以实现各种功能;以及具有带状的保持构件482,其将壳体481保持在用户的手臂上。壳体481的至少一部分具有大致矩形的表面,并且具有流线型形状的突出部形成在包括大致矩形表面的角部的预定区域中,以面向壳体481的外部,如根据上述示例3的信息处理装置30中那样。此外,大致矩形的表面等同于安装有所谓手表的表盘的一侧的表面。然后,声音收集单元411至414中的每一个安装在突出部的一个前端处(或在前端附近)以面向壳体481的外部。
此外,在保持构件482中,声音收集单元415被安装在将手臂设置为参考的情况下与壳体481基本上对称的位置处,以在处理装置40a被佩戴在手臂上的状态下面向手臂的相对侧的方向。
在该配置中,例如,即使在用户摆动佩戴有信息处理装置40a的他或她的手臂的情况下,信息处理装置40a的声音收集单元411至414中的至少一个面向与手臂摆动方向基本相同的方向。因此,信息处理装置40a可以根据声音收集单元411至414的声音收集结果减轻伴随着手臂摆动的风声的影响。此外,在信息处理装置40a中,声音收集单元411至415被安装成面向彼此不同的方向。具体地,对于声音收集单元415,从与声音收集单元415所面向的方向相对的一侧到达的噪声被佩戴有信息处理装置40a的手臂遮挡。在该配置中,信息处理装置40a还可以基于声音收集单元411至415中的至少一些声音收集单元的声音收集结果来补偿其他声音收集单元的特性。
此外,图19是示出根据示例4的信息处理装置的另一示例的说明图。此外,在描述中,图19所示的信息处理装置在一些情况下被称为“信息处理装置40b”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
如图19所示,信息处理装置40b在与附图标记483所表示的所谓手表的螺钉部(下文中称为“螺钉部483”)等同的部分中包括声音收集单元416。具体地,通过将螺钉部483形成为流线型形状,螺钉部483可以用作安装有声音收集单元416的突出部。此外,在信息处理装置40b中,声音收集单元416等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如声音收集单元111)。
作为示例4,上面参照图18和图19描述了包括可以佩戴在手臂上的所谓手表式可穿戴装置的信息处理装置的示例。
<1.5.5.示例5:成像装置的应用示例>
接下来,根据示例5,将参照图20和图21描述包括能够捕捉运动图像或静止图像的成像装置的信息处理装置的示例。
例如,图20是示出根据示例5的信息处理装置的示例的说明图。此外,在描述中,图20所示的信息处理装置在一些情况下被称为“信息处理装置50”,以将该信息处理装置与根据上述实施方式的信息处理装置10或根据其他示例的信息处理装置区分开。
在图20中,附图标记53表示捕捉图像(诸如运动图像或静止图像)的成像单元。此外,附图标记511和512表示安装在信息处理装置50中的声音收集单元的示例。此外,在信息处理装置50中,声音收集单元511和512等同于根据上述实施方式的信息处理装置10的声音收集单元110(例如图1所示的声音收集单元111至113等)。
具体地,如图20所示,信息处理装置50在以下表面的一部分中包括例如具有流线型形状的突出部:该表面是保持成像单元53的壳体的表面并且面向成像方向,该突出部在成像单元53捕捉图像的方向(下文中也称为“成像方向”)上突出。然后,声音收集单元511安装在突出部的前端处(或在前端附近)以面向成像单元53的成像方向(换言之,前侧)。
此外,声音收集单元512可以安装在成像单元53附近(例如成像单元53的透镜附近)。例如,图21是示出根据示例5的信息处理装置50中的成像单元53的透镜附近的示意性配置的示例的说明图。如图21所示,在信息处理装置50中,朝向信息处理装置50的壳体突出的突出部551被安装在成像单元53的透镜附近。此外,突出部551包括具有流线型形状的、在成像单元53的成像方向上(即前侧)突出的突出部553,并且声音收集单元513安装在突出部553的前端处(或在前端附近)。
在该配置中,例如,即使在用户在移动的同时捕捉图像的情况下,信息处理装置50也可以减轻以下风声的影响:该风声伴随着由于用户的移动而从前侧到达的风。
此外,虽然没有在图20和图21中示出,信息处理装置50可以包括与声音收集单元511和512不同的其他声音收集单元。在这种情况下,其他声音收集单元可以被安装成面向与声音收集单元511和512不同的方向。作为更具体的示例,例如,其他声音收集单元可以安装在以下表面上:该表面是信息处理装置50的壳体的表面,并且在成像单元53的成像方向的相对侧上,以面向成像方向的相对侧的方向(即后侧)。在该配置中,例如,可以基于其他声音收集单元的声音收集结果来补偿声音收集单元511和512的特性。
作为示例5,上面已经参照图20和图21描述了包括能够捕捉运动图像或静止图像的成像装置的信息处理装置的示例。
<<2.第二实施方式>>
<2.1.概述>
接下来,将描述本公开内容的第二实施方式。在根据上述第一实施方式的信息处理装置10中,可以通过执行滤波处理来减少随机发生的噪声(诸如风声)的影响,使得基于多个声音收集单元中的每个声音收集单元的声音收集结果,使声音收集单元的具有较低测量水平(即,收集的声音的水平)的输入优先化。通过该控制,特别在随机发生的噪声(诸如风声)的影响较大的情况下,能够以更适合的方式减轻噪声的影响。
另一方面,在如上述控制中那样在没有改变的情况下评估每个声音收集单元的声音收集结果的情况下,在诸如语音的目标声音被收集作为主要分量的情况下不使用以下声音收集单元的声音收集结果:该声音收集单元收集较高水平的目标声音。即,在随机发生的噪声(诸如风声)的影响小的情况下,例如,优先使用具有小信噪比(SN比)的声音收集单元的声音收集结果。
因此,在实施方式中,如在上述第一实施方式中那样,将提出以下结构的示例:该结构能够保持抑制随机发生的噪声(诸如风声)的效果,并且还能在随机发生的噪声的影响小的情况下以更合适的方式获取目标声音。
<2.2.功能配置>
首先,将参照图22描述根据该实施方式的信息处理装置的功能配置的示例。图22是示出根据该实施方式的信息处理装置的功能配置的示例的框图。此外,在描述中,根据该实施方式的信息处理装置在一些情况下被称为“信息处理装置60”,以将该信息处理装置与根据上述第一实施方式的信息处理装置10(参见图6)明确地区分开。
如图22所示,根据该实施方式的信息处理装置60包括多个声音收集单元111至11M(其中M是正整数)、频率分解单元13、通道功率估计单元65、滤波器估计单元66、滤波器处理单元17和频率组合单元18。此外,多个声音收集单元111至11M(其中M是正整数)、频率分解单元13、滤波器处理单元17和频率组合单元18等同于根据上述第一实施方式的信息处理装置10(参见图6)中附加了相同附图标记的配置。即,根据该实施方式的信息处理装置60与根据上述第一实施方式的信息处理装置10的不同之处在于通道功率估计单元65和滤波器估计单元66的处理内容。因此,下面将特别关注与根据上述第一实施方式的信息处理装置10的不同之处来描述根据该实施方式的信息处理装置60的功能配置。将省略对与信息处理装置10的配置相同的配置的详细描述。
如图22所示,通道功率估计单元65包括输入功率估计单元651、不相关分量功率估计单元653和随机噪声功率估计单元655。
输入功率估计单元651等同于根据上述第一实施方式的信息处理装置10的通道功率估计单元15。即,输入功率估计单元651基于与每个声音收集单元110对应的声音信号xm(n)的每个频率分量Xm(i,k),针对每个频率估计每个声音收集单元110的功率谱。然后,输入功率估计单元651将针对每个频率的每个声音收集单元110的功率谱Pm(i,k)的估计结果输出至随机噪声功率估计单元655。
不相关分量功率估计单元653接收通过由滤波器处理单元17执行滤波处理而生成的输出信号Y(i,k)的反馈。此外,输出信号Y(i,k)是以下声音:在该声音中,噪声(随机噪声)的影响在由每个声音收集单元110先前收集的声音信号xm(n)的每个频率分量Xm(i,k)中被抑制,并且该声音等同于例如每个声音收集单元110中的目标声音(诸如用户讲出的语音)的频率分量。随后,不相关分量功率估计单元653基于与每个声音收集单元110对应的声音信号xm(n)的每个频率分量Xm(i,k)与反馈的输出信号Y(i,k)之间的相关性来估计与输出信号Y(i,k)不相关的分量的功率谱Qm(i,k)。此外,在频率分量Xm(i,k)中与输出信号Y(i,k)不相关的分量(下文中也简称为“不相关分量”)等同于噪声分量,例如频率分量Xm(i,k)中包括的随机噪声。此外,下面将单独描述由不相关分量功率估计单元653进行的信号处理的细节。然后,不相关分量功率估计单元653将针对每个频率的每个声音收集单元110的功率谱Qm(i,k)的估计结果输出至随机噪声功率估计单元655。
随机噪声功率估计单元655从输入功率估计单元651获取针对每个频率的每个声音收集单元110的功率谱Pm(i,k)的估计结果。此外,随机噪声功率估计单元655从不相关分量功率估计单元653获取针对每个频率的与每个声音收集单元110对应的不相关分量的功率谱Qm(i,k)的估计结果。然后,随机噪声功率估计单元655基于所获取的功率谱Pm(i,k)和所获取的功率谱Qm(i,k)的估计结果,针对用于滤波器估计单元66的每个频率确定每个声音收集单元110的功率谱Wm(i,k),以计算滤波器系数w(i,k)。此外,下面将单独描述与由随机噪声功率估计单元655确定功率谱Wm(i,k)相关的处理的细节。然后,随机噪声功率估计单元655将针对每个频率的指示每个声音收集单元110的功率谱Wm(i,k)的信息输出至滤波器估计单元66。
滤波器估计单元66基于从通道功率估计单元65输出的针对每个频率的指示每个声音收集单元110的功率谱Wm(i,k)的信息,来计算用于由滤波器处理单元17执行滤波处理的滤波器系数w(i,k)。此外,此时,滤波器估计单元66与根据上述第一实施方式的滤波器估计单元16的不同之处在于:在生成上述(表达式2)中描述的矩阵R(i,k)时,应用功率谱Wm(i,k)来替代功率谱Pm(i,k)。
另一方面,后续处理,即,与基于上面基于(表达式3)至(表达式6)所描述的阵列流形向量a(k)和生成的矩阵R(i,k)来计算滤波器系数w(i,k)有关的处理,与上述第一实施方式的滤波器估计单元16的后续处理相同。因此,对该处理的内容的详细描述将被省略。
如上所述,滤波器估计单元66基于针对每个频率的指示每个声音收集单元110的所获取的功率谱Wm(i,k)的信息来计算滤波器系数w(i,k),并且将计算的滤波器系数w(i,k)输出至滤波器处理单元17。此外,后续处理与根据上述第一实施方式的信息处理装置10(参见图6)的处理相同。
上面参照图22描述了根据该实施方式的信息处理装置的功能配置的示例。
<2.3.不相关分量功率估计单元的细节>
接下来,将描述在不相关分量功率估计单元653中针对每个频率计算与每个声音收集单元110对应的不相关分量的功率谱Qm(i,k)的处理的细节。
首先,将描述用于在不相关分量功率估计单元653中计算功率谱Qm(i,k)的基本原理。输入到诸如麦克风的声音收集单元的声音(信号)例如包括目标声音Sm(诸如用户的语音等)、所谓的背景噪声Nm以及随机噪声Wm(诸如风声)。即,基于目标声音Sm、背景噪声Nm和随机噪声Wm,在下面表示为(表达式8)的相关表达式中表示每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)。
[数学式7]
Xm(i,k)=Sm(i,k)+Nm(i,k)+Wm(i,k)
…(表达式8)
此处,当收集输入到M个声音收集单元中的每个声音收集单元的声音(信号)时,在下面表示为(表达式9)的相关表达式中表示该声音。
[数学式8]
X=S+N+W=akSorg+N+W
…(表达式9)
在前述(表达式9)中,S是M个声音收集单元的目标声音Sm的集合。类似地,N是M个声音收集单元的背景噪声Nm的集合,W是M个声音收集单元的随机噪声Wm的集合。此外,S、N和W被表示为向量。此外,Sorg指示从声源输出的目标声音,并且被表示为标量值。此外,ak等同于上述的阵列流形向量a(k)。即,S指示在考虑以下影响的情况下的目标声音的分量:当从声源输出的目标声音Sorg在空间中传播直到目标声音到达声音收集单元时发生的信号的劣化、延迟等的影响。
此处,诸如风声的随机噪声W的发生时机是随机的,并且可以被限定为在根据本公开内容的信息处理装置中的多个声音收集单元(特别地,如图1所示,以分布式方式布置的声音收集单元)之间大致没有相关性的信号。
基于这些特征,可以将上述(表达式9)限定为图23所示的向量之间的关系。图23是示出不相关分量功率估计单元653的处理的基本原理的说明图。此外,图23所示的示例示出了收集由用户讲出的语音作为目标声音的情况。此外,图23所示的向量空间是基于流形向量ak来限定的。
在图23中,X指示由声音收集单元收集的声音(即输入信号)并且等同于(表达式9)中表示的X。此外,Y理想地等同于基于输入信号X中的目标声音Sorg的估计结果的分量(即用户的语音分量)。即,分量Y示意性地指示输入信号X中所包括的分量当中的用户语音分量(或与用户的语音分量具有相关性的分量)。另一方面,Z等同于与输入信号X中所包括的分量当中的用户语音分量具有小相关性(或无相关性)的分量。
此外,当能够抑制背景噪声N和随机噪声W二者时,分量Z仅是背景噪声N和随机噪声W的分量。然而,在每个声音收集单元如在根据本公开内容的信息处理装置(例如参见图1)中那样被布置在颈部的配置中,声音收集单元位于相对较近的位置。因此,背景噪声N被测量为在声音收集单元之间具有相关性的分量。因此,除了用户的语音分量S之外,分量Y还包括背景噪声N的分量。另一方面,由于诸如风声的随机噪声W与用户的语音分量具有小相关性,所以随机噪声W被示出为分量Z。
利用上述特性,不相关分量功率估计单元653使用输出信号Y(即用户的语音分量)的反馈来提取与输出信号Y具有小相关性(或无相关性)的分量作为随机噪声W的分量。此外,在下面的描述中,分量Z被称为“不相关分量Z”。
例如,在声音收集单元110的数目为4的情况下,基于以上描述为(表达式4)的计算表达式,在下面被示为(表达式10)的计算表达式中表示阵列流形向量ak
[数学式9]
ak=(a1(k),a2(k),a3(k),a4(k))T
…(表达式10)
此处,基于输入信号X和流形向量ak的内积,可以提取通过将输入信号X投影到流形向量ak而获得的分量。根据这些特性,基于下面被示为(表达式11)的计算表达式,可以将不相关分量Z提取为与流形向量ak正交的分量。
[数学式10]
Z=X-ak·(ak H·ak)-1·ak H·X
…(表达式11)
此处,在前述(表达式11)中,被表示为(ak H·ak)-1·ak H·X的分量等同于图23中所示的用户的语音分量Y。即,前述(表达式11)可以被表示为在下面示为(表达式12)的计算表达式。
[数学式11]
Z=X-ak·Y
…(表达式12)
此处,当应用前述(表达式12)中作为分量Y反馈的输出信号Y(即,经受由滤波器处理单元17进行的滤波处理的输出信号)时,基于上述(表达式6),前述(表达式12)可以被表示为在下面示为(表达式13)的计算表达式。
[数学式12]
Figure BDA0002189536140000301
通过基于以这种方式计算的不相关分量Z来计算信号的功率并且执行时间平滑化,可以估计不相关分量Z的功率谱。此处,在下面示为(表达式14)的计算表达式中表示了与第m个声音收集单元110(即声音收集单元11m)中的i帧和频率k对应的不相关分量Z的功率谱Qm(i,k)。此外,以下的(表达式14)中的Zm*(i,k)指示Zm(i,k)的共轭复数。此外,在(表达式14)中,r指示用于抑制功率谱的突然变化的帧方向的平滑系数(0≤r<1)。
[数学式13]
Qm(i,k)=r·Qm(i-1,k)+(1-r)·Zm(i,k)·Zm *(i,k)
…(表达式14)
以这种方式,不相关分量功率估计单元653计算不相关分量的功率谱Qm(i,k)。
此外,当不相关分量功率估计单元653可以在估计功率谱Qm(i,k)时使用两个或更多个声音收集单元110的声音收集结果时,不一定使用所有声音收集单元110的声音收集结果。作为具体示例,在功率谱Qm(i,k)的估计中,不相关分量功率估计单元653可以不使用安装在以下位置处的声音收集单元110的声音收集结果:在该位置处难以收集语音等的目标声音,如位于用户头部后侧的声音收集单元110那样。
上面描述了在不相关分量功率估计单元653中针对每个频率计算与每个声音收集单元110对应的不相关分量的功率谱Qm(i,k)的处理的细节。
<2.4.随机噪声功率估计单元的细节>
接下来,将描述针对用于随机噪声功率估计单元655的每个频率确定每个声音收集单元110的功率谱Wm(i,k)以计算滤波器系数w(i,k)的处理的细节。
如上所述,随机噪声功率估计单元655基于从输入功率估计单元651获取的功率谱Pm(i,k)和从不相关分量功率估计单元653获取的不相关分量的功率谱Qm(i,k)的估计结果来确定功率谱Wm(i,k)。
(应用功率谱Qm的情况)
例如,随机噪声功率估计单元655可以将不相关分量的功率谱Qm(i,k)的估计结果作为功率谱Wm(i,k)输出至滤波器估计单元66。此外,在这种情况下,通道功率估计单元65可以不包括输入功率估计单元651。
(选择性切换功率谱Pm和功率谱Qm的情况)
此外,作为另一示例,随机噪声功率估计单元655可以基于预定条件选择性地将功率谱Pm(i,k)和功率谱Qm(i,k)的估计结果中的一个作为功率谱Wm(i,k)输出至滤波器估计单元66。
(自适应地计算功率谱Wm的情况)
此外,作为又一示例,随机噪声功率估计单元655可以基于功率谱Pm(i,k)和功率谱Qm(i,k)的估计结果自适应地计算功率谱Wm(i,k)。
例如,随机噪声功率估计单元655使用功率谱Pm(i,k)和功率谱Qm(i,k)作为输入,基于在下面示为(表达式15)的计算表达式来计算功率谱Wm~,其中考虑了目标声音(语音等)与随机噪声之间的关系。此外,“Wm~”指示在“Wm”上附有波浪线的字母。此外,下面所示的Pm和Qm是通过概括功率谱Pm(i,k)和功率谱Qm(i,k)而写出的。
[数学式14]
Figure BDA0002189536140000321
例如,下面的(表达式16)指示使用功率谱Pm(i,k)和功率谱Qm(i,k)作为输入来计算功率谱Wm~(其中考虑了目标声音与随机噪声之间的关系)的函数F的具体示例。
[数学式15]
Figure BDA0002189536140000322
然后,随机噪声功率估计单元655根据功率谱Wm~(其中考虑了目标声音与随机噪声之间的上述关系),基于在下面示为(表达式17)的计算表达式来计算功率谱Wm。此外,在(表达式17)中,r指示用于抑制功率谱中的突然变化的帧方向的平滑系数(0≤r<1)。即,随机噪声功率估计单元655可以基于系数r的设置在帧之间对功率谱Wm进行平滑,其中该功率谱Wm是基于在下面示为(表达式17)的计算表达式计算的。
[数学式16]
Figure BDA0002189536140000323
此处,如上所述,由(表达式16)表示的功率谱Pm,即输入功率估计单元651对功率谱Pm(i,k)的估计结果,等同于由声音收集单元110收集的声音的水平。另一方面,(表达式16)中表示的功率谱Qm,即不相关分量功率估计单元653对功率谱Qm(i,k)的估计结果,等同于诸如风声的随机噪声的水平。即,(表达式16)中表示的权重Qm/(Pm+Qm)根据目标声音(诸如语音)与随机噪声(诸如风声)之间的关系而改变。
具体地,在目标声音的信号水平相对于随机噪声足够大的情况下,功率谱Pm的影响是主要的,并且权重Qm/(Pm+Qm)变小。即,在这种情况下,权重Qm/(Pm+Qm)指示以下控制:该控制用于进一步抑制对应通道(即声音收集单元110)的声音收集结果的使用。此处,权重Qm/(Pm+Qm)的倒数被应用于滤波器系数w(i,k)的计算。因此,在目标声音的信号水平相对于随机噪声足够大的情况下,计算滤波器系数w(i,k),使得进一步优先化使用对应通道的声音收集结果。
相反,在诸如风声的随机噪声的影响较大的情况下,功率谱Qm的影响是主要的,并且权重Qm/(Pm+Qm)变大。即,在这种情况下,权重Qm/(Pm+Qm)指示以下控制:该控制用于进一步优先化使用对应通道(即声音收集单元110)的声音收集结果。此处,如上所述,权重Qm/(Pm+Qm)的倒数被应用于滤波器系数w(i,k)的计算。因此,在随机噪声的影响足够大的情况下,计算滤波器系数w(i,k),使得进一步抑制使用对应通道的声音收集结果。
即,通过上述控制,在诸如风声的随机噪声的影响小并且主要收集语音的情况下,通过收集较高水平的语音而获得的声音收集单元110的声音收集结果被更优先地使用,并且滤波器系数w(i,k)被计算。因此,在诸如风声的随机噪声的影响大的情况下,如在上述第一实施方式中那样,更优先地使用测量水平较低的声音收集单元110的声音收集结果,并且计算滤波器系数w(i,k)。通过这种方式,随机噪声功率估计单元655可以根据目标声音(诸如语音)与随机噪声(诸如风声)之间的关系来自适应地计算用于计算滤波器系数w(i,k)的功率谱Wm(i,k)。
然后,随机噪声功率估计单元655可以将基于前述(表达式17)计算的功率谱Wm(i,k)输出至滤波器估计单元66。
上面已经描述了针对用于随机噪声功率估计单元655的每个频率确定每个声音收集单元110的功率谱Wm(i,k)以计算滤波器系数w(i,k)的处理的细节。此外,上述示例仅是示例。只要能够基于功率谱Pm(i,k)和功率谱Qm(i,k)中的至少一个的估计结果来确定功率谱Wm(i,k),则内容不受特别限制。
<2.5.评价>
如上所述,根据该实施方式的信息处理装置60基于多个声音收集单元110中的至少两个声音收集单元110的声音收集结果以及滤波器处理单元17的输出信号Y(i,k)的反馈,来估计不相关分量的功率谱Qm(i,k)。然后,信息处理装置60在估计滤波器系数w(i,k)时使用不相关分量的功率谱Qm(i,k)的估计结果。在该配置中,如上述第一实施方式中那样,信息处理装置60可以保持抑制随机发生的噪声(诸如风声)的效果,并且还可以在随机发生的噪声的影响小的情况下以更适合的方式获取目标声音。
此外,例如,上面已经通过关注于应用于图1所示的所谓颈带型可穿戴装置的情况描述了根据该实施方式的信号处理。另一方面,根据该实施方式的信号处理的应用目标不一定仅限于图1所示的示例。具体地,只要装置包括多个声音收集单元,则可以应用根据该实施方式的信号处理。此外,更优选地,多个声音收集单元可以被布置成使得距目标声音的声源(例如讲出语音的嘴部)的距离不同。此外,更优选地,多个声音收集单元可以被布置成相对于目标声音的声源位于相互不同的方向上。
<<3.第三实施方式>>
<3.1.概述>
接下来,将根据本公开内容的第三实施方式描述将根据本公开内容的技术应用于所谓的多通道维纳滤波器的情况的示例。
首先,将描述多通道维纳滤波器的概述,以进一步便利于根据该实施方式的信息处理装置的特征。多通道维纳滤波器是用于抑制背景噪声的技术。例如,在Wmwf是多通道维纳滤波器的情况下,基于在下面示为(表达式18)的计算表达式来计算Wmwf
[数学式17]
Figure BDA0002189536140000341
在前述(表达式18)中,S指示诸如语音的目标声音,并且等同于在上述(表达式9)中表示的Sorg。此外,X指示由声音收集单元收集的声音(即输入信号),并且等同于在上述(表达式9)中表示的X。此外,W示意性地指示要应用于多通道维纳滤波器中的输入信号X的滤波器。即,理想地,多通道维纳滤波器基于以下滤波器来恢复原始信号:该滤波器使前述(表达式18)中表示的成本函数最小化。
然而,通常难以独立地测量目标声音S。因此,使用多个通道(即声音收集单元)中的一些通道作为参考,测量被替换为最小化问题,用于对信号劣化与噪声抑制量进行折衷。在这种情况下,例如,在下面示为(表达式19)的计算表达式中表示多通道维纳滤波器Wmwf
[数学式18]
Figure BDA0002189536140000351
在前述(表达式19)中,Xi指示输出信号,该输出信号基于用作参考的通道的声音收集结果。此外,在下面的描述中,用作参考的通道被称为“参考麦克风”。此外,N指示背景噪声,并且等同于上述(表达式9)中表示的N。此外,系数μ是根据相对于目标声音的噪声抑制量而设置的系数(权重),并且例如基于先前实验的结果等而被预先设置。此外,在下面示为(表达式20)和(表达式21)的计算表达式中表示前述(表达式19)中的Rx和Rn。此外,在(表达式19)中,参考麦克风由ei指定。此处,ei是仅针对第i个值取1、并且针对其他值取0的M阶向量,并且例如如下面的(表达式22)来表示。
[数学式19]
Rx=E[XXH]
…(表达式20)
Rn=E[NNH]
…(表达式21)
ei=[0,…,1,…0]T
…(表达式22)
此外,在前述(表达式20)中,X指示作为向量的输入信号,该输入信号基于多个通道中的每个通道的声音收集结果。即,根据输入信号X来计算Rx。此外,在(表达式21)中,N指示作为向量的输入信号(即,等同于噪声的信号),该输入信号基于在不收集目标声音的区间(下文中也称为“暂停区间(pause section)”)中多个通道中的每个通道的声音收集结果。因此,例如,在暂停区间中计算Rn,其中该暂停区间是基于收集目标声音的区间(下文中也称为“目标声音区间”)的检测结果而指定的。此外,在下文中,Rx也被称为“输入相关矩阵”,并且Rn也被称为“噪声相关矩阵”。
此处,如上面在其他实施方式中所描述的那样,在周围环境(诸如在户外使用该装置的情况)动态地改变的情形下,在一些情况下由声音收集单元来收集随机噪声,诸如风声、伴随振动的噪声、以及由于佩戴装置而伴随的沙沙声。另一方面,在(表达式19)中在由ei固定地确定的声音收集单元(即参考麦克风)中混合随机噪声的情况下,难以在现有技术的多通道维纳滤波器中抑制随机噪声。
因此,在该实施方式中,将提出以下结构的示例,该结构通过将上述技术应用于其他实施方式中的多通道维纳滤波器来进一步降低多通道维纳滤波器中随机噪声的影响。
具体地,在根据该实施方式的信息处理装置中,通过基于上述功率谱Pm(或功率谱Wm)的估计结果自适应地选择随机噪声的影响较小的声音收集单元作为参考麦克风,进一步降低了随机噪声的影响。例如,在下面示为(表达式23)的计算表达式表示了与根据该实施方式的信息处理装置中的多通道维纳滤波器Wmwf的推导有关的基本原理。
[数学式20]
Figure BDA0002189536140000361
如在前述(表达式23)与上述(表达式19)之间的比较中理解的,基于上面在其他实施方式中描述的功率谱Pm(或功率谱Wm)的估计结果的输出信号Y被应用,作为基于根据该实施方式的信息处理装置中的参考麦克风的声音收集结果的输出信号Xi。基于该配置,即使在随机噪声的影响更明显的情况(即,周围环境动态变化的情况)下,根据该实施方式的信息处理装置动态地选择随机噪声的影响较小的声音收集单元作为参考麦克风。因此,根据该实施方式的信息处理装置可以进一步减小随机噪声的影响,并且相比于应用了现有技术的多通道维纳滤波器的装置而言以更适合的方式提取目标声音。此外,在下文中,将进一步详细描述根据该实施方式的信息处理装置。
<3.2.功能配置>
将参照图24描述根据该实施方式的信息处理装置的功能配置的示例。图24是示出根据该实施方式的信息处理装置的功能配置的示例的框图。此外,在描述中,根据该实施方式的信息处理装置在一些情况下被称为“信息处理装置70”,以将该信息处理装置与根据上述其他实施方式的信息处理装置(例如信息处理装置10和60)区分开。
如图24所示,根据该实施方式的信息处理装置70包括多个声音收集单元111至11M(其中M是正整数)、频率分解单元13、通道功率估计单元71、滤波器估计单元72、输入相关矩阵计算单元73、噪声相关矩阵计算单元74、多通道维纳滤波器计算单元75、多通道维纳滤波器处理单元76和频率组合单元77。此外,多个声音收集单元111至11M(其中M是正整数)和频率分解单元13等同于根据上述第一实施方式的信息处理装置10(参见图6)中附加了相同附图标记的配置。即,根据该实施方式的信息处理装置70与根据上述第一实施方式的信息处理装置10的不同之处在于通道功率估计单元71、滤波器估计单元72、输入相关矩阵计算单元73、噪声相关矩阵计算单元74、多通道维纳滤波器计算单元75、多通道维纳滤波器处理单元76和频率组合单元77的处理内容。因此,将在下面特别关注于与根据上述第一实施方式的信息处理装置10的差异来描述根据该实施方式的信息处理装置70的功能配置。将省略对与信息处理装置10的配置相同的配置的详细描述。
(多通道维纳滤波器处理单元76)
多通道维纳滤波器处理单元76从频率分解单元13获取每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)。此外,多通道维纳滤波器处理单元76从下面要描述的多通道维纳滤波器计算单元75获取针对每个频率的多通道维纳滤波器Wmwf(i,k)的计算结果。此外,下面将单独描述计算多通道维纳滤波器Wmwf(i,k)的方法的细节。此外,多通道维纳滤波器处理单元76使用每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)作为输入信号,并且通过执行基于多通道维纳滤波器Wmwf(i,k)的滤波处理针对每个频率来生成输出信号S。例如,在下面示为(表达式24)的计算表达式中表示输出信号S。此外,在下面的(表达式24)中,帧编号i和离散频率编号k没有写出。
[数学式21]
S=Wmwf HX
…(表达式24)
然后,多通道维纳滤波器处理单元76将针对每个频率生成的输出信号S输出至频率组合单元77。
(频率组合单元77)
频率组合单元77从多通道维纳滤波器处理单元76获取针对每个频率生成的输出信号S。频率组合单元77通过针对每个频率组合所获取的输出信号S来生成声音信号。此外,由于频率组合单元77的处理与根据上述第一实施方式和第二实施方式通过在频率组合单元18中针对每个频率组合输出信号Y(i,k)来生成声音信号y(n)的处理相同,所以将省略对频率组合单元77的处理的详细描述。
(通道功率估计单元71和滤波器估计单元72)
接下来,将描述通道功率估计单元71和滤波器估计单元72的配置。通道功率估计单元71和滤波器估计单元72可以通过应用与根据上述第一实施方式的信息处理装置10的结构相同的结构而具有配置,或者可以通过应用与根据第二实施方式的信息处理装置60的结构相同的结构而具有配置。因此,下面将关注于每种情况来描述该配置。
(通道功率估计单元71和滤波器估计单元72的配置示例1)
首先,将应用与根据上述第一实施方式的信息处理装置10(参见图6)的结构相同的结构来描述通道功率估计单元71和滤波器估计单元72的配置的情况。在这种情况下,通道功率估计单元71和滤波器估计单元72等同于根据第一实施方式的通道功率估计单元15和滤波器估计单元16。
具体地,通道功率估计单元71基于与每个声音收集单元110对应的声音信号xm(n)的每个频率分量Xm(i,k),针对每个频率来估计每个声音收集单元110的功率谱Pm(i,k)。
此外,滤波器估计单元72基于功率谱Pm(i,k)的估计结果来计算滤波器系数w(i,k)。然后,滤波器估计单元72基于滤波器系数w(i,k)的计算结果针对每个频率计算滤波器G,并且将滤波器G的计算结果输出至下面要描述的多通道维纳滤波器计算单元75。
(通道功率估计单元71和滤波器估计单元72的配置示例2)
接下来,将应用与根据上述第二实施方式的信息处理装置60(参见图22)的结构相同的结构来描述通道功率估计单元71和滤波器估计单元72的配置的情况。在这种情况下,通道功率估计单元71和滤波器估计单元72等同于根据第二实施方式的通道功率估计单元65和滤波器估计单元66。
具体地,通道功率估计单元71基于与每个声音收集单元110对应的声音信号xm(n)的每个频率分量Xm(i,k),针对每个频率来估计每个声音收集单元110的功率谱Pm(i,k)。
此外,通道功率估计单元71接收针对每个频率的声音信号的反馈,其中噪声(特别是随机噪声)的影响被基于滤波处理而抑制。
作为具体示例,滤波器估计单元72可以接收作为多通道维纳滤波器处理单元76进行的滤波处理的结果而输出的、针对每个频率的声音信号S的反馈。
此外,作为另一示例,通过单独安装与根据第二实施方式的信息处理装置60中的滤波器处理单元17等同的配置,滤波器估计单元72可以接收针对每个频率的声音信号的反馈,其中根据该配置噪声分量被抑制。在这种情况下,滤波器估计单元72接收与根据第二实施方式的信息处理装置60中的输出信号Y(i,k)等同的声音信号的反馈。
当接收到反馈时,通道功率估计单元71基于反馈的声音信号与对应于每个声音收集单元110的声音信号xm(n)的频率分量Xm(i,k)之间的相关性,来估计声音信号和不相关分量的功率谱Qm(i,k)。
然后,通道功率估计单元71可以基于功率谱Pm(i,k)和功率谱Qm(i,k)的估计结果,针对用于滤波器估计单元72的每个频率确定每个声音收集单元110的功率谱Wm(i,k),以计算滤波器系数w(i,k)。此外,由于计算功率谱Pm(i,k)和功率谱Qm(i,k)的方法或确定功率谱Wm(i,k)的方法与根据上述第二实施方式的通道功率估计单元65的方法相同,所以其详细描述将被省略。
此外,滤波器估计单元72基于功率谱Wm(i,k)的估计结果来计算滤波器系数w(i,k)。然后,滤波器估计单元72可以基于滤波器系数w(i,k)的计算结果针对每个频率计算滤波器G,并且将滤波器G的计算结果输出至将在下面描述的多通道维纳滤波器计算单元75。
此外,如上所述,基于滤波器系数w(i,k)来计算滤波器G。因此,考虑到上述(表达式2)至(表达式6),例如,可以在下面示为(表达式25)和(表达式26)的计算表达式中表示滤波器G。
[数学式22]
G=γRw -1a
…(表达式25)
γ=1/(aHRw -1a)
…(表达式26)
此外,在前述(表达式25)和(表达式26)中,Rw等同于上述(表达式6)中的矩阵R(i,k)。即,在基于与第一实施方式的构思相同的构思的情况下,Rw是基于功率谱Pm(i,k)的估计结果的矩阵。此外,在基于与第一实施方式的构思相同的构思的情况下,Rw是基于根据功率谱Pm(i,k)和功率谱Qm(i,k)的估计结果而确定的功率谱Wm(i,k)。
随后,将描述输入相关矩阵计算单元73、噪声相关矩阵计算单元74和多通道维纳滤波器计算单元75。
(输入相关矩阵计算单元73)
输入相关矩阵计算单元73从频率分解单元13获取每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)。随后,输入相关矩阵计算单元73使用每个获取的频率分量Xm(i,k)作为输入,基于上述(表达式20)针对每个频率来计算输入相关矩阵Rx。然后,输入相关矩阵计算单元73将针对每个频率计算的输入相关矩阵Rx输出至多通道维纳滤波器计算单元75。
(噪声相关矩阵计算单元74)
噪声相关矩阵计算单元74从频率分解单元13获取每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)。随后,噪声相关矩阵计算单元74基于声音信号xm(n)的每个频率分量Xm(i,k)的获取结果来指定暂停区间。然后,噪声相关矩阵计算单元74使用指定的暂停区间中的每个频率分量Xm(i,k)作为输入,基于上述(表达式21)针对每个频率来计算噪声相关矩阵Rn。然后,噪声相关矩阵计算单元74将针对每个频率计算的噪声相关矩阵Rn输出至多通道维纳滤波器计算单元75。
(多通道维纳滤波器计算单元75)
多通道维纳滤波器计算单元75从滤波器估计单元72获取基于每个频率的滤波器系数w(i,k)的滤波器G的计算结果。此外,多通道维纳滤波器计算单元75从输入相关矩阵计算单元73获取针对每个频率的输入相关矩阵Rx的计算结果。此外,多通道维纳滤波器计算单元75从噪声相关矩阵计算单元74获取针对每个频率的噪声相关矩阵Rn的计算结果。随后,多通道维纳滤波器计算单元75基于针对每个频率获取的滤波器G、输入相关矩阵Rx和噪声相关矩阵Rn,针对每个频率来计算多通道维纳滤波器Wmwf(i,k)。然后,多通道维纳滤波器计算单元75将多通道维纳滤波器Wmwf(i,k)的计算结果输出至多通道维纳滤波器处理单元76。因此,多通道维纳滤波器处理单元76可以基于多通道维纳滤波器Wmwf(i,k)对每个声音收集单元110的声音信号xm(n)的每个频率分量Xm(i,k)执行滤波处理。此外,下面将分别描述计算多通道维纳滤波器Wmwf(i,k)的方法的更详细内容。
上面已经参照图24描述了根据该实施方式的信息处理装置的功能配置的示例。此外,例如,上述信息处理装置70的配置中的多通道维纳滤波器计算单元75和多通道维纳滤波器处理单元76等同于“输出控制单元”的示例。
<3.3.计算多通道维纳滤波器的方法的细节>
接下来,将更详细地描述计算多通道维纳滤波器Wmwf(i,k)的方法。此外,在描述中,帧编号i和离散编号k的描述将被省略。
首先,将关注于上述(表达式23)。如上所述,基于滤波器系数w(i,k)来计算滤波器G。因此,考虑上述(表达式7),根据输入信号X和基于滤波器系数w(i,k)的滤波器G,可以在下面示为(表达式27)的计算表达式中表示在(表达式23)中表示的输出信号Y。
[数学式23]
Y=GHX
…(表达式27)
即,可以根据在前述(表达式27)中表示的输出信号Y、滤波器G、输入相关矩阵Rx和噪声相关矩阵Rn,在下面示为(表达式28)的计算表达式中表示上述(表达式23)。
[数学式24]
Wmwf=(Rx+μRn)-1E[XYH]=(Rx+μRn)-1E[XXHG]=(Rx+μRn)-1RxG
…(表达式28)
此处,如通过前述(表达式28)与上述(表达式19)之间的比较所理解的,可以知道前述(表达式28)等同于以下计算表达式:在该计算表达式中,指定参考麦克风的矩阵ei被替换为上述(表达式19)中的滤波器G。此外,考虑到上述(表达式25)和(表达式26),也可以在下面示为(表达式29)的计算表达式中表示滤波器G。
[数学式25]
Figure BDA0002189536140000421
此处,在前述(表达式29)中,系数g1,...,gi,...,gM是基于(表达式25)和(表达式26)中的矩阵Rw确定的系数。更具体地,例如基于上述第一实施方式中的功率谱Pm(i,k)的估计结果或第二实施方式中的功率谱Wm(i,k)的估计结果来确定系数g1,......,gi,......,gM。即,系数g1,......,gi,......,gM指示根据每个声音收集单元110中的随机噪声影响的大小的权重,换言之,指示每个声音收集单元110的声音收集结果作为目标声音的声音收集结果有多可靠。
即,在根据该实施方式的信息处理装置70中,系数g1,......,gi,......,gM根据每个声音收集单元110对声音(特别是随机噪声)的声音收集结果而改变,并且例如,根据系数,随机噪声的影响较小的声音收集单元110被动态地选择作为参考麦克风。
<3.4.评价>
如上所述,根据该实施方式的信息处理装置70基于与每个声音收集单元110对应的声音信号xm(n)的每个频率分量Xm(i,k),针对每个频率来估计每个声音收集单元110的功率谱(例如上述功率谱Pm(i,k)或功率谱Wm(i,k)。然后,信息处理装置70基于功率谱的估计结果来估计滤波器系数w(i,k),并且使用滤波器系数w(i,k)的估计结果来计算多通道维纳滤波器Wmwf(i,k)。在该配置中,根据该实施方式的信息处理装置70可以动态地选择多个声音收集单元110之中的、随机噪声的影响较小的声音收集单元110作为参考麦克风。即,与参考麦克风被固定设置的现有技术的多通道维纳滤波器被应用的情况相比,根据本实施方式的信息处理装置70可以进一步减小随机噪声的影响,并且进一步以更合适的方式提取目标声音。
此外,根据该实施方式的信号处理的应用目的不一定仅限于图1中所示的所谓颈带型可穿戴装置的示例。具体地,只要装置包括多个声音收集单元,就可以应用根据该实施方式的信号处理。此外,更优选地,多个声音收集单元可以被布置成使得距目标声音的声源(例如讲出语音的嘴部)的距离彼此不同。此外,更优选地,多个声音收集单元可以被布置成相对于目标声音的声源位于相互不同的方向上。
<<4.硬件配置>>
接下来,将参照图25描述根据本公开内容的每个实施方式的信息处理装置10(即上述信号处理装置11至14)的硬件配置的示例。图25是示出根据本公开内容的实施方式的信息处理装置10的硬件配置的示例的图。
如图25所示,根据实施方式的信息处理装置10包括处理器901、存储器903、存储装置905、操作装置907、报告装置909、声学装置911、声音收集装置913和总线917。此外,信息处理装置10可以包括通信装置915。
处理器901可以是例如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)或片上系统(SoC),并且执行信息处理装置10的各种处理。处理器901可以包括例如执行各种算术处理的电子电路。此外,上述频率分解单元13、通道功率估计单元15、滤波器估计单元16、滤波器处理单元17和频率组合单元18可以由处理器901来实现。
存储器903包括随机存取存储器(RAM)和只读存储器(ROM),并且存储由处理器901执行的数据和程序。存储器905可以包括诸如半导体存储器或硬盘的存储介质。
操作装置907具有生成输入信号的功能,以便用户执行期望的操作。操作装置907可以包括例如触摸面板。此外,作为另一示例,操作装置907可以包括例如由用户使用以输入信息的输入单元(诸如按钮、开关或键盘),以及基于用户的输入生成输入信号并将输入信号提供给处理器901的输入控制电路。
报告装置909是输出装置的示例,并且可以例如是诸如液晶显示器(LCD)装置或有机发光二极管(OLED)显示器的装置。在这种情况下,报告装置909可以通过在屏幕上显示信息来向用户报告预定信息。
此外,上述报告装置909的示例仅是示例。报告装置909的方面不受特别限制,只要预定信息可以被报告给用户即可。作为具体示例,报告装置909可以是如发光二极管(LED)中那样通过闪烁模式向用户报告预定信息的装置。此外,报告装置909也可以是如所谓振动器中那样通过执行振动来向用户报告预定信息的装置。
声学装置911是如扬声器等中那样通过输出预定声音信号来向用户报告预定信息的装置。
声音收集装置913是收集从用户讲出的语音或周围环境的声音、并且如麦克风中那样获取声音或听觉声音作为声音信息(声音信号)的装置。此外,声音收集装置913可以获取指示模拟声音信号的数据作为声音信息,其中该模拟声音信号表示收集的语音或声音,或可以将模拟声音信号转换成数字声音信号,并且获取指示转换后的数字声音信号的数据作为声音信息。此外,上述声音收集单元110(例如图6所示的声音收集单元111至11M)可以通过声音收集装置913来实现。
通信装置915是包括在信息处理装置10中的通信装置,并且经由网络与外部装置通信。通信装置915是有线或无线通信接口。在通信装置915是无线通信接口的情况下,通信装置915可以包括通信天线、射频(RF)电路和基带处理器。
通信装置915具有对从外部装置接收到的信号执行各种信号处理的功能,并且可以将根据所接收的模拟信号生成的数字信号提供给处理器901。
总线917连接处理器901、存储器903、存储装置905、操作装置907、报告装置909、声学装置911、声音收集装置913和通信装置915。总线917可以包括多种类型的总线。
此外,还可以生成以下程序:该程序使包含在计算机中的硬件(诸如处理器、存储器、存储装置)发挥与前述信息处理装置10的配置相同的功能。此外,还可以提供记录该程序的计算机可读存储介质。
<<5.结论>>
如上所述,根据实施方式的信息处理装置10在至少一部分中具有带流线型形状的突出部。声音收集单元110被保持成使得声音收集单元位于突出部的前端处或在前端附近。在该配置中,例如,能够减轻随机噪声(诸如风声、伴随振动的噪声、由于佩戴装置而伴随的沙沙声)的影响,并且以更合适的方式收集目标声音(例如用户的语音)。
此外,根据实施方式的信息处理装置10可以包括多个声音收集单元110。多个声音收集单元110可以被保持成使得声音收集单元110面向彼此不同的方向。在该配置中,即使在噪声(诸如风声、伴随着振动的噪声、由于佩戴装置而伴随的沙沙声)随机发生的情况下,也能够基于一些声音收集单元(即,噪声影响小的声音收集单元)的声音收集结果来补偿其他声音收集单元的特性。
上面参照附图描述了本公开内容的(一个或多个)优选实施方式,而本公开内容不限于上述示例。本领域技术人员可以在所附权利要求的范围内发现各种变化和修改,并且应该理解,各种变化和修改自然会落入本公开内容的技术范围内。
此外,在本说明书中描述的效果仅是说明性或示例性的效果,而不是限制性的。即,与上述效果一起或代替于上述效果,根据本公开内容的技术可以实现本领域技术人员根据本说明书的描述而清楚的其他效果。
此外,本技术也可以如下配置。
(1)
一种信息处理装置,包括:
声音收集单元;以及
保持构件,其被配置成在其至少一部分中具有带流线型形状的突出部,并且保持所述声音收集单元,使得所述声音收集单元位于所述突出部的前端处或所述前端附近。
(2)
根据(1)所述的信息处理装置,还包括:
除了作为所述声音收集单元的第一声音收集单元之外的一个或多个第二声音收集单元,所述一个或多个第二声音收集单元被配置成与所述第一声音收集单元不同。
(3)
根据(2)所述的信息处理装置,其中,
所述保持构件保持多个第二声音收集单元,使得所述多个第二声音收集单元面向相互不同的方向。
(4)
根据(1)所述的信息处理装置,其中,
所述保持构件被佩戴在用户的预定部位上,并且保持所述声音收集单元,使得所述声音收集单元和所述部位具有预定的位置关系。
(5)
根据(4)所述的信息处理装置,其中,
所述部位是颈部,并且
在所述保持构件被佩戴在颈部的情况下,所述突出部被安装成使得所述突出部的前端面向所述用户的基本上前侧。
(6)
根据(4)或(5)所述的信息处理装置,包括:
除了作为所述声音收集单元的第一声音收集单元之外的多个第二声音收集单元,所述多个第二声音收集单元被配置成与所述第一声音收集单元不同,
其中,所述多个第二声音收集单元中的至少两个第二声音收集单元被保持在将所述部位设置为参考的情况下相互基本对称的位置处。
(7)
根据(2)所述的信息处理装置,包括:
信号处理单元,其被配置成:基于从所述第一声音收集单元和所述一个或多个第二声音收集单元中的每一个收集的声音,抑制与在预定方向上到达所述第一声音收集单元的声音有关的噪声分量。
(8)
根据(7)所述的信息处理装置,其中,
所述信号处理单元基于从所述第一声音收集单元和所述一个或多个第二声音收集单元中的每一个收集的声音来估计声音的每个频率分量的信号水平,并且基于所述信号水平的估计结果来抑制所述噪声分量。
(9)
根据(7)所述的信息处理装置,其中,
基于从所述第一声音收集单元和所述一个或多个第二声音收集单元之中的多个声音收集单元中的至少每一个声音收集单元收集的第一声音与通过先前的处理使噪声分量被抑制的第二声音之间的相关性,所述信号处理单元抑制所述第一声音中包括的噪声分量。
(10)
根据(9)所述的信息处理装置,其中,
所述保持构件保持所述多个声音收集单元,使得预定声源与所述多个声音收集单元中的至少两个声音收集单元之间的距离彼此不同。
(11)
根据(9)或(10)所述的信息处理装置,其中,
所述保持构件保持所述多个声音收集单元,使得所述多个声音收集单元中的至少两个声音收集单元中的每一个位于相对于预定声源的相互不同的方向上。
(12)
根据(2)所述的信息处理装置,包括:
输出控制单元,其被配置成选择性地输出由所述第一声音收集单元和所述一个或多个第二声音收集单元之中的一部分声音收集单元收集的声音,
其中,所述输出控制单元基于从所述第一声音收集单元和所述一个或多个第二声音收集单元中的每一个收集的声音来估计声音的每个频率分量的信号水平,并且基于所述信号水平的估计结果来选择所述一部分声音收集单元。
(13)
根据(12)所述的信息处理装置,其中,
所述输出控制单元包括多通道维纳滤波器,并且基于所述信号水平的估计结果来选择所述多通道维纳滤波器的参考麦克风。
(14)
根据(1)所述的信息处理装置,其中,
所述保持构件是在其至少一部分中具有基本上矩形表面的壳体,并且
所述壳体在预定区域中具有所述突出部,所述预定区域包括所述基本上矩形表面的角部,并且所述壳体将所述声音收集单元保持在所述突出部的前端处或所述前端附近。
(15)
根据(14)所述的信息处理装置,其中,
所述信息处理装置包括多个声音收集单元,并且
对于所述基本上矩形表面的角部中的多个角部中的每一个,所述壳体在包括所述角部的预定区域中具有所述突出部,并且所述壳体将所述声音收集单元保持在所述突出部的前端处或所述前端附近。
(16)
根据(14)或(15)所述的信息处理装置,包括:
带部,其被配置成关于用户的手臂保持所述壳体,
其中,在所述信息处理装置被佩戴在所述手臂上的情况下,所述带部在将所述手臂设置为参考时与所述壳体基本上对称的位置处包括与所述声音收集单元不同的另一声音收集单元。
(17)
根据(1)所述的信息处理装置,其中,
所述保持构件是佩戴在用户的头部的眼镜型框架,并且
所述框架在正面的至少一部分中具有所述突出部,并且将所述声音收集单元保持在所述突出部的前端处或所述前端附近。
(18)
根据(17)所述的信息处理装置,其中,
所述框架在中梁上或所述中梁附近具有所述突出部,并且将所述声音收集单元保持在所述突出部的前端处或所述前端附近。
附图标记列表
10 信息处理装置
13 频率分解单元
15 通道功率估计单元
16 滤波器估计单元
17 滤波器处理单元
18 频率组合单元
110 至113声音收集单元
60 信息处理装置
65 通道功率估计单元
651 输入功率估计单元
653 不相关分量功率估计单元
655 随机噪声功率估计单元
66 滤波器估计单元

Claims (3)

1.一种信息处理装置,包括:
第一声音收集单元;
第二声音收集单元,其被配置为与所述第一声音收集单元不同;
报告单元,其被配置为通过以闪烁模式点亮来报告预定信息;
保持构件,其被配置为保持所述第一声音收集单元、所述第二声音收集单元和所述报告单元;
信号处理单元,其被配置为基于从所述第一声音收集单元和所述第二声音收集单元中的每一个声音收集单元收集的第一声音与第二声音之间的相关性,来抑制所述第一声音中包括的噪声分量,其中所述第二声音是通过对先前收集的第一声音进行抑制噪声分量的处理而获得的;
其中,
所述保持构件具有部分开口的环形形状以及在端部的至少一部分中具有流线型形状的突出部,其中,所述第二声音收集单元位于所述突出部的前端处或前端附近;以及
在所述保持构件佩戴在用户的颈部上的情况下,所述保持构件保持所述第一声音收集单元面向基本上的竖直向上方向,并且保持所述第二声音收集单元面向所述用户的基本上前侧。
2.根据权利要求1所述的信息处理装置,还包括被配置为由所述用户输入信息的输入单元。
3.根据权利要求1所述的信息处理装置,还包括通信单元,所述通信单元被配置为与外部装置进行通信。
CN201910827384.7A 2015-10-13 2016-10-06 信息处理装置 Active CN110493692B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP2015201723 2015-10-13
JP2015-201723 2015-10-13
JP2016133593 2016-07-05
JP2016-133593 2016-07-05
PCT/JP2016/073655 WO2017064914A1 (ja) 2015-10-13 2016-08-10 情報処理装置
JPPCT/JP2016/073655 2016-08-10
JP2016177402 2016-09-12
JP2016-177402 2016-09-12
CN201680058465.XA CN108141654B (zh) 2015-10-13 2016-10-06 信息处理装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201680058465.XA Division CN108141654B (zh) 2015-10-13 2016-10-06 信息处理装置

Publications (2)

Publication Number Publication Date
CN110493692A CN110493692A (zh) 2019-11-22
CN110493692B true CN110493692B (zh) 2022-01-25

Family

ID=58517591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910827384.7A Active CN110493692B (zh) 2015-10-13 2016-10-06 信息处理装置

Country Status (3)

Country Link
US (1) US11232777B2 (zh)
CN (1) CN110493692B (zh)
WO (1) WO2017065092A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051663A1 (ja) * 2016-09-13 2018-03-22 ソニー株式会社 音源位置推定装置及びウェアラブルデバイス
WO2018207453A1 (ja) * 2017-05-08 2018-11-15 ソニー株式会社 情報処理装置
CN208079323U (zh) * 2017-12-28 2018-11-09 安克创新科技股份有限公司 一种颈环蓝牙耳机
EP4297028A4 (en) * 2021-03-10 2024-03-20 Mitsubishi Electric Corp NOISE CANCELLATION DEVICE, NOISE CANCELLATION METHOD, AND NOISE CANCELLATION PROGRAM
CN113421566B (zh) * 2021-08-20 2021-11-12 航天科工通信技术研究院有限责任公司 基于风噪用便携式语音减噪装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS51248Y1 (zh) * 1971-05-26 1976-01-07
US5793875A (en) 1996-04-22 1998-08-11 Cardinal Sound Labs, Inc. Directional hearing system
CN1643571A (zh) * 2002-03-27 2005-07-20 艾黎弗公司 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置
US7512414B2 (en) 2002-07-26 2009-03-31 Oakley, Inc. Wireless interactive headset
AU2002329160A1 (en) * 2002-08-13 2004-02-25 Nanyang Technological University Method of increasing speech intelligibility and device therefor
US7428429B2 (en) 2002-08-14 2008-09-23 Sync1 Llc Hands-free personal communication device
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7711110B2 (en) 2007-03-16 2010-05-04 Midas Technology, Llc Universal speakerphone with adaptable interface
US8411880B2 (en) 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
JP4506873B2 (ja) * 2008-05-08 2010-07-21 ソニー株式会社 信号処理装置、信号処理方法
US20090296966A1 (en) * 2008-05-28 2009-12-03 Yat Yiu Cheung Hearing Kit
US20110317858A1 (en) * 2008-05-28 2011-12-29 Yat Yiu Cheung Hearing aid apparatus
US8842848B2 (en) * 2009-09-18 2014-09-23 Aliphcom Multi-modal audio system with automatic usage mode detection and configuration capability
US8897455B2 (en) 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
JP2012133250A (ja) 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム
JP2012203122A (ja) 2011-03-24 2012-10-22 Panasonic Corp 音声選択装置並びにそれを使用したメディア機器およびハンズフリー通話装置
CN102300140B (zh) * 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
JP5772447B2 (ja) 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析装置
US10223710B2 (en) * 2013-01-04 2019-03-05 Visa International Service Association Wearable intelligent vision device apparatuses, methods and systems
US20130287224A1 (en) 2012-04-27 2013-10-31 Sony Ericsson Mobile Communications Ab Noise suppression based on correlation of sound in a microphone array
JP2014023141A (ja) * 2012-07-23 2014-02-03 Satoru Katsumata 携帯情報端末機携行保持具
JP6101018B2 (ja) * 2012-08-24 2017-03-22 株式会社アコー 防風層付き表面音圧測定マイクロホン
BR112015004625B1 (pt) 2012-09-03 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada.
CN202998463U (zh) * 2012-12-11 2013-06-12 启通科技有限公司 一种挂颈式助听器
JP6174856B2 (ja) * 2012-12-27 2017-08-02 キヤノン株式会社 雑音抑制装置、その制御方法、及びプログラム
KR101498087B1 (ko) 2013-02-21 2015-03-03 엘지전자 주식회사 블루투스 헤드셋
WO2014158426A1 (en) * 2013-03-13 2014-10-02 Kopin Corporation Eye glasses with microphone array
US9589573B2 (en) 2013-07-12 2017-03-07 Cirrus Logic International Semiconductor Ltd. Wind noise reduction
EP2840807A1 (en) 2013-08-19 2015-02-25 Oticon A/s External microphone array and hearing aid using it
EP3036912A1 (en) 2013-08-23 2016-06-29 Binauric SE External speaker/microphone apparatus for use with an electrical device for providing audio signals and/or for voice communication
KR102145735B1 (ko) * 2013-11-07 2020-08-19 엘지전자 주식회사 이동단말기 및 그 제어방법
CN103700373A (zh) * 2013-12-21 2014-04-02 刘兴超 一种穿戴式设备的声音降噪系统及其降噪处理方法
EP2919482B1 (en) 2014-03-13 2019-11-06 LG Electronics Inc. Wireless ear piece
KR102091520B1 (ko) * 2014-03-25 2020-03-20 엘지전자 주식회사 이동 단말기
KR102127390B1 (ko) 2014-06-10 2020-06-26 엘지전자 주식회사 무선 리시버 및 그 제어 방법
US20150382096A1 (en) * 2014-06-25 2015-12-31 Roam, Llc Headphones with pendant audio processing
US9900688B2 (en) 2014-06-26 2018-02-20 Intel Corporation Beamforming audio with wearable device microphones
KR101545147B1 (ko) * 2014-09-15 2015-08-24 주식회사 블루콤 매너 통화 기능을 포함한 블루투스 스테레오 헤드셋
US9654868B2 (en) * 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
CN204993794U (zh) * 2015-09-15 2016-01-20 新科实业有限公司 带主动降噪装置的音响系统
EP3364663B1 (en) 2015-10-13 2020-12-02 Sony Corporation Information processing device
US10368162B2 (en) 2015-10-30 2019-07-30 Google Llc Method and apparatus for recreating directional cues in beamformed audio

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自适应滤波语音增强算法改进及其DSP实现;王瑜琳;《计算机工程与应用》;20150131;全文 *

Also Published As

Publication number Publication date
CN110493692A (zh) 2019-11-22
WO2017065092A1 (ja) 2017-04-20
US11232777B2 (en) 2022-01-25
US20190341019A1 (en) 2019-11-07

Similar Documents

Publication Publication Date Title
CN110493692B (zh) 信息处理装置
US11671773B2 (en) Hearing aid device for hands free communication
CN110741654B (zh) 耳塞语音估计
US10306389B2 (en) Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US7813923B2 (en) Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
EP3413589A1 (en) A microphone system and a hearing device comprising a microphone system
CN108141654B (zh) 信息处理装置
US11146897B2 (en) Method of operating a hearing aid system and a hearing aid system
Levin et al. Near-field signal acquisition for smartglasses using two acoustic vector-sensors
US20220174428A1 (en) Hearing aid system comprising a database of acoustic transfer functions
WO2017064914A1 (ja) 情報処理装置
D'Olne et al. Model-based beamforming for wearable microphone arrays
US11683634B1 (en) Joint suppression of interferences in audio signal
EP4040806A2 (en) A hearing device comprising a noise reduction system
Saruwatari et al. Blind speech extraction combining ICA-based noise estimation and less-musical-noise nonlinear post processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant