CN116490924A - 声音采集系统、声音采集方法和程序 - Google Patents

声音采集系统、声音采集方法和程序 Download PDF

Info

Publication number
CN116490924A
CN116490924A CN202180068862.6A CN202180068862A CN116490924A CN 116490924 A CN116490924 A CN 116490924A CN 202180068862 A CN202180068862 A CN 202180068862A CN 116490924 A CN116490924 A CN 116490924A
Authority
CN
China
Prior art keywords
sound
signal
beamformer
sound source
directivity control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180068862.6A
Other languages
English (en)
Inventor
松永圭司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audio Technica KK
Original Assignee
Audio Technica KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audio Technica KK filed Critical Audio Technica KK
Priority claimed from PCT/JP2021/037733 external-priority patent/WO2022102322A1/ja
Publication of CN116490924A publication Critical patent/CN116490924A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

该声音采集系统(S)具有:麦克风阵列(1),其包括多个麦克风(2);第一波束成形器(152),其输出第一信号,其中在基于到达多个麦克风(2)的声音的多个声音信号中,与基于从其他方向到达的声音的声音信号相比更强调基于从第一范围内的方向到达的声音的声音信号;第二波束成形器(153),其输出第二信号,其中在多个声音信号中,与基于从其他方向到达的声音的声音信号相比更强调基于从第二范围内的方向到达的声音的声音信号;声源方向检测单元(151),其检测生成到达多个麦克风(2)的声音的声源的方向;以及指向性控制单元(155),其在第一波束成形器(152)正输出第一信号期间,如果声源方向检测单元(151)检测到的声源的方向的每单位时间的变化角度被判定为阈值以上,则使第二波束成形器(153)输出第二信号。

Description

声音采集系统、声音采集方法和程序
技术领域
本发明涉及声音采集系统、声音采集方法和程序。
背景技术
已知一种波束成形处理单元,其使用由多个麦克风观测到的音频信号中的相位差来进行波束成形处理,以在声音采集的目标指向声源的状态下采集声音(例如,参见专利文献1)。
现有技术
专利文件
专利文献1:日本特开2013-201525
发明内容
发明要解决的问题
在传统的波束成形处理单元中,假定声源是一个源。因此,在传统的波束成形处理单元中,如果在声音采集的目标指向说话者的方向的状态下采集语音时另一说话者说话,则存在不能采集该另一说话者的语音的问题。
因此,本发明是鉴于这些观点而提出的,其目的是使得可以采集多个说话者的语音。
用于解决问题的方案
根据本发明的第一方面的一种声音采集系统包括:麦克风阵列,其包括多个麦克风;第一波束成形器,用于输出第一信号,所述第一信号是通过在基于到达多个麦克风的声音的多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的;第二波束成形器,用于输出第二信号,所述第二信号是通过在所述多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第二范围内的方向的声音的声音信号而获得的;声源方向检测部,用于检测生成到达所述多个麦克风的声音的声源的方向;以及指向性控制部,用于在所述第一波束成形器正在输出所述第一信号期间,在所述声源方向检测部所检测到的声源的方向的每单位时间的变化角度被判断为等于或大于阈值的情况下,使所述第二波束成形器输出所述第二信号。
在所述第一波束成形器正在输出所述第一信号期间,在所述声源的方向的每单位时间的变化角度被判断为小于阈值的情况下,所述指向性控制部可以使所述第一波束成形器在所述第一范围已经改变的状态下继续输出所述第一信号。
在所述第一波束成形器正在输出所述第一信号期间,在所述变化角度被判断为等于或大于阈值的情况下,所述指向性控制部可以减小所述第一信号的输出电平。
所述指向性控制部可以利用基于在所述变化角度被判断为等于或大于阈值之后的经过时间的衰减因子,来减小所述第一信号的输出电平。
所述指向性控制部可以在减小所述第一信号的输出电平期间,增大所述第二信号的输出电平。
所述指向性控制部可以以比用于减小所述第一信号的输出电平的变化速度大的变化速度来增大所述第二信号的输出电平。
在判断为所述声源的方向未包括在所述第一范围内的情况下,所述指向性控制部可以使所述第二波束成形器输出所述第二信号。
所述指向性控制部可以在使所述第二波束成形器输出所述第二信号之前,确定第二范围使得所述第二范围包括所述声源的方向。
在所述第二波束成形器正在输出所述第二信号期间,在所述声源方向检测部所检测到的声源的方向的每单位时间的变化角度被判断为等于或大于阈值的情况下,所述指向性控制部可以使所述第一波束成形器输出所述第一信号。
所述声音采集系统还可以包括存储部,所述存储部用于将波束成形器系数和所述声源方向检测部所检测到的声源的方向彼此相关联地进行存储,其中,所述指向性控制部可以使用与所述声源方向检测部所检测到的声源的方向相关联地存储在所述存储部中的波束成形器系数,使所述第一波束成形器或所述第二波束成形器输出所述第一信号或所述第二信号。
所述存储部可以将所述声源方向检测部过去检测到的声源的方向和所述指向性控制部过去基于该方向所计算出的波束成形器系数彼此相关联地进行存储,以及在判断为所述声源方向检测部新检测到的声源的方向与过去检测到的且存储在所述存储部中的声源的方向相同的情况下,所述指向性控制部可以使用与过去检测到的声源的方向相关联地存储的波束成形器系数。
根据本发明的第二方面的一种声音采集方法包括以下步骤:输出第一信号,所述第一信号是通过在基于到达多个麦克风的声音的多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的;检测生成到达所述多个麦克风的声音的声源的方向;以及在正在输出所述第一信号期间,在判断为所述声源的方向的每单位时间的变化角度等于或大于阈值的情况下,输出第二信号,所述第二信号是通过在所述多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第二范围内的方向的声音的声音信号而获得的。
根据本发明的第三方面的一种程序使得计算机用作:第一波束成形器,用于输出第一信号,所述第一信号是通过在基于到达多个麦克风的声音的多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的;第二波束成形器,用于输出第二信号,所述第二信号是通过在所述多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第二范围内的方向的声音的声音信号而获得的;声源方向检测部,用于检测生成到达所述多个麦克风的声音的声源的方向;以及指向性控制部,用于在所述第一波束成形器正在输出所述第一信号期间,在所述声源方向检测部所检测到的声源的方向的每单位时间的变化角度被判断为等于或大于阈值的情况下,使所述第二波束成形器输出所述第二信号。
发明的效果
根据本发明,可以采集多个说话者的语音。
附图说明
图1是用于说明根据本实施例的声音采集系统S的概要的图。
图2是以时间序列示出声音采集系统S采集由多个说话者生成的多个语音的操作的图。
图3是用于说明声音采集系统S的结构的图。
图4是用于说明第一波束成形器152的结构的图。
图5是示出由波束成形处理部15进行的用于判断是否检测到新声源的处理流程的流程图。
图6是示出由波束成形处理部15进行的用于基于新声源的检测来控制波束成形器的处理流程的流程图。
具体实施方式
<根据本实施例的声音采集系统的概要>
图1是用于说明根据本实施例的声音采集系统S的概要的图。图1是示出空间R的内部的侧视图。例如,空间R是建筑物中的房间,但不限于此,并且可以是建筑物中的走廊、休息室、楼梯场所等。如图1所示,声音采集系统S安装在空间R的内顶面上,并且说话者A1、说话者A2和说话者A3停留在空间R中。图1中的语音B1、B2和B3分别是由说话者A1、A2和A3生成的语音。在图1中,声音采集系统S安装在空间R的内顶面上。应当注意,声音采集系统S可以安装在空间R的内侧面或内底面上。
声音采集系统S包括麦克风阵列和信号处理设备,麦克风阵列包括多个麦克风。信号处理设备包括对到达麦克风阵列的声音进行信号处理的多个波束成形器。声音采集系统S使用与多个波束成形器各自检测到的声源方向相对应的波束成形器系数来进行波束成形,从而模拟地形成多个定向麦克风。波束成形器系数将在后面描述。
图2是以时间序列示出声音采集系统S采集由多个说话者生成的多个语音的操作的图。图2中的横轴表示时刻。图2的纵轴中所示的“说话者A1”、“说话者A2”和“说话者A3”分别指示说话者A1、A2和A3生成语音B1、B2和B3的持续时间。图2的纵轴中所示的“第一波束成形器”和“第二波束成形器”指示包括在声音采集系统S中的第一波束成形器和第二波束成形器进行波束成形处理的持续时间、以及具有在波束成形处理中识别的声源方向的语音。“输出声音”指示由声音采集系统S采集并输出到外部装置的语音。外部装置例如是具有连接到通信网络的路由器或存储介质的计算机。
如图2所示,说话者A1从时刻T1到时刻T3生成语音B1,说话者A2从时刻T2到时刻T5生成语音B2,以及说话者A3从时刻T4到时刻T6生成语音B3。在时刻T1,声音采集系统S检测到语音B1以开始利用第一波束成形器的波束成形处理,并识别语音B1的声源方向。在时刻T2,声音采集系统S检测到来自与语音B1不同的方向的语音B2,以开始利用第二波束成形器的波束成形处理,由此识别语音B2的声源方向。在时刻T3,声音采集系统S停止利用第一波束成形器的波束成形处理。
在时刻T4,声音采集系统S检测到语音B3的声源方向,并且开始利用第一波束成形器的波束成形处理。在时刻T5,声音采集系统S停止利用第二波束成形器的波束成形处理。结果,声音采集系统S从时刻T1到时刻T2采集语音B1,并且从时刻T2到时刻T3采集语音B1和语音B2。声音采集系统S从时刻T3到时刻T4采集语音B2,并且从时刻T4到时刻T5采集语音B2和语音B3。从时刻T5到时刻T6,声音采集系统S采集语音B3。
由于声音采集系统S具有如上所述的多个波束成形器,因此声音采集系统S模拟与多个窄定向麦克风朝向各个声源方向的状态相同的状况,并且采集声音。此外,即使在说话者的数量大于波束成形器的数量的情况下切换生成语音的说话者,声音采集系统S也可以通过切换多个波束成形器而不中断地采集多个说话者的语音。
尽管图2中的声音采集系统S与说话者生成的语音的停止一起停止波束成形处理,但是即使在说话者生成的语音的停止之后也可以继续波束成形处理。例如,声音采集系统S可以不是在时刻T3而是在从时刻T3经过预定时间段之后的时刻停止利用第一波束成形器的在时刻T1开始的波束成形处理。此外,声音采集系统S可以在不停止利用第一波束成形器的波束成形处理的情况下在时刻T3继续波束成形处理。在这种情况下,当在时刻T4检测到语音B3的声源方向时,声音采集系统S将利用第一波束成形器的波束成形的方向切换到语音B3的声源方向。
<声音采集系统S的结构>
图3是用于说明声音采集系统S的结构的图。声音采集系统S包括麦克风阵列1和信号处理设备10。麦克风阵列1包括多个麦克风2(麦克风2a、2b、2c和2d)。多个麦克风2基于已经到达的声音输出电信号。信号处理设备10处理从多个麦克风2输出的电信号以增大朝向声源方向的指向性,由此强调并输出从声源生成的声音。
信号处理设备10包括输入部11、第一衰减部12、第二衰减部13、输出部14和波束成形处理部15。输入部11例如包括前置放大器和模数(A/D)转换器。输入部11将从多个麦克风2各自输入的多个模拟电信号转换为多个数字信号以生成多个声音信号。输入部11例如生成通过放大从相应的多个麦克风2输入的模拟电信号而获得的多个放大信号。输入部11将多个放大信号转换为多个数字信号以生成多个声音信号。输入部11将所生成的多个声音信号输出到波束成形处理部15。
第一衰减部12和第二衰减部13减小或增大从波束成形处理部15输入的信号的电平。第一衰减部12和第二衰减部13基于从波束成形处理部15获取的衰减器增益来减小或增大从波束成形处理部15输出的信号的电平。衰减器增益对应于衰减因子,该衰减因子是相对于在第一衰减部12和第二衰减部13中使信号的电平减小或增大之前的信号的电平的、信号的电平的减小量或增大量。第一衰减部12和第二衰减部13将通过减小或增大信号的电平而获得的信号输出到输出部14。
输出部14输出从第一衰减部12和第二衰减部13输入的信号。输出部14生成通过将第一衰减部12输出的信号与第二衰减部13输出的信号相加而获得的输出声音信号,并且输出所生成的输出声音信号。输出部14包括例如数模(D/A)转换器,并且将数字输出声音信号转换为模拟信号以输出转换后的模拟信号。
波束成形处理部15包括声源方向检测部151、第一波束成形器152、第二波束成形器153、存储部154和指向性控制部155。波束成形处理部15例如由用于数字信号处理的处理器构成。
声源方向检测部151检测生成到达多个麦克风2的声音的声源的方向。例如,如果麦克风阵列1安装在空间的内顶面上,则声源的方向由a)从麦克风阵列1的中心位置开始且在竖直方向上延伸的直线和b)连接麦克风2的位置和声源的位置的直线之间的角度表示。声源方向检测部151例如基于声音到达多个麦克风中的各个麦克风的时刻的差,通过使用延迟和阵列(delay-sum array)方法来检测声源的方向。声源方向检测部151将检测到的声源方向通知给指向性控制部155。
在基于由多个麦克风2采集的声音的多个声音信号中,第一波束成形器152输出第一信号,该第一信号是通过与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的。第一范围是围绕从声源方向检测部151通知的第一声源的方向定义的范围。第一范围的大小例如是由多个麦克风2的数量和针对第一波束成形器152设置的波束成形器系数确定的。
第一波束成形器152通过对从输入部11输入的多个声音信号进行合成来生成第一信号。通过使用从指向性控制部155输入的波束成形器系数,第一波束成形器152生成多个声音信号,使得基于来自第一范围内的方向的声音的声音信号的电平高于基于来自其他方向的声音的声音信号的电平。第一波束成形器152通过对所生成的多个声音信号进行合成来生成第一信号。第一波束成形器152将所生成的第一信号输出到第一衰减部12。
图4是用于说明第一波束成形器152的结构的图。第一波束成形器152包括多个可变延迟部161(可变延迟部161a、161b、161c和161d)、多个增益调整部162(增益调整部162a、162b、162c和162d)和加法部163。
可变延迟部161基于从指向性控制部155输入的延迟量来延迟从输入部11获取的多个声音信号。波束成形器系数对应于延迟量,该延迟量是与从声源到多个麦克风2各自的距离(以下称为“传播距离”)的差相对应的时间段,并且可变延迟部161例如基于波束成形器系数的延迟量来延迟声音信号。通过使可变延迟部161将声音信号延迟与传播距离的差相对应的时间段,校正已经到达多个麦克风2的多个声音的定时的差,从而使来自第一波束成形器152具有最强指向性的方向的多个声音信号变为同一相位。
增益调整部162在可变延迟部161已经引起延迟之后调整信号的增益。波束成形器系数对应于增益,并且增益调整部162例如基于与波束成形器系数相对应的增益来放大或衰减由可变延迟部161延迟的信号。多个增益调整部162各自的增益是根据波束成形器系数确定的。
加法部163对由多个增益调整部162生成的多个信号进行相加。从与第一范围内的方向相对应的增益调整部162输出的信号大于从其他增益调整部162输出的信号。因此,加法部163将多个信号相加以生成第一信号,该第一信号是通过与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的。
返回参考图3,在从输入部11输入的多个声音信号中,第二波束成形器153输出第二信号,该第二信号是通过与基于来自其他方向的声音的声音信号相比更强调基于来自第二范围内的方向的声音的声音信号而获得的。第二范围是围绕从声源方向检测部151通知的第二声源的方向定义的范围。第二范围的大小例如是由多个麦克风2的数量和针对第二波束成形器153设置的波束成形器系数确定的。
第二波束成形器153通过对从输入部11输入的多个声音信号进行合成来生成第二信号。第二波束成形器153使用从指向性控制部155输入的波束成形器系数来生成多个声音信号,使得基于来自第二范围内的方向的声音的声音信号的电平大于基于来自其他方向的声音的声音信号的电平。第二波束成形器153通过对所生成的多个声音信号进行合成来生成第二信号。第二波束成形器153将所生成的第二信号输出到第二衰减部13。第二波束成形器153的结构与图4所示的第一波束成形器152的结构相同。
存储部154包括诸如随机存取存储器(RAM)和固态驱动器(SSD)等的存储介质。存储部154存储用于计算由第一衰减部12和第二衰减部13使用的衰减器增益的衰减系数。存储部154存储与声源的方向相关联的波束成形器系数。
存储部154可以将声源方向检测部151检测到的声源的方向和波束成形器系数彼此相关联地存储。例如,存储部154将a)过去由声源方向检测部151检测到的声源的方向和b)过去由指向性控制部155基于这些方向计算出的波束成形器系数彼此相关联地存储。
此外,存储部154存储用于使处理器用作声源方向检测部151、第一波束成形器152、第二波束成形器153和指向性控制部155的程序。
指向性控制部155基于从声源方向检测部151通知的声源的方向来确定第一波束成形器152和第二波束成形器153的波束成形器系数,并且控制第一波束成形器152和第二波束成形器153。例如,指向性控制部155使用波束成形器系数使第一波束成形器152或第二波束成形器153输出第一信号或第二信号,该波束成形器系数与由声源方向检测部151检测到的声源的方向相关联地存储在存储部154中。此外,指向性控制部155控制第一衰减部12和第二衰减部13的衰减因子。
如果基于从声源方向检测部151通知的声源的方向而判断为生成声音的声源已经改变,则指向性控制部155改变针对第一波束成形器152和第二波束成形器153设置的波束成形器系数以及第一衰减部12和第二衰减部13的衰减因子。为了检测到声源已经改变或移动,指向性控制部155将指示从声源方向检测部151通知的声源的方向的角度信息存储在存储部154中。指向性控制部155计算变化角度,该变化角度是在当前时刻由声源方向检测部151检测到的角度和由存储在存储部154中的单位时间之前的角度信息(下文中称为“紧前的角度”)指示的角度之间的差。
如果每单位时间的变化角度(其是当前时刻和紧前时刻之间的差)等于或大于阈值,则指向性控制部155判断为生成声音的声源已经改变。另一方面,如果变化角度小于阈值,则指向性控制部155判断为生成声音的声源已经移动。例如,单位时间是0.1秒。阈值是基于多个声源之间的最小方向差设置的值,并且例如是10度。
如果判断为已经检测到新声源,则指向性控制部155使用多个波束成形器中的未被使用的波束成形器在包括新声源的范围内进行信号处理。具体地,如果在第一波束成形器152正在输出第一信号期间,判断为由声源方向检测部151检测到的声源的方向的每单位时间的变化角度等于或大于阈值,则指向性控制部155使第二波束成形器153输出第二信号。也就是说,如果判断为由声源方向检测部151检测到的声源的方向是不包括在第一范围中的新声源的方向,则指向性控制部155使第二波束成形器153输出第二信号。
指向性控制部155确定第二范围,使得在使第二波束成形器153输出第二信号之前,第二范围包括新检测到的声源的方向。指向性控制部155计算与所确定的第二范围相对应的波束成形器系数,并且针对多个增益调整部162设置所计算出的波束成形器系数,从而使第二波束成形器153输出第二信号。通过使指向性控制部155以这种方式操作,当新声源开始生成声音时,信号处理设备10可以在具有朝向新声源的方向的指向性的状态下采集声音。
另一方面,如果在第一波束成形器152正在输出第一信号期间,判断为声源的方向的每单位时间的变化角度小于阈值,则指向性控制部155使第一波束成形器152在第一范围已经改变的状态下继续输出第一信号。换句话说,指向性控制部155判断为已经在当前时刻检测到与紧前时刻相同的声源,并且继续使用在具有朝向包括检测到的声源的范围的指向性的状态下采集声音的波束成形器。
如上所述,即使判断为检测到的声源处于与紧前时刻不同的位置,如果判断为声源的方向的每单位时间的变化角度小于阈值,则指向性控制部155也不切换正在操作的波束成形器。也就是说,即使声源的位置已经改变,如果声源的方向的每单位时间的变化角度小于阈值,则指向性控制部155也判断为已经检测到与紧前时刻相同的声源。然后,指向性控制部155通过基于变化角度来改变要针对操作中的波束成形器设置的波束成形器系数来改变指向性的方向。以这种方式操作的指向性控制部155允许信号处理设备在例如说话者在移动的同时生成语音时不切换波束成形器而采集声音,因此可以防止所采集的声音的电平的变化。
如果在第二波束成形器153正在输出第二信号期间检测到另一新声源(处于第三方向的声源),则指向性控制部155使用第一波束成形器152采集由检测到的新声源生成的声音。如果在第二波束成形器153正在输出第二信号期间判断为由声源方向检测部151检测到的声源的方向的每单位时间的变化角度等于或大于阈值,则指向性控制部155使第一波束成形器152输出第一信号。
如果检测到的新声源的方向与过去检测到的声源的方向相同,则指向性控制部155可以使用与过去检测到的声源的方向相关联的波束成形器系数。具体地,如果判断为由声源方向检测部151新检测到的声源的方向(第三方向)与过去检测到的第一方向相同,则指向性控制部155使用与第一方向相关联地存储在存储部154中的波束成形器系数使第一波束成形器152输出第一信号。由于指向性控制部155使用存储在存储部154中的波束成形器系数,因此可以减少波束成形器开始操作所需的时间。
如上所述,每当检测到新声源时,指向性控制部155交替地使用第一波束成形器152和第二波束成形器153。结果,即使存在从多个声源同时生成声音的一定时间量,信号处理设备10也可以在声源被切换时采集从多个声源生成的声音。
接着,将描述指向性控制部155控制第一衰减部12和第二衰减部13的操作。指向性控制部155基于在检测到新声源的时刻之后的经过时间来计算第一衰减部12和第二衰减部13的衰减器增益。指向性控制部155通过针对第一衰减部12和第二衰减部13设置计算出的衰减器增益来调整从第一衰减部12和第二衰减部13输出的信号的电平。
如果已经检测到新声源,则指向性控制部155增大位于与包括新声源的范围相对应的波束成形器下游的衰减部的输出电平。另一方面,指向性控制部155减小位于与不包括新声源的范围相对应的波束成形器下游的衰减部的输出电平。下面描述这样的情况,其中与第一波束成形器输出的第一信号相对应的第一范围随着时间而停止包括声源,并且与第二波束成形器输出的第二信号相对应的第二范围随着时间而逐渐改变为包括新声源。在这种情况下,位于第一波束成形器下游的用于降低信号的电平的衰减部是第一衰减部12,而位于第二波束成形器下游的用于增大信号的电平的衰减部是第二衰减部13。
如果在第一波束成形器153正在输出第一信号期间判断为变化角度等于或大于阈值,则指向性控制部155减小第一信号的输出电平。当减小第一信号的输出电平时,指向性控制部155利用基于在判断为变化角度等于或大于阈值之后的经过时间的衰减因子,来减小第一信号的输出电平。指向性控制部155以与基于衰减系数和经过时间所确定的衰减器增益相对应的衰减因子来操作第一衰减部。
例如通过将衰减系数C乘以经过时间T来确定衰减器增益。例如,衰减系数C是负固定值。以这种方式,针对第一衰减部12设置基于经过时间计算出的衰减器增益。这允许指向性控制部155逐渐衰减第一信号,因此可以防止从声源生成的声音突然消失。
此外,指向性控制部155增大从第二波束成形器153输出的第二信号的输出电平。例如,指向性控制部155以大于用于减小第一信号的输出电平的变化速度的变化速度增大第二信号的输出电平。变化速度由每单位时间的输出电平的变化量确定。如上所述,由于指向性控制部155以大于用于减小第一信号的输出电平的变化速度的变化速度来增大第二信号的输出电平,因而第二信号的输出电平在短时间内增大。因此,信号处理设备10可以从开始以足够的音量输出已经开始说话的人的语音。指向性控制部155可以在减小第一信号的输出电平的同时增大第二信号的输出电平。由于指向性控制部155以这种方式操作,因此可以防止当信号处理设备10在第一信号和第二信号之间切换输出时在第一信号和第二信号之间出现无声时段。
<新声源的检测处理的流程>
图5是示出由波束成形处理部15进行的用于判断是否已经检测到新声源的处理流程的流程图。声源方向检测部151获取由输入部11放大的多个声音信号(S11)。声源方向检测部151基于所获取的多个声音信号来检测声源方向(S12)。
指向性控制部155计算由声源方向检测部151检测到的在当前时刻的声源方向与紧前时刻的声源方向之间的差(S13)。如果所计算出的声源方向之间的差等于或大于阈值(S14中的“是”),则指向性控制部155判断为已经检测到新声源(S15)。如果所计算出的声源方向之间的差小于阈值(S14中的“否”),则指向性控制部155判断为已经检测到与紧前时刻相同的声源(S16)。
如果尚未进行用于结束新声源的检测处理的操作(S17中的“否”),则波束成形处理部15重复从S11到S17的处理。如果进行了用于结束新声源的检测处理的操作(S17中的“是”),则波束成形处理部15结束新声源的检测处理。
<波束成形器的控制处理的流程>
图6是示出由波束成形处理部15进行的用于基于新声源的检测来控制波束成形器的处理流程的流程图。图6示出了当指向性控制部155控制信号处理设备中包括的多个波束成形器中的一个波束成形器时的处理流程。当第一波束成形器152在具有朝向第一声源的方向的指向性的状态下输出第一信号时,开始图6所示的流程图。
第一波束成形器152以用于第一声源的波束成形器系数来操作(S21)。如果尚未检测到第二声源(S22中的“否”),则指向性控制部155重复用于检测第二声源的处理。如果检测到第二声源(S22中的“是”),则指向性控制部155开始测量经过时间(S23)。指向性控制部155通过基于所测量的经过时间而计算用于第一声源的衰减器增益来减小用于第一声源的衰减器增益(S24)。
如果指向性控制部155在第一波束成形器152未正在进行操作期间检测到除了第二声源之外的声源(例如,第三声源)(S25中的“是”),则指向性控制部155将针对第三声源计算出的波束成形器系数应用于第一波束成形器152(S26)。指向性控制部155可以通过参考存储部154获得用于第三声源的波束成形器系数。第一波束成形器152基于由指向性控制部155应用的用于第三声源的波束成形器系数来开始操作(S27)。指向性控制部155增大用于第三声源的衰减器增益(S28)。
如果指向性控制部155在第一波束成形器152未正在进行操作期间尚未检测到第三声源(S25中的“否”),则指向性控制部155重复用于检测第三声源的处理。如果尚未进行用于结束波束成形器的控制处理的操作(S29中的“否”),则波束成形处理部重复从S21到S28的处理。如果进行了用于结束波束成形器的控制处理的操作(S29中的“是”),则波束成形处理部15结束波束成形器的控制处理。
<声音采集系统S的效果>
如上所述,声音采集系统S包括:第一波束成形器152,其输出通过在基于到达多个麦克风2的声音的声音信号中强调基于来自第一范围内的方向的声音的声音信号而获得的第一信号;以及第二波束成形器153,其输出通过在多个声音信号中强调基于来自第二范围内的方向的声音的声音信号而获得的第二信号。然后,指向性控制部155基于声源的方向切换正被使得进行波束成形处理的波束成形器。
即使生成语音的说话者在多个说话者之间切换,声音采集系统S也可以在不中断由多个说话者生成的语音的情况下采集多个语音。
应当注意,尽管图1描述了存在三个说话者的情况,但是声音采集系统S也可以在存在四个或多于四个说话者的状况下使用。尽管在以上描述中,声音采集系统S被提供有两个波束成形器,但是通过向声音采集系统S提供三个或多于三个波束成形器,声音采集系统S可以在具有朝向三个或多于三个声源方向中的各个声源方向的指向性的状态下采集声音。
基于示例性实施例说明了本发明。本发明的技术范围不限于上述实施例中所说明的范围,并且可以在本发明的范围内进行各种改变和修改。例如,可以利用功能上或物理上分散或集成的任何单元来配置设备的全部或一部分。此外,由示例性实施例的任意组合生成的新示例性实施例包括在示例性实施例中。此外,由组合带来的新示例性实施例的效果也具有原始示例性实施例的效果。
[附图标记的描述]
1麦克风阵列
2麦克风
10信号处理设备
11输入部
12第一衰减部
13第二衰减部
14输出部
15波束成形处理部
151 声源方向检测部
152 第一波束成形器
153 第二波束成形器
154 存储部
155 指向性控制部
161 可变延迟部
162 增益调整部
163 加法部

Claims (13)

1.一种声音采集系统,包括:
麦克风阵列,其包括多个麦克风;
第一波束成形器,用于输出第一信号,所述第一信号是通过在基于到达多个麦克风的声音的多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的;
第二波束成形器,用于输出第二信号,所述第二信号是通过在所述多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第二范围内的方向的声音的声音信号而获得的;
声源方向检测部,用于检测生成到达所述多个麦克风的声音的声源的方向;以及
指向性控制部,用于在所述第一波束成形器正在输出所述第一信号期间,在所述声源方向检测部所检测到的声源的方向的每单位时间的变化角度被判断为等于或大于阈值的情况下,使所述第二波束成形器输出所述第二信号。
2.根据权利要求1所述的声音采集系统,其中,
在所述第一波束成形器正在输出所述第一信号期间,在所述声源的方向的每单位时间的变化角度被判断为小于阈值的情况下,所述指向性控制部使所述第一波束成形器在所述第一范围已经改变的状态下继续输出所述第一信号。
3.根据权利要求1或2所述的声音采集系统,其中,
在所述第一波束成形器正在输出所述第一信号期间,在所述变化角度被判断为等于或大于阈值的情况下,所述指向性控制部减小所述第一信号的输出电平。
4.根据权利要求3所述的声音采集系统,其中,
所述指向性控制部利用基于在所述变化角度被判断为等于或大于阈值之后的经过时间的衰减因子,来减小所述第一信号的输出电平。
5.根据权利要求3或4所述的声音采集系统,其中,
所述指向性控制部在减小所述第一信号的输出电平期间,增大所述第二信号的输出电平。
6.根据权利要求3至5中任一项所述的声音采集系统,其中,
所述指向性控制部以比用于减小所述第一信号的输出电平的变化速度大的变化速度来增大所述第二信号的输出电平。
7.根据权利要求1至6中任一项所述的声音采集系统,其中,
在判断为所述声源的方向未包括在所述第一范围内的情况下,所述指向性控制部使所述第二波束成形器输出所述第二信号。
8.根据权利要求1至7中任一项所述的声音采集系统,其中,
所述指向性控制部在使所述第二波束成形器输出所述第二信号之前,确定第二范围使得所述第二范围包括所述声源的方向。
9.根据权利要求1至8中任一项所述的声音采集系统,其中,
在所述第二波束成形器正在输出所述第二信号期间,在所述声源方向检测部所检测到的声源的方向的每单位时间的变化角度被判断为等于或大于阈值的情况下,所述指向性控制部使所述第一波束成形器输出所述第一信号。
10.根据权利要求1至9中任一项所述的声音采集系统,还包括存储部,所述存储部用于将波束成形器系数和所述声源方向检测部所检测到的声源的方向彼此相关联地进行存储,
其中,所述指向性控制部使用与所述声源方向检测部所检测到的声源的方向相关联地存储在所述存储部中的波束成形器系数,使所述第一波束成形器或所述第二波束成形器输出所述第一信号或所述第二信号。
11.根据权利要求10所述的声音采集系统,其中,
所述存储部将所述声源方向检测部过去检测到的声源的方向和所述指向性控制部过去基于该方向所计算出的波束成形器系数彼此相关联地进行存储,以及
在判断为所述声源方向检测部新检测到的声源的方向与过去检测到的且存储在所述存储部中的声源的方向相同的情况下,所述指向性控制部使用与过去检测到的声源的方向相关联地存储的波束成形器系数。
12.一种声音采集方法,包括以下步骤:
输出第一信号,所述第一信号是通过在基于到达多个麦克风的声音的多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的;
检测生成到达所述多个麦克风的声音的声源的方向;以及
在正在输出所述第一信号期间,在判断为所述声源的方向的每单位时间的变化角度等于或大于阈值的情况下,输出第二信号,所述第二信号是通过在所述多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第二范围内的方向的声音的声音信号而获得的。
13.一种程序,用于使计算机用作:
第一波束成形器,用于输出第一信号,所述第一信号是通过在基于到达多个麦克风的声音的多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第一范围内的方向的声音的声音信号而获得的;
第二波束成形器,用于输出第二信号,所述第二信号是通过在所述多个声音信号中的、与基于来自其他方向的声音的声音信号相比更强调基于来自第二范围内的方向的声音的声音信号而获得的;
声源方向检测部,用于检测生成到达所述多个麦克风的声音的声源的方向;以及
指向性控制部,用于在所述第一波束成形器正在输出所述第一信号期间,在所述声源方向检测部所检测到的声源的方向的每单位时间的变化角度被判断为等于或大于阈值的情况下,使所述第二波束成形器输出所述第二信号。
CN202180068862.6A 2020-11-11 2021-10-12 声音采集系统、声音采集方法和程序 Pending CN116490924A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-187841 2020-11-11
JP2020187841 2020-11-11
PCT/JP2021/037733 WO2022102322A1 (ja) 2020-11-11 2021-10-12 収音システム、収音方法及びプログラム

Publications (1)

Publication Number Publication Date
CN116490924A true CN116490924A (zh) 2023-07-25

Family

ID=81390815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180068862.6A Pending CN116490924A (zh) 2020-11-11 2021-10-12 声音采集系统、声音采集方法和程序

Country Status (4)

Country Link
US (1) US20230247361A1 (zh)
EP (1) EP4207196A4 (zh)
JP (1) JP7060905B1 (zh)
CN (1) CN116490924A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11978467B2 (en) * 2022-07-21 2024-05-07 Dell Products Lp Method and apparatus for voice perception management in a multi-user environment

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5305743B2 (ja) * 2008-06-02 2013-10-02 株式会社東芝 音響処理装置及びその方法
JP2016167645A (ja) * 2015-03-09 2016-09-15 アイシン精機株式会社 音声処理装置及び制御装置
JP6374936B2 (ja) * 2016-02-25 2018-08-15 パナソニック株式会社 音声認識方法、音声認識装置及びプログラム
US9900685B2 (en) * 2016-03-24 2018-02-20 Intel Corporation Creating an audio envelope based on angular information
JP6794887B2 (ja) * 2017-03-21 2020-12-02 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2019176332A (ja) * 2018-03-28 2019-10-10 株式会社フュートレック 音声抽出装置及び音声抽出方法
EP3939367A4 (en) * 2019-03-13 2022-10-19 Nokia Technologies OY DEVICE, METHOD AND COMPUTER READABLE MEDIUM FOR ADJUSTING BEAMFORMING PROFILES

Also Published As

Publication number Publication date
EP4207196A1 (en) 2023-07-05
EP4207196A4 (en) 2024-03-06
JP7060905B1 (ja) 2022-04-27
JPWO2022102322A1 (zh) 2022-05-19
US20230247361A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
US8204248B2 (en) Acoustic localization of a speaker
US8473291B2 (en) Sound processing apparatus, apparatus and method for controlling gain, and computer program
JP5446275B2 (ja) 拡声システム
US8634547B2 (en) Echo canceller operative in response to fluctuation on echo path
US20070058820A1 (en) Sound field controlling apparatus
US20110129095A1 (en) Audio Zoom
US20090147968A1 (en) Sound input device
JPH06310962A (ja) 自動音量調整装置
WO2006004099A1 (ja) 残響調整装置、残響補正方法、および、音響再生システム
JPWO2007138741A1 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
US20230247361A1 (en) Sound collection system, sound collection method, and non-transitory storage medium
EP1463379A2 (en) Sound-field setting system
KR102680850B1 (ko) 차량 및 차량의 제어방법
JP2010011269A (ja) スピーカアレイ装置
JPH071958B2 (ja) 収音装置
EP3863308B1 (en) Volume adjustment device and volume adjustment method
EP1511358A2 (en) Automatic sound field correction apparatus and computer program therefor
EP3748635A1 (en) Acoustic device and acoustic processing method
US10524079B2 (en) Directivity adjustment for reducing early reflections and comb filtering
US9190069B2 (en) In-situ voice reinforcement system
WO2022102322A1 (ja) 収音システム、収音方法及びプログラム
JP2913105B2 (ja) 音響信号検出方法
JP5076974B2 (ja) 音処理装置およびプログラム
JP2990051B2 (ja) 音声認識装置
US20180096697A1 (en) Noise reduction device and method for reducing noise

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination