CN108630222A - 信号处理系统、信号处理方法以及信号处理程序 - Google Patents

信号处理系统、信号处理方法以及信号处理程序 Download PDF

Info

Publication number
CN108630222A
CN108630222A CN201710767915.9A CN201710767915A CN108630222A CN 108630222 A CN108630222 A CN 108630222A CN 201710767915 A CN201710767915 A CN 201710767915A CN 108630222 A CN108630222 A CN 108630222A
Authority
CN
China
Prior art keywords
signal
separation
directional characteristic
distribution
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710767915.9A
Other languages
English (en)
Other versions
CN108630222B (zh
Inventor
增田太郎
谷口彻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN108630222A publication Critical patent/CN108630222A/zh
Application granted granted Critical
Publication of CN108630222B publication Critical patent/CN108630222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

提供在同一通道始终持续输出来自同一信号源的产生信号的信号处理系统、信号处理方法以及信号处理程序。实施方式的信号处理系统,观测多个信号源的产生信号并取得接收信号,按帧单位,根据接收信号推定分离滤波器,基于该分离滤波器对接收信号进行分离,按各分离信号计算方向特性分布,求出表示过去帧的分离信号各自的方向特性分布的累积分布,算出该积累方步与当前帧的分离信号的方向特性分布之间的相似度,基于相似度,按各分离信号,与一个信号连结并进行输出。

Description

信号处理系统、信号处理方法以及信号处理程序
技术领域
本发明的实施方式涉及信号处理系统、信号处理方法以及信号处理程序。
背景技术
以往以来,在会议系统等信号处理系统中,采用了从以多通道(channel)的声源为对象而收录到的音响信号中分离任意声源的音响信号的多通道声源分离技术。在该多通道声源分离技术中,通常使用如下算法:对按各声源分离出的音响信号彼此进行比较,基于该比较结果提高分离度(独立性等),推定应分离的音响信号。此时,通过预先设定依赖于音响环境的阈值来检测方向特性的峰值,基于该峰值检测结果将所分离出的声源的音响信号与对应的声源连结。
然而,在实际运用时,不一定在一个通道适当地持续收集仅一个声源的音响信号。原因在于,例如在从在某处理帧中分离出的音响信号中选择输出任意的2个信号时,即使对向各个输出端(以下,有时也称为通道)分配的通道编号进行调换,以对所输出的信号彼此进行了比较的分离度为基准的目标函数的值也不会改变。实际上,若持续使用声源分离的系统,则作为现象会发生被切换成向持续输出了某声源的音响信号的通道输出其他声源的音响信号这一情况。该现象并不是因为声源分离发生了失败,而是因如上述那样残存有与被输出的通道编号有关的不定性而引起的。
发明内容
如上所述,在基于现有的多通道信号源分离技术的信号处理系统中,存在如下问题:不一定在一个通道适当地持续收集仅一个信号源的产生信号,会发生被切换成向持续输出了某信号源的产生信号的通道输出其他信号源的产生信号这一情况。
本发明要解决的技术问题在于,提供在多通道信号源分离处理中能够在同一通道始终持续输出来自同一信号源的产生信号的信号处理系统、信号处理方法以及信号处理程序。
实施方式的信号处理系统具备传感器装置、分离装置、第1算出装置、第2算出装置和连结装置。传感器装置观测多个信号源的产生信号并取得接收信号,分离装置按帧单位,根据传感器装置的接收信号推定分离滤波器,基于该分离滤波器将接收信号进行分离而从多个通道输出,第1算出装置基于分离滤波器,按多个通道的各分离信号,计算方向特性分布,第2算出装置求出累积分布,算出该累积分布与获得分离信号的当前帧的分离信号的方向特性分布之间的相似度,所述累积分布表示通过与当前帧相位为过去的帧输出的多个通道的分离信号各自的方向特性分布,连结装置基于相似度,按多个通道的各分离信号,与从多个通道的分离信号中选择出的一个信号连结并进行输出。
根据上述构成的信号处理系统,在多通道信号源分离处理中,能够在同一通道始终持续输出来自同一信号源的产生信号。
附图说明
图1是表示第1实施方式的信号处理系统的构成的框图。
图2是表示用于说明第1实施方式的信号处理系统的处理的坐标系的概念图。
图3是表示第2实施方式的信号处理系统的构成的框图。
图4是表示第3实施方式的信号处理系统的构成的框图。
图5是表示由计算机装置实现第1~第3实施方式的信号处理系统的构成的框图。
图6是表示由网络系统实现第1~第3实施方式的信号处理系统的构成的框图。
标号的说明
100-1、100-2、100-3、100-4…信号处理系统;101…传感器部;102…声源分离部;103…方向特性分布算出部;104…相似度算出部;105…连结部;106…方向推定部;107…位置关系赋予部;108…通知按钮;109…声音区间检测部;201…CPU;202…ROM;203…RAM;204…总线;205…接口装置;301…网络;302…计算机;303…通信终端。
具体实施方式
以下,参照附图来说明实施方式的信号处理系统。
(第1实施方式)
图1是表示第1实施方式的信号处理系统100-1的构成的框图。该信号处理系统100-1具备传感器部101、声源分离部102、方向特性分布算出部103、相似度算出部104和连结部105。
上述传感器部101接收由多个传感器观测的观测信号进行了叠加而得到的信号。上述声源分离部102按基于一定时间的帧单位,根据由传感器部101接收到的信号,推定具有作为对观测信号彼此进行分离的滤波器的作用的分离矩阵,基于该分离矩阵从接收信号中分离多个信号,输出各分离信号。上述方向特性分布算出部103根据由声源分离部102推定出的分离矩阵,算出各分离信号的方向特性分布。上述相似度算出部104算出当前处理帧的方向特性分布与过去算出的方向特性分布的累积分布之间的相似度。上述连结部105基于由相似度算出部104算出的相似度的值,使当前处理帧的各个分离信号与过去的输出信号连结。
第1实施方式的信号处理系统100-1提出如下技术:根据通过声源分离处理分离出的多个输出信号,推定与各个输出信号对应的声源的到来方向。该技术中,例如,对根据分离矩阵间接地求出的导向矢量(steering vector)和假设为信号从预先准备的多个方向到来时的参照导向矢量进行乘法运算,根据该乘法运算的值的大小来判断到来方向。此时,对于相应于音响环境的变化而稳健地求出到来方向而言,不一定容易。
因此,在第1实施方式的信号处理系统100-1中,不是直接求出各分离信号的到来方向,而是使用方向特性分布使在过去帧所输出的信号与当前处理帧中的分离信号相连结。通过如此使用方向特性分布,具有不需要与音响环境的变化相应的阈值调整的效果。
此外,在以下的实施方式中,提及观测声波并处理音响信号的例子,但进行观测以及处理的信号不一定是音响信号,也可以适用于电波等其他种类的信号。
说明第1实施方式的信号处理系统的具体的处理工作。
上述传感器部101具备多个通道的传感器(例如麦克风),各传感器观测对从存在于收录环境下的全部声源到来的音响信号进行了叠加而得到的信号。上述声源分离部102从传感器部101接收观测信号,分离成数量与传感器的通道数相同的音响信号,作为分离信号进行输出。在此所输出的分离信号,通过对观测信号乘以使用信号彼此的分离度变高的基准而学习到的分离矩阵来获得。
上述方向分布算出部103利用由声源分离部102求出的分离矩阵,计算各个分离信号的方向特性分布。由于分离矩阵包含各声源的空间特性信息,因此,通过提取该信息,能够算出各个分离信号的各种角度下的“从该角度到来的确信度”。将该确信度称为方向特性。将通过涉及大范围的角度而求出该方向特性所获得的分布称为方向特性分布。
上述相似度算出部104使用由方向特性分布算出部103求出的方向特性分布,算出与根据过去的多个分离信号另行算出的方向特性分布之间的相似度。将根据过去的多个分离信号算出的方向特性分布称为“累积分布”。累积分布基于当前处理帧之前的分离信号的方向特性分布来算出,并由相似度算出部104保持。相似度算出部104根据相似度的计算结果,向连结部105发送用于向过去的分离信号的末尾追加当前处理帧的分离信号的切换控制命令。
在上述连结部105中,基于从相似度算出部104发送的切换控制命令,使当前处理帧的分离信号分别逐个连结到过去的输出信号的某一个的末尾。
以上说明的各处理部(102~105)既可以作为例如使CPU(Central ProcessingUnit,中央处理单元)等计算机装置执行程序即软件来实现,也可以通过IC(IntegratedCircuit,集成电路)等硬件来实现,也可以并用软件和硬件来实现。关于之后的实施方式中说明的各处理部,也可以说是同样的。
接着,进一步对本实施方式进行详细叙述。
首先,对图1中的传感器部101进行具体说明。
传感器部101所具备的各传感器能够配置于任意的位置,但需要注意不要使某一个传感器堵住另一个传感器的接收口。传感器的个数M设为2以上。此外,在M≧3时,在声源未排列在某一直线上(声源坐标呈二维状配置)的情况下,若传感器也以不排列在一直线上的方式呈二维状配置,则在后级的声源分离中是优选的。另一方面,在M=2时,优选将传感器排列在连接2个声源的线段上。
另外,对于传感器部101,设为也具有通过A/D变换将作为模拟量的声波变换成数字信号的功能,以下设为对按一定的周期采样的数字信号进行处理。在本实施方式中,作为例子考虑在声音信号的处理中应用的情况,以使得能够覆盖存在声音的带域的大半的方式将采样频率设为16kHz,但也可以根据用途进行变更。另外,对于传感器间的采样,作为原则而需要根据同一时钟进行采样,但例如也可以如非专利文献1("Acoustic signalprocessing based on asynchronous and distributed microphone array,"NobutakaOno,Shigeki Miyabe and Shoji Makino,Acoustical Society of Japan Vol.70,No.7,p.391-396,2014)那样,使用除了对基于非同步采样的传感器间的失配进行补偿的处理之外还对同一时钟的观测信号进行了恢复的方法来代替。
接着,针对图1中的声源分离部102,以具体例子进行说明。
现在,将频率ω、时刻t的声源信号设为Sω,t,将由传感器部101观测到的观测信号设为Xω,t。声源信号Sω,t是K维度的矢量,认为在各要素中包含单独的声源信号。另一方面,观测信号Xω,t是M维度的矢量(M为传感器的个数),在其各要素中包含从上述的声源到来的多个声波叠加而得到的值。此时,设为两者以下式(1)这一线性式被模型化。
Xω,t=A(ω,t)Sω,t (1)
在此,A(ω,t)被称为作为维度是(K×M)的矩阵的混合矩阵,表示音响信号的空间传播的特征。
如果是时不变系统,则混合矩阵A(ω,t)成为不依赖于时间的量,但由于实际上伴有声源和/或传感器阵列的位置变化等音响条件的变化,因此通常是随时间变化的量。此外,X和S不是时域的信号,而是表示通过短时傅里叶变换(STFT;Short Time FourierTransform)或小波变换(wavelet transformation)等变换到频域的信号。由此,请注意X和S通常为复数变量。在本实施方式中,作为例子,采用STFT。该情况下,需要以使得上述的观测信号与声源信号的关系式成立的方式,对脉冲响应(impulse response,冲激响应)设定足够长的帧长度。因此,例如将帧长度设为4096点,将切换长度(shift length)设为2048点。
在本实施方式中,接着,针对由传感器观测到的观测信号Xω,t,推定为了复原原来的声源信号而乘以的分离矩阵W(ω,t)(维度为K×M)。该推定由下式(2)表示。
Sω,t≈W(ω,t)Xω,t (2)
在此,符号“≈”表示左边的量可以用右边的量来近似。按照式(2),能够取得按各处理帧分离出的信号S。对比式(1)和式(2)可知:如下式(3)所示,混合矩阵A(ω,t)和分离矩阵W(ω,t)成为互伪的逆矩阵(以下,记为伪逆矩阵(pseudo-inverse matrix))的关系。
A≈W-1 (3)
在本实施方式中,混合矩阵A(ω,t)和分离矩阵W(ω,t)设为方矩阵、即K=M,但也可以构成用求出伪逆矩阵的算法等来代用、即K≠M的实施方式。因为如上述那样认为混合矩阵A(ω,t)是随时间变化的量,所以分离矩阵W(ω,t)也是随时间变化的量。假设在可认为是时不变系统的环境下,在想要实时地利用通过本实施方式输出的信号的情况下,也需要以短的时间间隔逐次更新分离矩阵W(ω,t)的分离方法。
因此,在本实施方式中,采用文献2(JP2014-41308A)的在线化的独立矢量分析法。但是,如果是能够进行求出发挥基于空间特性的滤波作用的分离滤波器的实时处理的声源分离算法,则也可以替换为该分离方法。在独立矢量分析法中,使用以使得各个分离的信号彼此的独立性提高的方式更新分离矩阵的分离法。使用该分离法的优点在于,能够完全不使用事先信息而实现声源分离,不需要事先计测声源的位置和/或脉冲响应等的处理。
在基于独立矢量的分析法中,设为:参数全部使用文献2中推荐的值(遗忘系数=0.96,形状参数=1.0(相当于将声源信号以Laplace(拉普拉斯)分布进行近似),滤波器更新重复次数=2),但针对这些参数,也可以变更值。例如考虑将声源信号以时变高斯分布进行近似等的变形(相当于设为形状参数=0)。所求出的分离矩阵由后级的方向特性分布计算部103(参照图1)使用。
接着,对图1中的方向特性分布计算部103进行具体说明。在此,首先,基于式(3),将分离矩阵W变换为混合矩阵A。将由此求出的混合矩阵A的各列矢量aK=[a1K,…,aMK]T(1≦k≦K)称为导向矢量。在此,T表示矩阵的转置。导向矢量的第m个要素amK(1≦m≦M)包含与从第k个声源向第m个传感器发出的信号的振幅的衰减和/或相位有关的特征。例如,aK的要素间的绝对值之比表示第k个声源发出的信号的传感器间的振幅比,另外,aK的要素间的相位之差与声波的传感器间的相位差对应。因此,基于导向矢量,能够获得从传感器观察到的声源的位置信息。在此,使用基于事先针对各种角度求出的参照导向矢量与从分离矩阵求出的导向矢量aK之间的相似度的信息。
接着,说明所述参照导向矢量的算出方法。在此,对近似为信号是平面波的情况下的导向矢量的算出法进行说明,但不限于平面波,例如也可以使用在作为球面波进行了模型化的情况下算出的导向矢量。另外,在此,对算出仅对相位差的特征进行了反映的导向矢量的方法进行说明,但不限于此,例如也可以算出考虑了振幅差的导向矢量。
在平面波到达M个传感器时,若将某信号的到来方位角表示为θ,则仅考虑了相位差时的导向矢量,在理论上可以计算为下式(4)。
在此,j表示虚数单位,ω表示频率,M表示传感器的个数,T表示矩阵的转置。另外,第m个传感器(1≦m≦M)相对于原点的延迟时间τm可以如下式(5)这样来算出。
在此,t[℃]为实施环境下的空气的温度。在本实施方式中固定为t=20℃,但不限于此,也可以根据实施环境来变更。另外,式(5)的右边的分母相当于求出音速[m/s]的计算,因此,在能够事先通过其他方法推定音速的情况下,也可以用该推定值来替换(例:基于由温度计测定出的气温进行推定等)。rm T、eθ分别是第m个传感器的坐标(虽然是三维的矢量,但在仅考虑特定平面的情况下也可以设为二维)、表示特定方向θ的单位矢量(大小为1的矢量)。在本实施方式中,作为例子,考虑图2所示那样的x-y坐标系。该情况下,成为下式(6),
eθ=[-sinθ,cosθ,0] (6)
但坐标系的设定未必限于此,可以任意地设定。
另外,也可以考虑将参照导向矢量作为不依赖于传感器的位置坐标的导向矢量来进行准备的方式。在该方式中,由于能够将传感器配置在任意的位置,因此如果是具备多个传感器的系统,则无论怎样都能够实施。
在后述的相似度计算中,需要预先确定由式(5)求出的延迟时间的基准值。在本实施方式中,如以下的式(7),将传感器编号m=1中的延迟时间τ1设为基准值。
此外,符号“←”具有“使用右边的值来更新左边的值”这一意思。
针对多个角度θ进行以上的计算。在本实施方式中,因为求出各个声源的到来方向自身并不是目的,所以准备参照导向矢量时的角度的分辨率设为Δθ=30°,这些角度的个数设为从0°到330°的共12个。由此,在声源的位置变化微小的情况下,能够取得相应于这样的位置变化而稳健的分布。但是,角度的分辨率也可以根据使用目的和/或使用状况变更为更细或更粗的分辨率。
从实际的分离矩阵算出的K个导向矢量aK,设为汇总了多个频带而得到的特征量。其理由是因为:例如在因存在于特定频带的噪音的影响而未能高精度地求出与声音有关的导向矢量的情况下,如果能够高精度地推定其他频带上的导向矢量,则能够减低该噪音的影响。也可以替换为如下方法:不一定需要该连结处理,在算出后述的相似度时,例如从按各个频率求出的相似度中取舍选择可以信赖的相似度。
基于式(8)求出根据上述求出的参照导向矢量与从实际的分离矩阵算出的导向矢量a之间的相似度S。在本实施方式中,在相似度计算中采用了余弦相似度,但不限于此,例如也可以求出矢量间的欧几里得距离,将使它们的大小关系反转而得到的物理量等定义为相似度。
相似度S是非负的实数值,S的值必须落在0≦S(θ)≦1的范围内,处理变得简单。但是,在定义相似度S时,只要成为能够判定这些相似度S的大小的实数值,则不一定需要限定在同样的值的范围内。
将针对多个角度θ求出以上的相似度并进行了汇总而得到的物理量p定义为与当前处理帧的分离信号有关的方向特性分布。
p=[S(θ1),…,S(θN)] (9)
其中,N为角度索引的总数,在如上述那样考虑每隔30°的从0°到330°的情况下,N=12。
方向特性分布不一定需要通过乘以导向矢量来求出,例如也可以将文献3("Multiple Emitter Location and Signal Parameter Estimation,"Ralph O.Schmidt,IEEE Transactions on Antennas and Propagation,Vol.AP-34,No.3,March 1986.)中提出的MUSIC谱等视为方向特性分布来代用。然而,在本实施方式中,以容许声源的微小移动的构成作为目标,请注意以少许的角度之差使分布的值急剧变化那样的分布并不优选。
对于如上述那样求出的方向特性分布,在现有技术中,为了在后级推定各分离信号的方向而使用。另一方面,在本实施方式中,不直接推定各个分离信号的方向,而将过去的输出信号与当前处理帧的分离信号连结。
接着,对图1中的相似度算出部104进行具体说明。在该功能块中,基于由方向特性分布算出部103求出的关于各个分离信号的方向特性分布信息,计算用于从过去的多个输出信号中求解与当前处理帧的分离信号连结的组合最佳的问题的相似度。在本实施方式中,采用选择使相似度计算的结果变高的组合这一方式,但例如也可以替换为如下问题:取代相似度而使用距离,选择使距离计算的结果变小的组合。
接着,说明关于与当前处理帧相比为过去的分离信号的累积分布的计算方法。在本实施方式中,考虑声源和/或麦克风阵列的移动等,导入遗忘系数,该遗忘系数是随着时间经过而遗忘了用过去的处理帧推定出的方向位特性分布的信息的系数。即,针对某α这一正实数值(设为大于0且小于1的值),推定为下式(10)。
ppast (T+1)=αppast (T)+(1-α)pT+1 (10)
该α既可以设定为固定值,或者也可以基于方向特性分布以外的信息使值随时间变化。
例如,考虑如下的实施方式等:基于当前处理帧中的分离信号的声音特性(功率的大小、谱熵的大小等),在声音特性(日文为“音声らしさ”)高的情况下假设为用当前处理帧推定出的pT+1的可靠度高而使α的值减小。T为累积帧数(此时,请注意当前处理帧的编号成为T+1),pt=[pt,1,…,pt,N]为帧编号t的方向特性分布。
另外,作为累积分布的算出方法的变形,也可以将从处理开始帧到当前帧的前一个帧为止的全部处理帧中的方向特性分布p的和作为累积分布来使用,或者例如进行限定要考虑的过去帧的个数等的方法的变更。若将该实施方式中的累积分布ppast (T)的求法用式来表示,则成为下式(11)。
该情况下,由于对T个帧pt的分布进行了累积,因此ppast (T)=[ppast,1,…,ppast,N]通常会取大于pT+1的值。就这样的话,由于值的尺度(scale)互不相同而不适合于相似度计算。因此,实施下式这样的标准化处理。
这成为与对直方图进行标准化的计算式同样的计算式(全部分量的总和成为1),但只要是对相似度计算适合的处理,例如也可以通过将两者的欧几里得范数标准化为1的处理、从各分量减去最小分量来使最小值成为0的标准化、通过用平均值进行减法来使平均成为0的标准化等其他的标准化的方法进行替换。
接着,说明计算从当前的处理帧算出的方向特性分布与从过去的处理帧算出的累积分布之间的相似度的方法。两个分布p1=[p11,…,p1N]、ppast=[p21,…,p2N]之间的相似度I,可以通过以下的式(14)来计算。
在本实施方式中,使用了文献4("Color Indexing,"Michael J.Swain,DanaH.Ballard,International Journal on Computer Vision,7:1,II-32,1991.)所记载的直方图交叉法,但其他只要是卡方距离(Chi-square Distance)、巴氏距离(Bhattacharyyadistance)等能够适当地计算分布彼此的相似度或距离的物理量,也可以使用任何物理量来代用。例如,更简单而言,也可以将下式这样的范数D等作为距离尺度来使用。
例如在l=1的情况下,是作为L1范数(曼哈顿距离)已知的距离,在l=2的情况下,是作为L2范数(欧几里得距离)已知的距离。
针对全部的输出信号与分离信号的组合,求出以上说明的相似度,选择相似度最高的组合(因为得到K个分离信号,所以该组合的总数为K!=K×(K-1)×…×1个),将该选择结果作为切换控制命令发送给连结部105。在此。设想K小的情况(2或3等)而考虑了全部组合,但存在随着K增大而组合的总数增多的问题。因此,在K大的情况下,例如在某通道的相似度的值比不依赖于音响环境的阈值低时,也可以导入省略其他通道的相似度的计算而从组合的候选中排除等更有效的算法。
此外,在本实施方式中,在第一个要处理的帧中,仅为了算出前述的累积分布而使用方向特性分布,另外,在该情况下,可以省略后述的连结部105中的处理。
最后,对图1中的连结部105进行具体说明。在该连结部105中,基于从相似度算出部104发送的切换控制命令,将由声源分离部102得到的分离信号逐个地连结到过去输出的各个信号的末尾。
但是,在想要将进行了连结处理的频域中的信号例如使用短时傅里叶逆变换(ISTFT;Inverse Short Time Fourier Transform)等逆变换到时域来利用的情况下,若直接连结按每帧得到的时间信号则有可能会产生不连续性。因此,追加下述等处理:例如使用重叠相加法(使某帧的末端部与其下一个帧的开头部局部重叠,作为它们的加权和来表现输出信号)等方法,确保输出信号变得平滑。
(第2实施方式)
图3是表示第2实施方式的信号处理系统100-2的构成的框图。在图3中,对与图1相同的部分标注相同标号来表示,省略重复的说明。
本实施方式的信号处理系统100-2构成为追加了能够对通过第1实施方式输出的信号进一步赋予它们的相对位置关系的功能,以第1实施方式的构成作为基础,追加了方向推定部106以及位置关系赋予部107。
上述方向推定部106基于由声源分离部102求出的分离矩阵,决定关于各个分离信号的位置关系。即,将与第k个分离信号对应的方向特性分布设为下式(16)。
在此,θn是第n个(1≦n≦N)参照导向矢量所代表的角度。在方向推定部106中,从这些方向特性分布中,根据下式(17)来推定该信号的大致到来方向。
arrival direction
在式(17)中,是取得pk达到最大的角度索引的方式,但不限于此,例如,也可以加以下述等变更:求出使该角度索引与相邻的角度索引的pk之和最大化的θ。
根据以上的式(17)求出的到来方向的信息,被通过位置关系赋予部107对各个输出信号赋予。关于在此所赋予的角度的信息,请注意不一定是利用其绝对值本身。例如在第1实施方式中,将参照导向矢量的角度的分辨率设为了Δθ=30°,但该实施方式原本并不以高精度的方向推定为目标。取而代之,只要能取得声源相对地位于右侧或左侧这一信息,则在应用场景中往往就足够了(参照下述的实例)。因此,在本实施方式中,通过将提供到来方向的信息这一情况称为“位置关系赋予”而非“位置赋予”,从而与严格地推定角度的系统相区分。
另外,在方向推定中,不一定限定于基于式(17)来推定角度,也可以考虑将分离信号的功率的大小考虑在内等的实施例。例如,在关注的分离信号的功率小的情况下,认为所推定出的角度的确信度低,考虑用在过去的输出信号中功率更高的情况下的推定角度来代用等的算法。
根据以上的理由,方向位推定部106如图3所示那样,不仅使用由方向特性分布计算部103获得的方向特性分布信息,还使用由声源分离部102获得的分离矩阵和/或分离信号的信息。
(第3实施方式)
图4是表示第3实施方式的信号处理系统100-3的构成的框图。在图4中,对与图1相同的部分标注相同标号来表示,省略重复的说明。
在本实施方式中,通过对第1实施方式或其派生方式导入声音区间检测(VAD;Voice Activity Detection)的方法,防止因目标声音以外的噪音而导致累积分布被更新为不想要的分布。具体而言,如图4所示,针对由声源分离部102获得的多个分离信号的各分离信号,通过声音区间检测部109判定是声音区间和非声音区间的哪一方,仅对与被认为是声音区间的通道对应的累积分布,通过相似度算出部104进行更新,对于与除此以外的通道对应的累积分布,省略更新。
此外,在在此说明的实施方式中,为了收集声音而导入了声音区间检测处理,但除此以外也可以进行例如为了收集乐器的信号而导入检测音符的起音(onset)的处理(文献5("A Tutorial on Onset Detection in Music Signals,"J.P.Bello;L.Daudet;S.Abdallah;C.Duxbury;M.Davies;M.B.Sandler,IEEE Transactions on Speech andProcessing,Vol:13,Issue:5,Sept.2005.))等的变形。
(信号处理系统的用例)
对在此之前说明的信号处理系统的实际的利用例进行说明。
(用例1:VoC(Voice of Customer,客户之声)收集系统)
例如考虑将第2实施方式应用于进行门市销售或窗口业务的店员和其顾客进行对话的实例。如果存在根据从传感器观察而这些说话人彼此位于不同方向上(优选存在第1实施方式中所述的角度的分辨率以上的角度的差)这一条件和相对的位置来识别说话人这一前提知识(例如,决定为店员位于右侧、顾客位于左侧),则通过使用该实施方式,能够按各说话人分开地识别所说的话。通过使用该实施方式与声音识别系统进行整合,能够选择性地仅收集客户的声音(VoC;Voice of Customer)、或通过收集店员接待时说的话来帮助改善待客手册。
此外,因为输出信号在后级的声音识别中使用,所以希望传感器与说话人之间的距离为数十cm~1m左右,以使得信号对噪音比(SNR;Signal-to-Noise Ratio)不会降低。在以下的另一实例中,使用声音识别系统的情况也可以说是同样的。
声音识别模块可以通过与该实施方式的系统安装于同一装置来实现,但特别是在该实施方式的装置中计算资源受到了限制等情况下,需要以另一方式来实现。该情况下,也可以考虑如下实施方式:通过第2实施方式等的构成,将所输出的声音通过通信发送给其他的声音识别用的装置,利用由该声音识别用的装置获得的识别结果。
此外,在此,设想了店员和顾客这样的两种身份的人物,但说话人的个数不一定限定于分别各1人的共2人,也可以应用于总共有3个以上的说话人出现的情况。
(用例2:多种语言同时翻译系统)
例如第2实施方式能够应用于为了辅助互相说不同语言的说话人彼此的交流而对多种语言同时进行翻译的系统等。如果存在根据从传感器观察而说话人彼此位于不同的方向上这一条件和相对的位置来区分语言这一前提知识(例如,确定为日语说话人位于右侧、英语说话人位于左侧),则通过使用该实施方式,能够按说话人分开地识别并翻译所说的话。通过以尽量少的延迟时间实现以上的工作,即使在没有关于对方语言的知识的情况下也能够进行交流。
(用例3:音乐信号分离系统)
也考虑了将多种乐器同时演奏的合奏音使用本系统进行分离这一应用。如果将各乐器以带有方向上的差的方式配置在空间内,并适用第1或第2实施方式或其派生方式,则能够同时获得按乐器分离出的多个信号。该系统能够期待如下效果:通过经由扬声器或耳机等聆听所输出的信号,演奏家或指挥确认各乐器的演奏、和/或通过在后面与自动记谱系统连结来按乐器对未知的乐曲进行记谱等。
(实施例1)
接着,对第1~第3实施方式涉及的信号处理系统的硬件结构进行说明。如图5所示,该构成具备CPU(Central Processing Unit,中央处理单元)等控制装置201、ROM(ReadOnly Memory只读存储器)等程序存储装置202、RAM(Random Access Memory,随机存取存储器)等工作用存储装置203、连接各部的总线204、以及进行来自传感器部101的观测信号的输入和连结信号的输出的接口装置205。
对于由第1~第3实施方式的信号处理系统执行的程序,可以构成为预先装于ROM等存储装置202来提供,或者,以可安装的形式或可执行的形式的文件记录于CD-ROM等计算机可读取的记录介质而作为计算机产品来提供。
(实施例2)
进而,如图6所示,也可以构成为将由第1~第3实施方式的信号处理系统执行的程序保存于与互联网等网络301连接的计算机(服务器)302,通过经由网络下载到具有第1~第3实施方式的信号处理系统的处理功能的通信终端303来提供。另外,也可以构成为将该程序经由网络进行提供或发布。另外,也可以通过服务器客户端结构来实现,使得:从通信终端303经由网络向计算机302发送传感器输出,通信终端303接收进行了分离连结后的输出信号。
由第1~第3实施方式的信号处理系统执行的程序可以使计算机作为上述的信号处理系统的各部(各单元)发挥功能。该计算机的CPU能够将程序从计算机可读取的存储介质中读出到主存储装置上来执行。
根据以上所述的至少一个实施方式的信号处理系统,通过具有在现有技术中没有的、对实施方式而言共同的特征,在多通道信号源分离处理中,能够在同一通道始终持续输出来自同一信号源的产生信号。
虽然对本发明的几个实施方式进行了说明,但是这些实施方式是作为例子提出的,并非旨在限定发明的范围。这些实施方式能够以其他各种方式实施,在不偏离发明宗旨的范围内,可以进行各种省略、替换、变更。这些实施方式及其变形包含在发明的范围和/或宗旨中,同样地包含在权利要求书所记载的发明和其等同的范围内。
本申请以日本专利申请2017-055096(申请日:2017年3月21日)为基础,根据该申请而享受优先权。本申请通过参照该申请来包含该申请的全部内容。

Claims (5)

1.一种信号处理系统,具备:
传感器装置,其观测并接收多个信号源的产生信号;
分离装置,其按帧单位,根据所述传感器装置的接收信号推定分离滤波器,基于该分离滤波器对接收信号进行分离,从多个通道输出分离信号;
第1算出装置,其基于所述分离滤波器,按所述多个通道的各分离信号,计算方向特性分布;
第2算出装置,其求出累积分布,算出该累积分布与获得所述分离信号的当前帧的分离信号的方向特性分布之间的相似度,所述累积分布表示关于通过所述当前帧之前的帧输出的多个通道的分离信号各自的方向特性分布;以及
连结装置,其基于所述相似度,按所述多个通道的各分离信号,与从所述多个通道的分离信号中选择出的一个信号连结并进行输出。
2.根据权利要求1所述的信号处理系统,还具备:
推定装置,其基于由所述分离装置推定出的分离滤波器,针对所述多个通道的各个分离信号,推定从对应的信号源到来的到来方向;和
赋予装置,其对由所述分离装置获得的多个通道的各个分离信号,赋予基于由所述推定装置推定的到来方向的位置关系的信息。
3.根据权利要求1所述的信号处理系统,
还具备判定装置,所述判定装置针对所述多个通道的各个分离信号,判定信号的产生区间、非产生区间,
所述第2算出装置仅更新与被所述判定装置认为是产生区间的通道对应的累积分布。
4.一种信号处理方法,包括:
观测多个信号源的产生信号并取得接收信号;
按帧单位,根据所述接收信号推定分离滤波器,基于该分离滤波器对所述接收信号进行分离,从多个通道输出分离信号;
基于所述分离滤波器,按从所述多个通道输出的各分离信号,计算方向特性分布;
求出累积分布,算出该累积分布与获得所述分离信号的当前帧的分离信号的方向特性分布之间的相似度,所述累积分布表示关于通过所述当前帧之前的帧输出的多个通道的分离信号各自的方向特性分布;以及
基于所述相似度,按所述多个通道的各分离信号,与从所述多个通道的分离信号中选择出的一个信号连结并进行输出。
5.一种信号处理程序,用于使计算机执行从观测多个信号源的产生信号而得到的接收信号中分离输出来自所述多个信号源的接收信号的处理,所述信号处理程序包括:
分离步骤,按帧单位,根据所述接收信号推定分离滤波器,基于该分离滤波器对所述接收信号进行分离,从多个通道输出分离信号;
第1算出步骤,基于所述分离滤波器,按所述多个通道的各分离信号,算出方向特性分布;
第2算出步骤,求出累积分布,算出该累积分布与获得所述分离信号的当前帧的分离信号的方向特性分布之间的相似度,所述累积分布表示通过所述当前帧之前的帧输出的多个通道的分离信号各自的方向特性分布;以及
连结步骤,基于所述相似度,按所述多个通道的各分离信号,与从所述多个通道的分离信号中选择出的一个信号连结并进行输出。
CN201710767915.9A 2017-03-21 2017-08-31 信号处理系统以及信号处理方法 Active CN108630222B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-055096 2017-03-21
JP2017055096A JP6591477B2 (ja) 2017-03-21 2017-03-21 信号処理システム、信号処理方法及び信号処理プログラム

Publications (2)

Publication Number Publication Date
CN108630222A true CN108630222A (zh) 2018-10-09
CN108630222B CN108630222B (zh) 2021-10-08

Family

ID=63583547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710767915.9A Active CN108630222B (zh) 2017-03-21 2017-08-31 信号处理系统以及信号处理方法

Country Status (3)

Country Link
US (1) US10262678B2 (zh)
JP (1) JP6591477B2 (zh)
CN (1) CN108630222B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111808A (zh) * 2019-04-30 2019-08-09 华为技术有限公司 音频信号处理方法及相关产品
CN112420071A (zh) * 2020-11-09 2021-02-26 上海交通大学 一种基于恒q变换的复调电子琴音乐音符识方法
CN113077803A (zh) * 2021-03-16 2021-07-06 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
CN113608167A (zh) * 2021-10-09 2021-11-05 阿里巴巴达摩院(杭州)科技有限公司 声源定位方法、装置及设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6472823B2 (ja) 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
CN113302692A (zh) * 2018-10-26 2021-08-24 弗劳恩霍夫应用研究促进协会 基于方向响度图的音频处理

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008039639A (ja) * 2006-08-08 2008-02-21 Hioki Ee Corp 接触式計測用プローブ
JP4649437B2 (ja) * 2007-04-03 2011-03-09 株式会社東芝 信号分離抽出装置
CN102138176A (zh) * 2008-07-11 2011-07-27 日本电气株式会社 信号分析装置、信号控制装置及其方法、程序
CN102687536A (zh) * 2009-10-05 2012-09-19 哈曼国际工业有限公司 用于音频信号的空间提取的系统
JP2012184552A (ja) * 2011-03-03 2012-09-27 Marutaka Kogyo Inc 解体工法
US20140058736A1 (en) * 2012-08-23 2014-02-27 Inter-University Research Institute Corporation, Research Organization of Information and systems Signal processing apparatus, signal processing method and computer program product
WO2015086895A1 (en) * 2013-12-11 2015-06-18 Nokia Technologies Oy Spatial audio processing apparatus
WO2015150066A1 (en) * 2014-03-31 2015-10-08 Sony Corporation Method and apparatus for generating audio content
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
JP2017040794A (ja) * 2015-08-20 2017-02-23 本田技研工業株式会社 音響処理装置及び音響処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007215163A (ja) 2006-01-12 2007-08-23 Kobe Steel Ltd 音源分離装置,音源分離装置用のプログラム及び音源分離方法
JP5117012B2 (ja) 2006-08-09 2013-01-09 株式会社東芝 方向探知システム及び信号抽出方法
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
GB0720473D0 (en) 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
JP5911101B2 (ja) 2012-08-30 2016-04-27 日本電信電話株式会社 音響信号解析装置、方法、及びプログラム
JP6463904B2 (ja) * 2014-05-26 2019-02-06 キヤノン株式会社 信号処理装置及び音源分離方法及びプログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008039639A (ja) * 2006-08-08 2008-02-21 Hioki Ee Corp 接触式計測用プローブ
JP4649437B2 (ja) * 2007-04-03 2011-03-09 株式会社東芝 信号分離抽出装置
CN102138176A (zh) * 2008-07-11 2011-07-27 日本电气株式会社 信号分析装置、信号控制装置及其方法、程序
CN102687536A (zh) * 2009-10-05 2012-09-19 哈曼国际工业有限公司 用于音频信号的空间提取的系统
JP2012184552A (ja) * 2011-03-03 2012-09-27 Marutaka Kogyo Inc 解体工法
US20140058736A1 (en) * 2012-08-23 2014-02-27 Inter-University Research Institute Corporation, Research Organization of Information and systems Signal processing apparatus, signal processing method and computer program product
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
WO2015086895A1 (en) * 2013-12-11 2015-06-18 Nokia Technologies Oy Spatial audio processing apparatus
WO2015150066A1 (en) * 2014-03-31 2015-10-08 Sony Corporation Method and apparatus for generating audio content
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
JP2017040794A (ja) * 2015-08-20 2017-02-23 本田技研工業株式会社 音響処理装置及び音響処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEHDI ZOHOURIAN: "Multi-channel speaker localization and separation using a model-based GSC and an inertial measurement unit", 《 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
王建明: "盲声源分离技术应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111808A (zh) * 2019-04-30 2019-08-09 华为技术有限公司 音频信号处理方法及相关产品
CN110111808B (zh) * 2019-04-30 2021-06-15 华为技术有限公司 音频信号处理方法及相关产品
CN112420071A (zh) * 2020-11-09 2021-02-26 上海交通大学 一种基于恒q变换的复调电子琴音乐音符识方法
CN113077803A (zh) * 2021-03-16 2021-07-06 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
CN113077803B (zh) * 2021-03-16 2024-01-23 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
CN113608167A (zh) * 2021-10-09 2021-11-05 阿里巴巴达摩院(杭州)科技有限公司 声源定位方法、装置及设备
CN113608167B (zh) * 2021-10-09 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 声源定位方法、装置及设备
WO2023056905A1 (zh) * 2021-10-09 2023-04-13 阿里巴巴达摩院(杭州)科技有限公司 声源定位方法、装置及设备

Also Published As

Publication number Publication date
JP6591477B2 (ja) 2019-10-16
CN108630222B (zh) 2021-10-08
US10262678B2 (en) 2019-04-16
US20180277140A1 (en) 2018-09-27
JP2018156052A (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
CN108630222A (zh) 信号处理系统、信号处理方法以及信号处理程序
Todisco et al. A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients.
US9706298B2 (en) Method and apparatus for localization of an acoustic source and acoustic beamforming
Loweimi et al. On Learning Interpretable CNNs with Parametric Modulated Kernel-Based Filters.
Nguyen et al. SALSA-Lite: A fast and effective feature for polyphonic sound event localization and detection with microphone arrays
CN103426434A (zh) 结合源方向信息通过独立分量分析的源分离
JP7276470B2 (ja) 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
JP2009524812A (ja) 信号解析器
CN111919252A (zh) 声源方向估计装置、声源方向估计方法及程序
JP7027365B2 (ja) 信号処理装置、信号処理方法およびプログラム
US20120195436A1 (en) Sound Source Position Estimation Apparatus, Sound Source Position Estimation Method, And Sound Source Position Estimation Program
JP2010121975A (ja) 音源定位装置
CN103688187B (zh) 使用相位谱的声音源定位
Scheibler SDR—medium rare with fast computations
Jiang et al. Acoustic scene classification using ensembles of convolutional neural networks and spectrogram decompositions
CN105830152B (zh) 集音装置、集音装置的输入信号校正方法以及移动设备信息系统
JP2017067948A (ja) 音声処理装置および音声処理方法
Akan et al. Hand gesture classification using inertial based sensors via a neural network
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
JP2019054344A (ja) フィルタ係数算出装置、収音装置、その方法、及びプログラム
Belloch et al. Real-time sound source localization on an embedded GPU using a spherical microphone array
JP2022546663A (ja) なりすまし検出装置、なりすまし検出方法、及びプログラム
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
US10966024B2 (en) Sound source localization device, sound source localization method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant