CN112205002A

CN112205002A - 信号处理装置以及信号处理方法

Info

Publication number: CN112205002A
Application number: CN201980035508.6A
Authority: CN
Inventors: 宇佐见阳; 广濑良文; 足立祐介
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-12-06
Filing date: 2019-10-29
Publication date: 2021-01-08
Also published as: US20210099796A1; JP7194897B2; WO2020116054A1; JP2020092358A; US11212613B2

Abstract

提供一种能够得到精度优良的目标声音的信号处理装置以及信号处理方法。信号处理装置是对从作为声源的物体输出的目标声音进行拾音的信号处理装置，所述信号处理装置具有：输入部，输入通过摄像机而生成的图像数据和从话筒阵列输出的声学信号；和控制部(30)，基于图像数据和声学信号的至少任意一方，对相对于话筒阵列的水平方向以及垂直方向的至少任意一方的声学信号的拾音方向进行控制，控制部(30)包含：距离推断部(35)，根据图像数据来检测被安装于物体的规定的标记，基于检测出的标记，推断从话筒阵列到声源的距离，输出表示推断出的距离的距离信息；和目标声音修正部(36)，基于距离信息来修正目标声音。

Description

信号处理装置以及信号处理方法

技术领域

本公开涉及对声学信号进行信号处理的信号处理装置以及信号处理方法。

背景技术

专利文献1公开了一种进行声音的到来方向的计算和声音的异常性的判定的声音监视装置。声音监视装置将对针对声音的到来方向的信息和针对声音的异常性的信息进行组合的信息重叠于拍摄的图像重叠进行显示。在该组合的信息存在于显示图像的显示单元的显示范围外的情况下，在声音的到来方向所对应的显示范围的上端、下端、左端或者右端显示组合的信息。由此，即使在异常音产生于声音监视装置的显示范围外的情况下也能够识别异常音的到来方向。

专利文献2公开了一种基于图像信息和声音等的二次感觉信息，自动进行主被摄体的注视或者追踪的主被摄体推断装置。主被摄体推断装置在根据图像信息而检测的特定人与根据二次感觉信息而检测的特定人一致的情况下，基于根据图像信息而检测的特定人的位置以及检测结果的可靠度、根据二次感觉信息而检测的特定人的位置以及检测结果的可靠度，推断一致的特定人的位置。由此，能够在没有丢失的情况下适当地持续检测应注视或者追踪的主被摄体。

在先技术文献

专利文献

专利文献1：JP专利5235070号公报

专利文献2：JP专利4669150号公报

发明内容

-发明要解决的课题-

本公开提供一种能够得到精度优良的目标声音的信号处理装置以及信号处理方法。

-解决课题的手段-

本公开的一方式的信号处理装置是一种对从作为声源的物体输出的目标声音进行拾音的信号处理装置，所述信号处理装置具有：输入部，输入由摄像机生成的图像数据和从话筒阵列输出的声学信号；和控制部，基于图像数据和声学信号的至少任意一方，对相对于话筒阵列的水平方向以及垂直方向的至少任意一方的声学信号的拾音方向进行控制，控制部包含：距离推断部，根据图像数据来检测被安装于物体的规定的标记，基于检测出的标记，推断从话筒阵列到声源的距离，输出表示推断出的距离的距离信息；目标声音修正部，基于距离信息来修正目标声音。

这些的概括性并且特定的方式也可以通过系统、方法以及计算机程序及这些的组合来实现。

-发明效果-

根据本公开的信号处理装置以及信号处理方法，由于基于从话筒阵列到声源的距离来修正拾音的目标声音，因此能够得到精度优良的目标声音。

附图说明

图1是表示第1～第3实施方式的信号处理装置的结构的框图。

图2是表示第1实施方式的控制部的功能的一个例子的框图。

图3是示意性地表示拾音环境的一个例子的图。

图4是表示第1实施方式的信号处理方法的流程图。

图5A是用于对图像数据内的判定区域进行说明的图。

图5B是用于对水平角中的声源的方向进行说明的图。

图5C是用于对垂直角中的声源的方向进行说明的图。

图6是用于对声源的位置的推断进行说明的图。

图7是用于对基于波束形成的目标声音的拾音进行说明的图。

图8是表示距离的推断的详细的流程图。

图9是表示安装于物体的标记的一个例子的图。

图10是用于对标记的图像尺寸的计算进行说明的图。

图11是用于对到目标声源为止的距离的计算进行说明的图。

图12是用于对目标声音的修正进行说明的图。

图13是表示第2实施方式的控制部的功能的一个例子的框图。

图14是表示包含属性信息的标记的一个例子的图。

图15是表示第2实施方式的信号处理方法的流程图。

图16是表示第3实施方式的控制部的功能的一个例子的框图。

图17是用于对第3实施方式中的与距离相应的声源的位置推断进行说明的图。

图18是用于对第3实施方式中的与距离相应的拾音方向的决定进行说明的图。

图19是用于对第3实施方式中的与距离相应的拾音的范围进行说明的图。

图20是用于对第3实施方式的波束形成的例子进行说明的图。

图21是表示其他实施方式中的信号处理装置的结构的框图。

具体实施方式

(作为本公开的基础的研究)

以往，作为声源的物体的位置以水平方向以及垂直方向的二维而被确定，基于确定的位置，目标声音被拾音。但是，在从话筒阵列到声源的距离较远的情况下，难以得到精度优良的目标声音。例如，在点声源的情况下，若设距声源的距离为r[m]且距声源的基准距离为r0[m](例如，r0＝1)，则声音的衰减量Q[dB]为“Q＝20×log₁₀(r/r0)”。因此，若从话筒阵列到声源的距离变远，则声音的衰减量变多。因此，如以往那样，在基于以水平方向以及垂直方向的二维确定的位置的拾音中，难以得到所希望的目标声音。

本公开的信号处理装置以及信号处理方法根据从话筒阵列到声源的距离来修正通过确定作为声源的物体的位置而拾音的目标声音。具体而言，本公开的信号处理装置以及信号处理方法通过检测安装于物体的规定的标记，来推断从话筒阵列到声源的距离。例如，若从话筒阵列到声源的距离越远，则对拾音的目标声音的音量进行更多的放大。换言之，通过本公开的信号处理装置以及信号处理方法，基于在水平方向以及垂直方向确定的声源的位置和到进深方向的声源的距离，获取目标声音。因此，可得到精度优良的目标声音。

(第1实施方式)

以下，参照附图来说明实施方式。在本实施方式中，说明对人的声音进行拾音的例子。

1.信号处理装置的结构

图1表示本公开的信号处理装置的结构。信号处理装置1具备：摄像机10、话筒阵列20、控制部30、存储部40、输入输出接口部50以及总线60。信号处理装置1例如在工厂内被使用，对处于工厂内的人的声音进行拾音。在本实施方式中，信号处理装置1是摄像机10、话筒阵列20、控制部30、存储部40、输入输出接口部50以及总线60被一体化的专用的拾音机。

摄像机10具备CCD图像传感器、CMOS图像传感器或者NMOS图像传感器等的图像传感器。摄像机10生成并输出作为影像信号的图像数据。

话筒阵列20具备多个麦克风。话筒阵列20接收声波，转换为电信号即声学信号并进行输出。

控制部30基于从摄像机10得到的图像数据和从话筒阵列20得到的声学信号，决定拾音方向。拾音方向是目标声源存在的方向。目标声源是输出目标声音的声源。在本实施方式中，目标声源是人，人的声音是目标声音。控制部30通过进行对从拾音方向到来的声音进行增强的信号处理，来从话筒阵列20输出的声学信号取出目标声音。控制部30能够通过半导体元件等来实现。控制部30例如能够由微型计算机、CPU、MPU、DSP、FPGA或者ASIC构成。

存储部40例如能够通过硬盘(HDD)、SSD、RAM、DRAM、铁电存储器、闪存、磁盘或者这些的组合来实现。从摄像机10得到的图像数据以及从话筒阵列20得到的声学信号也可以保存于存储部40。

输入输出接口部50包含依据规定的通信标准来进行与外部设备的通信的电路。规定的通信标准例如包含LAN、Wi-Fi(注册商标)、Bluetooth(注册商标)、USB以及HDMI(注册商标)。

总线60是将摄像机10、话筒阵列20、控制部30、存储部40以及输入输出接口部50电连接的信号线。

控制部30从摄像机10获取图像数据或者从存储部40取出图像数据时，控制部30相当于图像数据的输入部。控制部30从话筒阵列20获取声学信号或者从存储部40取出声学信号时，控制部30相当于声学信号的输入部。

图2表示第1实施方式中的控制部30的功能性结构。控制部30的功能可以仅由硬件构成，也可以通过将硬件与软件组合来实现。

控制部30包含物体检测部31、声源推断部32、方向决定部33、目标声音拾音部34、距离推断部35以及目标声音修正部36。声源推断部32、方向决定部33以及目标声音拾音部34构成拾音控制部300。

物体检测部31根据通过摄像机10而生成的图像数据v来检测目标物。物体检测部31输出表示检测的目标物的位置的信息即物体位置信息。目标物是发出目标声音的物体的全部或者一部分。在本实施方式中，发出目标声音的物体是人，目标物是人的脸部。物体检测部31例如计算相当于动态图像一帧或者静止图像一张的图像数据v内的多个判定区域

内的各个图像是目标物的概率

以下，也将概率

称为“目标物概率”。物体检测部31将图像数据v内的各判定区域

中的目标物概率

输出为物体位置信息。后面叙述判定区域

声源推断部32通过根据从话筒阵列20得到的声学信号s来计算声源的位置，从而推断声源的位置。声源推断部32输出表示推断的声源的位置的声源位置信息。具体而言，声源推断部32计算声源存在于通过相对于信号处理装置1的水平角θ以及垂直角

而确定的方向的概率

以下，将概率

也称为“声源概率”。声源推断部32将声源概率

输出为声源位置信息。

方向决定部33基于目标物概率

和声源概率

决定拾音方向。拾音方向例如通过相对于信号处理装置1的水平角θc以及垂直角

来表示。

目标声音拾音部34针对话筒阵列20输出的声学信号s，进行对从拾音方向到来的声音进行增强的信号处理，从声学信号s取出目标声音。目标声音拾音部34也可以为了进一步对噪声被减少的明确的声音进行拾音，进行对从拾音方向以外的方向到来的声音进行抑制的信号处理。在本实施方式中，目标声音拾音部34是设定波束形成(Beam form)以使得基于拾音方向来从声学信号s提取目标声音的波束形成部。

距离推断部35参照标记信息41，根据图像数据v来检测标记，基于检测出的标记的图像尺寸，计算从摄像机10到标记的距离。由此，推断从话筒阵列20到目标声源的距离。距离推断部35输出表示推断出的距离的距离信息。

标记信息41被保存于存储部40。标记信息41包含与从话筒阵列20到目标声源的距离的测定中使用的标记有关的信息。标记是规定尺寸。标记信息41中包含的标记的种类可以是一个，也可以是多个。标记信息41例如包含标记的尺寸以及标记的图像的特征量。

距离推断部35例如通过将从图像数据v提取的特征量与标记信息41所示的特征量进行比对，来从图像数据v内检测标记。距离推断部35通过将检测出的标记的图像尺寸与标记信息41所示的尺寸进行比较，来推断从摄像机10到检测出的标记的距离。由此，推断从话筒阵列20到目标声源的距离。距离推断部35也可以从图像数据v检测多个标记，基于检测出的多个标记的图像尺寸，计算从摄像机10到各标记的距离之比。

目标声音修正部36对目标声音拾音部34取出的目标声音，进行与距离推断部35推断的距离相应的修正。例如，目标声音修正部36包含对声音信号进行放大的放大器，进行距离越远越放大目标声音的音量的信号处理。目标声音修正部36也可以根据距离来变更目标声音的频率特性。

2.信号处理装置的动作

2.1目标声音的拾音的概要

图3示意性地表示拾音环境的一个例子。在图3中，信号处理装置1被设置为与地板平行。在图3中，X轴以及Y轴分别表示以信号处理装置1的朝向为基准的水平方向以及垂直方向，Z轴表示以信号处理装置1的位置为基准的进深方向。例如，在仅通过从话筒阵列20输出的声学信号来决定拾音方向的情况下，在周围的噪声源120发出的噪声比人110的声音大时，噪声源120的方向被检测为目标声源的方向。在该情况下，较大的噪声被拾音为目标声音，不能明确地对人的声音进行拾音。在与话筒阵列20一起并用摄像机10来决定拾音方向的情况下，通过检测摄像机10的图像数据中包含的人110的脸部的位置，能够将人所处的方向确定为目标声源的方向。由此，能够将人的声音拾音为目标声音。但是，若从话筒阵列20到人110的距离d110较远，则不能明确地对人110的声音进行拾音。例如，由于声音的衰减，被拾音的声音的音量变小。因此，在本实施方式中，根据从话筒阵列20到目标声源的距离d110来修正所拾音的目标声音。

2.2信号处理装置的整体动作

图4表示第1实施方式的信号处理方法即基于控制部30的拾音动作。控制部30输入通过摄像机10而生成的图像数据v和从话筒阵列20输出的声学信号s(S1)。例如，在图像数据v以及声学信号s被保存于存储部40时，控制部30从存储部40读取图像数据v以及声学信号s。物体检测部31基于图像数据v，检测目标物的位置(S2)。声源推断部32基于声学信号s，推断声源的位置(S3)。方向决定部33基于物体检测部31检测出的目标物的位置和声源推断部32推断出的声源的位置，决定拾音方向(S4)。目标声音拾音部34通过波束形成，在拾音方向形成指向性并对目标声音进行拾音(S5)。距离推断部35基于图像数据v，推断从话筒阵列20到目标声源的距离(S6)。目标声音修正部36基于从话筒阵列20到目标声源的距离来修正目标声音(S7)。

在图4中，步骤S2的目标物的位置检测和步骤S3的声源的位置推断的顺序也可以相反。步骤S6的距离推断在步骤S7的目标声音的修正之前即可，例如也可以在步骤S2与步骤S3之间。

2.3目标物的位置检测

对目标物的位置检测(S2)的详细进行说明。

图5A表示用于对图像数据v内的目标物的位置进行检测的判定区域

摄像机10生成的图像数据v可被分割为与摄像机10的水平视角以及垂直视角相应的多个判定区域

另外，根据摄像机10的种类，图像数据v可以被分割为圆周状，也可以被分割为格子状。

在步骤S2中，物体检测部31按照每个判定区域

来判定是否存在目标物。具体而言，物体检测部31在图像数据v内计算判定区域

内的图像是目标物的概率

目标物的检测方法任意。作为一个例子，目标物的检测通过判定各判定区域

与目标物的特征是否一致来进行(可参照“Rapid Object Detection usinga Boosted Cascade of Simple Features(使用简单功能的增强级联进行快速目标检测)”ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001(计算机视觉与图像识别会议2001))。

在本实施方式中，作为目标物，检测人的脸部，因此例如物体检测部31具备具有表示脸部的不同特征的信息的N个弱识别器。物体检测部31通过N个弱识别器，计算判定为判定区域

内的图像是脸部的次数C

)。物体检测部31若针对图像数据v内的全部判定区域

进行是否为脸部的判定，则通过式(1)，计算在图像数据v内以水平角θ以及垂直角

确定的位置的图像是脸部的概率

[式1]

2.4声源的位置推断

对声源的位置推断(S3)的详细进行说明。图5B示意性地表示到达话筒阵列20的声波的水平方向的位置。图5C示意性地表示到达话筒阵列20的声波的垂直方向的位置。

在步骤S3中，声源推断部32计算在以水平角θ以及垂直角

确定的方向存在声源的概率

声源的位置的推断方法任意。例如，声源的位置推断能够使用CSP(Cross-Power Spectrum Phase Analysis：跨功率谱相位分析)法或者MUSIC(MultipleSignal Classification：多信号分类)法来进行。

对步骤S3中的声源的位置推断方法的一个例子即CSP法进行说明。图6示意性地表示声波到达话筒阵列20的麦克风20i以及20j的状态。根据麦克风20i以及20j间的距离d，在声波到达麦克风20i以及20j时产生时间差τ。声源推断部32通过使用了CSP系数的式(2)来计算在水平角θ存在声源的概率Ps(θ)。

[式2]

Ps(θ)＝CSP(τ)…(2)

这里，CSP系数能够通过式(3)来求取(参照电子信息通信学会论文杂志D-IIVol.J83-D-II No.8pp.1713-1721，“使用了麦克风阵列的基于CSP法的多个声源位置推断”)。在式(3)中，n表示时间，S_i(n)表示由麦克风20i接收的声学信号，S_j(n)表示由麦克风20j接收的声学信号。在式(3)中，DFT表示离散傅立叶变换。此外，*表示共轭复数。

[式3]

时间差τ使用声速c、麦克风20i、20j间的距离d以及取样频率F_s，通过式(4)来表示。

[式4]

因此，如式(5)所示，通过利用式(4)，将式(2)的CSP系数从时间轴变换为方向轴，能够计算声源在水平角θ存在的概率Ps(θ)。

[式5]

垂直角

中存在声源的概率

与水平角θ中的概率Ps(θ)同样地，能够通过CSP系数和时间差τ来计算。此外，能够基于概率Ps(θ)以及概率

计算在水平角θ且垂直角

存在声源的概率

2.5拾音方向的决定

对拾音方向的决定(S4)的详细进行说明。如图5A～图5C所示，摄像机10生成的图像数据v内的坐标系的位置根据摄像机10的视角，与表示到达话筒阵列20的声波的产生方向的水平角θ以及垂直角

建立对应。在步骤S4中，方向决定部33使用目标物概率

和声源概率

通过式(6)来计算发出目标声音的人存在的概率

[式6]

然后，方向决定部33通过式(7)，将概率

最大的水平角θ以及垂直角

决定为拾音方向。

[式7]

2.6目标声音的拾音

对目标声音的拾音(S5)的详细进行说明。图7示例基于目标声音拾音部34的波束形成。在图7中，表示话筒阵列20包含两个麦克风20i、20j的例子。在本实施方式中，对话筒阵列20包含两个麦克风20i以及20j的例子进行说明，话筒阵列20也可以包含两个以上的麦克风。麦克风20i、20j中的从水平角θ的方向到来的声波的接收的定时根据麦克风20i、20j间的距离d而不同。具体而言，在麦克风20j中，产生与距离dcosθ相应的传播延迟。即，从麦克风20i、20j输出的声学信号中产生相位差。

在本实施方式中，目标声音拾音部34具有延迟器34a以及加法器34b。在步骤S5中，目标声音拾音部34针对话筒阵列20输出的声学信号，通过波束形成，进行对从拾音方向即水平角θc且垂直角

到来的声音进行增强的信号处理。具体而言，延迟器34a基于与拾音方向即水平角θc相应的延迟量，针对输入到麦克风20i的输入信号S_i(n)，修正与输入到麦克风20j的输入信号S_j(n)的到达时间差。加法器34b基于修正后的输入信号S_i(n)与输入信号S_j(n)之和，生成输出信号T(n)。

在加法器34b的输入中，从拾音方向即水平角θc到达的信号的相位一致，因此输出信号T(n)中从拾音方向到达的信号被增强。另一方面，从水平角θc以外的方向到达的信号的相位相互不一致，因此没有如从水平角θc到达的信号那样被增强。因此，例如，通过使用加法器34b的输出，在水平角θc的方向形成指向性。由此，从拾音方向即水平角θc到达的声波被拾音为目标声音。在图7的例子中，示例了水平角θc中的拾音方向，对于垂直角

中的拾音方向也同样地，能够形成指向性。另外，波束形成的方法任意，也可以通过图7所示的方法以外的方法来进行。

2.7到目标物的距离的推断

对到目标物的距离的推断(S6)的详细进行说明。图8表示基于距离推断部35的从话筒阵列20到目标声源的距离的推断动作(S6的详细)。图9表示距离的推断中使用的标记的一个例子。图10是用于对标记的图像尺寸的计算进行说明的图。图11是用于对基于标记的图像尺寸的到目标声源的距离的推断进行说明的图。

距离推断部35基于存储部40中保存的标记信息41，根据摄像机10生成的图像数据v来检测标记(S601)。如图9所示，本实施方式中的标记70是附于帽子的标记。例如，这样的标记以规定的实际尺寸而被统一。在本实施方式中，至少发出目标声音的人戴着附有标记70的帽子。例如，也可以在工厂内操作的操作员全体人员戴着该帽子。在本实施方式中，标记70是正方形。但是，标记70的形状并不局限于正方形，例如，也可以是三角形、五边以上的多边形或者圆形。标记70的尺寸固定、能够安装于发出目标声音的物体即可。标记70可以是平面状，也可以是其他形状。

距离推断部35对检测出的标记70的图像尺寸进行计算(S602)。例如，如图10所示，距离推断部35也可以计算图像数据v内包含的全部标记70的图像尺寸m1、m2。距离推断部35也可以仅针对处于拾音方向即水平角θc且垂直角

的标记70计算图像尺寸m2。图像尺寸例如通过像素值来表示。

距离推断部35基于标记70的图像尺寸，推断从话筒阵列20到目标声源的距离(S603)。例如，如图11所示，距离推断部35基于存储部40中保存的标记信息41所示的标记的尺寸、通过步骤S602而计算的标记的图像尺寸，计算从摄像机10到标记的距离。由此，推断从话筒阵列20到目标声源的距离即绝对距离。例如，距离推断部35判断为处于拾音方向即水平角θc且垂直角

的标记70对应于目标声源，推断从话筒阵列20到目标声源的距离。在步骤S601中，在图像数据v内仅检测到一个标记70的情况下，也可以将到该标记70的距离推断为到目标声源的距离。距离推断部35也可以基于图像数据v内包含的多个标记70的图像尺寸m1、m2，针对从话筒阵列20到目标声源的相对距离，例如计算“d2/d1”。

2.8目标声音的修正

对目标声音的修正(S7)的详细进行说明。图12是基于目标声音修正部36的目标声音的修正的一个例子，表示输入到目标声音修正部36的信号的波形和从目标声音修正部36输出的信号的波形。例如，目标声音修正部36在从话筒阵列20到目标声源的距离较远时，对从目标声音拾音部34输出的声音信号的振幅进行放大。由此，即使在从话筒阵列20到目标声源的距离较远、声音的衰减量较多的情况下，也能够得到将音量放大了的目标声音。也可以根据从话筒阵列20到目标声源的距离，使放大量不同。例如，也可以距离越远越增加放大量。目标声音修正部36如图12所示，将包含目标声音的区间的信号的振幅放大。目标声音修正部36也可以根据从话筒阵列20到目标声源的距离，变更目标声音的声音信号的频率特性。例如，也可以进行距离越远越更多地减少噪声的噪声减少。例如，也可以距离越远，越增强高频侧的频带的频率分量。目标声音修正部36也可以将从话筒阵列20到目标声源的绝对距离与规定的阈值进行比较，在绝对距离为阈值以上时，修正目标声音。目标声音修正部36例如也可以将人B相对于人A的相对距离与规定的阈值进行比较，在相对距离为阈值以上时，修正人B发出的目标声音。

3.效果以及补充

本实施方式的信号处理装置1是对从作为声源的物体输出的目标声音进行拾音的拾音机。信号处理装置1具有：输入部，输入通过摄像机10而生成的图像数据v和从话筒阵列20输出的声学信号s；和控制部30，基于图像数据v和声学信号s来控制声学信号s的拾音方向。输入部例如是从摄像机10获取图像数据v或者从存储部40读出图像数据v的控制部30。输入部例如是从话筒阵列20获取声学信号s或者从存储部40读出声学信号s的控制部30。控制部30包含距离推断部35和目标声音修正部36。距离推断部35根据图像数据v来检测安装于目标物的标记70，基于检测出的标记70，推断从话筒阵列20到目标声源的距离，输出表示推断出的距离的距离信息。目标声音修正部36基于距离信息来修正目标声音。

这样，信号处理装置1通过使用摄像机10和话筒阵列20来确定作为声源的物体的位置，根据从话筒阵列20到目标声源的距离来修正拾音的目标声音。换言之，信号处理装置1基于以水平方向以及垂直方向确定的位置和进深方向的距离来获取所希望的目标声音。因此，能够得到精度优良的目标声音。在将修正后的目标声音例如用于声音识别的情况下，相比于使用修正前的目标声音的情况，声音识别的精度变好。

标记70具有规定尺寸，距离推断部35通过基于图像数据中的标记70的图像尺寸，计算从摄像机10到标记70的距离，从而推断从话筒阵列20到目标声源的距离。由此，能够精度优良地推断从话筒阵列20到目标声源的距离。

(第2实施方式)

在第1实施方式中，根据从话筒阵列20到目标声源的距离来修正了目标声音。在本实施方式中，除了基于距离，还基于目标声源的属性来修正目标声音。

图13表示第2实施方式中的控制部30的功能性结构。本实施方式的控制部30除了第1实施方式的控制部30的功能性结构，还具备属性获取部37。属性获取部37根据图像数据v来获取属性信息。

图14表示包含属性信息的标记的一个例子。属性信息是对声源的属性进行识别的信息，在本实施方式中，表示与作为目标声源的人有关的属性。属性信息例如表示人的性别。属性信息也可以是对工厂中工作的人进行识别的信息。包含属性信息的标记70例如是二维码(注册商标)或者AR标记。属性信息可以包含于标记70的一部分，也可以通过标记70的整体来表示。

图15表示第2实施方式中的信号处理装置1的控制部30的动作。图5的步骤S11～S16与第1实施方式的图4的步骤S1～S6相同。在本实施方式中，属性获取部37根据图像数据v来获取属性信息，对目标声源的属性进行识别(S17)。属性获取部37从步骤S16中检测出的标记70的图像内获取属性信息，例如，对目标物的性别进行识别。用于解析二维码的程序也可以被保存于存储部40。

目标声音修正部36基于步骤S16中推断出的距离和步骤S17中识别出的属性，修正目标声音(S18)。例如，目标声音修正部36根据从话筒阵列20到人的距离来放大声音信号，并且根据该人的性别来变更声音信号的频率特性。

这样，在本实施方式中，标记70包含对目标声源的属性进行识别的属性信息。控制部30还包含根据图像数据v来获取属性信息的属性获取部37，目标声音修正部36基于距离信息和属性信息来修正目标声音。由此，能够得到精度更加优良的目标声音。

(第3实施方式)

在第1实施方式中，控制部30根据从摄像机10到标记70的距离来修正拾音得到的目标声音。在本实施方式中，控制部30除了目标声音的修正，还根据从摄像机10到标记70的距离来控制拾音。即，在本实施方式中，不仅在对目标声音进行拾音之后，在拾音目标声音时，也使用从摄像机10到标记70的距离的信息。

图16表示第3实施方式中的控制部30的功能性结构。在本实施方式中，表示从摄像机10到标记70的距离的距离信息被从距离推断部35输出到拾音控制部300。声源推断部32根据从摄像机10到标记70的距离，推断声源的位置。方向决定部33在决定拾音方向时，根据从摄像机10到标记70的距离，变更物体位置信息和声源位置信息的优先级、即声源概率

相对于目标物概率

的权重。目标声音拾音部34根据从摄像机10到标记70的距离，变更拾音方向的范围、即表示拾音方向的水平角θc以及垂直角

的波束宽度。另外，在本实施方式中，说明声源推断部32、方向决定部33以及目标声音拾音部34全部使用距离信息的例子，但也可以是声源推断部32、方向决定部33以及目标声音拾音部34的至少任意一个使用距离信息的结构。

图17是用于对与距离相应的声源的位置推断进行说明的图。从话筒阵列20到声源的距离越远，根据声学信号s来推断的声源概率

越低。因此，例如，声源推断部32也可以针对通过上述式(5)而计算的声源概率Ps(θ)，按照每个水平角θ来设定系数k以使得从摄像机10到标记70的距离越远则系数k的值越大，并计算“Ps(θ)×k(θ)”。针对垂直角

也同样地，可以按照每个垂直角

来设定系数k以使得从摄像机10到标记70的距离越远则系数k的值越大，并计算

声源推断部32可以将

作为声源位置信息来输出给方向决定部33。

图18是用于对基于方向决定部33的拾音方向的决定进行说明的图。例如，方向决定部33可以在基于上述式(6)的方向的决定中，从摄像机10到标记70的距离越远，则使得声源概率

的权重W越小，来进行

从而计算作为目标声源的人存在的概率

这样，可以根据从摄像机10到标记70的距离，改变从图像数据得到的目标物概率

和从声学信号得到的声源概率

的优先级。例如，在图18中，在优先目标物概率Pv(θ)的情况下为实线181所示的概率分布，在优先声源概率Ps(θ)的情况下为虚线182所示的概率分布。

图19示意性地表示基于目标声音拾音部34的目标声音的拾音的范围。目标声音拾音部34例如可以将角度α设定为：从话筒阵列20到目标声源的距离越远，则使得对于所决定的拾音方向的水平角θc实际形成指向性的范围即波束宽度“θc±α”越小。对于拾音方向的垂直角

也同样地，可以将角度β设定为：从话筒阵列20到目标声源的距离越远，则形成指向性的范围即波束宽度

越小。

图20中表示第3实施方式中的话筒阵列20与目标声音拾音部34的结构的一个例子。在本实施方式中，话筒阵列20包含三个以上的麦克风201a～201n。目标声音拾音部34如图20所示，具有包含多个延迟器341a～341n、多个滤波器342a～342n以及加法器343的、所谓的延迟求和波束形成的结构。多个延迟器341a～341n根据在水平方向上水平角“θc-α”至水平角“θc+α”的范围所对应的延迟量D1～Dn、在垂直方向上垂直角

至

的范围所对应的延迟量D1～Dn，使输入的声学信号延迟并输出。使各个延迟量D1～Dn适当地变化，以使得根据从话筒阵列20到目标声源的距离来变更该角度α以及角度β，从而能够任意地改变波束宽度。另外，波束宽度也可以不是以决定的拾音方向的水平角θc、垂直角

为中心的宽度。

如以上那样，声源推断部32可以根据声学信号来计算声源概率

基于距离信息来变更声源概率从而生成声源位置信息。方向决定部33可以基于距离信息来变更决定拾音方向时的物体位置信息与声源位置信息的优先级。目标声音拾音部34可以基于距离信息来变更包含拾音方向的波束宽度。这样，通过根据从摄像机10到标记70的距离、即从话筒阵列20到目标声源的距离来控制拾音，从而能够得到更加精度优良的目标声音。

(其他实施方式)

如以上那样，作为本申请中公开的技术的示例，说明了第1～第3实施方式。但是，本公开中的技术并不限定于此，也能够应用于适当地进行了变更、置换、附加、省略等的实施方式。此外，也能够将上述实施方式1～3中说明的各结构要素组合并设为新的实施方式。因此，以下，示例其他实施方式。

信号处理装置1也可以不内置摄像机10和话筒阵列20的任意一方或者两方。例如，如图21所示，信号处理装置1也可以与外置的摄像机10以及话筒阵列20电连接。信号处理装置1可以是具备摄像机10的智能电话等的电子设备，与具备话筒阵列20的外部设备电连接以及机械连接。在输入输出接口部50从外置于信号处理装置1的摄像机10输入图像数据时，输入输出接口部50相当于图像数据的输入部。在输入输出接口部50从外置于信号处理装置1的话筒阵列20输入声学信号时，输入输出接口部50相当于声学信号的输入部。

在上述实施方式中，目标声音修正部36基于从话筒阵列20到目标声源的距离来修正了目标声音，但信号处理装置1也可以不具备目标声音修正部36。在该情况下，仅仅是拾音控制部300基于从摄像机10到标记70的距离来控制拾音。例如，也可以声源推断部32、方向决定部33以及目标声音拾音部34之中的至少任意一个是使用表示从摄像机10到标记70的距离的距离信息的结构。

在上述实施方式中，控制部30基于从摄像机10得到的图像数据和从话筒阵列20得到的声学信号这两方来决定了拾音方向。但是，也可以仅通过图像数据来进行拾音方向的决定，在该情况下，控制部30也可以不具备声源推断部32。也可以仅通过声学信号来进行拾音方向的决定，在该情况下，控制部30也可以不具备物体检测部31。例如，在图3所示的拾音环境中，即使存在噪声源120但是仅存在一人的情况下也可以仅通过图像数据来决定拾音方向。例如，在存在多个人且不存在噪声源120的情况下，也可以仅通过声学信号来决定拾音方向。

在上述实施方式中，说明了作为拾音方向而分别决定水平角θc以及垂直角

的情况，但在仅通过水平角θc以及垂直角

的至少任意一方能够确定目标声源的方向的情况下，也可以仅决定水平角θc以及垂直角

的至少任意一方。

上述的使用了标记信息41的处理也可以使用学习完成模型来实现，所述学习完成模型利用深度学习等的机器学习来进行学习以使得根据输入图像来检测标记。

在上述实施方式中，说明了检测人的脸部的例子，但在对人的声音进行拾音的情况下，目标物并不局限于人的脸部，是能够识别为人的部分即可。例如，目标物也可以是人的身体或者嘴唇。

在上述实施方式中，例如，在目标声源是多个的情况下，也可以根据多个目标声源各自的拾音方向即水平角θc且垂直角

调整波束宽度。

在上述实施方式中，将人的声音作为目标声音来进行拾音，但目标声音并不局限于人的声音。例如，目标声音也可以是车的声音、动物的鸣叫声或者工厂内的设备的工作声音。例如，在目标声音是马达的工作声音的情况下，能够使用通过信号处理装置1而得到的目标声音的信号，精度良好地判定马达的工作声音是正常还是异常。

(实施方式的概要)

(1)本公开的信号处理装置是一种对从作为声源的物体输出的目标声音进行拾音的信号处理装置，所述信号处理装置具有：输入部，输入通过摄像机而生成的图像数据和从话筒阵列输出的声学信号；和控制部，基于图像数据和声学信号的至少任意一方，对相对于话筒阵列的水平方向以及垂直方向的至少任意一方的声学信号的拾音方向进行控制，控制部包含：距离推断部，根据图像数据来检测安装于物体的规定的标记，基于检测出的标记，推断从话筒阵列到声源的距离，输出表示推断出的距离的距离信息；和目标声音修正部，基于距离信息来修正目标声音。

由此，能够得到精度优良的目标声音。

(2)在(1)的信号处理装置中，也可以标记具有规定尺寸，距离推断部通过基于图像数据中的标记的图像尺寸，计算从摄像机到标记的距离，来推断从话筒阵列到声源的距离。

由此，能够精度优良地推断从话筒阵列到声源的距离。

(3)在(1)的信号处理装置中，也可以标记包含对声源的属性进行识别的属性信息，控制部进一步包含根据图像数据来获取属性信息的属性获取部，目标声音修正部基于距离信息和属性信息来修正目标声音。

由此，能够得到更加精度优良的目标声音。

(4)在(1)的信号处理装置中，也可以控制部包含：物体检测部，基于图像数据来检测物体的位置，输出表示检测出的物体的位置的物体位置信息；声源推断部，基于声学信号来推断声源的位置，输出表示推断出的声源的位置的声源位置信息；方向决定部，基于物体位置信息和声源位置信息来决定拾音方向；和波束形成部，设定波束形成以使得基于拾音方向来从声学信号提取目标声音。

(5)在(4)的信号处理装置中，也可以声源推断部根据声学信号来计算在水平方向以及垂直方向的至少一方声源的存在概率，基于距离信息来变更声源的存在概率并生成声源位置信息。

(6)在(4)的信号处理装置中，也可以方向决定部基于距离信息来变更决定拾音方向时的物体位置信息和声源位置信息的优先级。

(7)在(4)的信号处理装置中，也可以波束形成部基于距离信息来变更包含拾音方向的波束宽度。

(8)也可以(1)的信号处理装置具备摄像机以及话筒阵列之中的至少一方。

(9)本公开的其他的信号处理装置是一种对从作为声源的物体输出的目标声音进行拾音的信号处理装置，所述信号处理装置具有：输入部，输入通过摄像机而生成的图像数据和从话筒阵列输出的声学信号；和控制部，基于图像数据和声学信号的至少任意一方，对相对于话筒阵列的水平方向以及垂直方向的至少任意一方的声学信号的拾音方向进行控制，控制部包含：物体检测部，基于图像数据来检测物体的位置，输出表示检测出的物体的位置的物体位置信息；声源推断部，基于声学信号来推断声源的位置，输出表示推断出的声源的位置的声源位置信息；和距离推断部，根据图像数据来检测被安装于物体的规定的标记，基于检测出的标记，推断从话筒阵列到声源的距离，输出表示推断出的距离的距离信息，信号处理装置基于物体位置信息、声源位置信息和距离信息，对目标声音的拾音进行控制。

(10)本公开的信号处理方法是一种通过运算部，对从作为声源的物体输出的目标声音进行拾音的信号处理方法，所述信号处理方法包含：输入通过摄像机而生成的图像数据和从话筒阵列输出的声学信号的步骤；在图像数据中，检测被安装于物体的规定的标记，基于检测出的标记，推断从话筒阵列到声源的距离的步骤；基于图像数据和声学信号的至少任意一方，决定相对于话筒阵列的水平方向以及垂直方向的至少任意一方的声学信号的拾音方向的步骤；设定波束形成以使得基于拾音方向，从声学信号提取目标声音的步骤；和基于所推断的距离来修正目标声音的步骤。

由此，能够得到精度优良的目标声音。

本公开的全部权利要求中所述的信号处理装置以及信号处理方法能够通过与硬件资源例如处理器、存储器以及程序的配合等来实现。

产业上的可利用性

本公开的信号处理装置例如作为对会话中的人的声音进行拾音的装置是有用的。

-符号说明-

1 信号处理装置

10 摄像机

20 话筒阵列

30 控制部

40 存储部

50 输入输出接口部

60 总线

31 物体检测部

32 声源推断部

33 方向决定部

34 目标声音拾音部

35 距离推断部

36 目标声音修正部

37 属性获取部。

Claims

1.一种信号处理装置，对从作为声源的物体输出的目标声音进行拾音，所述信号处理装置具有：

输入部，输入由摄像机生成的图像数据和从话筒阵列输出的声学信号；和

控制部，基于所述图像数据和所述声学信号的至少任意一方，对相对于所述话筒阵列的水平方向以及垂直方向的至少任意一方的所述声学信号的拾音方向进行控制，

所述控制部包含：

距离推断部，根据所述图像数据来检测安装于所述物体的规定的标记，基于检测出的所述标记，推断从所述话筒阵列到所述声源的距离，输出表示所推断出的所述距离的距离信息；和

目标声音修正部，基于所述距离信息来修正所述目标声音。

2.根据权利要求1所述的信号处理装置，其中，

所述标记具有规定尺寸，

所述距离推断部基于所述图像数据中的所述标记的图像尺寸，计算从所述摄像机到所述标记的距离，来推断从所述话筒阵列到所述声源的距离。

3.根据权利要求1所述的信号处理装置，其中，

所述标记包含对所述声源的属性进行识别的属性信息，

所述控制部进一步包含根据所述图像数据来获取所述属性信息的属性获取部，

所述目标声音修正部基于所述距离信息和所述属性信息来修正所述目标声音。

4.根据权利要求1所述的信号处理装置，其中，

所述控制部包含：

物体检测部，基于所述图像数据来检测所述物体的位置，输出表示检测出的所述物体的位置的物体位置信息；

声源推断部，基于所述声学信号来推断所述声源的位置，输出表示推断出的所述声源的位置的声源位置信息；

方向决定部，基于所述物体位置信息和所述声源位置信息来决定所述拾音方向；和

波束形成部，设定波束形成以使得基于所述拾音方向来从所述声学信号提取所述目标声音。

5.根据权利要求4所述的信号处理装置，其中，

所述声源推断部根据所述声学信号来计算在水平方向以及垂直方向的至少一方所述声源的存在概率，基于所述距离信息来变更所述声源的存在概率并生成所述声源位置信息。

6.根据权利要求4所述的信号处理装置，其中，

所述方向决定部基于所述距离信息来变更决定所述拾音方向时的所述物体位置信息和所述声源位置信息的优先级。

7.根据权利要求4所述的信号处理装置，其中，

所述波束形成部基于所述距离信息来变更包含所述拾音方向的波束宽度。

8.根据权利要求1所述的信号处理装置，其中，

所述信号处理装置具备所述摄像机以及所述话筒阵列之中的至少一方。

9.一种信号处理装置，对从作为声源的物体输出的目标声音进行拾音，所述信号处理装置具有：

所述控制部包含：

声源推断部，基于所述声学信号来推断所述声源的位置，输出表示推断出的所述声源的位置的声源位置信息；和

距离推断部，根据所述图像数据来检测被安装于所述物体的规定的标记，基于检测出的所述标记，推断从所述话筒阵列到所述声源的距离，输出表示所推断出的所述距离的距离信息，

所述信号处理装置基于所述物体位置信息、所述声源位置信息和所述距离信息，对所述目标声音的拾音进行控制。

10.一种信号处理方法，通过运算部，对从作为声源的物体输出的目标声音进行拾音，所述信号处理方法包含：

输入由摄像机生成的图像数据和从话筒阵列输出的声学信号的步骤；

在所述图像数据中，检测被安装于所述物体的规定的标记，基于检测出的所述标记，推断从所述话筒阵列到所述声源的距离的步骤；

基于所述图像数据和所述声学信号的至少任意一方，决定相对于所述话筒阵列的水平方向以及垂直方向的至少任意一方的所述声学信号的拾音方向的步骤；

设定波束形成，以使得基于所述拾音方向从所述声学信号提取所述目标声音的步骤；和

基于所推断的所述距离来修正所述目标声音的步骤。