CN110447239B

CN110447239B - 拾音装置及拾音方法

Info

Publication number: CN110447239B
Application number: CN201880020245.7A
Authority: CN
Inventors: 川合窒登; 村松未辉雄; 井上贵之; 鹈饲训史
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-24
Filing date: 2018-03-22
Publication date: 2021-12-03
Anticipated expiration: 2038-03-22
Also published as: US10873810B2; JP6849055B2; EP3606092A4; WO2018174135A1; US20200015010A1; JPWO2018174135A1; CN110447239A; EP3606092A1

Abstract

拾音装置具有电平控制部。电平控制部与从第1传声器生成的第1拾音信号及从第2传声器生成的第2拾音信号的相关性超过阈值的频率成分的比例相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制。

Description

拾音装置及拾音方法

技术领域

本发明的一个实施方式涉及使用传声器而取得声源的声音的拾音装置及拾音方法。

背景技术

在专利文献1至专利文献3中公开了下述方法，即，求出2个传声器的相干性，对说话者的声音等目标声音进行强调。

例如，专利文献1的方法使用2个无指向性传声器而求出2个信号的平均相干性，基于求出的平均相干性的值，对是否是目标语音进行判定。

专利文献1：日本特开2016－042613号公报

专利文献2：日本特开2013－061421号公报

专利文献3：日本特开2006－129434号公报

发明内容

现有的方法没有公开降低远方的杂音的内容。

因此，本发明的一个实施方式的目的在于，提供与以往相比能够高精度地降低远方的杂音的拾音装置及拾音方法。

发明的效果

根据本发明的一个实施方式，能够与以往相比高精度地降低远方的杂音。

附图说明

图1是表示拾音装置1A的结构的概略图。

图2是表示传声器10A及传声器10B的指向性的俯视图。

图3是表示拾音装置1A的结构的框图。

图4是表示电平控制部15的结构的一个例子的图。

图5的(A)及图5的(B)是表示增益表的一个例子的图。

图6是表示变形例1所涉及的电平控制部15的结构的图。

图7的(A)是表示指向性形成部25及指向性形成部26的功能的结构的框图，图7的(B)是表示指向性的俯视图。

图8是表示变形例2所涉及的电平控制部15的结构的图。

图9是表示强调处理部50的功能的结构的框图。

图10是具有3个传声器(传声器10A、传声器10B及传声器10C)的拾音装置1B的外观图。

图11的(A)是表示指向性形成部的功能的结构的图，图11的(B)是表示指向性的一个例子的图。

图12的(A)是表示指向性形成部的功能的结构的图，图12的(B)是表示指向性的一个例子的图。

图13是表示电平控制部15的动作的流程图。

图14是表示变形例所涉及的电平控制部15的动作的流程图。

图15是表示与拾音装置连接的外部装置(PC)的结构例的框图。

图16是表示拾音装置的结构例的框图。

图17是表示将电平控制部设置于外部装置(服务器)的情况下的结构例的框图。

具体实施方式

本实施方式的拾音装置具有：第1传声器、第2传声器和电平控制部。电平控制部求出从所述第1传声器生成的第1拾音信号及从所述第2传声器生成的第2拾音信号的相关性，与该相关性超过阈值的频率成分的比例相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制。

在附近的声音及远方的声音中至少包含有反射音，因此存在相干性极端地降低的频率。如果在计算值中包含有如上述的极端低的值，则有时平均值降低。但是，上述比例仅对大于或等于阈值的频率成分以何种程度存在产生影响，是小于阈值的相干性的值本身低的值、还是为高的值，这对电平控制完全没有影响。因此，拾音装置与比例相应地进行电平控制，由此能够高精度地强调目标声音，能够降低远方的杂音。

图1是表示拾音装置1A的结构的外观的概略图。在图1中，记载拾音所涉及的主结构，没有记载其他结构。拾音装置1A具有：圆筒形状的框体70、传声器10A及传声器10B。

传声器10A及传声器10B配置于框体70的上表面。但是，框体70的形状及传声器的配置方式为一个例子，并不限定于本例。

图2是表示传声器10A及传声器10B的指向性的俯视图。作为一个例子，传声器10A是在装置的前方(图中的左方向)的灵敏度最强，在后方(图中的右方向)没有灵敏度的指向性传声器。传声器10B是在全方向具有均一的灵敏度的无指向性传声器。但是，传声器10A及传声器10B的指向性的方式并不限定于本例。例如，传声器10A及传声器10B可以都是无指向性的传声器，也可以都是指向性的传声器。另外，传声器的数量并不限定于2个，例如可以具有大于或等于3个传声器。

图3是表示拾音装置1A的结构的框图。拾音装置1A具有：传声器10A、传声器10B、电平控制部15及接口(I/F)19。电平控制部15由CPU(Central Processing Unit)151将在作为存储介质的存储器152中存储的程序读出，由此作为软件的功能而实现。但是，电平控制部15也可以由FPGA(Field-Programmable Gate Array)等专用的硬件实现。另外，电平控制部15也可以由DSP(Digital Signal Processor)实现。

对电平控制部15输入传声器10A的拾音信号S1及传声器10B的拾音信号S2。电平控制部15对传声器10A的拾音信号S1或者传声器10B的拾音信号S2进行电平控制，输出至I/F19。I/F 19是USB或者LAN等通信接口。拾音装置1A经由I/F 19将拾音信号输出至其他装置。

图4是表示电平控制部15的功能性的结构的一个例子的图。电平控制部15具有：相干性计算部20、增益控制部21及增益调整部22。

对相干性计算部20输入传声器10A的拾音信号S1及传声器10B的拾音信号S2。相干性计算部20作为相关性的一个例子，对拾音信号S1及拾音信号S2的相干性进行计算。

增益控制部21基于相干性计算部20的计算结果，决定增益调整部22的增益。对增益调整部22输入拾音信号S2。增益调整部22对拾音信号S2的增益进行调整，输出至I/F 19。

此外，在本例中，成为对传声器10B的拾音信号S2的增益进行调整，输出至I/F 19的方式，但也可以设为对传声器10A的拾音信号S1的增益进行调整，输出至I/F 19的方式。但是，传声器10B是无指向性传声器，因此能够对整个周围的声音进行拾音。由此，优选对传声器10B的拾音信号S2的增益进行调整，输出至I/F 19。

相干性计算部20对拾音信号S1及拾音信号S2分别进行傅立叶变换，变换为频率轴的信号X(f，k)及Y(f，k)(S11)。“f”表示频率，“k”表示帧编号。相干性计算部20通过下面的算式1，对相干性(复交叉谱的时间平均值)进行计算(S12)。

[式1]

C_xy(f，k)＝(1-α)C_xy(f，k-1)+αX(f，k)Y(f，k)^*

P_x(f，k)＝(1-α)P_x(f，k-1)+α|X(f，k)|²

P_y(f，k)＝(1-α)P_y(f，k-1)+α|Y(f，k)|²

但是，上述算式1是一个例子。例如，相干性计算部20也可以按照下面的算式2或者算式3对相干性进行计算。

[式2]

[式3]

此外，“m”表示周期编号(表示由规定帧数构成的信号的汇总的识别编号)，“T”表示1个周期的帧数。

增益控制部21基于上述相干性，决定增益调整部22的增益。例如，增益控制部21针对全频率(频率仓的数)，求出相干性的振幅超过规定的阈值γth的频率仓的比例R(k)(S13)。

[式4]

阈值γth设定为例如γth＝0.6。此外，上述算式4中的f0为下限频率仓，f1为上限频率仓。

增益控制部21根据该比例R(k)，决定增益调整部22的增益(S14)。更具体地说，增益控制部21针对每个频率仓对相干性是否超过阈值γth进行判定，对超过该阈值的频率仓数进行合计，根据合计结果而决定增益。图5的(A)是表示增益表的一个例子的图。根据图5的(A)所示的例子的增益表，增益控制部21在比例R大于或等于规定值R1时，不衰减(增益＝1)。增益控制部21设定为在比例R从规定值R1至R2为止，随着比例R的降低，增益衰减。增益控制部21在比例R小于R2的情况下，以最小增益值维持。最小增益值可以为0，但也可以设为比0稍大的值，设为稍微能够听到声音的状态。由此，用户不会误会为由于故障等而声音中断。

相干性在2个信号的相关性高的情况下，表示高的值。远方的声音是回响音成分多、到来方向不定的声音。例如，在传声器10A为指向性、传声器10B为无指向性的情况下，针对远方的声音的拾音性能大幅地不同。因此，相干性在被输入了远方的声源的声音的情况下变小，在被输入了与装置近的声源的声音的情况下变大。

由此，拾音装置1A不对从装置远离的声源的声音进行拾音，能够将与装置近的声源的声音作为目标声音而进行强调。

本实施方式的拾音装置1A示出了增益控制部21针对全频率，求出相干性超过规定的阈值γth的频率的比例R(k)，与该比例相应地进行增益控制的例子。在附近的声音及远方的声音中包含有反射音，因此存在相干性极端地降低的频率。如果包含上述的极端地低的值，则有时平均值降低。但是，上述比例R(k)仅对大于或等于阈值的频率成分以何种程度存在产生影响，是小于阈值的相干性的值本身低的值、还是为高的值，对增益控制完全没有影响，因此通过与比例R(k)相应地进行增益控制，从而能够降低远方的杂音，能够高精度地强调目标声音。

此外，规定值R1及规定值R2可以设定为任意的值，但规定值R1与希望不衰减而拾音的最大范围相应地设定。例如，在声源的位置比半径约30cm远的情况下，在相干性的比例R的值降低的情况下，将距离成为约40cm时的相干性的比例R的值设定为规定值R1，至半径约40cm为止，能够不衰减地拾音。另外，规定值R2与希望衰减的最小范围相应地设定。例如，将距离成为100cm时的比例R的值设定为规定值R2，由此在距离大于或等于100cm时几乎不拾音，如果距离与100cm相比近，则增益逐渐地上升而被拾音。

另外，规定值R1及规定值R2可以不是固定值，而动态地变化。例如，电平控制部15求出在规定时间内的过去计算出的比例R的平均值R0(或者最大的值)，设为规定值R1＝R0+0.1、规定值R2＝R0－0.1。由此，成为以当前的声源的位置为基准，比该声源的位置接近的范围的声音被拾音，比声源的位置远的范围的声音不被拾音的状态。

此外，图5的(A)的例子为从规定距离(例如30cm)起增益急剧地降低，大于或等于规定距离(例如100cm)的声源几乎不被拾音的方式，类似于限制器的功能。但是，增益表除此以外如图5的(B)所示，还可以考虑各种方式。在图5的(B)的例子中，是与比例R相应地增益逐渐地降低，从规定值R1起增益的降低程度变大，在大于或等于规定值R2时，增益再次逐渐地降低的方式，类似于压缩器的功能。

接下来，图6是表示变形例1所涉及的电平控制部15的结构的图。电平控制部15具有指向性形成部25及指向性形成部26。图13是表示变形例1所涉及的电平控制部15的动作的流程图。图7的(A)是表示指向性形成部25及指向性形成部26的功能的结构的框图。

指向性形成部25将传声器10B的输出信号M2直接作为拾音信号S2而输出。指向性形成部26如图7的(A)所示，具有减法部261及选择部262。

减法部261从传声器10B的输出信号M2减去传声器10A的输出信号M1而输入至选择部262。

选择部262将传声器10A的输出信号M1的电平与从传声器10B的输出信号M2减去传声器10A的输出信号M1得到的差分信号的电平进行比较，将高电平侧的信号作为拾音信号S1而输出(S101)。如图7的(B)所示，从传声器10B的输出信号M2减去传声器10A的输出信号M1得到的差分信号，成为将传声器10B的指向性反转后的状态。

设为上述方式，变形例1所涉及的电平控制部15即使在使用具有指向性(不对特定的方向的声音具有灵敏度)的传声器的情况下，也能针对装置的整个周围而具有灵敏度。在该情况下，拾音信号S1具有指向性，拾音信号S2为无指向性，因此针对远方的声音的拾音性能也不同。由此，变形例1所涉及的电平控制部15针对装置的整个周围具有灵敏度，并且不对从装置远离的声源的声音进行拾音，能够将与装置接近的声源的声音作为目标声音而进行强调。

指向性形成部25及指向性形成部26的方式并不限定于图7的(A)的例子。只要在拾音信号S1和拾音信号S2中，对于与框体70接近的声源的相关性高、且对于远方的声源的相关性降低的方式，就能够实现本实施方式的结构。

例如，图10是具有3个传声器(传声器10A、传声器10B及传声器10C)的拾音装置1B的外观图。图11的(A)是表示指向性形成部的功能的结构的图。图11的(B)是表示指向性的一个例子的图。

如图11的(B)所示，在本例中，传声器10A、传声器10B及传声器10C全部为指向性传声器。传声器10A、传声器10B及传声器10C在俯视观察时，各自在以120度为单位而不同的方向具有灵敏度。

图11的(A)中的指向性形成部26对传声器10A、传声器10B及传声器10C的信号的任1个进行选择，由此形成指向性的第1拾音信号。例如，上述指向性形成部26对传声器10A、传声器10B及传声器10C的信号的最高电平的信号进行选择。

图11的(A)中的指向性形成部25对传声器10A、传声器10B及传声器10C的信号的加权和进行计算，由此形成无指向性的第2拾音信号。

由此，拾音装置1B即使在具备全部具有指向性(在特定的方向没有灵敏度)的传声器的情况下，也能针对装置的整个周围而具有灵敏度。在该情况下，拾音信号S1具有指向性，拾音信号S2为无指向性，因此针对远方的声音的拾音性能也不同。由此，拾音装置1B针对装置的整个周围而具有灵敏度，并且能够不对从装置远离的声源的声音进行拾音，而是将与装置近的声源的声音作为目标声音而进行强调。

另外，即使例如全部传声器为无指向性传声器，例如如图12的(A)所示，通过由指向性形成部26求出延迟和，从而如图12的(B)所示，也能够生成在特定的方向具有强的灵敏度的拾音信号S1。在该情况下，是使用3个无指向性传声器的例子，但也能够使用2个或者大于或等于4个无指向性传声器而生成在特定的方向具有强的灵敏度的拾音信号S1。

接下来，图9是表示强调处理部50的功能的结构的框图。

人声成为针对每个规定的频率而具有峰值成分的谐波构造。因此，梳状滤波器设定部75如以下的算式5所示，求出使人声的峰值成分通过、将除了峰值成分以外的成分去除的增益特性G(f，t)，作为梳状滤波器76的增益特性而设定。

[式5]

z(c，t)＝DFT_f→c{log|Z(f，t)|}

c_peak(t)＝argmax_c{z(c，t)}

C(f，t)＝G(f，t)^ηZ(f，t)

即，梳状滤波器设定部75对拾音信号S2进行傅立叶变换，将对振幅进行了对数运算后的结果进一步进行傅立叶变换而求出倒谱z(c，t)。梳状滤波器设定部75对将该倒谱z(c，t)设为最大的c的值c_peak(t)＝argmax_c{z(c，t)}进行提取。梳状滤波器设定部75在c的值为c_peak(t)及其近旁以外的情况下，设为倒谱值z(c，t)＝0，对倒谱的峰值成分进行提取。梳状滤波器设定部75将该峰值成分z_peak(c，t)恢复为频率轴的信号，设为梳状滤波器76的增益特性G(f，t)。由此，梳状滤波器76成为对人声的谐波成分进行强调的滤波器。

此外，增益控制部21可以基于相干性计算部20的计算结果，对通过梳状滤波器76实现的强调处理的强度进行调整。例如，增益控制部21在上述的比例R(k)的值大于或等于规定值R1的情况下，将通过梳状滤波器76实现的强调处理开启，在上述的比例R(k)的值小于规定值R1的情况下，将通过梳状滤波器76实现的强调处理关闭。在该情况下，通过梳状滤波器76实现的强调处理也包含于与相关性的计算结果相应地进行拾音信号S2(或者拾音信号S1)的电平控制的一个方式。因此，拾音装置1也可以仅进行通过梳状滤波器76实现的目标声音的强调处理。

此外，电平控制部15例如可以对噪声成分进行推定，通过使用该推定出的噪声成分的谱减法，将噪声成分去除，由此执行对目标声音进行强调的处理。并且，电平控制部15也可以基于相干性计算部20的计算结果，对噪声去除处理的强度进行调整。例如，电平控制部15在上述的比例R(k)的值大于或等于规定值R1的情况下，将通过噪声去除处理实现的强调处理开启，在上述的比例R(k)的值小于规定值R1的情况下，将通过噪声去除处理实现的强调处理关闭。在该情况下，通过噪声去除处理实现的强调处理也包含于与相关性的计算结果相应地进行拾音信号S2(或者拾音信号S1)的电平控制的一个方式。

图15是表示与拾音装置连接的外部装置(PC：个人计算机)2的结构例的框图。PC 2具有：I/F 51、CPU 52、I/F 53及存储器54。I/F 51为例如USB接口，针对拾音装置1A的I/F19通过USB线缆而连接。I/F 53为LAN等通信接口，与网络7连接。CPU 52经由I/F 51从拾音装置1A被输入拾音信号。CPU 52将在存储器54中存储的程序读出，执行图15所示的VoIP(Voice over Internet Protocol)521的功能。VoIP 521将拾音信号变换为包数据。CPU 52将通过VoIP 521变换后的包数据经由I/F 53而输出至网络7。由此，PC 2能够与经由网络7连接的其他装置对拾音信号进行收发。因此，PC 2例如能够远程地进行声音会议。

图16是表示拾音装置1A的变形例的框图。在该变形例的拾音装置1A中，CPU 151从存储器152读出程序，执行VoIP 521的功能。在该情况下，I/F 19为LAN等通信接口，与网络7连接。CPU 151经由I/F 19将通过VoIP 521变换后的包数据，经由I/F 53输出至网络7。由此，拾音装置1A能够与经由网络7连接的其他装置对拾音信号进行收发。因此，拾音装置1A例如能够远程地进行声音会议。

图17是表示将电平控制部15的结构设置于外部装置(服务器)9的情况下的结构例的框图。服务器9具有：I/F 91、CPU 93及存储器94。I/F 91为例如USB接口，针对拾音装置1A的I/F 19而通过USB线缆进行连接。

在本例中，拾音装置1A不具有电平控制部15。CPU 151从存储器152读出程序，执行VoIP 521的功能。在本例中，VoIP 521将拾音信号S1及拾音信号S2分别变换为包数据。或者，VoIP 521将拾音信号S1及拾音信号S2变换为1个包数据。在变换为1个包数据的情况下，拾音信号S1及拾音信号S2也各自区分而作为彼此不同的数据而储存于包数据。

在本例中，I/F 19为LAN等通信接口，与网络7连接。CPU 151经由I/F 19将通过VoIP 521变换后的包数据，经由I/F 53而输出至网络7。

服务器9的I/F 53为LAN等通信接口，与网络7连接。CPU 52经由I/F 91而从拾音装置1A被输入包数据。CPU 52将在存储器54中存储的程序读出，执行VoIP 92的功能。VoIP 92将包数据变换为拾音信号S1及拾音信号S2。另外，CPU 95从存储器94读出程序，执行电平控制部95的功能。电平控制部95具有与电平控制部15相同的功能。CPU 93将通过电平控制部95进行电平控制后的拾音信号再次输出至VoIP 92。CPU 93在VoIP 92中将拾音信号变换为包数据。CPU 93将通过VoIP 92变换后的包数据经由I/F 91而输出至网络7。例如，CPU 93向拾音装置1A的通信目标发送包数据。因此，拾音装置1A能够将通过电平控制部95进行电平控制后的拾音信号发送至通信目标。

最后，应该认为本实施方式的说明的所有方面都是例示，且并不是限制性的内容。本发明的范围不是由上述的实施方式表示，而是由权利要求书表示。并且，本发明的范围包含与权利要求书等同的范围。

标号的说明

1A、1B…拾音装置

10A、10B、10C…传声器

15…电平控制部

19…I/F

20…相干性计算部

21…增益控制部

22…增益调整部

25、26…指向性形成部

50…强调处理部

57…频带分割部

59…频带合成部

70…框体

75…梳状滤波器设定部

76…梳状滤波器

261…减法部

262…选择部。

Claims

1.一种拾音装置，其具有电平控制部，该电平控制部与从第1传声器生成的第1拾音信号及从第2传声器生成的第2拾音信号的相关性超过阈值的频率成分的比例相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制，从而降低远方的杂音，

所述电平控制部针对每个频率对所述相关性是否超过所述阈值进行判定，基于在全部频率成分中对超过该阈值的频率的数进行合计得到的合计结果，求出所述频率成分的比例。

2.根据权利要求1所述的拾音装置，其中，

具有所述第1传声器和所述第2传声器。

3.根据权利要求1或2所述的拾音装置，其中，

具有指向性形成部，该指向性形成部根据由所述第1传声器及所述第2传声器输出的声音信号，生成所述第1拾音信号及所述第2拾音信号。

4.根据权利要求3所述的拾音装置，其中，

所述第1传声器及所述第2传声器为指向性传声器，

所述指向性形成部从所述第1传声器及所述第2传声器，生成具有指向性的所述第1拾音信号和无指向性的所述第2拾音信号。

5.根据权利要求3所述的拾音装置，其中，

所述指向性形成部通过求出由所述第1传声器及所述第2传声器输出的声音信号的延迟和，从而生成所述第1拾音信号或者所述第2拾音信号。

6.根据权利要求1或2所述的拾音装置，其中，

所述电平控制部对噪声成分进行推定，作为所述电平控制，进行将该推定出的噪声成分从所述第1拾音信号或者所述第2拾音信号中去除的处理。

7.根据权利要求6所述的拾音装置，其中，

所述电平控制部与所述比例相应地，将去除所述噪声成分的处理开启或者关闭。

8.根据权利要求1或2所述的拾音装置，其中，

所述电平控制部具有梳状滤波器，该梳状滤波器将基于人声的谐波成分去除。

9.根据权利要求8所述的拾音装置，其中，

所述电平控制部与所述比例相应地，将通过所述梳状滤波器实现的处理开启或者关闭。

10.根据权利要求1或2所述的拾音装置，其中，

所述电平控制部具有增益控制部，该增益控制部对所述第1拾音信号或者所述第2拾音信号的增益进行控制。

11.根据权利要求10所述的拾音装置，其中，

所述电平控制部在所述比例小于第1阈值的情况下，与所述比例相应地使所述增益衰减。

12.根据权利要求11所述的拾音装置，其中，

所述第1阈值是基于在规定时间内计算出的所述比例而决定的。

13.根据权利要求10所述的拾音装置，其中，

所述电平控制部在所述比例小于第2阈值的情况下，将所述增益设定为最小增益。

14.根据权利要求1或2所述的拾音装置，其中，

所述相关性包含相干性。

15.一种拾音方法，其与从第1传声器生成的第1拾音信号及从第2传声器生成的第2拾音信号的相关性超过阈值的频率成分的比例相应地进行所述第1拾音信号或者所述第2拾音信号的电平控制，从而降低远方的杂音，

针对每个频率对所述相关性是否超过所述阈值进行判定，基于在全部频率成分中对超过该阈值的频率的数进行合计得到的合计结果，求出所述频率成分的比例。

16.根据权利要求15所述的拾音方法，其中，

根据由所述第1传声器及所述第2传声器输出的声音信号，生成所述第1拾音信号及所述第2拾音信号。

17.根据权利要求16所述的拾音方法，其中，

从所述第1传声器及所述第2传声器，生成具有指向性的所述第1拾音信号和无指向性的所述第2拾音信号。

18.根据权利要求17所述的拾音方法，其中，

通过求出由所述第1传声器及所述第2传声器输出的声音信号的延迟和，从而生成所述第1拾音信号或者所述第2拾音信号。