CN110663258B

CN110663258B - 语音信号处理装置

Info

Publication number: CN110663258B
Application number: CN201880032965.5A
Authority: CN
Inventors: 菊原靖仁; 相川彻; 实方友里
Original assignee: Audio Technica KK
Current assignee: Audio Technica KK
Priority date: 2017-05-19
Filing date: 2018-03-15
Publication date: 2021-08-03
Anticipated expiration: 2038-03-15
Also published as: JPWO2018211806A1; JP7004332B2; US10971169B2; US20200152218A1; EP3627853A1; CN110663258A; WO2018211806A1; EP3627853A4

Abstract

本发明提供一种语音信号处理装置，其不仅能高精度地检测各种噪声，而且即使在语音信号的输出过程中检测到了噪声也不会阻断语音信号的输出。一种语音信号处理装置，具有：输入部(10)；输入信号辨别部(20)，其用于辨别有无来自输入部的输入信号；噪声检测部(30)，其用于检测来自输入部的输入信号中所包含的噪声；输出部(80)，其用于将输入信号作为输出信号输出；输出切换部(52)，其用于在输出部输出输出信号的输出状态和输出部不输出输出信号的非输出状态之间进行切换；以及控制部(60)，其用于对输出切换部所进行的切换进行控制。对控制部所进行的切换进行控制包含：第1控制，其根据输入信号辨别部的辨别结果(r1)和噪声检测部的检测结果(r2)对切换进行控制；以及第2控制，其根据输入信号辨别部的辨别结果对切换进行控制。根据输出切换部的状态对第1控制和第2控制进行选择。

Description

语音信号处理装置

技术领域

本发明涉及一种语音信号处理装置。

背景技术

会议系统用于例如议会或电视会议等许多人出席的会议等。会议系统通过对来自多个麦克风的语音信号进行处理，使会议得以顺利进行。部分会议系统具备语音自动识别功能。语音自动识别功能是指，自动检测参会人员的发声(语音)并对来自麦克风的信号的输出和阻断之间的切换进行控制的功能。

语音自动识别功能有时会将钢笔敲击桌面的声音或接触文件的声音等噪声错误检测为语音。此时可能对来自麦克风的信号的输出和阻断之间的切换进行非用户主观意愿的控制。因此，可能产生将噪声向会场内播放等故障。

已知有一种噪声检测装置(例如，参照专利文献1)，其能够在语音自动识别功能中避免将语音以外的噪声错误检测为语音。

专利文献1所公开的噪声检测装置通过将每个阶的自相关系数与阈值进行比较，能够分别检测出无声、低频率区域(低频域)的噪声、高频率区域(高频域)的噪声。

现有技术文献

专利文献：

专利文献1：日本专利公开特开平6－83391号公报

发明内容

发明要解决的问题

专利文献1所公开的噪声检测装置能够检测从低频域到高频域的具有大致同等频谱的脉冲噪声。脉冲噪声是例如用钢笔敲击桌面的声音等的噪声。因此，专利文献1所公开的噪声检测装置能够抑制上述的错误检测。但是，专利文献1所公开的噪声检测装置不能检测将脉冲噪声和高频域的噪声合并而成的合成式噪声。合成式噪声是例如将纸团成一团的声音等的噪声。因此，专利文献1所公开的噪声检测装置若将此类合成式噪声错误检测为语音时，会将该噪声播放到会场内。

此外，专利文献1所公开的噪声检测装置若在输出语音的语音区间检测到包含许多低频段成分或高频段成分的区间时，可能将语音区间中间的区间判定为噪声区间。意即，专利文献1所公开的噪声检测装置若在输出语音信号的过程中检测到噪声时，会在参会人员的发言途中阻断来自麦克风的信号的输出。

本发明即为解决上述现有技术的问题而完成，其目的在于，提供一种语音信号处理装置，其不仅能够高精度地检测出包含合成式噪声的各种噪声，而且即使在语音信号的输出过程中检测到了噪声也不会阻断语音信号的输出。

用于解决问题的方案

本发明的语音信号处理装置的特征在于，具有：输入部，其用于输入来自麦克风的信号；输入信号辨别部，其用于辨别有无来自输入部的输入信号；噪声检测部，其用于检测来自输入部的输入信号中所包含的噪声；输出部，其用于将输入信号作为输出信号输出；输出切换部，其用于在输出部输出输出信号的输出状态和输出部不输出输出信号的非输出状态之间进行切换；以及控制部，其用于对输出切换部所进行的切换进行控制，控制部所进行的对切换的控制包括：第1控制，其根据输入信号辨别部的辨别结果和噪声检测部的检测结果对切换进行控制；以及第2控制，其根据输入信号辨别部的辨别结果对切换进行控制，根据输出切换部的状态对第1控制和第2控制进行选择。

发明的效果

根据本发明，能够提供一种语音信号处理装置，其不仅能够高精度地检测出包含合成式噪声的各种噪声，而且即使在语音信号的输出过程中检测到了噪声也不会阻断语音信号的输出。

附图说明

图1是示出本发明的语音信号处理装置的实施方式的功能框图。

图2是图1的语音信号处理装置所具备的噪声检测部的功能框图。

图3是图2的噪声检测部所具备的频率成分辨别部的功能框图。

图4是图3的噪声检测部所具备的时间变化辨别部的功能框图。

图5是示出图1的语音信号处理装置所进行的信号处理的流程图。

图6是示出图5的信号处理中的输入信号辨别处理的流程图。

图7是示出图5的信号处理中的噪声检测处理的流程图。

图8是示出图7的噪声检测处理中的频率成分辨别处理的流程图。

图9是示出图7的噪声检测处理中的时间变化辨别处理的流程图。

图10是示出图5的信号处理中的切换处理的部分处理的流程图。

图11是示出图5的信号处理中的切换处理的另一部分处理的流程图。

附图标记说明

1 语音信号处理装置

10 输入部

20 输入信号辨别部

30 噪声检测部

31 频率成分辨别部

32 时间变化辨别部

33 逻辑或运算部

40 延迟部

50 切换部

51 信号切换部

52 输出切换部

60 控制部

61 逻辑与运算部

80 输出部

r1 辨别结果

r2 检测结果

s1 输入信号

s4 延迟信号

具体实施方式

·语音信号处理装置·

以下参照附图，对本发明的语音信号处理装置的实施方式进行说明。

·语音信号处理装置的构成

图1是示出本发明的语音信号处理装置(以下简称“本装置”)的实施方式的功能框图。

本装置1对来自麦克风2等设备的电信号(输入信号s1)进行混合、分配、平衡调节等的处理。所述麦克风2等设备是指将语音或乐音转换为电信号的设备。本装置1为例如混频器或会议系统的控制单元等。

本装置1具有输入部10、输入信号辨别部20、噪声检测部30、延迟部40、切换部50、控制部60、存储部70、输出部80。

输入部10与例如麦克风2连接，接收来自麦克风2的输入信号s1。来自麦克风2的输入信号s1被输入至输入部10，从输入部10输入至延迟部40和切换部50。此外，输入信号s1由输入部10进行后述的处理后，也被输入至输入信号辨别部20和噪声检测部30。输入部10具备接收部11、带通滤波器12、整流器13。

接收部11接收来自麦克风2的输入信号s1，将该输入信号s1输入至带通滤波器12、延迟部40、切换部50。

带通滤波器12去除输入信号s1中低频段(低频域)的信号和高频段(高频域)的信号。换言之，带通滤波器12去除输入信号s1中在低频域中显示特征的噪声和在高频域中显示特征的噪声。从带通滤波器12输出的信号(以下简称“滤波器信号”)s2被输入至整流器13和噪声检测部30。

而且，带通滤波器也可由低通滤波器和高通滤波器组合而成。

整流器13将作为交流信号的滤波器信号s2转换为直流信号。被转换为直流信号后的滤波器信号(以下简称“DC信号”)s3被输入至输入信号辨别部20。

输入信号辨别部20对有无来自麦克风2的输入信号s1(语音信号)进行辨别。输入信号辨别部20具备第1比较部21。第1比较部21对例如DC信号s3和第1阈值V1进行比较，以辨别有无输入信号s1。第1比较部21的输出、亦即来自输入信号辨别部20的输出(以下简称“辨别结果”)r1被输入至控制部60。

“第1阈值V1”是用于本装置1对有无输入信号s1进行辨别时所用的阈值。第1阈值V1是例如根据麦克风2所集音的环境音所对应的信号而设定的波动值。“环境音”是例如本装置1或麦克风2的设置场所(会议室或礼堂等)的空调的声音、或者设置了本装置1或麦克风2的房间的回声等。本装置1通过将第1阈值V1设定为波动值，能够响应使用了本装置1的环境(例如，设置了本装置1的房间有无空调、该房间的大小、麦克风2的增益值等)对有无输入信号s1进行辨别。第1阈值V1存储在存储部70中。

而且，第1阈值也可以是响应本装置的使用环境的固定值。

噪声检测部30对从麦克风2接收的输入信号s1所包含的源于噪声的特征进行检测，以检测输入信号s1所包含的噪声。意即，噪声检测部30对输入信号s1究竟是源于噪声的信号(以下简称“噪声信号”)还是源于语音的信号(以下简称“语音信号”)进行判定。噪声检测部30的输出(以下简称“检测结果”)r2被输入至控制部60。“噪声”是例如用钢笔敲击桌面的声音、翻动纸张的声音、打喷嚏的声音、拍手的声音、将纸揉成一团的声音等。

图2是噪声检测部30的功能框图。

噪声检测部30具备频率成分辨别部31、时间变化辨别部32、逻辑或运算部33。

图3是频率成分辨别部31的功能框图。

频率成分辨别部31根据滤波器信号s2(输入信号s1)的频率成分对有无噪声进行辨别。语音信号的功率谱通常具有比高频域的功率更高的中低频域的功率。此外，语音信号的功率谱有在部分频段突出显现的倾向。另一方面，噪声的功率谱有在全频段显现的倾向。频率成分辨别部31将滤波器信号s2的功率谱分割为中低频段(中低频域)的功率谱和中高频段(中高频域)的功率谱。频率成分辨别部31对2个功率谱进行比较，以辨别滤波器信号s2(输入信号s1)是语音信号还是噪声信号。

此处，中低频域是例如包含100Hz－3kHz左右频率的频段。中高频域是例如包含大于等于3kHz的频率的频段。

而且，中低频域也可以在部分频段与中高频域重叠。

频率成分辨别部31具备低通滤波器311、第1移动平均部312、高通滤波器313、第2移动平均部314、相对比较部315、第2比较部316。

低通滤波器311从滤波器信号s2中提取中低频信号。

第1移动平均部312对通过了低通滤波器311的中低频信号进行规定样本数n(例如，n＝10)的移动平均处理。第1移动平均部312通过该移动平均处理，将中低频信号转换为直流信号，并生成转换后的信号的功率谱(以下简称“中低频域信号功率谱”)。

高通滤波器313从滤波器信号s2中提取中高频信号。

第2移动平均部314对通过了高通滤波器313的中高频信号进行规定样本数n(例如，n＝10)的移动平均处理。第2移动平均部314通过该移动平均处理，将中高频信号转换为直流信号，并生成转换后的信号的功率谱(以下简称“中高频域信号功率谱”)。

相对比较部315对第1移动平均部312所生成的中低频域信号功率谱和第2移动平均部314所生成的中高频域信号功率谱进行比较，计算得出其差异。相对比较部315将计算得出的差异输入至第2比较部316。

第2比较部316将来自相对比较部315的差异与第2阈值V2进行比较，将示出其结果的信号输入逻辑或运算部33。“第2阈值V2”是频率成分辨别部31用于对滤波器信号s2(输入信号s1)究竟是语音信号还是噪声信号进行辨别时用的阈值。第2阈值V2存储在存储部70(参照图1)中。

图4是时间变化辨别部32的功能框图。

时间变化辨别部32根据滤波器信号s2(输入信号s1)的时间变化对有无噪声进行辨别。通常，脉冲噪声的时间轴波形在噪声刚发生后立即急剧波动，然后在规定的时间内衰变。时间变化辨别部32根据滤波器信号s2(输入信号s1)的时间变化对有无噪声进行辨别。意即，时间变化辨别部32对具有脉冲噪声的时间轴波形的信号的时间变化进行计数，以辨别滤波器信号s2(输入信号s1)究竟是语音信号还是噪声信号。

时间变化辨别部32具备第3移动平均部321、第3比较部322、时间变化计数部323、第4比较部324。

第3移动平均部321对滤波器信号s2进行规定样本数n(例如，n＝10)的移动平均处理。第3移动平均部321通过对滤波器信号s2的移动平均处理，将滤波器信号s2转换为直流信号，并生成转换后的信号的功率谱(以下简称“输入信号功率谱”)。

第3比较部322将第3移动平均部321所生成的输入信号功率谱与第3阈值V3进行比较，将示出其结果的信号输出至时间变化计数部323。

“第3阈值V3”是时间变化辨别部32辨别滤波器信号s2(输入信号s1)是语音信号还是噪声信号时用的阈值。第3阈值V3是根据例如麦克风2所集音的环境音所对应的信号而设定的波动值。本装置1通过将第3阈值V3设定为波动值，能够响应使用本装置1的环境对滤波器信号s2是语音信号还是噪声信号进行辨别。第3阈值V3存储在存储部70(参照图1)中。

而且，第3阈值也可以是响应本装置的使用环境的固定值，或者通过对作为第1阈值的基础的信号进行规定的调节而计算得出。

时间变化计数部323对被第3比较部322判断为超过了第3阈值V3的信号的时间轴波形中的时间变化(衰变时间)进行计数，将其结果输出至第4比较部324。

第4比较部324将时间变化计数部323的计数值与第4阈值V4进行比较，将示出其结果的信号输出至逻辑或运算部33。“第4阈值V4”是时间变化辨别部32辨别滤波器信号s2(输入信号s1)是语音信号还是噪声信号时用的阈值。第4阈值V4存储在存储部70(参照图1)中。

回到图2。

逻辑或运算部33对频率成分辨别部31(第2比较部316)的输出和时间变化辨别部32(第4比较部324)的输出进行逻辑或运算。当第2比较部316的输出和第4比较部324的输出中的任一输出是被辨别为噪声的输出时，逻辑或运算部33将滤波器信号s2(输入信号s1)判定为噪声信号。意即，逻辑或运算部33根据频率成分辨别部31的辨别结果和时间变化辨别部32的辨别结果，从滤波器信号s2(输入信号s1)中检测出噪声。

回到图1。

延迟部40对来自输入部10的输入信号s1进行规定时间的存储，生成对输入信号s1进行规定时间的延迟后的延迟信号s4并输出。“规定时间”被设定为比时间变化辨别部32的处理(后述的时间变化辨别处理(ST202))所需时间(例如，第4阈值V4)还要长的时间。因此，即使时间变化辨别部32实施后述的处理(ST202)，本装置1也会生成不比输入信号s1欠缺信息(语音)的延迟信号s4。延迟部40包含例如环形缓冲区。在将输入信号s1输入至延迟部40期间，延迟部40一直生成延迟信号s4。延迟信号s4被从延迟部40输入至切换部50。

切换部50响应来自后述的控制部60的控制信号cs1，将从切换部50输入至输出部80的信号切换为输入信号s1和延迟信号s4中的任一信号。此外，切换部50响应控制信号cs1，对有无信号从切换部50输入至输出部80进行切换。切换部50具备信号切换部51和输出切换部52。

信号切换部51响应来自后述的控制部60的控制信号cs1，对从切换部50输入至输出部80的信号进行切换。信号切换部51具备两个接点P,即接点P1和接点P2。接点P1与延迟部40连接。来自延迟部40的延迟信号s4被输入至接点P1。接点P2与接收部11连接。来自接收部11的输入信号s1被输入至接点P2。意即，切换部50对信号切换部51的接点P(接点P1，P2)进行切换，将输入信号s1和延迟信号s4中的任一信号输入至输出部80。本装置1为初始状态(本装置1刚刚接通电源后的状态)时，信号切换部51的接点P为接点P2。

输出切换部52响应来自后述的控制部60的控制信号cs1，对有无信号从切换部50输入至输出部80进行切换。输出切换部52为例如闸门电路。意即，例如，在有较高电压施加于闸门时，输出切换部52处于输出信号的输出状态(以下简称“闸门打开”)，在有较低电压施加于闸门时，输出切换部52处于阻断信号的非输出状态(以下简称“闸门关闭”)。输出切换部52的状态为闸门关闭时，切换部50不向输出部80输入信号(静音打开)。输出切换部52的状态为闸门打开时，切换部50向输出部80输入信号(静音关闭)。换言之，输出切换部52响应来自控制部60的控制信号cs1，在输出部80输出输出信号的输出状态和输出部80不输出输出信号的非输出状态之间进行切换。关于“输出信号”，参见后述内容。本装置1为初始状态时，输出切换部52的状态为闸门关闭。示出输出切换部52的状态的信号(以下简称“状态信号”)gs1被从切换部50输入至控制部60。

控制部60根据来自输入信号辨别部20的辨别结果r1、来自噪声检测部30的检测结果r2、以及来自切换部50的输出切换部52的状态信号gs1，生成控制信号cs1。控制信号cs1是对切换部50的动作(信号切换部51或输出切换部52的切换)进行控制的信号。意即，控制部60根据辨别结果r1、检测结果r2、以及状态信号gs1进行控制，使来自输出部80的输出成为输入信号s1和延迟信号s4中的任一信号。控制部60具备逻辑与运算部61和计数部62。

“控制信号cs1”是对例如信号切换部51的接点P1和接点P2进行切换的信号，或是对输出切换部52的闸门打开和闸门关闭进行切换的信号。控制信号cs1被从控制部60输入至切换部50。

逻辑与运算部61根据示出检测结果r2的信号(以下简称“检测结果信号”)r2s和状态信号gs1的逻辑与运算结果，对后述的切换部50的控制(第1控制、第2控制)进行选择。关于逻辑与运算部61的动作，参见后述内容。

当被输入信号辨别部20辨别为无输入信号s1(无声)时，计数部62对该无声时间进行计数。

存储部70存储本装置1实施后述的信号处理所需的信息。存储部70存储第1阈值V1、第2阈值V2(参照图3)、第3阈值V3(参照图4)、第4阈值V4(参照图4)、以及后述的第5阈值V5(参照图11)。

输出部80将来自切换部50的输入信号s1或者来自切换部50的延迟信号s4中的任一信号作为输出信号，输出至例如扬声器或通讯线路等。扬声器或通讯线路与本装置1连接。

·本装置的信号处理·

下面，对本装置1的信号处理(动作)进行说明。

图5是示出本装置1的信号处理的流程图。

如图1所示，输入至输入部10的接收部11的输入信号s1被输入至延迟部40和切换部50。此外，该输入信号s1经由带通滤波器12作为滤波器信号s2被输入至噪声检测部30。然后，滤波器信号s2经由整流器13被转换为DC信号s3，被输入至输入信号辨别部20。本装置1针对每个被输入至输入部10的输入信号s1，实施输入信号辨别处理(ST1)、噪声检测处理(ST2)、切换处理(ST3)。在输入信号辨别处理(ST1)和噪声检测处理(ST2)之后再实施切换处理(ST3)。

而且，本发明中，输入信号辨别处理和噪声检测处理不限于同时被实施的情形，也可以先行实施其中任一处理。

·输入信号辨别处理

输入信号辨别处理(ST1)是对有无来自麦克风2的输入信号s1(DC信号s3)进行辨别的处理。

图6是示出输入信号辨别处理(ST1)的流程图。

本装置1利用输入信号辨别部20，对有无输入信号s1(DC信号s3)进行辨别。来自输入部10的DC信号s3被输入至输入信号辨别部20的第1比较部21。本装置1利用第1比较部21，对DC信号s3和第1阈值V1进行比较(ST101)。当DC信号s3大于等于第1阈值V1时(ST101的“是”)，本装置1辨别为有输入信号s1(有声)(ST102)。另一方面，当DC信号s3小于第1阈值V1时(ST101的“否”)，本装置1辨别为无输入信号s1(无声)(ST103)。辨别结果r1被从输入信号辨别部20输入至控制部60(ST104)。

如前所述，第1阈值V1是根据麦克风2所集音的环境音所对应的信号而设定的波动值。意即，当例如麦克风2所集音的声音是环境音时，本装置1辨别为无输入信号s1(无声)。另一方面，当例如麦克风2所集音的声音是语音或噪声时，本装置1辨别为有输入信号s1(有声)。

如上所述，本装置1将根据环境音设定的大于等于第1阈值V1的声音(语音、噪声)作为输入信号s1进行处理。另一方面，本装置1不将小于第1阈值V1的声音(语音、噪声)作为输入信号s1进行处理。意即，本装置1不将与环境音相当的声音(语音、噪声)作为本发明中的输入信号s1进行处理。

·噪声检测处理

噪声检测处理(ST2)是对滤波器信号s2(输入信号s1)所包含的噪声进行检测的处理。意即，噪声检测处理(ST2)是判定滤波器信号s2是语音信号还是噪声信号的处理。

图7为示出噪声检测处理(ST2)的流程图。

在从输入部10输入滤波器信号s2期间，本装置1实施频率成分辨别处理(ST201)和时间变化辨别处理(ST202)。

图8为示出频率成分辨别处理(ST201)的流程图。

频率成分辨别处理(ST201)是对从低频域到高频域具有同等功率谱的噪声进行检测的处理。本装置1利用频率成分辨别部31，实施频率成分辨别处理(ST201)。

首先，本装置1利用低通滤波器311，从滤波器信号s2中提取中低频信号(ST211)。然后，本装置1利用第1移动平均部312，将中低频信号转换为直流信号，从转换后的信号生成中低频信号功率谱(ST212)。

另一方面，本装置1利用高通滤波器313，从滤波器信号s2中提取中高频信号(ST213)。本装置1利用第2移动平均部314，将中高频信号转换为直流信号，从转换后的信号生成中高频信号功率谱(ST214)。

然后，本装置1利用相对比较部315，对中低频信号功率谱和中高频信号功率谱进行比较，计算得出其差异(ST215)。差异可以通过例如从中低频信号功率谱中减去中高频信号功率谱来计算得出。

然后，本装置1利用第2比较部316，将相对比较部315所计算得出的差异与第2阈值V2进行比较(ST216)。当差异小于等于第2阈值V2时(ST216的“是”)，本装置1将输入信号s1辨别为噪声信号(ST217)。另一方面，当差异大于第2阈值V2时(ST216的“否”)，本装置1将输入信号s1辨别为语音信号(ST218)。本装置1将频率成分辨别部31的辨别结果输入至逻辑或运算部33(ST219)。

图9为时间变化辨别处理(ST202)的流程图。

时间变化辨别处理(ST202)是对具有脉冲性质的功率谱的噪声进行检测的处理。本装置1利用时间变化辨别部32，实施时间变化辨别处理(ST202)。

首先，本装置1利用第3移动平均部321，将滤波器信号s2转换为直流信号，根据转换后的信号生成输入信号功率谱(ST221)。

然后，本装置1利用第3比较部322，对输入信号功率谱和第3阈值V3进行比较(ST222)。当输入信号功率谱大于等于第3阈值V3时(ST222的“是”)，本装置1利用时间变化计数部323，对超过了第3阈值V3的信号的时间轴波形中的时间变化进行计数(ST223)。另一方面，当输入信号功率谱小于第3阈值V3时(ST222的“否”)，本装置1将输入信号s1辨别为语音信号(ST226)。

然后，本装置1利用第4比较部324，对时间变化计数部323的计数值和第4阈值V4进行比较(ST224)。当计数值小于等于第4阈值V4时(ST224的“是”)，本装置1将输入信号s1辨别为噪声信号(ST225)。另一方面，当计数值大于第4阈值V4时(ST224的“否”)，本装置1将输入信号s1辨别为语音信号(ST226)。本装置1将时间变化辨别部32的辨别结果输入至逻辑或运算部33(ST227)。

回到图7。

本装置1利用逻辑或运算部33，对频率成分辨别处理(ST201)的辨别结果和时间变化辨别处理(ST202)的辨别结果进行逻辑或运算(ST203)。本装置1根据该逻辑或的运算结果对滤波器信号s2(输入信号s1)是噪声信号还是语音信号进行判定(ST204)。

在频率成分辨别处理(ST201)的辨别结果和时间变化辨别处理(ST202)的辨别结果中的任一辨别结果将输入信号s1辨别为噪声信号时(ST204的“是”)，本装置1将输入信号s1判定为噪声信号(ST205)。意即，噪声检测部30根据频率成分辨别部31的辨别结果和时间变化辨别部32的辨别结果的逻辑或运算结果，进行噪声的检测。另一方面，在频率成分辨别处理(ST201)的辨别结果和时间变化辨别处理(ST202)的辨别结果这两个辨别结果均将输入信号s1辨别为语音信号时(ST204的“否”)，本装置1将输入信号s1判定为语音信号(ST206)。

本装置1将噪声检测部30的检测结果r2输入至控制部60(ST207)。

·切换处理

回到图5。

切换处理(ST3)是根据来自输入信号辨别部20的辨别结果r1、和来自噪声检测部30的检测结果r2，生成控制信号cs1，对切换部50的信号切换部51和输出切换部52进行切换的处理。

图10为示出切换处理(ST3)中的部分处理的流程图。

首先，本装置1利用控制部60，对输出切换部52的状态是闸门打开(输出状态)还是闸门关闭(非输出状态)进行确认(ST301)。此时，输出切换部52的状态信号gs1被从切换部50输入至控制部60的逻辑与运算部61。当输出切换部52的状态为闸门关闭时(ST301的“否”)，本装置1根据输入信号辨别部20的辨别结果r1确认是否有输入信号s1(ST302)。

当有输入信号s1(有声)时(ST302的“是”)，本装置1根据噪声检测部30的检测结果r2对输入信号s1是语音信号还是噪声信号进行确认(ST303)。此时，噪声检测部30的检测结果信号r2s被输入至逻辑与运算部61。

当输入信号s1是语音信号时(ST303的“是”)，本装置1利用控制部60，生成控制信号cs1(将信号切换部51的接点P切换为接点P1，并将输出切换部52切换为闸门打开的控制信号cs1)(ST304)。本装置1将控制信号cs1从控制部60输入至切换部50，实施后述的处理(ST308)。因此，信号切换部51的接点P变为接点P1，输出切换部52变为闸门打开(静音关闭)。意即，延迟信号s4被从切换部50输入至输出部80。意即，本装置1将延迟信号s4作为输出信号输出。

当无输入信号s1(无声)时(ST302的“否”)，或者当输入信号s1为噪声信号时(ST303的“否”)，本装置1利用控制部60，生成控制信号cs1(将信号切换部51的接点P保持为接点P2，并将输出切换部52保持为闸门关闭的控制信号cs1)(ST305)。本装置1将控制信号cs1从控制部60输入至切换部50，回到处理(ST301)。其结果，信号切换部51的接点P变为接点P2，输出切换部52变为闸门关闭(静音打开)。意即，信号(输入信号s1或延迟信号s4)不会被从切换部50输入至输出部80。意即，本装置1不输出输出信号。

另一方面，当输出切换部52的状态为闸门打开时(ST301的“是”)，本装置1根据输入信号辨别部20的辨别结果对有无输入信号s1进行确认(ST306)。

当有输入信号s1(有声)时(ST306的“是”)，本装置1实施后述的处理(ST308)。

另一方面，当无输入信号s1(无声)时(ST306的“否”)，本装置1利用控制部60，生成控制信号cs1(将信号切换部51的接点P保持为接点P2，并将输出切换部52变为闸门关闭的控制信号cs1)(ST307)。本装置1将控制信号cs1从控制部60输入至切换部50，回到处理(ST301)。

图11为示出切换处理(ST3)中的另一部分处理的流程图。

该图示出切换处理(ST3)中的、输出切换部52的状态为闸门打开、且有输入信号s1时的处理。

然后，本装置1对输入信号s1所包含的促音或换气等短时间的无声时间进行检测。无声时间通过对例如表示无声的信号的上升沿(rising edges)进行检测来检测。表示无声的信号由输入信号辨别部20生成，与辨别结果r1一同被输入至控制部60。

本装置1利用控制部60，对来自输入信号辨别部20的表示无声的信号的上升沿进行检测(ST308)。本装置1检测到了表示无声的信号的上升沿时(ST308的“是”)，利用控制部60的计数部62，开始对无声时间的计数(ST309)。无声时间的计数延续至控制部60对来自输入信号辨别部20的表示无声的信号的下降沿进行检测为止(ST310的“否”)。

当控制部60检测到了表示无声的信号的下降沿时(ST310的“是”)，本装置1对无声时间是否大于等于规定的第5阈值V5进行确认(ST311)。“第5阈值V5”是用于对短时间的无声究竟是换气还是促音进行区分的阈值。意即，当无声时间大于等于第5阈值V5时，则短时间的无声是源于换气的无声。另一方面，当无声时间小于第5阈值V5时，则短时间的无声是源于促音的无声。第5阈值V5被设定为大于时间变化辨别处理(ST202)中的第4阈值V4的值。

当无声时间大于等于第5阈值V5时(ST311的“是”)，本装置1利用控制部60，生成控制信号cs1(将信号切换部51的接点P切换为接点P2，并将输出切换部52保持为闸门打开的控制信号cs1)(ST312)。然后，本装置1清除计数部62的计数，并结束计数部62的计数(ST313)，回到处理(ST301)。

另一方面，当无声时间小于第5阈值V5时(ST311的“否”)，本装置1清除计数部62的计数(ST314)，回到处理(ST308)。

如上所述，本装置1在检测到了换气等的无声时间时，将实时的输入信号s1输入至输出部80。另一方面，本装置1在未检测到该无声时间时，将延迟信号s4输入至输出部80。换言之，当输入信号辨别部20辨别为无声(无输入信号s1)时，若无声时间大于等于第5阈值V5，则信号切换部51将来自输入部10的输入信号s1输入至输出部80。意即，信号切换部51根据输入信号辨别部20的辨别结果r1，将延迟信号s4或输入信号s1中的任一信号输出至输出部80。

·控制部对输出切换部的切换的控制

如图10所示，控制部60对输出切换部52的切换的控制包含第1控制和第2控制。第1控制是基于输入信号辨别部20的辨别结果r1和噪声检测部30的检测结果r2的对切换的控制(参照ST301－ST305)。第2控制是基于输入信号辨别部20的辨别结果r1的对切换的控制(参照ST301，ST306，ST307)。

当输出切换部52的状态为闸门关闭时，本装置1选择第1控制。仅在输出切换部52的状态为闸门关闭、且噪声检测部30的检测结果r2为语音信号时，本装置1才将输出切换部52的状态切换为闸门打开。当输出切换部52的状态为闸门打开时，本装置1选择第2控制。如上所述，当输出切换部52的状态为闸门关闭时，本装置1根据输出切换部52的状态和噪声检测部30的检测结果r2的逻辑与运算结果，将输出切换部52的状态切换为闸门打开，选择第2控制。

此处，本装置1利用逻辑与运算部61，选择第1控制或第2控制中的任一控制。如前所述，检测结果信号r2s和状态信号gs1被输入至逻辑与运算部61。当输出切换部52的状态为闸门关闭时，逻辑与运算部61根据检测结果信号r2s和状态信号gs1的逻辑与运算结果，选择第1控制或第2控制中的任一控制。另一方面，当输出切换部52的状态为闸门打开时，逻辑与运算部61选择第2控制。意即，本装置1根据输出切换部52的状态，选择第1控制和第2控制中的任一控制。意即，当输出切换部52的状态为闸门关闭(非输出状态)时，本装置1选择第1控制，根据第1控制对输出切换部52的切换进行控制。另一方面，当输出切换部52的状态为闸门打开(输出状态)时，本装置1选择第2控制，根据第2控制对输出切换部52的切换进行控制。因此，即使在麦克风2的用户的发声过程中该麦克风2对噪声进行了集音，本装置1也不会对来自麦克风2的输入信号s1(或延迟信号s4)的输出进行阻断(闸门关闭)。

·总结

根据以上说明的实施方式，控制部60对输出切换部52的切换的控制包含第1控制和第2控制。当输出切换部52的状态为闸门关闭时，选择第1控制。因此，当输出切换部52的状态为闸门关闭时，本装置1若检测到噪声时会将输出切换部52的状态保持为闸门关闭。意即，本装置1不会将噪声误检为语音，不会因为误检而对来自麦克风2的信号的输出的切换进行控制。意即，本发明的语音信号处理装置在初始状态下，若输入语音信号则会输出延迟信号s4(静音关闭)，若输入噪声信号则不会输出信号(静音打开)。

另一方面，当输出切换部52的状态为闸门打开时，选择第2控制。因此，当输出切换部52的状态为闸门打开时，本装置1即使检测到了噪声也会将输出切换部52的状态保持为闸门打开。意即，在麦克风2的用户正在发声的状态(以下简称“发声状态”)下，即使该麦克风2对噪声进行了集音，本装置1也会输出来自该麦克风2的输入信号s1(或延迟信号s4)。意即，本装置1即使在语音信号的输出过程中检测到了噪声也不会对语音信号的输出进行阻断。

此外，根据以上说明的实施方式，控制部60具备逻辑与运算部61。本装置1利用逻辑与运算部61，对检测结果信号r2s和状态信号gs1进行逻辑与运算，根据该逻辑与的运算结果，选择第1控制或第2控制中的任一控制。因此，仅在输出切换部52的状态为闸门关闭、且噪声检测部30的检测结果r2为语音信号时，本装置1将输出切换部52的状态切换为闸门打开，选择第2控制。意即，本装置1在初始状态下，若输入语音信号则会输出语音信号(延迟信号s4)(静音关闭)，若输入噪声信号则不会输出信号(静音打开)。另一方面，本装置1在发声状态下即使检测到了噪声也会输出输入信号s1或延迟信号s4中的任一信号。意即，本装置1即使在语音信号的输出过程中检测到了噪声也不会对语音信号的输出进行阻断。

而且，根据以上说明的实施方式，输入信号辨别部20根据对环境音所对应的信号(第1阈值V1)和来自输入部10的输入信号s1(DC信号s3)进行比较的结果，对有无来自输入部10的输入信号s1进行辨别。因此，本装置1能够响应设置了本装置1的环境(例如，设置了该装置的房间有无空调或该房间的大小、麦克风2的增益值等)对有无输入信号s1进行辨别。

而且，根据以上说明的实施方式，噪声检测部30具备频率成分辨别部31和时间变化辨别部32，根据频率成分辨别部31和时间变化辨别部32的各自的辨别结果对噪声进行检测。因此，本装置1能够对波形呈各种形状的合成式噪声进行高精度的检测。

而且，本装置1在发声的提示讯号(cue)中输出延迟信号s4，在检测到换气等短时间的无声时间时输出实时的输入信号s1。意即，本装置1能够防止在由噪声检测部30实施的处理等中发生语音信号的所谓“开头缺失”。

而且，根据以上说明的实施方式，切换部50具备输出切换部52。或者作为替代方案，也可由输出部具备输出切换部。此时，对闸门打开和闸门关闭进行切换的控制信号被从控制部输入至输出部。

此外，本装置中，控制部的结构不限于本实施方式的结构。意即，例如，控制部也可由控制信号切换部的控制电路和控制输出切换部的控制电路构成。

而且，本装置也可具备多个输入部。意即，例如，本装置也可具备六个输入部(6个频道)，而对来自六个麦克风的输入信号进行处理。

而且，本装置也可根据连续的输入信号的间隔，对短时间的无声时间进行检测。意即，例如，本装置也可通过对某输入信号的下降沿进行检测来对无声时间进行计数，通过对下一输入信号的上升沿进行检测来结束对无声时间的计数。换言之，当输入信号辨别部辨别为无声(无输入信号)时，信号切换部在无声时间大于等于第5阈值时将来自输入部的输入信号输入至输出部，而在无声时间小于第5阈值时将来自延迟部的延迟信号输入至输出部。

Claims

1.一种语音信号处理装置，其特征在于，

具有：

输入部，其用于输入来自麦克风的信号；

输入信号辨别部，其用于辨别有无来自所述输入部的输入信号；

噪声检测部，其用于检测来自所述输入部的所述输入信号中所包含的噪声；

输出部，其用于将所述输入信号或使所述输入信号延迟后的延迟信号中的任一信号作为输出信号输出；

输出切换部，其用于在所述输出部输出所述输出信号的输出状态和所述输出部不输出所述输出信号的非输出状态之间进行切换；以及

控制部，其用于对所述输出切换部所进行的切换进行控制，

所述控制部对所述切换进行的控制包括：

第1控制，其根据所述输入信号辨别部的辨别结果和所述噪声检测部的检测结果，对所述切换进行控制；以及

第2控制，其根据所述输入信号辨别部的所述辨别结果对所述切换进行控制，

当所述输出切换部处于非输出状态时，所述控制部选择所述第1控制，

当所述输出切换部处于输出状态时，所述控制部选择所述第2控制。

2.根据权利要求1所述的语音信号处理装置，其特征在于，

所述控制部具备输入有检测结果信号和状态信号的逻辑与运算部，该检测结果信号示出所述噪声检测部的检测结果，该状态信号示出所述输出切换部的状态，

所述逻辑与运算部根据所述检测结果信号和所述状态信号的逻辑与运算结果，选择所述第1控制或所述第2控制中的任一控制。

3.根据权利要求1所述的语音信号处理装置，其特征在于，

所述麦克风收集设置有所述麦克风的场所的环境音，

所述输入信号辨别部根据所述环境音所对应的信号与来自所述输入部的所述输入信号之间的比较结果，辨别有无来自所述输入部的所述输入信号。

4.根据权利要求1所述的语音信号处理装置，其特征在于，所述噪声检测部检测到所述噪声时，所述输出部不输出所述输出信号。

5.根据权利要求1所述的语音信号处理装置，其特征在于，

所述噪声检测部具备：

频率成分辨别部，其用于根据所述输入信号的频率成分辨别有无所述噪声；以及

时间变化辨别部，其用于根据所述输入信号的时间变化辨别有无所述噪声，

所述噪声检测部根据所述频率成分辨别部的辨别结果和所述时间变化辨别部的辨别结果，检测所述噪声。

6.根据权利要求5所述的语音信号处理装置，其特征在于，

所述噪声检测部根据所述频率成分辨别部的辨别结果与所述时间变化辨别部的辨别结果的逻辑或运算结果，检测所述噪声。

7.根据权利要求1所述的语音信号处理装置，其特征在于，

具备：

延迟部，其用于使从所述输入部输入的所述输入信号延迟并输出所述延迟信号；以及

信号切换部，其用于供来自所述延迟部的所述延迟信号和来自所述输入部的所述输入信号输入、并输出所述延迟信号和所述输入信号中的任一信号，

所述输出部将从所述信号切换部输入的所述延迟信号或所述输入信号作为所述输出信号输出。

8.根据权利要求7所述的语音信号处理装置，其特征在于，

所述信号切换部根据所述输入信号辨别部的所述辨别结果将所述延迟信号或所述输入信号中的任一信号输入至所述输出部。

9.根据权利要求8所述的语音信号处理装置，其特征在于，当所述输入信号辨别部辨别出来自所述输入部的所述输入信号小于规定的阈值时，所述信号切换部将来自所述输入部的所述输入信号输入至所述输出部。