JP2014123011A - Noise detector, method, and program - Google Patents

Noise detector, method, and program Download PDF

Info

Publication number
JP2014123011A
JP2014123011A JP2012279013A JP2012279013A JP2014123011A JP 2014123011 A JP2014123011 A JP 2014123011A JP 2012279013 A JP2012279013 A JP 2012279013A JP 2012279013 A JP2012279013 A JP 2012279013A JP 2014123011 A JP2014123011 A JP 2014123011A
Authority
JP
Japan
Prior art keywords
feature
frequency
feature amount
noise
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012279013A
Other languages
Japanese (ja)
Inventor
Runyu Shi
潤宇 史
Hiroyuki Honma
弘幸 本間
Yuki Yamamoto
優樹 山本
Toru Chinen
徹 知念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012279013A priority Critical patent/JP2014123011A/en
Priority to US14/104,828 priority patent/US20140180682A1/en
Priority to CN201310683438.XA priority patent/CN103886870A/en
Publication of JP2014123011A publication Critical patent/JP2014123011A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

PROBLEM TO BE SOLVED: To detect various kinds of sudden noise without increasing processing loads of equipment.SOLUTION: A noise detector comprises: a feature variation calculation part which calculates feature variation which is variation of feature quantities between two temporally adjacent frames based on either feature quantities of amplitude feature quantities or frequency feature quantities held at a holding part which holds the amplitude feature quantities and the frequency feature quantities for a plurality of frames; a section specification part which specifies a section of frames in which weighting averaging of the amplitude feature quantities and the frequency feature quantities held at the holding part should be performed by comparing the feature variation with a preset threshold; a feature quantity set generation part which generates a set of weighting average values of each of the amplitude feature quantities and the frequency feature quantities corresponding to each of the frames of the specified section as a feature quantity set; and a noise determination part which determines whether or not the latest frame of an input signal is a frame including non-constant noise which is sudden noise based on the feature quantity set.

Description

本技術は、雑音検出装置および方法、並びに、プログラムに関し、特に、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにする雑音検出装置および方法、並びに、プログラムに関する。   The present technology relates to a noise detection apparatus and method, and a program, and in particular, a noise detection apparatus and method that can detect various sudden noises without increasing the processing load on the device, and Regarding the program.

ICレコーダ、スマートフォン、ビデオカメラなどの録音機器は、内蔵された小型のマイクロホンにより、周辺の音声を録音する。   Recording devices such as IC recorders, smartphones, and video cameras record surrounding sounds using a small built-in microphone.

このような録音機器で録音するときには、ユーザが操作ボタンなど用いて該録音機器を操作するときの操作音、または、録音機器から離隔した位置で発生したキーボードの操作音などが、雑音として録音音声に混入してしまう。   When recording with such a recording device, the operation sound when the user operates the recording device using the operation buttons or the operation sound of the keyboard generated at a position separated from the recording device is recorded as noise. It will be mixed.

そこで、録音機器において、録音時に雑音として混入する離隔した位置で発生したキーボードの操作音のような特殊な雑音を検出及び低減するための技術が提案されている(例えば、特許文献1参照。)。   Therefore, a technique has been proposed for detecting and reducing special noise such as keyboard operation sounds generated at remote positions mixed as noise during recording in a recording device (see, for example, Patent Document 1). .

特許文献1の雑音検出方法では、主として、録音機器から離隔した位置で発生したキーボードの操作音を検出対象としている。   In the noise detection method of Patent Document 1, a keyboard operation sound generated at a position separated from a recording device is mainly detected.

キーボードの操作音は、一般的に、録音された音声信号上で継続時間が比較的に長いパルス状の雑音信号の集合として現れる。このため、継続時間が比較的に長いパルス状の雑音信号の振幅値(信号レベル)を閾値と比較したり、音声信号には殆どない高周波数域成分を閾値と比較することで、操作音による雑音を容易に検出することが可能である。   The operation sound of the keyboard generally appears as a set of pulsed noise signals having a relatively long duration on the recorded voice signal. For this reason, the amplitude value (signal level) of a pulse-like noise signal having a relatively long duration is compared with a threshold value, or a high frequency region component that is hardly present in an audio signal is compared with a threshold value. Noise can be easily detected.

また、入力信号が音声(例えば、会話など)であるか非音声であるかを判定する技術も提案されている(例えば、特許文献2参照)。例えば、特許文献2の技術を利用して非音声と判定したフレームが雑音として認識されるようにすることも可能である。   In addition, a technique for determining whether an input signal is voice (for example, conversation) or non-voice has been proposed (see, for example, Patent Document 2). For example, it is possible to recognize a frame determined as non-speech using the technique of Patent Document 2 as noise.

特開2012−027186号公報JP 2012-027186 A 特開2009−251134号公報JP 2009-251134 A

しかしながら、録音機器により録音された雑音は、必ずしもキーボードの操作音のような、周波数特徴がパルス信号に似る信号ではなく、多人数の大爆笑や、擦り音など特殊な周波数特徴を持つ突発性の雑音も多く発生している。このような雑音は、例えば、特許文献1などの従来の技術により検出することが困難であった。   However, the noise recorded by the recording device is not necessarily a signal whose frequency characteristic resembles a pulse signal, such as the operation sound of a keyboard. There is a lot of noise. Such noise has been difficult to detect by conventional techniques such as Patent Document 1, for example.

また、録音機器により録音された突発性の雑音の多く(例えば、長時間の拍手、咳、くしゃみ)は、継続時間が安定せず、分散の大きいほぼ予測不能な値となるため、特許文献1の技術に係る雑音検出方式の1つである減衰特徴量を用いた検出方式により検出することも困難であった。   Further, many of the sudden noises recorded by the recording device (for example, long-time applause, cough, sneeze) are unstable in duration and become a value with a large variance that is almost unpredictable. It is also difficult to detect by the detection method using the attenuation feature amount, which is one of the noise detection methods according to the above technique.

さらに、特許文献1の技術のような減衰特徴量を用いた検出方式では、比較的に長い時間範囲で信号を分析しているため、その時間範囲分の遅延が生じるという問題があった。   Furthermore, in the detection method using the attenuation feature amount as in the technique of Patent Document 1, since the signal is analyzed in a relatively long time range, there is a problem that a delay corresponding to the time range occurs.

また、特許文献2の技術は、あくまで入力信号が音声であるかどうかを判断する手法であり、雑音の検出を目的としていない。例えば、特許文献2の技術を利用して雑音検出を行なったとしても、その雑音が突発性雑音であるか否かを判断することはできない。   Moreover, the technique of patent document 2 is a method of determining whether an input signal is a voice to the last, and does not aim at the detection of noise. For example, even if noise detection is performed using the technique of Patent Document 2, it cannot be determined whether or not the noise is sudden noise.

また、特許文献2記載の方式は、計算が複雑であり、例えば、モバイル機器に実装することが難しいと考えられる。   Further, the method described in Patent Document 2 is complicated in calculation, and is considered difficult to implement in, for example, a mobile device.

本技術はこのような状況に鑑みて開示するものであり、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにするものである。   The present technology is disclosed in view of such a situation, and allows various sudden noises to be detected without increasing the processing load of the device.

本技術の一側面は、音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置である。   One aspect of the present technology is an amplitude feature amount calculation unit that calculates an amplitude feature amount in a waveform of a predetermined frame of an audio input signal; a frequency feature amount calculation unit that calculates a frequency feature amount in the waveform of the predetermined frame; , The amplitude feature quantity and the frequency feature quantity are temporally adjacent based on any one of the amplitude feature quantity and the frequency feature quantity held in a holding unit that holds a plurality of frames. A feature change amount calculation unit that calculates a feature change amount that is a change amount of the feature amount between two frames, and a feature change amount that is held in the holding unit by comparing the feature change amount with a preset threshold value. A section identifying unit that identifies a section of a frame that is a weighted average of the amplitude feature quantity and the frequency feature quantity, and that is identified in time. A feature value set generation unit that generates a set of weighted average values of the amplitude feature value and the frequency feature value corresponding to each of the frames in the section as a feature value set; and the input based on the feature value set The noise detection apparatus includes a noise determination unit that determines whether or not a latest frame of a signal is a frame including non-stationary noise that is sudden noise.

前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも2種類の振幅特徴量を計算し、前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のRSM値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備えるようにすることができる。   The amplitude feature amount calculation unit or the frequency feature amount calculation unit calculates at least two types of amplitude feature amounts among a plurality of types of amplitude feature amounts or a plurality of types of frequency feature amounts, and outputs the input signal of the predetermined frame. Based on the zero-crossing rate, the average value of the plurality of sample values of the input signal of the predetermined frame, or the RSM value of the plurality of sample values of the input signal of the predetermined frame, among a plurality of types of amplitude feature quantities, A feature quantity selection unit that selects an amplitude feature quantity to be calculated by the amplitude feature quantity calculation unit or a frequency feature quantity to be calculated by the frequency feature quantity calculation unit among a plurality of types of frequency feature quantities is further provided. Can do.

前記特徴量選択部は、前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択するようにすることができる。   The feature amount selection unit determines whether the input signal of the predetermined frame is close to a vowel or a consonant based on a zero-crossing rate of the input signal of the predetermined frame, and the amplitude according to the determination result The frequency feature quantity to be calculated by the frequency feature quantity calculation section can be selected from among the amplitude feature quantity to be calculated by the feature quantity calculation section and a plurality of types of frequency feature quantities.

前記振幅特徴量計算部は、前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のRMS値のうちの、少なくとも1つを前記振幅特徴量として計算し、前記周波数特徴量計算部は、前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値若しくは複数の値のうちの、少なくとも1つを前記周波数特徴量として計算するようにすることができる。   The amplitude feature amount calculation unit includes a peak value among a plurality of sample values of the predetermined frame, an average value of the plurality of sample values of the predetermined frame, or an RMS value of the plurality of sample values of the predetermined frame At least one of them as the amplitude feature amount, and the frequency feature amount calculation unit calculates a zero crossing rate of the input signal of the predetermined frame and all frequency components in the input signal of the predetermined frame. The ratio of the sound pressure of the specific frequency component to the sound pressure of the specific frequency component, the ratio of the sound pressure of the specific frequency component to the sound pressure of the frequency component different from the specific frequency component in the input signal of the predetermined frame, or At least one of a specific value or a plurality of values in a frequency spectrum obtained by Fourier transform of the input signal of the predetermined frame is the frequency characteristic. It can be made to calculate a.

前記雑音判定部は、前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第1の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第2の値との割合を算出し、前記算出された割合に基づいて、雑音尤度を算出し、前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定するようにすることができる。   The noise determination unit includes a ratio between a weighted average value of the amplitude feature value included in the feature value set and a preset first value, and a weighted average value of the frequency feature value. 2 is calculated, a noise likelihood is calculated based on the calculated ratio, and the noise likelihood is compared with a preset threshold value, thereby obtaining the latest frame of the input signal. It can be determined whether or not the frame includes the non-stationary noise.

前記雑音判定部は、前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定するようにすることができる。
The noise determination unit is based on an identification model learned in advance in a feature vector space using a part or all of a weighted average value of amplitude feature amounts and a weighted average value of frequency feature amounts included in the feature amount set. Then, from the feature vector corresponding to the feature amount set, a noise likelihood representing the certainty that the frame is a non-stationary noise frame is calculated,
By comparing the noise likelihood with a preset threshold value, it can be determined whether or not the latest frame of the input signal is a frame including the non-stationary noise.

前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備えるようにすることができる。   A frequency characteristic correction unit that corrects a frequency characteristic of a signal input device that supplies the input signal may be further provided.

前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備えるようにすることができる。   A stationary noise removing unit that removes stationary noise that is different from the non-stationary noise from the input signal may be further provided.

本技術の一側面は、振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップを含む雑音検出方法である。   In one aspect of the present technology, the amplitude feature amount calculation unit calculates an amplitude feature amount in a waveform of a predetermined frame of an audio input signal, and the frequency feature amount calculation unit calculates a frequency feature amount in the waveform of the predetermined frame. The feature change amount calculating unit calculates any one of the amplitude feature amount and the frequency feature amount held in the holding unit that holds the amplitude feature amount and the frequency feature amount for a plurality of frames. And calculating a feature change amount that is a change amount of the feature amount between two temporally adjacent frames, and the section specifying unit compares the feature change amount with a preset threshold value. A frame interval in which the amplitude feature value and the frequency feature value held in the holding unit are to be weighted and averaged, and a frame segment that is temporally continuous is specified, A unit generates a set of weighted average values of the amplitude feature amount and the frequency feature amount corresponding to each of the frames in the specified section as a feature amount set, and a noise determination unit includes the feature amount set. And determining whether the latest frame of the input signal is a frame including non-stationary noise, which is sudden noise.

本技術の一側面は、コンピュータを、音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させるプログラムである。   One aspect of the present technology provides an amplitude feature amount calculation unit that calculates an amplitude feature amount in a waveform of a predetermined frame of an audio input signal, and a frequency feature amount that calculates a frequency feature amount in the waveform of the predetermined frame. Based on any one of the amplitude feature quantity and the frequency feature quantity held in the calculation section and the holding section that holds the amplitude feature quantity and the frequency feature quantity for a plurality of frames. A feature change amount calculation unit that calculates a feature change amount that is a change amount of the feature amount between two adjacent frames, and the holding unit by comparing the feature change amount with a preset threshold value. A section specifying unit that specifies a section of frames in which the amplitude feature quantity and the frequency feature quantity that are held are to be weighted and averaged and that is continuous in time A feature value set generation unit that generates a set of weighted average values of the amplitude feature value and the frequency feature value corresponding to each of the frames in the specified section as a feature value set; and Based on this, the program is made to function as a noise detection device including a noise determination unit that determines whether or not the latest frame of the input signal is a frame including non-stationary noise that is sudden noise.

本技術の一側面においては、音声の入力信号の所定のフレームの波形における振幅特徴量が計算され、前記所定のフレームの波形における周波数特徴量が計算され、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量が計算され、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間が特定され、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合が、特徴量集合として生成され、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かが判定される。   In one aspect of the present technology, an amplitude feature amount in a waveform of a predetermined frame of an audio input signal is calculated, a frequency feature amount in the waveform of the predetermined frame is calculated, and the amplitude feature amount and the frequency feature amount are calculated. A change in the feature amount between two temporally adjacent frames based on any one of the amplitude feature amount and the frequency feature amount held in the holding unit that holds a plurality of frames. A feature change amount that is a quantity is calculated, and the feature change amount is compared with a preset threshold value, whereby the amplitude feature amount and the frequency feature amount held in the holding unit are weighted and averaged. Sections of frames that are temporally continuous, are specified, and the amplitude feature amount corresponding to each of the frames of the specified section and the A set of weighted average values of wave number feature quantities is generated as a feature quantity set, and based on the feature quantity set, a frame including non-stationary noise in which the latest frame of the input signal is abrupt noise. It is determined whether or not there is.

本技術によれば、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができる。   According to the present technology, various sudden noises can be detected without increasing the processing load on the device.

本技術の一実施の形態に係る雑音検出装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the noise detection apparatus which concerns on one embodiment of this technique. 信号入力部の周波数特性曲線と、周波数特性線形平均の関係を示す図である。It is a figure which shows the relationship between the frequency characteristic curve of a signal input part, and a frequency characteristic linear average. 図1のフレーム統合部の詳細な構成例を示すブロック図である。It is a block diagram which shows the detailed structural example of the frame integration part of FIG. 入力信号の波形、振幅特徴量の変化を示す波形、および特徴変化量の変化を示す波形の図である。It is a figure of the waveform which shows the waveform of an input signal, the waveform which shows the change of an amplitude feature-value, and the change of a feature-change amount. 図1の雑音検出装置による雑音検出処理の例を説明するフローチャートである。It is a flowchart explaining the example of the noise detection process by the noise detection apparatus of FIG. 図5の統合処理の詳細な例を説明するフローチャートである。It is a flowchart explaining the detailed example of the integration process of FIG. 本技術を適用した雑音検出装置の別の実施の形態に係る構成例を示すブロック図である。It is a block diagram which shows the structural example which concerns on another embodiment of the noise detection apparatus to which this technique is applied. 図7の特徴量選択部の詳細な構成例を示すブロック図である。It is a block diagram which shows the detailed structural example of the feature-value selection part of FIG. 咳と母音および咳と子音の周波数特性の比較の一例を示す図である。It is a figure which shows an example of the comparison of the frequency characteristic of a cough and a vowel, and a cough and a consonant. 音声信号におけるゼロ交差率の分布の一例を示す図である。It is a figure which shows an example of distribution of the zero crossing rate in an audio | voice signal. 本技術を適用した雑音検出装置のさらに別の実施の形態に係る構成例を示すブロック図である。It is a block diagram which shows the structural example which concerns on another embodiment of the noise detection apparatus to which this technique is applied. パーソナルコンピュータの構成例を示すブロック図である。And FIG. 16 is a block diagram illustrating a configuration example of a personal computer.

以下、図面を参照して、ここで開示する技術の実施の形態について説明する。   Hereinafter, embodiments of the technology disclosed herein will be described with reference to the drawings.

図1は、本技術の一実施の形態に係る雑音検出装置の構成例を示すブロック図である。同図に示される雑音検出装置100は、例えば、周囲の音声に含まれる突発性の雑音(非定常性雑音とも称する)を検出するようになされている。ここで、突発性の雑音は、例えば、長時間の拍手、咳、くしゃみなどの音とされる。   FIG. 1 is a block diagram illustrating a configuration example of a noise detection device according to an embodiment of the present technology. The noise detection apparatus 100 shown in the figure is configured to detect, for example, sudden noise (also referred to as non-stationary noise) included in surrounding sounds. Here, sudden noise is, for example, sounds such as long applause, coughing, and sneezing.

図1に示されるように、雑音検出装置100は、周波数特性補正部101、定常性雑音軽減部102、振幅特徴量計算部104、周波数特徴量計算部105、フレーム統合部106、尤度計算部107、および、雑音検出部108により構成されている。   As shown in FIG. 1, the noise detection apparatus 100 includes a frequency characteristic correction unit 101, a stationary noise reduction unit 102, an amplitude feature amount calculation unit 104, a frequency feature amount calculation unit 105, a frame integration unit 106, and a likelihood calculation unit. 107 and a noise detection unit 108.

また、雑音検出装置100には信号入力部51が接続され、さらに信号処理装置52が接続されている。   Further, a signal input unit 51 is connected to the noise detection device 100, and a signal processing device 52 is further connected.

信号入力部51は、周囲の音声を集音マイク、マイクから入力された音声信号を主制御装置から与えられる増幅率で増幅するアンプ、および、アンプから供給されたアナログ信号をデジタル信号に変換するAD変換器を有する構成とされる。   The signal input unit 51 converts a surrounding sound into a sound collecting microphone, an amplifier that amplifies a sound signal input from the microphone with an amplification factor given from the main control device, and converts an analog signal supplied from the amplifier into a digital signal. An AD converter is included.

なお、近年では、アンプおよびAD変換器(DA変換器を含む場合もある)が一体化されたモジュールが普及しており、信号入力部51の内部にこのようなモジュールが設けられるようにしてもよい。また、信号入力部51は、記録媒体(例えば、ハードディスク、CD、半導体メモリなど)から直接デジタル音声信号を読み込む機能を有するものとされるようにしてもよい。   In recent years, a module in which an amplifier and an AD converter (including a DA converter may be integrated) has become widespread, and such a module may be provided inside the signal input unit 51. Good. The signal input unit 51 may have a function of directly reading a digital audio signal from a recording medium (for example, hard disk, CD, semiconductor memory, etc.).

周波数特性補正部101は、例えば、信号入力部51の固有周波数特性Fid(n)を補間するフィルタを有する構成とされる。すなわち、信号入力部51から供給されたデジタル信号が、信号入力部51の固有周波数特性に影響されないようにするため、上述したフィルタにより、入力信号から信号入力部51の固有周波数特性の影響が除去される。なお、周波数特性補正部101の処理の詳細については後述する。 For example, the frequency characteristic correction unit 101 includes a filter that interpolates the natural frequency characteristic F id (n) of the signal input unit 51. That is, in order to prevent the digital signal supplied from the signal input unit 51 from being affected by the natural frequency characteristic of the signal input unit 51, the above-described filter removes the influence of the natural frequency characteristic of the signal input unit 51 from the input signal. Is done. Details of the processing of the frequency characteristic correction unit 101 will be described later.

周波数特性補正部101は、信号入力部51の固有周波数特性の影響が除去された信号を定常性雑音軽減部に供給する。   The frequency characteristic correction unit 101 supplies the signal from which the influence of the natural frequency characteristic of the signal input unit 51 is removed to the stationary noise reduction unit.

定常性雑音軽減部102では、定常性雑音のレベルが算出される。ここで、定常性雑音は、デジタル信号に含まれた周波数特徴および振幅特徴が長い時間区間で変化しない雑音を意味する。例えば、雑音検出装置100、信号入力部51、または信号処理装置52の駆動音、会議室内の空調の音などが定常性雑音とされる。   The stationary noise reduction unit 102 calculates the stationary noise level. Here, stationary noise means noise in which frequency characteristics and amplitude characteristics included in a digital signal do not change in a long time interval. For example, the driving noise of the noise detection device 100, the signal input unit 51, or the signal processing device 52, the sound of air conditioning in the conference room, and the like are stationary noise.

定常性雑音軽減部102では、計算したレベルの定常性雑音成分を、入力信号から取り除いた後、振幅特徴量計算部104および周波数特徴量計算部105に供給する。定常性雑音の軽減は、例えば、一般的に用いられているノイズリダクションの方式などが採用されるようにしてもよいし、その他の方式が採用されるようにしてもよい。   The stationary noise reduction unit 102 removes the calculated level of stationary noise component from the input signal, and then supplies it to the amplitude feature amount calculation unit 104 and the frequency feature amount calculation unit 105. For reducing stationary noise, for example, a commonly used noise reduction method may be employed, or other methods may be employed.

振幅特徴量計算部104では、定常性雑音軽減部102から供給された入力信号から1以上の振幅特徴量を計算し、フレーム統合部106へ供給する。この振幅特徴量の詳細については後述する。   The amplitude feature amount calculation unit 104 calculates one or more amplitude feature amounts from the input signal supplied from the stationary noise reduction unit 102 and supplies the calculated amount to the frame integration unit 106. Details of the amplitude feature amount will be described later.

周波数特徴量計算部105では、定常性雑音軽減部102から供給された入力信号から1以上の周波数特徴量を計算し、フレーム統合部106へ供給する。この周波数特徴量の詳細については後述する。   The frequency feature amount calculation unit 105 calculates one or more frequency feature amounts from the input signal supplied from the stationary noise reduction unit 102 and supplies the calculated frequency feature amount to the frame integration unit 106. Details of the frequency feature amount will be described later.

フレーム統合部106では、振幅特徴量計算部104と周波数特徴量計算部105から供給されたフレーム毎に計算された振幅特徴量および周波数特徴量を、所定数フレーム分収集し、1の特徴量集合F_packとして統合する。なお、統合方式の詳細については後述する。特徴量集合F_packは、尤度計算部107に供給される。   The frame integration unit 106 collects a predetermined number of amplitude feature amounts and frequency feature amounts calculated for each frame supplied from the amplitude feature amount calculation unit 104 and the frequency feature amount calculation unit 105, and collects one feature amount set. Integrate as F_pack. Details of the integration method will be described later. The feature value set F_pack is supplied to the likelihood calculating unit 107.

尤度計算部107は、フレーム統合部106で統合された特徴量集合F_packに含まれる特徴量のそれぞれについて、予め定めた閾値との割合を算出する。そして、尤度計算部107は、算出した割合に基づいて、特徴量集合F_packの特徴量毎の雑音尤度を推定し、推定した特徴量毎の雑音尤度の重み付け平均値を入力信号の雑音尤度として算出する。算出された雑音尤度は、雑音検出部108に供給される。なお、雑音尤度の算出方式の詳細については後述する。   The likelihood calculation unit 107 calculates a ratio of each feature amount included in the feature amount set F_pack integrated by the frame integration unit 106 to a predetermined threshold value. Then, the likelihood calculating unit 107 estimates the noise likelihood for each feature amount of the feature amount set F_pack based on the calculated ratio, and calculates the weighted average value of the noise likelihood for each estimated feature amount as the noise of the input signal. Calculated as likelihood. The calculated noise likelihood is supplied to the noise detection unit 108. Details of the noise likelihood calculation method will be described later.

雑音検出部108では、尤度計算部107から供給された入力信号の雑音尤度を予め定めた閾値と比較し、入力信号が非定常性雑音かどうかを判定する。雑音検出部108による判定結果は、雑音検出装置100による最終的な検出結果として信号処理装置52に出力される。   The noise detection unit 108 compares the noise likelihood of the input signal supplied from the likelihood calculation unit 107 with a predetermined threshold value, and determines whether or not the input signal is nonstationary noise. The determination result by the noise detection unit 108 is output to the signal processing device 52 as the final detection result by the noise detection device 100.

信号処理装置52では、雑音検出部108から出力された検出結果を利用した信号処理を行う。また、信号処理装置52には、必要に応じて音声信号を記録する記録部が設けられ、例えば、ハードディスク、CD、半導体メモリなどの記録媒体に音声信号を記録するようになされている。   The signal processing device 52 performs signal processing using the detection result output from the noise detection unit 108. Further, the signal processing device 52 is provided with a recording unit that records an audio signal as necessary, and for example, the audio signal is recorded on a recording medium such as a hard disk, a CD, or a semiconductor memory.

具体的には、信号処理装置52では、例えば、雑音検出部108から出力された検出結果を利用して、入力信号の音声部分だけに適応した録音感度の算出を行う。例えば、雑音を含んだ周囲の音声の中から、雑音を除いた音声を録音するために適した録音感度を算出する。   Specifically, in the signal processing device 52, for example, using the detection result output from the noise detection unit 108, the recording sensitivity adapted to only the audio portion of the input signal is calculated. For example, a recording sensitivity suitable for recording a sound excluding noise from surrounding sounds including noise is calculated.

また、信号処理装置52では、雑音検出部108から出力された検出結果を利用した適応処理を行う。例えば、信号処理装置52では、検出結果を利用して、雑音を軽減する処理を実行する。   Further, the signal processing device 52 performs adaptive processing using the detection result output from the noise detection unit 108. For example, the signal processing device 52 uses the detection result to execute a process for reducing noise.

あるいはまた、信号処理装置52では、検出結果を利用して、雑音の種類(咳、くしゃみ、笑い声など)を知り、その雑音の種類から、入力信号の録音環境を推定し、その情報をフィードバックするようにしてもよい。例えば、雑音の種類が咳である場合、録音環境にいる人の健康状況が良くない旨を表す情報をフィードバックし、雑音の種類がくしゃみである場合、その場の空気が清潔ではない旨を表す情報をフィードバックし、雑音の種類が笑い声である場合、発言が面白い旨の情報をフィードバックするなどしてもよい。   Alternatively, the signal processing device 52 knows the type of noise (cough, sneeze, laughter, etc.) using the detection result, estimates the recording environment of the input signal from the type of noise, and feeds back the information. You may do it. For example, if the noise type is cough, information indicating that the health condition of the person in the recording environment is not good is fed back, and if the noise type is sneeze, the air in the place is not clean. When information is fed back and the type of noise is laughter, information indicating that the speech is interesting may be fed back.

次に、周波数特性補正部101の処理の詳細について説明する。周波数特性補正部101は、信号入力部51から、フレームnに対応する入力信号S(n)を取得する。ここで、入力信号S(n)は、式(1)のように定義する。   Next, details of the processing of the frequency characteristic correction unit 101 will be described. The frequency characteristic correction unit 101 acquires an input signal S (n) corresponding to the frame n from the signal input unit 51. Here, the input signal S (n) is defined as in Expression (1).

Figure 2014123011
Figure 2014123011

式(1)において、Lは、AD変換におけるサンプリングの結果得られるサンプル値であって、1つのフレームに含まれるサンプル値の数を表すものとし、式(1)により第n番目のフレームに含まれるサンプル値の集合が得られるものとする。   In Expression (1), L is a sample value obtained as a result of sampling in AD conversion, and represents the number of sample values included in one frame, and is included in the nth frame according to Expression (1). A set of sample values to be obtained shall be obtained.

そして、周波数特性補正部101は、予め測定して得られた信号入力部51の固有周波数特性Fid(n)に基づいて、固有周波数特性Fid(n)を補正するフィルタHidを生成し、入力信号S(n)を、フィルタHidによって処理することで、入力信号S(n)から固有周波数特性Fid(n)を除去するように補正する。 Then, the frequency characteristic correction unit 101 generates a filter H id for correcting the natural frequency characteristic F id (n) based on the natural frequency characteristic F id (n) of the signal input unit 51 obtained by measurement in advance. The input signal S (n) is processed by the filter H id so as to correct the natural frequency characteristic F id (n) from the input signal S (n).

図2は、縦軸を音圧、横軸を周波数とし、信号入力部51の固有周波数特性を表す周波数特性曲線と、理想的な周波数特性である周波数特性線形平均の関係を示す図である。図2に示されるように、周波数特性曲線は、周波数が3kHz,7kHz,11kHz,15kHz付近で、それぞれ−6dB,+11dB,+8dB,―15dBだけ周波数特性線形平均と異なっている。この場合、周波数が3kHz,7kHz,11kHz,15kHz付近で、それぞれ+6dB,―11dB,−8dB,+15dBだけ補正するHidを生成することにより、入力信号S(n)から固有周波数特性Fid(n)を除去するように補正することが可能となる。 FIG. 2 is a diagram illustrating a relationship between a frequency characteristic curve representing a natural frequency characteristic of the signal input unit 51 and a frequency characteristic linear average that is an ideal frequency characteristic, with the vertical axis representing sound pressure and the horizontal axis representing frequency. As shown in FIG. 2, the frequency characteristic curve differs from the frequency characteristic linear average by −6 dB, +11 dB, +8 dB, and −15 dB, respectively, when the frequency is around 3 kHz, 7 kHz, 11 kHz, and 15 kHz. In this case, the frequency is 3 kHz, 7 kHz, 11 kHz, in the vicinity of 15 kHz, respectively + 6dB, -11dB, -8dB, + 15dB by only generate H id to correct natural frequency characteristic from the input signal S (n) F id (n ) Can be corrected to be removed.

なお、図2において抽出された周波数である3kHz,7kHz,11kHz,15kHz付近は、例えば、音圧が周波数特性線形平均から最も離れており、補正が必要となる周波数として選択された周波数とされる。   Note that, in the vicinity of 3 kHz, 7 kHz, 11 kHz, and 15 kHz, which are the frequencies extracted in FIG. 2, for example, the sound pressure is farthest from the frequency characteristic linear average, and is selected as a frequency that needs to be corrected. .

あるいはまた、周波数特性補正部101は、信号入力部51の固有周波数特性Fid(n)に応じたマッピングテーブルを生成し、後述する振幅特徴量の算出および周波数特徴量の算出の際に、そのマッピングテーブルを振幅特徴量計算部104および周波数特徴量計算部105に供給するようにしてもよい。例えば、周波数が3kHz,7kHz,11kHz,15kHz付近で、それぞれ+6dB,―11dB,−8dB,+15dBだけ音圧を付加する旨を表す情報をマッピングテーブルとし、振幅特徴量計算部104および周波数特徴量計算部105に供給する。 Alternatively, the frequency characteristic correction unit 101 generates a mapping table corresponding to the natural frequency characteristic F id (n) of the signal input unit 51, and when calculating the amplitude feature amount and the frequency feature amount, which will be described later, The mapping table may be supplied to the amplitude feature quantity calculation unit 104 and the frequency feature quantity calculation unit 105. For example, when the frequency is around 3 kHz, 7 kHz, 11 kHz, and 15 kHz, information indicating that sound pressure is added by +6 dB, −11 dB, −8 dB, and +15 dB is used as a mapping table, and the amplitude feature amount calculation unit 104 and the frequency feature amount calculation are performed. To the unit 105.

なお、定常性雑音軽減部102においても、周波数特性補正部101と同様にマッピングテーブルを作成し、定常性雑音が軽減されるようにしてもよい。   Note that the stationary noise reduction unit 102 may also create a mapping table in the same manner as the frequency characteristic correction unit 101 to reduce the stationary noise.

次に、振幅特徴量の詳細について説明する。   Next, details of the amplitude feature amount will be described.

振幅特徴量計算部104では、入力信号S(n)の振幅特性を解析し、フレームnの振幅特性を表す振幅特徴量を算出する。ここでは、フレームnの振幅特徴量として、E(n)、E(n)、およびE(n)を算出するものとする。 The amplitude feature quantity calculation unit 104 analyzes the amplitude characteristic of the input signal S (n) and calculates an amplitude feature quantity representing the amplitude characteristic of the frame n. Here, it is assumed that E 1 (n), E 2 (n), and E 3 (n) are calculated as the amplitude feature quantities of the frame n.

(n)は、フレームnに含まれるL個のサンプル値のピーク値を表す振幅特徴量であって、式(2)により算出される。 E 1 (n) is an amplitude feature amount representing the peak value of the L sample values included in the frame n, and is calculated by Expression (2).

Figure 2014123011
Figure 2014123011

(n)は、フレームnに含まれるL個のサンプル値の平均値を表す振幅特徴量であって、式(3)により算出される。 E 2 (n) is an amplitude feature amount that represents an average value of L sample values included in the frame n, and is calculated by Expression (3).

Figure 2014123011
Figure 2014123011

(n)は、フレームnに含まれるL個のサンプル値のRMS(Root Mean Square)値を表す振幅特徴量であって、式(4)により算出される。 E 3 (n) is an amplitude feature amount representing an RMS (Root Mean Square) value of L sample values included in the frame n, and is calculated by Expression (4).

Figure 2014123011
Figure 2014123011

なお、式(3)および式(4)においては、サンプル値の線形平均を算出する例を示したが、例えば、サンプル値の対数平均、または、サンプル値の線形平均と対数平均を重み付けして加算することにより得られた値などを用いるようにしてもよい。   In addition, in Formula (3) and Formula (4), the example which calculates the linear average of a sample value was shown, For example, weighting the logarithmic average of a sample value, or the linear average and logarithmic average of a sample value A value obtained by addition may be used.

さらに、E(n)、E(n)、およびE(n)を算出する前に、入力信号S(n)をハイパスフィルタによって処理し、入力信号に含まれるDC成分のノイズが除去されるようにしてもよい。 Further, before calculating E 1 (n), E 2 (n), and E 3 (n), the input signal S (n) is processed by a high-pass filter to remove DC component noise contained in the input signal. You may be made to do.

なお、上述したE(n)、E(n)、およびE(n)以外の振幅特徴量が算出されるようにしてもよい。 Note that amplitude feature quantities other than E 1 (n), E 2 (n), and E 3 (n) described above may be calculated.

次に、周波数特徴量の詳細について説明する。   Next, details of the frequency feature amount will be described.

周波数特徴量計算部105では、入力信号S(n)の周波数特性を解析し、フレームnの周波数特性を表す周波数特徴量を算出する。ここでは、フレームnの周波数特徴量として、F(n)、F(n)、F(n)、およびF(n)を算出するものとする。 The frequency feature amount calculation unit 105 analyzes the frequency characteristic of the input signal S (n) and calculates a frequency feature amount representing the frequency characteristic of the frame n. Here, F 1 (n), F 2 (n), F 3 (n), and F 4 (n) are calculated as the frequency feature quantities of the frame n.

(n)は、入力信号のゼロ交差率を表す特徴量であって、式(5)により算出される。 F 1 (n) is a feature amount that represents the zero-crossing rate of the input signal, and is calculated by Expression (5).

Figure 2014123011
Figure 2014123011

式(5)におけるsymbol(i)は、式(6)により表される。   Symbol (i) in equation (5) is expressed by equation (6).

Figure 2014123011
Figure 2014123011

(n)は、入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合を表す特徴量であって、式(7)により算出される。 F 2 (n) is a feature amount that represents the ratio of the sound pressure of a specific frequency component to the sound pressure of all frequency components in the input signal, and is calculated by Expression (7).

Figure 2014123011
Figure 2014123011

式(7)におけるE(n)は、式(4)により算出されるE(n)とされる。 Equation (7) E 3 (n) in is E 3 and (n) calculated by the equation (4).

また、式(7)に示されるSigbpf_1(i)、Sigbpf_2(i)、・・・は、式(8)により算出される。 Also, Sig bpf_1 (i), Sig bpf_2 (i),... Shown in Expression (7) are calculated by Expression (8).

Figure 2014123011
Figure 2014123011

なお、式(8)におけるFbpf_m(h)は、第m番目の周波数成分を抽出するためのフィルタの係数を表すものとする。 Note that F bpf_m (h) in equation (8) represents a filter coefficient for extracting the m-th frequency component.

(n)は、入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合を表す特徴量であって、式(9)により算出される。 F 3 (n) is a feature amount that represents the ratio of the sound pressure of the specific frequency component to the sound pressure of the frequency component different from the specific frequency component in the input signal, and is calculated by Expression (9). The

Figure 2014123011
Figure 2014123011

式(9)に示されるbpfa1_rms(n)、bpfa2_rms(n)、bpfb1_rms(n)、bpfb2_rms(n)、・・・のそれぞれは、式(7)の分子として示されたbpf1rms(n)、bpf2rms(n)、・・・と同様にして算出される。ただし、bpfa1_rms(n)、bpfa2_rms(n)、bpfb1_rms(n)、bpfb2_rms(n)、・・・を算出する場合、それぞれの周波数成分に対応するFbpf_m(h)が用いられるものとする。 Each of bpf a1_rms (n), bpf a2_rms (n), bpf b1_rms (n), bpf b2_rms (n), shown in equation (9) is bpf1 rms shown as a numerator of equation (7) (N), bpf2 rms (n),... However, when calculating bpf a1_rms (n), bpf a2_rms (n), bpf b1_rms (n), bpf b2_rms (n),..., F bpf_m (h) corresponding to each frequency component is used. And

(n)は、入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値または複数の値から成る特徴量であって、式(10)により算出される。 F 4 (n) is a feature quantity composed of a specific value or a plurality of values in the frequency spectrum obtained by Fourier transform of the input signal, and is calculated by Expression (10).

Figure 2014123011
Figure 2014123011

なお、F(n)、F(n)、F(n)、およびF(n)を算出する前に、入力信号S(n)をハイパスフィルタによって処理し、入力信号に含まれるDC成分のノイズが除去されるようにしてもよい。 Before calculating F 1 (n), F 2 (n), F 3 (n), and F 4 (n), the input signal S (n) is processed by a high-pass filter and included in the input signal. DC component noise may be removed.

ここでは、振幅特徴量計算部104がE(n)、E(n)、およびE(n)を算出し、周波数特徴量計算部105がF(n)、F(n)、F(n)、およびF(n)を算出すると説明した。しかし、振幅特徴量計算部104がE(n)、E(n)、およびE(n)のうち、いずれか1つまたは2つを算出し、周波数特徴量計算部105がF(n)、F(n)、F(n)、およびF(n)のうち、いずれか1つ乃至3つを算出するようにしてもよい。 Here, the amplitude feature quantity calculation unit 104 calculates E 1 (n), E 2 (n), and E 3 (n), and the frequency feature quantity calculation unit 105 calculates F 1 (n), F 2 (n). , F 3 (n), and F 4 (n) are calculated. However, the amplitude feature amount calculation unit 104 calculates one or two of E 1 (n), E 2 (n), and E 3 (n), and the frequency feature amount calculation unit 105 calculates F 1. Any one to three of (n), F 2 (n), F 3 (n), and F 4 (n) may be calculated.

なお、上述したF(n)、F(n)、F(n)、およびF(n)以外の周波数特徴量が算出されるようにしてもよい。 Note that frequency feature quantities other than F 1 (n), F 2 (n), F 3 (n), and F 4 (n) described above may be calculated.

次に、フレーム統合部106による統合方式の詳細について説明する。   Next, details of the integration method by the frame integration unit 106 will be described.

図3は、フレーム統合部106の詳細な構成例を示す図である。同図に示されるように、フレーム統合部106は、特徴保持部121、統合対象判定部122、重み計算部123、および統合部124により構成されている。   FIG. 3 is a diagram illustrating a detailed configuration example of the frame integration unit 106. As shown in the figure, the frame integration unit 106 includes a feature holding unit 121, an integration target determination unit 122, a weight calculation unit 123, and an integration unit 124.

特徴保持部121は、振幅特徴量計算部104から供給される振幅特徴量および周波数特徴量計算部105から供給される周波数特徴量を、過去の所定数のフレーム分(例えば、aフレーム分)だけ保持する。   The feature holding unit 121 applies the amplitude feature amount supplied from the amplitude feature amount calculation unit 104 and the frequency feature amount supplied from the frequency feature amount calculation unit 105 to the past predetermined number of frames (for example, a frame). Hold.

統合対象判定部122は、特徴保持部121に保持された振幅特徴量または周波数特徴量を用いて統合対象となるフレームを次のようにして判定する。   The integration target determination unit 122 determines the frame to be integrated using the amplitude feature quantity or the frequency feature quantity held in the feature holding unit 121 as follows.

統合対象判定部122では、特徴保持部121に保持されている振幅特徴量または周波数特徴量のうちいずれか1つの特徴量Fを用いて、この特徴量のフレーム間の特徴量の変化を表す特徴変化量F_diffを算出する。 The integration target determination unit 122 represents a change in the feature value between frames of the feature value using any one feature value F d of the amplitude feature value or the frequency feature value held in the feature holding unit 121. A feature change amount F d _diff is calculated.

例えば、特徴保持部121に、E(n)、E(n)、E(n)、F(n)、F(n)、F(n)、およびF(n)が保持されている場合、E(n)を用いて、i−1番目のフレームの振幅特徴量E(i−1)と、i番目のフレームの振幅特徴量E(i)の変化を表す特徴変化量F_diffを算出する。 For example, the feature holding unit 121 may include E 1 (n), E 2 (n), E 3 (n), F 1 (n), F 2 (n), F 3 (n), and F 4 (n). Is maintained, E 3 (n) is used to change the amplitude feature quantity E 3 (i−1) of the (i−1) th frame and the amplitude feature quantity E 3 (i) of the i th frame. The feature change amount F d _diff representing is calculated.

特徴変化量F_diffは、式(11)により算出される。 The feature change amount F d _diff is calculated by Expression (11).

Figure 2014123011
Figure 2014123011

統合対象判定部122は、特徴保持部121に保持されている全フレーム分の特徴量を用いて各フレーム間の特徴変化量を順次算出する。そして、算出された特徴変化量をそれぞれ予め設定された閾値F_diff_thと比較する。過去のフレームにおいて、最初に特徴変化量F_diffが閾値F_diff_thを超えたフレームを統合対象開始フレームとし、統合対象開始フレームから現在のフレームnまでのフレーム(例えば、bフレーム)の振幅特徴量と周波数特徴量を統合対象として判定する。この判定結果は、重み計算部163に供給される。 The integration target determination unit 122 sequentially calculates the feature change amount between the frames using the feature amounts for all the frames held in the feature holding unit 121. Then, the calculated feature change amount is compared with a preset threshold value F d _diff_th. In a past frame, a frame in which the feature change amount F d _diff first exceeds the threshold value F d _diff_th is set as an integration target start frame, and amplitude characteristics of frames (for example, b frame) from the integration target start frame to the current frame n The quantity and the frequency feature quantity are determined as integration targets. The determination result is supplied to the weight calculation unit 163.

図4を参照してさらに詳細に説明する。図4は、横軸がフレームとされ、図中上から順番に、入力信号の波形、入力信号から算出された振幅特徴量の変化を示す波形、および振幅特徴量に基づいて算出された特徴変化量の変化を示す波形がそれぞれ示されている。図4の場合、例えば、会議の音声の中に咳の音が混入しているものとする。   This will be described in more detail with reference to FIG. In FIG. 4, the horizontal axis is a frame, and in order from the top in the figure, the waveform of the input signal, the waveform indicating the change in the amplitude feature amount calculated from the input signal, and the feature change calculated based on the amplitude feature amount Each of the waveforms showing the change in quantity is shown. In the case of FIG. 4, for example, it is assumed that a coughing sound is mixed in the audio of the meeting.

いま、現在のフレームが第460番目のフレームとされ、特徴保持部121には、第441番目のフレーム乃至第460番目のフレームの20フレーム分の振幅特徴量と周波数特徴量が保持されているものとする。   Now, the current frame is the 460th frame, and the feature holding unit 121 holds amplitude feature amounts and frequency feature amounts for 20 frames from the 441th frame to the 460th frame. And

図4の例では、20フレーム分の振幅特徴量の中で、第452番目のフレームに対応する特徴変化量が最初に閾値F_diff_th(=1.2)を超えている。従って、第452番目のフレームが統合対象開始フレームとされ、第460番目のフレームまでの9フレームが統合対象とされることになる。 In the example of FIG. 4, the feature change amount corresponding to the 452nd frame among the amplitude feature amounts for 20 frames first exceeds the threshold value F d _diff_th (= 1.2). Therefore, the 452nd frame is the integration target start frame, and the nine frames up to the 460th frame are the integration target.

このようにして統合対象となるフレームが判定される。   In this way, a frame to be integrated is determined.

重み計算部163は、特徴保持部121に保持されている特徴量のうちの1つの特徴量Fを用いて、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの差または比に基づいて重みを計算する。第i番目のフレームの重みW(i)は、式(12)または式(13)により計算される。 Weight calculator 163 uses the one feature F w of the feature amounts stored in the feature storage 121, the feature amount F of other frames as a feature amount F w of the current frame and the integration target The weight is calculated based on the difference or ratio with w . The weight W (i) of the i-th frame is calculated by Expression (12) or Expression (13).

Figure 2014123011
Figure 2014123011

Figure 2014123011
Figure 2014123011

なお、式(12)は、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの差に基づいて重みを計算する場合の式を示しており、式(13)は、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの比に基づいて重みを計算する場合の式を示している。 Note that Equation (12) shows the expression in the case of calculating the weight based on a difference between the feature amount F w of other frames as a feature amount F w of the current frame and integration target, the formula (13 ) shows a formula when calculating the weight based on the ratio between the characteristic amount F w of other frames as a feature amount F w of the current frame and integration target.

なお、重み計算部163が用いる特徴量Fは、統合対象判定部122が用いる特徴量Fと同じであってもよいし、異なってもよい。 Note that the feature value F w used by the weight calculation unit 163 may be the same as or different from the feature value F d used by the integration target determination unit 122.

重み計算部163で計算された重みは、統合部124に供給される。   The weight calculated by the weight calculation unit 163 is supplied to the integration unit 124.

統合部124は、重み計算部163から供給された重みを用いて振幅特徴量の重み付け平均値Es(n)を式(14)により計算する。   The integration unit 124 uses the weight supplied from the weight calculation unit 163 to calculate the weighted average value Es (n) of the amplitude feature amount using Expression (14).

Figure 2014123011
Figure 2014123011

式(14)において、nは現在のフレームを表しており、bは統合対象となったフレーム数を表している。また、上述したように、複数の振幅特徴量(例えば、E(n)、E(n)、およびE(n))が特徴保持部121に保持されている場合、式(14)におけるE(n)を、E(n)、E(n)、およびE(n)のそれぞれとし、振幅特徴量の、重み付け平均値Es(n)乃至重み付け平均値Es(n)がそれぞれ算出される。 In Expression (14), n represents the current frame, and b represents the number of frames targeted for integration. In addition, as described above, when a plurality of amplitude feature quantities (for example, E 1 (n), E 2 (n), and E 3 (n)) are held in the feature holding unit 121, Expression (14) E (n) in E 2 is E 1 (n), E 2 (n), and E 3 (n), respectively, and the weighted average value Es 1 (n) to weighted average value Es 3 (n ) Are respectively calculated.

また、統合部124は、重み計算部163から供給された重みを用いて周波数特徴量の重み付け平均値Fs(n)を式(15)により計算する。   Further, the integration unit 124 calculates the weighted average value Fs (n) of the frequency feature amount by using the weight supplied from the weight calculation unit 163 according to Expression (15).

Figure 2014123011
Figure 2014123011

式(15)において、nは現在のフレームを表しており、bは統合対象となったフレーム数を表している。また、上述したように、複数の周波数特徴量(例えば、F(n)、F(n)、F(n)、およびF(n))が特徴保持部121に保持されている場合、式(14)におけるF(n)を、F(n)、F(n)、F(n)、およびF(n)のそれぞれとし、周波数特徴量の重み付け平均値Fs(n)乃至Fs(n)がそれぞれ算出される。 In equation (15), n represents the current frame, and b represents the number of frames targeted for integration. Further, as described above, a plurality of frequency feature quantities (for example, F 1 (n), F 2 (n), F 3 (n), and F 4 (n)) are held in the feature holding unit 121. In this case, F (n) in Expression (14) is set to F 1 (n), F 2 (n), F 3 (n), and F 4 (n), respectively, and the weighted average value Fs 1 of the frequency feature amount (N) to Fs 4 (n) are respectively calculated.

そして、統合部124は、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)の集合を特徴量集合F_packとして尤度計算部107に供給する。   Then, the integrating unit 124 supplies a set of the weighted average value Es (n) of the amplitude feature quantity and the weighted average value Fs (n) of the frequency feature quantity to the likelihood calculating unit 107 as a feature quantity set F_pack.

なお、フレーム統合部106に、重み計算部163が含まれないようにし、統合部124では、統合対象判定部122で判定した統合対象のフレームの振幅特徴量と周波数特徴量の単純平均のセットを統合して特徴量集合F_packを生成するようにしてもよい。   The frame integration unit 106 does not include the weight calculation unit 163, and the integration unit 124 sets a simple average set of the amplitude feature amount and the frequency feature amount of the integration target frame determined by the integration target determination unit 122. The feature amount set F_pack may be generated by integration.

また、フレーム統合部106に、統合対象判定部162が含まれないようにし、重み計算部123では、特徴保持部121で保持した全フレームの重みを計算し、統合部124では、全フレームの振幅特徴量と周波数特徴量の重み付け平均の集合を統合した特徴量集合F_packを生成するようにしてもよい。   Further, the integration unit determining unit 162 is not included in the frame integration unit 106, the weight calculation unit 123 calculates the weights of all frames held by the feature holding unit 121, and the integration unit 124 calculates the amplitudes of all frames. You may make it produce | generate the feature-value set F_pack which integrated the set of the weighted average of a feature-value and a frequency feature-value.

さらに、フレーム統合部106に、統合対象判定部162および重み計算部163が含まれないようにし、統合部124では、特徴保持部121で保持した全フレームの振幅特徴量と周波数特徴量の単純な平均値のセットを特徴量集合F_packとして生成するようにしてもよい。   Furthermore, the integration unit determination unit 162 and the weight calculation unit 163 are not included in the frame integration unit 106, and the integration unit 124 simply calculates the amplitude feature amounts and frequency feature amounts of all frames held by the feature holding unit 121. A set of average values may be generated as a feature value set F_pack.

尤度計算部107は、フレーム統合部106で統合された特徴量集合F_packに含まれる特徴量のそれぞれについて、予め定めた閾値との割合を算出する。   The likelihood calculation unit 107 calculates a ratio of each feature amount included in the feature amount set F_pack integrated by the frame integration unit 106 to a predetermined threshold value.

例えば、振幅特徴量に対応する閾値E_thと周波数特徴量に対応する閾値F_thが予め定められている。   For example, a threshold value E_th corresponding to the amplitude feature value and a threshold value F_th corresponding to the frequency feature value are determined in advance.

尤度計算部107は、特徴量集合F_packに含まれる振幅特徴量の重み付け平均値についての閾値E_thの割合R(n)を式(16)により計算する。 The likelihood calculating unit 107 calculates the ratio R E (n) of the threshold value E_th with respect to the weighted average value of the amplitude feature amount included in the feature amount set F_pack, using Expression (16).

Figure 2014123011
Figure 2014123011

また、尤度計算部107は、特徴量集合F_packに含まれる周波数特徴量の重み付け平均値についての閾値F_thの割合R(n)を式(17)により計算する。 In addition, the likelihood calculating unit 107 calculates the ratio R F (n) of the threshold value F_th with respect to the weighted average value of the frequency feature amounts included in the feature amount set F_pack, using Expression (17).

Figure 2014123011
Figure 2014123011

そして、尤度計算部107は、割合R(n)と割合R(n)のそれぞれに、予め定められた重みAと重みAを乗じて、重み付け加算値を算出する。この重み付け加算値は、式(18)により算出され、入力信号の第n番目のフレームに対応する雑音尤度R(n)として雑音検出部108に供給される。 The likelihood calculating unit 107 calculates a weighted addition value by multiplying each of the ratio R E (n) and the ratio R F (n) by a predetermined weight A E and weight A F. This weighted addition value is calculated by Expression (18), and is supplied to the noise detection unit 108 as the noise likelihood R (n) corresponding to the nth frame of the input signal.

Figure 2014123011
Figure 2014123011

雑音検出部108は、尤度計算部107から供給された入力信号の雑音尤度を予め定めた閾値と比較し、入力信号の第n番目のフレームが非定常性雑音のフレームであるか否かを判定する。例えば、非定常性雑音を判定するための雑音尤度閾値R_thが予め定められており、雑音尤度R(n)が雑音尤度閾値R_thより大きい場合、入力信号の第n番目のフレームが非定常性雑音のフレームであると判定する。一方、雑音尤度R(n)が雑音尤度閾値R_th以下である場合、入力信号の第n番目のフレームが非定常性雑音のフレームではないと判定する。   The noise detection unit 108 compares the noise likelihood of the input signal supplied from the likelihood calculation unit 107 with a predetermined threshold value, and determines whether or not the nth frame of the input signal is a frame of nonstationary noise. Determine. For example, when the noise likelihood threshold R_th for determining non-stationary noise is determined in advance and the noise likelihood R (n) is larger than the noise likelihood threshold R_th, the nth frame of the input signal is not non-stationary. It is determined that the frame is stationary noise. On the other hand, when the noise likelihood R (n) is equal to or less than the noise likelihood threshold R_th, it is determined that the nth frame of the input signal is not a frame of nonstationary noise.

このようにして、非定常性雑音が検出される。本技術では、上述したように、少なくとも1つの振幅特徴量、および、少なくとも1つの周波数特徴量を用いて非定常性雑音であるか否かの判定が行われるようにしたので、非定常性雑音をより精度高く検出することができる。   In this way, non-stationary noise is detected. In the present technology, as described above, since it is determined whether or not it is non-stationary noise using at least one amplitude feature quantity and at least one frequency feature quantity, non-stationary noise is determined. Can be detected with higher accuracy.

また、フレーム統合部106において、統合対象のフレームが特定されるので、特徴量集合F_packに含まれる特徴量の計算の負荷を軽減することができる。これにより、例えば、小型の省電力機器などにも、雑音検出装置100を搭載することが可能となる。   In addition, since the frame to be integrated is specified in the frame integration unit 106, it is possible to reduce the calculation load of the feature amount included in the feature amount set F_pack. Thereby, for example, the noise detection apparatus 100 can be mounted on a small power-saving device.

さらに、雑音尤度閾値を、咳を検出するための専用の雑音尤度閾値とすることで、咳のみを非定常性雑音として判定することができ、拍手を検出するための専用の雑音尤度閾値とすることで、拍手のみを非定常性雑音として判定することができる。このように、本技術では、雑音尤度閾値を適切に設定することにより、非定常性雑音の種類を特定することも可能となる。   Furthermore, by setting the noise likelihood threshold as a dedicated noise likelihood threshold for detecting cough, it is possible to determine only cough as non-stationary noise, and a dedicated noise likelihood for detecting applause. By setting the threshold value, only applause can be determined as non-stationary noise. Thus, in the present technology, it is possible to specify the type of non-stationary noise by appropriately setting the noise likelihood threshold.

上述した例では、尤度計算部107が、予め設定された振幅特徴量に対応する閾値E_thと周波数特徴量に対応する閾値F_thとに基づく閾値比較を行い、式(16)乃至式(18)の計算を行って雑音尤度を計算するものとした。   In the example described above, the likelihood calculating unit 107 performs threshold comparison based on the threshold E_th corresponding to the preset amplitude feature quantity and the threshold F_th corresponding to the frequency feature quantity, and Expressions (16) to (18) are performed. The noise likelihood was calculated by performing the above calculation.

しかしながら、例えば、尤度計算部107が、予め学習した識別モデルMを用いて特徴量集合F_packから雑音尤度を計算するようにしてもよい。この場合、識別モデルMとして、例えば、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、サポートベクターマシン(SVM)などを採用することができる。   However, for example, the likelihood calculating unit 107 may calculate the noise likelihood from the feature amount set F_pack using the identification model M learned in advance. In this case, for example, a Gaussian mixture model (GMM), a hidden Markov model (HMM), a support vector machine (SVM), or the like can be adopted as the identification model M.

すなわち、特徴量集合F_packに含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いて特徴ベクトル空間が生成される。そして、尤度計算部107が、前記特徴ベクトル空間において予め学習した識別モデルに基づいて、特徴量集合F_packに対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームであることの確からしさを表す雑音尤度を算出する。   That is, a feature vector space is generated using part or all of the weighted average value of amplitude feature values and the weighted average value of frequency feature values included in the feature value set F_pack. Based on the identification model learned in advance in the feature vector space, the likelihood calculation unit 107 determines the certainty that the frame is a frame of nonstationary noise from the feature vector corresponding to the feature amount set F_pack. The noise likelihood to represent is calculated.

なお、これらの識別モデルを用いた尤度の算出方式については従来より一般に採用されているものと同様である。   Note that the likelihood calculation method using these identification models is the same as that generally employed conventionally.

次に、図5のフローチャートを参照して、雑音検出装置100による雑音検出処理の例について説明する。   Next, an example of noise detection processing by the noise detection apparatus 100 will be described with reference to the flowchart of FIG.

ステップS21において、周波数特性補正部101は、信号入力部51から出力される入力信号S(n)を取得する。   In step S <b> 21, the frequency characteristic correction unit 101 acquires the input signal S (n) output from the signal input unit 51.

ステップS22において、周波数特性補正部101は、信号入力部51の固有周波数特性Fid(n)を補正する。このとき、例えば、図2を参照して上述したような固有周波数特性が補正され、入力信号から信号入力部51の固有周波数特性の影響が除去される。 In step S < b > 22, the frequency characteristic correction unit 101 corrects the natural frequency characteristic F id (n) of the signal input unit 51. At this time, for example, the natural frequency characteristic as described above with reference to FIG. 2 is corrected, and the influence of the natural frequency characteristic of the signal input unit 51 is removed from the input signal.

ステップS23において、定常性雑音軽減部102は、定常性雑音を除去する。これにより、例えば、雑音検出装置100、信号入力部51、または信号処理装置52の駆動音、会議室内の空調の音などが除去される。   In step S23, the stationary noise reduction unit 102 removes stationary noise. Thereby, for example, the driving sound of the noise detection device 100, the signal input unit 51, or the signal processing device 52, the sound of air conditioning in the conference room, and the like are removed.

ステップS24において、振幅特徴量計算部104は、定常性雑音軽減部102から供給された入力信号から振幅特徴量を計算する。このとき、フレームnの振幅特徴量として、上述したE(n)、E(n)、およびE(n)の少なくとも1つが算出される。 In step S <b> 24, the amplitude feature amount calculation unit 104 calculates the amplitude feature amount from the input signal supplied from the stationary noise reduction unit 102. At this time, at least one of E 1 (n), E 2 (n), and E 3 (n) described above is calculated as the amplitude feature quantity of frame n.

ステップS25において、周波数特徴量計算部105は、定常性雑音軽減部102から供給された入力信号から周波数特徴量を計算する。このとき、フレームnの周波数特徴量として、上述したF(n)、F(n)、F(n)、およびF(n)の少なくとも1つが算出される。 In step S <b> 25, the frequency feature amount calculation unit 105 calculates a frequency feature amount from the input signal supplied from the stationary noise reduction unit 102. At this time, at least one of the above-described F 1 (n), F 2 (n), F 3 (n), and F 4 (n) is calculated as the frequency feature amount of the frame n.

ステップS26において、フレーム統合部106は、図6を参照して後述する統合処理を実行する。これにより、ステップS24の処理で計算された振幅特徴量、および、ステップS25の処理で計算された周波数特徴量が、所定数フレーム分統合され、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)が算出される。そして、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)の集合が特徴量集合F_packとして出力される。   In step S26, the frame integration unit 106 executes integration processing to be described later with reference to FIG. As a result, the amplitude feature quantity calculated in the process of step S24 and the frequency feature quantity calculated in the process of step S25 are integrated for a predetermined number of frames, and the weighted average value Es (n) and the frequency of the amplitude feature quantity are integrated. A weighted average value Fs (n) of feature amounts is calculated. A set of the weighted average value Es (n) of the amplitude feature quantity and the weighted average value Fs (n) of the frequency feature quantity is output as a feature quantity set F_pack.

ステップS27において、尤度計算部107は、入力信号の雑音尤度を計算する。このとき、上述したように、特徴量集合F_packに含まれる特徴量のそれぞれについて、振幅特徴量に対応する閾値E_thと周波数特徴量に対応する閾値F_thとの割合が算出される。そして、割合R(n)と割合R(n)のそれぞれに、予め定められた重みAと重みAを乗じて、重み付け加算値が算出され、入力信号の第n番目のフレームに対応する雑音尤度R(n)とされる。 In step S27, the likelihood calculation unit 107 calculates the noise likelihood of the input signal. At this time, as described above, the ratio of the threshold value E_th corresponding to the amplitude feature value and the threshold value F_th corresponding to the frequency feature value is calculated for each feature value included in the feature value set F_pack. Then, each of the ratio R E (n) and the ratio R F (n) is multiplied by a predetermined weight A E and weight A F to calculate a weighted addition value, and the nth frame of the input signal is calculated. The corresponding noise likelihood is R (n).

ステップS28において、雑音検出部108は、雑音尤度R(n)が雑音尤度閾値R_thより大きいか否かを判定する。   In step S28, the noise detection unit 108 determines whether or not the noise likelihood R (n) is larger than the noise likelihood threshold R_th.

ステップS28において、雑音尤度R(n)が雑音尤度閾値R_thより大きいと判定された場合、処理は、ステップS29に進む。   In Step S28, when it is determined that the noise likelihood R (n) is larger than the noise likelihood threshold R_th, the process proceeds to Step S29.

ステップS29において、雑音検出部108は、入力信号の第n番目のフレームが非定常性雑音のフレームであると判定する。   In step S29, the noise detection unit 108 determines that the nth frame of the input signal is a frame of nonstationary noise.

一方、ステップS28において、雑音尤度R(n)が雑音尤度閾値R_thより大きくないと判定された場合、処理は、ステップS30に進む。   On the other hand, when it is determined in step S28 that the noise likelihood R (n) is not larger than the noise likelihood threshold R_th, the process proceeds to step S30.

ステップS30において、雑音検出部108は、入力信号の第n番目のフレームが非定常性雑音のフレームではないと判定する。   In step S30, the noise detection unit 108 determines that the nth frame of the input signal is not a non-stationary noise frame.

このようにして雑音検出処理が実行される。   In this way, the noise detection process is executed.

次に、図6のフローチャートを参照して、図5のステップS26の統合処理の詳細な例について説明する。   Next, a detailed example of the integration process in step S26 in FIG. 5 will be described with reference to the flowchart in FIG.

ステップS51において、統合対象判定部122は、特徴保持部121に保持されている振幅特徴量と周波数特徴量を取得する。   In step S <b> 51, the integration target determination unit 122 acquires the amplitude feature quantity and the frequency feature quantity held in the feature holding unit 121.

ステップS52において、統合対象判定部122は、ステップS51で取得した振幅特徴量または周波数特徴量のうちいずれか1つの特徴量Fを用いて、この特徴量のフレーム間の特徴量の変化を表す特徴変化量F_diffを算出する。なお、特徴変化量F_diffは、特徴保持部121に保持されている振幅特徴量と周波数特徴量に対応する全フレーム分算出される。 In step S52, the integration target determination unit 122, using any one of the feature amount F d of the amplitude characteristic quantity or frequency feature amount acquired in step S51, indicating a change in the characteristic amount between the feature quantity of the frame A feature change amount F d _diff is calculated. The feature change amount F d _diff is calculated for all the frames corresponding to the amplitude feature amount and the frequency feature amount held in the feature holding unit 121.

例えば、特徴保持部121に、E(n)、E(n)、E(n)、F(n)、F(n)、F(n)、およびF(n)が保持されている場合、E(n)を用いて、i−1番目のフレームの振幅特徴量E(i−1)と、i番目のフレームの振幅特徴量E(i)の変化を表す特徴変化量F_diff(i)が算出される。 For example, the feature holding unit 121 may include E 1 (n), E 2 (n), E 3 (n), F 1 (n), F 2 (n), F 3 (n), and F 4 (n). Is maintained, E 3 (n) is used to change the amplitude feature quantity E 3 (i−1) of the (i−1) th frame and the amplitude feature quantity E 3 (i) of the i th frame. A feature change amount F d _diff (i) representing is calculated.

ステップS53において、統合対象判定部122は、変数iに現在のフレームを表す番号nをセットする。   In step S53, the integration target determination unit 122 sets a number n representing the current frame to the variable i.

ステップS54において、統合対象判定部122は、特徴変化量F_diff(i)を予め設定された閾値F_diff_thと比較し、特徴変化量F_diff(i)が閾値F_diff_thを超えたか否かを判定する。 In step S54, the integration target determining unit 122 compares the feature change amount F d _diff (i) with a preset threshold value F d _diff_th, and whether the feature change amount F d _diff (i) exceeds the threshold value F d _diff_th. Determine whether or not.

ステップS54において、特徴変化量F_diff(i)が閾値F_diff_thを超えていないと判定された場合、処理は、ステップS55に進む。 If it is determined in step S54 that the feature change amount F d _diff (i) does not exceed the threshold value F d _diff_th, the process proceeds to step S55.

ステップS55において、変数iがデクリメントされ、処理は、ステップS54に戻る。   In step S55, the variable i is decremented, and the process returns to step S54.

一方、ステップS54において、特徴変化量F_diff(i)が閾値F_diff_thを超えたと判定された場合、処理は、ステップS56に進む。 On the other hand, when it is determined in step S54 that the feature change amount F d _diff (i) exceeds the threshold value F d _diff_th, the process proceeds to step S56.

ステップS56において、統合対象判定部122は、i番目のフレーム(iフレーム)からn番目のフレーム(nフレーム)までを統合対象として判定する。いまの場合、iフレームが統合対象開始フレームとされたことになる。   In step S56, the integration target determination unit 122 determines the i-th frame (i frame) to the n-th frame (n frame) as integration targets. In this case, the i frame is the integration target start frame.

ステップS57において、重み計算部163は、特徴保持部121に保持されている特徴量のうちの1つの特徴量Fを用い、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの差または比に基づいて重みを計算する。なお、重み計算部163が用いる特徴量Fは、統合対象判定部122が用いる特徴量Fと同じであってもよいし、異なってもよい。 In step S57, the weight calculation section 163, using a single feature value F w of the feature amounts stored in the feature storage 121, the current frame feature value F w integrated subject to other frames calculating a weighting based on the difference or ratio between the characteristic amount F w. Note that the feature value F w used by the weight calculation unit 163 may be the same as or different from the feature value F d used by the integration target determination unit 122.

重み計算部163で計算された重みは、統合部124に供給される。   The weight calculated by the weight calculation unit 163 is supplied to the integration unit 124.

統合部124は、重み計算部163から供給された重みを用いて振幅特徴量の重み付け平均値Es(n)を式(14)により計算する。   The integration unit 124 uses the weight supplied from the weight calculation unit 163 to calculate the weighted average value Es (n) of the amplitude feature amount using Expression (14).

ステップS58において、統合部124は、ステップS57の処理で計算された重みを用いて振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)を計算する。   In step S58, the integration unit 124 calculates the weighted average value Es (n) of the amplitude feature quantity and the weighted average value Fs (n) of the frequency feature quantity using the weight calculated in the process of step S57.

ステップS59において、統合部124は、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)の集合を特徴量集合F_packとして生成する。   In step S59, the integration unit 124 generates a set of the weighted average value Es (n) of the amplitude feature quantity and the weighted average value Fs (n) of the frequency feature quantity as the feature quantity set F_pack.

このようにして、統合処理が実行される。   In this way, the integration process is executed.

図7は、本技術を適用した雑音検出装置100の別の実施の形態に係る構成例を示すブロック図である。図7の構成における雑音検出装置100には、図1の場合とは異なり、特徴量選択部103が設けられている。図7の雑音検出装置100のそれ以外の構成は、図1の場合と同様である。   FIG. 7 is a block diagram illustrating a configuration example according to another embodiment of the noise detection apparatus 100 to which the present technology is applied. Unlike the case of FIG. 1, the noise detection device 100 in the configuration of FIG. 7 includes a feature amount selection unit 103. The other configuration of the noise detection apparatus 100 of FIG. 7 is the same as that of FIG.

特徴量選択部103は、定常性雑音軽減部102の処理を経て出力される入力信号に基づいて、振幅特徴量計算部104が計算すべき振幅特徴量、および、周波数特徴量計算部105が計算すべき周波数特徴量を特定する。これにより、振幅特徴量計算部104および周波数特徴量計算部105の計算負荷を軽減することができる。   The feature quantity selection unit 103 calculates the amplitude feature quantity to be calculated by the amplitude feature quantity calculation unit 104 and the frequency feature quantity calculation unit 105 based on the input signal output through the processing of the stationary noise reduction unit 102. Specify the frequency feature to be used. Thereby, the calculation load of the amplitude feature quantity calculation unit 104 and the frequency feature quantity calculation unit 105 can be reduced.

図8は、特徴量選択部103の詳細な構成例を示すブロック図である。同図に示されるように、特徴量選択部103は、特徴計算部131、特徴判定部132、および、選択情報出力部133により構成されている。   FIG. 8 is a block diagram illustrating a detailed configuration example of the feature amount selection unit 103. As shown in the figure, the feature amount selection unit 103 includes a feature calculation unit 131, a feature determination unit 132, and a selection information output unit 133.

特徴計算部131は、入力信号の特徴量を計算し、特徴判定部132に供給する。特徴計算部131により計算される特徴量は、例えば、上述した上述した振幅特徴量である、E(n)、E(n)、およびE(n)、または上述した周波数特徴量である、F(n)、F(n)、F(n)、およびF(n)の中の1つとされる。 The feature calculation unit 131 calculates the feature amount of the input signal and supplies it to the feature determination unit 132. The feature amount calculated by the feature calculation unit 131 is, for example, E 1 (n), E 2 (n), and E 3 (n), which are the above-described amplitude feature amounts, or the above-described frequency feature amount. One of F 1 (n), F 2 (n), F 3 (n), and F 4 (n).

特徴判定部132では、特徴計算部131から供給された特徴量を閾値と比較し、その結果から、当該フレームの入力信号の特徴タイプを判定し、その特徴タイプを選択情報出力部133に供給する。   The feature determination unit 132 compares the feature amount supplied from the feature calculation unit 131 with a threshold, determines the feature type of the input signal of the frame from the result, and supplies the feature type to the selection information output unit 133. .

選択情報出力部133では、特徴判定部132から供給された特徴タイプを用いて、それぞれの特徴タイプに対応した特徴選択情報を選択し、その特徴選択情報を、振幅特徴量計算部104および周波数特徴量計算部105に出力する。ここで、特徴選択情報は、振幅特徴量計算部104が計算すべき振幅特徴量、および、周波数特徴量計算部105が計算すべき周波数特徴量を特定する情報とされる。   The selection information output unit 133 uses the feature type supplied from the feature determination unit 132 to select feature selection information corresponding to each feature type, and uses the feature selection information as the amplitude feature quantity calculation unit 104 and the frequency feature. It outputs to the quantity calculation part 105. Here, the feature selection information is information specifying the amplitude feature amount to be calculated by the amplitude feature amount calculation unit 104 and the frequency feature amount to be calculated by the frequency feature amount calculation unit 105.

図9は、非定常性雑音の1つである咳の周波数特性を説明する図であって、咳と母音および咳と子音の周波数特性の比較の一例を示す図である。同図は、横軸が周波数とされ、縦軸が音圧レベルとされ、咳の音声に係る周波数特性と通常の言葉の音声に係る周波数特性が折れ線により示されている。同図の上側には、母音の音声と咳の音声と咳の音声の周波数性が示されており、同図の下側には、子音の音声と咳の音声の周波数特性が示されている。   FIG. 9 is a diagram for explaining the frequency characteristics of cough, which is one of non-stationary noises, and is a diagram showing an example of comparison of frequency characteristics of cough and vowels and cough and consonants. In the figure, the horizontal axis represents frequency, the vertical axis represents sound pressure level, and the frequency characteristics related to cough speech and the frequency characteristics related to normal speech are indicated by broken lines. The upper side of the figure shows the frequency characteristics of the vowel voice, the cough voice, and the cough voice, and the lower side of the figure shows the frequency characteristics of the consonant voice and the cough voice. .

同図の上側に示されるように、咳の音声と母音の音声とを比較した場合、1.4kHz以下の区間、4kHzから6.8kHzまでの区間、および11.7kHz以上の区間で、音圧レベルが大きく異なっている。つまり、これらの区間の周波数特徴量、例えば、1.4kHz以下の周波数域成分、4kHzから6.8kHzまでの周波数域成分、および11.7kHz以上の周波数域成分を取り出すフィルタを用い、入力信号の全ての周波数成分に対する上述した区間の周波数成分の比率を表すパラメータの集合などを算出すれば、簡単に咳の音声と母音の音声とを区別することができる。   As shown in the upper part of the figure, when comparing cough voice and vowel voice, the sound pressure in the section below 1.4kHz, the section from 4kHz to 6.8kHz, and the section above 11.7kHz. The levels are very different. In other words, the frequency feature quantity of these sections, for example, a frequency band component of 1.4 kHz or less, a frequency band component of 4 kHz to 6.8 kHz, and a frequency band component of 11.7 kHz or more are used to extract the input signal. If a set of parameters indicating the ratio of the frequency components in the above-described section to all frequency components is calculated, cough speech and vowel speech can be easily distinguished.

また、同図の下側に示されるように、咳の音声と子音の音声とを比較した場合、1.8kHz以下の区間、6.5kHzから8.8kHzまでの区間、及び17.7kHz以上の区間で、音圧レベルが大きく異なっている。つまり、咳の音声と母音の音声との比較の場合と同様に各区間の周波数域成分を取り出すフィルタを用い、簡単に咳の音声と子音の音声とを区別することができる。   In addition, as shown in the lower part of the figure, when comparing cough voice and consonant voice, the section below 1.8 kHz, the section from 6.5 kHz to 8.8 kHz, and the section above 17.7 kHz The sound pressure level varies greatly between sections. That is, the cough voice and the consonant voice can be easily distinguished by using a filter that extracts the frequency band component of each section as in the case of the comparison between the cough voice and the vowel voice.

しかし、咳と母音の比較、咳と子音の比較には、それぞれ異なる周波数成分を抽出する必要があり、高い精度で咳を検出するためには、合計6通りの周波数成分に係る特徴量を算出する必要がある。すなわち、入力信号が母音に近い音声であるのか、または子音に近い音声であるのかが事前に分かっていなければ、その両方の場合を想定して特徴量を算出しなければならない。   However, in order to compare cough and vowel and cough and consonant, it is necessary to extract different frequency components, and in order to detect cough with high accuracy, feature values related to a total of six frequency components are calculated. There is a need to. That is, if it is not known in advance whether the input signal is a sound close to a vowel or a sound close to a consonant, the feature amount must be calculated assuming both cases.

例えば、予め入力信号が母音に近い音声であるのか、または子音に近い音声であるのかを認識することが可能であれば、合計3通りの周波数成分に係る特徴量の算出のみで足りるので、特徴量の算出に係る負荷を軽減することが可能となる。   For example, if it is possible to recognize in advance whether the input signal is a sound close to a vowel or a sound close to a consonant, it is only necessary to calculate the feature amounts relating to a total of three frequency components. It is possible to reduce the load related to the amount calculation.

図10は、複数の音声信号をサンプルとした実験の結果得られた、音声信号のゼロ交差率の分布の一例を示す図である。同図は、横軸がゼロ交差率を表し、縦軸が当該ゼロ交差率を有する音声信号のフレーム単位のサンプル数を表している。   FIG. 10 is a diagram illustrating an example of the distribution of the zero-crossing rate of the audio signal obtained as a result of an experiment using a plurality of audio signals as samples. In the figure, the horizontal axis represents the zero-crossing rate, and the vertical axis represents the number of samples per frame of the audio signal having the zero-crossing rate.

図10に示されるように、サンプルの分布には、ゼロ交差率0.05を境界として、2つのガウシアン特性が見られる。ゼロ交差率が0.05以下にあるサンプルは、そのほとんどが母音であることが分かっている。一方、ゼロ交差率が0.05以上であるサンプルは、そのほとんどが子音であることが分かっている。   As shown in FIG. 10, two Gaussian characteristics can be seen in the sample distribution with a zero crossing rate of 0.05 as a boundary. It has been found that most of the samples having a zero crossing rate of 0.05 or less are vowels. On the other hand, it is known that most of the samples having a zero crossing rate of 0.05 or more are consonants.

すなわち、ゼロ交差率0.05を閾値F_thとし、入力信号のゼロ交差率を閾値F_thと比較することにより、入力信号が母音に近い音声であるのか、または子音に近い音声であるのかを認識することが可能となる。   That is, by setting the zero crossing rate 0.05 as the threshold value F_th and comparing the zero crossing rate of the input signal with the threshold value F_th, it is recognized whether the input signal is a sound close to a vowel or a sound close to a consonant. It becomes possible.

特徴量選択部103の特徴計算部131は、例えば、入力信号のゼロ交差率を計算し、特徴判定部132では、入力信号のゼロ交差率を閾値F_thと比較し、その結果から、当該フレームの入力信号の特徴タイプが母音であるか子音であるかを判定する。これにより、振幅特徴量計算部104が計算すべき振幅特徴量、および、周波数特徴量計算部105が計算すべき周波数特徴量が、母音用の特徴量または子音用の特徴量とされる。   For example, the feature calculation unit 131 of the feature amount selection unit 103 calculates the zero-crossing rate of the input signal, and the feature determination unit 132 compares the zero-crossing rate of the input signal with the threshold value F_th. It is determined whether the feature type of the input signal is a vowel or a consonant. Thus, the amplitude feature quantity to be calculated by the amplitude feature quantity calculation unit 104 and the frequency feature quantity to be calculated by the frequency feature quantity calculation unit 105 are set as a vowel feature quantity or a consonant feature quantity.

このように、特徴量選択部103を設けることにより、振幅特徴量計算部104および周波数特徴量計算部105の計算負荷を軽減することができる。   Thus, by providing the feature quantity selection unit 103, the calculation load of the amplitude feature quantity calculation unit 104 and the frequency feature quantity calculation unit 105 can be reduced.

なお、ここでは、特徴量選択部103が、当該フレームの入力信号の特徴タイプが母音であるか子音であるかを判定する例について説明したが、例えば、当該フレームの入力信号の特徴タイプが音圧が大きいもの(大音圧)であるか音圧が小さいもの(小音圧)であるかを判定するようにしてもよい。例えば、小音圧の場合(音量が小さい場合)は、良好なS/N特性を得られにくいので、定常性雑音に影響されにくい特徴量が選択されるようにしてもよい。   Here, an example has been described in which the feature amount selection unit 103 determines whether the feature type of the input signal of the frame is a vowel or a consonant. For example, the feature type of the input signal of the frame is a sound. It may be determined whether the pressure is high (high sound pressure) or low (low sound pressure). For example, in the case of a low sound pressure (when the volume is low), it is difficult to obtain a good S / N characteristic, so that a feature amount that is not easily affected by stationary noise may be selected.

この場合、ゼロ交差率に代えて、フレームnに含まれるL個のサンプル値の平均値を表す振幅特徴量(E(n))、または、フレームnに含まれるL個のサンプル値のRMS値を表す振幅特徴量(E(n))を閾値と比較することで当該フレームの入力信号の特徴タイプを判定するようにすればよい。 In this case, instead of the zero crossing rate, the amplitude feature amount (E 2 (n)) representing the average value of the L sample values included in the frame n, or the RMS of the L sample values included in the frame n The feature type of the input signal of the frame may be determined by comparing the amplitude feature amount (E 3 (n)) representing the value with a threshold value.

図11は、本技術を適用した雑音検出装置100のさらに別の実施の形態に係る構成例を示すブロック図である。図11の構成における雑音検出装置100には、図1の場合とは異なり、周波数特性補正部101、定常性雑音軽減部102、フレーム統合部106、および尤度計算部107が設けられていない。図11の雑音検出装置100のそれ以外の構成は、図1の場合と同様である。   FIG. 11 is a block diagram illustrating a configuration example according to still another embodiment of the noise detection apparatus 100 to which the present technology is applied. Unlike the case of FIG. 1, the noise detection apparatus 100 in the configuration of FIG. 11 does not include the frequency characteristic correction unit 101, the stationary noise reduction unit 102, the frame integration unit 106, and the likelihood calculation unit 107. The other configuration of the noise detection apparatus 100 of FIG. 11 is the same as that of FIG.

図11の構成の場合、雑音検出装置100は、信号入力部51から供給された入力信号から直接、振幅特徴量および周波数特徴量を計算し、それらの振幅特徴量および周波数特徴量を直接利用して当該フレームが非定常性雑音のフレームであるか否かの判定を行う。この場合、雑音検出部108は、例えば、振幅特徴量および周波数特徴量のそれぞれを閾値判定し、判定結果に対応して当該フレームが非定常性雑音のフレームであるか否かの判定を行うことになる。   In the case of the configuration of FIG. 11, the noise detection apparatus 100 directly calculates the amplitude feature quantity and the frequency feature quantity from the input signal supplied from the signal input unit 51 and directly uses the amplitude feature quantity and the frequency feature quantity. Thus, it is determined whether or not the frame is a non-stationary noise frame. In this case, for example, the noise detection unit 108 performs threshold determination on each of the amplitude feature amount and the frequency feature amount, and determines whether or not the frame is a frame of nonstationary noise corresponding to the determination result. become.

あるいはまた、図11に示される雑音検出装置100に、周波数特性補正部101、定常性雑音軽減部102、フレーム統合部106、および尤度計算部107のうちの、いずれか1つ乃至3つを追加する構成を採用することも可能である。   Alternatively, any one to three of the frequency characteristic correction unit 101, the stationary noise reduction unit 102, the frame integration unit 106, and the likelihood calculation unit 107 are added to the noise detection device 100 illustrated in FIG. It is also possible to adopt an additional configuration.

なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図12に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。   The series of processes described above can be executed by hardware, or can be executed by software. When the above-described series of processing is executed by software, a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs. For example, a general-purpose personal computer 700 as shown in FIG. 12 is installed from a network or a recording medium.

図12において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。   In FIG. 12, a CPU (Central Processing Unit) 701 executes various processes according to a program stored in a ROM (Read Only Memory) 702 or a program loaded from a storage unit 708 to a RAM (Random Access Memory) 703. To do. The RAM 703 also appropriately stores data necessary for the CPU 701 to execute various processes.

CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。   The CPU 701, ROM 702, and RAM 703 are connected to each other via a bus 704. An input / output interface 705 is also connected to the bus 704.

入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。   The input / output interface 705 includes an input unit 706 including a keyboard and a mouse, a display including an LCD (Liquid Crystal display), an output unit 707 including a speaker, a storage unit 708 including a hard disk, a modem, a LAN, and the like. A communication unit 709 including a network interface card such as a card is connected. The communication unit 709 performs communication processing via a network including the Internet.

入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。   A drive 710 is also connected to the input / output interface 705 as necessary, and a removable medium 711 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted, and a computer program read from them is loaded. It is installed in the storage unit 708 as necessary.

上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。   When the above-described series of processing is executed by software, a program constituting the software is installed from a network such as the Internet or a recording medium such as a removable medium 711.

なお、この記録媒体は、図12に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。   The recording medium shown in FIG. 12 is a magnetic disk (including a floppy disk (registered trademark)) on which a program is recorded, which is distributed to distribute the program to the user separately from the apparatus main body. Removable media consisting of optical disks (including CD-ROM (compact disk-read only memory), DVD (digital versatile disk)), magneto-optical disks (including MD (mini-disk) (registered trademark)), or semiconductor memory It includes not only those configured by 711 but also those configured by a ROM 702 in which a program is recorded, a hard disk included in the storage unit 708, and the like distributed to the user in a state of being incorporated in the apparatus main body in advance.

なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。   Note that the series of processes described above in this specification includes processes that are performed in parallel or individually even if they are not necessarily processed in time series, as well as processes that are performed in time series in the order described. Is also included.

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。   The embodiments of the present technology are not limited to the above-described embodiments, and various modifications can be made without departing from the gist of the present technology.

なお、本技術は以下のような構成も取ることができる。   In addition, this technique can also take the following structures.

(1)
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部と
を備える雑音検出装置。
(2)
前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも2種類の振幅特徴量を計算し、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のRSM値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備える
(1)に記載の雑音検出装置。
(3)
前記特徴量選択部は、
前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する
(2)に記載の雑音検出装置。
(4)
前記振幅特徴量計算部は、
前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のRMS値のうちの、少なくとも1つを前記振幅特徴量として計算し、
前記周波数特徴量計算部は、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値若しくは複数の値のうちの、少なくとも1つを前記周波数特徴量として計算する
(1)乃至(3)のいずれかに記載の雑音検出装置。
(5)
前記雑音判定部は、
前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第1の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第2の値との割合を算出し、
前記算出された割合に基づいて、雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
(1)乃至(4)のいずれかに記載の雑音検出装置。
(6)
前記雑音判定部は、
前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
(1)乃至(5)のいずれかに記載の雑音検出装置。
(7)
前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備える
(1)乃至(6)のいずれかに記載の雑音検出装置。
(8)
前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備える
(1)乃至(7)のいずれかに記載の雑音検出装置。
(9)
振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、
周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、
特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、
区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、
特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、
雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップ
を含む雑音検出方法。
(10)
コンピュータを、
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させる
プログラム。
(1)
An amplitude feature amount calculation unit for calculating an amplitude feature amount in a waveform of a predetermined frame of an audio input signal;
A frequency feature amount calculation unit for calculating a frequency feature amount in the waveform of the predetermined frame;
2 adjacent in terms of time based on any one of the amplitude feature quantity and the frequency feature quantity held in the holding section that holds the amplitude feature quantity and the frequency feature quantity for a plurality of frames. A feature change amount calculation unit that calculates a feature change amount that is a change amount of the feature amount between two frames;
By comparing the feature change amount with a preset threshold, the amplitude feature amount and the frequency feature amount held in the holding unit are sections of frames to be weighted and averaged, and are temporally continuous. A section identifying unit that identifies a section of the frame;
A feature quantity set generation unit that generates a set of weighted average values of the amplitude feature quantity and the frequency feature quantity corresponding to each of the frames of the specified section as a feature quantity set;
A noise detection apparatus comprising: a noise determination unit that determines whether the latest frame of the input signal is a frame including non-stationary noise that is sudden noise based on the feature amount set.
(2)
The amplitude feature amount calculation unit or the frequency feature amount calculation unit calculates at least two types of amplitude feature amounts among a plurality of types of amplitude feature amounts or a plurality of types of frequency feature amounts,
Based on a zero-crossing rate of the input signal of the predetermined frame, an average value of a plurality of sample values of the input signal of the predetermined frame, or a plurality of RSM values of a plurality of sample values of the input signal of the predetermined frame Feature quantity selection for selecting an amplitude feature quantity to be calculated by the amplitude feature quantity calculation unit from among the types of amplitude feature quantities, or a frequency feature quantity to be calculated by the frequency feature quantity calculation unit from among a plurality of types of frequency feature quantities The noise detection device according to (1), further including a unit.
(3)
The feature amount selection unit includes:
Based on the zero-crossing rate of the input signal of the predetermined frame, it is determined whether the input signal of the predetermined frame is close to a vowel or a consonant, and the amplitude feature amount calculation unit is made to calculate according to the determination result The noise detection apparatus according to (2), wherein a frequency feature amount to be calculated by the frequency feature amount calculation unit is selected from among an amplitude feature amount and a plurality of types of frequency feature amounts.
(4)
The amplitude feature amount calculation unit includes:
At least one of a peak value among a plurality of sample values of the predetermined frame, an average value of the plurality of sample values of the predetermined frame, or an RMS value of the plurality of sample values of the predetermined frame Calculated as the amplitude feature amount,
The frequency feature amount calculation unit includes:
The zero-crossing rate of the input signal of the predetermined frame, the ratio of the sound pressure of a specific frequency component to the sound pressure of all frequency components in the input signal of the predetermined frame, and the input signal of the predetermined frame The ratio of the sound pressure of the specific frequency component to the sound pressure of the frequency component different from the specific frequency component, or a specific one of the frequency spectrum obtained by Fourier transforming the input signal of the predetermined frame The noise detection device according to any one of (1) to (3), wherein at least one of a value or a plurality of values is calculated as the frequency feature amount.
(5)
The noise determination unit
The ratio between the weighted average value of the amplitude feature quantity included in the feature quantity set and a preset first value, and the ratio between the weighted average value of the frequency feature quantity and a preset second value To calculate
Based on the calculated ratio, a noise likelihood is calculated,
It is determined whether the latest frame of the input signal is a frame including the non-stationary noise by comparing the noise likelihood with a preset threshold value (1) to (4) The noise detection apparatus described in 1.
(6)
The noise determination unit
In the feature vector space using part or all of the weighted average value of the amplitude feature quantity and the weighted average value of the frequency feature quantity included in the feature quantity set, the feature quantity set is based on a previously learned identification model. From the feature vector corresponding to, a noise likelihood representing the probability that the frame is a non-stationary noise frame is calculated,
It is determined whether the latest frame of the input signal is a frame including the non-stationary noise by comparing the noise likelihood with a preset threshold value. The noise detection apparatus described in 1.
(7)
The noise detection device according to any one of (1) to (6), further including a frequency characteristic correction unit that corrects a frequency characteristic of a signal input device that supplies the input signal.
(8)
The noise detection apparatus according to any one of (1) to (7), further including a stationary noise removing unit that removes stationary noise that is different from the non-stationary noise from the input signal.
(9)
The amplitude feature amount calculation unit calculates the amplitude feature amount in the waveform of a predetermined frame of the voice input signal,
The frequency feature amount calculation unit calculates a frequency feature amount in the waveform of the predetermined frame,
The feature change amount calculation unit is based on any one of the amplitude feature amount and the frequency feature amount held in the holding unit that holds the amplitude feature amount and the frequency feature amount for a plurality of frames. Calculating a feature change amount that is a change amount of the feature amount between two temporally adjacent frames;
A section specifying unit is a section of a frame in which the amplitude feature amount and the frequency feature amount held in the holding unit are weighted and averaged by comparing the feature change amount with a preset threshold value, Identify the interval between successive frames,
A feature amount set generation unit generates a set of weighted average values of the amplitude feature amount and the frequency feature amount corresponding to each of the frames of the specified section as a feature amount set;
A noise detection method comprising: a step of determining whether or not a latest frame of the input signal is a frame including non-stationary noise that is sudden noise based on the feature amount set.
(10)
Computer
An amplitude feature amount calculation unit for calculating an amplitude feature amount in a waveform of a predetermined frame of an audio input signal;
A frequency feature amount calculation unit for calculating a frequency feature amount in the waveform of the predetermined frame;
2 adjacent in terms of time based on any one of the amplitude feature quantity and the frequency feature quantity held in the holding section that holds the amplitude feature quantity and the frequency feature quantity for a plurality of frames. A feature change amount calculation unit that calculates a feature change amount that is a change amount of the feature amount between two frames;
By comparing the feature change amount with a preset threshold, the amplitude feature amount and the frequency feature amount held in the holding unit are sections of frames to be weighted and averaged, and are temporally continuous. A section identifying unit that identifies a section of the frame;
A feature quantity set generation unit that generates a set of weighted average values of the amplitude feature quantity and the frequency feature quantity corresponding to each of the frames of the specified section as a feature quantity set;
A program that functions as a noise detection device including a noise determination unit that determines whether the latest frame of the input signal is a frame including non-stationary noise that is sudden noise based on the feature amount set .

51 信号入力部, 52 信号処理装置, 100 雑音検出装置, 101 周波数特性補正部, 102 定常性雑音軽減部, 103 特徴量選択部, 104 振幅特徴量計算部, 105 周波数特徴量計算部, 106 フレーム統合部, 107 尤度計算部, 108 雑音検出部, 121 特徴保持部, 122 統合対象判定部, 123 重み計算部, 124 統合部, 131 特徴計算部, 132 特徴判定部, 133 選択情報出力部, 711 リムーバブルメディア   51 signal input unit, 52 signal processing device, 100 noise detection device, 101 frequency characteristic correction unit, 102 stationary noise reduction unit, 103 feature amount selection unit, 104 amplitude feature amount calculation unit, 105 frequency feature amount calculation unit, 106 frame Integration unit, 107 likelihood calculation unit, 108 noise detection unit, 121 feature holding unit, 122 integration target determination unit, 123 weight calculation unit, 124 integration unit, 131 feature calculation unit, 132 feature determination unit, 133 selection information output unit, 711 Removable media

Claims (10)

音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部と
を備える雑音検出装置。
An amplitude feature amount calculation unit for calculating an amplitude feature amount in a waveform of a predetermined frame of an audio input signal;
A frequency feature amount calculation unit for calculating a frequency feature amount in the waveform of the predetermined frame;
2 adjacent in terms of time based on any one of the amplitude feature quantity and the frequency feature quantity held in the holding section that holds the amplitude feature quantity and the frequency feature quantity for a plurality of frames. A feature change amount calculation unit that calculates a feature change amount that is a change amount of the feature amount between two frames;
By comparing the feature change amount with a preset threshold, the amplitude feature amount and the frequency feature amount held in the holding unit are sections of frames to be weighted and averaged, and are temporally continuous. A section identifying unit that identifies a section of the frame;
A feature quantity set generation unit that generates a set of weighted average values of the amplitude feature quantity and the frequency feature quantity corresponding to each of the frames of the specified section as a feature quantity set;
A noise detection apparatus comprising: a noise determination unit that determines whether the latest frame of the input signal is a frame including non-stationary noise that is sudden noise based on the feature amount set.
前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも2種類の振幅特徴量を計算し、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のRSM値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備える
請求項1に記載の雑音検出装置。
The amplitude feature amount calculation unit or the frequency feature amount calculation unit calculates at least two types of amplitude feature amounts among a plurality of types of amplitude feature amounts or a plurality of types of frequency feature amounts,
Based on a zero-crossing rate of the input signal of the predetermined frame, an average value of a plurality of sample values of the input signal of the predetermined frame, or a plurality of RSM values of a plurality of sample values of the input signal of the predetermined frame Feature quantity selection for selecting an amplitude feature quantity to be calculated by the amplitude feature quantity calculation unit from among the types of amplitude feature quantities, or a frequency feature quantity to be calculated by the frequency feature quantity calculation unit from among a plurality of types of frequency feature quantities The noise detection apparatus according to claim 1, further comprising a unit.
前記特徴量選択部は、
前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する
請求項2に記載の雑音検出装置。
The feature amount selection unit includes:
Based on the zero-crossing rate of the input signal of the predetermined frame, it is determined whether the input signal of the predetermined frame is close to a vowel or a consonant, and the amplitude feature amount calculation unit is made to calculate according to the determination result The noise detection device according to claim 2, wherein a frequency feature amount to be calculated by the frequency feature amount calculation unit is selected from an amplitude feature amount and a plurality of types of frequency feature amounts.
前記振幅特徴量計算部は、
前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のRMS値のうちの、少なくとも1つを前記振幅特徴量として計算し、
前記周波数特徴量計算部は、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値若しくは複数の値のうちの、少なくとも1つを前記周波数特徴量として計算する
請求項1に記載の雑音検出装置。
The amplitude feature amount calculation unit includes:
At least one of a peak value among a plurality of sample values of the predetermined frame, an average value of the plurality of sample values of the predetermined frame, or an RMS value of the plurality of sample values of the predetermined frame Calculated as the amplitude feature amount,
The frequency feature amount calculation unit includes:
The zero-crossing rate of the input signal of the predetermined frame, the ratio of the sound pressure of a specific frequency component to the sound pressure of all frequency components in the input signal of the predetermined frame, and the input signal of the predetermined frame The ratio of the sound pressure of the specific frequency component to the sound pressure of the frequency component different from the specific frequency component, or a specific one of the frequency spectrum obtained by Fourier transforming the input signal of the predetermined frame The noise detection device according to claim 1, wherein at least one of a value or a plurality of values is calculated as the frequency feature amount.
前記雑音判定部は、
前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第1の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第2の値との割合を算出し、
前記算出された割合に基づいて、雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
請求項1に記載の雑音検出装置。
The noise determination unit
The ratio between the weighted average value of the amplitude feature quantity included in the feature quantity set and a preset first value, and the ratio between the weighted average value of the frequency feature quantity and a preset second value To calculate
Based on the calculated ratio, a noise likelihood is calculated,
The noise detection device according to claim 1, wherein the noise likelihood is determined by comparing the noise likelihood with a preset threshold value to determine whether the latest frame of the input signal is a frame including the non-stationary noise.
前記雑音判定部は、
前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
請求項1に記載の雑音検出装置。
The noise determination unit
In the feature vector space using part or all of the weighted average value of the amplitude feature quantity and the weighted average value of the frequency feature quantity included in the feature quantity set, the feature quantity set is based on a previously learned identification model. From the feature vector corresponding to, a noise likelihood representing the probability that the frame is a non-stationary noise frame is calculated,
The noise detection device according to claim 1, wherein the noise likelihood is determined by comparing the noise likelihood with a preset threshold value to determine whether the latest frame of the input signal is a frame including the non-stationary noise.
前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備える
請求項1に記載の雑音検出装置。
The noise detection apparatus according to claim 1, further comprising a frequency characteristic correction unit that corrects a frequency characteristic of a signal input device that supplies the input signal.
前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備える
請求項1に記載の雑音検出装置。
The noise detection apparatus according to claim 1, further comprising a stationary noise removing unit that removes stationary noise that is different from the non-stationary noise from the input signal.
振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、
周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、
特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、
区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、
特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、
雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップ
を含む雑音検出方法。
The amplitude feature amount calculation unit calculates the amplitude feature amount in the waveform of a predetermined frame of the voice input signal,
The frequency feature amount calculation unit calculates a frequency feature amount in the waveform of the predetermined frame,
The feature change amount calculation unit is based on any one of the amplitude feature amount and the frequency feature amount held in the holding unit that holds the amplitude feature amount and the frequency feature amount for a plurality of frames. Calculating a feature change amount that is a change amount of the feature amount between two temporally adjacent frames;
A section specifying unit is a section of a frame in which the amplitude feature amount and the frequency feature amount held in the holding unit are weighted and averaged by comparing the feature change amount with a preset threshold value, Identify the interval between successive frames,
A feature amount set generation unit generates a set of weighted average values of the amplitude feature amount and the frequency feature amount corresponding to each of the frames of the specified section as a feature amount set;
A noise detection method comprising: a step of determining whether or not a latest frame of the input signal is a frame including non-stationary noise that is sudden noise based on the feature amount set.
コンピュータを、
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させる
プログラム。
Computer
An amplitude feature amount calculation unit for calculating an amplitude feature amount in a waveform of a predetermined frame of an audio input signal;
A frequency feature amount calculation unit for calculating a frequency feature amount in the waveform of the predetermined frame;
2 adjacent in terms of time based on any one of the amplitude feature quantity and the frequency feature quantity held in the holding section that holds the amplitude feature quantity and the frequency feature quantity for a plurality of frames. A feature change amount calculation unit that calculates a feature change amount that is a change amount of the feature amount between two frames;
By comparing the feature change amount with a preset threshold, the amplitude feature amount and the frequency feature amount held in the holding unit are sections of frames to be weighted and averaged, and are temporally continuous. A section identifying unit that identifies a section of the frame;
A feature quantity set generation unit that generates a set of weighted average values of the amplitude feature quantity and the frequency feature quantity corresponding to each of the frames of the specified section as a feature quantity set;
A program that functions as a noise detection device including a noise determination unit that determines whether the latest frame of the input signal is a frame including non-stationary noise that is sudden noise based on the feature amount set .
JP2012279013A 2012-12-21 2012-12-21 Noise detector, method, and program Pending JP2014123011A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012279013A JP2014123011A (en) 2012-12-21 2012-12-21 Noise detector, method, and program
US14/104,828 US20140180682A1 (en) 2012-12-21 2013-12-12 Noise detection device, noise detection method, and program
CN201310683438.XA CN103886870A (en) 2012-12-21 2013-12-13 Noise detection device, noise detection method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012279013A JP2014123011A (en) 2012-12-21 2012-12-21 Noise detector, method, and program

Publications (1)

Publication Number Publication Date
JP2014123011A true JP2014123011A (en) 2014-07-03

Family

ID=50955728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012279013A Pending JP2014123011A (en) 2012-12-21 2012-12-21 Noise detector, method, and program

Country Status (3)

Country Link
US (1) US20140180682A1 (en)
JP (1) JP2014123011A (en)
CN (1) CN103886870A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090606A (en) * 2015-11-09 2017-05-25 日本電信電話株式会社 Abnormal sound detection device, abnormal sound detection learning device, method thereof, and program
JP2017097490A (en) * 2015-11-19 2017-06-01 株式会社日立産機システム Monitoring device
JPWO2017158905A1 (en) * 2016-03-17 2019-01-24 株式会社オーディオテクニカ Noise detection device and audio signal output device
JP7000757B2 (en) 2017-09-13 2022-01-19 富士通株式会社 Speech processing program, speech processing method and speech processing device
US11942105B2 (en) 2019-11-18 2024-03-26 Samsung Electronics Co., Ltd. Electronic device and method for determining abnormal noise

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (en) 2009-10-07 2015-07-29 ソニー株式会社 Decoding apparatus and method, and program
JP5609737B2 (en) 2010-04-13 2014-10-22 ソニー株式会社 Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
JP5850216B2 (en) 2010-04-13 2016-02-03 ソニー株式会社 Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
JP6075743B2 (en) * 2010-08-03 2017-02-08 ソニー株式会社 Signal processing apparatus and method, and program
JP5707842B2 (en) 2010-10-15 2015-04-30 ソニー株式会社 Encoding apparatus and method, decoding apparatus and method, and program
JP5743137B2 (en) 2011-01-14 2015-07-01 ソニー株式会社 Signal processing apparatus and method, and program
JP6037156B2 (en) 2011-08-24 2016-11-30 ソニー株式会社 Encoding apparatus and method, and program
CA2843263A1 (en) 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
CN105531762B (en) 2013-09-19 2019-10-01 索尼公司 Code device and method, decoding apparatus and method and program
KR102513009B1 (en) 2013-12-27 2023-03-22 소니그룹주식회사 Decoding device, method, and program
CN107250788B (en) * 2015-02-16 2019-06-07 株式会社岛津制作所 Noise level estimation method and determination data processing unit
JP6511897B2 (en) * 2015-03-24 2019-05-15 株式会社Jvcケンウッド Noise reduction device, noise reduction method and program
CN105118522B (en) * 2015-08-27 2021-02-12 广州市百果园网络科技有限公司 Noise detection method and device
CN115719592A (en) * 2016-08-15 2023-02-28 中兴通讯股份有限公司 Voice information processing method and device
CN107928673B (en) * 2017-11-06 2022-03-29 腾讯科技(深圳)有限公司 Audio signal processing method, audio signal processing apparatus, storage medium, and computer device
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
JP2022156943A (en) * 2021-03-31 2022-10-14 富士通株式会社 Noise determination program, noise determination method and noise determination device
CN113567146A (en) * 2021-07-19 2021-10-29 上汽通用五菱汽车股份有限公司 Method for evaluating road noise based on masking effect
CN115206323B (en) * 2022-09-16 2022-11-29 江门市鸿裕达电机电器制造有限公司 Voice recognition method of fan voice control system

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
JP3454206B2 (en) * 1999-11-10 2003-10-06 三菱電機株式会社 Noise suppression device and noise suppression method
JP3457293B2 (en) * 2001-06-06 2003-10-14 三菱電機株式会社 Noise suppression device and noise suppression method
KR100927897B1 (en) * 2005-09-02 2009-11-23 닛본 덴끼 가부시끼가이샤 Noise suppression method and apparatus, and computer program
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
WO2010146711A1 (en) * 2009-06-19 2010-12-23 富士通株式会社 Audio signal processing device and audio signal processing method
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
KR101176207B1 (en) * 2010-10-18 2012-08-28 (주)트란소노 Audio communication system and method thereof
WO2012095700A1 (en) * 2011-01-12 2012-07-19 Nokia Corporation An audio encoder/decoder apparatus
US9715885B2 (en) * 2013-03-05 2017-07-25 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090606A (en) * 2015-11-09 2017-05-25 日本電信電話株式会社 Abnormal sound detection device, abnormal sound detection learning device, method thereof, and program
JP2017097490A (en) * 2015-11-19 2017-06-01 株式会社日立産機システム Monitoring device
JPWO2017158905A1 (en) * 2016-03-17 2019-01-24 株式会社オーディオテクニカ Noise detection device and audio signal output device
JP7000757B2 (en) 2017-09-13 2022-01-19 富士通株式会社 Speech processing program, speech processing method and speech processing device
US11942105B2 (en) 2019-11-18 2024-03-26 Samsung Electronics Co., Ltd. Electronic device and method for determining abnormal noise

Also Published As

Publication number Publication date
CN103886870A (en) 2014-06-25
US20140180682A1 (en) 2014-06-26

Similar Documents

Publication Publication Date Title
JP2014123011A (en) Noise detector, method, and program
CN106486131B (en) A kind of method and device of speech de-noising
Mak et al. A study of voice activity detection techniques for NIST speaker recognition evaluations
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
CN110021307B (en) Audio verification method and device, storage medium and electronic equipment
US9196247B2 (en) Voice recognition method and voice recognition apparatus
JP4950930B2 (en) Apparatus, method and program for determining voice / non-voice
US9959886B2 (en) Spectral comb voice activity detection
EP2905780A1 (en) Voiced sound pattern detection
CN110232933B (en) Audio detection method and device, storage medium and electronic equipment
JP5949550B2 (en) Speech recognition apparatus, speech recognition method, and program
US20170061970A1 (en) Speaker Dependent Voiced Sound Pattern Detection Thresholds
EP2083417B1 (en) Sound processing device and program
JP2008139568A (en) Voice processing device and method, and program
US20140177853A1 (en) Sound processing device, sound processing method, and program
Ba et al. BaNa: A hybrid approach for noise resilient pitch detection
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
JP2011033717A (en) Noise suppression device
JP2014126856A (en) Noise removal device and control method for the same
CN112951259A (en) Audio noise reduction method and device, electronic equipment and computer readable storage medium
JP2007017620A (en) Utterance section detecting device, and computer program and recording medium therefor
JP5293329B2 (en) Audio signal evaluation program, audio signal evaluation apparatus, and audio signal evaluation method
JP2012113173A (en) Noise suppressing device, noise suppressing method and program
CN112151066A (en) Voice feature recognition-based language conflict monitoring method, medium and equipment
JP6599408B2 (en) Acoustic signal processing apparatus, method, and program