JP2011191668A - 音声処理装置、音声処理方法およびプログラム - Google Patents
音声処理装置、音声処理方法およびプログラム Download PDFInfo
- Publication number
- JP2011191668A JP2011191668A JP2010059622A JP2010059622A JP2011191668A JP 2011191668 A JP2011191668 A JP 2011191668A JP 2010059622 A JP2010059622 A JP 2010059622A JP 2010059622 A JP2010059622 A JP 2010059622A JP 2011191668 A JP2011191668 A JP 2011191668A
- Authority
- JP
- Japan
- Prior art keywords
- section
- signal
- sound
- stationary
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 72
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 121
- 238000001514 detection method Methods 0.000 claims abstract description 71
- 230000005236 sound signal Effects 0.000 claims abstract description 34
- 230000001629 suppression Effects 0.000 claims description 36
- 238000012795 verification Methods 0.000 claims description 21
- 230000006866 deterioration Effects 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 description 35
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 22
- 239000011159 matrix material Substances 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
【課題】非常に短い時間に偏り集中する雑音が発生する時間領域を検出して、該雑音を十分に抑圧する。
【解決手段】音声処理装置100は、入力信号から音声信号を含む音声区間または音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部102、104と、区間検出部による検出の結果、音声区間では音声信号を保持し、非定常音区間では非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部106と、を備え、フィルタ算出部106は、音声区間で非定常音区間において算出されたフィルタ係数を利用し、非定常音区間で音声区間において算出されたフィルタ係数を利用してフィルタ係数を算出する。
【選択図】図2
【解決手段】音声処理装置100は、入力信号から音声信号を含む音声区間または音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部102、104と、区間検出部による検出の結果、音声区間では音声信号を保持し、非定常音区間では非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部106と、を備え、フィルタ算出部106は、音声区間で非定常音区間において算出されたフィルタ係数を利用し、非定常音区間で音声区間において算出されたフィルタ係数を利用してフィルタ係数を算出する。
【選択図】図2
Description
本発明は、音声処理装置、音声処理方法およびプログラムに関する。
従来から、雑音が入力している入力音声に対して、雑音を抑圧する技術が開示されている(例えば、特許文献1および2)。上記特許文献1では、複数のマイクから得られる信号の方向性を検出して、検出した結果に応じたスペクトルサブストラクションを行って雑音を抑圧している。また、上記特許文献2では、マルチチャネル処理のあと、チャネル間の相互相関を利用して、雑音を抑圧している。
しかし、特許文献1では、周波数領域で処理を行っているため、操作音などの非常に短い時間に集中している雑音を扱うと、その偏りが全周波数に広がってしまい十分な雑音抑圧をすることができないという問題があった。また、特許文献2では、突発性の雑音の抑圧のために、パワースペクトルを修正し、拡張された相互相関を利用して周波数領域で処理を行っているが、特許文献1と同様に操作音のような非常に短い信号に対して十分な雑音抑圧をすることができないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、非常に短い時間に偏り集中する雑音が発生する時間区間を検出して、該雑音を十分に抑圧することが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、非常に短い時間に偏り集中する雑音が発生する時間区間を検出して、該雑音を十分に抑圧することが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、前記区間検出部による検出の結果に応じて、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、を備え、前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で前記音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置が提供される。
また、前記フィルタ算出部により算出された前記フィルタ係数の情報を区間毎に記憶部に記録する記録部を備え、前記フィルタ算出部は、前記音声区間で前記記録された前記非定常音区間の前記フィルタ係数の情報を利用し、前記非定常音区間で前記記録された前記音声区間の前記フィルタ係数の情報を利用して前記フィルタ係数を算出してもよい。
前記フィルタ算出部は、前記音声区間では前記入力信号が保持された信号を出力するフィルタ係数を算出し、前記非定常音区間では前記入力信号がゼロとなる信号を出力するフィルタ係数を算出してもよい。
また、前記音声区間における前記音声信号の特徴量と前記非定常音区間における非定常音信号の特徴量とをそれぞれ算出する特徴量算出部を備え、前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出してもよい。
また、前記区間検出部は、前記音声信号または前記非定常的な信号以外の定常的な信号を含む定常音区間を検出し、前記フィルタ算出部は、前記定常音区間では前記定常的な信号を抑圧するフィルタ係数を算出してもよい。
また、前記特徴量算出部は、前記定常音区間における定常音信号の特徴量を算出してもよい。
また、前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量および前記定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用し、前記定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出してもよい。
また、前記フィルタ算出部により算出される前記フィルタ係数の拘束条件を検定する検定部を備え、前記検定部は、前記特徴量算出部により算出された各区間における前記特徴量に基づいて前記フィルタ係数の拘束条件を検定してもよい。
また、前記検定部は、前記非定常音区間の前記非定常音信号の抑圧量と前記定常音区間の前記定常音信号の抑圧量が所定の閾値以下か否かにより前記音声区間での前記フィルタ係数の拘束条件を検定してもよい。
また、前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記非定常音区間での前記フィルタ係数の拘束条件を検定してもよい。
また、前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記定常音区間での前記フィルタ係数の拘束条件を検定してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出するステップと、前記検出の結果に応じて、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用して前記音声信号を保持し、前記非定常音区間では前記音声区間において算出されたフィルタ係数を利用して前記非定常的な信号を抑圧するステップと、を含む、音声処理方法が提供される。
また、上記課題を解決するために、コンピュータを、入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、前記区間検出部による検出の結果、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、を備え、前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置として機能させるためのプログラムが提供される。
以上説明したように本発明によれば、非常に短い時間に偏り集中する雑音が発生する時間区間を検出して、該雑音を十分に抑圧することができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下に示す順序に従って、当該「発明を実施するための形態」を説明する。
1.本実施形態の目的
2.第1実施形態
3.第2実施形態
4.第3実施形態
5.第4実施形態
6.第5実施形態
7.第6実施形態
1.本実施形態の目的
2.第1実施形態
3.第2実施形態
4.第3実施形態
5.第4実施形態
6.第5実施形態
7.第6実施形態
<1.本実施形態の目的>
まず、本実施形態の目的について説明する。従来から、雑音が入力している入力音声に対して、雑音を抑圧する技術が開示されている(例えば、上記特許文献1および2)。上記特許文献1では、複数のマイクから得られる信号の方向性を検出して、検出した結果に応じたスペクトルサブストラクションを行って雑音を抑圧している。また、上記特許文献2では、マルチチャネル処理のあと、チャネル間の相互相関を利用して、雑音を抑圧している。
まず、本実施形態の目的について説明する。従来から、雑音が入力している入力音声に対して、雑音を抑圧する技術が開示されている(例えば、上記特許文献1および2)。上記特許文献1では、複数のマイクから得られる信号の方向性を検出して、検出した結果に応じたスペクトルサブストラクションを行って雑音を抑圧している。また、上記特許文献2では、マルチチャネル処理のあと、チャネル間の相互相関を利用して、雑音を抑圧している。
しかし、特許文献1では、周波数領域で処理を行っているため、操作音などの非常に短い時間に集中している雑音を扱うと、その偏りが全周波数に広がってしまい十分な雑音抑圧をすることができないという問題があった。また、特許文献2では、突発性の雑音の抑圧のために、パワースペクトルを修正し、拡張された相互相関を利用して周波数領域で処理を行っているが、特許文献1と同様に操作音のような非常に短い信号に対して十分な雑音抑圧をすることができないという問題があった。
そこで、複数個のマイクロホンを利用して、時間領域処理により雑音を抑圧することが考えられる。例えば、音声を拾うマイク(主マイク)に対して、雑音のみを拾うマイク(雑音マイク)を異なる位置に設ける。このとき、主マイクの信号から、雑音マイクの信号を引くことにより雑音を除去することができる。ただし、マイクの位置が異なるため、主マイクに入る雑音と雑音マイクに入る雑音信号は等しくない。そこで、音声が存在しないときに学習を行って、2つの雑音信号を一致させることが行われる。
上記技術では、雑音マイクに音声が入力されないようにするために、双方のマイクを十分に離す必要があるが、この場合雑音信号を一致させるための学習が困難となり雑音抑圧性能が下がってしまう。また、双方のマイクを近づけると、雑音マイクに音声が入力されてしまうため、主マイクの信号から雑音マイクの信号の引き算により音声成分も劣化してしまう。
また、すべてのマイクロホンに音声と雑音が観測される状態において、以下のような雑音を抑圧する手法が挙げられる。
(1)Adaptive
Microphone-Array System for Noise Reduction. (AMNOR)
YUTAKA KANEDA
et al
IEEE Trans On
Acoustics, Speech, AND Signal Processing, vol. ASSP-34,No 6, December 1986
(2)An
Alternative Approach to Linearly Constrained Adaptive Beamforming.
LLOYD J.
GRIFFITHS et al.
IEEE
TRANSACTION ON ANTENNAS AND PROPAGATION, vol. AP-30, No 1, January 1982
(1)Adaptive
Microphone-Array System for Noise Reduction. (AMNOR)
YUTAKA KANEDA
et al
IEEE Trans On
Acoustics, Speech, AND Signal Processing, vol. ASSP-34,No 6, December 1986
(2)An
Alternative Approach to Linearly Constrained Adaptive Beamforming.
LLOYD J.
GRIFFITHS et al.
IEEE
TRANSACTION ON ANTENNAS AND PROPAGATION, vol. AP-30, No 1, January 1982
上記(1)のAMNOR手法を例示して説明する。AMNOR手法では、目的音がない区間において、フィルタ係数Hの学習を行う。この際、音声成分の劣化が一定以内に収まるように学習を行う。AMNOR手法を操作音の抑圧に応用した場合、以下の問題点が挙げられる。
(1)AMNOR手法では、長時間にわたり存在する雑音が一定方向から到来する場合には非常に有効であるが、操作音は短時間のみに存在する非定常音であり、かつ、マウス位置やキーボードは位置に依存するため色々な方向から到来するため、フィルタの学習が十分になされない。
(2)目的音の劣化の制御については、常に雑音が乗るような状況の場合の雑音抑圧に非常に有効であるが、操作音は非定常的に音声に重なるため目的音声の音質をより善くすることが可能となる。
(1)AMNOR手法では、長時間にわたり存在する雑音が一定方向から到来する場合には非常に有効であるが、操作音は短時間のみに存在する非定常音であり、かつ、マウス位置やキーボードは位置に依存するため色々な方向から到来するため、フィルタの学習が十分になされない。
(2)目的音の劣化の制御については、常に雑音が乗るような状況の場合の雑音抑圧に非常に有効であるが、操作音は非定常的に音声に重なるため目的音声の音質をより善くすることが可能となる。
そこで、上記のような事情を一着眼点として、本実施形態にかかる音声処理装置が創作されるに至った。本実施形態にかかる音声処理装置によれば、非常に短い時間に偏り集中する雑音が発生する時間区間を検出して、該雑音を十分に抑圧することが可能となる。具体的には、非定常的に、非常に短い時間に偏り集中する雑音(以降、操作音と称して説明する場合もある。)を抑圧するために、時間領域での処理を行う。また、様々な位置で発生する操作音に対して、複数のマイクロホンを利用し、音声の方向を利用して抑圧をおこなう。また、様々な入力デバイスでの操作音に対応するため、入力信号に応じて、抑圧フィルタを適応的に取得する。さらに、音声の存在する区間でも音質改善のためにフィルタを学習する。
<2.第1実施形態>
次に、第1実施形態について説明する。まず、図1を参照して、第1実施形態の概要について説明する。本実施形態では、例えば、ボイスチャット時に通話音声に混入する非定常的な雑音を抑圧することを目的としている。図1に示したようにユーザ10Aとユーザ10BがそれぞれPC等を用いてボイスチャットを行っていたとする。このとき、ユーザ10Bが音声を送信する際には、「電車の時間は、、」という音声とともに、マウスやキーボード等を操作する「カチカチ」という操作音入力される。
次に、第1実施形態について説明する。まず、図1を参照して、第1実施形態の概要について説明する。本実施形態では、例えば、ボイスチャット時に通話音声に混入する非定常的な雑音を抑圧することを目的としている。図1に示したようにユーザ10Aとユーザ10BがそれぞれPC等を用いてボイスチャットを行っていたとする。このとき、ユーザ10Bが音声を送信する際には、「電車の時間は、、」という音声とともに、マウスやキーボード等を操作する「カチカチ」という操作音入力される。
この操作音は、図1の説明図50に示したように、音声に対して常に重畳されるものではない。また、操作音を発生させるキーボードやマウスなどの位置は変わるため、雑音の発生位置が変わってしまう。また、キーボードやマウスなどの音は、それぞれ機器の種類に依存して操作音が異なるため、多種の操作音が存在する。
そこで、本実施形態では、入力された信号のうち、音声の区間とマウスやキーボード等の非定常的な音である操作音の区間とを検出し、区間毎に最適な処理を採用することにより効率的に雑音を抑圧する。また、検出された区間に応じて不連続に処理を切り替えるのではなく、連続的に処理が切り替わるようにして音声開始時の違和感を低減する。さらに、区間ごとの処理を行うことにより、音声の劣化量や雑音抑圧量を利用して、最終的な音質のコントロールを可能にしている。
以上、本実施形態の概要について説明した。次に、図2を参照して、音声処理装置100の機能構成について説明する。図2は、音声処理装置100の機能構成を示すブロック図である。図2に示したように、音声処理装置100は、音声検出部102、操作音検出部104、フィルタ算出部106、フィルタ部108などを備える。
音声検出部102および操作音検出部104は、本発明の区間検出部の一例である。音声検出部102は、入力信号から音声信号を含む音声区間を検出する機能を有する。入力信号は、例えば、図3に示したように、ヘッドセット20にマイクロホンが2つ使用され、それぞれ、ヘッドセットの口元にマイク21、耳元にマイク22が配置されている。
ここで、図4を参照して、音声検出部102による音声検出の機能について説明する。図4に示したように、音声検出部102は、演算手段112と、比較・判定手段114と、保持手段116などを有する。演算手段122は、2つのマイクロホンから入力される入力エネルギーを算出し、入力エネルギーの差分を算出する。比較・判定手段114は、算出された入力エネルギーの差分を所定の閾値より大きいか否かを比較し、比較結果に応じて音声が存在するか否かを判定する。そして、特徴量算出部110やフィルタ算出部106に音声の有無についての制御信号を提供する。
次に、図5を参照して、音声検出部102による音声検出処理について説明する。図5は、音声検出部102による音声検出処理を示すフローチャートである。図5に示したように、まず、ヘッドセットに備えられた2つのマイクロホンの各マイクロホンに対して入力エネルギー(E1、E2)を算出する(S102)。入力エネルギーは、以下の数式により算出される。xi(t)は、時刻tにおいて、マイクロホンiで観測される信号を示す。つまり、数1は、区間L1、L2における信号のエネルギーを示す。
そして、ステップS102において算出された入力エネルギーの差分ΔE=E1−E2を算出する(S104)。そして、閾値EthとステップS104において算出された入力エネルギーの差分ΔEを比較する(S106)。
ステップS106において、閾値Ethより差分ΔEが大きいと判定された場合には、音声が存在すると判定する(S108)。ステップS106において閾値Ethより差分ΔERが小さいと判定された場合には、音声が存在しないと判定する(S110)。
次に、図6を参照して、操作音検出部104による操作音検出の機能について説明する。図6に示したように、操作音検出部104は、演算手段118と、比較・判定手段119と、保持手段120などを有する。演算手段118は、口元のマイクロホン21からの信号x1に対して、高域通過フィルタを掛けて、エネルギーE1を算出する。図7に示したように、操作音は高い周波数を含むため、その特徴を利用し、操作音の検出には1つのマイクロホンの信号だけを利用すれば十分である。
比較・判定手段119は、閾値Ethと演算手段118により算出されたエネルギーE1とを比較し、比較結果に応じて操作音が存在するか否かを判定する。そして、特徴量算出部110やフィルタ算出部106に操作音の有無についての制御信号を提供する。
次に、図8を参照して、操作音検出部104による操作音検出処理について説明する。図8は、操作音検出部104による操作音検出処理を示すフローチャートである。図8に示したように、まず、ヘッドセットの口元のマイクロホン21の信号x1に対して高域通過フィルタを掛ける(S112)。ステップS112において、以下の数式により、x1_hが算出される。
そして、以下の数式によりx1_hのエネルギーE1を算出する(S114)。
そして、ステップS114において算出されたエネルギーE1が閾値Ethより大きいか否かを判定する(S116)。ステップS116において、エネルギーE1が閾値Ethより大きいと判定された場合には、操作音が存在すると判定する(S118)。ステップS116において、エネルギーE1が閾値Ethより小さいと判定された場合には、操作音が存在しないと判定する(S118)。
上記では、固定的な高域通過フィルタHを用いて操作音の検出を行った。しかし、操作音は、キーボード、マウスなどにより様々な音、すなわち、種々の周波数を含んでいる。そこで、入力されるデータに応じて動的に高域通過フィルタHが構成されることが望まれる。以下では、自己回帰モデル(ARモデル)を利用して操作音の検出を行っている。
ARモデルでは、以下の数式で示すように、自分自身の過去の入力サンプルを利用して現在の入力を表す。
図9を参照して、ARモデルを利用した操作音の検出処理について説明する。図9は、ARモデルを利用した操作音の検出処理を示すフローチャートである。図9に示したように、まず、ヘッドセットの口元のマイクロホン21の信号x1に対して、AR係数を利用し以下の数式により誤差を算出する(S122)。
そして、以下の数式により誤差の2乗E1を算出する(S124)。
そして、E1が閾値Ethより大きいか否かを判定する(S126)。ステップS126において、E1が閾値Ethより大きいと判定された場合には、操作音が存在すると判定する(S128)。ステップS126において、E1が閾値Ethより小さいと判定された場合には、操作音が存在しないと判定する(S130)。そして、現在の入力に対して以下の数式によりAR係数を更新する(S132)。a(t)は、時刻tにおけるAR係数を示す。μは、小さな正の値の定数である。例えば、μ=0.01などを使うことができる。
図2に戻り、音声処理装置100の機能構成の説明を続ける。フィルタ算出部106は、音声検出部102および操作音検出部104による検出の結果、音声区間では音声信号を保持し、非定常音区間(操作音区間)では非定常的な信号を抑圧するフィルタ係数を算出する機能を有する。また、フィルタ算出部106は、音声区間で非定常音区間において算出されたフィルタ係数を利用し、非定常音区間で音声区間において算出されたフィルタ係数を利用する。これにより、区間での切り替わりの不連続性を低減し、操作音が存在する区間でのみフィルタの学習を行って、効率よく操作音の抑圧を行うことができる。
ここで、図10を参照して、フィルタ算出部106のフィルタ係数の算出機能について説明する。図10に示したように、フィルタ算出部106は、演算手段120および保持手段122などを有する。演算手段120は、保持手段122に保持されているフィルタ係数を参照し、現在の入力信号と音声検出部102および操作音検出部104から入力される区間情報(制御信号)とを参照して、フィルタを更新する。更新されたフィルタを保持手段122に保持されているフィルタに上書きする。保持手段122は、一つ前の更新時のフィルタを保持している。保持手段122は、本発明の記録部の一例である。
図11を参照して、フィルタ算出部106のフィルタ係数の算出処理について説明する。図11は、フィルタ算出部106によるフィルタ係数の算出処理を示すフローチャートである。図11に示したように、まず、演算手段120は、音声検出部102および操作音検出部104からの制御信号を取得する(S142)。ステップS142において取得する制御信号は、区間情報に関する制御信号であって、音声区間か操作音区間かを区別する制御信号である。
そして、ステップS142において取得された制御信号により音声区間であるか否かを判定する(S144)。ステップS144において、音声区間であると判定された場合には、入力信号を保持するようにフィルタ係数の学習を行う(S146)。
また、ステップS144において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S148)。ステップS148において、操作音区間であると判定された場合には、出力信号がゼロになるようにフィルタ係数の学習を行う(S150)。
ここで、音声区間、操作音区間でのフィルタ係数の学習規則の例について説明する。音声区間では、なるべく入力信号を保ちたいため、フィルタ部108の出力がマイクロホンの入力信号に近づくように学習する。ここで、以下のように数式を定義する。
φx_i(t)は、マイクロホンiに入力される時刻tからt−p+1までの値を一列に並べたものである。φ(t)は、φx_i(t)をマイクロホン毎に一列に並べた、2p個のベクトルになる。以降、φ(t)を入力ベクトルと呼ぶ。
φx_i(t)は、マイクロホンiに入力される時刻tからt−p+1までの値を一列に並べたものである。φ(t)は、φx_i(t)をマイクロホン毎に一列に並べた、2p個のベクトルになる。以降、φ(t)を入力ベクトルと呼ぶ。
LMSアルゴリズムを利用した場合には、以下のように更新される。
操作音区間では、出力をゼロにしたいため、フィルタ部108の出力がゼロになるように学習する。
上記では、LMSアルゴリズムを例示して説明したが、かかる例に限定されず、学習アルゴリズムは学習同定法などのいずれでもよい。
上記した学習規則によれば、入力信号に対して、単に音声区間では1を、音声区間以外では0をかければ十分とも考えられる。図12に示したように、音声区間では1を、音声区間以外では0をかけた場合には、説明図55のグラフのイメージとなる。すなわち、操作音のみの区間では0になり、音声区間では1となる。しかし、音声区間の開始を完璧に検出するのは困難であるため、音声の開始部分は欠けてしまい、途中から急に音声が始まってしまうこととなる。これは、聴覚上非常に違和感を感じる現象となる。このため、説明図56に示したように、連続的に係数を変化させることにより、操作音を抑圧しつつ、音声開始時の違和感を低減させる。
ところで、先の学習条件では、操作音区間ではゼロにしようとしている。このため、音声区間に切り替わった直後は、操作音と同様に音声もかなり抑圧される。また、音声区間では、入力信号を保持しようとする。このため、入力信号に含まれる操作音は、時間とともに徐々に抑圧できなくなってしまう。以下では、これらを解決するためのフィルタ算出部106の構成について説明する。
ここで、図13を参照して、上記問題を解決するための、フィルタ算出部106のフィルタ係数の算出機能について説明する。図13は、フィルタ算出部106の機能構成を示すブロック図である。図13に示したように、フィルタ算出部106は、図10に示した演算手段120および保持手段122に加えて、結合手段124、音声区間フィルタ保持手段126、操作音区間フィルタ保持手段128などを有する。
音声区間フィルタ保持手段126および操作音区間フィルタ保持手段128は、過去の音声区間や操作音区間のときに得られたフィルタを保持する。結合手段124は、現在のフィルタ係数と、音声区間フィルタ保持手段126および操作音区間フィルタ保持手段128に保持されている過去の音声区間および操作音区間のフィルタの双方を用いて最終的なフィルタとする機能を有する。
図14を参照して、過去のフィルタを用いたフィルタ算出部106によるフィルタ算出処理について説明する。図14は、フィルタ算出部106によるフィルタ算出処理を示すフローチャートである。図14に示したように、まず、演算手段120は、音声検出部102および操作音検出部104からの制御信号を取得する(S152)。ステップS152において取得された制御信号により音声区間であるか否かを判定する(S154)。ステップS154において、音声区間であると判定された場合には、入力信号を保持するようにフィルタ係数の学習W1を行う(S156)。
そして、操作音区間フィルタ保持手段128からH2を読み出す(S158)。ここでH2とは操作音区間フィルタ保持手段128に保持されているデータを示す。そして、結合手段124は、W1とH2を利用して最終的なフィルタWを求める(S160)。また、結合手段124は、WをH1として音声区間フィルタ保持部126に保持する(S162)。
ステップS154において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S164)。ステップS164において、操作音区間であると判定された場合には、出力信号がゼロになるようにフィルタ係数W1の学習を行う(S166)。そして、音声区間フィルタ保持手段126からH1を読み出す(S168)。ここで、H1とは音声区間フィルタ保持手段126に保持されているデータを示す。そして、結合手段124は、W1とH1を利用して最終的なフィルタWを求める(S170)。また、結合手段124は、WをH2として音声区間フィルタ保持手段128へ保存する(S172)。
ここで、結合手段124において、どのように最終的なフィルタを算出するかについて説明する。上記したフィルタW1の算出は、上記したフィルタ係数の学習係数と同様の算出処理により求められる。音声区間におけるフィルタWは以下の数式により求められる。
また、操作音区間におけるフィルタWは以下の数式により求められる。
このように、音声区間でも操作音区間の情報を利用し、操作音区間でも音声区間の情報を利用するため、結合手段124により求められるフィルタWは、音声区間および操作区間の相補的な特徴を有していることとなる。
図2に戻り、音声処理装置100の機能構成の説明を続ける。特徴量算出部110は、音声区間における音声信号の特徴量と非定常音区間(操作音区間)における非定常音信号(操作音信号)の特徴量とをそれぞれ算出する機能を有する。また、フィルタ算出部106は、音声区間で操作音信号の特徴量を利用し、操作音区間で音声信号の特徴量を利用してフィルタ係数を算出する。これにより、音声区間においても、効果的に操作音を抑圧することが可能となる。
ここで、図15を参照して、特徴量算出部110における特徴量算出機能について説明する。図15に示したように、特徴量算出部110は、演算手段130、保持手段132などを有する。演算手段130は、現在の入力信号と区間情報(制御情報)に基づいて、音声の特徴および操作音の特徴を算出し、保持手段132に保持する。そして、必要に応じて保持手段132から過去のデータを参照し、現在のデータと平滑化する。保持手段132には、音声および操作音のそれぞれについて、過去の特徴量が保持されている。
次に、図16を参照して、特徴量算出部110における特徴量算出処理について説明する。図16は、特徴量算出部110による特徴量算出処理を示すフローチャートである。図16に示したように、演算手段130は、音声検出部102および操作音検出部104からの制御信号を取得する(S174)。そして、ステップS174において取得された制御信号により音声区間であるか否かを判定する(S176)。ステップS176において、音声区間であると判定された場合には、音声の特徴量を算出する(S178)。
一方、ステップS176において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S180)。ステップS180において、操作音区間であると判定された場合には、操作音の特徴量を算出する(S182)。
音声の特徴量および操作音の特徴量としては、例えば、信号のエネルギーに基づく以下の相関行列Rxおよび相関ベクトルVxを利用することができる。
エネルギーは各要素の二乗の和なので、ベクトルの内積となる。ここで、wを以下のように定義する。
wを上記のように定義するとEは、以下の数式で表される。
つまり、入力信号に対して、ある重荷wと相関行列があればエネルギーを算出することができる。また、上記した相関行列を用いることにより、音声区間の学習規則を拡張することができる。すなわち、拡張前は、入力信号をなるべく保つようにフィルタを学習していたが、拡張後は、入力信号はなるべく保ちつつ、操作音成分はなるべく抑えるようにフィルタを学習することができる。本実施形態では、操作音区間を検出しているため、操作音のみを含む相関行列Rkを算出することができる。したがって、あるフィルタwを掛けたときの操作音成分のエネルギーEkは以下の通りとなる。
よって、音声区間についての拡張された学習規則は、次の数式で記述できる。Εkはある正の定数である。
また、操作音区間についても音声区間と同様に拡張することができる。すなわち、拡張前は出力信号をゼロに近づけるようにフィルタを学習していたが、拡張後は出力信号はなるべくゼロに近づけるが、音声成分はなるべく保つようにフィルタを学習する。相関ベクトルは、下記のようにある時間遅れがある信号と、入力ベクトルの相関である。
音声成分を保つということは、フィルタリングの結果、音声信号はそのまま出力されるということとなる。理想的には、以下の数式となる。
上記を踏まえ、特徴量算出部110の動作について説明する。図17は、特徴量算出部110の動作を示すフローチャートである。図17に示したように、特徴量算出部110の演算手段130は、音声検出部102および操作音検出部104からの制御信号を取得する(S190)。そして、ステップS190において取得された制御信号により音声区間であるか否かを判定する(S192)。
ステップS192において、音声区間であると判定された場合には、演算手段130は、入力信号に対して相関行列、相関ベクトルを算出し、これらを保持手段132に保持し、出力する(S194)。また、ステップS192において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S196)。ステップS196において、操作音区間であると判定された場合には、演算手段130は、入力信号に対して相関行列を算出し、保持手段132に保持し、出力する(S198)。
また、特徴量算出部110により算出された特徴量を用いた場合のフィルタ算出部106の学習規則について説明する。以下では、LMSアルゴリズムを用いた場合について説明するが、かかる例に限定されず、学習同定法などであってもよい。
フィルタ算出部106による音声区間の学習規則は以下の数式により表される。
また、操作音区間の学習規則は以下の数式により表される。
このように、ある区間でのフィルタ更新に対して、別の区間の特徴を入れることで、音声区間でも操作音を抑圧することが可能となる。また、特に音声が始まった直後に音声が非常に小さくなることを避けることが可能となる。
また、操作音区間では、Rx、Vxをそのまま使用せずに、時間遅れτのところだけを利用してもよい。この場合は以下のように簡易化することができる。なお、τはフィルタの群遅延にしておくのが好ましい。
つまり、r_τは、相関行列Rxのτ行目のみを切り出したベクトルになる。
また、v_τは、相関ベクトルVxのτ番目の値を取り出したものになる。
つまり、r_τは、相関行列Rxのτ行目のみを切り出したベクトルになる。
また、v_τは、相関ベクトルVxのτ番目の値を取り出したものになる。
以上、特徴量算出部110について説明した。図2に戻り、音声処理装置100の機能構成の説明を続ける。フィルタ部108は、フィルタ算出部106により算出されたフィルタを利用して、マイクロホンから入力された音声にフィルタを掛ける。これにより、音声区間では、音質を保ちつつ、雑音の抑圧を行うことが可能となり、操作音区間では、信号が音声区間と滑らかにつながるような雑音抑圧を実現することが可能となる。
本実施形態にかかる音声処理装置100または200は、口元以外に耳元にもマイクを備えているブームマイク付きヘッドセットや携帯電話やBluetoothのヘッドセットや、コールセンターやWeb会議に用いられるヘッドセット、ICレコーダやビデオ会議システム、ノートPCの本体に付加されたマイクを用いたWeb会議やボイスチャットに利用した多人数で行うオンラインネットゲームに適用することができる。
本実施形態によれば、周囲の雑音や自身の発生する操作音を気にせず、快適に音声通話を行うことが可能となる。また、音声区間と雑音区間の区間毎の切り替わりにおける不連続性を小さくし、違和感のない雑音抑圧音声を出力することが可能となる。また、区間毎に最適な処理を実行することにより、効率よく操作音を低減することが可能となる。また、受話側は、操作音等の雑音が低減された通話相手の音声のみを聞き取ることが可能となる。以上、第1実施形態について説明した。
<3.第2実施形態>
次に、第2実施形態について説明する。第1実施形態では、音声と操作音が存在するとして、音声区間と非定常音区間(操作音区間)とを検出したが、本実施形態では、音声と操作音に加えて背景雑音も存在する場合について説明する。本実施形態では、入力信号を、音声が存在する音声区間と、操作音等の非定常的な雑音が存在する非定常音区間と、エアコンなどから発生される定常的な背景雑音が存在する定常音区間とを検出して、各区間に適したフィルタを算出する。以下では、第1実施形態と同様の構成についての説明は省略し、第1実施形態と異なる構成について特に詳細に説明する。
次に、第2実施形態について説明する。第1実施形態では、音声と操作音が存在するとして、音声区間と非定常音区間(操作音区間)とを検出したが、本実施形態では、音声と操作音に加えて背景雑音も存在する場合について説明する。本実施形態では、入力信号を、音声が存在する音声区間と、操作音等の非定常的な雑音が存在する非定常音区間と、エアコンなどから発生される定常的な背景雑音が存在する定常音区間とを検出して、各区間に適したフィルタを算出する。以下では、第1実施形態と同様の構成についての説明は省略し、第1実施形態と異なる構成について特に詳細に説明する。
図18は、音声処理装置200の機能構成を示すブロック図である。図18に示したように、音声処理装置200は、音声検出部102、操作音検出部104、フィルタ部108、特徴量算出部202、フィルタ算出部204などを備える。図19を参照して、特徴量算出部202の特徴量算出処理について説明する。
図19は、特徴量算出部202による特徴量算出処理を示すフローチャートである。図19に示したように、特徴量算出部202の演算手段(図示せず)は、音声検出部102および操作音検出部104からの制御信号を取得する(S202)。そして、ステップS202において取得された制御信号により音声区間であるか否かを判定する(S204)。ステップS204において、音声区間であると判定された場合には、音声の特徴量を算出する(S206)。
ステップS204において、音声区間ではないと判定された場合には操作音区間であるか否かを判定する(S208)。ステップS208において、操作音区間であると判定された場合には、操作音の特徴量を算出する(S210)。また、ステップS208において、操作音区間ではないと判定された場合には、背景雑音の特徴量を算出する(S212)。
また、特徴量算出部202の保持手段において、音声の特徴として相関行列Rs、相関ベクトルVsを有し、操作音の特徴として相関行列Rk、相関ベクトルVkを有し、背景雑音の特徴として相関行列Rn、相関ベクトルVnを有している場合には、図20に示した処理を実行する。
図20に示したように、まず、演算手段は、入力信号に対して相関行列Rx、相関ベクトルVxを算出する(S220)。そして、演算手段は音声検出部102および操作音検出部104からの制御信号を取得する(S222)。そして、ステップS222において取得された制御信号により音声区間であるか否かを判定する(S224)。
ステップS224において、音声区間であると判定された場合には、保持手段からRn、Vnを読み出して、Rs=Rx−Rn、Vs=Vx−Vnを算出して、これらを保持手段に保存する(S226)。ステップS226においては、背景雑音の分を減算する。またRs、Vsなどは保存する前に、すでに保存されている値と適当に平滑化してもよい。
また、ステップS224において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S228)。ステップS228において、操作音区間であると判定された場合には、保持手段からRn、Vnを読み出して、Rk=Rx−Rn、Vk=Vx−Vnを算出して、これらを保持手段に保存する(S230)。ステップS230においては、背景雑音の分を減算しているが、操作音は非常に小さいため引き算を行わなくてもよい。
また、ステップS228において、操作音区間ではないと判定された場合には、Rn=Rx、Vn=Vxとして、これらを保持手段に保存する(S232)。
次に、図21を参照して、フィルタ算出部204のフィルタ算出処理について説明する。図21は、フィルタ算出部204によるフィルタ算出処理を示すフローチャートである。図21に示したように、まず、フィルタ算出部204の演算手段(図示せず)は、音声検出部102および操作音検出部104からの制御信号を取得する(S240)。そして、ステップS240において取得された制御信号により音声区間であるか否かを判定する(S242)。
ステップS242において、音声区間であると判定された場合には、入力信号を保持するようフィルタ係数の学習を行う(S244)。ステップS242において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S246)。ステップS246において操作音区間であると判定された場合には、出力信号がゼロになるようフィルタ係数の学習を行う(S248)。ステップS246において操作音区間ではないと判定された場合には、出力信号がゼロになるようフィルタ係数の学習を行う(S250)。
次に、特徴量算出部202により算出された特徴量を用いた場合のフィルタ算出部204の学習規則について説明する。以下では、第1実施形態と同様にLMSアルゴリズムを用いた場合について説明するが、かかる例に限定されず、学習同定法などであってもよい。
フィルタ算出部204による音声区間の学習規則は以下の数式により表される。
ここでは、cは0≦c≦1の値であり、操作音、背景雑音の抑圧の割合を決める値である。
すなわち、cの値を小さくすることで操作音成分の抑圧を強めることが可能になる。
ここでは、cは0≦c≦1の値であり、操作音、背景雑音の抑圧の割合を決める値である。
すなわち、cの値を小さくすることで操作音成分の抑圧を強めることが可能になる。
また、操作音区間の学習規則は以下の数式により表される。
操作音区間においては、操作音を大きく抑圧し、背景雑音は違和感なく音声区間とつながる、という条件を満たすために、β(0≦β≦1)を大きな値に設定し、γ(0≦γ≦1)は、βより小さい値にすることが望ましい。
また、背景雑音区間の学習規則は以下の数式により表される。
このように、本実施形態にかかる音声処理装置200によれば、背景雑音が存在する環境において、音声区間では雑音の抑圧を小さめにして音声を改善することが可能となる。また、操作音区間では、操作音を大きく抑圧し、背景雑音区間では音声区間と滑らかにつながるように雑音を抑圧することが可能となる。以上、第2実施形態について説明した。
<4.第3実施形態>
次に、図22を参照して、第3実施形態について説明する。図22に示したように、本実施形態は、拘束条件検定部302を備える点で第1実施形態と異なっている。以下、第1実施形態と異なる構成について特に詳細に説明する。
次に、図22を参照して、第3実施形態について説明する。図22に示したように、本実施形態は、拘束条件検定部302を備える点で第1実施形態と異なっている。以下、第1実施形態と異なる構成について特に詳細に説明する。
拘束条件検定部302は、本発明の検定部の一例である。拘束条件検定部302は、フィルタ算出部106により算出されるフィルタ係数の拘束条件を検定する機能を有する。具体的には、拘束条件検定部302は、特徴量算出部110により算出された各区間における特徴量に基づいてフィルタ係数の拘束条件を検定する。拘束条件検定部302は、背景雑音区間と音声区間において、残留雑音量を一定にするようにフィルタ係数を拘束する。これにより、背景雑音と音声区間の切り替わるときに突然雑音が大きくなるということを防ぎ、違和感のない音声を出力することができる。
次に、図23を参照して、拘束条件検定部302の機能について説明する。図23は、拘束条件検定部302の機能を示すブロック図である。図23に示したように、演算手段304は、特徴量算出部110から提供される特徴量と、フィルタ算出部106が有する現在のフィルタ係数を利用して、所定の評価値を算出する。そして、判定手段306は、保持手段308に保持されている値と演算手段304により算出された評価値とを比較して判定する。設定手段310は、判定手段306による判定結果に応じてフィルタ算出部106のフィルタ係数を設定する。
次に、図24を参照して、拘束条件検定部302による拘束条件の検定処理について説明する。図24は、拘束条件検定部302による拘束条件の検定処理を示すフローチャートである。図24に示したように、まず、演算手段304は、音声検出部102および操作音検出部104からの制御信号を取得する(S302)。そして、ステップS302において取得された制御信号により音声区間であるか否かを判定する(S304)。
ステップS304において、音声区間であると判定された場合には、背景雑音および操作音についての評価値を算出する(S306)。また、ステップS304において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S308)。ステップS308において、操作音区間であると判定された場合には、音声成分について評価値を算出する(S310)。また、ステップS308において、操作音区間ではないと判定された場合には、音声成分について評価値を算出する(S312)。
そして、ステップS306、ステップS310、ステップS312において算出された評価値が所定の条件を満たすか否かを判定する(S314)。ステップS314において、評価値が条件を満たすと判定された場合には処理を終了する。ステップS314において、評価値が条件を満たしていないと判定された場合には、フィルタ算出部106におけるフィルタ係数を設定する(S316)。
以下では、拘束条件検定部302が特徴量算出部110から得られる相関行列、相関ベクトルを利用した場合について説明する。拘束条件検定部302は各特徴量から、音声成分の劣化量、背景雑音成分の抑圧量、操作音成分の抑圧量をそれぞれ以下の数式で定義する。
そして、音声区間においては、P2およびP3の値が閾値より大きいか否かを判定する。また、背景雑音区間においては、P1が閾値より大きいか否かを判定する。また、操作音区間においては、P1が閾値より大きいか否かを判定する。
上記した拘束条件検定部302による検定結果に応じて、フィルタ算出部106のフィルタ係数をどのように制御するかを説明する。背景雑音区間のフィルタ係数の制御を例示して説明する。背景雑音区間におけるフィルタ学習規則は以下のように表される。
ここで、上記判定により、P1が閾値より大きいと判定された場合は、音声の劣化が大きいため、音声が劣化しないように制御する。すなわち、γの値を小さくする。また、上記判定により、P1が閾値より小さいと判定された場合は、音声の劣化が小さいため、もう少し背景雑音を抑圧するように制御する。すなわち、γの値を大きくする。このように、フィルタ算出部106に対して誤差の重み係数を可変にして、制御を行うことが可能となる。
次に、図25を参照して、拘束条件検定部302の具体的な処理について説明する。図25は、拘束条件検定部302の具体的な処理を示すフローチャートである。図25に示したように、まず、演算手段304は、音声検出部102および操作音検出部104からの制御信号を取得する(S320)。そしてステップS320において取得された制御信号により音声区間であるか否かを判定する(S322)。ステップS322において、音声区間であると判定された場合には、以下の数式により背景雑音成分および操作音成分の抑圧量を算出する(S324)。
そして、ステップS324において算出された抑圧量Pが閾値Pth_sp1より小さいか否かを判定する(S326)。ここで、雑音の抑圧量の閾値Pth_sp1は以下の数式により算出される。
ステップS326において、抑圧量Pが閾値Pth_sp1より小さいと判定された場合には、フィルタ係数αの値を大きく(α=α+Δα)する(S328)。また、抑圧量Pが閾値Pth_1より大きいと判定された場合には、フィルタ係数αの値を小さく(α=α−Δα)する(S330)。
ステップS322において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する(S332)。ステップS332において、操作音区間であると判定された場合には、操作音の抑圧量P3を算出する(S334)。そして、Pth_3を更新(Pth_3=P3)する(S336)。そして、音声成分の劣化量(P=P1)を算出する(S338)。
そして、ステップS338において算出された劣化量Pが劣化量の閾値Pth_sp3より小さいか否かを判定する(S340)。ステップS340における閾値Pth_sp3は、予め外部から与えられる。ステップS340において、劣化量Pが閾値Pth_sp3より小さいと判定された場合には、フィルタ係数βの値を大きく(β=β+Δβ)する(S342)。ステップS340において、劣化量Pが閾値Pth_sp3より大きいと判定された場合には、フィルタ係数βの値を小さく(β=β−Δβ)する(S342)。
ステップS332において、操作音区間ではないと判定された場合には、背景雑音の抑圧量P2を算出する(S346)。そして、そして、Pth_2を更新(Pth_2=P2)する(S348)。そして、音声成分の劣化量(P=P1)を算出する(S350)。
そして、ステップS350において算出された劣化量Pが劣化量の閾値Pth_sp2より小さいか否かを判定する(S352)。ステップS352における閾値Pth_sp2は、予め外部から与えられる。ステップS352において、劣化量Pが閾値Pth_sp2より小さいと判定された場合には、フィルタ係数γの値を大きく(γ=γ+Δγ)する(S354)。ステップS352において、劣化量Pが閾値Pth_sp2より大きいと判定された場合には、フィルタ係数γの値を小さく(γ=γ−Δγ)する(S356)。
以上、第3実施形態について説明した。第3実施形態によれば、雑音を抑圧するだけでなく、最終的に出力される音声を違和感のない音声とすることが可能となる。
<5.第4実施形態>
次に、第4実施形態について説明する。図26は、本実施形態にかかる音声処理装置400の機能構成を示すブロック図である。本実施形態は、定常雑音抑圧部402、404を備えている点で第1実施形態と異なっている。以下では、第1実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部402、404は操作音を抑圧する前に、予め背景雑音を抑圧する。これにより、後段の処理において操作音の抑圧を効率的に行うことが可能となる。定常雑音抑圧部402では、周波数領域でのスペクトルサブトラクションや、時間領域でのWienerFilterなど、いずれを用いてもよい。
次に、第4実施形態について説明する。図26は、本実施形態にかかる音声処理装置400の機能構成を示すブロック図である。本実施形態は、定常雑音抑圧部402、404を備えている点で第1実施形態と異なっている。以下では、第1実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部402、404は操作音を抑圧する前に、予め背景雑音を抑圧する。これにより、後段の処理において操作音の抑圧を効率的に行うことが可能となる。定常雑音抑圧部402では、周波数領域でのスペクトルサブトラクションや、時間領域でのWienerFilterなど、いずれを用いてもよい。
<6.第5実施形態>
次に、第5実施形態について説明する。図27は、本実施形態にかかる音声処理装置500の機能構成を示すブロック図である。本実施形態では、定常雑音抑圧部502を備えている点で第1実施形態と異なっている。以下では、第1実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部502はフィルタ部108の後段に設けられ、操作音、背景雑音の抑圧を行った後、更に残る残留雑音を低減することができる。
次に、第5実施形態について説明する。図27は、本実施形態にかかる音声処理装置500の機能構成を示すブロック図である。本実施形態では、定常雑音抑圧部502を備えている点で第1実施形態と異なっている。以下では、第1実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部502はフィルタ部108の後段に設けられ、操作音、背景雑音の抑圧を行った後、更に残る残留雑音を低減することができる。
<7.第6実施形態>
次に、第6実施形態について説明する。図28は、本実施形態にかかる音声処理装置600の機能構成を示すブロック図である。本実施形態では、定常雑音抑圧部602、604を備えている点で第1実施形態と異なっている。以下では、第1実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部602は、あるチャネルに対して設けられる。また、音声区間におけるフィルタ算出に、定常雑音抑圧部602の出力を利用している。
次に、第6実施形態について説明する。図28は、本実施形態にかかる音声処理装置600の機能構成を示すブロック図である。本実施形態では、定常雑音抑圧部602、604を備えている点で第1実施形態と異なっている。以下では、第1実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部602は、あるチャネルに対して設けられる。また、音声区間におけるフィルタ算出に、定常雑音抑圧部602の出力を利用している。
音声区間におけるフィルタ学習規則は以下の数式により表される。
これまでは、背景雑音を含んだ入力信号そのものを利用していたが、本実施形態では、
このように、簡易的に定常雑音を抑圧した信号を利用することにより、フィルタ部108での定常雑音の抑圧効果を上げることが可能となる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、本明細書の音声処理装置100、200、300、400、500、600の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。すなわち、音声処理装置100、200、300、400、500、600の処理における各ステップは、異なる処理であっても並列的に実行されてもよい。
また、音声処理装置100、200、300、400、500、600に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した音声処理装置100、200、300、400、500、600の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
100、200、300、400、500、600 音声処理装置
102 音声検出部
104 操作音検出部
106、204 フィルタ算出部
108 フィルタ部
110、202 特徴量算出部
302 拘束条件検定部
402、404、502、602、604 定常雑音抑圧部
102 音声検出部
104 操作音検出部
106、204 フィルタ算出部
108 フィルタ部
110、202 特徴量算出部
302 拘束条件検定部
402、404、502、602、604 定常雑音抑圧部
Claims (13)
- 入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、
前記区間検出部による検出の結果に応じて、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、
を備え、
前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で前記音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置。 - 前記フィルタ算出部により算出された前記フィルタ係数の情報を区間毎に記憶部に記録する記録部を備え、
前記フィルタ算出部は、前記音声区間で前記記録された前記非定常音区間の前記フィルタ係数の情報を利用し、前記非定常音区間で前記記録された前記音声区間の前記フィルタ係数の情報を利用して前記フィルタ係数を算出する、請求項1に記載の音声処理装置。 - 前記フィルタ算出部は、前記音声区間では前記入力信号が保持された信号を出力するフィルタ係数を算出し、前記非定常音区間では前記入力信号がゼロとなる信号を出力するフィルタ係数を算出する、請求項1に記載の音声処理装置。
- 前記音声区間における前記音声信号の特徴量と前記非定常音区間における非定常音信号の特徴量とをそれぞれ算出する特徴量算出部を備え、
前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出する、請求項1に記載の音声処理装置。 - 前記区間検出部は、前記音声信号または前記非定常的な信号以外の定常的な信号を含む定常音区間を検出し、
前記フィルタ算出部は、前記定常音区間では前記定常的な信号を抑圧するフィルタ係数を算出する、請求項1に記載の音声処理装置。 - 前記特徴量算出部は、前記定常音区間における定常音信号の特徴量を算出する、請求項5に記載の音声処理装置。
- 前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量および前記定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用し、前記定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出する、請求項6に記載の音声処理装置。
- 前記フィルタ算出部により算出される前記フィルタ係数の拘束条件を検定する検定部を備え、
前記検定部は、前記特徴量算出部により算出された各区間における前記特徴量に基づいて前記フィルタ係数の拘束条件を検定する、請求項1に記載の音声処理装置。 - 前記検定部は、前記非定常音区間の前記非定常音信号の抑圧量と前記定常音区間の前記定常音信号の抑圧量が所定の閾値以下か否かにより前記音声区間での前記フィルタ係数の拘束条件を検定する、請求項8に記載の音声処理装置。
- 前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記非定常音区間での前記フィルタ係数の拘束条件を検定する、請求項8に記載の音声処理装置。
- 前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記定常音区間での前記フィルタ係数の拘束条件を検定する、請求項8に記載の音声処理装置。
- 入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出するステップと、
前記検出の結果に応じて、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用して前記音声信号を保持し、前記非定常音区間では前記音声区間において算出されたフィルタ係数を利用して前記非定常的な信号を抑圧するステップと、
を含む、音声処理方法。 - コンピュータを、
入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、
前記区間検出部による検出の結果、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、
を備え、
前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010059622A JP2011191668A (ja) | 2010-03-16 | 2010-03-16 | 音声処理装置、音声処理方法およびプログラム |
US13/041,705 US8510108B2 (en) | 2010-03-16 | 2011-03-07 | Voice processing device for maintaining sound quality while suppressing noise |
CN201110060856.4A CN102194463B (zh) | 2010-03-16 | 2011-03-09 | 语音处理装置、语音处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010059622A JP2011191668A (ja) | 2010-03-16 | 2010-03-16 | 音声処理装置、音声処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011191668A true JP2011191668A (ja) | 2011-09-29 |
Family
ID=44602414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010059622A Withdrawn JP2011191668A (ja) | 2010-03-16 | 2010-03-16 | 音声処理装置、音声処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8510108B2 (ja) |
JP (1) | JP2011191668A (ja) |
CN (1) | CN102194463B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014504743A (ja) * | 2010-12-29 | 2014-02-24 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 雑音抑圧方法及び当該雑音抑圧方法を適用するための雑音抑圧器 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140072143A1 (en) * | 2012-09-10 | 2014-03-13 | Polycom, Inc. | Automatic microphone muting of undesired noises |
CN103594092A (zh) * | 2013-11-25 | 2014-02-19 | 广东欧珀移动通信有限公司 | 一种单麦克风语音降噪方法和装置 |
US10181329B2 (en) * | 2014-09-05 | 2019-01-15 | Intel IP Corporation | Audio processing circuit and method for reducing noise in an audio signal |
US10242689B2 (en) | 2015-09-17 | 2019-03-26 | Intel IP Corporation | Position-robust multiple microphone noise estimation techniques |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5098889A (en) | 1990-09-17 | 1992-03-24 | E. R. Squibb & Sons, Inc. | Method for preventing or inhibiting loss of cognitive function employing a combination of an ace inhibitor and a drug that acts at serotonin receptors |
JP2000047696A (ja) * | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
JP3484112B2 (ja) | 1999-09-27 | 2004-01-06 | 株式会社東芝 | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
JP3566197B2 (ja) * | 2000-08-31 | 2004-09-15 | 松下電器産業株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
US7613310B2 (en) * | 2003-08-27 | 2009-11-03 | Sony Computer Entertainment Inc. | Audio input system |
CN100392723C (zh) * | 2002-12-11 | 2008-06-04 | 索夫塔马克斯公司 | 在稳定性约束下使用独立分量分析的语音处理系统和方法 |
JP4247037B2 (ja) | 2003-01-29 | 2009-04-02 | 株式会社東芝 | 音声信号処理方法と装置及びプログラム |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US7426464B2 (en) * | 2004-07-15 | 2008-09-16 | Bitwave Pte Ltd. | Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition |
US8131541B2 (en) * | 2008-04-25 | 2012-03-06 | Cambridge Silicon Radio Limited | Two microphone noise reduction system |
FR2950461B1 (fr) * | 2009-09-22 | 2011-10-21 | Parrot | Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
-
2010
- 2010-03-16 JP JP2010059622A patent/JP2011191668A/ja not_active Withdrawn
-
2011
- 2011-03-07 US US13/041,705 patent/US8510108B2/en active Active
- 2011-03-09 CN CN201110060856.4A patent/CN102194463B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014504743A (ja) * | 2010-12-29 | 2014-02-24 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 雑音抑圧方法及び当該雑音抑圧方法を適用するための雑音抑圧器 |
US9264804B2 (en) | 2010-12-29 | 2016-02-16 | Telefonaktiebolaget L M Ericsson (Publ) | Noise suppressing method and a noise suppressor for applying the noise suppressing method |
Also Published As
Publication number | Publication date |
---|---|
US8510108B2 (en) | 2013-08-13 |
CN102194463B (zh) | 2015-09-23 |
CN102194463A (zh) | 2011-09-21 |
US20110231187A1 (en) | 2011-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11587575B2 (en) | Hybrid noise suppression | |
US9113241B2 (en) | Noise removing apparatus and noise removing method | |
US8428946B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
JP5000647B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
JP6636937B2 (ja) | 状況に応じた過渡抑制 | |
US9042576B2 (en) | Signal processing method, information processing apparatus, and storage medium for storing a signal processing program | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US9357307B2 (en) | Multi-channel wind noise suppression system and method | |
US9564144B2 (en) | System and method for multichannel on-line unsupervised bayesian spectral filtering of real-world acoustic noise | |
US20200312342A1 (en) | Audio processing system for speech enhancement | |
JP2011191668A (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP2011191669A (ja) | 音声処理装置、音声処理方法およびプログラム | |
CN106161751A (zh) | 一种噪声抑制方法及装置 | |
JP4866958B2 (ja) | コンソール上にファーフィールドマイクロフォンを有する電子装置におけるノイズ除去 | |
CN106558315A (zh) | 异质麦克风自动增益校准方法及系统 | |
CN109859769B (zh) | 一种掩码估计方法及装置 | |
US20200072799A1 (en) | Hypothesis-based Estimation of Source Signals from Mixtures | |
JP2007047427A (ja) | 音声処理装置 | |
Morita et al. | Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments | |
Strasser et al. | Correlation detection for adaptive feedback cancellation in hearing aids | |
Tabibian et al. | A new wavelet thresholding method for speech enhancement based on symmetric Kullback-Leibler divergence | |
Usta et al. | Speech protected noise cancellation system in noise dominated environments | |
JP6519801B2 (ja) | 信号解析装置、方法、及びプログラム | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
WO2018087855A1 (ja) | エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130604 |