JP2011191668A

JP2011191668A - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP2011191668A
Application number: JP2010059622A
Authority: JP
Inventors: Toshiyuki Sekiya; 俊之関矢; Mototsugu Abe; 素嗣安部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-16
Filing date: 2010-03-16
Publication date: 2011-09-29
Also published as: US8510108B2; CN102194463A; CN102194463B; US20110231187A1

Abstract

【課題】非常に短い時間に偏り集中する雑音が発生する時間領域を検出して、該雑音を十分に抑圧する。
【解決手段】音声処理装置１００は、入力信号から音声信号を含む音声区間または音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部１０２、１０４と、区間検出部による検出の結果、音声区間では音声信号を保持し、非定常音区間では非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部１０６と、を備え、フィルタ算出部１０６は、音声区間で非定常音区間において算出されたフィルタ係数を利用し、非定常音区間で音声区間において算出されたフィルタ係数を利用してフィルタ係数を算出する。
【選択図】図２

Description

本発明は、音声処理装置、音声処理方法およびプログラムに関する。

従来から、雑音が入力している入力音声に対して、雑音を抑圧する技術が開示されている（例えば、特許文献１および２）。上記特許文献１では、複数のマイクから得られる信号の方向性を検出して、検出した結果に応じたスペクトルサブストラクションを行って雑音を抑圧している。また、上記特許文献２では、マルチチャネル処理のあと、チャネル間の相互相関を利用して、雑音を抑圧している。

特許第３４８４１１２号公報特許第４２４７０３７号公報

しかし、特許文献１では、周波数領域で処理を行っているため、操作音などの非常に短い時間に集中している雑音を扱うと、その偏りが全周波数に広がってしまい十分な雑音抑圧をすることができないという問題があった。また、特許文献２では、突発性の雑音の抑圧のために、パワースペクトルを修正し、拡張された相互相関を利用して周波数領域で処理を行っているが、特許文献１と同様に操作音のような非常に短い信号に対して十分な雑音抑圧をすることができないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、非常に短い時間に偏り集中する雑音が発生する時間区間を検出して、該雑音を十分に抑圧することが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、前記区間検出部による検出の結果に応じて、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、を備え、前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で前記音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置が提供される。

また、前記フィルタ算出部により算出された前記フィルタ係数の情報を区間毎に記憶部に記録する記録部を備え、前記フィルタ算出部は、前記音声区間で前記記録された前記非定常音区間の前記フィルタ係数の情報を利用し、前記非定常音区間で前記記録された前記音声区間の前記フィルタ係数の情報を利用して前記フィルタ係数を算出してもよい。

前記フィルタ算出部は、前記音声区間では前記入力信号が保持された信号を出力するフィルタ係数を算出し、前記非定常音区間では前記入力信号がゼロとなる信号を出力するフィルタ係数を算出してもよい。

また、前記音声区間における前記音声信号の特徴量と前記非定常音区間における非定常音信号の特徴量とをそれぞれ算出する特徴量算出部を備え、前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出してもよい。

また、前記区間検出部は、前記音声信号または前記非定常的な信号以外の定常的な信号を含む定常音区間を検出し、前記フィルタ算出部は、前記定常音区間では前記定常的な信号を抑圧するフィルタ係数を算出してもよい。

また、前記特徴量算出部は、前記定常音区間における定常音信号の特徴量を算出してもよい。

また、前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量および前記定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用し、前記定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出してもよい。

また、前記フィルタ算出部により算出される前記フィルタ係数の拘束条件を検定する検定部を備え、前記検定部は、前記特徴量算出部により算出された各区間における前記特徴量に基づいて前記フィルタ係数の拘束条件を検定してもよい。

また、前記検定部は、前記非定常音区間の前記非定常音信号の抑圧量と前記定常音区間の前記定常音信号の抑圧量が所定の閾値以下か否かにより前記音声区間での前記フィルタ係数の拘束条件を検定してもよい。

また、前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記非定常音区間での前記フィルタ係数の拘束条件を検定してもよい。

また、前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記定常音区間での前記フィルタ係数の拘束条件を検定してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出するステップと、前記検出の結果に応じて、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用して前記音声信号を保持し、前記非定常音区間では前記音声区間において算出されたフィルタ係数を利用して前記非定常的な信号を抑圧するステップと、を含む、音声処理方法が提供される。

また、上記課題を解決するために、コンピュータを、入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、前記区間検出部による検出の結果、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、を備え、前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置として機能させるためのプログラムが提供される。

以上説明したように本発明によれば、非常に短い時間に偏り集中する雑音が発生する時間区間を検出して、該雑音を十分に抑圧することができる。

本発明の第１の実施形態に係る概要を説明する説明図である。同実施形態にかかる音声処理装置の機能構成を示すブロック図である。同実施形態にかかるヘッドセットの外形を説明する説明図である。同実施形態にかかる音声検出部の機能構成を示すブロック図である。同実施形態にかかる音声検出処理を示すフローチャートである。同実施形態にかかる操作音検出部の機能構成を示すブロック図である。同実施形態にかかる操作音区間の周波数特性を説明する説明図である。同実施形態にかかる操作音検出処理を示すフローチャートである。同実施形態にかかる操作音検出処理を示すフローチャートである。同実施形態にかかるフィルタ算出部の機能構成を示すブロック図である。同実施形態にかかるフィルタ係数の算出処理を示すフローチャートである。同実施形態にかかる音声区間および操作音区間を説明する説明図である。同実施形態にかかるフィルタ算出部の機能構成を示すブロック図である。同実施形態にかかるフィルタ係数の算出処理を示すフローチャートである。同実施形態にかかる特徴量算出部の機能構成を示すブロック図である。同実施形態にかかる特徴量算出処理を示すフローチャートである。同実施形態にかかる特徴量算出部の動作の詳細を示すフローチャートである。本発明の第２の実施形態にかかる音声処理装置の機能構成を示すブロック図である。同実施形態にかかる特徴量算出処理を示すフローチャートである。同実施形態にかかる特徴量算出処理を示すフローチャートである。同実施形態にかかるフィルタ算出処理を示すフローチャートである。本発明の第３の実施形態にかかる音声処理装置の機能構成を示すブロック図である。同実施形態にかかる拘束条件検定部の機能を示すブロック図である。同実施形態にかかる拘束条件の検定処理を示すフローチャートである。同実施形態にかかる拘束条件の検定処理を示すフローチャートである。本発明の第４の実施形態にかかる音声処理装置の機能構成を示すブロック図である。本発明の第５の実施形態にかかる音声処理装置の機能構成を示すブロック図である。本発明の第６の実施形態にかかる音声処理装置の機能構成を示すブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、以下に示す順序に従って、当該「発明を実施するための形態」を説明する。
１．本実施形態の目的
２．第１実施形態
３．第２実施形態
４．第３実施形態
５．第４実施形態
６．第５実施形態
７．第６実施形態

＜１．本実施形態の目的＞
まず、本実施形態の目的について説明する。従来から、雑音が入力している入力音声に対して、雑音を抑圧する技術が開示されている（例えば、上記特許文献１および２）。上記特許文献１では、複数のマイクから得られる信号の方向性を検出して、検出した結果に応じたスペクトルサブストラクションを行って雑音を抑圧している。また、上記特許文献２では、マルチチャネル処理のあと、チャネル間の相互相関を利用して、雑音を抑圧している。

しかし、特許文献１では、周波数領域で処理を行っているため、操作音などの非常に短い時間に集中している雑音を扱うと、その偏りが全周波数に広がってしまい十分な雑音抑圧をすることができないという問題があった。また、特許文献２では、突発性の雑音の抑圧のために、パワースペクトルを修正し、拡張された相互相関を利用して周波数領域で処理を行っているが、特許文献１と同様に操作音のような非常に短い信号に対して十分な雑音抑圧をすることができないという問題があった。

そこで、複数個のマイクロホンを利用して、時間領域処理により雑音を抑圧することが考えられる。例えば、音声を拾うマイク（主マイク）に対して、雑音のみを拾うマイク（雑音マイク）を異なる位置に設ける。このとき、主マイクの信号から、雑音マイクの信号を引くことにより雑音を除去することができる。ただし、マイクの位置が異なるため、主マイクに入る雑音と雑音マイクに入る雑音信号は等しくない。そこで、音声が存在しないときに学習を行って、２つの雑音信号を一致させることが行われる。

上記技術では、雑音マイクに音声が入力されないようにするために、双方のマイクを十分に離す必要があるが、この場合雑音信号を一致させるための学習が困難となり雑音抑圧性能が下がってしまう。また、双方のマイクを近づけると、雑音マイクに音声が入力されてしまうため、主マイクの信号から雑音マイクの信号の引き算により音声成分も劣化してしまう。

また、すべてのマイクロホンに音声と雑音が観測される状態において、以下のような雑音を抑圧する手法が挙げられる。
（１）Adaptive
Microphone-Array System for Noise Reduction. （ＡＭＮＯＲ）
YUTAKA KANEDA
et al
IEEE Trans On
Acoustics, Speech, AND Signal Processing, vol. ASSP-34,No 6, December 1986
（２）An
Alternative Approach to Linearly Constrained Adaptive Beamforming.
LLOYD J.
GRIFFITHS et al.
IEEE
TRANSACTION ON ANTENNAS AND PROPAGATION, vol. AP-30, No 1, January 1982

上記（１）のＡＭＮＯＲ手法を例示して説明する。ＡＭＮＯＲ手法では、目的音がない区間において、フィルタ係数Ｈの学習を行う。この際、音声成分の劣化が一定以内に収まるように学習を行う。ＡＭＮＯＲ手法を操作音の抑圧に応用した場合、以下の問題点が挙げられる。
（１）ＡＭＮＯＲ手法では、長時間にわたり存在する雑音が一定方向から到来する場合には非常に有効であるが、操作音は短時間のみに存在する非定常音であり、かつ、マウス位置やキーボードは位置に依存するため色々な方向から到来するため、フィルタの学習が十分になされない。
（２）目的音の劣化の制御については、常に雑音が乗るような状況の場合の雑音抑圧に非常に有効であるが、操作音は非定常的に音声に重なるため目的音声の音質をより善くすることが可能となる。

そこで、上記のような事情を一着眼点として、本実施形態にかかる音声処理装置が創作されるに至った。本実施形態にかかる音声処理装置によれば、非常に短い時間に偏り集中する雑音が発生する時間区間を検出して、該雑音を十分に抑圧することが可能となる。具体的には、非定常的に、非常に短い時間に偏り集中する雑音（以降、操作音と称して説明する場合もある。）を抑圧するために、時間領域での処理を行う。また、様々な位置で発生する操作音に対して、複数のマイクロホンを利用し、音声の方向を利用して抑圧をおこなう。また、様々な入力デバイスでの操作音に対応するため、入力信号に応じて、抑圧フィルタを適応的に取得する。さらに、音声の存在する区間でも音質改善のためにフィルタを学習する。

＜２．第１実施形態＞
次に、第１実施形態について説明する。まず、図１を参照して、第１実施形態の概要について説明する。本実施形態では、例えば、ボイスチャット時に通話音声に混入する非定常的な雑音を抑圧することを目的としている。図１に示したようにユーザ１０Ａとユーザ１０ＢがそれぞれＰＣ等を用いてボイスチャットを行っていたとする。このとき、ユーザ１０Ｂが音声を送信する際には、「電車の時間は、、」という音声とともに、マウスやキーボード等を操作する「カチカチ」という操作音入力される。

この操作音は、図１の説明図５０に示したように、音声に対して常に重畳されるものではない。また、操作音を発生させるキーボードやマウスなどの位置は変わるため、雑音の発生位置が変わってしまう。また、キーボードやマウスなどの音は、それぞれ機器の種類に依存して操作音が異なるため、多種の操作音が存在する。

そこで、本実施形態では、入力された信号のうち、音声の区間とマウスやキーボード等の非定常的な音である操作音の区間とを検出し、区間毎に最適な処理を採用することにより効率的に雑音を抑圧する。また、検出された区間に応じて不連続に処理を切り替えるのではなく、連続的に処理が切り替わるようにして音声開始時の違和感を低減する。さらに、区間ごとの処理を行うことにより、音声の劣化量や雑音抑圧量を利用して、最終的な音質のコントロールを可能にしている。

以上、本実施形態の概要について説明した。次に、図２を参照して、音声処理装置１００の機能構成について説明する。図２は、音声処理装置１００の機能構成を示すブロック図である。図２に示したように、音声処理装置１００は、音声検出部１０２、操作音検出部１０４、フィルタ算出部１０６、フィルタ部１０８などを備える。

音声検出部１０２および操作音検出部１０４は、本発明の区間検出部の一例である。音声検出部１０２は、入力信号から音声信号を含む音声区間を検出する機能を有する。入力信号は、例えば、図３に示したように、ヘッドセット２０にマイクロホンが２つ使用され、それぞれ、ヘッドセットの口元にマイク２１、耳元にマイク２２が配置されている。

ここで、図４を参照して、音声検出部１０２による音声検出の機能について説明する。図４に示したように、音声検出部１０２は、演算手段１１２と、比較・判定手段１１４と、保持手段１１６などを有する。演算手段１２２は、２つのマイクロホンから入力される入力エネルギーを算出し、入力エネルギーの差分を算出する。比較・判定手段１１４は、算出された入力エネルギーの差分を所定の閾値より大きいか否かを比較し、比較結果に応じて音声が存在するか否かを判定する。そして、特徴量算出部１１０やフィルタ算出部１０６に音声の有無についての制御信号を提供する。

次に、図５を参照して、音声検出部１０２による音声検出処理について説明する。図５は、音声検出部１０２による音声検出処理を示すフローチャートである。図５に示したように、まず、ヘッドセットに備えられた２つのマイクロホンの各マイクロホンに対して入力エネルギー（Ｅ1、Ｅ2）を算出する（Ｓ１０２）。入力エネルギーは、以下の数式により算出される。ｘ_i(t)は、時刻tにおいて、マイクロホンiで観測される信号を示す。つまり、数1は、区間Ｌ１、Ｌ２における信号のエネルギーを示す。

そして、ステップＳ１０２において算出された入力エネルギーの差分ΔＥ＝Ｅ1−Ｅ2を算出する（Ｓ１０４）。そして、閾値ＥthとステップＳ１０４において算出された入力エネルギーの差分ΔＥを比較する（Ｓ１０６）。

ステップＳ１０６において、閾値Ｅthより差分ΔＥが大きいと判定された場合には、音声が存在すると判定する（Ｓ１０８）。ステップＳ１０６において閾値Ｅthより差分ΔＥＲが小さいと判定された場合には、音声が存在しないと判定する（Ｓ１１０）。

次に、図６を参照して、操作音検出部１０４による操作音検出の機能について説明する。図６に示したように、操作音検出部１０４は、演算手段１１８と、比較・判定手段１１９と、保持手段１２０などを有する。演算手段１１８は、口元のマイクロホン２１からの信号ｘ1に対して、高域通過フィルタを掛けて、エネルギーＥ１を算出する。図７に示したように、操作音は高い周波数を含むため、その特徴を利用し、操作音の検出には１つのマイクロホンの信号だけを利用すれば十分である。

比較・判定手段１１９は、閾値Ｅthと演算手段１１８により算出されたエネルギーＥ１とを比較し、比較結果に応じて操作音が存在するか否かを判定する。そして、特徴量算出部１１０やフィルタ算出部１０６に操作音の有無についての制御信号を提供する。

次に、図８を参照して、操作音検出部１０４による操作音検出処理について説明する。図８は、操作音検出部１０４による操作音検出処理を示すフローチャートである。図８に示したように、まず、ヘッドセットの口元のマイクロホン２１の信号ｘ１に対して高域通過フィルタを掛ける（Ｓ１１２）。ステップＳ１１２において、以下の数式により、ｘ1_hが算出される。

そして、以下の数式によりｘ1_hのエネルギーＥ１を算出する（Ｓ１１４）。

そして、ステップＳ１１４において算出されたエネルギーＥ１が閾値Ｅthより大きいか否かを判定する（Ｓ１１６）。ステップＳ１１６において、エネルギーＥ１が閾値Ｅthより大きいと判定された場合には、操作音が存在すると判定する（Ｓ１１８）。ステップＳ１１６において、エネルギーＥ１が閾値Ｅthより小さいと判定された場合には、操作音が存在しないと判定する（Ｓ１１８）。

上記では、固定的な高域通過フィルタＨを用いて操作音の検出を行った。しかし、操作音は、キーボード、マウスなどにより様々な音、すなわち、種々の周波数を含んでいる。そこで、入力されるデータに応じて動的に高域通過フィルタＨが構成されることが望まれる。以下では、自己回帰モデル（ＡＲモデル）を利用して操作音の検出を行っている。

ＡＲモデルでは、以下の数式で示すように、自分自身の過去の入力サンプルを利用して現在の入力を表す。

この場合。入力が時間的に定常であれば、ａ_iの値はほとんど変わらず。ｅ(t)の値は小さくなる。一方、操作音が入った場合は、それ以前とはまったく異なった信号が入るため、ｅ(t)の値が極めて大きくなる。この特徴を利用して操作音を検出することが可能となる。このように、自身の入力を利用することで、どのような操作音に対しても非定常性という観点から操作音の検出が可能となる。

図９を参照して、ＡＲモデルを利用した操作音の検出処理について説明する。図９は、ＡＲモデルを利用した操作音の検出処理を示すフローチャートである。図９に示したように、まず、ヘッドセットの口元のマイクロホン２１の信号ｘ１に対して、ＡＲ係数を利用し以下の数式により誤差を算出する（Ｓ１２２）。

そして、以下の数式により誤差の２乗Ｅ１を算出する（Ｓ１２４）。

そして、Ｅ１が閾値Ｅthより大きいか否かを判定する（Ｓ１２６）。ステップＳ１２６において、Ｅ１が閾値Ｅthより大きいと判定された場合には、操作音が存在すると判定する（Ｓ１２８）。ステップＳ１２６において、Ｅ１が閾値Ｅthより小さいと判定された場合には、操作音が存在しないと判定する（Ｓ１３０）。そして、現在の入力に対して以下の数式によりＡＲ係数を更新する（Ｓ１３２）。ａ(t)は、時刻ｔにおけるＡＲ係数を示す。μは、小さな正の値の定数である。例えば、μ＝０．０１などを使うことができる。

図２に戻り、音声処理装置１００の機能構成の説明を続ける。フィルタ算出部１０６は、音声検出部１０２および操作音検出部１０４による検出の結果、音声区間では音声信号を保持し、非定常音区間（操作音区間）では非定常的な信号を抑圧するフィルタ係数を算出する機能を有する。また、フィルタ算出部１０６は、音声区間で非定常音区間において算出されたフィルタ係数を利用し、非定常音区間で音声区間において算出されたフィルタ係数を利用する。これにより、区間での切り替わりの不連続性を低減し、操作音が存在する区間でのみフィルタの学習を行って、効率よく操作音の抑圧を行うことができる。

ここで、図１０を参照して、フィルタ算出部１０６のフィルタ係数の算出機能について説明する。図１０に示したように、フィルタ算出部１０６は、演算手段１２０および保持手段１２２などを有する。演算手段１２０は、保持手段１２２に保持されているフィルタ係数を参照し、現在の入力信号と音声検出部１０２および操作音検出部１０４から入力される区間情報(制御信号)とを参照して、フィルタを更新する。更新されたフィルタを保持手段１２２に保持されているフィルタに上書きする。保持手段１２２は、一つ前の更新時のフィルタを保持している。保持手段１２２は、本発明の記録部の一例である。

図１１を参照して、フィルタ算出部１０６のフィルタ係数の算出処理について説明する。図１１は、フィルタ算出部１０６によるフィルタ係数の算出処理を示すフローチャートである。図１１に示したように、まず、演算手段１２０は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ１４２）。ステップＳ１４２において取得する制御信号は、区間情報に関する制御信号であって、音声区間か操作音区間かを区別する制御信号である。

そして、ステップＳ１４２において取得された制御信号により音声区間であるか否かを判定する（Ｓ１４４）。ステップＳ１４４において、音声区間であると判定された場合には、入力信号を保持するようにフィルタ係数の学習を行う（Ｓ１４６）。

また、ステップＳ１４４において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ１４８）。ステップＳ１４８において、操作音区間であると判定された場合には、出力信号がゼロになるようにフィルタ係数の学習を行う（Ｓ１５０）。

ここで、音声区間、操作音区間でのフィルタ係数の学習規則の例について説明する。音声区間では、なるべく入力信号を保ちたいため、フィルタ部１０８の出力がマイクロホンの入力信号に近づくように学習する。ここで、以下のように数式を定義する。
φx_i(t)は、マイクロホンiに入力される時刻ｔからｔ−ｐ＋１までの値を一列に並べたものである。φ(t)は、φx_i(t)をマイクロホン毎に一列に並べた、２ｐ個のベクトルになる。以降、φ(t)を入力ベクトルと呼ぶ。

ＬＭＳアルゴリズムを利用した場合には、以下のように更新される。

操作音区間では、出力をゼロにしたいため、フィルタ部１０８の出力がゼロになるように学習する。

上記では、ＬＭＳアルゴリズムを例示して説明したが、かかる例に限定されず、学習アルゴリズムは学習同定法などのいずれでもよい。

上記した学習規則によれば、入力信号に対して、単に音声区間では１を、音声区間以外では０をかければ十分とも考えられる。図１２に示したように、音声区間では１を、音声区間以外では０をかけた場合には、説明図５５のグラフのイメージとなる。すなわち、操作音のみの区間では０になり、音声区間では１となる。しかし、音声区間の開始を完璧に検出するのは困難であるため、音声の開始部分は欠けてしまい、途中から急に音声が始まってしまうこととなる。これは、聴覚上非常に違和感を感じる現象となる。このため、説明図５６に示したように、連続的に係数を変化させることにより、操作音を抑圧しつつ、音声開始時の違和感を低減させる。

ところで、先の学習条件では、操作音区間ではゼロにしようとしている。このため、音声区間に切り替わった直後は、操作音と同様に音声もかなり抑圧される。また、音声区間では、入力信号を保持しようとする。このため、入力信号に含まれる操作音は、時間とともに徐々に抑圧できなくなってしまう。以下では、これらを解決するためのフィルタ算出部１０６の構成について説明する。

ここで、図１３を参照して、上記問題を解決するための、フィルタ算出部１０６のフィルタ係数の算出機能について説明する。図１３は、フィルタ算出部１０６の機能構成を示すブロック図である。図１３に示したように、フィルタ算出部１０６は、図１０に示した演算手段１２０および保持手段１２２に加えて、結合手段１２４、音声区間フィルタ保持手段１２６、操作音区間フィルタ保持手段１２８などを有する。

音声区間フィルタ保持手段１２６および操作音区間フィルタ保持手段１２８は、過去の音声区間や操作音区間のときに得られたフィルタを保持する。結合手段１２４は、現在のフィルタ係数と、音声区間フィルタ保持手段１２６および操作音区間フィルタ保持手段１２８に保持されている過去の音声区間および操作音区間のフィルタの双方を用いて最終的なフィルタとする機能を有する。

図１４を参照して、過去のフィルタを用いたフィルタ算出部１０６によるフィルタ算出処理について説明する。図１４は、フィルタ算出部１０６によるフィルタ算出処理を示すフローチャートである。図１４に示したように、まず、演算手段１２０は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ１５２）。ステップＳ１５２において取得された制御信号により音声区間であるか否かを判定する（Ｓ１５４）。ステップＳ１５４において、音声区間であると判定された場合には、入力信号を保持するようにフィルタ係数の学習Ｗ１を行う（Ｓ１５６）。

そして、操作音区間フィルタ保持手段１２８からＨ２を読み出す（Ｓ１５８）。ここでＨ２とは操作音区間フィルタ保持手段１２８に保持されているデータを示す。そして、結合手段１２４は、Ｗ１とＨ２を利用して最終的なフィルタＷを求める（Ｓ１６０）。また、結合手段１２４は、ＷをＨ１として音声区間フィルタ保持部１２６に保持する（Ｓ１６２）。

ステップＳ１５４において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ１６４）。ステップＳ１６４において、操作音区間であると判定された場合には、出力信号がゼロになるようにフィルタ係数Ｗ１の学習を行う（Ｓ１６６）。そして、音声区間フィルタ保持手段１２６からＨ１を読み出す（Ｓ１６８）。ここで、Ｈ１とは音声区間フィルタ保持手段１２６に保持されているデータを示す。そして、結合手段１２４は、Ｗ１とＨ１を利用して最終的なフィルタＷを求める（Ｓ１７０）。また、結合手段１２４は、ＷをＨ２として音声区間フィルタ保持手段１２８へ保存する（Ｓ１７２）。

ここで、結合手段１２４において、どのように最終的なフィルタを算出するかについて説明する。上記したフィルタＷ１の算出は、上記したフィルタ係数の学習係数と同様の算出処理により求められる。音声区間におけるフィルタＷは以下の数式により求められる。

また、操作音区間におけるフィルタＷは以下の数式により求められる。

αとβは等しい値であってもよい。

このように、音声区間でも操作音区間の情報を利用し、操作音区間でも音声区間の情報を利用するため、結合手段１２４により求められるフィルタＷは、音声区間および操作区間の相補的な特徴を有していることとなる。

図２に戻り、音声処理装置１００の機能構成の説明を続ける。特徴量算出部１１０は、音声区間における音声信号の特徴量と非定常音区間（操作音区間）における非定常音信号（操作音信号）の特徴量とをそれぞれ算出する機能を有する。また、フィルタ算出部１０６は、音声区間で操作音信号の特徴量を利用し、操作音区間で音声信号の特徴量を利用してフィルタ係数を算出する。これにより、音声区間においても、効果的に操作音を抑圧することが可能となる。

ここで、図１５を参照して、特徴量算出部１１０における特徴量算出機能について説明する。図１５に示したように、特徴量算出部１１０は、演算手段１３０、保持手段１３２などを有する。演算手段１３０は、現在の入力信号と区間情報（制御情報）に基づいて、音声の特徴および操作音の特徴を算出し、保持手段１３２に保持する。そして、必要に応じて保持手段１３２から過去のデータを参照し、現在のデータと平滑化する。保持手段１３２には、音声および操作音のそれぞれについて、過去の特徴量が保持されている。

次に、図１６を参照して、特徴量算出部１１０における特徴量算出処理について説明する。図１６は、特徴量算出部１１０による特徴量算出処理を示すフローチャートである。図１６に示したように、演算手段１３０は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ１７４）。そして、ステップＳ１７４において取得された制御信号により音声区間であるか否かを判定する（Ｓ１７６）。ステップＳ１７６において、音声区間であると判定された場合には、音声の特徴量を算出する（Ｓ１７８）。

一方、ステップＳ１７６において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ１８０）。ステップＳ１８０において、操作音区間であると判定された場合には、操作音の特徴量を算出する（Ｓ１８２）。

音声の特徴量および操作音の特徴量としては、例えば、信号のエネルギーに基づく以下の相関行列Ｒｘおよび相関ベクトルＶｘを利用することができる。

次に、信号のエネルギーが、相関行列とどのように関わってくるかについて説明する。また、相関行列とフィルタの学習についても説明する。

に対して、そのエネルギーは以下の数式により算出できる。

エネルギーは各要素の二乗の和なので、ベクトルの内積となる。ここで、ｗを以下のように定義する。

ｗを上記のように定義するとＥは、以下の数式で表される。

つまり、入力信号に対して、ある重荷ｗと相関行列があればエネルギーを算出することができる。また、上記した相関行列を用いることにより、音声区間の学習規則を拡張することができる。すなわち、拡張前は、入力信号をなるべく保つようにフィルタを学習していたが、拡張後は、入力信号はなるべく保ちつつ、操作音成分はなるべく抑えるようにフィルタを学習することができる。本実施形態では、操作音区間を検出しているため、操作音のみを含む相関行列Ｒkを算出することができる。したがって、あるフィルタｗを掛けたときの操作音成分のエネルギーＥkは以下の通りとなる。

よって、音声区間についての拡張された学習規則は、次の数式で記述できる。Εkはある正の定数である。

また、操作音区間についても音声区間と同様に拡張することができる。すなわち、拡張前は出力信号をゼロに近づけるようにフィルタを学習していたが、拡張後は出力信号はなるべくゼロに近づけるが、音声成分はなるべく保つようにフィルタを学習する。相関ベクトルは、下記のようにある時間遅れがある信号と、入力ベクトルの相関である。

音声成分を保つということは、フィルタリングの結果、音声信号はそのまま出力されるということとなる。理想的には、以下の数式となる。

以上から、操作音区間についての拡張された学習規則は、以下の数式で記述できる。
ε_ｘはある正の定数である。

上記を踏まえ、特徴量算出部１１０の動作について説明する。図１７は、特徴量算出部１１０の動作を示すフローチャートである。図１７に示したように、特徴量算出部１１０の演算手段１３０は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ１９０）。そして、ステップＳ１９０において取得された制御信号により音声区間であるか否かを判定する（Ｓ１９２）。

ステップＳ１９２において、音声区間であると判定された場合には、演算手段１３０は、入力信号に対して相関行列、相関ベクトルを算出し、これらを保持手段１３２に保持し、出力する（Ｓ１９４）。また、ステップＳ１９２において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ１９６）。ステップＳ１９６において、操作音区間であると判定された場合には、演算手段１３０は、入力信号に対して相関行列を算出し、保持手段１３２に保持し、出力する（Ｓ１９８）。

また、特徴量算出部１１０により算出された特徴量を用いた場合のフィルタ算出部１０６の学習規則について説明する。以下では、ＬＭＳアルゴリズムを用いた場合について説明するが、かかる例に限定されず、学習同定法などであってもよい。

フィルタ算出部１０６による音声区間の学習規則は以下の数式により表される。

とした場合、結合フィルタは、ｅ１、ｅ２に対して、重みα（０＜α＜１）で結合する。

また、操作音区間の学習規則は以下の数式により表される。

とした場合、結合フィルタは、ｅ１、ｅ２に対して、重みβ（０＜β＜１）で結合する。

このように、ある区間でのフィルタ更新に対して、別の区間の特徴を入れることで、音声区間でも操作音を抑圧することが可能となる。また、特に音声が始まった直後に音声が非常に小さくなることを避けることが可能となる。

また、操作音区間では、Ｒｘ、Ｖｘをそのまま使用せずに、時間遅れτのところだけを利用してもよい。この場合は以下のように簡易化することができる。なお、τはフィルタの群遅延にしておくのが好ましい。
つまり、ｒ＿τは、相関行列Ｒｘのτ行目のみを切り出したベクトルになる。
また、ｖ＿τは、相関ベクトルＶｘのτ番目の値を取り出したものになる。

以上、特徴量算出部１１０について説明した。図２に戻り、音声処理装置１００の機能構成の説明を続ける。フィルタ部１０８は、フィルタ算出部１０６により算出されたフィルタを利用して、マイクロホンから入力された音声にフィルタを掛ける。これにより、音声区間では、音質を保ちつつ、雑音の抑圧を行うことが可能となり、操作音区間では、信号が音声区間と滑らかにつながるような雑音抑圧を実現することが可能となる。

本実施形態にかかる音声処理装置１００または２００は、口元以外に耳元にもマイクを備えているブームマイク付きヘッドセットや携帯電話やＢｌｕｅｔｏｏｔｈのヘッドセットや、コールセンターやＷｅｂ会議に用いられるヘッドセット、ＩＣレコーダやビデオ会議システム、ノートＰＣの本体に付加されたマイクを用いたＷｅｂ会議やボイスチャットに利用した多人数で行うオンラインネットゲームに適用することができる。

本実施形態によれば、周囲の雑音や自身の発生する操作音を気にせず、快適に音声通話を行うことが可能となる。また、音声区間と雑音区間の区間毎の切り替わりにおける不連続性を小さくし、違和感のない雑音抑圧音声を出力することが可能となる。また、区間毎に最適な処理を実行することにより、効率よく操作音を低減することが可能となる。また、受話側は、操作音等の雑音が低減された通話相手の音声のみを聞き取ることが可能となる。以上、第１実施形態について説明した。

＜３．第２実施形態＞
次に、第２実施形態について説明する。第１実施形態では、音声と操作音が存在するとして、音声区間と非定常音区間（操作音区間）とを検出したが、本実施形態では、音声と操作音に加えて背景雑音も存在する場合について説明する。本実施形態では、入力信号を、音声が存在する音声区間と、操作音等の非定常的な雑音が存在する非定常音区間と、エアコンなどから発生される定常的な背景雑音が存在する定常音区間とを検出して、各区間に適したフィルタを算出する。以下では、第１実施形態と同様の構成についての説明は省略し、第１実施形態と異なる構成について特に詳細に説明する。

図１８は、音声処理装置２００の機能構成を示すブロック図である。図１８に示したように、音声処理装置２００は、音声検出部１０２、操作音検出部１０４、フィルタ部１０８、特徴量算出部２０２、フィルタ算出部２０４などを備える。図１９を参照して、特徴量算出部２０２の特徴量算出処理について説明する。

図１９は、特徴量算出部２０２による特徴量算出処理を示すフローチャートである。図１９に示したように、特徴量算出部２０２の演算手段（図示せず）は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ２０２）。そして、ステップＳ２０２において取得された制御信号により音声区間であるか否かを判定する（Ｓ２０４）。ステップＳ２０４において、音声区間であると判定された場合には、音声の特徴量を算出する（Ｓ２０６）。

ステップＳ２０４において、音声区間ではないと判定された場合には操作音区間であるか否かを判定する（Ｓ２０８）。ステップＳ２０８において、操作音区間であると判定された場合には、操作音の特徴量を算出する（Ｓ２１０）。また、ステップＳ２０８において、操作音区間ではないと判定された場合には、背景雑音の特徴量を算出する（Ｓ２１２）。

また、特徴量算出部２０２の保持手段において、音声の特徴として相関行列Ｒｓ、相関ベクトルＶｓを有し、操作音の特徴として相関行列Ｒｋ、相関ベクトルＶｋを有し、背景雑音の特徴として相関行列Ｒｎ、相関ベクトルＶｎを有している場合には、図２０に示した処理を実行する。

図２０に示したように、まず、演算手段は、入力信号に対して相関行列Ｒｘ、相関ベクトルＶｘを算出する（Ｓ２２０）。そして、演算手段は音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ２２２）。そして、ステップＳ２２２において取得された制御信号により音声区間であるか否かを判定する（Ｓ２２４）。

ステップＳ２２４において、音声区間であると判定された場合には、保持手段からＲｎ、Ｖｎを読み出して、Ｒｓ＝Ｒｘ−Ｒｎ、Ｖｓ＝Ｖｘ−Ｖｎを算出して、これらを保持手段に保存する（Ｓ２２６）。ステップＳ２２６においては、背景雑音の分を減算する。またＲｓ、Ｖｓなどは保存する前に、すでに保存されている値と適当に平滑化してもよい。

また、ステップＳ２２４において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ２２８）。ステップＳ２２８において、操作音区間であると判定された場合には、保持手段からＲｎ、Ｖｎを読み出して、Ｒｋ＝Ｒｘ−Ｒｎ、Ｖｋ＝Ｖｘ−Ｖｎを算出して、これらを保持手段に保存する（Ｓ２３０）。ステップＳ２３０においては、背景雑音の分を減算しているが、操作音は非常に小さいため引き算を行わなくてもよい。

また、ステップＳ２２８において、操作音区間ではないと判定された場合には、Ｒｎ＝Ｒｘ、Ｖｎ＝Ｖｘとして、これらを保持手段に保存する（Ｓ２３２）。

次に、図２１を参照して、フィルタ算出部２０４のフィルタ算出処理について説明する。図２１は、フィルタ算出部２０４によるフィルタ算出処理を示すフローチャートである。図２１に示したように、まず、フィルタ算出部２０４の演算手段（図示せず）は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ２４０）。そして、ステップＳ２４０において取得された制御信号により音声区間であるか否かを判定する（Ｓ２４２）。

ステップＳ２４２において、音声区間であると判定された場合には、入力信号を保持するようフィルタ係数の学習を行う（Ｓ２４４）。ステップＳ２４２において音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ２４６）。ステップＳ２４６において操作音区間であると判定された場合には、出力信号がゼロになるようフィルタ係数の学習を行う（Ｓ２４８）。ステップＳ２４６において操作音区間ではないと判定された場合には、出力信号がゼロになるようフィルタ係数の学習を行う（Ｓ２５０）。

次に、特徴量算出部２０２により算出された特徴量を用いた場合のフィルタ算出部２０４の学習規則について説明する。以下では、第１実施形態と同様にＬＭＳアルゴリズムを用いた場合について説明するが、かかる例に限定されず、学習同定法などであってもよい。

フィルタ算出部２０４による音声区間の学習規則は以下の数式により表される。
ここでは、ｃは０≦ｃ≦１の値であり、操作音、背景雑音の抑圧の割合を決める値である。
すなわち、ｃの値を小さくすることで操作音成分の抑圧を強めることが可能になる。

操作音区間においては、操作音を大きく抑圧し、背景雑音は違和感なく音声区間とつながる、という条件を満たすために、β（０≦β≦１）を大きな値に設定し、γ（０≦γ≦１）は、βより小さい値にすることが望ましい。

また、背景雑音区間の学習規則は以下の数式により表される。

このように、本実施形態にかかる音声処理装置２００によれば、背景雑音が存在する環境において、音声区間では雑音の抑圧を小さめにして音声を改善することが可能となる。また、操作音区間では、操作音を大きく抑圧し、背景雑音区間では音声区間と滑らかにつながるように雑音を抑圧することが可能となる。以上、第２実施形態について説明した。

＜４．第３実施形態＞
次に、図２２を参照して、第３実施形態について説明する。図２２に示したように、本実施形態は、拘束条件検定部３０２を備える点で第１実施形態と異なっている。以下、第１実施形態と異なる構成について特に詳細に説明する。

拘束条件検定部３０２は、本発明の検定部の一例である。拘束条件検定部３０２は、フィルタ算出部１０６により算出されるフィルタ係数の拘束条件を検定する機能を有する。具体的には、拘束条件検定部３０２は、特徴量算出部１１０により算出された各区間における特徴量に基づいてフィルタ係数の拘束条件を検定する。拘束条件検定部３０２は、背景雑音区間と音声区間において、残留雑音量を一定にするようにフィルタ係数を拘束する。これにより、背景雑音と音声区間の切り替わるときに突然雑音が大きくなるということを防ぎ、違和感のない音声を出力することができる。

次に、図２３を参照して、拘束条件検定部３０２の機能について説明する。図２３は、拘束条件検定部３０２の機能を示すブロック図である。図２３に示したように、演算手段３０４は、特徴量算出部１１０から提供される特徴量と、フィルタ算出部１０６が有する現在のフィルタ係数を利用して、所定の評価値を算出する。そして、判定手段３０６は、保持手段３０８に保持されている値と演算手段３０４により算出された評価値とを比較して判定する。設定手段３１０は、判定手段３０６による判定結果に応じてフィルタ算出部１０６のフィルタ係数を設定する。

次に、図２４を参照して、拘束条件検定部３０２による拘束条件の検定処理について説明する。図２４は、拘束条件検定部３０２による拘束条件の検定処理を示すフローチャートである。図２４に示したように、まず、演算手段３０４は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ３０２）。そして、ステップＳ３０２において取得された制御信号により音声区間であるか否かを判定する（Ｓ３０４）。

ステップＳ３０４において、音声区間であると判定された場合には、背景雑音および操作音についての評価値を算出する（Ｓ３０６）。また、ステップＳ３０４において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ３０８）。ステップＳ３０８において、操作音区間であると判定された場合には、音声成分について評価値を算出する（Ｓ３１０）。また、ステップＳ３０８において、操作音区間ではないと判定された場合には、音声成分について評価値を算出する（Ｓ３１２）。

そして、ステップＳ３０６、ステップＳ３１０、ステップＳ３１２において算出された評価値が所定の条件を満たすか否かを判定する（Ｓ３１４）。ステップＳ３１４において、評価値が条件を満たすと判定された場合には処理を終了する。ステップＳ３１４において、評価値が条件を満たしていないと判定された場合には、フィルタ算出部１０６におけるフィルタ係数を設定する（Ｓ３１６）。

以下では、拘束条件検定部３０２が特徴量算出部１１０から得られる相関行列、相関ベクトルを利用した場合について説明する。拘束条件検定部３０２は各特徴量から、音声成分の劣化量、背景雑音成分の抑圧量、操作音成分の抑圧量をそれぞれ以下の数式で定義する。

そして、音声区間においては、Ｐ２およびＰ３の値が閾値より大きいか否かを判定する。また、背景雑音区間においては、Ｐ１が閾値より大きいか否かを判定する。また、操作音区間においては、Ｐ１が閾値より大きいか否かを判定する。

上記した拘束条件検定部３０２による検定結果に応じて、フィルタ算出部１０６のフィルタ係数をどのように制御するかを説明する。背景雑音区間のフィルタ係数の制御を例示して説明する。背景雑音区間におけるフィルタ学習規則は以下のように表される。

ここで、上記判定により、Ｐ１が閾値より大きいと判定された場合は、音声の劣化が大きいため、音声が劣化しないように制御する。すなわち、γの値を小さくする。また、上記判定により、Ｐ１が閾値より小さいと判定された場合は、音声の劣化が小さいため、もう少し背景雑音を抑圧するように制御する。すなわち、γの値を大きくする。このように、フィルタ算出部１０６に対して誤差の重み係数を可変にして、制御を行うことが可能となる。

次に、図２５を参照して、拘束条件検定部３０２の具体的な処理について説明する。図２５は、拘束条件検定部３０２の具体的な処理を示すフローチャートである。図２５に示したように、まず、演算手段３０４は、音声検出部１０２および操作音検出部１０４からの制御信号を取得する（Ｓ３２０）。そしてステップＳ３２０において取得された制御信号により音声区間であるか否かを判定する（Ｓ３２２）。ステップＳ３２２において、音声区間であると判定された場合には、以下の数式により背景雑音成分および操作音成分の抑圧量を算出する（Ｓ３２４）。

そして、ステップＳ３２４において算出された抑圧量Ｐが閾値Ｐth_sp1より小さいか否かを判定する（Ｓ３２６）。ここで、雑音の抑圧量の閾値Ｐth_sp1は以下の数式により算出される。

ステップＳ３２６において、抑圧量Ｐが閾値Ｐth_sp1より小さいと判定された場合には、フィルタ係数αの値を大きく（α＝α＋Δα）する（Ｓ３２８）。また、抑圧量Ｐが閾値Ｐth_1より大きいと判定された場合には、フィルタ係数αの値を小さく（α＝α−Δα）する（Ｓ３３０）。

ステップＳ３２２において、音声区間ではないと判定された場合には、操作音区間であるか否かを判定する（Ｓ３３２）。ステップＳ３３２において、操作音区間であると判定された場合には、操作音の抑圧量Ｐ３を算出する（Ｓ３３４）。そして、Ｐth_3を更新（Ｐth_3＝Ｐ３）する（Ｓ３３６）。そして、音声成分の劣化量（Ｐ＝Ｐ１）を算出する（Ｓ３３８）。

そして、ステップＳ３３８において算出された劣化量Ｐが劣化量の閾値Ｐth_sp3より小さいか否かを判定する（Ｓ３４０）。ステップＳ３４０における閾値Ｐth_sp3は、予め外部から与えられる。ステップＳ３４０において、劣化量Ｐが閾値Ｐth_sp3より小さいと判定された場合には、フィルタ係数βの値を大きく（β＝β＋Δβ）する（Ｓ３４２）。ステップＳ３４０において、劣化量Ｐが閾値Ｐth_sp3より大きいと判定された場合には、フィルタ係数βの値を小さく（β＝β−Δβ）する（Ｓ３４２）。

ステップＳ３３２において、操作音区間ではないと判定された場合には、背景雑音の抑圧量Ｐ２を算出する（Ｓ３４６）。そして、そして、Ｐth_2を更新（Ｐth_2＝Ｐ２）する（Ｓ３４８）。そして、音声成分の劣化量（Ｐ＝Ｐ１）を算出する（Ｓ３５０）。

そして、ステップＳ３５０において算出された劣化量Ｐが劣化量の閾値Ｐth_sp2より小さいか否かを判定する（Ｓ３５２）。ステップＳ３５２における閾値Ｐth_sp2は、予め外部から与えられる。ステップＳ３５２において、劣化量Ｐが閾値Ｐth_sp2より小さいと判定された場合には、フィルタ係数γの値を大きく（γ＝γ＋Δγ）する（Ｓ３５４）。ステップＳ３５２において、劣化量Ｐが閾値Ｐth_sp2より大きいと判定された場合には、フィルタ係数γの値を小さく（γ＝γ−Δγ）する（Ｓ３５６）。

以上、第３実施形態について説明した。第３実施形態によれば、雑音を抑圧するだけでなく、最終的に出力される音声を違和感のない音声とすることが可能となる。

＜５．第４実施形態＞
次に、第４実施形態について説明する。図２６は、本実施形態にかかる音声処理装置４００の機能構成を示すブロック図である。本実施形態は、定常雑音抑圧部４０２、４０４を備えている点で第１実施形態と異なっている。以下では、第１実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部４０２、４０４は操作音を抑圧する前に、予め背景雑音を抑圧する。これにより、後段の処理において操作音の抑圧を効率的に行うことが可能となる。定常雑音抑圧部４０２では、周波数領域でのスペクトルサブトラクションや、時間領域でのＷｉｅｎｅｒＦｉｌｔｅｒなど、いずれを用いてもよい。

＜６．第５実施形態＞
次に、第５実施形態について説明する。図２７は、本実施形態にかかる音声処理装置５００の機能構成を示すブロック図である。本実施形態では、定常雑音抑圧部５０２を備えている点で第１実施形態と異なっている。以下では、第１実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部５０２はフィルタ部１０８の後段に設けられ、操作音、背景雑音の抑圧を行った後、更に残る残留雑音を低減することができる。

＜７．第６実施形態＞
次に、第６実施形態について説明する。図２８は、本実施形態にかかる音声処理装置６００の機能構成を示すブロック図である。本実施形態では、定常雑音抑圧部６０２、６０４を備えている点で第１実施形態と異なっている。以下では、第１実施形態と異なる構成について特に詳細に説明する。定常雑音抑圧部６０２は、あるチャネルに対して設けられる。また、音声区間におけるフィルタ算出に、定常雑音抑圧部６０２の出力を利用している。

音声区間におけるフィルタ学習規則は以下の数式により表される。

これまでは、背景雑音を含んだ入力信号そのものを利用していたが、本実施形態では、

の代わりに、定常雑音抑圧部６０２の出力を利用する。

このように、簡易的に定常雑音を抑圧した信号を利用することにより、フィルタ部１０８での定常雑音の抑圧効果を上げることが可能となる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、本明細書の音声処理装置１００、２００、３００、４００、５００、６００の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。すなわち、音声処理装置１００、２００、３００、４００、５００、６００の処理における各ステップは、異なる処理であっても並列的に実行されてもよい。

また、音声処理装置１００、２００、３００、４００、５００、６００に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した音声処理装置１００、２００、３００、４００、５００、６００の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

１００、２００、３００、４００、５００、６００音声処理装置
１０２音声検出部
１０４操作音検出部
１０６、２０４フィルタ算出部
１０８フィルタ部
１１０、２０２特徴量算出部
３０２拘束条件検定部
４０２、４０４、５０２、６０２、６０４定常雑音抑圧部

Claims

入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、
前記区間検出部による検出の結果に応じて、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、
を備え、
前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で前記音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置。
前記フィルタ算出部により算出された前記フィルタ係数の情報を区間毎に記憶部に記録する記録部を備え、
前記フィルタ算出部は、前記音声区間で前記記録された前記非定常音区間の前記フィルタ係数の情報を利用し、前記非定常音区間で前記記録された前記音声区間の前記フィルタ係数の情報を利用して前記フィルタ係数を算出する、請求項１に記載の音声処理装置。
前記フィルタ算出部は、前記音声区間では前記入力信号が保持された信号を出力するフィルタ係数を算出し、前記非定常音区間では前記入力信号がゼロとなる信号を出力するフィルタ係数を算出する、請求項１に記載の音声処理装置。
前記音声区間における前記音声信号の特徴量と前記非定常音区間における非定常音信号の特徴量とをそれぞれ算出する特徴量算出部を備え、
前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出する、請求項１に記載の音声処理装置。
前記区間検出部は、前記音声信号または前記非定常的な信号以外の定常的な信号を含む定常音区間を検出し、
前記フィルタ算出部は、前記定常音区間では前記定常的な信号を抑圧するフィルタ係数を算出する、請求項１に記載の音声処理装置。
前記特徴量算出部は、前記定常音区間における定常音信号の特徴量を算出する、請求項５に記載の音声処理装置。
前記フィルタ算出部は、前記音声区間で前記非定常音信号の特徴量および前記定常音信号の特徴量を利用し、前記非定常音区間で前記音声信号の特徴量を利用し、前記定常音区間で前記音声信号の特徴量を利用して前記フィルタ係数を算出する、請求項６に記載の音声処理装置。
前記フィルタ算出部により算出される前記フィルタ係数の拘束条件を検定する検定部を備え、
前記検定部は、前記特徴量算出部により算出された各区間における前記特徴量に基づいて前記フィルタ係数の拘束条件を検定する、請求項１に記載の音声処理装置。
前記検定部は、前記非定常音区間の前記非定常音信号の抑圧量と前記定常音区間の前記定常音信号の抑圧量が所定の閾値以下か否かにより前記音声区間での前記フィルタ係数の拘束条件を検定する、請求項８に記載の音声処理装置。
前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記非定常音区間での前記フィルタ係数の拘束条件を検定する、請求項８に記載の音声処理装置。
前記検定部は、前記音声区間の前記音声信号の劣化量が所定の閾値以上か否かにより前記定常音区間での前記フィルタ係数の拘束条件を検定する、請求項８に記載の音声処理装置。
入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出するステップと、
前記検出の結果に応じて、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用して前記音声信号を保持し、前記非定常音区間では前記音声区間において算出されたフィルタ係数を利用して前記非定常的な信号を抑圧するステップと、
を含む、音声処理方法。
コンピュータを、
入力信号から音声信号を含む音声区間または前記音声信号以外の非定常的な信号を含む非定常音区間を検出する区間検出部と、
前記区間検出部による検出の結果、前記音声区間では前記音声信号を保持し、前記非定常音区間では前記非定常的な信号を抑圧するフィルタ係数を算出するフィルタ算出部と、
を備え、
前記フィルタ算出部は、前記音声区間で前記非定常音区間において算出されたフィルタ係数を利用し、前記非定常音区間で音声区間において算出されたフィルタ係数を利用して前記フィルタ係数を算出する、音声処理装置として機能させるためのプログラム。