JP2010151965A

JP2010151965A - 音声処理装置、及び、音声処理方法

Info

Publication number: JP2010151965A
Application number: JP2008328091A
Authority: JP
Inventors: Yohei Sakuraba; 洋平櫻庭; Yasuhiko Kato; 靖彦加藤; Nobuyuki Kihara; 信之木原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-12-24
Filing date: 2008-12-24
Publication date: 2010-07-08

Abstract

【課題】残響下でスピーカに音声信号を供給して放音する場合において、受話者に到達した際の残響による聞き取りづらさを軽減させることが可能な音声処理装置を提供する。
【解決手段】音声信号を周波数領域に変換する帯域分割部１２１と、帯域分割部１２１により周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部１２２と、ゲイン調整部１２２によりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する帯域合成部１２３と、帯域合成部１２３により時間領域に変換された音声信号をスピーカ１ｃに出力するＤ／Ａ変換器１３とを備える。
【選択図】図２

Description

本発明は、残響下に設置されたスピーカにより放音する音声信号に対して、音声信号処理を施す音声処理装置、及び、音声処理方法に関するものである。

防災放送や館内放送などは、マイクで収音した音声を、スピーカを用いて放音している。しかし、防災放送や館内放送などを受話者が聞く際には、スピーカから受話者に直接届く音声に残響が畳み込まれるため、送話者の発話内容が聞きづらいことがある。これは、スピーカから放音された音がさまざまな反響経路を経て、さまざまな遅延を持って受話者に到達するためである。

このような問題に対応するため、送話者がゆっくり発話するという対策が用いられている。これは、送話者の発話の直接音と残響が重なるのを少しでも軽減するためである。

また、特許文献１には、通話相手の音声信号の時間軸を変更する話速変換部を有する話速変換装置を備えた通話装置が記載されている。

特開２００６―３３７８９号公報

上述したように、送話者の話速を遅くすることにより、残響下において送話者の発話内容が聞きづらくなることを防止することができるが、更なる改善が望まれる。

本発明は、上述した実情に鑑みて提案されたものであり、残響下でスピーカに音声信号を供給して放音する場合において、受話者に到達した際の残響による聞き取りづらさを軽減させることが可能な音声処理装置、音声処理方法を提供することを目的とする。

上述した課題を解決するための手段として、本発明に係る音声処理装置は、音声信号を周波数領域に変換する周波数領域変換部と、周波数領域変換部により周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、ゲイン調整部によりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換部と、時間領域変換部により時間領域に変換された音声信号をスピーカに出力する出力部とを備える。

また、本発明に係る音声処理方法は、音声信号を周波数領域に変換する周波数領域変換ステップと、周波数領域変換ステップにより周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整ステップと、ゲイン調整ステップによりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換ステップと、時間領域変換ステップにより時間領域に変換された音声信号をスピーカに出力する出力ステップとを有する。

本発明は、周波数領域に変換された音声信号に対して帯域毎にゲイン調整を施して、時間領域に変換した後スピーカに出力することで、残響下で音声信号が伝搬される際に、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。したがって、本発明は、残響下でスピーカに音声信号を供給して放音する場合において、受話者に到達した際の残響による聞き取りづらさを軽減させることができる。

以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更が可能であることは勿論である。

本発明が適用された音声処理装置は、残響下に設置されたスピーカにより放音される音声信号に対して音声信号処理を施す装置である。なお、説明は、以下の順序で行う。
１．第１の実施形態
２．第２の実施形態

＜１．第１の実施形態＞
本発明が適用された音声処理装置は、例えば図１に示すような第１の実施形態に係る拡声装置１に組み込まれて使用される。

第１の実施形態に係る拡声装置１は、発話者の音声を検出するマイクロフォン１ａと、マイクロフォン１ａにより検出された音声信号に対して信号処理を施す音声処理部１ｂと、音声処理部１ｂにより信号処理された音声信号を放音するスピーカ１ｃとを備える。

マイクロフォン１ａは、発話者の音声を検出して、検出した音声を音声信号に変換して音声処理部１ｂに供給する。

音声処理部１ｂは、マイクロフォン１ａから供給される音声信号をデジタル変換するＡ／Ｄ変換器１１と、デジタル変換された音声信号に対して信号処理を施す信号処理部１２と、音声信号をアナログ変換してスピーカ１ｃに供給するＤ／Ａ変換器１３とを備える。

Ａ／Ｄ変換器１１は、マイクロフォン１ａから供給される音声信号をデジタル変換して、デジタル変換後の音声信号を信号処理部１２に供給する。なお、Ａ／Ｄ変換器１１に供給される音声信号は、マイクロフォン１ａだけでなく、例えば外部の音声処理装置からライン入力により供給される信号でもよい。

信号処理部１２は、Ａ／Ｄ変換器１１から供給される音声信号に対して具体的には、後述する信号処理を施して、信号処理を施した音声信号をＤ／Ａ変換器１３に供給する。

Ｄ／Ａ変換器１３は、信号処理部１２から供給される音声信号をアナログ変換して、アナログ変換後の音声信号をスピーカ１ｃに供給する。

スピーカ１ｃは、残響下に設置され、音声処理部１ｂから供給された音声信号を放音する。

以上のような構成からなる拡声装置１では、スピーカ１ｃが残響下に設置されているため、スピーカ１ｃから受話者に直接届く音声に残響が畳み込まれ、マイクロフォン１ａで検出した送話者の発話内容が聞きづらい音声を放音してしまう場合がある。

そこで、拡声装置１は、このような残響音に起因した聞きづらさを軽減させるため、音声処理部１ｂの信号処理部１２が、図２に示すような構成を有している。

すなわち、信号処理部１２は、音声信号を周波数領域に変換する帯域分割部１２１と、周波数領域の音声信号に対して帯域毎にゲイン調整を施すゲイン調整部１２２と、ゲイン調整された音声信号を時間領域に変換する帯域合成部１２３とを備える。

帯域分割部１２１は、Ａ／Ｄ変換器１１から供給された音声信号を、単位時間であるフレーム毎に、例えば短時間フーリエ変換などの時間周波数変換手法を用いて、周波数領域の音声信号に変換する。そして、帯域分割部１２１は、周波数領域に変換した音声信号を、例えば１０２４チャンネルの帯域に分割して、各帯域の音声信号をゲイン調整部１２２に供給する。

ここで、フーリエ変換処理では、中心チャンネルで対称になるため、１０２４点の半分の５１２点だけ考えればよく、以下では、最も低域のチャンネルを第１チャンネルとし、順番に番号を振り、最も高域のチャンネルを第５１２チャンネルとして説明する。

また、帯域分割部１２１は、上述したフーリエ変換処理の他、ＤＦＴフィルタバンクやＱＭＦフィルタバンクなどの帯域分割の手法で帯域分割を行うようにしてもよい。

ゲイン調整部１２２は、帯域分割部１２１から供給された音声信号に対して、帯域毎にゲイン調整を施す。すなわち、ゲイン調整部１２２は、各チャンネルで異なるゲインを設定することで、残響下で音声信号が伝搬される際に、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。

具体的に、ゲイン調整部１２２は、隣接する周波数帯域の音声信号成分の重なりをより効果的に軽減させるため、例えば次のようにして各帯域の音声信号に対して調整するゲインを単位時間毎に変化させる。

第１の具体例として、ゲイン調整部１２２は、各チャンネルのゲインをフレーム毎に変化させることで、偶数チャンネルと奇数チャンネルとを交互に再生するように、ゲイン調整を行う。まず、ゲイン調整部１２２は、あるフレームでは偶数チャンネルをそのまま再生しながら奇数チャンネルの振幅レベルを０に近い値にするように調整する。次のフレームで、ゲイン調整部１２２は、偶数チャンネルの振幅レベルを０にしながら、奇数チャンネルをそのまま再生するように調整する。その次のフレームで、ゲイン調整部１２２は、偶数チャンネルをそのまま再生しながら、奇数チャンネルを０に近い値にするように調整する。このようにしてゲイン調整をすることで、２フレームに一度ずつ奇数チャンネルと偶数チャンネルがそれぞれ再生されることとなる。このように、ゲイン調整部１２２は、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互にスピーカ１ｃにより出力されるようにゲイン調整することで、隣接する周波数帯域の音声信号成分の重なりを効果的に軽減させることができる。このようにして、ゲイン調整部１２２は、簡易な処理で、残響下での聞き取りにくさ改善を実現することができる。

第２の具体例として、ゲイン調整部１２２は、各チャンネルのゲインをフレーム毎に変化させることで、３以上のフレーム毎に、１つのチャンネルを再生するようにしてもよい。具体例として、１組３チャンネルのうち１つのチャンネルを交互に再生する場合は、次のようにしてゲイン調整を行う。まず、あるフレームでは、ゲイン調整部１２２は、１、４、・・・，５０８、５１１チャンネルを再生しながら、残りのチャンネルの音声レベルを０に近い値にするように調整する。次のフレームで、ゲイン調整部１２２は、２、５、・・・、５０９、５１２チャンネルを再生しながら、残りの帯域を０に近い値にするように調整する。その次の帯域で、ゲイン調整部１２２は、３、６、・・・、５１０チャンネルを再生しながら、残りの帯域を０に近い値にするように調整する。そして、ゲイン調整部１２２は、これらの処理を繰り返す。

また、ゲイン調整部１２２は、上述した２つの例のように単純にチャンネルを選択するだけではなく、実際に処理をする音声の種類に応じて、残響が重ならないように適切なチャンネルを選択することもできる。特に、ゲイン調整部１２２は、人間の聴覚特性やマスキングレベルに応じて、音質に影響ないレベルのゲインを乗算することができる。例えば、ゲイン調整部１２２は、図３（Ａ）に示すような音声信号に対し、マスキングレベルに基づいて、図３（Ｂ）に示すように、強いパワー成分にマスキングされるチャンネルのゲインを小さくなるように調整する。ゲイン調整部１２２は、周波数領域に変換された各帯域の音声信号に対して、聴覚特性に基づいて設定された補正ゲインを乗算してゲイン調整をすることで、音質を維持しつつ、人間の聴覚特性上特に聞きづらくなるような音声成分の重なりを軽減させることができる。

以上のようにして残響下での音声成分の重なりを軽減させるようにゲイン調整された各帯域の音声信号は、ゲイン調整部１２２から帯域合成部１２３に供給される。

帯域合成部１２３は、ゲイン調整部１２２によりゲイン調整が施された各帯域の音声信号を合成して、逆フーリエ変換処理を施して時間領域に変換する。そして、帯域合成部１２３は、時間領域に変換した音声信号をＤ／Ａ変換器１３に供給する。

このようにして、帯域分割部１２１で帯域別に分割された音声信号は、逆フーリエ変換で元の時間領域の音声信号に再合成することができる。なお、手法によっては、元の信号と再合成された信号が多少異なる場合もあるが本質的な影響がないように構成することができる。

以上のような構成からなる信号処理部１２を有する拡声装置１では、帯域分割部１２１により、周波数領域に変換された音声信号に対して、ゲイン調整部１２２により帯域毎にゲイン調整を施して、帯域合成部１２３により時間領域に変換した後スピーカ１ｃに出力する。このような処理を行うことで、拡声装置１は、残響下で音声信号が伝搬される際に、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。したがって、拡声装置１は、残響下でスピーカ１ｃに音声信号を供給して放音する場合において、受話者に到達した際の残響による音声の不明瞭さを軽減させることができる。

＜２．第２の実施形態＞
本発明が適用された音声処理装置は、例えば図４に示すような第２の実施形態に係る拡声装置２に組み込まれて使用される。

第２の実施形態に係る拡声装置２は、発話者の音声を検出するマイクロフォン２ａと、マイクロフォン２ａにより検出された音声信号に対して信号処理を施す音声処理部２ｂと、音声処理部２ｂにより信号処理された音声信号を放音するスピーカ２ｃとを備える。さらに、拡声装置２は、スピーカ２ｃが音声信号を放音する環境の残響時間を測定するため、スピーカ２ｃが放音して残響下を伝搬した音声を検出するマイクロフォン２ｄを備える。

マイクロフォン２ａは、発話者の音声を検出して、検出した音声を音声信号に変換して音声処理部２ｂに供給する。

音声処理部２ｂは、マイクロフォン２ａから供給される音声信号をデジタル変換するＡ／Ｄ変換器２１と、デジタル変換された音声信号に対して信号処理を施す信号処理部２２と、音声信号をアナログ変換してスピーカ２ｃに供給するＤ／Ａ変換器２３とを備える。さらに、音声処理部２ｂは、マイクロフォン２ｄにより検出された音声信号をデジタル変換するＡ／Ｄ変換器２４を備える。

Ａ／Ｄ変換器２１は、マイクロフォン２ａから供給される音声信号をデジタル変換して、デジタル変換後の音声信号を信号処理部２２に供給する。なお、Ａ／Ｄ変換器２１に供給される音声信号は、マイクロフォン２ａだけでなく、例えば外部の音声処理装置からライン入力により供給される信号でもよい。

信号処理部２２は、Ａ／Ｄ変換器２１から供給される音声信号に対して具体的には、後述する信号処理を施して、信号処理を施した音声信号をＤ／Ａ変換器２３に供給する。

Ｄ／Ａ変換器２３は、信号処理部２２から供給される音声信号をアナログ変換して、アナログ変換後の音声信号をスピーカ２ｃに供給する。

スピーカ２ｃは、残響下に設置され、音声処理部２ｂから供給された音声信号を放音する。

マイクロフォン２ｄは、スピーカ２ｃが放音して残響下を伝搬した音声を検出して、検出した音声信号をＡ／Ｄ変換器２４に供給する。

以上のような構成からなる拡声装置２では、スピーカ２ｃが残響下に設置されているため、スピーカ２ｃから受話者に直接届く音声に残響が畳み込まれ、マイクロフォン２ａで検出した送話者の発話内容が聞きづらい音声を放音してしまう場合がある。

そこで、拡声装置２は、スピーカ２ｃが音声信号を放音する環境の残響時間に応じて、このような残響音に起因した聞きづらさを適切に軽減させるため、音声処理部２ｂの信号処理部２２が、図５に示すような構成を有している。

信号処理部２２は、第１の実施形態と同様に、音声信号を周波数領域に変換する帯域分割部２２１と、周波数領域の音声信号に対して帯域毎にゲイン調整を施すゲイン調整部２２２と、ゲイン調整された音声信号を時間領域に変換する帯域合成部２２３とを備える。さらに、第２の実施形態に係る信号処理部２２は、図５に示すように、帯域分割部２２１の前段に、音声信号に対して話速変換処理を施す話速変換部２２４と、音声信号の基本周波数に基づいて音高を経時的に変更する音高変更部２２５とを備える。

このような構成からなる信号処理部２２では、第１の実施形態に係る信号処理部１２と同様の機能を帯域分割部２２１とゲイン調整部２２２と帯域合成部２２３により実現するので、これら各部の動作内容について、その説明を省略する。

話速変換部２２４は、話速変換を用いて時間伸張再生をすることにより、残響下での発話を聞き取りやすくするため、図６に示すように、Ａ／Ｄ変換器２１から供給される時間領域の音声信号に対して話速変換処理を施す。

具体的に、話速変換部２２４は、図６に示すように、音声信号を一時的に保持する音声バッファ２２４ａを備える。話速変換部２２４は、後述する制御部２２７からの制御信号に応じて、Ａ／Ｄ変換器２１から供給される音声信号を音声バッファ２２４ａで一時的に保持して話速変換処理により伸張して、後段に接続された音高変更部２２５に出力する。以上のようにして、話速変換部２２４は、話速変換を用いて時間伸張再生をすることにより、残響下での発話を聞き取りやすくすることができる。

なお、話速変換部２２４は、ＰＩＣＯＬＡ（Pointer Interval Controlled OverLap and Add）などを用いて、話速変換処理系を構成する。これ以外にも、話速変換部２２４は、ＴＤＨＳ(Time Domain Harmonic Scaling)などの話速変換手法で話速変換処理を行うようにしてもよい。また、話速変換部２２４は、帯域分割部２２１の前段に設けられているが、帯域合成部２２３の後段、又は、音高変更部２２５の後段に設けられるようにしてもよい。

音高変更部２２５は、図７に示すように、基本周波数推定部２２５ａが設けられており、音高を経時的に変化させながら再生することで、残響下での発話を聞き取りやすくするため、次にような処理を行う。

すなわち、基本周波数推定部２２５ａは、例えば、自己相関法や櫛形フィルタを用いて、話速変換部２２４から供給される音声信号から基本周波数Ｆ０を推定して、推定結果を音高変更部２２５に通知する。

音高変更部２２５は、話速変換部２２４から供給される音声信号と、この信号に対応する基本周波数Ｆ０が供給される。音高変更部２２５は、基本周波数Ｆ０に基づき、基本周波数Ｆ０を経時的に変更させて、音声信号の音高を変化させる。例えば、音高変更部２２５は、前回のフレームの出力の基本周波数Ｆ０が現在のフレームの基本周波数Ｆ０と同じ場合は、基本周波数Ｆ０を上下いずれかに数Ｈｚ変化させる。また、音高変更部２２５は、前回のフレームの出力の基本周波数Ｆ０と現在のフレームの基本周波数Ｆ０が異なる場合は、音声信号をそのまま出力する。このようにして、音高変更部２２５は、供給された音声信号の音高を経時的に変更して、後段に接続された帯域分割部２２１に供給する。

なお、基本周波数の変更には、上述した変更手法以外にも、単純に再生スピードを変更する手法や、話速変換を施して伸縮した後に再生スピードを変更することで実時間性を維持する手法、周波数領域で帯域の操作をする方法などの他の手法を用いて行ってもよい。また、音高変更部２２５は、帯域分割部２２１の前段に設けられているが、帯域合成部２２３の後段、又は、音高変更部２２５の前段に設けられるようにしてもよい。

音声（母音）は倍音構造を持っていることが知られており、例えば、母音の基本周波数が１００Ｈｚの場合、２００Ｈｚ、３００Ｈｚなど基本周波数の整数倍付近に強い成分が含まれる。音高変更部２２５は、このような倍音構造の特性に注目して、上述した強い周波数成分を変化させることで、周波数帯域ごとの直接音と残響音の重なりを軽減させることができる。

残響時間測定部２２６は、スピーカ２ｃから放音されマイクロフォン２ｄにより検出された音声信号を用いて、スピーカ２ｃが設置された環境の残響時間を測定する。すなわち、残響時間測定部２２６は、Ａ／Ｄ変換器２４によりデジタル変換されたマイクロフォン２ｄの音声信号を用いてスピーカ２ｃが設置された環境の残響時間を測定して、測定結果を制御部２２７に通知する。

制御部２２７は、残響時間測定部２２６から通知される残響時間に応じて、マイクロフォン２ａにより検出された発話者の音声に対して施す音声信号処理を切り換えて行う。このように切り換え処理を行うのは、音声処理を施すことで音声歪みを生じる可能性があり、例えば、残響時間が閾値より短い場合は音声処理をせず、残響時間が閾値より長い場合は音声処理をするのが望ましいからである。

第１の具体例として、制御部２２７は、図８に示すようなフローチャートにしたがって、残響時間測定部２２６から通知される残響時間に応じて、マイクロフォン２ａにより検出された発話者の音声に対して施す音声信号処理を切り換えて行う。

ステップＳ１において、制御部２２７は、測定された残響時間が０．３秒以上であるか否かを判断して、０．３秒以上のときステップＳ３に進み、０．３秒未満のときステップＳ２に進む。

ステップＳ２において、制御部２２７は、Ａ／Ｄ変換器２１から供給された音声信号に対して何も処理をしないで直接Ｄ／Ａ変換器２３に供給するように、各処理部を制御する。

ステップＳ３において、制御部２２７は、測定された残響時間が１秒以上であるか否かを判断して、１秒以上のときステップＳ５に進み、１秒未満のときステップＳ４に進む。

ステップＳ４において、制御部２２７は、Ａ／Ｄ変換器２１から供給された音声信号に対して、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互にスピーカ１ｃにより出力されるようにゲイン調整するように、ゲイン調整部２２２の動作を制御する。なお、制御部２２７は、話速変換部２２４及び音高変更部２２５に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。

ステップＳ５において、制御部２２７は、測定された残響時間が２秒以上であるか否かを判断して、２秒以上のときステップＳ７に進み、２秒未満のときステップＳ６に進む。

ステップＳ６において、制御部２２７は、Ａ／Ｄ変換器２１から供給された音声信号に対して、各チャンネルのゲインをフレーム毎に変化させることで、３フレーム毎に、１組３チャンネルのうち１つのチャンネルを交互に再生するように、ゲイン調整部２２２の動作を制御する。なお、制御部２２７は、話速変換部２２４及び音高変更部２２５に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。

ステップＳ７において、制御部２２７は、３フレーム毎に、１組３チャンネルのうち１つのチャンネルを交互に再生するように、ゲイン調整部２２２の動作を制御するとともに、話速変換処理により話速が遅くなるように、話速変換部２２４の動作を制御する。

第２の具体例として、制御部２２７は、図９に示すようなフローチャートにしたがって、残響時間測定部２２６から通知される残響時間に応じて、マイクロフォン２ａにより検出された発話者の音声に対して施す音声信号処理を切り換えて行う。

ステップＳ１１において、制御部２２７は、測定された残響時間が０．３秒以上であるか否かを判断して、０．３秒以上のときステップＳ１３に進み、０．３秒未満のときステップＳ１２に進む。

ステップＳ１２において、制御部２２７は、Ａ／Ｄ変換器２１から供給された音声信号に対して何も処理をしないで直接Ｄ／Ａ変換器２３に供給するように、各処理部を制御する。

ステップＳ１３において、制御部２２７は、測定された残響時間が１秒以上であるか否かを判断して、１秒以上のときステップＳ１５に進み、１秒未満のときステップＳ１４に進む。

ステップＳ１４において、制御部２２７は、Ａ／Ｄ変換器２１から供給された音声信号に対して、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互にスピーカ１ｃにより出力されるようにゲイン調整するように、ゲイン調整部２２２の動作を制御する。なお、制御部２２７は、話速変換部２２４及び音高変更部２２５に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。

ステップＳ１５において、制御部２２７は、測定された残響時間が２秒以上であるか否かを判断して、２秒以上のときステップＳ１７に進み、２秒未満のときステップＳ１６に進む。

ステップＳ１６において、制御部２２７は、Ａ／Ｄ変換器２１から供給された音声信号に対して、各チャンネルのゲインをフレーム毎に変化させることで、３フレーム毎に、１組３チャンネルのうち１つのチャンネルを交互に再生するように、ゲイン調整部２２２の動作を制御する。なお、制御部２２７は、話速変換部２２４及び音高変更部２２５に対して、何も信号処理をせずに、供給された音声信号を直接後段に出力するように制御する。

ステップＳ１７において、制御部２２７は、３フレーム毎に、１組３チャンネルのうち１つのチャンネルを交互に再生するように、ゲイン調整部２２２の動作を制御するとともに、音声信号の音高を経時的に変更させるように、話速変換部２２４の動作を制御する。

第１、第２の具体例に従って、制御部２２７は、残響時間をスピーカ２ｃが設置された環境の評価指標として用いて、残響時間に応じて各部の動作を制御することで、音質の劣化を限定的しつつ、隣接する周波数帯域の音声信号成分の重なりを軽減させることができる。すなわち、制御部２２７は、単に残響時間の増加に伴って、１回ずつ再生するフレーム数が大きくなると音質の劣化が大きくなるが、単にフレーム数を増加させずに、他の音声信号処理と組み合わせることで、音質の劣化を限定的しつつ音声の不明瞭さを軽減できる。

以上のようにして、第２の実施形態に係る拡声装置２は、残響下でスピーカ２ｃに音声信号を供給して放音する場合において、受話者に到達した際の残響による音声の不明瞭さを軽減することができる。

第１の実施形態に係る拡声装置の構成を示す図である。第１の実施形態に係る音声処理部の具体的な構成を示す図である。ゲイン調整部に係る処理の説明に供する図である。第２の実施形態に係る拡声装置の構成を示す図である。第２の実施形態に係る音声処理部の具体的な構成を示す図である。話速変換部に係る処理を説明するための図である。音高変換部に係る処理を説明するための図である。制御部に係る第１の具体例の切り換え処理の説明に供するフローチャートである。制御部に係る第２の具体例の切り換え処理の説明に供するフローチャートである。

符号の説明

１、２拡声装置、１ａ、２ａ、２ｄマイクロフォン、１ｂ、２ｂ音声処理部、１ｃ、２ｃスピーカ、１１、２１、２４Ａ／Ｄ変換器、１２、２２信号処理部、１３、２３Ｄ／Ａ変換器、１２１、２２１帯域分割部、１２２、２２２ゲイン調整部、１２３、２２３帯域合成部、２２４話速変換部、２２４ａ音声バッファ、２２５音高変更部、２２５ａ基本周波数推定部、２２６残響時間測定部、２２７制御部

Claims

音声信号を周波数領域に変換する周波数領域変換部と、
上記周波数領域変換部により周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整部と、
上記ゲイン調整部によりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換部と、
上記時間領域変換部により時間領域に変換された音声信号をスピーカに出力する出力部とを備える音声処理装置。
上記ゲイン調整部は、上記周波数領域に変換された各帯域の音声信号に対して調整するゲインを単位時間毎に変化させる請求項１記載の音声処理装置。
上記ゲイン調整部は、上記周波数領域に変換された各帯域の音声信号に対して調整するゲインを単位時間毎に変化させることで、奇数番目の帯域の音声信号と偶数番目の帯域の音声信号とが交互に上記スピーカにより出力されるようにゲイン調整する請求項２記載の音声処理装置。
上記ゲイン調整部は、上記周波数領域に変換された各帯域の音声信号に対して、聴覚特性に基づいて設定された補正ゲインを乗算することによってゲイン調整を施す請求項１記載の音声処理装置。
上記スピーカから放音されマイクロフォンにより検出された音声信号を用いて、該スピーカが設置された環境の残響時間を測定する残響時間測定部と、
上記残響時間測定部により測定される残響時間が所定の時間以上のときのみ、上記ゲイン調整部がゲイン調整を施すように制御する制御部とを更に備える請求項１記載の音声処理装置。
音声信号に対して話速変換処理を施す話速変換部と、
音声信号の基本周波数を推定して、推定した基本周波数を経時的に変更させた音声信号を出力する音高変更部とを更に備え、
上記制御部は、上記残響時間測定部により測定される残響時間が所定の時間より大きいとき、上記ゲイン調整部がゲイン調整を施すように制御するとともに、該残響時間に応じて、上記話速変換部と上記音高変更部との処理を選択して音声信号に音声処理を施して上記出力部から上記スピーカに出力するように制御する請求項５記載の音声処理装置。
音声信号を周波数領域に変換する周波数領域変換ステップと、
上記周波数領域変換ステップにより周波数領域に変換された音声信号に対して、帯域毎にゲイン調整を施すゲイン調整ステップと、
上記ゲイン調整ステップによりゲイン調整が施された各帯域の音声信号を合成して時間領域に変換する時間領域変換ステップと、
上記時間領域変換ステップにより時間領域に変換された音声信号をスピーカに出力する出力ステップとを有する音声処理方法。