JP6159570B2

JP6159570B2 - 音声強調装置、及びプログラム

Info

Publication number: JP6159570B2
Application number: JP2013098819A
Authority: JP
Inventors: 礼子齋藤; 信正清山; 今井　篤; 篤今井; 小森　智康; 智康小森
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2013-05-08
Filing date: 2013-05-08
Publication date: 2017-07-05
Anticipated expiration: 2033-05-08
Also published as: JP2014219567A

Description

本発明は、音声強調装置、及びプログラムに関する。

音声を聞き取りやすくする目的として、聞き取りに重要な音声の音響特徴量を強調することは有効である。そのような音響特徴量として、主にフォルマントが着目されている。フォルマントは、母音によって異なる周波数にエネルギーのピークを与える特徴量であり、フォルマントを強調する方法がいくつか考案されている（例えば、特許文献１参照。）。また、フォルマント強調と周波数の高域強調を組み合わせて、子音も含め、より聞き取り易くすることをねらった方法も考案されている（例えば、特許文献２参照。）。これらの技術では、音声特徴の分析結果に基づいてフォルマントを強調しているが、フォルマントは連続的に発声される音声中で大きく変化するため、雑音の無いクリーン環境の音声であっても、フォルマントを自動で正確に決定することは難しい。そのため、フォルマントの周波数値やパワーを利用することが必要な従来技術では、誤判定されたフォルマントに基づいた場合に音声劣化を防ぐことは困難である。

正確なフォルマントを利用しない方法として、音声を特徴付ける帯域を４帯域に分け、帯域間のパワーの比率を調整する方法が考案されている（例えば、特許文献３参照。）。フォルマントよりも大きな幅の帯域で分けており、音声劣化も少ないと考えられる。しかし子音と母音で調整方法を分ける必要があり、子音、母音が精密に判別できないと、大きく音声劣化を伴うと考えられる。

また、音響特徴量の判別を用いずに、周波数スペクトルのエネルギーのピーク・ディップについて、そのコントラストを拡大する方法が提案されている（例えば、特許文献４、非特許文献１参照。）。これは、人工内耳用に開発された方法であって、ディップが抑圧されることでピークが強調され、特にフォルマントのパワーの関係が保持されるため、音質劣化は少ないが、聞き取りやすい音声に変換される効果は小さい。特に、雑音のないクリーンな音声に対する効果は、比較的健聴な聴取者にとってはほぼ得られない。

国際公開第２００４／０４０５５５号特開平８−６５９６号公報特開２０１０−９１８９７号公報米国特許第７７８７６４０Ｂ２号明細書

L. Turicchia and R. Sarpeshkar, "A Bio-Inspired Companding Strategy for Spectral Enhancement", IEEE Trans. Speech Audio Process., 13, 243-253, (2005)

音声を聞き取りやすく変換する技術は、雑踏などの様々な状況において音声を聞き取ることが困難な場合や、音声の音量を大きくできない場合など、音声をストレスなく聞き取るために重要である。また、特に高齢者は音声を聞き取るのが困難な場合が多く、音声の変換によって可聴性を向上させることができれば、高齢者にも大きなメリットが得られる。
そのために、特許文献１、２のように、聞き取りに重要な音響特徴量を強調することや、特許文献３のように、必要な音響特徴量が含まれる帯域にパワーを配分する方法は有効である。しかし、必要な調整量や調整箇所を決定するための正確な音声分析が必要になる方法であると、その誤判定が音質劣化につながりかねない。音響特徴量は話者によって異なるだけでなく、一人の話者の音声内でもその時の音質や発声スタイルによって大きく変化もするため、用途を広げようとするほど頑健な音声分析方法が必要になる。また、幅広い聴取環境を聴取者に効果を与えるためには、強調の信号処理に伴う音声劣化を防ぎながら、聞き取りやすさへの効果を十分与える必要がある。

本発明は、このような事情を考慮してなされたもので、音響特徴量の分析をすることなく、音声の音響特徴量を強調して聞き取り易くすることができる音声強調装置、及びプログラムを提供する。

［１］本発明の一態様は、入力音声の音声データを取得する音声入力部と、前記音声入力部が取得した前記音声データに対し、フォルマントが含まれる中域よりも低い帯域を少なくとも含んだ低域のみを通過させる低域強調部と、前記音声入力部が取得した前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第一スペクトルコントラスト強調部と、前記音声入力部が取得した前記音声データに対し、前記中域よりも高い帯域を含んだ高域のみを通過させる第一高域強調部と、前記音声入力部が取得した前記音声データに対し、スペクトル傾斜補正を行って出力するスペクトル傾斜補正部と、前記スペクトル傾斜補正部がスペクトル傾斜補正を行った前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第二スペクトルコントラスト強調部と、前記スペクトル傾斜補正部がスペクトル傾斜補正を行った前記音声データに対し、前記高域のみを通過させる第二高域強調部と、前記音声入力部と、前記スペクトル傾斜補正部と、前記低域強調部と、前記第一スペクトルコントラスト強調部と、前記第一高域強調部と、前記第二スペクトルコントラスト強調部と、前記第二高域強調部とから出力された前記音声データにそれぞれの所定の倍率を乗算し、これらの乗算結果を加算して得られる音声データを出力する音声加算部と、を備えることを特徴とする音声強調装置である。
この発明によれば、音声強調装置は、入力音声データに応じて、聞き取りに必要な帯域を強調し、聞き取りに不要な帯域を低減するように、全帯域の音声データ、スペクトル傾斜補正された音声データ、低域の音声データ、スペクトル傾斜補正をせずに中域までの帯域をスペクトルコントラスト強調した音声データ、スペクトル傾斜補正後の中域までの帯域をスペクトルコントラスト強調した音声データ、スペクトル傾斜補正をしていない高域の音声データ、及びスペクトル傾斜補正後の高域の音声データそれぞれの重み付けを変えて足し合わせ、強調音声を生成する。
これにより、音声強調装置は、入力音声データに応じて重み付けのパラメータを予め設定しておくことにより、音響特徴量を分析することなく、聞き取り易いように音声の特徴を強調した強調音声を生成することができる。

［２］本発明の一態様は、上述する音声強調装置であって、前記第一スペクトルコントラスト強調部及び前記第二スペクトルコントラスト強調部は、前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルのコントラスト強調処理を行うコントラスト強調処理部と、前記コントラスト強調処理部がコントラスト強調処理を行った前記音声データに対し、前記コントラスト強調処理に伴うパワーの変化を補正するパワー補正部とを備える、ことを特徴とする。
この発明によれば、音声強調装置は、中域までのスペクトルのコントラスト強調処理を行った後、コントラスト強調処理に伴うパワーの変化を補正する。
これにより、音声強調装置は、聞き取りに不要な帯域を強調しないようにすることができる。

［３］本発明の一態様は、上述する音声強調装置であって、前記第一スペクトルコントラスト強調部及び前記第二スペクトルコントラスト強調部は、前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域を通過させ、前記コントラスト強調処理部に出力する中域強調部をさらに備える、ことを特徴とする。
この発明によれば、音声強調装置は、コントラスト強調処理部による処理前に、処理対象の帯域をフィルタリングする。
これにより、音声強調装置は、スペクトルコントラスト強調の対象外の帯域への影響を抑えることができる。

［４］本発明の一態様は、上述する音声強調装置であって、前記低域が１００ヘルツから４００ヘルツまでの帯域であり、前記低域の一部の帯域から前記中域までの帯域が２５０ヘルツから４０００ヘルツまでの帯域であり、前記高域が４０００ヘルツから８０００ヘルツまでの帯域である、ことを特徴とする。
この発明によれば、音声強調装置の低域強調部は、人が聞き取りやすいように声の高さを保持し、有声音による単語の組や音素の組を聞き取りやすくするとともに、無声音のセグメントの情報となる特徴を維持した１００ヘルツから４００ヘルツの音声データを通過させ、第一スペクトルコントラスト強調部及び第二スペクトルコントラスト強調部は、母音を聞き取りやすくするよう２５０ヘルツから４０００ヘルツまでの帯域にスペクトルコントラスト強調を施し、第一高域強調部及び第二高域強調部は、スペクトルコントラスト強調による高域への影響を原音に近づけ、雑音性の子音を聞き取り易くする４０００ヘルツから８０００ヘルツまでを通過させる。
これにより、音声強調装置は、聞き取りが容易な強調音声を生成することができる。

［５］本発明の一態様は、コンピュータを、入力音声の音声データを取得する音声入力手段と、前記音声入力手段が取得した前記音声データに対し、フォルマントが含まれる中域よりも低い帯域を少なくとも含んだ低域のみを通過させる低域強調手段と、前記音声入力手段が取得した前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第一スペクトルコントラスト強調手段と、前記音声入力手段が取得した前記音声データに対し、前記中域よりも高い帯域を含んだ高域のみを通過させる第一高域強調手段と、前記音声入力手段が取得した前記音声データに対し、スペクトル傾斜補正を行って出力するスペクトル傾斜補正手段と、前記スペクトル傾斜補正手段がスペクトル傾斜補正を行った前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第二スペクトルコントラスト強調手段と、前記スペクトル傾斜補正手段がスペクトル傾斜補正を行った前記音声データに対し、前記高域のみを通過させる第二高域強調手段と、前記音声入力手段と、前記スペクトル傾斜補正手段と、前記低域強調手段と、前記第一スペクトルコントラスト強調手段と、前記第一高域強調手段と、前記第二スペクトルコントラスト強調手段と、前記第二高域強調手段とから出力された前記音声データにそれぞれの所定の倍率を乗算し、これらの乗算結果を加算して得られる音声データを出力する音声加算手段と、を具備する音声強調装置として機能させるためのプログラムである。

本発明によれば、音響特徴量の分析をすることなく、音声の音響特徴量を強調して聞き取り易くすることができる。

本発明の第１の実施形態における音声強調装置の構成を示す機能ブロック図である。同実施形態におけるスペクトルコントラスト強調部の構成を示す機能ブロック図である。同実施形態における音声強調装置の処理フローを示す図である。第２の実施形態における音声強調装置の構成を示す機能ブロック図である。同実施形態におけるスペクトルコントラスト強調部の構成を示す機能ブロック図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図１は、本発明の第１の実施形態による音声強調装置１の機能構成を示すブロック図である。同図に示すように、音声強調装置１は、音声入力部１２と、低域強調部１３と、第一スペクトルコントラスト強調部１４と、第一高域強調部１５と、スペクトル傾斜補正部１６と、第二スペクトルコントラスト強調部１７と、第二高域強調部１８と、音声加算部１９とを備えて構成される。なお、第一スペクトルコントラスト強調部１４と第二スペクトルコントラスト強調部１７は同じ範囲の帯域を処理対象とし、第一高域強調部１５と第二高域強調部１８は同じ範囲の帯域を処理対象とする。

音声入力部１２は、入力音声をフレーム単位の音声データとして取得し、低域強調部１３、第一スペクトルコントラスト強調部１４、第一高域強調部１５、スペクトル傾斜補正部１６、及び音声加算部１９に出力する。低域強調部１３は、音声入力部１２から入力された音声データの低域部分の帯域のみを通過させ音声加算部１９に出力する。第一スペクトルコントラスト強調部１４は、音声入力部１２から入力された音声データの中域までの帯域に対してスペクトルコントラスト強調を施し、音声加算部１９に出力する。中域までの帯域は、低域強調部１３が通過させる帯域（低域）の一部から第一高域強調部１５で通過させる帯域（高域）より低い帯域を含む。なお、中域までの帯域が、第一高域強調部１５で通過させる帯域（高域）の一部の帯域を含んでもよい。第一高域強調部１５は、音声入力部１２から入力された音声データの高域部分の帯域のみを通過させるフィルタリングを行い、音声加算部１９に出力する。第一高域強調部１５の通過帯域（高域）は、第一スペクトルコントラスト強調部１４が処理対象とする帯域より高い帯域を含む。

スペクトル傾斜補正部１６は、音声入力部１２から入力された音声データをプリエンファシスし、高域側を強調するスペクトル傾斜補正を行う。スペクトル傾斜補正部１６は、スペクトル傾斜補正を行った音声データを第二スペクトルコントラスト強調部１７、第二高域強調部１８、及び音声加算部１９に出力する。第二スペクトルコントラスト強調部１７は、スペクトル傾斜補正部１６によりスペクトル傾斜補正された音声データの中域までの帯域に対して、スペクトルコントラスト強調を施し、音声加算部１９に出力する。第二高域強調部１８は、スペクトル傾斜補正部１６によりスペクトル傾斜補正された音声データの高域部分の帯域のみを通過させるフィルタリングを行い、音声加算部１９に出力する。

音声加算部１９は、音声入力部１２、低域強調部１３、第一スペクトルコントラスト強調部１４、第一高域強調部１５、スペクトル傾斜補正部１６、第二スペクトルコントラスト強調部１７、及び第二高域強調部１８から入力された音声データにそれぞれの倍率を乗算し、乗算された音声データを加算して出力する。音声加算部１９は、第一乗算部１９１、第二乗算部１９２、第三乗算部１９３、第四乗算部１９４、第五乗算部１９５、第六乗算部１９６、第七乗算部１９７、及び加算部１９８を備えて構成される。

第一乗算部１９１は、音声入力部１２から入力された原音の音声データに倍率ｒ１を乗算し、加算部１９８に出力する。第二乗算部１９２は、低域強調部１３から入力された音声データに倍率ｒ２を乗算し、加算部１９８に出力する。第三乗算部１９３は、第一スペクトルコントラスト強調部１４から入力された音声データに倍率ｒ３を乗算し、加算部１９８に出力する。第四乗算部１９４は、第一高域強調部１５から入力された音声データに倍率ｒ４を乗算し、加算部１９８に出力する。第五乗算部１９５は、スペクトル傾斜補正部１６から入力された音声データに倍率ｒ５を乗算し、加算部１９８に出力する。第六乗算部１９６は、第二スペクトルコントラスト強調部１７から入力された音声データに倍率ｒ６を乗算し、加算部１９８に出力する。第七乗算部１９７は、第二高域強調部１８から入力された音声データに倍率ｒ７を乗算し、加算部１９８に出力する。加算部１９８は、第一乗算部１９１、第二乗算部１９２、第三乗算部１９３、第四乗算部１９４、第五乗算部１９５、第六乗算部１９６、及び第七乗算部１９７のそれぞれから入力された音声データを加算し、強調音声として出力する。

図２は、図１における第一スペクトルコントラスト強調部１４、及び第二スペクトルコントラスト強調部１７として用いられるスペクトルコントラスト強調部２の機能構成を示すブロック図である。同図に示すように、スペクトルコントラスト強調部２は、中域強調部２１、コントラスト強調処理部２２、及びパワー補正部２３を備えて構成される。

中域強調部２１は、入力された音声データの中域までの帯域のみを通過させるフィルタリングを行い、コントラスト強調処理部２２に出力する。中域強調部２１は、例えば、ローパスフィルタとハイパスフィルタにより構成される。中域強調部２１において中域までの帯域のみを通過させることによって、スペクトルコントラスト強調部２からの出力も中域までの帯域のみとなる。

コントラスト強調処理部２２は、第一高域強調部１５、及び第二高域強調部１８における通過帯域以下の中域を処理対象とし、中域強調部２１から入力された音声データのスペクトルコントラスト強調を施す。コントラスト強調処理部２２には、例えば、音響特徴量の分析を必要としない方式である特許文献４、あるいは、非特許文献１を適用することができる。特許文献４、非特許文献１では、音響特徴量の判別を用いずに、周波数スペクトルのエネルギーのピーク・ディップについて、そのコントラストを拡大する。具体的には、入力音声の異なる帯域のそれぞれについて、広帯域通過フィルタを通過させた後、パワーを圧縮してさらに狭帯域通過を通過させ、狭帯域通過を通過した各帯域の音声データのパワーを拡張した後、合成する。なお、コントラスト強調処理部２２が、非特許文献１の方式で構成される場合、スペクトルコントラスト強調部２は中域強調部２１を備えなくともよい。これは、非特許文献１の方式は、フィルタバンクにより構成され、このフィルタバンクによって帯域制限が可能なためである。コントラスト強調処理部２２をこの方式以外で構成し、帯域制限ができない場合には中域強調部２１を用いる。コントラスト強調処理部２２は、スペクトルコントラスト強調を施した音声データをパワー補正部２３に出力する。

パワー補正部２３は、コントラスト強調処理部２２による処理の特性によって音声データのパワーが変化する場合、コントラスト強調後の音声データのパワーをコントラスト強調前の音声データのパワーに合わせる処理を施し、音声加算部１９に出力する。なお、コントラスト強調処理部２２による処理によって音声データのパワーが変化しない場合、スペクトルコントラスト強調部２はパワー補正部２３を備えなくともよい。例えば、コントラスト強調処理部２２が、非特許文献１の方式で構成される場合は、コントラスト強調処理部２２による処理によって音声データのパワーが変化するため、パワー補正部２３を使用する。

続いて、音声強調装置１の動作を説明する。
図３は、本実施形態の音声強調装置１の処理フローを示す図である。音声強調装置１には、入力音声に応じて予め倍率ｒ１〜ｒ７が設定される。まず、音声強調装置１に外部から音声が入力されると(ステップＳ１）、音声入力部１２は、この入力された音声をフレーム単位の音声データに変換する（ステップＳ２）。音声強調装置１は、フレーム単位で以降の処理を行う。

音声入力部１２は、ステップＳ２において変換により得られた音声データを、低域強調部１３、第一スペクトルコントラスト強調部１４、第一高域強調部１５、スペクトル傾斜補正部１６、及び音声加算部１９に出力する（ステップＳ３）。音声加算部１９の第一乗算部１９１は、ステップＳ３において音声入力部１２から入力された原音の音声データに倍率ｒ１を乗算し、加算部１９８に出力する（ステップＳ４）。

低域強調部１３は、ステップＳ３において音声入力部１２から入力された音声データの低域部分の帯域のみを通過させるフィルタリングを行う（ステップＳ５）。低域強調部１３の通過帯域は、スペクトルの調波成分のうち、低域部分の波形を特徴付ける第１調波成分を少なくとも含む。また、第一スペクトルコントラスト強調部１４または第二スペクトルコントラスト強調部１７の処理により低域が減衰することが予めわかっている場合に、その帯域を通過帯域に含む。低域の音声データは、人の声の高さを特徴付ける基本周波数を保持している。つまり、人が聞き取りやすいように声の高さが保持された音声データであり、聞いたときに声の重みを感じさせる。また、この低域の音声データは、有声音（母音や有声の子音）による単語の組や音素の組を聞き取りやすくするとともに、無声音（無声の子音）のセグメントの情報となる特徴も維持している。低域強調部１３は、フィルタリング後の音声データを音声加算部１９に出力する（ステップＳ６）。音声加算部１９の第二乗算部１９２は、ステップＳ６において低域強調部１３から入力された音声データに倍率ｒ２を乗算し、加算部１９８に出力する（ステップＳ７）。

第一スペクトルコントラスト強調部１４は、ステップＳ３において音声入力部１２から入力された音声データの中域までの帯域に対し、スペクトルのピークとそのピークに隣接する谷の差を大きくするスペクトルコントラスト強調を施す（ステップＳ８）。中域は、母音の特徴が主に強い帯域であり、フォルマントが含まれる。そのため、スペクトルのピークを強調して音声の特徴を際立たせることにより、母音を聞き取りやすくすることができる。なお、本実施形態では、スペクトルコントラストの強調にフォルマントのピークの分析を利用しない方式を利用しているが、分析を利用した方式を用いてもよい。第一スペクトルコントラスト強調部１４は、スペクトルコントラスト強調を施した音声データを音声加算部１９に出力する（ステップＳ９）。音声加算部１９の第三乗算部１９３は、ステップＳ９において第一スペクトルコントラスト強調部１４から入力された音声データに倍率ｒ３を乗算し、加算部１９８に出力する（ステップＳ１０）。

第一高域強調部１５は、ステップＳ３において音声入力部１２から入力された音声データの高域部分の帯域のみを通過させるフィルタリングを行う（ステップＳ１１）。第一スペクトルコントラスト強調部１４において中域だけを処理し、高域が出力されない場合、第一高域強調部１５から出力される音声データを加えることで、高域を補うことができる。あるいは、第一スペクトルコントラスト強調部１４から高域も含まれた音声データが出力される場合、第一高域強調部１５から出力される音声データを加えることで、第一スペクトルコントラスト強調部１４の処理によって影響が及んだ高域の音声を原音に近く保つことができる。また、雑音性の子音は、高域にパワーが偏ることがあるため、高域の音声データにより、子音のパワーをあげ、雑音性の子音を聞き取りやすくすることもできる。第一高域強調部１５は、フィルタリング後の音声データを音声加算部１９に出力する（ステップＳ１２）。音声加算部１９の第四乗算部１９４は、ステップＳ９において第一高域強調部１５から入力された音声データに倍率ｒ４を乗算し、加算部１９８に出力する（ステップＳ１３）。

スペクトル傾斜補正部１６は、ステップＳ３において音声入力部１２から入力された音声データをプリエンファシスし、高域側を増幅するスペクトル傾斜補正を行う（ステップＳ１４）。高域はスペクトルの振幅が小さくなってピークが明確とならない傾向があるが、このプリエンファシスにより、高域側のパワーの傾きを上げて平坦化し、高域側のピークを読み取りやすい音声データとすることができる。プリエンファシスは、ｙ（ｎ）＝ｘ（ｎ）−αｘ（ｎ−１）により、高周波数成分の振幅を強調する。ここで、ｎは、フレーム内でのサンプルを表すインデックス、ｘ（ｎ）は入力された音声データ、ｙ（ｎ）はプリエンファシス後の音声、αはプリエンファシス係数である。スペクトル傾斜補正部１６は、スペクトル傾斜補正を行った音声データを第二スペクトルコントラスト強調部１７、第二高域強調部１８、及び音声加算部１９に出力する（ステップＳ１５）。音声加算部１９の第五乗算部１９５は、ステップＳ１５においてスペクトル傾斜補正部１６から入力された音声データに倍率ｒ５を乗算し、加算部１９８に出力する（ステップＳ１６）。

第二スペクトルコントラスト強調部１７は、ステップＳ１５においてスペクトル傾斜補正部１６から出力された音声データに対して、第一スペクトルコントラスト強調部１４と同様の処理により、中域までの帯域にスペクトルコントラスト強調を施す（ステップＳ１７）。音声データはプリエンファシスされているため、第二スペクトルコントラスト強調部１７は、各ピークを同等に扱ってスペクトルコントラスト強調することができる。第二スペクトルコントラスト強調部１７は、スペクトルコントラスト強調を施した音声データを音声加算部１９に出力する（ステップＳ１８）。音声加算部１９の第六乗算部１９６は、ステップＳ１８において第二スペクトルコントラスト強調部１７から入力された音声データに倍率ｒ６を乗算し、加算部１９８に出力する（ステップＳ１９）。

第二高域強調部１８は、ステップＳ１５においてスペクトル傾斜補正部１６から出力された音声データの高域部分の帯域のみを通過させるフィルタリングを行う（ステップＳ２０）。これにより、スペクトル傾斜補正により強調された高域部分の音声データが抽出される。第二高域強調部１８は、フィルタリング後の音声データを音声加算部１９に出力する（ステップＳ２１）。音声加算部１９の第七乗算部１９７は、ステップＳ２１において第二高域強調部１８から入力された音声データに倍率ｒ７を乗算し、加算部１９８に出力する（ステップＳ２２）。

加算部１９８は、ステップＳ４において第一乗算部１９１から入力された音声データ、ステップＳ７において第二乗算部１９２から入力された音声データ、ステップＳ１０において第三乗算部１９３から入力された音声データ、ステップＳ１３において第四乗算部１９４から入力された音声データ、ステップＳ１６において第五乗算部１９５から入力された音声データ、ステップＳ１９において第六乗算部１９６から入力された音声データ、及びステップＳ２２において第七乗算部１９７から入力された音声データを加算して強調音声を生成し、出力する（ステップＳ２３）。

次に、本発明の第２の実施形態について説明する。以下、第１の実施形態との差分について説明する。
図４は、本発明の第２の実施形態による音声強調装置１ａの機能構成を示すブロック図である。同図において、図１に示す第１の実施形態による音声強調装置１と同一の部分には同一の符号を付し、その説明を省略する。同図に示す音声強調装置１ａが、図１に示す音声強調装置１と異なる点は、音声入力部１２、第一スペクトルコントラスト強調部１４、スペクトル傾斜補正部１６、第二スペクトルコントラスト強調部１７に代えて、音声入力部１２ａ、第一スペクトルコントラスト強調部１４ａ、スペクトル傾斜補正部１６ａ、第二スペクトルコントラスト強調部１７ａを備える点である。

音声入力部１２ａは、入力音声の音声データを取得し、低域強調部１３、第一スペクトルコントラスト強調部１４ａ、第一高域強調部１５、スペクトル傾斜補正部１６ａ、及び音声加算部１９に出力する。なお、音声入力部１２ａは、フレーム分割されていない音声データの入力を受け、入力された音声データをそのまま複数の出力先に出力してもよく、入力音声をフレーム分割されていない音声データに変換して出力してもよい。第一スペクトルコントラスト強調部１４ａ及び第二スペクトルコントラスト強調部１７ａは、フレーム単位で音声データの中域までの帯域に対してスペクトルコントラスト強調を施し、音声加算部１９に出力する。

スペクトル傾斜補正部１６ａは、音声入力部１２ａから入力された音声データをプリエンファシスし、高域側を強調するスペクトル傾斜補正を行う。スペクトル傾斜補正部１６ａは、スペクトル傾斜補正を行った音声データの平均パワーが、スペクトル傾斜補正を行う前の原音の音声データの平均パワーと一致するように、スペクトル傾斜補正を行った音声データのパワーを調整する。このパワー調整は、例えば、１秒ごと、３秒ごとなどの所定時間間隔毎に行う。あるいは、パワー調整を文章単位で行ってもよい。パワー調整を文章単位で行う場合、例えば、音声強調装置１ａへ音声を入力する前に、音声認識装置において入力音声の音声認識を行う。音声認識装置は、音声認識の結果得られた文章の開始または終了のタイミングを特定する情報を音声データに付加して音声強調装置１ａに入力する。なお、音声認識以外の任意の手段により、文章の開始または終了のタイミングを特定する情報を音声データに付加し、音声強調装置１ａへ入力してもよい。これによりスペクトル傾斜補正部１６ａは、文章の開始または終了のタイミングを特定する情報により区切られた音声データの単位でパワー調整を行う。また、予め文書単位で区切られた個別の音声データを入力し、音声データの単位でパワー調整を行うようにしてもよい。スペクトル傾斜補正部１６ａは、パワー調整を行った後、スペクトル傾斜補正を行った音声データを第二スペクトルコントラスト強調部１７ａ、第二高域強調部１８、及び音声加算部１９に出力する。

図５は、図４における第一スペクトルコントラスト強調部１４ａ、及び第二スペクトルコントラスト強調部１７ａとして用いられるスペクトルコントラスト強調部２ａの機能構成を示すブロック図である。同図において、図２に示す第１の実施形態によるスペクトルコントラスト強調部２と同一の部分には同一の符号を付し、その説明を省略する。同図に示すように、スペクトルコントラスト強調部２ａが、図２に示すスペクトルコントラスト強調部２と異なる点は、フレーム分割部２０をさらに備える点である。
フレーム分割部２０は、入力された音声データをフレーム単位の音声データに変換し、中域強調部２１に出力する。

音声強調装置１ａの動作は、図３に示す第１の実施形態の音声強調装置１の処理フローと同様である。ただし、音声入力部１２、第一スペクトルコントラスト強調部１４、スペクトル傾斜補正部１６、第二スペクトルコントラスト強調部１７に代えて、音声入力部１２ａ、第一スペクトルコントラスト強調部１４ａ、スペクトル傾斜補正部１６ａ、第二スペクトルコントラスト強調部１７ａが処理を行う。また、音声入力部１２ａは、ステップＳ１において音声データが入力されると、ステップＳ２の処理を行わずに、ステップＳ３の処理を行い、入力された音声データを、低域強調部１３、第一スペクトルコントラスト強調部１４ａ、第一高域強調部１５、スペクトル傾斜補正部１６ａ、及び音声加算部１９に出力する。よって、ステップＳ３以降の処理は、音声が入力されると、逐次的に行われる。

なお、第２の実施形態の音声強調装置１ａが備えるスペクトル傾斜補正部１６ａを、図１に示すスペクトル傾斜補正部１６に置き換え、パワー調整を行わない構成としてもよい。

次に、各処理部に処理を指示する具体的なパラメータの例を、スペクトルコントラスト強調部２、２ａのコントラスト強調処理部２２にフィルタバンクによるコントラスト強調（非特許文献１）を用いる場合について述べる。
このコントラスト強調方法では、４００Ｈｚ（ヘルツ）以下のスペクトルに減衰が見られるため、低域強調部１３は１００〜４００Ｈｚを処理対象とする。また、コントラスト強調処理部２２で処理対象とする帯域は、母音の弁別に効果的な対象として、２５０〜４０００Ｈｚとする。第一高域強調部１５及び第二高域強調部１８の処理帯域は、音声の聞き取りに十分な帯域として、４０００〜８０００Ｈｚとする。
また、スペクトル傾斜補正部１６、１６ａのプリエンファシスのパラメータ（プリエンファシス係数α）の具体例として、入力音声が雑音のないクリーンな音声の場合は０．９７、雑音などを含む音声の場合は０．９などを用いる。

乗算の倍率ｒ１〜ｒ７についても入力音声に応じて設定する。表１は、倍率ｒ１〜ｒ７の設定例を示す。表１において、「ＯＮ」は０より大きな値を設定することを示し、「−」は０を設定し、出力元から入力された音声データを使用しないことを示す。

例えば、８０００Ｈｚまでの帯域を含む音声を入力音声としたとき、倍率ｒ２、ｒ６を０より大きくし、低域強調部１３により処理された音声データと、第二スペクトルコントラスト強調部１７、１７ａにより処理された音声データを使用する。雑音がないクリーンな音声の場合、高音を強調すると聞き取りやすい。よって、雑音のないクリーンな音声を入力音声とする場合は、スペクトル傾斜補正部１６、１６ａにより処理が施された音声データの倍率ｒ５を０より大きくする。一方、雑音がある音声の場合、高音を強調すると、高い帯域の雑音も強調されて聞き取りにくくなってしまう。そのため、雑音がある音声を入力音声とする場合は、高域の雑音を強調しないために、スペクトル傾斜補正部１６、１６ａにより処理が施された音声データの倍率ｒ５を、雑音がない音声の場合と比較してエネルギーバランスが低くなるように設定する。具体的には、低域強調部１３、スペクトル傾斜補正部１６、１６ａ、第二スペクトルコントラスト強調部１７、１７ａの処理音声を併せたエネルギーに対するスペクトル傾斜補正部１６、１６ａの相対的なエネルギーが、雑音がない音声の場合より低くなるように設定する。これにより、高域のスペクトル傾斜補正はされないが、高域のパワーが小さくなるため、音声入力部１２、１２ａから出力された原音の音声データの倍率ｒ１と、第一高域強調部１５から出力された音声データの倍率ｒ４を０より大きくすることで、高域のパワーを補充する。

また、８０００Ｈｚ以上の帯域を含む音声を入力音声とした場合も、倍率ｒ２、ｒ６を０より大きくし、低域強調部１３により処理された音声データと、第二スペクトルコントラスト強調部１７、１７ａにより処理された音声を使用する。ただし、８０００Ｈｚ以上の帯域を含む場合、高音を強調しすぎると聞き取りにくくなってしまう。そこで、スペクトル傾斜補正部１６、１６ａにより処理が施された音声データの倍率ｒ５を、雑音がない８０００Ｈｚまでの音声の場合と比較してエネルギーバランスが低くなるように設定する。つまり、低域強調部１３、スペクトル傾斜補正部１６、１６ａ、第二スペクトルコントラスト強調部１７、１７ａの処理音声を併せたエネルギーに対するスペクトル傾斜補正部１６、１６ａの相対的なエネルギーが、雑音がない８０００Ｈｚまでの音声の場合より低くなるように設定する。この場合、高域のパワーが小さくなるため、音声入力部１２、１２ａから出力された原音の音声データの倍率ｒ１を０より大きくする。そして、雑音がある音声の場合、８０００Ｈｚまでの帯域を強調するために、第一高域強調部１５から出力された音声データの倍率ｒ４を０より大きくし、雑音がない音声の場合、第二高域強調部１８から出力された音声データの倍率ｒ７を０より大きくする。

上記のように、低域・中域までの帯域・高域以上の部分のエネルギーバランスが音声の形式（入力音声に含まれる雑音や、入力音声の帯域）ごとにあり、さらに、高域以上の部分については、倍率ｒ１、ｒ４、ｒ５、ｒ７の設定によって、高域あるいは高域より上の帯域の強調度合いを調整する。このように、倍率ｒ１〜ｒ７は、入力音声に含まれる雑音や、入力音声の帯域に応じて設定される。また、倍率ｒ１〜ｒ７は、出力元の処理帯域の設定範囲にも応じて設定される。なお、通常は、倍率ｒ３とｒ６いずれか一方、あるいは、倍率ｒ４とｒ７のいずれか一方を０とすることが想定されるが、これに限定されず、第一スペクトルコントラスト強調部１４の出力音声データ及び第二スペクトルコントラスト強調部１７の出力音声データの両方、あるいは、第一スペクトルコントラスト強調部１４ａの出力音声データ及び第二スペクトルコントラスト強調部１７ａの出力音声データの両方を強調音声に用いてもよく、第一高域強調部１５の出力音声データ及び第二高域強調部１８の出力音声データの両方を強調音声に用いてもよい。

具体例の一つとして、入力音声が雑音のないクリーンな音声であって、周波数成分が８ｋＨｚまでの場合、ｒ２＝１、ｒ５＝１、ｒ６＝１を用い、それ以外は０を用いると、音声加算部１９による加算後に出力される強調音声は入力音声よりも明瞭度が向上することが期待できる。

また、コントラスト強調処理部２２のフィルタバンクの方法を用いる場合、処理後のパワーが処理前より変化するため、入力音声が雑音のないクリーンな音声である場合は、パワー補正部２３の処理を施す。ただし、入力音声が雑音などを含む音声である場合、雑音の影響で品質劣化につながる可能性があるため、パワー補正部２３の処理を施さない。

次に、第２の実施形態の音声強調装置１ａを用いた明瞭度試験の結果を示す。明瞭度試験は、以下のように行った。
入力音声に文書の音声を用いて音声強調装置１ａが生成した強調音声と、原音の入力音声とのそれぞれにノイズを混ぜた。被験者は、ノイズを混ぜた強調音声、ノイズを混ぜた原音の入力音声を聞き、聞き取れたキーワードを回答した。そして、回答で得られたキーワードの正答率を明瞭度とした。なお、入力音声には、周波数成分が８ｋＨｚまでの雑音のないクリーンな音声を使用した。また、強調音声に混ぜるノイズには、（ノイズａ）単一話者の音声、（ノイズｂ）音声の平均スペクトルの包絡を持った雑音を用いた。

コントラスト強調処理部２２には、フィルタバンクによるコントラスト強調（非特許文献１）を用いた。低域強調部１３の処理対象の帯域（低域）を１００〜４００Ｈｚとし、コントラスト強調処理部２２の処理対象の帯域（中域までの帯域）を２５０〜４０００Ｈｚとし、第一高域強調部１５及び第二高域強調部１８の処理対象の帯域（高域）を４０００〜８０００Ｈｚとした。そして、ｒ２＝１、ｒ５＝１、ｒ６＝１、他の倍率ｒ１、ｒ３、ｒ４、ｒ７＝０とし、スペクトル傾斜補正部１６ａのプリエンファシスのパラメータは０．９７とした。

表２は、入力音声から音声強調装置１ａが生成した強調音声と、音声強調装置１ａによる処理を行っていない入力音声とのそれぞれに、ＳＮＲ（Signal to Noise ratio）が高、中、低のノイズａを混ぜた場合の明瞭度（ＳＤ）を示している。
また、表３は、入力音声から音声強調装置１ａが生成した強調音声と、音声強調装置１ａによる処理を行っていない入力音声とのそれぞれに、ＳＮＲが高、中、低のノイズｂを混ぜた場合の明瞭度（ＳＤ）を示している。
なお、表２、表３において、「処理音声」は音声強調装置１ａが生成した強調音声を示し、「処理なし」は音声強調装置１ａによる処理を行っていない原音の入力音声を示す。また、括弧内の数値は標準偏差である。

表２、表３に示すように、ノイズａ、ノイズｂを、ＳＮＲを変えて混ぜたいずれの場合でも、処理音声のほうが原音の入力音声よりも明瞭度が向上している。

従来技術を用いても、子音・母音のセグメント分割や、母音のフォルマントの抽出や分析など、音響特徴量の抽出を正確に行うことは困難である。しかし、以上説明した音声強調装置１、１ａによれば、音響特徴量の抽出を必要とすることなく、母音や子音の聞き取りに必要な特徴を強調するための異なる帯域の音声データを生成し、予め定められた適切なパラメータに基づいて、音声の特徴を保ちながら不要な帯域を低減するように、異なる特徴に対応した帯域の音声データを加算する。これにより、音声強調装置１、１ａは、逐次処理可能な信号処理によって、入力される音声の音響特徴量を聞き取り易いように強調することができる。また、第一スペクトルコントラスト強調部１４、１４ａ、第二スペクトルコントラスト強調部１７、１７ａが、フォルマントのピークの分析を利用した処理である場合、その分析に誤りがあっても、他の帯域の音声データを加算することにより、その分析誤りの影響を低減することも可能となる。

なお、上述の音声強調装置１、１ａの各部は、専用のハードウェアにより実現されるものであってもよく、音声強調装置１、１ａの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、音声強調装置１の各部に必要な処理を行ってもよい。なお、ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、音声による案内装置や、テレビ及びラジオ等の放送受信機や、電話網あるいは電話端末装置など、人の音声を扱う装置等に幅広く利用できる。

１、１ａ音声強調装置
２、２ａスペクトルコントラスト強調部
１２、１２ａ音声入力部
１３低域強調部
１４、１４ａ第一スペクトルコントラスト強調部
１５第一高域強調部
１６、１６ａスペクトル傾斜補正部
１７、１７ａ第二スペクトルコントラスト強調部
１８第二高域強調部
１９音声加算部
２０フレーム分割部
２１中域強調部
２２コントラスト強調処理部
２３パワー補正部
１９１第一乗算部
１９２第二乗算部
１９３第三乗算部
１９４第四乗算部
１９５第五乗算部
１９６第六乗算部
１９７第七乗算部
１９８加算部

Claims

入力音声の音声データを取得する音声入力部と、
前記音声入力部が取得した前記音声データに対し、フォルマントが含まれる中域よりも低い帯域を少なくとも含んだ低域のみを通過させる低域強調部と、
前記音声入力部が取得した前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第一スペクトルコントラスト強調部と、
前記音声入力部が取得した前記音声データに対し、前記中域よりも高い帯域を含んだ高域のみを通過させる第一高域強調部と、
前記音声入力部が取得した前記音声データに対し、スペクトル傾斜補正を行って出力するスペクトル傾斜補正部と、
前記スペクトル傾斜補正部がスペクトル傾斜補正を行った前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第二スペクトルコントラスト強調部と、
前記スペクトル傾斜補正部がスペクトル傾斜補正を行った前記音声データに対し、前記高域のみを通過させる第二高域強調部と、
前記音声入力部と、前記スペクトル傾斜補正部と、前記低域強調部と、前記第一スペクトルコントラスト強調部と、前記第一高域強調部と、前記第二スペクトルコントラスト強調部と、前記第二高域強調部とから出力された前記音声データにそれぞれの所定の倍率を乗算し、これらの乗算結果を加算して得られる音声データを出力する音声加算部と、
を備えることを特徴とする音声強調装置。
前記第一スペクトルコントラスト強調部及び前記第二スペクトルコントラスト強調部は、
前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルのコントラスト強調処理を行うコントラスト強調処理部と、
前記コントラスト強調処理部がコントラスト強調処理を行った前記音声データに対し、前記コントラスト強調処理に伴うパワーの変化を補正するパワー補正部とを備える、
ことを特徴とする請求項１に記載の音声強調装置。
前記第一スペクトルコントラスト強調部及び前記第二スペクトルコントラスト強調部は、
前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域を通過させ、前記コントラスト強調処理部に出力する中域強調部をさらに備える、
ことを特徴とする請求項２に記載の音声強調装置。
前記低域が１００ヘルツから４００ヘルツまでの帯域であり、
前記低域の一部の帯域から前記中域までの帯域が２５０ヘルツから４０００ヘルツまでの帯域であり、
前記高域が４０００ヘルツから８０００ヘルツまでの帯域である、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声強調装置。
コンピュータを、
入力音声の音声データを取得する音声入力手段と、
前記音声入力手段が取得した前記音声データに対し、フォルマントが含まれる中域よりも低い帯域を少なくとも含んだ低域のみを通過させる低域強調手段と、
前記音声入力手段が取得した前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第一スペクトルコントラスト強調手段と、
前記音声入力手段が取得した前記音声データに対し、前記中域よりも高い帯域を含んだ高域のみを通過させる第一高域強調手段と、
前記音声入力手段が取得した前記音声データに対し、スペクトル傾斜補正を行って出力するスペクトル傾斜補正手段と、
前記スペクトル傾斜補正手段がスペクトル傾斜補正を行った前記音声データに対し、前記低域の一部の帯域から前記中域までの帯域のスペクトルコントラスト強調を行って出力する第二スペクトルコントラスト強調手段と、
前記スペクトル傾斜補正手段がスペクトル傾斜補正を行った前記音声データに対し、前記高域のみを通過させる第二高域強調手段と、
前記音声入力手段と、前記スペクトル傾斜補正手段と、前記低域強調手段と、前記第一スペクトルコントラスト強調手段と、前記第一高域強調手段と、前記第二スペクトルコントラスト強調手段と、前記第二高域強調手段とから出力された前記音声データにそれぞれの所定の倍率を乗算し、これらの乗算結果を加算して得られる音声データを出力する音声加算手段と、
を具備する音声強調装置として機能させるためのプログラム。