JP4644876B2

JP4644876B2 - 音声処理装置

Info

Publication number: JP4644876B2
Application number: JP2005021866A
Authority: JP
Inventors: 隆弘足立; 玲子山田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-01-28
Filing date: 2005-01-28
Publication date: 2011-03-09
Anticipated expiration: 2025-01-28
Also published as: JP2006208820A

Description

本発明は、入力された音声の明瞭性を向上させて出力することが可能な音声処理装置の構成に関する。

人間は様々な雑音環境下で音声によるコミュニケーションを行っているが、多くの先行研究で音声知覚は雑音に妨害されることが報告されている（たとえば、非特許文献１を参照）。また、母語よりも非母語の方が雑音の影響を受けやすいことも報告されている（たとえば、非特許文献２を参照）。

したがって、たとえば、外国語音声学習教材において、雑音環境下においても会話可能な能力の獲得を目指すならば、音声への雑音付加の影響に関して、母語話者と非母語話者との違いを詳細に調査し、効果的な訓練方法を検討する必要がある。

このような点について、日本語話者が区別して知覚することが困難なアメリカ英語の／ｒ／−／ｌ／（以下ＲＬと略す）で対立する音声に関してＳＮ比を系統的に操作し、アメリカ英語母語話者と日本語母語話者との正答率の違いを調べた実験結果についての報告がある（たとえば、非特許文献３を参照）。
Kalikow,D.N.,Stevens,K.N.,and Elliott,L.L., Development of a test of speech intelligibility in noise using sentence materials with controlled word predictability, J. Acoust. Soc. Am., 61, pp.1337-1351, 1977 Florentine,M., Speech perception in noise by fluent non-native listeners, Trans. Tech. Comm. Physiol. Acoust., H-85-16、1985 上田和夫、駒木亮、山田玲子、雑音がアメリカ英語／ｒ／，／１／知覚に及ぼす影響，日本心理学会第６５回大会発表論文集，Ｐ．１２０２００１

ところで、音韻対立によって、音響的差異、聴取時の手掛かりが共に異なる。そのため、例えば／ｂ／と／ｖ／（以下ＢＶと略す）、／ｓ／と／θ／（以下ＳＴＨと略す）も日本語話者にとって区別して知覚することが困難な音韻だが、雑音付加の影響がＲLの場合と異なる可能性がある。このように、ある母語を有する話者にとって、区別して知覚するのが困難がある音韻を「音韻対立のある音韻」と呼ぶことにする。

したがって、上述したような雑音環境下での外国語の聞き取り学習をコンピュータによって実現しようとする場合に、最初から学習者に聞き取らせるモデル音声に単に雑音を付加してＳＮ比を劣化させたのでは、十分な学習効果が得られない可能性がある。

また、このような外国語学習の場合にとどまらず、より一般的には、日本人と外国人とが、音声通信によりコミュニケーションをとる場合などを想定すると、周囲の雑音の影響による聞き取り易さを考慮して、送受信音質の制御を考慮する必要もある。

しかしながら、従来は、周囲の雑音による音の聞き取り易さの劣化に対して、いかなる対処をとるべきかが、必ずしも明らかでない、という問題があった。特に、送受信者の母語が互いに異なる場合に、どのような音声処理を行って通信を行うのが望ましいかについては、十分な検討がなされていない。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、入力された音声について、聞き取りを行う側での明瞭性を向上させて出力することが可能な音声処理装置を提供することである。

このような目的を達成するために、本発明の音声処理装置は、音声処理装置であって、音声処理装置から出力される音声信号の再生音声の聴取者の母国語の種類に応じて強調すべき音韻の強調情報を格納する記憶手段と、聴取者の母国語の登録を受付ける手段と、入力された音声信号を周波数分析するための周波数分析手段と、周波数分析手段の分析結果に基づいて、各音韻部分を検出するための音韻検出手段と、音韻検出手段の検出結果と、登録された聴取者の母国語の情報に対応した強調情報とに応じて、音韻部分を選択的に強調する強調処理手段と、入力された音声信号と、選択的に強調された部分とを合成して出力する出力信号選択手段とを備える。

好ましくは、強調すべき音韻は、破裂音の音韻である。

好ましくは、音韻検出手段は、周波数分析手段の分析結果において、閉鎖音が存在する場合は、閉鎖音に後続した音声に対し、スペクトル包絡を計算し、低い周波数帯から高い周波数帯にまで一定以上のパワーが所定時間内に存在している垂直パルスの有無により、破裂音に相当する音韻を検知し、音響モデルを格納する音韻音響モデル格納手段をさらに備え、音韻検出手段は、破裂音以外の音韻については、各音韻に対する音響モデルに基づく尤度計算によって、音韻を検知する。

以下、図面を参照して本発明の実施の形態について説明する。

（本発明のシステム構成）
図１は、本発明の音声処理装置を用いた通信システム１０００の一例を示す概念図である。

以下の説明では、本発明の音声処理装置を用いて、遠隔地間で送信者と受信者とが音声信号により通信を行う場合をコンピュータ間の音声通信を例にとって説明する。ただし、本発明は、このような場合に限定されることなく、より一般的に、携帯電話などの他の通信システムや、テレビなどの放送システム、さらには、入力された音声について、聞き取りを行う側での明瞭性を向上させることが必要なシステムに適用することが可能である。たとえば、上述したような外国語の学習装置では、学習者に聞き取り課題を与える際に、意図的に所定レベルの雑音を付加することで、雑音環境下での聞き取り能力の向上を目指す場合に、学習者の訓練の度合いに応じて、最初は明瞭性を向上させるように処理したモデル音声を聞き取らせ、徐々に、本来の生のモデル音声の聞き取り訓練を行わせていくような場合にも適用可能である。

図１を参照して、システム１０００は、ユーザ２が、たとえば、インターネットなどのネットワーク４００を介して、遠隔にあるコンピュータ３００のユーザと、音声による通信を行うためのコンピュータ１００を備える。以下の説明では、コンピュータ１００が音声処理装置として機能する。

図１を参照して、このコンピュータ１００は、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory ）等の記録媒体上の情報を読込むためのディスクドライブ１０８およびフレキシブルディスク（Flexible Disk、以下ＦＤ）１１６に情報を読み書きするためのＦＤドライブ１０６を備えたコンピュータ本体１０２と、コンピュータ本体１０２に接続された表示装置としてのディスプレイ１０４と、同じくコンピュータ本体１０２に接続された入力装置としてのキーボード１１０およびマウス１１２と、音声入力装置としてのマイク１３２と、音声出力装置としてのスピーカ１３４とを含む。

なお、マイク１３２やスピーカ１３４は、ヘッドセットによりユーザ２が装着するヘッドフォンとマイクとすることもできる。

なお、コンピュータ３００も、基本的には、コンピュータ１００と同様の構成を有するものとする。

図２は、このコンピュータ１００のハードウェア構成をブロック図形式で示す図である。

図２に示されるように、このコンピュータ１００を構成するコンピュータ本体１０２は、ディスクドライブ１０８およびＦＤドライブ１０６に加えて、それぞれバスＢＳに接続されたＣＰＵ（Central Processing Unit ）１２０と、ＲＯＭ（Read Only Memory) およびＲＡＭ（Random Access Memory）を含むメモリ１２２と、直接アクセスメモリ装置、たとえば、ハードディスク１２４と、マイク１３２またはスピーカ１３４とデータの授受を行い、かつ、ネットワーク４００に対して通信を行うためのインタフェース１２８とを含んでいる。ディスクドライブ１０８には、たとえば、ＣＤ−ＲＯＭ１１８が装着される。ＦＤドライブ１０６にはＦＤ１１６が装着される。

なお、ＣＤ−ＲＯＭ１１８は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、ＤＶＤ−ＲＯＭ（Digital Versatile Disc）やメモリカードなどでもよく、その場合は、コンピュータ本体１０２には、これらの媒体を読取ることが可能なドライブ装置が設けられる。

本発明の音声処理装置の主要部は、コンピュータハードウェアと、ＣＰＵ１２０により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアはＣＤ−ＲＯＭ１１８、ＦＤ１１６等の記憶媒体に格納されて流通し、ＣＤ−ＲＯＭドライブ１０８またはＦＤドライブ１０６等により記憶媒体から読取られてハードディスク１２４に一旦格納される。または、当該装置がネットワーク３１０に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク１２４にコピーされる。そうしてさらにハードディスク１２４からメモリ１２２中のＲＡＭに読出されてＣＰＵ１２０により実行される。なお、ネットワーク接続されている場合には、ハードディスク１２４に格納することなくＲＡＭに直接ロードして実行するようにしてもよい。

図１および図２に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、ＦＤ１１６、ＣＤ−ＲＯＭ１１８、ハードディスク１２４等の記憶媒体に記憶されたソフトウェアである。

ただし、以下にソフトウェアの処理として説明する機能の一部、たとえば、周波数分析などは、ハードウェアにより実行する構成としてもよい。

図３は、本発明の音声処理装置として機能するコンピュータ１００の構成を機能ブロックで示す図である。

図３に示すとおり、ＣＰＵ１２０内には、機能ブロックとして、音声処理プログラムに基づいて、後に説明するような周波数分析を実行する周波数分析部１２０２と、音声の明瞭化処理を行う明瞭化処理部１２０４とが含まれる。

また、ＣＰＵ１２０とバスＢＳにより接続されるハードディスク１２４内には、破裂音等の存在を検出する際に用いられる音韻音響モデルを記録した音韻音響モデルデータベース１２４２と、利用者属性データベース１２４４が格納されている。音韻音響モデルとしては、特に限定されないが、たとえば、隠れマルコフモデルを用いることができる。また、利用者属性データベース１２４４には、本装置の利用者（出力音声の聴取者）の属性をもとに、これと関連付けて、強調する必要のある音韻の情報が予め格納されている。つまり、／ｂ／のような破裂音を含む音韻は、日本語母語話者、アメリカ英語母語話者ともに強調をする必要があるのに対し、／ｒ／，／ｌ／，／ｓ／、／ｔｈ／のような音韻は、日本語母語話者や利用者である場合にのみ強調する必要があるというような情報が格納されている。また、本装置の使用前に、このような利用者の属性については、システム１０００にユーザ２（音声の入力者）が登録をおこなうものとする。

なお、以下の説明では、「音韻の強調」は、当該音韻部分を選択的に増幅することにより行うものとして説明する。ただし、当該音韻以外の不要部分を選択的に減衰させることによっても当該音韻について「音韻の強調」を行うことができる。

さらに、インタフェース１２８には、ＣＰＵ１２０の制御によりビデオＲＡＭ（図示せず）に出力されてバスＢＳ経由で送出される画像データに基づいて、対応する画像信号に変換してディスプレイ１０４に出力するための画像信号インタフェース１２８２と、ＣＰＵ１２０の制御によりバスＢＳ経由で送出されるデジタル音声データに基づいて、対応する音声信号に変換してスピーカ１３４に出力するための音声変換器１３４と、マイク１３２から入力されるアナログ音声信号を対応するデジタル音声信号に変換するためのアナログデジタル変換器（以下、Ａ／Ｄ変換器）１２８６とを含む。なお、図３には、図示しないが、たとえば、メモリ１２２中には、上述したビデオＲＡＭとして機能する記憶領域や、音声信号の入出力バッファとして機能する記憶領域が割当てられているものとする。

図４は、図３で説明した周波数分析部１２０２や、明瞭化処理部１２０４の動作をより詳しく説明するためのブロック図である。

図４を参照して、マイク１３２から音声信号が入力されると、Ａ／Ｄ変換器１２８６は、アナログ電気信号で入力された音声信号をデジタル量子化する。

続いて、周波数分析部１２０２は、ＦＦＴ（Fast Fourier Transform）もしくはウェーブレット（wavelet）変換などのアルゴリズムを用いて変換して周波数分析をし、音声信号中に含まれる各周波数成分の強度を時系列で分割して解析する。

さらに、明瞭化処理部１２０４中の音韻検出部１２０６は、分析された周波数成分中における各音韻を検出する。したがって、音韻検出部１２０６は、破裂音に相当する音韻の他、すべての音韻を検出する。

音韻検出部１２０６の処理をより具体的に説明すると、以下のとおりである。

まず、音韻検出部１２０６は、検出された音韻を利用者データベース１２４４のデータと突合せ、もしも当該検出された音韻が利用者の属性から増幅する必要がある場合は、増幅処理部１２０８に当該音韻に相当する範囲内（時間）の信号の部分を増幅させ、増幅が必要でない場合には、増幅は行わず、明瞭化処理部１２０４から出力させる。特に限定されないが、図４のような構成で、増幅が必要でない場合の処理を実現するのであれば、音韻検出部１２０６は、当該信号部分をスルーしてもよいし、増幅処理部１２０８に増幅率＝１として処理させてもよい。

なお、／ｂ／のような破裂音については、たとえば、以下のようにして検出することができる。

ｉ）音韻検出部１２０６は、破裂に先行して存在する筈の閉鎖音（無音、もしくは無気音）を検出する。閉鎖音が存在しない場合は以下の処理ｉｉ）〜ｉｉｉ）は行わない。

ｉｉ）一方、閉鎖音が存在する場合は、音韻検出部１２０６は、閉鎖音に後続した音声に対し、スペクトル包絡を計算する。

ｉｉｉ）音韻検出部１２０６は、低い周波数帯から高い周波数帯にまで一定以上のパワーが存在している垂直パルス、または雑音パルスがあるかを計算する。また、一般にこれら成分は４０ｍｓ以下の時間で表れるため，これ以下の時間連続して発生している場合のみ破裂音成分とは見なす。

なお、他の音韻の検出については、音韻音響モデルデータベース１２４２に格納されたデータに基づいて、人間が発話した音声を用いて作成した各音韻に対する音響モデルを使用し、尤度計算によって破裂音を含む音韻が発生されているかを検出する方法が考えられる。

増幅処理部１２０８は、増幅を行って、後段の処理を行う信号選択部１２１０にデータを送る。増幅処理部１２０８での増幅量は予め設定した既定値、もしくは、過去に入力された音声の音圧に応じたゲインで行う。

信号選択部１２１０では、音韻検出部１２０６から送出される増幅を行っていないデータおよび増幅処理部１２０８からの増幅されたデータを選択的に合成して音声変換器１２８４に送る。

音声変換機１２８４では、音声再生のためにデジタルアナログ変換装置を行ってスピーカ１３４から再生させる。ただし、他の通信装置（携帯電話、テレビ・ラジオ放送など）を介してデジタル音声データをさらに送信する場合は、所定の符号化を行って受信機に対して送信する。

図５は、マイク１３２から入力される音声波形の一例を示す図である。

図５では、英語を母国語とした米国人が発話した「ＬＡＢ」という英単語音声を波形で示している。

図６（ａ）は、図５の波形を周波数分析した結果を示す図である。

すなわち、図５に示した波形を周波数分析すると，図６（ａ）のような声紋パターンが得られる。図６（ａ）の５００ｍｓ前後の縦に薄く出ている部分が「バズバー」と呼ばれる破裂音成分である。このようにパワーが弱い（図中ではパワーの強度を黒色の濃さで示している）と、”Ｂ”と知覚されず、”Ｖ”と知覚されてしまう可能性がある。

図６（ｂ）は、破裂音成分を検出し、破裂音成分の部分のみを増幅した音声の声紋パターンを示す図である。

なお、図６（ｂ）において、増幅の強度は先行する音声に合わせて適度に増幅し、また、前後の音声との繋がりを良くするため，エンベロープをかけて増幅している。すなわち、破裂音部分に近づくにつれて、次第に増幅率を大きくし、最大の増幅率の後は次第に増幅率を下げている。

図６（ｂ）において、”ＬＡ”の部分は増幅していないほか、エンベロープをかけて増幅することにより、全体として音量が大きくなり、耳障りなほど大きく聞こえたりすることはない。しかし，破裂音成分は大きく増幅されているため、聞き取る側では、”Ｂ”と知覚できるようになり、単語として”ＬＡＢ”と知覚可能になる。

以下では、上述したような破裂音等の音韻対立のある波形成分（「音韻対立部分」と呼ぶ）の部分について、選択的に増幅を行うことによる利点を示す実験結果について説明する。

［実験結果］
音韻対立によって、音響的差異、聴取時の手掛かりが、母国語の異なる聞き手の間では一般に異なる。そのため、例えば／ｂ／と／ｖ／（以下ＢＶと略）、／ｓ／と／θ／（以下ＳＴＨと略）も日本語母語話者にとって知覚困難な音韻だが、雑音付加の影響がＲＬの場合と異なる可能性がある。

そこで、以下の実験では、日本語母語話者（以下ＪＡと略）、アメリカ英語母語話者（以下ＡＥと略）を対象とし、ＲL、ＢＶ、ＳＴＨで対立する米単語音声に対して性質の異なる雑音を付加し、明瞭性を測定する実験を行った。また、アメリカ英語母語話者を対象として行った予備実験の結果、音韻によって呈示音圧の影響を受けることが確認されたため、これも併せて検証を行った。

（１実験方法）
（１．１刺激）
ＲL対（ｒｉｇｈｔ−１ｉｇｈｔ等）、ＢＶ対（ｂａｓｅ−ｖａｓｅ等）、ＳＴＨ対（ｍｏｕｓｅ−ｍｏｕｔｈ等）の３種類の音韻で対立する音韻最小対の英単語対を使用し手実験を行った。各対立毎に５０、３０、３０対（合計１１０対）の合計２２０語をアメリカ英語母語話者２名（男性１名、女性１名）が発話したものを刺激音声とした。無響室で収録された音声は単語毎に４４．１ｋＨｚ、１６ｂｉｔの精度でＰＣＭ（Pulse Code Modulation）形式のファイルとして保存された。

雑音付加実鹸用の刺激として、各単語をヘッドホンを通じて出力したときの音圧レベル（Ａ特性）のピーク値の単語間の平均が、ＲＬ対立およびＳＴＨ対立では５９ｄＢ、ＢＶ対立では同６５ｄＢとなるように振幅を調整した。

ノイズジェネレータで生成したホワイトノイズおよびピンクノイズを、ヘッドホンを通じて出力したときの音圧レベル（Ａ特性）のピーク値を各条件のＳＮ仕になるように振幅を調整し、本実験に用いる音声に付加した。雑音は、音声よりも前後２００ｍｓずつ長い持続時間のものを重ね合わせた。

図７は、実験条件として用いたＳＮ比を示す図である。

また、明瞭性に対する呈示音圧の影響を測定するための刺激として、各単語をヘッドホンを通じて出力したときの音圧レベル（Ａ特性）ピークの平均が、各音韻対立で３９ｄＢから６９ｄＢとなるように５ｄＢステップで振幅を調整した。

（１．２実験参加者）
ＪＡ実験では、日本語を母語とし、３ケ月以上の外国滞在経験のない大学生１１人が実験に参加した。ＡＥ実験では、２３才から４３才までのアメリカ英語母語話者３人が実験に参加した。全員が正常な聴力を持つことを確認した。

（１．３手続き）
実鹸は３日間に分けて防音室内で行った。コンピュータ画面上に音韻最小対をなす英単語２語を視覚呈示し、同時にどちらか一方の単語をヘッドホンより両耳呈示した。実験参加者は、きこえた単語が画面上の単語対のどちらであったかを判断し、選択した。

（雑音付加音声セッション）
付加した雑音の種類別に２日間に分けて行った。それぞれ話音別の２つのセクションから構成され、話者の順序は一定であった。各セクションは全ＳＮ仕の音声を含んだ音韻対立毎のブロックからなり、ＲＬ、ＢＶ、ＳＴＨ対立の順で提示した。各ブロック内で全音声刺激をランダムな順序で呈示し、回答の正誤に関するフイードバックは行わなかった。

（音圧変動セッション）
雑音付加音声セッション終了後に音圧変動セッションを実施した。刺激が異なる以外は、構成および方法は雑音付加音声セッションと同じものを用いた。

（２結果）
（ＪＡ実験）
図８は、ＪＡ実験における雑音付加音声セッションの結果を示す図である。

いずれの音韻対立においても、ＳＮ比が低下した際に、正答率が低下する傾向があることが示された。

雑音の種類およびＳＮ比を被験者内要因とし、正答率を逆正弦変換した値を従属変数とした２要因分散分析を各音韻対立毎に行った。なお、ＢＶ対立においては、ホワイトノイズ条件の−９ｄＢ条件を分析から除いた。その結果、何れの音韻対立においても、ＳＮ比要因の主効果が有意である（ＲＬ、ＢＶ、ＳＴＨ音韻対立でそれぞれ［Ｆ（６，６０）＝２４．９５０，ｐ＜０．０１］、［Ｆ（７，７０）＝１８．６４１，Ｐ＜０．０１］，［Ｆ（６，６０）＝３２．１５２，Ｐ＜０．０１］）が、雑音の種類の要因の主効果、交互作用共に有意ではなかった。

次に、図９は、ＪＡ実験における音圧変動セッションの結果を示す図である。

音韻対立および呈示音圧を被験者内要因とし、正答率を逆正弦変換した値を従属変数とした２要因分散分析を行った。その結果、呈示音圧要因の主効果が有意であった［Ｆ（６，６０）＝１０．５０３，Ｐ＜０．０１］。音韻対立要因の主効果、交互作用共に有意でなかったものの、３９ｄＢ条件と６３ｄＢ条件の２点の正答率を比較した場合、ＢＶ対立で他音韻対立よりも大きな正答率の変化が見られた。

（ＡＥ実験）
図１０は、ＡＥ実験における各音韻対立における雑音付加音声セッションの結果を示す図である。いずれの音韻対立においても、ＳＮ比の低下に伴って正答率が低下する傾向があることが示された。

次に、図１１は、ＡＥ実験における音圧変動セッションの結果を示す図である。ＲＬおよびＳＴＨ対立では、実験に使用した呈示音圧範囲における変化は殆んど見られないが、ＢＶ対立では、正答率が呈示音圧の影響を受けやすいことが示された。

以上の解析結果をまとめると、日本語母語話者、アメリカ英語母語話者共に全ての音韻対立においてＳＮ比の低下に伴って正答率が低下した。さらに、母語、音韻対、呈示音圧に対する雑音付加の影響の関係について、以下のような関係が明らかになった。

（母語と非母語）
アメリカ英語母語話者では、ＢＶ以外の音韻対において、雑音付加の影響を受けにくいＳＮ比のレンジが存在するのに対し、日本語母語話者では、僅かな雑音付加で正答率が低下する傾向が示された。

また、雑音の種類の影響が、実験参加者の母語により異なる場合があった（例：ＲＬ対立のＡＥ−１５ｄＢ条件とＪＡ−９ｄＢ条件間の比較）。これは、母語により知覚に使用する音響的特徴が異なっていたことを示唆する。

（音韻対）
音韻対により雑音の影響が異なった。ＲＬ対立は本実鹸で使用した雑音に対する耐性が比較的高かったが、ＢＶ対立は僅かな雑音付加によっても大きく影響を受け、ＳＴＨ対立ではほぼ一定の割合で正答率が低下した。これは、音韻対によって弁別に使用される音響的特徴が異なり、同じ雑音を付加した場合においても、異なる影響を及ぼしていることを示している。

（呈示音圧）
日本語母語話者、アメリカ英語母語話者において、ＢＶ対立のある音韻では呈示音圧の低下により正答率が低下し、知覚が阻害される。しかし、ＲＬやＳＴＨは日本語母語話者でのみ呈示音圧の低下により正答率が低下する。

以上の結果から、図１〜６においては、音韻対立として破裂音の対の／ｂ／と／ｖ／とを例にとって説明したが、他の音韻対立があるために増幅が必要な音韻について、当該音韻部分を選択的に抜き出して増幅すると、少なくともある母語を有する話者にとっては、知覚の程度が向上することがわかる。

また、たとえば、破裂スペクトルがきちんと知覚できないと知覚誤りが起きやすいことは上記の実験の結果明らかになった。さらに、日本語のみの範囲でも、繊細な知覚が必要となる破裂スペクトルの周波数特性により、例えば「ぱ」「た」「か」が弁別されるため、本発明の音声処理装置を用いることにより、英語話者−日本語話者間だけでなく、日本語話者同士の音声通信においても同様に明瞭性の向上が見込まれる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の音声処理装置を用いた通信システム１０００の一例を示す概念図である。コンピュータ１００のハードウェア構成をブロック図形式で示す図である。本発明の音声処理装置として機能するコンピュータ１００の構成を機能ブロックで示す図である。図３で説明した周波数分析部１２０２や、明瞭化処理部１２０４の動作をより詳しく説明するためのブロック図である。マイク１３２から入力される音声波形の一例を示す図である。波形を周波数分析した結果および選択的な増幅をした結果を示す図である。実験条件として用いたＳＮ比を示す図である。ＪＡ実験における雑音付加音声セッションの結果を示す図である。ＪＡ実験における音圧変動セッションの結果を示す図である。ＡＥ実験における各音韻対立における雑音付加音声セッションの結果を示す図である。ＡＥ実験における音圧変動セッションの結果を示す図である。

符号の説明

１００コンピュータ、１０２コンピュータ本体、１０４ディスプレイ、１０６ＦＤドライブ、１０８ディスクドライブ、１１０キーボード、１１２マウス、１１８ＣＤ−ＲＯＭ、１２０ＣＰＵ、１２２メモリ、１２４ハードディスク、１２８インタフェース、１３２マイク、１３４スピーカ、１０００システム、１２０２周波数分析部、１２０４明瞭化処理部。

Claims

音声処理装置であって、
前記音声処理装置から出力される音声信号の再生音声の聴取者の母国語の種類に応じて強調すべき音韻の強調情報を格納する記憶手段と、
前記聴取者の母国語の登録を受付ける手段と、
入力された音声信号を周波数分析するための周波数分析手段と、
前記周波数分析手段の分析結果に基づいて、各音韻部分を検出するための音韻検出手段と、
前記音韻検出手段の検出結果と、登録された前記聴取者の母国語の情報に対応した前記強調情報とに応じて、前記音韻部分を選択的に強調する強調処理手段と、
前記入力された音声信号と、前記選択的に強調された部分とを合成して出力する出力信号選択手段とを備える、音声処理装置。
前記強調すべき音韻は、破裂音の音韻である、請求項１記載の音声処理装置。
前記音韻検出手段は、前記周波数分析手段の分析結果において、閉鎖音が存在する場合は、前記閉鎖音に後続した音声に対し、スペクトル包絡を計算し、低い周波数帯から高い周波数帯にまで一定以上のパワーが所定時間内に存在している垂直パルスの有無により、破裂音に相当する音韻を検知し、
音響モデルを格納する音韻音響モデル格納手段をさらに備え、
前記音韻検出手段は、前記破裂音以外の音韻については、各音韻に対する前記音響モデルに基づく尤度計算によって、前記音韻を検知する、請求項２記載の音声処理装置。