JP4644876B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP4644876B2
JP4644876B2 JP2005021866A JP2005021866A JP4644876B2 JP 4644876 B2 JP4644876 B2 JP 4644876B2 JP 2005021866 A JP2005021866 A JP 2005021866A JP 2005021866 A JP2005021866 A JP 2005021866A JP 4644876 B2 JP4644876 B2 JP 4644876B2
Authority
JP
Japan
Prior art keywords
phoneme
sound
noise
plosive
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005021866A
Other languages
English (en)
Other versions
JP2006208820A (ja
Inventor
隆弘 足立
玲子 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005021866A priority Critical patent/JP4644876B2/ja
Publication of JP2006208820A publication Critical patent/JP2006208820A/ja
Application granted granted Critical
Publication of JP4644876B2 publication Critical patent/JP4644876B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、入力された音声の明瞭性を向上させて出力することが可能な音声処理装置の構成に関する。
人間は様々な雑音環境下で音声によるコミュニケーションを行っているが、多くの先行研究で音声知覚は雑音に妨害されることが報告されている(たとえば、非特許文献1を参照)。また、母語よりも非母語の方が雑音の影響を受けやすいことも報告されている(たとえば、非特許文献2を参照)。
したがって、たとえば、外国語音声学習教材において、雑音環境下においても会話可能な能力の獲得を目指すならば、音声への雑音付加の影響に関して、母語話者と非母語話者との違いを詳細に調査し、効果的な訓練方法を検討する必要がある。
このような点について、日本語話者が区別して知覚することが困難なアメリカ英語の/r/−/l/(以下RLと略す)で対立する音声に関してSN比を系統的に操作し、アメリカ英語母語話者と日本語母語話者との正答率の違いを調べた実験結果についての報告がある(たとえば、非特許文献3を参照)。
Kalikow,D.N.,Stevens,K.N.,and Elliott,L.L., Development of a test of speech intelligibility in noise using sentence materials with controlled word predictability, J. Acoust. Soc. Am., 61, pp.1337-1351, 1977 Florentine,M., Speech perception in noise by fluent non-native listeners, Trans. Tech. Comm. Physiol. Acoust., H-85-16、1985 上田和夫、駒木亮、山田玲子、雑音がアメリカ英語/r/,/1/知覚に及ぼす影響,日本心理学会第65回大会発表論文集,P.120 2001
ところで、音韻対立によって、音響的差異、聴取時の手掛かりが共に異なる。そのため、例えば/b/と/v/(以下BVと略す)、/s/と/θ/(以下STHと略す)も日本語話者にとって区別して知覚することが困難な音韻だが、雑音付加の影響がRLの場合と異なる可能性がある。このように、ある母語を有する話者にとって、区別して知覚するのが困難がある音韻を「音韻対立のある音韻」と呼ぶことにする。
したがって、上述したような雑音環境下での外国語の聞き取り学習をコンピュータによって実現しようとする場合に、最初から学習者に聞き取らせるモデル音声に単に雑音を付加してSN比を劣化させたのでは、十分な学習効果が得られない可能性がある。
また、このような外国語学習の場合にとどまらず、より一般的には、日本人と外国人とが、音声通信によりコミュニケーションをとる場合などを想定すると、周囲の雑音の影響による聞き取り易さを考慮して、送受信音質の制御を考慮する必要もある。
しかしながら、従来は、周囲の雑音による音の聞き取り易さの劣化に対して、いかなる対処をとるべきかが、必ずしも明らかでない、という問題があった。特に、送受信者の母語が互いに異なる場合に、どのような音声処理を行って通信を行うのが望ましいかについては、十分な検討がなされていない。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、入力された音声について、聞き取りを行う側での明瞭性を向上させて出力することが可能な音声処理装置を提供することである。
このような目的を達成するために、本発明の音声処理装置は、音声処理装置であって、音声処理装置から出力される音声信号の再生音声の聴取者の母国語の種類に応じて強調すべき音韻の強調情報を格納する記憶手段と、聴取者の母国語の登録を受付ける手段と、入力された音声信号を周波数分析するための周波数分析手段と、周波数分析手段の分析結果に基づいて、各音韻部分を検出するための音韻検出手段と、音韻検出手段の検出結果と、登録された聴取者の母国語の情報に対応した強調情報に応じて、音韻部分を選択的に強調する強調処理手段と、入力された音声信号と、選択的に強調された部分とを合成して出力する出力信号選択手段とを備える。
好ましくは、強調すべき音韻は、破裂音の音韻である。
好ましくは、音韻検出手段は、周波数分析手段の分析結果において、閉鎖音が存在する場合は、閉鎖音に後続した音声に対し、スペクトル包絡を計算し、低い周波数帯から高い周波数帯にまで一定以上のパワーが所定時間内に存在している垂直パルスの有無により、破裂音に相当する音韻を検知し、音響モデルを格納する音韻音響モデル格納手段をさらに備え、音韻検出手段は、破裂音以外の音韻については、各音韻に対する音響モデルに基づく尤度計算によって、音韻を検知する。
以下、図面を参照して本発明の実施の形態について説明する。
(本発明のシステム構成)
図1は、本発明の音声処理装置を用いた通信システム1000の一例を示す概念図である。
以下の説明では、本発明の音声処理装置を用いて、遠隔地間で送信者と受信者とが音声信号により通信を行う場合をコンピュータ間の音声通信を例にとって説明する。ただし、本発明は、このような場合に限定されることなく、より一般的に、携帯電話などの他の通信システムや、テレビなどの放送システム、さらには、入力された音声について、聞き取りを行う側での明瞭性を向上させることが必要なシステムに適用することが可能である。たとえば、上述したような外国語の学習装置では、学習者に聞き取り課題を与える際に、意図的に所定レベルの雑音を付加することで、雑音環境下での聞き取り能力の向上を目指す場合に、学習者の訓練の度合いに応じて、最初は明瞭性を向上させるように処理したモデル音声を聞き取らせ、徐々に、本来の生のモデル音声の聞き取り訓練を行わせていくような場合にも適用可能である。
図1を参照して、システム1000は、ユーザ2が、たとえば、インターネットなどのネットワーク400を介して、遠隔にあるコンピュータ300のユーザと、音声による通信を行うためのコンピュータ100を備える。以下の説明では、コンピュータ100が音声処理装置として機能する。
図1を参照して、このコンピュータ100は、CD−ROM(Compact Disc Read-Only Memory )等の記録媒体上の情報を読込むためのディスクドライブ108およびフレキシブルディスク(Flexible Disk、以下FD)116に情報を読み書きするためのFDドライブ106を備えたコンピュータ本体102と、コンピュータ本体102に接続された表示装置としてのディスプレイ104と、同じくコンピュータ本体102に接続された入力装置としてのキーボード110およびマウス112と、音声入力装置としてのマイク132と、音声出力装置としてのスピーカ134とを含む。
なお、マイク132やスピーカ134は、ヘッドセットによりユーザ2が装着するヘッドフォンとマイクとすることもできる。
なお、コンピュータ300も、基本的には、コンピュータ100と同様の構成を有するものとする。
図2は、このコンピュータ100のハードウェア構成をブロック図形式で示す図である。
図2に示されるように、このコンピュータ100を構成するコンピュータ本体102は、ディスクドライブ108およびFDドライブ106に加えて、それぞれバスBSに接続されたCPU(Central Processing Unit )120と、ROM(Read Only Memory) およびRAM (Random Access Memory)を含むメモリ122と、直接アクセスメモリ装置、たとえば、ハードディスク124と、マイク132またはスピーカ134とデータの授受を行い、かつ、ネットワーク400に対して通信を行うためのインタフェース128とを含んでいる。ディスクドライブ108には、たとえば、CD−ROM118が装着される。FDドライブ106にはFD116が装着される。
なお、CD−ROM118は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、DVD−ROM(Digital Versatile Disc)やメモリカードなどでもよく、その場合は、コンピュータ本体102には、これらの媒体を読取ることが可能なドライブ装置が設けられる。
本発明の音声処理装置の主要部は、コンピュータハードウェアと、CPU120により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアはCD−ROM118、FD116等の記憶媒体に格納されて流通し、CD−ROMドライブ108またはFDドライブ106等により記憶媒体から読取られてハードディスク124に一旦格納される。または、当該装置がネットワーク310に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク124にコピーされる。そうしてさらにハードディスク124からメモリ122中のRAMに読出されてCPU120により実行される。なお、ネットワーク接続されている場合には、ハードディスク124に格納することなくRAMに直接ロードして実行するようにしてもよい。
図1および図2に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、FD116、CD−ROM118、ハードディスク124等の記憶媒体に記憶されたソフトウェアである。
ただし、以下にソフトウェアの処理として説明する機能の一部、たとえば、周波数分析などは、ハードウェアにより実行する構成としてもよい。
図3は、本発明の音声処理装置として機能するコンピュータ100の構成を機能ブロックで示す図である。
図3に示すとおり、CPU120内には、機能ブロックとして、音声処理プログラムに基づいて、後に説明するような周波数分析を実行する周波数分析部1202と、音声の明瞭化処理を行う明瞭化処理部1204とが含まれる。
また、CPU120とバスBSにより接続されるハードディスク124内には、破裂音等の存在を検出する際に用いられる音韻音響モデルを記録した音韻音響モデルデータベース1242と、利用者属性データベース1244が格納されている。音韻音響モデルとしては、特に限定されないが、たとえば、隠れマルコフモデルを用いることができる。また、利用者属性データベース1244には、本装置の利用者(出力音声の聴取者)の属性をもとに、これと関連付けて、強調する必要のある音韻の情報が予め格納されている。つまり、/b/のような破裂音を含む音韻は、日本語母語話者、アメリカ英語母語話者ともに強調をする必要があるのに対し、/r/,/l/,/s/、/th/のような音韻は、日本語母語話者や利用者である場合にのみ強調する必要があるというような情報が格納されている。また、本装置の使用前に、このような利用者の属性については、システム1000にユーザ2(音声の入力者)が登録をおこなうものとする。
なお、以下の説明では、「音韻の強調」は、当該音韻部分を選択的に増幅することにより行うものとして説明する。ただし、当該音韻以外の不要部分を選択的に減衰させることによっても当該音韻について「音韻の強調」を行うことができる。
さらに、インタフェース128には、CPU120の制御によりビデオRAM(図示せず)に出力されてバスBS経由で送出される画像データに基づいて、対応する画像信号に変換してディスプレイ104に出力するための画像信号インタフェース1282と、CPU120の制御によりバスBS経由で送出されるデジタル音声データに基づいて、対応する音声信号に変換してスピーカ134に出力するための音声変換器134と、マイク132から入力されるアナログ音声信号を対応するデジタル音声信号に変換するためのアナログデジタル変換器(以下、A/D変換器)1286とを含む。なお、図3には、図示しないが、たとえば、メモリ122中には、上述したビデオRAMとして機能する記憶領域や、音声信号の入出力バッファとして機能する記憶領域が割当てられているものとする。
図4は、図3で説明した周波数分析部1202や、明瞭化処理部1204の動作をより詳しく説明するためのブロック図である。
図4を参照して、マイク132から音声信号が入力されると、A/D変換器1286は、アナログ電気信号で入力された音声信号をデジタル量子化する。
続いて、周波数分析部1202は、FFT(Fast Fourier Transform)もしくはウェーブレット(wavelet)変換などのアルゴリズムを用いて変換して周波数分析をし、音声信号中に含まれる各周波数成分の強度を時系列で分割して解析する。
さらに、明瞭化処理部1204中の音韻検出部1206は、分析された周波数成分中における各音韻を検出する。したがって、音韻検出部1206は、破裂音に相当する音韻の他、すべての音韻を検出する。
音韻検出部1206の処理をより具体的に説明すると、以下のとおりである。
まず、音韻検出部1206は、検出された音韻を利用者データベース1244のデータと突合せ、もしも当該検出された音韻が利用者の属性から増幅する必要がある場合は、増幅処理部1208に当該音韻に相当する範囲内(時間)の信号の部分を増幅させ、増幅が必要でない場合には、増幅は行わず、明瞭化処理部1204から出力させる。特に限定されないが、図4のような構成で、増幅が必要でない場合の処理を実現するのであれば、音韻検出部1206は、当該信号部分をスルーしてもよいし、増幅処理部1208に増幅率=1として処理させてもよい。
なお、/b/のような破裂音については、たとえば、以下のようにして検出することができる。
i)音韻検出部1206は、破裂に先行して存在する筈の閉鎖音(無音、もしくは無気音)を検出する。閉鎖音が存在しない場合は以下の処理ii)〜iii)は行わない。
ii)一方、閉鎖音が存在する場合は、音韻検出部1206は、閉鎖音に後続した音声に対し、スペクトル包絡を計算する。
iii)音韻検出部1206は、低い周波数帯から高い周波数帯にまで一定以上のパワーが存在している垂直パルス、または雑音パルスがあるかを計算する。また、一般にこれら成分は40ms以下の時間で表れるため,これ以下の時間連続して発生している場合のみ破裂音成分とは見なす。
なお、他の音韻の検出については、音韻音響モデルデータベース1242に格納されたデータに基づいて、人間が発話した音声を用いて作成した各音韻に対する音響モデルを使用し、尤度計算によって破裂音を含む音韻が発生されているかを検出する方法が考えられる。
増幅処理部1208は、増幅を行って、後段の処理を行う信号選択部1210にデータを送る。増幅処理部1208での増幅量は予め設定した既定値、もしくは、過去に入力された音声の音圧に応じたゲインで行う。
信号選択部1210では、音韻検出部1206から送出される増幅を行っていないデータおよび増幅処理部1208からの増幅されたデータを選択的に合成して音声変換器1284に送る。
音声変換機1284では、音声再生のためにデジタルアナログ変換装置を行ってスピーカ134から再生させる。ただし、他の通信装置(携帯電話、テレビ・ラジオ放送など)を介してデジタル音声データをさらに送信する場合は、所定の符号化を行って受信機に対して送信する。
図5は、マイク132から入力される音声波形の一例を示す図である。
図5では、英語を母国語とした米国人が発話した「LAB」という英単語音声を波形で示している。
図6(a)は、図5の波形を周波数分析した結果を示す図である。
すなわち、図5に示した波形を周波数分析すると,図6(a)のような声紋パターンが得られる。図6(a)の500ms前後の縦に薄く出ている部分が「バズバー」と呼ばれる破裂音成分である。このようにパワーが弱い(図中ではパワーの強度を黒色の濃さで示している)と、”B”と知覚されず、”V”と知覚されてしまう可能性がある。
図6(b)は、破裂音成分を検出し、破裂音成分の部分のみを増幅した音声の声紋パターンを示す図である。
なお、図6(b)において、増幅の強度は先行する音声に合わせて適度に増幅し、また、前後の音声との繋がりを良くするため,エンベロープをかけて増幅している。すなわち、破裂音部分に近づくにつれて、次第に増幅率を大きくし、最大の増幅率の後は次第に増幅率を下げている。
図6(b)において、”LA”の部分は増幅していないほか、エンベロープをかけて増幅することにより、全体として音量が大きくなり、耳障りなほど大きく聞こえたりすることはない。しかし,破裂音成分は大きく増幅されているため、聞き取る側では、”B”と知覚できるようになり、単語として”LAB”と知覚可能になる。
以下では、上述したような破裂音等の音韻対立のある波形成分(「音韻対立部分」と呼ぶ)の部分について、選択的に増幅を行うことによる利点を示す実験結果について説明する。
[実験結果]
音韻対立によって、音響的差異、聴取時の手掛かりが、母国語の異なる聞き手の間では一般に異なる。そのため、例えば/b/と/v/(以下BVと略)、/s/と/θ/(以下STHと略)も日本語母語話者にとって知覚困難な音韻だが、雑音付加の影響がRLの場合と異なる可能性がある。
そこで、以下の実験では、日本語母語話者(以下JAと略)、アメリカ英語母語話者(以下AEと略)を対象とし、RL、BV、STHで対立する米単語音声に対して性質の異なる雑音を付加し、明瞭性を測定する実験を行った。また、アメリカ英語母語話者を対象として行った予備実験の結果、音韻によって呈示音圧の影響を受けることが確認されたため、これも併せて検証を行った。
(1 実験方法)
(1.1 刺激)
RL対(right−1ight等)、BV対(base−vase等)、STH対(mouse−mouth等)の3種類の音韻で対立する音韻最小対の英単語対を使用し手実験を行った。各対立毎に50、30、30対(合計110対)の合計220語をアメリカ英語母語話者2名(男性1名、女性1名)が発話したものを刺激音声とした。無響室で収録された音声は単語毎に44.1kHz、16bitの精度でPCM(Pulse Code Modulation)形式のファイルとして保存された。
雑音付加実鹸用の刺激として、各単語をヘッドホンを通じて出力したときの音圧レベル(A特性)のピーク値の単語間の平均が、RL対立およびSTH対立では59dB、BV対立では同65dBとなるように振幅を調整した。
ノイズジェネレータで生成したホワイトノイズおよびピンクノイズを、ヘッドホンを通じて出力したときの音圧レベル(A特性)のピーク値を各条件のSN仕になるように振幅を調整し、本実験に用いる音声に付加した。雑音は、音声よりも前後200msずつ長い持続時間のものを重ね合わせた。
図7は、実験条件として用いたSN比を示す図である。
また、明瞭性に対する呈示音圧の影響を測定するための刺激として、各単語をヘッドホンを通じて出力したときの音圧レベル(A特性)ピークの平均が、各音韻対立で39dBから69dBとなるように5dBステップで振幅を調整した。
(1.2 実験参加者)
JA実験では、日本語を母語とし、3ケ月以上の外国滞在経験のない大学生11人が実験に参加した。AE実験では、23才から43才までのアメリカ英語母語話者3人が実験に参加した。全員が正常な聴力を持つことを確認した。
(1.3 手続き)
実鹸は3日間に分けて防音室内で行った。コンピュータ画面上に音韻最小対をなす英単語2語を視覚呈示し、同時にどちらか一方の単語をヘッドホンより両耳呈示した。実験参加者は、きこえた単語が画面上の単語対のどちらであったかを判断し、選択した。
(雑音付加音声セッション)
付加した雑音の種類別に2日間に分けて行った。それぞれ話音別の2つのセクションから構成され、話者の順序は一定であった。各セクションは全SN仕の音声を含んだ音韻対立毎のブロックからなり、RL、BV、STH対立の順で提示した。各ブロック内で全音声刺激をランダムな順序で呈示し、回答の正誤に関するフイードバックは行わなかった。
(音圧変動セッション)
雑音付加音声セッション終了後に音圧変動セッションを実施した。刺激が異なる以外は、構成および方法は雑音付加音声セッションと同じものを用いた。
(2 結果)
(JA実験)
図8は、JA実験における雑音付加音声セッションの結果を示す図である。
いずれの音韻対立においても、SN比が低下した際に、正答率が低下する傾向があることが示された。
雑音の種類およびSN比を被験者内要因とし、正答率を逆正弦変換した値を従属変数とした2要因分散分析を各音韻対立毎に行った。なお、BV対立においては、ホワイトノイズ条件の−9dB条件を分析から除いた。その結果、何れの音韻対立においても、SN比要因の主効果が有意である(RL、BV、STH音韻対立でそれぞれ[F(6,60)=24.950,p<0.01]、[F(7,70)=18.641,P<0.01],[F(6,60)=32.152,P<0.01])が、雑音の種類の要因の主効果、交互作用共に有意ではなかった。
次に、図9は、JA実験における音圧変動セッションの結果を示す図である。
音韻対立および呈示音圧を被験者内要因とし、正答率を逆正弦変換した値を従属変数とした2要因分散分析を行った。その結果、呈示音圧要因の主効果が有意であった[F(6,60)=10.503,P<0.01]。音韻対立要因の主効果、交互作用共に有意でなかったものの、39dB条件と63dB条件の2点の正答率を比較した場合、BV対立で他音韻対立よりも大きな正答率の変化が見られた。
(AE実験)
図10は、AE実験における各音韻対立における雑音付加音声セッションの結果を示す図である。いずれの音韻対立においても、SN比の低下に伴って正答率が低下する傾向があることが示された。
次に、図11は、AE実験における音圧変動セッションの結果を示す図である。RLおよびSTH対立では、実験に使用した呈示音圧範囲における変化は殆んど見られないが、BV対立では、正答率が呈示音圧の影響を受けやすいことが示された。
以上の解析結果をまとめると、日本語母語話者、アメリカ英語母語話者共に全ての音韻対立においてSN比の低下に伴って正答率が低下した。さらに、母語、音韻対、呈示音圧に対する雑音付加の影響の関係について、以下のような関係が明らかになった。
(母語と非母語)
アメリカ英語母語話者では、BV以外の音韻対において、雑音付加の影響を受けにくいSN比のレンジが存在するのに対し、日本語母語話者では、僅かな雑音付加で正答率が低下する傾向が示された。
また、雑音の種類の影響が、実験参加者の母語により異なる場合があった(例:RL対立のAE−15dB条件とJA−9dB条件間の比較)。これは、母語により知覚に使用する音響的特徴が異なっていたことを示唆する。
(音韻対)
音韻対により雑音の影響が異なった。RL対立は本実鹸で使用した雑音に対する耐性が比較的高かったが、BV対立は僅かな雑音付加によっても大きく影響を受け、STH対立ではほぼ一定の割合で正答率が低下した。これは、音韻対によって弁別に使用される音響的特徴が異なり、同じ雑音を付加した場合においても、異なる影響を及ぼしていることを示している。
(呈示音圧)
日本語母語話者、アメリカ英語母語話者において、BV対立のある音韻では呈示音圧の低下により正答率が低下し、知覚が阻害される。しかし、RLやSTHは日本語母語話者でのみ呈示音圧の低下により正答率が低下する。
以上の結果から、図1〜6においては、音韻対立として破裂音の対の/b/と/v/とを例にとって説明したが、他の音韻対立があるために増幅が必要な音韻について、当該音韻部分を選択的に抜き出して増幅すると、少なくともある母語を有する話者にとっては、知覚の程度が向上することがわかる。
また、たとえば、破裂スペクトルがきちんと知覚できないと知覚誤りが起きやすいことは上記の実験の結果明らかになった。さらに、日本語のみの範囲でも、繊細な知覚が必要となる破裂スペクトルの周波数特性により、例えば「ぱ」「た」「か」が弁別されるため、本発明の音声処理装置を用いることにより、英語話者−日本語話者間だけでなく、日本語話者同士の音声通信においても同様に明瞭性の向上が見込まれる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の音声処理装置を用いた通信システム1000の一例を示す概念図である。 コンピュータ100のハードウェア構成をブロック図形式で示す図である。 本発明の音声処理装置として機能するコンピュータ100の構成を機能ブロックで示す図である。 図3で説明した周波数分析部1202や、明瞭化処理部1204の動作をより詳しく説明するためのブロック図である。 マイク132から入力される音声波形の一例を示す図である。 波形を周波数分析した結果および選択的な増幅をした結果を示す図である。 実験条件として用いたSN比を示す図である。 JA実験における雑音付加音声セッションの結果を示す図である。 JA実験における音圧変動セッションの結果を示す図である。 AE実験における各音韻対立における雑音付加音声セッションの結果を示す図である。 AE実験における音圧変動セッションの結果を示す図である。
符号の説明
100 コンピュータ、102 コンピュータ本体、104 ディスプレイ、106 FDドライブ、108 ディスクドライブ、110 キーボード、112 マウス、118 CD−ROM、120 CPU、122 メモリ、124 ハードディスク、128 インタフェース、132 マイク、134 スピーカ、1000 システム、1202 周波数分析部、1204 明瞭化処理部。

Claims (3)

  1. 音声処理装置であって、
    前記音声処理装置から出力される音声信号の再生音声の聴取者の母国語の種類に応じて強調すべき音韻の強調情報を格納する記憶手段と、
    前記聴取者の母国語の登録を受付ける手段と、
    入力された音声信号を周波数分析するための周波数分析手段と、
    前記周波数分析手段の分析結果に基づいて、各音韻部分を検出するための音韻検出手段と、
    前記音韻検出手段の検出結果と、登録された前記聴取者の母国語の情報に対応した前記強調情報に応じて、前記音韻部分を選択的に強調する強調処理手段と、
    前記入力された音声信号と、前記選択的に強調された部分とを合成して出力する出力信号選択手段とを備える、音声処理装置。
  2. 前記強調すべき音韻は、破裂音の音韻である、請求項1記載の音声処理装置。
  3. 前記音韻検出手段は、前記周波数分析手段の分析結果において、閉鎖音が存在する場合は、前記閉鎖音に後続した音声に対し、スペクトル包絡を計算し、低い周波数帯から高い周波数帯にまで一定以上のパワーが所定時間内に存在している垂直パルスの有無により、破裂音に相当する音韻を検知し、
    音響モデルを格納する音韻音響モデル格納手段をさらに備え、
    前記音韻検出手段は、前記破裂音以外の音韻については、各音韻に対する前記音響モデルに基づく尤度計算によって、前記音韻を検知する、請求項2記載の音声処理装置。
JP2005021866A 2005-01-28 2005-01-28 音声処理装置 Active JP4644876B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005021866A JP4644876B2 (ja) 2005-01-28 2005-01-28 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005021866A JP4644876B2 (ja) 2005-01-28 2005-01-28 音声処理装置

Publications (2)

Publication Number Publication Date
JP2006208820A JP2006208820A (ja) 2006-08-10
JP4644876B2 true JP4644876B2 (ja) 2011-03-09

Family

ID=36965741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005021866A Active JP4644876B2 (ja) 2005-01-28 2005-01-28 音声処理装置

Country Status (1)

Country Link
JP (1) JP4644876B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5186943B2 (ja) * 2008-02-15 2013-04-24 ヤマハ株式会社 音声処理装置、再生装置およびプログラム
JP5547414B2 (ja) * 2009-03-09 2014-07-16 八幡電気産業株式会社 音声信号調整装置及びその調整方法
JP6481271B2 (ja) * 2014-07-07 2019-03-13 沖電気工業株式会社 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04113800A (ja) * 1990-09-04 1992-04-15 Rion Co Ltd 補聴器
JPH05199588A (ja) * 1992-01-21 1993-08-06 Terumo Corp 補聴器
JPH1083193A (ja) * 1996-09-09 1998-03-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声素片作成方法
JP2002014689A (ja) * 2000-06-01 2002-01-18 Avaya Technology Corp デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
JP2004135068A (ja) * 2002-10-10 2004-04-30 Rion Co Ltd 補聴器、訓練装置、ゲーム装置、および音出力装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04113800A (ja) * 1990-09-04 1992-04-15 Rion Co Ltd 補聴器
JPH05199588A (ja) * 1992-01-21 1993-08-06 Terumo Corp 補聴器
JPH1083193A (ja) * 1996-09-09 1998-03-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声素片作成方法
JP2002014689A (ja) * 2000-06-01 2002-01-18 Avaya Technology Corp デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
JP2004135068A (ja) * 2002-10-10 2004-04-30 Rion Co Ltd 補聴器、訓練装置、ゲーム装置、および音出力装置

Also Published As

Publication number Publication date
JP2006208820A (ja) 2006-08-10

Similar Documents

Publication Publication Date Title
US11095991B2 (en) Hearing evaluation and configuration of a hearing assistance-device
CN110473567B (zh) 基于深度神经网络的音频处理方法、装置及存储介质
US10475467B2 (en) Systems, methods and devices for intelligent speech recognition and processing
JP4439579B1 (ja) 音質補正装置、音質補正方法及び音質補正用プログラム
RU2520420C2 (ru) Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
Hockley et al. Analog-to-digital conversion to accommodate the dynamics of live music in hearing instruments
CN101103525A (zh) 用于音频信号声级的频率相关放大的信号处理设备和音频系统及其方法
JP4644876B2 (ja) 音声処理装置
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
Stelmachowicz et al. Preferred hearing-aid frequency responses in simulated listening environments
JP2010136236A (ja) オーディオ信号処理装置、オーディオ信号処理方法およびプログラム
JP2006333396A (ja) 音声信号拡声装置
JP5058844B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
Ahmetovic et al. Enhancing screen reader intelligibility in noisy environments
JP4669988B2 (ja) 言語学習装置
JP5202021B2 (ja) 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体
KR101682796B1 (ko) 소음 환경에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법 및 이를 기록한 기록매체
KR20210086217A (ko) 쉰목소리 잡음 제거시스템
JPS5879400A (ja) 補聴器
JP4669989B2 (ja) 言語学習装置
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
US11615801B1 (en) System and method of enhancing intelligibility of audio playback
Bergfeld et al. The effects of peripheral stimuli and equipment used on Speech Intelligibility in Noise
JPH0698398A (ja) 音声の無音区間検出伸長装置及び音声の無音区間検出伸長方法
KR100372576B1 (ko) 오디오신호 가공방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4644876

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250