JP2005209000A

JP2005209000A - 音声可視化方法及び該方法を記憶させた記録媒体

Info

Publication number: JP2005209000A
Application number: JP2004015672A
Authority: JP
Inventors: Sueo Sugimoto; 末雄杉本; Kenji Nakamuro; 健二中室; Yoshizo Tokawa; 吉造東川
Original assignee: Individual
Current assignee: Individual
Priority date: 2004-01-23
Filing date: 2004-01-23
Publication date: 2005-08-04
Anticipated expiration: 2024-01-23
Also published as: JP4411590B2

Abstract

【課題】人間の発する音声を言語と共に、話者の個人差や感情を含めて表現し、難聴者による音声の理解を補助する音声可視化方法を提供する。
【解決手段】本発明に係る音声可視化方法Ａは、入力音声２４に対する音声特徴データ２５を生成し、音声特徴データ２５に基づき、色情報データ２６と言語情報データ２８を生成し、色情報データ２６と言語情報データ２８に基づき、図形データ２７と文字画像データ２９を生成して、入力音声２４に対する図形３０及び文字３１を表示装置１の同一画面上に表示するものである。
【選択図】図３

Description

本発明は、音声を視覚的に表現する音声可視化方法に関するものであり、特に、人間の発声音を話者の個人差や感情を含めて表現し、難聴者による音声の理解を補助する音声可視化方法に関するものである。

難聴者は音声を理解する方法として、手話や読唇術を用いる。しかし、手話では、話者が手話を使用できる人間に限定され、また、読唇術は高度な訓練を要する。そこで、難聴者による音声の理解を補助する装置として、音声認識文字表示装置が提案されている。（例えば、特許文献１参照。）

音声認識文字装置は、音声信号を獲得する音声信号獲得部と、前記音声信号獲得部から該音声信号を供給され、該音声信号中に含まれる言語情報を判別する音声認識部と、前記音声認識部から供給される該言語情報に対応した文字から文字画像を作成する、文字画像作成部と、前記文字画像作成部で作成された、該文字画像を出力するモニタ受像部から構成されている。

このような音声文字認識装置は、例えば、テレビジョン放送信号中の音声信号を音声認識して認識結果を映像出力することにより、難聴者にも音声信号の内容を伝達できるようにする自動字幕表示作成装置としての利用がなされている。

また、従来から、音声分析に一般的に利用されているのがサウンドスペクトログラムである。サウンドスペクトログラムとは、音声のスペクトル推定を行って該音声の周波数対スペクトル強度を算出し、該周波数対スペクトル強度を単色（例えば、灰色）の明度に対応づけ、時間的変化に対応させて、時間及び周波数を表す軸を備えた平面上に出力して、複数個並べて作成される図形である。前記スペクトル推定には、一般的に、ＦＦＴ＋Ｗｉｎｄｏｗ法と呼ばれる手法が利用されている。前記ＦＦＴ＋Ｗｉｎｄｏｗ法は、音声に窓関数を掛けた後、高速フーリエ変換（ＦＦＴ：Fast Fourie Transform）を行い、得られた値を平滑化する手法である。

前記サウンドスペクトログラムにおいて、話者が発する個々の発生音は黒い帯状となって表れる複数のフォルマント（声道共振周波数）の相対位置によって特徴づけられる。更に、性別や感情などの情報は前記フォルマントの絶対位置や信号の振幅によって特徴づけられる。このように、前記サウンドスペクトログラムには、話者間に共通した発話情報だけでなく、音声認識による活字化では得ることのできない個人的特徴を含めた音声情報を提示できる。
特開平１１−４１５３８号公報

しかしながら、前記音声認識装置は、音声に含まれる様々な情報のうち、言語情報のみが文字表示装置を通して伝達されており、例えば、話者の個人的特徴である性別や感情などの言語情報以外の情報を伝達することができないという問題点がある。

また、前記サウンドスペクトログラムは、音声の個人的特徴を表すが、該サウンドスペクトログラムからは、話者がどのような言語を発しているかを判断することは困難である。

本発明は、以上のような事情や問題点に鑑みてなされたものであり、人間の発する音声を、言語と共に、話者の個人差や感情を含めて表現することにより、難聴者による発声音の理解を補助する音声可視化方法を提供することを目的とする。

上記目的を達成するための請求項１の発明は、音声を視覚的に理解できるように表現する音声可視化方法において、
音声入力装置より入力された音声の周波数対スペクトル強度と、該入力音声の高低、大小及び音声認識に関する情報と、を有する音声特徴データを生成する段階と、
前記入力音声の周波数対スペクトル強度と、前記入力音声の高低及び大小に関する情報と、に基づき、色の色相、明度及び彩度を決定し、入力音声に対する色情報データを生成する段階と、
時間及び周波数を表す軸を備えた平面上に、前記色情報データに基づいた色を時間的変化に応じて出力する、入力音声に対する図形データを生成する段階と、
前記入力音声の音声認識に関する情報に基づき、入力音声に対する言語情報データを生成する段階と、
前記言語情報データに基づき、入力音声に対する文字画像データを生成する段階と、を具備し、
前記図形データ及び文字画像データに基づき、表示装置の同一画面上に入力音声に対する図形及び文字を表示することにある。

請求項２の発明は、請求項１記載の音声可視化方法において、前記図形及び文字を、前記表示装置の同一画面上の単数段、又は、複数段に渡って表示することにある。

請求項３の発明は、請求項１記載の音声可視化方法において、入力音声を発している話者の人数と同数に前記表示装置の画面を分割し、各話者毎に前記図形及び文字を表示することにある。

請求項４の発明は、請求項１乃至３記載の何れかの音声可視化方法において、入力音声を発している話者の唇の動きを、前記図形及び文字と共に、前記表示装置の同一画面上に表示することにある。

請求項５の発明は、請求項１乃至３記載の何れかの音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置がヘッドマウントディスプレイであることにある。

請求項６の発明は、請求項４記載の音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置が小型カメラを搭載したヘッドマウントディスプレイであることにある。

請求項７の発明は、請求項１乃至４記載の音声可視化方法の何れかをコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体にある。

請求項１の発明によれば、音声を言語と共に、性別や感情などの個人的特徴を含むサウンドスペクトログラムに音声の高低及び大小に関する情報を加えた図形を提供することにより、音声の理解を深めることができ、難聴者の音声理解を補助することができる。
また、難聴者の発した音声を入力音声とし、表示装置の画面上に入力音声に対する図形及び文字を表示することにより、難聴者の発声訓練に利用することができる。

請求項２の発明によれば、図形及び文字を表示装置の画面上に単数段で表示することにより、利用者は図形及び文字を認識することが容易となる。
また、図形及び文字を表示装置の画面上へ複数段に渡って表示することにより、より多くの図形及び文字を表示装置の画面上へ表示することができる。

請求項３の発明によれば、各話者毎に図形及び文字を表示することができるので、利用者は各話者毎に音声理解を深めることができる。

請求項４の発明によれば、利用者は話者に直接目を向けることなく、表示装置の画面で話者の唇の動きを見ることができるので、入力音声に対する図形、文字及び話者の唇の動きを表示装置の画面のみから得ることができ、より一層、音声理解を深めることができる。

請求項５の発明によれば、屋外や訪問先などの様々な場所で、請求項１乃至３記載の何れかの音声可視化が実施できる。
また、例えば、外出時の歩行中に、音声入力装置及び携帯用コンピュータを衣服などに搭載し、ヘッドマウントディスプレイを頭部に装着して、音声可視化方法を実施すれば、自動車音や交通信号音などの環境音が入力され、それに対応した図形が表示されるので、音声だけでなく、環境音も認識でき、安全な歩行が可能となる。これ以外にも、日常生活の様々な音を認識することができるので、難聴者の生活を補助することが可能となる。

請求項６の発明によれば、小型カメラで、話者の唇の動きを撮影することにより、屋外や訪問先などの様々な場所で、請求項４記載の音声可視化が実施できる。

請求項７の発明によれば、既存のコンピュータに容易に本発明に係る音声可視化方法を実行させることができ、上述の効果と同様の効果を得ることができる。

以下、本発明の実施形態を図面に基づいて説明する。
本発明の実施形態に係る音声可視化方法Ａは、例えば、図１に示すような、モニタ（表示装置）１、キーボード（入力装置）２、マウス（入力装置）３、を備えたパソコン（コンピュータ）５と、音声入力装置としてのマイクロフォン４、を用いてなされる方法である。

パソコン５の具体的な構成例を示す。図２に示すように、主制御部６、ディスク制御部７、入力制御部８、出力制御部９、及び記憶装置部１０を備えたものであって、これら各機能ブロック６乃至１０は双方向に通信可能にシステムバス１１によって接続されている。

主制御部６は、ＣＰＵ１２とＣＤ−ＲＯＭ１３から読み込まれたプログラムＢを一時記憶するメインメモリ１４と、オペレーティングシステム（ＯＳ）等が記憶されたＲＯＭ１５と、を備えている。

ディスク制御部７は、ＣＤ−ＲＯＭ１３に記録された音声可視化方法Ａを実行するプログラムＢを再生するディスクドライブ装置１６と、該ディスクドライブ装置１６からデータを一時的に記憶するドライブ装置バッファ１７と、を備えている。

入力制御部８は、キーボード２、マウス３等の入力装置１８と、これらの入力装置１８とシステムバス１１を介してＣＰＵ１２とのインターフェイス用の回路となるインターフェイス回路１９と、を備えている。

出力制御部９は、モニタ１等の出力装置２０と、これらの出力装置２０とシステムバス１１を介してＣＰＵ１２とのインターフェイス用の回路となるインターフェイス回路２１と、を備えている。

記憶装置部１０には、ハードディスク２２などの読み出し書き可能な装置を備えている。

上記構成のパソコン５に、プログラムＢが記録されたＣＤ−ＲＯＭ（記録媒体）１３をディスクドライブ装置１６に装着した状態で電源投入、又はリセット処理を行うとＣＰＵ１２はＲＯＭ１５に記憶されているＯＳを実行し、パソコン５の初期化を行うと共に、ディスク制御部７を制御して、ＣＤ−ＲＯＭ１３に記憶されているプログラムＢをメインメモリ１４に読み出して実行する。なお、ＣＤ−ＲＯＭ１３をディスクドライブ装置１６に装着する代わりに、メインメモリ１４に読み出し可能なように別にハードディスクなどの記録装置を設け、プログラムＢを該記録装置に予めインストールしておいてからプログラムＢの実行を行ってもよい。

上記プログラムＢの実行により、ＣＰＵ１２は、図３に示すブロック図を形成して、本実施形態に係る音声可視化方法Ａを実現する。すなわち、話者２３により、マイクロフォン４から入力された音声２４の音声特徴データ２５を生成し、音声特徴データ２５のうち、入力音声２４の周波数対スペクトル強度と、入力音声２４の高低及び大小に関する情報とより、色情報データ２６を生成し、色情報データ２６より図形データ２７を生成すると共に、音声特徴データ２５のうち、音声認識に関する情報から言語情報データ２８を生成し、言語情報データ２８に対応する文字画像データ２９を生成し、図形データ２７及び文字画像データ２９より、図形３０と文字３１をモニタ１の同一画面３２上に表示する。

音声特徴データ２５について説明する。
入力音声２４を適度なサンプリング周波数でサンプリングする。本実施形態では、２２０５０Ｈｚでサンプリングする。また、本実施形態では、有声音における声門の特性、すなわち、高周域における減衰を考慮し、１次の微分フィルタを適用する。

音声は非定常な信号であるが、短時間区間（５〜１００ｍｓｅｃ）では、定常信号とみなし、入力音声２４を短時間区間（以下、フレームと呼ぶ）で分割し、各フレームの周波数対スペクトル強度、高低、大小及び音声認識に関する情報を算出し、音声特徴データ２５を生成する。本実施形態では、入力音声２４のサンプリングデータが５１２個含まれる時間（約０．０２３ｓｅｃ）で、入力音声２４を分割する。
本実施形態では、計算時間と分解能を考慮して入力音声２４に時系列モデルである自己回帰モデル（以下、ＡＲモデルという）を適合してスペクトル推定を行い、音声特徴データ２５を生成する。ある時間の音声信号をｘ［ｎ］とすると、

と表現できる。ｍはＡＲモデルの次数、ａ_ｉは係数、ｅ［ｎ］は期待値零、分散σ_ｅ ^２の予測誤差である。

ＡＲモデルの次数ｍは、声道のモデル構造と、ＡＲモデルの構造が一致していることから決定する。本実施形態では、ｍ＝２２とする。
また、係数ａ_ｉの推定にはＢｕｒｇ法、及び、ＭＣＥ法（Minimum Cross Entropy法）を適用したＢｕｒｇ法（以下、ＭＣＥ−Ｂｕｒｇ法という）を切り換えて用いる。Ｂｕｒｇ法は、期待値が零の定常ガウス過程に対して、ＡＲモデルのパラメータを求める手法であり、具体的には、前向き予測誤差及び後ろ向き予測誤差の２乗和を最小にするように反射係数を決定し、次数ｍが増加する方向に漸化的に係数ａ_ｉを求める手法である。ＭＣＥ−Ｂｕｒｇ法は、Ｂｕｒｇ法によりＡＲモデルパラメータを求める際に、ＭＣＥ原理のもとで先見情報を利用する手法である。先見情報は隣接フレームにおける１フレーム前のＡＲモデルパラメータを利用する。本実施形態では、隣接フレーム間のＡＲパラメータの近さをカルバック情報量の相違測度により計算し、相違が少ない場合ＭＣＥ−Ｂｕｒｇ法を適用し、相違が大きい場合はＢｕｒｇ法を適用する。また、求めた係数ａ_ｉを音声認識に関する情報として利用する。

カルバック情報量の相違測度(divergence measure)の導出方法について説明する。
いま、隣接する２つのフレーム（第ｓ−１、ｓフレームとする）についてのARモデルを考える。このとき各フレームにおける音声信号を｛ｘ_s-1［ｎ］｝、｛ｘ_s［ｎ］｝(ｎ＝０，・・・，N−1)と表す。表記の簡便化のためにベクトル形式ｘ _s-1［ｎ］、ｘ _s［ｎ］を用いて各フレームの音声信号を表したとき、それぞれの結合確率密度関数をｆ_s-1（ｘ_s-1［ｎ］）、ｆ_s（ｘ_s［ｎ］）とし、各々正規分布に従うとする。
このときのカルバック情報量は以下の数２で表される。

さらに、対称性を考慮したカルバック情報量の相違測度は以下の数３で表される。

ただし、σ_s-1 ²、σ_s ²、ａ _m,s-1、ａ _m,sはそれぞれ第s-1、sフレームにおける予測誤差分散、ＡＲパラメータベクトルであり、Ｒ_s-1、Ｒ_sは以下の数４に示すような共分散行列である。

周波数対スペクトル強度の算出について説明する。
ある時間の音声信号ｘ［ｎ］の周波数対スペクトル強度Ｓ_ｘ（ｆ）は以下の数５で与えられる。

また、上式のＡ（ｚ）は

で与えられる。ｊは虚数単位、πは円周率、ｆは周波数を表す。
上記の演算を行うことにより、各フレームの周波数対スペクトル強度を算出する。

入力音声２４の高低に関する情報である、ピッチ周波数の算出について説明する。
人間の発声音は声帯振動を音源とする有声音と、声道の狭窄により発生する乱流を音源とする無声音に分けることができ、有声音の周期はピッチ周期（ピッチ周波数の逆数）にあたり、また、ピッチ周期は、上記の予測誤差ｅ［ｎ］の周期と強い相関を持ち、更に、その相関関数Ｒ_ｋも同じ周期を持つ。この性質を利用して、ピッチ周波数を算出する。

予測誤差ｅ[ｎ]に対し、以下の数７の条件でセンタクリッピング処理を行う。これは、インパルス列以外の予測誤差成分を除去するためである。

ｎ＝０，．．．，Ｎ−ｍ−１
ここで、Ｎ＝５１２（フレームに含まれるサンプリングデータ）、ｃは適切な定数（ｃ≧０）であり、本実施形態ではｃ＝２とする。

センタクリッピング処理されたｅ［ｎ］の相関関数Ｒ_ｋは以下の数８で与えられる。

Ｒ_０の数１０％で閾値を設定し、その閾値を超えたところでＲ_ｋの最大ピークを検出し、その時のｋに対してサンプリング周波数ｆ_ｓを適用して、ピッチ周波数ｆ_ｐ＝ｆ_ｓ／ｋを推定する。閾値を超えたピークが存在しない、又は、得られたピッチ周波数ｆ_ｐが予め定めた範囲外である場合はｆ_ｐ＝０とする。尚、入力音声２４を２２０５０Ｈｚでサンプリングしているので、ｆ_ｓ＝２２０５０Ｈｚである.
上記の演算を行うことにより、各フレームのピッチ周波数を算出する。

本実施形態では、入力音声２４の大小に関する情報として、各フレームの予測誤差分散σ_ｅ ^２を利用する。

色情報データ２６について説明する。
本実施形態では、各フレームの周波数対スペクトル強度を色の明度に、ピッチ周波数を色の色相に、予測誤差分散を色の彩度に対応づけて、色情報データ２６を生成する。また、各フレームの周波数対スペクトル強度を色の色相に、ピッチ周波数を色の明度に、予測誤差分散を色の彩度に対応づけるなどして、色情報データ２６を生成してもよい。

例えば、周波数対スペクトル強度と色の明度を正比例に対応づける。２５６階調の色の明度（０〜２５５階調の明度）に対応づける場合、ある範囲の値を２５６等分し、この等分された区間に０〜２５５の数字を付す。そして、各フレームには、周波数対スペクトル強度の値が含まれる区間の数字を付し、その数字と同一の階調の明度を各フレームの周波数対明度とする。以上のように、各フレームの周波数対明度を決定する。

ピッチ周波数は、大きければ高い音を表し、小さければ低い音を表す。例えば、色相環を利用して、ピッチ周波数が大きければ赤系の色相に、小さければ青系の色相に対応づける。上記の周波数対スペクトル強度と色の彩度の対応づけと同様の対応づけを行い、各フレームの色相を決定する。

本実施形態では、予測誤差分散は音声の大小を相対的に表す値として利用する。例えば、予測誤差分散と色の彩度を正比例に対応づける。上記の対応づけと同様の対応づけを行い、各フレームの色の彩度を決定する。

図形データ２７について説明する。
色情報データ２６は、各フレームの周波数対色相、明度及び彩度を表すデータであるので、縦軸に周波数、横軸に時間（フレーム）をとった平面上に色情報データ２６に基づいた色を出力して図形を生成するように、図形データ２７を生成する。また、図形データ２７は、時間的変化に応じて、横軸がモニタ１の画面３２上を移動する（例えば、右方から左方に移動する。）ように生成する。

言語情報データ２８及び文字画像データ２９について説明する。
音声認識に関する情報として利用されるＡＲモデルの係数ａ_ｉは、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）法に基づき、予め学習された音響モデル及び言語モデルを参照し、入力音声２４が、いずれの文章を発した音声に類似しているかの尤度計算を行い、最も類似した文章を、音声認識結果として、言語情報データ２８を生成する。また、音声認識に関する情報として、ＬＰＣケプストラム係数、ＬＰＣメルケプストラム係数、ＦＦＴケプストラム係数等を用いてもよい。ここで、尤度が小さい場合、その箇所の文章をクエスチョンマーク「？」、ハイフン「−」、アスタリスク「＊」、ドット「・」等で表示する。言語情報データ２８に基づき、文字３１をモニタ１の画面３２上に出力する、文字画像データ２９を生成する。

上記の図形データ２７及び文字画像データ２９に基づき、入力音声２４に対する図形３０及び文字３１をモニタ１の同一画面上に表示する。

以下に、パソコン５を用いた本実施形態に係る音声可視化方法Ａの実施手順を説明する。
プログラムＢを実行させると、例えば、図４に示すように、画面３２の下方に図形表示領域３３、上方に文字表示領域３４、画面３２の左上には、ボタン類を表示するボタン表示領域３５が表示される。ボタン類には、スタートボタン３６、ストップボタン３７、巻き戻しボタン３８が含まれている。図形表示領域３３において、横方向は時間を表し、縦方向は周波数を表しており、文字表示領域３４においては、横方向は図形表示領域３３と同様、時間を表している。
スタートボタン３６をマウス３などの操作によりクリックし、図１に示すように、マイクロフォン４に向かって、話者２３が音声を発すると、図形及び文字表示領域３３、３４に図形３０及び文字３１が、表示される。表示された図形３０と文字３１は、時間経過と共に、各々の表示領域３３、３４の右方から左方にスクロールされる。ストップボタン３７を押すと、図形３０と文字３１のスクロールは終了し、ストップボタン３７押圧時の状態を表示する。文字３１において、クエスチョンマーク「？」となっている箇所は、言語情報データ２８生成時に、尤度が小さかったために、クエスチョンマーク「？」を表示している箇所である。
また、巻き戻しボタン３８を押すと、左方にスクロールされ図形及び文字表示領域３３、３４上に表示され終わった図形３０及び文字３１が左方から右方にスクロールされ、表示領域３３、３４上に表示される。

図５に示すように、画面３２を２段に分割して、図形３０と文字３１を２段に渡って表示するようにしてもよい。
図形３０と文字３１は、下段３９の右方から表示され始め、左方にスクロールされていき、下段３９で表示する領域がなくなると、上段４０へ移動し、同様に、右方から左方へスクロールされる。画面３２を３段以上に分割して、図形３０と文字３１を表示する場合も、２段に分割した場合と同様に表示すればよい。

話者２３が複数人の場合、話者２３の人数と同数のマイクロフォン４を用意し、各話者２３は各マイクロフォン４に向かって発声し、各話者２３の入力音声２４毎に図形データ２７及び文字画像データ２９を生成して、画面３２を話者２３の人数と同数に分割して図形３０及び文字３１を表示することもできる。図６に話者２３が３人である場合の画面３２の状態を示す。

また、話者２３の人数とマイクロフォン４の本数が一致していれば、各話者２３が各マイクロフォン４に向かって発声しておらず、入力音声２４が混合している場合でも、混合した入力音声２４を独立成分分析の手法により、各話者２３毎に入力音声２４を分離、抽出した後、図形データ２７及び文字画像データ２９を生成することができる。

上記の独立成分分析について、説明する。
各話者２３の発している音声は以下の数９で与えられるとする。

ｘ[ｎ]は、ｓ人の発している音声である。また、Ｔは転置を表す。各マイクロフォン４に入力される音声は以下の数１０であるとする。ここで、マイクロフォン４と話者２３の数は一致している。

ｘ［ｎ］とｙ［ｎ］が線形関係にあるとすれば、

と表せる。Ｄは各マイクロフォン４の配置と特性で決まる混合行列（ｎ行×ｎ列）の実数行列である。ここで、Ｄが既知であれば、数１１より

となり、ｘ［ｎ］を求めることができる。しかし、一般にＤは未知であり、ｙ［ｎ］だけを利用することで信号ｘ［ｎ］を求めなければならない。

ここで、話者２３の発している音声ｘ［ｎ］が確率的に発生し、更に、ｘ［ｎ］の各成分が全て互いに独立であると仮定する。このとき、ｙ［ｎ］は混合された信号であるためｙ［ｎ］の各成分の分布は独立ではない。そこで、ｙ［ｎ］に含まれる独立な成分を独立成分分析によって探索する。すなわち、ｙ［ｎ］を独立な成分に変換するｎ×ｎの行列Ｗを計算し、ｙ［ｎ］にＷを適用することで、ｘ［ｎ］に対して近似的な値を求める。この値を入力音声２４として利用する。

図７に示すように、画面３２に、図形３０と文字３１を表示すると共に、画面３２の右上隅の唇表示領域４１に、音声を発している話者２３の唇の動き４２を表示してもよい。これにより、話者２３を直接見ることなく、利用者４６はモニタ１の画面３２から唇の動き４２を見ることができるので、利用者４６は画面３２のみに集中することができる。
話者２３の唇を第三者がビデオカメラで撮影したり、固定されたビデオカメラに話者２３の唇が撮影されるようにするなどして、話者２３の唇の動き４２を撮影し、撮影された唇の動き４２を画面３２の唇表示領域４１にオンラインで表示するようにすればよい。

図８に示すように、音声入力装置としてピンマイク４３、表示装置１８としてヘッドマウントディスプレイ４４を利用し、プログラムＢを携帯用コンピュータ４５にインストールして、音声可視化方法Ａを実施できる。また、図９に示すように、ピンマイク４３を集音マイク４８として、利用者４６の衣服などに搭載して、話者２３の音声を入力するようにしてもよい。
携帯用コンピュータ４５は持ち運びに便利なので、利用者４６は訪問先や屋外などの様々な場所で音声可視化方法Ａを実施できる。また、図９に示すように、集音マイク４８及び携帯用コンピュータ４５を衣服などに搭載し、ヘッドマウントディスプレイ４４を装着して、歩行中に音声可視化方法Ａを実施すれば、集音マイク４８から自動車音や交通信号音などの環境音が入力され、それに対応した図形３０が表示されるので、音声だけでなく、環境音も認識でき、安全な歩行が可能となる。更に、日常生活の様々な音を認識することができるので、難聴者の生活を補助することが可能となる。

また、図１０に示すように、小型カメラ４７をヘッドマウントディスプレイ４４に搭載して、話者２３の唇の動き４２を撮影すれば、図形３０と文字３１と共に、唇の動き４２を画面３２上に表示することもできる。上記と同様に、図示していないが、ピンマイク４３を集音マイク４８にしてもよい。

本発明は、難聴者の音声理解の補助に利用でき、また、難聴者の発声訓練にも利用できる。更に、日常生活の様々な音を認識することができ、難聴者の生活を補助することができる。

本発明の実施形態に係る音声可視化方法の実施状態を示す説明図。上記の音声可視化方法が適用されるパソコンの例を示すハードウェア構成図。上記の音声可視化方法に係るプログラムの実行によってＣＰＵが構成するブロック図。上記の音声可視化方法により、図形及び文字がパソコンのモニタ上に表示された状態の一例を示す説明図。上記の音声可視化方法により、図形及び文字がパソコンのモニタ上に表示された状態の一例を示す説明図。上記の音声可視化方法により、図形及び文字がパソコンのモニタ上に表示された状態の一例を示す説明図。上記の音声可視化方法により、図形、文字及び唇の動きがパソコンのモニタ上に表示された状態の一例を示す説明図。上記の音声可視化方法の実施状態の一例を示す説明図。上記の音声可視化方法の実施状態の一例を示す説明図。上記の音声可視化方法の実施状態の一例を示す説明図。

符号の説明

２４入力音声
２５音声特徴データ
２６色情報データ
２７図形データ
２８言語情報データ
２９文字画像データ
３０図形
３１文字
Ａ音声可視化方法

Claims

音声を視覚的に理解できるように表現する音声可視化方法において、
音声入力装置より入力された音声の周波数対スペクトル強度と、該入力音声の高低、大小及び音声認識に関する情報と、を少なくとも含む音声特徴データを生成する段階と、
前記入力音声の周波数対スペクトル強度と、前記入力音声の高低及び大小に関する情報と、に基づき、色の色相、明度及び彩度を決定し、入力音声に対する色情報データを生成する段階と、
時間及び周波数を表す軸を備えた平面上に、前記色情報データに基づいた色を時間的変化に応じて出力する、入力音声に対する図形データを生成する段階と、
前記入力音声の音声認識に関する情報に基づき、入力音声に対する言語情報データを生成する段階と、
前記言語情報データに基づき、入力音声に対する文字画像データを生成する段階と、を具備し、
前記図形データ及び文字画像データに基づき、表示装置の同一画面上に入力音声に対する図形及び文字を表示することを特徴とする音声可視化方法。
前記図形及び文字を、前記表示装置の同一画面上に単数段、又は、複数段に渡って表示することを特徴とする請求項１記載の音声可視化方法。
入力音声を発している話者の人数と同数に前記表示装置の画面を分割し、各話者毎に前記図形及び文字を表示することを特徴とする請求項１記載の音声可視化方法。
入力音声を発している話者の唇の動きを、前記図形及び文字と共に、前記表示装置の同一画面上に表示することを特徴とする請求項１乃至３記載の何れかの音声可視化方法。
請求項１乃至３記載の何れかの音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置がヘッドマウントディスプレイであることを特徴とする音声可視化方法。
請求項４記載の音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置が小型カメラを搭載したヘッドマウントディスプレイであることを特徴とする音声可視化方法。
請求項１乃至４記載の何れかの音声可視化方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。