JP2005209000A - 音声可視化方法及び該方法を記憶させた記録媒体 - Google Patents

音声可視化方法及び該方法を記憶させた記録媒体 Download PDF

Info

Publication number
JP2005209000A
JP2005209000A JP2004015672A JP2004015672A JP2005209000A JP 2005209000 A JP2005209000 A JP 2005209000A JP 2004015672 A JP2004015672 A JP 2004015672A JP 2004015672 A JP2004015672 A JP 2004015672A JP 2005209000 A JP2005209000 A JP 2005209000A
Authority
JP
Japan
Prior art keywords
voice
speech
input
visualization method
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004015672A
Other languages
English (en)
Other versions
JP4411590B2 (ja
Inventor
Sueo Sugimoto
末雄 杉本
Kenji Nakamuro
健二 中室
Yoshizo Tokawa
吉造 東川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2004015672A priority Critical patent/JP4411590B2/ja
Publication of JP2005209000A publication Critical patent/JP2005209000A/ja
Application granted granted Critical
Publication of JP4411590B2 publication Critical patent/JP4411590B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 人間の発する音声を言語と共に、話者の個人差や感情を含めて表現し、難聴者による音声の理解を補助する音声可視化方法を提供する。
【解決手段】 本発明に係る音声可視化方法Aは、入力音声24に対する音声特徴データ25を生成し、音声特徴データ25に基づき、色情報データ26と言語情報データ28を生成し、色情報データ26と言語情報データ28に基づき、図形データ27と文字画像データ29を生成して、入力音声24に対する図形30及び文字31を表示装置1の同一画面上に表示するものである。
【選択図】 図3

Description

本発明は、音声を視覚的に表現する音声可視化方法に関するものであり、特に、人間の発声音を話者の個人差や感情を含めて表現し、難聴者による音声の理解を補助する音声可視化方法に関するものである。
難聴者は音声を理解する方法として、手話や読唇術を用いる。しかし、手話では、話者が手話を使用できる人間に限定され、また、読唇術は高度な訓練を要する。そこで、難聴者による音声の理解を補助する装置として、音声認識文字表示装置が提案されている。(例えば、特許文献1参照。)
音声認識文字装置は、音声信号を獲得する音声信号獲得部と、前記音声信号獲得部から該音声信号を供給され、該音声信号中に含まれる言語情報を判別する音声認識部と、前記音声認識部から供給される該言語情報に対応した文字から文字画像を作成する、文字画像作成部と、前記文字画像作成部で作成された、該文字画像を出力するモニタ受像部から構成されている。
このような音声文字認識装置は、例えば、テレビジョン放送信号中の音声信号を音声認識して認識結果を映像出力することにより、難聴者にも音声信号の内容を伝達できるようにする自動字幕表示作成装置としての利用がなされている。
また、従来から、音声分析に一般的に利用されているのがサウンドスペクトログラムである。サウンドスペクトログラムとは、音声のスペクトル推定を行って該音声の周波数対スペクトル強度を算出し、該周波数対スペクトル強度を単色(例えば、灰色)の明度に対応づけ、時間的変化に対応させて、時間及び周波数を表す軸を備えた平面上に出力して、複数個並べて作成される図形である。前記スペクトル推定には、一般的に、FFT+Window法と呼ばれる手法が利用されている。前記FFT+Window法は、音声に窓関数を掛けた後、高速フーリエ変換(FFT:Fast Fourie Transform)を行い、得られた値を平滑化する手法である。
前記サウンドスペクトログラムにおいて、話者が発する個々の発生音は黒い帯状となって表れる複数のフォルマント(声道共振周波数)の相対位置によって特徴づけられる。更に、性別や感情などの情報は前記フォルマントの絶対位置や信号の振幅によって特徴づけられる。このように、前記サウンドスペクトログラムには、話者間に共通した発話情報だけでなく、音声認識による活字化では得ることのできない個人的特徴を含めた音声情報を提示できる。
特開平11−41538号公報
しかしながら、前記音声認識装置は、音声に含まれる様々な情報のうち、言語情報のみが文字表示装置を通して伝達されており、例えば、話者の個人的特徴である性別や感情などの言語情報以外の情報を伝達することができないという問題点がある。
また、前記サウンドスペクトログラムは、音声の個人的特徴を表すが、該サウンドスペクトログラムからは、話者がどのような言語を発しているかを判断することは困難である。
本発明は、以上のような事情や問題点に鑑みてなされたものであり、人間の発する音声を、言語と共に、話者の個人差や感情を含めて表現することにより、難聴者による発声音の理解を補助する音声可視化方法を提供することを目的とする。
上記目的を達成するための請求項1の発明は、音声を視覚的に理解できるように表現する音声可視化方法において、
音声入力装置より入力された音声の周波数対スペクトル強度と、該入力音声の高低、大小及び音声認識に関する情報と、を有する音声特徴データを生成する段階と、
前記入力音声の周波数対スペクトル強度と、前記入力音声の高低及び大小に関する情報と、に基づき、色の色相、明度及び彩度を決定し、入力音声に対する色情報データを生成する段階と、
時間及び周波数を表す軸を備えた平面上に、前記色情報データに基づいた色を時間的変化に応じて出力する、入力音声に対する図形データを生成する段階と、
前記入力音声の音声認識に関する情報に基づき、入力音声に対する言語情報データを生成する段階と、
前記言語情報データに基づき、入力音声に対する文字画像データを生成する段階と、を具備し、
前記図形データ及び文字画像データに基づき、表示装置の同一画面上に入力音声に対する図形及び文字を表示することにある。
請求項2の発明は、請求項1記載の音声可視化方法において、前記図形及び文字を、前記表示装置の同一画面上の単数段、又は、複数段に渡って表示することにある。
請求項3の発明は、請求項1記載の音声可視化方法において、入力音声を発している話者の人数と同数に前記表示装置の画面を分割し、各話者毎に前記図形及び文字を表示することにある。
請求項4の発明は、請求項1乃至3記載の何れかの音声可視化方法において、入力音声を発している話者の唇の動きを、前記図形及び文字と共に、前記表示装置の同一画面上に表示することにある。
請求項5の発明は、請求項1乃至3記載の何れかの音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置がヘッドマウントディスプレイであることにある。
請求項6の発明は、請求項4記載の音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置が小型カメラを搭載したヘッドマウントディスプレイであることにある。
請求項7の発明は、請求項1乃至4記載の音声可視化方法の何れかをコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体にある。
請求項1の発明によれば、音声を言語と共に、性別や感情などの個人的特徴を含むサウンドスペクトログラムに音声の高低及び大小に関する情報を加えた図形を提供することにより、音声の理解を深めることができ、難聴者の音声理解を補助することができる。
また、難聴者の発した音声を入力音声とし、表示装置の画面上に入力音声に対する図形及び文字を表示することにより、難聴者の発声訓練に利用することができる。
請求項2の発明によれば、図形及び文字を表示装置の画面上に単数段で表示することにより、利用者は図形及び文字を認識することが容易となる。
また、図形及び文字を表示装置の画面上へ複数段に渡って表示することにより、より多くの図形及び文字を表示装置の画面上へ表示することができる。
請求項3の発明によれば、各話者毎に図形及び文字を表示することができるので、利用者は各話者毎に音声理解を深めることができる。
請求項4の発明によれば、利用者は話者に直接目を向けることなく、表示装置の画面で話者の唇の動きを見ることができるので、入力音声に対する図形、文字及び話者の唇の動きを表示装置の画面のみから得ることができ、より一層、音声理解を深めることができる。
請求項5の発明によれば、屋外や訪問先などの様々な場所で、請求項1乃至3記載の何れかの音声可視化が実施できる。
また、例えば、外出時の歩行中に、音声入力装置及び携帯用コンピュータを衣服などに搭載し、ヘッドマウントディスプレイを頭部に装着して、音声可視化方法を実施すれば、自動車音や交通信号音などの環境音が入力され、それに対応した図形が表示されるので、音声だけでなく、環境音も認識でき、安全な歩行が可能となる。これ以外にも、日常生活の様々な音を認識することができるので、難聴者の生活を補助することが可能となる。
請求項6の発明によれば、小型カメラで、話者の唇の動きを撮影することにより、屋外や訪問先などの様々な場所で、請求項4記載の音声可視化が実施できる。
請求項7の発明によれば、既存のコンピュータに容易に本発明に係る音声可視化方法を実行させることができ、上述の効果と同様の効果を得ることができる。
以下、本発明の実施形態を図面に基づいて説明する。
本発明の実施形態に係る音声可視化方法Aは、例えば、図1に示すような、モニタ(表示装置)1、キーボード(入力装置)2、マウス(入力装置)3、を備えたパソコン(コンピュータ)5と、音声入力装置としてのマイクロフォン4、を用いてなされる方法である。
パソコン5の具体的な構成例を示す。図2に示すように、主制御部6、ディスク制御部7、入力制御部8、出力制御部9、及び記憶装置部10を備えたものであって、これら各機能ブロック6乃至10は双方向に通信可能にシステムバス11によって接続されている。
主制御部6は、CPU12とCD−ROM13から読み込まれたプログラムBを一時記憶するメインメモリ14と、オペレーティングシステム(OS)等が記憶されたROM15と、を備えている。
ディスク制御部7は、CD−ROM13に記録された音声可視化方法Aを実行するプログラムBを再生するディスクドライブ装置16と、該ディスクドライブ装置16からデータを一時的に記憶するドライブ装置バッファ17と、を備えている。
入力制御部8は、キーボード2、マウス3等の入力装置18と、これらの入力装置18とシステムバス11を介してCPU12とのインターフェイス用の回路となるインターフェイス回路19と、を備えている。
出力制御部9は、モニタ1等の出力装置20と、これらの出力装置20とシステムバス11を介してCPU12とのインターフェイス用の回路となるインターフェイス回路21と、を備えている。
記憶装置部10には、ハードディスク22などの読み出し書き可能な装置を備えている。
上記構成のパソコン5に、プログラムBが記録されたCD−ROM(記録媒体)13をディスクドライブ装置16に装着した状態で電源投入、又はリセット処理を行うとCPU12はROM15に記憶されているOSを実行し、パソコン5の初期化を行うと共に、ディスク制御部7を制御して、CD−ROM13に記憶されているプログラムBをメインメモリ14に読み出して実行する。なお、CD−ROM13をディスクドライブ装置16に装着する代わりに、メインメモリ14に読み出し可能なように別にハードディスクなどの記録装置を設け、プログラムBを該記録装置に予めインストールしておいてからプログラムBの実行を行ってもよい。
上記プログラムBの実行により、CPU12は、図3に示すブロック図を形成して、本実施形態に係る音声可視化方法Aを実現する。すなわち、話者23により、マイクロフォン4から入力された音声24の音声特徴データ25を生成し、音声特徴データ25のうち、入力音声24の周波数対スペクトル強度と、入力音声24の高低及び大小に関する情報とより、色情報データ26を生成し、色情報データ26より図形データ27を生成すると共に、音声特徴データ25のうち、音声認識に関する情報から言語情報データ28を生成し、言語情報データ28に対応する文字画像データ29を生成し、図形データ27及び文字画像データ29より、図形30と文字31をモニタ1の同一画面32上に表示する。
音声特徴データ25について説明する。
入力音声24を適度なサンプリング周波数でサンプリングする。本実施形態では、22050Hzでサンプリングする。また、本実施形態では、有声音における声門の特性、すなわち、高周域における減衰を考慮し、1次の微分フィルタを適用する。
音声は非定常な信号であるが、短時間区間(5〜100msec)では、定常信号とみなし、入力音声24を短時間区間(以下、フレームと呼ぶ)で分割し、各フレームの周波数対スペクトル強度、高低、大小及び音声認識に関する情報を算出し、音声特徴データ25を生成する。本実施形態では、入力音声24のサンプリングデータが512個含まれる時間(約0.023sec)で、入力音声24を分割する。
本実施形態では、計算時間と分解能を考慮して入力音声24に時系列モデルである自己回帰モデル(以下、ARモデルという)を適合してスペクトル推定を行い、音声特徴データ25を生成する。ある時間の音声信号をx[n]とすると、
Figure 2005209000
と表現できる。mはARモデルの次数、aは係数、e[n]は期待値零、分散σ の予測誤差である。
ARモデルの次数mは、声道のモデル構造と、ARモデルの構造が一致していることから決定する。本実施形態では、m=22とする。
また、係数aの推定にはBurg法、及び、MCE法(Minimum Cross Entropy法)を適用したBurg法(以下、MCE−Burg法という)を切り換えて用いる。Burg法は、期待値が零の定常ガウス過程に対して、ARモデルのパラメータを求める手法であり、具体的には、前向き予測誤差及び後ろ向き予測誤差の2乗和を最小にするように反射係数を決定し、次数mが増加する方向に漸化的に係数aを求める手法である。MCE−Burg法は、Burg法によりARモデルパラメータを求める際に、MCE原理のもとで先見情報を利用する手法である。先見情報は隣接フレームにおける1フレーム前のARモデルパラメータを利用する。本実施形態では、隣接フレーム間のARパラメータの近さをカルバック情報量の相違測度により計算し、相違が少ない場合MCE−Burg法を適用し、相違が大きい場合はBurg法を適用する。また、求めた係数aを音声認識に関する情報として利用する。
カルバック情報量の相違測度(divergence measure)の導出方法について説明する。
いま、隣接する2つのフレーム(第s−1、sフレームとする)についてのARモデルを考える。このとき各フレームにおける音声信号を{xs-1[n]}、{xs[n]}(n=0,・・・,N−1)と表す。表記の簡便化のためにベクトル形式 s-1[n]、 s[n]を用いて各フレームの音声信号を表したとき、それぞれの結合確率密度関数をfs-1(xs-1[n])、fs(xs[n])とし、各々正規分布に従うとする。
このときのカルバック情報量は以下の数2で表される。
Figure 2005209000
Figure 2005209000
さらに、対称性を考慮したカルバック情報量の相違測度は以下の数3で表される。
Figure 2005209000
Figure 2005209000
ただし、σs-1 2、σs 2 m,s-1 m,sはそれぞれ第s-1、sフレームにおける予測誤差分散、ARパラメータベクトルであり、Rs-1、Rsは以下の数4に示すような共分散行列である。
Figure 2005209000
周波数対スペクトル強度の算出について説明する。
ある時間の音声信号x[n]の周波数対スペクトル強度S(f)は以下の数5で与えられる。
Figure 2005209000
また、上式のA(z)は
Figure 2005209000
で与えられる。jは虚数単位、πは円周率、fは周波数を表す。
上記の演算を行うことにより、各フレームの周波数対スペクトル強度を算出する。
入力音声24の高低に関する情報である、ピッチ周波数の算出について説明する。
人間の発声音は声帯振動を音源とする有声音と、声道の狭窄により発生する乱流を音源とする無声音に分けることができ、有声音の周期はピッチ周期(ピッチ周波数の逆数)にあたり、また、ピッチ周期は、上記の予測誤差e[n]の周期と強い相関を持ち、更に、その相関関数Rも同じ周期を持つ。この性質を利用して、ピッチ周波数を算出する。
予測誤差e[n]に対し、以下の数7の条件でセンタクリッピング処理を行う。これは、インパルス列以外の予測誤差成分を除去するためである。
Figure 2005209000
n=0,...,N−m−1
ここで、N=512(フレームに含まれるサンプリングデータ)、cは適切な定数(c≧0)であり、本実施形態ではc=2とする。
センタクリッピング処理されたe[n]の相関関数Rは以下の数8で与えられる。
Figure 2005209000
の数10%で閾値を設定し、その閾値を超えたところでRの最大ピークを検出し、その時のkに対してサンプリング周波数fを適用して、 ピッチ周波数f=f/kを推定する。閾値を超えたピークが存在しない、又は、得られたピッチ周波数fが予め定めた範囲外である場合はf=0とする。尚、入力音声24を22050Hzでサンプリングしているので、f=22050Hzである.
上記の演算を行うことにより、各フレームのピッチ周波数を算出する。
本実施形態では、入力音声24の大小に関する情報として、各フレームの予測誤差分散σ を利用する。
色情報データ26について説明する。
本実施形態では、各フレームの周波数対スペクトル強度を色の明度に、ピッチ周波数を色の色相に、予測誤差分散を色の彩度に対応づけて、色情報データ26を生成する。また、各フレームの周波数対スペクトル強度を色の色相に、ピッチ周波数を色の明度に、予測誤差分散を色の彩度に対応づけるなどして、色情報データ26を生成してもよい。
例えば、周波数対スペクトル強度と色の明度を正比例に対応づける。256階調の色の明度(0〜255階調の明度)に対応づける場合、ある範囲の値を256等分し、この等分された区間に0〜255の数字を付す。そして、各フレームには、周波数対スペクトル強度の値が含まれる区間の数字を付し、その数字と同一の階調の明度を各フレームの周波数対明度とする。以上のように、各フレームの周波数対明度を決定する。
ピッチ周波数は、大きければ高い音を表し、小さければ低い音を表す。例えば、色相環を利用して、ピッチ周波数が大きければ赤系の色相に、小さければ青系の色相に対応づける。上記の周波数対スペクトル強度と色の彩度の対応づけと同様の対応づけを行い、各フレームの色相を決定する。
本実施形態では、予測誤差分散は音声の大小を相対的に表す値として利用する。例えば、予測誤差分散と色の彩度を正比例に対応づける。上記の対応づけと同様の対応づけを行い、各フレームの色の彩度を決定する。
図形データ27について説明する。
色情報データ26は、各フレームの周波数対色相、明度及び彩度を表すデータであるので、縦軸に周波数、横軸に時間(フレーム)をとった平面上に色情報データ26に基づいた色を出力して図形を生成するように、図形データ27を生成する。また、図形データ27は、時間的変化に応じて、横軸がモニタ1の画面32上を移動する(例えば、右方から左方に移動する。)ように生成する。
言語情報データ28及び文字画像データ29について説明する。
音声認識に関する情報として利用されるARモデルの係数aは、隠れマルコフモデル(HMM:Hidden Markov Model)法に基づき、予め学習された音響モデル及び言語モデルを参照し、入力音声24が、いずれの文章を発した音声に類似しているかの尤度計算を行い、最も類似した文章を、音声認識結果として、言語情報データ28を生成する。また、音声認識に関する情報として、LPCケプストラム係数、LPCメルケプストラム係数、FFTケプストラム係数等を用いてもよい。ここで、尤度が小さい場合、その箇所の文章をクエスチョンマーク「?」、ハイフン「−」、アスタリスク「*」、ドット「・」等で表示する。言語情報データ28に基づき、文字31をモニタ1の画面32上に出力する、文字画像データ29を生成する。
上記の図形データ27及び文字画像データ29に基づき、入力音声24に対する図形30及び文字31をモニタ1の同一画面上に表示する。
以下に、パソコン5を用いた本実施形態に係る音声可視化方法Aの実施手順を説明する。
プログラムBを実行させると、例えば、図4に示すように、画面32の下方に図形表示領域33、上方に文字表示領域34、画面32の左上には、ボタン類を表示するボタン表示領域35が表示される。ボタン類には、スタートボタン36、ストップボタン37、巻き戻しボタン38が含まれている。図形表示領域33において、横方向は時間を表し、縦方向は周波数を表しており、文字表示領域34においては、横方向は図形表示領域33と同様、時間を表している。
スタートボタン36をマウス3などの操作によりクリックし、図1に示すように、マイクロフォン4に向かって、話者23が音声を発すると、図形及び文字表示領域33、34に図形30及び文字31が、表示される。表示された図形30と文字31は、時間経過と共に、各々の表示領域33、34の右方から左方にスクロールされる。ストップボタン37を押すと、図形30と文字31のスクロールは終了し、ストップボタン37押圧時の状態を表示する。文字31において、クエスチョンマーク「?」となっている箇所は、言語情報データ28生成時に、尤度が小さかったために、クエスチョンマーク「?」を表示している箇所である。
また、巻き戻しボタン38を押すと、左方にスクロールされ図形及び文字表示領域33、34上に表示され終わった図形30及び文字31が左方から右方にスクロールされ、表示領域33、34上に表示される。
図5に示すように、画面32を2段に分割して、図形30と文字31を2段に渡って表示するようにしてもよい。
図形30と文字31は、下段39の右方から表示され始め、左方にスクロールされていき、下段39で表示する領域がなくなると、上段40へ移動し、同様に、右方から左方へスクロールされる。画面32を3段以上に分割して、図形30と文字31を表示する場合も、2段に分割した場合と同様に表示すればよい。
話者23が複数人の場合、話者23の人数と同数のマイクロフォン4を用意し、各話者23は各マイクロフォン4に向かって発声し、各話者23の入力音声24毎に図形データ27及び文字画像データ29を生成して、画面32を話者23の人数と同数に分割して図形30及び文字31を表示することもできる。図6に話者23が3人である場合の画面32の状態を示す。
また、話者23の人数とマイクロフォン4の本数が一致していれば、各話者23が各マイクロフォン4に向かって発声しておらず、入力音声24が混合している場合でも、混合した入力音声24を独立成分分析の手法により、各話者23毎に入力音声24を分離、抽出した後、図形データ27及び文字画像データ29を生成することができる。
上記の独立成分分析について、説明する。
各話者23の発している音声は以下の数9で与えられるとする。
Figure 2005209000
x[n]は、s人の発している音声である。また、Tは転置を表す。各マイクロフォン4に入力される音声は以下の数10であるとする。ここで、マイクロフォン4と話者23の数は一致している。
Figure 2005209000
x[n]とy[n]が線形関係にあるとすれば、
Figure 2005209000
と表せる。Dは各マイクロフォン4の配置と特性で決まる混合行列(n行×n列)の実数行列である。ここで、Dが既知であれば、数11より
Figure 2005209000
となり、x[n]を求めることができる。しかし、一般にDは未知であり、y[n]だけを利用することで信号x[n]を求めなければならない。
ここで、話者23の発している音声x[n]が確率的に発生し、更に、x[n]の各成分が全て互いに独立であると仮定する。このとき、y[n]は混合された信号であるためy[n]の各成分の分布は独立ではない。そこで、y[n]に含まれる独立な成分を独立成分分析によって探索する。すなわち、y[n]を独立な成分に変換するn×nの行列Wを計算し、y[n]にWを適用することで、x[n]に対して近似的な値を求める。この値を入力音声24として利用する。
図7に示すように、画面32に、図形30と文字31を表示すると共に、画面32の右上隅の唇表示領域41に、音声を発している話者23の唇の動き42を表示してもよい。これにより、話者23を直接見ることなく、利用者46はモニタ1の画面32から唇の動き42を見ることができるので、利用者46は画面32のみに集中することができる。
話者23の唇を第三者がビデオカメラで撮影したり、固定されたビデオカメラに話者23の唇が撮影されるようにするなどして、話者23の唇の動き42を撮影し、撮影された唇の動き42を画面32の唇表示領域41にオンラインで表示するようにすればよい。
図8に示すように、音声入力装置としてピンマイク43、表示装置18としてヘッドマウントディスプレイ44を利用し、プログラムBを携帯用コンピュータ45にインストールして、音声可視化方法Aを実施できる。また、図9に示すように、ピンマイク43を集音マイク48として、利用者46の衣服などに搭載して、話者23の音声を入力するようにしてもよい。
携帯用コンピュータ45は持ち運びに便利なので、利用者46は訪問先や屋外などの様々な場所で音声可視化方法Aを実施できる。また、図9に示すように、集音マイク48及び携帯用コンピュータ45を衣服などに搭載し、ヘッドマウントディスプレイ44を装着して、歩行中に音声可視化方法Aを実施すれば、集音マイク48から自動車音や交通信号音などの環境音が入力され、それに対応した図形30が表示されるので、音声だけでなく、環境音も認識でき、安全な歩行が可能となる。更に、日常生活の様々な音を認識することができるので、難聴者の生活を補助することが可能となる。
また、図10に示すように、小型カメラ47をヘッドマウントディスプレイ44に搭載して、話者23の唇の動き42を撮影すれば、図形30と文字31と共に、唇の動き42を画面32上に表示することもできる。上記と同様に、図示していないが、ピンマイク43を集音マイク48にしてもよい。
本発明は、難聴者の音声理解の補助に利用でき、また、難聴者の発声訓練にも利用できる。更に、日常生活の様々な音を認識することができ、難聴者の生活を補助することができる。
本発明の実施形態に係る音声可視化方法の実施状態を示す説明図。 上記の音声可視化方法が適用されるパソコンの例を示すハードウェア構成図。 上記の音声可視化方法に係るプログラムの実行によってCPUが構成するブロック図。 上記の音声可視化方法により、図形及び文字がパソコンのモニタ上に表示された状態の一例を示す説明図。 上記の音声可視化方法により、図形及び文字がパソコンのモニタ上に表示された状態の一例を示す説明図。 上記の音声可視化方法により、図形及び文字がパソコンのモニタ上に表示された状態の一例を示す説明図。 上記の音声可視化方法により、図形、文字及び唇の動きがパソコンのモニタ上に表示された状態の一例を示す説明図。 上記の音声可視化方法の実施状態の一例を示す説明図。 上記の音声可視化方法の実施状態の一例を示す説明図。 上記の音声可視化方法の実施状態の一例を示す説明図。
符号の説明
24 入力音声
25 音声特徴データ
26 色情報データ
27 図形データ
28 言語情報データ
29 文字画像データ
30 図形
31 文字
A 音声可視化方法

Claims (7)

  1. 音声を視覚的に理解できるように表現する音声可視化方法において、
    音声入力装置より入力された音声の周波数対スペクトル強度と、該入力音声の高低、大小及び音声認識に関する情報と、を少なくとも含む音声特徴データを生成する段階と、
    前記入力音声の周波数対スペクトル強度と、前記入力音声の高低及び大小に関する情報と、に基づき、色の色相、明度及び彩度を決定し、入力音声に対する色情報データを生成する段階と、
    時間及び周波数を表す軸を備えた平面上に、前記色情報データに基づいた色を時間的変化に応じて出力する、入力音声に対する図形データを生成する段階と、
    前記入力音声の音声認識に関する情報に基づき、入力音声に対する言語情報データを生成する段階と、
    前記言語情報データに基づき、入力音声に対する文字画像データを生成する段階と、を具備し、
    前記図形データ及び文字画像データに基づき、表示装置の同一画面上に入力音声に対する図形及び文字を表示することを特徴とする音声可視化方法。
  2. 前記図形及び文字を、前記表示装置の同一画面上に単数段、又は、複数段に渡って表示することを特徴とする請求項1記載の音声可視化方法。
  3. 入力音声を発している話者の人数と同数に前記表示装置の画面を分割し、各話者毎に前記図形及び文字を表示することを特徴とする請求項1記載の音声可視化方法。
  4. 入力音声を発している話者の唇の動きを、前記図形及び文字と共に、前記表示装置の同一画面上に表示することを特徴とする請求項1乃至3記載の何れかの音声可視化方法。
  5. 請求項1乃至3記載の何れかの音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置がヘッドマウントディスプレイであることを特徴とする音声可視化方法。
  6. 請求項4記載の音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置が小型カメラを搭載したヘッドマウントディスプレイであることを特徴とする音声可視化方法。
  7. 請求項1乃至4記載の何れかの音声可視化方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。
JP2004015672A 2004-01-23 2004-01-23 音声可視化方法及び該方法を記憶させた記録媒体 Expired - Fee Related JP4411590B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004015672A JP4411590B2 (ja) 2004-01-23 2004-01-23 音声可視化方法及び該方法を記憶させた記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004015672A JP4411590B2 (ja) 2004-01-23 2004-01-23 音声可視化方法及び該方法を記憶させた記録媒体

Publications (2)

Publication Number Publication Date
JP2005209000A true JP2005209000A (ja) 2005-08-04
JP4411590B2 JP4411590B2 (ja) 2010-02-10

Family

ID=34901077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004015672A Expired - Fee Related JP4411590B2 (ja) 2004-01-23 2004-01-23 音声可視化方法及び該方法を記憶させた記録媒体

Country Status (1)

Country Link
JP (1) JP4411590B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
JP2015106014A (ja) * 2013-11-29 2015-06-08 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
WO2016013740A1 (ko) * 2014-07-22 2016-01-28 한화테크윈 주식회사 멀티 채널 오디오 데이터의 시각화 장치 및 방법
CN113380088A (zh) * 2021-04-07 2021-09-10 上海中船船舶设计技术国家工程研究中心有限公司 一种交互式模拟培训保障系统
US20210295811A1 (en) * 2016-02-05 2021-09-23 New Resonance, Llc Mapping characteristics of music into a visual display
JP7216851B1 (ja) 2022-02-21 2023-02-01 真吾 澤田 聴覚支援ウエラブルデバイス、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200116654A (ko) 2019-04-02 2020-10-13 삼성전자주식회사 전자 장치 및 이의 제어 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
JP2015106014A (ja) * 2013-11-29 2015-06-08 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US9691387B2 (en) 2013-11-29 2017-06-27 Honda Motor Co., Ltd. Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus
WO2016013740A1 (ko) * 2014-07-22 2016-01-28 한화테크윈 주식회사 멀티 채널 오디오 데이터의 시각화 장치 및 방법
US20210295811A1 (en) * 2016-02-05 2021-09-23 New Resonance, Llc Mapping characteristics of music into a visual display
CN113380088A (zh) * 2021-04-07 2021-09-10 上海中船船舶设计技术国家工程研究中心有限公司 一种交互式模拟培训保障系统
JP7216851B1 (ja) 2022-02-21 2023-02-01 真吾 澤田 聴覚支援ウエラブルデバイス、及びプログラム
WO2023157912A1 (ja) * 2022-02-21 2023-08-24 真吾 澤田 聴覚支援ウエラブルデバイス、及びプログラム
JP2023121436A (ja) * 2022-02-21 2023-08-31 真吾 澤田 聴覚支援ウエラブルデバイス、及びプログラム

Also Published As

Publication number Publication date
JP4411590B2 (ja) 2010-02-10

Similar Documents

Publication Publication Date Title
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
Hansen et al. Speech under stress: Analysis, modeling and recognition
US8660842B2 (en) Enhancing speech recognition using visual information
US7680666B2 (en) Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product
KR20150024180A (ko) 발음 교정 장치 및 방법
JP2008139762A (ja) プレゼンテーション支援装置および方法並びにプログラム
EP3373301A1 (en) Apparatus, robot, method and recording medium having program recorded thereon
JPS63157184A (ja) 発音訓練装置
JP2010256391A (ja) 音声情報処理装置
Hansen et al. On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks
JP2021043258A (ja) 制御システム、及び制御方法
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
JP4411590B2 (ja) 音声可視化方法及び該方法を記憶させた記録媒体
KR20150024295A (ko) 발음 교정 장치
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
JP4883750B2 (ja) 音響評定装置、およびプログラム
Yin Training & evaluation system of intelligent oral phonics based on speech recognition technology
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
CN115831153A (zh) 发音质量测试方法
Ravindran et al. Cepstral and linear prediction techniques for improving intelligibility and audibility of impaired speech
CN111182409B (zh) 一种基于智能音箱的屏幕控制方法及智能音箱、存储介质
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
Burnham et al. Visual correlates of Thai lexical tone production: Motion of the head, eyebrows, and larynx?
Dahmani et al. Some consideration on expressive audiovisual speech corpus acquisition using a multimodal platform

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4411590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151127

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees