JP4411590B2 - 音声可視化方法及び該方法を記憶させた記録媒体 - Google Patents
音声可視化方法及び該方法を記憶させた記録媒体 Download PDFInfo
- Publication number
- JP4411590B2 JP4411590B2 JP2004015672A JP2004015672A JP4411590B2 JP 4411590 B2 JP4411590 B2 JP 4411590B2 JP 2004015672 A JP2004015672 A JP 2004015672A JP 2004015672 A JP2004015672 A JP 2004015672A JP 4411590 B2 JP4411590 B2 JP 4411590B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- input
- visualization method
- displayed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
音声入力装置より入力された音声の周波数対スペクトル強度と、該入力音声の高低、大小及び音声認識に関する情報と、を少なくとも含む音声特徴データを生成する段階と、
前記入力音声の周波数対スペクトル強度と、前記入力音声の高低及び大小に関する情報と、に基づき、色の色相、明度及び彩度を決定し、入力音声の周波数対色相、明度及び彩度を表す色情報データを生成する段階と、
時間及び周波数を表す軸を備えた平面上に、前記色情報データに基づいた色を時間的変化に応じて出力する、入力音声に対する図形データを生成する段階と、
前記入力音声の音声認識に関する情報に基づき、入力音声に対する言語情報データを生成する段階と、
前記言語情報データに基づき、入力音声に対する文字画像データを生成する段階と、を具備し、
前記図形データ及び文字画像データに基づき、表示装置の同一画面上に入力音声に対する図形及び文字を表示することにある。
また、難聴者の発した音声を入力音声とし、表示装置の画面上に入力音声に対する図形及び文字を表示することにより、難聴者の発声訓練に利用することができる。
また、図形及び文字を表示装置の画面上へ複数段に渡って表示することにより、より多くの図形及び文字を表示装置の画面上へ表示することができる。
また、例えば、外出時の歩行中に、音声入力装置及び携帯用コンピュータを衣服などに搭載し、ヘッドマウントディスプレイを頭部に装着して、音声可視化方法を実施すれば、自動車音や交通信号音などの環境音が入力され、それに対応した図形が表示されるので、音声だけでなく、環境音も認識でき、安全な歩行が可能となる。これ以外にも、日常生活の様々な音を認識することができるので、難聴者の生活を補助することが可能となる。
本発明の実施形態に係る音声可視化方法Aは、例えば、図1に示すような、モニタ(表示装置)1、キーボード(入力装置)2、マウス(入力装置)3、を備えたパソコン(コンピュータ)5と、音声入力装置としてのマイクロフォン4、を用いてなされる方法である。
入力音声24を適度なサンプリング周波数でサンプリングする。本実施形態では、22050Hzでサンプリングする。また、本実施形態では、有声音における声門の特性、すなわち、高周域における減衰を考慮し、1次の微分フィルタを適用する。
本実施形態では、計算時間と分解能を考慮して入力音声24に時系列モデルである自己回帰モデル(以下、ARモデルという)を適合してスペクトル推定を行い、音声特徴データ25を生成する。ある時間の音声信号をx[n]とすると、
また、係数aiの推定にはBurg法、及び、MCE法(Minimum Cross Entropy法)を適用したBurg法(以下、MCE−Burg法という)を切り換えて用いる。Burg法は、期待値が零の定常ガウス過程に対して、ARモデルのパラメータを求める手法であり、具体的には、前向き予測誤差及び後ろ向き予測誤差の2乗和を最小にするように反射係数を決定し、次数mが増加する方向に漸化的に係数aiを求める手法である。MCE−Burg法は、Burg法によりARモデルパラメータを求める際に、MCE原理のもとで先見情報を利用する手法である。先見情報は隣接フレームにおける1フレーム前のARモデルパラメータを利用する。本実施形態では、隣接フレーム間のARパラメータの近さをカルバック情報量の相違測度により計算し、相違が少ない場合MCE−Burg法を適用し、相違が大きい場合はBurg法を適用する。また、求めた係数aiを音声認識に関する情報として利用する。
いま、隣接する2つのフレーム(第s−1、sフレームとする)についてのARモデルを考える。このとき各フレームにおける音声信号を{xs-1[n]}、{xs[n]}(n=0,・・・,N−1)と表す。表記の簡便化のためにベクトル形式x s-1[n]、x s[n]を用いて各フレームの音声信号を表したとき、それぞれの結合確率密度関数をfs-1(xs-1[n])、fs(xs[n])とし、各々正規分布に従うとする。
このときのカルバック情報量は以下の数2で表される。
ある時間の音声信号x[n]の周波数対スペクトル強度Sx(f)は以下の数5で与えられる。
上記の演算を行うことにより、各フレームの周波数対スペクトル強度を算出する。
人間の発声音は声帯振動を音源とする有声音と、声道の狭窄により発生する乱流を音源とする無声音に分けることができ、有声音の周期はピッチ周期(ピッチ周波数の逆数)にあたり、また、ピッチ周期は、上記の予測誤差e[n]の周期と強い相関を持ち、更に、その相関関数Rkも同じ周期を持つ。この性質を利用して、ピッチ周波数を算出する。
ここで、N=512(フレームに含まれるサンプリングデータ)、cは適切な定数(c≧0)であり、本実施形態ではc=2とする。
上記の演算を行うことにより、各フレームのピッチ周波数を算出する。
本実施形態では、各フレームの周波数対スペクトル強度を色の明度に、ピッチ周波数を色の色相に、予測誤差分散を色の彩度に対応づけて、色情報データ26を生成する。また、各フレームの周波数対スペクトル強度を色の色相に、ピッチ周波数を色の明度に、予測誤差分散を色の彩度に対応づけるなどして、色情報データ26を生成してもよい。
色情報データ26は、各フレームの周波数対色相、明度及び彩度を表すデータであるので、縦軸に周波数、横軸に時間(フレーム)をとった平面上に色情報データ26に基づいた色を出力して図形を生成するように、図形データ27を生成する。また、図形データ27は、時間的変化に応じて、横軸がモニタ1の画面32上を移動する(例えば、右方から左方に移動する。)ように生成する。
音声認識に関する情報として利用されるARモデルの係数aiは、隠れマルコフモデル(HMM:Hidden Markov Model)法に基づき、予め学習された音響モデル及び言語モデルを参照し、入力音声24が、いずれの文章を発した音声に類似しているかの尤度計算を行い、最も類似した文章を、音声認識結果として、言語情報データ28を生成する。また、音声認識に関する情報として、LPCケプストラム係数、LPCメルケプストラム係数、FFTケプストラム係数等を用いてもよい。ここで、尤度が小さい場合、その箇所の文章をクエスチョンマーク「?」、ハイフン「−」、アスタリスク「*」、ドット「・」等で表示する。言語情報データ28に基づき、文字31をモニタ1の画面32上に出力する、文字画像データ29を生成する。
プログラムBを実行させると、例えば、図4に示すように、画面32の下方に図形表示領域33、上方に文字表示領域34、画面32の左上には、ボタン類を表示するボタン表示領域35が表示される。ボタン類には、スタートボタン36、ストップボタン37、巻き戻しボタン38が含まれている。図形表示領域33において、横方向は時間を表し、縦方向は周波数を表しており、文字表示領域34においては、横方向は図形表示領域33と同様、時間を表している。
スタートボタン36をマウス3などの操作によりクリックし、図1に示すように、マイクロフォン4に向かって、話者23が音声を発すると、図形及び文字表示領域33、34に図形30及び文字31が、表示される。表示された図形30と文字31は、時間経過と共に、各々の表示領域33、34の右方から左方にスクロールされる。ストップボタン37を押すと、図形30と文字31のスクロールは終了し、ストップボタン37押圧時の状態を表示する。文字31において、クエスチョンマーク「?」となっている箇所は、言語情報データ28生成時に、尤度が小さかったために、クエスチョンマーク「?」を表示している箇所である。
また、巻き戻しボタン38を押すと、左方にスクロールされ図形及び文字表示領域33、34上に表示され終わった図形30及び文字31が左方から右方にスクロールされ、表示領域33、34上に表示される。
図形30と文字31は、下段39の右方から表示され始め、左方にスクロールされていき、下段39で表示する領域がなくなると、上段40へ移動し、同様に、右方から左方へスクロールされる。画面32を3段以上に分割して、図形30と文字31を表示する場合も、2段に分割した場合と同様に表示すればよい。
各話者23の発している音声は以下の数9で与えられるとする。
話者23の唇を第三者がビデオカメラで撮影したり、固定されたビデオカメラに話者23の唇が撮影されるようにするなどして、話者23の唇の動き42を撮影し、撮影された唇の動き42を画面32の唇表示領域41にオンラインで表示するようにすればよい。
携帯用コンピュータ45は持ち運びに便利なので、利用者46は訪問先や屋外などの様々な場所で音声可視化方法Aを実施できる。また、図9に示すように、集音マイク48及び携帯用コンピュータ45を衣服などに搭載し、ヘッドマウントディスプレイ44を装着して、歩行中に音声可視化方法Aを実施すれば、集音マイク48から自動車音や交通信号音などの環境音が入力され、それに対応した図形30が表示されるので、音声だけでなく、環境音も認識でき、安全な歩行が可能となる。更に、日常生活の様々な音を認識することができるので、難聴者の生活を補助することが可能となる。
25 音声特徴データ
26 色情報データ
27 図形データ
28 言語情報データ
29 文字画像データ
30 図形
31 文字
A 音声可視化方法
Claims (7)
- 音声を視覚的に理解できるように表現する音声可視化方法において、
音声入力装置より入力された音声の周波数対スペクトル強度と、該入力音声の高低、大小及び音声認識に関する情報と、を少なくとも含む音声特徴データを生成する段階と、
前記入力音声の周波数対スペクトル強度と、前記入力音声の高低及び大小に関する情報と、に基づき、色の色相、明度及び彩度を決定し、入力音声の周波数対色相、明度及び彩度を表す色情報データを生成する段階と、
時間及び周波数を表す軸を備えた平面上に、前記色情報データに基づいた色を時間的変化に応じて出力する、入力音声に対する図形データを生成する段階と、
前記入力音声の音声認識に関する情報に基づき、入力音声に対する言語情報データを生成する段階と、
前記言語情報データに基づき、入力音声に対する文字画像データを生成する段階と、を具備し、
前記図形データ及び文字画像データに基づき、表示装置の同一画面上に入力音声に対する図形及び文字を表示することを特徴とする音声可視化方法。 - 前記図形及び文字を、前記表示装置の同一画面上に単数段、又は、複数段に渡って表示することを特徴とする請求項1記載の音声可視化方法。
- 入力音声を発している話者の人数と同数に前記表示装置の画面を分割し、各話者毎に前記図形及び文字を表示することを特徴とする請求項1記載の音声可視化方法。
- 入力音声を発している話者の唇の動きを、前記図形及び文字と共に、前記表示装置の同一画面上に表示することを特徴とする請求項1乃至3記載の何れかの音声可視化方法。
- 請求項1乃至3記載の何れかの音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置がヘッドマウントディスプレイであることを特徴とする音声可視化方法。
- 請求項4記載の音声可視化方法を実行させるためのプログラムを携帯用コンピュータにインストールし、且つ、前記表示装置が小型カメラを搭載したヘッドマウントディスプレイであることを特徴とする音声可視化方法。
- 請求項1乃至4記載の何れかの音声可視化方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004015672A JP4411590B2 (ja) | 2004-01-23 | 2004-01-23 | 音声可視化方法及び該方法を記憶させた記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004015672A JP4411590B2 (ja) | 2004-01-23 | 2004-01-23 | 音声可視化方法及び該方法を記憶させた記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005209000A JP2005209000A (ja) | 2005-08-04 |
JP4411590B2 true JP4411590B2 (ja) | 2010-02-10 |
Family
ID=34901077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004015672A Expired - Fee Related JP4411590B2 (ja) | 2004-01-23 | 2004-01-23 | 音声可視化方法及び該方法を記憶させた記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4411590B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869512B2 (en) | 2019-04-02 | 2024-01-09 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5105943B2 (ja) * | 2007-04-13 | 2012-12-26 | 日本放送協会 | 発話評価装置及び発話評価プログラム |
JP6148163B2 (ja) * | 2013-11-29 | 2017-06-14 | 本田技研工業株式会社 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
KR20160011490A (ko) * | 2014-07-22 | 2016-02-01 | 한화테크윈 주식회사 | 멀티 채널 오디오 데이터의 시각화 장치 및 방법 |
US10978033B2 (en) * | 2016-02-05 | 2021-04-13 | New Resonance, Llc | Mapping characteristics of music into a visual display |
CN113380088A (zh) * | 2021-04-07 | 2021-09-10 | 上海中船船舶设计技术国家工程研究中心有限公司 | 一种交互式模拟培训保障系统 |
JP7216851B1 (ja) | 2022-02-21 | 2023-02-01 | 真吾 澤田 | 聴覚支援ウエラブルデバイス、及びプログラム |
-
2004
- 2004-01-23 JP JP2004015672A patent/JP4411590B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869512B2 (en) | 2019-04-02 | 2024-01-09 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
Also Published As
Publication number | Publication date |
---|---|
JP2005209000A (ja) | 2005-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4355772B2 (ja) | 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム | |
Hansen et al. | Speech under stress: Analysis, modeling and recognition | |
US7680666B2 (en) | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product | |
KR20150024180A (ko) | 발음 교정 장치 및 방법 | |
JP2008139762A (ja) | プレゼンテーション支援装置および方法並びにプログラム | |
EP3373301A1 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
JP2010256391A (ja) | 音声情報処理装置 | |
JPS63157184A (ja) | 発音訓練装置 | |
JP2021043258A (ja) | 制御システム、及び制御方法 | |
JP4411590B2 (ja) | 音声可視化方法及び該方法を記憶させた記録媒体 | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
KR20150024295A (ko) | 발음 교정 장치 | |
Kabashima et al. | Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings | |
EP4379716A1 (en) | System and method of modulating animation curves | |
CN104376850B (zh) | 一种汉语耳语音的基频估计方法 | |
JP4883750B2 (ja) | 音響評定装置、およびプログラム | |
Athanasopoulos et al. | 3D immersive karaoke for the learning of foreign language pronunciation | |
Yin | Training & evaluation system of intelligent oral phonics based on speech recognition technology | |
CN115831153A (zh) | 发音质量测试方法 | |
Ravindran et al. | Cepstral and linear prediction techniques for improving intelligibility and audibility of impaired speech | |
Grigorev et al. | An Electroglottographic Method for Assessing the Emotional State of the Speaker | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
Rajavel et al. | Optimum integration weight for decision fusion audio–visual speech recognition | |
Burnham et al. | Visual correlates of Thai lexical tone production: Motion of the head, eyebrows, and larynx? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091105 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4411590 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151127 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |