JPH11109988A - 音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体 - Google Patents
音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体Info
- Publication number
- JPH11109988A JPH11109988A JP9271690A JP27169097A JPH11109988A JP H11109988 A JPH11109988 A JP H11109988A JP 9271690 A JP9271690 A JP 9271690A JP 27169097 A JP27169097 A JP 27169097A JP H11109988 A JPH11109988 A JP H11109988A
- Authority
- JP
- Japan
- Prior art keywords
- information
- sound information
- sound
- input
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 音情報一般を文字情報として表現することが
可能な音情報可視化方法及び装置及び音情報可視化プロ
グラムを格納した記憶媒体を提供する。 【解決手段】 本発明は、参照用音情報の特徴量と文字
情報を対応付けた符号帳を蓄積しておき、音情報また
は、音情報を伴う映像情報を入力し、符号帳の参照用音
情報の特徴量と入力された音情報の特徴量との距離を算
出し、符号帳を参照して、入力された音情報を、算出さ
れた距離が最も近い文字情報に変換し、変換された文字
情報を表示する。
可能な音情報可視化方法及び装置及び音情報可視化プロ
グラムを格納した記憶媒体を提供する。 【解決手段】 本発明は、参照用音情報の特徴量と文字
情報を対応付けた符号帳を蓄積しておき、音情報また
は、音情報を伴う映像情報を入力し、符号帳の参照用音
情報の特徴量と入力された音情報の特徴量との距離を算
出し、符号帳を参照して、入力された音情報を、算出さ
れた距離が最も近い文字情報に変換し、変換された文字
情報を表示する。
Description
【0001】
【発明の属する技術分野】本発明は、音情報可視化方法
及び装置及び音情報可視化プログラムを格納した記憶媒
体に係り、特に、音情報を視覚的に表現することで、音
情報の一覧性の向上を計るための音情報可視化方法及び
装置及び音情報可視化プログラムを格納した記憶媒体に
関する。
及び装置及び音情報可視化プログラムを格納した記憶媒
体に係り、特に、音情報を視覚的に表現することで、音
情報の一覧性の向上を計るための音情報可視化方法及び
装置及び音情報可視化プログラムを格納した記憶媒体に
関する。
【0002】
【従来の技術】音情報の内容を視覚的に理解する方法と
しては、目的に応じた表現方法が幾つかある。例えば、
喋り言葉を理解する場合には、文字による表現がなさ
れ、音楽情報を理解する場合には、楽譜あるいは音符に
よる表現がなされる。このような表現を自動的に行う技
術あるいは仕組みとして、音声認識や自動採譜システム
がある。
しては、目的に応じた表現方法が幾つかある。例えば、
喋り言葉を理解する場合には、文字による表現がなさ
れ、音楽情報を理解する場合には、楽譜あるいは音符に
よる表現がなされる。このような表現を自動的に行う技
術あるいは仕組みとして、音声認識や自動採譜システム
がある。
【0003】音情報の物理量を視覚的に表現するものと
しては、最も一般的な波形や、音情報を周波数解析し
て、その時間的な変化を表現したサウンドスペクトログ
ラム等がある。
しては、最も一般的な波形や、音情報を周波数解析し
て、その時間的な変化を表現したサウンドスペクトログ
ラム等がある。
【0004】
【発明が解決しようとする課題】しかしながら、音情報
は本来、聴覚的に得るものであるため、視覚的に一覧す
ることが困難である。例えば、多数の音情報の中から所
望のデータを探し出すには、ファイル名を手掛かりとす
るか、再生してどんな音かを確認する以外に有効な方法
はない。
は本来、聴覚的に得るものであるため、視覚的に一覧す
ることが困難である。例えば、多数の音情報の中から所
望のデータを探し出すには、ファイル名を手掛かりとす
るか、再生してどんな音かを確認する以外に有効な方法
はない。
【0005】また、音の内容が的確に表現されるように
ファイル名を人手で決定することは多大な労力を要する
ものである。このように音情報は、非常に扱い難いもの
となっているため、その有効な可視化方法が必要であ
る。波形やサウンドスペクトログラムは、音情報の振幅
や周波数分布などの特徴を表現するものに適している
が、音情報の内容を理解することは難しい。一方、文字
や楽譜で表現された音情報については、学習過程を経て
内容を理解することが可能であるが、楽譜に至っては特
別な学習が必要なため、一般的でない。このような理由
から音情報の内容を視覚的に表現するには文字を用いる
ことが簡便である。
ファイル名を人手で決定することは多大な労力を要する
ものである。このように音情報は、非常に扱い難いもの
となっているため、その有効な可視化方法が必要であ
る。波形やサウンドスペクトログラムは、音情報の振幅
や周波数分布などの特徴を表現するものに適している
が、音情報の内容を理解することは難しい。一方、文字
や楽譜で表現された音情報については、学習過程を経て
内容を理解することが可能であるが、楽譜に至っては特
別な学習が必要なため、一般的でない。このような理由
から音情報の内容を視覚的に表現するには文字を用いる
ことが簡便である。
【0006】音声認識を用いる方法は、喋り言葉に特化
したものであり、認識精度を高めるために予め辞書に登
録された単語以外の結果はもたらさないため、対象を音
情報一般に拡張した方法が必要である。本発明は、上記
の点に鑑みなされたもので、音情報一般を文字情報とし
て表現することが可能な音情報可視化方法及び装置及び
音情報可視化プログラムを格納した記憶媒体を提供する
ことを目的とする。
したものであり、認識精度を高めるために予め辞書に登
録された単語以外の結果はもたらさないため、対象を音
情報一般に拡張した方法が必要である。本発明は、上記
の点に鑑みなされたもので、音情報一般を文字情報とし
て表現することが可能な音情報可視化方法及び装置及び
音情報可視化プログラムを格納した記憶媒体を提供する
ことを目的とする。
【0007】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明は、入力された音情報
を該音情報の特徴量に基づいて文字情報に変換する音情
報可視化方法において、参照用音情報の特徴量と文字情
報を対応付けた符号帳を蓄積しておき(ステップ1)、
音情報または、音情報を伴う映像情報を入力し(ステッ
プ2)、符号帳の参照用音情報の特徴量と入力された音
情報の特徴量との距離を算出し(ステップ3)、符号帳
を参照して、入力された音情報を、算出された距離が最
も近い文字情報に変換し(ステップ4)、変換された文
字情報を表示する(ステップ5)。
説明するための図である。本発明は、入力された音情報
を該音情報の特徴量に基づいて文字情報に変換する音情
報可視化方法において、参照用音情報の特徴量と文字情
報を対応付けた符号帳を蓄積しておき(ステップ1)、
音情報または、音情報を伴う映像情報を入力し(ステッ
プ2)、符号帳の参照用音情報の特徴量と入力された音
情報の特徴量との距離を算出し(ステップ3)、符号帳
を参照して、入力された音情報を、算出された距離が最
も近い文字情報に変換し(ステップ4)、変換された文
字情報を表示する(ステップ5)。
【0008】また、本発明は、文字情報に対応する参照
用音情報を入力し、該参照用音情報の特徴量から符号帳
を作成する。また、本発明は、参照用音情報及び文字情
報に、アルファベット、日本語の音節、または、該アル
ファベットと該日本語の音節の組み合わせを用いる。ま
た、本発明は、音情報及び参照用音情報の特徴量とし
て、正規化されたパワースペクトルの値、または、スペ
クトル包絡を表すケプストラム係数を用いる。
用音情報を入力し、該参照用音情報の特徴量から符号帳
を作成する。また、本発明は、参照用音情報及び文字情
報に、アルファベット、日本語の音節、または、該アル
ファベットと該日本語の音節の組み合わせを用いる。ま
た、本発明は、音情報及び参照用音情報の特徴量とし
て、正規化されたパワースペクトルの値、または、スペ
クトル包絡を表すケプストラム係数を用いる。
【0009】また、本発明は、文字情報を表示する際
に、入力された音情報の音圧、高さ、長さのうち少なく
ともいずれか一つの性質に応じて文字情報の大きさ、形
状、数、位置のうち少なくともいずれか一つを変化させ
て表示する。また、本発明は、文字情報を表示する際
に、音情報を伴う映像情報が入力された場合には、該音
情報に対応する静止画像を文字情報と共に表示する。
に、入力された音情報の音圧、高さ、長さのうち少なく
ともいずれか一つの性質に応じて文字情報の大きさ、形
状、数、位置のうち少なくともいずれか一つを変化させ
て表示する。また、本発明は、文字情報を表示する際
に、音情報を伴う映像情報が入力された場合には、該音
情報に対応する静止画像を文字情報と共に表示する。
【0010】また、本発明は、入力された音情報また
は、音情報を伴う映像情報がアナログの場合には、A/
D変換する。また、本発明は、入力された音情報また
は、音情報を伴う映像情報を蓄積する。図2は、本発明
の原理構成図である。
は、音情報を伴う映像情報がアナログの場合には、A/
D変換する。また、本発明は、入力された音情報また
は、音情報を伴う映像情報を蓄積する。図2は、本発明
の原理構成図である。
【0011】本発明は、入力された音情報を該音情報の
特徴量に基づいて文字情報に変換する音情報可視化装置
であって、音情報または、音情報を伴う映像情報を入力
する音・映像入力手段101と、参照用音情報の特徴量
と文字情報を対応付けた符号帳を蓄積する蓄積手段10
3と、入力された音情報の特徴量との距離を算出する特
徴量算出手段104と、蓄積手段103に蓄積されてい
る符号帳を参照して、入力された音情報を、算出された
距離が最も近い文字情報に変換する情報変換手段105
と、変換された文字情報を表示する表示手段106とを
有する。
特徴量に基づいて文字情報に変換する音情報可視化装置
であって、音情報または、音情報を伴う映像情報を入力
する音・映像入力手段101と、参照用音情報の特徴量
と文字情報を対応付けた符号帳を蓄積する蓄積手段10
3と、入力された音情報の特徴量との距離を算出する特
徴量算出手段104と、蓄積手段103に蓄積されてい
る符号帳を参照して、入力された音情報を、算出された
距離が最も近い文字情報に変換する情報変換手段105
と、変換された文字情報を表示する表示手段106とを
有する。
【0012】また、本発明は、文字情報に対応する参照
用音情報を入力し、該参照用音情報の特徴量から符号帳
を作成する符号帳作成手段102を更に有する。また、
上記の符号帳作成手段は、参照用音情報及び文字情報
に、アルファベット、日本語の音節、または、該アルフ
ァベットと該日本語の音節の組み合わせを用いる。
用音情報を入力し、該参照用音情報の特徴量から符号帳
を作成する符号帳作成手段102を更に有する。また、
上記の符号帳作成手段は、参照用音情報及び文字情報
に、アルファベット、日本語の音節、または、該アルフ
ァベットと該日本語の音節の組み合わせを用いる。
【0013】また、上記の特徴量算出手段104は、音
情報及び参照用音情報の特徴量として、正規化されたパ
ワースペクトルの値、または、スペクトル包絡を表すケ
プストラム係数を用いる。また、上記の表示手段106
は、入力された音情報の音圧、高さ、長さのうち少なく
ともいずれか一つの性質に応じて文字情報の大きさ、形
状、数、位置のうち少なくともいずれか一つを変化させ
て表示する手段を含む。
情報及び参照用音情報の特徴量として、正規化されたパ
ワースペクトルの値、または、スペクトル包絡を表すケ
プストラム係数を用いる。また、上記の表示手段106
は、入力された音情報の音圧、高さ、長さのうち少なく
ともいずれか一つの性質に応じて文字情報の大きさ、形
状、数、位置のうち少なくともいずれか一つを変化させ
て表示する手段を含む。
【0014】また、上記の表示手段106は、音情報を
伴う映像情報が入力された場合には、該音情報に対応す
る静止画像を文字情報と共に表示する。また、上記の音
・映像入力手段101は、入力された音情報または、音
情報を伴う映像情報がアナログの場合には、A/D変換
するA/D変換手段を含む。また、上記の蓄積手段10
3は、入力された音情報または、音情報を伴う映像情報
を蓄積する手段を含む。
伴う映像情報が入力された場合には、該音情報に対応す
る静止画像を文字情報と共に表示する。また、上記の音
・映像入力手段101は、入力された音情報または、音
情報を伴う映像情報がアナログの場合には、A/D変換
するA/D変換手段を含む。また、上記の蓄積手段10
3は、入力された音情報または、音情報を伴う映像情報
を蓄積する手段を含む。
【0015】本発明は、入力された音情報を該音情報の
特徴量に基づいて文字情報に変換する音情報可視化プロ
グラムを格納した記憶媒体であって、音情報または、音
情報を伴う映像情報を入力させる音・映像入力プロセス
と、入力された音情報の特徴量との距離を算出する特徴
量算出プロセスと、予め蓄積されている参照用音情報の
特徴量と文字情報を対応付けた符号帳を参照して、入力
された音情報を、算出された距離が最も近い文字情報に
変換する情報変換プロセスと、変換された文字情報を表
示する表示プロセスとを有する。
特徴量に基づいて文字情報に変換する音情報可視化プロ
グラムを格納した記憶媒体であって、音情報または、音
情報を伴う映像情報を入力させる音・映像入力プロセス
と、入力された音情報の特徴量との距離を算出する特徴
量算出プロセスと、予め蓄積されている参照用音情報の
特徴量と文字情報を対応付けた符号帳を参照して、入力
された音情報を、算出された距離が最も近い文字情報に
変換する情報変換プロセスと、変換された文字情報を表
示する表示プロセスとを有する。
【0016】また、本発明は、文字情報に対応する参照
用音情報を入力させ、該参照用音情報の特徴量から符号
帳を作成する符号帳作成プロセスを更に有する。また、
上記の符号帳作成プロセスは、参照用音情報及び文字情
報に、アルファベット、日本語の音節、または、該アル
ファベットと該日本語の音節の組み合わせを用いる。
用音情報を入力させ、該参照用音情報の特徴量から符号
帳を作成する符号帳作成プロセスを更に有する。また、
上記の符号帳作成プロセスは、参照用音情報及び文字情
報に、アルファベット、日本語の音節、または、該アル
ファベットと該日本語の音節の組み合わせを用いる。
【0017】また、上記の特徴量算出プロセスは、音情
報及び参照用音情報の特徴量として、正規化されたパワ
ースペクトルの値、または、スペクトル包絡を表すケプ
ストラム係数を用いる。また、上記の表示プロセスは、
入力された音情報の音圧、高さ、長さのうち少なくとも
いずれか一つの性質に応じて文字情報の大きさ、形状、
数、位置のうち少なくともいずれか一つを変化させて表
示させるプロセスを含む。
報及び参照用音情報の特徴量として、正規化されたパワ
ースペクトルの値、または、スペクトル包絡を表すケプ
ストラム係数を用いる。また、上記の表示プロセスは、
入力された音情報の音圧、高さ、長さのうち少なくとも
いずれか一つの性質に応じて文字情報の大きさ、形状、
数、位置のうち少なくともいずれか一つを変化させて表
示させるプロセスを含む。
【0018】また、上記の表示プロセスは、音情報を伴
う映像情報が入力された場合には、該音情報に対応する
静止画像を文字情報と共に表示させる。また、上記の音
・映像入力プロセスは、入力された音情報または、音情
報を伴う映像情報がアナログの場合には、A/D変換す
るA/D変換プロセスを含む。上記のように、本発明で
は、参照用音情報及び文字情報に、アルファベット及び
/または、日本語の音節を用い、正規化されたパワース
ペクトルの値、または、スペクトル包絡を表すケプスト
ラム係数を特徴量として用い、音情報あるいは、音情報
を伴う映像情報を、アナログの場合には、A/D変換
し、そうでない場合にはそのまま入力し、入力された音
情報あるいは音情報を伴う映像情報、及び参照用音情報
の特徴量と文字情報を対応付けた符号帳を蓄積し、入力
された音情報の特徴量と参照用音情報の特徴量との距離
を算出し、符号帳を参照して、入力された音情報を算出
された距離が最も近い文字情報に変換し、入力された音
情報の音圧、高さ、長さのうち少なくともいずれか一つ
の性質に応じて文字情報の大きさ、形状、数、位置のう
ち少なくともいずれか一つを変化させて表示し、入力が
音情報を伴う映像情報の場合には、音情報に対応する静
止画像を文字情報と共に表示することで、音情報を文字
情報として表現することが可能となる。
う映像情報が入力された場合には、該音情報に対応する
静止画像を文字情報と共に表示させる。また、上記の音
・映像入力プロセスは、入力された音情報または、音情
報を伴う映像情報がアナログの場合には、A/D変換す
るA/D変換プロセスを含む。上記のように、本発明で
は、参照用音情報及び文字情報に、アルファベット及び
/または、日本語の音節を用い、正規化されたパワース
ペクトルの値、または、スペクトル包絡を表すケプスト
ラム係数を特徴量として用い、音情報あるいは、音情報
を伴う映像情報を、アナログの場合には、A/D変換
し、そうでない場合にはそのまま入力し、入力された音
情報あるいは音情報を伴う映像情報、及び参照用音情報
の特徴量と文字情報を対応付けた符号帳を蓄積し、入力
された音情報の特徴量と参照用音情報の特徴量との距離
を算出し、符号帳を参照して、入力された音情報を算出
された距離が最も近い文字情報に変換し、入力された音
情報の音圧、高さ、長さのうち少なくともいずれか一つ
の性質に応じて文字情報の大きさ、形状、数、位置のう
ち少なくともいずれか一つを変化させて表示し、入力が
音情報を伴う映像情報の場合には、音情報に対応する静
止画像を文字情報と共に表示することで、音情報を文字
情報として表現することが可能となる。
【0019】また、文字情報に対応する参照用音情報を
入力し、その特徴量から符号帳を作成することにより、
音情報と文字情報の対応付けが可能となる。
入力し、その特徴量から符号帳を作成することにより、
音情報と文字情報の対応付けが可能となる。
【0020】
【発明の実施の形態】図3は、本発明の音情報可視化装
置の構成を示す。音情報可視化装置は、音情報あるい
は、音情報を伴う映像情報を入力する音・映像入力部1
01、文字情報に対応する参照用音情報を入力し、その
特徴量から符号帳を作成する符号帳作成部102、入力
された音情報あるいは音情報を伴う映像情報及び符号帳
を蓄積する情報蓄積部103と、入力された音情報の特
徴量と参照用音情報の特徴量との距離を算出する特徴距
離算出部104と、符号帳を参照して、入力された音情
報を算出された距離が最も近い文字情報に変換する情報
変換部105、入力された音情報の性質に応じて文字情
報の大きさ、形状、文字数を変化させて表示し、入力が
音情報を伴う映像情報の場合には、音情報に対応する静
止画像に対応する静止画像を文字情報と共に表示する表
示部106から構成されている。
置の構成を示す。音情報可視化装置は、音情報あるい
は、音情報を伴う映像情報を入力する音・映像入力部1
01、文字情報に対応する参照用音情報を入力し、その
特徴量から符号帳を作成する符号帳作成部102、入力
された音情報あるいは音情報を伴う映像情報及び符号帳
を蓄積する情報蓄積部103と、入力された音情報の特
徴量と参照用音情報の特徴量との距離を算出する特徴距
離算出部104と、符号帳を参照して、入力された音情
報を算出された距離が最も近い文字情報に変換する情報
変換部105、入力された音情報の性質に応じて文字情
報の大きさ、形状、文字数を変化させて表示し、入力が
音情報を伴う映像情報の場合には、音情報に対応する静
止画像に対応する静止画像を文字情報と共に表示する表
示部106から構成されている。
【0021】図4は、本発明の音情報可視化装置の動作
を示すフローチャートである。なお、以下に示すフロー
チャートは当該音情報可視化装置をソフトウェアで実現
した場合にも同じ流れとなる。 ステップ101) 音・映像入力部101から入力され
た音情報あるいは、音情報を伴う映像がアナログである
かを判定し、ディジタルの場合にはステップ103に移
行する。アナログの場合にはステップ102に移行す
る。
を示すフローチャートである。なお、以下に示すフロー
チャートは当該音情報可視化装置をソフトウェアで実現
した場合にも同じ流れとなる。 ステップ101) 音・映像入力部101から入力され
た音情報あるいは、音情報を伴う映像がアナログである
かを判定し、ディジタルの場合にはステップ103に移
行する。アナログの場合にはステップ102に移行す
る。
【0022】ステップ102) 音情報及び音情報を伴
う映像がアナログの場合にはディジタルに変換する。 ステップ103) 入力された音情報及び音情報を伴う
映像を情報蓄積部103に蓄積する。 ステップ104) 特徴距離算出部104は、情報蓄積
部103から音情報の特徴量を読み出して、当該情報の
特徴量を計算する。算出された特徴量は、n次元のベク
トルとして表す。
う映像がアナログの場合にはディジタルに変換する。 ステップ103) 入力された音情報及び音情報を伴う
映像を情報蓄積部103に蓄積する。 ステップ104) 特徴距離算出部104は、情報蓄積
部103から音情報の特徴量を読み出して、当該情報の
特徴量を計算する。算出された特徴量は、n次元のベク
トルとして表す。
【0023】ステップ105) 次に、入力された音情
報の特徴ベクトルと、符号帳作成部102で作成された
符号帳の各々の文字に対応する特徴ベクトルとの距離を
算出する。 ステップ106) 情報変換部105は、最も距離の短
いベクトルに対応する文字を抽出する。
報の特徴ベクトルと、符号帳作成部102で作成された
符号帳の各々の文字に対応する特徴ベクトルとの距離を
算出する。 ステップ106) 情報変換部105は、最も距離の短
いベクトルに対応する文字を抽出する。
【0024】ステップ107) 表示部106に抽出さ
れた文字を表示する。
れた文字を表示する。
【0025】
【実施例】以下、図面と共に本発明の実施例を説明す
る。以下の実施例を前述の図3及び図4に基づいて説明
する。図4におけるステップ104において、情報蓄積
部103に蓄積されている入力された音情報及び音情報
を含む映像の特徴量を算出する。このとき、特徴量の計
算方法としては以下のようなものがある。
る。以下の実施例を前述の図3及び図4に基づいて説明
する。図4におけるステップ104において、情報蓄積
部103に蓄積されている入力された音情報及び音情報
を含む映像の特徴量を算出する。このとき、特徴量の計
算方法としては以下のようなものがある。
【0026】特徴量にパワースペクトルを用いる場合に
は、高速フーリエ変換、スペクトル包絡を用いる場合に
はフーリエ変換された値の対数を取り、それをさらに逆
フーリエ変換したFFTケプストラム係数を用いる。ま
た、線型予測法を用いたLPCケプストラム係数を用い
ることも可能である。次に、求められた特徴量の距離を
算出する例を説明する。
は、高速フーリエ変換、スペクトル包絡を用いる場合に
はフーリエ変換された値の対数を取り、それをさらに逆
フーリエ変換したFFTケプストラム係数を用いる。ま
た、線型予測法を用いたLPCケプストラム係数を用い
ることも可能である。次に、求められた特徴量の距離を
算出する例を説明する。
【0027】図5は、本発明の一実施例の作成された符
号帳の例である。同図に示す列301は、出力される文
字の種類を示し、列302は各々の文字を発生したとき
の特徴量の第1番目の成分、列303は第n番目の成分
を示している。n個の成分は、例えば、ケプストラム係
数を特徴量として用いた場合、n次の係数に対応する。
よって、各々の文字が発生された際の特徴量は、n次元
ベクトルで表すことができる。各々の文字を発生した場
合の特徴量は、個人差があるので、多数の母集団につい
て特徴量を測定し、それらの平均的な値を用いる。ま
た、特徴量は、入力された音情報と同じものを用いる。
号帳の例である。同図に示す列301は、出力される文
字の種類を示し、列302は各々の文字を発生したとき
の特徴量の第1番目の成分、列303は第n番目の成分
を示している。n個の成分は、例えば、ケプストラム係
数を特徴量として用いた場合、n次の係数に対応する。
よって、各々の文字が発生された際の特徴量は、n次元
ベクトルで表すことができる。各々の文字を発生した場
合の特徴量は、個人差があるので、多数の母集団につい
て特徴量を測定し、それらの平均的な値を用いる。ま
た、特徴量は、入力された音情報と同じものを用いる。
【0028】このようにして求められた特徴量につい
て、符号帳と特徴ベクトルの距離を算出し、最も距離の
近いベクトルに対応する文字を表示する。さらに、当該
特徴量から符号帳を作成していくことも可能であり、最
も距離の近いベクトルに対応する文字に対応する音情報
を対応付けることができる。以下に、本発明の実施例を
具体的な例を用いて説明する。
て、符号帳と特徴ベクトルの距離を算出し、最も距離の
近いベクトルに対応する文字を表示する。さらに、当該
特徴量から符号帳を作成していくことも可能であり、最
も距離の近いベクトルに対応する文字に対応する音情報
を対応付けることができる。以下に、本発明の実施例を
具体的な例を用いて説明する。
【0029】図6は、本発明の一実施例の一連の具体的
な動作を説明するための図である。まず、入力される音
情報は、通常同図(A)のaの波形に示されるような連
続した信号であるので、スペクトルの算出は、適当な時
間幅tを決め、その平均的な値を用いる。同図(B)の
bは、時間の経過に伴って得られるスペクトルの例を示
しており、同図(C)のcは、各々の特徴ベクトルを示
す。符号帳との距離を算出することにより、例えば、爆
発音のような音が入力された場合には、「どかん」とい
ったような文字が選出される。
な動作を説明するための図である。まず、入力される音
情報は、通常同図(A)のaの波形に示されるような連
続した信号であるので、スペクトルの算出は、適当な時
間幅tを決め、その平均的な値を用いる。同図(B)の
bは、時間の経過に伴って得られるスペクトルの例を示
しており、同図(C)のcは、各々の特徴ベクトルを示
す。符号帳との距離を算出することにより、例えば、爆
発音のような音が入力された場合には、「どかん」とい
ったような文字が選出される。
【0030】さらに、表示部106では、同図(D)の
eような各時間tにおける音圧レベルの違いを表す文字
の大きさに反映させる。また、波形の自己相関から得ら
れた音情報の基本周波数の高さの違いを文字の太さなど
の形状に反映させることも可能である。音情報が長い場
合には、隣接する時間幅t同士の間隔を広くすることに
よって、文字数を少なくすることも可能である。
eような各時間tにおける音圧レベルの違いを表す文字
の大きさに反映させる。また、波形の自己相関から得ら
れた音情報の基本周波数の高さの違いを文字の太さなど
の形状に反映させることも可能である。音情報が長い場
合には、隣接する時間幅t同士の間隔を広くすることに
よって、文字数を少なくすることも可能である。
【0031】次に、入力が音情報を伴う映像情報の場合
に、表示部106において音情報に対応する映像情報を
静止画として文字と共に表示する例を説明する。図7
は、本発明の一実施例の音情報を伴う映像情報の表示例
を示す。同図に示すように、音情報部分は、前述の図6
に示すような方法で音情報を可視化し、映像情報を静止
画として表示する。同図において、(B)は、(A)の
ように、同じ文字が多数連続して選出された場合に、横
棒で置換して表示した例を示す。このように冗長な情報
を簡略化することで、表示スペースの節約を図ることが
可能である。
に、表示部106において音情報に対応する映像情報を
静止画として文字と共に表示する例を説明する。図7
は、本発明の一実施例の音情報を伴う映像情報の表示例
を示す。同図に示すように、音情報部分は、前述の図6
に示すような方法で音情報を可視化し、映像情報を静止
画として表示する。同図において、(B)は、(A)の
ように、同じ文字が多数連続して選出された場合に、横
棒で置換して表示した例を示す。このように冗長な情報
を簡略化することで、表示スペースの節約を図ることが
可能である。
【0032】(C)は、「う」と「わ」の間で音圧の低
い音情報がt以上観測された場合の例を示しており、文
字の位置を変化させることにより、「間」を表現するこ
とが可能である。上記の実施例は、図3の情報可視化装
置に基づいて説明したが、各構成要素をプログラムで構
築し、当該情報可視化装置として利用されるコンピュー
タに接続されるディスク装置や、フロッピーディスク、
CD−ROM等の可搬記憶媒体に格納しておき、汎用的
に利用することが可能である。
い音情報がt以上観測された場合の例を示しており、文
字の位置を変化させることにより、「間」を表現するこ
とが可能である。上記の実施例は、図3の情報可視化装
置に基づいて説明したが、各構成要素をプログラムで構
築し、当該情報可視化装置として利用されるコンピュー
タに接続されるディスク装置や、フロッピーディスク、
CD−ROM等の可搬記憶媒体に格納しておき、汎用的
に利用することが可能である。
【0033】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0034】
【発明の効果】上述のように、本発明によれば、音情報
あるいは、音情報を伴う映像情報を必要に応じてA/D
変換して入力・蓄積し、入力された音情報の特徴量と参
照用音情報の特徴量との距離を算出し、符号帳を参照し
て、入力された音情報を、算出された距離が最も近い文
字情報に変換し、入力された音情報の音圧、高さ、長さ
等に応じて文字情報の大きさ、形状、数、位置を変化さ
せて表示し、入力が音情報を伴う映像情報の場合には、
音情報に対応する静止画像を文字情報と共に表示するこ
とで、音情報を可視化できる。
あるいは、音情報を伴う映像情報を必要に応じてA/D
変換して入力・蓄積し、入力された音情報の特徴量と参
照用音情報の特徴量との距離を算出し、符号帳を参照し
て、入力された音情報を、算出された距離が最も近い文
字情報に変換し、入力された音情報の音圧、高さ、長さ
等に応じて文字情報の大きさ、形状、数、位置を変化さ
せて表示し、入力が音情報を伴う映像情報の場合には、
音情報に対応する静止画像を文字情報と共に表示するこ
とで、音情報を可視化できる。
【0035】また、本発明の手順を実行するためのプロ
グラムを記憶媒体に格納し、音情報を可視化する際に、
コンピュータにインストールすることにより汎用的に利
用できる。また、文字情報に対応する参照用音情報を入
力し、その特徴量から符号帳を作成することにより音情
報と文字情報の対応付けが可能となる。
グラムを記憶媒体に格納し、音情報を可視化する際に、
コンピュータにインストールすることにより汎用的に利
用できる。また、文字情報に対応する参照用音情報を入
力し、その特徴量から符号帳を作成することにより音情
報と文字情報の対応付けが可能となる。
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の音情報可視化装置の構成図である。
【図4】本発明の音情報可視化装置の動作を示すフロー
チャートである。
チャートである。
【図5】本発明の一実施例の作成された符号帳の例であ
る。
る。
【図6】本発明の一実施例の一連の具体的な動作を説明
するための図である。
するための図である。
【図7】本発明の一実施例の音情報を伴う映像情報の表
示例である。
示例である。
101 音・映像入力部 102 符号帳作成部 103 情報蓄積部 104 特徴距離算出部 105 情報変換部 106 表示部
Claims (23)
- 【請求項1】 入力された音情報を該音情報の特徴量に
基づいて文字情報に変換する音情報可視化方法におい
て、 参照用音情報の特徴量と文字情報を対応付けた符号帳を
蓄積しておき、 音情報または、音情報を伴う映像情報を入力し、 前記符号帳の参照用音情報の特徴量と入力された前記音
情報の特徴量との距離を算出し、 前記符号帳を参照して、入力された前記音情報を、算出
された距離が最も近い文字情報に変換し、 変換された前記文字情報を表示することを特徴とする音
情報可視化方法。 - 【請求項2】 前記文字情報に対応する参照用音情報を
入力し、該参照用音情報の特徴量から前記符号帳を作成
する請求項1記載の音情報可視化方法。 - 【請求項3】 前記参照用音情報及び前記文字情報に、
アルファベット、日本語の音節、または、該アルファベ
ットと該日本語の音節の組み合わせを用いる請求項1乃
至2記載の音情報可視化方法。 - 【請求項4】 前記音情報及び前記参照用音情報の特徴
量として、正規化されたパワースペクトルの値、また
は、スペクトル包絡を表すケプストラム係数を用いる請
求項1乃至3記載の音情報可視化方法。 - 【請求項5】 前記文字情報を表示する際に、 入力された前記音情報の音圧、高さ、長さのうち少なく
ともいずれか一つの性質に応じて前記文字情報の大き
さ、形状、数、位置のうち少なくともいずれか一つを変
化させて表示する請求項1乃至4記載の音情報可視化方
法。 - 【請求項6】 前記文字情報を表示する際に、 前記音情報を伴う映像情報が入力された場合には、該音
情報に対応する静止画像を文字情報と共に表示する請求
項1乃至5記載の音情報可視化方法。 - 【請求項7】 入力された前記音情報または、前記音情
報を伴う映像情報がアナログの場合には、A/D変換す
る請求項1記載の音情報可視化方法。 - 【請求項8】 入力された前記音情報または、前記音情
報を伴う映像情報を蓄積する請求項1記載の音情報可視
化方法。 - 【請求項9】入力された音情報を該音情報の特徴量に基
づいて文字情報に変換する音情報可視化装置であって、 音情報または、音情報を伴う映像情報を入力する音・映
像入力手段と、 参照用音情報の特徴量と文字情報を対応付けた符号帳を
蓄積する蓄積手段と、 入力された前記音情報の特徴量との距離を算出する特徴
量算出手段と、 前記蓄積手段に蓄積されている前記符号帳を参照して、
入力された前記音情報を、算出された距離が最も近い文
字情報に変換する情報変換手段と、 変換された前記文字情報を表示する表示手段とを有する
ことを特徴とする音情報可視化装置。 - 【請求項10】 前記文字情報に対応する参照用音情報
を入力し、該参照用音情報の特徴量から前記符号帳を作
成する符号帳作成手段を更に有する請求項9記載の音情
報可視化装置。 - 【請求項11】 前記符号帳作成手段は、 前記参照用音情報及び前記文字情報に、アルファベッ
ト、日本語の音節、または、該アルファベットと該日本
語の音節の組み合わせを用いる請求項10記載の音情報
可視化装置。 - 【請求項12】 前記特徴量算出手段は、 前記音情報及び前記参照用音情報の特徴量として、正規
化されたパワースペクトルの値、または、スペクトル包
絡を表すケプストラム係数を用いる請求項9記載の音情
報可視化装置。 - 【請求項13】 前記表示手段は、 入力された前記音情報の音圧、高さ、長さのうち少なく
ともいずれか一つの性質に応じて前記文字情報の大き
さ、形状、数、位置のうち少なくともいずれか一つを変
化させて表示する手段を含む請求項9記載の音情報可視
化装置。 - 【請求項14】 前記表示手段は、 前記音情報を伴う映像情報が入力された場合には、該音
情報に対応する静止画像を文字情報と共に表示する請求
項9記載の音情報可視化装置。 - 【請求項15】 前記音・映像入力手段は、 入力された前記音情報または、前記音情報を伴う映像情
報がアナログの場合には、A/D変換するA/D変換手
段を含む請求項9記載の音情報可視化装置。 - 【請求項16】 前記蓄積手段は、 入力された前記音情報または、前記音情報を伴う映像情
報を蓄積する手段を含む請求項9記載の音情報可視化装
置。 - 【請求項17】入力された音情報を該音情報の特徴量に
基づいて文字情報に変換する音情報可視化プログラムを
格納した記憶媒体であって、 音情報または、音情報を伴う映像情報を入力させる音・
映像入力プロセスと、 入力された前記音情報の特徴量との距離を算出する特徴
量算出プロセスと、 予め蓄積されている参照用音情報の特徴量と文字情報を
対応付けた符号帳を参照して、入力された前記音情報
を、算出された距離が最も近い文字情報に変換する情報
変換プロセスと、 変換された前記文字情報を表示する表示プロセスとを有
することを特徴とする音情報可視化プログラムを格納し
た記憶媒体。 - 【請求項18】 前記文字情報に対応する参照用音情報
を入力させ、該参照用音情報の特徴量から前記符号帳を
作成する符号帳作成プロセスを更に有する請求項17記
載の音情報可視化プログラムを格納した記憶媒体。 - 【請求項19】 前記符号帳作成プロセスは、 前記参照用音情報及び前記文字情報に、アルファベッ
ト、日本語の音節、または、該アルファベットと該日本
語の音節の組み合わせを用いる請求項17記載の音情報
可視化プログラムを格納した記憶媒体。 - 【請求項20】 前記特徴量算出プロセスは、 前記音情報及び前記参照用音情報の特徴量として、正規
化されたパワースペクトルの値、または、スペクトル包
絡を表すケプストラム係数を用いる請求項17記載の音
情報可視化プログラムを格納した記憶媒体。 - 【請求項21】 前記表示プロセスは、 入力された前記音情報の音圧、高さ、長さのうち少なく
ともいずれか一つの性質に応じて前記文字情報の大き
さ、形状、数、位置のうち少なくともいずれか一つを変
化させて表示させるプロセスを含む請求項17記載の音
情報可視化プログラムを格納した記憶媒体。 - 【請求項22】 前記表示プロセスは、 前記音情報を伴う映像情報が入力された場合には、該音
情報に対応する静止画像を文字情報と共に表示させる請
求項17記載の音情報可視化プログラムを格納した記憶
媒体。 - 【請求項23】 前記音・映像入力プロセスは、 入力された前記音情報または、前記音情報を伴う映像情
報がアナログの場合には、A/D変換するA/D変換プ
ロセスを含む請求項17記載の音情報可視化プログラム
を格納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9271690A JPH11109988A (ja) | 1997-10-03 | 1997-10-03 | 音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9271690A JPH11109988A (ja) | 1997-10-03 | 1997-10-03 | 音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11109988A true JPH11109988A (ja) | 1999-04-23 |
Family
ID=17503497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9271690A Pending JPH11109988A (ja) | 1997-10-03 | 1997-10-03 | 音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11109988A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002290611A (ja) * | 2001-03-28 | 2002-10-04 | Minolta Co Ltd | 携帯機器 |
JP2002297187A (ja) * | 2001-03-30 | 2002-10-11 | Konami Computer Entertainment Yokyo Inc | 音声編集装置及び音声編集プログラム |
JP2012146151A (ja) * | 2011-01-13 | 2012-08-02 | Dainippon Printing Co Ltd | 画像出力受付端末および画像出力受付方法、並びにプログラム |
US8744244B2 (en) | 2005-09-28 | 2014-06-03 | The University Of Electro-Communications | Reproducing apparatus, reproducing method, and storage medium |
-
1997
- 1997-10-03 JP JP9271690A patent/JPH11109988A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002290611A (ja) * | 2001-03-28 | 2002-10-04 | Minolta Co Ltd | 携帯機器 |
JP2002297187A (ja) * | 2001-03-30 | 2002-10-11 | Konami Computer Entertainment Yokyo Inc | 音声編集装置及び音声編集プログラム |
US8744244B2 (en) | 2005-09-28 | 2014-06-03 | The University Of Electro-Communications | Reproducing apparatus, reproducing method, and storage medium |
JP2012146151A (ja) * | 2011-01-13 | 2012-08-02 | Dainippon Printing Co Ltd | 画像出力受付端末および画像出力受付方法、並びにプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
US6161093A (en) | Information access system and recording medium | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US20080195391A1 (en) | Hybrid Speech Synthesizer, Method and Use | |
JP2007206317A (ja) | オーサリング方法、オーサリング装置およびプログラム | |
JP2010160316A (ja) | 情報処理装置及びテキスト読み上げ方法 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP5282230B2 (ja) | 学習用教材および教材情報出力装置 | |
US20100125459A1 (en) | Stochastic phoneme and accent generation using accent class | |
US20180082607A1 (en) | Interactive Video Captioning Program | |
JP2016033662A (ja) | ターゲット文字列の推定 | |
JP4738847B2 (ja) | データ検索装置および方法 | |
US8275614B2 (en) | Support device, program and support method | |
Cassidy et al. | Tools for multimodal annotation | |
US7089187B2 (en) | Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor | |
KR100467590B1 (ko) | 발음 사전 갱신 장치 및 방법 | |
JP5152588B2 (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JPH11109988A (ja) | 音情報可視化方法及び装置及び音情報可視化プログラムを格納した記憶媒体 | |
JP4839967B2 (ja) | 指導装置及びプログラム | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
US20220044662A1 (en) | Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
JP4640063B2 (ja) | 音声合成方法,音声合成装置,およびコンピュータプログラム | |
JP5975033B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム |