JP4533234B2

JP4533234B2 - 記録再生装置及び記録再生方法

Info

Publication number: JP4533234B2
Application number: JP2005137894A
Authority: JP
Inventors: 浩大脇
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-05-10
Filing date: 2005-05-10
Publication date: 2010-09-01
Anticipated expiration: 2025-05-10
Also published as: JP2006319483A; US8538244B2; US20070061133A1

Description

本発明は、音データが付随した画像データを記録再生する技術に関する。

従来より、静止画、動画、及び音声に関する各データ毎に代表静止画であるサムネイル画像を生成し、静止画、動画、及び音声と関連付けて管理する技術が提案されている。

例えば、特許文献１には、静止画に関するデータと音声に関するデータとを関連付ける装置が提案されている。

また、特許文献２には、より良い代表静止画であるサムネイル画像を生成する装置として、無意味なフレームが代表静止画として生成されることがなく、有用な代表静止画を生成できる動画検索装置が提案されている。

また、特許文献３には、サムネイル画像用の音声データを、音声データの編集・加工なしで抽出する装置がに提案されている。

また、音声信号の基本的な処理方法について、非特許文献１に記述されている。

また、音声信号の話速変換方法の例について、非特許文献２に記述されている。
特開２００３−３４８５３０公報特開２００３−１１１０１１公報特開２００１−２９８７１１公報古井貞熙著「ディジタル音声処理」春日正男、船田哲男、林伸二、武田一哉共著「音声情報処理」

上記技術によって、静止画、動画、及び音声について関連のあるデータ同士をグループ化して管理したり、関連のあるデータ同士をデータグループとして読み出したりできるようになっている。

また、関連のあるデータ同士について、より適切な代表静止画であるサムネイル画像を生成し、ユーザはサムネイル画像を見ることでそのデータグループがどのような関連があるのかを短時間で把握できるようになっている。

しかし、より適切なサムネイル画像を生成できたとしても、より適切な代表音声であるサムネイル音声を生成する装置は未だ提案されていない。

本発明は、上記課題を解決するためになされ、その目的は、短時間の適切なサムネイル音声を生成できる技術を提供することである。

また、他の目的は、サムネイル画像と関連付けすることによりサムネイル画像の選択時にサムネイル音声を再生できる技術を提供することである。

なお、本発明では、上記サムネイル音声を、便宜的に「音声サムネイル」と呼ぶことにする。

上記課題を解決し、目的を達成するために、本発明の記録再生装置は、音データが付随した画像データの記録再生装置であって、前記音データ中に音声が存在する場合には音声信号を抽出し、音声が存在しなければ音声以外の音信号を抽出する抽出手段と、前記抽出手段により抽出された音声信号又は音信号を、単位時間あたりの情報量を増加させて画像データに関連付けて記録する記録手段とを具備する。

また、本発明の記録再生方法は、音データが付随した画像データの記録再生方法であって、前記音データ中に音声が存在する場合には音声信号を抽出し、音声が存在しなければ音声以外の音信号を抽出する抽出工程と、前記抽出工程により抽出された音声信号又は音信号を、単位時間あたりの情報量を増加させて画像データに関連付けて記録する記録工程とを具備する。

以上説明したように、本発明によれば、短時間の適切なサムネイル音声を生成できる。また、サムネイル画像と関連付けしてサムネイル画像の選択時にサムネイル音声を再生できる。

以下に、添付図面を参照して本発明の好適な実施形態について詳細に説明する。

尚、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。

［記録再生装置の構成］
本実施形態では、音データが付随した画像データの記録再生装置は図１のように構成される。

即ち、レンズ１は撮影したい被写体の光学像を取り込む。撮像部２は、光学像を光電変換して得られるアナログ映像信号をデジタル映像信号に変換する。ディスプレイ３は、デジタル映像信号を表示再生する。マイク４は、音信号をアナログ音信号として取り込む。オーディオ入力部５は、アナログ音信号をデジタル音信号に変換する。スピーカ７は、アナログ音信号を音又は音声として出力する。

信号処理部８は、音や音声、画像の信号処理を行い、音及び音声信号区間を抽出する区間抽出部８ａ、音及び音声信号の性質を分析する性質分析部８ｂ、音及び音声信号の話速変換や信号を削除する加工・編集部８ｃ、音及び音声信号の圧縮（符号化）や展開（復号化）を行う圧縮・展開部８ｄ、画像信号を輝度色差信号に変換すると共に、圧縮（符号化）及び展開（復号化）等の画像処理を行う画像処理部８ｅを備える。

ＣＰＵ９は、本実施形態の記録再生装置全体の制御やデータの関連付けを行う。ＲＡＭ１０は、画像信号、圧縮画像信号、音信号、圧縮音信号、ＣＰＵ９の実行プログラム及びデータの書き込み／読み出しを行う。ＲＯＭ１１は、ＣＰＵ９の実行プログラム及びデータを記録保管する。インターフェース１２は、メディア１３にデータを書き込み／読み出しするための信号変換を行う。メディア１３は、画像信号、圧縮画像信号、音声信号、圧縮音声信号を書き込み／読み出しする。

シャッターキー１４は、シャッターレリーズ動作を指示する。上下左右キー１５は、ディスプレイ３に表示された項目を上下左右に移動して指示する。決定キー１６は、ディスプレイ３に表示された項目を選択する指示を出す。メニューキー１７は、ディスプレイ３に、メニュー項目の表示の開始と終了の指示を出す。モードキー１８は、装置の状態を音声付きの動画モード、静止画モード、再生モードのいずれかに切り替える。音声付き動画モードでは、音声付き動画を記録する。静止画モードでは、静止画を記録する。再生モードでは、各モードで記録した、音声付き動画、静止画、静止画サムネイル、音声メモ、音声サムネイルを再生する。静止画サムネイルは、音声付き動画や静止画からよりサイズ・情報量を縮小した静止画を生成して簡易に表示させるものである。音声メモは、音声付き動画や静止画に対して、覚え書きを音声として記録したものである。音声サムネイルは、音データ中から音又は音声信号区間を抽出し、それを加工・編集したデータを生成して画像データに関連付けして再生可能に記録したものである。音声メモキー１９は、音声付き動画や静止画に対して、覚え書き音声の記録開始・停止を指示する。２０は、本発明を実現する記録再生装置全体を表している。

［音声信号を用いた音声サムネイルの作成方法］
図２は、母音、子音、無声区間の分布した音声信号を各区間毎に時間的に並べた模式図であり、Ｐａ１〜Ｐａ７は、音声信号の各区間を示すポインタである。母１〜母７は母音区間、子１〜子３は子音区間、無１〜無４は無声区間を表している。音声信号抽出開始ポイントの時間をＳＴ、音声信号抽出時間長をＳＴＬとする。図３は、音声信号に対する、無声区間探索、発声開始探索、短時間音声信号区間内の発声区間割合検査の各処理を示すフローチャート、図４は、短時間音声信号の時間短縮のための加工・編集処理１を示すフローチャート、図５は、短時間音声信号の時間短縮のための加工・編集処理２を示すフローチャートである。

ここで、本実施形態による音声信号を用いた音声サムネイルの作成方法について説明する。

先ず、上記区間抽出部８ａによって音データ中に存在する音声信号を抽出する処理について、図１〜図５を参照して説明する。

なお、音声信号の基本分析項目について下記のように記号を定める。

［音声信号の基本分析項目］
・パワー値＝Ｐ
・パワー値Ｐの所定しきい値＝ＰＴ
・パワー値Ｐが所定しきい値ＰＴを超えた継続時間長＝ＰＧＴ
・ＰＧＴの所定しきい値＝ＰＧＴＴ
・周期性値＝Ｒ
・周期性値Ｒの所定しきい値＝ＲＴ
・周期性値ＲがＲＴを超えた継続時間長＝ＲＧＴ
・ＲＧＴの所定しきい値＝ＲＧＴＴ
・ゼロクロス値＝Ｚ
・ゼロクロス値Ｚの所定しきい値＝ＺＴ
・低域と高域のパワー比（低域パワー/高域パワー）＝Ａ
（低域は１００〜９００Ｈｚ、高域は３７００〜５０００Ｈｚ）
・パワー比Ａの所定しきい値＝ＡＴ
・ＳＴを起点として、パワー値Ｐが所定しきい値ＰＴを超えた、のべ時間＝ＰＧＴＳＵＭ・ＳＴを起点として、パワー値Ｐが所定しきい値ＰＴ未満だった、のべ時間＝ＰＬＴＳＵＭ
・（ＰＧＴＳＵＭ/ＰＬＴＳＵＭ）値の所定しきい値＝ＰＧＬＲ
・ＳＴを起点として、周期性値Ｒが所定しきい値ＲＴを超えた、のべ時間＝ＲＧＴＳＵＭ
・ＳＴを起点として、周期性値Ｒが所定しきい値ＲＴ未満だった、のべ時間＝ＲＬＴＳＵＭ
・（ＲＧＴＳＵＭ/ＲＬＴＳＵＭ値）値の所定しきい値＝ＲＧＬＲ
・ＳＴを起点として、パワー比Ａが所定しきい値ＡＴを超えた、のべ時間＝ＡＧＴＳＵＭ
・ＳＴを起点として、パワー比Ａが所定しきい値ＡＴ未満だった、のべ時間＝ＡＬＴＳＵＭ
・（ＡＧＴＳＵＭ/ＡＬＴＳＵＭ）値の所定しきい値＝ＡＧＬＲ
・一般的な子音の継続時間長＝ＣＴ
更に、本実施形態における短時間で抽出する音声信号は、時間ＳＴを始点として、時間長ＳＴＬの音声信号として、
・音声信号抽出開始ポイントの時間＝ＳＴ
・音声信号抽出時間長＝ＳＴＬ
と定める。

次に、信号処理部８による処理について概説する。

先ず、音データ中の音声信号が圧縮されていたら展開して音声信号の波形デジタル値に変換する。また、音データ中の音声信号が圧縮されていなかったら展開せずに音声信号の波形デジタル値を取り出す。そして、音声信号の波形デジタル値の先頭に音声信号の分析ポイントを定め、その分析ポイントから発声信号区間を抽出する。

具体的には、最初に無声区間を探索してから、その先の発声開始ポイントを探索して、当該ポイントを音声信号抽出開始ポイントの時間ＳＴに設定する。次に、ＳＴから音声信号抽出時間長ＳＴＬの長さの音声信号中において、発声区間割合が所定割合以上であれば、そのＳＴＬ長の音声信号を発声信号区間として抽出する。

その後、この発声信号区間について、音声の性質によって信号区間を分けて時間的に圧縮する話速変換処理及び信号削除処理を実行することにより信号時間圧縮及び単位時間あたりの音声情報量を増加させる。この音声情報量を増加させた音声信号を、圧縮又は非圧縮の特定ファイル形式に変換し、画像データに関連付けしてメディア１３に保存することで音声サムネイルとして利用される。

以上の処理を図１〜図３を用いて説明する。

最初に、音データ中の音声信号が圧縮されていたら、音及び音声信号の圧縮・展開部８ｄで展開して、音声信号の波形デジタル値に変換する。また、音データ中の音声信号が圧縮されていなかったら展開せずにこれらの波形デジタル値を取り出す。

その後、音声信号の波形デジタル値の先頭であるＰａ１ポイントに音声信号の分析ポイントを定め、区間抽出部８ａによって無声区間探索ＰＲ１を開始する。ＰＲ１では、Ｓａ３にて分析フレームを前方へ進めながら、Ｓａ１でパワー値Ｐが所定しきい値ＰＴ未満であること、Ｓａ２で周期性値Ｒが所定しきい値ＲＴ未満であることを判定する。

Ｓａ１，Ｓａ２の両方が成立すると、無声区間が探索できたとして区間抽出部８ａによる発声開始探索ＰＲ２を開始する。ＰＲ２では、Ｓａ４でパワー値が所定しきい値を超えた継続時間長ＰＧＴと、周期性値が所定しきい値を超えた継続時間長ＲＧＴをゼロに初期化する。そして、Ｓａ７にて分析フレームを前方へ進めながら、Ｓａ５でＰＧＴが所定しきい値ＰＧＴＴを超えたこと、Ｓａ６でＲＧＴが所定しきい値ＲＧＴＴを超えたことを判定する。

Ｓａ５，Ｓａ６の両方が成立すると、発声開始が探索できたことになり、その発生開始ポイントを音声信号抽出開始ポイントの時間ＳＴとして、分析ポイントがＰａ３に移行する。ここで、発声先頭の子音が、音声信号抽出時間長ＳＴＬの先頭から脱落することを防ぐために、Ｓａ８では、音声信号抽出開始ポイントの時間ＳＴ（＝Ｐａ３）を、ＣＴだけ前方にずらして、ＳＴ＝ＳＴ−ＣＴ（＝Ｐａ２）とする。ここで、音声信号の分析ポイントはＰａ２に移行する。

Ｓａ９では、音声信号抽出開始ポイントの時間ＳＴ（＝Ｐａ２）から音声信号抽出時間長ＳＴＬ時間長の音声信号を分析区間に設定する。次に、区間抽出部８ａにより短時間音声信号区間ＳＴＬ内の発声区間割合検査ＰＲ３を開始する。ＰＲ３では、Ｓａ１０で、音声信号抽出開始ポイントの時間ＳＴを起点として、音信号パワーが所定しきい値を超えた信号時間割合が、所定割合以上、即ち（ＰＧＴＳＵＭ/ＰＬＴＳＵＭ）値が所定しきい値ＰＧＬＲを超えたかどうかを判定する。

Ｓａ１１では、一番最初の判断であるときには、Ｓａ１２でＳＴを起点としてＳＴＬ時間長の信号を保存し、後に全ての分析信号区間に音声が存在しなかった場合には、ＳＴを起点としてＳＴＬ時間長の音声信号を用いて音声サムネイルを作成する。

Ｓａ１３では、音声信号抽出開始ポイントの時間ＳＴを起点として、音信号周期性値が所定しきい値を超えた信号時間割合が、所定割合以上、すなわち（ＲＧＴＳＵＭ/ＲＬＴＳＵＭ）が所定のしきい値ＲＧＬＲを超えたか判定する。

Ｓａ１４は、実行の有無を問わないが、音声信号の低域と高域のパワー比が所定しきい値を超えた信号時間割合が、所定割合以上、即ち（ＡＧＴＳＵＭ/ＡＬＴＳＵＭ）値が、所定のしきい値ＡＧＬＲを超えたかどうかを判定する。

Ｓａ１０及びＳａ１３でＹｅｓ、かつＳａ１４を実行してＹｅｓならば、Ｓａ１６で、ＳＴ（＝Ｐａ２）を起点としてＳＴＬ時間長の音声信号を、発声信号区間として使用する短時間音声信号に決定する。

Ｓａ１０、Ｓａ１３、及びＳａ１４のいずれかでＮｏならば、Ｓａ１５で、分析ポイントを時間後方Ｐａ３へずらして、ＰＲ１、ＰＲ２、ＰＲ３を再度行い、音声信号抽出開始ポイントの時間ＳＴ＝Ｐａ５で、音声信号抽出時間長ＳＴＬの音声信号を、発声信号区間として使用する短時間音声信号として決定できる。

また、Ｓａ１５の分析ポイントを時間的に後方へずらすことを繰り返して、音声信号の終端を超えてしまった場合には音声信号が存在しなかったとする。そして、区間抽出部８ａで抽出された音データ中に音声信号が存在しなければ、図６及び図７で後述する発音信号区間を検索して抽出処理を開始する。これは、音データ中の音信号の先頭である図６のＰｂ１ポイントに音信号の分析ポイントを定めて、図７の無音区間探索ＰＲ１を開始することを意味する。

Ｓａ１６まで処理が進み、発声信号区間として使用する短時間音声信号が決定できた場合には、図４のＳｂ１に進み、ＳＴを起点としてＳＴＬ時間長の音声信号の編集を開始する。

ＰＲ４では、性質分析部８ｂと加工・編集部８ｃによって、ＳＴを起点としてＳＴＬ時間長の音声信号の時間短縮のための加工・編集を行う。そして、Ｓｂ１３で終端フレームに達したかどうかを判定して、Ｓｂ１４で加工・編集フレームを１つずつ進めながら、音声信号を編集・加工する。

Ｓｂ２では、パワー値Ｐが所定しきい値ＰＴを超えているか判定する。

Ｓｂ３とＳｂ８では、周期性値Ｒが所定しきい値ＲＴを超えているか判定する。また、Ｓｂ３とＳｂ８では、低域と高域のパワー比値Ａが所定しきい値ＡＴを越えているか判定して、周期性値Ｒと低域と高域のパワー比値Ａの両者が同時にそれぞれの所定しきい値を超えているか判定してもよい。

Ｓｂ５とＳｂ１０では、ゼロクロス値Ｚが所定しきい値ＺＴを超えているか判定する。

Ｓｂ４では、母音区間と判断して圧縮率普通の話速変換で信号時間短縮を行う。

Ｓｂ６では、子音区間と判断して無変換とする。

Ｓｂ７では、大音圧の無声区間と判断して圧縮率普通の話速変換で信号時間短縮を行う。

Ｓｂ９では、小音圧の母音区間と判断して圧縮率普通の話速変換で信号時間短縮を行う。

Ｓｂ１１では、小音圧の子音区間と判断して無変換とする。

Ｓｂ１２では、小音圧無声区間と判断して削除又は圧縮率極大の話速変換で信号時間短縮を行う。

そして、Ｓｂ１３で終端フレームに達したらＰＲ４を終了し、Ｓｂ１５でＳＴ（＝図２ではＰａ２又はＰａ５）を起点としてＳＴＬ時間長の音声信号の編集を終了して、編集後の短時間音声信号を得る。この編集後の短時間音声信号を、Ｓｂ１６で、圧縮・展開部８ｄによって圧縮又は非圧縮の特定ファイル形式に変換し、画像データに関連付けて保存することで音声サムネイルとして利用する。

また、音声信号の時間短縮のための加工・編集を行うＰＲ４の内容を、図５のＰＲ４ｍのように変更して、全てのフレームの音声信号に対して圧縮率普通の話速変換を行ってもよい。この場合、Ｓｂ１３ｍで終端フレームに達したか判定しながら、Ｓｂ１４ｍで編集・加工フレームを１つずつ進めて、Ｓｂ４ｍで圧縮率普通の話速変換で信号時間短縮を行う。そして、Ｓｂ１３ｍで終端フレームに達したらＰＲ４ｍを終了し、Ｓｂ１５でＳＴ（＝図２ではＰａ２又はＰａ５）を起点としてＳＴＬ時間長の音声信号編集終了して、編集後の短時間音声信号を得る。この編集後の短時間音声信号を、Ｓｂ１６で、圧縮・展開部８ｄによって圧縮又は非圧縮の特定ファイル形式に変換し、画像データに関連付けて保存して音声サムネイルとして利用する。

その後、区間抽出部８ａにおいて、図１〜図５で述べた処理を行った結果、図３の分析開始ポイントを時間後方へずらすＳａ１５を繰り返して、音声サムネイルを抽出するために用いる音データの終端を超えてしまった場合には、音データ中に音声が存在しないと判断して音声以外の音を抽出する。

［音信号を用いた音声サムネイルの作成方法］
次に、上記音声以外の音を用いて音声サムネイルを作成する方法について、図１、図６〜９を用いて説明する。

図６は、有音、無音区間の分布した音信号を各区間毎に時間的に並べた模式図であり、Ｐｂ１〜Ｐｂ７は、音信号のある区間を示すポインタである。有１〜有１０は有音区間、無５〜無８は無音区間を表している。音信号抽出開始ポイントの時間をＳＴ、音信号抽出時間長をＳＴＬとする。図７は、音信号に対する、無音区間探索、発音開始探索、短時間音信号区間内の発音区間割合検査の各処理を示すフローチャート、図８は、短時間音信号の時間短縮のための加工・編集処理１を示すフローチャート、図９は、短時間音信号の時間短縮のための加工・編集処理２を示すフローチャートである。

先ず、信号処理部８による処理について概説する。

最初に、前述した図３のＳａ１２で、音信号抽出時間長ＳＴＬ分の音信号が保存されていたら、その音信号を用いて、下記の処理Ａを行う。また、図３のＳａ１２で、音信号抽出時間長ＳＴＬ分の音信号が保存されていなかった場合には、最初に、音データ中の音信号が圧縮されていたら展開して音信号の波形デジタル値に変換し、圧縮されていなかったら、展開を行わずに音信号の波形デジタル値を取り出す。

次に、音信号の波形デジタル値の先頭に音信号の分析ポイントを定めて、分析ポイントを進めながら、発音信号区間を抽出する。これは、最初に無音区間を探索し、その先の発音開始ポイントを探索し、そのポイントを音信号抽出開始ポイントの時間ＳＴとし、ＳＴから音信号抽出時間長ＳＴＬの長さの音信号中に、発音区間割合が所定割合以上であれば、そのＳＴＬ長の音信号を発音信号区間として抽出する。

次に、上記処理Ａとして、この発音信号区間について、音の性質によって信号区間を分けて時間的に圧縮する話速変換処理及び信号削除処理を実行することにより信号時間圧縮及び単位時間あたりの音情報量を増加させる。この音情報量を増加させた音信号を、圧縮又は非圧縮の特定ファイル形式に変換し、画像データに関連付けしてメディア１３に保存することで音声サムネイルとして利用される。

以上の処理を図１、図６、図７を用いて説明する。

最初に、前述した図３のＳａ１２で、音信号抽出時間長ＳＴＬ分の音信号が保存されていたら、その音信号を用いて、図８のＰＲ８で、短時間音信号の時間短縮のための加工・編集以降の処理を行う。また、図３のＳａ１２で、音信号抽出時間長ＳＴＬ分の音信号が保存されていなかった場合には、最初に音データ中の音信号が圧縮されていたら、圧縮・展開部８ｄで展開して音信号の波形デジタル値に変換し、圧縮されていなかったら、展開を行わずに音信号の波形デジタル値を取り出す。そして、その音信号の波形デジタル値の先頭に音信号の分析ポイントを定めて、分析ポイントを進めながら発音信号区間を抽出する。

ここでは、Ｐｂ１に音信号の分析ポイントを定めて、区間抽出部８ａによる無音区間探索ＰＲ５を開始する。ＰＲ５では、Ｓｃ２にて、分析フレームを前方へ進めながら、Ｓｃ１でパワー値Ｐが所定しきい値ＰＴ未満であることを判定する。Ｓｃ１でＹｅｓの判定であれば、無音区間が探索できたとして、区間抽出部８ａによる発音開始探索ＰＲ６を開始する。

ＰＲ６では、Ｓｃ３でパワー値が所定しきい値を超えた継続時間長ＰＧＴをゼロに初期化する。Ｓｃ５にて分析フレームを前方へ進めながら、Ｓｃ４でパワー値が所定しきい値を超えた継続時間長ＰＧＴが所定しきい値ＰＧＴＴを超えかを判定する。Ｓｃ４でＹｅｓの判定であれば、発音開始区間が探索できたことになる。

Ｓｃ６では、音信号抽出開始ポイントの時間ＳＴ（＝Ｐｂ２）から音信号抽出時間長ＳＴＬ時間長の音信号を分析区間に設定する。次に、区間抽出部８ａによる短時間音信号区間ＳＴＬ内の発音区間割合検査ＰＲ７を開始する。ＰＲ７では、Ｓｃ７で（ＰＧＴＳＵＭ/ＰＬＴＳＵＭ）値が所定しきい値ＰＧＬＲを超えたかどうかを判定する。

Ｓｃ７でＹｅｓの判定ならば、Ｓｃ９で、ＳＴ（＝Ｐｂ２）を起点としてＳＴＬ時間長の音信号を、発音信号区間として使用する短時間音声信号に決定する。また、Ｓｃ７でＮｏの判定ならば、Ｓｃ８で分析ポイントを時間後方Ｐｂ３へずらして、ＰＲ５，ＰＲ６，ＰＲ７を再度行ない、音信号抽出開始ポイントの時間ＳＴ（＝Ｐｂ５）で、音信号抽出時間長ＳＴＬの音信号が、発音信号区間として使用する短時間音信号に決定できる。

そして、図８のＳｄ１で、ＳＴを起点としてＳＴＬ時間長の音信号の編集を開始する。ＰＲ８では、性質分析部８ｂと加工・編集部８ｃによって、短時間音信号の時間短縮のための加工・編集を行う。

Ｓｄ５では終端フレームに達したか判定し、Ｓｄ６で加工・編集フレームを１つずつ進めながら、音信号を編集・加工する。Ｓｄ２では、パワー値Ｐが所定しきい値ＰＴを超えているか判定する。Ｓｄ３では、大音圧音及び普通音圧音区間と判断して、圧縮率普通の話速変換で信号時間短縮を行う。Ｓｄ４では、小音圧音及び無音区間と判断して、削除又は圧縮率極大の話速変換で信号時間短縮を行う。そして、Ｓｄ５で終端フレームに達したら、ＰＲ８を終了し、Ｓｄ７でＳＴ（＝図６ではＰｂ２又はＰｂ５）を起点としてＳＴＬ時間長の音信号の編集を終了し、編集後の短時間音信号を得る。この編集後の短時間音信号を、Ｓｄ８で、圧縮・展開部８ｄにて、圧縮又は非圧縮の特定ファイル形式に変換し、画像データに関連付けて保存して音声サムネイルとして利用する。

また、上記ＰＲ８での処理を図９のＰＲ８ｍのように変更して、全てのフレームの音信号に対して、圧縮率普通の話速変換を行ってもよい。この場合、Ｓｄ５ｍで終端フレームに達したか判定しながら、Ｓｄ６ｍで編集・加工フレームを１つずつ進めて、Ｓｄ３ｍで圧縮率普通の話速変換で信号時間短縮を行う。そして、Ｓｄ５ｍで終端フレームに達したら、ＰＲ８ｍを終了して、Ｓｄ７でＳＴ（＝図６ではＰｂ２又はＰｂ５）を起点としてＳＴＬ時間長の音信号の編集を終了して、編集後の短時間音信号を得る。この編集後の短時間音信号を、Ｓｄ８で、圧縮・展開部８ｄにて、圧縮又は非圧縮の特定ファイル形式に変換し、画像データに関連付けて保存して音声サムネイルとして利用する。

次に、本実施形態の音声サムネイルの記録動作について、音声付き動画の撮影中に音声付き動画の音声部分から音声サムネイルを抽出して行う場合を例にして説明する。

図１において、最初に、モードキー１８で音声付き動画モードを選択して、音声付き動画の撮影中に、音声付き動画と、それに付随する静止画サムネイルと、音声付き動画の音声部分の音信号から音声サムネイルを作成して、特定ファイル形式に変換して、メディア１３に記録する。このとき、音声付き動画と、それに付随する静止画サムネイルと、作成される音声サムネイルを圧縮する場合は、画像処理部８ｅや圧縮・展開部８ｄにて圧縮し、インターフェース（Ｉ／Ｆ）１２を介してメディア１３に記録する。この記録された音声サムネイルを、画像データに関連付けて音声サムネイルとする。

上記音声サムネイルの記録動作において、音声付き動画の撮影後に記録された音声付き動画の音声部分から音声サムネイルを抽出してもよい。

また、上記音声サムネイルの記録動作において、音声メモ録音中に音声メモ信号から音声サムネイルを抽出してもよい。

また、上記音声サムネイルの記録動作において、音声メモ録音後に記録された音声メモから音声サムネイルを抽出してもよい。

［音声サムネイルの記録再生動作］
次に、本実施形態の音声サムネイルの記録再生動作について図１０と図１１を用いて説明する。

なお、図１０のメディア１３ａは図１のメディア１３、図１０のディスプレイ３ａは図１のディスプレイ３、図１０の上下左右キーと決定キー２１は図１の上下左右キー１５と決定キー１６、図１０の１５ｂ、１５ｄ、１５ｃ、１５ａは図１の上下左右キー１５の上キー、下キー、左キー、右キーにそれぞれ対応している。

また、図１０の１６ａは図１の決定キー１６、ディスプレイ３ａ上の画像サムネイル表示項目Ｇ１、Ｇ２、Ｇ３、Ｇ４、Ｇ５は、それぞれメディア１３ａ内のデータＤ１、Ｄ２、Ｄ３、Ｄ４、Ｄ５に関連付けられている。Ｄ１の中には、音声付き動画ファイル又は静止画ファイルＦ１、静止画サムネイルファイルＦ２、音声メモファイルＦ３、音声サムネイルファイルＦ４が含まれる。音声メモファイルＦ３は、ユーザーが記録しなければ無い場合もある。音声サムネイルファイルＦ４の内容は、音声付き動画ファイルＦ１の音声部分から抽出しても、音声メモファイルＦ３から抽出しても良い。ファイルＦ１、Ｆ２、Ｆ３、Ｆ４は、全てを１つのファイルにまとめても、いくつかのファイルに分割しても良い。データＤ２、Ｄ３、Ｄ４、Ｄ５の中にも同様に、音声付き動画ファイル又は静止画ファイル、静止画サムネイルファイル、音声メモファイル、音声サムネイルファイルが含まれる。

さて、図１１において、Ｓｅ１で動作をスタートすると、Ｓｅ２において、例えば、ユーザーがモードキー１８を再生モードに設定することで、ＣＰＵ９は、記録再生装置２０を再生モードで動作させる。Ｓｅ３では、メディア１３ａに記録されたデータＤ１、Ｄ２、Ｄ３、Ｄ４、Ｄ５のそれぞれに関連付けられた静止画サムネイルＧ１、Ｇ２、Ｇ３、Ｇ４、Ｇ５がディスプレイ３ａに表示される。

Ｓｅ４では、データＤ１とそれを代表する静止画サムネイルＧ１が選択され、Ｇ１に選択表示枠が表示される。

Ｓｅ５では、メディア１３ａ内の選択されたデータＤ１の中の、音声サムネイルファイルＦ４の音信号が、インターフェース（Ｉ／Ｆ）１２と信号処理部８を介してオーディオ出力部６でアナログ音信号に変換されて、スピーカ７から音又は音声として出力される。このとき、音信号が圧縮されていれば、信号処理部８の圧縮・展開部８ｄによって展開される。

Ｓｅ６で上下左右キー１５ｂ、１５ｄ、１５ｃ、１５ａ以外が操作された場合には、Ｓｅ９にて音声サムネイル出力を終了する。ここで、上下左右キーの代わりに、決定キー１６ａが操作された場合は、音声サムネイルを出力せず、音データが付随した画像データの、音データと画像データをそのまま再生する。

また、Ｓｅ６で上下左右キー１５ｂ、１５ｄ、１５ｃ、１５ａが操作された場合には、ステップＳｅ６にて、静止画サムネイルの選択が他の静止画サムネイルへ移動する。

Ｓｅ８では、移動直後に選択されたデータの中の音声サムネイルファイルの音信号が、インターフェース（Ｉ／Ｆ）１２と信号処理部８を介してオーディオ出力部６でアナログ音信号に変換されて、スピーカ７から音又は音声として出力される。このとき、音信号が圧縮されていれば、信号処理部８の圧縮・展開部８ｄによって展開される。その後、Ｓｅ６にリターンして処理を行う。

［他の実施形態］
以上、本発明に係る実施形態について具体例を用いて詳述したが、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体（記録媒体）等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図示の各フローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体（記憶媒体）としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行い、その処理によっても前述した実施形態の機能が実現される。

［効果の説明］
上記実施形態によれば、音データ中の音又は音声信号から、音又は音声信号区間を抽出して音声サムネイルを生成し画像データに関連付けて保存するため、音声サムネイルを画像データと同時に利用できるようになる。

また、画像データは画像サムネイルを含み、画像データに関連付けられた音声サムネイルを画像データ選択時に再生するので、画像サムネイルの選択時に音声サムネイルをすぐに聞けるようになる。その結果、ユーザは、画像サムネイルによって画像データ全体を瞬時に把握できることに加えて、音声サムネイルを聞くことによる補助が受けられるようになり、データの中身を把握しやすくなる。

また、区間抽出部では、音データ中に音声信号が存在すれば音声信号を抽出し、音声信号が存在しなければ音信号を抽出することにより、音データ中に音声信号が存在しないときにも音声サムネイルを作成して利用できるようにできる。

また、区間抽出部は、発声信号区間を探索して音声信号を抽出するので、より音声情報量の多い信号区間を用いて音声サムネイルを作成できるようになり、音声サムネイル再生時の音声による認識効果を向上できる。

また、区間抽出部で発声信号区間の探索し、更に発声信号区間を性質によって分析して時間圧縮する話速変換処理及び信号削除処理を実行するので、発声信号区間を、信号を聞き分ける了解度を低下させずに、信号時間圧縮及び単位時間あたりの音声情報量を増加させることができるようになる。この結果、発声信号区間の情報量を保存したまま、信号を短く、また、データ量を減少させることができる。そして、このような発声信号区間を利用して音声サムネイルを作成することで、より短時間にユーザに同じ音声を伝達できる。更に、より少ない情報量でユーザに同じ音声を伝達できる。また、上記時間圧縮に話速変換処理を利用することにより、信号時間圧縮のために音声の速さだけが変わり、音声の音の高さは変わらないため、話速変換処理を用いて時間圧縮した音声は違和感が少ない。

また、発声信号区間の分析は、音又は音声信号の、パワー、周期性、波形のゼロクロス、低域高域のパワー比のいずれか１つ又は２つ以上を利用することにより、処理量の少ない手法で音声の性質を分析できる。

また、区間抽出部は、発音信号区間を探索音信号を抽出するので、より音情報量の多い信号区間を用いて音声サムネイルを作成できるようになり、音声サムネイル再生時の音による認識効果を向上できる。

また、区間抽出部で発音信号区間を探索し、更に発音信号区間を性質によって分析して、時間圧縮する話速変換処理及び信号削除処理を実行するので、発音信号区間を、信号を聞き分ける了解度を低下させずに、信号時間圧縮及び単位時間あたりの音情報量を増加させることができるようになる。この結果、発音信号区間の情報量を保存したまま、信号を短く、また、データ量を減少させることができる。そして、このような発音信号区間を利用して音声サムネイルを作成することで、より短時間にユーザに同じ音を伝達できる。更に、より少ない情報量で、ユーザに同じ音を伝達できる。また、上記時間圧縮に話速変換処理を利用することにより、信号時間圧縮のために音の速さだけが変わり、音の高さは変わらないため、話速変換処理を用いて時間圧縮した音は違和感が少ない。

また、発音信号区間の分析は、音信号のパワーを利用することにより、処理量の少ない手法で音の性質を分析できる。

また、音データが付随した画像データを、音声メモデータの付随した静止画データにすると、記録再生装置の代表例であるデジタルカメラにおける、圧縮又は非圧縮の音声メモデータと、ＪＰＥＧ等の静止画データに利用することもできる。

また、音データが付随した画像データを、音声付き動画データにすると、上記デジタルカメラやデジタルビデオにおける、ＭＰＥＧやＨ．２６４等の音声付き動画データに利用することもできる。

更に、音データが付随した画像データを、音声メモデータの付随した音声付き動画データにすると、上記デジタルカメラやデジタルビデオにおける、圧縮又は非圧縮の音声メモデータと、ＭＰＥＧやＨ．２６４等の音声付き動画データに利用することもできる。

本発明に係る実施形態の記録再生装置のブロック図である。母音、子音、無声区間の分布した音声信号を各区間毎に時間的に並べた模式図である。音声信号に対する、無声区間探索、発声開始探索、短時間音声信号区間内の発声区間割合検査の各処理を示すフローチャートである。短時間音声信号の時間短縮のための加工・編集処理１を示すフローチャートである。短時間音声信号の時間短縮のための加工・編集処理２を示すフローチャートである。有音、無音区間の分布した音信号を各区間毎に時間的に並べた模式図である。音信号に対する、無音区間探索、発音開始探索、短時間音信号区間内の発音区間割合検査の各処理を示すフローチャートである。短時間音信号の時間短縮のための加工・編集処理１を示すフローチャートである。短時間音信号の時間短縮のための加工・編集処理２を示すフローチャートである。音声付き動画ファイル及び静止画ファイルに音声サムネイルを関連付けして記録する動作を説明するブロック図である。音声サムネイルの再生動作を示すフローチャートである。

符号の説明

１レンズ
２撮像部
３，３ａディスプレイ
４マイク
５オーディオ入力部
６オーディオ出力部
７スピーカ
８信号処理部
９ＣＰＵ
１０ＲＡＭ
１１ＲＯＭ
１２インターフェース
１３，１３ａメディア
１４シャッターキー
１５上下左右キー
１５ａ右キー
１５ｂ上キー
１５ｃ左キー
１５ｄ下キー
１６，１６ａ決定キー
１７メニューキー
１８モードキー
１９音声メモキー
２０記録再生装置
２１上下左右キー及び決定キー

Claims

音データが付随した画像データの記録再生装置であって、
前記音データ中に音声が存在する場合には音声信号を抽出し、音声が存在しなければ音声以外の音信号を抽出する抽出手段と、
前記抽出手段により抽出された音声信号又は音信号を、単位時間あたりの情報量を増加させて画像データに関連付けて記録する記録手段とを具備することを特徴とする記録再生装置。
前記画像データは縮小画像を含み、当該縮小画像の選択時に前記抽出手段により抽出された音声信号又は音信号を再生する再生手段を更に備えることを特徴とする請求項１に記載の記録再生装置。
前記抽出手段は、前記音データから発声信号区間を探索して音声信号を抽出することを特徴とする請求項１に記載の記録再生装置。
前記発声信号区間の音声信号を分析する手段と、
前記分析手段による分析結果に基づいて、音声信号を時間圧縮するための話速変換処理及び信号削除処理を行う手段とを更に備えることを特徴とする請求項３に記載の記録再生装置。
前記分析手段は、音声信号の、パワー、周期性、波形のゼロクロス、低域高域のパワー比の少なくとも１つを分析することを特徴とする請求項４に記載の記録再生装置。
前記抽出手段は、前記音データから発音信号区間を探索して音信号を抽出することを特徴とする請求項１に記載の記録再生装置。
前記発音信号区間の音信号を分析する手段と、
前記分析手段による分析結果に基づいて、音信号を時間圧縮するための話速変換処理及び信号削除処理を行う手段とを更に備えることを特徴とする請求項６に記載の記録再生装置。
前記分析手段は、音信号のパワーを分析することを特徴とする請求項７に記載の記録再生装置。
前記音データが付随した画像データは、音声メモデータの付随した静止画データであることを特徴とする請求項１乃至８のいずれか１項に記載の記録再生装置。
前記音データが付随した画像データは、音声付き動画データであることを特徴とする請求項１乃至８のいずれか１項に記載の記録再生装置。
前記音データが付随した画像データは、音声メモデータの付随した音声付き動画データであることを特徴とする請求項１乃至８のいずれか１項に記載の記録再生装置。
音データが付随した画像データの記録再生方法であって、
前記音データ中に音声が存在する場合には音声信号を抽出し、音声が存在しなければ音声以外の音信号を抽出する抽出工程と、
前記抽出工程により抽出された音声信号又は音信号を、単位時間あたりの情報量を増加させて画像データに関連付けて記録する記録工程とを具備することを特徴とする方法。
前記画像データは縮小画像を含み、当該縮小画像の選択時に前記抽出手段により抽出された音声信号又は音信号を再生する再生工程を更に備えることを特徴とする請求項１２に記載の方法。
前記抽出工程では、前記音データから発声信号区間を探索して音声信号を抽出することを特徴とする請求項１２に記載の方法。
前記発声信号区間の音声信号を分析する工程と、
前記分析工程による分析結果に基づいて、音声信号を時間圧縮するための話速変換処理及び信号削除処理を行う工程とを更に備えることを特徴とする請求項１４に記載の方法。
前記分析工程では、音声信号の、パワー、周期性、波形のゼロクロス、低域高域のパワー比の少なくとも１つを分析することを特徴とする請求項１５に記載の方法。
前記抽出工程では、前記音データから発音信号区間を探索して音信号を抽出することを特徴とする請求項１２に記載の方法。
前記発音信号区間の音信号を分析する工程と、
前記分析工程による分析結果に基づいて、音信号を時間圧縮するための話速変換処理及び信号削除処理を行う工程とを更に備えることを特徴とする請求項１７に記載の方法。
前記分析工程では、音信号のパワーを分析することを特徴とする請求項１８に記載の方法。
請求項１２乃至１９のいずれか１項に記載の記録再生方法をコンピュータに実行させるためのプログラム。
請求項２０に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。