JP4189653B2 - Image recording / reproducing method and image recording / reproducing apparatus - Google Patents

Image recording / reproducing method and image recording / reproducing apparatus Download PDF

Info

Publication number
JP4189653B2
JP4189653B2 JP2003109290A JP2003109290A JP4189653B2 JP 4189653 B2 JP4189653 B2 JP 4189653B2 JP 2003109290 A JP2003109290 A JP 2003109290A JP 2003109290 A JP2003109290 A JP 2003109290A JP 4189653 B2 JP4189653 B2 JP 4189653B2
Authority
JP
Japan
Prior art keywords
image
file
recording
reproducing
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2003109290A
Other languages
Japanese (ja)
Other versions
JP2004320233A (en
Inventor
俊二 岡田
恵理香 小林
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2003109290A priority Critical patent/JP4189653B2/en
Publication of JP2004320233A publication Critical patent/JP2004320233A/en
Application granted granted Critical
Publication of JP4189653B2 publication Critical patent/JP4189653B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、DSC(デジタルスチルカメラ)やカメラ付きPDA(Personal Digital Assistant)などの、画像を撮影記録し、再生する装置、および、この画像記録再生装置での画像記録再生方法に関する。
【0002】
【従来の技術】
DSCでは、撮影された画像が、定められたファイルフォーマットの画像ファイルとして、メモリカードなどのリムーバブル(着脱可能な)記録メディアに記録される。画像ファイルには、原画像(主画像)のデータのほかに、サムネイル画像(見出し用の縮小画像)のデータが付加され、原画像のデータとリンクされる。
【0003】
再生時には、サムネイル画像のデータによって、ディスプレイ上にサムネイル画像が配列表示され、そのうちのユーザーによって選択された画像が、原画像のデータによってディスプレイ上に表示される。
【0004】
ユーザーは、その表示された画像を見て、画像をプリントアウトし、パーソナルコンピュータに取り込み、または不要なものは廃棄する、などの処理を行う。
【0005】
しかし、DSCの表示画面は、もともと小さく、DSCの小型化の要請によって、さらに小さくなる傾向にある。そのため、表示された画像を見ただけでは、どのような画像であるかを確実に判断することが難しい。勿論、サムネイル画像の配列表示状態では、その判断がいっそう難しい。
【0006】
表示画面上に、画像を解説する文字を表示することも考えられているが、画面自体が小さいので、文字も大きくできないとともに、同時に多数の文字を表示できないため、十分に解説することは困難である。
【0007】
特許文献1(特許第3081304号公報)には、通信衛星を利用した放送のビジネスニュース番組など、特定の視聴者にのみ配信する映像番組を制作するに際して、データベースに用意されている多数の画像データから番組制作用の素材として利用する画像を迅速に検索することができるように、各画像の内容を説明する文の音声データをデータベースに蓄積しておき、この音声データによる音声ナレーションを聞いて画像の内容を判断することが示されている。
【0008】
【特許文献1】
特許第3081304号公報。
【0009】
【発明が解決しようとする課題】
しかしながら、上記の特許文献1に示されたような方法を、DSCによって撮影された画像に利用しようとすると、ユーザーは、撮影の都度、撮影された画像の内容を説明する文章を考え、DSCに文字を入力して、記録メディアに画像ファイルに対応づけてテキストファイルを記録し、または、文章を読み上げて、記録メディアに画像ファイルに対応づけて音声ファイルを記録しなければならず、ユーザーの負担が大きくなるだけでなく、記録メディアに記録されるファイルが多くなる。
【0010】
そこで、この発明は、ユーザーとしては簡単な操作や入力によって、または特に操作や入力を必要とすることなく、しかも、画像ファイルとは別にテキストファイルや音声ファイルを記録することなく、再生される画像がユーザーの気に入っている画像であるか否かをユーザーに的確に提示することができ、ユーザーが自分の気に入っている画像を容易かつ確実に検索することができるようにしたものである。
【0011】
【課題を解決するための手段】
第1の発明の画像記録再生方法は、
画像を撮影し、その撮影画像の原画像およびサムネイル画像を定められたファイルフォーマットの画像ファイルとして記録メディアに記録する撮影記録工程と、
当該撮影画像がユーザーの気に入った画像であるとき、ユーザーの操作に基づいて、当該撮影画像がユーザーの気に入っている画像であることを示す好感キー情報を、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録する情報記録工程と、
それぞれ前記画像ファイルとして記録されている複数の撮影画像のサムネイル画像を順次表示するサムネイル画像順次表示工程と、
このサムネイル画像順次表示工程で当該撮影画像のサムネイル画像を表示する際、当該撮影画像の画像ファイルに前記好感キー情報が記録されているか否かを判断し、記録されているときには、その好感キー情報に基づいて、当該撮影画像がユーザーの気に入っている画像であることを、音声によってメッセージするメッセージ工程と、
を備えることを特徴とする。
【0012】
第2の発明の画像記録再生方法は、
画像を撮影し、その撮影画像の原画像およびサムネイル画像を定められたファイルフォーマットの画像ファイルとして記録メディアに記録する撮影記録工程と、
前記画像ファイルとして記録されている撮影画像の原画像を再生する画像再生工程と、
この画像再生工程で当該撮影画像の原画像を再生した回数を、当該撮影画像に対するアクセス頻度として、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録するとともに、当該撮影画像の原画像を再生するごとにカウントアップする処理工程と、
それぞれ前記画像ファイルとして記録されている複数の撮影画像のサムネイル画像を順次表示するサムネイル画像順次表示工程と、
このサムネイル画像順次表示工程で当該撮影画像のサムネイル画像を表示する際、当該撮影画像の画像ファイルに記録されている前記アクセス頻度が所定値以上であるときにはそのことを、または当該撮影画像の画像ファイルに記録されている前記アクセス頻度の程度を、音声によってメッセージするメッセージ工程と、
を備えることを特徴とする。
【0013】
上記の構成の第1の発明の画像記録再生方法では、ユーザーは、当該撮影画像が自分の気に入った画像であるときには、その撮影時や撮影後所定のキーを操作するなどの簡単な操作を行うだけで、サムネイル画像順次表示工程で当該撮影画像のサムネイル画像が表示される際、「お気に入りの画像です」というような音声ナレーションや「ピンポーン」というような効果音などの音声メッセージによって、当該撮影画像が自分の気に入っている画像であることを容易かつ確実に知ることができ、当該撮影画像のサムネイル画像をクリックするなどによって、その自分が気に入っている撮影画像の原画像を容易かつ確実に再生することができる。
【0014】
上記の構成の第2の発明の画像記録再生方法では、ユーザーは、当該撮影画像が自分の気に入っている画像であるときには当該撮影画像の原画像を何度か再生するだけで、ほかに特別の操作や入力を行うことなく、サムネイル画像順次表示工程で当該撮影画像のサムネイル画像が表示される際、「お気に入りの画像です」というような音声ナレーションや「一度もアクセスされていません」というような音声ナレーションなどによって、当該撮影画像が自分の気に入っている画像であるか否かを容易かつ確実に知ることができ、当該撮影画像が自分の気に入っている画像であるときには、当該撮影画像のサムネイル画像をクリックするなどによって、その自分が気に入っている撮影画像の原画像を容易かつ確実に再生することができる。
【0015】
しかも、第1の発明における好感キー情報や、第2の発明におけるアクセス頻度データは、画像ファイルのファイルフォーマットで指定された領域に記録するので、画像ファイルとは別にテキストファイルや音声ファイルなどを記録する必要がない。
【0016】
【発明の実施の形態】
〔画像記録再生装置のシステム構成:図1〕
図1は、この発明の画像記録再生装置の一実施形態のシステム構成を示し、DSCシステムとして構成した場合である。
【0017】
このDSCシステムでは、被写体画像からの光が、撮像光学系11を介して、CCD撮像素子やCMOS撮像素子などの撮像素子12に投射されて、撮像素子12からアナログ画像信号が得られ、そのアナログ画像信号が、信号処理部13で、サンプルホールドされ、自動利得制御された後、デジタル画像データに変換される。
【0018】
記録再生処理部14では、画像記録時には、この信号処理部13からの撮影された画像のデータが圧縮される。その圧縮画像データは、システム制御部17によって、後述のようなファイルフォーマットの画像ファイルとして、リムーバブル記録メディア25に記録され、リムーバブル記録メディア25から読み出される。記録再生処理部14では、画像再生時には、この読み出された画像ファイルの圧縮画像データが伸長される。
【0019】
その伸長後の画像データは、表示処理部15で表示用に処理されて、液晶ディスプレイなどのディスプレイ16に供給され、ディスプレイ16上に再生画像が表示される。
【0020】
さらに、後述のように、リムーバブル記録メディア25に記録される、または記録された画像ファイルの、ファイルフォーマットで指定された領域(欄、フィールド、タグなどと称される領域)には、ユーザーによって入力される画像内容や撮影場所を示す情報、システム制御部17によって取得される撮影属性情報、ユーザーによって設定される感性キー情報、およびシステム制御部17によって生成されるアクセス頻度データが書き込まれ、画像再生時、これら情報から、構文構成部18で、辞書解析および構文解析によって、画像についてのメッセージ文が生成され、さらに、そのテキストから、テキスト音声合成部19で、テキスト音声合成によって、音声ナレーションのデータが生成され、音声ナレーションが出力される。
【0021】
システム制御部17は、CPU、このCPUが実行すべき処理プログラムや後述のファイルフォーマット(ファイルシステム)が記述されたプログラムメモリ、およびCPUのワークエリアなどとして機能するRAMなどを備えるものである。
【0022】
システム制御部17には、カメラ操作部21が、インターフェース22を介して接続され、文字入力用のキー操作入力部23が、インターフェース24を介して接続されるとともに、メディア用スロットに装着されたリムーバブル記録メディア25が、メディアドライブ26を介して接続される。
【0023】
リムーバブル記録メディア25としては、メモリカード、カード型HDD(ハードディスクドライブ)、リムーバブル光ディスクなどの、書き込み可能な、または書き込み消去可能な、好ましくは大容量化された書き換え可能な、不揮発性メディアを用いる。具体的に、以下の実施形態では、メモリカードを用いる。
【0024】
テキスト音声合成部19で生成された音声データは、D/Aコンバータ27でアナログ音声信号に変換され、その音声信号が音声増幅回路28で増幅されてスピーカ29に供給され、スピーカ29から音声ナレーションが出力される。
【0025】
さらに、この実施形態のDSCシステムでは、ユーザーが音声を入力し、音声ファイルとしてリムーバブル記録メディア25に記録することができるように、マイクロホン31が設けられる。
【0026】
このマイクロホン31からのアナログ音声信号は、音声増幅回路32で増幅されて、A/Dコンバータ33でデジタル音声データに変換され、その音声データが、システム制御部17に取り込まれ、記録再生処理部14で圧縮されて、音声ファイルとしてリムーバブル記録メディア25に記録され、再生時には、記録再生処理部14で伸長されて、システム制御部17からD/Aコンバータ27に送出される。
【0027】
〔ファイルフォーマットおよび画像関連情報:図2〜図7〕
(ファイルフォーマットの概要)
携帯型の撮影画像記録メディアのフォーマットとしては、Exif(Exchangeable image file format:以下ではExifファイルフォーマットと称する)が広く使用されており、そのなかでも、DSC用としては、DCF(Design rule for Camera Filesystem:以下ではDCFファイルシステムと称する)というファイルシステム(実体はDSC用フラッシュメモリのメディアファイルフォーマット)が広く採用されている。
【0028】
DCFファイルシステムおよびその基本であるExifファイルフォーマットは、DSCの撮影画像に限らず、音声ファイルのメモリカード用フォーマットとして広く使用されている。
【0029】
また、このExifファイルフォーマットおよびDCFファイルシステムでは、JPEG(Joint Photographic Experts Group)やTIFF(Tagged Image File Format)などの既存のフォーマットによる画像データとともに、ファイル作成日時などのファイル付属情報やサムネイル画像データを一つのファイルに記録することができる。
【0030】
なお、「サムネイル」は、Exif規格およびDCF規格でも定義されているように、見出し用の縮小画像であるが、場合によって「サムネイル画像」と称する。また、この発明で、サムネイル画像の配列表示とは、複数のサムネイル画像を、一行または一列に配置して表示し、または行列方向に2次元に配置して表示することである。
【0031】
以下の実施形態では、リムーバブル記録メディア25としては、上記のようにメモリカードを用い、そのファイルフォーマットとして、ExifファイルフォーマットおよびDCFファイルシステムを用いる。
【0032】
画像データの圧縮方式としては、JPEG圧縮方式を用いるが、将来のJPEG2000を初めとする進歩した圧縮方式や他の圧縮方式を用いることもできる。
【0033】
メモリカードのファイルシステムとしては、FAT(File Allocation Table)やFAT32が広く使用されているが、以下の実施形態では、メディア容量が2GByteを超える場合にもアクセス可能なFAT32ファイルシステムを用いる。
【0034】
ただし、Windows(登録商標)システムがサポートするFATやNTFS(NT File System)を用いることもでき、リムーバブル記録メディア25として光ディスクを用いる場合には、UDF(Universal Disc Format)およびその静止画対応ファイルフォーマットを用いることができる。
【0035】
Exifファイルフォーマットでは、(a)フォルダ名は英数字番号のみであり、その開始番号は100である、(b)フォルダ名およびファイル名に2バイトコードを使用することはできない、などの制限がある。
【0036】
(画像ファイルフォーマット:図2〜図4)
<DCF基本ファイル:図2および図3>
図2に、DCFファイルシステムに準拠する画像ファイルフォーマットの一例を示し、圧縮タグ“6”で圧縮サムネイルを有し、DCF基本ファイルとしてDCF基本主画像データとDCF基本サムネイルデータを同一ファイル内に有する場合である。この場合、ファイル拡張子は“JPG”である。
【0037】
図3に、DCF基本ファイル(拡張子“JPG”)がDCF基本主画像とDCF基本サムネイルとからなることを概略的に示す。
【0038】
図2に示すように、DCF基本ファイル(Exif圧縮ファイル)は、SOI(Start Of Image)で開始し、これに続いて、最大64kByteサイズのExif付属情報用のAPP(アプリケーション・マーカーセグメント)1、拡張データ用に必要に応じて追加されるAPP2(図では省略)、JPEGテーブル、およびJPEG圧縮の基本主画像データが記録され、EOI(End Of Image)で終了する。
【0039】
APP1は、APP1マーカーで開始し、これに続いて、APP1データ長、Exif識別コード、JPEGテーブル、およびExifIFDが記録される。ExifIFDは、後述のような構造とされる。
【0040】
さらに、ExifIFDに続く第1IFDで、JPEG圧縮データのアドレスおよびデータ長が指定され、その指定されたアドレスに、JPEG圧縮の基本サムネイルデータが記録される。
【0041】
このJPEG圧縮の基本サムネイルデータ(圧縮サムネイル)は、SOIで開始し、これに続いて、JPEGテーブル、およびJPEG圧縮の基本サムネイルの生ストリームデータが記録され、EOIで終了する。
【0042】
ExifIFDには、付属情報として、Exifバージョンに関するタグ、画像データの特性に関するタグ、画像構造に関するタグ、ユーザーコメントタグ、関連ファイル情報に関するタグ、日時に関するタグ、撮影条件に関するタグ、およびIFDポインタ互換性が記録される。
【0043】
関連ファイル情報タグでは、当該の画像ファイルと関連する音声ファイルなどのファイルとの相互リンクが規定される。
【0044】
ユーザーコメントタグでは、ExifIFD内のユーザーコメント欄が指定される。そのユーザーコメント欄の先頭には、ユーザーコメントの文字コードタイプが、ASCII文字8字によって指定される。日本語の場合、文字コードは、ASCII,UnicodeまたはJISであり、最も望ましいのは、Unicodeである。
【0045】
日本でのパーソナルコンピュータの事情によってShiftJISを用いる場合には、未定義コードに指定されて使用されるので、それに対応することを考えて、コード変換部や対応する翻訳部があることが望ましい。インターネット上からダウンロードしたファイルを蓄えたDCFファイルシステムのメモリカードを用いる場合にも、海外からのダウンロードへの対応を考えて、コード変換部や対応する翻訳部があることが望ましい。
【0046】
日時タグでは、ExifIFD内の日時フィールドが指定され、その日時フィールドには、システム制御部17によって決定されたファイル作成日時(撮影日時)が、撮影属性情報として記録される。
【0047】
<DCF拡張画像ファイルおよびDCFサムネイルファイル:図4>
DCFファイルシステムに準拠する画像ファイルフォーマットとしては、図4に概略的に示すように、同一フォルダ内でDCF拡張画像ファイルとDCFサムネイルファイルを別ファイルのペアとして対応づけることもできる。この場合のDCFサムネイルファイルの拡張子は、“THM”である。
【0048】
この場合には、DCFサムネイルファイル内に、ExifIFDを有するAPP1が記録され、そのExifIFD内に、ユーザーコメント欄および日時フィールドが指定される。
【0049】
<ファイルの種類および拡張子>
DCFファイルシステムでは、撮影専用のファイルヘッダが設けられ、ここで圧縮データの種別によって画像ファイルであることが示され、さらには、図2および図3のようにDCF基本主画像とDCF基本サムネイルを同一ファイル内に有するJPEG圧縮DCF基本ファイルであることを示す拡張子“JPG”、または図4のようにDCF拡張画像ファイルとDCFサムネイルファイルが別ファイルでペアとなる場合のDCFサムネイルファイルであることを示す拡張子“THM”が記録される。
【0050】
<画像関連情報>
画像ファイルのファイルフォーマットとして、以上のようなファイルフォーマットを用いる場合には、ユーザーによって入力される画像内容や撮影場所を示す文字列データ、ユーザーによって設定される感性キー情報、およびシステム制御部17によって生成されるアクセス頻度データが、ユーザーコメントデータとして、ExifIFD内のユーザーコメント欄に書き込まれ、構文構成およびテキスト音声合成による音声ナレーションの生成に供されるように、DSCシステムを構成する。
【0051】
また、撮影日時(ファイル作成日時)を示す文字列データが、システム制御部17によって撮影属性情報として、ExifIFD内の日時フィールドに書き込まれ、構文構成およびテキスト音声合成による音声ナレーションの生成に供されるように、DSCシステムを構成する。
【0052】
<フォルダ名およびファイル名>
フォルダ名は、Exifファイルフォーマットでは、上記(a)(b)の制限のもとに、「数字3桁+アルファベット5文字」が認められ、DCFファイルシステムでは、1バイトコードの集合として、「英字2文字のIM+英字5文字」が推奨されている。
【0053】
そこで、この実施形態では、図3または図4に示すように、画像ファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)とは別に、フォルダ名対照テーブルファイル9を設けて、後述のようにユーザーによって画像整理用に命名されるフォルダ名、例えば「家族」「花」「犬」などという文字列の2バイトコードと、DCFファイルシステムに準拠してシステム制御部17によって登録される上記の「数字3桁+アルファベット5文字」のフォルダ名、例えば「101AAAAA」「102AAAAA」「103AAAAA」などというコードとをリンクさせる。
【0054】
そして、後述のようにユーザーがユーザー命名のフォルダ名を選択したときには、システム制御部17は、このフォルダ名対照テーブルファイル9から、その選択されたユーザー命名のフォルダ名に対応する自動登録のフォルダ名を読み出し、そのフォルダ名が付されたフォルダを呼び出すように、DSCシステムを構成する。
【0055】
ファイル名は、DCF基本ファイルおよびDCF拡張画像ファイルでは、「(先頭4文字の英字)+(ファイル番号4文字)」からなるDCFファイル名として、順番に並べて管理するものとされ、以下の実施形態でも、これに従う。
【0056】
(音声ファイルフォーマット:図5)
図5に、Exif規格に準拠する音声ファイルフォーマットの一例を示し、「RIFF/WAVE MP3Audio」の圧縮オーディオファイルの場合である。この場合、ファイル拡張子は“WAV”または“MP3”である。
【0057】
このRIFFファイルは、「チャンク」と呼ばれるデータブロックから構成され、最上位のRIFFチャンクでは、“RIFF”というチャンクID(ckID)に続いて、RIFFチャンクのチャンクサイズ(ckSize)、および“WAVE”タイプが指定され、さらに、フォーマットチャンクで、音声符号化方式や音声チャネル数などが指定される。
【0058】
さらに、ファクトチャンクで、音声データのサンプル長が指定され、それに続いて、付属情報サブチャンクとして、INFOリストチャンクおよびExifリストチャンクが記録され、最後に、データチャンクとして、MP3圧縮形式のWAVEオーディオストリームデータが記録される。データチャンクは、チャンクID(ckID)として、ASCII文字列“data”(64617461)を開始マーカーとする。
【0059】
INFOリストチャンクでは、“LIST”というチャンクID、INFOリストチャンクのチャンクサイズ、および“INFO”というリストタイプの記録に続いて、音声ファイルのタイトル、ジャンル、ファイル作成年月日、コメント、アーティスト、および著作権情報が、それぞれASCII文字列で記載される。
【0060】
Exifリストチャンクでは、“LIST”というチャンクID、Exifリストチャンクのチャンクサイズ、および“exif”というExif専用のリストタイプの記録に続いて、規格バージョン、関連画像ファイル名、音声ファイル作成日時、作成メーカー名、作成モデル名、メーカー用ノート、およびユーザーコメントeucmというデータフィールドが記録される。
【0061】
関連画像ファイル名は、当該の音声ファイルに関連する画像ファイルがある場合に、その画像ファイルを「ファイル名.拡張子」の形式で直接指定する(ポインタは許可されない)ものであり、音声ファイル作成日時は、当該の音声ファイルの作成日時を「年:月:日:時:分:秒.サブ秒」の形式でサブ秒まで記載するものである。
【0062】
ユーザーコメントeucmは、“eucm”というチャンクID、およびユーザーコメントeucmのチャンクサイズに続いて、チャンクデータ(ckData)であるユーザーコメントが記載される。
【0063】
このユーザーコメントでは、先頭8バイトで、ASCII大文字によって文字コードタイプが指定され、それに続いて、ユーザーコメント欄が設けられる。
【0064】
文字コードは、Unicodeが望ましい。日本でのパーソナルコンピュータの事情によってShiftJISを用いる場合には、Undefinedが指定される。
【0065】
ユーザーコメント欄には、2バイトコード文字によるユーザーコメントデータとして、アーティスト名や曲名、ファイル作成日時、曲のさび部分の歌詞などが登録される。
【0066】
(画像関連情報の書き込み読み出し制御:図6および図7)
図6に、図2および図3に示したDCF基本ファイル(拡張子“JPG”)を用いる場合の、ユーザーコメントデータおよび撮影属性情報の書き込み読み出し制御の様子を示す。
【0067】
この例は、ユーザーによって、画像内容として「家族」「チワワ」「モモちゃん」の各単語が入力され、撮影場所として「自宅」の単語が入力されるとともに、システム制御部17によって、撮影日(撮影年月日)として「2002年11月21日」が取得される場合である。
【0068】
システム制御部17は、入力された「家族」「チワワ」「モモちゃん」「自宅」の各単語に、FAT32ファイルシステムのクラスタ単位で文字列コードを指定して、ユーザーコメントデータの文字列データを生成し、DCF基本ファイル内のAPP1内のExifIFD内のユーザーコメント欄に、アドレスで区切って記録し、撮影日時(ファイル作成日時)を、「年:月:日:時:分:秒.サブ秒」の形式でサブ秒まで取得して、同じExifIFD内の日時フィールドに、16進数データの撮影属性情報として記録する。
【0069】
感性キー情報は、ユーザーが当該の画像を気に入って、後述のような肯定的な操作をしたときには、システム制御部17によって“1”(Yes,ON)に設定されて、好感キー情報(当該の画像がユーザーの気に入っている画像であることを示す情報)となり、ユーザーが後述のような非肯定的な操作をし、または特に操作をしなかったときには、システム制御部17によって“0”(No,OFF)に設定されるものである。
【0070】
感性キー情報も、favoriteな属性情報として、DCF基本ファイル内のAPP1内のExifIFD内のユーザーコメント欄に、アドレスで区切って記録される。
【0071】
アクセス頻度とは、当該の画像の原画像を再生した回数である。画像を撮影し、画像ファイルとしてリムーバブル記録メディア25に記録した直後の時点では、当該の画像に対するアクセス頻度は、初期値の0(ゼロ回)とされる。
【0072】
この実施形態では、一台のDSCを、数人の家族など、複数のユーザーが共用する場合を考慮して、父親、母親、子供というユーザー別にアクセス頻度をカウントするもので、例えば、父親アクセス頻度は、後述のように、あるユーザーが、再生時、父親モードを選択した上で、当該の画像の原画像を再生した場合に、システム制御部17によって1回カウントアップされる。
【0073】
ただし、システム制御部17は、当該の画像の原画像を、数秒以上というような所定時間以上に渡ってディスプレイ16上に表示した場合にのみ、ユーザーが当該の画像を鑑賞したと判断して、アクセス頻度をカウントアップし、ユーザーの操作によって、当該の画像の原画像を、所定時間に満たない時間でしかディスプレイ16上に表示しなかった場合には、ユーザーが当該の画像を鑑賞しなかったと判断して、アクセス頻度をカウントアップしないように、DSCシステムを構成することが望ましい。
【0074】
ユーザー別のアクセス頻度を示すデータ(カウント値)も、DCF基本ファイル内のAPP1内のExifIFD内のユーザーコメント欄に、アドレスで区切って記録される。
【0075】
これらユーザーコメントデータ(画像内容情報、撮影場所情報、感性キー情報およびユーザー別アクセス頻度データ)および撮影属性情報(撮影日時のデータ)に、DCF基本ファイルへのポインタが付加されて、ソフトウェア処理上の登録キー情報クラス構造体が構成される。
【0076】
DCF基本ファイルへのポインタは、そのファイルフォーマットの論理ブロックアドレス(LBA)または論理セクタ番号(LSN)でベースアドレスを指定して、FAT32ファイルシステムのクラスタ単位でExifIFD内のユーザーコメント欄および日時フィールドに対して、データオブジェクト集合インスタンスの書き込み読み出しを制御するものである。
【0077】
日時フィールドの撮影属性情報(撮影日時のデータ)は、システム制御部17が取得し、ユーザーが記入することはできないので、ユーザーに対しては読み出し専用のパーミッション属性を持つデータである。
【0078】
これに対して、画像内容情報、撮影場所情報および感性キー情報は、ユーザーの入力または設定によって記録されるので、書き込み読み出しの双方が可能なパーミッション属性を持つデータである。ユーザー別のアクセス頻度データも、同様に、書き込み読み出しの双方が可能なパーミッション属性を持つデータである。
【0079】
上述したユーザー命名の2バイトコード文字列のフォルダ名も、同様に、ユーザーが変更可能なパーミッション属性を持つデータとする。
【0080】
また、この場合のファイル拡張子“JPG”は、DCFファイルシステムに準拠する一意のファイル拡張子であるので、ファイルを作成または削除する場合以外では、ソフトウェアによる変更が禁止される。
【0081】
図7に、図4に示したようにDCF拡張画像ファイルとDCFサムネイルファイルをペアで用いる場合の、ユーザーコメントデータおよび撮影属性情報の書き込み読み出し制御の様子を示す。
【0082】
これは、ユーザーコメントデータ(画像内容情報、撮影場所情報、感性キー情報およびユーザー別アクセス頻度データ)および撮影属性情報(撮影日時のデータ)が、DCFサムネイルファイル(拡張子“THM”)内のAPP1内のExifIFD内のユーザーコメント欄および日時フィールドに記録され、ファイルへのポインタが、DCFサムネイルファイルへのポインタとなる点を除いて、図6に示したDCF基本ファイルを用いる場合と同じである。
【0083】
〔ユーザーコメントデータの入力および記録:図8〜図10〕
(キー操作入力部23の例:図8)
画像内容や撮影場所を示す文字列の入力、および感性キーの設定は、図1に示したキー操作入力部23によって行う。
【0084】
図8に、キー操作入力部23の一例を示す。この例は、携帯電話端末などのキー操作入力部と同様に、メニュー画面の開閉やメニュー項目の選択・決定などを行う操作キー231と、文字入力キー232とを備え、操作キー231の操作によって、文字入力キー232の入力モードを、同図(A)のような数字入力モード、同図(B)のような仮名入力モード、または同図(C)のようなアルファベット入力モードに切り換えることができる場合である。
【0085】
(画像内容などの入力・設定および記録:図9および図10)
ユーザーは、以下のように、撮影時または撮影後、キー操作入力部23での操作によって、フォルダ名を命名し、画像内容および撮影場所を入力し、感性キーを設定して、画像ファイル内に記録することができる。
【0086】
撮影時、撮影された画像は、図9(A)に示すように、原画像1としてディスプレイ16上に表示され、ユーザーは撮影状態を確認することができる。
【0087】
この状態で、ユーザーがキー操作入力部23でフォルダ名のメニューを呼び出す操作をすると、図9(B)に示すように、ディスプレイ16上に、原画像1にオーバーレイされてフォルダ名メニュー画面2が表示され、ユーザーが命名できるフォルダ名が、「家族」「花」「犬」などというように幾つか提示される。
【0088】
ユーザーは、原画像1の内容に応じて、そのうちの一つ、例えば「犬」を選択する。これによって、システム制御部17は、そのユーザー指定のフォルダ名に対応づけるDCFファイルシステムに準拠するフォルダ名を決定し、上述したフォルダ名対照テーブルファイル9に記述する。
【0089】
フォルダ名を指定したら、ユーザーは、ユーザーコメントデータ用の入力画面を呼び出す。これによって、フォルダ名メニュー画面2に代えて、図9(C)に示すような入力画面3が表示される。この入力画面3は、画像内容記入欄3a、撮影場所記入欄3bおよび感性キー設定欄3cに区分されたものとされ、その撮影場所記入欄3bには、「場所:」のプロンプトが表示され、感性キー設定欄3cには、「大切?『はい』『ふつう』」のプロンプトが表示される。
【0090】
ユーザーは、画像内容記入欄3aに、画像内容として、例えば「家族」「チワワ」「モモちゃん」の文字列を、各単語の間に半角スペースまたはカンマを挿入して入力し、その後、キー操作入力部23の#キー232aを押して、入力フォーカスを撮影場所記入欄3bに移動させ、「場所:」のプロンプトが表示されている箇所に、撮影場所として、例えば「自宅」の文字列を入力し、その後、キー操作入力部23の#キー232aを押して、入力フォーカスを感性キー設定欄3cに移動させ、カーソル操作および決定操作によって、「はい」と「ふつう」のいずれかを選択する。
【0091】
これによって、システム制御部17は、上述したフォルダ名対照テーブルファイル9を参照して、例えば「犬」というユーザー指定のフォルダ名に対応する「103AAAAA」というDCFファイルシステムに準拠するフォルダ名のフォルダをファイル保存先として、ユーザー入力の画像内容および撮影場所を示す文字列データ、およびユーザー設定の感性キー情報を、上述したようにDCF基本ファイル内またはDCFサムネイルファイル内のユーザーコメント欄に書き込んだ上で、撮影された画像のファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)をメモリカードに記録する。
【0092】
このとき、図9(C)に示すように、入力画面3とともに撮影日提示画面4が表示されて、既にシステム制御部17が取得している撮影日(撮影日時)が変更不可状態で提示されることが望ましい。
【0093】
以上は、撮影された画像を記録する場合であるが、既に画像ファイルとして記録されている画像についても、ユーザーの操作によって、その画像がディスプレイ16上に呼び出され、入力画面3が表示されて、画像内容または撮影場所が入力され、感性キーが変更されることによって、未記録の画像内容情報または撮影場所情報が記録され、あるいは記録済みの画像内容情報、撮影場所情報または感性キー情報が書き換えられる。
【0094】
図10に、この画像記録後の各種情報の記録または書き換えの例を示す。この例では、ユーザーは、まず、フォルダ名のメニューを呼び出す操作をする。これによって、図10左上に示すように、ディスプレイ16上にフォルダ名メニュー画面2が表示される。
【0095】
ユーザーは、そのうちから、呼び出すフォルダのフォルダ名、例えば「犬」を指示する。これによって、システム制御部17は、上述したフォルダ名対照テーブルファイル9を参照して、例えば「犬」というユーザー指定のフォルダ名に対応する「103AAAAA」というDCFファイルシステムに準拠するフォルダ名のフォルダをファイル呼び出し先として、そのフォルダ内に記録されている各画像ファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)を、DCFファイルシステムに準拠するファイル名中のファイル番号順に読み出し、それぞれのDCF基本サムネイルまたはDCFサムネイルファイルのデータによって、図10右上に示すように、ディスプレイ16上にサムネイル画像を配列表示する。
【0096】
この状態で、ユーザーは、アイコン形状のサムネイル画像の一つを選択する。これによって、システム制御部17は、その選択された画像のファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)中のDCF基本主画像またはDCF拡張画像ファイルのデータによって、図10左下に示すように、ディスプレイ16上に、選択された画像の原画像1を表示する。
【0097】
次に、ユーザーは、ユーザーコメントデータ用の入力画面を呼び出す。これによって、図10右下に示すように、ディスプレイ16上に、原画像1にオーバーレイされて入力画面3および撮影日提示画面4が表示される。入力画面3は、画像内容記入欄3a、撮影場所記入欄3bおよび感性キー設定欄3cに区分されたものとされ、撮影日提示画面4には、記録済みの撮影日(撮影日時)が変更不可状態で表示される。
【0098】
この状態で、ユーザーは、画像内容記入欄3aに画像内容を示す文字列を入力し、または画像内容記入欄3aに記入表示されている文字列を修正し、入力フォーカスを撮影場所記入欄3bに移動させて、撮影場所記入欄3bに撮影場所を示す文字列を入力し、または撮影場所記入欄3bに記入表示されている文字列を修正し、入力フォーカスを感性キー設定欄3cに移動させて、感性キーの設定を、「はい」から「ふつう」に、または「ふつう」から「はい」に修正する。
【0099】
これによって、システム制御部17は、未記録の画像内容情報または撮影場所情報を記録し、あるいは記録済みの画像内容情報、撮影場所情報または感性キー情報を書き換える。
【0100】
〔画像の再生および音声ナレーション:図11〜図14〕
この実施形態では、画像記録後、ユーザーは、以下のような再生モードにおいて、画像を再生し、再生画像をディスプレイ16上に表示させることができるとともに、構文構成部18での構文構成およびテキスト音声合成部19でのテキスト音声合成によって、再生画像についての音声ナレーションを出力させることができる。
【0101】
なお、この場合の構文構成およびテキスト音声合成の具体的方法は、後記の〔構文構成(テキスト生成):図15および図16〕および〔テキスト音声合成:図17および図18〕で詳細に示す。
【0102】
さらに、この実施形態では、再生モードとして、通常モード、大切モード、父親モード、母親モードおよび子供モードが設定される。
【0103】
通常モードは、感性キー情報およびアクセス頻度データの如何に関係なく画像を再生する再生モードであり、大切モードは、後述のように、感性キー情報によって画像の再生を制御する再生モードであり、父親モード、母親モードまたは子供モードのユーザー別モードは、対応するユーザー別アクセス頻度データによって画像の再生を制御する再生モードである。
【0104】
(閲覧モード:図11〜図13)
サムネイル画像からユーザーによって選択された画像の原画像を再生し、ディスプレイ16上に表示する再生モードを、ここでは閲覧モードと称する。
【0105】
図11に、閲覧モードでの画像再生の例を示す。この例では、ユーザーは、まず、再生モードのメニューを呼び出す操作をする。これによって、図11(A)に示すように、ディスプレイ16上にモード選択メニュー画面5が表示される。
【0106】
ユーザーは、このモード選択メニュー画面5から、上述した通常モード、大切モード、父親モード、母親モードおよび子供モードのうちのいずれかを選択した後、フォルダ名のメニューを呼び出す操作をする。これによって、図11(B)に示すように、ディスプレイ16上にフォルダ名メニュー画面2が表示される。
【0107】
ユーザーは、そのうちから、呼び出すフォルダのフォルダ名、例えば「犬」を指示する。これによって、システム制御部17は、上述したフォルダ名対照テーブルファイル9を参照して、例えば「犬」というユーザー指定のフォルダ名に対応する「103AAAAA」というDCFファイルシステムに準拠するフォルダ名のフォルダをファイル呼び出し先として、そのフォルダ内に記録されている画像ファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)を読み出し、それぞれのDCF基本サムネイルまたはDCFサムネイルファイルのデータによって、ディスプレイ16上にサムネイル画像を配列表示する。
【0108】
この場合、ユーザーが通常モードを選択した場合には、そのフォルダ内の全ての画像ファイルが、DCFファイルシステムに準拠するファイル名中のファイル番号順に読み出され、図11(C)に示すように、フォルダ内の全ての画像のサムネイル画像が、ファイル番号順に表示される。
【0109】
また、ユーザーが大切モードを選択した場合には、そのフォルダ内の、感性キー情報が“1”(好感キー情報)とされたfavoriteな属性情報を持つ画像ファイルのみが、DCFファイルシステムに準拠するファイル名中のファイル番号順に読み出され、図11(D)に示すように、ユーザーの気に入っている画像のサムネイル画像のみが、ファイル番号順に表示される。
【0110】
また、ユーザーがユーザー別モード、例えば父親モードを選択した場合には、そのフォルダ内の、対応するユーザー別アクセス頻度、例えば父親アクセス頻度が、所定値(所定回)以上、例えば3(3回)以上の画像ファイルのみが、DCFファイルシステムに準拠するファイル名中のファイル番号順に読み出され、図11(E)に示すように、favoriteな属性情報である、対応するユーザー別アクセス頻度データ、例えば父親アクセス頻度データが、所定値以上、例えば3以上の画像のサムネイル画像のみが、ファイル番号順に表示される。
【0111】
図12の左上に示すように、図11(C)(D)または(E)のようにサムネイル画像が配列表示された状態で、ユーザーは、アイコン形状のサムネイル画像の一つを選択する。これによって、システム制御部17は、その選択された画像のファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)中のDCF基本主画像またはDCF拡張画像ファイルのデータによって、ディスプレイ16上に、選択された画像の原画像1を表示する。
【0112】
同時に、このとき、システム制御部17によって、その画像ファイルから、ユーザーコメントデータ(画像内容情報、撮影場所情報、およびfavoriteな属性情報である感性キー情報およびユーザー別アクセス頻度データ)および撮影属性情報(撮影日時のデータ)が読み出され、これらデータから、構文構成部18での構文構成によって、メッセージ文が生成され、さらに、そのメッセージ文から、テキスト音声合成部19でのテキスト音声合成によって、音声ナレーションが出力される。
【0113】
また、上記のようにユーザー別モードが選択された場合には、このとき、対応するユーザー別アクセス頻度が1回カウントアップされる。図12は、父親モードが選択された場合で、父親アクセス頻度が1回カウントアップされる。
【0114】
図13に、閲覧モードでの構文構成の例を示す。この例では、ユーザー指定のユーザー命名フォルダ名によって、「犬」という単語が選択され、画像内容を示す文字列データによって、「家族」「チワワ」「モモちゃん」という単語が選択されるとともに、構文パターンに付加する語として「この」「は」「の」「の」「です」という語が選択されて、「この犬は家族のチワワのモモちゃんです」というメッセージ文が生成され、音声ナレーションが出力される。
【0115】
また、上述したファイル種類情報またはファイル拡張子によって、記録されているファイルの種類(この場合は画像ファイル)が判別されて、「画像」という単語が選択されるとともに、撮影日時のデータによって、「2002年」「11月21日」という、年と月日に分けられた単語が選択され、撮影場所を示す文字列データによって、「自宅」という単語が選択され、構文パターンに付加する語として「この」「は」「の」「に」「で」「撮影」「しました」という語が選択されて、「この画像は2002年の11月21日に自宅で撮影しました」というメッセージ文が生成され、音声ナレーションが出力される。
【0116】
この撮影日撮影場所メッセージ中の動詞は、ファイルの種類に応じて選択されるもので、この場合には、画像データが画像ファイルとして記録されるので、動詞として「撮影」が選択される。
【0117】
さらに、その画像ファイルに記録されている感性キー情報が“1”(好感キー情報)である場合には、あらかじめ構文構成部18に備えられているテンプレートによって、「お気に入りの画像です」というメッセージ文が生成され、音声ナレーションが出力される。
【0118】
なお、この感性メッセージについては、このように音声ナレーションを出力する代わりに、上記の画像内容メッセージや撮影日撮影場所メッセージの音声ナレーションを変調し、あるいは、システム制御部17内のメモリに記録されている効果音の音声データによって、「ピンポーン」というような効果音を出力して、ユーザーの気に入っている画像であることを示すように、DSCシステムを構成してもよい。
【0119】
また、ユーザー別モードが選択された場合には、対応するユーザー別アクセス頻度が所定値以上、例えば3以上であるときには、上記の画像内容メッセージや撮影日撮影場所メッセージの音声ナレーションを半音高くし、または上記の「ピンポーン」というような効果音を半音高くするなど、再生中の画像のアクセス頻度が所定値以上であること、または再生中の画像のアクセス頻度の程度を、音声によってメッセージすると、より好ましい。
【0120】
(早見モード:図14)
さらに、この実施形態では、ユーザーは、ディスプレイ16上にサムネイル画像を順次表示させ、表示されたサムネイル画像を順次選択することによって、サムネイル画像の表示状態のまま、音声ナレーションを出力させることができる。
【0121】
図14に、この早見モードで音声ナレーションを出力する場合の例を示す。
【0122】
この場合、ユーザーは、早見モードを選択した上で、フォルダ名のメニューを呼び出す操作をする。これによって、図14左上に示すように、ディスプレイ16上にフォルダ名メニュー画面2が表示される。
【0123】
ユーザーは、そのうちから、呼び出すフォルダのフォルダ名、例えば「犬」を指示する。これによって、システム制御部17は、上述したフォルダ名対照テーブルファイル9を参照して、例えば「犬」というユーザー指定のフォルダ名に対応する「103AAAAA」というDCFファイルシステムに準拠するフォルダ名のフォルダをファイル呼び出し先として、そのフォルダ内に記録されている各画像ファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)を、DCFファイルシステムに準拠するファイル名中のファイル番号順に読み出し、それぞれのDCF基本サムネイルまたはDCFサムネイルファイルのデータによって、ディスプレイ16上にサムネイル画像を順次表示する。
【0124】
ユーザーは、その順次表示されるサムネイル画像を順次選択する。これによって、システム制御部17は、サムネイル画像データ(DCF基本サムネイルまたはDCFサムネイルファイルのデータ)によってサムネイル画像を表示した状態で、その選択された画像のファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)から、ユーザーコメントデータ(画像内容情報、撮影場所情報、感性キー情報およびユーザー別アクセス頻度データ)および撮影属性情報(撮影日時のデータ)を読み出し、構文構成部18での構文構成およびテキスト音声合成部19でのテキスト音声合成によって、図13に示した「この犬は家族のチワワのモモちゃんです」「この画像は2002年の11月21日に自宅で撮影しました」「お気に入りの画像です」というようなメッセージ文を生成し、音声ナレーションを出力する。
【0125】
さらに、システム制御部17は、このように構文構成部18によって、選択された画像についてのメッセージ文を生成しつつ、次にサムネイル画像を表示すべき、すなわち次にユーザーによって選択されるべき画像のファイル(DCF基本ファイル、またはDCF拡張画像ファイルとDCFサムネイルファイルのペア)から、サムネイル画像データ(DCF基本サムネイルまたはDCFサムネイルファイルのデータ)を読み出す。
【0126】
これによって、選択された画像についての音声ナレーションの終了後、直ちに、次のサムネイル画像がディスプレイ16上に表示され、ユーザーは迅速かつ円滑に同一フォルダ内の各画像の内容などを知ることができる。
【0127】
なお、この早見モードでも、閲覧モードと同様に、ユーザーが大切モードまたはユーザー別モードを選択することによって、サムネイル画像を表示する画像ファイルを、感性キー情報が“1”(好感キー情報)とされた画像ファイルのみ、または対応するユーザー別アクセス頻度が所定値以上の画像ファイルのみに制限するように構成すると、より好適である。
【0128】
〔構文構成(テキスト生成):図15および図16〕
上述したように、図1の構文構成部18では、画像ファイルから読み出されたユーザーコメントデータまたは撮影属性情報をもとに、辞書解析および構文解析を実行して、メッセージ文を生成する。
【0129】
図15に、この構文構成部18の一例を示す。ただし、図1に示したインターフェース22および24は省略した。
【0130】
システム制御部17から構文構成部18には、画像関連情報、カメラ状態情報およびユーザー指示情報が送出される。
【0131】
画像関連情報は、ユーザーコメントデータ(画像内容情報、撮影場所情報、感性キー情報およびユーザー別アクセス頻度データ)、撮影属性情報(撮影日時のデータ)、ユーザー命名のフォルダ名、ファイル種類情報、ファイル拡張子などである。
【0132】
カメラ状態情報は、記録モード、閲覧モード、早見モードなどのカメラモードを示す情報、使用されているアプリケーションが何語で起動されているかを示す情報、その時点の時間帯や季節を示す情報などである。
【0133】
ユーザー指示情報は、ユーザーによってカメラ操作部21またはキー操作入力部23で指示された、出力音声ナレーションの言語、速度(話速)、高さ(周波数)、音色、音量などを示す情報である。
【0134】
構文構成部18は、制御部41、情報抽出部46およびテキスト生成部50によって構成され、その制御部41は、出力言語決定モジュール42、出力内容決定モジュール43および文体決定モジュール44によって構成され、情報抽出部46には、形態素境界判定部47および翻訳装置部48が設けられる。
【0135】
出力言語決定モジュール42は、(a)アプリケーションの起動言語、(b)ユーザー命名フォルダ名やユーザーコメントデータの文字列の言語、および(c)ユーザー指定の言語から、テキスト生成部50で生成するテキスト(メッセージ文)の言語を決定するものである。
【0136】
ただし、あらかじめ(a)(b)(c)の間に優先順位を設定しておいて、優先順位の高いものに従って出力言語を決定し、または、(a)(b)(c)を同一順位として、それらの間での多数決によって出力言語を決定するように構成する。
【0137】
(b)の文字列の言語を判定する方法としては、文字列の文字コードの種別によって判定する方法、文字列の並びの特徴から判定する方法、文字列を辞書で引くことによって判定する方法などを採ることができる。
【0138】
出力内容決定モジュール43は、テキスト生成部50で生成するテキスト(メッセージ文)の内容を決定するものである。ユーザーは、ユーザー指示情報として、詳細な文を生成すべきか簡潔な文を生成すべきか、文の語数、メッセージに要する時間、および複数のメッセージを生成できる場合に生成すべき文の数や種類(画像内容メッセージ、撮影日撮影場所メッセージ、感性メッセージなど)などを指示することができるように、DSCシステムを構成する。
【0139】
文体決定モジュール44は、テキスト生成部50で生成するテキスト(メッセージ文)の文体を決定するものである。ユーザーは、ユーザー指示情報として、丁寧な文体の文を生成すべきこと、くだけた文体の文を生成すべきこと、または特定の方言の文を生成すべきことなどを指示することができるように、DSCシステムを構成する。
【0140】
情報抽出部46は、入力された画像関連情報、カメラ状態情報およびユーザー指示情報から、制御部41によって指定された情報を抽出するもので、例えば、制御部41がユーザーコメントデータをもとにテキストを生成することを指示したときには、ユーザーコメントデータの文字列データを抽出する。
【0141】
具体的に、そのユーザーコメントデータの文字列が2つ以上の意味をなす単位(形態素:単語や語句)から構成されている場合、情報抽出部46は、形態素境界判定部47によって、その文字列の形態素境界を判定して、単語や語句を抽出する。
【0142】
形態素境界判定部47での形態素境界の判定は、最長一致法または分割数最小法のような経験則による方法、文法的な接続の可能性をチェックする方法、統計的な言語モデルを使用する方法などによって実行する。
【0143】
また、ユーザーコメントデータの文字列が、形態素境界に空白などのデリミタを含む文字列である場合には、情報抽出部46は、そのデリミタを手掛かりに、それぞれの単語や語句を抽出ことができる。
【0144】
また、ユーザーコメントデータの文字列の言語が、ユーザー指定の言語と異なる場合には、情報抽出部46は、翻訳装置部48の対訳辞書などによって、文字列から抽出した単語や語句をユーザー指定の言語に翻訳するように、または、単語や語句を抽出する前の文字列をユーザー指定の言語に翻訳し、翻訳後の文字列から単語や語句を抽出するように、構文構成部18を構成することができる。
【0145】
テキスト生成部50は、制御部41からの、出力言語、出力内容および文体を指示する情報と、情報抽出部46で抽出された単語や語句の情報とに基づいて、テキスト(メッセージ文)を生成するもので、図26に示すように、文字列解析モジュール51、テンプレート選択モジュール54およびテンプレート適用モジュール57によって構成される。
【0146】
文字列解析モジュール51は、情報抽出部46で得られた単語や語句を、ルールデータベース52および辞書データベース53と照らし合わせることによって、それぞれの単語や語句に、品詞情報などの言語的な情報を付与する。
【0147】
テキスト生成部50でのテキスト生成は、単語や語句をテンプレートに当てはめることによって実現される。テンプレートとしては、「これは<名詞/名詞句>です」などが挙げられる。
【0148】
テンプレート選択モジュール54は、制御部41からの情報に基づいて、ルールデータベース55および辞書データベース56を用いて、適切なテンプレートを選択する。
【0149】
例えば、ユーザーコメントデータの画像内容を示す文字列をもとに画像内容メッセージを生成する場合には、それ用のテンプレートが選択され、撮影日および撮影場所を示す文字列をもとに撮影日撮影場所メッセージを生成する場合には、それ用のテンプレートが選択され、感性キー情報をもとに感性メッセージを生成する場合には、それ用のテンプレートが選択される。
【0150】
また、ユーザー指示情報に応じて、選択するテンプレートを変え、例えば、丁寧な文体の文を生成すべきことが指示された場合には、上記のように「これは<名詞>です」というテンプレートを選択し、くだけた文体の文を生成すべきことが指示された場合には、「これは<名詞>だよ」というテンプレートを選択する。
【0151】
テンプレート適用モジュール57は、ルールデータベース58および辞書データベース59を用いて、入力された単語や語句を、テンプレート選択モジュール54で選択されたテンプレートに当てはめて、テキスト(メッセージ文)を生成する。
【0152】
例えば、テンプレート選択モジュール54で「これは<名詞/名詞句>です」というテンプレートが選択され、文字列解析モジュール51によって単語や語句が名詞または名詞句であるとされた場合には、その単語や語句を、「これは<名詞/名詞句>です」というテンプレートの<名詞/名詞句>の部分に当てはめて、テキストを生成する。
【0153】
また、入力された単語や語句をそのまま当てはめないで、概念(thesaurus)辞書の、単語間の概念的な関係を示すデータを用いて、入力された単語や語句を、同じ概念の語、または上位概念を有する語などで置き換えて、テンプレートに当てはめるように、テキスト生成部50を構成することもできる。
【0154】
例えば、ユーザーコメントデータの画像内容を示す文字列が「赤」「薔薇」であり、文字列解析モジュール51で、それらが共に名詞であると解析され、テンプレート選択モジュール54で、「これは<“色”>の<“花”>です」というテンプレート(“色”および“花”は概念)が選択された場合、概念辞書によって、赤の上位概念が色であり、「薔薇」の上位概念が花であることが分かるので、「赤」「薔薇」という単語は、選択されたテンプレートに当てはめることができると判定されて、「これは赤の薔薇です」という文が生成される。
【0155】
解析の結果、当該の単語や語句を、そのままテンプレートに当てはめることができないことが判明することもある。例えば、情報抽出部46で「駅前で見かけた」という語句が抽出されたとする。この語句を解析すると、「名詞+格助詞+動詞+助動詞」という品詞列が得られるが、これは、上記のテンプレートに当てはまらない。しかし、この語句に「もの」という形式名詞を追加することによって、語句全体が「駅前で見かけたもの」という名詞句になり、テンプレートに当てはめることができるようになる。このように、テンプレート適用モジュール57では、入力された単語や語句を、選択されたテンプレートに当てはめることができるように変形する。
【0156】
なお、上述したカメラ状態情報によって、例えば、DSCシステムの使用時間帯に応じて、ユーザーに対する挨拶文のテキストを生成し、上記のメッセージ文に付加することもできる。
【0157】
〔テキスト音声合成:図17および図18〕
図1のテキスト音声合成部19では、上記のように構文構成部18で生成されたテキスト(メッセージ文)から、テキスト音声合成によって、音声ナレーション用の音声波形データを生成する。
【0158】
図17に、テキスト音声合成部19の一例を示す。上述したカメラ状態情報およびユーザー指示情報は、テキスト音声合成部19にも送出される。
【0159】
この例のテキスト音声合成部19は、言語処理部61、韻律制御部71および波形生成部81によって構成される。
【0160】
言語処理部61は、ルールデータベース62および辞書データベース63を用いて、構文構成部18からのテキストを解析し、テキスト音声合成に必要な情報を抽出するもので、図18に示すように、テキスト解析モジュール64および韻律情報生成モジュール67によって構成される。
【0161】
テキスト解析モジュール64は、ルールデータベース65および辞書データベース66を用いて、入力テキストを解析して、形態素(単語や語句)に分割し、それぞれの形態素につき、品詞や読みなどの情報を得るものである。
【0162】
テキスト解析モジュール64でのテキスト解析は、最長一致法または分割数最小法のような経験則による方法、文法的な接続の可能性をチェックする方法、統計的な言語モデルを使用する方法、正規文法や文脈文法などの文法を用いる方法などによって実行する。
【0163】
以上のテキスト解析によって、構文構成部18から出力されたテキスト(メッセージ文)のそれぞれの単語や語句につき、品詞や読み、アクセント型などの情報が求められる。
【0164】
韻律情報生成モジュール67は、テキスト解析モジュール64の解析結果をもとに、ルールデータベース68内の、ルール、統計的な言語モデル、決定木を用いて、アクセント核位置やポーズ位置の決定、フレージング処理など、入力テキストを音声で読み上げるために必要な情報を求めるものである。
【0165】
テキスト解析モジュール64および韻律情報生成モジュール67からなる言語処理部61で得られた解析結果および情報は、音声記号列という中間的な表現形態で出力される。
【0166】
音声記号列は、IPA(国際音声字母)やSAMPAなどの一般的な発音記号を用いて記述してもよく、あるいは独自の発音記号を定めて記述してもよい。
【0167】
図17の韻律制御部71は、言語処理部61から音声記号列を受け取り、ルールデータベース72およびデータベース73を用いて、それぞれの音(音素)の継続時間長および基本周波数を求めるもので、図18に示すように、継続時間長決定モジュール74および基本周波数決定モジュール77によって構成される。
【0168】
継続時間長決定モジュール74は、ルールデータベース75およびデータベース76中の、あらかじめ大量のデータから学習して得られた、音韻環境と音の継続時間長との関係を示すルールおよびデータを用いて、音声記号列を解析し、それぞれの音(音素)の長さを決定するものである。
【0169】
音韻環境とは、それぞれの音素の文における位置、アクセントやストレスの有無、ポーズの長さ、フレーズやアクセントの強さなどである。
【0170】
基本周波数決定モジュール77は、ルールデータベース78およびデータベース79中の、あらかじめ大量のデータから学習して得られた、音韻環境と音の基本周波数との関係を示すルールおよびデータを用いて、音声記号列を解析し、それぞれの音(音素)のピッチを決定するものである。
【0171】
継続時間長決定モジュール74および基本周波数決定モジュール77からなる韻律制御部71で求められたデータは、韻律データという中間的な表現形態で出力される。
【0172】
図17および図18の波形生成部81は、韻律制御部71から出力された韻律データに従って、音素の並び、継続時間長および基本周波数などを考慮して、素片データベース82から適切な音声素片を選択し、必要に応じて変形を施した上で接続して、音声ナレーションの音声波形を示す音声データを生成するものである。
【0173】
さらに、この例では、ユーザーは、上述したユーザー指示情報によって、テキスト音声合成部19で生成される音声ナレーションの音声波形につき、話速、声の高さ、音色、音声レベルなどを指定することができる。
【0174】
語の発音やアクセントは、年代によって変化するが、テキスト音声合成部19の各部および各モジュールが、年代ごとにルール、辞書、データ、音声素片を保持し、ユーザーによって指定された年代のルール、辞書、データ、音声素片によって、解析、生成、決定などの処理を実行することによって、テキスト音声合成部19から出力される音声ナレーションとして、ユーザーによって指定された年代の発話の特徴を反映したものが得られる。
【0175】
また、上述したカメラ状態情報によって、例えば、DSCシステムの使用時間帯に応じて、テキスト音声合成部19で生成される音声ナレーションの音声波形につき、話速、声の高さ、音色、音声レベルなどを変化させ、例えば、朝には声を高くし、深夜には音声レベルを下げるなどの制御を行うことができる。また、季節や特定日に合わせて、テキスト音声合成による音声にBGMを付加することもできる。
【0176】
図1で上述したように、テキスト音声合成部19で生成された音声データは、D/Aコンバータ27でアナログ音声信号に変換され、その音声信号が音声増幅回路28で増幅されてスピーカ29に供給され、スピーカ29から音声ナレーションが出力される。
【0177】
〔他の実施形態〕
上述した実施形態は、ユーザー入力の撮影場所を示す文字列データを、ユーザーコメントデータとして画像ファイルのユーザーコメント欄に書き込み、画像再生時、「この画像は2002年の11月21日に自宅で撮影しました」というようなメッセージ文を生成し、音声ナレーションを出力する場合であるが、DSCシステムにGPS(Global Positioning System)受信機を設け、または接続できるようにし、このGPS受信機で測定された撮影位置を、ユーザーコメントデータとして画像ファイルのユーザーコメント欄に書き込み、画像再生時、「この画像は2002年の11月21日に北緯35度25分、東経138度54分の場所で撮影しました」というようなメッセージ文を生成し、音声ナレーションを出力するように、システムを構成することもできる。
【0178】
さらに、DSCシステムまたはCPU受信機が地図メモリを備え、撮影時、その地図メモリを参照して、GPS受信機で測定された「北緯35度25分、東経138度54分」というような撮影位置を、「山中湖近傍」というような撮影場所に変換して、ユーザーコメントデータとして画像ファイルのユーザーコメント欄に書き込み、画像再生時、「この画像は2002年の11月21日に山中湖近傍で撮影しました」というようなメッセージ文を生成し、音声ナレーションを出力するように、システムを構成することもできる。
【0179】
なお、上述した実施形態は、画像ファイルフォーマットとしてExifファイルフォーマットのDCFファイルシステムを用いる場合であるが、将来的に考えられるファイルフォーマットまたはファイルシステムを用いることもできる。
【0180】
また、上述した実施形態は、この発明をDSCに適用した場合であるが、この発明は、DSCに限らず、カメラ付きPDAやカメラ付き携帯電話端末などにも適用することができる。
【0181】
また、カメラ一体型ポータブルディスク装置に適用する場合にも、DCFファイルシステムの拡張ファイルシステムでの実施形態と同様に、インデックスファイルが別ファイルで構成されて、外部参照ファイルとして主画像、映像、音声ファイルを持ち、さらにユーザーデータ領域を外部参照ファイルとして持ち、それらのファイルにアクセスする、Audio&Visualコンテンツファイル用のナビゲーションファイルシステムやプレイリスト、Audio&Visualコンテンツファイルへのアクセスのためのインデックスファイルシステムに用いることができる。
【0182】
【発明の効果】
上述したように、この発明によれば、ユーザーとしては簡単な操作や入力によって、または特に操作や入力を必要とすることなく、再生される画像がユーザーの気に入っている画像であるか否かをユーザーに的確に提示することができ、ユーザーは自分の気に入っている画像を容易かつ確実に検索することができる。
【0183】
しかも、音声メッセージの出力のために画像ファイルとは別の音声ファイルなどにアクセスする必要がないので、記録メディアが光ディスクのようなメディア上のシークに時間がかかるものである場合でも、画像の再生および音声メッセージの出力のためのファイルへのアクセス時間が増加することがない。
【0184】
さらに、画像ファイルとは別に音声ファイルなどを記録する必要がないので、ファイル書き込み回数が増加することがなく、記録メディアとして、書き込み回数に制限のあるメモリや、一括して書き込み消去を行う必要のある、例えばフラッシュメモリを用いたメモリカードを用いる場合、記録メディアを長く使用することができる。
【図面の簡単な説明】
【図1】この発明の画像記録再生装置の一実施形態のDSCシステムを示す図である。
【図2】画像ファイルフォーマットの一例を示す図である。
【図3】フォルダ名対照テーブルファイルと画像ファイルの一例を示す図である。
【図4】フォルダ名対照テーブルファイルと画像ファイルの他の例を示す図である。
【図5】音声ファイルフォーマットの一例を示す図である。
【図6】画像関連情報の書き込み読み出し制御の一例を示す図である。
【図7】画像関連情報の書き込み読み出し制御の他の例を示す図である。
【図8】キー操作入力部の一例を示す図である。
【図9】ユーザーコメントデータの入力方法の一例を示す図である。
【図10】ユーザーコメントデータの入力方法の他の例を示す図である。
【図11】閲覧モードの説明に供する図である。
【図12】閲覧モードの説明に供する図である。
【図13】閲覧モードでの構文構成の説明に供する図である。
【図14】早見モードの説明に供する図である。
【図15】構文構成部の一例を示す図である。
【図16】構文構成部中のテキスト生成部の一例を示す図である。
【図17】テキスト音声合成部の一例を示す図である。
【図18】テキスト音声合成部の各部の具体例を示す図である。
【符号の説明】
主要部については図中に全て記述したので、ここでは省略する。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an apparatus for capturing and recording an image, such as a DSC (digital still camera) and a PDA (Personal Digital Assistant) with a camera, and an image recording / reproducing method in the image recording / reproducing apparatus.
[0002]
[Prior art]
In DSC, a captured image is recorded on a removable recording medium such as a memory card as an image file in a predetermined file format. In addition to the original image (main image) data, thumbnail image (headline reduced image) data is added to the image file and linked to the original image data.
[0003]
At the time of reproduction, thumbnail images are arranged and displayed on the display based on the thumbnail image data, and an image selected by the user is displayed on the display based on the original image data.
[0004]
The user sees the displayed image, prints out the image, takes it into a personal computer, or performs processing such as discarding unnecessary ones.
[0005]
However, the display screen of the DSC is originally small and tends to become even smaller due to the demand for downsizing of the DSC. For this reason, it is difficult to reliably determine what kind of image it is simply by looking at the displayed image. Of course, in the arrangement display state of thumbnail images, the determination is even more difficult.
[0006]
It is also possible to display characters that explain the image on the display screen, but because the screen itself is small, the characters cannot be enlarged and many characters cannot be displayed at the same time, so it is difficult to fully explain them. is there.
[0007]
Patent Document 1 (Japanese Patent No. 3081304) discloses a large number of image data prepared in a database when producing a video program that is distributed only to a specific viewer, such as a broadcast business news program using a communication satellite. In order to quickly search for images to be used as material for program production, audio data of sentences describing the contents of each image is stored in a database, and voice narrations based on this audio data are listened to It is shown to judge the contents of
[0008]
[Patent Document 1]
Japanese Patent No. 3081304.
[0009]
[Problems to be solved by the invention]
However, when trying to use the method shown in Patent Document 1 described above for an image photographed by DSC, the user considers a sentence explaining the content of the photographed image every time the photograph is taken, and The user must input characters and record a text file in association with the image file on the recording medium, or read a sentence and record an audio file in association with the image file on the recording medium. Not only increases, but also the number of files recorded on the recording medium increases.
[0010]
Therefore, the present invention provides an image to be reproduced by a simple operation or input as a user, or without any special operation or input, and without recording a text file or an audio file separately from the image file. It is possible to accurately present to the user whether or not the image is the one that the user likes, and the user can easily and reliably search for the image that the user likes.
[0011]
[Means for Solving the Problems]
  The image recording / reproducing method of the first invention comprises:
  Take a picture,The original image and thumbnail image of the captured imageA shooting and recording step of recording on a recording medium as an image file of a predetermined file format;
  When the captured image is the user's favorite image,Based on user actions,The photographed imageFavorable key information that indicates that is the user ’s favorite image,Of the captured imageAn information recording step for recording in an area specified by the file format of the image file;
  Thumbnail image sequential display step for sequentially displaying thumbnail images of a plurality of photographed images recorded as the image files.When,
  When displaying the thumbnail image of the captured image in the thumbnail image sequential display step, it is determined whether or not the likability key information is recorded in the image file of the captured image.Based on likable key information,The photographed imageA message process that voices messages that the user likes
  It is characterized by providing.
[0012]
  The image recording / reproducing method of the second invention comprises:
  Take a picture,The original image and thumbnail image of the captured imageA shooting and recording step of recording on a recording medium as an image file of a predetermined file format;
  Recorded as the image fileThe original image of the captured imageAn image reproduction process to be reproduced;
  The captured image in this image reproduction processThe number of times the original image ofThe photographed imageAs an access frequency forOf the captured imageRecord in the area specified by the file format of the image file,The photographed imageProcess that counts up each time the original image is played,
  A thumbnail image sequential display step for sequentially displaying thumbnail images of a plurality of captured images, each recorded as the image file;
  When displaying the thumbnail image of the photographed image in the thumbnail image sequential display step, if the access frequency recorded in the image file of the photographed image is equal to or higher than a predetermined value, or that image file of the photographed image A message step of voice-speaking the degree of access frequency recorded in
  It is characterized by providing.
[0013]
  The above configurationThe first ofIn the image recording / reproducing method of the invention, the userThe photographed imageIs your favorite image,ThatDuring and after shootingInJust perform a simple operation such as operating a given key.When thumbnail images of the captured images are displayed in the thumbnail image sequential display process, Voice narrations like “This is your favorite image” or sound messages like “Ping Pong”The photographed imageIs my favorite imageThatEasy and reliableYou can know and easily and surely reproduce the original image of the captured image that you like by clicking the thumbnail image of the captured image.be able to.
[0014]
  The above configurationSecond ofIn the image recording / reproducing method of the invention, the userThe shot image isFavorite imageWhen the image isYou can play the original image several times without any additional operations or input.When the thumbnail image of the captured image is displayed in the thumbnail image sequential display process, the captured image is displayed by a voice narration such as “This is a favorite image” or a voice narration such as “Never accessed” Can easily and reliably know whether or not it is an image that you like. If the captured image is your favorite image, you can click the thumbnail image of the captured image to Easy and reliable playback of original images taken bybe able to.
[0015]
Moreover, since the likability key information in the first invention and the access frequency data in the second invention are recorded in the area specified by the file format of the image file, a text file, an audio file, etc. are recorded separately from the image file. There is no need to do.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
[System Configuration of Image Recording / Reproducing Apparatus: FIG. 1]
FIG. 1 shows a system configuration of an embodiment of an image recording / reproducing apparatus according to the present invention, which is configured as a DSC system.
[0017]
In this DSC system, light from a subject image is projected onto an image pickup device 12 such as a CCD image pickup device or a CMOS image pickup device via an image pickup optical system 11, and an analog image signal is obtained from the image pickup device 12. The image signal is sampled and held by the signal processing unit 13 and subjected to automatic gain control, and then converted into digital image data.
[0018]
The recording / playback processing unit 14 compresses the captured image data from the signal processing unit 13 during image recording. The compressed image data is recorded on the removable recording medium 25 and read from the removable recording medium 25 as an image file having a file format as described below by the system control unit 17. The recording / playback processing unit 14 decompresses the compressed image data of the read image file at the time of image playback.
[0019]
The decompressed image data is processed for display by the display processing unit 15 and supplied to a display 16 such as a liquid crystal display, and a reproduced image is displayed on the display 16.
[0020]
Further, as will be described later, an area (called a field, field, tag, or the like) specified by the file format of an image file recorded on or recorded on the removable recording medium 25 is input by the user. Information indicating the image content and shooting location to be captured, shooting attribute information acquired by the system control unit 17, sensitivity key information set by the user, and access frequency data generated by the system control unit 17 are written and image playback is performed. At this time, a message sentence about an image is generated from the above information by dictionary analysis and syntax analysis in the syntax construction unit 18, and further, voice narration data is generated from the text by text speech synthesis in the text speech synthesis unit 19. Is generated and voice narration is output.
[0021]
The system control unit 17 includes a CPU, a program memory in which a processing program to be executed by the CPU and a file format (file system) described later are described, and a RAM that functions as a work area of the CPU.
[0022]
A camera operation unit 21 is connected to the system control unit 17 via an interface 22, and a key operation input unit 23 for inputting characters is connected via an interface 24, and a removable device installed in a media slot. A recording medium 25 is connected via a media drive 26.
[0023]
As the removable recording medium 25, a writable or writable / erasable, preferably rewritable, non-volatile medium such as a memory card, a card-type HDD (hard disk drive), or a removable optical disk is used. Specifically, in the following embodiment, a memory card is used.
[0024]
The voice data generated by the text-to-speech synthesizer 19 is converted into an analog voice signal by the D / A converter 27, the voice signal is amplified by the voice amplifier circuit 28 and supplied to the speaker 29, and voice narration is performed from the speaker 29. Is output.
[0025]
Furthermore, in the DSC system of this embodiment, the microphone 31 is provided so that the user can input a sound and record it on the removable recording medium 25 as a sound file.
[0026]
The analog audio signal from the microphone 31 is amplified by the audio amplifying circuit 32, converted into digital audio data by the A / D converter 33, and the audio data is taken into the system control unit 17, and the recording / reproduction processing unit 14 And is recorded on the removable recording medium 25 as an audio file. At the time of reproduction, it is decompressed by the recording / reproduction processing unit 14 and sent from the system control unit 17 to the D / A converter 27.
[0027]
[File format and image related information: FIGS. 2 to 7]
(Overview of file format)
Exif (Exchangeable image file format: hereinafter referred to as “Exif file format”) is widely used as a format of portable photographic image recording media, and among them, DCF (Design rule for Camera Filesystem) is used for DSC. : Hereinafter referred to as a DCF file system), a file system (substantially a media file format of a DSC flash memory) is widely adopted.
[0028]
The DCF file system and the basic Exif file format are not limited to DSC captured images, but are widely used as audio file memory card formats.
[0029]
In addition, this Exif file format and DCF file system include image data in existing formats such as JPEG (Joint Photographic Experts Group) and TIFF (Tagged Image File Format) as well as file attachment information such as file creation date and thumbnail image data. Can be recorded in one file.
[0030]
The “thumbnail” is a reduced image for a headline as defined in the Exif standard and the DCF standard, but is sometimes referred to as a “thumbnail image”. Further, in the present invention, the arrangement display of thumbnail images is to display a plurality of thumbnail images arranged in one row or column, or arranged two-dimensionally in the matrix direction.
[0031]
In the following embodiment, a memory card is used as the removable recording medium 25 as described above, and an Exif file format and a DCF file system are used as its file format.
[0032]
The JPEG compression method is used as the image data compression method, but an advanced compression method such as JPEG2000 in the future or other compression methods can also be used.
[0033]
As the file system of the memory card, FAT (File Allocation Table) and FAT32 are widely used. In the following embodiment, an FAT32 file system that can be accessed even when the media capacity exceeds 2 GB is used.
[0034]
However, FAT or NTFS (NT File System) supported by the Windows (registered trademark) system can also be used. When an optical disk is used as the removable recording medium 25, UDF (Universal Disc Format) and its still image compatible file format are used. Can be used.
[0035]
In the Exif file format, there are restrictions such as (a) the folder name is only an alphanumeric number and its start number is 100, and (b) a 2-byte code cannot be used for the folder name and file name. .
[0036]
(Image file format: Figs. 2 to 4)
<DCF basic file: FIGS. 2 and 3>
FIG. 2 shows an example of an image file format conforming to the DCF file system. The compression tag “6” has a compressed thumbnail, and the DCF basic file includes DCF basic main image data and DCF basic thumbnail data in the same file. Is the case. In this case, the file extension is “JPG”.
[0037]
FIG. 3 schematically shows that a DCF basic file (extension “JPG”) includes a DCF basic main image and a DCF basic thumbnail.
[0038]
As shown in FIG. 2, a DCF basic file (Exif compressed file) starts with SOI (Start Of Image), followed by APP (Application Marker Segment) 1 for Exif attached information of a maximum size of 64 kBytes. APP2 (not shown in the figure), JPEG table, and basic main image data of JPEG compression added as necessary for the extended data are recorded, and the process ends with an EOI (End Of Image).
[0039]
APP1 starts with an APP1 marker, followed by the APP1 data length, Exif identification code, JPEG table, and Exif IFD. The Exif IFD has a structure as described below.
[0040]
Further, in the first IFD following the Exif IFD, the address and data length of the JPEG compressed data are designated, and JPEG compressed basic thumbnail data is recorded at the designated address.
[0041]
The basic thumbnail data (compressed thumbnail) of JPEG compression starts with SOI, and subsequently, the JPEG table and the raw stream data of the basic thumbnail of JPEG compression are recorded, and ends with EOI.
[0042]
Exif IFD includes, as attached information, a tag related to the Exif version, a tag related to image data characteristics, a tag related to image structure, a user comment tag, a tag related to related file information, a tag related to date and time, a tag related to shooting conditions, and IFD pointer compatibility. To be recorded.
[0043]
In the related file information tag, a mutual link between the image file and a file such as a sound file related to the image file is defined.
[0044]
In the user comment tag, a user comment field in the Exif IFD is designated. At the top of the user comment field, the character code type of the user comment is designated by eight ASCII characters. In the case of Japanese, the character code is ASCII, Unicode, or JIS, and most preferably is Unicode.
[0045]
When ShiftJIS is used due to personal computer circumstances in Japan, it is specified and used as an undefined code. Therefore, it is desirable to have a code conversion unit and a corresponding translation unit in consideration of corresponding to it. Even when a memory card of a DCF file system storing files downloaded from the Internet is used, it is desirable to have a code conversion unit and a corresponding translation unit in consideration of support for downloading from overseas.
[0046]
In the date / time tag, a date / time field in the Exif IFD is designated, and the file creation date / time (shooting date / time) determined by the system control unit 17 is recorded in the date / time field as shooting attribute information.
[0047]
<DCF extended image file and DCF thumbnail file: FIG. 4>
As an image file format conforming to the DCF file system, as schematically shown in FIG. 4, a DCF extended image file and a DCF thumbnail file can be associated as a pair of different files in the same folder. In this case, the extension of the DCF thumbnail file is “THM”.
[0048]
In this case, APP1 having an Exif IFD is recorded in the DCF thumbnail file, and a user comment field and a date / time field are designated in the Exif IFD.
[0049]
<File type and extension>
In the DCF file system, a shooting-specific file header is provided, which indicates that the file is an image file depending on the type of compressed data. Further, as shown in FIGS. 2 and 3, a DCF basic main image and a DCF basic thumbnail are displayed. The extension “JPG” indicating that it is a JPEG compressed DCF basic file in the same file, or a DCF thumbnail file when a DCF extended image file and a DCF thumbnail file are paired as separate files as shown in FIG. An extension “THM” is recorded.
[0050]
<Image related information>
When the above file format is used as the file format of the image file, the image data input by the user and the character string data indicating the shooting location, the sensitivity key information set by the user, and the system control unit 17 The DSC system is configured so that the generated access frequency data is written as user comment data in the user comment field in Exif IFD and used for generating voice narration by syntactic configuration and text-to-speech synthesis.
[0051]
Further, the character string data indicating the shooting date and time (file creation date and time) is written as shooting attribute information by the system control unit 17 in the date and time field in the Exif IFD, and is used for generation of voice narration by syntactic structure and text-to-speech synthesis. Thus, the DSC system is configured.
[0052]
<Folder name and file name>
In the Exif file format, “3 digits + 5 alphabetic characters” is recognized in the Exif file format under the restrictions (a) and (b). "2 IM + 5 English letters" is recommended.
[0053]
Therefore, in this embodiment, as shown in FIG. 3 or FIG. 4, a folder name comparison table file 9 is provided separately from the image file (DCF basic file or DCF extended image file and DCF thumbnail file pair). As will be described later, a folder name named for image organization by the user, for example, a 2-byte code of a character string such as “family”, “flower”, “dog”, etc., and registered by the system control unit 17 in accordance with the DCF file system. The folder name of the above “3 digits + 5 alphabetic characters”, for example, codes such as “101AAAAAA”, “102AAAAAA”, “103AAAAAA”, etc. are linked.
[0054]
As will be described later, when the user selects a user-named folder name, the system control unit 17 selects the automatically registered folder name corresponding to the selected user-named folder name from the folder name comparison table file 9. And the DSC system is configured to call the folder with the folder name.
[0055]
In the DCF basic file and the DCF extended image file, the file name is managed in order as a DCF file name consisting of “(first 4 alphabetic characters) + (file number 4 characters)”. But follow this.
[0056]
(Audio file format: Fig. 5)
FIG. 5 shows an example of an audio file format compliant with the Exif standard, which is a case of a compressed audio file of “RIFF / WAVE MP3Audio”. In this case, the file extension is “WAV” or “MP3”.
[0057]
This RIFF file is composed of data blocks called “chunks”. In the highest-order RIFF chunk, a chunk ID (ckID) “RIFF” is followed by a chunk size (ckSize) of the RIFF chunk and a “WAVE” type. Furthermore, the audio coding method and the number of audio channels are specified in the format chunk.
[0058]
Further, the sample length of the audio data is specified in the fact chunk, and subsequently, the INFO list chunk and the Exif list chunk are recorded as the auxiliary information sub chunk, and finally, the WAVE audio stream in the MP3 compression format is recorded as the data chunk. Data is recorded. The data chunk uses an ASCII character string “data” (64617461) as a start marker as a chunk ID (ckID).
[0059]
In the INFO list chunk, following the recording of the chunk ID “LIST”, the chunk size of the INFO list chunk, and the list type “INFO”, the title of the audio file, genre, date of creation, comment, artist, and Copyright information is described in ASCII character strings.
[0060]
In the Exif list chunk, following the recording of the chunk ID “LIST”, the chunk size of the Exif list chunk, and the list type dedicated to Exif “exif”, the standard version, related image file name, audio file creation date, creation manufacturer A data field of name, created model name, manufacturer's note, and user comment eucm is recorded.
[0061]
When there is an image file related to the relevant audio file, the related image file name directly specifies the image file in the format of “file name.extension” (pointer is not allowed). The date and time describes the creation date and time of the audio file in the format of “year: month: day: hour: minute: second. Subsecond” up to the subsecond.
[0062]
In the user comment eucm, a chunk ID “eucm” and a chunk size of the user comment eucm are followed by a user comment which is chunk data (ckData).
[0063]
In this user comment, the character code type is designated by ASCII uppercase letters in the first 8 bytes, followed by a user comment field.
[0064]
The character code is preferably Unicode. When ShiftJIS is used due to personal computer circumstances in Japan, Undefined is designated.
[0065]
In the user comment field, artist name, song name, file creation date and time, lyrics of the rust portion of the song, etc. are registered as user comment data using 2-byte code characters.
[0066]
(Image related information writing / reading control: FIGS. 6 and 7)
FIG. 6 shows how user comment data and shooting attribute information are written and read when the DCF basic file (extension “JPG”) shown in FIGS. 2 and 3 is used.
[0067]
In this example, the words “family”, “Chihuahua”, and “Momo-chan” are input by the user as the image contents, the word “home” is input as the shooting location, and the shooting date ( In this case, “November 21, 2002” is acquired as the shooting date).
[0068]
The system control unit 17 designates a character string code in the cluster unit of the FAT32 file system for each word of “family”, “Chihuahua”, “Momo-chan”, and “home” that has been input, and sets character string data of user comment data. Generated and recorded in the user comment field in ExifIFD in APP1 in the DCF basic file, separated by address, and the shooting date and time (file creation date and time) is “year: month: day: hour: minute: second.subsecond. ”In the format“ ”and is recorded as shooting attribute information of hexadecimal data in the date / time field in the same Exif IFD.
[0069]
Sensitivity key information is set to “1” (Yes, ON) by the system control unit 17 when the user likes the image and performs an affirmative operation as described later. When the user performs an affirmative operation as described later or does not perform any particular operation, the system control unit 17 sets “0” (No , OFF).
[0070]
Sensitivity key information is also recorded as favorite attribute information in the user comment column in the Exif IFD in the APP 1 in the DCF basic file, separated by an address.
[0071]
The access frequency is the number of times an original image of the image is reproduced. Immediately after an image is taken and recorded as an image file on the removable recording medium 25, the access frequency for the image is set to 0 (zero times) as an initial value.
[0072]
In this embodiment, in consideration of a case where a single DSC is shared by a plurality of users such as several families, the access frequency is counted for each user such as father, mother, and child. As described later, when a certain user selects the father mode during reproduction and reproduces the original image of the image, the system control unit 17 counts up once.
[0073]
However, the system control unit 17 determines that the user has viewed the image only when the original image of the image is displayed on the display 16 for a predetermined time such as several seconds or more. When the access frequency is counted up and the original image of the image is displayed on the display 16 only by a user operation within a predetermined time, the user does not view the image. It is desirable to configure the DSC system so that the access frequency is not counted up.
[0074]
Data indicating the access frequency for each user (count value) is also recorded in the user comment field in the Exif IFD in the APP 1 in the DCF basic file, separated by address.
[0075]
A pointer to the DCF basic file is added to the user comment data (image content information, shooting location information, sensitivity key information and user-specific access frequency data) and shooting attribute information (shooting date / time data), and software processing is performed. A registration key information class structure is constructed.
[0076]
The pointer to the DCF basic file is designated by the logical block address (LBA) or logical sector number (LSN) of the file format in the user comment column and date / time field in the ExifIFD in the FAT32 file system cluster unit. On the other hand, it controls writing and reading of the data object set instance.
[0077]
The shooting attribute information (data of shooting date / time) in the date / time field is acquired by the system control unit 17 and cannot be entered by the user, and is data having a read-only permission attribute for the user.
[0078]
On the other hand, the image content information, the shooting location information, and the sensitivity key information are data having a permission attribute that allows both writing and reading because they are recorded by user input or setting. Similarly, access frequency data for each user is data having a permission attribute that allows both writing and reading.
[0079]
Similarly, the folder name of the user-named 2-byte code character string is data having a permission attribute that can be changed by the user.
[0080]
Further, since the file extension “JPG” in this case is a unique file extension that conforms to the DCF file system, changes by software are prohibited except when a file is created or deleted.
[0081]
FIG. 7 shows how user comment data and shooting attribute information are written and read when a DCF extended image file and a DCF thumbnail file are used in pairs as shown in FIG.
[0082]
This is because the user comment data (image content information, shooting location information, sensitivity key information and user-specific access frequency data) and shooting attribute information (shooting date / time data) are stored in the APP1 in the DCF thumbnail file (extension “THM”). 6 is the same as the case of using the DCF basic file shown in FIG. 6 except that the file is recorded in the user comment field and the date / time field in the Exif IFD and the pointer to the file becomes a pointer to the DCF thumbnail file.
[0083]
[Input and record of user comment data: FIGS. 8 to 10]
(Example of key operation input unit 23: FIG. 8)
The input of a character string indicating the image content and the shooting location and the setting of the sensitivity key are performed by the key operation input unit 23 shown in FIG.
[0084]
FIG. 8 shows an example of the key operation input unit 23. This example includes an operation key 231 for opening / closing a menu screen and selecting / determining a menu item, and a character input key 232, similar to a key operation input unit such as a mobile phone terminal. The input mode of the character input key 232 can be switched to a numeric input mode as shown in FIG. 5A, a kana input mode as shown in FIG. 5B, or an alphabet input mode as shown in FIG. If you can.
[0085]
(Input / setting and recording of image contents, etc .: FIGS. 9 and 10)
As described below, the user can name the folder, input the image content and the shooting location, set the sensitivity key, and set the sensitivity key in the image file by operating the key operation input unit 23 during or after shooting. Can be recorded.
[0086]
At the time of photographing, the photographed image is displayed on the display 16 as the original image 1 as shown in FIG. 9A, and the user can check the photographing state.
[0087]
In this state, when the user performs an operation for calling a folder name menu using the key operation input unit 23, the folder name menu screen 2 is overlaid on the original image 1 on the display 16 as shown in FIG. 9B. Several folder names are displayed such as “family”, “flower”, “dog”, etc., which are displayed and can be named by the user.
[0088]
The user selects one of them, for example, “dog” according to the contents of the original image 1. As a result, the system control unit 17 determines a folder name conforming to the DCF file system to be associated with the user-specified folder name and describes it in the folder name comparison table file 9 described above.
[0089]
After specifying the folder name, the user calls up an input screen for user comment data. Thus, instead of the folder name menu screen 2, an input screen 3 as shown in FIG. 9C is displayed. The input screen 3 is divided into an image content entry column 3a, a shooting location entry column 3b, and a sensitivity key setting column 3c. In the shooting location entry column 3b, a prompt “Location:” is displayed. In the sensitivity key setting field 3c, a prompt “Important?“ Yes ”“ Normal ”” is displayed.
[0090]
The user enters, for example, a character string of “family”, “chihuahua”, “peach-chan” into the image content entry field 3a by inserting a single-byte space or comma between each word, and then performing a key operation By pressing the # key 232a of the input unit 23, the input focus is moved to the shooting location entry field 3b, and, for example, a character string “Home” is input as the shooting location at the location where the “Location:” prompt is displayed. Thereafter, the # key 232a of the key operation input unit 23 is pressed to move the input focus to the sensitivity key setting field 3c, and either “Yes” or “Normal” is selected by the cursor operation and the determination operation.
[0091]
As a result, the system control unit 17 refers to the folder name comparison table file 9 described above and, for example, selects a folder with a folder name that conforms to the DCF file system “103AAAA” corresponding to the user-specified folder name “dog”. As the file storage destination, the character string data indicating the image content and shooting location input by the user and the sensitivity key information set by the user are written in the user comment field in the DCF basic file or DCF thumbnail file as described above. The captured image file (a DCF basic file or a pair of a DCF extended image file and a DCF thumbnail file) is recorded on a memory card.
[0092]
At this time, as shown in FIG. 9C, the shooting date presentation screen 4 is displayed together with the input screen 3, and the shooting date (shooting date and time) already acquired by the system control unit 17 is presented in an unchangeable state. It is desirable.
[0093]
The above is a case where a captured image is recorded, but an image that has already been recorded as an image file is also called on the display 16 by the user's operation, and the input screen 3 is displayed. By inputting the image content or shooting location and changing the sensitivity key, the unrecorded image content information or shooting location information is recorded, or the recorded image content information, shooting location information or sensitivity key information is rewritten. .
[0094]
FIG. 10 shows an example of recording or rewriting various information after this image recording. In this example, the user first performs an operation for calling a folder name menu. As a result, the folder name menu screen 2 is displayed on the display 16 as shown in the upper left of FIG.
[0095]
The user then instructs the folder name of the folder to be called, for example “dog”. As a result, the system control unit 17 refers to the folder name comparison table file 9 described above and, for example, selects a folder with a folder name that conforms to the DCF file system “103AAAA” corresponding to the user-specified folder name “dog”. As a file call destination, each image file (a DCF basic file or a pair of a DCF extended image file and a DCF thumbnail file) recorded in the folder is read in the order of the file number in the file name conforming to the DCF file system, As shown in the upper right of FIG. 10, thumbnail images are arranged and displayed on the display 16 according to the data of each DCF basic thumbnail or DCF thumbnail file.
[0096]
In this state, the user selects one of the icon-shaped thumbnail images. Accordingly, the system control unit 17 uses the data of the DCF basic main image or DCF extended image file in the selected image file (DCF basic file or a pair of DCF extended image file and DCF thumbnail file) according to the data of FIG. As shown in the lower left, the original image 1 of the selected image is displayed on the display 16.
[0097]
Next, the user calls up an input screen for user comment data. As a result, as shown in the lower right of FIG. 10, the input screen 3 and the photographing date presentation screen 4 are displayed on the display 16 so as to be overlaid on the original image 1. The input screen 3 is divided into an image content entry field 3a, a shooting location entry field 3b, and a sensitivity key setting field 3c, and the recorded shooting date (shooting date and time) cannot be changed on the shooting date presentation screen 4. Displayed with status.
[0098]
In this state, the user inputs a character string indicating the image content in the image content entry field 3a or corrects the character string entered and displayed in the image content entry field 3a, and changes the input focus to the shooting location entry field 3b. The character string indicating the shooting location is input to the shooting location entry field 3b or the character string entered and displayed in the shooting location entry column 3b is corrected, and the input focus is moved to the sensitivity key setting column 3c. The sensitivity key setting is corrected from “Yes” to “Normal”, or from “Normal” to “Yes”.
[0099]
Accordingly, the system control unit 17 records unrecorded image content information or shooting location information, or rewrites the recorded image content information, shooting location information, or sensitivity key information.
[0100]
[Image reproduction and voice narration: FIGS. 11-14]
In this embodiment, after recording an image, the user can reproduce the image and display the reproduced image on the display 16 in the following reproduction mode. The voice narration for the reproduced image can be output by the text voice synthesis in the synthesis unit 19.
[0101]
In this case, the syntax structure and the specific method of text-to-speech synthesis are shown in detail in [Syntax structure (text generation): FIGS. 15 and 16] and [Text-to-speech synthesis: FIGS. 17 and 18] described later.
[0102]
Furthermore, in this embodiment, the normal mode, the important mode, the father mode, the mother mode, and the child mode are set as the playback mode.
[0103]
The normal mode is a playback mode in which an image is played back regardless of the sensitivity key information and the access frequency data, and the important mode is a playback mode in which playback of the image is controlled by the sensitivity key information as described later. The user mode of the mode, the mother mode, or the child mode is a playback mode that controls the playback of images based on the corresponding user access frequency data.
[0104]
(Browse mode: FIGS. 11 to 13)
A playback mode in which an original image of an image selected by the user from the thumbnail images is played back and displayed on the display 16 is referred to herein as a browsing mode.
[0105]
FIG. 11 shows an example of image reproduction in the browsing mode. In this example, the user first performs an operation of calling a playback mode menu. As a result, the mode selection menu screen 5 is displayed on the display 16 as shown in FIG.
[0106]
The user selects one of the above-described normal mode, important mode, father mode, mother mode, and child mode from the mode selection menu screen 5, and then performs an operation for calling a folder name menu. As a result, the folder name menu screen 2 is displayed on the display 16 as shown in FIG.
[0107]
The user then instructs the folder name of the folder to be called, for example “dog”. As a result, the system control unit 17 refers to the folder name comparison table file 9 described above and, for example, selects a folder with a folder name that conforms to the DCF file system “103AAAA” corresponding to the user-specified folder name “dog”. As a file call destination, an image file (a DCF basic file or a pair of a DCF extended image file and a DCF thumbnail file) recorded in the folder is read, and the display 16 is displayed according to the data of each DCF basic thumbnail or DCF thumbnail file. The thumbnail images are displayed in an array on the top.
[0108]
In this case, when the user selects the normal mode, all the image files in the folder are read in the order of the file numbers in the file names conforming to the DCF file system, as shown in FIG. , Thumbnail images of all the images in the folder are displayed in the order of file numbers.
[0109]
In addition, when the user selects the important mode, only the image file having the favorite attribute information whose sensitivity key information is “1” (favorite key information) in the folder conforms to the DCF file system. As shown in FIG. 11D, only thumbnail images of images that the user likes are displayed in the order of file numbers.
[0110]
In addition, when the user selects a user-specific mode, for example, father mode, the corresponding user-specific access frequency, for example, father access frequency, in the folder is greater than or equal to a predetermined value (predetermined number), for example, 3 (three times). Only the above image files are read in the order of file numbers in the file names conforming to the DCF file system, and as shown in FIG. Only thumbnail images whose father access frequency data is greater than or equal to a predetermined value, for example, three or more are displayed in the order of file numbers.
[0111]
As shown in the upper left of FIG. 12, the user selects one of the icon-shaped thumbnail images in a state where the thumbnail images are arranged and displayed as shown in FIGS. 11C, 11D, or 11E. As a result, the system control unit 17 uses the data of the DCF basic main image or DCF extended image file in the selected image file (DCF basic file or a pair of DCF extended image file and DCF thumbnail file) to display 16 Above, the original image 1 of the selected image is displayed.
[0112]
At the same time, the system controller 17 causes the user comment data (image content information, shooting location information, and sensitivity key information that is favorable attribute information and access frequency data for each user) and shooting attribute information (from the image file) to be acquired from the image file. (Data of shooting date and time) is read out, and a message sentence is generated from the data by the syntactic structure in the syntactic structure unit 18, and further, the voice is synthesized from the message sentence by text-to-speech synthesis in the text voice synthesizing unit 19. Narration is output.
[0113]
When the user mode is selected as described above, the corresponding user access frequency is counted up once. FIG. 12 shows the case where the father access mode is selected, and the father access frequency is counted up once.
[0114]
FIG. 13 shows an example of the syntax configuration in the browsing mode. In this example, the word “dog” is selected by the user-specified folder name specified by the user, the words “family”, “chihuahua”, “peach-chan” are selected by the character string data indicating the image contents, and the syntax The words "this", "ha", "no", "no", and "is" are selected as the words to be added to the pattern, and the message sentence "This dog is the family's Chihuahua Momo-chan" is generated, and the voice narration is generated. Is output.
[0115]
In addition, the type of recorded file (in this case, an image file) is determined based on the file type information or the file extension described above, the word “image” is selected, and “ The words “2002” and “November 21” divided by year and month are selected, and the word “home” is selected based on the character string data indicating the shooting location. The words “This” “Ha” “No” “Ni” “De” “Shooting” “I did” were selected, and the message “This image was taken at home on November 21, 2002” And voice narration is output.
[0116]
The verb in the shooting date shooting location message is selected according to the type of the file. In this case, since the image data is recorded as an image file, “shooting” is selected as the verb.
[0117]
Further, when the sensitivity key information recorded in the image file is “1” (favorite key information), the message “This is a favorite image” is displayed by using a template provided in advance in the syntax configuration unit 18. Is generated and voice narration is output.
[0118]
Note that this sensibility message, instead of outputting voice narration in this way, modulates the voice narration of the above-mentioned image content message or shooting date shooting location message, or is recorded in the memory in the system control unit 17. The DSC system may be configured to output sound effects such as “ping pong” based on the sound data of the sound effects that are present to indicate that the image is liked by the user.
[0119]
When the user-specific mode is selected, when the corresponding user-specific access frequency is equal to or higher than a predetermined value, for example, 3 or higher, the voice narration of the image content message or the shooting date shooting location message is increased by a semitone, Or, when the sound frequency of the image being played is higher than a predetermined value, such as by raising the sound effect such as “Ping Pong” above by a semitone, or if the degree of access frequency of the image being played is messaged by voice, preferable.
[0120]
(Quick view mode: Fig. 14)
Furthermore, in this embodiment, the user can output the voice narration while displaying the thumbnail images by sequentially displaying the thumbnail images on the display 16 and sequentially selecting the displayed thumbnail images.
[0121]
FIG. 14 shows an example of outputting voice narration in this quick-view mode.
[0122]
In this case, the user performs an operation of calling a folder name menu after selecting the quick-view mode. As a result, the folder name menu screen 2 is displayed on the display 16 as shown in the upper left of FIG.
[0123]
The user then instructs the folder name of the folder to be called, for example “dog”. As a result, the system control unit 17 refers to the folder name comparison table file 9 described above and, for example, selects a folder with a folder name that conforms to the DCF file system “103AAAA” corresponding to the user-specified folder name “dog”. As a file call destination, each image file (a DCF basic file or a pair of a DCF extended image file and a DCF thumbnail file) recorded in the folder is read in the order of the file number in the file name conforming to the DCF file system, Thumbnail images are sequentially displayed on the display 16 according to the data of each DCF basic thumbnail or DCF thumbnail file.
[0124]
The user sequentially selects the sequentially displayed thumbnail images. Thus, the system control unit 17 displays the thumbnail image with the thumbnail image data (DCF basic thumbnail or DCF thumbnail file data) and the selected image file (DCF basic file or DCF extended image file). User comment data (image content information, shooting location information, sensitivity key information and user-specific access frequency data) and shooting attribute information (photographing date / time data) are read from the DCF thumbnail file pair, and the syntax in the syntax construction unit 18 is read. By composition and text-to-speech synthesis in the text-to-speech synthesizer 19, “This dog is a family Chihuahua Momo-chan” shown in FIG. 13 “This image was taken at home on November 21, 2002” “ “My favorite image” To generate a sentence, and outputs the voice narration.
[0125]
Further, the system control unit 17 generates a message text about the selected image by the syntax configuration unit 18 as described above, and then displays the thumbnail image, that is, the image to be selected next by the user. Thumbnail image data (DCF basic thumbnail or DCF thumbnail file data) is read from a file (a DCF basic file or a pair of a DCF extended image file and a DCF thumbnail file).
[0126]
Thus, immediately after the end of the voice narration for the selected image, the next thumbnail image is displayed on the display 16, and the user can quickly and smoothly know the contents of each image in the same folder.
[0127]
In this quick-view mode, as in the browsing mode, the user selects the important mode or the user-specific mode, and the sensitivity key information is set to “1” (favorite key information) for the image file displaying the thumbnail image. It is more preferable that the configuration is such that only the image file or the corresponding user-specific access frequency is limited to an image file having a predetermined value or more.
[0128]
[Syntax structure (text generation): FIGS. 15 and 16]
As described above, the syntax constructing unit 18 in FIG. 1 generates a message sentence by executing dictionary analysis and syntax analysis based on the user comment data or shooting attribute information read from the image file.
[0129]
FIG. 15 shows an example of the syntax constructing unit 18. However, the interfaces 22 and 24 shown in FIG. 1 are omitted.
[0130]
Image related information, camera state information, and user instruction information are sent from the system control unit 17 to the syntax configuration unit 18.
[0131]
Image-related information includes user comment data (image content information, shooting location information, sensitivity key information and user-specific access frequency data), shooting attribute information (shooting date / time data), user-named folder name, file type information, and file extension It is a child.
[0132]
The camera status information includes information indicating the camera mode such as recording mode, browsing mode, and quick-view mode, information indicating the language in which the application being used is activated, and information indicating the time zone and season at that time. is there.
[0133]
The user instruction information is information indicating the language, speed (speech speed), height (frequency), tone color, volume, and the like of the output voice narration that is instructed by the user with the camera operation unit 21 or the key operation input unit 23.
[0134]
The syntax configuration unit 18 includes a control unit 41, an information extraction unit 46, and a text generation unit 50. The control unit 41 includes an output language determination module 42, an output content determination module 43, and a style determination module 44. The extraction unit 46 includes a morpheme boundary determination unit 47 and a translation device unit 48.
[0135]
The output language determination module 42 generates text generated by the text generation unit 50 from (a) the application activation language, (b) the user-named folder name and the language of the character string of the user comment data, and (c) the user-specified language. (Message sentence) language is determined.
[0136]
However, priorities are set in advance between (a), (b), and (c), and an output language is determined according to a higher priority, or (a), (b), and (c) are assigned the same order. As described above, the output language is determined by a majority vote between them.
[0137]
As a method of determining the language of the character string in (b), a method of determining by the character code type of the character string, a method of determining from the characteristics of the character string arrangement, a method of determining by drawing the character string in a dictionary, etc. Can be taken.
[0138]
The output content determination module 43 determines the content of the text (message sentence) generated by the text generation unit 50. As user instruction information, the user should generate detailed or concise sentences, number of sentences, time required for messages, and the number and type of sentences to be generated when multiple messages can be generated ( The DSC system is configured so that an image content message, a shooting date shooting place message, a sensitivity message, and the like can be instructed.
[0139]
The style determination module 44 determines the style of the text (message text) generated by the text generation unit 50. The user can instruct the user instruction information that a sentence with a polite style should be generated, a sentence with a detailed style should be generated, or a sentence with a specific dialect should be generated. The DSC system is configured.
[0140]
The information extraction unit 46 extracts information specified by the control unit 41 from the input image related information, camera state information, and user instruction information. For example, the control unit 41 uses the user comment data as a text. Character string data of user comment data is extracted.
[0141]
Specifically, when the character string of the user comment data is composed of two or more meaningful units (morphemes: words or phrases), the information extraction unit 46 uses the morpheme boundary determination unit 47 to execute the character string. The morpheme boundary is determined, and words and phrases are extracted.
[0142]
The morpheme boundary determination in the morpheme boundary determination unit 47 is a method based on an empirical rule such as the longest match method or the minimum number of division method, a method for checking the possibility of grammatical connection, and a method using a statistical language model. Execute by etc.
[0143]
Further, when the character string of the user comment data is a character string that includes a delimiter such as a blank at the morpheme boundary, the information extraction unit 46 can extract each word or phrase using the delimiter as a clue.
[0144]
When the language of the character string of the user comment data is different from the language specified by the user, the information extraction unit 46 uses the bilingual dictionary of the translation device unit 48 to specify the word or phrase extracted from the character string by the user-specified language. The syntax construction unit 18 is configured to translate into a language, or to translate a character string before extracting a word or phrase into a user-specified language and extract a word or phrase from the translated character string. be able to.
[0145]
The text generation unit 50 generates a text (message sentence) based on the information indicating the output language, the output content, and the style of the text from the control unit 41 and the word and phrase information extracted by the information extraction unit 46. As shown in FIG. 26, the character string analysis module 51, the template selection module 54, and the template application module 57 are used.
[0146]
The character string analysis module 51 adds linguistic information such as part-of-speech information to each word or phrase by comparing the word or phrase obtained by the information extraction unit 46 with the rule database 52 and the dictionary database 53. To do.
[0147]
Text generation in the text generation unit 50 is realized by applying a word or phrase to a template. Examples of templates include “this is <noun / noun phrase>”.
[0148]
The template selection module 54 selects an appropriate template using the rule database 55 and the dictionary database 56 based on the information from the control unit 41.
[0149]
For example, when generating an image content message based on a character string indicating the image content of the user comment data, a template for the message is selected and the shooting date is captured based on the character string indicating the shooting date and the shooting location. When generating a location message, a template for it is selected, and when generating a sensitivity message based on sensitivity key information, a template for it is selected.
[0150]
Also, depending on the user instruction information, the template to be selected is changed. For example, when it is instructed to generate a sentence with a polite style, the template “This is <noun>” is used as described above. When it is instructed that a sentence with a simple style should be generated, the template “This is a <noun>” is selected.
[0151]
The template application module 57 uses the rule database 58 and the dictionary database 59 to apply the input word or phrase to the template selected by the template selection module 54 to generate a text (message sentence).
[0152]
For example, if the template selection module 54 selects a template “This is <noun / noun phrase>” and the character string analysis module 51 determines that the word or phrase is a noun or noun phrase, The phrase is applied to the <noun / noun phrase> portion of the template "This is <noun / noun phrase>" to generate text.
[0153]
In addition, do not apply the input word or phrase as it is, and use the data indicating the conceptual relationship between the words in the concept dictionary to change the input word or phrase to the same concept word or higher order. The text generation unit 50 can also be configured so that it is replaced with a word having a concept and applied to a template.
[0154]
For example, the character strings indicating the image contents of the user comment data are “red” and “rose”, which are analyzed by the character string analysis module 51 as both nouns. If the template “<flower”> of “color”> is selected (“color” and “flower” are concepts), the concept dictionary will indicate that the red superordinate concept is color and the “rose” superordinate concept Since it is known that the flower is a flower, it is determined that the words “red” and “rose” can be applied to the selected template, and a sentence “this is a red rose” is generated.
[0155]
As a result of the analysis, it may be found that the word or phrase cannot be directly applied to the template. For example, it is assumed that the phrase “seen in front of the station” is extracted by the information extraction unit 46. When this phrase is analyzed, a part-of-speech sequence of “noun + case particle + verb + auxiliary verb” is obtained, but this does not apply to the above template. However, by adding the formal noun “thing” to this phrase, the entire phrase becomes a noun phrase “what was found in front of the station” and can be applied to the template. As described above, the template application module 57 transforms the input word or phrase so that it can be applied to the selected template.
[0156]
Note that, by using the camera state information described above, for example, a text of a greeting to the user can be generated and added to the message sentence according to the usage time zone of the DSC system.
[0157]
[Text-to-speech synthesis: FIGS. 17 and 18]
The text-to-speech synthesizer 19 in FIG. 1 generates speech narration speech waveform data from the text (message sentence) generated by the syntax constructing unit 18 as described above by text-to-speech synthesis.
[0158]
FIG. 17 shows an example of the text-to-speech synthesizer 19. The above-described camera state information and user instruction information are also sent to the text-to-speech synthesizer 19.
[0159]
The text-to-speech synthesizer 19 in this example includes a language processor 61, a prosody controller 71, and a waveform generator 81.
[0160]
The language processing unit 61 analyzes the text from the syntax construction unit 18 using the rule database 62 and the dictionary database 63 and extracts information necessary for text-to-speech synthesis. As shown in FIG. The module 64 and the prosody information generation module 67 are configured.
[0161]
The text analysis module 64 uses the rule database 65 and the dictionary database 66 to analyze the input text and divide it into morphemes (words and phrases), and obtain information such as parts of speech and readings for each morpheme. .
[0162]
The text analysis in the text analysis module 64 is based on an empirical method such as the longest match method or the minimum number of division method, a method for checking the possibility of grammatical connection, a method using a statistical language model, a regular grammar Or by using a grammar such as context grammar.
[0163]
Through the above text analysis, information such as part of speech, reading, and accent type is obtained for each word or phrase of the text (message sentence) output from the syntax constructing unit 18.
[0164]
The prosodic information generation module 67 uses the rule, statistical language model, and decision tree in the rule database 68 based on the analysis result of the text analysis module 64 to determine the accent nucleus position and pose position, and the phrasing process. For example, information required to read out the input text by voice is obtained.
[0165]
The analysis result and information obtained by the language processing unit 61 including the text analysis module 64 and the prosodic information generation module 67 are output in an intermediate expression form called a phonetic symbol string.
[0166]
The phonetic symbol string may be described using general phonetic symbols such as IPA (international phonetic alphabet) or SAMPA, or may be described with a unique phonetic symbol.
[0167]
The prosodic control unit 71 in FIG. 17 receives a phonetic symbol string from the language processing unit 61 and uses the rule database 72 and the database 73 to obtain the duration time and the fundamental frequency of each sound (phoneme). As shown in FIG. 6, the duration time determination module 74 and the fundamental frequency determination module 77 are configured.
[0168]
The duration length determination module 74 uses the rules and data indicating the relationship between the phonological environment and the duration time of the sound obtained by learning from a large amount of data in the rule database 75 and the database 76 in advance. The symbol string is analyzed to determine the length of each sound (phoneme).
[0169]
The phonological environment includes the position of each phoneme in the sentence, the presence or absence of accents and stress, the length of poses, the strength of phrases and accents, and the like.
[0170]
The fundamental frequency determination module 77 uses the rules and data indicating the relationship between the phonological environment and the fundamental frequency of the sound obtained by learning from a large amount of data in advance in the rule database 78 and the database 79, and uses the phonetic symbol string. And the pitch of each sound (phoneme) is determined.
[0171]
Data obtained by the prosody control unit 71 including the duration length determination module 74 and the fundamental frequency determination module 77 is output in an intermediate expression form of prosodic data.
[0172]
The waveform generation unit 81 shown in FIGS. 17 and 18 considers the phoneme arrangement, duration, and fundamental frequency according to the prosodic data output from the prosody control unit 71, and generates an appropriate speech unit from the unit database 82. Is selected and connected as necessary to generate audio data indicating the audio waveform of the audio narration.
[0173]
Further, in this example, the user can specify the speech speed, voice pitch, tone color, voice level, etc. for the voice waveform of the voice narration generated by the text voice synthesizer 19 by the user instruction information described above. it can.
[0174]
The pronunciation and accent of a word vary depending on the age, but each part and each module of the text-to-speech synthesizer 19 holds rules, dictionaries, data, and speech segments for each age, and the rules of the age specified by the user, The voice narration output from the text-to-speech synthesizer 19 reflects the features of the utterances specified by the user by executing processing such as analysis, generation, and determination using a dictionary, data, and speech segment. Is obtained.
[0175]
Further, according to the camera state information described above, for example, the speech speed of the voice narration generated by the text-to-speech synthesizer 19 according to the use time zone of the DSC system, the voice pitch, the tone color, the voice level, etc. For example, it is possible to perform control such as raising the voice in the morning and lowering the voice level at midnight. Also, BGM can be added to the voice by text-to-speech synthesis in accordance with the season or a specific day.
[0176]
As described above with reference to FIG. 1, the audio data generated by the text-to-speech synthesizer 19 is converted into an analog audio signal by the D / A converter 27, and the audio signal is amplified by the audio amplifying circuit 28 and supplied to the speaker 29. Then, voice narration is output from the speaker 29.
[0177]
[Other Embodiments]
In the above-described embodiment, the character string data indicating the shooting location input by the user is written as user comment data in the user comment field of the image file. When the image is played back, “This image was shot at home on November 21, 2002. This message is generated when a voice message is generated and a voice narration is output. A GPS (Global Positioning System) receiver is installed in the DSC system or can be connected, and measured by this GPS receiver. The shooting position is written in the user comment field of the image file as user comment data, and when the image is played back, “This image was taken on November 21, 2002 at 35 degrees 25 minutes north latitude and 138 degrees 54 minutes east longitude ”And generate voice narration. The system can also be configured to output.
[0178]
Further, the DSC system or the CPU receiver has a map memory, and at the time of shooting, referring to the map memory, a shooting position such as “35 degrees 25 minutes north latitude, 138 degrees 54 minutes east longitude” measured by the GPS receiver. Is converted to a shooting location such as “Near Yamanaka Lake” and written as user comment data in the user comment field of the image file. When playing back the image, “This image was taken near Lake Yamanaka on November 21, 2002. It is also possible to configure the system to generate a message sentence such as “Done” and output a voice narration.
[0179]
In the above-described embodiment, the DCF file system of the Exif file format is used as the image file format, but a file format or a file system that can be considered in the future can also be used.
[0180]
The above-described embodiment is a case where the present invention is applied to a DSC. However, the present invention is not limited to the DSC, but can be applied to a PDA with a camera, a mobile phone terminal with a camera, and the like.
[0181]
Also, when applied to a camera-integrated portable disk device, the index file is configured as a separate file and the main image, video, and audio are used as external reference files, as in the embodiment of the extended file system of the DCF file system. It can be used for navigation file systems for audio and visual content files, playlists, and index file systems for accessing audio and visual content files that have files and user data areas as external reference files and access those files. it can.
[0182]
【The invention's effect】
As described above, according to the present invention, whether or not an image to be reproduced is an image that the user likes is determined by a simple operation or input by the user or without particularly requiring an operation or input. It can be presented to the user accurately, and the user can easily and reliably search for the image he / she likes.
[0183]
Moreover, since it is not necessary to access an audio file other than the image file for outputting a voice message, even if the recording medium takes a long time to seek on the medium such as an optical disk, the image can be played back. In addition, the access time to the file for outputting voice messages is not increased.
[0184]
Furthermore, since it is not necessary to record audio files separately from image files, the number of file writes does not increase, and as a recording medium, there is a need for memory with a limited number of writes, or batch write erasure. For example, when a memory card using a flash memory is used, a recording medium can be used for a long time.
[Brief description of the drawings]
FIG. 1 is a diagram showing a DSC system according to an embodiment of an image recording / reproducing apparatus of the present invention.
FIG. 2 is a diagram illustrating an example of an image file format.
FIG. 3 is a diagram illustrating an example of a folder name comparison table file and an image file.
FIG. 4 is a diagram illustrating another example of a folder name comparison table file and an image file.
FIG. 5 is a diagram illustrating an example of an audio file format.
FIG. 6 is a diagram illustrating an example of writing / reading control of image related information.
FIG. 7 is a diagram illustrating another example of image-related information writing / reading control.
FIG. 8 is a diagram illustrating an example of a key operation input unit.
FIG. 9 is a diagram illustrating an example of a method for inputting user comment data.
FIG. 10 is a diagram showing another example of a method for inputting user comment data.
FIG. 11 is a diagram for explaining a browsing mode;
FIG. 12 is a diagram for explaining a browsing mode;
FIG. 13 is a diagram for explaining a syntax configuration in a browsing mode;
FIG. 14 is a diagram for explaining a quick-view mode.
FIG. 15 is a diagram illustrating an example of a syntax configuration unit.
FIG. 16 is a diagram illustrating an example of a text generation unit in the syntax configuration unit.
FIG. 17 is a diagram illustrating an example of a text-to-speech synthesizer.
FIG. 18 is a diagram illustrating a specific example of each unit of the text-to-speech synthesizer.
[Explanation of symbols]
Since all the main parts are described in the figure, they are omitted here.

Claims (16)

  1. 画像を撮影し、その撮影画像の原画像およびサムネイル画像を定められたファイルフォーマットの画像ファイルとして記録メディアに記録する撮影記録工程と、
    当該撮影画像がユーザーの気に入った画像であるとき、ユーザーの操作に基づいて、当該撮影画像がユーザーの気に入っている画像であることを示す好感キー情報を、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録する情報記録工程と、
    それぞれ前記画像ファイルとして記録されている複数の撮影画像のサムネイル画像を順次表示するサムネイル画像順次表示工程と、
    このサムネイル画像順次表示工程で当該撮影画像のサムネイル画像を表示する際、当該撮影画像の画像ファイルに前記好感キー情報が記録されているか否かを判断し、記録されているときには、その好感キー情報に基づいて、当該撮影画像がユーザーの気に入っている画像であることを、音声によってメッセージするメッセージ工程と、
    を備えることを特徴とする画像記録再生方法。
    A shooting and recording step of shooting an image and recording an original image and a thumbnail image of the shot image on a recording medium as an image file of a predetermined file format;
    When the photographed image is a user's favorite image, based on the user's operation, the key format information indicating that the photographed image is the user's favorite image is displayed in the file format of the image file of the photographed image. An information recording process for recording in an area designated by
    A thumbnail image sequential display step for sequentially displaying thumbnail images of a plurality of captured images, each recorded as the image file ;
    When displaying thumbnail images of the captured image in the thumbnail image sequential display step, it is determined whether or not the favorable key information is recorded in the image file of the captured image. Based on the message process of voice message that the captured image is the user's favorite image,
    An image recording / reproducing method comprising:
  2. 請求項1の画像記録再生方法において、
    前記メッセージ工程では、前記好感キー情報に基づいて構文構成によってメッセージ文を生成し、そのメッセージ文に基づいてテキスト音声合成によって音声ナレーションを生成する画像記録再生方法。
    The image recording / reproducing method according to claim 1.
    In the message step, an image recording / reproducing method for generating a message sentence by a syntactic structure based on the likable key information and generating a voice narration by text-to-speech synthesis based on the message sentence.
  3. 請求項1の画像記録再生方法において、
    当該撮影画像に関連する情報を、文字列データとして、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録する文字列記録工程を備え、
    前記メッセージ工程では、前記文字列データに基づいて構文構成によって画像関連メッセージ文を生成し、そのメッセージ文に基づいてテキスト音声合成によって音声ナレーションを生成し、その音声ナレーションを前記好感キー情報によって変調する画像記録再生方法。
    The image recording / reproducing method according to claim 1.
    A character string recording step of recording information related to the photographed image as character string data in an area specified by the file format of the image file of the photographed image ,
    In the message step, an image-related message sentence is generated by a syntax structure based on the character string data, a voice narration is generated by text-to-speech synthesis based on the message sentence, and the voice narration is modulated by the likable key information. Image recording and playback method.
  4. 請求項1の画像記録再生方法において、
    前記メッセージ工程では、前記音声メッセージとして、あらかじめ定められた効果音を出力する画像記録再生方法。
    The image recording / reproducing method according to claim 1.
    An image recording / reproducing method for outputting a predetermined sound effect as the voice message in the message step.
  5. 画像を撮影し、その撮影画像の原画像およびサムネイル画像を定められたファイルフォーマットの画像ファイルとして記録メディアに記録する撮影記録工程と、
    前記画像ファイルとして記録されている撮影画像の原画像を再生する画像再生工程と、
    この画像再生工程で当該撮影画像の原画像を再生した回数を、当該撮影画像に対するアクセス頻度として、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録するとともに、当該撮影画像の原画像を再生するごとにカウントアップする処理工程と、
    それぞれ前記画像ファイルとして記録されている複数の撮影画像のサムネイル画像を順次表示するサムネイル画像順次表示工程と、
    このサムネイル画像順次表示工程で当該撮影画像のサムネイル画像を表示する際、当該撮影画像の画像ファイルに記録されている前記アクセス頻度が所定値以上であるときにはそのことを、または当該撮影画像の画像ファイルに記録されている前記アクセス頻度の程度を、音声によってメッセージするメッセージ工程と、
    を備えることを特徴とする画像記録再生方法。
    A shooting and recording step of shooting an image and recording an original image and a thumbnail image of the shot image on a recording medium as an image file of a predetermined file format;
    An image reproduction step of reproducing an original image of a captured image recorded as the image file;
    The number of times of reproducing the original image of the captured image in the image reproduction process, the as access frequency to the captured image, and records the file format specified by the area of the image file of the captured image, of the photographed image original A process that counts up each time an image is played,
    A thumbnail image sequential display step for sequentially displaying thumbnail images of a plurality of captured images, each recorded as the image file;
    When displaying the thumbnail image of the photographed image in the thumbnail image sequential display step, if the access frequency recorded in the image file of the photographed image is equal to or higher than a predetermined value, or that image file of the photographed image A message step of voice-speaking the degree of access frequency recorded in
    An image recording / reproducing method comprising:
  6. 請求項5の画像記録再生方法において、
    前記処理工程では、前記画像再生工程で当該撮影画像の原画像を所定時間以上に渡って ディスプレイ上に表示した場合にのみ、当該撮影画像に対するアクセス頻度をカウントアップする画像記録再生方法。
    The image recording / reproducing method according to claim 5 .
    An image recording / reproducing method in which, in the processing step, the access frequency for the photographed image is counted up only when the original image of the photographed image is displayed on the display for a predetermined time or more in the image reproduction step .
  7. 請求項5または6の画像記録再生方法において、
    前記メッセージ工程では、前記アクセス頻度を示すアクセス頻度データに基づいて構文構成によってメッセージ文を生成し、そのメッセージ文に基づいてテキスト音声合成によって音声ナレーションを生成する画像記録再生方法。
    The image recording / reproducing method according to claim 5 or 6 ,
    In the message step, a message sentence is generated by a syntax structure based on access frequency data indicating the access frequency, and a voice narration is generated by text-to-speech synthesis based on the message sentence .
  8. 請求項5または6の画像記録再生方法において、
    前記メッセージ工程では、前記音声メッセージとして、あらかじめ定められた効果音を出力する画像記録再生方法。
    The image recording / reproducing method according to claim 5 or 6 ,
    An image recording / reproducing method for outputting a predetermined sound effect as the voice message in the message step .
  9. 画像を撮影する撮像手段と、
    その撮影画像の原画像およびサムネイル画像を、定められたファイルフォーマットの画像ファイルとして記録メディアに記録する画像記録手段と、
    当該撮影画像がユーザーの気に入った画像であるとき、ユーザーの操作に基づいて、当該撮影画像がユーザーの気に入っている画像であることを示す好感キー情報を、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録する情報記録手段と、
    それぞれ前記画像ファイルとして記録されている複数の撮影画像のサムネイル画像を順次表示するサムネイル画像順次表示手段と、
    このサムネイル画像順次表示手段によって当該撮影画像のサムネイル画像が表示される際、当該撮影画像の画像ファイルに前記好感キー情報が記録されているか否かを判断し、記録されているときには、その好感キー情報に基づいて、当該撮影画像がユーザーの気に入っている画像であることを、音声によってメッセージするメッセージ手段と、
    を備えることを特徴とする画像記録再生装置。
    Imaging means for taking an image;
    Image recording means for recording an original image and a thumbnail image of the captured image on a recording medium as an image file of a predetermined file format;
    When the photographed image is a user's favorite image, based on the user's operation, the key format information indicating that the photographed image is the user's favorite image is displayed in the file format of the image file of the photographed image. Information recording means for recording in the area specified by
    Thumbnail image sequential display means for sequentially displaying thumbnail images of a plurality of captured images respectively recorded as the image file ;
    When the thumbnail image of the photographed image is displayed by the thumbnail image sequential display means, it is determined whether or not the favorable key information is recorded in the image file of the photographed image. Based on the information, a message means for voice message that the photographed image is the user's favorite image,
    An image recording / reproducing apparatus comprising:
  10. 請求項9の画像記録再生装置において、
    前記メッセージ手段は、前記好感キー情報に基づいて構文構成によってメッセージ文を生成し、そのメッセージ文に基づいてテキスト音声合成によって音声ナレーションを生成する画像記録再生装置。
    The image recording / reproducing apparatus according to claim 9.
    The image recording / reproducing apparatus, wherein the message means generates a message sentence by a syntactic structure based on the likability key information, and generates a voice narration by text-to-speech synthesis based on the message sentence.
  11. 請求項9の画像記録再生装置において、
    当該撮影画像に関連する情報を、文字列データとして、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録する文字列記録手段を備え、
    前記メッセージ手段は、前記文字列データに基づいて構文構成によって画像関連メッセージ文を生成し、そのメッセージ文に基づいてテキスト音声合成によって音声ナレーションを生成し、その音声ナレーションを前記好感キー情報によって変調する画像記録再生装置。
    The image recording / reproducing apparatus according to claim 9.
    Character string recording means for recording information related to the photographed image as character string data in an area specified by the file format of the image file of the photographed image ,
    The message means generates an image-related message sentence by a syntax structure based on the character string data, generates a voice narration by text-to-speech synthesis based on the message sentence, and modulates the voice narration by the likable key information. Image recording / playback device.
  12. 請求項9の画像記録再生装置において、
    前記メッセージ手段は、前記音声メッセージとして、あらかじめ定められた効果音を出力する画像記録再生装置。
    The image recording / reproducing apparatus according to claim 9.
    The image recording / reproducing apparatus, wherein the message means outputs a predetermined sound effect as the voice message.
  13. 画像を撮影する撮像手段と、
    その撮影画像の原画像およびサムネイル画像を、定められたファイルフォーマットの画像ファイルとして記録メディアに記録する画像記録手段と、
    前記画像ファイルとして記録されている撮影画像の原画像を再生する画像再生手段と、
    この画像再生手段によって当該撮影画像の原画像を再生した回数を、当該撮影画像に対するアクセス頻度として、当該撮影画像の画像ファイルの前記ファイルフォーマットで指定された領域に記録するとともに、当該撮影画像の原画像を再生するごとにカウントアップする処理手段と、
    それぞれ前記画像ファイルとして記録されている複数の撮影画像のサムネイル画像を順次表示するサムネイル画像順次表示手段と、
    このサムネイル画像順次表示手段によって当該撮影画像のサムネイル画像を表示する際、当該撮影画像の画像ファイルに記録されている前記アクセス頻度が所定値以上であるときにはそのことを、または当該撮影画像の画像ファイルに記録されている前記アクセス頻度の程度を、音声によってメッセージするメッセージ手段と、
    を備えることを特徴とする画像記録再生装置。
    Imaging means for taking an image;
    Image recording means for recording an original image and a thumbnail image of the captured image on a recording medium as an image file of a predetermined file format;
    Image reproduction means for reproducing an original image of a captured image recorded as the image file;
    The number of times of reproducing the original image of the photographed image by the image reproducing unit, said as access frequency to the captured image, and records the file format specified by the area of the image file of the captured image, of the photographed image original Processing means for counting up each time an image is reproduced;
    Thumbnail image sequential display means for sequentially displaying thumbnail images of a plurality of captured images respectively recorded as the image file;
    When displaying thumbnail images of the photographed image by the thumbnail image sequential display means, if the access frequency recorded in the image file of the photographed image is equal to or higher than a predetermined value, or that image file of the photographed image A message means for voice message the degree of access frequency recorded in
    An image recording / reproducing apparatus comprising:
  14. 請求項13の画像記録再生装置において、
    前記処理手段は、前記画像再生手段によって当該撮影画像の原画像を所定時間以上に渡ってディスプレイ上に表示した場合にのみ、当該撮影画像に対するアクセス頻度をカウントアップする画像記録再生装置。
    The image recording / reproducing apparatus according to claim 13 .
    The image recording / reproducing apparatus counts up the access frequency for the photographed image only when the processing means displays the original image of the photographed image on the display for a predetermined time or longer by the image reproducing means.
  15. 請求項13または14の画像記録再生装置において、
    前記メッセージ手段は、前記アクセス頻度を示すアクセス頻度データに基づいて構文構成によってメッセージ文を生成し、そのメッセージ文に基づいてテキスト音声合成によって音声ナレーションを生成する画像記録再生装置。
    The image recording / reproducing apparatus according to claim 13 or 14 ,
    The image recording / reproducing apparatus , wherein the message means generates a message sentence by a syntax structure based on access frequency data indicating the access frequency, and generates a voice narration by text-to-speech synthesis based on the message sentence .
  16. 請求項13または14の画像記録再生装置において、
    前記メッセージ手段は、前記音声メッセージとして、あらかじめ定められた効果音を出力する画像記録再生装置。
    The image recording / reproducing apparatus according to claim 13 or 14 ,
    The image recording / reproducing apparatus , wherein the message means outputs a predetermined sound effect as the voice message .
JP2003109290A 2003-04-14 2003-04-14 Image recording / reproducing method and image recording / reproducing apparatus Active JP4189653B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003109290A JP4189653B2 (en) 2003-04-14 2003-04-14 Image recording / reproducing method and image recording / reproducing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003109290A JP4189653B2 (en) 2003-04-14 2003-04-14 Image recording / reproducing method and image recording / reproducing apparatus

Publications (2)

Publication Number Publication Date
JP2004320233A JP2004320233A (en) 2004-11-11
JP4189653B2 true JP4189653B2 (en) 2008-12-03

Family

ID=33470495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003109290A Active JP4189653B2 (en) 2003-04-14 2003-04-14 Image recording / reproducing method and image recording / reproducing apparatus

Country Status (1)

Country Link
JP (1) JP4189653B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006310944A (en) * 2005-04-26 2006-11-09 Fuji Photo Film Co Ltd Photographing apparatus
JP2007102765A (en) * 2005-09-06 2007-04-19 Ricoh Co Ltd Information processing apparatus, information recording system, information recording method, program and recording medium
WO2016095361A1 (en) 2014-12-14 2016-06-23 SZ DJI Technology Co., Ltd. Methods and systems of video processing
WO2016095072A1 (en) * 2014-12-14 2016-06-23 深圳市大疆创新科技有限公司 Video processing method, video processing device and display device

Also Published As

Publication number Publication date
JP2004320233A (en) 2004-11-11

Similar Documents

Publication Publication Date Title
EP2207165B1 (en) Information processing apparatus and text-to-speech method
JP2003330777A (en) Data file reproduction device, recording medium, data file recording device, data file recording program
JP2007507746A (en) Speech tagging, speech annotation, and speech recognition for portable devices with optional post-processing
US20100082329A1 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
JP2004289560A (en) Image recording and reproducing method and image recording and reproducing apparatus
JP4431109B2 (en) Recording / reproducing system, recording apparatus, reproducing apparatus, recording medium, recording / reproducing method, recording method, reproducing method, program, and program recording medium
KR20050060753A (en) Method of supporting tts navigation and multimedia device thereof
US20050192714A1 (en) Travel assistant device
JP2009519538A (en) Method and apparatus for accessing a digital file from a collection of digital files
JP4189653B2 (en) Image recording / reproducing method and image recording / reproducing apparatus
JP5465926B2 (en) Speech recognition dictionary creation device and speech recognition dictionary creation method
EP1463059A2 (en) Recording and reproduction apparatus
JP2003317447A (en) Program for image display and information recording medium recorded with the program
KR20150088564A (en) E-Book Apparatus Capable of Playing Animation on the Basis of Voice Recognition and Method thereof
JP5693834B2 (en) Speech recognition apparatus and speech recognition method
JP4697432B2 (en) Music playback apparatus, music playback method, and music playback program
JP2008021235A (en) Reading and registration system, and reading and registration program
KR20020006620A (en) Portable CD player displaying caption data and audio CD having caption index data and System for providing caption data
KR20050106246A (en) Method for searching data in mpeg player
JP2004280995A (en) Digital data reproducing device
JP4765274B2 (en) Speech synthesis apparatus and speech synthesis method
JP2011257932A (en) Content reproduction device, control method of content reproduction device, control program, and storage medium
JP2006323857A (en) Voice recognition processor, and recording medium recorded with voice recognition processing program
JP2005326811A (en) Voice synthesizer and voice synthesis method
CN112236816A (en) Information processing device, information processing system, and imaging device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080820

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080902

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4189653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120926

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130926

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250