JP6508635B2

JP6508635B2 - 再生装置、再生方法、再生プログラム

Info

Publication number: JP6508635B2
Application number: JP2017122583A
Authority: JP
Inventors: 伸祐本間; 佐藤　和宏; 和宏佐藤; 野中　修; 修野中
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2019-05-08
Anticipated expiration: 2033-03-15
Also published as: JP2017211995A

Description

本発明は、画像再生モードとして複数のモードを設定可能な再生装置、再生方法、再生プログラムに関する。

撮影して得られた画像を鑑賞するための再生装置は、従来より、種々のものが提案されている。

例えば、特開２００４−１０４４２６号公報には、画像を撮影して撮影画像データとする画像生成手段と、画像生成手段が生成した撮影画像データを記憶する記憶手段と、画像生成手段が生成した撮影画像データと前記記憶手段が既に記憶している撮影画像データの少なくとも１つとを比較して、その差分を検出する差分検出手段と、差分検出手段による差分検出結果を表示する表示手段とを有し、過去に撮影した画像を保存して、現在の撮影画像と比較して差分を検出することができ、これにより良好な娯楽性の実現や利便性の向上を図った、付加価値の高い撮像装置が記載されている。また、該公報には、画像の表示と合わせて文字表示を行う技術も記載されている。

特開２００４−１０４４２６号公報

しかし、思い出をたどって回想するときには、必ずしも一枚の画像のみに基づいて行うわけではなく、複数の画像を見ることによっても相乗効果が生まれて様々な感情が想起される場合もある。

従って、一枚の画像のみを鑑賞する場合は、一枚の画像の貴重な一瞬の思い出が重要である。また、複数の画像を一度に鑑賞する場合は、イベントの総合的な思い出が簡単に思い出せることが重要であり、これによって、一枚の画像の検索を迅速に行うことができる。こうして、例えば撮影時の状況をよりリアルに回想することができるような、より効果的な鑑賞法を提供し得る再生装置が望まれている。

本発明は上記事情に鑑みてなされたものであり、情報の回想を効果的に行うことができる再生装置、再生方法、再生プログラムを提供することを目的としている。

本発明の第１の態様による再生装置は、所定期間の音声データを取得する音声データ取得部と、上記音声データ取得部が取得した上記音声データを分析する音声分析部と、上記音声分析部において分析された音声をテキストデータ化するテキストデータ化部を備えるテキストデータ取得部と、上記テキストデータ化部においてテキストデータ化された上記音声に係るテキスト情報を再生する再生部と、を備え、上記音声分析部は、取得した所定期間の音声データの音圧または音の周期性に基づいて、当該音声データが人の声または環境音を含むか否かを分析し、上記テキストデータ化部は、上記音声分析部において上記音声データが人の声であると分析された際は、当該音声データに対して音声認識を行ってテキストデータに変換してテキストとし、上記音声分析部において上記音声データが環境音であると分析された際は、当該音声データを擬音テキストデータベースからテキストを選択して擬音テキストとする。

本発明の第２の態様による再生方法は、所定期間の音声データを取得する音声データ取得工程と、上記音声データ取得工程において取得した上記音声データを分析する音声分析工程と、上記音声分析工程において分析された音声をテキストデータ化するテキストデータ化工程と、上記テキストデータ化工程においてテキストデータ化された上記音声に係るテキスト情報を再生する再生工程と、を有し、上記音声分析工程は、取得した所定期間の音声データの音圧または音の周期性に基づいて、当該音声データが人の声または環境音を含むか否かを分析し、上記テキストデータ化工程は、上記音声分析工程において上記音声データが人の声であると分析された際は、当該音声データに対して音声認識を行ってテキストデータに変換してテキストとし、上記音声分析工程において上記音声データが環境音であると分析された際は、当該音声データを擬音テキストデータベースからテキストを選択して擬音テキストとする。

本発明の第３の態様による再生プログラムは、所定期間の音声データを取得する音声データ取得工程と、上記音声データ取得工程において取得した上記音声データを分析する音声分析工程であって、取得した所定期間の音声データの音圧または音の周期性に基づいて、当該音声データが人の声または環境音を含むか否かを分析する工程と、上記音声分析工程において分析された音声をテキストデータ化するテキストデータ化工程であって、上記音声分析工程において上記音声データが人の声であると分析された際は、当該音声データに対して音声認識を行ってテキストデータに変換してテキストとし、上記音声データが環境音であると分析された際は、当該音声データを擬音テキストデータベースからテキストを選択して擬音テキストとする工程と、をコンピュータに実行させる。

本発明によれば、情報の回想を効果的に行うことができる再生装置、再生方法、再生プログラムを提供することができる。

本発明の実施形態１の再生装置が適用された撮像装置としてのカメラの構成を示すブロック図。上記実施形態１において、静止画記録の前後に行われる音声録音の例を示すタイミングチャート。上記実施形態１において、画像再生時に再生される音声データの例を示す図表。上記実施形態１における画像再生モードの幾つかの例を説明するための図表。上記実施形態１における全画面表示モードの様子を示す図。上記実施形態１におけるサムネイル表示モードの様子を示す図。上記実施形態１におけるフロー表示モードの様子を示す図。上記実施形態１のカメラのメイン処理を示すフローチャート。上記実施形態１における撮影モードの処理を示すフローチャート。上記実施形態１における再生モードの処理を示すフローチャート。上記実施形態１における３Ｗ＋１Ｈ要約テキスト化の処理の一部を示すフローチャート。上記実施形態１における３Ｗ＋１Ｈ要約テキスト化の処理の他の一部を示すフローチャート。上記実施形態１における全画面表示の処理を示すフローチャート。上記実施形態１におけるフロー表示の処理を示すフローチャート。本発明の実施形態２において、タグ表示を伴う全画面表示の第１の例を示す図。上記実施形態２において、タグ表示を伴う全画面表示の第２の例を示す図。上記実施形態２において、タグ表示を伴う全画面表示の第３の例を示す図。上記実施形態２において、タグ表示を伴う組写真表示の様子を示す図。上記実施形態２における再生モードの処理を示すフローチャート。

以下、図面を参照して本発明の実施の形態を説明する。
［実施形態１］

図１から図１３は本発明の実施形態１を示したものであり、図１は再生装置が適用された撮像装置としてのカメラの構成を示すブロック図である。ここに、再生装置は、画像を表示する場合には画像再生装置（あるいは表示装置）、音声を再生する場合には音声再生装置、などとなる。

カメラは、撮像部１と、画像処理部２と、マイク３と、音声処理部４と、タッチパネル５と、ＷＥＢ通信部６と、ＧＰＳ部７と、時計８と、温度計９と、制御部１０と、再生制御部１１と、表示パネル１２と、スピーカ１３と、記録部１４と、データベース部１５と、を備えている。

撮像部１は、画像を撮像するものであり、被写体の光学像を光電変換して撮像信号を出力する。従って、本実施形態の再生装置は、撮像装置としての機能を備えている。

画像処理部２は、撮像部１からの撮像信号に、増幅、デジタル化、ホワイトバランス、ノイズ除去、ガンマ補正等の各種の信号処理を施す。

マイク３は、音声データを録音するための録音部の一部であり、動画撮像時の音声を音声信号に変換するだけでなく、静止画撮影時刻前後の音声も音声信号に変換するようになっている。

音声処理部４は、録音部の一部であり、マイク３から出力される音声信号を増幅しデジタル化して、必要に応じて風切り音を低減するなどの音声処理を行う。

タッチパネル５は、表示パネル１２の表示面上に貼設されていて、ユーザがタッチ操作を行うことにより入力を行うためのデバイスである。なお、ここではタッチパネル５を設けたが、タッチパネル５に代えて、もしくはタッチパネル５に加えて、専用のスイッチ（例えば十字パッド等）をカメラに設けても勿論構わない。

ＷＥＢ通信部６は、無線ＬＡＮや電気通信事業のパケット通信等を介してネットワーク、例えばインターネット等へ接続するための装置である。このＷＥＢ通信部６を介して、画像をインターネット等へアップロードしたり、インターネットから地図情報や天気情報などを取得することができる。ただし、天気情報については、ＷＥＢ通信部６を介して取得するに限るものではなく、例えば、撮像部１により撮影した画像や温度計９から取得した温度情報に基づき判定する（例えば、青空が撮影されているから「晴れ」である、取得した温度が３０°であるから「暑い」等）ようにしても構わない。

ＧＰＳ部７は、ＧＰＳ（グローバル・ポジショニング・システム：Global Positioning System）衛星からの信号を受信して、現在位置を測定するＧＰＳ受信機である。このＧＰＳ部７は、消費電力を削減する観点からオン／オフを切り換えることができるようになっており、ＧＰＳ位置情報を取得するモードに設定されている場合にはオンに切り換えられ、ＧＰＳ位置情報を取得するモードに設定されていない場合にはオフに切り換えられる。

時計８は、現在時刻を出力する計時部である。

温度計９は、カメラの周囲の環境温度を取得する温度測定部である。ただし、温度情報をＷＥＢ通信部６を介してインターネットから取得しても良く、この場合には、カメラに温度計９を設けなくても構わない。

制御部１０は、カメラの各部を統括的に制御するものであり、画像を画像群に分類する画像分類部としての機能や、画像の特徴を検出する（例えば、画像における画面上方に青空があるか否かや、複数の画像同士が類似しているか否か等を検出する）特徴検出部としての機能も果たすようになっている。ここに、画像群とは、分類上における特定の性質を備える１つ以上の画像の集合であり、複数の画像が含まれる場合には、共通する特定の性質を備えるという点で互いに関連性のある複数の画像の集合となる。以下では簡単のために、画像群には複数の画像が含まれていると想定して説明を行うが、１つの画像群に含まれる画像が１つであることを妨げるものではない。画像群の具体例としては、撮影時刻が近い複数の画像、同一人物が写っている複数の画像、被写体が類似している複数の画像、などが挙げられる。

再生制御部１１は、カメラに設定されている画像再生モードに従って画像を表示パネル１２に表示再生させると共に、画像再生モードが画面に画像を拡大して表示する第１の表示モード（第１の再生モード）（具体的な一例として、画面に画像を１つだけ表示する全画面表示モード）であるときには後述する第１の要約を、画像再生モードが画面に画像を縮小して複数表示する第２の表示モード（第２の再生モード）（後述する、サムネイル表示モード、フロー表示モード等）であるときには後述する第２の要約を再生させるものである。再生制御部１１は、具体的に、要約が音声データであるときにはスピーカ１３に音声再生させ、要約がテキスト（文字情報）である場合には表示パネル１２に表示再生させる。第１の要約は、画像撮影時の状況を認識するのを補助する情報（補助情報）が表示可能な情報である場合には、そのまま表示再生しても良い。

表示パネル１２は、再生制御部１１から出力される画像（撮影された画像）や、カメラに関する各種情報などを画面に表示する表示部である。

スピーカ１３は、再生制御部１１から出力される音声データを音声として再生する音声再生部である。

記録部１４は、撮像部１から取得された画像やマイク３から取得された音声などを記録する、コンピュータにより読み取り可能な一時的でない記録媒体である。従って、記録部１４は録音部の一部であり、本実施形態の再生装置は録音装置としての機能を備えている。

データベース部１５は、カメラにおいて用いる各種のデータを、不揮発かつ書き換え可能に記録するコンピュータにより読み取り可能な一時的でない記録媒体である。なお、ここではデータベース部１５を記録部１４とは別体に設けたが、記録部１４内に設けても構わない。

次に、上述した制御部１０は、音声分析部１０ａと、テキスト化部１０ｂと、要約部１０ｃと、顔判定部１０ｄと、を備えている。

制御部１０は、音声処理部４を介してマイク３から入力される音声から、撮影時点を含む所定時間（撮影時点の前の前録時間（例えば５秒）、および撮影時点の後の後録時間（例えば５秒）（つまり、例えば合計１０秒））の音声を、図２に示すように第１の音声データｔｓ１として録音するように制御する。

ここに、図２は静止画記録の前後に行われる音声録音の例を示すタイミングチャートである。

音声分析部１０ａは、音声処理部４から入力された音声データを分析して、例えば波の音である、さざ波の音である、風音である、破裂音である、呼びかけ等の人の声である、などの音声の種類に分類する処理を行う。

テキスト化部１０ｂは、上述した音声分析部１０ａの分析結果に基づき、人の声であると分類された場合には音声認識を行ってテキストデータに変換し、人の声以外の音であると分類された場合には擬音テキストデータベース（この擬音テキストデータベースは、後述するように、データベース部１５の例えば文章用テンプレート１５ａに付帯して設けられている）の中から該当する擬音、波の音である場合には「ざざー」、さざ波の音である場合には「ちゃぷちゃぷ」、風音である場合には「そよそよ」、破裂音である場合には「バーン」等を選択する。

要約部１０ｃは、画像撮影時の状況を認識するのを補助する情報である要約を作成するものである。

具体的に、要約部１０ｃは、例えば第１の音声データｔｓ１自体を第１の要約とする。ここに、第１の要約は、いわゆる生録音声（マイク３から入力される音声をそのまま録音した音声）に限るものではなく、雑音などを除去して要約し上述した所定時間（例えば１０秒）にした音声でも良いし、必要な部分のみを採用して所定時間（例えば１０秒）にした音声であっても構わないし、その他であっても良い。つまり要約は、写真などの画像と共に再生することで撮影時を思い出すのに有効な情報であれば良い。具体例として、要約は、その画像にふさわしい特徴的な環境音や、撮影するときのかけ声や返事等の一連の会話などが相当する。

そして、要約部１０ｃは、第１の音声データｔｓ１の中から特徴的な一部分、例えば図２に示すように音圧が最も高い部分を含む所定時間分（例えば１秒分）を抽出して、第１の要約よりも画像単位での認識に要する時間（具体的には、再生時間）が短い第２の要約である第２の音声データｔｓ２とする。なお、特徴的な部分の他の例としては、第１の音声データｔｓ１の中の、人の声であると分類された部分、周期的に発生している特徴音（例えば波の音）などが挙げられる。

さらに、要約部１０ｃは、画像群に含まれる全画像の第１の音声データｔｓ１でなる第１の音声データｔｓ１群から、特徴部分である特徴音を所定時間分だけ抽出して第１の音声データｔｓ１よりも再生時間が短い第３の音声データｔｓ３を作成するとともに、作成した第３の音声データｔｓ３を他の第２の要約とする。この第２の要約において、大きな音の部分を選択したり、撮影者の声などは省いて、肝心の被写体の声だけを選択するような工夫も有効である。また、周期的に繰り返される音声を第２の要約とする場合には、２周期分のみを採用する、などの短縮を行うことも有効である。つまり第２の要約においては、一枚の画像当たりの補助情報を時間的に短縮する。

ここに、第３の音声データｔｓ３として抽出される画像群の特徴音とは、画像群に含まれる各画像に係る全ての第１の音声データｔｓ１の中の特徴的な部分である。画像群の特徴音としては、例えば、画像群に含まれる各画像に係る複数の特徴的な第２の音声データｔｓ２の内の、最も特徴的な１つの第２の音声データｔｓ２が挙げられる。なお、「最も特徴的な１つの第２の音声データｔｓ２」とは、例えば、複数の第２の音声データｔｓ２の音圧の各最高値の内の、最も高い値を示す第２の音声データｔｓ２、あるいは音声認識を最も高い精度で行うことができる第２の音声データｔｓ２、などである。もしくは簡単に、画像群に含まれる複数の画像中の、撮影時刻が最も古い（あるいは撮影時刻が最も新しい、さらにあるいは最も古い撮影時刻と最も新しい撮影時刻との中間時刻に最も近い、等の）画像の第２の音声データｔｓ２を第３の音声データｔｓ３として設定しても構わない。

第３の音声データｔｓ３として抽出される画像群の特徴音の他の例としては、画像群に含まれる各画像に係る複数の第１の音声データｔｓ１において、共通に含まれている音声成分（音波の性質（音圧、周波数など）がほぼ同一の音声部分）が挙げられる。ここに「共通に含まれている音声成分」とは、例えば、複数の第２の音声データｔｓ２に共通して波の音が含まれている場合に、何れか１つの第２の音声データｔｓ２から抽出した波の音の音声成分、あるいは複数の第２の音声データｔｓ２の全てから抽出した波の音を平均化した音声成分、などである。

なお、第３の音声データｔｓ３の抽出方法は、上記に挙げた例に限定されるものではなく、その他の技術を適宜用いることができる。例えば、ステレオ式に複数の音声を複数のスピーカから同時に再生して、コラージュ風の表現をしても良い。また、１つのスピーカーからモノラルで音声を再生しても良く、旅行などでは、その土地を一番良く表す音声を選んでも良い。このときに、ＧＰＳ情報などを補助的に利用することが可能である。例えば、ＧＰＳ情報に基づき海の近くであることが分かる場合には、録音した音声データに含まれる海の音の音声成分を、その他の音声成分よりも優先させて音量を上げる、等である。また、季節の情報なども有効に利用することが可能である。例えば、季節の情報が夏である場合には、録音した音声データに含まれる特徴的な音声としての蝉の鳴き声の音声成分を、その他の音声成分よりも優先させて音量を上げる、等である。こうした季節や土地に対して、どのような音声が特徴的となるかを示す優先度情報を表形式でもつようにして、この表を参照して優先させる音声成分を判断するようにしても良い。

加えて、要約部１０ｃは、画像の撮影に伴って得られた撮影時情報、つまり、撮影で得られた画像自体（具体的には、画像に基づき顔判定部１０ｄにより検出された顔、あるいは画像を解析して得られる画像の特徴など）、第１の音声データｔｓ１自体（具体的には、第１の音声データｔｓ１から抽出される環境音やテキスト化された音声など）、ＧＰＳ部７から取得したＧＰＳ位置情報、ＷＥＢ通信部６から受信した地図情報や天気情報、時計８から取得した時間情報、温度計９から取得した温度情報等（列挙したこれらの例に限定されるものではなく、その他の情報を用いても勿論構わない）に基づいて、画像の特徴を表すタグ情報（このタグ情報は、画像の特徴を表し、下記に説明するように、例えば画像の説明文を作成するために用いられる）を、画像に関連付け可能な文字情報として生成する（タグ情報生成の処理の一例については、後で図１１Ａおよび図１１Ｂを参照して説明する）。

その後、要約部１０ｃは、必要に応じて、データベース部１５の文章用テンプレート１５ａに保存されている複数の文章テンプレート（空欄に言葉を嵌め込むことにより文章を構成するためのテンプレート）の中からタグ情報に応じて適切な１つの文章テンプレートを読み込み、読み込んだ文章テンプレートの空欄個所にタグ情報を嵌め込むことにより、画像の説明文を生成する。一例を挙げれば、次の文章テンプレート、「（Ｘ１）月（Ｘ２）日、（Ｘ３）と（Ｘ４）に行った。その日は（Ｘ５）日だった。」を用いて、時間情報に基づき「Ｘ１＝５」および「Ｘ２＝５」を、顔情報に基づき「Ｘ３＝太郎さん」を、ＧＰＳ位置情報および地図情報に基づき「Ｘ４＝京都」を、天気情報（あるいは天気情報および温度情報）に基づき「Ｘ５＝晴れていてとても暑い」を、それぞれ嵌め込み、次の画像の説明文を作成する。「５月５日、太郎さんと京都に行った。その日は晴れていてとても暑い日だった。」このようにして要約部１０ｃにより生成された画像の説明文は、要約部１０ｃの制御に基づき後述する音声合成部１１ｄにより音声生成されて第１の要約である第４の音声データｔｓ４に変換される。

なお、要約部１０ｃによる画像の説明文の作成は、画像が撮像された時点で行うに限るものではなく、画像を鑑賞する時点で行っても良い。画像を鑑賞する時点で画像の説明文を作成すれば、鑑賞する時点と撮像時点との時間差を考慮した文章を作成することが可能になる利点がある。一例としては、撮像時点が１年前であれば「昨年」という文言を選択することができ、２年前であれば「一昨年」という文言を選択することができる、等である。

そして、これらの音声データｔｓ１〜ｔｓ４の例をまとめたのが図３である。ここに、図３は画像再生時に再生される音声データの例を示す図表である。

顔判定部１０ｄは、画像に基づき顔を検出するものである。すなわち、顔判定部１０ｄは、画像処理部２を介して撮像部１から得られた画像データから、人物の顔部分を抽出し、抽出した顔の特徴点データから、データベース部１５の後述する顔データベース１５ｂに既に登録済みの顔であると判断される場合（つまり、抽出した顔の特徴点データと同一と判定される顔の特徴点データが、人物名等の人物情報に既に関連付けされている場合）には、関連付けられた人物情報を読み出して撮像して得られた画像データに関連付けする。また、顔判定部１０ｄは、必要に応じて、顔の状態（例えば、笑顔であるか否か等）についても判定を行う。

なお、記録部１４には、画像データが記録されると共に、画像データに関連付けて第１の音声データｔｓ１とタグ情報とが記録される。また、要約である第２の音声データｔｓ２も画像データに関連付けて記録部１４に記録されても良いが、第２の音声データｔｓ２自体に代えて、第１の音声データｔｓ１中の特定範囲を示すポインタ等が記録されても構わない。さらに、画像群に係る第３の音声データｔｓ３が画像群に関連付けて記録部１４に記録されても良いが、例えば旅行に係る画像群はその旅行が終了すれば確定するのに対して、特定の人物が写っている画像群はその特定の人物が含まれる画像が将来撮影されることもあり得るために、現時点の画像群が既に確定したものであるとはいえない。従って、記録部１４に第３の音声データｔｓ３が記録されている場合であっても、画像群が更新された場合には第３の音声データｔｓ３も更新すると良い。あるいは、第３の音声データｔｓ３は、必要になる毎に画像群に含まれる各画像に係る複数の第１の音声データｔｓ１から作成しても良い。

続いて、再生制御部１１は、全画面表示部１１ａと、サムネイル表示部１１ｂと、フロー表示部１１ｃと、音声合成部１１ｄと、テロップ作成部１１ｅと、を備えている。

全画面表示部１１ａは、画像の全画面表示を行うための表示用データを作成する。

サムネイル表示部１１ｂは、画像のサムネイル表示を行うための表示用データを作成する。

フロー表示部１１ｃは、画像のフロー表示を行うための表示用データを作成する。

音声合成部１１ｄは、テキスト化部１０ｂにより作成されたテキスト、または要約部１０ｃにより作成されたタグ情報（このタグ情報もテキストである）に基づき音声合成を行って、読み上げ用の音声データを作成する。さらに、音声合成部１１ｄは、要約部１０ｃにより作成された画像の説明文に基づき音声合成を行って、画像の説明文に係る第４の音声データｔｓ４を作成する。

テロップ作成部１１ｅは、上述したテキスト化部１０ｂにより作成されたテキスト、要約部１０ｃにより作成されたタグ情報、または要約部１０ｃにより作成された画像の説明文に基づき、フォントデータを用いて表示用のテロップデータを作成する。

そして、データベース部１５は、文章用テンプレート１５ａと、顔データベース１５ｂと、を備えている。

文章用テンプレート１５ａは、上述したような、タグ情報を嵌め込む文章テンプレートを保持するものである。文章テンプレートは、撮影シーンに合わせて各種が予め用意されているが、ＷＥＢ通信部６を介してインターネット等から新たな文章テンプレートや所望の文章テンプレートをダウンロードするようにしても構わない。このとき、インターネットへ接続するタイミング等は、所望のタイミングであっても良いし、画像をインターネットへアップロードするタイミングであっても構わない。なお、文章用テンプレート１５ａには、テキスト化部１０ｂにより用いられる擬音テキストデータベースや、画像の撮影時刻と再生時刻との時間差を表す言葉を収納する時差テンプレートなどが付帯して設けられている（ただし、擬音テキストデータベースや時差テンプレートを文章用テンプレート１５ａとは別体に設けても構わない）。

顔データベース１５ｂは、顔（具体的には、顔の特徴点データ）と人物名等の人物情報とを関連付けて記憶するデータベースである。ここに、顔の特徴点データは画像から顔判定部１０ｄにより抽出され、人物情報は例えばユーザが入力する。

次に、図８は、カメラのメイン処理を示すフローチャートである。

カメラの電源スイッチがオンされる等によりこの処理が開始され、まず、カメラが撮影モードに設定されているか否かを判定する（ステップＳ１）。

ここで撮影モードに設定されている場合には、後で図９を参照して説明する撮影モードの処理を実行する（ステップＳ２）。

また、ステップＳ１において撮影モードに設定されていないと判定された場合には、カメラが再生モードに設定されているか否かを判定する（ステップＳ３）。

ここで再生モードに設定されている場合には、後で図１０を参照して説明する再生モードの処理を実行する（ステップＳ４）。

また、ステップＳ３において再生モードに設定されていないと判定された場合には、カメラが通信モードに設定されていると判定して、画像通信の処理を実行する（ステップＳ５）。この画像通信の処理は、ＷＥＢ通信部６等を介して画像をパーソナルコンピュータへ送信したり、あるいは画像をインターネットへアップロードする処理を含み、公知の技術を広く適用可能であるためにここでは詳細には説明しない。

上述したステップＳ２、ステップＳ４、またはステップＳ５の処理を行ったら、このメイン処理を終了するか否かを判定する（ステップＳ６）。ここにメイン処理の終了は、例えば、電源スイッチがオフに操作された場合、あるいは何の操作もなされていない時間が自動電源オフ設定時間（あるいはスリープ設定時間）に達した場合などに実行されるようになっている。

ここで、メイン処理をまだ終了しない場合にはステップＳ１へ戻って上述したような処理を繰り返して行い、終了する場合にはメイン処理を終える。

続いて、図９は、撮影モードの処理を示すフローチャートである。図８に示したステップＳ２に入ると、この撮影モード処理が開始される。

まず、カメラがＧＰＳ位置情報を取得するモードに設定されていて、ＧＰＳ部７がオンになっているか否かを判定する（ステップＳ１１）。

ここで、ＧＰＳ部７がオンになっている場合には、ＧＰＳ部７によりＧＰＳ位置情報を取得する（ステップＳ１２）。

次に、撮像部１により撮像を開始し、画像処理部２や再生制御部１１等により処理を行って表示パネル１２にスルー画を表示開始する（ステップＳ１３）と共に、マイク３により録音を開始する（ステップＳ１４）。ここにスルー画は、構図等を決定する際にユーザが観察することができるように表示パネル１２に表示されるリアルタイムの動画であり、例えば６０ｆｐｓのフレームレートで撮影される。なお、例えば６０ｆｐｓのフレームレートで撮像部１の全画素を読み出すことは困難であったり消費電力を要したりするために、例えば間引き読み出しや加算読み出し等が行われ、静止画よりも画素数が少なくなっている。従って、図２においては、記録画となる静止画よりも小さい画像として図示している。

そして、スルー画における顔判定を行うモードに設定されているか否かを判定する（ステップＳ１５）。

ここで、スルー画における顔判定を行うモードに設定されている場合には、顔判定部１０ｄにより人物の顔部分を抽出して、スルー画における人物の顔部分に例えば四角の枠を表示する等の顔判定表示を行う（ステップＳ１６）。

そして、認証可能であるか否か、つまり顔判定の対象となる人物のデータが顔データベース１５ｂに既に登録されているか否かを判定する（ステップＳ１７）。

ここで認証可能である場合には、顔認証処理として、スルー画における人物の顔部分に人物のデータを関連付ける（ステップＳ１８）。

ステップＳ１５においてスルー画の顔判定を行うモードに設定されていないと判定された場合、ステップＳ１７において認証不可能であると判定された場合、またはステップＳ１８における顔認証処理が終了した場合には、静止画撮影を指示するレリーズ操作（なお、カメラにおいては２段押圧式のレリーズスイッチにより操作が行われることが多いために、この場合にはセカンド（２ｎｄ）レリーズ操作）が行われたか否かを判定する（ステップＳ１９）。

ここでレリーズ操作が行われていない場合には、ステップＳ１４において録音を開始した音声データの内の、最新の前録時間（上記例では５秒）分の音声データ以前の部分をクリア（削除）して（ステップＳ２０）、ステップＳ１３に戻り、スルー画の表示と、前録時間分の音声データの記録と、必要に応じた顔判定と、を継続して行いながら、レリーズ操作が行われるのを待機する。

そして、ステップＳ１９においてレリーズ操作が行われたと判定された場合には、図２にも示すように、記録画としての静止画を撮影する（ステップＳ２１）。

静止画撮影後も、後録時間（上記例では５秒）が経過するまでは音声データの録音を行い、後録時間が経過した時点で録音を終了する（ステップＳ２２）。こうして録音された、レリーズ時点を含む前録時間および後録時間の音声データが第１の音声データｔｓ１である。

続いて、要約部１０ｃが、第１の音声データｔｓ１から第２の音声データｔｓ２を上述したように作成する（ステップＳ２３）。

さらに、要約部１０ｃが、後で図１１Ａおよび図１１Ｂを参照して説明する３Ｗ＋１Ｈ要約テキスト化の処理を実行して、各種のタグ情報を生成する（ステップＳ２４）。ここに「３Ｗ＋１Ｈ」とは、タグ情報の幾つかの例としての、いつ（ＷＨＥＮ）、どこで（ＷＨＥＲＥ）、誰が（ＷＨＯ）、どのように（ＨＯＷ）、を意味している。

そして、撮影された画像を記録部１４に記録すると共に、画像に関連付けて第１の音声データｔｓ１とタグ情報、あるいはさらに第２の音声データｔｓ２等が記録される（ステップＳ２５）。

このステップＳ２５の処理を終えたら、この撮影モードの処理から図８に示すメイン処理に復帰する。

次に、図１０は、再生モードの処理を示すフローチャートである。図８に示したステップＳ４に入ると、この再生モード処理が開始される。

まず、記録部１４に記録されている全画像を、上述したように画像群に分類する（ステップＳ３１）。記録部１４に記録されている全画像が画像群に全く分類されていない場合には、全画像の分類を行うが、再生モード処理を既に１回以上行っている場合には、前回再生モード処理を行って以降に撮影された画像のみを画像群に分類（つまり、既存の画像群への追加、または新規の画像群の生成を）すれば良い。これにより、記録部１４に記録されている全画像の、現時点での画像群への分類が行われたことになるために、ここでは更新が必要な第３の音声データｔｓ３を要約部１０ｃが作成して、記録部１４へ記録する処理も行う。

続いて、再生モードが、第２の表示モードであるサムネイル表示モードに設定されているか否かを判定する（ステップＳ３２）。

ここでサムネイル表示モードに設定されていない場合には、全画面表示モードに設定されていると判定して、後で図１２を参照して説明する全画面表示の処理を行う（ステップＳ３３）。

また、ステップＳ３２においてサムネイル表示モードに設定されていると判定された場合には、サムネイル表示部１１ｂがサムネイル表示用の画像データを作成し、サムネイル表示の処理を行う（ステップＳ３４）。このサムネイル表示は、デジタルカメラ等において広範に利用されているためにここでは詳細な説明を省略するが、図６に示すように、表示パネル１２の画面１２ａ全体に複数のサムネイル画像ｐｓを同じ大きさで配列して表示する（従って、複数のサムネイル画像ｐｓが同時に表示される）ものである。ここに、図６はサムネイル表示モードの様子を示す図である。

なお、ここではサムネイル表示を、例えば画像群毎に区切って（つまり、画面に表示される複数のサムネイル画像が同一の画像群に属するように）行うものとする。具体的に、第１の画像群に属する画像が２０枚、第２の画像群に属する画像が１０枚で、１２枚のサムネイル画像を配列してサムネイル表示する場合を考えると、まず、第１の画像群のサムネイル画像１２枚を表示し、次に第１の画像群の残りのサムネイル画像８枚を表示し、その後に第２の画像群のサムネイル画像１０枚を表示する、等である。ただし、このような表示例に限定されるものではなく、第１の画像群の残りのサムネイル画像８枚と第２の画像群のサムネイル画像４枚とを１つの画面にサムネイル表示しても良いし、その他の種々の表示方法を適宜利用しても構わない。

サムネイル表示を行っているときに、フロー表示に移行する操作がなされたか否かを監視している（ステップＳ３５）。

ここで、フロー表示に移行する操作がなされた場合には、フロー表示を行う際の基準画像として、撮影時刻が最新となる画像を設定する（ステップＳ３６）。

そして、後で図１３を参照して説明するフロー表示の処理を行う（ステップＳ３７）。

ステップＳ３７のフロー表示が終了したら、フロー表示から全画面表示へ移行する操作がなされたか否かを判定し（ステップＳ３８）、操作がなされた場合にはステップＳ３３の全画面表示の処理へ移行する。

一方、ステップＳ３５において、フロー表示に移行する操作がなされていないと判定された場合には、配列して表示されている複数のサムネイル画像ｐｓの内の１つが選択されて着目画像となったか否かを判定する（ステップＳ３９）。

ここで、何れのサムネイル画像ｐｓも選択されていない場合には、サムネイル画像ｐｓが配列されていない周辺の余白部分に、タッチパネル５を介したタッチ操作がなされたか否かを判定する（ステップＳ４０）。

ここで、周辺の余白部分にタッチ操作がなされた場合（従って、サムネイル表示において着目画像が存在しない場合）には、再生制御部１１の制御により、サムネイル表示されている画像群の第３の音声データｔｓ３をスピーカ１３から音声再生する（ステップＳ４１）。

このステップＳ４１の処理を開始した後、または、ステップＳ４０において周辺の余白部分にタッチ操作がなされていないと判定された場合には、ステップＳ３５へ戻ってフロー表示への移行を再び判定する。

また、ステップＳ３９において、サムネイル画像ｐｓの内の１つ（ひいては、サムネイル画像ｐｓにより表される１つの画像）がシングルタッチ（あるいはシングルタップ）により選択されたと判定された場合には、選択された着目画像の第２の音声データｔｓ２をスピーカ１３から音声再生する（ステップＳ４２）。また、サムネイル画像ｐｓの内の１つがダブルタッチ（あるいはシングルタップ）により選択された場合には、カメラが全画面表示モードに設定されるために、ステップＳ４２の処理は実質的にスキップされ、ステップＳ４３、ステップＳ４５の分岐を経て、ステップＳ３２の分岐を「ＮＯ」へ移行し、ステップＳ３３の全画面表示の処理を行うことになる。

このステップＳ４２の処理を開始した後に、次のサムネイル表示候補を選択する操作（つまり、サムネイル表示を次頁へ進める操作）がなされたか否かを判定する（ステップＳ４３）。

ここで、操作がなされた場合には、現在表示中の画像群の中に未表示の画像があるときにはその画像の選択を行い、現在表示中の画像群の全てがサムネイル表示済みのときには次の画像群から画像の選択を行う（ステップＳ４４）。このステップＳ４４の処理を行ったら、ステップＳ３４へ戻って選択した画像をサムネイル表示する。

一方、ステップＳ４３において、次のサムネイル表示候補を選択する操作がなされていないと判定された場合には、表示を終了するか否かを判定する（ステップＳ４５）。

ここで、表示を終了しない場合にはステップＳ３２へ戻る。また、表示を終了する場合、あるいはステップＳ３３の処理を終了した場合には、この再生モードの処理から図８に示すメイン処理に復帰する。

なお、上述では、サムネイル表示を行っただけでは音声は再生されず、サムネイル表示における周辺の余白部分にタッチ操作がなされたときに画像群に係る第３の音声データｔｓ３を再生するようにしているが、これに代えて、サムネイル表示を行っただけで第３の音声データｔｓ３が自動的に再生されるように構成しても構わない。

ここで、サムネイル表示モードは、複数の画像を縮小して並べて表示するモードであり、少ない枚数（１〜２枚）ごとに画像を鑑賞するモード（第１の表示モードであり、例えば全画面表示モード）とは異なる第２の表示モードの１種である。そして、サムネイル画像は、このサムネイル表示モードにおいて並べて表示される縮小された画像のことである。第２の表示モードとしては、グループで（少なくない枚数の画像が）表示されれば良く、縮小して並べて表示するに限らず、縮小することなく重ねて表示する表示方法を取っても良い。そして、複数の中から特定画像を選択するのにふさわしい表示方法であると良い。

次に、図１１Ａおよび図１１Ｂを参照して、図９のステップＳ２４の処理の詳細を説明する。ここに、図１１Ａは３Ｗ＋１Ｈ要約テキスト化の処理の一部を示すフローチャート、図１１Ｂは３Ｗ＋１Ｈ要約テキスト化の処理の他の一部を示すフローチャートである。

この３Ｗ＋１Ｈ要約テキスト化の処理を開始すると、まず、画像に関連して録音された第１の音声データｔｓ１の中から、音声分析部１０ａにより環境音が検出されたか否かを判定する（ステップＳ５１）。

ここで環境音が検出された場合には、要約部１０ｃが、文章用テンプレート１５ａに付帯して設けられた擬音テキストデータベースから、検出された環境音に対応する擬音テキストを選択して、ＨＯＷのタグ情報として設定する（ステップＳ５２）。タグ情報の幾つかの具体例を挙げれば、波→「ザザー」、さざ波→「ちゃぷちゃぷ」、風音→「そよそよ」、破裂音→「バーン」、呼びかける声→テキスト化部１０ｂによるテキスト化、等である。なお、これらのタグ情報は、テキストとして再生するに限るものではなく、例えばアイコン化して（つまり図として）表示再生しても良い。これにより、聴覚に自信のないユーザや、聞き取りが困難な騒音環境下にいるユーザでも、タグ情報をより容易に認識することが可能となる。

ステップＳ５１において環境音が検出されないと判定された場合、またはステップＳ５２の処理を行った場合には、次に、顔判定部１０ｄにより記録画像である静止画像中に顔部分が検出されたか否かを判定する（ステップＳ５３）。

ここで顔部分が検出された場合には、検出された顔部分の数が所定数以上であるか否かを判定する（ステップＳ５４）。そして所定数以上である場合には、要約部１０ｃは、ＷＨＯのタグ情報として例えば「みんな一緒」を設定する（ステップＳ５５）。

また、検出された顔部分の数が所定数未満である場合、またはステップＳ５４の処理を行った場合には、検出された顔部分の認証が可能であるか否かを判定する（ステップＳ５６）。

ここで認証可能である場合には、要約部１０ｃは、顔判定部１０ｄにより検出された顔に基づきデータベース部１５の顔データベース１５ｂから人物情報を取得して、顔が検出された画像のＷＨＯのタグ情報として認証された人物情報、例えば「○○さん」を設定する（ステップＳ５７）。なお、ステップＳ５５において既にＷＨＯのタグ情報を設定している場合であって、このステップＳ５７の処理をさらに行った場合には、ＷＨＯのタグ情報が追記され、つまり１つの種類のタグに複数のタグ情報が保存されることになる。このように、タグ情報は１種類に対して１つ設定するに限るものではなく、複数を列記しても構わない。

また、ステップＳ５６において認証不可能であると判定された場合には、図９のステップＳ１８における静止画像撮影前後の動画像における認証結果を利用可能であるか否かを判定する（ステップＳ５８）。

ここで利用可能である場合には、ステップＳ５７へ行って上述したようにＷＨＯのタグ情報を設定する。

ステップＳ５３において顔部分が検出されないと判定された場合、ステップＳ５８においてステップＳ１８の認証結果を利用不可能であると判定された場合、またはステップＳ５７の処理を行った場合には、記録画像である静止画像の画面上方に特徴が検出されたか否かを判定する（ステップＳ５９）。ここに、カメラには図示しない重力センサ等が設けられていて、静止画像には重力方向上側の情報が付随して記録されていることを想定している。

そして、画面上方に特徴が検出された場合には、検出された特徴に対応するキーワードをＷＨＥＲＥのタグ情報として設定する（ステップＳ６０）。画面上方の特徴に応じたタグ情報の幾つかの具体例を挙げれば、青い→「青空の下」、暗い→「夜空の下」、人工光→「室内で」、等である。なお、これらのキーワードは、データベース部１５にキーワードテンプレートとして予め用意しておいても構わないし、ユーザが入力しても良いし、ＷＥＢ通信部６を介してインターネット等からダウンロードしても構わない。

ステップＳ５９において画面上方に特徴が検出されないと判定された場合、またはステップＳ６０の処理を行った場合には、ＧＰＳ位置情報および地図情報を取得可能であるか否かを判定する（ステップＳ６１）。

ここで取得可能である場合には、取得されたＧＰＳ位置情報および地図情報に基づき、ＷＨＥＲＥのタグ情報として、例えば「東京」などの地名やその他の地理情報を設定する（ステップＳ６２）。なお、上述と同様に、ステップＳ６０において設定されたＷＨＥＲＥのタグ情報が存在する場合には、ステップＳ６２において設定したＷＨＥＲＥのタグ情報が列記されることになる。

ステップＳ６１においてＧＰＳ位置情報または地図情報が取得できないと判定された場合、またはステップＳ６２の処理を行った場合には、静止画像の撮影時刻の情報を取得可能であるか否かを判定する（ステップＳ６３）。

一般的なカメラ等であれば静止画像には撮影時刻の情報が付随しているために取得可能であり、取得した撮影時刻に基づいて、ＷＨＥＮのタグ情報を設定する（ステップＳ６４）。タグ情報の幾つかの具体例を挙げれば、撮影時刻→「年月日時分」、月日→「春」「夏」「秋」「冬」、特別な日→「誕生日」「クリスマス」、時分→「朝」「夜」、等である。なお、例示したこれらのタグ情報は、上述したように、複数を列記しても構わない。

ステップＳ６３において何らかの理由により撮影時刻が取得できないと判定された場合、またはステップＳ６４の処理を行った場合には、ＷＨＥＮ、ＷＨＥＲＥ、ＷＨＯ、ＨＯＷの各タグ情報を画像と関連付けて（例えば画像ファイルのヘッダ情報などとして）記録部１４に記録し（ステップＳ６５）、この３Ｗ＋１Ｈ要約テキスト化の処理から図９に示す撮影モードの処理に復帰する。

なお、上述では、静止画像の撮影時の状況を表すタグ情報として、３Ｗ＋１Ｈのタグ情報を用いたが、その他のタグ情報を適宜取捨選択しても構わないことは勿論である。

続いて、図１２を参照して、図１０のステップＳ３３の処理の詳細を説明する。ここに、図１２は全画面表示の処理を示すフローチャートである。

この全画面表示は、必ずしも文字通りに画像を全画面に拡大して表示する必要はなく、余白付きの画像表示であっても良く、さらにこの余白に情報表示があっても構わず、加えて余白の情報表示が次の画像の予告であっても良い。

この全画面表示の処理を開始すると、まず、全画面表示部１１ａが選択画像を全画面表示するための表示用データを作成し、図５に示すように全画面表示を行う（ステップＳ７１）。ここに図５は、全画面表示モードの様子を示す図である。この全画面表示モードにおいては、表示パネル１２の画面１２ａのほぼ全体に（つまり画像を主体として）１枚の選択画像ｐのみを表示する。ただし、画面１２ａの全面積を用いて１つの選択画像ｐを表示するに限らず、画面１２ａの中央に１つの選択画像ｐを比較的大きな面積で表示して、その周辺に各種の情報を表示する等の表示形態であっても構わない。

次に、画像の説明文に係る第４の音声データｔｓ４を音声再生する設定がなされているか否かを判定する（ステップＳ７２）。

ここで、第４の音声データｔｓ４を音声再生する場合には、画像の撮像時点の前後に録音された第１の音声データｔｓ１と、第４の音声データｔｓ４と、を例えば同時に（あるいは順次に）音声再生する（ステップＳ７３）。

例えば同時に音声再生する場合には、撮影時の第１の音声データｔｓ１を背景音として説明文に係る第４の音声データｔｓ４をナレーションとする感覚であり、このようなバランスをより明瞭にするために、第４の音声データｔｓ４の再生音量を第１の音声データｔｓ１の再生音量よりも大きくするようにしても良い。画像の説明文に係る第４の音声データｔｓ４が音声合成部１１ｄにより作成されるのは、上述した通りである。

そして、同時音声再生の場合には、第４の音声データｔｓ４の再生時間が、第１の音声データｔｓ１の再生時間（ひいては第１の音声データｔｓ１の録音時間：上述した例では１０秒）以下となるようにすると良い。このためには、要約部１０ｃが画像の説明文を作成する際に、読み上げ時間長さが第１の音声データｔｓ１の再生時間以下となるような文章テンプレートを文章用テンプレート１５ａから選択して読み込むようにすると良い。従って、各文章テンプレートに、標準的な読み上げ時間等の情報を予め関連付けておくようにすると良い。

また、ステップＳ７２において第４の音声データｔｓ４を音声再生しないと判定された場合には、第１の音声データｔｓ１を音声再生すると共に、第４の音声データｔｓ４を作成する基となった、要約部１０ｃにより作成された画像の説明文を、選択画像ｐの表示に重畳して例えばテロップ表示再生する（ステップＳ７４）。このときに用いる表示用のテロップデータがテロップ作成部１１ｅにより作成されるのは、上述した通りである。なお、ここでは画像の説明文のテロップ再生を行ったが、テロップ再生は行わずに第１の音声データｔｓ１のみの音声再生を行うようにしても構わない。

また、上述では第１の音声データｔｓ１を必ず再生しているが、第１の音声データｔｓ１のみの音声再生に代えて、第４の音声データｔｓ４のみの音声再生を行っても構わない。

こうして、ステップＳ７３またはステップＳ７４の処理が行われたら、音声再生を終了するか否かを判定する（ステップＳ７５）。この判定は、全画面表示における音声再生が、繰り返し再生として設定されているか、あるいは１回再生として設定されているかに基づき行われる。そして、ここで音声再生を終了しない場合には、ステップＳ７２へ戻って、音声再生を繰り返して行う。

一方、ステップＳ７５において音声再生を終了すると判定された場合には、全画面表示する画像を次の画像に進める操作が行われたか否かを判定する（ステップＳ７６）。

そして、次の画像に進める操作が行われた場合には、ステップＳ７１へ戻って、次の画像について上述したような音声再生を伴う全画面表示を行う。

また、ステップＳ７６において次の画像に進める操作が行われていないと判定された場合には、この全画面表示の処理から、図１０に示す再生モードの処理に復帰する。

次に、図１３を参照して、図１０のステップＳ３７の処理の詳細を説明する。ここに、図１３はフロー表示の処理を示すフローチャートである。

この処理に入ると、ステップＳ３６において設定した最新画像を規準としてフロー表示部１１ｃがフロー表示用データ作成し、例えば図７に示すようなフロー表示を開始する（ステップＳ８１）。ここに図７は、フロー表示モードの様子を示す図である。

フロー表示モードは、表示パネル１２の画面１２ａ内に複数の縮小画像ｐｒを撮影時刻順に配置して表示し、時間軸方向（図７に示す例では、時間軸方向が画面１２ａの左右方向であることを想定している）の操作入力に応じて表示を移動させる第２の表示モードである。

本実施形態のフロー表示モードは、さらに、ある画像がどの画像群ＰＧに含まれるのかが見ただけで容易に判別されるように、画像群ＰＧに含まれる画像同士を近接させて（例えば、画像群ＰＧに含まれる任意の画像は、同一の画像群ＰＧに含まれる他の少なくとも１つの画像と一部が重複するように）縮小画像ｐｒとして表示し、さらに、一の画像群ＰＧと他の画像群ＰＧとは所定の距離を離すように（重複部分がなく、時間軸方向において離隔するように）表示するようにしている。従って、このフロー表示モードにおいて利用される画像分類は、撮影時刻に沿った画像群への画像の分類である。

図７に示す例においては、画面１２ａの左側により古い画像が表示され、画面１２ａの右側により新しい画像が表示されるものとする。また、この図７の例では、縮小画像ｐｒの大きさも、例えば大小のサイズがランダムに混在するように表示されている（ただし、大きさをランダムにしなくても勿論構わない）。

そして、フロー表示モードにおいては、フリック入力の操作（タッチパネル５を指先等でスライドしたり、パッと払ったりする入力操作）が行われると、その操作が時間軸方向における未来方向か過去方向かに応じて、表示パネル１２に表示する画像をスライドさせる。

すなわち、まずフリック入力により、フロー表示の流れを停止させる操作が行われたか否かを判定する（ステップＳ８２）。

ここでフロー表示の流れを停止させる操作が行われていない場合には、画面を左側へ移動させるような左向きのフリック入力の操作が行われたか否かを判定する（ステップＳ８３）。

左向きのフリック入力の操作が行われた場合には、画面１２ａ内に新しく表示される画像をリサイズして縮小画像ｐｒとして、時間進行方向へフロー移動を行う（ステップＳ８４）。これにより、画面１２ａ内の右側に、撮影時刻がより後の（より新しい）画像が新たに表示される。

また、ステップＳ８３において画面を右側へ移動させるような右向きのフリック入力の操作が行われたと判定された場合には、画面１２ａ内に新しく表示される画像をリサイズして縮小画像ｐｒとして、時間後退方向へフロー移動を行う（ステップＳ８５）。これにより、画面１２ａ内の左側に、撮影時刻がより前の（より古い）画像が新たに表示される。

ステップＳ８４またはステップＳ８５の処理を行ったら、次に、時間軸方向の操作入力によるフロー表示の移動速度が所定値未満であるか否かを判定する（ステップＳ８６）。なお、フロー表示の移動速度は、フリック入力の操作の仕方によって変化するようになっている。

ここで、移動速度が所定値未満である場合には、各画像毎の音声再生が可能であると判断して、時間軸方向（図示の例では画面１２ａの左右方向）における画面１２ａの中央Ｃを通過している縮小画像ｐｒに係る画像の第２の音声データｔｓ２を音声再生する（ステップＳ８７）。

一方、ステップＳ８６において移動速度が所定値以上であると判定された場合には、各画像毎の音声再生が不可能（あるいは困難）であると判断して、時間軸方向における画面１２ａの中央Ｃを通過している画像群ＰＧに係る第３の音声データｔｓ３を音声再生する（ステップＳ８８）。このときにはもちろん、第２の音声データｔｓ２は音声再生されない。

このように、フロー表示の移動速度が所定値よりも遅い場合には画像に係る第２の音声データｔｓ２が再生され、フロー表示の移動速度が所定値以上に速い場合には画像群ＰＧに係る第３の音声データｔｓ３が再生されるようになっている。このときの移動速度の区分は、例えば、画像群ＰＧに含まれる各縮小画像ｐｒが画面１２ａの中央Ｃを通過する縮小画像ｐｒ毎の時間の内の最短時間が、第２の音声データｔｓ２を再生するに要すると見込まれる典型時間以上である場合に移動速度が所定値未満であるとし、典型時間未満である場合に移動速度が所定値以上であるとするなどが考えられる。

ステップＳ８７またはステップＳ８８の処理を行ったら、ステップＳ８２へ戻ってフロー表示の流れを停止させる操作が行われたか否かを判定する。こうして、ステップＳ８２において、フロー表示の流れを停止させる操作が行われたと判定された場合には、このフロー表示の処理から、図１０に示す再生モードの処理に復帰する。

上述したように、各表示モードが設定されたときに再生される音声データは、例えば図４に示すようになっている。ここに図４は、画像再生モードの幾つかの例を説明するための図表である。

すなわち、全画面表示モードが設定されると、画像に係る音声データの内の、比較的長い再生時間を要すると考えられる、撮影時刻前後の第１の音声データｔｓ１と、画像の説明文を読み上げる第４の音声データｔｓ４と、の少なくとも一方が音声再生される。

この全画面表示モードは、必ずしも全画面で表示する必要はなく、１枚あるいは２枚の少ない枚数の画像を比較的大きめに表示して鑑賞するものを想定している。このときさらに、画像表示部分の外に様々なアイコンや要約を表示することができるスペースがあっても良い。

また、サムネイル表示モードが設定されると、特定の画像が選択されていないときには音声再生されないか、または画像群の特徴音声である第３の音声データｔｓ３が音声再生され、特定の画像が着目画像として選択されたときに、第１の音声データｔｓ１の中の特徴部分の第２の音声データｔｓ２が音声再生される。

上述したように、サムネイル表示モードは、複数の画像を縮小して並べて表示するモードであり、少ない枚数（１〜２枚）ごとに画像を鑑賞する第１の表示モード（例えば、叙述したような全画面表示モード）とは異なる第２の表示モードである。そして、第２の表示モードとしては、縮小して並べて表示するに限らないことも上述した通りである。

さらに、フロー表示モードが設定されると、フロー表示の移動速度が遅いときには画像に係る第２の音声データｔｓ２が再生され、フロー表示の移動速度が速いときには画像群に係る第３の音声データｔｓ３が再生される。

ここに、音声データｔｓ１，ｔｓ２，ｔｓ３，ｔｓ４の各音声再生時間Ｔts1 ，Ｔts2 ，Ｔts3 ，Ｔts4 は、概略、次のような大小関係にあると考えられる。ここに、下記の不等式において用いた記号「〜」は、近似した時間長さであることを示している。
Ｔts1 〜Ｔts4 ＞Ｔts2 〜Ｔts3

ただし、画像群として考えたときに、第２の音声データｔｓ２は画像群に含まれる各画像毎に音声再生されるのに対して、第３の音声データｔｓ３は画像群全体で１つ音声再生されるのみであるために、１画像当たりの再生時間を考えたときには、次のような大小関係になると捉えることもできる。
Ｔts1 〜Ｔts4 ＞Ｔts2 ＞Ｔts3

そして、全画面表示モードのときに最も再生時間の長い音声データｔｓ１，ｔｓ４が音声再生されるのは、全画面表示モードが特定の１つの画像をじっくりと観察する際に利用される表示モードであると考えられるためである。

また、１つの画面に複数の画像が表示されるサムネイル表示モードまたはフロー表示モードにおいては、１つの画像のみに対する音声再生を行うことがふさわしい場合には第２の音声データｔｓ２が音声再生され、そうでない場合には必要に応じて第３の音声データｔｓ３が音声再生される。

このような実施形態１によれば、画面に画像を拡大して表示する第１の表示モード（第１の再生モード）（例えば、画面に画像を１つだけ表示する全画面表示モード）が設定されているときには第１の要約を、画面に画像を縮小して複数表示する第２の表示モード（第２の再生モード）が設定されているときには第１の要約よりも画像単位での認識に要する時間が短い第２の要約を、作成して再生するようにしたために、画像撮影時の回想を、一枚毎だけでなく、画像群としても効果的に行うことが可能となる。

また、第１の要約を第１の音声データｔｓ１、第２の要約を第２の音声データｔｓ２とした場合には、画像を観察すると共に音声を聴取することにより（つまり、視覚だけでなく聴覚を併用して）、画像撮影時の状況をよりリアルに認識することが可能となる。

さらに、サムネイル表示モードにおいては、着目画像となっているサムネイル画像に係る第２の音声データｔｓ２を音声再生するようにしたために、着目画像の撮影時の状況を簡潔に認識することが可能となる。

そして、サムネイル表示において前記着目画像が存在しないとき（例えば、周辺の余白部分にタッチ操作がなされたとき）に、第３の音声データｔｓ３を音声再生するようにしたために、サムネイル表示されている画像群の撮影時の状況を簡潔に認識することが可能となる。

一方、フロー表示モードにおいては、画面中央を通過する縮小画像に係る第２の音声データｔｓ２を音声再生するようにしたために、画面中央の縮小画像の撮影時の状況を簡潔に認識することが可能となる。

また、フロー表示の移動速度が所定値以上であるときには画像群に係る第３の音声データｔｓ３を音声再生するようにしたために、個々の画像に係る第２の音声データｔｓ２を音声再生するのが難しい場合でも、画面中央の画像群の撮影時の状況を簡潔に認識することが可能となる。

さらに、要約部１０ｃが撮影時情報に基づきタグ情報を生成するようにしたために、タグ情報を用いて画像の特徴を明瞭に表すことが可能となる。このとき、文章テンプレートの空欄にタグ情報を嵌め込んで画像の説明文を生成する場合には、撮影時の状況認識を文章に基づき行うことが可能となる。

そして、画像の説明文を第４の音声データｔｓ４として音声再生する場合には、撮影時の状況を表す言葉を聴覚を用いて聞き取ることにより、撮影時の状況を明瞭に認識することが可能となる。ここに、第４の音声データｔｓ４の再生時間が第１の音声データｔｓ１の再生時間以下となるようにする場合には、第１の音声データｔｓ１の再生時間内において、第１の音声データｔｓ１を背景音とし第４の音声データｔｓ４をナレーションとする聴取が可能となる。

また、上述した再生装置は、撮像装置や録音装置として構成することも可能であるために、撮像装置や録音装置においても同様の効果を奏することができる。
［実施形態２］

図１４から図１８は本発明の実施形態２を示したものであり、図１４はタグ表示を伴う全画面表示の第１の例を示す図、図１５はタグ表示を伴う全画面表示の第２の例を示す図、図１６はタグ表示を伴う全画面表示の第３の例を示す図、図１７はタグ表示を伴う組写真表示の様子を示す図、図１８は再生モードの処理を示すフローチャートである。

この実施形態２において、上述の実施形態１と同様である部分については同一の符号を付すなどして説明を適宜省略し、主として異なる点についてのみ説明する。

本実施形態においては、全画面表示以外に、組写真表示を行う例について説明する。ただし、全画面表示および組写真表示に加えて、上述したサムネイル表示やフロー表示を行っても勿論構わない。また、本実施形態においては、音声再生を行う必要はなく、音声再生に代えて、あるいは音声再生と共に、要約部１０ｃにより作成されたタグ情報を表示するようになっている。もちろん上述した実施形態１と同様に、音声でタグ情報を読み上げたり、タグ情報とテンプレートとを組み合わせて文章にして読み上げたりしても良い。

また、上述した実施形態１においては、サムネイル表示として複数の画像を縮小して並べて表示するモードでの表示方法を詳しく説明したが、少ない枚数（１〜２枚）ごとに画像を鑑賞する第１の表示モード（第１の再生モード）（例えば全画面表示モード）とは異なるモードであるという点で、本実施形態の組写真表示もサムネイル表示と同じ分類となり、上位概念としての第２の表示モード（第２の再生モード）であると考えることができる。なお、この組写真表示においても、グループで（少なくない枚数の画像が）表示されれば良く、縮小して並べて表示するに限らず、縮小することなく一部を重ねて表示する表示方法を取っても良い。また、複数の画像の中から一つの画像を選択することができるようにすれば、この組写真表示は検索用にも使えるモードである。そして組写真表示は、アルバム風のレイアウトをとる点が特徴となっている。

まず、図１４〜図１６は、タグ表示を伴う全画面表示の幾つかの例を示している。要約部１０ｃは、全画面表示モードが設定されているときには、画面１２ａに表示される１つの画像ｐのタグ情報を第１の要約とする。つまり全画面表示においては、例えば、画像に関連付けられているタグ情報が全て（あるいは、１つの種類のタグ毎に代表的なタグ情報が１つ）表示再生されるような表示方法が採用されている。なお、タグ情報の列挙表示に代えて、要約部１０ｃにおいて作成された画像の説明文をテロップ作成部１１ｅにより表示用のテロップデータとして画像化し、第１の要約として表示再生しても構わない。ここでも全画面表示は、表示パネル１２の画面１２ａの全表示面積を使う表示である必要はなく、少ない枚数の画像を一枚ずつ鑑賞することができる表示であれば良い。従って、単純化のためにここでは全画面表示モードと呼んで説明しているが、全画面表示をより広い概念化した第１の表示モードであれば良い。

具体的に、図１４においては、画像ｐに加えて、ＷＨＥＮのタグ情報として「去年」および「夏」が、ＷＨＥＲＥのタグ情報として「伊豆」が、ＷＨＯのタグ情報として「Ａちゃん」が、ＨＯＷのタグ情報として「ざざー」が、タグ表示１２ｔとして表示されている。ただし、「去年」のタグ情報は、後で図１８を参照して説明するように、画像の撮影時刻と再生時刻との時間差に基づき設定されたものである。

また、図１５においては、画像ｐに加えて、ＷＨＥＮのタグ情報として「去年」および「夏」が、ＷＨＥＲＥのタグ情報として「伊豆」および「青空」が、ＨＯＷのタグ情報として「そよそよ」が、タグ表示１２ｔとして表示されているが、人物が画像内にいないためにＷＨＯのタグ情報は表示されていない。

さらに、図１６においては、画像ｐに加えて、ＷＨＥＮのタグ情報として「去年」および「夏」が、ＷＨＥＲＥのタグ情報として「伊豆」および「山」が、タグ表示１２ｔとして表示されているが、人物が画像内にいないためにＷＨＯのタグ情報は表示されておらず、さらにＨＯＷのタグ情報も設定されておらず表示されていない。

次に、図１７は、タグ表示を伴う組写真表示の例を示している。組写真表示モードは、表示パネル１２の画面１２ａに、例えばユーザが選択した（あるいはカメラが自動選択した）複数枚（例えば３枚以上（ただし、全画面表示が１枚のみの表示である場合には、組写真表示は２枚以上であっても良い））の画像に係る縮小画像ｐｒが同時に表示される第２の表示モードである。この図１７に示す例では、図１４〜図１６に示した画像ｐの縮小画像ｐｒが適宜の大きさで同時に表示されている。

要約部１０ｃは、第２の表示モードである組写真表示モードが設定されているときには画面１２ａに表示される複数の縮小画像ｐｒのタグ情報における共通部分を重複させることなく第２の要約とする。すなわち、組写真においては、表示される複数枚の画像に共通するタグが表示される。なお、全画面表示において表示されたタグ情報に共通するタグ情報がない場合でも、画像に関連して記録されたタグ情報（つまり、全画面表示では未表示となっていたタグ情報も含む全タグ情報）中に共通するタグ情報が存在する場合には、そのタグ情報が表示される。このタグ情報には、被写体の姿勢情報や表情情報などを含んでも良く、タグ情報の変化を見れば、行動などを要約することができる。例えば、「座っている」タグが付いた画像と「立っている」タグが付いた画像が組写真中にあるときに、これらの画像の撮影時刻タグを含めて判定すれば、組写真に対する第２の要約として「座っている」タグと「立っている」タグとを並記するよりも、時系列順に、「座っている」→「立っている」となった場合にはタグ「立ち上がった」を、「立っている」→「座っている」となった場合にはタグ「座り込んだ」を、記載した方が分かり易く、かつ情報量も少なく要約されることになり好ましい。同じ赤ちゃんが立っている画像と座っている画像において、こうしたタグ情報が付されていると、愛らしい赤ちゃんの行動がリアルに回想される。

また、要約部１０ｃは、第２の表示モードである組写真表示モードが設定されているときには、画面１２ａに表示される複数の縮小画像ｐｒの各タグ情報の何れかに人物情報が含まれているときには、その人物情報を第２の要約にさらに含める。つまり、組写真に係るＷＨＯのタグ情報は、（もちろん重複させることなく）全て表示するようになっている。これは、組写真の何れかに顔データベース１５ｂに登録されている人物が写っている場合には、組写真表示された画像の全てに共通して写っていなくても観察者が容易に認識することができるためである。

従って、図１７に示す例においては、図１４〜図１６における共通するタグ情報として、ＷＨＥＮのタグ情報「去年」および「夏」と、ＷＨＥＲＥのタグ情報「伊豆」がタグ表示１２ｔとして表示され、さらに、図１４〜図１６におけるＷＨＯのタグ情報「Ａちゃん」がタグ表示１２ｔとして表示される。

なお、図１４〜図１７に示したようなタグ情報は、文字として表示するだけでも構わないが、音声としての読み上げ再生を併用するようにしても良い。

次に、図１８を参照して、本実施形態における再生モードの処理について説明する。

この再生モードの処理が開始されると、再生を行う現在時刻と、画像が撮影された時刻と、の時間差に基づいて、文章用テンプレート１５ａに付帯して設けられた時差テンプレートの中から、適切な言葉を選択する（ステップＳ９１）。時差テンプレートには、例えば、「今年」、「去年」、「一昨年」、…等の言葉が予め記憶されているものとする。

続いて、再生モードにおいて、組写真表示モードが設定されているか否かを判定する（ステップＳ９２）。

ここで、組写真表示モードが設定されている場合には、組写真表示部として機能する再生制御部１１が組写真として表示する画像群を生成して再生し、要約部１０ｃおよび再生制御部１１が画像テキストくくり表示、つまり共通するタグ情報をくくる表示を図１７のタグ表示１２ｔに示したように行う（ステップＳ９３）。

そして、組写真として表示する画像群を変更する操作が行われたか否かを判定し（ステップＳ９４）、操作が行われた場合には画像群の変更処理を行う（ステップＳ９５）。

一方、ステップＳ９２において、組写真表示モードが設定されていない場合（つまり、全画面表示モードが設定されている場合）には、選択されている画像を再生して、選択画像に係るタグ情報を図１４〜図１６のタグ表示１２ｔに示したようにテキスト表示する（ステップＳ９６）。

さらに、全画面表示する画像を変更する操作が行われたか否かを判定し（ステップＳ９７）、操作が行われた場合には画像の変更処理を行う（ステップＳ９８）。

ステップＳ９４において画像群を変更する操作が行われていないと判定された場合、ステップＳ９７において画像を変更する操作が行われていないと判定された場合、ステップＳ９５またはステップＳ９８の処理が行われた場合には、この再生モードの処理から図８に示すメイン処理に復帰する。従って、ステップＳ９５において変更された画像群、またはステップＳ９８において変更された画像の再生は、図８のメイン処理における次回のループ処理において実行されることになる。

なお、表示される文字情報をユーザが読むのに要すると考えられる時間Ｔは、概略、次のような大小関係にあると考えられる。ここに記号「〜」は、上述したように、近似した時間長さであることを示している。
Ｔ（画像の説明文）〜Ｔ（画像のタグ情報）≧Ｔ（画像群のタグ情報）

ただし、画像群として考えたときに、画像のタグ情報は画像群に含まれる各画像毎に表示再生されるのに対して、画像群のタグ情報は画像群全体に対して表示再生されるものであるために、文字情報をユーザが読むのに要する１画像当たりの時間を考えたときには、次のような大小関係になると捉えることもできる。
Ｔ（画像の説明文）〜Ｔ（画像のタグ情報）＞Ｔ（画像群のタグ情報）

そして、全画面表示モードのときに読むのに最も長い時間を要する「画像の説明文」または「画像のタグ情報」が表示再生されるのは、全画面表示モードが特定の１つの画像をじっくりと観察する際に利用される表示モードであると考えられるためである。

また、１つの画面に複数の画像が表示される組写真表示モードにおいては、読むのに要する１画像当たりの時間が短い「画像群のタグ情報」が表示再生される。

また、本実施形態において、実施形態１で説明したサムネイル表示やフロー表示を行う場合には、音声再生に代えて、あるいは音声再生と共に、タグ情報を表示するようにすれば良い。

具体的に、サムネイル表示においては、サムネイル表示が行われたときに表示されている画像群に関連するタグ情報（画像群タグ情報）を第２の要約として表示する。ここに画像群タグ情報は、画像群に含まれている全画像に係る（重複を除いた）全タグ情報であっても良いが、上述した組写真の例と同様に、画像群の全画像に共通するタグ情報、および画像群の何れかの画像に係るＷＨＯのタグ情報であっても良い。そして、サムネイル表示において、特定の画像がシングルタッチされて着目状態になると、シングルタッチされた画像に係るタグ情報を例えば簡易的に（つまり例えば、全種類のタグ情報の中の、重要と考えられる特定種類のタグ情報のみを）第２の要約として表示する（簡易タグ情報の表示）。

その後、サムネイル表示において特定の画像がダブルタッチされると、図１４〜図１６に示したような全画面表示に移行して画像のタグ情報または画像の説明文を第１の要約として表示する。

また、フロー表示においては、上述したようなフロー表示の移動速度に応じて、時間軸方向における画面中央を通過している画像に関連する簡易タグ情報、もしくは画面中央を通過している画像群に関連するタグ情報（画像群タグ情報）を第２の要約として表示する。このときには、タグ情報の表示を、文字が流れて行くテロップ表示として行っても良い。

このような実施形態２によれば、上述した実施形態１とほぼ同様の効果を奏するとともに、音声再生を要することなく表示再生のみによっても、画像撮影時の状況をよりリアルに認識することが可能となる。

また、第２の表示モードが設定されているときには、画面に表示される複数の画像のタグ情報における共通部分を重複させることなく第２の要約として表示再生するようにしたために、複数の画像のタグ情報をそれぞれ認識する場合に比べて、認識に要する時間を有効に短縮することができる。また、時間的な特徴変化を要約する辞書を参照可能に記録しておき、これによって個々の姿勢を動作に変換して表示するなどの工夫も可能となる。例えば上述したように、「立っている」、「座っている」という二つの情報の時間変化を、「座っている」→「立っている」に時間変化した場合には「立ち上がった」、「立っている」→「座っている」に時間変化した場合には「座り込んだ」、というシンプルな動作情報に変換することも可能である。

さらに、顔判定により検出された顔の人物情報を、第２の表示モードにおいて表示再生する第２の要約に含めるようにしたために、重要度が高いと考えられる、画像に写っている人物の名前等を、画像撮影時の状況に沿って明瞭に認識することが可能となる。

なお、上述では主として再生装置について説明したが、再生を上述したように行うための再生方法、再生を上述したように制御するための再生制御方法であっても良いし、コンピュータに再生装置を上述したように制御させるための、あるいは再生方法や再生制御方法を上述したように実行するためのプログラム、該プログラムを記録するコンピュータにより読み取り可能な一時的でない記録媒体、等であっても構わない。

具体的に、上記で説明した技術の内の、主にフローチャートを参照して説明した制御に関しては、プログラムの処理より実行可能であることが多く、このプログラムは記録媒体や記録部に収められる場合もある。このプログラムの記録は、製品を出荷するときに出荷製品に対して行っても良いし、製品の出荷と共にあるいは製品の出荷とは異なる時点で配布する記録媒体に対して行っても良い。あるいは、プログラムを、インターネット等の通信回線を介してダウンロードすることができるようにしても良い。

また、本発明は民生用のカメラ、ビデオカメラ、撮影機能付きの携帯機器、録音用装置、ＰＣのみならず、産業用、医療用の表示機器においても適用可能である。例えば、カプセル内視鏡で一枚の画像を拡大して診る場合と、複数の臓器の画像を通して診る場合とで、補助情報を変更することにより、一つ一つの病変とトータルな健康状態を要約を切り替えて認識させても良い。顕微鏡や工業用内視鏡においても同様である。監視カメラの場合は、不審者の外見特徴として一枚の画像から性別や年齢、服装などの見た目から分かる要約を表示し、複数の画像から行動や動作、癖などその他の分かることを要約しても良い。例えば、一枚表示では、「黒服の４０代の男で髪が長い」といった要約になり、複数枚表示では、位置情報タグや姿勢情報のタグの変化を解析して「男が走っていた」という要約にしても良い。

さらに、上述の実施形態では、画像の表示を前提としていたが、要約機能だけを用いて、画面表示せずに楽しむことも考えられる。例えば、耳で聞く回想装置として使用する場合は、画面を消して省エネ効果を持たせてもよい。必要なのは、グループとしての画像を扱うか、特定の画像を扱うかの差異で、要約が切り替わる点である。思い出に浸る方法としては、画像群を選んでの鑑賞と、特定の画像（１枚でなくともよい）を選んでの鑑賞があるということで、この選択に従って再生される補助情報や要約が変わるといった特徴をもつ機器を提供することができる。このような構成によれば、視覚にこだわることなく、聴覚のみでの鑑賞、回想が可能となり、車を運転しながらの回想や、視覚に自信がない人の回想や、多人数での鑑賞などの一つの画面が見えない（あるいは見難い）状況での鑑賞に対応することが可能となる。

そして、本発明は上述した実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明の態様を形成することができる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能であることは勿論である。

１…撮像部
２…画像処理部
３…マイク
４…音声処理部
５…タッチパネル
６…ＷＥＢ通信部
７…ＧＰＳ部
８…時計
９…温度計
１０…制御部
１０ａ…音声分析部
１０ｂ…テキスト化部
１０ｃ…要約部
１０ｄ…顔判定部
１１…再生制御部
１１ａ…全画面表示部
１１ｂ…サムネイル表示部
１１ｃ…フロー表示部
１１ｄ…音声合成部
１１ｅ…テロップ作成部
１２…表示パネル
１２ａ…画面
１２ｔ…タグ表示
１３…スピーカ
１４…記録部
１５…データベース部
１５ａ…文章用テンプレート
１５ｂ…顔データベース

Claims

所定期間の音声データを取得する音声データ取得部と、
上記音声データ取得部が取得した上記音声データを分析する音声分析部と、
上記音声分析部において分析された音声をテキストデータ化するテキストデータ化部を備えるテキストデータ取得部と、
上記テキストデータ化部においてテキストデータ化された上記音声に係るテキスト情報を再生する再生部と、
を備え、
上記音声分析部は、取得した所定期間の音声データの音圧または音の周期性に基づいて、当該音声データが人の声または環境音を含むか否かを分析し、
上記テキストデータ化部は、上記音声分析部において上記音声データが人の声であると分析された際は、当該音声データに対して音声認識を行ってテキストデータに変換してテキストとし、上記音声分析部において上記音声データが環境音であると分析された際は、当該音声データを擬音テキストデータベースからテキストを選択して擬音テキストとする
ことを特徴とする再生装置。
上記音声データにおいて特徴的な環境音を第１の音声要約とする第１音声要約部と、
上記第１の音声要約から時間的に短縮した第２の音声要約を取得する第２音声要約部と、
を備え、
上記第２の音声要約は、人の声から選択した音声である
ことを特徴とする請求項１に記載の再生装置。
所定期間の音声データを取得する音声データ取得工程と、
上記音声データ取得工程において取得した上記音声データを分析する音声分析工程と、
上記音声分析工程において分析された音声をテキストデータ化するテキストデータ化工程と、
上記テキストデータ化工程においてテキストデータ化された上記音声に係るテキスト情報を再生する再生工程と、
を有し、
上記音声分析工程は、取得した所定期間の音声データの音圧または音の周期性に基づいて、当該音声データが人の声または環境音を含むか否かを分析し、
上記テキストデータ化工程は、上記音声分析工程において上記音声データが人の声であると分析された際は、当該音声データに対して音声認識を行ってテキストデータに変換してテキストとし、上記音声分析工程において上記音声データが環境音であると分析された際は、当該音声データを擬音テキストデータベースからテキストを選択して擬音テキストとする
ことを特徴とする再生方法。
所定期間の音声データを取得する音声データ取得工程と、
上記音声データ取得工程において取得した上記音声データを分析する音声分析工程であって、取得した所定期間の音声データの音圧または音の周期性に基づいて、当該音声データが人の声または環境音を含むか否かを分析する工程と、
上記音声分析工程において分析された音声をテキストデータ化するテキストデータ化工程であって、上記音声分析工程において上記音声データが人の声であると分析された際は、当該音声データに対して音声認識を行ってテキストデータに変換してテキストとし、上記音声データが環境音であると分析された際は、当該音声データを擬音テキストデータベースからテキストを選択して擬音テキストとする工程と、
をコンピュータに実行させるための再生プログラム。