JP5790509B2 - 画像再生装置、画像再生プログラム、及び画像再生方法 - Google Patents

画像再生装置、画像再生プログラム、及び画像再生方法 Download PDF

Info

Publication number
JP5790509B2
JP5790509B2 JP2012000745A JP2012000745A JP5790509B2 JP 5790509 B2 JP5790509 B2 JP 5790509B2 JP 2012000745 A JP2012000745 A JP 2012000745A JP 2012000745 A JP2012000745 A JP 2012000745A JP 5790509 B2 JP5790509 B2 JP 5790509B2
Authority
JP
Japan
Prior art keywords
condition
album
image data
image
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012000745A
Other languages
English (en)
Other versions
JP2013140520A (ja
Inventor
泰文 中村
泰文 中村
雄己 若山
雄己 若山
高史 寺崎
高史 寺崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012000745A priority Critical patent/JP5790509B2/ja
Priority to US13/670,618 priority patent/US20130179172A1/en
Publication of JP2013140520A publication Critical patent/JP2013140520A/ja
Application granted granted Critical
Publication of JP5790509B2 publication Critical patent/JP5790509B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、画像再生装置、画像再生プログラム、及び画像再生方法に関する。
従来、家庭において、デジタルカメラや携帯電話、ビデオカメラの普及にともない、撮影された写真やビデオを管理するニーズが高まっている。一例として、パーソナルコンピュータなどの大容量の記憶デバイスを備えた情報処理装置に撮影された写真やビデオを格納し、撮影した日付、撮影した場所、撮影された人物などで管理する方法が知られている。
パーソナルコンピュータなどで写真やビデオを鑑賞する際に、内容が関連する写真やビデオを自発的に提案するシステムが存在する。例えば、YouTube(登録商標)のようなWeb上での動画共有サイトにおいては、ある動画を鑑賞する際に、鑑賞終了時に関連する動画を選択できる画面が表示されるようになっている(例えば、非特許文献1参照)。これによって、鑑賞者(ユーザ)は、続けて他の関連した動画を見続けることができる。
また、コンテンツ表示中におけるユーザの発話時に音声認識を行い、発話からキーワードの抽出を行って、抽出されたキーワードに基づいてコンテンツのタグを登録する画像表示システムが知られている(例えば、特許文献1参照)。このシステムは、音声認識からのキーワード付与時に、各キーワードの出現回数のヒストグラムを保持しておき、画像の切り換え時に、ヒストグラムが類似した画像を選択する機能を有している。
特開2010−224715号公報
YouTube<URL:www.youtube.com/>
しかしながら、YouTubeのようなWeb上での動画共有サイトでは、多くのユーザによるアクセス状況に基づいて動画の関連性を決定しているため、特定のユーザが鑑賞している際の心や感情の状況を反映させることができない。
また、特許文献1に記載のシステムでは、ユーザの発話によって付加されたキーワードを統計処理したヒストグラムを用いて類似画像を表示するため、ユーザが鑑賞したことのない未タグ付けの画像については類似画像を選択することができない。また、そもそもコンテンツの内容を反映させて類似した画像を選択している訳ではないため、偶然に類似と判断される画像が出現する可能性があり、類似判定の精度に疑問が生じる。
従って、これらの従来技術では、ユーザの意向に合う画像を提供することができない場合がある。
一つの側面では、本発明は、ユーザの意向に合う画像を提供することが可能な画像再生装置等を提供することを目的とする。
上記目的を達成するための一態様は、
画像データを再生可能な再生手段に接続される画像再生装置であって、
記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出する抽出手段と、
前記第1条件充足画像データが前記再生手段により再生されているときに、音声入力手段に入力された音声に一致するキーワードを抽出する音声キーワード抽出手段と、
前記第1条件充足画像データが前記再生手段により再生されているときに、該再生中の前記第1条件充足画像データが抽出された際に適用された第1の抽出条件と前記抽出されたキーワードとの関係に基づき第2の抽出条件を決定し、前記記憶手段に格納された画像データのうち前記第2の抽出条件を満たす第2条件充足画像データに関する情報を提示する提示手段と、を備える画像再生装置である。
一実施態様によれば、ユーザの意向に合う画像を提供することが可能な画像再生装置等を提供することができる。
本発明の第1実施例に係る画像再生装置1が利用される様子を概念的に示す図である。 本発明の第1実施例に係る画像再生装置1のハードウエア構成例である。 本発明の第1実施例に係る画像再生装置1の論理構成例である。 画像データベース14Aに格納されるデータの一例である。 アルバムルールデータベース14Bに格納されるデータの一例である。 アルバムルールデータベースに従って作成されたアルバム情報データベース14Cの一例である。 アルバム情報データベース14Cが指定するXMLファイルの内容の一例である。 音声キーワードデータベース14Dに格納されるデータの一例である。 本実施例の画像再生装置1によって実行されるメイン処理の流れを示すフローチャートの一例である。 通常アルバム作成処理の流れを示すフローチャートの一例である。 アルバムデータ作成処理の流れを示すフローチャートの一例である。 鑑賞処理の流れを示すフローチャートの一例である。 音声認識モジュールの処理の流れを示すフローチャートの一例である。 関連アルバム作成処理の流れを示すフローチャートの一例である。 関連アルバムデータ作成処理の流れを示すフローチャートの一例である。 アルバムが再生されているときの画像表示部Dの表示画面例である。 関連アルバムが作成されたときの画像表示部Dの表示画面例である。 関連アルバムの一覧が画像表示部Dにより表示された様子を示す図である。 第2実施例に係る画像データベース14Aに格納されるデータの一例である。 第2実施例に係る画像データベース14Aに付属して格納される画像被写体関連テーブルの一例である。 第2実施例に係るアルバムルールデータベース14Bに格納されるデータの一例である。 第2実施例に係る音声キーワードデータベース14Dに格納されるデータの一例である。 第2実施例の画像再生装置2が実行するメイン処理の流れを示すフローチャートの一例である。 第2実施例の画像再生装置2が実行する音声キーワード登録処理の流れを示すフローチャートの一例である。 第3実施例に係る画像再生装置3の論理構成例である。 盛り上がりワードデータベース14Eに格納されるデータの一例である。 第3実施例の画像再生装置3により実行される処理の流れを示すフローチャートの一例である。 音声認識モジュールの処理の流れを示すフローチャートの一例である。
以下、本発明を実施するための形態について、添付図面を参照しながら実施例を挙げて説明する。
<第1実施例>
以下、図面を参照し、本発明の第1実施例に係る画像再生装置、画像再生プログラム、及び画像再生方法について説明する。
図1は、本発明の第1実施例に係る画像再生装置1が利用される様子を概念的に示す図である。画像再生装置1は、例えばマイクロフォン46及びテレビジョン放映機100に接続されて利用される。画像再生装置1とマイクロフォン46は、例えば専用ケーブル46Aで接続され、画像再生装置1とテレビジョン放映機100は、例えばHDMI(High-Definition Multimedia Interface)ケーブル110で接続される。画像再生装置1が再生する画像は、例えばテレビジョン放映機100によってユーザ(鑑賞者)200に提供される。なお、テレビジョン放映機100を表示手段として用いるのはあくまで一例であり、情報処理装置である画像再生装置1の専用モニターを表示手段として用いてもよし、プロジェクターを表示手段として用いてもよい。また、マイクロフォン46は、情報処理装置である画像再生装置1に内蔵されたものが用いられてもよい。
[ハードウエア構成]
図2は、本発明の第1実施例に係る画像再生装置1のハードウエア構成例である。画像再生装置1は、例えば、CPU10と、RAM12と、HDD(Hard Disk Drive)14と、を備える。また、画像再生装置1は、グラフィックインターフェース20と、入力インターフェース22と、シリアルバスインターフェース24と、メモリカードスロット26と、光学ドライブ装置28と、通信インターフェース30と、を備える。
なお、係る構成は一例であり、画像再生装置1は、フラッシュメモリやEEPROM(Electrically Erasable and Programmable Read Only Memory)、ROM(Read Only Memory)等の記憶装置を備えてもよい。また、画像再生装置1は、USB(Universal Serial Bus)コネクタを備え、USBメモリ等の記憶媒体を装着可能としてもよい。
CPU10は、例えば、プログラムカウンタや命令デコーダ、各種演算器、LSU(Load Store Unit)、汎用レジスタ等を有する演算処理装置としてのプロセッサである。RAM12は、ワーキングメモリとして機能し、CPU10により実行されるプログラムがHDD14から展開されたり、プログラムの実行結果が一時的に格納されたりする。
HDD14には、CPU10により実行される各種プログラムの他、画像データベース14A、アルバムルールデータベース14B、アルバム情報データベース14C、音声キーワードデータベース14D等のデータが格納される。これらのデータは、予め格納されていたり、画像再生装置1の処理によって作成又は更新等されたりする。
画像再生装置1には、前述したテレビジョン放映機100の他、キーボード42、マウス44、マイクロフォン46等の周辺機器が接続される。グラフィックインターフェース20はテレビジョン放映機100の表示制御を行い、入力インターフェース22は、キーボード42及びマウス44に対してなされたユーザの操作を信号に変換して画像再生装置1の本体部に送信する。また、入力インターフェース22は、マイクロフォン46に入力されたユーザの発話を信号に変換して画像再生装置1の本体部に送信する。
また、画像再生装置1には、カメラ50、ビデオ52、携帯電話54等の機器が接続可能となっている。シリアルバスインターフェース24は、コンテンツデータを保持し、送信可能なこれらの機器との通信を制御する。
また、画像再生装置1は、メモリカード60、光ディスク62等の記憶媒体が装着可能となっている。メモリカードスロット26は、メモリカード60が装着されるとメモリカード60に記憶されたコンテンツデータを読み取る。光学ドライブ装置28は、光ディスク62が装着されると光ディスク62に記憶されたコンテンツデータを読み取る。
通信インターフェース30は、ネットワーク70を介した他のコンピュータとの通信を制御する。ネットワーク70は、インターネット、LAN(Local Area Network)、無線ネットワーク等である。
CPU10が実行するプログラムは、メモリカード60や光ディスク62等の記憶媒体から取得してもよいし、通信インターフェース30がネットワーク70を介して他のコンピュータからダウンロードしてもよい。また、CPU10が実行するプログラムは、画像再生装置1の予め補助記憶装置16やROM等に格納されていてもよい。
シリアルバスインターフェース24、メモリカードスロット26、光学ドライブ装置28、通信インターフェース30により取得される画像データは、静止画像や動画像等の画像データである。
画像データは、例えばカメラ50、ビデオ52、携帯電話54等の機器において撮影等されたものが、シリアルバスインターフェース24を介して入力され、HDD14に格納されるという流れで取得される。また、画像データは、例えばメモリカード60に格納されたものが、メモリカードスロット26によって読み取られ、HDD14に格納されるという流れで取得される。また、画像データは、例えば光ディスク62に格納されたものが、光学ドライブ装置28によって読み取られ、HDD14に格納されるという流れで取得される。また、画像データは、通信インターフェース30がネットワーク70を介して他のコンピュータから取得したものが、HDD14に格納されるという流れで取得される。HDD14に格納された画像データ群は、後述するように、画像データベース14Aとして扱われる。
以下、画像データは、何らかの機器により撮影されたものであることを前提として説明する。
[論理構成]
図3は、第1実施例に係る画像再生装置1の論理構成例である。画像再生装置1は、アルバム作成部A、鑑賞状況通知部B、表示画像制御部C、画像表示部D、音声受信部E、音声キーワード抽出部Fを備える。
これらの論理構成のうち、アルバム作成部A、鑑賞状況通知部B、表示画像制御部C、音声キーワード抽出部Fは、例えばCPU10がHDD14等に格納されたプログラムを実行することにより機能する機能ブロックである。なお、これらの機能ブロックが明確に分離したプログラムによって実現される必要はなく、サブルーチンや関数として他のプログラムによって呼び出されるものであってもよい。また、機能ブロックの一部が、LSI(Large Scale Integrated circuit)、IC(Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウエア手段であっても構わない。
また、画像表示部Dはグラフィックインターフェース20及びテレビジョン放映機100を指し、音声受信部Eは入力インターフェース22の一機能である。
また、図3に示す各論理構成は、HDD14等に格納された画像データベース14A、アルバムルールデータベース14B、アルバム情報データベース14C、音声キーワードデータベース14Dを利用して処理を行う。
[アルバム作成]
アルバム作成部Aは、第1作成部A_1、第2作成部A_2を含む。請求項1における「抽出手段」は、例えば第1又は第2実施例における第1作成部A_1に対応する。また、請求項1における「提示手段」は、例えば第1又は第2実施例における第2作成部A_2、表示画像制御部C、及び音声受信ハンドラに対応する。
ここでは、第1作成部A_1の処理について説明する。図4は、画像データベース14Aに格納されるデータの一例である。図中、「ID」は、画像データを一意に特定するための固有のIDである。「ファイル名」は、情報処理装置5における写真・ビデオのファイル名である。「格納先」は、情報処理装置5において写真・ビデオのファイルが格納されているフォルダのパスである。「画像種別」は、静止画像の場合はP、動画像の場合はMと規定される。「撮影日時」は、画像データが撮影された写真やビデオである場合、これらが撮影された日時である。通常、市販のデジタルカメラで撮影した写真には、写真ファイルのExif情報に撮影日時が記録されているため、画像データベース14Aには係る情報が転載される。また、画像データがビデオデータである場合は、ファイルのタイムスタンプで撮影日時が判断可能である。「撮影場所」は、写真やビデオを撮影した場所の情報である。市販のデジタルカメラやビデオカメラには、撮影時にGPSの情報を受信し、撮影後の写真やビデオに情報を付加することが可能なものが存在する。また、場所情報のついていない写真についても、地図上で場所を指示することでGPS情報を付加することのできるソフトウェアも存在する。これらの手段を利用して付加された情報を記載する。
第1作成部A_1は、予め定められたタイミングで、画像データベース14Aからアルバムルールデータベース14Bに定められた抽出条件に従ってアルバムを作成する。「アルバム」とは、テーマ性をもった画像データを集めた画像データ群であり、例えばスライドショー等の形式でユーザに画像が提供される際の単位となるものである。第1作成部A_1が作成したアルバムは、アルバム情報データベース14Cに格納される。請求項1における「第1条件充足画像データ」は、例えば第1又は第2実施例におけるアルバムに対応する。
アルバムルールデータベース14Bに記載されたアルバムの作成条件(画像データの抽出条件)は、例えば、画像の撮影日時に関する条件である。また、アルバムの作成条件は、例えば顔認識技術により判断される被写体に関する条件、或いは写真に他の認識技術によってタグ付けされている情報に関するものである。また、アルバムの作成条件は、これらが組み合わされたものであってもよい。アルバムの作成条件は、特定の条件に合致するものを抽出するために、例えば条件文の組み合わせで記載されている。
アルバムの作成条件としては、例えば以下のようなものが存在し得る。なお、下記の作成条件は、後述する第2実施例及び第3実施例において使用されるものを含む。
・特定の期間内に撮影されたこと 例:「2007年のアルバム」 →2007年に撮影された画像を集めたアルバム。
・複数年にまたがった特定の期間内に撮影されたこと 例:「ゴールデンウィークのアルバム」 →4/29〜5/5までに撮影された画像を集めたアルバム。期間内であれば、撮影年は問わず集めてくる。
・特定の時間帯に撮影されたこと 例:「夕暮れどきのアルバム」 →夕暮れ時として17時〜19時を想定した場合、その間の時間帯に撮影された画像を集めたアルバム。撮影した年・月・日は問わず集めてくる。
・特定の人物が写っていること 例:「A子さんのアルバム」 →顔認識技術を使って認識し、「A子さん」と名付けられた人物が写っている画像を集めたアルバム。なお、第1作成部A_1は、顔認識技術を使わず、ユーザが事前に「A子さん」が写っている画像にタグ付けした情報を利用してもよい。なお、顔認識技術を用いる場合であっても、ユーザが予め人名と基準となる顔画像の対応付けを行っていると好適である。
・特定の場所で撮影されたこと 例:「北海道のアルバム」 →画像に付与されているGPS情報等を利用して撮影場所を特定し、北海道で撮影された画像を集めたアルバム。なお、第1作成部A_1は、GPS情報が記録されていない画像であっても、ユーザが事前に地理情報をタグ付けしたものを利用してもよい。
・特定の被写体が写っていること 例:「電車のアルバム」 →画像中に写っているものから電車を認識する技術を用いて画像に「電車」とタグ付けされたものを集めたアルバム。なお、第1作成部A_1は、電車の認識技術を使わず、ユーザが事前に手動で電車の写っている画像にタグ付けした情報を利用してもよい。また、被写体は電車に限らず、他の物体であってもよい。例えば、「時価のマグロ」、「フォアグラ」、「ブルゴーニュワイン」などの食事、「ねこ」、「ぞう」などの動物、「サボテン」などの植物、「東京タワー」などのランドマークなどが該当する。第1作成部A_1は、これらの被写体についても、タグ情報を付加されているのであれば、そのタグ情報を利用してアルバムを作成すればよい。
・上記条件を複数組み合わせたものであること 例:「2006年の夕暮れどきのA子さんのアルバム」 →2006年に撮影され、かつ撮影時間が夕暮れどきのもので、かつ被写体としてA子さんが写っている画像を集めたアルバム。
また、アルバムの作成条件には、上記のように抽出するための条件の他に、各アルバムに含まれる最大の画像の数が記載されている。第1作成部A_1は、条件に合致した画像がこの数を超えている場合には、最大の画像の数になるように、例えばランダムに画像をピックアップしてアルバムを作成する。
アルバム情報データベース14Cは、第1作成部A_1によってアルバムルールデータベース14Bの抽出条件に合致した画像データから作成されたアルバムが格納される。
鑑賞状況通知部Bは、鑑賞時の状況を他の機能ブロックに通知する。例えば、鑑賞状況通知部Bは、入力インターフェース22を介してユーザの操作を検知し、表示画像制御部Cに対してアルバムの再生開始を指示する。
表示画像制御部Cは、アルバム情報データベース14Cから、指示されたアルバムを選択して画像表示部Dに表示させる。また、表示画像制御部Cは、現在表示中のアルバムの情報を、アルバム作成部Aからの要求に応じて答える処理を行う。
以下、より詳細にアルバムの作成条件について説明する。図5は、アルバムルールデータベース14Bに格納されるデータの一例である。図中、「ID」はアルバムルールを一意に特定するための固有の値である。「アルバム名」は、アルバムルールに従って作成されたアルバムに付けられる名称である。システムにプリセットされた決まった名称の場合(例えば「お正月」)は、そのまま記載されている。システムがアルバムを作成する時点で決まる名称の場合は、(*)という文字で記載されており、アルバムが作成された時点で決められる。例えば、ID=109のアルバムの場合、5月10日に撮影された画像を集めたアルバムを作成する場合には、各(*)の部分に値を埋め込み、「5月10日」というアルバム名にする。
「日付条件」、「時間条件」には、各アルバムを作成する際に集める画像の時期的条件を記載する。日付条件は、撮影日付に関する条件であり、時間条件は撮影時間に関する条件である。アルバムの種類によっては、日付条件だけのものもあれば、時間条件だけのもの、あるいは日付条件と時間条件を組み合わせたものがある。これは、各アルバムのレコード中の日付条件、時間条件の値で示されている。日付条件、時間条件の値の記載ルールは、例えば、日付の年をYn、月をMn、日をDn、時間の時間をHHn、分をMMn、秒をSSn、と記載し、それらの条件に合致するものを抽出する。また、NULLとなっている場合には、条件なしをしめす。
「日付条件」についての記載ルールは、以下のように定められている。
・条件がある場合は、条件式を記載する。条件がない場合はNULLを記載する。
・条件が記載されていない値は、該当する年、月、日の値は取りうる全ての値とする。例えば、ID=1の「お正月」のアルバムの場合、日付条件が「Mn=1,1≦Dn≦7」となっているが、これは「すべての年の画像について、1月1日から1月7日までの期間に撮影された画像を集める」という条件を示している。
・年の値にYが記載されている場合、アルバムを作成する日の年を代入する。月の値がMの場合、アルバムを作成する日の月を代入する。日の値がDの場合、アルバムを作成する日の日を代入する。例えば、2011年5月10日にアルバムを作成する場合、ID=109のアルバムの条件は「Mn=M,Dn=D」となっているが、M=5、D=10を当てはめ、「すべての年の画像について、5月10日に撮影された画像を集める」という条件を示す。
・Y、M、Dの値から数を引き算している場合、その引いた数だけさかのぼることを示す。例えば、2011年5月10日にアルバムを作成する場合、ID=110の「3ヶ月前」のアルバムの条件は「Yn=Y,Mn=M−3」となっているが、Y=2011、M=5を当てはめ、「2011年2月に撮影された画像を集める」という条件を示す。なお、同じ日にID=111の「半年前」のアルバムを作成する場合は、条件が「Yn=Y,Mn=M−6」となっているため、Y=2011、M=5をあてはめると月の値が負の値になってしまうが、この場合には月の値を+12し、年の値を−1することにする。その結果、月の値は5−6+12=11となるため、「2010年11月に撮影された画像を集める」という条件になる。
・値がRの場合、取りうる値をランダムで選択することを示す。例えば、ID=206のアルバムの場合、条件が「Yn=R」となっているが、Rの値をランダムに選択し、結果R=2005となった場合、条件は「2005年に撮影された画像を集める」という条件になる。また、アルバム名称に(*)が含まれるので、この場合のアルバム名は「2005年」のアルバムとなる。
「時間条件」についての記載ルールは、以下のようになっている。
・条件がある場合は、条件式を記載する。条件がない場合はNULLを記載する。
・条件が記載されていない値は、該当する時、分、秒の値は取りうる全ての値とする。例えば、ID=1210の「定時きっかり」のアルバムの時間条件は「MMn=0」となっているが、これは「すべての時間について、撮影時間が0分0秒から0分59秒までの画像を集める」という条件を示す。
「日付条件と時間条件」を組み合わせたアルバムについては、例えば、ID=102の「春はあけぼの」というアルバムの場合、日付条件は「3≦Mn≦5」、時間条件は「4≦HHn≦7」となっている。これは、「すべての年の画像について、撮影日が3月から5月までの期間で、撮影時間が4時から7時までの間に撮影された画像を集める」となり、春の早朝に撮影された画像が集まったアルバムになる。
「最大画像数」は、各アルバムについて使用される画像の最大数を表す。例えば、ID=112の「1月」のアルバムの場合、最大数は「46」となっている。アルバムの条件に合致する画像がこの最大数よりも多い場合、最大数分だけの画像が実際のアルバムとして使われる。例えば、1月に撮影した画像の数が120個あった場合、そのうちの46個だけが選択されてアルバムとして使われる。
図6は、アルバムルールデータベースに従って作成されたアルバム情報データベース14Cの一例である。アルバムデータは、例えばXMLファイルのフォーマットに従った単一ファイルに記録されるため、図6に示すデータは、XMLファイルのパスを記述したものである。
図7は、アルバム情報データベース14Cが指定するXMLファイルの内容の一例である。以下、XMLファイル内の各タグについて説明する。「My Album」は、アルバムであることを示すタグである。「Album」は、個々のアルバムデータを示すタグである。アルバムの中に複数の子アルバムが含まれてもよいため、「My Album」の下に個々のアルバムデータを格納するタグで分けることができるように設定されている。「Id」には、アルバムルールデータベース14BのアルバムのIDが記載される。「Name」には、アルバムの名前が記載される。「Description1」、「Description2」は、アルバムが再生される際に表示されるアルバムの説明文である。
「Picture List」は、アルバムに含まれる画像のリストを示すタグであり、以下のタグを含む。「Count」は、画像の数を示す。図7に示す例の場合は3である。「File0」、「 File1」、「File2」には、・・・個々の画像のパスが記載される。画像の数に応じてFileの後の数字が増えていく。
「Effect」は、アルバムを鑑賞する際に使われる効果を示すタグである。図7例では、「Oshogatsu」となっていて、これはお正月にふさわしい背景画像の上で個々の画像を再生するということを示す。「Sound」は、アルバムを再生する際に使われるBGM(Back Ground Music)のファイル名を示すタグである。「Template Name」は、アルバムを再生する際に使われるテンプレートを示すタグである。
[音声情報を用いた関連アルバムの作成]
ところで、上記説明したような手法で作成されるアルバムを再生するだけでは、アルバムを鑑賞中のユーザの心や感情の状況を反映させることができない場合がある。
アルバムを鑑賞している最中にユーザが何気なく発した言葉には、鑑賞している時点でのユーザの心や感情の状況が反映され、直接的には、今みたいと思いついた画像について言葉に発する場合もある。例えば、「2008年のアルバム」を家族で鑑賞しており、年の初めからその年の行事や日常の中で撮った写真やビデオを鑑賞しているものとする。ここで、例えば8月頭にパリに旅行に行ったときの写真が出てきたときに、「楽しかったね」、「またいきたいね」、「そういえば、帰りの飛行機からオーロラが見えたね」といった、パリ旅行の場面を振り返った会話がなされる場合がある。また、「この年の秋はフランス料理にはまっちゃって、レストランによく行ったよね」とか「次の年はドイツに行ったね」といった、パリ旅行の後の行動に関わるような会話がなされたりする。その会話の中には、鑑賞している人たちの心や感情、あるいは意向が含まれていると考えられる。
そこで、本実施例の画像再生装置1では、音声受信部E、及び音声キーワード抽出部Fによってユーザの発話に含まれる特定のキーワードを抽出し、これに基づいて関連アルバムを作成する。
音声受信部Eは、マイクロフォン46に入力された音声をデジタル信号処理して音声キーワード抽出部Fに送信する。音声キーワード抽出部Fは、入力されたデジタル信号としての音声の中に、音声キーワードデータベース14Dに格納されたキーワードが含まれるか否かを判定し、含まれると判定したキーワードを、アルバム作成部A(第2作成部A_2)に送信する。なお、音声キーワード抽出部Fは、一般的な音声認識技術を利用した処理を実行する。
音声キーワードデータベース14Dは、音声認識をするにあたって受信した音声に反応するためのキーワードを事前に設定するための、キーワードを格納したデータベースである。
図8は、音声キーワードデータベース14Dに格納されるデータの一例である。「ID」は音声キーワードを一意に特定するための固有の値である。「表示名」は、音声キーワードを画面上に表示する必要がある場合に使用する文字列である。「発音」は、音声受信部から入力された音声に対して音声認識技術によって音声とマッチングをとるためのキーワードである。「関連条件」は、音声がキーワードに合致した場合に、アルバム作成部Aに対して通知する条件を記載したものである。
関連条件は、先のアルバムルールデータベースに記載されている日付条件、時間条件の値の記載ルールと同じく、日付の年をYn、月をMn、日をDn、時間の時間をHHn、分をMMn、秒をSSn、と記載し、それらに対する条件として記述するものとする。例えば、ID=1の場合、関連条件欄には「Yn=Y−1」と記載されているが、これは「今日現在の年号から1を引いた年、月と日はいつでもよい」を示す。今日現在が2011年5月10日だったとすると、「2010年の初めから終わりまで」という意味になる。
また、他の例でいうとID=10008の場合、関連条件欄には「Yn=2000,Mn=12,Dn=31」と記載されているが、これは「2000年12月31日」を示す。また、ID=5001の場合、「6≦HHn≦9」と記載されているが、これは「撮影日付はいつでもよく、撮影時間が6時から9時の間、分、秒の値は何でもよい」ということを示す。つまり、朝方の時間帯を表すことができる。
また、日付条件、時間条件とは異なるタイプの条件も存在し得る。例えば、ID=20001の「もっとみたい」の場合、条件には「More」と書かれている。これは、期間を絞り込む条件を意味する。絞り込む内容は、鑑賞中のアルバムに応じて異なる。ID=20002は「Next」、ID=20003は「Previous」だが、これらは時間的に後(Next)や前(Previous)の条件を示す。具体的な条件は、アルバムに応じて異なる。ID=20004は「New」だが、これは新規の条件でアルバムを作成することを示す。
第2作成部A_2は、アルバムが再生されている最中に音声キーワード抽出部Fからキーワードを受信したタイミングで、受信したキーワードと、表示画像制御部Cから取得した再生中のアルバムの情報との関係から、関連アルバムを生成する。請求項1における「第2条件充足画像データ」は、例えば第1又は第2実施例における関連アルバムに対応する。
このような処理の流れによって、ユーザがアルバム鑑賞中に発した音声を認識し、鑑賞者が次に鑑賞したい望むであろう画像を提示することが可能になる。鑑賞者が次に鑑賞したい望むであろう画像には、当初のアルバムルールを更に絞り込んだ条件で抽出された画像データ、当初のアルバムルールに係る時間的条件に対して時間的に前後する条件で抽出された画像データが含まれ得る。従って、ユーザの意向に合う画像をタイミング良く提供することができる。
[処理フロー等]
以下、上記説明したアルバム作成処理、アルバム再生処理、関連アルバム作成処理等について、より具体的に説明する。
(メイン処理)
図9は、本実施例の画像再生装置1によって実行されるメイン処理の流れを示すフローチャートの一例である。
画像再生装置1が起動すると、イベントハンドラが常駐する(S200)。イベントハンドラは、各種オペレーティングシステムに備わっているものであり、定期的・不定期のイベント通知に反応して、各種処理を行う。
イベントハンドラから「アルバム作成イベント」が通知されると、「通常アルバム作成処理」が開始される(S202)。通常アルバムとは、アルバム作成部Aの第1作成部A_1が作成するアルバムである。アルバム作成イベントは、例えば以下のタイミングで発行される。
・定期的にある一定の時間間隔をおいて発行
・システム起動時に一度だけ発行
・日付が変わったときに一度発行
・画像をシステムに取り込んだ際に発行。
また、イベントハンドラから「鑑賞開始イベント」が通知されたときに、「鑑賞処理」が開始される(S204)。鑑賞開始イベントは、例えば、ユーザがアルバムを鑑賞しようとして、アルバムの再生用アプリケーションを起動させたタイミングで発行される。
また、イベントハンドラから「終了イベント」が通知されたときに、オペレーティングシステム自体が終了する。
(通常アルバム作成処理)
図10は、通常アルバム作成処理の流れを示すフローチャートの一例である。
通常アルバム作成処理が開始されると、第1作成部A_1は、アルバムルールデータベース14Bから、今回作成するアルバムのルールの集合であるアルバム作成ルール一覧12Aを生成し、RAM12等に格納する(S300)。
アルバム作成ルール一覧12Aは、アルバムルールデータベース14Bに記載されている全てのルールであってもよいし、アルバムを作成する日付に鑑賞するとした場合にふさわしい内容のアルバムを選択するためのルールの集合であってもよい。例えば、アルバムを作成する日付が2月10日だった場合、バレンタインデーの2月14日が近いこともあり、以前のバレンタインデーに撮影した画像をみたくなると考えて、ID=2の「バレンタインデーのアルバム」を作成することが考えられる。また、真夏の暑い時期に真冬に撮影した画像を鑑賞しても気分が乗らないと想定したり、年末になるとその年の1年を振り返りたくなるだろう、といった想定のもとで、作成するアルバムの種類を絞り込んでもよい。作成するアルバムの種類を絞り込む理由としては、鑑賞するのにふさわしいアルバムが作成されたときに、タイムリーにユーザに通知するという演出を行うためであったり、アルバムを小出しにすることで楽しみを持続するといった効果を狙ってのことであったりする。
次に、第1作成部A_1は、未処理のアルバム作成ルールが存在するか否かを判定する(S302)。未処理のアルバム作成ルールが存在しない場合、第1作成部A_1は、本フローチャートの処理を終了する。
未処理のアルバム作成ルールが存在する場合、第1作成部A_1は、アルバム作成ルール一覧から、未処理のアルバム作成ルールを一つ取得する(S304)。取得した未処理のアルバム作成ルールは、アルバム作成ルール一覧から削除される。
次に、第1作成部A_1は、取得したアルバム作成ルールに従い、アルバムデータ作成処理を実行する(S306)。アルバムデータ作成処理は、アルバム作成ルールに従って個々のアルバムを作成する処理であり、以下に図11で説明される。
(アルバムデータ作成処理)
図11は、アルバムデータ作成処理の流れを示すフローチャートの一例である。
まず、第1作成部A_1は、入力されたアルバム作成ルール12Aaに記載されている日付条件と時間条件を取得し、その日付条件及び時間条件に合致する画像データを画像データベース14Aから検索する(S400)。入力されたアルバム作成ルール12Aaとは、アルバム作成ルール一覧12Aのうち、図10のS304で取得されたものを指す。
次に、第1作成部A_1は、検索結果の画像データが存在するか否かを判定する(S402)。検索結果の画像データが存在しない場合、第1作成部A_1は、本フローチャートの処理を終了する。
検索結果の画像データが存在する場合、第1作成部A_1は、検索結果の画像データの数と、アルバム作成ルール12Aaに記載されている最大画像数を比較する。そして、第1作成部A_1は、検索結果の画像データの数が最大画像数以下の場合は検索結果の数の画像データを、検索結果の数が最大画像数を超える場合は最大画像数分の画像データをピックアップする(S404)。
ここで、第1作成部A_1が最大画像数分の画像データをピックアップする方法は、ランダムに選択する方法であってもよいし、或いはピンぼけや見切れなどの失敗写真を除外する処理を行ってピックアップする方法であってもよい。
次に、第1作成部A_1は、ピックアップされた画像データを用いてアルバムを作成する(S406)。第1作成部A_1は、作成したアルバムをアルバム情報データベース14Cに追加し、本フローチャートの処理を終了する。
係る処理によって、本実施例の画像再生装置1は、作成されたアルバムがアルバム情報データベース14Cに登録された状態になる。
(鑑賞処理)
イベントハンドラから「鑑賞開始イベント」が通知されると、「鑑賞処理」が開始される。図12は、鑑賞処理の流れを示すフローチャートの一例である。鑑賞処理は、例えば表示画像制御部Cによって実行される。
まず、表示画像制御部Cは、音声認識モジュールの常駐を開始させる(S500)。音声認識モジュールは、音声受信部Eがマイクロフォン46から音声を受信可能な状態となるように設定し、音声キーワード判定部Fが音声受信部Eから受信した音声を逐次解析できるように準備する。
次に、表示画像制御部Cは、ユーザがアルバムを選択するか、鑑賞終了を選択するまで待機する(S502)。
ユーザがアルバムを選択すると、表示画像制御部Cは、鑑賞用に選択されたアルバムに関連する音声キーワードを音声キーワードデータベース14Dから取得し、音声認識モジュールに設定する(S504)。
ここで、表示画像制御部Cは、関連するキーワードの一覧を取得するために、例えばアルバムルールデータベース14Bに記載された各ルールごとに反応するキーワードを対応付けた一覧を利用する。そして、表示画像制御部Cは、今回ユーザが鑑賞しようとしているアルバムに記載されているルールIDについて、一覧から対応するキーワードを読み取る。
次に、表示画像制御部Cは、アルバム情報によって特定される画像を、アルバム情報に記載されている情報に従って画像表示部Dに表示させる(S506)。これによって、ユーザによるアルバムの鑑賞が開始される。この間にユーザが音声を発すると、常駐している音声認識モジュールが反応して後述する音声認識モジュールの処理を行う。表示画像制御部Cは、鑑賞中のアルバムの鑑賞が終了した場合やユーザが別のアルバムを鑑賞するための操作を行った場合は、S502に戻って処理を実行する。
表示画像制御部Cは、ユーザが鑑賞終了を選択すると、音声認識モジュールの常駐を終了させる(S508)。
(音声認識モジュールの処理)
図13は、音声認識モジュールの処理の流れを示すフローチャートの一例である。
音声認識モジュールが常駐を開始すると、音声受信ハンドラが起動する(S600)。音声受信ハンドラは、発生したイベントに応じたメッセージを受信するために待機する。
音声受信ハンドラは、音声受信イベントを受信すると、受信した音声が、設定された音声キーワードに一致するか否かを音声キーワード抽出部Fに判定させる(S602)。受信した音声が、設定された音声キーワードに一致しなかった場合、音声受信ハンドラは、S600に戻り、受信待ち状態となる。
一方、受信した音声が、設定された音声キーワードに一致した場合、音声受信ハンドラは、現在ユーザが鑑賞中のアルバムと受信したキーワードに関連する関連アルバムを作成するように、第2作成部A_2に指示する(S604)。
関連アルバムの作成が終了すると、音声受信ハンドラは、作成された関連アルバム一覧12C(後述)を画面に表示するように表示画像制御部Cに指示する(S606)。
第2作成部A_2が関連アルバムを作成している間に新たな音声受信イベントを受信した場合は、音声受信ハンドラは、現在の処理に並行してS604の処理を行うようなスレッド処理を行ってよい。また、音声受信ハンドラは、関連アルバム作成処理が完了するまで次の音声受信イベントの受信を無視してもよい。
音声受信ハンドラが常駐終了イベントを受信した場合、音声認識モジュールは常駐を終了する。
(関連アルバム作成処理)
図14は、関連アルバム作成処理の流れを示すフローチャートの一例である。本フローチャートは、図13のフローチャートにおけるS604で音声受信ハンドラから指示がなされたときに開始され、第2作成部A_2によって実行される。
まず、第2作成部A_2は、音声に一致した音声キーワードに対応する条件を、音声キーワードデータベース14Aから取得する(S700)。
音声キーワードから条件を取得する処理について説明する。図8に示すように、音声に一致した音声キーワードが「きょねん」だった場合、関連条件として「Yn=Y−1」が得られる。従って、音声キーワードに対応する条件は、当日の日付が2011年5月10日だとすると、「2010年に撮影された画像」となる。
次に、第2作成部A_2は、上記取得した条件と、現在表示中のアルバムの情報から、今回作成する関連アルバムの作成ルールの集合である関連アルバム作成ルール一覧12Bを生成する(S702)。
本ステップの処理において、第2作成部A_2は、まず現在再生中のアルバムのアルバム情報から、対応するアルバムルールIDを取得する。具体的には、第2作成部A_2は、図7に示すアルバム情報に記載されている「Album Id」の値を読み取ればよい。現在表示中のアルバムが「お正月のアルバム」の場合、アルバムルールIDはID=1となる。
次に、第2作成部A_2は、アルバムルールデータベース14Bから、上記IDに合致したアルバムの日付条件と時間条件を取得する。ID=1の場合、日付条件は「Mn=1,1≦Dn≦7」、時間条件は「なし」である。
そして、第2作成部A_2は、今回作成する関連アルバムの条件を決定する。第2作成部A_2は、音声キーワードデータベース14Dから取得した関連条件と、アルバムルールデータベース14Bから取得した日付条件、時間条件について、論理演算でANDを取ることが可能か否かで関連アルバムの条件を決定可能か否か判断する。第2作成部A_2は、例えば以下のルールで上記判断を行い決定する。
(A)関連条件が日時に関する条件の場合、
・(ア)ANDを取れる場合:ANDを取った結果を条件とする。
・(イ)ANDを取れない場合:関連条件を新規条件として設定する。
(B)関連条件が日時に関する条件でない場合、
・(ア)Moreの場合:鑑賞中のアルバムの期間を絞り込むような条件を関連条件とする。
・(イ)Nextの場合:鑑賞中のアルバムの期間の次の期間を関連条件とする。
・(ウ)Previousの場合:鑑賞中のアルバムの期間の前の期間を関連条件とする。
・(エ)Newの場合:鑑賞中のアルバムとは無関係に、新しい関連条件を設定する。
上記の例では、関連条件が「Yn=Y−1」、日付・時間条件は「Mn=1,1≦Dn≦7」であるため、条件のANDを取ると、「Yn=Y−1,Mn=1,1≦Dn≦7」が得られる。第2作成部A_2は、得られた条件を関連アルバムの生成条件とする。
ANDを取れない場合、例えば、音声キーワードが「きょねん」、鑑賞中のアルバムがID=216の「2006年」のアルバム、閲覧している日が2011年5月10日の場合には、関連条件が「Yn=2010」、日付・時間条件が「Yn=2006」となる。この場合、ANDを取るとYn=φとなり、AND条件が生成できない。第2作成部A_2は、この場合には、新規条件として「Yn=2010」を設定し、2010年のアルバムを作成する。第2作成部A_2は、単に「Yn=2010」の2010年のアルバムという条件にしてもよいし、あるいは期間を区切って複数のアルバムにすることもできる。第2作成部A_2は、2つに分けるなら、「Yn=2010,Mn≦6」、「Yn=2010,7≦Mn」とすることで、2010年上半期のアルバムと、2010年下半期のアルバムの2つが条件として生成することができる。この場合、関連アルバム作成ルール一覧は、2つの条件が登録されることになる。
また、関連条件が日時・時間に関わらない場合の例は、以下のようになる。現在鑑賞しているアルバムがID=113の「2月」の場合、日付条件は「Mn=2」となる。この場合、関連情報がそれぞれ以下の場合、関連アルバム作成ルールには以下の条件が登録される。
・Moreの場合:絞り込む条件として、「2月上旬」→日付条件は「Mn=2,Dn≦10」、「2月中旬」→日付条件は「Mn=2,11≦Dn≦20」、「2月下旬」→日付条件は「Mn=2,21≦Mn」と分け、それぞれの条件が登録される。
・Nextの場合の例:「3月」→日付条件は「Mn=3」を登録する。
・Previousの場合:「1月」→日付条件は「Mn=1」を登録する。
・Newの場合:アルバムルール一覧からランダムに選択した条件を登録する。
第2作成部A_2は、このように関連アルバムルール一覧12Bを生成すると、関連アルバムルール一覧12Bに未処理の関連アルバム作成ルールが存在するか否かを判定する(S704)。
未処理の関連アルバム作成ルールが存在する場合、第2作成部A_2は、関連アルバムルール一覧12Bから未処理の関連アルバムルールを取得し(S706)、関連アルバムデータ作成処理を行う(S708)。第2作成部A_2は、関連アルバムデータ作成処理を行うと、S704に戻り判定を行う。
未処理の関連アルバム作成ルールが存在しない場合、第2作成部A_2は、本フローチャートの処理を終了する。
図15は、関連アルバムデータ作成処理の流れを示すフローチャートの一例である。本フローチャートは、第2作成部A_2によって実行される。
まず、第2作成部A_2は、図14のS706で取得した関連アルバム作成ルール12Baに記載されている日付条件と時間条件を抽出し、日付条件、時間条件に合致する画像を、画像データベース14Aから検索する(S800)。
次に、第2作成部A_2は、検索結果の画像データが存在するか否かを判定する(S802)。
検索結果の画像データが存在する場合、第2作成部A_2は、関連アルバム作成ルール12Baと、表示中のアルバムの作成ルールが同一か否かを判定する(S804)。
関連アルバム作成ルール12Baと、表示中のアルバムの作成ルールが同一である場合、第2作成部A_2は、S800における検索結果の画像データから、表示中のアルバムに使用されている画像データを除外したものの一覧を作成する(S806)。
次に、第2作成部A_2は、S800における検索結果の画像データから、表示中のアルバムに使用されている画像を除外した画像データが存在するか否かを判定する(S808)。
上記除外した画像データが存在する場合及びS804で否定的な判定を得た場合、第2作成部A_2は、検索結果の画像データ及び除外後の画像データから、関連アルバム作成ルールに記載の最大画像数を最大値として画像データをピックアップする(S810)。本ステップにおいて、第2作成部A_2は、まず検索結果の画像データ、及びS806において作成された一覧に含まれる画像データの数と、関連アルバム作成ルールに記載されている最大画像数を比較する。そして、第2作成部A_2は、検索結果の画像データの数+除外結果の画像データの数が最大画像数以下であれば、検索結果の画像データの数+除外結果の画像データの数分の画像データをピックアップする。一方、第2作成部A_2は、検索結果の画像データの数+除外結果の画像データの数が最大画像数を超える場合は、最大画像数分の画像データをピックアップする。画像をピックアップする手法としては、ランダムに選択する手法が採用されてもよいし、ピンぼけや見切れなどの失敗写真を除外することでピックアップする手法が採用されてもよい。
次に、第2作成部A_2は、ピックアップされた画像をもとに、アルバムを作成し、作成したアルバムを関連アルバム一覧12Cに追加して(S812)、本フローチャートを終了する。ここで、関連アルバム一覧12CはRAM12にのみ格納される(すなわち、電源オフ時には消去される)ものとしてもよいし、シャットダウン時にHDD14に格納されて保存されてもよい。
第2作成部A_2は、S802又はS808で否定的な判定を得た場合は、本フローチャートを終了する。
[画面例]
以下、上記説明した処理によって表示される画面の変化について説明する。
図16は、アルバムが再生されているときの画像表示部Dの表示画面例である。
図16に示す画面が表示されているときにユーザが表示中のアルバムに関連する音声キーワードを発話すると、関連アルバムが作成される。この結果、図17に示すように、例えば「おすすめアルバム」と表示される画像領域Daがポップアップ表示される。図17は、関連アルバムが作成されたときの画像表示部Dの表示画面例である。
ユーザが「おすすめアルバム」と表示された画像領域Daをクリック又はタッチ操作すると、図18に示すように、おすすめアルバム(=音声キーワードに基づき作成された関連アルバム)の一覧がドロップダウン表示される。図18は、関連アルバムの一覧が画像表示部Dにより表示された様子を示す図である。そして、ユーザが関連アルバムの一覧のうちいずれかをクリック又はタッチ操作すると、選択された関連アルバムの再生が開始される。図中、Daa、Dab、Dacが各関連アルバムを再生させるための指示領域となっている。
[まとめ]
以上説明した第1実施例の画像再生装置、画像再生プログラム、及び画像再生方法によれば、アルバムが再生されているときに、ユーザの発話に含まれる音声キーワードとアルバムの作成ルールとの関係に基づき関連アルバムの作成ルールを設定することができる。また、第1実施例の画像再生装置等によれば、関連アルバムを作成し、関連アルバムに関する情報を提示することができる。これらの結果、第1実施例の画像再生装置等によれば、ユーザの意向に合う画像を提供することができる。
また、第1実施例の画像再生装置等によれば、音声キーワードデータベース14Dに、時期的条件を絞り込むような抽出条件を設定しておくことにより、ユーザが興味を持つであろう抽出範囲をクローズアップした関連アルバムを作成して提供することができる。
また、第1実施例の画像再生装置等によれば、音声キーワードデータベース14Dに、時期的に前後するような抽出条件を設定しておくことにより、ユーザが更に広い範囲に興味を持っている状況に対応することができる。
<第2実施例>
以下、図面を参照し、本発明の第2実施例に係る画像再生装置、画像再生プログラム、及び画像再生方法について説明する。
第2実施例の画像再生装置等は、概念図、ハードウエア構成、論理構成等について第1実施例の画像再生装置等と共通するため、各構成要素について同一の符号を付し、相違点を中心に説明する。
第2実施例に係る画像再生装置2は、画像データの再生中に検知した音声キーワードに基づいて、指定の期間の関連アルバム(第1実施例と同じ)や特定の人物に関連する関連アルバムを作成する。
図19は、第2実施例に係る画像データベース14Aに格納されるデータの一例である。図中、「被写体index」は、被写体を一意に特定するための固有のIDである。「被写体名」は、ユーザが理解できる形の文字列である。被写体名としては、例えば被写体の名前を記録すればよい。被写体として認識されたが、特に名前をつけていないものについては、「No Name」と記載し、まだ名前が付けられていないことがわかるようにしておくものとする。「属性」は、被写体との関係性を示すものであり、本人、妻、息子、娘、友人、同僚等が記載される。「被写体呼び名」は、被写体の呼び方を示したものであり、音声認識用に登録される。
図20は、第2実施例に係る画像データベース14Aに付属して格納される画像被写体関連テーブルの一例である。図中、「Index」は、データを一意に特定するための固有のIDである。「画像id」は、画像データベース14Aの画像テーブルで管理している画像を指し示すID情報である。「被写体id」は、画像データベース14Aの被写体テーブルで管理している被写体を指し示すID情報である。「被写体領域」は、画像中の被写体の顔が写っている領域を表す。顔の領域は、顔認識処理時に判断された領域情報を記載すればよく、例えば顔の領域の「(左上の座標)−(右下の座標)」という形式で表現される。顔の領域は、領域が確定できる他の記述方法で表現されてもよい。例えば、「(左上の座標)−縦サイズ×横サイズ」という記述方法が採用されてもよい。
図20において、画像id=1201の写真については、Index=223、224、225の3つのレコードが対応している。Index=223は、画像id=1201の写真の中に、被写体id=1の被写体の顔が、(13,0)−(157,220)の領域にあるということを示している。同様に、Index=224は、画像id=1201の写真の中に、被写体id=2の被写体の顔が、(311,38)−(147,194)の領域にあるということを示している。また、Index=225は、画像id=1201の写真の中に、被写体id=4の被写体の顔が、(181,12)−(108,147)の領域にあるということを示している。
図21は、第2実施例に係るアルバムルールデータベース14Bに格納されるデータの一例である。第2実施例に係るアルバムルールデータベース14Bは、第1実施例に係るアルバムルールデータベース14Bに格納されたデータに加え、顔認識に関わるアルバムルールが追加になっている。
図中、「ID」、「アルバム名」、「日付条件」、「時間条件」、「最大画像個数」については、第1実施例で説明したものと同じである。
「顔条件」は、第2実施例特有のパラメータであり、各アルバムを作成する際に集める画像について、顔認識結果の条件が記載されている。
「顔条件」は、以下のルールに従う。
・Nn :名前の登録の有無の条件を示す。記載がなければ、認識されたすべての人物が対象となる。Yと記載されている場合は、名前の登録がされている人物だけが対象となる。Nと記載されている場合は、名前の登録がされていない人物だけが対象となる。
・Pcount :画像中に写っている人物の人数の条件を示す。記載がなければ、人数を問わない。記載されている場合は、その数字の人数だけが写っている画像を対象とする。例えば、ID=10004のアルバムの場合、Pcountの条件が「10≦Pcount」となっているが、この場合は、「10人以上写っている画像」ということになる。
・Pname :特定の人物が写っているかどうかの条件を示す。記載がなければ、被写体は特定しない。被写体indexの値が記載されている場合は、その人が写っている画像という条件になる。Rの場合は、indexの値を、取りうる値の中からランダムに選択する。例えば、ID=10001のアルバムの場合、Pnameの条件が「Pname=R」となっているが、Rの値をランダムに選択し、結果R=3となった場合、条件は「太郎の写っている画像」ということになる。また、アルバム名称に(*)が含まれるので、この場合のアルバム名は「太郎さんの個展」アルバムとなる。なお、この例の場合、「Pcount=1」という条件があるので、「太郎だけが写っているアルバム」ということになる。
また、MaxCountの場合は、すべての画像中に出てくる人物を数え上げ、最も多くの画像に写っている人物のindexを当てはめることにする。これにより、システム中の画像に最も登場する回数の多い人物についてのアルバムを作成することができる。
なお、「顔条件」と日付条件、時間条件は組み合わせることが可能である。例えば、「花子の写っている2009年の画像」をアルバムにする場合、日付条件を「Yn=2009」、顔条件を「Pname=4」とすればよい。
図22は、第2実施例に係る音声キーワードデータベース14Dに格納されるデータの一例である。第2実施例に係る音声キーワードデータベース14Dは、第1実施例に係る音声キーワードデータベース14Dに格納されたデータに加え、顔認識に関わるキーワードが追加されている。図中、ID=50001以降が、顔認識に関わるキーワードである。「表示名」には、被写体テーブルの被写体名がコピーされる。「発音」は、被写体テーブルの被写体呼び名の値がコピーされる。「関連条件」には、被写体テーブルの被写体indexの値が条件として記入される。
(メイン処理)
図23は、第2実施例の画像再生装置2が実行するメイン処理の流れを示すフローチャートの一例である。
画像再生装置2が起動すると、イベントハンドラが常駐する(S900)。イベントハンドラは、各種オペレーティングシステムに備わっているものであり、定期的・不定期のイベント通知に反応して、各種処理を行う。
イベントハンドラから「音声キーワード登録イベント」が通知されると、「音声キーワード登録処理」が開始される(902)。音声キーワード登録処理では、ユーザが選択した画像データに対する顔認識の結果である認識データと、人物の名前及びその読み仮名を、ユーザ操作により音声キーワードデータベースに登録することを受け付ける処理である。音声キーワード登録処理によって、ユーザが人物の名前を呼んだときに当該人物を音声キーワードとして認識することができる。
イベントハンドラから「アルバム作成イベント」が通知されると、「通常アルバム作成処理」が開始される(S904)。通常アルバム作成処理については第1実施例と同様であるため、説明を省略する。
また、イベントハンドラから「鑑賞開始イベント」が通知されたときに、「鑑賞処理」が開始される(S906)。鑑賞処理については第1実施例と同様であるため、説明を省略する。
また、イベントハンドラから「終了イベント」が通知されたときに、オペレーティングシステム自体が終了する。
図24は、第2実施例の画像再生装置2が実行する音声キーワード登録処理の流れを示すフローチャートの一例である。本フローチャートは、例えば音声キーワード抽出部Fの一機能として実行される。また、本フローチャートは、ユーザが所望の画像データに対して顔認識処理を画像再生装置2に指示した、或いは画像再生装置2が自動的に新規登録画像に対して顔認識処理行った後に開始される。
まず、顔認識機能で認識された顔のうち、名前が未登録の顔画像に対して、名前を登録するかどうかをユーザに選択させる(S1000)。ユーザが名前を登録しないことを選択した場合、音声キーワード抽出部Fは、本フローチャートの処理を終了する。
ユーザが名前を登録することを選択した場合、音声キーワード抽出部Fは、顔に対応付けて名前などの情報をユーザに登録させるための情報登録画面を表示し、ユーザの入力がなされるまで待機する(S1002)。
ユーザの入力がなされると、音声キーワード抽出部Fは、ユーザから入力された名前、呼び方、属性の情報を、画像データベース14Aに付随する画像被写体関連テーブルに書き込む(S1004)。音声キーワード抽出部Fは、名前を「被写体名」、属性を「属性」、呼び方を「被写体呼び名」として書き込む。
次に、音声キーワード抽出部Fは、追加された画像被写体関連テーブルの値を、音声キーワードデータベース14Dに書き込み(S1006)、S1000に戻る。音声キーワード抽出部Fは、被写体名を「表示名」、被写体呼び名を「発音」、被写体indexを「関連条件」として書き込む。
以上のような処理により、顔画像に対応付けられた名前が、音声キーワードとして登録され、当該音声キーワードが発話されたときに関連アルバムが作成され、第1実施例のように「おすすめアルバム」等の画像領域Daが表示される
以下、その他の処理について説明する。
通常アルバム作成処理については、主要な流れは第1実施例と同様であるが、図10のフローチャートにおけるS300では、今回作成するアルバムのルールに顔認識によるアルバムの選択肢が含まれる。例えば、2011年の年末に、その年一年で撮影した人物についてのアルバムを作成する、という場合には、「2011年の真彦さん」、「2011年の明菜さん」、「2011年の太郎さん」、「2011年の花子さん」というアルバムを選択すればよい。これによって、顔認識に関連するアルバムが、通常アルバム作成処理において作成されることになる。
鑑賞処理については、音声キーワードデータベース14Dに、名前の呼び方が登録されているため、画像の再生中に音声キーワードデータベース14Dに登録されている名前が発話されたときに、関連アルバム作成処理が開始されることになる。
関連アルバム作成処理では、反応した音声キーワードが「たろう」だった場合、音声キーワードデータベース14Dを検索して、ID=50003が得られる。第2作成部A_2は、該当するレコードに対して、関連条件欄の値を参照し、関連条件「Pname=3」を取得する。第2実施例に係る第2作成部A_2は、現在表示中のアルバムが「花子さんの個展」のアルバム(ID=10001でR=4)の場合、このアルバムの日付条件、時間条件、顔条件を取得する。この場合、日付条件、時間条件はNULL、顔条件は「Nn=Y,Pcount=1,Pname=4」となっている。
第2実施例に係る第2作成部A_2は、日付条件、時間条件に関する関連アルバムの作成に関しては、第1実施例と同様のロジックで関連アルバムの作成を行う。一方、第2実施例に係る第2作成部A_2は、顔条件については、ANDをとる場合と新規条件とする場合の2つを条件とする。上記の例では、ANDを取ると「Nn=Y,Pcount=1, Pname=3AND4」となるが、「太郎さんと花子さんが一緒に写っていて、被写体は1つ」という条件は矛盾するので、ANDは取れないことになる。この場合、新規条件が採用され、「Nn=Y,Pcount=1,Pname=3」となり、「太郎さんの個展」が作成される。このような処理によって、花子さんの個展のアルバムの再生中に、「たろう」という言葉が発話された場合に、関連アルバムとして「太郎さんの個展」のアルバムが作成される。
なお、本実施例では、顔認識機能による顔タグについての例を記載したが、別の認識方法による別のタグであっても同様に応用することが可能ある。例えば、食事内容を解析する画像解析エンジンがあった場合には、「フランス料理」「フォアグラ」などのタグが各画像に付加されることが想定される。従って、これらのタグの読み方を登録しておくことで、本実施例と同様の処理にて「フランス料理のアルバム」などを関連アルバムとして表示することが可能になる。
以上説明した第2実施例の画像再生装置、画像再生プログラム、及び画像再生方法によれば、アルバムが再生されているときに、ユーザの発話に含まれる音声キーワードとアルバムの作成ルールとの関係に基づき関連アルバムの作成ルールを設定することができる。また、第2実施例の画像再生装置等によれば、関連アルバムを作成し、関連アルバムに関する情報を提示することができる。これらの結果、第2実施例の画像再生装置等によれば、ユーザの意向に合う画像を提供することができる。
また、第2実施例の画像再生装置等によれば、音声キーワードデータベース14Dに、人物に関する抽出条件を設定しておくため、ユーザがその時点で興味を持った人物についての画像の再生を提案することができる。
<第3実施例>
以下、図面を参照し、本発明の第3実施例に係る画像再生装置、画像再生プログラム、及び画像再生方法について説明する。
図25は、第3実施例に係る画像再生装置3の論理構成例である。画像再生装置3は、アルバム作成部A、鑑賞状況通知部B、表示画像制御部C、画像表示部D、音声受信部E、音声キーワード抽出部F、鑑賞状況判定部Gを備える。請求項5における「抽出手段」は、例えば本実施例における第1作成部A_1に対応する。また、請求項5における「提示手段」は、例えば本実施例における第2作成部A_2、表示画像制御部C、及び音声受信ハンドラに対応する。また、請求項5における「第1条件充足画像データ」は、例えば本実施例におけるアルバムに対応し、請求項5における「第2条件充足画像データ」は、例えば本実施例における関連アルバムに対応する。
これらの論理構成のうち、アルバム作成部A、鑑賞状況通知部B、表示画像制御部C、音声キーワード抽出部F、鑑賞状況判定部Gは、例えばCPU10がHDD14等に格納されたプログラムを実行することにより機能する機能ブロックである。なお、これらの機能ブロックが明確に分離したプログラムによって実現される必要はなく、サブルーチンや関数として他のプログラムによって呼び出されるものであってもよい。また、機能ブロックの一部が、LSI、ICやFPGA等のハードウエア手段であっても構わない。
また、画像表示部Dはグラフィックインターフェース20及びテレビジョン放映機100を指し、音声受信部Eは入力インターフェース22の一機能である。
また、図25に示す各論理構成は、HDD14等に格納された画像データベース14A、アルバムルールデータベース14B、アルバム情報データベース14C、音声キーワードデータベース14D、盛り上がりワードデータベース14Eを利用して処理を行う。
盛り上がりワードデータベース14Eは、ユーザの発話中に含まれる、盛り上がりを示す言葉を集めたデータベースである。図26は、盛り上がりワードデータベース14Eに格納されるデータの一例である。図中、「ID」は、盛り上がりワードを一意に特定するための固有の値である。「発音」は、音声受信部から入力された音声に対して、音声認識技術によって音声とマッチングをとるためのキーワードである。ここに記載されたとおりに発音されたかどうかを判定するのに使用する。「盛り上がり度数」は、盛り上がり方を数値化したものであり、値が大きいほど盛り上がっているとみなす。図26の例では、盛り上がり度数の最大値が5、最小値が1となっている。
第3実施例の画像再生装置3が第1実施例の画像再生装置1と異なる主要な点は、鑑賞処理、及び音声認識モジュールの処理であるため、以下ではこれらについてのみ説明する。
図27は、第3実施例の画像再生装置3により実行される処理の流れを示すフローチャートの一例である。
まず、表示画像制御部Cは、音声認識モジュールの常駐を開始させる(S1100)。音声認識モジュールは、音声受信部Eがマイクロフォン46から音声を受信可能な状態となるように設定し、音声キーワード判定部Fが音声受信部Eから受信した音声を逐次解析できるように準備する。
次に、表示画像制御部Cは、盛り上がりワードを音声認識モジュールに設定する(S1102)。
次に、表示画像制御部Cは、ユーザがアルバムを選択するか、鑑賞終了を選択するまで待機する(S1104)。
ユーザがアルバムを選択すると、表示画像制御部Cは、鑑賞用に選択されたアルバムに関連する音声キーワードを音声キーワードデータベース14Dから取得し、音声認識モジュールに設定する(S1106)。
ここで、表示画像制御部Cは、関連するキーワードの一覧を取得するために、例えばアルバムルールデータベース14Bに記載された各ルールごとに反応するキーワードを対応付けた一覧を利用する。そして、表示画像制御部Cは、今回ユーザが鑑賞しようとしているアルバムに記載されているルールIDについて、一覧から対応するキーワードを読み取る。
次に、表示画像制御部Cは、アルバム情報によって特定される画像を、アルバム情報に記載されている情報に従って画像表示部Dに表示させる(S1108)。これによって、ユーザによるアルバムの鑑賞が開始される。この間にユーザが音声を発すると、常駐している音声認識モジュールが反応して後述する音声認識モジュールの処理を行う。表示画像制御部Cは、鑑賞中のアルバムの鑑賞が終了した場合やユーザが別のアルバムを鑑賞するための操作を行った場合は、S502に戻って処理を実行する。
表示画像制御部Cは、ユーザが鑑賞終了を選択すると、音声認識モジュールの常駐を終了させる(S1110)。
(音声認識モジュールの処理)
図28は、音声認識モジュールの処理の流れを示すフローチャートの一例である。
音声認識モジュールが常駐を開始すると、音声受信ハンドラが起動する(S1200)。音声受信ハンドラは、発生したイベントに応じたメッセージを受信するために待機する。
音声受信ハンドラは、音声受信イベントを受信すると、受信した音声が、設定された音声キーワード又は盛り上がりワードに一致するか否かを音声キーワード抽出部Fに判定させる(S1202)。受信した音声が、設定された音声キーワードと盛り上がりワードのいずれにも一致しなかった場合、音声受信ハンドラは、S1200に戻り、受信待ち状態となる。
受信した音声が、設定された音声キーワードに一致した場合、音声受信ハンドラは、現在ユーザが鑑賞中のアルバムと受信したキーワードに関連する関連アルバムを作成するように、第2作成部A_2に指示する(S1204)。
関連アルバムの作成が終了すると、音声受信ハンドラは、作成された関連アルバム一覧12Cを画面に表示するように表示画像制御部Cに指示する(S1206)。
第2作成部A_2が関連アルバムを作成している最中に新たな音声受信イベントを受信した場合は、現在の処理に並行してS1204の処理を行うようなスレッド処理にしてもよいし、関連アルバム作成処理が完了するまで次の音声受信イベントの受信を無視してもよい。
一方、受信した音声が、設定された盛り上がりワードに一致した場合、音声受信ハンドラは、今回受信した盛り上がりワードの盛り上がり度数を、累計の盛り上がり度数に加算する(S1208)。
そして、音声受信ハンドラは、累計の盛り上がり度数が閾値を超えたか否かを判定する(S1210)。累計の盛り上がり度数が閾値を超えない場合、音声受信ハンドラは、S1200に戻り、受信待ち状態となる。
累計の盛り上がり度数が閾値を超えた場合、音声受信ハンドラは、現在再生中のアルバムに関連するアルバムを作成するように第2作成部A_2に指示する(S1212)。
関連アルバムの作成が終了すると、音声受信ハンドラは、作成された現在再生中のアルバムに関連するアルバムの一覧を画面に表示するように表示画像制御部Cに指示する(S1214)。
音声受信ハンドラが常駐終了イベントを受信した場合、音声認識モジュールは常駐を終了する。
S1210では、例えば、閾値が8に設定されている場合、盛り上がりワードが「すばらしい」と「とってもすてき」の2語を検知すると、合計が10となり閾値を超える。また、盛り上がりワードが「へー」と「なるほど」の2語の場合、合計が6となり、閾値を超えない。
累計の盛り上がり度数が閾値を超えた場合に作成される関連アルバムは、現在表示中のアルバムにより深く関連したものにすることで、続けて盛り上がりを演出することが可能になる。そのため、関連アルバムは、以下のルールで作成することにする。
・鑑賞中のアルバムの、一部期間にフォーカスしたアルバム(例:「2007年のアルバム」の場合、「2007年の1月〜6月」「2007年の7月〜12月」など。「お正月のアルバム」の場合、「2010年のお正月」「2011年のお正月」など。)
・鑑賞中のアルバムの、被写体にフォーカスしたアルバム(例:「2007年のアルバム」の場合、「2007年の太郎さんのアルバム」や「2007年の花子さんのアルバム」など)。
盛り上がりワードによる関連アルバムの一覧は、音声キーワードによる関連アルバムの一覧の表示と同じに表示してもよいし、別に表示してもよい。
以上の処理の流れにより、鑑賞中の盛り上がりを認識して、現在のアルバムに関連する新しいアルバムを提案することが可能になる。
以上説明した第3実施例の画像再生装置、画像再生プログラム、及び画像再生方法によれば、アルバムが再生されているときに、ユーザの発話に含まれる音声キーワードとアルバムの作成ルールとの関係に基づき関連アルバムの作成ルールを設定することができる。また、第3実施例の画像再生装置等によれば、関連アルバムを作成し、関連アルバムに関する情報を提示することができる。これらの結果、第3実施例の画像再生装置等によれば、ユーザの意向に合う画像を提供することができる。
また、第3実施例の画像再生装置等によれば、予め設定した盛り上がりワードが発話されたときに、その累積の盛り上がり度合いが閾値を超えたときに関連アルバムを作成するため、ユーザの状態に応じた画像を提供することができる。
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
以上の説明に関し、さらに以下の項を開示する。
(付記1)
画像データを再生可能な再生手段に接続される画像再生装置であって、
前記記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出する抽出手段と、
音声入力手段に入力された音声に一致するキーワードを抽出する音声キーワード抽出手段と、
前記第1条件充足画像データが前記再生手段により再生されているときに、該再生中の前記第1条件充足画像データが抽出された際に適用された第1の抽出条件と前記抽出されたキーワードとの関係に基づき第2の抽出条件を決定し、前記記憶手段に格納された画像データのうち前記第2の抽出条件を満たす第2条件充足画像データに関する情報を提示する提示手段と、を備える画像再生装置。
(付記2)
前記第2の抽出条件は、前記第1の抽出条件よりも狭い抽出範囲で前記画像データを抽出するための抽出条件である、付記1に記載の画像再生装置。
(付記3)
前記第1の抽出条件は、時期的な抽出条件であり
前記第2の抽出条件は、前記第1の抽出条件に比して時期的に前後する期間の前記画像データを抽出するための抽出条件である、付記1に記載の画像再生装置。
(付記4)
前記第2の抽出条件は、特定の人物が含まれる画像データを抽出するための抽出条件である、付記1ないし3のいずれか1項記載の画像再生装置。
(付記5)
画像データを再生可能な再生手段に接続される画像再生装置であって、
前記記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出する抽出手段と、
音声入力手段に入力された音声からユーザの盛り上がりを示すキーワードを抽出する音声キーワード抽出手段と、
前記第1条件充足画像データが前記再生手段により再生されているときに、前記抽出されたユーザの盛り上がりを示すキーワードに基づきユーザの盛り上がり度合いを算出し、該算出したユーザの盛り上がり度合いに応じて前記記憶手段に格納された画像データのうち前記第1の抽出条件に関連する第2の抽出条件を満たす第2条件充足画像データに関する情報を提示する提示手段と、を備える画像再生装置。
(付記6)
画像データを再生可能な再生手段に接続されたコンピュータに、
記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出させ、
音声入力手段に入力された音声に一致するキーワードを抽出させ、
前記第1条件充足画像データが前記再生手段により再生されているときに、該再生中の前記第1条件充足画像データが抽出された際に適用された第1の抽出条件と前記抽出されたキーワードとの関係に基づき第2の抽出条件を決定させ、前記記憶手段に格納された画像データのうち前記第2の抽出条件を満たす第2条件充足画像データに関する情報を提示させることを特徴とする、画像再生プログラム。
(付記7)
前記第2の抽出条件は、前記第1の抽出条件よりも狭い抽出範囲で前記画像データを抽出するための抽出条件である、付記6に記載の画像再生プログラム。
(付記8)
前記第1の抽出条件は、時期的な抽出条件であり
前記第2の抽出条件は、前記第1の抽出条件に比して時期的に前後する期間の前記画像データを抽出するための抽出条件である、付記6に記載の画像再生プログラム。
(付記9)
前記第2の抽出条件は、特定の人物が含まれる画像データを抽出するための抽出条件である、付記6ないし8のいずれか1項記載の画像再生プログラム。
(付記10)
画像データを再生可能な再生手段に接続されたコンピュータが、
前記記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出し、
音声入力手段に入力された音声に一致するキーワードを抽出し、
前記第1条件充足画像データが前記再生手段により再生されているときに、該再生中の前記第1条件充足画像データが抽出された際に適用された第1の抽出条件と前記抽出されたキーワードとの関係に基づき第2の抽出条件を決定し、前記記憶手段に格納された画像データのうち前記第2の抽出条件を満たす第2条件充足画像データに関する情報を提示することを特徴とする、画像再生方法。
1、2、3 画像再生装置
10 CPU
12 RAM
14 HDD
14A 画像データベース
14B アルバムルールデータベース
14C アルバム情報データベース
14D 音声キーワードデータベース
14E 盛り上がりワードデータベース
20 グラフィックインターフェース
22 入力インターフェース
24 シリアルバスインターフェース
26 メモリカードスロット
28 光学ドライブ装置
30 通信インターフェース
42 キーボード
44 マウス
46 マイクロフォン
46A 専用ケーブル
50 カメラ
52 ビデオ
54 携帯電話
60 メモリカード
62 光ディスク
70 ネットワーク
100 テレビジョン放映機
110 HDMIケーブル
200 ユーザ
A アルバム作成部
B 鑑賞状況通知部
C 表示画像制御部
D 画像表示部
E 音声受信部
F 音声キーワード抽出部
G 鑑賞状況判定部

Claims (7)

  1. 画像データを再生可能な再生手段に接続される画像再生装置であって、
    記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出する抽出手段と、
    前記第1条件充足画像データが前記再生手段により再生されているときに、音声入力手段に入力された音声に一致するキーワードを抽出する音声キーワード抽出手段と、
    前記第1条件充足画像データが前記再生手段により再生されているときに、該再生中の前記第1条件充足画像データが抽出された際に適用された第1の抽出条件と前記抽出されたキーワードとの関係に基づき第2の抽出条件を決定し、前記記憶手段に格納された画像データのうち前記第2の抽出条件を満たす第2条件充足画像データに関する情報を提示する提示手段と、を備える画像再生装置。
  2. 前記第2の抽出条件は、前記第1の抽出条件よりも狭い抽出範囲で前記画像データを抽出するための抽出条件である、請求項1に記載の画像再生装置。
  3. 前記第1の抽出条件は、時期的な抽出条件であり
    前記第2の抽出条件は、前記第1の抽出条件に比して時期的に前後する期間の前記画像データを抽出するための抽出条件である、請求項1に記載の画像再生装置。
  4. 前記第2の抽出条件は、特定の人物が含まれる画像データを抽出するための抽出条件である、請求項1ないし3のいずれか1項記載の画像再生装置。
  5. 画像データを再生可能な再生手段に接続される画像再生装置であって、
    記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出する抽出手段と、
    前記第1条件充足画像データが前記再生手段により再生されているときに、音声入力手段に入力された音声からユーザの盛り上がりを示すキーワードを抽出する音声キーワード抽出手段と、
    前記第1条件充足画像データが前記再生手段により再生されているときに、前記抽出されたユーザの盛り上がりを示すキーワードに基づきユーザの盛り上がり度合いを算出し、該算出したユーザの盛り上がり度合いに応じて前記記憶手段に格納された画像データのうち前記第1の抽出条件に関連する第2の抽出条件を満たす第2条件充足画像データに関する情報を提示する提示手段と、を備える画像再生装置。
  6. 画像データを再生可能な再生手段に接続されたコンピュータに、
    記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出させ、
    前記第1条件充足画像データが前記再生手段により再生されているときに、音声入力手段に入力された音声に一致するキーワードを抽出させ、
    前記第1条件充足画像データが前記再生手段により再生されているときに、該再生中の前記第1条件充足画像データが抽出された際に適用された第1の抽出条件と前記抽出されたキーワードとの関係に基づき第2の抽出条件を決定させ、前記記憶手段に格納された画像データのうち前記第2の抽出条件を満たす第2条件充足画像データに関する情報を提示させることを特徴とする、画像再生プログラム。
  7. 画像データを再生可能な再生手段に接続されたコンピュータが、
    記憶手段に格納された画像データから第1の抽出条件を満たす第1条件充足画像データを抽出し、
    前記第1条件充足画像データが前記再生手段により再生されているときに、音声入力手段に入力された音声に一致するキーワードを抽出し、
    前記第1条件充足画像データが前記再生手段により再生されているときに、該再生中の前記第1条件充足画像データが抽出された際に適用された第1の抽出条件と前記抽出されたキーワードとの関係に基づき第2の抽出条件を決定し、前記記憶手段に格納された画像データのうち前記第2の抽出条件を満たす第2条件充足画像データに関する情報を提示することを特徴とする、画像再生方法。
JP2012000745A 2012-01-05 2012-01-05 画像再生装置、画像再生プログラム、及び画像再生方法 Expired - Fee Related JP5790509B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012000745A JP5790509B2 (ja) 2012-01-05 2012-01-05 画像再生装置、画像再生プログラム、及び画像再生方法
US13/670,618 US20130179172A1 (en) 2012-01-05 2012-11-07 Image reproducing device, image reproducing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012000745A JP5790509B2 (ja) 2012-01-05 2012-01-05 画像再生装置、画像再生プログラム、及び画像再生方法

Publications (2)

Publication Number Publication Date
JP2013140520A JP2013140520A (ja) 2013-07-18
JP5790509B2 true JP5790509B2 (ja) 2015-10-07

Family

ID=48744527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012000745A Expired - Fee Related JP5790509B2 (ja) 2012-01-05 2012-01-05 画像再生装置、画像再生プログラム、及び画像再生方法

Country Status (2)

Country Link
US (1) US20130179172A1 (ja)
JP (1) JP5790509B2 (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9639742B2 (en) 2014-04-28 2017-05-02 Microsoft Technology Licensing, Llc Creation of representative content based on facial analysis
US9773156B2 (en) 2014-04-29 2017-09-26 Microsoft Technology Licensing, Llc Grouping and ranking images based on facial recognition data
US20150317510A1 (en) * 2014-04-30 2015-11-05 Microsoft Corporation Rating photos for tasks based on content and adjacent signals
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN107018372A (zh) * 2017-04-20 2017-08-04 深圳声联网科技有限公司 声音识别监控记录方法及装置
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
JP7171349B2 (ja) 2018-09-28 2022-11-15 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7353057B2 (ja) * 2019-03-29 2023-09-29 東京瓦斯株式会社 記録システムおよびプログラム
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970859B1 (en) * 2000-03-23 2005-11-29 Microsoft Corporation Searching and sorting media clips having associated style and attributes
US7224851B2 (en) * 2001-12-04 2007-05-29 Fujifilm Corporation Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same
AU2003210027A1 (en) * 2002-03-06 2003-09-16 Chung-Tae Kim Methods for constructing multimedia database and providing multimedia-search service and apparatus therefor
US7124125B2 (en) * 2002-11-01 2006-10-17 Loudeye Corp. System and method for providing media samples on-line in response to media related searches on the internet
US7394969B2 (en) * 2002-12-11 2008-07-01 Eastman Kodak Company System and method to compose a slide show
CN1757229A (zh) * 2003-01-15 2006-04-05 松下电器产业株式会社 广播接收方法、广播接收系统、记录媒体及程序
US7702599B2 (en) * 2004-10-07 2010-04-20 Bernard Widrow System and method for cognitive memory and auto-associative neural network based pattern recognition
JP4568144B2 (ja) * 2005-03-02 2010-10-27 日本放送協会 情報提示装置及び情報提示プログラム
US7693901B2 (en) * 2005-08-10 2010-04-06 Microsoft Corporation Consumer-focused results ordering
JP2007164497A (ja) * 2005-12-14 2007-06-28 Fujitsu Ten Ltd 嗜好推定装置、及び制御装置
US20070150916A1 (en) * 2005-12-28 2007-06-28 James Begole Using sensors to provide feedback on the access of digital content
US20070294273A1 (en) * 2006-06-16 2007-12-20 Motorola, Inc. Method and system for cataloging media files
JP2008276410A (ja) * 2007-04-26 2008-11-13 Toshiba Corp 画像処理装置及び方法
US8126274B2 (en) * 2007-08-30 2012-02-28 Microsoft Corporation Visual language modeling for image classification
US8180112B2 (en) * 2008-01-21 2012-05-15 Eastman Kodak Company Enabling persistent recognition of individuals in images
JP5231827B2 (ja) * 2008-02-04 2013-07-10 富士フイルム株式会社 画像表示装置、表示制御方法及び表示制御プログラム
US20090287655A1 (en) * 2008-05-13 2009-11-19 Bennett James D Image search engine employing user suitability feedback
CA2669603A1 (en) * 2009-06-18 2010-12-18 Ibm Canada Limited - Ibm Canada Limitee Graphical modeling tool
US8463026B2 (en) * 2010-12-22 2013-06-11 Microsoft Corporation Automated identification of image outliers
WO2012150602A1 (en) * 2011-05-03 2012-11-08 Yogesh Chunilal Rathod A system and method for dynamically monitoring, recording, processing, attaching dynamic, contextual & accessible active links & presenting of physical or digital activities, actions, locations, logs, life stream, behavior & status

Also Published As

Publication number Publication date
JP2013140520A (ja) 2013-07-18
US20130179172A1 (en) 2013-07-11

Similar Documents

Publication Publication Date Title
JP5790509B2 (ja) 画像再生装置、画像再生プログラム、及び画像再生方法
US8923654B2 (en) Information processing apparatus and method, and storage medium storing program for displaying images that are divided into groups
US9286360B2 (en) Information processing system, information processing device, information processing method, and computer readable recording medium
JP4228320B2 (ja) 画像処理装置および方法、並びにプログラム
EP4024879A1 (en) Video processing method and device, terminal and computer readable storage medium
US20080159708A1 (en) Video Contents Display Apparatus, Video Contents Display Method, and Program Therefor
US20080028294A1 (en) Method and system for managing and maintaining multimedia content
US20120127066A1 (en) Content output device, content output method, program, program recording medium, and content output integrated circuit
US20120155832A1 (en) Contents replay apparatus and contents replay method
US8145034B2 (en) Contents replay apparatus and contents replay method
US9277089B2 (en) Method to control image processing apparatus, image processing apparatus, and image file
US9558784B1 (en) Intelligent video navigation techniques
JP5870742B2 (ja) 情報処理装置、システムおよび情報処理方法
US9564177B1 (en) Intelligent video navigation techniques
US20140129640A1 (en) Content processing device, content processing method, computer- readable recording medium, and integrated circuit
US20150324395A1 (en) Image organization by date
JP2009004999A (ja) 映像データ管理装置
JP2002108892A (ja) データ管理システム、データ管理方法、及び、記録媒体
JP2006164008A (ja) 画像検索装置および画像検索方法
JP2008067334A (ja) 画像処理装置および方法、並びにプログラム
JP2009140453A (ja) 情報処理装置および方法、並びにプログラム
WO2020158536A1 (ja) 情報処理システム、情報処理方法および情報処理装置
JP2008065792A (ja) 画像処理装置および方法、並びにプログラム
JP6830634B1 (ja) 情報処理方法、情報処理装置及びコンピュータプログラム
WO2019082606A1 (ja) コンテンツ管理機器、コンテンツ管理システム、および、制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150720

R150 Certificate of patent or registration of utility model

Ref document number: 5790509

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees