JP2010224715A

JP2010224715A - 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体

Info

Publication number: JP2010224715A
Application number: JP2009069398A
Authority: JP
Inventors: Ryohei Sugihara; 良平杉原; Seiji Tatsuta; 成示龍田; Yoichi Iba; 陽一井場; Miho Kameyama; 未帆亀山; Isato Fujigaki; 勇人藤垣
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2009-03-23
Filing date: 2009-03-23
Publication date: 2010-10-07

Abstract

【課題】コンテンツに対する効率的なタグの付与を可能にする画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体の提供。
【解決手段】画像表示システムは、画像を表示する表示部３４０の表示制御を行う表示制御部３１８と、コンテンツの表示中におけるユーザの発話の音声認識を行い、ユーザの発話キーワードを抽出する音声認識部３０５と、抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うタグ登録部３０６を含む。
【選択図】図２

Description

本発明は、画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体等に関する。

近年、デジタルカメラ等の普及により、ユーザは撮影枚数を気にすることなく、手軽に写真を撮影できるようになったが、その反面、ユーザにより撮影された写真の多くは、閲覧されることなく、保存されるだけという状況になっている。例えば撮影しても半分以上の写真が長期間に亘って閲覧されることがなく、ハードディスク等のストレージに保存されたままになっている。

このような問題を解消するために、写真等のコンテンツ画像にタグを付与し、付与されたタグに基づいて、ストレージ保存されたコンテンツ画像のスライドショー等を行う手法が考えられる。

しかしながら、コンテンツ画像に対してタグを付与する作業はユーザにとって煩雑であり、手間がかかる作業である。このため、コンテンツ画像に対して効率的にタグを付与することが難しいという課題がある。

また、近年、デジタルカメラで撮影した画像を手軽に再生できる装置として、デジタルフォトフレームが脚光を浴びている。このデジタルフォトフレームは、フォトスタンドの写真を入れる部分が液晶ディスプレイに置き換えられた形態の装置であり、メモリカードや通信装置を介して読み込まれたデジタルの画像データ（電子写真）の再生処理を行う。

デジタルフォトフレームの従来技術としては例えば特許文献１に開示される技術がある。この従来技術では、電話回線接続装置を、デジタルフォトフレームであるデジタルフォトスタンドに具備させて、フォトスタンドと有線又は無線の電話回線との間の伝送路の形成を実現している。

しかしながら、これまでのデジタルフォトフレームでは、デジタルカメラ等で撮影された画像を単に再生する機能しか有しておらず、再生画像が単調であり、ユーザに対して多様なコンテンツ画像を表示できないという課題がある。

特開２０００−３２４４７３号公報

本発明の幾つかの態様によれば、コンテンツに対する効率的なタグの付与を可能にする画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体等を提供できる。

本発明の一態様は、画像を表示する表示部の表示制御を行う表示制御部と、コンテンツの表示中におけるユーザの発話の音声認識を行い、ユーザの発話キーワードを抽出する音声認識部と、抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うタグ登録部とを含む画像表示システムに関係する。また本発明は、上記各部としてコンピュータを機能させるプログラム、又は該プログラムを記憶したコンピュータ読み取り可能な情報記憶媒体に関係する。

本発明の一態様によれば、コンテンツの表示中におけるユーザの発話の音声認識が行われて、発話キーワードが抽出される。そして抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理が行われる。例えば、抽出された発話キーワードがタグキーワードとして登録されたり、或いは発話キーワードにより取得されたキーワードがタグキーワードとして登録される。このように、コンテンツ表示中の発話を検知してそのコンテンツのタグキーワードの登録処理を行うようにすれば、コンテンツに対する効率的なタグの付与が可能になる。

また本発明の一態様では、前記タグ登録部は、抽出された前記発話キーワードの中に、コンテンツのタグキーワードに一致する一致発話キーワードが検出された場合に、検出された前記一致発話キーワード以外の発話キーワードを、コンテンツのタグキーワードとして登録してもよい。

このようにすれば、発話中のキーワードのうち、一致した発話キーワード以外のキーワードをタグキーワードとして登録できるようになり、効率的なタグの付与が可能になる。

また本発明の一態様では、前記タグ登録部は、抽出された前記発話キーワードの中に、コンテンツのタグキーワードに関連する関連発話キーワードが検出された場合に、検出された前記関連発話キーワードを、コンテンツのタグキーワードとして登録してもよい。

このようにすれば、発話中のキーワードのうち、関連発話キーワードをタグキーワードとして登録できるようになり、多様なタグの付与が可能になる。

また本発明の一態様では、ユーザが前記表示部を注視している状態か否かを判断する視認状態判断部を含み、前記タグ登録部は、ユーザが注視状態であるときに抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行ってもよい。

このようにすれば、ユーザの注視状態を条件にタグキーワードの登録処理が行われるようになるため、無用なタグキーワード等が登録されてしまう事態を防止できる。

また本発明の一態様では、ユーザと前記表示部との位置関係を判断する位置関係判断部を含み、前記タグ登録部は、ユーザと前記表示部との距離が所定距離以内であるときに抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行ってもよい。

このようにすれば、ユーザとの距離が所定距離以内であることを条件にタグキーワードの登録処理が行われるようになるため、無用なタグキーワード等が登録されてしまう事態を防止できる。

また本発明の一態様では、ユーザの人数の検出処理を行う人数検出部を含み、前記タグ登録部は、ユーザの人数の検出結果に基づいて、コンテンツのタグキーワードの登録処理を行ってもよい。

このようにすれば、ユーザの人数の検出結果を反映したタグキーワードの登録処理を実現できる。

また本発明の一態様では、前記音声認識部は、ユーザの人数が一人であると検出された場合に、ユーザの発話キーワードを抽出し、前記タグ登録部は、抽出された一人のユーザの発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行ってもよい。

このようにすれば、ユーザが１人でいるときの発話キーワードに基づいて、タグキーワードの登録処理を実現できる。

また本発明の一態様では、前記タグ登録部は、ユーザの人数が複数人であると検出され、複数人のユーザが同一の発話キーワードを発話したことが検出された場合に、検出された同一発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行ってもよい。

このようにすれば複数人が発話した同一の発話キーワードに基づいて、タグキーワードの登録処理を実現できる。

また本発明の一態様では、ユーザを認識するユーザ認識部を含み、前記タグ登録部は、認識されたユーザの発話キーワードに基づいて、コンテンツのタグキーワードが取得された場合に、取得されたタグキーワードを、認識されたユーザ及びコンテンツに関連づけて登録してもよい。

このようにすれば、各ユーザの発話に対応したタグキーワードをコンテンツに付与できるようになる。

また本発明の一態様では、前記タグ登録部は、ユーザの発話キーワードの出現回数情報の集計処理を行い、出現回数情報が所定しきい値を超えた発話キーワードを、コンテンツのタグキーワードとして登録してもよい。

このようにすれば、無用なタグキーワード等が登録されてしまう事態を防止できる。

また本発明の一態様では、前記音声認識部は、ユーザの無発話状態を検知し、前記表示制御部は、ユーザの無発話状態が検知された場合に、表示されるコンテンツの切り替え処理を行ってもよい。

このようにすれば、ユーザが表示コンテンツに興味等を持って発話している状態では、現在の表示コンテンツの表示が維持され、無発話状態が検知されると、次のコンテンツに切り替わるようになる。

また本発明の一態様では、コンテンツの登録タグキーワードと、前記登録タグキーワードの登録回数情報とが関連づけられたヒストグラム情報を作成するヒストグラム作成部を含んでもよい。

このようにすれば、登録タグキーワードのヒストグラム情報を利用した種々の処理を実現できる。

また本発明の一態様では、ユーザに提示するコンテンツの選択処理を行うコンテンツ選択部を含み、前記コンテンツ選択部は、作成された前記ヒストグラム情報に基づいて、ユーザに提示するコンテンツの選択処理を行ってもよい。

このようにすれば、登録タグキーワードのヒストグラム情報を有効活用してコンテンツを選択できるようになる。

また本発明の一態様では、複数のコンテンツ間の前記ヒストグラム情報の類似度を評価する類似度評価部を含み、前記コンテンツ選択部は、第１のコンテンツの次にユーザに提示する第２のコンテンツとして、前記第１のコンテンツに対する前記ヒストグラム情報の類似度が高いと評価されたコンテンツを選択してもよい。

このようにすれば、ヒストグラム情報に基づき第１のコンテンツに類似すると評価された第２のコンテンツを、次のコンテンツとして表示できるようになる。

また本発明の一態様では、前記ヒストグラム情報に基づいて、コンテンツに対して登録された登録タグキーワードの整理処理を行うタグ管理部を含んでもよい。

このようにすれば、ヒストグラム情報を有効利用して、無駄な登録タグキーワード等を整理することが可能になる。

また本発明の一態様では、前記タグ管理部は、コンテンツの登録タグキーワードの中から、前記ヒストグラム情報における前記登録回数情報が少ない登録タグキーワードを優先して削除する処理を行ってもよい。

このようにすれば、間違って登録されたと考えられる登録タグキーワード等を削除することが可能になる。

また本発明の一態様では、前記タグ管理部は、コンテンツの登録タグキーワードの中から、登録が古い登録タグキーワードを優先して削除する処理を行ってもよい。

このようにすれば、あまり利用されていないと考えられる古い登録タグキーワード等を削除できる。

また本発明の一態様では、タグキーワードを取得するための質問の提示処理を行う質問提示部を含み、前記タグ登録部は、提示された質問に対するユーザの反応に基づいて、コンテンツのタグキーワードの登録処理を行ってもよい。

このようにすれば、質問によりユーザに働きかけてコンテンツのタグキーワードを登録できるようになる。

また本発明の一態様では、前記質問提示部は、コンテンツに関連づけられたタグキーワードに対応する質問を提示する処理を行ってもよい。

このようにすれば、コンテンツに関連した質問をユーザに提示して、タグキーワードを登録できるようになる。

また本発明の一態様では、前記質問提示部は、コンテンツに関連づけられたタグキーワードの数が所定数以下である場合に、質問を提示する処理を行ってもよい。

このようにすれば、タグキーワード数が足りないコンテンツに対してタグキーワードを付与できるようになる。

また本発明の一態様では、前記質問提示部は、ユーザの発話から抽出された発話キーワードが、第１〜第Ｎの階層のタグキーワードのうちの第Ｋの階層のタグキーワードである場合には、前記第Ｋの階層のタグキーワード又は前記第Ｋの階層のタグキーワードよりも下位の第Ｋ＋１の階層のタグキーワードを用いて質問を作成して提示する処理を行ってもよい。

このようにすれば、ユーザの発話を手がかりとして、より具体的なタグを付与するための質問を作成して、ユーザに提示できるようになる。

また本発明の他の態様は、上記のいずれか記載の画像表示システムであるデジタルフォトフレームに関係する。

また本発明の他の態様は、ユーザに提示するコンテンツの選択処理を行うコンテンツ選択部と、選択されたコンテンツに基づいて、画像表示システムの表示部に表示される画像の表示指示を行う表示指示部と、コンテンツの表示中におけるユーザの発話の音声認識により抽出されたユーザの発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うタグ登録部とを含む情報処理システムに関係する。

図１（Ａ）、図１（Ｂ）は、画像表示システムの１つであるデジタルフォトフレームの例を示す図。本実施形態の画像表示システムの構成例。ユーザの発話キーワードからタグキーワードを登録する手法の説明図。ユーザの発話キーワードからタグキーワードを登録する手法の説明図。ユーザの発話キーワードからタグキーワードを登録する処理のフローチャート。図６（Ａ）、図６（Ｂ）はユーザの注視を条件に発話キーワードからタグキーワードを登録する手法の説明図。ユーザの注視を条件に発話キーワードからタグキーワードを登録する処理のフローチャート。ユーザの注視を条件に発話キーワードからタグキーワードを登録する他の処理のフローチャート。注視状態の判断処理を説明するためのフローチャート。ユーザの接近を条件に発話キーワードからタグキーワードを登録する処理のフローチャート。図１１（Ａ）〜図１１（Ｃ）はユーザとの位置関係の検出手法の説明図。ユーザの人数を検出して発話キーワードからタグキーワードを登録する処理のフローチャート。ユーザの人数を検出して発話キーワードからタグキーワードを登録する他の処理のフローチャート。図１４（Ａ）、図１４（Ｂ）はユーザの登録情報についての説明図。タグ登録処理及びコンテンツ切り替え処理の詳細例のフローチャート。図１６（Ａ）、図１６（Ｂ）はコンテンツテーブル、登録回数テーブルの例。ヒストグラム情報に基づいて次に表示するコンテンツを選択する手法の説明図。ヒストグラム情報の説明図。ヒストグラム情報の説明図。図２０（Ａ）、図２０（Ｂ）はヒストグラム情報の類似度の評価処理の説明図。ヒストグラム情報に基づくタグの整理処理のフローチャート。タグキーワード付与のための質問提示処理のフローチャート。タグ辞書データベースの例。質問データベースの例。本実施形態のシステム構成の変形例。

以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

１．構成
図１（Ａ）に、本実施形態の画像表示システムの一例であるデジタルフォトフレーム３００（デジタルフォトプレーヤ、画像再生装置）の例を示す。

図１（Ａ）は、いわゆるフォトスタンドタイプのデジタルフォトフレームの例である。このデジタルフォトフレーム３００は、家の中などの任意の場所にユーザにより設置される。そして、デジタルの画像データや音データなどのコンテンツ情報の再生処理（画像再生、音再生）を実行する。デジタルフォトフレーム３００は、例えばユーザの明示的な再生指示がなくても、画像等のコンテンツ情報（メディア情報）を自動的に再生することができる。例えば写真のスライドショーを自動的に実行したり、映像の自動再生を行う。

なお図１（Ａ）はフォトスタンドタイプのデジタルフォトフレームの例であるが、例えば図１（Ｂ）に示すように、壁掛けタイプのものであってもよい。この壁掛けタイプのデジタルフォトフレームとしては、例えば電気泳動型ディスプレイ等により実現される電子ペーパなどを用いることができる。また、デジタルフォトフレームに、コンテンツ情報の再生指示ボタンなどを設けたり、リモコンを用いて再生指示ができるようにしてもよい。

デジタルフォトフレーム３００は、例えばＳＤカード等のメモリカードのインターフェースを備えることができる。或いは、無線ＬＡＮ、ブルートゥースなどの無線通信のインターフェースや、ＵＳＢ等の有線の通信インターフェースを備えることができる。例えばユーザが、メモリカードにコンテンツ情報を保存して、デジタルフォトフレーム３００のメモリカードインターフェースに装着すると、デジタルフォトフレーム３００は、メモリカードに保存されたコンテンツ情報の自動再生（スライドショー等）を実行する。或いは、デジタルフォトフレーム３００は、無線通信や有線通信によりに外部からコンテンツ情報を受信すると、このコンテンツ情報の再生処理（自動再生処理）を実行する。例えば、ユーザが所持するデジタルカメラや携帯電話機などの携帯型電子機器がブルートゥース等の無線機能を有する場合には、この無線機能を利用して、携帯型電子機器からデジタルフォトフレーム３００にコンテンツ情報を転送する。すると、デジタルフォトフレーム３００は、転送されたコンテンツ情報の再生処理を実行する。

図２に本実施形態の画像表示システムの構成例を示す。この画像表示システムは、処理部３０２、記憶部３２０、通信部３３８、表示部３４０、センサ３５０、操作部３６０を含む。なおこれらの一部の構成要素（例えば通信部、操作部、センサ）を省略したり、他の構成要素（例えばスピーカ）を追加するなどの種々の変形実施が可能である。

処理部３０２は、各種の制御処理や演算処理を行う。例えば記憶部３２０や表示部３４０などの上述の各部の制御を行ったり全体的な制御を行う。この処理部３０２の機能は、各種プロセッサ（ＣＰＵ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、当該処理部３０２に接続された情報記憶媒体３３０に記憶されたプログラムなどにより実現できる。

記憶部３２０は、処理部３０２、通信部３３８などのワーク領域となるものであり、その機能はＲＡＭなどのメモリやＨＤＤ（ハードディスクドライブ）などにより実現できる。この記憶部３２０は、画像や音などのコンテンツ情報を記憶するコンテンツ情報記憶部３２２、取得された音情報を記憶する音情報記憶部３２３、取得された検知情報を記憶する検知情報記憶部３２４、登録キーワードを記憶する登録キーワード記憶部３２５、特定されたユーザ状態を記憶するユーザ状態記憶部３２６、ユーザの登録情報や感性モデル情報等のユーザ情報を記憶するユーザ情報記憶部３２７、タグのヒストグラム情報を記憶するヒストグラム情報記憶部３２８、ユーザに提示する質問情報を記憶する質問情報記憶部３２９（質問データベース、タグ辞書データベース）を含む。

情報記憶媒体３３０（コンピュータにより読み取り可能な媒体）は、プログラムやデータなどを格納するものであり、その機能は、メモリカードや光ディスクなどにより実現できる。処理部３０２は、情報記憶媒体３３０に格納されるプログラム（データ）に基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体３３０には、本実施形態の各部としてコンピュータ（操作部、処理部、記憶部、出力部を備える装置）を機能させるためのプログラム（各部の処理をコンピュータに実行させるためのプログラム）が記憶される。

通信部３３８（通信インターフェース）は、無線や有線の通信などにより外部デバイス（例えばサーバ、携帯型電子機器）との間で情報のやり取りを行うものであり、その機能は、通信用ＡＳＩＣ又は通信用プロセッサなどのハードウェアや、通信用ファームウェアにより実現できる。

表示部３４０は、コンテンツ情報である画像を表示するためのものであり、例えば液晶ディスプレイや、有機ＥＬなどの発光素子を用いたディスプレイや、電気泳動型ディスプレイなどにより実現できる。なお表示部３４０をタッチパネルディスプレイ（タッチスクリーン）により構成してもよい。

センサ３５０（音センサ、ユーザ検知センサ等）は、検知結果に基づいて検知情報を出力するデバイスである。センサ３５０としては、例えば音センサを用いることができる。音センサは音を電気信号等に変換するセンサであり、音の物理量である音圧を測定するマイクロフォンなどである。マイクロフォンとしては、ムービング・コイル型やリボン型のダイナミックマイクロフォンや、音声信号の振動による静電容量の変化を検知するコンデンサ型のマイクロフォンや、圧電効果を利用する圧電型のマイクロフォンや、カーボン型のマイクロフォンなどを用いることができる。

またセンサ３５０としてはユーザ検知センサを用いることができる。ユーザ検知センサとしては、焦電センサなどの人感センサや、ＣＣＤ、ＣＭＯＳセンサなどの撮像センサや、超音波センサなどの距離センサや、ユーザの動作状態（手や体の動き）を検知するモーションセンサなどを用いることができる。

焦電センサは、人等が発生する赤外線を受光し、赤外線を熱に変換し、その熱を素子の焦電効果で電荷に変えるセンサである。この焦電センサを用いることで、検知範囲（検知エリア）にユーザ（人）が存在するか否かや、検知範囲に存在するユーザの動きや、検知範囲内に存在するユーザの人数などを検知できる。撮像センサ（イメージセンサ）は、１次元又は２次元の光学情報を、時系列の電気信号に変換する光センサである。この撮像センサを用いることで、検知範囲にユーザが存在するか否かや、検知範囲に存在するユーザの動きや、検知範囲内に存在するユーザの人数などを検知できる。また撮像センサを用いた顔画像認識により、ユーザの人物認証を実現できる。また撮像センサを用いた顔検出により、ユーザと表示部３４０との距離や表示部３４０に対するユーザの視線の角度などの位置関係を検出できる。或いは、ユーザの視野範囲内に表示部３４０が入っている状態か否かや、ユーザが表示部３４０を注視している状態か否かなどのユーザの視認状態を検出できる。或いはユーザが接近中なのか否かなども検出できる。

なおセンサ３５０は、センサデバイス自体であってもよいし、センサデバイスの他に制御部や通信部等を含むセンサ機器であってもよい。また検知情報は、センサから直接得られる１次情報であってもよいし、１次情報を加工処理（情報処理）することで得られる２次情報であってもよい。

またセンサ３５０は、画像表示システムに直接に取り付けてもよいし、ホームセンサなどをセンサ３５０として利用してもよい。センサ３５０を取り付ける場合には、図１（Ａ）に示すように、センサ３５０を例えば枠部分に取り付けることができる。或いは有線のケーブル等を用いてセンサ３５０を接続する形態にしてもよい。

操作部３６０は、ユーザが各種情報を入力するためのものであり、例えば操作ボタンやリモコン装置などにより実現できる。ユーザは、この操作部３６０を用いて、ユーザ登録を行ったり、自身が所望する再生コンテンツ（お気に入り画像）の登録などを行うことができる。例えばユーザは、操作部３６０を用いて、ユーザ登録情報を入力することができる。なお表示部３４０がタッチパネルディスプレイにより構成される場合には、表示部３４０が操作部３６０の機能を兼ねることになる。

処理部３０２は、音情報取得部３０３、検知情報取得部３０４、音声認識部３０５、タグ登録部３０６、ユーザ状態判断部３０７、登録処理部３１１、ユーザ認識部３１２、ヒストグラム作成部３１３、類似度評価部３１４、タグ管理部３１５、質問提示部３１６、コンテンツ選択部３１７、表示制御部３１８を含む。なお、これらの一部の構成要素（例えば検知情報取得部、ユーザ状態判断部、登録処理部、ユーザ認識部、ヒストグラム作成部、類似度評価部、タグ管理部、質問提示部、コンテンツ選択部等）を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。

音情報取得部３０３は、センサ３５０の１つである音センサにより検知された音情報を取得する処理を行う。例えば音センサにより音声や音楽等の音（周囲音）が検知されて、検知結果である音情報が出力されると、音情報取得部３０３は、その音情報を取り込む。そして取り込まれた音情報は記憶部３２０の音情報記憶部３２３に記憶される。同様に、検知情報取得部３０４は、センサ３５０の１つであるユーザ検知センサによりユーザ状態等が検知されて、検知結果である検知情報（撮像情報等）が出力されると、その検知情報を取り込む。そして、取り込まれた検知情報は検知情報記憶部３２４に記憶される。

なおセンサ３５０として、ホームセンサ等の外部のセンサを用いる場合には、通信部３３８が音情報や検知情報を受信し、音情報取得部３０３、検知情報取得部３０４は、受信した音情報や検知情報を取得することになる。

音声認識部３０５は、音センサにより取得された音情報に基づいて、ユーザの発話（会話）の音声認識処理を行う。そして音声認識処理によりユーザの発話キーワード（単語）を抽出する。或いはユーザの発話音声からユーザの話者認識を行ったり、ユーザの感情状態を認識するようにしてもよい。また音声認識部３０５はユーザの発話検知を行ってもよい。例えば人間の音声に特有の周波数成分や振幅（パワー）を有する音を抽出して、ユーザの発話を雑音から区別して検知する。具体的には一定の振幅レベル以上の音に対して特定周波数帯域を通過させるフィルタ処理等を行ってユーザの発話を検知する。

ここで音声認識は、人間（出演者、ユーザ）の話す音声言語をコンピュータにより解析し、テキストデータとして抽出する処理である。音声認識は、音響分析、認識デコーダ、音響モデル、辞書、言語モデルにより実現される。音響分析では、人間の音声をフーリエ解析等の信号処理により特徴量情報に変換する。認識デコーダでは、特徴量情報に基づいてテキストデータを出力する。具体的には音響情報と言語情報を総合的に判断して音声をテキストデータに変換する。この認識デコーダでの判断処理は、隠れマルコフモデルや動的時間伸縮法などの統計的手法により実現される。辞書は、認識対象の単語（ワード）をデータ化したものであり、音素列と単語を関連づけるものである。言語モデルは、辞書の単語についての確率をデータ化したものである。具体的には各単語の出現確率や接続確率をデータ化する。このような音響分析、認識デコーダ、音響モデル、辞書、言語モデルを用いた音声認識により、音センサにより取得された音情報からユーザの発話キーワードを適正に抽出できるようになる。

タグ登録部３０６は、コンテンツのタグキーワードの登録処理（付与処理）を行う。例えばユーザの発話から抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行う。具体的には、発話キーワード自体や発話キーワードにより得られたキーワードを、コンテンツのタグキーワードとして、例えばコンテンツ情報記憶部３２２のコンテンツ情報に関連づけて登録する。

ユーザ状態判断部３０７は、検知情報取得部３０４により取得された検知情報に基づいてユーザ状態を判断する。例えば、取得された検知情報に基づいて、表示部３４０に対するユーザの視認状態や、ユーザ（人物）と表示部３４０との位置関係等を判断する。或いはユーザの人数を検出する。そして、ユーザの視認状態や位置関係や人数を表すユーザ状態の情報は、ユーザ状態記憶部３２６に記憶される。

ここで視認状態は、ユーザの視野範囲の状態や注視状態などであり、具体的には、ユーザの視野範囲（ビューボリューム）に表示部３４０が入っているか否かや、ユーザが表示部３４０を注視しているか否かなどである。このユーザの視認状態は視認状態判断部３０８が判断する。例えばユーザの視認状態として、ユーザが表示部３４０を注視している状態か否かを判断する。

また位置関係は、ユーザと表示部３４０との距離や、表示部３４０に対するユーザの視線方向などであり、ユーザと表示部３４０との位置関係は、位置関係判断部３０９が判断する。例えば、ユーザと表示部３４０との位置関係として、ユーザと表示部３４０との間の距離（距離情報、距離パラメータ）を判断する。

なおセンサ３５０として、ユーザを撮像する撮像センサが設けられたとする。この場合には、ユーザ状態判断部３０７（位置関係判断部）は、撮像センサからの撮像情報に基づいて、ユーザの顔領域（矩形の枠領域）を検出する。そして検出された顔領域のサイズに基づいて、ユーザと表示部３４０との間の距離を判断（推定）する。またユーザ状態判断部３０７は、検出された顔領域を内包し顔領域よりもサイズが大きな計測領域を設定する。即ち顔領域にオーバーラップする計測領域を設定する。そして計測領域内に顔領域が存在する時間を計測し、計測された時間に基づいて、ユーザが表示部３４０を注視しているか否かを判断する。例えば計測領域内への存在時間が所定時間以上であった場合に、ユーザが注視していたと判断する。

或いは、ユーザ状態判断部３０７は、ユーザに対する自動焦点合わせ処理（オートフォーカス機能）により、ユーザと表示部３４０との間の距離を判断してもよい。例えばアクティブ方式を採用した場合には、画像表示システムに赤外線や超音波を射出するデバイスを設けると共に、センサ３５０として赤外線や超音波の受光センサを設ける。そしてユーザからの反射光を受光センサにより検知することで、ユーザとの距離等を検出すればよい。またパッシブ方式を採用した場合には、センサ３５０として撮像センサを設け、撮像画像に対して、位相差検出方式やコントラスト検出方式による画像処理を行うことで、ユーザとの距離等を検出すればよい。

また、ユーザの人数は、例えばセンサ３５０の１つである焦電センサ（人感センサ）を用いて認識（特定）したり、撮像センサを用いて認識できる。例えば撮像センサからの画像により、複数のユーザの顔領域が検出された場合には、検出された顔領域の個数に基づいてユーザの人数を検出できる。このユーザの人数の認識は人数検出部３１０により行われる。

登録処理部３１１はユーザの登録処理を行う。例えばユーザ登録情報の設定処理を行う。具体的には、ユーザ登録画面等においてユーザが、操作部３６０等を用いてユーザ登録情報を入力した場合に、入力されたユーザ登録情報をユーザに関連づけてユーザ情報記憶部３２７に記憶する。ここでユーザ登録情報は、例えばユーザのＩＤ、パスワードや、表示部３４０に表示される画像のカスタマイズ情報などを含むことができる。そして表示部３４０にはユーザ登録情報を反映させた画像が表示されることになる。

なお、ユーザの登録処理の際に、ユーザの音声をユーザ登録情報として登録してもよい。例えばユーザの音声の特徴量情報をユーザ登録情報としてユーザ情報記憶部３２７に記憶して登録する。そして音声認識部３０５により話者認識を行う場合には、音センサにより取得された音情報と登録されたユーザの音声の特徴量情報とを比較して、発話しているユーザが登録ユーザであるか否かを判断する。また、センサ３５０として撮像センサを設け、この撮像センサによってユーザを撮像し、ユーザの顔画像の特徴量情報をユーザ登録情報として登録してもよい。この場合には、撮像センサにより取得された画像情報とユーザの顔画像の特徴量情報を比較して、撮像されたユーザが登録ユーザであるか否かを判断する人物認証を行う。

ユーザ認識部３１２はユーザの認識処理を行う。例えば、撮像センサを用いた顔認識処理によりユーザの人物認証を行う。なお、目の網膜にある毛細血管の模様である網膜を用いたり、黒目の中の放射状の紋様である虹彩を用いて人物認証を行ってもよい。

ヒストグラム作成部３１３は、タグのヒストグラムの作成処理（更新処理）を行う。例えば、コンテンツの登録タグキーワードと、登録タグキーワードの登録回数情報とが関連づけられたヒストグラム情報を作成する。ここで登録回数情報は、登録回数自体であってもよいし、登録回数と同等な情報（例えば登録頻度）であってもよい。そしてコンテンツ選択部３１７は、作成されたヒストグラム情報に基づいて、ユーザに提示するコンテンツの選択処理を行う。

類似度評価部３１４は、ヒストグラム情報の類似度を評価する処理を行う。例えば複数のコンテンツ間のヒストグラム情報の類似度を評価する。類似度の評価処理としては、例えば後述するようなユークリッド距離、相関係数、Tanimoto係数を利用した評価処理がある。そしてコンテンツ選択部３１７は、第１のコンテンツの次にユーザに提示する第２のコンテンツとして、第１のコンテンツに対するヒストグラム情報の類似度が高いと評価されたコンテンツ（所定しきい値よりも高いと評価されたコンテンツ）を選択する。

タグ管理部３１５はコンテンツの登録タグキーワードの整理処理（削除処理、更新処理）を行う。例えばヒストグラム作成部３１３により作成されたヒストグラム情報に基づいて、コンテンツに対して登録された登録タグキーワードの整理処理を行う。具体的には、コンテンツの登録タグキーワードの中から、ヒストグラム情報における登録回数情報（登録回数、登録頻度）が少ない登録タグキーワードを優先して削除する処理を行う。或いは、コンテンツの登録タグキーワードの中から、登録が古い登録タグキーワード（登録・更新・年月日・時間が古い登録タグキーワード）を優先して削除する処理を行う。

質問提示部３１６は、ユーザへの質問の提示処理（質問画像や質問音声の出力処理）を行う。例えばタグキーワードを取得するための質問の提示処理を行う。具体的には質問提示部３１６は、コンテンツに関連づけられたタグキーワードに対応する質問を提示する処理を行う。またコンテンツに関連づけられたタグキーワードの数が所定数以下である場合に、質問を提示する処理を行う。そしてタグ登録部３０６は、質問提示部３１６により提示された質問に対するユーザの反応（例えば発話キーワード、肯定・否定のキーワード、ユーザの動作等）に基づいて、コンテンツのタグキーワードの登録処理を行う。例えば質問に対してユーザが発話した場合に、その発話キーワードをタグキーワードとして登録する。

また、例えばタグキーワードが階層構造を有しており、ユーザの発話から抽出された発話キーワードが、第１〜第Ｎ（Ｎは２以上の整数）の階層のタグキーワードのうちの第Ｋ（１≦Ｋ＜Ｎ）の階層のタグキーワードであったとする。この場合には、質問提示部３１６は、第Ｋの階層のタグキーワード又は第Ｋの階層のタグキーワードよりも下位の第Ｋ＋１の階層のタグキーワード（階層構造において下位のタグキーワード）を用いて質問を作成して提示してもよい。

コンテンツ選択部３１７は、ユーザに提示するコンテンツの選択処理を行う。例えば、音声認識結果やヒストグラム情報の類似度の評価結果に基づいて、コンテンツ情報記憶部３２２から対応するコンテンツの情報を読み出して、ユーザに提示するコンテンツを選択する。或いは、通信部３３８を介して、ホームサーバ等の外部サーバからコンテンツの情報を受信することで、コンテンツを選択する。

表示制御部３１８は、表示部３４０の表示制御を行う。例えば、コンテンツ選択部３１７が、コンテンツ情報記憶部３２２からコンテンツ情報を読み出したり、通信部３３８によりコンテンツ情報を受信することで、コンテンツを選択すると、表示制御部３１８は、選択されたコンテンツの画像を表示部３４０に表示するための制御を行う。

そして本実施形態では音声認識部３０５は、例えばコンテンツ（コンテンツ画像）の表示中におけるユーザの発話の音声認識を行い、ユーザの発話キーワードを抽出する。即ち音声認識によりユーザの会話中から抽出可能なキーワードである発話キーワードを抽出する。そしてタグ登録部３０６は、抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行う。例えば抽出された発話キーワード自体を、コンテンツのタグキーワードとしてコンテンツに関連づけて登録する。或いは、抽出された発話キーワードの中から、コンテンツのタグキーワードに一致する一致発話キーワードを検出する。そして、検出された一致発話キーワード以外の発話キーワードを、コンテンツのタグキーワードとして登録する。或いは、抽出された発話キーワードの中から、コンテンツのタグキーワードに関連する関連発話キーワードを検出する。そして検出された関連発話キーワードを、コンテンツのタグキーワードとして登録する。

また、視認状態判断部３０８は、ユーザが表示部３４０を注視している状態か否かを判断し、タグ登録部３０６は、ユーザが注視状態であるときに抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行う。例えばユーザがコンテンツ（表示部）を注視していないときの発話キーワードについては、コンテンツのタグキーワードとして登録せずに、ユーザがコンテンツを注視しているときに抽出された発話キーワードを、コンテンツのタグキーワードとして登録する。

また位置関係判断部３０９は、ユーザと表示部３４０との位置関係を判断し、タグ登録部３０６は、ユーザと表示部３４０との距離が所定距離以内であるときに抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行う。例えばユーザとの距離が所定距離よりも遠い場合の発話キーワードについては、コンテンツのタグキーワードとして登録せずに、ユーザとの距離が所定距離よりも近い場合に抽出された発話キーワードを、コンテンツのタグキーワードとして登録する。なお、ユーザと表示部３４０との距離は、距離そのもののみならず、距離と等価なパラメータであってもよい。

また人数検出部３１０は、ユーザの人数の検出処理を行い、タグ登録部３０６は、ユーザの人数の検出結果に基づいて、コンテンツのタグキーワードの登録処理を行う。例えば音声認識部３０５は、ユーザが一人であると検出された場合に、その一人のユーザの発話キーワードを抽出する。そしてタグ登録部３０６は、抽出された一人のユーザの発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行う。例えばその発話キーワード自体や、発話中におけるその発話キーワード以外の発話キーワードや、関連発話キーワードを、コンテンツのタグキーワードとして登録する。

一方、ユーザが複数人であると検出され、複数人のユーザが同一の発話キーワードを発話したことが検出されたとする。この場合にはタグ登録部３０６は、検出された同一発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行う。例えば第１のユーザの発話から第１の発話キーワードが抽出され、第２のユーザの発話からも第１の発話キーワードが抽出されたとする。この場合には、例えばその第１の発話キーワード自体や、発話中における第１の発話キーワード以外の発話キーワードや、関連発話キーワードを、コンテンツのタグキーワードとして登録する。

またユーザ認識部３１２がユーザを認識（人物認証）したとする。そして、認識されたユーザの発話キーワードに基づいて、コンテンツのタグキーワードが取得された場合には、タグ登録部３０６は、取得されたタグキーワードを、認識されたユーザ及びコンテンツに関連づけて登録する。即ち、そのタグキーワードを、そのユーザ用のコンテンツのタグキーワードとして登録する。

またタグ登録部３０６は、ユーザの発話キーワードの出現回数情報の集計処理を行う。そして抽出された発話キーワードのうち出現回数情報が所定しきい値を超えた発話キーワードを、コンテンツのタグキーワードとして登録する。ここで出現回数情報は、出現回数自体であってもよいし、出現回数と等価な情報（例えば出現頻度）であってもよい。

また音声認識部３０５は、ユーザの無発話状態を検知する。例えば、取得された音情報の中に、人間の音声に特有の周波数成分や振幅を有する音情報が抽出されなかった場合に、無発話状態であると判断する。そして表示制御部３１８は、ユーザの無発話状態が検知された場合に、表示されるコンテンツの切り替え処理を行う。例えば無発話状態が検知されると、コンテンツのスライド表示において次のコンテンツ（スライド）への切り替え処理を行う。具体的には、ユーザが発話をしていると判断される場合には、現在のコンテンツ（現在のスライド）の表示を続け、無発話期間が所定時間を超えると、次のコンテンツ（次のスライド）に切り替える。

以下、本実施形態の種々の手法について説明する。なお、以下では画像表示システムがデジタルフォトフレームである場合を主に例に取り説明するが、本実施形態の手法はデジタルフォトフレーム以外の種々の画像表示システムに適用できる。

２．発話に基づく自動タグ付け
本実施形態ではコンテンツが表示されているときの人の状況をセンシングしてコンテンツにタグ（タグキーワード）を付与する。具体的にはユーザの発話内容から自動的にタグを付与する。例えば発話（会話）のキーワード自体を、コンテンツ（表示画像、写真）のタグとして登録（付与）したり、その発話キーワードにより取得されるキーワード（単語）をタグとして登録する。

なおコンテンツのタグとしては、コンテンツのジャンルに関するタグ（天気、スポーツ、グルメ、旅行、文化、経済、政治、健康、自然、動物）、コンテンツの内容に関するタグ（猫、りんご）、ユーザが付加したタグ（白い、かわいい）などを想定できる。また個人モードでユーザが付加した個人タグ、共有モードで付加した共有タグ、他の多くのユーザが付加したソーシャルタグなどでもよい。また注視回数等から算出された注目度を表すタグ（何パーセント等）、お勧め対象を表すタグ（女性、男性、年齢、地域、職業）、お勧め環境を表すタグ（１人で、みんなで、遠くで、近くで）、感情タグ（喜怒哀楽）なども想定できる。

次に発話に基づくタグの付与処理の具体例について図３、図４を用いて説明する。図３では、現在表示されているコンテンツ（画像、写真）のタグキーワードと同じタグキーワードがユーザの発話から検出された場合に、その発話中の他のキーワードを新たなタグとして登録（付与）する。これにより、表示コンテンツを見ながら話しているユーザの発話のみからキーワードを抽出できるため、自動タグ付けの精度を向上できる。

例えば図３では、表示されているコンテンツに対して「猫」のタグキーワードが既に登録されている。またユーザの発話を音声認識することで、ユーザの発話キーワードとして「白い」、「猫」、「かわいい」という発話キーワードが抽出されている。この場合に図３では、抽出された「白い」、「猫」、「かわいい」の発話キーワードの中に、コンテンツのタグキーワードである「猫」に一致する発話キーワードが存在するか否かを検出する。そして「猫」の発話キーワードが検出されると、「猫」の発話キーワード以外の発話キーワードである「白い」、「かわいい」を、コンテンツのタグキーワードとして登録する。こうすることで、「猫」だけであったコンテンツのタグキーワードを、「猫」、「白い」、「かわいい」に増やすことが可能になる。

即ちユーザが発話した「猫」のキーワードは既にタグキーワードとして登録されているため、これを重複して登録することは無駄であるため省く。一方、「猫」のタグキーワードが付与されたコンテンツを見ることで、ユーザが「この白い猫、かわいいね〜」と発話した場合には、その発話内容のうちの「猫」以外の「白い」、「かわいい」のキーワードは、そのコンテンツのタグとして適切なものであると類推できる。そこで、既に登録されている「猫」に加えて、「白い」、「かわいい」についてもそのコンテンツのタグキーワードとして登録する。

図４では、現在表示されているコンテンツのタグキーワードに関連する発話キーワードがユーザの発話から検出された場合に、検出されたキーワードを新たなタグとして登録（付与）する。これにより、コンテンツを見たユーザの発話を利用して、関連するタグを新たに付与できるようになる。

例えば図４では、表示されているコンテンツに対して「果物」のタグキーワードが既に登録されている。またユーザの発話を音声認識することで、ユーザの発話キーワードとして「りんご」、「美味しそう」という発話キーワードが抽出されている。この場合に図４では、抽出された「りんご」、「美味しそう」の発話キーワードが、コンテンツのタグキーワードである「果物」に関連するキーワードであることが検出されている。例えば、各キーワードの関連キーワードが登録される関連キーワードデータベースを用意する。そして関連キーワードデータベースを参照して、「りんご」、「美味しそう」の発話キーワードが、「果物」の関連キーワードであるか否かを判断する。そして「りんご」、「美味しそう」が、［果物］の関連キーワードであると判断された場合には、既に登録されている「果物」に加えて、「りんご」、「美味しそう」をコンテンツのタグキーワードとして登録する。

即ち、「果物」のタグキーワードが付与されたコンテンツを見ることで、ユーザが「この”りんご”美味しそうだね〜」と発話した場合には、その発話内容を構成する「りんご」、「美味しそう」のキーワードは、そのコンテンツのタグとして適切で具体的なものであると類推できる。そこで、既に登録されている「果物」に加えて、「りんご」、「美味しそう」についてもそのコンテンツのタグキーワードとして登録する。このようにすれば、抽象的な「果物」というタグしか付与されていなかったコンテンツに対して、ユーザの発話を利用して、より具体的な「りんご」等のタグを付与できるようになる。

なお、ユーザの発話から発話キーワードを抽出する処理は例えば以下のようにして実現できる。即ち、まず音センサにより周囲音を検知して音情報を取得する。次に、取得された音情報を音声認識によりテキスト情報に変換し、得られたテキスト情報の中から単語を抽出する。そして、抽出された単語と、登録キーワード記憶部３２５（キーワードデータベース）に記憶された登録キーワードとの照合処理を行い、抽出された単語が登録キーワードであるか否かを判定する。そして抽出された単語が登録キーワードである場合には、その単語を発話キーワードであると判定する。これにより、意味のない情報や不快な情報がユーザに提示されてしまう事態を防止できる。

図５に、ユーザの発話キーワードからタグキーワードを登録する処理のフローチャートを示す。

まずコンテンツを表示する（ステップＳ１）。例えばランダムに又はユーザ情報に基づいてコンテンツを選択して、表示部３４０にコンテンツの画像を表示する。次に、ユーザの発話が検知されたか否かを判断し、検知された場合には、ユーザの発話の音声認識処理を実行する（ステップＳ２、Ｓ３）。そして、ユーザの発話から発話キーワードを抽出し、抽出された発話キーワードと、表示コンテンツのタグキーワードの照合処理を行う（ステップＳ４、Ｓ５）。図３を例に取れば「白い」、「猫」、「かわいい」の発話キーワードと、「猫」のタグキーワードの照合処理が行われる。図４を例に取れば「りんご」、「美味しそう」の発話キーワードと、「果物」のタグキーワードの照合処理が行われる。

次に、コンテンツのタグキーワードに一致する発話キーワードが検出されたか否かを判断する（ステップＳ６）。図３を例に取れば、「猫」が一致発話キーワードとして検出される。そして、一致発話キーワードが検出された場合には、検出された一致発話キーワード以外の発話キーワードを、表示コンテンツのタグキーワードとして登録する（ステップＳ７）。図３を例に取れば、「猫」以外の「白い」、「かわいい」がタグキーワードとして登録される。

一方、ステップＳ６で一致発話キーワードが検出されなかった場合には、コンテンツのタグキーワードに関連する発話キーワードが検出された否かを判断する（ステップＳ８）。図４を例に取れば、「りんご」、「美味しい」が「果物」の関連発話キーワードとして検出される。そして関連発話キーワードが検出された場合には、検出された関連発話キーワードを、表示コンテンツのタグキーワードとして登録する（ステップＳ９）。図４を例にとれば、「りんご」、「美味しい」がタグキーワードとして登録される。ステップＳ８でコンテンツのタグキーワードに関連する発話キーワードが検出されなかった場合は、新規なタグキーワードは登録されずに終了となる。

以上の本実施形態の手法によれば、ユーザの発話キーワードがコンテンツのタグキーワードとして自動的に登録されるため、ユーザの手間をかけずに効率的にコンテンツに対してタグを付与することが可能になる。即ち、ユーザがキーボード等の操作部を操作しなくても、表示コンテンツを見て発話するだけで、タグが自動的に付与されるため、ユーザの利便性を向上できる。また、表示コンテンツを見ているユーザの発話からタグを取得するようにすれば、表示コンテンツとは無関係な会話をしているユーザの発話からタグが取得されてしまう事態を防止できるため、自動タグ付けの精度を向上できる。

３．注視しているときの発話からの自動タグ付け
本実施形態では、例えばユーザがコンテンツを注視しているときの発話だけを用いて、音声認識を行い、その発話に含まれるキーワードをタグとしてコンテンツに付与して、自動タグ付けを行ってもよい。即ち、ユーザが表示コンテンツを注視して発話している場合には、その発話内容はコンテンツに関するものである可能性が高い。従って、ユーザの注視時の発話からキーワードを抽出すれば、表示コンテンツの発話のみを精度良く抽出することができ、自動タグ付けの精度を向上できる。

例えば図６（Ａ）では、ユーザは、カニ等の北海道の旬の食材が表示されているコンテンツを注視しており、このユーザの注視状態がデジタルフォトフレーム３００（視認状態判断部）により検出される。そして、ユーザが表示コンテンツを見て、「この”カニ”美味しそうだな」と発話すると、この発話がセンサ３５０により検出されて、音声認識が行われ、「カニ」という発話キーワードが抽出される。そして、この「カニ」の発話キーワードや、「カニ」の発話キーワードから図３、図４等の手法により取得されたキーワードが、表示コンテンツのタグキーワードとして登録される。このようにすることで、注視時の発話のみからキーワードを抽出して、タグキーワードを登録できる。

ここで、ユーザの注視状態の検知は、センサ３５０である撮像センサを用いて実現できる。即ち図６（Ｂ）に示すように、撮像センサからの撮像情報に基づいて、ユーザの顔領域ＦＡＲを検出する。次に検出された矩形の顔領域ＦＡＲに対応する計測領域ＳＡＲを設定する。この計測領域ＳＡＲは、顔領域ＦＡＲを内包し、顔領域ＦＡＲよりもサイズが大きな領域である。この計測領域ＳＡＲは、例えば顔領域ＦＡＲをオーバーサイジングすることで設定できる。そして、この計測領域ＳＡＲ内に顔領域ＦＡＲが存在する時間を計測し、計測された時間に基づいて、ユーザが表示部３４０を注視しているか否かを判断する。例えば顔領域ＦＡＲが計測領域ＳＡＲ内に一定時間以上位置していた場合には、ユーザが表示部３４０を注視していると判断する。

図７に、ユーザの注視を条件に発話キーワードからタグキーワードを登録する処理のフローチャートを示す。

まず、コンテンツを表示し、ユーザがコンテンツ（表示部）を注視しているか否かを判断する（ステップＳ１１、Ｓ１２）。そしてユーザが注視していると判断された場合には、ユーザの発話が検知されたか否かを判断する（ステップＳ１３）。そして発話が検知された場合には、ユーザの発話の音声認識処理を行って、発話キーワードを抽出し、抽出された発話キーワードに基づき、表示コンテンツのタグキーワードの登録処理を行う（ステップＳ１４、Ｓ１５、Ｓ１６）。例えば発話キーワード自体や発話キーワードに基づき取得されるキーワード（図３、図４参照）をタグキーワードとして登録する。なおステップＳ１２においてユーザの注視状態を判断するか否かについては、後述するユーザの登録情報において、注視モードのオン・オフをユーザが入力することで設定できる。

図８は、ユーザの注視を条件に発話キーワードからタグキーワードを登録する他の処理例のフローチャートである。

図８のステップＳ２１〜Ｓ２５は図７のステップＳ１１〜Ｓ１５と同様である。そしてステップＳ２５でユーザの発話キーワードが抽出されると、抽出された発話キーワードの中に指示代名詞が検出されたか否かを判断する（ステップＳ２６）。そして、指示代名詞が検出された場合には、検出された指示代名詞以外の発話キーワードを、表示コンテンツのタグキーワードとして登録する（ステップＳ２７）。

即ち図８では、ユーザが表示コンテンツを注視しているときに使用される指示代名詞（こそあど言葉）を、ユーザの発話から検出する。そしてユーザの発話から指示代名詞が検出された場合には、その発話中の他のキーワードを、新たなタグキーワードとして登録する。

例えば表示コンテンツとしてラーメンの写真が表示されているときに、ユーザが「これ、美味しそう」と発話したとする。この場合には「これ」という指示代名詞が検出されたため、他のキーワードである「美味しそう」というキーワードを、ラーメンの写真のタグキーワードとして登録する。

また表示コンテンツとして寺の写真が表示されているときに、ユーザが「ここ、京都の寺だよね」と発話したとする。この場合には「ここ」という指示代名詞が検出されたため、他のキーワードである「京都の寺」というキーワードを、寺の写真のタグキーワードとして登録する。このようにすれば、ユーザが発話した指示代名詞を手がかりとして、そのコンテンツに適切なタグを付与できるようになる。

次に、注視状態の検出処理について図９のフローチャートを用いて説明する。まず、撮像センサ（カメラ）を用いた顔検出により、顔領域（枠領域）を検出する（ステップＳ３１）。次に、検出された顔領域を内包し、顔領域よりもサイズが大きな計測領域を設定する（ステップＳ３２）。即ち図６（Ｂ）に示すように、顔領域をオーバーサイジングした計測領域を設定する。そして計測領域内に顔領域が存在する時間をタイマを用いて計測する（ステップＳ３３）。即ち計測領域の設定後、タイマの計測を開始し、顔領域が計測領域内に位置する時間を計測する。そして所定時間以上、経過したか否かを判断し、経過した場合には注視状態であると判断する（ステップＳ３４、Ｓ３５）。

なお注視状態の検出手法は図９の手法に限定されない。例えばユーザの赤目を検出することで注視状態を検出してもよい。或いは、２台のカメラ（ステレオカメラ）で撮影されたユーザの顔画像の目周辺の画像領域の明暗から、瞳孔の位置を検出し、検出された瞳孔の中心位置と眼球の中心位置から、ユーザの視線方向を検出し、ユーザが注視状態か否かを判断してもよい。

４．表示部からの距離が近いときの発話からの自動タグ付け
本実施形態では、表示部３４０（表示画面）とユーザとの距離が近いときの発話だけを用いて、音声認識を行い、その発話に含まれるキーワードをタグとしてコンテンツに付与して、自動タグ付けを行ってもよい。即ち、ユーザが表示部３４０に接近して発話している場合には、その発話内容はコンテンツに関するものである可能性が高い。従って、ユーザの接近時の発話からキーワードを抽出すれば、通常時の発話と、表示コンテンツに関する発話とを精度良く切り分けることができ、より効果的で精度の高い自動タグ付けを実現できる。

図１０に、ユーザの接近を条件に発話キーワードからタグキーワードを登録する処理のフローチャートを示す。

まずコンテンツを表示し、コンテンツ表示中におけるユーザと表示部３４０との距離を検出する（ステップＳ４１、Ｓ４２）。そしてユーザとの距離が所定距離以内か否かを判断する（ステップＳ４３）。そして所定距離以内である場合には、ユーザの発話の音声認識処理を行い、ユーザの発話から発話キーワードを抽出する（ステップＳ４４、Ｓ４５）。そして抽出された発話キーワードに基づき、表示コンテンツのタグキーワードの登録処理を行う（ステップＳ４６）。例えば発話キーワード自体や発話キーワードに基づき取得されるキーワードをタグキーワードとして登録する。

ここでユーザとの位置関係の検出手法としては種々の手法が考えられる。例えば図１１（Ａ）では、センサ３５０として、ＣＣＤ、ＣＭＯＳセンサなどの撮像センサ（カメラ）を用いる。そして撮像センサからの撮像情報に基づいて、矩形の枠領域であるユーザの顔領域ＦＡＲを検出する。また顔領域ＦＡＲに映ったユーザの画像に対する画像認識処理を行い、ユーザの顔画像の特徴点データを抽出する。この特徴点データは、例えば顔画像の認識結果として、ユーザ登録情報と関連づけて登録される。

ユーザと表示部３４０との間の位置関係を検出する場合には、撮像センサからの撮像情報に基づいて、顔領域ＦＡＲのサイズを求める。そして求められたサイズに基づいて、ユーザと表示部３４０との間の距離を判断する。

例えば図１１（Ｂ）では、顔領域ＦＡＲのサイズが小さいため（所定サイズ以下であるため）、ユーザとの距離は遠いと判断される。この場合には、ユーザの発話キーワードの抽出処理は行わないようにする。

一方、図１１（Ｃ）では、顔領域ＦＡＲのサイズが大きいため（所定サイズよりも大きいため）、ユーザとの距離は近いと判断される。そして、このようにユーザとの距離が近くなって、ユーザがデジタルフォトフレーム３００に近づいたと判断された場合には、ユーザの発話キーワードの抽出処理を行い、抽出された発話キーワードに基づいてタグキーワードの登録処理を行う。

ここで顔領域の検出手法としては種々の手法が考えられる。例えば、顔検出を行うためには、撮像センサで撮影された撮像画像において、顔がある場所と他の物体とを区別して、顔領域を切り出す必要がある。顔は、目、鼻、口等から構成され、これらの形状・位置関係は個人差はあるものの、ほぼ共通した特徴を有する。そこで、この共通な特徴を用いて、顔を他の物体から識別して画面の中から切り出す。このための手がかりとしては、肌の色、顔の動き、形、大きさ等がある。肌の色を用いる場合には、ＲＧＢデータを色相・輝度・彩度からなるＨＳＶデータに変換し、人の肌の色相を抽出する手法を採用する。

或いは、多数の人の顔パターンから生成した平均顔パターンを顔テンプレートとして作成してもよい。そして、この顔テンプレートを撮像画像の画面上で走査して、撮像画像との相関を求め、最も相関値が高い領域を顔領域として検出する。

なお検出精度を高めるため、複数の顔テンプレートを辞書データとして用意し、これらの複数の顔テンプレートを用いて顔領域を検出してもよい。或いは目、鼻、口の特徴や、これらの位置関係や、顔の中のコントラストなどの情報も考慮して、顔領域を検出してもよい。或いは、ニューラルネットワークモデルを用いた統計的なパターン認識により顔領域を検出することも可能である。

図１１（Ａ）〜図１１（Ｃ）の検出手法によれば、顔領域ＦＡＲのサイズによりユーザと表示部３４０の距離を検出できるのみならず、ユーザが表示部３４０を見ているか否かも同時に検出できるという利点がある。即ち、ユーザの視線が表示部３４０の方に向いていなかった場合には、顔テンプレートとの相関値が低くなるため、顔領域ＦＡＲは非検出になる。従って、顔領域ＦＡＲが検出されたということは、ユーザの視線が表示部３４０の方に向いており、ユーザの視野範囲内に表示部３４０が入っていることと等価になる。そして、この状態で、顔領域ＦＡＲのサイズを検出し、ユーザの発話キーワードを抽出して、コンテンツのタグとして付与すれば、表示部３４０を見ているユーザの発話内容に応じたタグを、コンテンツに付与できるようになる。

５．ユーザの人数の検出結果に応じた自動タグ付け
本実施形態では、ユーザの人数を検出し、検出結果に応じた自動タグ付けを行ってもよい。例えば検出されたユーザの人数が１人である場合に、個人モードに設定し、そのユーザの発話から自動タグ付けを行う。即ち、ユーザが１人でコンテンツを見ている時にだけ、発話からタグを抽出して、コンテンツのタグとして付与する。これにより、複数人による通常の会話と、１人のユーザによる表示コンテンツに関する発話（コメント）とを精度良く切り分けることが可能になり、より効果的で精度の高い自動タグ付けを実現できる。或いは、複数人のユーザが検出された場合には、複数人のユーザが同じキーワード（単語）を発話した場合に、そのキーワードをコンテンツのタグとして登録したり、登録処理におけるそのキーワードの重み付けを高くするようにしてもよい。

図１２に、ユーザの人数を検出して発話キーワードからタグキーワードを登録する処理のフローチャートを示す。

まず、コンテンツを表示し、ユーザの人数を検出し、検出されたユーザの人数が１人であるか否かを判断する（ステップＳ５１、Ｓ５２、Ｓ５３）。そして、ユーザの人数が１人である場合には、デジタルフォトフレーム３００の動作モードを個人モードに設定する（ステップＳ５４）。次に、ユーザが発話しているか否かを検知し、ユーザの発話が検知された場合には、ユーザの発話の音声認識処理を行って、発話キーワードを抽出する（ステップＳ５５、Ｓ５６、Ｓ５７）。そして抽出された発話キーワードに基づき、表示コンテンツのタグキーワードの登録処理を行う（ステップＳ５８）。

このようにすれば、ユーザが１人でデジタルフォトフレーム３００を見ているときにだけ、そのユーザの発話キーワードを検出して、表示コンテンツのタグキーワードとして付与できる。

図１３に、ユーザの人数を検出して発話キーワードからタグキーワードを登録する他の処理例のフローチャートを示す。

まず、コンテンツを表示し、ユーザの人数を検出し、検出されたユーザの人数が１人であるか否かを判断する（ステップＳ６１、Ｓ６２、Ｓ６３）。そして、ユーザの人数が１人である場合には、個人モードに設定して音声認識を行い、音声認識により得られた発話キーワードを表示コンテンツのタグキーワードとして登録する（ステップＳ６４、Ｓ６５、Ｓ６６）。一方、ユーザの人数が複数人である場合には、グループモード（複数人モード）に設定する（ステップＳ６７）。そして、複数人のユーザの発話の音声認識処理を行い、複数人のユーザが同一の発話キーワードを発話したか否かを判断する（ステップＳ６８、Ｓ６９）。例えば第１のユーザが発話した１又は複数のキーワードと、第２のユーザが発話した１又は複数のキーワードの中に同一（共通）のキーワードがあるか否かを検出する。そして、検出された同一の発話キーワードを、表示コンテンツのタグキーワードとして登録する（ステップＳ７０）。この場合に、例えば、検出された同一の発話キーワードについては、タグ登録の際の重み付け（例えば出現回数や登録回数に乗算する重み付け係数）を高くするようにしてもよい。

例えば複数人のユーザがグループでコンテンツを鑑賞している場合には、それらのユーザが共通に発したキーワードは、そのコンテンツに関連するキーワードである可能性が高い。従って、このキーワードを、そのコンテンツのタグキーワードとして登録することで、自動タグ付けの精度を向上できる。

なお図１２、図１３において、図７、図８、図１０に示すような注視検出や距離検出を行ってもよい。また図１２のステップＳ５４や図１３のステップＳ６４のように個人モードに設定された場合に、後述するユーザ登録情報にしたがった個人設定でコンテンツを表示するようにしてもよい。また図１３のステップＳ６７でグループモードに設定された場合に、グループ（例えば家族・友人グループ）についての登録情報にしたがったグループ設定でコンテンツを表示するようにしてもよい。またグループモードの場合には、各ユーザの音声情報（特徴量情報）をユーザ登録情報として予め登録しておき、この登録音声情報に基づいて、どのユーザが発話しているのかを判別してもよい。

またユーザの人数の検出は例えば以下のような手法により実現できる。例えば焦電センサ等のユーザ検知センサで、デジタルフォトフレーム３００の周囲にユーザが存在するか否かを検出する。そしてユーザの存在が検出された場合には、図１１（Ａ）〜図１１（Ｃ）で説明したように撮像センサを用いてユーザの顔領域を検出する。そして検出された顔領域の個数等に基づいてユーザの人数を検出する。この際に、ユーザの顔画像（特徴量情報）がユーザ登録情報として予め登録されている場合には、この登録された顔画像に基づいて、各ユーザの人物認証を行い、個人モードやグループモードでのコンテンツの表示制御を行ってもよい。

図１４（Ａ）にユーザ登録情報の入力画面の一例を示す。ユーザは、図１４（Ａ）のようにデジタルフォトフレーム３００の表示部３４０に表示されたユーザ登録画面を見ながら、操作部等を用いてユーザ登録情報を入力する。これによりユーザ登録処理が実現される。なお、ユーザ登録情報をＰＣ（パーソナルコンピュータ）等を用いて設定し、設定されたユーザ登録情報を、直接に或いはホームサーバ等を介してデジタルフォトフレーム３００に転送するようにしてもよい。

図１４（Ａ）では、ユーザ登録情報として、ユーザのＩＤ、パスワード、ユーザの趣味、お気に入りの情報、距離しきい値、注視制御のオン・オフ、表示時間（表示時間間隔、表示速度）、スライド表示方法（広義には表示方法）等が入力される。例えば図１４（Ａ）では、ユーザの趣味が釣りであり、お気に入り情報が株価の情報であり、距離しきい値が中ぐらいであり、注視制御がオンであり、表示時間が中ぐらいであり、スライド表示方法がフェードであることが入力されている。

なお、距離しきい値は、図１０のようにユーザが接近したときの発話からタグを付与る場合の距離のしきい値を決めるパラメータである。例えば距離しきい値が「短い」に設定されると、図１０のステップＳ４３の「所定距離」が短い距離に設定され、距離しきい値が「長い」に設定されると、「所定距離」が長い距離に設定される。また、注視制御は、図７、図８のようにユーザの注視を条件としたタグ付与のオン・オフを制御するものである。例えば、注視制御が「オフ」に設定されると、図７、図８のステップＳ１２、Ｓ２２の注視判定がスキップされ、「オン」に設定されると、ステップＳ１２、Ｓ２２の注視判定が行われるようになる。

図１４（Ｂ）はユーザ登録処理のフローチャートである。まず図１４（Ａ）に示すようなユーザ登録画面を表示する（ステップＳ７１）。これによりユーザはユーザ登録情報の入力が可能になる。そしてユーザ登録情報の入力が完了したか否かを判断し（ステップＳ７２）、完了した場合には、ユーザ検知センサである撮像センサ（カメラ）を用いてユーザの顔領域の検出を行う（ステップＳ７３）。そして撮像センサを用いてユーザの顔画像認識を行い（ステップＳ７４）、認識された顔画像をユーザ登録情報に関連づけて記憶する（ステップＳ７５）。

このように、ユーザの顔画像をユーザ登録情報として登録すれば、ユーザ認識部３１２は、デジタルフォトフレーム３００を見ているユーザを、撮像センサを用いて認識できるようになる。そしてタグ登録部３０６は、認識されたユーザの発話キーワードに基づいて、コンテンツのタグキーワードが取得されると、取得されたタグキーワードを、認識されたユーザ及びコンテンツに関連づけて登録する。例えば、コンテンツの表示中に第１のユーザが認識され、その第１のユーザの発話から抽出された発話キーワードに基づきタグキーワードが取得されたとする。すると、そのタグキーワードは、第１のユーザ及び表示コンテンツに関連づけて、コンテンツ情報記憶部３２２に登録される。またコンテンツの表示中に第２のユーザが認識され、その第２のユーザの発話から抽出された発話キーワードに基づきタグキーワードが取得されたとする。すると、そのタグキーワードは、第２のユーザ及び表示コンテンツに関連づけて、コンテンツ情報記憶部３２２に登録される。

こうすることで、各ユーザの発話に対応したタグがコンテンツに付与されるようになる。従って、付与されたタグに基づいてコンテンツの表示制御を行った場合に、ユーザ毎に異なるコンテンツが選択されて表示されるようになるため、コンテンツ表示のバラエティ度を増すことができる。

６．タグ登録処理及びコンテンツ切り替え処理の詳細例
次に、タグの登録処理やコンテンツの切り替え処理（表示制御）の詳細例について説明する。

この詳細例では、コンテンツ表示中の発話キーワードの出現回数を記録し、出現回数がしきい値を超えた場合に、その発話キーワードをタグとして付与する。即ち、発話から単純にタグを付与すると、表示コンテンツとは無関係なタグが付与されてしまうので、出現回数を記録して、無関係なタグが付与されないようにする。また発話（会話）の途切れを検知して、そのタイミングで表示コンテンツを切り替える。

また表示コンテンツの登録タグキーワードの登録回数についてのヒストグラム情報を作成し、前回に表示したコンテンツのヒストグラム情報に基づいて次に表示するコンテンツを決定する。タグキーワード、登録回数、出現回数等はユーザ毎に作成する。この詳細例によれば、コンテンツにタグキーワードが予め登録されていない状態から開始して、発話に応じたタグキーワードをコンテンツに付与できる。そして付与されたタグキーワードに基づいてコンテンツの表示を制御する。これにより多様なコンテンツ表示が可能になる。

図１５に、タグ登録処理及びコンテンツ切り替え処理の詳細例のフローチャートを示す。まず撮像センサ（カメラ）を用いてユーザを認識する（ステップＳ８１）。例えば図１４（Ａ）、（Ｂ）で登録された顔画像と、撮像センサで撮像されたユーザの顔画像を照合してユーザを認識する。そして、ｉ＝１に設定して、コンテンツＣＴｉ＝ＣＴ１を表示する（ステップＳ８２、Ｓ８３）。

次に、無発話期間（発話が検知されない期間）が所定時間を超えたか否かを判断する（ステップＳ８４）。そして無発話期間が所定時間を超えていない場合には、ユーザの発話を音声認識して、発話キーワードを抽出する（ステップＳ８５）。

次に抽出された発話キーワードの出現回数の集計処理を行う（ステップＳ８６）。例えば抽出された発話キーワードの出現回数をカウントする。そして、抽出された発話キーワードの出現回数がしきい値を超えたか否かを判断し、超えた場合には、その発話キーワードを、コンテンツＣＴｉのタグキーワードとして登録する（ステップＳ８７、Ｓ８８）。そしてコンテンツＣＴｉの登録タグキーワードのヒストグラム情報を更新する（ステップＳ８９）。即ち登録されたタグキーワードの登録回数を１だけインクリメントする。

一方、ステップＳ８４で、無発話期間が所定時間を超えたと判断した場合には、ユーザの無発話状態が検知されたと判断して、表示中のコンテンツＣＴｉのヒストグラム情報を読み出す（ステップＳ９０）。即ちステップＳ８９で更新されたヒストグラム情報をヒストグラム情報記憶部３２８から読み出す。そしてｉ＝ｉ＋１に設定し、読み出されたヒストグラム情報に基づいて、次に表示するコンテンツＣＴｉ＝ＣＴ２を選択する（ステップＳ９１、Ｓ９２）。そして選択されたコンテンツＣＴｉ＝ＣＴ２を表示する（ステップＳ８３）。

図１６（Ａ）にコンテンツテーブル（コンテンツ情報）の例を示す。このコンテンツテーブルは、各コンテンツＩＤに対して、コンテンツＵＲＬや、登録タグキーワードが関連づけられている。

図１６（Ｂ）に登録回数テーブルの例を示す。この登録回数テーブルでは、各コンテンツの登録タグキーワードに対してその登録回数が関連づけられている。この登録回数テーブルは、ユーザＩＤとコンテンツＩＤの各組み合わせに対応して設けることができる。

例えばユーザＡとユーザＢが以下のような会話をしたとする。
ユーザＡ：「この前のカニは美味しかったねー」
ユーザＢ：「そうそう、北海道でカニを食べたね」
ユーザＡ：「カニの身をとるのが難しくて」
ユーザＢ：「今度は飛行機じゃなくて、フェリーでのんびり北海道に行きたいね」
この会話から名詞のキーワードだけを抽出すると、カニ＝３回、北海道＝２回、身＝１回、飛行機＝１回、フェリー＝１回になる。そして図１５のステップＳ８７の出現回数のしきい値が３回に設定されていた場合には、現在表示中のコンテンツに対して「カニ」というタグキーワードが登録されることになる。具体的には図１６（Ａ）のコンテンツテーブルにおいて、現在表示されているコンテンツのＩＤに対して、「カニ」のタグキーワードが関連づけて登録される。また登録回数テーブルに「カニ」のタグキーワードが追加されると共に、その登録回数が１だけインクリメントされる。

また本実施形態では図１５のステップＳ８９、Ｓ９０に示すように、コンテンツのタグについてのヒストグラム情報を作成し、作成されたヒストグラム情報に基づいて、次に表示するコンテンツを選択する。

例えば図１７では、コンテンツである画像Ｉ１が表示されているときに、ユーザが「この”うどん”美味しかったよねー」と発話している。すると「うどん」という発話キーワードが、画像Ｉ１のタグとして登録される。そして、この画像Ｉ１のタグのヒストグラム情報に基づいて、次に表示する画像（Ｉ２、Ｉ３等）を選択する。

例えば図１８に、画像Ｉ１、Ｉ２、Ｉ３の各画像に付与されている登録タグキーワードとその登録回数の例を示す。例えば画像Ｉ１に対しては「うどん」、「そば」、「熱い」、「めん」、「旅行」、「レストラン」のタグキーワードが登録されており、その登録回数は、各々、１０、１２、５、１０、３０、１０回になっている。また画像Ｉ２に対しては「うどん」、「そば」、「熱い」、「めん」、「レストラン」のタグキーワードが登録されており、その登録回数は、各々、５、１０、５、５、８回になっている。また画像Ｉ３に対しては「うどん」、「そば」、「コーヒー」、「熱い」、「めん」、「旅行」、「レストラン」、「カフェ」のタグキーワードが登録されており、その登録回数は、各々、１、１、１０、５、２、１０、１、１０回になっている。

本実施形態では、図１８から例えば図１９に示すようなヒストグラム情報を作成する。図１９では横軸がタグキーワードになっており、縦軸が各タグキーワードの登録回数になっている。そして、作成されたヒストグラム情報に基づいて、現在表示されているコンテンツに関連するコンテンツを選択し、選択されたコンテンツを次の表示コンテンツ（次のスライド）として表示する。

この場合に、ヒストグラム情報に基づくコンテンツの選択手法としては種々の手法を想定でき、例えばヒストグラム情報のキーワードランキングによりコンテンツを選択する手法が考えられる。例えば、現在表示されているコンテンツのヒストグラム情報において、最も登録回数が大きいタグキーワードが「うどん」であったとする。或いは、今回のコンテンツ表示中に、「うどん」というタグが登録されたとする。この場合には、次に表示するコンテンツとして、現在表示されているコンテンツを除いて、「うどん」のタグキーワードが付与されたランキング上位のコンテンツを選択する。例えば「うどん」の登録回数が多い上位の所定数のコンテンツの中から選択されたコンテンツを表示する。このようにすることで、現在表示されているコンテンツに関連するコンテンツを次のスライドとして表示でき、これまでにないコンテンツ表示を実現できる。

但し、キーワードランキングを利用する手法は、処理も単純で実装も容易であるが、システムの使用時間が長くなると、登録回数（登録頻度）が高いコンテンツしか表示されなくなり、表示されるコンテンツが単調になってしまうという問題がある。

このような問題を解決するために、例えばヒストグラム情報の類似度を評価し、類似度の評価結果に基づいて、次に表示するコンテンツを決定する。例えば第１のコンテンツの次に第２のコンテンツを選択する場合に、第１のコンテンツのヒストグラム情報と第２のヒストグラム情報の類似度を評価し、類似度の評価結果に基づいてコンテンツを選択する。例えば、第１のコンテンツに対するヒストグラム情報の類似度が高いと評価されたコンテンツを、次に表示する第２のコンテンツとして選択する。

このようにすれば、キーワードランキングに基づいてコンテンツを選択する手法に比べて、多様なコンテンツ表示を実現できる。

ここで、ヒストグラムの類似度の評価処理では、ヒストグラムの各値をベクトルの変量とみなして、類似性を比較する。このような類似度の評価処理の例として、ユークリッド距離を利用した手法、相関係数（ピアソン相関係数）を利用した手法、Tanimoto係数を利用した手法などがある。

ユークリッド距離を利用した手法では下式（１）に示すように、各キーワードを軸とするＮ次元のユークリッド空間での距離ｄｉｊを求める。この距離ｄｉｊは、任意の正の値を取り、値が小さいほど類似であると評価される。

相関係数（ピアソン相関係数）を利用し手法では下式（２）に示すように、線形類似性を計算する。ｒは−１から１までの値を取り、０に近ければ近いほど相関がないと評価される。またｒが負の値である場合には、逆相関である評価され、正の値である場合には、正の相関であると評価され、ｒが１に近いほど類似であると評価される。

Tanimoto係数を利用した手法では下式（３）に示すように、比較するコンテンツに共通したキーワードの数と、全体のキーワードの数の比Ｔ（Ａ，Ｂ）を計算する。Ｔ（Ａ，Ｂ）は、０から１までの値を取り、１に近いほど類似であると評価される。

例えば図１８、図１９において、画像Ｉ１に対する画像Ｉ２のユークリッド距離を計算すると、ｄｉｊ＝３０．９５になり、画像Ｉ１に対する画像Ｉ３のユークリッド距離を計算すると、ｄｉｊ＝３０．７７になる。従って、画像Ｉ３の方が画像Ｉ２よりも画像Ｉ１に類似するという結果になり、画像Ｉ１の次に表示するコンテンツとして、ユークリッド距離が小さい画像Ｉ３が選択されることになる。

また画像Ｉ１に対する画像Ｉ２の相関係数を計算すると、ｒ＝０．０２９になり、画像Ｉ１に対する画像Ｉ３の相関係数を計算すると、ｒ＝０．０２７になる。従って、画像Ｉ２の方が画像Ｉ３よりも画像Ｉ１に類似するという結果になり、画像Ｉ１の次に表示するコンテンツとして、相関係数が１に近い画像Ｉ２が選択されることになる。

また画像Ｉ１に対する画像Ｉ２のTanimoto係数を計算すると、Ｔ（Ａ，Ｂ）＝０．８３３になり、画像Ｉ１に対する画像Ｉ３の相関係数を計算すると、Ｔ（Ａ，Ｂ）＝０．７５になる。従って、画像Ｉ２の方が画像Ｉ３よりも画像Ｉ１に類似するという結果になり、画像Ｉ１の次に表示するコンテンツとして、Tanimoto係数が１に近い画像Ｉ２が選択されることになる。

ユークリッド距離（ユークリッド空間）は、純粋にタグの登録回数が結果に影響する。このため、コンテンツ間の類似度に関係無く、タグの登録回数が多いコンテンツのヒストグラムと、タグの登録回数が少ないコンテンツのヒストグラムの間の距離が必ず大きくなってしまう。このため、前述したキーワードランキングを用いる手法と類似した問題が生じる。例えば図２０（Ａ）において、Ｐ１のヒストグラムを有するコンテンツの次に表示するコンテンツして、Ｐ１の付近のＰ２、Ｐ３、Ｐ４に示すヒストグラムを有するコンテンツが選択されてしまう。従って、コンテンツ表示が単調になってしまうおそれがある。

一方、相関係数を用いる手法では、例えば図２０（Ａ）のＰ５に示すヒストグラムを有するコンテンツについても選択されるようになる。従って、意外性のあるコンテンツが選択されるようになり、コンテンツ表示の多様性を高めることができる。

またTanimoto係数を用いる手法は、図２０（Ｂ）において、T集合ＡとＢに共通の要数数Ａ・Ｂを求めて、類似度を評価する。このため、タグが登録された回数ではなくタグの有無しか考慮されない。従って、ノイズデータの影響タグ登録回数が1回だけのものが最終結果に寄与するため、精度が低くなってしまうという問題がある。即ち、「うどん」のコンテンツに対して、間違って「寺」というタグが１回でも登録されると、「うどん」とは類似しない「寺」のコンテンツが選択されるようになってしまう。但し、Tanimoto係数を用いる手法においても、高性能の音声認識を利用することでノイズの影響を少なくすることも可能である。またタグの数が膨大になった場合の処理スピードは、タグの有無（True/False）を判断する演算だけで済み、単純であるため、この点において他の手法に比べて有利である。

このように、精度の観点からは相関係数を用いる手法が有効であるが、評価対象、パフォーマンス、精度の兼ね合いを考えて、キーワードランキング、ユークリッド距離、相関係数、Tanimoto係数を用いる評価関数の中から、適切な評価関数を選択することが望ましい。具体的には、状況に応じて使用する評価関数を選択する。例えばタグの数次元数が多く、処理速度が求められる場合には、キーワードランキングやTanimoto係数を用いればよい。また高い精度を追求したい場合には、相関係数を用いればよい。また、ノイズデータが少なく、タグの登録回数を平準化又は正規化できる場合には、ユークリッド距離やTanimoto係数を用いればよい。

なお、以上ではヒストグラム情報を用いて次に表示するコンテンツを選択する手法について説明したが、このヒストグラム情報を用いて、登録タグキーワードの整理処理を行うようにしてもよい。例えばヒストグラム情報を用いて、登録回数が少ない登録タグキーワードや古い登録タグキーワードを削除する処理を行う。

図２１に、ヒストグラム情報に基づくタグの整理処理のフローチャートを示す。まず、整理処理の対象となるコンテンツのヒストグラム情報をヒストグラム情報記憶部３２８から読み出す（ステップＳ１０１）。例えば、定期的に整理処理を行う場合には、ヒストグラム情報記憶部３２８の中から定期的に１又は複数のコンテンツのヒストグラム情報を読み出す。そして、読み出されたヒストグラム情報に基づいて、登録回数が少ない下位の所定数の登録タグキーワードを抽出する（ステップＳ１０２）。或いは登録回数が所定数以下である登録タグキーワードを抽出する。図１８の画像Ｉ３を例にとれば、「うどん」、「そば」、「めん」、「レストラン」などの登録タグキーワードが抽出される。

次に、ヒストグラム情報に基づいて、登録が古い下位の所定数の登録タグキーワードを抽出する（ステップＳ１０３）。例えば図１８において、各登録タグキーワードに対して登録日時情報（時間、日、月、年等）を関連づけておく。そして所定の登録日時よりも古い登録タグキーワードを抽出する。そして、ステップＳ１０２やＳ１０３で抽出された登録タグキーワードを削除する（ステップＳ１０４）。即ち、これらの登録タグキーワードをヒストグラム情報の中から削除する。なお、既に登録されているタグキーワードが再度登録された場合には、登録日時情報は、例えば再度登録された日時（時間、日、月年等）になる。

本実施形態のようにユーザの発話に基づきコンテンツにタグを自動的に付与する手法によれば、ユーザの手間を省くことができ、コンテンツに対して効率的にタグを付与することが可能になる。

しかしながら、コンテンツを見たユーザが、そのコンテンツに関連しないキーワードを発話する場合もある。また、実際にはユーザはコンテンツを見ておらず、無関係な会話をしている場合もある。従って、このようにユーザの発話に基づきタグを付与すると、無関係な多数のタグが付与されてしまう可能性がある。

この点、図２１の手法によれば、登録回数が少ないタグや古いタグは削除されるため、このような無関係な多数のタグが付与されてしまった場合にも、これに対処できる。また、コンテンツの選択に使用されるヒストグラム情報を有効活用して、タグを整理できるという利点もある。

７．タグ取得のための質問提示
以上では、ユーザに対してコンテンツを表示して、ユーザの発話に基づいてタグを取得する手法について説明した。しかしながら、ユーザに対してコンテンツを表示しても、ユーザがタグ取得のための適切な発話を行わない場合がある。また、ユーザが、そもそも表示コンテンツに興味を持たず、発話しない場合もある。

このため、コンテンツに対して有効なタグを付与するためには、システム側からユーザに対して積極的に働きかける仕組みが望まれる。例えば表示コンテンツに対する質問（問いかけ）をユーザに対して提示することで、ユーザとの間のインタラクションが発生し、より多くのタグ情報を引き出すことが可能になる。

具体的には、コンテンツのタグキーワードに関連する質問を提示し、その回答の発話キーワードを用いて、タグキーワードを登録する。例えば画像に対応する質問を音声や画像で提示する。具体的には食べ物の画像の場合には、「これは美味しそうかな？」という質問を、音声や画像でユーザに提示する。この場合に、食べ物の画像か否かは、画像に関連づけられたタグに基づき特定してもよいし、画像認識により食べ物の画像であることを認識することにより特定してもよい。

またコンテンツのタグキーワードが所定数以下の場合に、タグ付与のための質問を提示するようにしてもよい。即ち有効なタグが不足しているときに、「これは何だろう？」というような質問を行う。また、質問後にユーザが発話した肯定、否定の言葉を音声認識して、タグを付与してよい。或いは、質問後にユーザのうなずき、首振りなどの反応（動作）を画像認識して、タグを付与してもよい。また質問の提示は、ユーザが画像を注視していることを条件に行うようにしてもよい。

図２２に、タグキーワード付与のための質問提示処理のフローチャートを示す。まず、コンテンツを表示し、ユーザがコンテンツを注視しているか否かを判断する（ステップＳ１１１、Ｓ１１２）。そしてユーザが注視していると判断した場合には、ユーザの発話が検知されたか否かを判断する（ステップＳ１１３）。

ユーザの発話が検知された場合には、表示コンテンツの登録タグキーワード数が所定数以下か否かを判断する（ステップＳ１１４）。そして登録タグキーワード数が所定数以下である場合には、ユーザの発話を音声認識して、発話キーワードを抽出する（ステップＳ１１５）。

次に、抽出された発話キーワード数が０個又は不明な発話キーワードか否かを判断する（ステップＳ１１６）。そして、抽出発話キーワード数が０個の場合（発話キーワードを抽出できなかった場合）や、抽出された発話キーワードが不明な発話キーワード（辞書に登録されていないキーワードや質問の作成が不能なキーワード）である場合には、コンテンツ内容をユーザに問うための質問を音声や画像で提示する（ステップＳ１１７）。例えば「これは何だろう？」というような質問を提示する。

一方、ステップＳ１１６で、抽出発話キーワード数が０個ではなく、不明な発話キーワードではない場合には、抽出された発話キーワードに基づいて、質問データベースを参照する（ステップＳ１１８）。そして質問データベースへの参照結果に基づいて質問を提示する（ステップＳ１１９）。即ち、発話キーワードをキーにして質問データベースから読み出された質問を提示する。

次に、質問に対するユーザの回答を音声認識し、回答から抽出された発話キーワードを表示コンテンツのタグキーワードとして登録する（ステップＳ１２０）。また、回答から肯定、否定のキーワードを抽出し、それに応じたタグキーワードを登録する（ステップＳ１２１）。また、顔画像認識により、ユーザのうなずき、首振り等の反応を検出し、反応に応じたタグキーワードを登録する（ステップＳ１２２）。なおステップＳ１２０、Ｓ１２１、Ｓ１２２の全ての処理を実行してもよいし、その一部の処理のみを実行するようにしてもよい。

図２３、図２４にタグ辞書データベースや質問データベースの一例を示す。図２３のタグ辞書データベースでは、タグが、階層構造に分類されている。例えば第１階層のタグは、より抽象的なタグであり、例えば動物、植物、食べ物等のタグである。第２階層のタグは、第１階層のタグの下位概念のタグ（抽象度が低い具体的なタグ）であり、例えば第１階層のタグの動物のタグに対応して、哺乳類、爬虫類、イヌ等のタグが用意され、植物のタグに対応して、花、木、果物、サクラ等のタグが用意される。第３階層のタグは、第２階層のタグの下位概念のタグであり、例えば第２階層のサクラのタグに対応して、ソメイヨシノ、八重桜などの具体的な名称のタグが用意される。主観タグは、美味しい、楽しい、かわいいなどの主観的なものを表すタグである。

図２４の質問データベースでは、図２３のように階層構造化されたタグ辞書データベースを利用して質問情報を取得する。例えば図２２のステップＳ１１７のように、発話キーワードが抽出されなかった場合等には、図２４の質問データベースから「これは何だろう？」という質問を読み出して提示する。また、例えば動物などの第１階層のタグを用いて、「これは動物かな？」という質問を行ったり、主観タグを用いて、「これは美味しい？」という質問を行う。

また図２２のステップＳ１１８、Ｓ１１９のように、抽出された発話キーワードを用いて質問を提示する場合には、タグ辞書データベースの階層構造等を利用して質問を提示する。例えば、発話キーワードから第１階層のタグである動物が抽出された場合には、抽出された第１階層のタグである動物を用いて、「この動物は何だろう？」という質問を行う。或いは、第１階層のタグの動物に対応する第２階層のタグのイヌを用いて、「これはイヌかな？」という質問を行う。或いは主観タグを用いて、「これはかわいい？」という質問を行う。

以上のように図２３、図２４では、タグが第１〜第Ｎの階層のタグキーワードに分類されている。そして、発話から抽出された発話キーワードが、第１〜第Ｎの階層のタグキーワードのうちの第Ｋの階層のタグキーワードである場合には、第Ｋの階層のタグキーワードや第Ｋの階層のタグキーワードよりも下位の第Ｋ＋１の階層のタグキーワードを用いて質問を作成して提示する。こうすることで、ユーザの発話を手がかりとして、より具体的なタグを付与するための質問を作成して、ユーザに提示できるようになる。

８．システム構成の変形例
図２５に本実施形態のシステム構成の変形例について示す。この変形例のシステムでは、サーバ２００（広義には情報処理システム、狭義にはホームサーバ）が設けられている。このサーバ２００は、処理部２０２、記憶部２２０、通信部２３８を含む。なおこれらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。なお、図２と同様の構成要素については、同様の符号又は名称を付してその説明を省略する。

処理部２０２は、サーバ管理処理などの各種の処理を行うものであり、ＣＰＵ等のプロセッサやＡＳＩＣなどにより実現できる。記憶部２２０は、処理部２０２や通信部２３８のワーク領域となるものであり、例えばＲＡＭやＨＤＤ等により実現できる。通信部２３８は、デジタルフォトフレーム３００や、外部サーバ６００との間で、有線又は無線で通信を行うためのものであり、通信用ＡＳＩＣ又は通信用プロセッサなどにより実現できる。例えばデジタルフォトフレーム３００とサーバ２００は、例えば無線ＬＡＮ等のネットワークで通信接続される。

図２５では、サーバ側の処理部２０２が、タグ登録部２０６、登録処理部２１１、ヒストグラム作成部２１３、類似度評価部２１４、タグ管理部２１５、質問提示部２１６、コンテンツ選択部２１７、表示指示部２１８を含む。またサーバ側の記憶部２２０が、コンテンツ情報記憶部２２２、ユーザ情報記憶部２２７、ヒストグラム情報記憶部２２８、質問情報記憶部２２９を含む。なお、これらの一部をデジタルフォトフレーム３００の処理部３０２や記憶部３２０に設けるようにしてもよい。

また図２５では、デジタルフォトフレーム３００側の処理部３０２が、音情報取得部３０３、検知情報取得部３０４、音声認識部３０５、ユーザ状態判断部３０７、ユーザ認識部３１２、表示制御部３１８を含む。なおこれらの一部をサーバ２００側の処理部２０２に設けるようにしてもよい。

図２５では、コンテンツ選択部２１７は、ユーザに提示するコンテンツの選択処理を行う。例えば記憶部２２０のコンテンツ情報記憶部２２２からコンテンツ情報を読み出したり、外部サーバ６００にアクセスしてコンテンツ情報を受信することで、ユーザに提示するコンテンツを選択する。

表示指示部２１８は、コンテンツ選択部２１７により選択されたコンテンツに基づいて、デジタルフォトフレーム３００（広義には画像表示部）の表示部３４０に表示される画像の表示指示を行う。具体的にはコンテンツ選択部２１７により選択されたコンテンツの画像を表示部３４０に表示するための指示を行う。そしてデジタルフォトフレーム３００の表示制御部３１８は、サーバ２００の表示指示部２１８からの指示にしたがって、表示部３４０の表示制御を行う。これにより、コンテンツ選択部２１７により選択されたコンテンツの画像等が表示部３４０に表示されるようになる。

そしてタグ登録部２０６は、コンテンツの表示中におけるユーザの発話の音声認識により抽出されたユーザの発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行う。例えばデジタルフォトフレーム３００側の音声認識部３０５が、センサ３５０である音センサからの音情報に基づいて、ユーザの発話の音声認識処理を行い、ユーザの発話キーワードを抽出する。すると、この抽出された発話キーワードの情報は、通信部３３８、２３８を介してサーバ２００側に送られる。そして、タグ登録部２０６は、受信したユーザの発話キーワードの情報に基づいて、コンテンツのタグキーワードの登録処理を行う。なお音声認識部３０５をサーバ２００側に設け、サーバ２００側で音声認識や発話キーワードの抽出処理を行うようにしてもよい。また図２５では、本実施形態で説明したユーザ情報の登録処理、ヒストグラムの作成処理、類似度の評価処理、タグの管理処理、質問の提示処理は、サーバ３００側が行うが、これらの一部又は全部をデジタルフォトフレーム３００側で行うようにしてもよい。

図２５の変形例によれば、コンテンツの選択処理やタグ登録処理等をサーバ２００が行うため、デジタルフォトフレーム３００の処理負荷を軽減できる。従って、デジタルフォトフレーム３００の処理部３０２（ＣＰＵ）の処理能力が低い場合も、本実施形態の処理を実現できるようになる。なお、これらの処理を、サーバ２００とデジタルフォトフレーム３００の分散処理により実現してもよい。

なお、上記のように本実施形態について詳細に説明したが、本発明の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本発明の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また画像表示システム、デジタルフォトフレーム、情報処理システムの構成、動作や、タグ登録手法、コンテンツの表示手法、音声認識手法、視認状態判定手法等も本実施形態で説明したものに限定されず、種々の変形実施が可能である。

２００サーバ、２０２処理部、２０６タグ登録部、２１１登録処理部、
２１３ヒストグラム作成部、２１４類似度評価部、２１５タグ管理部、
２１７コンテンツ選択部、２１８表示指示部、２２０記憶部、
２２２コンテンツ情報記憶部、２２７ユーザ情報記憶部、
２２８ヒストグラム情報記憶部、２２９質問情報記憶部、２３８通信部、
３００デジタルフォトフレーム、３０２処理部、３０３音情報取得部、
３０４検知情報取得部、３０５音声認識部、３０６タグ登録部、
３０７ユーザ状態判断部、３０８視認状態判断部、３０９位置関係判断部、
３１０人数検出部、３１１登録処理部、３１２ユーザ認識部、
３１３ヒストグラム作成部、３１４類似度評価部、３１５タグ管理部、
３１６質問提示部、３１７コンテンツ選択部、３１８表示制御部、
３２０記憶部、３２２コンテンツ情報記憶部、３２３音情報記憶部、
３２４検知情報記憶部、３２５登録キーワード記憶部、３２６ユーザ状態記憶部、
３２７ユーザ情報記憶部、３２８ヒストグラム情報記憶部、
３２９質問情報記憶部、３３０情報記憶媒体、３３８通信部、３４０表示部、
３５０センサ、３６０操作部、６００外部サーバ

Claims

画像を表示する表示部の表示制御を行う表示制御部と、
コンテンツの表示中におけるユーザの発話の音声認識を行い、ユーザの発話キーワードを抽出する音声認識部と、
抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うタグ登録部と、
を含むことを特徴とする画像表示システム。
請求項１において、
前記タグ登録部は、
抽出された前記発話キーワードの中に、コンテンツのタグキーワードに一致する一致発話キーワードが検出された場合に、検出された前記一致発話キーワード以外の発話キーワードを、コンテンツのタグキーワードとして登録することを特徴とする画像表示システム。
請求項１又は２において、
前記タグ登録部は、
抽出された前記発話キーワードの中に、コンテンツのタグキーワードに関連する関連発話キーワードが検出された場合に、検出された前記関連発話キーワードを、コンテンツのタグキーワードとして登録することを特徴とする画像表示システム。
請求項１乃至３のいずれかにおいて、
ユーザが前記表示部を注視している状態か否かを判断する視認状態判断部を含み、
前記タグ登録部は、
ユーザが注視状態であるときに抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うことを特徴とする画像表示システム。
請求項１乃至４のいずれかにおいて、
ユーザと前記表示部との位置関係を判断する位置関係判断部を含み、
前記タグ登録部は、
ユーザと前記表示部との距離が所定距離以内であるときに抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うことを特徴とする画像表示システム。
請求項１乃至５のいずれかにおいて、
ユーザの人数の検出処理を行う人数検出部を含み、
前記タグ登録部は、
ユーザの人数の検出結果に基づいて、コンテンツのタグキーワードの登録処理を行うことを特徴とする画像表示システム。
請求項６において、
前記音声認識部は、
ユーザの人数が一人であると検出された場合に、ユーザの発話キーワードを抽出し、
前記タグ登録部は、
抽出された一人のユーザの発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うことを特徴とする画像表示システム。
請求項６又は７において、
前記タグ登録部は、
ユーザの人数が複数人であると検出され、複数人のユーザが同一の発話キーワードを発話したことが検出された場合に、検出された同一発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うことを特徴とする画像表示システム。
請求項１乃至８のいずれかにおいて、
ユーザを認識するユーザ認識部を含み、
前記タグ登録部は、
認識されたユーザの発話キーワードに基づいて、コンテンツのタグキーワードが取得された場合に、取得されたタグキーワードを、認識されたユーザ及びコンテンツに関連づけて登録することを特徴とする画像表示システム。
請求項１乃至９のいずれかにおいて、
前記タグ登録部は、
ユーザの発話キーワードの出現回数情報の集計処理を行い、出現回数情報が所定しきい値を超えた発話キーワードを、コンテンツのタグキーワードとして登録することを特徴とする画像表示システム。
請求項１乃至１０のいずれかにおいて、
前記音声認識部は、
ユーザの無発話状態を検知し、
前記表示制御部は、
ユーザの無発話状態が検知された場合に、表示されるコンテンツの切り替え処理を行うことを特徴とする画像表示システム。
請求項１乃至１１のいずれかにおいて、
コンテンツの登録タグキーワードと、前記登録タグキーワードの登録回数情報とが関連づけられたヒストグラム情報を作成するヒストグラム作成部を含むことを特徴とする画像表示システム。
請求項１２において、
ユーザに提示するコンテンツの選択処理を行うコンテンツ選択部を含み、
前記コンテンツ選択部は、
作成された前記ヒストグラム情報に基づいて、ユーザに提示するコンテンツの選択処理を行うことを特徴とする画像表示システム。
請求項１３において、
複数のコンテンツ間の前記ヒストグラム情報の類似度を評価する類似度評価部を含み、
前記コンテンツ選択部は、
第１のコンテンツの次にユーザに提示する第２のコンテンツとして、前記第１のコンテンツに対する前記ヒストグラム情報の類似度が高いと評価されたコンテンツを選択することを特徴とする画像表示システム。
請求項１２乃至１４のいずれかにおいて、
前記ヒストグラム情報に基づいて、コンテンツに対して登録された登録タグキーワードの整理処理を行うタグ管理部を含むことを特徴とする画像表示システム。
請求項１５において、
前記タグ管理部は、
コンテンツの登録タグキーワードの中から、前記ヒストグラム情報における前記登録回数情報が少ない登録タグキーワードを優先して削除する処理を行うことを特徴とする画像表示システム。
請求項１５又は１６において、
前記タグ管理部は、
コンテンツの登録タグキーワードの中から、登録が古い登録タグキーワードを優先して削除する処理を行うことを特徴とする画像表示システム。
請求項１乃至１７のいずれかにおいて、
タグキーワードを取得するための質問の提示処理を行う質問提示部を含み、
前記タグ登録部は、
提示された質問に対するユーザの反応に基づいて、コンテンツのタグキーワードの登録処理を行うことを特徴とする画像表示システム。
請求項１８において、
前記質問提示部は、
コンテンツに関連づけられたタグキーワードに対応する質問を提示する処理を行うことを特徴とする画像表示システム。
請求項１８又は１９において、
前記質問提示部は、
コンテンツに関連づけられたタグキーワードの数が所定数以下である場合に、質問を提示する処理を行うことを特徴とする画像表示システム。
請求項１８乃至２０のいずれかにおいて、
前記質問提示部は、
ユーザの発話から抽出された発話キーワードが、第１〜第Ｎの階層のタグキーワードのうちの第Ｋの階層のタグキーワードである場合には、前記第Ｋの階層のタグキーワード又は前記第Ｋの階層のタグキーワードよりも下位の第Ｋ＋１の階層のタグキーワードを用いて質問を作成して提示する処理を行うことを特徴とする画像表示システム。
請求項１乃至２１のいずれか記載の画像表示システムであることを特徴とするデジタルフォトフレーム。
ユーザに提示するコンテンツの選択処理を行うコンテンツ選択部と、
選択されたコンテンツに基づいて、画像表示システムの表示部に表示される画像の表示指示を行う表示指示部と、
コンテンツの表示中におけるユーザの発話の音声認識により抽出されたユーザの発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うタグ登録部と、
を含むことを特徴とする情報処理システム。
画像を表示する表示部の表示制御を行う表示制御部と、
コンテンツの表示中におけるユーザの発話の音声認識を行い、ユーザの発話キーワードを抽出する音声認識部と、
抽出された発話キーワードに基づいて、コンテンツのタグキーワードの登録処理を行うタグ登録部として、
コンピュータを機能させることを特徴とするプログラム。
コンピュータ読み取り可能な情報記憶媒体であって、請求項２４に記載のプログラムを記憶したことを特徴とする情報記憶媒体。