JP4930564B2 - 画像表示装置及び方法並びにプログラム - Google Patents

画像表示装置及び方法並びにプログラム Download PDF

Info

Publication number
JP4930564B2
JP4930564B2 JP2009218784A JP2009218784A JP4930564B2 JP 4930564 B2 JP4930564 B2 JP 4930564B2 JP 2009218784 A JP2009218784 A JP 2009218784A JP 2009218784 A JP2009218784 A JP 2009218784A JP 4930564 B2 JP4930564 B2 JP 4930564B2
Authority
JP
Japan
Prior art keywords
keyword
display
unit
image
display image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009218784A
Other languages
English (en)
Other versions
JP2011070267A (ja
Inventor
哲也 半田
公靖 水野
岳浩 相原
一志 雨谷
直隆 上原
孝行 小金
純人 篠原
祐人 布川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2009218784A priority Critical patent/JP4930564B2/ja
Priority to US12/888,725 priority patent/US8793129B2/en
Publication of JP2011070267A publication Critical patent/JP2011070267A/ja
Application granted granted Critical
Publication of JP4930564B2 publication Critical patent/JP4930564B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

本発明は、画像表示の技術に関し、例えば、画像の鑑賞者に対してインタラクティブでより豊かな鑑賞行為を実現させる画像表示装置及び方法並びにプログラムに関する。
従来より、画像(写真含む)の表示装置として、パーソナルコンピュータやデジタルフォトフレーム等が存在し、その表示手法として、スライドショー表示が広く知られている(例えば、特許文献1参照)。
特開2008−306403号公報
しかしながら、このスライドショー表示は、選択した複数の画像を順次表示させる手法であり、鑑賞者は、設定を行った後は順次表示される画像を単に鑑賞するだけであった。従って、鑑賞者は、デジタルフォトフレームが一方的に表示する画像を単に鑑賞することしかできない。このため、鑑賞者の意図が随時反映されるような豊かな鑑賞を実現することができなかった。
そこで、本発明は、上記課題に鑑みてなされたものであり、画像の鑑賞者に対して、インタラクティブでより豊かな鑑賞行為を実現させる画像表示装置及び方法並びにプログラムを提供することを目的とする。
本発明の第1の観点によると、表示画像を表示する表示部と、前記表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力部と、前記音声入力部に入力された前記音声信号に基づいて、前記鑑賞者が発した音声から1以上の単語を識別し、識別した前記1以上の単語をキーワードとして取得する取得部と、前記取得部により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる制御部と、前記取得部により取得された前記キーワードの出現回数を算出するカウント部と、前記表示画像のデータと前記キーワードと前記キーワードの出現回数を対応付けてメタデータとして記憶する記憶部と、を備え、前記制御部は、前記表示画像のメタデータに基づいて、新たなキーワードを発生する発生部を有し、前記新たなキーワードを、前記キーワードから導き出される情報として、前記表示画像とともに前記表示部に表示させることを特徴とする画像表示装置を提供する。
本発明の第2の観点によると、前記制御部は、前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、演出効果を伴う表示形態で、前記表示画像とともに前記表示部に表示させる、請求項1に記載の画像表示装置を提供する。
本発明の第3の観点によると、前記表示画像から人物の顔を検出する検出部をさらに備え、前記制御部は、前記検出部が前記顔の検出に成功した場合、前記表示画像において、検出された前記顔の口から、前記キーワードを含む情報又は前記キーワードから導かれる情報の文字列が配置された吹き出しを表示させ、前記検出部が前記顔の検出に失敗した場合、前記表示画像内の所定領域に、前記キーワードを含む情報又は前記キーワードから導かれる情報を表示させる、請求項1又は2何れか1項に記載の画像表示装置を提供する。
本発明の第4の観点によると、表示画像を表示部に表示させるステップと、前記表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力するステップと、前記入力された前記音声信号に基づいて、前記鑑賞者が発した音声から1以上の単語を識別し、識別した前記1以上の単語をキーワードとして取得するステップと、前記取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させるステップと、前記取得された前記キーワードの出現回数を算出するステップと、前記表示画像のデータと前記キーワードと前記キーワードの出現回数を対応付けてメタデータとして記憶するステップと、取得された前記キーワード、及び、新たなキーワードを発生するステップと、発生された前記新たなキーワードを、前記キーワードから導き出される情報として、前記表示画像とともに前記表示部に表示させるステップと、を含むことを特徴とする画像表示方法を提供する。
本発明の第5の観点によると、コンピュータに、表示画像を表示部に表示させる第1表示制御機能と、前記表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力制御機能と、前記音声入力制御機能の制御処理により入力された前記音声信号に基づいて、前記鑑賞者が発した音声から1以上の単語を識別し、識別した前記1以上の単語をキーワードとして取得する取得機能と、前記取得機能の処理により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる第2表示制御機能と、前記取得機能により取得された前記キーワードの出現回数を算出するカウント機能と、前記表示画像のデータと前記キーワードと前記キーワードの出現回数を対応付けてメタデータとして記憶する記憶機能と、前記カウント機能により算出された前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる表示制御機能と、を実現させるためのプログラムを提供する。
本発明によれば、画像の鑑賞者にとって、インタラクティブでより豊かな鑑賞行為が実現可能となる。
本発明の一実施形態に係る画像表示装置のハードウェアの構成を示すブロック図である。 図1の画像表示処理の流れの一例を示すフローチャートである。 図1の画像表示装置のデータベース用不揮発性メモリの記憶内容の一例を示す図である。 図1の画像表示装置により表示される画像の一例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。
図1は、本発明の一実施形態に係る画像表示装置1のハードウェアの構成を示す図である。画像表示装置1は、例えばデジタルフォトフレームやパーソナルコンピュータ等により構成することができる。
画像表示装置1は、CPU(Central Processing Unit)11と、メモリ12と、データベース用不揮発性メモリ13と、ランダムキーワード発生部14と、バス15と、表示ドライバ16と、表示部17と、マイクロフォン18と、バッファ19と、音声認識部20と、カウンタ21と、通信部22と、ドライブ23と、を備える。
CPU11は、メモリ12に含まれるROM(Read Only Memory)に記憶されているプログラムに従って各種の処理を実行する。又は、CPU11は、データベース用不揮発性メモリ13からメモリ12に含まれるRAM(Random Access Memory)にロードされたプログラムに従って各種の処理を実行する。RAMにはまた、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
本実施の形態では、CPU11は、表示ドライバ16を制御して、表示部17に画像(写真を含む)を表示させる。なお、以下、表示部17に表示される画像を、「表示画像」と呼ぶ。本実施の形態では、CPU11は、マイクロフォン18を駆動制御して、表示画像を鑑賞する鑑賞者が連続して発する音声(発話)の時系列信号を入力する。ここで、音声の時系列信号とは、所定期間内に発せられた音声のデジタル信号をいう。ただし、入力信号は、音声認識の処理対象となり得る信号であれば足り、本実施の形態の時系列信号に特に限定されず、その他例えば一定期間内のアナログの音声信号であってもよい。CPU11は、音声認識部20を制御して、入力された音声の時系列信号に対して所定の音声認識処理を実行することで、その音声の時系列信号から1以上の単語を識別し、識別した1以上の単語をキーワードとして取得する。なお、1つの単語がキーワードとして取得される場合もあるし、複数の単語からなる単語列がキーワードとして取得される場合もある。また、1つのキーワードのみが取得される場合もあるし、複数のキーワードが取得される場合もある。CPU11は、キーワードを含む情報又はそのキーワードから導かれる情報を、表示画像とともに表示部17に表示させる。
なお、このような一連の処理を、以下、画像表示処理と称する。すなわち、本実施の形態では、画像表示処理を実現するプログラムがメモリ12やデータベース用不揮発性メモリ13に記憶されている。なお、画像表示処理のさらなる詳細については、図2を参照して後述する。
このようにCPU11が画像表示処理を開始した後に、鑑賞者が表示画像を鑑賞しながら発話すると、その発話内容に含まれていた1以上の単語がキーワードとして取得される。そして、当該キーワードを含む情報又は当該キーワードから導かれる情報が表示画像に付加されて表示される。これにより、鑑賞者にとって、鑑賞という行為が、一方的な行為ではなくなり、インタラクティブでより豊かな行為となる。
データベース用不揮発性メモリ13は、上述したプログラムの他、各種データを記憶する。例えば、画像データは、メタデータと対応付けられてデータベース用不揮発性メモリ13に記憶される。さらに、表示画像を鑑賞中の鑑賞者の発話内容に含まれていたキーワードのデータ、及び、そのキーワードの出現回数のデータも、当該表示画像の画像データと対応付けられてデータベース用不揮発性メモリ13に記憶される。なお、データベース用不揮発性メモリ13の記憶内容の具体例については、図3を参照して後述する。
ランダムキーワード発生部14は、表示画像を鑑賞中の鑑賞者の発話内容に含まれていたキーワード、及び、当該表示画像のメタデータに基づいて、新たなキーワードを発生する。本実施の形態では、この新たなキーワードが、鑑賞者の発話内容に含まれていたキーワードから導かれる情報の一例として、表示部17に表示され得る。
CPU11、メモリ12、データベース用不揮発性メモリ13、及びランダムキーワード発生部14は、バス15を介して相互に接続されている。このバス15にはまた、表示ドライバ16、音声認識部20、カウンタ21、通信部22、及びドライブ23も接続されている。
表示ドライバ16は、所定の画像データをデータベース用不揮発性メモリ13から取得して、その画像データに基づいて表示画像を表示部17に表示させる。表示部17は、例えば液晶ディスプレイ等で構成される。
マイクロフォン18は、鑑賞者が発する音声(発話)を入力し、音声信号として出力する。バッファ19は、マイクロフォン18から所定期間出力された音声信号を記憶する。すなわち、バッファ19は、音声の時系列信号を記憶する。音声認識部20は、バッファ19に記憶された音声の時系列信号に対して音声認識処理を実行することで、鑑賞者の発話内容に含まれる1以上の単語を識別し、その識別結果に基づいて、1以上のキーワードを取得する。なお、音声認識部20の音声認識のアルゴリズムは特に限定されない。
カウンタ21は、音声認識部20の処理を監視し、キーワードの出現回数を算出する。カウンタ21はまた、キーワードの出現回数が閾値を超えたタイミングで、割り込み信号を発生し、CPU11に供給する。すると、CPU11は、表示ドライバ16を制御して、出現回数が閾値を超えたキーワード又はそのキーワードから導き出される情報を、表示画像とともに表示部17に表示させる。
通信部22は、インターネットを含むネットワークを介して他の装置(図示せず)との間で行う通信を制御する。ドライブ23には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなるリムーバブルメディア24が適宜装着される。そして、それらから読み出されたプログラムが、必要に応じてデータベース用不揮発性メモリ13にインストールされる。また、リムーバブルメディア24は、データベース用不揮発性メモリ13の代わりに、表示対象の画像データ等の各種データも記憶することができる。
図2は、図1の画像表示装置1による画像表示処理の流れの一例を示すフローチャートである。
ステップS1において、CPU11は、所定の画像データをデータベース用不揮発性メモリ13から読み出し、表示ドライバ16を制御して、その画像データに基づいて表示画像を表示部17に表示させる。
ステップS2において、CPU11は、マイクロフォン18を駆動制御して、鑑賞者が発する音声の時系列信号を入力し、バッファ19に記憶させる。
ステップS3において、CPU11は、音声認識部20を制御して、バッファ19から音声の時系列信号を読み出し、その音声の時系列信号に対して音声認識処理を実行することで、キーワードを取得する。
ステップS4において、CPU11は、カウンタ21を制御して、キーワードの出現回数をインクリメントする。
ステップS5において、CPU11は、キーワード及び出現回数のデータを、表示画像の画像データと対応付けて、データベース用不揮発性メモリ13に記憶させる。
なお、ステップS4及びS5の処理は、ステップS3の処理で複数のキーワードが取得された場合には複数のキーワードの各々に対して個別に実行される。
ステップS6において、CPU11は、出現回数が閾値を超えたキーワードが存在するか否かを判定する。
全てのキーワードの出現回数が閾値を下回る場合、上述した割り込み信号はカウンタ21から発生されないので、ステップS6においてNOであると判定されて、処理はステップS1に戻され、それ以降の処理が繰り返される。すなわち、ステップS1乃至S6のループ処理が繰り返されて、各ループ処理毎に、鑑賞者の発話内容(音声の時系列信号)から1以上のキーワードが取得され、その出現回数がインクリメントされていく。
そして、所定のキーワードの出現回数が閾値を超えた段階で、カウンタ21から割り込み信号が発生されてCPU11に供給される。これにより、ステップS6においてYESであると判定され、処理はステップS7に進む。
ステップS7において、CPU11は、出現回数が閾値を超えたキーワードのデータと、対応付けられたメタデータとを、ランダムキーワード発生部14に送る。これにより、ランダムキーワード発生部14は、送られてきたキーワードのデータ及びメタデータに基づいて、新たなキーワードを発生する。
ステップS8において、CPU11は、表示画像の画像データから顔検出を試みる。ステップS9において、CPU11は、顔が検出されたか否かを判定する。
ステップS8の処理で1以上の顔が検出された場合、ステップS9においてYESであると判定されて、処理はステップS10に進む。ステップS10において、CPU11は、検出された顔(複数の顔が検出された場合には所定の1つの顔)の口からの吹き出し位置を、キーワード表示窓の位置に設定する。
これに対して、ステップS8の処理で1つの顔も検出されなかった場合、ステップS9においてNOであると判定されて、処理はステップS11に進む。ステップS11において、CPU11は、表示画像中の所定位置を、キーワード表示窓の位置に設定する。
ステップS10又はS11の処理でキーワード表示窓の位置が設定されると、処理はステップS12に進む。ステップS12において、CPU11は、表示ドライバ16を制御して、キーワードを、キーワード表示窓に表示させる(後述する図4参照)。すなわち、表示部17に表示されている表示画像のうち、キーワード表示窓の位置として設定された領域に、キーワードが表示される。換言すると、キーワードが付加された表示画像が表示部17に表示される。
なお、ステップS12の処理で、CPU11は、出現回数が閾値を超えたキーワード(ユーザの発話内容に含まれていたキーワード)を表示してもよいし、ランダムキーワード発生部14により発生された新たなキーワードを表示してもよいし、或いはまた、両方のキーワードを同時に表示してもよい。また、CPU11は、これらのキーワードのみならず、これらのキーワードを含む文章を新たに生成して表示しても構わない。また、キーワードの表示形態は、特に限定されない。幾つかの好適な表示形態の例については後述する。
ステップS13において、CPU11は、画像の表示の終了が指示されたか否かを判定する。
画像の表示の終了がまだ指示されていない場合、ステップS13においてNOであると判定されて、処理はステップS1に戻され、それ以降の処理が繰り返される。すなわち、画像の表示の終了が指示されるまでの間、上述したステップS1乃至S13のループ処理が繰り返される。
その後、画像の表示の終了が指示されると、ステップS13においてYESであると判定されて、画像表示処理は終了する。
以下、さらに、図3及び図4を参照しつつ、画像表示処理について具体的に説明する。
図3は、データベース用不揮発性メモリ13の記憶内容の一例を示す図である。
図3の例では、2つの画像データGDA,GDBがデータベース用不揮発性メモリ13に記憶されている。
画像データGDAが表わす画像GAは、例えば図3に示すように、ピラミッドを背景とした記念撮影写真である。画像データGDAに対しては、「ピラミッド」という情報を含むメタデータMAが対応付けられてデータベース用不揮発性メモリ13に記憶されている。また、図3に示すようなキーワードのデータKA−1及び出現回数のデータCA−1の組乃至キーワードのデータKA−N及び出現回数のデータCA−Nの組が、画像データGDAと対応付けられてデータベース用不揮発性メモリ13に記憶されている。なお、Nは、1以上の整数値であって、図3の例では4以上の整数値となる。すなわち、図3は、過去において、画像GAが表示部17に表示されている間に例えば14以上の閾値が設定されて図2の画像表示処理が開始され、ステップS1乃至S6のループ処理が何回か繰り返された後の状態を示している。
一方、画像GAとは別の画像(図示せず)の画像データGDBに対しては、メタデータMBが対応付けられてデータベース用不揮発性メモリ13に記憶されている。また、キーワードのデータKB−1及び出現回数のデータCB−1の組乃至キーワードのデータKB−M及び出現回数のデータCB−Mの組が、画像データGDBと対応付けられてデータベース用不揮発性メモリ13に記憶されている。なお、Mは、1以上の整数値であって、図3の例では4以上の整数値となる。すなわち、図3は、過去において、画像GAとは別の画像が表示部17に表示されている間に例えば13以上の閾値が設定されて図2の画像表示処理が開始され、ステップS1乃至S6のループ処理が何回か繰り返された後の状態を示している。
例えば、データベース用不揮発性メモリ13の記憶内容が図3の状態で、ステップS1の処理が実行され、画像GAが表示部17に表示されたものとする。そして、複数の鑑賞者が、画像GAを鑑賞しながら、その旅の思い出等を会話するものとする。
この場合、複数の鑑賞者のうちの1人が発話すると、その音声の時系列信号がステップS2の処理で入力され、バッファ19に記憶される。そして、次のステップS3の処理で、その時系列信号に対して音声認識処理が実行されて、1以上のキーワードが取得される。例えばここでは、「スフィンクス」、「暑かった」、及び「ギザ」というキーワードが取得されたものとする。そして、図3に示すように、データKA−1が「スフィンクス」を表わすデータとされ、データKA−2が「暑かった」を表わすデータとされ、データKA−3が「ギザ」を表わすデータとされているものとする。
この場合、ステップS4の処理で、データKA−1が表わす「スフィンクス」の出現回数が「7回」から「8回」にインクリメントされる。データKA−2が表わす「暑かった」の出現回数が「14回」から「15回」にインクリメントされる。データKA−3が表わす「ギザ」の出現回数が「3回」から「4回」にインクリメントされる。
図示はしないが、次のステップS5の処理で、「スフィンクス」のデータKA−1と、「8回」を示す出現回数のデータCA−1が、画像データGDAに対応付けられてデータベース用不揮発性メモリ13に記憶(上書き)される。「暑かった」のデータKA−2と、「15回」を示す出現回数のデータCA−2が、画像データGDAに対応付けられてデータベース用不揮発性メモリ13に記憶(上書き)される。「ギザ」のデータKA−3と、「4回」を示す出現回数のデータCA−3が、画像データGDAに対応付けられてデータベース用不揮発性メモリ13に記憶(上書き)される。
なお、データベース用不揮発性メモリ13に記憶されているその他のデータは更新(上書き)されない。例えば、データKA−2が表わすキーワードと、画像データGDBに対応付けられたデータKB−1が表わすキーワードとは、「暑かった」で同一である。このような場合であっても、画像データGDBが表わす別の画像は表示画像ではないので、「暑かった」のデータKB−1及び「9回」のデータCB−1の組の記憶は更新されない。
ここで、例えば閾値が15回である場合、上述の例では、出現回数が閾値を超えるキーワードは存在しない。従って、このような場合、カウンタ21からは割り込み信号が発生されないので、ステップS6の処理でNOであると判定されて、処理はステップS1に戻され、それ以降の処理が繰り返される。
これに対して、例えば閾値が14回である場合、上述の例では、データKA−2が表わす「暑かった」の出現回数は「15回」に更新されたので、閾値を超えている。従って、このような場合、カウンタ21から割り込み信号が発声されてCPU11に供給されるので、ステップS6においてYESであると判定され、処理はステップS7に進む。
ステップS7の処理で、出現回数が閾値を超えた「暑かった」のデータKA−2と、メタデータMAとが、ランダムキーワード発生部14に送られる。ランダムキーワード発生部14は、例えば、メタデータMAに含まれる「ピラミッド」は「世界遺産」というカテゴリに属することを認識する。そして、ランダムキーワード発生部14は、「暑かった」と「世界遺産」とを掛け合わせて、例えば「タージマハル」という新たなキーワードを発生する。
ステップS8の処理で、画像データGDAに基づいて、画像GAに含まれる顔の検出が試みられる。図4に示すように、画像GAには2人の人物の顔が含まれているので、ステップS9の処理でYESであると判定されて、ステップS10の処理で、これらの2人の人物の顔のうちの所定の1つの顔、例えば図4中左側の顔の口からの吹き出し位置が、キーワード表示窓の位置に設定される。その結果、ステップS12の処理で、図4に示すように、例えば「タージマハル」というキーワードが、吹き出し位置に表示される。なお、上述したように、「タージマハル」というキーワードに替えて又はそれとともに、出現回数が閾値を超えた「暑かった」を、吹き出し位置に表示させることも可能である。
以上説明したように、本実施の形態の画像表示装置1は、表示部17に表示された表示画像を鑑賞する鑑賞者が発した音声の時系列信号を入力する。画像表示装置1は、その時系列信号に基づいて、鑑賞者が発した音声の内容に含まれる単語又は単語列を、キーワードとして取得する。画像表示装置1は、そのキーワードを含む情報又はそのキーワードから導かれる情報を、表示画像とともに表示部17に表示させる。
これにより、鑑賞者にとって、鑑賞という行為が、一方的な行為ではなくなり、インタラクティブなより豊かな行為となる。例えば上述の例では、鑑賞者は、図4の吹き出し位置に表示された「タージマハル」というキーワードを見ることで、「今度の旅行はタージマハルに行こう」といった内容を思い浮かべることができる。このようにして、鑑賞者にとっては、ただ単に画像を眺めているだけでは得られない鑑賞が実現される。
なお、本発明は上述の実施の形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
例えば、キーワードの表示形態については特に限定されないが、表示形態を変化してキーワードを表示させることで、画像の鑑賞行為をインタラクティブでより豊かな行為にすることができる。
例えば、出現回数に応じて演出効果を変化させて、キーワードを表示させることもできる。より具体的には例えば、図2のステップS1乃至S13のループ処理が繰り返されると、キーワードの出現回数は増加していく傾向になる。また、出現回数が閾値を超えたキーワードの個数も増加していく傾向になる。そこで、上述の例にあわせて閾値が14回であるとすると、出現回数が15回乃至19回のキーワードに対しては、CPU11は、出現回数が閾値を超えたキーワードをそのまま表示させる。例えば上述の例では、「暑かった」がそのまま表示される。出現回数が20回乃至29回のキーワードに対しては、CPU11は、出現回数が15回乃至19回の場合よりも派手な演出効果を伴って、出現回数が閾値を超えたキーワードを表示させる。派手な演出効果としては、例えば、文字のサイズを大きくする効果や、文字を装飾する効果等を採用することができる。例えば上述の例では、「暑かった」という文字列が大きく表示されたり、装飾文字で表示されたりする。さらに、出現回数が30回以上のキーワードに対しては、CPU11は、ランダムキーワード発生部14により発生された新たなキーワードを表示させる。例えば上述の例では、「タージマハル」が表示される。
なお、演出効果自体は、特に限定されず、上述の例も併せて具体例を列挙すると例えば次のようになる。
(1)出現回数が多くなるほど文字サイズを大きくしていく演出効果。
(2)横からのスライドインやエクスパンド表示を行う演出効果。
(3)表示画像に含まれる人物(顔検出により検出された顔)の口からの吹き出しの画像を表示させ、その吹き出しにキーワードを表示させる演出効果。すなわち、その人物があたかもしゃべっているような演出効果。
(4)鑑賞者の発話内容に含まれるキーワードと、表示画像のメタデータに含まれるキーワードと関連付けて、新たなキーワードを創作し、その新たなキーワードを表示させる演出効果
また、例えば上述の実施形態では、表示対象のキーワードの選択手法として、出現回数が閾値を超えたか否かに基づいて選択する手法が採用されていた。しかしながら、表示対象のキーワードの選択手法は、上述の実施形態に特に限定されず、任意の手法を採用し得る。
ところで、上述したように、本発明に係る一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。
このようなプログラムを含む記録媒体は、図示はしないが、ユーザにプログラムを提供するために装置本体とは別に配布されるリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成することもできる。リムーバブルメディアは、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini−Disk)等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図1のメモリ12に含まれるROMや、図1のデータベース用不揮発性メモリ13や、図示せぬハードディスク等で構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
1・・・画像表示装置、11・・・CPU、12・・・メモリ、13・・・データベース用不揮発性メモリ、14・・・ランダムキーワード発生部、15・・・バス、16・・・表示ドライバ、17・・・表示部、18・・・マイクロフォン、19・・・バッファ、20・・・音声認識部、21・・・カウンタ、22・・・通信部、23・・・ドライブ、24・・・リムーバブルメディア

Claims (5)

  1. 表示画像を表示する表示部と、
    前記表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力部と、
    前記音声入力部に入力された前記音声信号に基づいて、前記鑑賞者が発した音声から1以上の単語を識別し、識別した前記1以上の単語をキーワードとして取得する取得部と、
    前記取得部により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる制御部と、
    前記取得部により取得された前記キーワードの出現回数を算出するカウント部と、
    前記表示画像のデータと前記キーワードと前記キーワードの出現回数を対応付けてメタデータとして記憶する記憶部と、
    を備え、
    前記制御部は、前記表示画像のメタデータに基づいて、新たなキーワードを発生する発生部を有し、前記新たなキーワードを、前記キーワードから導き出される情報として、前記表示画像とともに前記表示部に表示させる
    ことを特徴とする画像表示装置。
  2. 前記制御部は、前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、演出効果を伴う表示形態で、前記表示画像とともに前記表示部に表示させる、請求項1に記載の画像表示装置。
  3. 前記表示画像から人物の顔を検出する検出部をさらに備え、
    前記制御部は、
    前記検出部が前記顔の検出に成功した場合、前記表示画像において、検出された前記顔の口から、前記キーワードを含む情報又は前記キーワードから導かれる情報の文字列が配置された吹き出しを表示させ、
    前記検出部が前記顔の検出に失敗した場合、前記表示画像内の所定領域に、前記キーワードを含む情報又は前記キーワードから導かれる情報を表示させる、
    請求項1又は2何れか1項に記載の画像表示装置。
  4. 表示画像を表示部に表示させるステップと、
    前記表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力するステップと、
    前記入力された前記音声信号に基づいて、前記鑑賞者が発した音声から1以上の単語を識別し、識別した前記1以上の単語をキーワードとして取得するステップと、
    前記取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させるステップと、
    前記取得された前記キーワードの出現回数を算出するステップと、
    前記表示画像のデータと前記キーワードと前記キーワードの出現回数を対応付けてメタデータとして記憶するステップと、
    取得された前記キーワード、及び、新たなキーワードを発生するステップと、
    発生された前記新たなキーワードを、前記キーワードから導き出される情報として、前記表示画像とともに前記表示部に表示させるステップと、
    を含むことを特徴とする画像表示方法。
  5. コンピュータに、
    表示画像を表示部に表示させる第1表示制御機能と、
    前記表示部に表示された表示画像を観賞する鑑賞者が発した音声の音声信号を入力する音声入力制御機能と、
    前記音声入力制御機能の制御処理により入力された前記音声信号に基づいて、前記鑑賞者が発した音声から1以上の単語を識別し、識別した前記1以上の単語をキーワードとして取得する取得機能と、
    前記取得機能の処理により取得された前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる第2表示制御機能と、
    前記取得機能により取得された前記キーワードの出現回数を算出するカウント機能と、
    前記表示画像のデータと前記キーワードと前記キーワードの出現回数を対応付けてメタデータとして記憶する記憶機能と、
    前記カウント機能により算出された前記出現回数が閾値を超えた前記キーワードを含む情報又は前記キーワードから導かれる情報を、前記表示画像とともに前記表示部に表示させる表示制御機能と、
    を実現させるためのプログラム。
JP2009218784A 2009-09-24 2009-09-24 画像表示装置及び方法並びにプログラム Expired - Fee Related JP4930564B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009218784A JP4930564B2 (ja) 2009-09-24 2009-09-24 画像表示装置及び方法並びにプログラム
US12/888,725 US8793129B2 (en) 2009-09-24 2010-09-23 Image display device for identifying keywords from a voice of a viewer and displaying image and keyword

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009218784A JP4930564B2 (ja) 2009-09-24 2009-09-24 画像表示装置及び方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2011070267A JP2011070267A (ja) 2011-04-07
JP4930564B2 true JP4930564B2 (ja) 2012-05-16

Family

ID=43757402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009218784A Expired - Fee Related JP4930564B2 (ja) 2009-09-24 2009-09-24 画像表示装置及び方法並びにプログラム

Country Status (2)

Country Link
US (1) US8793129B2 (ja)
JP (1) JP4930564B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6295494B2 (ja) * 2013-04-19 2018-03-20 株式会社ドワンゴ 端末装置、コメント配信システム、及びプログラム
KR102155482B1 (ko) 2013-10-15 2020-09-14 삼성전자 주식회사 디스플레이장치 및 그 제어방법
KR101709961B1 (ko) * 2015-02-09 2017-02-27 김남주 언어 노출 정도 모니터링 장치 및 방법
CN106383740A (zh) * 2016-09-12 2017-02-08 深圳市金立通信设备有限公司 一种系统切换方法及终端
US11171905B1 (en) * 2016-10-17 2021-11-09 Open Invention Network Llc Request and delivery of additional data
JP6893606B2 (ja) * 2017-03-20 2021-06-23 達闥机器人有限公司 画像のタグ付け方法、装置及び電子機器
US10642846B2 (en) * 2017-10-13 2020-05-05 Microsoft Technology Licensing, Llc Using a generative adversarial network for query-keyword matching
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
JP7166139B2 (ja) * 2018-10-23 2022-11-07 東京瓦斯株式会社 情報処理システムおよびプログラム
KR20200057426A (ko) * 2018-11-16 2020-05-26 삼성전자주식회사 음성 인식 기반 이미지를 표시하는 전자 장치

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044365A (en) * 1993-09-01 2000-03-28 Onkor, Ltd. System for indexing and retrieving graphic and sound data
JPH11120185A (ja) * 1997-10-09 1999-04-30 Canon Inc 情報処理装置及びその方法
FI981127A (fi) * 1998-05-20 1999-11-21 Nokia Mobile Phones Ltd Ääniohjausmenetelmä ja äänellä ohjattava laite
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
CN1343337B (zh) * 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
US6976229B1 (en) * 1999-12-16 2005-12-13 Ricoh Co., Ltd. Method and apparatus for storytelling with digital photographs
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
US7447624B2 (en) * 2001-11-27 2008-11-04 Sun Microsystems, Inc. Generation of localized software applications
JP2003345379A (ja) * 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム
US20040059996A1 (en) * 2002-09-24 2004-03-25 Fasciano Peter J. Exhibition of digital media assets from a digital media asset management system to facilitate creative story generation
US7272562B2 (en) * 2004-03-30 2007-09-18 Sony Corporation System and method for utilizing speech recognition to efficiently perform data indexing procedures
US7574453B2 (en) * 2005-01-03 2009-08-11 Orb Networks, Inc. System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
JP2006195637A (ja) * 2005-01-12 2006-07-27 Toyota Motor Corp 車両用音声対話システム
KR101329266B1 (ko) * 2005-11-21 2013-11-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 관련된 오디오 반주를 찾도록 디지털 영상들의 컨텐트특징들과 메타데이터를 사용하는 시스템 및 방법
US20070174326A1 (en) * 2006-01-24 2007-07-26 Microsoft Corporation Application of metadata to digital media
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7849078B2 (en) * 2006-06-07 2010-12-07 Sap Ag Generating searchable keywords
JP4736982B2 (ja) * 2006-07-06 2011-07-27 株式会社デンソー 作動制御装置、プログラム
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
CA2567505A1 (en) * 2006-11-09 2008-05-09 Ibm Canada Limited - Ibm Canada Limitee System and method for inserting a description of images into audio recordings
US8316302B2 (en) * 2007-05-11 2012-11-20 General Instrument Corporation Method and apparatus for annotating video content with metadata generated using speech recognition technology
JP4894639B2 (ja) 2007-06-06 2012-03-14 カシオ計算機株式会社 画像再生装置及びプログラム
US20090002497A1 (en) * 2007-06-29 2009-01-01 Davis Joel C Digital Camera Voice Over Feature
JP2009058834A (ja) * 2007-08-31 2009-03-19 Fujifilm Corp 撮像装置
US20090092340A1 (en) * 2007-10-05 2009-04-09 Microsoft Corporation Natural language assistance for digital image indexing
US8385588B2 (en) * 2007-12-11 2013-02-26 Eastman Kodak Company Recording audio metadata for stored images
US8037070B2 (en) * 2008-06-25 2011-10-11 Yahoo! Inc. Background contextual conversational search
US8745478B2 (en) * 2008-07-07 2014-06-03 Xerox Corporation System and method for generating inspiration boards
JP4873018B2 (ja) * 2009-01-09 2012-02-08 ソニー株式会社 データ処理装置、データ処理方法、及び、プログラム
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
US8935204B2 (en) * 2009-08-14 2015-01-13 Aframe Media Services Limited Metadata tagging of moving and still image content

Also Published As

Publication number Publication date
US8793129B2 (en) 2014-07-29
JP2011070267A (ja) 2011-04-07
US20110071832A1 (en) 2011-03-24

Similar Documents

Publication Publication Date Title
JP4930564B2 (ja) 画像表示装置及び方法並びにプログラム
US7636662B2 (en) System and method for audio-visual content synthesis
CN103559214B (zh) 视频自动生成方法及装置
KR101826714B1 (ko) 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법
KR101492816B1 (ko) 애니메이션 립싱크 자동화 장치 및 방법
CN112840398A (zh) 将音频内容变换为图像
WO2009075754A1 (en) Recording audio metadata for stored images
JP2005215689A5 (ja)
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
JP2001083987A (ja) 記号挿入装置およびその方法
JP2006251898A (ja) 情報処理装置、情報処理方法およびプログラム
JP2004021920A5 (ja)
JP2019003585A (ja) 要約映像生成装置およびそのプログラム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008084021A (ja) 動画シナリオ生成方法、プログラムおよび装置
CN107004404A (zh) 信息提供系统
JP2002108382A (ja) リップシンクを行うアニメーション方法および装置
US10460178B1 (en) Automated production of chapter file for video player
JP3081108B2 (ja) 話者分類処理装置及び方法
JP6641680B2 (ja) 音声出力装置、音声出力プログラムおよび音声出力方法
WO2023142413A1 (zh) 音频数据处理方法、装置、电子设备、介质和程序产品
CN114363531B (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
JP7119857B2 (ja) 編集プログラム、編集方法および編集装置
JP6528484B2 (ja) 画像処理装置、アニメーション生成方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees