JP6046393B2

JP6046393B2 - 情報処理装置、情報処理システム、情報処理方法および記録媒体

Info

Publication number: JP6046393B2
Application number: JP2012141596A
Authority: JP
Inventors: 高木　剛; 剛高木; 村林　昇; 昇村林
Original assignee: Saturn Licensing LLC
Current assignee: Saturn Licensing LLC
Priority date: 2012-06-25
Filing date: 2012-06-25
Publication date: 2016-12-14
Anticipated expiration: 2032-06-25
Also published as: CN103514248B; US9131207B2; JP2014006680A; US20140010518A1; CN103514248A

Description

本開示は、蓄積されたビデオコンテンツを使った処理を行う情報処理装置、情報処理システム、情報処理方法および記録媒体に関する。

放送番組などのビデオコンテンツを蓄積するビデオ記録装置が、開発され実用化されている。例えば、ハードディスクを記録媒体として使用したビデオ記録装置が各種製品化されている。この種のビデオ記録装置は、近年のハードディスクの大容量化に伴って、蓄積可能なビデオコンテンツの容量が増える傾向にある。例えば、２Ｔバイトの記録容量のハードディスクを備えたビデオ記録装置は、千時間を越えるビデオコンテンツが蓄積可能である。

この種のビデオ記録装置は、記録したビデオコンテンツのタイトルや記録日時などの情報を保持し、タイトルリストを表示する機能を備える。そして、タイトルリストを確認したユーザは、そのタイトルリストから視聴したいコンテンツを選択する操作を行うことで、ビデオ記録装置が蓄積したコンテンツを再生する。

特許文献１には、ビデオ記録装置が蓄積したコンテンツの字幕などのテキスト情報を抽出すると共に外部から配信されるキーワードを取得する技術についての記載がある。そして、特許文献１には、その取得したキーワードの重要度を計算し、重要なキーワードがテキスト情報に含まれるコンテンツを、ビデオ記録装置が蓄積したコンテンツから探し出す技術についての記載がある。
この特許文献１に記載されるように、ビデオ記録装置が外部から配信されるキーワードを取得することで、例えばビデオ記録装置が最近話題になっている事象を扱ったコンテンツを自動的に探し出して、ユーザに提示することが可能になる。

特開２００８−２１９３４２号公報

ところで、特許文献１に記載されるようなコンテンツの提示は、外部から配信されるキーワードによる検索に依存している。このためビデオ記録装置は、必ずしもユーザが視聴したいコンテンツを探し出すとは限らない。すなわち、外部から配信されるキーワードとしては、最近話題になっている人名や、最近行われたイベント名などの、流行を反映したキーワードが想定される。このため、特許文献１に記載されたコンテンツの提示は、例えばニュース映像のコンテンツから話題のシーンを取り出すような用途には好適であっても、ビデオコンテンツの種類によっては、コンテンツ自体が全く検索対象にならない可能性がある。

本開示の目的は、情報処理装置が蓄積したコンテンツを検索する処理が適切に行える情報処理装置、情報処理システム、情報処理方法および記録媒体を提供することにある。

本開示の情報処理装置は、ビデオコンテンツを蓄積するコンテンツ蓄積部と、特徴抽出処理部と、単語情報取得部と、コンテンツ検索部とを備える。
特徴抽出処理部は、コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る。
単語情報取得部は、カメラが撮影した画像から識別した単語情報をクラスタリング処理して得られた分類された単語情報を取得する。
コンテンツ検索部は、単語情報取得部が取得した分類された単語情報と、特徴抽出処理部が取得した単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索する。

本開示の情報処理システムは、カメラ部を有するカメラ付き端末装置と、このカメラ付き端末装置と通信が可能で、ビデオコンテンツを蓄積するコンテンツ蓄積部を有するビデオコンテンツ記録装置とよりなる。
そして、カメラ付き端末装置とビデオコンテンツ記録装置のいずれか一方が、画像認識部とクラスタリング処理部と特徴抽出処理部とコンテンツ検索部を備える。
画像認識部は、カメラ付き端末装置のカメラ部が撮影した画像から単語情報を得る。
クラスタリング処理部は、画像認識部が得た単語情報をクラスタリングして分類された単語情報を得る。
特徴抽出処理部は、コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る。
コンテンツ検索部は、クラスタリング処理部で得られた分類された単語情報と、特徴抽出処理部が取得した単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索する。

本開示の情報処理方法は、コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理を行う。また、カメラが撮影した画像から単語情報を得る画像認識処理を行い、その画像認識処理で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理を行う。さらに、クラスタリング処理で得た分類された単語情報と、特徴抽出処理で取得された単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索処理を行う。

本開示の記録媒体は、コンピュータに実行させるためのプログラムを記録した記録媒体であり、以下の手順（ａ）〜（ｄ）をコンピュータに実行させる。
（ａ）コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出手順。
（ｂ）カメラが撮影した画像から単語情報を得る画像認識手順。
（ｃ）画像認識手順で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング手順。
（ｄ）クラスタリング手順で得た分類された単語情報と、特徴抽出手順で取得された単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索手順。

本開示によると、コンテンツ蓄積部が蓄積したビデオコンテンツの検索が、カメラが撮影した画像から得た単語情報をクラスタリングした結果と、蓄積したビデオコンテンツから得た単語情報とに基づいて行われる。このため、コンテンツ蓄積部を備える装置は、蓄積したビデオコンテンツの中から、カメラが撮影した画像の内容に関連したビデオコンテンツを検索して、ユーザに提示できるようになる。

本開示によると、コンテンツ蓄積部を備える装置は、蓄積したビデオコンテンツの中から、カメラが撮影した画像の内容に関連したビデオコンテンツを検索して、ユーザに提示することができる。このため、ユーザがカメラ付き端末装置を使用して、興味のある画像を撮影するだけで、コンテンツ蓄積部を備える装置が、自動的にその画像で示された各種情報に関連したビデオコンテンツをユーザに提示できるようになる。

本発明の一実施の形態によるシステム構成例を示す説明図である。本発明の一実施の形態によるビデオ記録装置の構成例を示すブロック図である。本発明の一実施の形態によるカメラ付き端末装置の構成例を示すブロック図である。本発明の一実施の形態による処理の概要の例を示す説明図である。本発明の一実施の形態による処理例を示すフローチャートである。本発明の一実施の形態によるクラスタリング処理の例を示す説明図である。本発明の一実施の形態によるコンテンツ検索処理の例を示す説明図である。本発明の一実施の形態による類似度の判断例を示す説明図である。本発明の一実施の形態の変形例１（画像の内容から特徴を抽出する例）の概要を示す説明図である。変形例１による処理を示すフローチャートである。変形例１によるクラスタリング処理を示す説明図である。本発明の一実施の形態の変形例２（画像により処理を変更する例）を示すフローチャートである。変形例２による比較処理の例を示す説明図である。

本開示の一実施の形態に係る情報処理装置、情報処理システム、情報処理方法および記録媒体の例を、図面を参照しながら、以下の順で説明する。
１．システム全体の構成例（図１）
２．ビデオ記録装置の構成例（図２）
３．カメラ付き端末装置の構成例（図３）
４．処理の流れの例（図４〜図８）
５．変形例１（図９〜図１１）
６．変形例２（図１２〜図１３）
７．その他の変形例

［１．システム全体の構成例］
図１は、本開示の一実施の形態に係る情報処理システム全体の例を示す図である。
本開示の情報処理システムは、ビデオコンテンツを蓄積するビデオ記録装置１００と、そのビデオ記録装置１００が蓄積したビデオコンテンツを表示する表示装置３００とを備える。ビデオ記録装置１００は、大容量の記録媒体を備え、多数のビデオコンテンツ（放送番組、映画、動画サイトから取得した動画など）を蓄積する。ビデオ記録装置１００と表示装置３００とは、一体化してもよい。

ビデオ記録装置１００は、カメラ付き端末装置２００と有線または無線で接続が可能である。カメラ付き端末装置２００には、例えばスマートフォンと称される携帯電話端末装置が使用される。このカメラ付き端末装置２００が内蔵したカメラ機能を利用して、ユーザは、興味のある書籍（雑誌），パンフレット，掲示物，展示物などを撮影する。そして、カメラ付き端末装置２００は、撮影して得た画像を解析して、単語情報を取得し、その取得した単語情報を、ビデオ記録装置１００に送信する。なお、ここでの単語情報には、単語そのものの情報（テキストデータ）の他に、その単語をクラス分けしたクラスに関する情報が含まれる。

一方、ビデオ記録装置１００は、蓄積したビデオコンテンツから特徴となる画像または音声から単語情報を得るコンテンツの特徴抽出処理を行う。そして、ビデオ記録装置１００が、カメラ付き端末装置２００から送信された単語情報と、特徴抽出処理で得られた単語情報とを比較して、類似度を算出する。さらに、ビデオ記録装置１００は、その算出した類似度に基づいて、ビデオ記録装置１００が蓄積した複数のビデオコンテンツからユーザに視聴を推薦するタイトルを選び出し、その選び出したタイトルよりなるタイトルリストを作成する。ビデオ記録装置１００が作成したタイトルリストは、表示装置３００に表示される。

なお、カメラ付き端末装置２００が画像から単語情報を取得する処理を行うのは１つの例であり、例えばビデオ記録装置１００が、カメラ付き端末装置２００から伝送された画像から単語情報を取得する処理を行うようにしてもよい。あるいは、ビデオ記録装置１００またはカメラ付き端末装置２００がインターネット９０に接続可能である場合、インターネット９０に接続されたサーバ４００が、画像を解析して、単語情報を取得するようにしてもよい。また、ビデオ記録装置１００またはカメラ付き端末装置２００が解析を行う場合でも、ビデオ記録装置１００またはカメラ付き端末装置２００が、解析に必要な情報をサーバ４００から取得するようにしてもよい。

［２．ビデオ記録装置の構成例］
図２は、ビデオ記録装置１００の構成例を示す図である。ビデオ記録装置１００は、アンテナ１０１が接続されたチューナ１０２を備える。チューナ１０２は、テレビジョン放送信号を受信する。チューナ１０２が受信して得たテレビジョン放送信号は、記録処理部１０４に供給され、記録処理部１０４で記録用の処理が施された信号が、ビデオコンテンツとして記録媒体１２０に記録される。記録媒体１２０には、ハードディスクドライブ装置やフラッシュメモリなどが使用される。記録媒体１２０が記録するビデオコンテンツは、例えばユーザが録画予約した放送番組や、予め設定された条件で自動的に番組表などから検索された放送番組などである。あるいは、記録媒体１２０が非常に大容量である場合には、指定されたチャンネルの放送番組を常時記録するようにしてもよい。
また、ビデオ記録装置１００は、ディスクドライブ部１３０を備え、ディスクドライブ部１３０に装着されたディスク状記録媒体１３１が、ビデオコンテンツの記録を行うこともできる。

また、ビデオ記録装置１００は、ネットワークインターフェース部１０３を備え、所定のネットワークを経由してインターネット９０に接続可能である。このネットワークインターフェース部１０３が外部から受信したビデオコンテンツが、記録媒体１２０またはディスク状記録媒体１３１に記録される。
なお、記録媒体１２０は、記録したビデオコンテンツを解析した結果のデータを記録したデータベースを含んでいる。このビデオコンテンツを解析する処理は、システムコントローラ１１０の制御下で、画像音声特徴抽出部１１１が実行する。

また、再生処理部１０８は、記録媒体１２０に記録されたビデオコンテンツを再生処理して、画像データおよび音声データを得る。この再生処理で得られた画像データおよび音声データが、表示処理部１０９を介して外部の表示装置３００に供給される。表示装置３００は、供給される画像データによる画像を表示パネルが表示する。供給される音声データに基づく音声は、スピーカから出力される。また、情報処理部１０５がコンテンツリストなどの作成処理を行った場合には、表示処理部１０９は、コンテンツリストなどを表示させる画像データを作成して、その作成した画像データを表示装置３００に供給する。

また、ビデオ記録装置１００は、端末インターフェース部１０６により、カメラ付き端末装置２００とデータ転送を行うことができる。この端末インターフェース部１０６は、有線のケーブルによる通信または無線通信でカメラ付き端末装置２００と接続してデータ転送を行うことができる。本開示の例では、カメラ付き端末装置２００は、ビデオ記録装置１００に単語情報を伝送する。したがって、端末インターフェース部１０６が、カメラ付き端末装置２００から単語情報を取得する単語情報取得部として機能する。
なお、カメラ付き端末装置２００とビデオ記録装置１００とのデータ転送を行う際には、ネットワークインターフェース部１０３がインターネット９０を経由して行うようにしてもよい。

画像音声特徴抽出部１１１は、記録媒体１２０が記録したビデオコンテンツの画像や音声などから特徴を抽出して、その抽出した特徴から単語を取得する。そして、画像音声特徴抽出部１１１が、取得した単語をクラス分けした単語情報とし、その単語情報をデータベース化し、記録媒体１２０に記録する。
情報処理部１０５は、データベースとして記録媒体１２０に記録されている各ビデオコンテンツの単語情報と、カメラ付き端末装置２００から伝送される単語情報とを比較して、類似度が高いビデオコンテンツを検索する処理を行う。そして、情報処理部１０５は、その検索した結果に基づいて、ユーザに再生を推薦するコンテンツを一覧で示したコンテンツリストを作成する。あるいは、情報処理部１０５が検索した結果をシステムコントローラ１１０が取得して、システムコントローラ１１０が、最も類似度が高いビデオコンテンツを自動的に再生するようにしてもよい。

なお、ビデオ記録装置１００内の各処理部は、コントロールバス１４１を介してシステムコントローラ１１０と制御指令などのやり取りを行うと共に、データバス１４２を介してデータ転送を行うようにしている。コントロールバス１４１およびデータバス１４２には、メモリ１０７が接続されており、システムコントローラ１１０などが処理を行う際に、メモリ１０７がデータの一時記憶を行う。また、メモリ１０７には、システムコントローラ１１０が実行するプログラムが記憶される。そして、ビデオ記録装置１００の起動時などに、システムコントローラ１１０がメモリ１０７に記憶されたプログラムを実行することで、ビデオ記録装置１００がプログラムで指示された通りに作動する。本実施の形態の例で説明するビデオコンテンツの検索処理についても、システムコントローラ１１０がメモリ１０７に記憶されたプログラムを実行することで行われる。

［３．カメラ付き端末装置の構成例］
図３は、カメラ付き端末装置２００の構成例を示す図である。本開示のカメラ付き端末装置２００は、スマートフォンと称される携帯電話端末装置に適用した例である。
カメラ付き端末装置２００は、アンテナ２０１が接続された無線通信部２０２を備える。無線通信部２０２は、システムコントローラ２１０の制御下で、無線電話用の基地局と無線信号の送信及び受信の処理を行う。システムコントローラ２１０は、コントロールバス２３１およびデータバス２３２を介してカメラ付き端末装置２００内の各部と指令やデータなどの転送を行う。

メモリ２１１には、プログラムなどの予め用意されたデータが記憶されると共に、ユーザ操作により生成されたデータが記憶される。このユーザ操作により生成されたデータには、カメラ部２２０が撮影した画像データや、その画像データを解析して得た単語情報などがある。

カメラ付き端末装置２００が音声通話を行う際には、無線通信部２０２が受信した通話用の音声データが、音声処理部２０５に供給される。音声処理部２０５は、供給される音声データの復調処理を行い、アナログ音声信号を得る。音声処理部２０５で得られたアナログ音声信号がスピーカ２０６に供給され、スピーカ２０６から音声が出力される。
また、音声通話時に、音声処理部２０５は、マイクロフォン２０７が出力した音声信号を送信フォーマットの音声データに変換する。そして、音声処理部２０５で変換された音声データが無線通信部２０２に供給され、無線通信部２０２に供給される音声データが、パケット化されてアンテナ２０１から無線送信される。

カメラ付き端末装置２００がインターネット等のネットワークを経由したデータ通信やメールの送受信を行う場合には、システムコントローラ２１０の制御下で、無線通信部２０２が送信や受信の処理を行う。例えば、無線通信部２０２で受信したデータがメモリ２１１に記憶され、システムコントローラ２１０の制御によって、記憶データに基づいた表示などの処理が行われる。また、メモリ２１１が記憶したデータが無線通信部２０２に供給され、無線送信される。

また、カメラ付き端末装置２００は、表示処理部２１４と、表示処理部２１４による駆動で表示を行う表示パネル２１５を備える。表示パネル２１５には、タッチパネルが一体化されている。また、カメラ付き端末装置２００は、外部インターフェース部２０８を備え、ビデオ記録装置１００などの外部機器とデータ転送を行うことができる。

さらに、カメラ付き端末装置２００は、カメラ部２２０を備える。カメラ部２２０は、ユーザ操作に基づいて、静止画像または動画像の撮影を行う。
カメラ部２２０が撮影して得た画像データは、メモリ２１１に記憶される。この場合、カメラ付き端末装置２００は、撮影して得た画像データに対する各種処理を行う画像処理部２１２を備え、この画像処理部２１２で処理された画像データがメモリ２１１に記憶される。画像処理部２１２は、後述する画像解析処理も実行する。画像処理部２１２が解析する画像データが、動画像データなどの音声データ付きの画像データである場合には、画像処理部２１２が音声データの解析も行う。

画像処理部２１２が画像や音声の解析を行った場合、解析した結果の情報は、情報処理部２１３に供給される。情報処理部２１３は、システムコントローラ２１０の制御下で、画像や音声の解析結果から、画像や音声に関連した単語情報を取得する。また、情報処理部２１３は、その取得した単語情報を分類するクラスタリング処理を行う。クラスタリング処理が行われた単語情報は、メモリ２１１に記憶される。メモリ２１１に記憶されたクラスタリング処理が行われた単語情報は、システムコントローラ２１０の制御下で、ビデオ記録装置１００に伝送される。

なお、カメラ付き端末装置２００は、アンテナ２０３が接続された近距離無線通信部２０４を備え、この近距離無線通信部２０４による無線通信で、近隣の他の装置やアクセスポイントとデータ転送を行うことができる。近距離無線通信部２０４は、例えばＩＥＥＥ８０２．１１規格として規定された無線ＬＡＮ（Local Area Network）方式を適用して、例えば数十ｍ程度の範囲内の相手と無線通信を行う。この近距離無線通信部２０４を使用した無線通信は、例えばカメラ付き端末装置２００がインターネットにアクセスする際に使用される。
また、近距離無線通信部２０４を使用した無線通信は、カメラ付き端末装置２００がビデオ記録装置１００とデータ伝送を行う際にも使用される。すなわち、上述したようにカメラ付き端末装置２００は、外部インターフェース部２０８を経由してビデオ記録装置１００とデータ伝送を行うようにした。この外部インターフェース部２０８を経由した経路でのデータ伝送ができない場合に、近距離無線通信部２０４がビデオ記録装置１００と無線通信を行う。

［４．処理の流れの例］
次に、図４〜図８を参照して、本開示のシステムで行われる処理について説明する。なお、以下に説明するそれぞれの処理を行う装置の割り当ては一例であり、システム内の他の装置、あるいはインターネット上のサーバなどが、それぞれの処理を行うようにしてもよい。
図４は、処理の概要を示す図である。例えば、カメラ付き端末装置２００を所持したユーザは、気に入った情報が文字で記載された書籍や雑誌などを見つけたとき、カメラ付き端末装置２００のカメラ部２２０で、書籍や雑誌などの該当するページを撮影して、画像１１を得る。画像は静止画像が好ましいが、動画像でもよい。撮影を行う対象は、雑誌やパンフレットなど、ユーザが気に入った情報や、興味を持った情報が記載されたものなど、どのようなものでもよい。また、書籍や雑誌などの印刷物以外でも、掲示物や展示物など、興味を持った様々なものを、ユーザが撮影してもよい。

そして、カメラ付き端末装置２００が、カメラ部２２０が撮影して得られた画像に対して、文字認識処理１２を行う。この文字認識処理１２は、カメラ付き端末装置２００の画像処理部２１２が行う。この文字認識処理１２を行うことで、画像１１内の文字が、テキストデータ化される。例えば、書籍の特定の頁を撮影した画像１１が得られたとき、文字認識処理１２は、その書籍の該当する頁に記載された文字をテキストデータ化する。
次に、カメラ付き端末装置２００内の情報処理部２１３が、文字認識処理１２で得られたテキストデータについて、形態素解析処理１３を行う。形態素解析処理は、テキストデータから単語を抽出する処理を行う。さらに、カメラ付き端末装置２００内の情報処理部２１３が、テキストデータから抽出された単語を種類ごとに分類するクラスタリング処理１４を行う。この場合に、クラスタリング処理１４が分類するクラスについての情報は、例えばサーバ４００から取得する。その後、カメラ付き端末装置２００は、クラスタリング処理１４が行われた単語情報を、ビデオ記録装置１００に伝送する。

ビデオ記録装置１００は、記録媒体１２０に蓄積されたビデオコンテンツの解析を行う。すなわち、ビデオ記録装置１００は、記録媒体１２０に蓄積されたビデオコンテンツの画像と音声の特徴を抽出する画像音声特徴抽出処理１５を行う。ここでの画像の特徴抽出処理は、例えば画像に付加された字幕やテロップなどの画像中の文字をテキストデータ化することによって行われる。音声の特徴抽出処理としては、音声データを音声認識処理でテキストデータ化することによって行われる。また、ビデオコンテンツに付加された情報（番組案内情報など）がある場合には、その付加された情報からテキストデータを得る。字幕などのデータが画像データとは別の付加データとして存在する場合には、付加データに含まれるテキストデータを取り出す。これらのテキストデータの取り出しは、ビデオ記録装置１００の画像音声特徴抽出部１１１が行う。

そして、ビデオ記録装置１００は、得られたそれぞれのテキストデータから単語を取り出し、ビデオコンテンツごとの単語情報を得る。このテキストデータからの単語情報の取得処理は、ビデオ記録装置１００の情報処理部１０５が行う。取得した単語情報は、例えば記録媒体１２０にデータベース化して記録しておく。
なお、この記録媒体１２０が蓄積したビデオコンテンツについての解析処理は、例えば記録媒体１２０が１つ１つのビデオコンテンツを蓄積した際に行う。あるいは、カメラ付き端末装置２００から単語情報の伝送があった際に、記録媒体１２０が蓄積した全てのビデオコンテンツについて、ビデオ記録装置１００が一括して行うようにしてもよい。

そして、ビデオ記録装置１００は、カメラ付き端末装置２００から伝送された単語情報と、記録媒体１２０が蓄積したビデオコンテンツから得た単語情報とを比較し、一致度などに基づいて対象となるビデオコンテンツを探し出すコンテンツ検索処理１６を行う。このコンテンツ検索処理１６は、ビデオ記録装置１００の情報処理部１０５が行う。ビデオ記録装置１００は、この検索で得られたビデオコンテンツの一覧を示すタイトルリストを作成し、そのタイトルリストを表示装置３００が表示する。そして、ユーザがタイトルリストからいずれかのビデオコンテンツを選択する操作を行うことで、ビデオ記録装置１００が該当するビデオコンテンツを再生する。ビデオ記録装置１００によって再生されたビデオコンテンツは、表示装置３００によって表示される。あるいは、ビデオ記録装置１００が、一致度に基づいて検出されたビデオコンテンツを自動的に再生するようにしてもよい。

図５は、図４に示した処理の流れをフローチャート化したものである。
図５のフローチャートに示した動作について、図６〜図８の具体的な処理の例を参照しながら説明する。
まず、ユーザが、カメラ付き端末装置２００の動作モードを、ビデオコンテンツを検索するための画像取得を行う動作モードに設定する。その動作モードが設定された状態で、ユーザは、カメラ付き端末装置２００を使用して、書籍などを撮影し、文字が記載された画像（静止画像または動画像）を取得する（ステップＳ１１）。カメラ付き端末装置２００は、画像を取得すると、画像認識処理で画像中の文字をテキストコードとして抽出する（ステップＳ１２）。

そして、カメラ付き端末装置２００は、抽出したテキストコードによる文字列を形態素解析し（ステップＳ１３）、コンテンツ検索に必要な単語を取得する。形態素解析は、テキストデータで示される文字列を、意味を持つ最小単位（形態素）に分割して、それぞれの形態素の品詞を判別するものである。このようにして判別された形態素から、ビデオコンテンツを検索するのに必要な単語を抽出する。さらに、カメラ付き端末装置２００は、抽出された単語について、クラスタリング処理を行う（ステップＳ１４）。

撮影した画像からの文字抽出処理と形態素解析処理とクラスタリング処理は、例えば図６に示すように実行される。
すなわち、ユーザが、流行の店の案内情報が記載された情報誌を撮影したとする。この撮影により、カメラ付き端末装置２００は画像１１ａを得る。このとき、文字認識処理１２では、その画像１１ａに記載された文字が、テキストデータ化される。
図６の例では、画像１１ａは、菓子店の情報を記載した情報誌の特定の頁を撮影したものであり、形態素解析では、菓子の名称，菓子店の所在地域，その他の名詞や形容詞などの単語が抽出される。
そして、クラスタリング処理１４では、抽出された単語が、クラスごとに分類される。例えば、形態素解析された単語が、お菓子の名称のクラス、地域のクラス、その他の名刺のクラス、形容詞のクラスなどに分類される。

カメラ付き端末装置２００が、このクラスタリング処理１４を行う際には、例えばカメラ付き端末装置２００が図１に示すサーバ４００と通信を行って、サーバ４００が持つクラスタリングについてのデータベース４０１を使用する。すなわち、サーバ４００に用意されたデータベース４０１として、様々な単語と、その単語が属するクラスについての情報を持つ。例えば、図６に示すデータベース４０１は、「お菓子」、「地域」、「野菜」、・・・のように様々なクラスごとに、そのクラスが属する単語の情報を持つ。例えば、「お菓子」のクラスでは、「シュークリーム」、「ショートケーキ」、「エクレア」、・・・のような様々なお菓子の名称の単語を記憶する。このようなデータベース４０１の情報を参照して、カメラ付き端末装置２００がクラスタリング処理１４を行う。なお、カメラ付き端末装置２００がクラスタリング処理用のデータベース４０１を持つようにしてもよい。

図５のフローチャートの説明に戻ると、クラスタリングされた単語情報は、ビデオ記録装置１００が蓄積したビデオコンテンツと関連付けするために、カメラ付き端末装置２００からビデオ記録装置１００に送る（ステップＳ１５）。このとき伝送する単語情報には、例えば図６に示したようなそれぞれの単語と、その単語が属するクラスの情報が含まれる。
そして、ビデオ記録装置１００では、記録媒体１２０が蓄積したビデオコンテンツの特徴抽出処理が行われる（ステップＳ１６）。なお、このステップＳ１６のビデオコンテンツの特徴抽出処理が行われる順序は一例であり、ビデオ記録装置１００が、その他のタイミングでビデオコンテンツの特徴抽出処理を行うようにしてもよい。また、このビデオコンテンツの特徴抽出処理を行った結果で得られた単語は、カメラ付き端末装置２００での処理と同様のクラスタリング処理が行われ、分類された単語情報になる。

その後、ビデオ記録装置１００は、ビデオコンテンツの特徴抽出処理で得た単語情報と、カメラ付き端末装置２００から伝送された単語情報とに基づいて、関連するビデオコンテンツを検索するコンテンツ検索処理を行う（ステップＳ１７）。例えば、ビデオ記録装置１００は、ビデオコンテンツの特徴抽出処理で得た単語情報と、カメラ付き端末装置２００から伝送された単語情報とを比較して、比較結果としての単語の一致度を使って、コンテンツ検索処理を行う。
そして、ビデオ記録装置１００のシステムコントローラ１１０は、コンテンツ検索処理で、記録媒体１２０が蓄積したビデオコンテンツの中から、候補となるビデオコンテンツが検索できたか否かを判断する（ステップＳ１８）。この判断で、候補となるビデオコンテンツが検索できた場合には、システムコントローラ１１０は、検索されたコンテンツのタイトルリストの作成指示を行い、ユーザに検索されたビデオコンテンツを告知する（ステップＳ１９）。そして、ステップＳ１８の判断で、候補となるビデオコンテンツが検索できなかった場合には、システムコントローラ１１０は、表示画像などで類似コンテンツがないことを警告する（ステップＳ２０）。

図７は、カメラ付き端末装置２００が撮影画像から得た単語に基づいて、ビデオ記録装置１００が、記録媒体１２０に蓄積されたビデオコンテンツを検索した場合の例を示す図である。
図７に示すように、クラスタリング処理された単語情報１４ａが、カメラ付き端末装置２００からビデオ記録装置１００に送信される。また、ビデオ記録装置１００は、記録媒体１２０が蓄積したあるビデオコンテンツ１２０ａを特徴抽出して、単語情報１５ａを得る。図７の例では、ビデオコンテンツ１２０ａを特徴抽出した単語情報１５ａは、１つのビデオコンテンツ１２０ａを分割したシーンごとに存在し、クラスタリング処理で分類された情報になっている。
すなわち、図７の例ではビデオコンテンツ１２０ａはニュース番組であり、ビデオコンテンツ１２０ａが、ニュース番組中の話題ごとにシーン１，シーン２，・・・と分割してある。そして、それぞれのシーンごとに、音声から検出された単語が、クラスタリング処理で分類した状態になっている。例えばシーン２の単語情報１５ａは、お菓子の分類の単語の出現回数が３回、地域の分類の単語の出現回数が３回となっている。

そして、ビデオ記録装置１００の情報処理部１０５は、カメラ付き端末装置２００から送信された単語情報と、それぞれのビデオコンテンツを特徴抽出した単語情報とを比較する。例えば、図７に示すように、ビデオ記録装置１００の情報処理部１０５は、撮影画像から得た単語情報１４ａと、ビデオコンテンツ１２０ａのシーンごとの単語情報（単語情報１５ａなど）とを比較して、コンテンツ検索処理１６を行う。ビデオ記録装置１００の情報処理部１０５は、このコンテンツ検索処理１６による比較で、一致する分類の単語の数に応じて、シーンごと（またはコンテンツごと）の類似度の判断を行い、その判断した類似度が高いシーンまたはコンテンツを選び出す。

図８は、シーンごとの類似度の判断の例を示す図である。
この例では、「お菓子」と「地域」の２つの分類を示す。
例えば、図８に示すように、カメラ付き端末装置２００が取得した画像は、「お菓子」の単語の出現回数が３回で、「地域」の単語の出現回数が１回であるとする。このとき、情報処理部１０５は、この３回ずつのそれぞれの単語と同じ分類の単語が、１つのビデオコンテンツのシーン１〜４に何回あるかを判断する。
図８に示すように、シーン２は、「お菓子」の単語の出現回数が３回で、「地域」の単語の出現回数が３回であり、その他のシーン１，３，４は、「お菓子」の単語と「地域」の単語の出現回数がいずれも０回であるとする。

このとき、撮影画像から得た単語情報と、それぞれのシーンから得た単語情報との類似度は、例えば以下の式で算出する。
［（ｘ・ｙ）＋（ａ・ｂ）］／［√（ａ^２＋ｂ^２）・√（ｘ^２＋ｙ^２）］
この式のａ、ｂ、ｘ、ｙは、次のように定義する。
ａ：撮影画像から得た「お菓子」の分類の単語の出現回数
ｂ：撮影画像から得た「地域」の分類の単語の出現回数
ｘ：各シーンの「お菓子」の分類の単語の出現回数
ｙ：各シーンの「地域」の分類の単語の出現回数

この類似度の演算を行うことで、シーン２の類似度は０．８９となり、シーン１，３，４の類似度は０になる。図８に示す計算例は、シーン２の類似度を上述した式で求める計算である。

ビデオ記録装置１００の情報処理部１０５は、このような類似度を求める処理を、記録媒体１２０が蓄積した全てのビデオコンテンツに対して行う。そして、情報処理部１０５は、類似度が閾値以上のビデオコンテンツ（またはそのビデオコンテンツのシーン）を、類似したコンテンツ（または類似したシーン）とする。
全てのコンテンツについての類似度の計算が終了すると、ビデオ記録装置１００のシステムコントローラ１１０は、このようにして選び出されたコンテンツのタイトルリストまたはシーンのリストの作成を指示し、表示装置３００が作成されたリストを表示する。

そして、ユーザは、このようにして表示されたリストから、所望のビデオコンテンツを選択する操作を行う。この操作をユーザが行うことで、ビデオ記録装置１００は、選択されたビデオコンテンツを再生し、表示装置３００が再生されたビデオコンテンツを表示する。
なお、検索結果に基づいてビデオ記録装置１００がタイトルリストを作成するのは１つの例であり、ビデオ記録装置１００がその他の処理を行うようにしてもよい。例えば、ビデオ記録装置１００でのコンテンツの検索に基づいて、ビデオ記録装置１００が、類似度が最も高いビデオコンテンツを自動的に再生してもよい。

以上説明したように、ユーザがカメラ付き端末装置２００を使用して撮影した画像から検出した単語情報に基づいて、ビデオ記録装置１００が蓄積したビデオコンテンツの検索を行うことで、ビデオコンテンツの適切な提示が可能になる。すなわち、蓄積したビデオコンテンツの内容をユーザが全く把握していなくても、ユーザが興味のある画像を撮影するだけで、ビデオ記録装置１００が自動的に関連したビデオコンテンツを探し出すようになる。したがって、ビデオ記録装置１００を使った楽しみ方を広げることができる。また、図７，図８に示した例のように、１つのビデオコンテンツ内の複数のシーンごとに類似度を比較することで、１つ１つのビデオコンテンツが比較的長時間のコンテンツであっても、ユーザが興味のあるシーンが直ぐに見つかるようになる。

［５．変形例１］
次に、図９〜図１１を参照して、本開示の一実施の形態の変形例（その１）を説明する。
図９は、この例での処理の概要を示す図である。先に説明した一実施の形態の例では、図４に示したように、カメラ付き端末装置２００が撮影した撮影画像に含まれる文字を、文字認識した例を示した。これに対して、図９の例では、カメラ付き端末装置２００が、撮影した撮影画像を画像認識して、画像内の物体の形状や色などを認識した結果から、文字情報を得るようにしたものである。

例えば図９に示すように、カメラ付き端末装置２００が、お菓子の写真が掲載された雑誌などを撮影した画像２１を得たとする。このとき、カメラ付き端末装置２００の画像処理部２１２が、画像特徴抽出処理１７を行うことで、画像内に写っているお菓子の名称を検出し、その菓子の名称のテキストデータを得る。
この画像から名称を検出する際には、例えばインターネット９０に接続されたサーバ４００に画像を送り、サーバ４００で検索するようにしてもよい。

そして、カメラ付き端末装置２００内の情報処理部２１３が、テキストデータから抽出された単語を種類ごとに分類するクラスタリング処理１４を行う。クラスタリング処理１４以降の処理は、図４で説明した処理と同じである。
なお、ビデオ記録装置１００が、ビデオコンテンツについての解析を行う画像音声特徴抽出処理１５を行う場合にも、カメラ付き端末装置２００での画像特徴抽出処理１７と同様に、画像内の物体の認識結果に基づいて、テキストデータを検出してもよい。

そして、ビデオ記録装置１００は、カメラ付き端末装置２００から伝送された単語情報と、記録媒体１２０が蓄積したビデオコンテンツから得た単語情報とを比較して、対象となるビデオコンテンツを探し出すコンテンツ検索処理１６を行う。ビデオ記録装置１００は、例えばこのコンテンツ検索処理１６で検索されたビデオコンテンツのタイトルリストを作成する。

図１０は、図９に示した処理の流れをフローチャート化したものである。この図９のフローチャートにおいて、図５のフローチャートと同じ処理には、同じステップ番号を付与し、説明を省略する。
図９のフローチャートでは、ステップＳ１１でカメラ付き端末装置２００が撮影した画像を取得した後、その画像から図９に示す画像特徴抽出処理１７を行って、画像内の物体の形状などから単語情報を得る（ステップＳ２１）。そして、カメラ付き端末装置２００は、そのように得られた単語のクラスタリング処理を行う（ステップＳ１４）。クラスタリング処理を行った後の処理は、図５のフローチャートと同じである。

撮影した画像からの単語抽出処理とクラスタリング処理は、例えば図１１に示すように実行される。
すなわち、カメラ付き端末装置２００を使用して、ユーザが、興味のあるお菓子や野菜の画像が複数記載された情報誌を撮影したとする。このとき、撮影した画像２１ａから、画像特徴抽出処理１７で、それぞれのお菓子や野菜の画像が抽出される。
さらに、クラスタリング処理１４′が行われることで、抽出された各画像が、お菓子のクラスの画像と、野菜のクラスの画像に分類される。

カメラ付き端末装置２００が、このクラスタリング処理１４′を行う際には、例えばカメラ付き端末装置２００が図１に示すサーバ４００と通信を行って、サーバ４００が持つ画像のクラスタリングについてのデータベース４０２を使用する。すなわち、サーバ４００に用意されたデータベース４０２として、様々な単語に対応した画像と、その単語の画像が属するクラスについての情報を持つ。例えば、図１１に示すデータベース４０２は、「お菓子」、「野菜」、「自動車」、・・・のように様々なクラスごとに、そのクラスが属する単語の情報を持つ。なお、このデータベース４０２の情報が持つ各画像の特徴量には、カラーヒストグラムなどの色特徴、輝度特徴、テクスチャ特徴、エッジ特徴など様々な特徴量が考えられる。このような様々の特徴量を比較することで、撮影した画像中の物体を認識する処理を精度良く行うことができる。

この図９〜図１１で説明した処理を行うことで、ビデオ記録装置１００は、カメラ付き端末装置２００が撮影した画像の内容から抽出した単語情報に基づいて、ビデオコンテンツを検索することができる。このため、ユーザが興味を持ったものが記載された雑誌，カタログ，パンフレットなどをユーザが撮影することで、その撮影した物体と同じクラスの物体が記載されたビデオコンテンツを探すことができる。
また、画像の内容から単語情報を検出するため、カメラ付き端末装置２００が撮影する対象は、雑誌などの印刷物に限定されず、例えばユーザは、お菓子屋に並んだ実際のお菓子を撮影してもよい。あるいは、表示装置３００が表示したテレビジョン放送画面などを撮影してもよい。このように、様々な撮影画像の内容から単語情報を抽出することができる。

［６．変形例２］
次に、図１２〜図１３を参照して、本開示の一実施の形態の変形例（その２）を説明する。
この例は、図４などで説明した、カメラ付き端末装置２００が撮影した撮影画像に含まれる文字を、文字認識で検出する処理と、図９などで説明した、カメラ付き端末装置２００が撮影した撮影画像の内容から画像認識する処理とを組み合わせたものである。
図１２のフローチャートは、この場合の処理例を示す図である。この図１２のフローチャートにおいて、図５および図１０のフローチャートと同じ処理には、同じステップ番号を付与し、説明を省略する。

図１２のフローチャートの処理について説明すると、カメラ付き端末装置２００は、ステップＳ１１で撮影した画像を取得した後、その画像に含まれる文字を認識する文字認識処理と、画像内容を認識する画像認識処理とを行う（ステップＳ３１）。その後、カメラ付き端末装置２００は、認識した結果から、文字情報がメインであるか否かを判断する（ステップＳ３２）。この判断で、文字情報がメインな画像であると判断した場合には、カメラ付き端末装置２００は、抽出したテキストコードによる文字列を形態素解析し、コンテンツ検索に必要な単語を取得する（ステップＳ１３）。

また、ステップＳ３２の判断で、文字情報がメインでなく、画像情報がメインであると判断した場合には、カメラ付き端末装置２００は、画像特徴抽出処理を行って、画像内の物体の形状などから単語情報を得る（ステップＳ２１）。
そして、カメラ付き端末装置２００は、ステップＳ１３の形態素解析処理またはステップＳ２１の画像特徴抽出処理を行った後、抽出された単語について、クラスタリング処理を行う（ステップＳ１４）。クラスタリング処理を行った後は、図５のフローチャートと同じ処理が行われる。

図１２のフローチャートのステップＳ３２での、文字情報がメインであるか否かを判断する処理は、例えば図１３に示すように行う。すなわち、カメラ付き端末装置２００が画像３１の撮影を行ったとき、カメラ付き端末装置２００は、その画像３１に含まれる文字の形態素解析で得た名詞数と、画像３１に含まれる個々の画像の数とを比較する。ここでの個々の画像とは、図１３に示したように、「お菓子」の画像のような、画像認識で名詞が検出される画像である。
そして、カメラ付き端末装置２００は、数が多い方を主たる情報と判断し、その主たる文字情報をクラスタリング処理して、ビデオ記録装置１００に伝送する単語情報を得る。

このようにカメラ付き端末装置２００は、撮影した画像の文字情報がメインであるか否かを判断して処理を切り替えるようにしたことで、文字が多い画像を撮影した場合と、文字が少ない画像を撮影した場合のいずれにも対処できる効果を有する。

なお、図１２のフローチャートでは、カメラ付き端末装置２００は、メインであると判断した情報から単語情報を得るようにした。これに対して、カメラ付き端末装置２００は、その画像３１に含まれる文字の形態素解析で得た単語と、画像３１に含まれる個々の画像を認識して得た単語との双方とを、ビデオコンテンツを検索するための単語情報として使用するようにしてもよい。

［７．その他の変形例］
なお、上述した実施の形態の例では、カメラ付き端末装置２００が、撮影した画像から文字認識または画像認識で単語情報を取得して、その単語情報をビデオ記録装置１００に送るようにした。これに対して、例えばカメラ付き端末装置２００が撮影した画像をビデオ記録装置１００に送り、ビデオ記録装置１００が画像から文字認識または画像認識を行うようにしてもよい。あるいは、カメラ付き端末装置２００が撮影した画像をサーバ４００に送り、サーバ４００が文字認識または画像認識で単語情報を取得するようにしてもよい。単語情報をクラス分けするクラスタリング処理についても、いずれの装置１００，２００またはサーバ４００が行うようにしてもよい。

また、ビデオ記録装置１００が蓄積したビデオコンテンツの画像音声特徴抽出処理１５（図４など）についても、ビデオ記録装置１００以外の外部の装置、あるいはインターネットに接続されたサーバ４００が行うようにしてもよい。

また、上述した実施の形態の例では、ビデオ記録装置１００は、放送信号を受信して蓄積する装置とした。これに対して、本開示の処理は、その他のビデオコンテンツを蓄積可能な記録装置に適用してもよい。
また、カメラ付き端末装置２００は、スマートフォンと称される携帯電話端末装置に適用した例とした。これに対して、本開示の処理は、カメラ付きの端末装置であれば、その他の端末装置に適用してもよい。

また、図１に示すシステムでは、カメラ付き端末装置２００とビデオ記録装置１００との２つの装置を有するシステムとした。これに対して、カメラ付き端末装置２００がテレビジョン放送やダウンロードしたビデオコンテンツを蓄積する機能を有する場合に、カメラ付き端末装置２００が、撮影からビデオコンテンツの検索まで全ての処理を行うようにしてもよい。

また、上述した実施の形態の例で説明した類似度を判断する処理は、一例であり、ビデオ記録装置１００が、その他の処理で類似度を判断するようにしてもよい。例えば、上述した実施の形態の例では、ビデオ記録装置１００が、クラスごとの単語の出現頻度を比較するようにした。これに対して、ビデオ記録装置１００が、クラス分けを複数の階層で行うようにして、より精度の高い類似度の判断を行うようにしてもよい。具体的には、例えばクラスとして、大きな分類（例えば「食べ物」）と、その分類の下の階層の分類（例えば「お菓子」）と、さらにその分類の下の階層の分類（例えば「西洋菓子」）のように用意する。そして、ビデオ記録装置１００が類似度を判断する場合には、下の階層の類似度が高いものを、より類似度が高いものとして扱うようにする。
また、類似度を判断する場合に、クラスごとの単語の出現頻度だけではなく、その他の要因から、類似度を判断するようにしてもよい。
あるいは、ビデオ記録装置１００が、撮影した画像から得た単語情報と、蓄積したビデオコンテンツから得た単語情報とに基づいたその他の判断処理で、蓄積したビデオコンテンツから関連したビデオコンテンツを検索してもよい。

また、ビデオ記録装置１００がビデオコンテンツから単語情報を得る際には、ユーザによるビデオ記録装置１００の過去の使用状態を反映して、ユーザが好みと思われるクラスの単語を優先的に検索するようにしてもよい。カメラ付き端末装置２００が画像から単語情報を得る際にも、同様にユーザの使用状態を反映した、クラス分けを行うようにしてもよい。

また、上述した実施の形態の例では、ビデオ記録装置１００やカメラ付き端末装置２００が処理を行う例について説明した。これに対して、例えば各種データ処理を行うコンピュータ装置に、本開示の処理手順を行うプログラム（ソフトウェア）を実装させて、そのコンピュータ装置が、画像の解析や、蓄積したビデオコンテンツの検索を行うようにしてもよい。プログラムは、例えば各種記憶媒体に格納して用意すればよい。
さらに、本発明の請求項に記載した構成や処理は、上述した実施の形態の例に限定されるものではない。本発明の要旨を逸脱しない限り、種々の改変、組み合わせ、他の実施の形態例が生じうることは、当業者にとって当然のことと理解される。

なお、本開示は以下のような構成も取ることができる。
（１）
ビデオコンテンツを蓄積するコンテンツ蓄積部と、
前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
カメラが撮影した画像から識別した単語情報をクラスタリング処理して得られた分類された単語情報を取得する単語情報取得部と、
前記単語情報取得部が取得した分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部とを備えた
ビデオ記録装置。
（２）
前記特徴抽出処理部は、ビデオコンテンツの画像に含まれる字幕またはテロップから単語情報を取得する
前記（１）記載のビデオ記録装置。
（３）
前記特徴抽出処理部は、さらにビデオコンテンツの付加情報に含まれるテキスト情報から単語情報を取得する
前記（１）または（２）記載のビデオ記録装置。
（４）
前記単語情報取得部は、カメラが撮影した画像の文字認識処理で取得した単語情報をクラスタリング処理して分類された単語情報を取得する
前記（１）〜（３）のいずれか１項に記載のビデオ記録装置。
（５）
前記単語情報取得部は、カメラが撮影した画像中の物体の形状から、その物体名としての単語情報を取得する
前記（１）〜（３）のいずれか１項に記載のビデオ記録装置。
（６）
前記単語情報取得部が取得する単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
前記（１）〜（３）のいずれか１項に記載のビデオ記録装置。
（７）
カメラ部を有するカメラ付き端末装置と、該カメラ付き端末装置と通信が可能で、ビデオコンテンツを蓄積するコンテンツ蓄積部を有するビデオ記録装置とよりなり、
前記カメラ付き端末装置のカメラ部が撮影した画像から単語情報を得る画像認識部と、
前記画像認識部が得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理部と、
前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
前記クラスタリング処理部で得られた分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部を、
前記カメラ付き端末装置と前記ビデオ記録装置の何れか一方が備えた
情報処理システム。
（８）
コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理と、
カメラが撮影した画像から単語情報を得る画像認識処理と、
前記画像認識処理で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理と、
前記クラスタリング処理で得た分類された単語情報と、前記特徴抽出処理で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索処理とを含む
情報処理方法。
（９）
コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出手順と、
カメラが撮影した画像から単語情報を得る画像認識手順と、
前記画像認識手順で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング手順と、
前記クラスタリング手順で得た分類された単語情報と、前記特徴抽出手順で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索手順を、
コンピュータに実行させるためのプログラムを記録した
記録媒体。

１１…画像、１２…文字認識処理、１３…形態素解析処理、１４…クラスタリング処理、１５…画像音声特徴抽出処理、１６…コンテンツ検索処理、１７…画像特徴抽出処理、２１…画像、３１…画像、９０…インターネット、１００…ビデオ記録装置、１０１…アンテナ、１０２…チューナ、１０３…ネットワークインターフェース部、１０４…記録処理部、１０５…情報処理部、１０６…端末インターフェース部、１０７…メモリ、１０８…再生処理部、１０９…表示処理部、１１０…システムコントローラ、１１１…画像音声特徴抽出部、１２０…記録媒体、１３０…ディスクドライブ部、１４１…コントロールバス、１４２…データバス、２００…カメラ付き端末装置、２０１…アンテナ、２０２…無線通信部、２０３…アンテナ、２０４…近距離無線通信部、２０５…音声処理部、２０６…スピーカ、２０７…マイクロフォン、２０８…外部インターフェース部、２１０…システムコントローラ、２１１…メモリ、２１２…画像処理部、２１３…情報処理部、２１４…表示処理部、２１５…表示パネル、２２０…カメラ部、２３１…コントロールバス、２３２…データバス、３００…表示装置、４００…サーバ

Claims

ビデオコンテンツを蓄積するコンテンツ蓄積部と、
前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
カメラが撮影した画像から識別した単語情報をクラスタリング処理して得られた分類された単語情報を取得する単語情報取得部と、
前記単語情報取得部が取得した分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部とを備え、
前記単語情報取得部が取得する単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
情報処理装置。
前記特徴抽出処理部は、ビデオコンテンツの画像に含まれる字幕またはテロップから単語情報を取得する
請求項１記載の情報処理装置。
前記特徴抽出処理部は、さらにビデオコンテンツの付加情報に含まれるテキスト情報から単語情報を取得する
請求項１または２記載の情報処理装置。
前記単語情報取得部は、カメラが撮影した画像の文字認識処理で取得した単語情報をクラスタリング処理して分類された単語情報を取得する
請求項１〜３のいずれか１項に記載の情報処理装置。
前記単語情報取得部は、カメラが撮影した画像中の物体の形状から、その物体名としての単語情報を取得する
請求項１〜３のいずれか１項に記載の情報処理装置。
カメラ部を有するカメラ付き端末装置と、該カメラ付き端末装置と通信が可能で、ビデオコンテンツを蓄積するコンテンツ蓄積部を有するビデオ記録装置とよりなり、
前記カメラ付き端末装置のカメラ部が撮影した画像から単語情報を得る画像認識部と、
前記画像認識部が得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理部と、
前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
前記クラスタリング処理部で得られた分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部を、
前記カメラ付き端末装置と前記ビデオ記録装置の何れか一方が備え、
前記クラスタリング処理部が取得する単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
情報処理システム。
コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理と、
カメラが撮影した画像から単語情報を得る画像認識処理と、
前記画像認識処理で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理と、
前記クラスタリング処理で得た分類された単語情報と、前記特徴抽出処理で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索処理とを含み、
クラスタリング処理で得られる単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
情報処理方法。
コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出手順と、
カメラが撮影した画像から単語情報を得る画像認識手順と、
前記画像認識手順で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング手順と、
前記クラスタリング手順で得た分類された単語情報と、前記特徴抽出手順で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索手順を、
コンピュータに実行させるためのプログラムを記録し、
前記クラスタリング手順で得られる単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
記録媒体。