JP6046393B2 - 情報処理装置、情報処理システム、情報処理方法および記録媒体 - Google Patents

情報処理装置、情報処理システム、情報処理方法および記録媒体 Download PDF

Info

Publication number
JP6046393B2
JP6046393B2 JP2012141596A JP2012141596A JP6046393B2 JP 6046393 B2 JP6046393 B2 JP 6046393B2 JP 2012141596 A JP2012141596 A JP 2012141596A JP 2012141596 A JP2012141596 A JP 2012141596A JP 6046393 B2 JP6046393 B2 JP 6046393B2
Authority
JP
Japan
Prior art keywords
word information
image
camera
video content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012141596A
Other languages
English (en)
Other versions
JP2014006680A5 (ja
JP2014006680A (ja
Inventor
高木 剛
剛 高木
村林 昇
昇 村林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Saturn Licensing LLC
Original Assignee
Saturn Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Saturn Licensing LLC filed Critical Saturn Licensing LLC
Priority to JP2012141596A priority Critical patent/JP6046393B2/ja
Priority to US13/920,397 priority patent/US9131207B2/en
Priority to CN201310242489.9A priority patent/CN103514248B/zh
Publication of JP2014006680A publication Critical patent/JP2014006680A/ja
Publication of JP2014006680A5 publication Critical patent/JP2014006680A5/ja
Application granted granted Critical
Publication of JP6046393B2 publication Critical patent/JP6046393B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • H04N9/8715Regeneration of colour television signals involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal

Description

本開示は、蓄積されたビデオコンテンツを使った処理を行う情報処理装置、情報処理システム、情報処理方法および記録媒体に関する。
放送番組などのビデオコンテンツを蓄積するビデオ記録装置が、開発され実用化されている。例えば、ハードディスクを記録媒体として使用したビデオ記録装置が各種製品化されている。この種のビデオ記録装置は、近年のハードディスクの大容量化に伴って、蓄積可能なビデオコンテンツの容量が増える傾向にある。例えば、2Tバイトの記録容量のハードディスクを備えたビデオ記録装置は、千時間を越えるビデオコンテンツが蓄積可能である。
この種のビデオ記録装置は、記録したビデオコンテンツのタイトルや記録日時などの情報を保持し、タイトルリストを表示する機能を備える。そして、タイトルリストを確認したユーザは、そのタイトルリストから視聴したいコンテンツを選択する操作を行うことで、ビデオ記録装置が蓄積したコンテンツを再生する。
特許文献1には、ビデオ記録装置が蓄積したコンテンツの字幕などのテキスト情報を抽出すると共に外部から配信されるキーワードを取得する技術についての記載がある。そして、特許文献1には、その取得したキーワードの重要度を計算し、重要なキーワードがテキスト情報に含まれるコンテンツを、ビデオ記録装置が蓄積したコンテンツから探し出す技術についての記載がある。
この特許文献1に記載されるように、ビデオ記録装置が外部から配信されるキーワードを取得することで、例えばビデオ記録装置が最近話題になっている事象を扱ったコンテンツを自動的に探し出して、ユーザに提示することが可能になる。
特開2008−219342号公報
ところで、特許文献1に記載されるようなコンテンツの提示は、外部から配信されるキーワードによる検索に依存している。このためビデオ記録装置は、必ずしもユーザが視聴したいコンテンツを探し出すとは限らない。すなわち、外部から配信されるキーワードとしては、最近話題になっている人名や、最近行われたイベント名などの、流行を反映したキーワードが想定される。このため、特許文献1に記載されたコンテンツの提示は、例えばニュース映像のコンテンツから話題のシーンを取り出すような用途には好適であっても、ビデオコンテンツの種類によっては、コンテンツ自体が全く検索対象にならない可能性がある。
本開示の目的は、情報処理装置が蓄積したコンテンツを検索する処理が適切に行える情報処理装置、情報処理システム、情報処理方法および記録媒体を提供することにある。
本開示の情報処理装置は、ビデオコンテンツを蓄積するコンテンツ蓄積部と、特徴抽出処理部と、単語情報取得部と、コンテンツ検索部とを備える。
特徴抽出処理部は、コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る。
単語情報取得部は、カメラが撮影した画像から識別した単語情報をクラスタリング処理して得られた分類された単語情報を取得する。
コンテンツ検索部は、単語情報取得部が取得した分類された単語情報と、特徴抽出処理部が取得した単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索する。
本開示の情報処理システムは、カメラ部を有するカメラ付き端末装置と、このカメラ付き端末装置と通信が可能で、ビデオコンテンツを蓄積するコンテンツ蓄積部を有するビデオコンテンツ記録装置とよりなる。
そして、カメラ付き端末装置とビデオコンテンツ記録装置のいずれか一方が、画像認識部とクラスタリング処理部と特徴抽出処理部とコンテンツ検索部を備える。
画像認識部は、カメラ付き端末装置のカメラ部が撮影した画像から単語情報を得る。
クラスタリング処理部は、画像認識部が得た単語情報をクラスタリングして分類された単語情報を得る。
特徴抽出処理部は、コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る。
コンテンツ検索部は、クラスタリング処理部で得られた分類された単語情報と、特徴抽出処理部が取得した単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索する。
本開示の情報処理方法は、コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理を行う。また、カメラが撮影した画像から単語情報を得る画像認識処理を行い、その画像認識処理で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理を行う。さらに、クラスタリング処理で得た分類された単語情報と、特徴抽出処理で取得された単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索処理を行う。
本開示の記録媒体は、コンピュータに実行させるためのプログラムを記録した記録媒体であり、以下の手順(a)〜(d)をコンピュータに実行させる。
(a)コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出手順。
(b)カメラが撮影した画像から単語情報を得る画像認識手順。
(c)画像認識手順で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング手順。
(d)クラスタリング手順で得た分類された単語情報と、特徴抽出手順で取得された単語情報とに基づいて、コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索手順。
本開示によると、コンテンツ蓄積部が蓄積したビデオコンテンツの検索が、カメラが撮影した画像から得た単語情報をクラスタリングした結果と、蓄積したビデオコンテンツから得た単語情報とに基づいて行われる。このため、コンテンツ蓄積部を備える装置は、蓄積したビデオコンテンツの中から、カメラが撮影した画像の内容に関連したビデオコンテンツを検索して、ユーザに提示できるようになる。
本開示によると、コンテンツ蓄積部を備える装置は、蓄積したビデオコンテンツの中から、カメラが撮影した画像の内容に関連したビデオコンテンツを検索して、ユーザに提示することができる。このため、ユーザがカメラ付き端末装置を使用して、興味のある画像を撮影するだけで、コンテンツ蓄積部を備える装置が、自動的にその画像で示された各種情報に関連したビデオコンテンツをユーザに提示できるようになる。
本発明の一実施の形態によるシステム構成例を示す説明図である。 本発明の一実施の形態によるビデオ記録装置の構成例を示すブロック図である。 本発明の一実施の形態によるカメラ付き端末装置の構成例を示すブロック図である。 本発明の一実施の形態による処理の概要の例を示す説明図である。 本発明の一実施の形態による処理例を示すフローチャートである。 本発明の一実施の形態によるクラスタリング処理の例を示す説明図である。 本発明の一実施の形態によるコンテンツ検索処理の例を示す説明図である。 本発明の一実施の形態による類似度の判断例を示す説明図である。 本発明の一実施の形態の変形例1(画像の内容から特徴を抽出する例)の概要を示す説明図である。 変形例1による処理を示すフローチャートである。 変形例1によるクラスタリング処理を示す説明図である。 本発明の一実施の形態の変形例2(画像により処理を変更する例)を示すフローチャートである。 変形例2による比較処理の例を示す説明図である。
本開示の一実施の形態に係る情報処理装置、情報処理システム、情報処理方法および記録媒体の例を、図面を参照しながら、以下の順で説明する。
1.システム全体の構成例(図1)
2.ビデオ記録装置の構成例(図2)
3.カメラ付き端末装置の構成例(図3)
4.処理の流れの例(図4〜図8)
5.変形例1(図9〜図11)
6.変形例2(図12〜図13)
7.その他の変形例
[1.システム全体の構成例]
図1は、本開示の一実施の形態に係る情報処理システム全体の例を示す図である。
本開示の情報処理システムは、ビデオコンテンツを蓄積するビデオ記録装置100と、そのビデオ記録装置100が蓄積したビデオコンテンツを表示する表示装置300とを備える。ビデオ記録装置100は、大容量の記録媒体を備え、多数のビデオコンテンツ(放送番組、映画、動画サイトから取得した動画など)を蓄積する。ビデオ記録装置100と表示装置300とは、一体化してもよい。
ビデオ記録装置100は、カメラ付き端末装置200と有線または無線で接続が可能である。カメラ付き端末装置200には、例えばスマートフォンと称される携帯電話端末装置が使用される。このカメラ付き端末装置200が内蔵したカメラ機能を利用して、ユーザは、興味のある書籍(雑誌),パンフレット,掲示物,展示物などを撮影する。そして、カメラ付き端末装置200は、撮影して得た画像を解析して、単語情報を取得し、その取得した単語情報を、ビデオ記録装置100に送信する。なお、ここでの単語情報には、単語そのものの情報(テキストデータ)の他に、その単語をクラス分けしたクラスに関する情報が含まれる。
一方、ビデオ記録装置100は、蓄積したビデオコンテンツから特徴となる画像または音声から単語情報を得るコンテンツの特徴抽出処理を行う。そして、ビデオ記録装置100が、カメラ付き端末装置200から送信された単語情報と、特徴抽出処理で得られた単語情報とを比較して、類似度を算出する。さらに、ビデオ記録装置100は、その算出した類似度に基づいて、ビデオ記録装置100が蓄積した複数のビデオコンテンツからユーザに視聴を推薦するタイトルを選び出し、その選び出したタイトルよりなるタイトルリストを作成する。ビデオ記録装置100が作成したタイトルリストは、表示装置300に表示される。
なお、カメラ付き端末装置200が画像から単語情報を取得する処理を行うのは1つの例であり、例えばビデオ記録装置100が、カメラ付き端末装置200から伝送された画像から単語情報を取得する処理を行うようにしてもよい。あるいは、ビデオ記録装置100またはカメラ付き端末装置200がインターネット90に接続可能である場合、インターネット90に接続されたサーバ400が、画像を解析して、単語情報を取得するようにしてもよい。また、ビデオ記録装置100またはカメラ付き端末装置200が解析を行う場合でも、ビデオ記録装置100またはカメラ付き端末装置200が、解析に必要な情報をサーバ400から取得するようにしてもよい。
[2.ビデオ記録装置の構成例]
図2は、ビデオ記録装置100の構成例を示す図である。ビデオ記録装置100は、アンテナ101が接続されたチューナ102を備える。チューナ102は、テレビジョン放送信号を受信する。チューナ102が受信して得たテレビジョン放送信号は、記録処理部104に供給され、記録処理部104で記録用の処理が施された信号が、ビデオコンテンツとして記録媒体120に記録される。記録媒体120には、ハードディスクドライブ装置やフラッシュメモリなどが使用される。記録媒体120が記録するビデオコンテンツは、例えばユーザが録画予約した放送番組や、予め設定された条件で自動的に番組表などから検索された放送番組などである。あるいは、記録媒体120が非常に大容量である場合には、指定されたチャンネルの放送番組を常時記録するようにしてもよい。
また、ビデオ記録装置100は、ディスクドライブ部130を備え、ディスクドライブ部130に装着されたディスク状記録媒体131が、ビデオコンテンツの記録を行うこともできる。
また、ビデオ記録装置100は、ネットワークインターフェース部103を備え、所定のネットワークを経由してインターネット90に接続可能である。このネットワークインターフェース部103が外部から受信したビデオコンテンツが、記録媒体120またはディスク状記録媒体131に記録される。
なお、記録媒体120は、記録したビデオコンテンツを解析した結果のデータを記録したデータベースを含んでいる。このビデオコンテンツを解析する処理は、システムコントローラ110の制御下で、画像音声特徴抽出部111が実行する。
また、再生処理部108は、記録媒体120に記録されたビデオコンテンツを再生処理して、画像データおよび音声データを得る。この再生処理で得られた画像データおよび音声データが、表示処理部109を介して外部の表示装置300に供給される。表示装置300は、供給される画像データによる画像を表示パネルが表示する。供給される音声データに基づく音声は、スピーカから出力される。また、情報処理部105がコンテンツリストなどの作成処理を行った場合には、表示処理部109は、コンテンツリストなどを表示させる画像データを作成して、その作成した画像データを表示装置300に供給する。
また、ビデオ記録装置100は、端末インターフェース部106により、カメラ付き端末装置200とデータ転送を行うことができる。この端末インターフェース部106は、有線のケーブルによる通信または無線通信でカメラ付き端末装置200と接続してデータ転送を行うことができる。本開示の例では、カメラ付き端末装置200は、ビデオ記録装置100に単語情報を伝送する。したがって、端末インターフェース部106が、カメラ付き端末装置200から単語情報を取得する単語情報取得部として機能する。
なお、カメラ付き端末装置200とビデオ記録装置100とのデータ転送を行う際には、ネットワークインターフェース部103がインターネット90を経由して行うようにしてもよい。
画像音声特徴抽出部111は、記録媒体120が記録したビデオコンテンツの画像や音声などから特徴を抽出して、その抽出した特徴から単語を取得する。そして、画像音声特徴抽出部111が、取得した単語をクラス分けした単語情報とし、その単語情報をデータベース化し、記録媒体120に記録する。
情報処理部105は、データベースとして記録媒体120に記録されている各ビデオコンテンツの単語情報と、カメラ付き端末装置200から伝送される単語情報とを比較して、類似度が高いビデオコンテンツを検索する処理を行う。そして、情報処理部105は、その検索した結果に基づいて、ユーザに再生を推薦するコンテンツを一覧で示したコンテンツリストを作成する。あるいは、情報処理部105が検索した結果をシステムコントローラ110が取得して、システムコントローラ110が、最も類似度が高いビデオコンテンツを自動的に再生するようにしてもよい。
なお、ビデオ記録装置100内の各処理部は、コントロールバス141を介してシステムコントローラ110と制御指令などのやり取りを行うと共に、データバス142を介してデータ転送を行うようにしている。コントロールバス141およびデータバス142には、メモリ107が接続されており、システムコントローラ110などが処理を行う際に、メモリ107がデータの一時記憶を行う。また、メモリ107には、システムコントローラ110が実行するプログラムが記憶される。そして、ビデオ記録装置100の起動時などに、システムコントローラ110がメモリ107に記憶されたプログラムを実行することで、ビデオ記録装置100がプログラムで指示された通りに作動する。本実施の形態の例で説明するビデオコンテンツの検索処理についても、システムコントローラ110がメモリ107に記憶されたプログラムを実行することで行われる。
[3.カメラ付き端末装置の構成例]
図3は、カメラ付き端末装置200の構成例を示す図である。本開示のカメラ付き端末装置200は、スマートフォンと称される携帯電話端末装置に適用した例である。
カメラ付き端末装置200は、アンテナ201が接続された無線通信部202を備える。無線通信部202は、システムコントローラ210の制御下で、無線電話用の基地局と無線信号の送信及び受信の処理を行う。システムコントローラ210は、コントロールバス231およびデータバス232を介してカメラ付き端末装置200内の各部と指令やデータなどの転送を行う。
メモリ211には、プログラムなどの予め用意されたデータが記憶されると共に、ユーザ操作により生成されたデータが記憶される。このユーザ操作により生成されたデータには、カメラ部220が撮影した画像データや、その画像データを解析して得た単語情報などがある。
カメラ付き端末装置200が音声通話を行う際には、無線通信部202が受信した通話用の音声データが、音声処理部205に供給される。音声処理部205は、供給される音声データの復調処理を行い、アナログ音声信号を得る。音声処理部205で得られたアナログ音声信号がスピーカ206に供給され、スピーカ206から音声が出力される。
また、音声通話時に、音声処理部205は、マイクロフォン207が出力した音声信号を送信フォーマットの音声データに変換する。そして、音声処理部205で変換された音声データが無線通信部202に供給され、無線通信部202に供給される音声データが、パケット化されてアンテナ201から無線送信される。
カメラ付き端末装置200がインターネット等のネットワークを経由したデータ通信やメールの送受信を行う場合には、システムコントローラ210の制御下で、無線通信部202が送信や受信の処理を行う。例えば、無線通信部202で受信したデータがメモリ211に記憶され、システムコントローラ210の制御によって、記憶データに基づいた表示などの処理が行われる。また、メモリ211が記憶したデータが無線通信部202に供給され、無線送信される。
また、カメラ付き端末装置200は、表示処理部214と、表示処理部214による駆動で表示を行う表示パネル215を備える。表示パネル215には、タッチパネルが一体化されている。また、カメラ付き端末装置200は、外部インターフェース部208を備え、ビデオ記録装置100などの外部機器とデータ転送を行うことができる。
さらに、カメラ付き端末装置200は、カメラ部220を備える。カメラ部220は、ユーザ操作に基づいて、静止画像または動画像の撮影を行う。
カメラ部220が撮影して得た画像データは、メモリ211に記憶される。この場合、カメラ付き端末装置200は、撮影して得た画像データに対する各種処理を行う画像処理部212を備え、この画像処理部212で処理された画像データがメモリ211に記憶される。画像処理部212は、後述する画像解析処理も実行する。画像処理部212が解析する画像データが、動画像データなどの音声データ付きの画像データである場合には、画像処理部212が音声データの解析も行う。
画像処理部212が画像や音声の解析を行った場合、解析した結果の情報は、情報処理部213に供給される。情報処理部213は、システムコントローラ210の制御下で、画像や音声の解析結果から、画像や音声に関連した単語情報を取得する。また、情報処理部213は、その取得した単語情報を分類するクラスタリング処理を行う。クラスタリング処理が行われた単語情報は、メモリ211に記憶される。メモリ211に記憶されたクラスタリング処理が行われた単語情報は、システムコントローラ210の制御下で、ビデオ記録装置100に伝送される。
なお、カメラ付き端末装置200は、アンテナ203が接続された近距離無線通信部204を備え、この近距離無線通信部204による無線通信で、近隣の他の装置やアクセスポイントとデータ転送を行うことができる。近距離無線通信部204は、例えばIEEE802.11規格として規定された無線LAN(Local Area Network)方式を適用して、例えば数十m程度の範囲内の相手と無線通信を行う。この近距離無線通信部204を使用した無線通信は、例えばカメラ付き端末装置200がインターネットにアクセスする際に使用される。
また、近距離無線通信部204を使用した無線通信は、カメラ付き端末装置200がビデオ記録装置100とデータ伝送を行う際にも使用される。すなわち、上述したようにカメラ付き端末装置200は、外部インターフェース部208を経由してビデオ記録装置100とデータ伝送を行うようにした。この外部インターフェース部208を経由した経路でのデータ伝送ができない場合に、近距離無線通信部204がビデオ記録装置100と無線通信を行う。
[4.処理の流れの例]
次に、図4〜図8を参照して、本開示のシステムで行われる処理について説明する。なお、以下に説明するそれぞれの処理を行う装置の割り当ては一例であり、システム内の他の装置、あるいはインターネット上のサーバなどが、それぞれの処理を行うようにしてもよい。
図4は、処理の概要を示す図である。例えば、カメラ付き端末装置200を所持したユーザは、気に入った情報が文字で記載された書籍や雑誌などを見つけたとき、カメラ付き端末装置200のカメラ部220で、書籍や雑誌などの該当するページを撮影して、画像11を得る。画像は静止画像が好ましいが、動画像でもよい。撮影を行う対象は、雑誌やパンフレットなど、ユーザが気に入った情報や、興味を持った情報が記載されたものなど、どのようなものでもよい。また、書籍や雑誌などの印刷物以外でも、掲示物や展示物など、興味を持った様々なものを、ユーザが撮影してもよい。
そして、カメラ付き端末装置200が、カメラ部220が撮影して得られた画像に対して、文字認識処理12を行う。この文字認識処理12は、カメラ付き端末装置200の画像処理部212が行う。この文字認識処理12を行うことで、画像11内の文字が、テキストデータ化される。例えば、書籍の特定の頁を撮影した画像11が得られたとき、文字認識処理12は、その書籍の該当する頁に記載された文字をテキストデータ化する。
次に、カメラ付き端末装置200内の情報処理部213が、文字認識処理12で得られたテキストデータについて、形態素解析処理13を行う。形態素解析処理は、テキストデータから単語を抽出する処理を行う。さらに、カメラ付き端末装置200内の情報処理部213が、テキストデータから抽出された単語を種類ごとに分類するクラスタリング処理14を行う。この場合に、クラスタリング処理14が分類するクラスについての情報は、例えばサーバ400から取得する。その後、カメラ付き端末装置200は、クラスタリング処理14が行われた単語情報を、ビデオ記録装置100に伝送する。
ビデオ記録装置100は、記録媒体120に蓄積されたビデオコンテンツの解析を行う。すなわち、ビデオ記録装置100は、記録媒体120に蓄積されたビデオコンテンツの画像と音声の特徴を抽出する画像音声特徴抽出処理15を行う。ここでの画像の特徴抽出処理は、例えば画像に付加された字幕やテロップなどの画像中の文字をテキストデータ化することによって行われる。音声の特徴抽出処理としては、音声データを音声認識処理でテキストデータ化することによって行われる。また、ビデオコンテンツに付加された情報(番組案内情報など)がある場合には、その付加された情報からテキストデータを得る。字幕などのデータが画像データとは別の付加データとして存在する場合には、付加データに含まれるテキストデータを取り出す。これらのテキストデータの取り出しは、ビデオ記録装置100の画像音声特徴抽出部111が行う。
そして、ビデオ記録装置100は、得られたそれぞれのテキストデータから単語を取り出し、ビデオコンテンツごとの単語情報を得る。このテキストデータからの単語情報の取得処理は、ビデオ記録装置100の情報処理部105が行う。取得した単語情報は、例えば記録媒体120にデータベース化して記録しておく。
なお、この記録媒体120が蓄積したビデオコンテンツについての解析処理は、例えば記録媒体120が1つ1つのビデオコンテンツを蓄積した際に行う。あるいは、カメラ付き端末装置200から単語情報の伝送があった際に、記録媒体120が蓄積した全てのビデオコンテンツについて、ビデオ記録装置100が一括して行うようにしてもよい。
そして、ビデオ記録装置100は、カメラ付き端末装置200から伝送された単語情報と、記録媒体120が蓄積したビデオコンテンツから得た単語情報とを比較し、一致度などに基づいて対象となるビデオコンテンツを探し出すコンテンツ検索処理16を行う。このコンテンツ検索処理16は、ビデオ記録装置100の情報処理部105が行う。ビデオ記録装置100は、この検索で得られたビデオコンテンツの一覧を示すタイトルリストを作成し、そのタイトルリストを表示装置300が表示する。そして、ユーザがタイトルリストからいずれかのビデオコンテンツを選択する操作を行うことで、ビデオ記録装置100が該当するビデオコンテンツを再生する。ビデオ記録装置100によって再生されたビデオコンテンツは、表示装置300によって表示される。あるいは、ビデオ記録装置100が、一致度に基づいて検出されたビデオコンテンツを自動的に再生するようにしてもよい。
図5は、図4に示した処理の流れをフローチャート化したものである。
図5のフローチャートに示した動作について、図6〜図8の具体的な処理の例を参照しながら説明する。
まず、ユーザが、カメラ付き端末装置200の動作モードを、ビデオコンテンツを検索するための画像取得を行う動作モードに設定する。その動作モードが設定された状態で、ユーザは、カメラ付き端末装置200を使用して、書籍などを撮影し、文字が記載された画像(静止画像または動画像)を取得する(ステップS11)。カメラ付き端末装置200は、画像を取得すると、画像認識処理で画像中の文字をテキストコードとして抽出する(ステップS12)。
そして、カメラ付き端末装置200は、抽出したテキストコードによる文字列を形態素解析し(ステップS13)、コンテンツ検索に必要な単語を取得する。形態素解析は、テキストデータで示される文字列を、意味を持つ最小単位(形態素)に分割して、それぞれの形態素の品詞を判別するものである。このようにして判別された形態素から、ビデオコンテンツを検索するのに必要な単語を抽出する。さらに、カメラ付き端末装置200は、抽出された単語について、クラスタリング処理を行う(ステップS14)。
撮影した画像からの文字抽出処理と形態素解析処理とクラスタリング処理は、例えば図6に示すように実行される。
すなわち、ユーザが、流行の店の案内情報が記載された情報誌を撮影したとする。この撮影により、カメラ付き端末装置200は画像11aを得る。このとき、文字認識処理12では、その画像11aに記載された文字が、テキストデータ化される。
図6の例では、画像11aは、菓子店の情報を記載した情報誌の特定の頁を撮影したものであり、形態素解析では、菓子の名称,菓子店の所在地域,その他の名詞や形容詞などの単語が抽出される。
そして、クラスタリング処理14では、抽出された単語が、クラスごとに分類される。例えば、形態素解析された単語が、お菓子の名称のクラス、地域のクラス、その他の名刺のクラス、形容詞のクラスなどに分類される。
カメラ付き端末装置200が、このクラスタリング処理14を行う際には、例えばカメラ付き端末装置200が図1に示すサーバ400と通信を行って、サーバ400が持つクラスタリングについてのデータベース401を使用する。すなわち、サーバ400に用意されたデータベース401として、様々な単語と、その単語が属するクラスについての情報を持つ。例えば、図6に示すデータベース401は、「お菓子」、「地域」、「野菜」、・・・のように様々なクラスごとに、そのクラスが属する単語の情報を持つ。例えば、「お菓子」のクラスでは、「シュークリーム」、「ショートケーキ」、「エクレア」、・・・のような様々なお菓子の名称の単語を記憶する。このようなデータベース401の情報を参照して、カメラ付き端末装置200がクラスタリング処理14を行う。なお、カメラ付き端末装置200がクラスタリング処理用のデータベース401を持つようにしてもよい。
図5のフローチャートの説明に戻ると、クラスタリングされた単語情報は、ビデオ記録装置100が蓄積したビデオコンテンツと関連付けするために、カメラ付き端末装置200からビデオ記録装置100に送る(ステップS15)。このとき伝送する単語情報には、例えば図6に示したようなそれぞれの単語と、その単語が属するクラスの情報が含まれる。
そして、ビデオ記録装置100では、記録媒体120が蓄積したビデオコンテンツの特徴抽出処理が行われる(ステップS16)。なお、このステップS16のビデオコンテンツの特徴抽出処理が行われる順序は一例であり、ビデオ記録装置100が、その他のタイミングでビデオコンテンツの特徴抽出処理を行うようにしてもよい。また、このビデオコンテンツの特徴抽出処理を行った結果で得られた単語は、カメラ付き端末装置200での処理と同様のクラスタリング処理が行われ、分類された単語情報になる。
その後、ビデオ記録装置100は、ビデオコンテンツの特徴抽出処理で得た単語情報と、カメラ付き端末装置200から伝送された単語情報とに基づいて、関連するビデオコンテンツを検索するコンテンツ検索処理を行う(ステップS17)。例えば、ビデオ記録装置100は、ビデオコンテンツの特徴抽出処理で得た単語情報と、カメラ付き端末装置200から伝送された単語情報とを比較して、比較結果としての単語の一致度を使って、コンテンツ検索処理を行う。
そして、ビデオ記録装置100のシステムコントローラ110は、コンテンツ検索処理で、記録媒体120が蓄積したビデオコンテンツの中から、候補となるビデオコンテンツが検索できたか否かを判断する(ステップS18)。この判断で、候補となるビデオコンテンツが検索できた場合には、システムコントローラ110は、検索されたコンテンツのタイトルリストの作成指示を行い、ユーザに検索されたビデオコンテンツを告知する(ステップS19)。そして、ステップS18の判断で、候補となるビデオコンテンツが検索できなかった場合には、システムコントローラ110は、表示画像などで類似コンテンツがないことを警告する(ステップS20)。
図7は、カメラ付き端末装置200が撮影画像から得た単語に基づいて、ビデオ記録装置100が、記録媒体120に蓄積されたビデオコンテンツを検索した場合の例を示す図である。
図7に示すように、クラスタリング処理された単語情報14aが、カメラ付き端末装置200からビデオ記録装置100に送信される。また、ビデオ記録装置100は、記録媒体120が蓄積したあるビデオコンテンツ120aを特徴抽出して、単語情報15aを得る。図7の例では、ビデオコンテンツ120aを特徴抽出した単語情報15aは、1つのビデオコンテンツ120aを分割したシーンごとに存在し、クラスタリング処理で分類された情報になっている。
すなわち、図7の例ではビデオコンテンツ120aはニュース番組であり、ビデオコンテンツ120aが、ニュース番組中の話題ごとにシーン1,シーン2,・・・と分割してある。そして、それぞれのシーンごとに、音声から検出された単語が、クラスタリング処理で分類した状態になっている。例えばシーン2の単語情報15aは、お菓子の分類の単語の出現回数が3回、地域の分類の単語の出現回数が3回となっている。
そして、ビデオ記録装置100の情報処理部105は、カメラ付き端末装置200から送信された単語情報と、それぞれのビデオコンテンツを特徴抽出した単語情報とを比較する。例えば、図7に示すように、ビデオ記録装置100の情報処理部105は、撮影画像から得た単語情報14aと、ビデオコンテンツ120aのシーンごとの単語情報(単語情報15aなど)とを比較して、コンテンツ検索処理16を行う。ビデオ記録装置100の情報処理部105は、このコンテンツ検索処理16による比較で、一致する分類の単語の数に応じて、シーンごと(またはコンテンツごと)の類似度の判断を行い、その判断した類似度が高いシーンまたはコンテンツを選び出す。
図8は、シーンごとの類似度の判断の例を示す図である。
この例では、「お菓子」と「地域」の2つの分類を示す。
例えば、図8に示すように、カメラ付き端末装置200が取得した画像は、「お菓子」の単語の出現回数が3回で、「地域」の単語の出現回数が1回であるとする。このとき、情報処理部105は、この3回ずつのそれぞれの単語と同じ分類の単語が、1つのビデオコンテンツのシーン1〜4に何回あるかを判断する。
図8に示すように、シーン2は、「お菓子」の単語の出現回数が3回で、「地域」の単語の出現回数が3回であり、その他のシーン1,3,4は、「お菓子」の単語と「地域」の単語の出現回数がいずれも0回であるとする。
このとき、撮影画像から得た単語情報と、それぞれのシーンから得た単語情報との類似度は、例えば以下の式で算出する。
[(x・y)+(a・b)]/[√(a+b)・√(x+y)]
この式のa、b、x、yは、次のように定義する。
a:撮影画像から得た「お菓子」の分類の単語の出現回数
b:撮影画像から得た「地域」の分類の単語の出現回数
x:各シーンの「お菓子」の分類の単語の出現回数
y:各シーンの「地域」の分類の単語の出現回数
この類似度の演算を行うことで、シーン2の類似度は0.89となり、シーン1,3,4の類似度は0になる。図8に示す計算例は、シーン2の類似度を上述した式で求める計算である。
ビデオ記録装置100の情報処理部105は、このような類似度を求める処理を、記録媒体120が蓄積した全てのビデオコンテンツに対して行う。そして、情報処理部105は、類似度が閾値以上のビデオコンテンツ(またはそのビデオコンテンツのシーン)を、類似したコンテンツ(または類似したシーン)とする。
全てのコンテンツについての類似度の計算が終了すると、ビデオ記録装置100のシステムコントローラ110は、このようにして選び出されたコンテンツのタイトルリストまたはシーンのリストの作成を指示し、表示装置300が作成されたリストを表示する。
そして、ユーザは、このようにして表示されたリストから、所望のビデオコンテンツを選択する操作を行う。この操作をユーザが行うことで、ビデオ記録装置100は、選択されたビデオコンテンツを再生し、表示装置300が再生されたビデオコンテンツを表示する。
なお、検索結果に基づいてビデオ記録装置100がタイトルリストを作成するのは1つの例であり、ビデオ記録装置100がその他の処理を行うようにしてもよい。例えば、ビデオ記録装置100でのコンテンツの検索に基づいて、ビデオ記録装置100が、類似度が最も高いビデオコンテンツを自動的に再生してもよい。
以上説明したように、ユーザがカメラ付き端末装置200を使用して撮影した画像から検出した単語情報に基づいて、ビデオ記録装置100が蓄積したビデオコンテンツの検索を行うことで、ビデオコンテンツの適切な提示が可能になる。すなわち、蓄積したビデオコンテンツの内容をユーザが全く把握していなくても、ユーザが興味のある画像を撮影するだけで、ビデオ記録装置100が自動的に関連したビデオコンテンツを探し出すようになる。したがって、ビデオ記録装置100を使った楽しみ方を広げることができる。また、図7,図8に示した例のように、1つのビデオコンテンツ内の複数のシーンごとに類似度を比較することで、1つ1つのビデオコンテンツが比較的長時間のコンテンツであっても、ユーザが興味のあるシーンが直ぐに見つかるようになる。
[5.変形例1]
次に、図9〜図11を参照して、本開示の一実施の形態の変形例(その1)を説明する。
図9は、この例での処理の概要を示す図である。先に説明した一実施の形態の例では、図4に示したように、カメラ付き端末装置200が撮影した撮影画像に含まれる文字を、文字認識した例を示した。これに対して、図9の例では、カメラ付き端末装置200が、撮影した撮影画像を画像認識して、画像内の物体の形状や色などを認識した結果から、文字情報を得るようにしたものである。
例えば図9に示すように、カメラ付き端末装置200が、お菓子の写真が掲載された雑誌などを撮影した画像21を得たとする。このとき、カメラ付き端末装置200の画像処理部212が、画像特徴抽出処理17を行うことで、画像内に写っているお菓子の名称を検出し、その菓子の名称のテキストデータを得る。
この画像から名称を検出する際には、例えばインターネット90に接続されたサーバ400に画像を送り、サーバ400で検索するようにしてもよい。
そして、カメラ付き端末装置200内の情報処理部213が、テキストデータから抽出された単語を種類ごとに分類するクラスタリング処理14を行う。クラスタリング処理14以降の処理は、図4で説明した処理と同じである。
なお、ビデオ記録装置100が、ビデオコンテンツについての解析を行う画像音声特徴抽出処理15を行う場合にも、カメラ付き端末装置200での画像特徴抽出処理17と同様に、画像内の物体の認識結果に基づいて、テキストデータを検出してもよい。
そして、ビデオ記録装置100は、カメラ付き端末装置200から伝送された単語情報と、記録媒体120が蓄積したビデオコンテンツから得た単語情報とを比較して、対象となるビデオコンテンツを探し出すコンテンツ検索処理16を行う。ビデオ記録装置100は、例えばこのコンテンツ検索処理16で検索されたビデオコンテンツのタイトルリストを作成する。
図10は、図9に示した処理の流れをフローチャート化したものである。この図9のフローチャートにおいて、図5のフローチャートと同じ処理には、同じステップ番号を付与し、説明を省略する。
図9のフローチャートでは、ステップS11でカメラ付き端末装置200が撮影した画像を取得した後、その画像から図9に示す画像特徴抽出処理17を行って、画像内の物体の形状などから単語情報を得る(ステップS21)。そして、カメラ付き端末装置200は、そのように得られた単語のクラスタリング処理を行う(ステップS14)。クラスタリング処理を行った後の処理は、図5のフローチャートと同じである。
撮影した画像からの単語抽出処理とクラスタリング処理は、例えば図11に示すように実行される。
すなわち、カメラ付き端末装置200を使用して、ユーザが、興味のあるお菓子や野菜の画像が複数記載された情報誌を撮影したとする。このとき、撮影した画像21aから、画像特徴抽出処理17で、それぞれのお菓子や野菜の画像が抽出される。
さらに、クラスタリング処理14′が行われることで、抽出された各画像が、お菓子のクラスの画像と、野菜のクラスの画像に分類される。
カメラ付き端末装置200が、このクラスタリング処理14′を行う際には、例えばカメラ付き端末装置200が図1に示すサーバ400と通信を行って、サーバ400が持つ画像のクラスタリングについてのデータベース402を使用する。すなわち、サーバ400に用意されたデータベース402として、様々な単語に対応した画像と、その単語の画像が属するクラスについての情報を持つ。例えば、図11に示すデータベース402は、「お菓子」、「野菜」、「自動車」、・・・のように様々なクラスごとに、そのクラスが属する単語の情報を持つ。なお、このデータベース402の情報が持つ各画像の特徴量には、カラーヒストグラムなどの色特徴、輝度特徴、テクスチャ特徴、エッジ特徴など様々な特徴量が考えられる。このような様々の特徴量を比較することで、撮影した画像中の物体を認識する処理を精度良く行うことができる。
この図9〜図11で説明した処理を行うことで、ビデオ記録装置100は、カメラ付き端末装置200が撮影した画像の内容から抽出した単語情報に基づいて、ビデオコンテンツを検索することができる。このため、ユーザが興味を持ったものが記載された雑誌,カタログ,パンフレットなどをユーザが撮影することで、その撮影した物体と同じクラスの物体が記載されたビデオコンテンツを探すことができる。
また、画像の内容から単語情報を検出するため、カメラ付き端末装置200が撮影する対象は、雑誌などの印刷物に限定されず、例えばユーザは、お菓子屋に並んだ実際のお菓子を撮影してもよい。あるいは、表示装置300が表示したテレビジョン放送画面などを撮影してもよい。このように、様々な撮影画像の内容から単語情報を抽出することができる。
[6.変形例2]
次に、図12〜図13を参照して、本開示の一実施の形態の変形例(その2)を説明する。
この例は、図4などで説明した、カメラ付き端末装置200が撮影した撮影画像に含まれる文字を、文字認識で検出する処理と、図9などで説明した、カメラ付き端末装置200が撮影した撮影画像の内容から画像認識する処理とを組み合わせたものである。
図12のフローチャートは、この場合の処理例を示す図である。この図12のフローチャートにおいて、図5および図10のフローチャートと同じ処理には、同じステップ番号を付与し、説明を省略する。
図12のフローチャートの処理について説明すると、カメラ付き端末装置200は、ステップS11で撮影した画像を取得した後、その画像に含まれる文字を認識する文字認識処理と、画像内容を認識する画像認識処理とを行う(ステップS31)。その後、カメラ付き端末装置200は、認識した結果から、文字情報がメインであるか否かを判断する(ステップS32)。この判断で、文字情報がメインな画像であると判断した場合には、カメラ付き端末装置200は、抽出したテキストコードによる文字列を形態素解析し、コンテンツ検索に必要な単語を取得する(ステップS13)。
また、ステップS32の判断で、文字情報がメインでなく、画像情報がメインであると判断した場合には、カメラ付き端末装置200は、画像特徴抽出処理を行って、画像内の物体の形状などから単語情報を得る(ステップS21)。
そして、カメラ付き端末装置200は、ステップS13の形態素解析処理またはステップS21の画像特徴抽出処理を行った後、抽出された単語について、クラスタリング処理を行う(ステップS14)。クラスタリング処理を行った後は、図5のフローチャートと同じ処理が行われる。
図12のフローチャートのステップS32での、文字情報がメインであるか否かを判断する処理は、例えば図13に示すように行う。すなわち、カメラ付き端末装置200が画像31の撮影を行ったとき、カメラ付き端末装置200は、その画像31に含まれる文字の形態素解析で得た名詞数と、画像31に含まれる個々の画像の数とを比較する。ここでの個々の画像とは、図13に示したように、「お菓子」の画像のような、画像認識で名詞が検出される画像である。
そして、カメラ付き端末装置200は、数が多い方を主たる情報と判断し、その主たる文字情報をクラスタリング処理して、ビデオ記録装置100に伝送する単語情報を得る。
このようにカメラ付き端末装置200は、撮影した画像の文字情報がメインであるか否かを判断して処理を切り替えるようにしたことで、文字が多い画像を撮影した場合と、文字が少ない画像を撮影した場合のいずれにも対処できる効果を有する。
なお、図12のフローチャートでは、カメラ付き端末装置200は、メインであると判断した情報から単語情報を得るようにした。これに対して、カメラ付き端末装置200は、その画像31に含まれる文字の形態素解析で得た単語と、画像31に含まれる個々の画像を認識して得た単語との双方とを、ビデオコンテンツを検索するための単語情報として使用するようにしてもよい。
[7.その他の変形例]
なお、上述した実施の形態の例では、カメラ付き端末装置200が、撮影した画像から文字認識または画像認識で単語情報を取得して、その単語情報をビデオ記録装置100に送るようにした。これに対して、例えばカメラ付き端末装置200が撮影した画像をビデオ記録装置100に送り、ビデオ記録装置100が画像から文字認識または画像認識を行うようにしてもよい。あるいは、カメラ付き端末装置200が撮影した画像をサーバ400に送り、サーバ400が文字認識または画像認識で単語情報を取得するようにしてもよい。単語情報をクラス分けするクラスタリング処理についても、いずれの装置100,200またはサーバ400が行うようにしてもよい。
また、ビデオ記録装置100が蓄積したビデオコンテンツの画像音声特徴抽出処理15(図4など)についても、ビデオ記録装置100以外の外部の装置、あるいはインターネットに接続されたサーバ400が行うようにしてもよい。
また、上述した実施の形態の例では、ビデオ記録装置100は、放送信号を受信して蓄積する装置とした。これに対して、本開示の処理は、その他のビデオコンテンツを蓄積可能な記録装置に適用してもよい。
また、カメラ付き端末装置200は、スマートフォンと称される携帯電話端末装置に適用した例とした。これに対して、本開示の処理は、カメラ付きの端末装置であれば、その他の端末装置に適用してもよい。
また、図1に示すシステムでは、カメラ付き端末装置200とビデオ記録装置100との2つの装置を有するシステムとした。これに対して、カメラ付き端末装置200がテレビジョン放送やダウンロードしたビデオコンテンツを蓄積する機能を有する場合に、カメラ付き端末装置200が、撮影からビデオコンテンツの検索まで全ての処理を行うようにしてもよい。
また、上述した実施の形態の例で説明した類似度を判断する処理は、一例であり、ビデオ記録装置100が、その他の処理で類似度を判断するようにしてもよい。例えば、上述した実施の形態の例では、ビデオ記録装置100が、クラスごとの単語の出現頻度を比較するようにした。これに対して、ビデオ記録装置100が、クラス分けを複数の階層で行うようにして、より精度の高い類似度の判断を行うようにしてもよい。具体的には、例えばクラスとして、大きな分類(例えば「食べ物」)と、その分類の下の階層の分類(例えば「お菓子」)と、さらにその分類の下の階層の分類(例えば「西洋菓子」)のように用意する。そして、ビデオ記録装置100が類似度を判断する場合には、下の階層の類似度が高いものを、より類似度が高いものとして扱うようにする。
また、類似度を判断する場合に、クラスごとの単語の出現頻度だけではなく、その他の要因から、類似度を判断するようにしてもよい。
あるいは、ビデオ記録装置100が、撮影した画像から得た単語情報と、蓄積したビデオコンテンツから得た単語情報とに基づいたその他の判断処理で、蓄積したビデオコンテンツから関連したビデオコンテンツを検索してもよい。
また、ビデオ記録装置100がビデオコンテンツから単語情報を得る際には、ユーザによるビデオ記録装置100の過去の使用状態を反映して、ユーザが好みと思われるクラスの単語を優先的に検索するようにしてもよい。カメラ付き端末装置200が画像から単語情報を得る際にも、同様にユーザの使用状態を反映した、クラス分けを行うようにしてもよい。
また、上述した実施の形態の例では、ビデオ記録装置100やカメラ付き端末装置200が処理を行う例について説明した。これに対して、例えば各種データ処理を行うコンピュータ装置に、本開示の処理手順を行うプログラム(ソフトウェア)を実装させて、そのコンピュータ装置が、画像の解析や、蓄積したビデオコンテンツの検索を行うようにしてもよい。プログラムは、例えば各種記憶媒体に格納して用意すればよい。
さらに、本発明の請求項に記載した構成や処理は、上述した実施の形態の例に限定されるものではない。本発明の要旨を逸脱しない限り、種々の改変、組み合わせ、他の実施の形態例が生じうることは、当業者にとって当然のことと理解される。
なお、本開示は以下のような構成も取ることができる。
(1)
ビデオコンテンツを蓄積するコンテンツ蓄積部と、
前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
カメラが撮影した画像から識別した単語情報をクラスタリング処理して得られた分類された単語情報を取得する単語情報取得部と、
前記単語情報取得部が取得した分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部とを備えた
ビデオ記録装置。
(2)
前記特徴抽出処理部は、ビデオコンテンツの画像に含まれる字幕またはテロップから単語情報を取得する
前記(1)記載のビデオ記録装置。
(3)
前記特徴抽出処理部は、さらにビデオコンテンツの付加情報に含まれるテキスト情報から単語情報を取得する
前記(1)または(2)記載のビデオ記録装置。
(4)
前記単語情報取得部は、カメラが撮影した画像の文字認識処理で取得した単語情報をクラスタリング処理して分類された単語情報を取得する
前記(1)〜(3)のいずれか1項に記載のビデオ記録装置。
(5)
前記単語情報取得部は、カメラが撮影した画像中の物体の形状から、その物体名としての単語情報を取得する
前記(1)〜(3)のいずれか1項に記載のビデオ記録装置。
(6)
前記単語情報取得部が取得する単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
前記(1)〜(3)のいずれか1項に記載のビデオ記録装置。
(7)
カメラ部を有するカメラ付き端末装置と、該カメラ付き端末装置と通信が可能で、ビデオコンテンツを蓄積するコンテンツ蓄積部を有するビデオ記録装置とよりなり、
前記カメラ付き端末装置のカメラ部が撮影した画像から単語情報を得る画像認識部と、
前記画像認識部が得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理部と、
前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
前記クラスタリング処理部で得られた分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部を、
前記カメラ付き端末装置と前記ビデオ記録装置の何れか一方が備えた
情報処理システム。
(8)
コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理と、
カメラが撮影した画像から単語情報を得る画像認識処理と、
前記画像認識処理で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理と、
前記クラスタリング処理で得た分類された単語情報と、前記特徴抽出処理で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索処理とを含む
情報処理方法。
(9)
コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出手順と、
カメラが撮影した画像から単語情報を得る画像認識手順と、
前記画像認識手順で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング手順と、
前記クラスタリング手順で得た分類された単語情報と、前記特徴抽出手順で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索手順を、
コンピュータに実行させるためのプログラムを記録した
記録媒体。
11…画像、12…文字認識処理、13…形態素解析処理、14…クラスタリング処理、15…画像音声特徴抽出処理、16…コンテンツ検索処理、17…画像特徴抽出処理、21…画像、31…画像、90…インターネット、100…ビデオ記録装置、101…アンテナ、102…チューナ、103…ネットワークインターフェース部、104…記録処理部、105…情報処理部、106…端末インターフェース部、107…メモリ、108…再生処理部、109…表示処理部、110…システムコントローラ、111…画像音声特徴抽出部、120…記録媒体、130…ディスクドライブ部、141…コントロールバス、142…データバス、200…カメラ付き端末装置、201…アンテナ、202…無線通信部、203…アンテナ、204…近距離無線通信部、205…音声処理部、206…スピーカ、207…マイクロフォン、208…外部インターフェース部、210…システムコントローラ、211…メモリ、212…画像処理部、213…情報処理部、214…表示処理部、215…表示パネル、220…カメラ部、231…コントロールバス、232…データバス、300…表示装置、400…サーバ

Claims (8)

  1. ビデオコンテンツを蓄積するコンテンツ蓄積部と、
    前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
    カメラが撮影した画像から識別した単語情報をクラスタリング処理して得られた分類された単語情報を取得する単語情報取得部と、
    前記単語情報取得部が取得した分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部とを備え
    前記単語情報取得部が取得する単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
    情報処理装置。
  2. 前記特徴抽出処理部は、ビデオコンテンツの画像に含まれる字幕またはテロップから単語情報を取得する
    請求項1記載の情報処理装置。
  3. 前記特徴抽出処理部は、さらにビデオコンテンツの付加情報に含まれるテキスト情報から単語情報を取得する
    請求項1または2記載の情報処理装置。
  4. 前記単語情報取得部は、カメラが撮影した画像の文字認識処理で取得した単語情報をクラスタリング処理して分類された単語情報を取得する
    請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記単語情報取得部は、カメラが撮影した画像中の物体の形状から、その物体名としての単語情報を取得する
    請求項1〜3のいずれか1項に記載の情報処理装置。
  6. カメラ部を有するカメラ付き端末装置と、該カメラ付き端末装置と通信が可能で、ビデオコンテンツを蓄積するコンテンツ蓄積部を有するビデオ記録装置とよりなり、
    前記カメラ付き端末装置のカメラ部が撮影した画像から単語情報を得る画像認識部と、
    前記画像認識部が得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理部と、
    前記コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理部と、
    前記クラスタリング処理部で得られた分類された単語情報と、前記特徴抽出処理部が取得した単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索部を、
    前記カメラ付き端末装置と前記ビデオ記録装置の何れか一方が備え
    前記クラスタリング処理部が取得する単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
    情報処理システム。
  7. コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出処理と、
    カメラが撮影した画像から単語情報を得る画像認識処理と、
    前記画像認識処理で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング処理と、
    前記クラスタリング処理で得た分類された単語情報と、前記特徴抽出処理で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索処理とを含み、
    クラスタリング処理で得られる単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
    情報処理方法。
  8. コンテンツ蓄積部が蓄積したビデオコンテンツから特徴となる画像または音声を抽出し、抽出した画像または音声から単語情報を得る特徴抽出手順と、
    カメラが撮影した画像から単語情報を得る画像認識手順と、
    前記画像認識手順で得た単語情報をクラスタリングして分類された単語情報を得るクラスタリング手順と、
    前記クラスタリング手順で得た分類された単語情報と、前記特徴抽出手順で取得された単語情報とに基づいて、前記コンテンツ蓄積部が蓄積したビデオコンテンツから関連するビデオコンテンツを検索するコンテンツ検索手順を、
    コンピュータに実行させるためのプログラムを記録し
    前記クラスタリング手順で得られる単語情報は、カメラが撮影した画像から文字認識処理で得られた単語の数と、カメラが撮影した画像中の形状から認識された物体の数とを比較して、主たる情報として決定した単語情報である
    記録媒体。
JP2012141596A 2012-06-25 2012-06-25 情報処理装置、情報処理システム、情報処理方法および記録媒体 Expired - Fee Related JP6046393B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012141596A JP6046393B2 (ja) 2012-06-25 2012-06-25 情報処理装置、情報処理システム、情報処理方法および記録媒体
US13/920,397 US9131207B2 (en) 2012-06-25 2013-06-18 Video recording apparatus, information processing system, information processing method, and recording medium
CN201310242489.9A CN103514248B (zh) 2012-06-25 2013-06-19 视频记录设备、信息处理系统、信息处理方法和记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012141596A JP6046393B2 (ja) 2012-06-25 2012-06-25 情報処理装置、情報処理システム、情報処理方法および記録媒体

Publications (3)

Publication Number Publication Date
JP2014006680A JP2014006680A (ja) 2014-01-16
JP2014006680A5 JP2014006680A5 (ja) 2015-07-30
JP6046393B2 true JP6046393B2 (ja) 2016-12-14

Family

ID=49878596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012141596A Expired - Fee Related JP6046393B2 (ja) 2012-06-25 2012-06-25 情報処理装置、情報処理システム、情報処理方法および記録媒体

Country Status (3)

Country Link
US (1) US9131207B2 (ja)
JP (1) JP6046393B2 (ja)
CN (1) CN103514248B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105898204A (zh) * 2014-12-25 2016-08-24 支录奎 视频结构化智能录像机
TWI656692B (zh) * 2015-12-31 2019-04-11 鴻海精密工業股份有限公司 通訊裝置
CN106547908B (zh) * 2016-11-25 2020-03-17 三星电子(中国)研发中心 一种信息推送方法和系统
CN107894998B (zh) * 2017-10-24 2019-04-26 迅雷计算机(深圳)有限公司 视频推荐方法及装置
CN107948585A (zh) * 2017-11-13 2018-04-20 西安艾润物联网技术服务有限责任公司 录像标记方法、装置及计算机可读存储介质
CN109034844A (zh) * 2018-07-25 2018-12-18 龙口盛福达食品有限公司 一种基于镜头样本检索的食品安全追溯系统检索方法
JP7247497B2 (ja) * 2018-09-19 2023-03-29 日本電信電話株式会社 選定装置および選定方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229180A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置
US8218873B2 (en) * 2000-11-06 2012-07-10 Nant Holdings Ip, Llc Object information derived from object images
JP2006115052A (ja) * 2004-10-13 2006-04-27 Sharp Corp コンテンツ検索装置とその入力装置、コンテンツ検索システム、コンテンツ検索方法、プログラム及び記録媒体
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
JP2008219342A (ja) 2007-03-02 2008-09-18 Sony Corp 情報処理装置および方法、並びにプログラム
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
JP4469905B2 (ja) * 2008-06-30 2010-06-02 株式会社東芝 テロップ収集装置およびテロップ収集方法
BR112012002803A2 (pt) * 2009-08-07 2019-09-24 Google Inc método implementado por computador para processamento de uma consulta visual, sistema servidor,e, mídia de armazenamento não temporário legível por computador
JP2012048324A (ja) * 2010-08-24 2012-03-08 Canon Inc 情報処理装置、その処理方法及びプログラム

Also Published As

Publication number Publication date
CN103514248B (zh) 2018-08-14
US9131207B2 (en) 2015-09-08
JP2014006680A (ja) 2014-01-16
US20140010518A1 (en) 2014-01-09
CN103514248A (zh) 2014-01-15

Similar Documents

Publication Publication Date Title
JP6046393B2 (ja) 情報処理装置、情報処理システム、情報処理方法および記録媒体
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
Truong et al. Video abstraction: A systematic review and classification
US10410679B2 (en) Producing video bits for space time video summary
US8107689B2 (en) Apparatus, method and computer program for processing information
US9779775B2 (en) Automatic generation of compilation videos from an original video based on metadata associated with the original video
US8879890B2 (en) Method for media reliving playback
US20160099023A1 (en) Automatic generation of compilation videos
US9082452B2 (en) Method for media reliving on demand
US10129515B2 (en) Display control device, recording control device, and display control method
US20120082378A1 (en) method and apparatus for selecting a representative image
JP2008533580A (ja) オーディオ及び/又はビジュアルデータの要約
US8255395B2 (en) Multimedia data recording method and apparatus for automatically generating/updating metadata
JP2014071702A (ja) 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム
US8634708B2 (en) Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
JP2006236218A (ja) 電子アルバム表示システム、電子アルバム表示方法、及び電子アルバム表示プログラム
CN111279709B (zh) 提供视频推荐
WO2019129075A1 (zh) 视频检索的方法和装置以及计算机可读存储介质
WO2017166483A1 (zh) 一种动态图片处理方法及系统
Patel et al. The contextcam: Automated point of capture video annotation
WO2021050728A1 (en) Method and system for pairing visual content with audio content
JP2006081021A (ja) 電子アルバム表示システム、電子アルバム表示方法、電子アルバム表示プログラム、画像分類装置、画像分類方法、及び画像分類プログラム
JP2017021672A (ja) 検索装置
US20120059855A1 (en) Method and computer program product for enabling organization of media objects
JP2009103945A (ja) 映像コンテンツ処理装置およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150610

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160408

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160704

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161117

R150 Certificate of patent or registration of utility model

Ref document number: 6046393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees