JP5906843B2 - キーワード検出装置、その制御方法および制御プログラム、並びに表示機器 - Google Patents

キーワード検出装置、その制御方法および制御プログラム、並びに表示機器 Download PDF

Info

Publication number
JP5906843B2
JP5906843B2 JP2012057999A JP2012057999A JP5906843B2 JP 5906843 B2 JP5906843 B2 JP 5906843B2 JP 2012057999 A JP2012057999 A JP 2012057999A JP 2012057999 A JP2012057999 A JP 2012057999A JP 5906843 B2 JP5906843 B2 JP 5906843B2
Authority
JP
Japan
Prior art keywords
search
keyword
character string
detected
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012057999A
Other languages
English (en)
Other versions
JP2013191104A (ja
Inventor
相澤 知禎
知禎 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2012057999A priority Critical patent/JP5906843B2/ja
Priority to PCT/JP2012/083644 priority patent/WO2013136628A1/ja
Priority to KR1020147023172A priority patent/KR101697933B1/ko
Priority to US14/380,230 priority patent/US9305234B2/en
Priority to CN201280070282.1A priority patent/CN104126188B/zh
Priority to EP12871077.9A priority patent/EP2827284A4/en
Publication of JP2013191104A publication Critical patent/JP2013191104A/ja
Application granted granted Critical
Publication of JP5906843B2 publication Critical patent/JP5906843B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本発明は、インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から検出するキーワード検出装置、その制御方法および制御プログラム、並びに表示機器に関するものである。
近年、インターネット上の検索エンジンにて検索を行うための検索用キーワードを、CM(Commercial Message)などのテレビジョン(以下、「TV」と称する。)放送用画像に含めて放送することが行われている。上記検索用キーワードを上記TV放送用画像の一部としてTV受像機にて表示することにより、ユーザに対し、上記検索エンジンにて上記検索用キーワードを検索するように促すことができる。
しかし、上記検索用キーワードの表示が短時間である場合も多く、このため、ユーザが上記検索用キーワードを見逃すことがある。また、ユーザが直ちにインターネット上での上記検索を行える環境ではない場合、上記検索を行う前に、表示された検索用キーワードを忘れてしまうことがある。
このような問題点を回避するため、上記放送用画像から検索用キーワードの文字列を認識して、該検索用キーワードを抽出することが考えられられる。
例えば、特許文献1に記載のインターネットテレビ装置では、テレビ放送の映像から文字認識により文字列を検出し、検出した文字列から単語を検出し、検出した単語から、所定の条件に従って、ネットワーク上の情報を検索するためのキーワードを決定している。
また、特許文献2には、TV放送において提示される各種検索誘導画面からキーワードを検出し、該キーワードを用いたインターネット検索を行う情報処理装置が開示されている。具体的には、最新の入力画像と所定時間前の入力画像との間の変化量を算出し、その変化量が閾値以下となる領域内において文字認識処理を実行している。文字列を含む画像は、当該文字列をユーザが認識できるように、或る程度の時間表示し続ける必要がある。このため、上記文字列の上記変化量はきわめて小さくなると考えられることから、上記文字認識処理によって上記キーワードを含む文字列を抽出することができる。
特開2010−039647号公報(2010年2月18日公開) 特開2009−188886号公報(2009年8月20日公開) 特開2009−044658号公報(2009年2月26日公開) 特開2010−152800号公報(2010年7月8日公開) 特許第4893861号公報(2012年3月7日発行)
「ディジタル画像処理」,第2版,財団法人 画像情報教育振興協会,2009年,p.311−313
しかしながら、特許文献1に記載のインターネットテレビ装置では、テレビ放送の映像の全体に対し文字認識を行った上で上記キーワードを検出している。この場合、多数の文字のそれぞれについて、当該文字の特徴点と上記映像の特徴点との照合を行う第1の処理と、該照合により検出された文字列から上記キーワードの検索を行う第2の処理とを行う必要がある。特に、日本国、中国のような漢字文化圏の場合、文字認識の対象となる文字の数が3千以上となり、処理負担が大きくかつ処理時間が長くなる。
これに対し、特許文献2の情報処理装置では、文字認識の対象となる画像領域が、最新の入力画像と所定時間前の入力画像との間の変化量が閾値以下となる領域に限定されるので、処理時間を短縮することができる。しかしながら、上記変化量を算出するために、少なくとも2枚のフレーム画像を扱う必要がある。そのため、メモリ容量を圧迫し、処理時間が長くなるという問題がある。また、同様の理由により、上記情報処理装置は静止画像に使用することができない。
そこで、上記検索用キーワードを迅速に抽出する技術として、上記検索用キーワードを入力するための検索窓が、特徴的な形態で提供されていることに着目した技術がある。
ここで、図9に、検索窓の形態例を示す。図示のように、検索窓は、検索を促す「検索」などの文字列の左側に、矩形の形態、または矩形に類似の形態で左右の辺が丸みを帯びた形態で提供されるものが多い。また、上記「検索」などの文字列は、矩形などの枠に囲まれていることもあるが、枠に囲まれずに提供されることもある。
例えば、特許文献3には、画像中から水平または垂直な直線となっている箇所を抽出することが開示されている。これにより、サーチエンジン(検索エンジン)の検索窓を模した領域を特定し、その領域内から検索用キーワードを抽出することができる。
また、特許文献4には、画面に表示される映像から文字入力領域(検索窓)の形状を有する映像であって、該映像内に存在する文字の配列が上記文字入力領域に入力される文字の配列を有している映像を抽出することが開示されている。これにより、上記文字入力領域内に文字が検索窓に特徴的な形態で配列された検索窓領域のみを画像から正確に抽出することができる。
しかし、TV放送用画像などの動画においては、検索窓でなくとも、風景の部分も含めて検索窓に類似の矩形または多角形が多数表示されることがある。特許文献3・4では、上記矩形または多角形の各々について文字または文字の特徴量を抽出する必要があり、結果として処理時間が長くなってしまう。特に、リアルタイム性が要求される動画を扱うためには、長い処理時間は深刻な問題となってしまう。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、検索用キーワードを迅速に検出できるキーワード検出装置などを提供することにある。
本発明に係るキーワード抽出装置は、インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から検出するキーワード検出装置であって、上記課題を解決するために、上記対象画像から、上記検索を促す特定文字列の特徴点を検出する特徴点検出部と、上記対象画像において、上記特徴点検出部が検出した特徴点の周囲に存在する文字列を、上記検索用キーワードとして認識するキーワード認識部と、を備えることを特徴としている。
また、本発明に係るキーワード抽出装置の制御方法は、インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から検出するキーワード検出装置の制御方法であって、上記課題を解決するために、上記対象画像から、上記検索を促す特定文字列の特徴点を検出する特徴点検出ステップと、上記対象画像において、上記特徴点検出ステップにて検出された特徴点の周囲に存在する文字列を、上記検索用キーワードとして認識するキーワード認識ステップと、を含むことを特徴としている。
上記の構成および方法によると、対象画像において、検索を促す特定文字列の特徴点が検出され、検出された特徴点の周囲に存在する文字列が、検索用キーワードとして認識される。
ところで、従来は、特許文献1のように、対象画像の全体に対し文字認識を行った上で上記特定文字列を抽出する場合がある。この場合、多数の文字のそれぞれについて、当該文字の特徴点と対象画像の特徴点との照合を行う第1の処理と、該照合により検出された文字列に上記特定文字列が含まれているか否かの判断を行う第2の処理とを行う必要がある。
これに対し、本発明では、幾つかの上記特定文字列のそれぞれについて、当該特定文字列の特徴点と対象画像の特徴点との照合を行う処理で済む。すなわち、本発明では、上記従来の場合に比べて、第1の処理は、少数の文字のそれぞれについて、当該文字の特徴点と対象画像の特徴点との照合を行うことになり、第2の処理は省略されることになる。従って、処理数が少ない上に、上記照合の繰返し数が少なくて済むので、従来よりも迅速に検出することができる。
また、対象画像から検索窓の矩形枠を検出する従来の場合、矩形などの幾何学形状は、特徴点の数が少ないので、対象画像から多数検出される可能性が高く、このため、多数検出された幾何学形状から検索窓の矩形枠を特定する必要がある。これに対し、対象画像から上記特徴文字列を検出する本発明の場合、当該特定文字列は、特徴点の数が多いので、対象画像から多数検出される可能性が低く、このため、従来よりも迅速に検出する可能性が高くなる。
また、検索用キーワードとしての文字列を認識する領域は、検出された特徴点の周囲に限定されるので、当該文字列を迅速に認識することができる。以上より、検索用キーワードを従来よりも迅速に検出することができる。
なお、上記検索を促す特定文字列の例としては、「検索」、「サーチ(search)」、「確認」、「チェック(check)」、これらの訳語などが挙げられる。また、上記特定文字列の特徴点の検出は、該特定文字列に含まれる文字ごとに特徴点を検出してもよいし、複数の文字ごとに特徴点を検出してもよい。上記文字ごとに特徴点を検出する場合、まず、上記特定文字列に含まれる或る文字の特徴点を検出し、次に、検出された特徴点の周囲から、上記特定文字列に含まれる別の文字の特徴点を検出してもよい。
本発明に係るキーワード抽出装置では、上記対象画像において、上記特徴点検出部が検出した特徴点の周囲から、上記検索用キーワードを入力するための検索窓を検出する検索窓検出部をさらに備えており、上記キーワード認識部は、上記検索窓検出部が検出した検索窓内の文字列を、上記検索用キーワードとして認識する構成であることが好ましい。
一般に、上記検索窓は、例えば矩形など、形状が限定されているので、上記特徴点の周囲において、上記検索窓を検出する方が、文字認識により文字列を検出するよりも著しく迅速に検出することができる。また、上記検索窓の内部は、上記特徴点の周囲よりも著しく狭いので、上記検索窓内から文字列を認識する方が、上記特徴点の周囲から文字列を認識するよりも著しく迅速に検出することができる。従って、上記の場合には、検索用キーワードをさらに迅速に検出することができる。
ところで、上記検索窓は、「検索」などの検索を促す特定文字列の左側付近に位置していることが多い。また、上記検索窓は、矩形を基調としながらも多様な形状を有しているが、一般には、上辺が、上記特定文字列の外接矩形(bounding box)の左上頂点座標よりも左上に位置しており、かつ、下辺が、上記外接矩形の左下頂点座標よりも左下に位置している。ここで、外接矩形とは、対象に接する最小の長方形をいう。
そこで、本発明に係るキーワード抽出装置では、上記検索窓検出部は、上記対象画像において、上記特定文字列の外接矩形を求め、求めた外接矩形の左上頂点を右下頂点とする上部検出用矩形と、上記外接矩形の左下頂点を右上頂点とする下部検出用矩形とを設定し、設定された上部検出用矩形および下部検出用矩形内に、それぞれ、上記検索窓の上辺および下辺を検出し、検出された上辺および下辺によって構成される矩形を両側方向に拡げた側部検出用矩形を設定し、設定された側部検出用矩形内に、上記検索窓の左側および右側の線を検出することにより、上記検索窓を検出することが好ましい。
この場合、上記検索窓を検出するための領域が、上記の上部検出用矩形、下部検出用矩形、および側部検出用矩形内の領域に限定される。従って、上記検索窓をさらに迅速に検出することができ、その結果、上記検索用キーワードをさらに迅速に検出することができる。
本発明に係るキーワード抽出装置では、上記対象画像は、動画における一連の静止画像であり、上記検索窓検出部が、或る上記静止画像から上記検索窓を検出した場合、その後の上記静止画像から上記検索窓が検出されなくなるまで、上記特徴点検出部の動作を省略することが好ましい。
この場合、上記検索窓が検出されている間は、上記特徴点検出部による特定文字列の特徴点の検出が省略されるので、上記検索用キーワードをさらに迅速に検出することができる。また、上記特定文字列の特徴点は、上記対象画像の全体を調べて検出しているので、上記対象画像のサイズが大きくなるにつれて、検出に必要な時間が長くなる。従って、上記の場合には、上記対象画像のサイズが大きくなることにより上記検索用キーワードの検出が遅延することを抑えることができる。
ところで、文字認識により得られる文字には、マッチング信頼度の順に幾つかの文字候補が含まれ、第1の文字候補が正解の文字であるとは限らないが、上位(例えば第1〜第3)の文字候補の何れかが正解の文字である可能性が高い。
そこで、本発明に係るキーワード抽出装置では、上記キーワード認識部は、上記検索窓内の文字列を構成する文字ごとに、文字認識を行って所定の条件を満たす1または複数の文字候補を検出し、上記各文字の文字候補を組み合わせることにより、上記検索用キーワードの候補を複数個作成することが好ましい。この場合、第1の文字候補のみを組み合わせることにより、正しい検索用キーワードが得られないというリスクを低減することができる。
ところで、正解の文字は、第2以降の文字候補であったとしても、マッチング信頼度が高いと考えられ、或いは第1の文字候補に比べて、マッチング信頼度の差が少ないと考えられる。
そこで、上記所定の条件は、上記文字認識によるマッチング信頼度が所定の閾値よりも大きいものであることが好ましい。また、上記所定の条件は、上記文字認識によるマッチング信頼度が、該マッチング信頼度が最大である文字候補(第1の文字候補)のマッチング信頼度との差が所定の範囲内であることが好ましい。これらの場合、正解の文字を含む文字候補を適切に抽出することができる。
また、上記キーワード認識部は、上記各文字の文字候補を組み合わせた認識文字列のスコアを、該認識文字列を構成する文字候補のマッチング信頼度の平均値とし、上記スコアが上位の認識文字列を上記検索用キーワードの候補とすることが好ましい。この場合、正しい検索用キーワードを含む候補を適切に抽出することができる。
ところで、上記検索窓内の文字列および文字数が時間と共に変化する場合がある。この場合、上記文字列および文字数の変化が終了した後に認識した文字列が、正しい検索用キーワードである可能性が高い。
そこで、本発明に係るキーワード検出装置では、上記対象画像は、動画における一連の静止画像であり、上記キーワード認識部は、上記検索窓検出部が、何れかの上記静止画像から上記検索窓を検出してから、その後に続く上記静止画像から上記検索窓が検出されなくなるまでに作成された認識文字列の中から上記検索用キーワードの候補を作成しており、或る上記静止画像からの認識文字列の文字数に比べて、次の上記静止画像からの認識文字列の文字数が変化するたびに、該認識文字列のスコアの重み付けが大きくなり、重み付けされた上記スコアが上位の認識文字列を上記検索用キーワードの候補とすることが好ましい。この場合、上記検索窓内の文字列および文字数が時間と共に変化する場合にも対応することができる。
なお、インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から抽出する上記構成のキーワード検出装置と、該キーワード検出装置が検出した検索用キーワードと、上記対象画像とを表示する表示装置と、を備えた表示機器であれば、上述と同様の効果を奏する。
また、上記キーワード抽出装置の各部を、制御プログラムによりコンピュータ上で実行させることができる。さらに、上記制御プログラムを、コンピュータ読み取り可能な記録媒体に記憶させることにより、任意のコンピュータ上で当該キーワード抽出装置を実行させることができる。
以上のように、本発明に係るキーワード抽出装置は、対象画像において、検索を促す特定文字列の特徴点が検出され、検出された特徴点の周囲に存在する文字列が、検索用キーワードとして認識されるので、上記特定文字列の特徴点を迅速に検出できると共に、当該文字列を迅速に認識でき、その結果、検索用キーワードを従来よりも迅速に検出できるという効果を奏する。
本発明の一実施形態である再生デバイスの概略構成を示すブロック図である。 上記再生デバイスにおける制御部によって実行されるキーワード検出処理の流れを示すフローチャートである。 上記再生デバイスにおける検索窓検出部によって実行される検索窓検出処理の流れを示すフローチャートである。 検索窓の一例を示す図である。 本発明の他の実施形態である表示装置の概略構成を示すブロック図である。 上記表示装置における検索キーワード作成部によって実行される処理の流れを示すフローチャートである。 上記表示装置の正面図であり、該表示装置における表示部の表示例を示す図である。 上記検索キーワード作成部によって実行される他の処理の流れを示すフローチャートである。 様々な検索窓および「検索」文字列の形態を示す図である。
〔実施の形態1〕
以下、本発明の一実施形態について、図1〜図4を参照しながら詳細に説明する。
〔再生デバイスの構成〕
図1は、本実施形態である再生デバイス(キーワード検出装置)110の概略構成を示している。再生デバイス110は、記憶された動画データを再生して、例えば表示デバイスなど、外部のデバイスに送信するものである。図示のように、再生デバイス110は、制御部10、送信部101、および記憶部104を備える。
制御部10は、再生デバイス110内における各種構成の動作を統括的に制御するものであり、例えばCPU(Central Processing Unit)およびメモリを含むコンピュータによって構成される。そして、各種構成の動作制御は、制御プログラムをコンピュータに実行させることによって行われる。なお、制御部10の詳細については後述する。
記憶部104は、情報を記録するものであり、ハードディスク、フラッシュメモリ、ROM(Read Only Memory)、RAM(Random Access Memory)などの記憶装置によって構成される。なお、記憶部104の詳細については後述する。
送信部101は、制御部10からのデータを、データ送信に適した形式に変換した後、外部のデバイスに送信するものである。なお、この送信は、有線で行われてもよいし、無線で行われてもよい。
本実施形態では、再生デバイス110は、インターネット上の検索エンジンにて検索を行うための検索用キーワードを動画に含まれる静止画像(対象画像)から検出するものである。再生デバイス110は、上記静止画像において、上記検索を促す特定文字列の特徴点を検出し、検出した特徴点の周囲から、上記検索用キーワードを入力するための検索窓を検出し、検出した検索窓内の文字列を、上記検索用キーワードとして認識している。
これにより、上記静止画像の全体に対し文字認識を行った上で上記特定文字列を抽出する場合に比べて、幾つかの上記特定文字列の特徴点と照合すればよく、多数の文字の特徴点と照合する必要が無い。その結果、上記特定文字列の特徴点を迅速に検出することができる。同様に、上記検索窓は、例えば矩形など、形状が限定されているので、迅速に検出することができる。また、検索用キーワードとしての文字列を認識する領域は、上記検索窓内に限定されるので、当該文字列を迅速に認識することができる。その結果、検索用キーワードを従来よりも迅速に検出することができる。
また、上記静止画像から上記特定文字列の特徴点を検出すればよいので、複雑な背景下においても精度良く、かつ、リアルタイムでの処理が可能である。すなわち、「検索」などの特定文字列の背景に、グラデーションが施されていたり、風景が挿入されていたりしていても、精度良く検出でき、結果として、検索用キーワードの検出の精度を向上させることができる。また、「検索」などの特定文字列が矩形で囲まれていなくても問題なく検知することができる。さらに、複数枚分のフレーム画像を扱う必要がなく、そのためのメモリ容量が問題とはならない。
次に、制御部10および記憶部104の詳細について説明する。図1に示すように、制御部10は、動画再生部111、静止画生成部112、文字列検知部113(特徴点検出部)、検索窓検出部115、文字認識部116(キーワード認識部)、および合成部117を備える構成である。また、記憶部104は、画像情報記憶部121および文字情報記憶部122を含んでいる。
画像情報記憶部121は、動画データを記憶するものである。また、文字情報記憶部122は、文字に関する情報であって、特定文字列の検知および各種文字の認識に必要な情報である文字情報DB(データベース)を記憶するものである。具体的には、上記文字情報DBには、文字コードと、特定文字列の特徴量と、各種文字の特徴量とが含まれる。
動画再生部111は、画像情報記憶部121に記憶された動画データを再生するものである。動画再生部111は、再生した動画データを静止画生成部112および合成部117に送出する。なお、画像情報記憶部121が静止画データを記憶し、動画再生部111が上記静止画データを再生してもよい。また、上記再生については、周知技術であるので、その詳細な説明を省略する。
静止画生成部112は、動画再生部111からの動画データを所定の期間ごとにデコードして、静止画像を生成するものである。静止画生成部112は、生成した静止画像を文字列検知部113に送出する。
文字列検知部113は、静止画生成部112からの静止画像の中から、検索を促す特定文字列に含まれる各文字の特徴点を検出することにより、上記特定文字列を検知する。文字列検知部113は、検知した特定文字列が上記静止画像上で占める位置情報を、上記静止画像と共に検索窓検出部115に送出する。なお、特徴点の例としては、画像において輝度が急激に変化する部分などが挙げられる。
上記特定文字列を検知する方法の一例としては、特許文献5に記載のものが挙げられる。すなわち、まず、上記静止画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも1つ定義する。次に、上記静止画像を、定義されたクラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記静止画像から上記その他の画素群の領域が排除されたクリッピング画像を生成する。そして、生成されたクリッピング画像から、上記特定文字列に含まれる各文字の特徴点を検出することにより、該特定文字列を検知する。
ここで、検索を促す特定文字列の例としては、「検索」、「サーチ」、「確認」、「チェック」、これらの訳語などが挙げられる。以下では、上記検索を促す特定文字列として「検索」を利用しており、上記特定文字列を「検索」文字列と表記する。
検索窓検出部115は、文字列検知部113からの静止画像と「検索」文字列の位置情報とを用いて、上記静止画像において「検索」文字列が占める位置の周囲から検索窓を検出する。検索窓検出部115は、検出した検索窓が上記静止画像上で占める領域情報を、上記静止画像と共に文字認識部116に送出する。なお、上記検索窓を検出する処理の詳細については後述する。
文字認識部116は、検索窓検出部115からの静止画像と上記検索窓の領域情報とを用いて、該検索窓内の1または複数の文字を認識する。文字認識部116は、認識した文字によって構成される文字列を検索用キーワードとして合成部117に送信する。
文字を認識する方法の一例としては、非特許文献1に記載の方法が挙げられ、さらに下記のものが挙げられる。すなわち、まず、黒画素数を計数したヒストグラムを用いて、文字認識をすべき文字画像の外接矩形情報を取得する。次に、上記外接矩形内において文字画像のエッジ成分などを抽出することにより、文字画像の特徴ベクトルを得る。そして、該文字画像の特徴ベクトルを、あらかじめ文字情報記憶部122に記憶させておいた文字認識用辞書内の特徴ベクトルと比較して、上記文字画像と類似度の高い1つまたは複数の文字の文字コードを取得する。この文字コードが、上記文字画像から認識された文字の文字コードとなる。
合成部117は、動画再生部111からの動画データと、文字認識部116からの検索用キーワードとを用いて、上記動画の適所に上記検索用キーワードを合成する。合成部117は、上記検索用キーワードが合成された動画のデータを、送信部101を介して外部のデバイスに送信する。
〔再生デバイスにおける処理〕
次に、上記構成の再生デバイス110における処理を、図2を参照して説明する。なお、本実施形態において、再生される画像データは、動画(ストリーミング動画)のデータである。
図2は、再生デバイス110の制御部10において実行されるキーワード検出処理の流れを示すフローチャートである。図示のように、まず、タイマ(図示せず)の時刻tが0にセットされ、検索窓検出状態フラグdetectFlagが立っていない状態(FALSE)、すなわち検索窓を検出していない状態にセットされる初期化を行う(S101・102)。それから、動画再生部111が動画の再生を開始する(S103)。これにより、再生された動画データが、合成部117および送信部101を介して、外部のデバイスに送信される。
次に、静止画生成部112は、時刻tが、t=k×t0、という条件を満たすか否かを判断する(S104)。ここで、kは自然数であり、t0は所定の周期である。上記条件を満たさない場合(S104にてNO)、ステップS111に進む。
一方、上記条件を満たす場合(S104にてYES)、静止画生成部112は、動画再生部111が再生した動画データ(フレーム画像のデータ)をデコードして、静止画像を生成する(S105)。なお、上記所定の周期t0を適宜設定することにより、上記静止画像を作成する周期を調整することができる。
次に、文字列検知部113は、静止画生成部112が生成した静止画像において、検索処理を促す文字列、すなわち「検索」文字列を検知する(S106、特徴点検出ステップ)。「検索」文字列を検知できなかった場合(S107にてNO)、ステップS111に進む。
一方、「検索」文字列を検知できた場合(S107にてYES)、検索窓検出部115は、文字列検知部113が検知した「検索」文字列が上記静止画像において占める位置の周囲から検索窓を検出する(S108)。なお、該検索窓を検出する処理の詳細については後述する。上記検索窓を検出できた場合(S109でYES)、ステップS115に進む。一方、上記検索窓を検出できなかった場合(S109でNO)、ステップS110に進む。
ステップS115において、検索窓検出部115は、検索窓検出状態フラグdetectFlagを立った状態(TRUE)にセットする。これは、検索窓を検出した状態であることを示している。次に、文字認識部116は、検索窓検出部115が検出した検索窓内の1または複数の文字を認識して、認識した文字によって構成される文字列を認識する(S116、キーワード認識ステップ)。この文字の認識処理は、前述のような公知技術によって行われる。
次に、静止画生成部112は、時刻tが進んで、t=k×t1、という条件を満たすまで待機する(S117・S118)。ここで、t1は、t1≦t0を満たす所定の周期である。例えば、ステップS116の処理を終了した時刻tがt0’であり、t1≦t0’<2×t1であったとすると、t=2×t1となるまで待機することになる。
上記条件を満たすと、静止画生成部112は、ステップS105と同様に、静止画像を生成し(S119)、その後、ステップS108に戻って、検索窓検出部115が検索窓を検出する。すなわち、一度、「検索」文字列が検知され、検索窓が検出されると、検索窓が検出されなくなるまで、「検索」文字列の検知が省略されることになる。これにより、上記検索用キーワードをさらに迅速に検出することができる。また、静止画生成部112が静止画像を作成する周期t1を周期t0よりも短くすることができる(t1<t0)。
また、「検索」文字列の特徴点は、静止画像の全体を調べて検出しているので、上記静止画像のサイズが大きくなるにつれて、検出に必要な時間が長くなる。従って、上記の構成によると、上記静止画像のサイズが大きくなることにより上記検索用キーワードの検出が遅延することを抑えることができる。特に、上記静止画像がフルHDサイズ(1920ピクセル×1080ピクセル)のような大きなサイズである場合に効果的である。
一方、ステップS110において、文字認識部116は、検索窓検出状態フラグdetectFlagが立った状態(TRUE)であるか否か、すなわち前の静止画像から上記検索窓を検出したか否かを判断する。前の静止画像から上記検索窓を検出した場合、すなわち、今回の静止画像では当該検索窓が消失した場合にはステップS113に進む。一方、前の静止画像から上記検索窓を検出しなかった場合、すなわち、検索窓を検出していない状態が継続している場合にはステップS111に進む。
ステップS113において、合成部117は、文字認識部116が認識した文字列(認識文字列)のデータを、検索用キーワードの候補のデータとして、動画再生部111が再生した動画データに合成し、合成された動画データを送信部101を介して外部のデバイスに送信する(S113)。
なお、文字認識部116が文字列を認識できなかった場合、合成部117は、「文字列は認識できませんでした」などのエラーメッセージのデータを上記動画データに合成してもよいし、合成前の上記動画データをそのまま送信部101を介して外部のデバイスに送信してもよい。また、文字認識部116が複数の文字列を認識できた場合、当該複数の認識文字列のデータを検索用キーワードの候補のデータとして、上記動画データに合成してもよい。
次に、合成部117は、検索窓検出状態フラグdetectFlagを、立っていない状態(FALSE)にセットし(S114)、その後、ステップS111に進む。
ステップS111において、単位時間経過した後、動画再生部111は、動画データの再生が終了したか否かを判断する(S112)。終了していない場合には、ステップS104に戻って上述の動作を繰り返す。一方、終了した場合には、処理を終了する。
〔検索窓検出処理〕
次に、図2に示す検索窓の検出処理(S108)の詳細について、図3、図4、および図9を参照して説明する。図9に示すように、検索窓SBは、一般に「検索」文字列SCの左に位置しており、かつ、「検索」文字列SCの左上に検索窓SBの上辺の右端が位置し、「検索」文字列SCの左下に検索窓SBの下辺の右端が位置している。
そこで、本実施形態では、検索窓SBを以下のように検出する。すなわち、まず、「検索」文字列SCの左上の領域から左方向に伸びる線分を、検索窓SBの上線(上辺)として検出し、「検索」文字列SCの左下の領域から左方向に伸びる線分を、検索窓SBの下線(下辺)として検出する。次に、検出された上線の右端と下線の右端とを結ぶ線(線分または曲線)を、検索窓SBの右線として検出し、検出された上線の左端と下線の左端とを結ぶ線(線分または曲線)を、検索窓SBの左線として検出する。これにより、検索窓SBを構成する全ての線(上線、下線、左線、および右線)が検出される。
図3は、本実施形態の検索窓検出部115が検索窓SBを検出する検索窓検出処理の流れを示すフローチャートである。また、図4は、検索窓の一例を示す図であり、同図の(a)は、「検索」文字列の左側付近に検索窓が位置する例を示しており、同図の(b)は、「検索」文字列の上側付近に検索窓が位置する例を示している。
図3および図4の(a)に示すように、まず、文字列検知部113が検知した「検索」文字列SCの外接矩形BBを取得し(S1081)、取得した外接矩形BBの左上頂点を右下頂点とし、所定寸法である横長の矩形Aを設定する(S1082)。
次に、設定した矩形A内から、検索窓SBの上辺に相当する線分(第1の線分)を検出する(S1083)。具体的には、設定した矩形A内において、横方向(外接矩形BBの上辺と平行な方向)に伸びる線分を第1の線分として検出する。
なお、矩形A内において複数の線分を検出した場合には、矩形Aの下辺に最も近い線分を第1の線分として選択することが好ましい。なぜなら、そのように選択しない場合、検索窓SB内に線分が残ることになり、検索窓SB内の文字認識のときに、残った線分による誤認識が発生する虞があるからである。
第1の線分を検出できなかった場合(S1084にてNO)、検索窓SBを検出できなかったとして(S1084’)、上記検索窓検出処理を終了し、図2に示す元の処理に戻る。
一方、第1の線分を検出できた場合(S1084にてYES)、外接矩形BBの左下頂点を右上頂点とし、矩形Aと同様の所定寸法である横長の矩形Bを設定する(S1085)。次に、設定した矩形B内から、検索窓SBの下辺に相当する線分(第2の線分)を検出する(S1086)。具体的には、設定した矩形B内において、横方向(外接矩形BBの下辺と平行な方向)に伸びる線分を第2の線分として検出する。
なお、矩形B内において複数の線分を検出した場合には、矩形Bの上辺に最も近い線分を第2の線分として選択することが好ましい。なぜなら、そのように選択しない場合、検索窓SB内に線分が残ることになり、検索窓SB内の文字認識のときに、残った線分による誤認識が発生する虞があるからである。
第2の線分を検出できなかった場合(S1087にてNO)、検索窓SBを検出できなかったとして(S1084’)、上記検索窓検出処理を終了し、図2に示す元の処理に戻る。一方、第2の線分を検出できた場合(S1087にてYES)、ステップS1088に進む。
ところで、検索窓SBの上辺および下辺は、長さが略同じであると考えられる。従って、ステップS1083・S1086にて検出された第1および第2の線分は、長さが著しく異なる場合、検索窓SBの上辺および下辺ではないと考えられる。
そこで、ステップS1088において、第1および第2の線分の長さの差が所定の閾値以上であるか否かを判断する。上記長さの差が所定の閾値よりも大きい場合(S1088にてNO)、検索窓SBを検出できなかったとして(S1084’)、上記検索窓検出処理を終了し、図2に示す元の処理に戻る。
一方、上記長さの差が所定の閾値以下である場合(S1088にてYES)、第1および第2の線分のそれぞれについて、両端を所定の長さ(マージン)だけ延長し、延長された2つの線分を上辺および下辺とする矩形Cを設定する(S1089)。なお、図4の(a)では、理解し易いように、矩形Cの上辺および下辺は、検索窓SBの上辺および下辺からずらして記載している。
次に、設定した矩形C内から、検索窓SBの左辺(左線)および右辺(右線)に相当する2線(線分または弧)を検出する(S1090)。具体的には、設定した矩形C内において、第1の線分と第2の線分とを連結する2本の線を、上記の左線および右線に相当する2線として検出する。
なお、上記2線は、線分でもよいし弧でもよい。また、検索窓SBの左線および右線に相当する2線を検出する範囲は、矩形C内の全体でなくてもよい。例えば、矩形C内の左側の1/3の領域で左線に相当する線を検出し、矩形Cの右側の1/3の領域で右線に相当する線を検出してもよい。この場合、検出を行う範囲が狭くなるので、検索窓SBの検出処理時間が短縮される。
検索窓SBの左線および右線に相当する2線を検出できなかった場合(S1091にてNO)、検索窓SBを検出できなかったとして(S1084’)、上記検索窓検出処理を終了し、図2に示す元の処理に戻る。一方、上記2線を検出できた場合(S1091にてYES)、検索窓SBを検出できたとして(S1092)、上記検索窓検出処理を終了し、図2に示す元の処理に戻る。
従って、検索窓SBを検出するための領域が、矩形A(上部検出用矩形)、矩形B(下部検出用矩形)、および矩形C(側部検出用矩形)内の領域に限定される。従って、検索窓SBをさらに迅速に検出することができ、その結果、検索用キーワードをさらに迅速に検出することができる。
なお、検索窓SBの上辺を検出する処理(S1082〜S1084)と、検索窓SBの下辺を検出する処理(S1085〜S1087)とは、何れを先に行ってもよい。
また、本実施形態では、文字列検知部113は、上記静止画像の中から、「検索」文字列に含まれる各文字の特徴点を検出しているが、例えば、上記各文字の1つ(例えば「索」)の特徴点を検出し、検出された特徴点の周囲から、上記各文字の別の1つ(例えば「検」)の特徴点を検出してもよい。また、文字列検知部113は、上記静止画像の中から、「検索」文字列に含まれる複数の文字(すなわち「検索」)の特徴点を同時に検出してもよい。
〔変形例〕
また、本実施形態では、検索窓SBが「検索」文字列SCの左側付近に位置していると仮定して、「検索」文字列SCの左側付近で検索窓SBを検出する例を説明したが、本発明はこれに限らない。すなわち、検索窓SBは、「検索」文字列SC(検索を促す文字列)に対し上下左右の何れの側付近に位置してもよい。
検索窓SBが「検索」文字列SCの上下左右の何れの側付近に位置しても検出できるようにするためには、以下のように行えばよい。すなわち、まず、「検索」文字列SCの上下左右の方向について、検出を行う優先順位(例えば、左、上、右、および下の順)を予め設定しておく。そして、設定された優先順位で検索窓SBの検出を行い、或る方向で検索窓SBが検出できれば、その時点で検索窓SBの検出を終了する。
「検索」文字列SCの左側付近で検索窓SBの検出を行う手順については、上述の通りである。また、「検索」文字列SCの右側付近で検索窓SBの検出を行う手順については、上述の手順において「左」と「右」とを入れ替えればよい。
「検索」文字列SCの上側付近で検索窓SBの検出を行う手順の一例について、図4の(b)を参照して説明する。
すなわち、まず、「検索」文字列SCの外接矩形BBを取得し、取得した外接矩形BBの左上頂点を右下頂点とし、所定寸法である横長の矩形A’を設定し、外接矩形BBの右上頂点を左下頂点とし、矩形A’と同様の所定寸法である横長の矩形B’を設定する。次に、矩形A’内において、逆コの字状の線であって、上辺および下辺が矩形A’の右端に達している線を第1の線として検出し、矩形B’内において、コの字状の線であって、上辺および下辺が矩形B’の左端に達している線を第2の線として検出する。
そして、第1および第2の線の上辺どうしを連結する第3の線を検出し、第1および第2の線の下辺どうしを連結する第4の線を検出することにより、第1〜第4の線で囲まれた検索窓SBを検出する。或いは、第1および第2の線の上辺を含む矩形Aを設定し、第1および第2の線の下辺を含む矩形Bを設定して、図4の(a)に示す手順と同様の手順を行うことにより、検索窓SBを検出してもよい。なお、「検索」文字列SCの下側付近で検索窓SBの検出を行う手順については、上記の手順において「上」と「下」とを入れ替えればよい。
〔実施の形態2〕
次に、本発明の他の実施形態について、図5〜図8を参照して説明する。なお、説明の便宜上、上記実施形態にて説明した構成と同じ機能を有する構成については、同じ符号を付記し、その説明を省略する。
〔表示装置の構成〕
図5は、本実施形態である表示装置200(表示機器)の概略構成を示すブロック図である。本実施形態の表示装置200は、TV受像機にインターネット接続機能が追加された、いわゆるインターネットテレビである。
図5に示すように、表示装置200は、図1に示す再生デバイス110に比べて、送信部101の代わりに表示部201が設けられ、ネットワークI/F(インタフェース)部202、操作部206、および放送受信部207が追加された構成である。また、表示装置200の制御部20は、図1に示す再生デバイス110の制御部10に比べて、キーワード候補作成部217および検索要求部218が追加された構成である。
表示部201は、制御部20からの画像データに基づいて、文字や画像などの各種の情報を表示出力するものである。表示部201は、LCD(液晶表示素子)、CRT(陰極線管)、プラズマディスプレイなどの表示デバイスによって構成されている。
ネットワークI/F部202は、制御部20と外部の通信ネットワーク(図示せず)とのインタフェースを行うものである。具体的には、ネットワークI/F部202は、上記通信ネットワークに接続して、制御部20からのデータを、上記通信ネットワークに適した形式に変換して上記通信ネットワークに送信する。また、ネットワークI/F部202は、上記通信ネットワークからのデータを、制御部20での処理に適した形式に変換して制御部20に送信する。
操作部206は、ユーザの操作によりユーザから各種の入力を受け付けるものであり、入力用ボタン、タッチパネル、その他の操作デバイスによって構成されている。操作部206は、ユーザが操作した情報を操作データに変換して制御部20に送信する。なお、操作デバイスの他の例としては、キーボードと、テンキーと、マウスなどのポインティングデバイスとが挙げられる。
放送受信部207は、外部の放送局からのTV放送波を、アンテナ(図示せず)を介して受信するものである。放送受信部207は、受信したTV放送波からAV(Audio Visual)データを抽出し、抽出したAVデータを制御部20を介して画像情報記憶部121に記憶する。
キーワード候補作成部217は、文字認識部116と合成部117との間に設けられ、文字認識部116が認識した1または複数の認識文字列に基づいて、検索用キーワードの候補を作成するものである。キーワード候補作成部217は、作成した検索用キーワードの候補を合成部117および検索要求部218に送出する。これにより、上記検索用キーワードの候補は、合成部117にて動画と合成されて、表示部201にて表示される。なお、キーワード候補作成部217の詳細については後述する。
検索要求部218は、インターネット上の検索エンジンに対し、ユーザから操作部206を介して取得した検索用キーワードでの検索を、ネットワークI/F部202を介して要求するものである。具体的には、検索要求部218は、まず、キーワード候補作成部217からの検索用キーワードの候補の中から、ユーザが操作部206を介して選択したものを検索用キーワードとする。そして、該検索用キーワードでの検索を、ネットワークI/F部202を介して上記検索エンジンに要求する。検索要求部218は、上記検索の結果を、上記検索エンジンからネットワークI/F部202を介して取得する。取得した検索の結果は、合成部117および表示部201を介して表示出力される。
〔検索用キーワードの作成の詳細〕
次に、キーワード候補作成部217の詳細について説明する。本実施形態では、キーワード候補作成部217は、複数の上記認識文字列に候補順位を付し、該候補順位が1位から所定の順位までの上記認識文字列を、検索用キーワードの候補として作成する。上記候補順位は、上記認識文字列を構成する文字のマッチング信頼度の統計量(例えば平均値)の大きい順となっている。ここで、文字のマッチング信頼度とは、認識された文字について、検索窓SB内の当該文字の特徴と、文字情報記憶部122に記憶された当該文字の特徴との一致の程度を示すものである。
図6は、キーワード候補作成部217が行うキーワード候補の作成処理の流れを示すフローチャートである。なお、上記キーワード候補の作成処理は、図2に示すステップS113にて行われる処理である。
図6に示すように、まず、j=1に初期化し(S2021)、文字認識部116が認識した文字列におけるj番目の文字について、マッチング信頼度が所定の閾値よりも高い文字候補を選出する(S2022)。
なお、処理負担の軽減の観点から、文字候補の最大数を所定数(例えば3つ)に限定することが望ましい。また、マッチング信頼度が文字候補の間で大きく異なる場合、マッチング信頼度が高い文字候補が正しい認識であり、マッチング信頼度が低い文字候補が誤った認識である可能性が高い。従って、マッチング信頼度が最も高い文字候補との差が所定範囲内である文字候補に限定することが望ましい。
次に、上記認識した文字列における全ての文字について、ステップS2022を繰り返す(S2023・S2024)。それから、上記認識した文字列における各文字の文字候補を組み合わせて、文字列候補を作成する(S2025)。従って、(文字列候補の数)=(1番目の文字の文字候補数)×(2番目の文字の文字候補数)×…×(最後の文字の文字候補数)、となる。
次に、作成した文字列候補のそれぞれについて、各文字のマッチング信頼度の平均値(スコア)を算出し、算出した平均値が上位の文字列候補を認識文字列として選出する(S2025)。そして、選出された認識文字列が、検索用キーワードの候補として合成部117および検索要求部218に送出される。
なお、処理負担の軽減の観点から、認識文字列の最大数を所定数(例えば3つ)に限定することが望ましい。また、マッチング信頼度の平均値が文字列候補の間で大きく異なる場合、マッチング信頼度の平均値が高い文字列候補が正しい認識であり、マッチング信頼度の平均値が低い文字列候補が誤った認識である可能性が高い。従って、認識文字列は、マッチング信頼度の平均値が最も高い文字列候補との差が所定範囲内である文字列候補に限定することが望ましい。
図7は、表示装置200の正面図であり、検索用キーワードの候補を表示部201の表示画面2011に表示した一例を示している。図示のように、表示画面2011の中央部から右部には、動画が表示されている。該動画には、「検索」文字列SCと、その左側付近に位置する検索窓SBとが含まれ、該検索窓SB内には、文字列「ニューモデル」が含まれている。
一方、表示画面2011の左部には、検索用キーワードの候補が、過去の履歴と共に表示されている。具体的には、表示画面2011の左下に示される「ニューモデル」・「ニューモテル」・「ニユーモデル」の3つは、今回の検索窓SB内の文字列「ニューモデル」から作成された検索用キーワードの候補である。また、表示画面2011の左中央に示される「目指せ合格」・「目指せごうかく」・「目指せごう」の3つは、前回表示された検索窓SB内の文字列から作成された検索用キーワードの候補である。そして、表示画面2011の左上に示される、「テレビの歴史」・「テレビの歴丈」・「テレピの歴史」の3つは、前々回に表示された検索窓SB内の文字列から作成された検索用キーワードの候補である。
ここで、各検索用キーワードの候補には、スコアが高い順に番号が1から順に付されている。なお、ユーザがインターネット検索を行う検索用キーワードを選択するときに使用される表示画面2011上のポインタの初期位置は、番号1の検索用キーワードの候補の位置に設定しておくことが望ましい。この場合、スコアの高い検索用キーワードの候補ほど、検索窓SB内の文字列を正しく認識している可能性が高いので、ユーザが正しい検索用キーワードを選択するまでの手間を少なくすることができる。また、検索用キーワードの候補の数を増やしてもよい。この場合、適切な検索用キーワードが、上記検索用キーワードの候補に含まれる可能性がさらに高くなる。
ところで、図2に示すステップS108・S109・S115〜S119が繰り返される場合、作成された複数の静止画像には、同様の検索窓SBが含まれることになる。この場合、上記静止画像ごとに認識文字列を選出し、選出された認識文字列のうち、異なる認識文字列であって、スコアが上位の認識文字列を、検索用キーワードの候補とすればよい。なお、複数の静止画像において同じ認識文字列が選出されたとき、当該認識文字列の各静止画像でのスコアを積算し、積算したスコアまたはその平均値を当該認識文字列のスコアとしてもよい。
また、検索窓SBを含む動画の中には、検索窓SB内に文字列が一挙に出現するのではなく、あたかもユーザが文字を入力していく場合のように、徐々に出現するものが存在する。この場合、上記複数の静止画像のうち、最初の方の静止画像から選出された、文字数の少ない認識文字列よりも、最後の方の静止画像から選出された文字数の多い認識文字列の方が、検索用キーワードの候補として妥当であると考えられる。
そこで、最初の方で選出された認識文字列のスコアよりも、最後の方で選出された認識文字列のスコアの方が高くなるように、スコアに対し重み付けを行うことが望ましい。具体的には、連続する2つの静止画像からそれぞれ選出された認識文字列の文字数が異なる場合、後の方の静止画像から選出された認識文字列のスコアの重みを増やすことが考えられる。これにより、妥当な検索用キーワードの候補を表示することができる。
図8は、上記重み付けを考慮した上記キーワード候補の作成処理の流れを示すフローチャートである。図示のように、まず、i=1、num=0に初期化される(S201)。次に、i番目の静止画像について、図6に示す処理を行い、選出された認識文字列をそのスコアと共に取得する(S202)。
次に、取得された認識文字列の文字数が、(i−1)番目(前回)の静止画像から選出された認識文字列の文字数と異なるか否かを判断し(S203)、異なる場合には、numを増分する(S204)。すなわち、numは、認識文字列の文字数が変化した回数を表すことになる。なお、i=1の場合、0番目の静止画像から選出された認識文字列の文字数を0としてもよいし、ステップS203・S204をスキップしてもよい。
次に、i番目の静止画像から選出された認識文字列のスコアに、numと所定の定数との積を加算する(S205)。すなわち、文字数が変化するたびに、スコアに加算される重みが大きくなる。
次に、全ての静止画像について、時系列順にステップS203〜S205を繰り返す(S206・S207)。それから、各静止画像から選出された認識文字列のうち、重み付けされたスコアが上位の認識文字列を、検索用キーワードの候補として選出する(S208)。そして、選出された検索用キーワードの候補が、合成部117および検索要求部218に送出される。なお、処理負担の軽減の観点から、検索用キーワードの候補の数を所定数(例えば3つ)に限定することが望ましい。
ここで、図7の表示例を参照すると、表示画面2011の左中央に示される検索用キーワードの候補は、検索窓SB内に「目指せごう」・「目指せごうかく」・「目指せ合格」の順で文字列が表示された場合に選出されるものである。この場合、後に表示された認識文字列ほど、重み付けが大きくなるので、検索用キーワードの候補として若い番号が付され、上の方に表示される。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
例えば、上記実施形態では、検知した「検索」文字列SCの位置から、検索窓SBを検出し、検索窓SB内の検索用キーワードの候補を選出しているが、検知した「検索」文字列SCの周囲から上記検索用キーワードの候補を直接選出してもよい。この場合、文字列の検知領域が広くなったり、検索窓SBから外部の文字列を誤認識する懸念があるが、検索窓SBを検出する処理を省略することができる。
また、上記実施形態では、特に、インターネットテレビを例にして述べているが、その他にも、TV放送が視聴可能であってインターネット通信が可能な携帯機器、例えば、携帯電話機、携帯型ゲーム端末機などにも、本発明を適用できることは明らかである。
最後に、本発明に係る再生デバイス110の各部は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、再生デバイス110は、各機能を実現する制御プログラムの命令を実行するCPU、上記プログラムを格納したROM、上記プログラムを展開するRAM、上記プログラムおよび各種データを格納するメモリ等で構成された記憶部(記録媒体)などを備えている。
そして、本発明の目的は、上述した機能を実現するソフトウェアである制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、再生デバイス110に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、再生デバイス110を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。
以上のように、本発明に係るキーワード抽出装置は、対象画像において、検索を促す特定文字列の特徴点が検出され、検出された特徴点の周囲に存在する文字列が、検索用キーワードとして認識されることにより、上記検索用キーワードを従来よりも迅速に検出できるので、検索用キーワードを対象画像から検出する任意の装置に適用することができる。
10、20 制御部
101 送信部
104 記憶部
110 再生デバイス(キーワード検出装置)
111 動画再生部
112 静止画生成部
113 文字列検知部(特徴点検出部)
115 検索窓検出部
116 文字認識部(キーワード認識部)
117 合成部
121 画像情報記憶部
122 文字情報記憶部
200 表示装置(表示機器)
201 表示部
202 ネットワークI/F部
206 操作部
207 放送受信部
217 キーワード候補作成部
218 検索要求部
SB 検索窓
SC 文字列

Claims (13)

  1. インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から検出するキーワード検出装置であって、
    上記対象画像から、上記検索を促す特定文字列の特徴点を検出する特徴点検出部と、
    上記対象画像において、上記特徴点検出部が検出した特徴点の周囲に存在する文字列を、上記検索用キーワードとして認識するキーワード認識部と、を備えることを特徴とするキーワード検出装置。
  2. 上記対象画像において、上記特徴点検出部が検出した特徴点の周囲から、上記検索用キーワードを入力するための検索窓を検出する検索窓検出部をさらに備えており、
    上記キーワード認識部は、上記検索窓検出部が検出した検索窓内の文字列を、上記検索用キーワードとして認識することを特徴とする請求項1に記載のキーワード検出装置。
  3. 上記検索窓検出部は、上記対象画像において、
    上記特定文字列の外接矩形を求め、
    求めた外接矩形の左上頂点を右下頂点とする上部検出用矩形と、上記外接矩形の左下頂点を右上頂点とする下部検出用矩形とを設定し、
    設定された上部検出用矩形および下部検出用矩形内に、それぞれ、上記検索窓の上辺および下辺を検出し、
    検出された上辺および下辺によって構成される矩形を両側方向に拡げた側部検出用矩形を設定し、
    設定された側部検出用矩形内に、上記検索窓の左側および右側の線を検出することにより、上記検索窓を検出することを特徴とする請求項2に記載のキーワード検出装置。
  4. 上記対象画像は、動画における一連の静止画像であり、
    上記検索窓検出部が、或る上記静止画像から上記検索窓を検出した場合、その後の上記静止画像から上記検索窓が検出されなくなるまで、上記特徴点検出部の動作を省略することを特徴とする請求項2または3に記載のキーワード検出装置。
  5. 上記キーワード認識部は、上記検索窓内の文字列を構成する文字ごとに、文字認識を行って所定の条件を満たす1または複数の文字候補を検出し、上記各文字の文字候補を組み合わせることにより、上記検索用キーワードの候補を複数個作成することを特徴とする請求項2から4までの何れか1項に記載のキーワード検出装置。
  6. 上記所定の条件は、上記文字認識によるマッチング信頼度が所定の閾値よりも大きいものであることを特徴とする請求項5に記載のキーワード検出装置。
  7. 上記所定の条件は、上記文字認識によるマッチング信頼度が、該マッチング信頼度が最大である文字候補のマッチング信頼度との差が所定の範囲内であることを特徴とする請求項5または6に記載のキーワード検出装置。
  8. 上記キーワード認識部は、上記各文字の文字候補を組み合わせた認識文字列のスコアを、該認識文字列を構成する文字候補のマッチング信頼度の平均値とし、上記スコアが上位の認識文字列を上記検索用キーワードの候補とすることを特徴とする請求項5から7までの何れか1項に記載のキーワード検出装置。
  9. 上記対象画像は、動画における一連の静止画像であり、
    上記キーワード認識部は、
    上記検索窓検出部が、何れかの上記静止画像から上記検索窓を検出してから、その後に続く上記静止画像から上記検索窓が検出されなくなるまでに作成された認識文字列の中から上記検索用キーワードの候補を作成しており、
    或る上記静止画像からの認識文字列の文字数に比べて、次の上記静止画像からの認識文字列の文字数が変化するたびに、該認識文字列のスコアの重み付けが大きくなり、
    重み付けされた上記スコアが上位の認識文字列を上記検索用キーワードの候補とすることを特徴とする請求項8に記載のキーワード検出装置。
  10. インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から抽出する請求項1から9までの何れか1項に記載のキーワード検出装置と、
    該キーワード検出装置が検出した検索用キーワードと、上記対象画像とを表示する表示装置と、を備えた表示機器。
  11. インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から検出するキーワード検出装置の制御方法であって、
    上記対象画像から、上記検索を促す特定文字列の特徴点を検出する特徴点検出ステップと、
    上記対象画像において、上記特徴点検出ステップにて検出された特徴点の周囲に存在する文字列を、上記検索用キーワードとして認識するキーワード認識ステップと、を含むことを特徴とするキーワード検出装置の制御方法。
  12. インターネット上の検索エンジンにて検索を行うための検索用キーワードを対象画像から検出するキーワード検出装置を動作させるための制御プログラムであって、
    上記対象画像から、上記検索を促す特定文字列の特徴点を検出する特徴点検出ステップと、
    上記対象画像において、上記特徴点検出ステップにて検出された特徴点の周囲に存在する文字列を、上記検索用キーワードとして認識するキーワード認識ステップと、をコンピュータに実行させるための制御プログラム。
  13. 請求項12に記載の制御プログラムが記録されたコンピュータ読取り可能な記録媒体。
JP2012057999A 2012-03-14 2012-03-14 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器 Active JP5906843B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2012057999A JP5906843B2 (ja) 2012-03-14 2012-03-14 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
PCT/JP2012/083644 WO2013136628A1 (ja) 2012-03-14 2012-12-26 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
KR1020147023172A KR101697933B1 (ko) 2012-03-14 2012-12-26 키워드 검출장치, 그 제어방법 및 제어 프로그램, 및 표시기기
US14/380,230 US9305234B2 (en) 2012-03-14 2012-12-26 Key word detection device, control method, and display apparatus
CN201280070282.1A CN104126188B (zh) 2012-03-14 2012-12-26 关键字检测装置、其控制方法以及显示设备
EP12871077.9A EP2827284A4 (en) 2012-03-14 2012-12-26 KEYWORD DETECTION DEVICE, CONTROL METHOD AND CONTROL PROGRAM THEREFOR AND DISPLAY DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012057999A JP5906843B2 (ja) 2012-03-14 2012-03-14 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器

Publications (2)

Publication Number Publication Date
JP2013191104A JP2013191104A (ja) 2013-09-26
JP5906843B2 true JP5906843B2 (ja) 2016-04-20

Family

ID=49160581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012057999A Active JP5906843B2 (ja) 2012-03-14 2012-03-14 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器

Country Status (6)

Country Link
US (1) US9305234B2 (ja)
EP (1) EP2827284A4 (ja)
JP (1) JP5906843B2 (ja)
KR (1) KR101697933B1 (ja)
CN (1) CN104126188B (ja)
WO (1) WO2013136628A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765815B (zh) * 2015-04-03 2016-11-09 北京奇虎科技有限公司 一种识别搜索关键词的方法和装置
CN105447109A (zh) * 2015-11-13 2016-03-30 小米科技有限责任公司 关键字词搜索方法及装置
US10108856B2 (en) * 2016-05-13 2018-10-23 Abbyy Development Llc Data entry from series of images of a patterned document
JP6900164B2 (ja) * 2016-09-27 2021-07-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP7102103B2 (ja) * 2017-03-31 2022-07-19 キヤノン株式会社 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
JP6929823B2 (ja) * 2018-11-16 2021-09-01 株式会社東芝 読取システム、読取方法、プログラム、記憶媒体、及び移動体
CN112200185A (zh) * 2020-10-10 2021-01-08 航天科工智慧产业发展有限公司 一种文字反向定位图片的方法及装置、计算机储存介质
JP7380653B2 (ja) * 2021-05-31 2023-11-15 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3689455B2 (ja) * 1995-07-03 2005-08-31 キヤノン株式会社 情報処理方法及び装置
JP2003515229A (ja) * 1999-11-17 2003-04-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ニューラルネットワークに与えられた形状特徴での記号分類
JP4136282B2 (ja) * 2000-07-05 2008-08-20 キヤノン株式会社 画像処理装置及び画像処理方法並びに記憶媒体
JP4095243B2 (ja) * 2000-11-28 2008-06-04 キヤノン株式会社 Url取得および処理システムおよびその方法およびその処理を実行するプログラムを記憶した記憶媒体。
JP3477450B2 (ja) * 2001-02-21 2003-12-10 淳 高橋 動画情報の反応解析システム
US20080279453A1 (en) * 2007-05-08 2008-11-13 Candelore Brant L OCR enabled hand-held device
JP5115089B2 (ja) 2007-08-10 2013-01-09 富士通株式会社 キーワード抽出方法
JP2009105587A (ja) 2007-10-23 2009-05-14 Funai Electric Co Ltd 放送受信装置
JP2009188886A (ja) * 2008-02-08 2009-08-20 Omron Corp 情報処理装置および情報処理装置用のプログラム
CN101520783B (zh) * 2008-02-29 2011-12-21 富士通株式会社 基于图像内容的关键词搜索方法和装置
JP2009289038A (ja) * 2008-05-29 2009-12-10 Sharp Corp 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体
CN101620680B (zh) * 2008-07-03 2014-06-25 三星电子株式会社 字符图像的识别和翻译方法以及装置
JP2010039647A (ja) 2008-08-01 2010-02-18 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
JP5090330B2 (ja) 2008-12-26 2012-12-05 Kddi株式会社 画像処理装置、画像処理方法およびプログラム
JP4985724B2 (ja) 2009-07-30 2012-07-25 富士通株式会社 単語認識プログラム、単語認識方法、単語認識装置
US20110128288A1 (en) * 2009-12-02 2011-06-02 David Petrou Region of Interest Selector for Visual Queries
CN101996253A (zh) * 2010-11-17 2011-03-30 上海合合信息科技发展有限公司 自动提取地址并搜索地图的方法
JP4893861B1 (ja) 2011-03-10 2012-03-07 オムロン株式会社 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体

Also Published As

Publication number Publication date
KR20140114444A (ko) 2014-09-26
KR101697933B1 (ko) 2017-01-19
CN104126188A (zh) 2014-10-29
JP2013191104A (ja) 2013-09-26
CN104126188B (zh) 2017-07-18
EP2827284A1 (en) 2015-01-21
US20150317530A1 (en) 2015-11-05
WO2013136628A1 (ja) 2013-09-19
US9305234B2 (en) 2016-04-05
EP2827284A4 (en) 2016-04-13

Similar Documents

Publication Publication Date Title
JP5906843B2 (ja) キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
US11030987B2 (en) Method for selecting background music and capturing video, device, terminal apparatus, and medium
US10014008B2 (en) Contents analysis method and device
US8831356B2 (en) Information processing apparatus, metadata setting method, and program
WO2016155564A1 (zh) 卷积神经网络模型的训练方法及装置
TWI489397B (zh) 用於提供適應性手勢分析之方法、裝置及電腦程式產品
CN109618222A (zh) 一种拼接视频生成方法、装置、终端设备及存储介质
EP2530675A2 (en) Information processing apparatus, information processing method, and program
CN111757175A (zh) 视频处理方法及装置
CN104508680B (zh) 改善之视讯追踪
WO2020259522A1 (zh) 一种内容查找方法、相关设备及计算机可读存储介质
US20160173958A1 (en) Broadcasting receiving apparatus and control method thereof
US10140535B2 (en) Display device for displaying recommended content corresponding to user, controlling method thereof and computer-readable recording medium
JP2012190349A (ja) 画像処理装置、画像処理方法および制御プログラム
CN110889265A (zh) 信息处理设备和信息处理方法
CN109547840A (zh) 影视作品搜索引导方法、电视及计算机可读存储介质
KR102464907B1 (ko) 전자 장치 및 그 동작 방법
KR102414783B1 (ko) 전자 장치 및 이의 제어방법
CN111542817A (zh) 信息处理装置、视频检索方法、生成方法及程序
CN113905125A (zh) 视频显示方法、装置及电子设备
CN114125149A (zh) 视频播放方法、装置、系统、电子设备及存储介质
CN111722717A (zh) 手势识别方法、装置及计算机可读存储介质
CN111373761A (zh) 显示装置、该显示装置的控制系统以及控制该显示装置的方法
US20140136991A1 (en) Display apparatus and method for delivering message thereof
US20230328298A1 (en) Display device and operation method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141204

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151023

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20151028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160223

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160307

R150 Certificate of patent or registration of utility model

Ref document number: 5906843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250