JP4989506B2 - 文字認識装置及びそのプログラム - Google Patents

文字認識装置及びそのプログラム Download PDF

Info

Publication number
JP4989506B2
JP4989506B2 JP2008033907A JP2008033907A JP4989506B2 JP 4989506 B2 JP4989506 B2 JP 4989506B2 JP 2008033907 A JP2008033907 A JP 2008033907A JP 2008033907 A JP2008033907 A JP 2008033907A JP 4989506 B2 JP4989506 B2 JP 4989506B2
Authority
JP
Japan
Prior art keywords
character
value
still image
pixel
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008033907A
Other languages
English (en)
Other versions
JP2009193386A (ja
Inventor
章 中村
健二 寺田
博登 井手口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008033907A priority Critical patent/JP4989506B2/ja
Publication of JP2009193386A publication Critical patent/JP2009193386A/ja
Application granted granted Critical
Publication of JP4989506B2 publication Critical patent/JP4989506B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Television Signal Processing For Recording (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Color Image Communication Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、放送番組等の動画で表示される文字を認識する文字認識装置及びそのプログラムに関する。
従来から、放送番組で表示されている字幕等の文字を認識する技術が知られている(特許文献1参照)。例えば、特許文献1に記載の発明は、放送番組のジャンル毎に分類された単語、各単語の出現率、置換率、誤置換率、正読率及び消滅率等の情報を記憶した辞書と、電子番組情報表とを用いて、字幕の誤認識率を低下させるものである。
特開2007−102264号公報
しかし、特許文献1に記載の発明では、放送番組で表示されている文字を認識できない場合、辞書をいくら整備したとしても、文字の認識精度を向上させることに限界がある。また、特許文献1に記載の発明は、放送番組に対応する電子番組情報表が存在しない場合、字幕を検出することができない問題がある。
本発明は、電子番組情報表を用いることなく、放送番組で表示されている文字の認識精度が高い文字認識装置及びそのプログラムを提供することを目的とする。
前記した課題を解決するため、請求項1に係る文字認識装置は、放送番組を内容とする動画に表示される文字を認識して当該文字を出力する文字認識装置であって、動画受信手段と、静止画抽出手段と、文字強調手段と、文字認識手段と、を備える構成とした。
かかる構成によれば、文字認識装置は、動画受信手段によって、動画を受信し、静止画抽出手段によって、動画受信手段が受信した動画を構成するフレームを、静止画として抽出する。また、文字認識装置は、文字強調手段によって、静止画抽出手段が抽出した静止画において、予め設定した指定色を黒色に変更すると共に、指定色以外の色を白色に変更して文字強調静止画を生成する。ここで、文字を含む静止画では、その文字を人に認識させ易くするために、その文字と文字以外の背景との間に、ある程度の色の差があると考えられる。このため、その文字の色(指定色)を黒色に変更し、文字以外の背景(指定色以外の色)を白色に変更することで、文字が強調された文字強調静止画を生成することができる。さらに、文字認識装置は、文字認識手段によって、文字強調手段が生成した文字強調静止画に含まれる文字を認識する。
さらに、前記文字強調手段が、前記静止画を構成する画素のRGB要素毎の要素値と前記画素を囲む周辺画素のRGB要素毎の要素値とを平均したRGB要素毎の要素平均値を算出すると共に、前記RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた上限閾値以上、かつ、前記2要素平均値に含まれない他の要素平均値が所定の閾値以上となる場合には、前記画素のRGB要素毎の要素値を、前記RGB要素毎の要素平均値に所定の加算値を加算した値とする平滑化手段を備える。
かかる構成によれば、文字認識装置は、静止画からノイズを除去した文字強調静止画を生成することができる。
また、前記した課題を解決するため、請求項2に係る文字認識装置は、動画受信手段と、静止画抽出手段と、文字強調手段と、文字認識手段とを備え、前記文字強調手段が、前記静止画を構成する画素のRGB要素毎の要素値と前記画素を囲む周辺画素のRGB要素毎の要素値とを平均したRGB要素毎の要素平均値を算出すると共に、前記RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた下限閾値以下、かつ、前記2要素平均値に含まれない他の要素平均値が所定の閾値以下となる場合には、前記画素のRGB要素毎の要素値を、前記RGB要素毎の要素平均値から所定の減算値を減算した値とする平滑化手段をさらに備える。
かかる構成によれば、文字認識装置は、静止画からノイズを除去した文字強調静止画を生成することができる。
請求項3に係る文字認識装置は、請求項1又は請求項2に係る文字認識装置において、前記文字強調手段が、前記静止画を構成する画素のRGB要素のうちのいずれか2要素値が所定の上限閾値以上、かつ、前記2要素値に含まれない他の要素値が前記2要素値から所定範囲内の値となる場合には、前記画素を黒色に変更し、前記画素を黒色に変更しない場合には、前記画素を白色に変更することを特徴とする。
かかる構成によれば、文字認識装置は、文字として使用頻度が高い色を指定色として変換するため、文字がより強調された文字強調静止画を生成することができる。
請求項に係る文字認識装置は、請求項1又は請求項2に係る文字認識装置において、前記文字強調手段が、前記静止画を構成する画素のRGB要素のうちのいずれか2要素値が所定の下限閾値以下、かつ、前記2要素値に含まれない他の要素値が前記2要素値から所定範囲内の値となる場合には前記画素を黒色に変更し、前記画素を黒色に変更しない場合には、前記画素を白色に変更することを特徴とする。
かかる構成によれば、文字認識装置は、文字として使用頻度が高い色を指定色として変換するため、文字がより強調された文字強調静止画を生成することができる。
請求項に係る文字認識装置は、請求項1から請求項4のいずれか一項に係る文字認識装置において、前記動画受信手段が、複数のチャンネルの前記動画を録画可能な前記録画装置に接続され、当該録画装置から前記チャンネル毎に動画をそれぞれ受信するチャンネル専用動画受信部、を備えることを特徴とする。
かかる構成によれば、文字認識装置は、複数のチャンネルの動画を並行して受信することができる。
また、前記した課題を解決するため、請求項6又は請求項7に係る文字認識プログラムは、放送番組を内容とする動画に表示される文字を認識して当該文字を出力するために、コンピュータを、動画受信手段、静止画抽出手段、文字強調手段、文字認識手段、として機能させると共に、文字強調手段が平滑化手段を備える構成とした。
本発明に係る文字認識装置及びそのプログラムによれば、以下のような優れた効果を奏する。請求項1,2,6,7に係る発明によれば、文字を強調した文字強調静止画を生成し、文字強調静止画に含まれる文字を認識するため、電子番組表情報を用いることなく、放送番組で表示されている文字の認識精度を高くすることができる。また、請求項1,2,6,7に係る発明によれば、静止画からノイズを除去して文字強調静止画を生成するため、文字認識手段の文字認識率を向上させることができる。また、請求項3,4に係る発明によれば、文字として使用頻度が高い色を指定色として変換し、文字がより強調された文字強調静止画を生成するため、文字の認識精度をより高くすることができる。さらに、請求項に係る発明によれば、複数のチャンネルの動画を並行に受信できるため、動画の受信処理のリアルタイム性を高くすることができる。
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段及び同一の部材には同一の符号を付し、説明を省略した。
[文字認識装置の構成]
図1を参照して、文字認識装置の構成について説明する。図1は、本発明の実施形態に係る文字認識装置のブロック図である。文字認識装置1は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)及びHDD(Hard Disk Drive)から構成される。また、文字認識装置1は、後記する各機能を実現するために、動画受信手段10と、静止画抽出手段20と、文字強調手段30と、文字認識手段40と、記憶手段50と、を備える。
動画受信手段10は、動画を受信するものである。ここで、図4に示すように、動画受信手段10は、受信した動画(動画ファイル52a)を記憶手段50の動画記憶領域52に書き込むと共に、動画ファイル52aのファイル名や記憶手段50の動画記憶領域52内でのアドレス等、この動画ファイル52aを特定できる識別情報を静止画抽出手段20に出力する。
前記した動画は、報道番組、バラエティー番組、スポーツ番組等の放送番組を内容としており、例えば、MPEG(Moving Picture Experts Group)形式で符号化されている。
以下、図2を参照して、動画受信手段が2チャンネル分の動画を並行に受信する処理について説明する。図2は、動画受信手段が2チャンネル分の動画を並行に受信する動作を示すシーケンス図である。ここでは、動画受信手段10は、2チャンネル分の動画を並行して配信できる録画装置2に接続され、UPnP(Universal Plug and Play)コントロールポイントライブラリ12と、録画装置2からチャンネル1の動画を受信するチャンネル1用動画受信部14aと、録画装置2からチャンネル2の動画を受信するチャンネル2用動画受信部14bとを備える。なお、UPnPコントロールポイントライブラリ12は、DLNA(Digital Living Network Alliance)ガイドラインに対応したUPnPコントロールポイントとして、動画受信手段10が録画装置2に接続するために必要となるライブラリである。
まず、チャンネル1用動画受信部14aは、UPnPコントロールポイントライブラリ12を介して録画装置2に「接続」を要求する。録画装置2は、UPnPコントロールポイントライブラリ12を介してチャンネル1用動画受信部14aに「接続応答」を返信する。また、チャンネル2用動画受信部14bは、UPnPコントロールポイントライブラリ12を介して録画装置2に「接続」を要求する。録画装置2は、UPnPコントロールポイントライブラリ12を介してチャンネル2用動画受信部14bに「接続応答」を返信する。
また、チャンネル1用動画受信部14aは、録画装置2で録画されたチャンネル1の動画ファイルをオープンするため、UPnPコントロールポイントライブラリ12を介して録画装置2に「ファイルオープン」を要求する。録画装置2は、動画ファイルのオープンが可能であるため、UPnPコントロールポイントライブラリ12を介してチャンネル1用動画受信部14aに「ファイルオープン応答」を返信する。また、チャンネル2用動画受信部14bは、録画装置2で録画されたチャンネル2の動画ファイルをオープンするため、UPnPコントロールポイントライブラリ12を介して録画装置2に「ファイルオープン」を要求する。しかし、録画装置2上では同時に複数のファイルをオープンできず、既に、チャンネル1用動画受信部14aが「ファイルオープン」を要求しているため、UPnPコントロールポイントライブラリ12を介してチャンネル2用動画受信部14bに「ファイルオープンNG応答」を返信する。
また、チャンネル1用動画受信部14aは、録画装置2で録画されたチャンネル1の動画ファイルを受信するため、UPnPコントロールポイントライブラリ12を介して録画装置2に「ファイル読み込み」を要求する。録画装置2は、UPnPコントロールポイントライブラリ12を介してチャンネル1の動画データと共に「ファイル読み込み応答」を返信する。ここで、録画装置2は、所定サイズで動画データを分割し、その分割データを「ファイル読み込み応答」と共にチャンネル1用動画受信部14aに送信する。そして、チャンネル1用動画受信部14aは、分割データを全て受信していなければ「ファイル読み込み」を再度要求し、録画装置2は、次の分割データを「ファイル読み込み応答」と共にチャンネル1用動画受信部14aに送信する。このように、チャンネル1用動画受信部14aと録画装置2は、上記した処理を、分割データをチャンネル1用動画受信部14aが全て受信するまで繰り返す(図2の破線部参照)。
また、チャンネル1用動画受信部14aは、チャンネル1の動画を受信したら、UPnPコントロールポイントライブラリ12を介して録画装置2に「ファイルクローズ」を要求する。録画装置2は、チャンネル1の動画ファイルをクローズして、UPnPコントロールポイントライブラリ12を介してチャンネル1用動画受信部14aに「ファイルクローズ応答」を返信する。
再度、チャンネル2用動画受信部14bは、録画装置2で録画されたチャンネル2の動画ファイルをオープンするため、UPnPコントロールポイントライブラリ12を介して録画装置2に「ファイルオープン」を要求する。今度は、動画ファイルのオープンが可能であるため、UPnPコントロールポイントライブラリ12を介してチャンネル2用動画受信部14bに「ファイルオープン応答」を返信する。以後、チャンネル2用動画受信部14bが録画装置2から動画ファイルを受信する処理及びその動画ファイルをクローズする処理は、チャンネル1用動画受信部14aと同様であるために、その説明を省略する。なお、動画受信手段10は、録画装置2から動画を受信することに限定されず、任意の1チャンネルを受信して選局するチューナとしても良い。
以下、図3を参照して、動画受信手段10が8チャンネル分の動画を並行して受信可能とする構成について説明する。図3は、動画受信手段が8チャンネル分の動画を受信する構成を示す説明図である。また、図3では、UPnPコントロールポイントライブラリの記載を省略した。ここでは、5台の録画装置2a,2b,2c,2d,2eのそれぞれと、文字認識装置1とを、図示しないルータを介して接続する。そして、動画受信手段10は、録画装置2aから番組情報等を取得する情報受信部15とチャンネル1の動画を受信するチャンネル1用動画受信部14aを設ける。また、動画受信手段10は、録画装置2bからチャンネル2の動画を受信するチャンネル2用動画受信部14bとチャンネル3の動画を受信するチャンネル3用動画受信部14cとを設ける。また、動画受信手段10は、録画装置2cからチャンネル4の動画を受信するチャンネル4用動画受信部14dとチャンネル5の動画を受信するチャンネル5用動画受信部14eとを設ける。また、動画受信手段10は、録画装置2dからチャンネル6の動画を受信するチャンネル6用動画受信部14fとチャンネル7の動画を受信するチャンネル7用動画受信部14gとを設ける。さらに、動画受信手段10は、録画装置2eからチャンネル8の動画を受信するチャンネル8用動画受信部14hを設ける。以上の構成により、動画受信手段10が8チャンネル分の動画を並行に受信することができる。なお、チャンネル1用動画受信部14a,チャンネル2用動画受信部14b,チャンネル3用動画受信部14c,チャンネル4用動画受信部14d、チャンネル5用動画受信部14e、チャンネル6用動画受信部14f、チャンネル7用動画受信部14g及びチャンネル8用動画受信部14hが、請求項に記載の「チャンネル専用動画受信部」に相当する。
以下、図4を参照して、記憶手段50のデータ構造について説明する。図4は、図1の記憶手段のデータ構造を示す模式図である。ここでは、記憶手段50は、静止画等を記憶するHDDであり、動画記憶領域52と、静止画記憶領域54と、文字強調静止画記憶領域56と、パラメータ記憶領域58と、を備える。前記したように、動画記憶領域52は、動画ファイル52a(動画)を記憶する領域である。また、静止画記憶領域54は、後記する静止画ファイル54aを記憶する領域である。また、文字強調静止画記憶領域56は、後記する文字強調静止画ファイル56aを記憶する領域である。さらに、パラメータ記憶領域58は、後記する上限閾値や下限閾値等、文字認識装置1の動作に必要となるパラメータが格納されたパラメータファイル58aを記憶する領域である。
図1に戻り、文字認識装置1の構成についての説明を続ける。静止画抽出手段20は、動画受信手段10が受信した動画を構成するフレームを、静止画として抽出するものである。ここでは、静止画抽出手段20は、動画受信手段10からの識別情報によって、記憶手段50の動画記憶領域52から動画ファイル52a(動画)を読み出す。また、動画がMPEG形式で符号化されている場合、静止画抽出手段20は、このMPEGに含まれるIフレーム(Intra−coded Frame)を静止画として抽出する。さらに、静止画抽出手段20は、抽出した静止画(静止画ファイル54a)を記憶手段50の静止画記憶領域54にビットマップ形式で書き込むと共に、静止画ファイル54aのファイル名や記憶手段50の静止画記憶領域54内でのアドレス等、この静止画ファイル54aを特定できる識別情報を文字強調手段30に出力する。
文字強調手段30は、静止画抽出手段10が抽出した静止画において、予め設定した指定色を黒色に変更すると共に、指定色以外の色を白色に変更して文字強調静止画を生成するものである。ここでは、文字強調手段30は、平滑化手段32と、文字色変更手段34と、を備え、静止画抽出手段20からの識別情報によって記憶手段50の静止画記憶領域54から静止画ファイル54a(静止画)を読み出す。
<平滑化処理>
平滑化手段32は、静止画のノイズを除去する平滑化処理を行うものである。また、平滑化手段32は、静止画(ビットマップ)を構成する一部の画素(ピクセル)に平滑化処理を行っても良く、全画素に平滑化処理を行うことが好ましい。以下、図5を参照して、平滑化処理の詳細について説明する。図5は、本発明における平滑化処理を説明するための、静止画の画素を示す説明図である。図5において、符号eは、静止画(ビットマップ)のある画素(ピクセル)を示し、符号a,b,c,d,f,g,h,iは、画素eを囲む周辺画素を示す。まず、平滑化手段32は、画素eのRGB要素毎の要素値と、画素eを囲む周辺画素a,b,c,d,f,g,h,iのRGB要素毎の要素値とを平均したRGB要素毎の要素平均値を算出する(式(1)から式(3)参照)。
R要素平均値=(周辺画素aのR要素値+周辺画素bのR要素値+周辺画素cのR要素値+周辺画素dのR要素値+画素eのR要素値+周辺画素fのR要素値+周辺画素gのR要素値+周辺画素hのR要素値+周辺画素iのR要素値)/9・・・式(1)
G要素平均値=(周辺画素aのG要素値+周辺画素bのG要素値+周辺画素cのG要素値+周辺画素dのG要素値+画素eのG要素値+周辺画素fのG要素値+周辺画素gのG要素値+周辺画素hのG要素値+周辺画素iのG要素値)/9・・・式(2)
B要素平均値=(周辺画素aのB要素値+周辺画素bのB要素値+周辺画素cのB要素値+周辺画素dのB要素値+画素eのB要素値+周辺画素fのB要素値+周辺画素gのB要素値+周辺画素hのB要素値+周辺画素iのB要素値)/9・・・式(3)
次に、平滑化手段32は、RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた上限閾値以上、かつ、この2要素平均値に含まれない他の要素平均値が所定の閾値以上となる場合には、画素eのRGB要素毎の要素値を、RGB要素毎の要素平均値に所定の加算値を加算した値とする。すなわち、平滑化手段32は、式(4)から式(6)のいずれかを満たす場合には、式(7)の計算を行う。
R要素平均値≧R要素の上限閾値、かつ、G要素平均値≧G要素の上限閾値、かつ、B要素平均値≧127・・・式(4)
R要素平均値≧R要素の上限閾値、かつ、G要素平均値≧127、かつ、B要素平均値≧B要素の上限閾値・・・式(5)
R要素平均値≧127、かつ、G要素平均値≧G要素の上限閾値、かつ、B要素平均値≧B要素の上限閾値・・・式(6)
画素eのR要素値=R要素平均値+加算値
画素eのG要素値=G要素平均値+加算値
画素eのB要素値=B要素平均値+加算値・・・式(7)
なお、式(4)から式(6)において、R要素の上限閾値、G要素の上限閾値及びB要素の上限閾値は、0以上255以下の値となり、例えば、180である。また、式(4)から式(6)において、「所定の閾値」として、RGB要素値がとりうる範囲内の値うち、中間値となる「127」を設定した。また、式(7)において、加算値は、例えば、30である。さらに、このR要素の上限閾値、G要素の上限閾値、B要素の上限閾値、所定の閾値及び加算値は、記憶手段50のパラメータ記憶領域58のパラメータファイル58aに予め記憶しておいても良い。
また、平滑化手段32は、前記した式(1)から式(3)を用いてRGB要素毎の要素平均値を算出し、RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた下限閾値以下、かつ、この2要素平均値に含まれない他の要素平均値が所定の閾値以下となる場合には、画素eのRGB要素毎の要素値を、RGB要素毎の要素平均値から所定の減算値を減算した値とする。すなわち、平滑化手段32は、式(8)から式(10)のいずれかを満たす場合には、式(11)の計算を行う。
R要素平均値≦R要素の下限閾値、かつ、G要素平均値≦G要素の下限閾値、かつ、B要素平均値≦127・・・式(8)
R要素平均値≦R要素の下限閾値、かつ、G要素平均値≦127、かつ、B要素平均値≦B要素の下限閾値・・・式(9)
R要素平均値≦127、かつ、G要素平均値≦G要素の下限閾値、かつ、B要素平均値≦B要素の下限閾値・・・式(10)
画素eのR要素値=R要素平均値−減算値
画素eのG要素値=G要素平均値−減算値
画素eのB要素値=B要素平均値−減算値・・・式(11)
なお、式(8)から式(10)において、R要素の下限閾値、G要素の下限閾値及びB要素の下限閾値は、0以上255以下の値となり、例えば、100である。また、式(8)から式(10)において、「所定の閾値」として、RGB要素値がとりうる範囲内の値のうち、中間値となる「127」を設定した。また、式(11)において、減算値は、例えば、30である。さらに、このR要素の下限閾値、G要素の下限閾値、B要素の下限閾値、所定の閾値及び減算値は、記憶手段50のパラメータ記憶領域58のパラメータファイル58aに予め記憶しておいても良い。
<文字色変更処理>
文字色変更手段34は、静止画において、予め設定した指定色を黒色に変更すると共に、指定色以外の色を白色に変更する文字色変更処理を行うものである。ここで、文字色変更手段34は、静止画を構成する一部の画素に文字色変更処理を行っても良く、全画素に文字色変更処理を行うことが好ましい。具体的には、文字強調手段34は、画素のRGB要素のうちのいずれか2要素値が所定の上限閾値以上、かつ、この2要素値に含まれない他の要素値がこの2要素値から所定範囲内の値となる場合には、画素を黒色に変更し、画素を黒色に変更しない場合には、画素を白色に変更する。すなわち、文字色変更手段34は、式(12)から式(14)のいずれかを満たす場合には、その画素を黒色(画素のR要素値=0,画素のG要素値=0,画素のB要素値=0)に変更する。一方、文字色変更手段34は、画素を黒色に変更しない場合、すなわち、式(12)から式(14)のいずれも満たさない場合には、その画素を白色(画素のR要素値=255,画素のG要素値=255,画素のB要素値=255)に変更する。
画素のR要素値≧上限閾値、かつ、画素のG要素値≧上限閾値、かつ、{(画素のR要素値−所定値<画素のB要素値、または、画素のG要素値−所定値<画素のB要素値)、かつ、(画素のR要素値+所定値>画素のB要素値、または、画素のG要素値+所定値>画素のB要素値)}・・・式(12)
画素のG要素値≧上限閾値、かつ、画素のB要素値≧上限閾値、かつ、{(画素のG要素値−所定値<画素のR要素値、または、画素のB要素値−所定値<画素のR要素値)、かつ、(画素のG要素値+所定値>画素のR要素値、または、画素のB要素値+所定値>画素のR要素値)}・・・式(13)
画素のB要素値≧上限閾値、かつ、画素のR要素値≧上限閾値、かつ、{(画素のB要素値−所定値<画素のG要素値、または、画素のR要素値−所定値<画素のG要素値)、かつ、(画素のB要素値+所定値>画素のG要素値、または、画素のR要素値+所定値>画素のG要素値)}・・・式(14)
なお、式(12)から式(14)において、上限閾値は、0以上255以下の値となり、例えば、254である。また、式(12)から式(14)において、所定値(一定範囲内の値)は、例えば、5である。さらに、この上限閾値及び所定値は、記憶手段50のパラメータ記憶領域58のパラメータファイル58aに予め記憶しておいても良い。
また、文字色変更手段34は、画素のRGB要素のうちのいずれか2要素値が所定の下限閾値以下、かつ、この2要素値に含まれない他の要素値がこの2要素値から所定範囲内の値となる場合には画素を黒色に変更し、画素を黒色に変更しない場合には、画素を白色に変更する。すなわち、文字色変更手段34は、式(15)から式(17)のいずれかを満たす場合には、画素を黒色に変更する。一方、文字色変更手段34は、画素を黒色に変更しない場合、すなわち、式(15)から式(17)のいずれも満たさない場合には、画素を白色に変更する。
画素のR要素値≦下限閾値、かつ、画素のG要素値≦下限閾値、かつ、{(画素のR要素値−所定値<画素のB要素値、または、画素のG要素値−所定値<画素のB要素値)、かつ、(画素のR要素値+所定値>画素のB要素値、または、画素のG要素値+所定値>画素のB要素値)}・・・式(15)
画素のG要素値≦下限閾値、かつ、画素のB要素値≦下限閾値、かつ、{(画素のG要素値−所定値<画素のR要素値、または、画素のB要素値−所定値<画素のR要素値)、かつ、(画素のG要素値+所定値>画素のR要素値、または、画素のB要素値+所定値>画素のR要素値)}・・・式(16)
画素のB要素値≦下限閾値、かつ、画素のR要素値≦下限閾値、かつ、{(画素のB要素値−所定値<画素のG要素値、または、画素のR要素値−所定値<画素のG要素値)、かつ、(画素のB要素値+所定値>画素のG要素値、または、画素のR要素値+所定値>画素のG要素値)}・・・式(17)
なお、式(15)から式(17)において、下限閾値は、0以上255以下の値となり、例えば、100である。また、式(15)から式(17)において、所定値(一定範囲)は、例えば、40である。さらに、この下限閾値及び所定値は、記憶手段50のパラメータ記憶領域58のパラメータファイル58aに予め記憶しておいても良い。
以下、図6を参照して、文字色変更処理の一例について説明する。図6は、本発明における文字色変更処理を説明する説明図であり、(a)は、文字色変更処理前の静止画であり、(b)は、文字色変更処理後の静止画である。図6(a)に示すように、静止画は、山を撮影したものであり、その左上部に「NHK」という文字が白色(R要素値=255,G要素値=255,B要素値=255)、及び、その山の中腹から山頂部分が白に近い色(R要素値=255,G要素値=255,B要素値=251)で表示されている。なお、図6(a)に示す静止画では、「NHK」という文字の色及び山の中腹から山頂部分以外の色は、前記した文字色変更処理の条件式(12)〜式(17)のいずれも満たさない色として説明する。
ここで、「NHK」という文字を構成する画素及び山の中腹から山頂部分を構成する画素が、前記した式(12)を満たすため、文字色変更手段34は、この「NHK」という文字を構成する画素及び山の中腹から山頂部分を構成する画素を黒色に変更して、図5(b)に示す静止画(文字強調静止画)を生成する。図6(b)に示す文字強調静止画は、「NHK」という文字が黒色となっているため、後記する文字認識手段40で、この文字が認識されやすくなる。なお、この静止画では、山の中腹から山頂部分が黒色となっているが、このような形状を文字認識手段40が文字として誤認識する確率は低いと考えられる。
図1に戻り、文字認識装置1の構成について説明を続ける。文字強調手段30は、前記した文字色変更処理や平滑化処理に加え、静止画の拡大、静止画の色の反転、静止画のグレースケール化、又は、静止画の色の反転とグレースケール化とを組み合わせた処理を行って文字強調静止画を生成しても良い。ここでは、文字強調手段30は、生成した文字強調静止画(文字強調静止画ファイル56a)を記憶手段50の文字強調静止画記憶領域56に書き込むと共に、文字強調静止画ファイル56aのファイル名や記憶手段50の文字強調静止画記憶領域56内でのアドレス等、この文字強調静止画ファイル56aを特定できる識別情報を文字認識手段40に出力する。
文字認識手段40は、文字強調手段30が生成した文字強調静止画に含まれる文字を認識するものである。ここでは、文字認識手段40は、文字強調手段30からの識別情報によって、記憶手段50の文字強調静止画記憶領域56から文字強調静止画ファイル56aを読み出す。そして、文字認識手段40は、予め登録されたパターンに従って静止画に含まれる文字を認識する文字認識ソフトウェア(OCRソフトウェア)によって、この文字強調静止画の文字認識を行い、認識された文字を出力する。
また、文字認識手段40は、文字強調静止画のうち文字が表示されやすい範囲、例えば、静止画の上下左右から一定画素数となる範囲を対象として文字を抽出しても良い。さらに、文字認識手段40は、これから文字認識を行う文字強調静止画と、その直前に文字認識を行った文字強調静止画を対比し、変化があった範囲のみを対象として文字認識しても良い。ここでは、文字認識手段40は、これから文字認識を行う文字強調静止画とその直前に文字認識を行った文字強調静止画とを所定のブロック(範囲)に区切り、そのブロック毎に動きベクトルを求めるブロック・マッチング法によって変化があったブロックを求め、このブロックのみを対象として文字認識を行う。これらの処理によって、文字認識装置1の高速化を図ることができる。なお、上記した文字が表示されやすい範囲(一定画素数)は、記憶手段50のパラメータ記憶領域58のパラメータファイル58aに予め記憶しておいても良い。
[文字認識装置の動作]
図7を参照して、文字認識装置の動作について説明する(適宜図1参照)。図7は、図1の文字認識装置の動作を示すフローチャートである。まず、文字認識装置1は、動画受信手段10によって、動画を受信する(ステップS1)。また、文字認識装置1は、動画受信手段10によって、録画装置2から複数チャンネルの動画を並行に受信しても良い。
ステップS1に続いて、文字認識装置1は、静止画抽出手段20によって、動画受信手段10が受信した動画を構成するフレームを、静止画として抽出する(ステップS2)。また、文字認識装置1は、文字強調手段30によって、静止画抽出手段20が抽出した静止画において、予め設定した指定色を黒色に変更すると共に、指定色以外の色を白色に変更して文字強調静止画を生成する(ステップS3)。ここで、文字認識装置1は、平滑化手段32によって、静止画を平滑化処理しても良く、文字色変更手段34によって、静止画を文字色変更処理しても良い。また、文字認識装置1は、文字強調手段30によって、静止画の拡大、静止画の色の反転、静止画のグレースケール化、又は、静止画の色の反転とグレースケール化とを組み合わせた処理を行っても良い。
ステップS3に続いて、文字認識装置1は、文字認識手段40によって、文字強調手段30が生成した文字強調静止画に含まれる文字を認識する(ステップS4)。また、文字認識装置1は、文字認識手段40によって、文字強調静止画のうち文字が表示されやすい範囲の文字を認識し、これから文字認識を行う文字強調静止画と、その直前に文字認識を行った文字強調静止画を対比し、変化があった範囲のみを対象として文字認識しても良い。
本発明では、一般的なコンピュータを、前記した各手段として機能させるプログラムによって動作させることもできる。このプログラムは、通信回線を介して配布しても良く、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。なお、本実施形態では、本発明に係る文字認識装置を独立した装置として説明したが、本発明に係る文字認識装置を他システムに組み込むこともできる。
[文字認識装置の利用例]
以下、図8を参照して、本発明に係る文字認識装置の利用例について説明する。図8は、本発明に係る文字認識装置を含む動画検索システムの概略構成図である。動画検索システムSは、録画装置2と、モニタ7と、ルータ8と、検索PC(クライアント)9と、データベースサーバDbと、を備える。また、データベースサーバDbは、文字監視装置1と、文字学習手段3と、検索再生手段4と、データベース蓄積手段5と、データベース6と、を備える。
録画装置2は、アンテナ2aを介して放送波を受信し、複数の放送番組を録画する。また、モニタ7は、録画装置2に録画された放送番組を表示する。また、データベースサーバDbは、ルータ8を介して録画装置2と検索PCとにネットワークを介して接続される。なお、図8では録画装置2を1台としたが、録画装置2を2台以上としても良い。
文字監視装置1は、前記したように、録画装置2から複数チャンネルの動画を受信して、これら動画で表示される文字を認識して出力する。ここでは、文字監視装置1は、認識した文字をデータベース蓄積手段5に出力する。また、データベース蓄積手段5は、文字監視装置1が出力した文字を、その文字を認識する基となった放送番組の番組名、チャンネル、放送時間等の番組情報と関連付けてデータベース6に蓄積する。また、文字学習手段3は、文字監視装置1で認識した文字が誤っていた場合等、その誤りを辞書に登録して文字の認識精度を向上させる。さらに、検索再生手段4は、検索PC9から検索文字、検索チャンネル等の検索条件を受信し、その検索条件を満たす、すなわち、検索文字を表示する放送番組をデータベース6から検索する。そして、検索再生手段4は、その放送番組名、チャンネル、放送時間等の番組情報を検索PCに送信し、また、その放送番組(動画)を検索PCに送信して検索PCで放送番組を再生させる。
検索PC9は、例えば、一般的なパーソナルコンピュータであり、利用者が入力した検索条件を検索再生手段4に送信し、検索再生手段4が検索した番組情報を表示し、また、検索再生手段4からその放送番組を受信して再生する。なお、図8では検索PC9を1台としたが、検索PC9を2台以上としても良い。
以上のように、動画検索システムSは、複数のチャンネルの放送番組から、利用者が検索条件として指定した検索文字を表示する放送番組を検索することができる。従って、動画検索システムSは、自局の名称や自局の放送番組名を検索条件とすることによって、自局の放送番組を引用する他局の放送番組を人手によらずに検索することができる。
本発明の実施形態に係る文字認識装置のブロック図である。 図1の動画受信手段が2チャンネル分の動画を受信する動作を示すシーケンス図である。 図1の動画受信手段が8チャンネル分の動画を受信する構成を示す説明図である。 図1の記憶手段のデータ構造を示す模式図である。 本発明における平滑化処理を説明するための、静止画の画素を示す説明図である。 本発明における文字色変更処理を説明する説明図であり、(a)は、文字色変更処理前の静止画であり、(b)は、文字色変更処理後の静止画である。 図1の文字認識装置の動作を示すフローチャートである。 本発明に係る文字認識装置を含む動画検索システムの概略構成図である。
符号の説明
1 文字認識システム
2 録画装置
10 動画受信手段
20 静止画抽出手段
30 文字強調手段
32 平滑化手段
34 文字色変更手段
40 文字認識手段
50 記憶手段
52 動画記憶領域
54 静止画記憶領域
56 文字強調静止画記憶領域
58 パラメータ記憶領域

Claims (7)

  1. 放送番組を内容とする動画に表示される文字を認識して当該文字を出力する文字認識装置であって、
    前記動画を受信する動画受信手段と、
    前記動画受信手段が受信した前記動画を構成するフレームを、静止画として抽出する静止画抽出手段と、
    前記静止画抽出手段が抽出した前記静止画において、予め設定した指定色を黒色に変更すると共に、前記指定色以外の色を白色に変更して文字強調静止画を生成する文字強調手段と、
    前記文字強調手段が生成した前記文字強調静止画に含まれる文字を認識する文字認識手段と、
    を備え
    前記文字強調手段は、
    前記静止画を構成する画素のRGB要素毎の要素値と前記画素を囲む周辺画素のRGB要素毎の要素値とを平均したRGB要素毎の要素平均値を算出すると共に、
    前記RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた上限閾値以上、かつ、前記2要素平均値に含まれない他の要素平均値が所定の閾値以上となる場合には、前記画素のRGB要素毎の要素値を、前記RGB要素毎の要素平均値に所定の加算値を加算した値とする平滑化手段を、
    さらに備えることを特徴とする文字認識装置。
  2. 放送番組を内容とする動画に表示される文字を認識して当該文字を出力する文字認識装置であって、
    前記動画を受信する動画受信手段と、
    前記動画受信手段が受信した前記動画を構成するフレームを、静止画として抽出する静止画抽出手段と、
    前記静止画抽出手段が抽出した前記静止画において、予め設定した指定色を黒色に変更すると共に、前記指定色以外の色を白色に変更して文字強調静止画を生成する文字強調手段と、
    前記文字強調手段が生成した前記文字強調静止画に含まれる文字を認識する文字認識手段と、
    を備え、
    前記文字強調手段は、
    前記静止画を構成する画素のRGB要素毎の要素値と前記画素を囲む周辺画素のRGB要素毎の要素値とを平均したRGB要素毎の要素平均値を算出すると共に、
    前記RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた下限閾値以下、かつ、前記2要素平均値に含まれない他の要素平均値が所定の閾値以下となる場合には、前記画素のRGB要素毎の要素値を、前記RGB要素毎の要素平均値から所定の減算値を減算した値とする平滑化手段を、
    さらに備えることを特徴とする文字認識装置。
  3. 前記文字強調手段は、前記静止画を構成する画素のRGB要素のうちのいずれか2要素値が所定の上限閾値以上、かつ、前記2要素値に含まれない他の要素値が前記2要素値から所定範囲内の値となる場合には、前記画素を黒色に変更し、
    前記画素を黒色に変更しない場合には、前記画素を白色に変更することを特徴とする請求項1又は請求項2に記載の文字認識装置。
  4. 前記文字強調手段は、前記静止画を構成する画素のRGB要素のうちのいずれか2要素値が所定の下限閾値以下、かつ、前記2要素値に含まれない他の要素値が前記2要素値から所定範囲内の値となる場合には前記画素を黒色に変更し、
    前記画素を黒色に変更しない場合には、前記画素を白色に変更することを特徴とする請求項1又は請求項2に記載の文字認識装置。
  5. 前記動画受信手段は、複数のチャンネルの前記動画を録画可能な前記録画装置に接続され、当該録画装置から前記チャンネル毎に動画をそれぞれ受信するチャンネル専用動画受信部、
    を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の文字認識装置。
  6. 放送番組を内容とする動画に表示される文字を認識して当該文字を出力するために、コンピュータを、
    前記動画を受信する動画受信手段、
    前記動画受信手段が受信した前記動画を構成するフレームを、静止画として抽出する静止画抽出手段、
    前記静止画抽出手段が抽出した前記静止画において、予め設定した指定色を黒色に変更すると共に、前記指定色以外の色を白色に変更して文字強調静止画を生成する文字強調手段、
    前記文字強調手段が生成した前記文字強調静止画に含まれる文字を認識する文字認識手段、
    として機能させ
    前記文字強調手段は、
    前記静止画を構成する画素のRGB要素毎の要素値と前記画素を囲む周辺画素のRGB要素毎の要素値とを平均したRGB要素毎の要素平均値を算出すると共に、
    前記RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた上限閾値以上、かつ、前記2要素平均値に含まれない他の要素平均値が所定の閾値以上となる場合には、前記画素のRGB要素毎の要素値を、前記RGB要素毎の要素平均値に所定の加算値を加算した値とする平滑化手段を、
    備えることを特徴とする文字認識プログラム。
  7. 放送番組を内容とする動画に表示される文字を認識して当該文字を出力するために、コンピュータを、
    前記動画を受信する動画受信手段、
    前記動画受信手段が受信した前記動画を構成するフレームを、静止画として抽出する静止画抽出手段、
    前記静止画抽出手段が抽出した前記静止画において、予め設定した指定色を黒色に変更すると共に、前記指定色以外の色を白色に変更して文字強調静止画を生成する文字強調手段、
    前記文字強調手段が生成した前記文字強調静止画に含まれる文字を認識する文字認識手段、
    として機能させ、
    前記文字強調手段は、
    前記静止画を構成する画素のRGB要素毎の要素値と前記画素を囲む周辺画素のRGB要素毎の要素値とを平均したRGB要素毎の要素平均値を算出すると共に、
    前記RGB要素毎の要素平均値のうちのいずれか2要素平均値がRGB要素毎に定めた下限閾値以下、かつ、前記2要素平均値に含まれない他の要素平均値が所定の閾値以下となる場合には、前記画素のRGB要素毎の要素値を、前記RGB要素毎の要素平均値から所定の減算値を減算した値とする平滑化手段を、
    備えることを特徴とする文字認識プログラム。
JP2008033907A 2008-02-15 2008-02-15 文字認識装置及びそのプログラム Active JP4989506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008033907A JP4989506B2 (ja) 2008-02-15 2008-02-15 文字認識装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008033907A JP4989506B2 (ja) 2008-02-15 2008-02-15 文字認識装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2009193386A JP2009193386A (ja) 2009-08-27
JP4989506B2 true JP4989506B2 (ja) 2012-08-01

Family

ID=41075333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008033907A Active JP4989506B2 (ja) 2008-02-15 2008-02-15 文字認識装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP4989506B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0918798A (ja) * 1995-07-03 1997-01-17 Sanyo Electric Co Ltd 文字処理機能付き映像表示装置
JPH0991453A (ja) * 1995-09-21 1997-04-04 Sanyo Electric Co Ltd 画像処理方法およびその装置
JP2001223941A (ja) * 1999-12-01 2001-08-17 Ricoh Co Ltd 撮像装置及び撮像方法
JP4631258B2 (ja) * 2003-09-05 2011-02-16 日本電気株式会社 携帯機器
JP4628285B2 (ja) * 2006-03-06 2011-02-09 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 番組録画装置、携帯端末、番組録画・再生システム、録画番組表示方法

Also Published As

Publication number Publication date
JP2009193386A (ja) 2009-08-27

Similar Documents

Publication Publication Date Title
JP7511482B2 (ja) 埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理
US10368123B2 (en) Information pushing method, terminal and server
US10452919B2 (en) Detecting segments of a video program through image comparisons
CN108419141B (zh) 一种字幕位置调整的方法、装置、存储介质及电子设备
CN109218629B (zh) 视频生成方法、存储介质和装置
US7707485B2 (en) System and method for dynamic transrating based on content
EP2109313B1 (en) Television receiver and method
US20100182501A1 (en) Information processing apparatus, information processing method, and program
US20180068188A1 (en) Video analyzing method and video processing apparatus thereof
KR20160059162A (ko) 방송 수신 장치 및 그 제어 방법
JP2016189158A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2011164681A (ja) 文字入力装置、文字入力方法、文字入力プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
US20190251363A1 (en) Electronic device and method for generating summary image of electronic device
CN101175164A (zh) 图像再现装置
US9886650B2 (en) Method and device for determining similarity between sequences
US9678991B2 (en) Apparatus and method for processing image
JP4989506B2 (ja) 文字認識装置及びそのプログラム
KR102595096B1 (ko) 지능적 가로-세로 영상 변환을 위한 전자 장치, 시스템 및 방법
JP6288476B2 (ja) 映像受信装置、及び、映像受信装置における情報表示制御方法
JP6091552B2 (ja) 動画処理装置及び動画処理システム
JP5410128B2 (ja) コンテンツ表示制御装置、コンテンツ表示制御方法、プログラム、記録媒体
JP2009049667A (ja) 情報処理装置、その処理方法およびプログラム
WO2022181410A1 (ja) 画像識別装置、映像再生装置、画像識別方法、及び、プログラム
US11908340B2 (en) Magnification enhancement of video for visually impaired viewers
CN112019923B (zh) 视频剪切处理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120427

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4989506

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250