JP2005339547A

JP2005339547A - 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体

Info

Publication number: JP2005339547A
Application number: JP2005149191A
Authority: JP
Inventors: Cheolkon Jung; ▲哲▼ 坤鄭; Chien Kin; 智淵金; Young-Su Moon; 永秀文
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-05-21
Filing date: 2005-05-23
Publication date: 2005-12-08
Also published as: EP1600889A1; KR20050111186A; US20060008147A1; KR100647284B1

Abstract

【課題】画像から小さなサイズの文字も抽出して認識可能にする。
【解決手段】字幕領域を画像から検出するときに生成した画像の空間的な情報から文字領域を表すマスクの高さを検出するマスク検出部１０と、マスクの高さに相応して前記文字領域から文字を抽出する文字抽出部１４と、抽出した文字からノイズを除去するノイズ除去部１６と、を備える。前記ノイズ除去部１６は、前記抽出した文字の要素を空間的に分離する要素分離部と、前記分離した要素のうち、ノイズに該当する要素を除去し、除去した結果を前記ノイズを除去した文字として出力するノイズ要素除去部と、を備える。
を備える
【選択図】図１

Description

本発明は、画像の処理に関わり、特に、画像に含まれる文字を抽出する画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体に関する。

画像から文字を抽出する従来の方法は、臨界値方法、領域併合方法及びクラスタリング方法に大別される。
臨界値方法は、指定された臨界値をすべての画像に適用し難く、これにより、文字を抽出する性能を低下させるという問題点を有する。このような臨界値方法については、特許文献１、特許文献２、特許文献３及び非特許文献１に開示されている。

領域併合方法は、画像を分割した後に平均値が類似した領域を併合するのに長い計算時間がかかるので、文字を抽出する速度を低下させるという問題点を有する。このような領域併合方法については、非特許文献２に開示されている。

クラスタリング方法については、非特許文献３及び非特許文献４に開示されている。
前述した従来の文字抽出方法は、小さなサイズの文字については認識を行えないという問題点を有する。これは、光学文字認識装置（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）別に差があるが、ＯＣＲが２０〜３０画素以下の高さを有する文字を認識できないためである。
米国特許第ＵＳ６,１０１,２７４号明細書米国特許第ＵＳ６,４７０,０９４号明細書韓国特許公開１９９９−４７５０１号明細書Ｔａｎｇ，ＸｉｎｂｏＧａｏ，ＪｉａｎｚｈｕａｎｇＬｉｕ及びＨｏｎｇｊｉａｎｇＺｈａｎｇ，‘Ａｓｐａｔｉａｌ−ｔｅｍｐｏｒａｌａｐｐｒｏａｃｈｆｏｒｖｉｄｅｏｃａｐｔｉｏｎｄｅｔｅｃｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎ’２００２年７月、ＩＥＥＥＴｒａｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ，ｖｏｌ.１３，Ｎｏ.４ＫｏｎｇｑｉａｏＷａｎｇ，Ｋａｎｇａｓ,Ｊ.Ａ及びＷｅｎｗｅｎＬｉ，‘Ｃｈａｒａｃｔｅｒｓｅｇｍｅｎｔａｔｉｏｎｏｆｃｏｌｏｒｉｍａｇｅｓｆｒｏｍｄｉｇｉｔａｌｃａｍｅｒａ’，２００１年９月，ＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ，２００１．Ｐｒｏｃｅｅｄｉｎｇｓ.ＳｉｘｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ，ｐ１０〜１３Ｋ.Ｗｏｎｇ及びＭｉｎｙａＣｈｅｎ，‘Ａｎｅｗｒｏｂｕｓｔａｌｇｏｒｉｔｈｍｆｏｒｖｉｄｅｏｔｅｘｔｅｘｔｒａｃｔｉｏｎ’，２００３年，ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｖｏｌ.３６キム・ジョンヨル、キム・ソンソップ及びムン・ヨンシック著，‘ニュースビデオ字幕抽出及び認識技法に関する研究’，２００３年１月，大韓電子工学会の論文誌第４０巻ＳＰ編第１号

本発明が解決しようとする技術的課題は、画像から小さなサイズの文字も抽出して認識可能にする画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体を提供することである。

前記課題を達成するための本発明による画像の文字抽出装置は、文字領域と背景領域とからなる字幕領域を画像から検出するときに生成した前記画像の空間的な情報から、前記文字領域を表すマスクの高さを検出するマスク検出部及び前記マスクの高さに応じて、前記文字領域から文字を抽出する文字抽出部を備え、前記空間的な情報は、前記画像のエッジグラジエントに該当することが望ましい。

前記他の課題を達成するための本発明による画像の文字抽出方法は、文字領域と背景領域とからなる字幕領域を画像から検出するときに生成した前記画像の空間的な情報から、前記文字領域を表すマスクの高さを求める段階及び前記マスクの高さに相応して、前記文字領域から文字を抽出する段階を含み、前記空間的な情報は、前記画像のエッジグラジエントに該当することが望ましい。
ここで、第１臨界値とは、空間的な情報を２進化するときに使われる臨界値である。第２臨界値とは、例えば、文字領域をさらに鮮明に調節するか否かを判断するために、マスクの高さと比較される臨界値である。第３臨界値とは、例えば、二つのピーク値を有する生成されたヒストグラム上で、分散値を最大化させて両分する輝度値をいう。

本発明による画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体は、画像における意味のある重要な情報である小さな文字、例えば、１２画素の高さを有する文字についても認識可能にし、特に、文字ライン別に求めた第３臨界値を利用して文字を二進化するために、抽出した文字を認識して画像の内容を把握し、画像を要約、検索及び内容別にインデックシング（ｉｎｄｅｘｉｎｇ）すなわち見出しを付ける作業をさらに正確に行うことが可能であり、しかも、字幕領域検出部を設けず、従来の字幕領域を検出するときに発生する画像の時間的な情報及び空間的な情報をそのまま利用するため、文字をさらに速く抽出できる。

以下、本発明による画像の文字抽出装置の構成及び動作、その装置で行われる画像の文字抽出方法を、添付した図面を参照して次のように説明する。
図１は、本実施の形態に係る画像の文字抽出装置を説明するためのブロック図である。本実施の形態に係る画像の文字抽出装置は、字幕領域検出部８、マスク検出部１０、第１鮮明度調節部１２、文字抽出部１４及びノイズ除去部１６を備えている。

図２は、本実施の形態に係る画像の文字抽出方法を説明するためのフローチャートである。本実施の形態に係る画像の文字抽出方法は、マスクの高さを求めた結果を利用して、文字領域から文字を抽出する段階（第４０〜第４６段階）及び抽出された文字からノイズを除去する段階（第４８段階）からなる。

図１に示した字幕領域検出部８は、入力端子ＩＮ１を通じて入力した画像から字幕領域を検出し、字幕領域を検出するときに生成した画像の空間的な情報をマスク検出部１０に出力する（第４０段階）。ここで、字幕領域とは、文字のみよりなる文字領域とその文字領域の背景に該当する背景領域とからなり、画像の空間的な情報とは、画像のエッジグラジエント（ｅｄｇｅｇｒａｄｉｅｎｔ）を意味する。このとき、文字領域に含まれる文字は、原画像に含まれている文字の他、製作者によって画像に意図的に挿入された文字も含まれる。このとき、動画から字幕領域を検出する一例が韓国特許出願０４−１０６６０号に開示されている。

第４０段階後に、マスク検出部１０は、字幕領域検出部８から入力した画像の空間的な情報から文字領域を表すマスクの高さを検出する（第４２段階）。
図１に示す本発明による画像の文字抽出装置は、字幕領域検出部８を含まず、マスク検出部１０、第１鮮明度調節部１２、文字抽出部１４及びノイズ除去部１６のみから実現することも可能である。

図３は、図１に示したマスク検出部の１例を示すブロック図である。マスク検出部１０Ａは、第１二進化部６０、マスク生成部６２及びライン検出部６４より構成される。
図４Ａないし図４Ｃは、初期マスクが生成される過程の理解を助けるための例示的な図面である。図４Ａないし図４Ｃそれぞれは、‘ＲＥＳＣＵＥＷＯＲＫＥＲ’という文字領域とその外の背景領域とより構成される。

図３に示したマスク検出部１０Ａの理解を助けるために、文字領域に含まれる文字が‘ＲＥＳＣＵＥＷＯＲＫＥＲ’と仮定し、図４Ａないし図４Ｃを参照しつつ、図３に示したマスク検出部１０Ａの構成及び動作を説明するが、本発明は、これに限定されるものではない。

図３に示した第１二進化部６０は、入力端子ＩＮ２を通じて字幕領域検出部８から入力した図４Ａに示した空間的な情報を、入力端子ＩＮ３を通じて入力した第１臨界値ＴＨ₁を利用して二進化し、図４Ｂに示した二進化した結果をマスク生成部６２に出力する。

マスク生成部６２は、第１二進化部６０から入力した図４Ｂに示した二進化した結果から文字内部のホールを除去し、図４Ｃに示したホールを除去した結果を初期マスクとしてライン検出部６４に出力する。ここで、文字内部のホールとは、図４Ｂに示した‘ＲＥＳＣＵＥＷＯＲＫＥＲ’という黒色文字の内部に示される白色を意味し、初期マスクとは、図４Ｃに示した白色の背景領域を含まず、‘ＲＥＳＣＵＥＷＯＲＫＥＲ’という黒色文字を意味する。

本実施の形態によれば、マスク生成部６２は、第１二進化部６０から入力した二進化した結果に対してフィルタリングを行い、この行った結果を初期マスクとして出力するモルホロジフィルタ（ｍｏｒｐｈｏｌｏｇｙｆｉｌｔｅｒ）７０により実現することもできる。このとき、モルホロジフィルタ７０は、第１二進化部６０で二進化した結果についてダイレーション法（ｄｉｌａｔｉｏｎｍｅｔｈｏｄｓ）を行って初期マスクを生成できる。ここで、モルホロジフィルタリングとダイレーション法については、‘Ｒ.Ｊａｉｎ’、‘Ｒ.Ｋａｓｔｕｎｉ’及び‘Ｂ.Ｇ.Ｓｃｈｕｎｃｋ’によって書かれ、‘Ｍａｃｈｉｎｅｖｉｓｉｏｎ’という書名でＭｃＧｒａｗ−Ｈｉｌｌ出版社によって１９９５年度に出版された刊行物のｐ６１〜６９に開示されている。

図５（ａ）、（ｂ）は、図３に示したライン検出部６４の理解を助けるための例示的な図面である。図５（ａ）は、図４Ｃに該当し、初期マスクを表し、図５（ｂ）は、文字ラインを表す。

ライン検出部６４は、マスク生成部６２から入力した図５（ａ）に示した初期マスクの高さ７２を検査して出力端子ＯＵＴ２を通じて出力する一方、初期マスクの高さに該当する幅を表す図５（ｂ）に示した文字ライン７４を検出し、検出した文字ライン７４を、出力端子ＯＵＴ２を通じて出力する。ここで、文字ライン７４は、初期マスクの高さに該当する幅を有するため、字幕領域の文字領域を最小限含み、この文字ライン７４に文字は表示されない。

一方、第４２段階後に、第１鮮明度調節部１２は、字幕領域検出部８から入力した字幕領域で文字領域をさらに鮮明に調節し、さらに鮮明に調節した文字領域を文字抽出部１４に出力する（第４４段階）。このために、字幕領域検出部８は、入力端子ＩＮ１を通じて入力した画像から字幕領域を検出し、検出した字幕領域を画像の時間的な情報として第１鮮明度調節部１２に出力する。

第４４段階後に、文字抽出部１４は、第１鮮明度調節部１２から入力した調節した鮮明度を有する文字領域から文字を抽出する（第４６段階）。
本発明によれば、図２に示したものと異なって、第４４段階を先に行い、その後に第４２段階を行うこともできる。この場合、第４２段階を行った後に、第４６段階を行うこともできる。また、第４０段階を行った後に、第４２段階及び第４４段階を同時に行うこともできる。

図１に示した第１鮮明度調節部１２は、本実施の形態によれば、時間平均計算部２０で実現できる。ここで、時間平均計算部２０は、同じ文字を有する字幕領域を字幕領域検出部８から入力し、入力した字幕領域の輝度レベルの時間上平均値を、次の式（１）のように計算する。

ここで、Ｒは、時間上平均値を表し、Ｎ_fは、同じ文字を有する字幕フレームの個数を表し、Ｒ_tは、第ｔフレームに存在する字幕領域の輝度レベルを表す。

図６は、図１に示した時間平均計算部２０の理解を助けるための例示的な図面である。図６に示すように、入力した画像は、多数のＩフレーム．．．Ｉ_t-1，Ｉ_t，Ｉ_t+1，．．．Ｉ_t+X．．．より構成される。ここで、Ｉ_t+Xは、第ｔ＋ＸＩフレームを表し、Ｘは整数である。
例えば、図６に示した第ｔＩフレームＩ_tから第ｔ＋ＸＩフレームＩ_t+X８０がいずれも同じ文字を有する字幕領域を含む場合、式（１）のＮ_fは、‘Ｘ＋１’となる。

このように、同じ文字を有する字幕領域の輝度レベルを時間上に平均化すれば、文字がさらに鮮明になる。なぜなら、字幕領域で文字以外の部分は、ランダムノイズ成分を有するためである。
このように、第１鮮明度調節部１２が時間平均計算部２０で実現される場合、文字抽出部１４は、時間平均計算部２０で計算した平均値を輝度レベルとして有する文字領域から文字を抽出する。

他の実施の形態によれば、図１に示したものと異なって、画像の文字抽出装置は、第１鮮明度調節部１２を設けないこともできる。すなわち、図２に示した画像の文字抽出方法は、第４４段階を設けないこともできる。この場合、第４２段階後に、文字抽出部１４は、マスクの高さに相応して、字幕領域検出部８から入力した文字領域から文字を抽出する（第４６段階）。すなわち、文字領域が第１鮮明度調節部１２から入力される代わりに、字幕領域検出部８から入力される。つまり、第１鮮明度調節部１２を設けない場合の文字抽出部１４の動作は、文字領域が字幕領域検出部８から入力される以外第１鮮明度調節部１２を設けた場合と同じである。

図７は、図１に示した文字抽出部１４の１例を示すブロック図である。文字抽出部１４Ａは、高さ比較部９０、第２鮮明度調節部９２、サイズ拡大部９４及び第２二進化部９６を備えている。

図８は、図２の第４６段階の１例を説明するためのフローチャートである。第４６Ａ段階は、マスクの高さによって、文字を鮮明にして拡大する段階（第１２０〜第１２４段階）及び文字を二進化する段階（第１２６段階）からなる。

図７に示した高さ比較部９０は、入力端子ＩＮ４を通じてマスク検出部１０から入力したマスクの高さを、入力端子ＩＮ５を通じて入力した第２臨界値ＴＨ₂と比較し、この比較した結果を制御信号として第２鮮明度調節部９２及び第２二進化部９６にそれぞれ出力する。第２臨界値ＴＨ₂を高さ比較部９０の内部にあらかじめ保存せずに外部から入力する場合の他、第２臨界値ＴＨ₂を高さ比較部９０の内部にあらかじめ保存しておくこともできる。
例えば、高さ比較部９０は、マスクの高さが第２臨界値ＴＨ₂より小さいか否かを判断し、この判断した結果を制御信号として出力する（第１２０段階）。

第２鮮明度調節部９２は、高さ比較部９０から入力した制御信号に応じて、文字領域をさらに鮮明に調節し、調節した鮮明度を有する文字領域をサイズ拡大部９４に出力する。例えば、高さ比較部９０から入力した制御信号を通じてマスクの高さが第２臨界値ＴＨ₂より小さいと認識されれば、第２鮮明度調節部９２は、文字領域をさらに鮮明に調節する（第１２２段階）。このために、第２鮮明度調節部９２は、文字ラインをマスク検出部１０から入力端子ＩＮ６を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子ＩＮ６を通じて第１鮮明度調節部１２または字幕領域検出部８から入力する。

第１２２段階後に、サイズ拡大部９４は、第２鮮明度調節部９２で調節した鮮明度を有する文字領域に含まれる各文字のサイズを拡大し、この拡大した結果を第２二進化部９６に出力する（第１２４段階）。

本発明によれば、図８に示したものと異なって、第４６Ａ段階は、第１２２段階を設けないこともできる。この場合、図７に示した文字抽出部１４Ａは、第２鮮明度調節部９２を備えない。したがって、サイズ拡大部９４は、高さ比較部９０から入力した制御信号に応じて、すなわち、高さ比較部９０から入力した制御信号を介してマスクの高さが第２臨界値ＴＨ₂より小さいと判断すれば、文字領域に含まれる各文字のサイズを拡大する。このために、サイズ拡大部９４は、文字ラインをマスク検出部１０から入力端子ＩＮ６を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子ＩＮ６を通じて第１鮮明度調節部１２または字幕領域検出部８から入力する。

第２二進化部９６は、高さ比較部９０から入力した制御信号に応じて、サイズ拡大部９４から入力した拡大した文字または拡大していない文字を、文字ライン別に決定した第３臨界値ＴＨ₃を利用して二進化し、この二進化した結果を抽出した文字として出力端子ＯＵＴ３を通じて出力する（１２６段階）。このために、第２二進化部９６は、文字ラインをマスク検出部１０から入力端子ＩＮ６を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子ＩＮ６を通じて第１鮮明度調節部１２または字幕領域検出部８から入力する。

例えば、第２二進化部９６は、制御信号を通じてマスクの高さを第２臨界値ＴＨ₂以上と認識すれば、文字ラインが表示する範囲に含まれる拡大していない文字を二進化する（第１２６段階）。しかし、第２二進化部９６は、制御信号を通じてマスクの高さを第２臨界値ＴＨ₂より小さいと認識すれば、サイズ拡大部９４から入力した拡大した文字を二進化する（第１２６段階）。

図７に示した文字抽出部１４Ａの動作説明で文字領域のみを説明した。しかし、文字ラインが表示する範囲に属する文字領域だけでなく、背景領域も第２鮮明度調節部９２、サイズ拡大部９４及び第２二進化部９６に入力され、出力される。すなわち、文字ラインが表示する範囲に属する背景領域は、文字領域と同様にサイズ拡大部９４で拡大されて第２二進化部９６で二進化される。

図９は、図１に示した文字抽出部１４の１例を示すブロック図である。文字抽出部１４Ｂは、高さ比較部１１０、サイズ拡大部１１２、第２鮮明度調節部１１４及び第２二進化部１１６を備えている。
図８に示したものと異なって、マスクの高さが第２臨界値ＴＨ₂より小さいとき、第１２２段階の代りに第１２４段階を行い、第１２４段階を行った後に第１２２段階を行い、第１２２段階を行った後に第１２６段階を行う。この場合、図１に示した文字抽出部１４は、図９に示したような構成を備えている。

図９に示した高さ比較部１１０は、図７に示した高さ比較部９０と同じ役割を担う。すなわち、高さ比較部１１０は、入力端子ＩＮ７を通じてマスク検出部１０から入力したマスクの高さを、入力端子ＩＮ８を通じて入力した第２臨界値ＴＨ₂と比較し、この比較した結果を制御信号としてサイズ拡大部１１２及び第２二進化部１１６にそれぞれ出力する。

サイズ拡大部１１２は、高さ比較部１１０から入力した制御信号に応じて、すなわち、高さ比較部１１０から入力した制御信号を介してマスクの高さが第２臨界値ＴＨ₂より小さいと判断すれば、文字領域に含まれる各文字のサイズを拡大する。このために、サイズ拡大部１１２は、文字ラインをマスク検出部１０から入力端子ＩＮ９を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子ＩＮ９を通じて第１鮮明度調節部１２または字幕領域検出部８から入力する。

第２鮮明度調節部１１４は、サイズ拡大部１１２から入力した拡大した文字を含む文字領域をさらに鮮明に調節し、この調節した鮮明度を有する文字領域を第２二進化部１１６に出力する。

第２二進化部１１６は、高さ比較部１１０から入力した制御信号に応じて、文字領域に含まれる拡大していない文字または第２鮮明度調節部１１４で調節した鮮明度を有する文字領域に含まれる文字を、第３臨界値ＴＨ₃を利用して二進化し、この二進化した結果を抽出した文字として出力端子ＯＵＴ４を通じて出力する。このために、第２二進化部１１６は、文字ラインをマスク検出部１０から入力端子ＩＮ９を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子ＩＮ９を通じて第１鮮明度調節部１２または字幕領域検出部８から入力する。

例えば、第２二進化部１１６は、制御信号を通じてマスクの高さを第２臨界値ＴＨ₂以上と認識すれば、文字ラインが表示する範囲に属する拡大していない文字を二進化する。しかし、第２二進化部１１６は、制御信号を通じてマスクの高さを第２臨界値ＴＨ₂より小さいと認識すれば、第２鮮明度調節部１１４から入力した調節した鮮明度を有する文字領域に含まれる文字を二進化する。

図９に示した文字抽出部１４Ｂの動作説明で、文字領域のみを説明した。しかし、文字ラインが表示する範囲に属する文字領域だけでなく、背景領域もサイズ拡大部１１２、第２鮮明度調節部１１４及び第２二進化部１１６に入力されて処理され、出力される。すなわち、文字ラインが表示する範囲に属する背景領域は、文字領域と同様に、サイズ拡大部１１２で拡大され、第２鮮明度調節部１１４で文字領域をさらに鮮明にするために処理され、第２二進化部１１６で二進化される。

本発明によれば、図９に示したものと異なって、文字抽出部１４Ｂは、第２鮮明度調節部１１４を備えないこともできる。この場合、第２二進化部１１６は、制御信号を通じてマスクの高さを第２臨界値ＴＨ₂より小さいと認識すれば、サイズ拡大部１１２から入力した拡大した結果を二進化する。

本実施の形態によれば、図７または図９に示したサイズ拡大部９４またはサイズ拡大部１１２は、拡大した文字の輝度をバイキュービック補間法（ｂｉ−ｃｕｂｉｃｉｎｔｅｒｐｏｌａｔｉｏｎｍｅｔｈｏｄ）によって決定できる。ここで、バイキュービック補間法については、‘ＲａｎｄｙＣｒａｎｅ’によって書かれ、‘ＡｓｉｍｐｌｉｆｉｅｄａｐｐｒｏａｃｈｔｏＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ’という書名でＰｒｅｎｔｉｃｅＨａｌｌ出版社によって１９９７年度に出版された刊行物のｐ１１５〜１２０に開示されている。

以下、バイキュービック補間法によって拡大した文字の輝度を決定する一例を、添付された図面を参照して次のように説明するが、本発明は、これに限定されない。
図１０は、キュービック関数［ｆ（ｘ）］を例示的に示すグラフであって、キュービック係数が−０.５、−１または−２である場合をそれぞれ表す。ここで、横軸（ｘ）は、補間される画素からの距離を表し、縦軸は、キュービック関数をそれぞれ表す。

図１１は、補間画素ｐ_xと隣接画素ｐ₁及び隣接画素ｐ₂とを１次元的に示す図面である。ここで、補間画素ｐ_xとは、文字を拡大するにつれて新たに生成される画素であって、補間しなければならない画素、すなわち、その輝度が決定しなければならない画素を意味し、隣接画素ｐ₁または隣接画素ｐ₂とは、補間画素ｐ_xに隣接する画素を意味する。
図１０に示したキュービック関数は、一種の加重値であって、例えば、次の式（２）のように決定される。

ここで、ａは、定数である。
例えば、補間画素ｐ_xと隣接画素ｐ₁との距離ｘ₁を、前述した式（２）のｘの代りに代入して加重値を決定するか、または距離ｘ₁に該当する加重値を、図１０を通じて決定し、決定された加重値と隣接画素ｐ₁の輝度、すなわち、輝度レベルとを乗算する。また、補間画素ｐ_xと隣接画素ｐ₂との距離ｘ₂を、前述した式（２）のｘの代りに代入して加重値を決定するか、または距離ｘ₂に該当する加重値を、図１０を通じて決定し、決定した加重値と隣接画素ｐ₂の輝度、すなわち、輝度レベルとを乗算する。このとき、乗算した結果を加算し、この加算した結果を補間画素ｐ_xの輝度レベル、すなわち、輝度として決定する。

図１２は、シャープネス部１００またはシャープネス部１２０の一例を表す図面である。
本実施の形態によれば、図７または図９に示した第２鮮明度調節部９２または第２鮮明度調節部１１４は、小文字をさらに鮮明にする役割を担う。このために、第２鮮明度調節部９２または第２鮮明度調節部１１４は、画像の高周波成分であるエッジを強調するシャープネス部１００またはシャープネス部１２０より実現される。ここで、シャープネス部１００またはシャープネス部１２０は、文字ラインが表示する範囲に属する文字領域及び背景領域を鮮明にし、この鮮明にした結果を出力する。高域通過フィルタに基づいた画像の鮮明化については、‘ＲａｎｄｙＣｒａｎｅ’によって書かれ、‘ＡｓｉｍｐｌｉｆｉｅｄａｐｐｒｏａｃｈｔｏＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ’という書名でＰｒｅｎｔｉｃｅＨａｌｌ出版社によって１９９７年度に出版された刊行物のｐ７７〜７８に開示されている。例えば、シャープネス部１００またはシャープネス部１２０は、図１２に示したように実現することが可能である。

本実施の形態によれば、図７または図９に示した第２二進化部９６または第２二進化部１１６は、文字を大津法（Ｏｔｓｕ'ｓｍｅｔｈｏｄ）によって二進化できる。ここで、大津法については、‘ＪｕｎＯｔｓｕ’によって書かれ、‘Ａｔｈｒｅｓｈｏｌｄｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｆｒｏｍｇｒａｙ−ｓｃａｌｅｈｉｓｔｏｇｒａｍｓ’という題名でＩＥＥＥＴｒａｎｓＳｙｓｔＭａｎＣｙｂｅｒｎＳＭＣ−９（１）で１９８６年度に発表された論文のｐ６２〜６６に開示されている。

図１３は、図７または図９に示した第２二進化部の一例を示すブロック図である。第２二進化部９６、第２二進化部１１６は、ヒストグラム生成部１４０、臨界値設定部１４２及び第３二進化部１４４を備えている。
図１４は、第２二進化部の動作を説明するためのフローチャートである。第２二進化部の動作は、生成したヒストグラムを利用して、第３臨界値ＴＨ₃を求める段階（第１６０及び第１６２段階）及び各画素の輝度レベルを二進化する段階（第１６４段階）からなる。

図１５は、ヒストグラムの例示的なグラフである。図１５に記載されたグラフの横軸は、輝度レベルを表し、縦軸は、ヒストグラム［Ｈ（ｉ）］をそれぞれ表す。
図１３に示したヒストグラム生成部１４０は、文字ラインに含まれる画素の輝度レベルのヒストグラムを生成し、この生成したヒストグラムを臨界値設定部１４２に出力する（第１６０段階）。例えば、ヒストグラム生成部１４０は、入力端子ＩＮ１０を通じて入力した制御信号を介して、マスクの高さを第２臨界値ＴＨ₂以上と認識すれば、文字ラインが表示する範囲に属する拡大していない文字を有する文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成する。このために、ヒストグラム生成部１４０は、文字ラインをマスク検出部１０から入力端子ＩＮ１１を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子ＩＮ１１を通じて、第１鮮明度調節部１２または字幕領域検出部８から入力する。

しかし、ヒストグラム生成部１４０は、入力端子ＩＮ１０を通じて入力した制御信号を介して、マスクの高さを第２臨界値ＴＨ₂より小さいと認識すれば、文字ラインが表示する範囲に属する拡大された文字を有する文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成する。このために、ヒストグラム生成部１４０は、文字ラインをマスク検出部１０から入力端子ＩＮ１２を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子ＩＮ１２を通じてサイズ拡大部９４または第２鮮明度調節部１１４から入力する。
ヒストグラム生成部１４０は、例えば、図１５に示したように、ヒストグラムを生成する。

第１６０段階後に、臨界値設定部１４２は、ヒストグラム生成部１４０から入力した、一般的に二つのピーク値を有する生成されたヒストグラム上で、分散値を最大化させて両分する輝度値を第３臨界値ＴＨ₃と設定し、この設定した第３臨界値ＴＨ₃を第３二進化部１４４に出力する（第１６２段階）。図１５を示すように、例えば、臨界値設定部１４２は、二つのピーク値Ｈ１及びピーク値Ｈ２を有する生成されたヒストグラム上で、分散σ² ₀及びσ² ₁を最大化させて両分する輝度値ｋを第３臨界値ＴＨ₃と設定できる。

図１５に示したような二つのピーク値Ｈ１及びピーク値Ｈ２を有するヒストグラム分布上で、輝度値ｋ、すなわち、第２臨界値ＴＨ₃を大津法によって求める過程を、次のように説明する。
図１５に示した輝度レベルの範囲を１〜ｍとし、任意の輝度レベルｉ（１＜ｉ＞ｍ）のヒストグラム値をＨ（ｉ）とするとき、ヒストグラム生成部１４０でヒストグラムを生成するときに寄与した画素の総数Ｎと各輝度レベルの確率Ｐ_iとは、次の式（３）及び式（４）の通りである。

輝度値ｋによって、図１５に示したヒストグラム分布を二つの領域Ｃ₀及び領域Ｃ₁に両分するとき、ある画素の輝度レベルが領域Ｃ₀に出現する確率ｅ₀は、次の式（５）の通りであり、ある画素の輝度レベルが領域Ｃ₁に出現する確率ｅ₁は、次の式（６）の通りであり、領域Ｃ₀の平均値ｆ₀は、次の式（７）の通りであり、領域Ｃ₁の平均値ｆ₁は、次の式（８）の通りである。

ここで、領域Ｃ₀の範囲は、輝度レベル１からｋまでであり、領域Ｃ₁の範囲は、輝度レベル（ｋ＋１）からｍまでであり、ｆ、すなわち、ｆ（ｋ）は、それぞれ式（９）及び式（１０）の通りである。

したがって、ｆは、次の式（１１）の通りである。

二つの領域Ｃ₀及びＣ₁の分散［Φ₀ ²（ｋ）及び[Φ₁ ²（ｋ）]の和［Φ²（ｋ）]は、式（１２）の通りである。

式（１２）を利用して、ｍａｘΦ²（ｋ）を導出する輝度値ｋを求める。
第１６２段階後に、第３二進化部１４４は、拡大していない文字が属する範囲を有し、入力端子ＩＮ１１を通じて入力した文字ライン、または拡大した文字が属する範囲を有し、入力端子ＩＮ１２を通じて入力した文字ラインのうち、何れか一つを、入力端子ＩＮ１０を通じて入力した制御信号に応じて選択し、この選択した文字ラインが表示する範囲に属する文字領域及び背景領域に含まれる各画素の輝度レベルを、第３臨界値ＴＨ₃を利用して二進化し、この二進化した結果を、出力端子ＯＵＴ５を通じて出力する（第１６４段階）。

図１６は、図１３に示した第３二進化部の１例を示すブロック図である。第３二進化部１４４Ａは、輝度レベル比較部１８０、輝度レベル決定部１８２、個数検出部１８４、個数比較部１８６及び輝度レベル出力部１８８を備えている。
図１７は、図１４に示した第１６４段階の１例を説明するためのフローチャートである。第１６４Ａ段階は、各画素の輝度レベルを決定する段階（第２００〜第２０４段階）、各画素の輝度レベルが正しく決定されたか否かを検証する段階（第２０６〜第２１８段階）及び検証結果によって決定した画素の輝度レベルを反転させる段階（第２２０段階）からなる。

輝度レベル比較部１８０は、文字ラインに属する各画素の輝度レベルを、入力端子ＩＮ１４を通じて、臨界値設定部１４２から入力した第３臨界値と比較し、この比較した結果を輝度レベル決定部１８２に出力する（第２００段階）。このために、輝度レベル比較部１８０は、入力端子ＩＮ１３を通じて文字ラインと文字ラインとが表示する範囲に属する文字領域及び背景領域を入力する。例えば、輝度レベル比較部１８０は、文字ラインに属する各画素の輝度レベルが第３臨界値ＴＨ₃より大きいか否かを判断する役割を担う。

輝度レベル決定部１８２は、輝度レベル比較部１８０で比較した結果に応じて、各画素の輝度レベルを最大輝度レベルＩ_maxまたは最小輝度レベルＩ_minとして決定し、この決定した結果を個数検出部１８４及び輝度レベル出力部１８８にそれぞれ出力する（第２０２及び第２０４段階）。例えば、最大輝度レベルＩ_max及び最小輝度レベルＩ_minは、図１５に示したヒストグラム上で輝度レベルの最大値及び最小値をそれぞれ意味する。

例えば、輝度レベル決定部１８２は、輝度レベル比較部１８０で比較した結果を介して、画素の輝度レベルが第３臨界値ＴＨ₃より大きいと認識すれば、入力端子ＩＮ１３を通じて入力した画素の輝度レベルを最大輝度レベルＩ_maxとして決定する（第２０２段階）。しかし、輝度レベル決定部１８２は、輝度レベル比較部１８０で比較した結果を介して、画素の輝度レベルが第３臨界値ＴＨ₃以下であると認識すれば、入力端子ＩＮ１３を通じて入力した画素の輝度レベルを最小輝度レベルＩ_minとして決定する（第２０４段階）。

個数検出部１８４は、文字ラインまたはマスクに属する最大輝度レベルＩ_maxの個数と最小輝度レベルＩ_minの個数とを検出し、この検出した結果を個数比較部１８６に出力する（第２０６及び第２１６段階）。
また、個数比較部１８６は、最小輝度レベルＩ_minの個数と最大輝度レベルＩ_maxの個数とを比較し、この比較した結果を出力する（第２０８、第２１２及び第２１８段階）。

このとき、輝度レベル出力部１８８は、個数比較部１８６で比較した結果に応じて、輝度レベル決定部１８２で決定した各画素の輝度レベルを、出力端子ＯＵＴ６を通じてそのまま又は反転させて、出力端子ＯＵＴ６を通じて出力する（第２１０、第２１４及び第２２０段階）。

例えば、第２０２段階後または第２０４段階後に、個数検出部１８４は、文字ラインに属する最大輝度レベルＩ_maxの個数である第１個数Ｎ₁と最小輝度レベルＩ_minの個数である第２個数Ｎ₂とを検出し、この検出した結果を個数比較部１８６に出力する（第２０６段階）。

第２０６段階後に、個数比較部１８６は、第１個数Ｎ₁が第２個数Ｎ₂より大きいか否かを判断する（第２０８段階）。
また、個数検出部１８４は、個数比較部１８６で比較した結果を介して、第１個数Ｎ₁が第２個数Ｎ₂と同じであると判断すれば、マスクに属する最小輝度レベルＩ_minの個数である第３個数Ｎ₃と最大輝度レベルＩ_maxの個数である第４個数Ｎ₄とを検出し、この検出した結果を個数比較部１８６に出力する（第２１６段階）。

第２１６段階後に、個数比較部１８６は、第３個数Ｎ₃が第４個数Ｎ₄より大きいか否かを判断する（第２１８段階）。
輝度レベル出力部１８８は、個数比較部１８６で比較した結果を介して、第１個数Ｎ₁が第２個数Ｎ₂より大きいと認識するか、または第３個数Ｎ₃が第４個数Ｎ₄より小さいと認識すれば、文字に属する画素の輝度レベルを最大輝度レベルＩ_maxとして決定したか否かを判断する（第２１０段階）。このとき、輝度レベル出力部１８８は、文字に属する画素の輝度レベルを最大輝度レベルＩ_maxとして決定していないと判断すれば、輝度レベル決定部１８２で決定した画素の輝度レベルを反転させて出力端子ＯＵＴ６を通じて出力する（第２２０段階）。しかし、輝度レベル出力部１８８は、文字に属する画素の輝度レベルが最大輝度レベルＩ_maxとして決定したと判断すれば、輝度レベル決定部１８２で決定した画素の輝度レベルをそのまま出力端子ＯＵＴ６を通じて出力する。

しかし、輝度レベル出力部１８８は、個数比較部１８６で比較した結果を通じて、第１個数Ｎ₁が第２個数Ｎ₂より小さいと認識するか、または第３個数Ｎ₃が第４個数Ｎ₄より大きいと認識すれば、文字に属する画素の輝度レベルが最小輝度レベルＩ_minとして決定したか否かを判断する（第２１４段階）。このとき、輝度レベル出力部１８８は、文字に属する画素の輝度レベルを最小輝度レベルＩ_minとして決定していないと判断すれば、輝度レベル決定部１８２で決定した画素の輝度レベルを反転させて出力端子ＯＵＴ６を通じて出力する（第２２０段階）。しかし、輝度レベル出力部１８８は、文字に属する画素の輝度レベルが最小輝度レベルＩ_minとして決定したと判断すれば、輝度レベル決定部１８２で決定した画素の輝度レベルをそのまま出力端子ＯＵＴ６を通じて出力する。

他の実施の形態によれば、図１７に示したものと異なって、第１６４段階は、第２１２段階、第２１６段階及び第２１８段階を設けないこともできる。この場合、輝度レベル出力部１８８は、第１個数Ｎ₁が第２個数Ｎ₂より大きくなければ、画素の輝度レベルを最小輝度レベルＩ_minとして決定したか否かを判断する（第２１４段階）。このような実施の形態は、第１個数Ｎ₁と第２個数Ｎ₂とが同一ではないときに有用に利用される。

本発明のさらに他の実施の形態によれば、図１７に示したものと異なって、第１６４段階で、輝度レベル出力部１８８は、各画素の輝度レベルが第３臨界値ＴＨ₃より大きければ、画素の輝度レベルを最小輝度レベルＩ_minとして決定し、各画素の輝度レベルが第３臨界値ＴＨ₃より大きくなければ、画素の輝度レベルを最大輝度レベルＩ_maxとして決定することもある。

一方、第４６段階後に、ノイズ除去部１６は、文字抽出部１４から抽出した文字からノイズを除去し、このノイズを除去した結果を、出力端子ＯＵＴ１を通じて出力する（第４８段階）。
図１８は、図１に示したノイズ除去部の１例を示すブロック図である。ノイズ除去部１６Ａは、要素分離部２４０及びノイズ要素分離部２４２を備えている。

要素分離部２４０は、入力端子ＩＮ１５を通じて文字抽出部１４から入力した抽出した文字の要素を空間的に分離し、この空間的に分離した要素をノイズ要素除去部２４２に出力する。ここで、要素とは、文字をなすそれぞれを意味し、例えば、文字が‘ＲＥＳＣＵＥ’である場合、文字の代表的な要素は、‘Ｒ’、‘Ｅ’、‘Ｓ’、‘Ｃ’及び‘Ｕ’であるが、それ以外にノイズ成分も要素となる。

本実施の形態によれば、要素分離部２４０は、連結要素ラベリング法（ｃｏｎｎｅｃｔｅｄｃｏｍｐｏｎｅｎｔｌａｂｅｌｌｉｎｇｍｅｔｈｏｄ）によって要素を分離できる。ここで、連結要素ラベリング法は、‘Ｒ.Ｊａｉｎ’、‘Ｒ.Ｋａｓｔｕｎｉ’及び‘Ｂ.Ｇ.Ｓｃｈｕｎｃｋ’によって‘Ｍａｃｈｉｎｅｖｉｓｉｏｎ’という書名でＭｃＧｒａｗ−Ｈｉｌｌ出版社によって１９９５年度に出版された刊行物のｐ４４〜４７に開示されている。

ノイズ要素除去部２４２は、分離した要素のうち、ノイズに該当する要素を除去し、この除去した結果を、出力端子ＯＵＴ７を通じて出力する。このために、ノイズ要素除去部２４２は、所定数より小さな画素数を含む要素、文字ラインの全体領域の一部である所定領域より大きい領域を有する要素または文字ラインの全体幅の一部である所定幅より広い幅を有する要素をノイズに該当する要素として除去する。例えば、所定数は１０となり、全体領域の一部である所定領域は、全体領域の５０％となり、全体幅の一部である所定幅は、全体幅の９０％となる。

ノイズ除去部１６から出力されるノイズを除去した文字は、例えば、光学文字認識装置（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）（図示せず）に出力される。ここで、ＯＣＲは、ノイズを除去した文字を入力して認識し、この認識した文字を利用して、この文字が含まれていた画像の内容を把握し、この把握した結果を通じて画像を要約することもでき、ユーザが所望する内容のみを含む画像を検索することもでき、画像を内容別にインデックスをつけることもできる。すなわち、動画のコンテンツに基づくビデオコンテンツ管理を行うＯＣＲは、ホームサーバ／次世代ＰＣのための動画にインデックスをつけ、要約し、検索することができる。したがって、前述したように、本実施の形態による画像の文字抽出装置及び文字抽出方法によって抽出された文字を利用して、例えば、ニュースを要約及び検索し、文字に基づいて画像を検索し、スポーツから重要な情報を抽出できる。

本発明によれば、画像の文字抽出装置は、ノイズ除去部１６を備えないこともできる。すなわち、図２に示した画像の文字抽出方法は、第４８段階を設けないこともできる。この場合、文字抽出部１４から抽出した文字は、ＯＣＲに直接出力される。
以下、本発明の理解を助けるために、文字領域に表示される文字が‘ＲＥＳＣＵＥＷＯＲＫＥＲ’であると仮定し、図１に示した文字抽出部１４が、図７に示したように実現されると仮定しつつ、前述した本実施の形態による画像の文字抽出装置の動作を添付した図面を参照して、次のように説明する。

図１９Ａ〜図１９Ｄは、図７に示した文字抽出部１４Ａ及びノイズ除去部１６の入出力を示す例示的な図面である。
図７に示したシャープネス部９２は、‘ＲＥＳＣＵＥＷＯＲＫＥＲ’という文字領域をさらに鮮明に調節し、調節した鮮明度を有する図１９Ａに示したような文字領域をサイズ拡大部９４に出力する。このとき、サイズ拡大部９４は、図１９Ａに示した文字領域及び背景領域を入力してサイズを拡大し、図１９Ｂに示した拡大した結果を第２二進化部９６に出力する。第２二進化部９６は、図１９Ｂに示した拡大した結果を入力して二進化し、この二進化した結果である図１９Ｃに示した結果をノイズ除去部１６に出力する。このとき、ノイズ除去部１６は、図１９Ｃに示した二進化した結果からノイズを除去し、このノイズを除去した結果である図１９Ｄに示した文字領域を、出力端子ＯＵＴ１を通じて出力する。

一方、前述した本発明の実施の形態は、コンピュータ可読コード／命令／プログラムで実現され、媒体、例えば、コンピュータ可読記録媒体を利用して、前記コード／命令／プログラムを動作させる汎用デジタルコンピュータで実現できる。前記コンピュータ可読記録媒体は、磁気記憶媒体（例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フロキシブルディスク、ハードディスク、マグネチックテープなど）、光記憶媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤなど）及びキャリアウェーブ（例えば、インターネットを通じた伝送）のような保存媒体を含む。また、本発明の実施の形態は、コンピュータ可読コードを内蔵する媒体として実現され、ネットワークを通じて連結した複数のコンピュータシステムに分配されて動作可能にする。本発明を実現する機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論される。

本発明の画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体は、画像を処理する技術分野に適用可能である。

本実施の形態に係る画像の文字抽出装置を説明するためのブロック図である。本実施の形態の係る画像の文字抽出方法を説明するためのフローチャートである。図３は、図１に示したマスク検出部の１例を示したブロック図である。初期マスクが生成される過程の理解を助けるための例示的な図面である。初期マスクが生成される過程の理解を助けるための例示的な図面である。初期マスクが生成される過程の理解を助けるための例示的な図面である。（ａ）は、図３に示したライン検出部の理解を助けるための例示的な図面で、（ｂ）は、図３に示したライン検出部の理解を助けるための例示的な図面である。図１に示した時間平均計算部の理解を助けるための例示的な図面である。図１に示した文字抽出部１４の１例を示すブロック図である。図２の第４６段階の１例を説明するためのフローチャートである。図１に示した文字抽出部１４の１例を示すブロック図である。キュービック関数を例示的に示すグラフである。補間画素と隣接画素とを１次元的に示す図面である。シャープネス部の一例を示す図面である。図７または図９に示した第２二進化部の１例を示すブロック図である。第２二進化部の動作を説明するためのフローチャートである。ヒストグラムの例示的なグラフである。図１３に示した第３二進化部の１例を示すブロック図である。図１４に示した第１６４段階の１例を説明するためのフローチャートである。図１に示したノイズ除去部の１例を示すブロック図である。図７に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。図７に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。図７に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。図７に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。

符号の説明

８字幕領域検出部
１０マスク検出部
１２第１鮮明度調節部
１４文字抽出部
１６ノイズ除去部
２０時間平均計算部
ＩＮ１入力端子
ＯＵＴ１出力端子

Claims

字幕領域を画像から検出するときに生成した前記画像のエッジグラジエントに該当する空間的な情報から文字領域を表すマスクの高さを検出するマスク検出部と、
前記マスクの高さに相応して前記文字領域から文字を抽出する文字抽出部と、
を備えることを特徴とする画像の文字抽出装置。
前記文字領域をさらに鮮明に調節する第１鮮明度調節部を備え、
前記文字抽出部は、前記調節された鮮明度を有する前記文字領域から前記文字を抽出することを特徴とする請求項１に記載の画像の文字抽出装置。
前記第１鮮明度調節部は、
同じ文字を有する前記字幕領域の輝度レベルの時間上平均値を式（１）により計算する時間平均計算部を備え、
前記文字抽出部は、前記計算した時間上平均値を輝度レベルとして有する前記文字領域から前記文字を抽出することを特徴とする請求項２に記載の画像の文字抽出装置。

ここで、Ｒは、時間上平均値を表し、Ｎ_fは、同じ文字を有する字幕フレームの個数を表し、Ｒ_tは、第ｔフレームに存在する字幕領域の輝度レベルを表す。
前記抽出した文字からノイズを除去するノイズ除去部を備えることを特徴とする請求項１に記載の画像の文字抽出装置。
前記ノイズ除去部は、
前記抽出した文字の要素を空間的に分離する要素分離部と、
前記分離した要素のうち、ノイズに該当する要素を除去し、除去した結果を前記ノイズを除去した文字として出力するノイズ要素除去部と、
を備えることを特徴とする請求項４に記載の画像の文字抽出装置。
前記要素分離部は、連結要素ラベリング法によって前記要素を分離することを特徴とする請求項５に記載の画像の文字抽出装置。
前記ノイズ要素除去部は、
予め定められた所定数より少ない画素数を含む要素、文字ラインの全体領域の一部である所定領域より大きい領域を有する要素または前記文字ラインの全体幅の一部である所定幅より広い幅である要素をノイズに該当する要素として除去し、
前記文字ラインは、
前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲として表すこと
を特徴とする請求項５に記載の画像の文字抽出装置。
前記マスク検出部は、
第１臨界値を利用して、前記空間的な情報を二進化する第１二進化部と、
前記二進化した結果から前記文字内部のホールを除去して、前記マスクを生成するマスク生成部と、
前記マスクの高さを出力し、前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲として表す文字ラインを検出するライン検出部と、
を備えることを特徴とする請求項１に記載の画像の文字抽出装置。
前記マスク生成部は、
前記二進化した結果に対してモルホロジフィルタリングを行い、この行った結果を前記マスクとして出力するモルホロジフィルタを備えることを特徴とする請求項８に記載の画像の文字抽出装置。
前記モルホロジフィルタは、
前記二進化した結果に対してダイレーション法を行って、前記マスクを生成することを特徴とする請求項９に記載の画像の文字抽出装置。
前記文字抽出部は、
前記マスクの高さを第２臨界値と比較し、この比較した結果を制御信号として出力する高さ比較部と、
前記制御信号に応じて、前記文字領域に含まれる各文字のサイズを拡大するサイズ拡大部と、
前記制御信号に応じて、前記拡大した文字または拡大していない文字を、前記文字ライン別に決定した第３臨界値を利用して二進化し、この二進化した結果を前記抽出した文字として出力する第２二進化部と、
を備えることを特徴とする請求項８に記載の画像の文字抽出装置。
前記文字抽出部は、
前記制御信号に応じて、前記文字領域をさらに鮮明に調節する第２鮮明度調節部をさらに備え、
前記サイズ拡大部は、前記第２鮮明度調節部で調節した鮮明度を有する前記文字領域に含まれる各文字のサイズを拡大することを特徴とする請求項１１に記載の画像の文字抽出装置。
前記文字抽出部は、
前記拡大した文字を含む文字領域をさらに鮮明に調節する第２鮮明度調節部を備え、
前記第２二進化部は、前記制御信号に応じて、拡大していない文字または前記第２鮮明度調節部で調節した鮮明度を有する文字領域に含まれる文字を、前記第３臨界値を利用して二進化し、この二進化した結果を前記抽出した文字として出力することを特徴とする請求項１１に記載の画像の文字抽出装置。
前記サイズ拡大部は、前記拡大した文字の輝度をバイキュービック補間法によって決定することを特徴とする請求項１１に記載の画像の文字抽出装置。
前記第２鮮明度調節部は、
前記文字ラインが表示する前記範囲に属する前記文字領域及び背景領域を鮮明にし、この鮮明にした結果を出力するシャープネス部を備えることを特徴とする請求項１２に記載の画像の文字抽出装置。
前記第２二進化部は、前記第３臨界値を大津法によって求めることを特徴とする請求項１１に記載の画像の文字抽出装置。
前記第２二進化部は、
前記文字ラインが表示する範囲に属する前記文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成するヒストグラム生成部と、
二つのピーク値を有する前記生成したヒストグラム上で分散値を最大化させて両分する輝度値を前記第３臨界値と設定する臨界値設定部と、
前記拡大した文字を含む文字ラインまたは拡大していない文字を含む文字ラインを前記制御信号に応じて選択し、この選択した文字ラインが表示する範囲に属する各画素の輝度レベルを、前記第３臨界値を利用して二進化し、この二進化した結果を出力する第３二進化部と、
を備えることを特徴とする請求項１１に記載の画像の文字抽出装置。
前記第３二進化部は、
前記各画素の輝度レベルを前記第３臨界値と比較する輝度レベル比較部と、
前記輝度レベル比較部で比較した結果に応じて、前記各画素の輝度レベルを最大輝度レベルまたは最小輝度レベルとして決定する輝度レベル決定部と、
前記文字ラインに属する前記最大輝度レベルの数と前記最小輝度レベルの数とを検出する個数検出部と、
前記最小輝度レベルの数と前記最大輝度レベルの数とを比較する個数比較部と、
前記個数比較部で比較した結果に応じて、前記輝度レベル決定部で決定した前記各画素の輝度レベルをそのまま又は反転させて出力する輝度レベル出力部と、
を備えることを特徴とする請求項１７に記載の画像の文字抽出装置。
前記個数検出部は、
前記個数比較部で比較した結果に応じて、前記マスクに属する前記最大輝度レベルの数と前記最小輝度レベルの数とを検出することを特徴とする請求項１８に記載の画像の文字抽出装置。
文字領域と背景領域とよりなる字幕領域を画像から検出するときに生成する前記画像のエッジグラジエントに該当する空間的な情報から、前記文字領域を表すマスクの高さを求める段階と、
前記マスクの高さに相応して、前記文字領域から文字を抽出する段階と、
を含むことを特徴とする画像の文字抽出方法。
前記文字領域をさらに鮮明に調節する段階を含み、
前記調節した鮮明度を有する前記文字領域から前記文字を抽出することを特徴とする請求項２０に記載の画像の文字抽出方法。
前記抽出した文字からノイズを除去する段階をさらに含むことを特徴とする請求項２０に記載の画像の文字抽出方法。
前記文字を抽出する段階は、
前記マスクの高さが第２臨界値より小さいか否かを判断する段階と、
前記マスクの高さが前記第２臨界値より小さいと判断されれば、前記文字領域に含まれる各文字のサイズを拡大する段階と、
前記マスクの高さが前記第２臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第２臨界値より小さいと判断されれば、前記拡大した文字を二進化し、この二進化した結果を前記抽出した文字として決定する段階と、
を含むことを特徴とする請求項２０に記載の画像の文字抽出方法。
前記文字を抽出する段階は、
前記マスクの高さが前記第２臨界値より小さいと判断されれば、前記文字領域をさらに鮮明に調節する段階をさらに含み、
前記文字のサイズを拡大する段階は、
前記調節した鮮明度を有する前記文字領域に含まれる各文字のサイズを拡大することを特徴とする請求項２３に記載の画像の文字抽出方法。
前記文字を抽出する段階は、
前記文字のサイズを拡大する段階後に、前記拡大した文字を有する文字領域をさらに鮮明にする段階をさらに含み、
前記マスクの高さが前記第２臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第２臨界値より小さいと判断されれば、前記調節した鮮明度を有する前記文字領域に含まれる文字を二進化し、この二進化した結果を前記抽出した文字として決定することを特徴とする請求項２３に記載の画像の文字抽出方法。
前記抽出した文字を決定する段階は、
前記マスクの高さが前記第２臨界値以上と判断されれば、文字ラインが表示する前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲に属する拡大していない文字を有する前記文字領域及び前記背景領域に含まれる画素の輝度レベルのヒストグラムを生成し、前記マスクの高さが前記第２臨界値より小さいと判断されれば、前記文字ラインに表示する範囲に属する拡大した文字を有する前記文字領域及び前記背景領域に含まれる画素の輝度レベルのヒストグラムを生成する段階と、
二つのピーク値を有する前記生成したヒストグラム上で分散値を最大化させて両分する輝度値を第３臨界値と設定する段階と、
前記第３臨界値を利用して、前記文字ラインが表示する範囲に含まれる各画素の輝度レベルを二進化する段階と、
を含むことを特徴とする請求項２４に記載の画像の文字抽出方法。
前記各画素の輝度レベルを二進化する段階は、
前記各画素の輝度レベルが前記第３臨界値より大きいか否かを判断する段階と、
前記画素の輝度レベルが前記第３臨界値より大きいと判断されれば、前記画素の輝度レベルを最大輝度レベルと決定し、前記画素の輝度レベルが前記第３臨界値以下であると判断されれば、前記画素の輝度レベルを最小輝度レベルと決定する段階と、
前記文字ラインに属する前記最小輝度レベルの数である第１個数と前記最大輝度レベルの数である第２個数とを検出する段階と、
前記第１個数が前記第２個数より大きいか否かを判断する段階と、
前記第１個数が前記第２個数より大きいと判断されれば、前記文字に属する画素の輝度レベルが前記最大輝度レベルと決定されたか否かを判断する段階と、
前記第１個数が前記第２個数より小さいと判断されれば、前記文字に属する画素の輝度レベルが前記最小輝度レベルと決定されたか否かを判断する段階と、
前記文字に属する画素の輝度レベルを前記最大輝度レベルまたは前記最小輝度レベルと決定していないと判断されれば、前記文字ラインに属する画素に対して決定された輝度レベルを反転させる段階と、
を含むことを特徴とする請求項２６に記載の画像の文字抽出方法。
前記各画素の輝度レベルを二進化する段階は、
前記各画素の輝度レベルが前記第３臨界値より大きいか否かを判断する段階と、
前記画素の輝度レベルが前記第３臨界値より大きいと判断されれば、前記画素の輝度レベルを最小輝度レベルと決定し、前記画素の輝度レベルが前記第３臨界値以下であると判断されれば、前記画素の輝度レベルを最大輝度レベルと決定する段階と、
前記文字ラインに属する前記最小輝度レベルの数である第１個数と前記最大輝度レベルの数である第２個数とを検出する段階と、
前記第１個数が前記第２個数より大きいか否かを判断する段階と、
前記第１個数が前記第２個数より大きいと判断されれば、前記文字に属する画素の輝度レベルが前記最大輝度レベルと決定されたか否かを判断する段階と、
前記第１個数が前記第２個数より小さいと判断されれば、前記文字に属する画素の輝度レベルを前記最小輝度レベルと決定したか否かを判断する段階と、
前記文字に属する画素の輝度レベルを前記最大輝度レベルまたは前記最小輝度レベルと決定していないと判断されれば、前記文字ラインに属する画素に対して決定された輝度レベルを反転させる段階と、
を含むことを特徴とする請求項２６に記載の画像の文字抽出方法。
前記各画素の輝度レベルを二進化する段階は、
前記第１個数が前記第２個数と同じであると判断されれば、前記マスクに属する前記最小輝度レベルの第３個数と前記最大輝度レベルの数である第４個数とを検出する段階と、
前記第３個数が前記第４個数より大きいか否かを判断する段階と、
前記第３個数が前記第４個数より大きいと判断されれば、前記文字に属する画素の輝度レベルを前記最小輝度レベルと決定したか否かを判断する段階と、
前記第３個数が前記第４個数より小さいと判断されれば、前記文字に属する画素の輝度レベルを前記最大輝度レベルと決定したか否かを判断する段階と、
をさらに含むことを特徴とする請求項２７に記載の画像の文字抽出方法。
前記字幕領域は、前記文字領域と背景領域とからなることを特徴とする請求項１に記載の画像の文字抽出装置。
字幕領域から文字領域を求める段階と、
前記文字領域にある文字を拡大する段階と、
前記文字領域から前記文字を抽出する段階と、
を含むことを特徴とする画像の文字抽出方法。
前記文字領域を表すマスクの高さを求める段階をさらに含むことを特徴とする請求項３１に記載の画像の文字抽出方法。
前記画像のエッジグラジエントを含む空間的な情報を利用して、前記文字領域を求める段階をさらに含むことを特徴とする請求項３１に記載の画像の文字抽出方法。
前記字幕領域は、背景領域を含むことを特徴とする請求項３１に記載の画像の文字抽出方法。
前記抽出された文字からノイズを除去する段階をさらに含むことを特徴とする請求項３１に記載の画像の文字抽出方法。
字幕領域を画像から検出するときに生成した前記画像の空間的な情報から、文字領域を表すマスクの高さを求める段階と、
前記マスクの高さに相応して、前記文字領域から文字を抽出する段階と、を含み、
前記文字を抽出する段階は、
前記マスクの高さが第２臨界値より小さいか否かを判断する段階と、
前記マスクの高さが前記第２臨界値より小さいと判断されれば、前記文字領域に含まれる前記文字を拡大する段階と、
前記マスクの高さが前記第２臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第２臨界値より小さいと判断されれば、前記拡大した文字を二進化し、この二進化した結果を、前記抽出した文字として決定する段階と、
を含むことを特徴とする画像の文字抽出方法。
第１臨界値を利用して、前記空間的な情報を二進化する段階をさらに含むことを特徴とする請求項３６に記載の画像の文字抽出方法。
制御信号によって前記文字領域の鮮明度を高める段階をさらに含むことを特徴とする請求項３６に記載の画像の文字抽出方法。
前記制御信号は、前記マスクの高さが前記第２臨界値より小さいときに決定されることを特徴とする請求項３８に記載の画像の文字抽出方法。
請求項２０に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
請求項３１に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
請求項３６に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。