JP2005339547A - 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体 - Google Patents

画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体 Download PDF

Info

Publication number
JP2005339547A
JP2005339547A JP2005149191A JP2005149191A JP2005339547A JP 2005339547 A JP2005339547 A JP 2005339547A JP 2005149191 A JP2005149191 A JP 2005149191A JP 2005149191 A JP2005149191 A JP 2005149191A JP 2005339547 A JP2005339547 A JP 2005339547A
Authority
JP
Japan
Prior art keywords
character
luminance level
unit
image
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005149191A
Other languages
English (en)
Inventor
Cheolkon Jung
▲哲▼ 坤 鄭
Chien Kin
智 淵 金
Young-Su Moon
永 秀 文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2005339547A publication Critical patent/JP2005339547A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • AHUMAN NECESSITIES
    • A46BRUSHWARE
    • A46DMANUFACTURE OF BRUSHES
    • A46D1/00Bristles; Selection of materials for bristles
    • A46D1/02Bristles details
    • A46D1/0261Roughness structure on the bristle surface
    • AHUMAN NECESSITIES
    • A46BRUSHWARE
    • A46DMANUFACTURE OF BRUSHES
    • A46D1/00Bristles; Selection of materials for bristles
    • A46D1/02Bristles details
    • A46D1/0253Bristles having a shape which is not a straight line, e.g. curved, "S", hook, loop
    • AHUMAN NECESSITIES
    • A46BRUSHWARE
    • A46BBRUSHES
    • A46B2200/00Brushes characterized by their functions, uses or applications
    • A46B2200/10For human or animal care
    • A46B2200/1066Toothbrush for cleaning the teeth or dentures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

【課題】 画像から小さなサイズの文字も抽出して認識可能にする。
【解決手段】 字幕領域を画像から検出するときに生成した画像の空間的な情報から文字領域を表すマスクの高さを検出するマスク検出部10と、マスクの高さに相応して前記文字領域から文字を抽出する文字抽出部14と、抽出した文字からノイズを除去するノイズ除去部16と、を備える。前記ノイズ除去部16は、前記抽出した文字の要素を空間的に分離する要素分離部と、前記分離した要素のうち、ノイズに該当する要素を除去し、除去した結果を前記ノイズを除去した文字として出力するノイズ要素除去部と、を備える。
を備える
【選択図】 図1

Description

本発明は、画像の処理に関わり、特に、画像に含まれる文字を抽出する画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体に関する。
画像から文字を抽出する従来の方法は、臨界値方法、領域併合方法及びクラスタリング方法に大別される。
臨界値方法は、指定された臨界値をすべての画像に適用し難く、これにより、文字を抽出する性能を低下させるという問題点を有する。このような臨界値方法については、特許文献1、特許文献2、特許文献3及び非特許文献1に開示されている。
領域併合方法は、画像を分割した後に平均値が類似した領域を併合するのに長い計算時間がかかるので、文字を抽出する速度を低下させるという問題点を有する。このような領域併合方法については、非特許文献2に開示されている。
クラスタリング方法については、非特許文献3及び非特許文献4に開示されている。
前述した従来の文字抽出方法は、小さなサイズの文字については認識を行えないという問題点を有する。これは、光学文字認識装置(OCR:Optical Character Recognition)別に差があるが、OCRが20〜30画素以下の高さを有する文字を認識できないためである。
米国特許第US6,101,274号明細書 米国特許第US6,470,094号明細書 韓国特許公開1999−47501号明細書 Tang,Xinbo Gao,Jianzhuang Liu及びHongjiang Zhang,‘Aspatial−temporal approach for video caption detection and recognition’2002年7月、IEEE Trans on Neural Network,vol.13,No.4 Kongqiao Wang,Kangas,J.A及びWenwen Li,‘Character segmentation of color images from digital camera’,2001年9月,Document Analysis and Recognition,2001.Proceedings.Sixth International Conferenceon,p10〜13 K.Wong及びMinya Chen,‘A new robust algorithm for video text extraction’,2003年,Pattern Recognition,vol.36 キム・ジョンヨル、キム・ソンソップ及びムン・ヨンシック著,‘ニュースビデオ字幕抽出及び認識技法に関する研究’,2003年1月,大韓電子工学会の論文誌第40巻SP編第1号
本発明が解決しようとする技術的課題は、画像から小さなサイズの文字も抽出して認識可能にする画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体を提供することである。
前記課題を達成するための本発明による画像の文字抽出装置は、文字領域と背景領域とからなる字幕領域を画像から検出するときに生成した前記画像の空間的な情報から、前記文字領域を表すマスクの高さを検出するマスク検出部及び前記マスクの高さに応じて、前記文字領域から文字を抽出する文字抽出部を備え、前記空間的な情報は、前記画像のエッジグラジエントに該当することが望ましい。
前記他の課題を達成するための本発明による画像の文字抽出方法は、文字領域と背景領域とからなる字幕領域を画像から検出するときに生成した前記画像の空間的な情報から、前記文字領域を表すマスクの高さを求める段階及び前記マスクの高さに相応して、前記文字領域から文字を抽出する段階を含み、前記空間的な情報は、前記画像のエッジグラジエントに該当することが望ましい。
ここで、第1臨界値とは、空間的な情報を2進化するときに使われる臨界値である。第2臨界値とは、例えば、文字領域をさらに鮮明に調節するか否かを判断するために、マスクの高さと比較される臨界値である。第3臨界値とは、例えば、二つのピーク値を有する生成されたヒストグラム上で、分散値を最大化させて両分する輝度値をいう。
本発明による画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体は、画像における意味のある重要な情報である小さな文字、例えば、12画素の高さを有する文字についても認識可能にし、特に、文字ライン別に求めた第3臨界値を利用して文字を二進化するために、抽出した文字を認識して画像の内容を把握し、画像を要約、検索及び内容別にインデックシング(indexing)すなわち見出しを付ける作業をさらに正確に行うことが可能であり、しかも、字幕領域検出部を設けず、従来の字幕領域を検出するときに発生する画像の時間的な情報及び空間的な情報をそのまま利用するため、文字をさらに速く抽出できる。
以下、本発明による画像の文字抽出装置の構成及び動作、その装置で行われる画像の文字抽出方法を、添付した図面を参照して次のように説明する。
図1は、本実施の形態に係る画像の文字抽出装置を説明するためのブロック図である。本実施の形態に係る画像の文字抽出装置は、字幕領域検出部8、マスク検出部10、第1鮮明度調節部12、文字抽出部14及びノイズ除去部16を備えている。
図2は、本実施の形態に係る画像の文字抽出方法を説明するためのフローチャートである。本実施の形態に係る画像の文字抽出方法は、マスクの高さを求めた結果を利用して、文字領域から文字を抽出する段階(第40〜第46段階)及び抽出された文字からノイズを除去する段階(第48段階)からなる。
図1に示した字幕領域検出部8は、入力端子IN1を通じて入力した画像から字幕領域を検出し、字幕領域を検出するときに生成した画像の空間的な情報をマスク検出部10に出力する(第40段階)。ここで、字幕領域とは、文字のみよりなる文字領域とその文字領域の背景に該当する背景領域とからなり、画像の空間的な情報とは、画像のエッジグラジエント(edge gradient)を意味する。このとき、文字領域に含まれる文字は、原画像に含まれている文字の他、製作者によって画像に意図的に挿入された文字も含まれる。このとき、動画から字幕領域を検出する一例が韓国特許出願04−10660号に開示されている。
第40段階後に、マスク検出部10は、字幕領域検出部8から入力した画像の空間的な情報から文字領域を表すマスクの高さを検出する(第42段階)。
図1に示す本発明による画像の文字抽出装置は、字幕領域検出部8を含まず、マスク検出部10、第1鮮明度調節部12、文字抽出部14及びノイズ除去部16のみから実現することも可能である。
図3は、図1に示したマスク検出部の1例を示すブロック図である。マスク検出部10Aは、第1二進化部60、マスク生成部62及びライン検出部64より構成される。
図4Aないし図4Cは、初期マスクが生成される過程の理解を助けるための例示的な図面である。図4Aないし図4Cそれぞれは、‘RESCUE WORKER’という文字領域とその外の背景領域とより構成される。
図3に示したマスク検出部10Aの理解を助けるために、文字領域に含まれる文字が‘RESCUE WORKER’と仮定し、図4Aないし図4Cを参照しつつ、図3に示したマスク検出部10Aの構成及び動作を説明するが、本発明は、これに限定されるものではない。
図3に示した第1二進化部60は、入力端子IN2を通じて字幕領域検出部8から入力した図4Aに示した空間的な情報を、入力端子IN3を通じて入力した第1臨界値TH1を利用して二進化し、図4Bに示した二進化した結果をマスク生成部62に出力する。
マスク生成部62は、第1二進化部60から入力した図4Bに示した二進化した結果から文字内部のホールを除去し、図4Cに示したホールを除去した結果を初期マスクとしてライン検出部64に出力する。ここで、文字内部のホールとは、図4Bに示した‘RESCUE WORKER’という黒色文字の内部に示される白色を意味し、初期マスクとは、図4Cに示した白色の背景領域を含まず、‘RESCUE WORKER’という黒色文字を意味する。
本実施の形態によれば、マスク生成部62は、第1二進化部60から入力した二進化した結果に対してフィルタリングを行い、この行った結果を初期マスクとして出力するモルホロジフィルタ(morphology filter)70により実現することもできる。このとき、モルホロジフィルタ70は、第1二進化部60で二進化した結果についてダイレーション法(dilation methods)を行って初期マスクを生成できる。ここで、モルホロジフィルタリングとダイレーション法については、‘R.Jain’、‘R.Kastuni’及び‘B.G.Schunck’によって書かれ、‘Machine vision’という書名でMcGraw−Hill出版社によって1995年度に出版された刊行物のp61〜69に開示されている。
図5(a)、(b)は、図3に示したライン検出部64の理解を助けるための例示的な図面である。図5(a)は、図4Cに該当し、初期マスクを表し、図5(b)は、文字ラインを表す。
ライン検出部64は、マスク生成部62から入力した図5(a)に示した初期マスクの高さ72を検査して出力端子OUT2を通じて出力する一方、初期マスクの高さに該当する幅を表す図5(b)に示した文字ライン74を検出し、検出した文字ライン74を、出力端子OUT2を通じて出力する。ここで、文字ライン74は、初期マスクの高さに該当する幅を有するため、字幕領域の文字領域を最小限含み、この文字ライン74に文字は表示されない。
一方、第42段階後に、第1鮮明度調節部12は、字幕領域検出部8から入力した字幕領域で文字領域をさらに鮮明に調節し、さらに鮮明に調節した文字領域を文字抽出部14に出力する(第44段階)。このために、字幕領域検出部8は、入力端子IN1を通じて入力した画像から字幕領域を検出し、検出した字幕領域を画像の時間的な情報として第1鮮明度調節部12に出力する。
第44段階後に、文字抽出部14は、第1鮮明度調節部12から入力した調節した鮮明度を有する文字領域から文字を抽出する(第46段階)。
本発明によれば、図2に示したものと異なって、第44段階を先に行い、その後に第42段階を行うこともできる。この場合、第42段階を行った後に、第46段階を行うこともできる。また、第40段階を行った後に、第42段階及び第44段階を同時に行うこともできる。
図1に示した第1鮮明度調節部12は、本実施の形態によれば、時間平均計算部20で実現できる。ここで、時間平均計算部20は、同じ文字を有する字幕領域を字幕領域検出部8から入力し、入力した字幕領域の輝度レベルの時間上平均値を、次の式(1)のように計算する。
Figure 2005339547
ここで、Rは、時間上平均値を表し、Nfは、同じ文字を有する字幕フレームの個数を表し、Rtは、第tフレームに存在する字幕領域の輝度レベルを表す。
図6は、図1に示した時間平均計算部20の理解を助けるための例示的な図面である。図6に示すように、入力した画像は、多数のIフレーム...It-1,It,It+1,...It+X...より構成される。ここで、It+Xは、第t+X Iフレームを表し、Xは整数である。
例えば、図6に示した第t Iフレーム Itから第t+X Iフレーム It+X80がいずれも同じ文字を有する字幕領域を含む場合、式(1)のNfは、‘X+1’となる。
このように、同じ文字を有する字幕領域の輝度レベルを時間上に平均化すれば、文字がさらに鮮明になる。なぜなら、字幕領域で文字以外の部分は、ランダムノイズ成分を有するためである。
このように、第1鮮明度調節部12が時間平均計算部20で実現される場合、文字抽出部14は、時間平均計算部20で計算した平均値を輝度レベルとして有する文字領域から文字を抽出する。
他の実施の形態によれば、図1に示したものと異なって、画像の文字抽出装置は、第1鮮明度調節部12を設けないこともできる。すなわち、図2に示した画像の文字抽出方法は、第44段階を設けないこともできる。この場合、第42段階後に、文字抽出部14は、マスクの高さに相応して、字幕領域検出部8から入力した文字領域から文字を抽出する(第46段階)。すなわち、文字領域が第1鮮明度調節部12から入力される代わりに、字幕領域検出部8から入力される。つまり、第1鮮明度調節部12を設けない場合の文字抽出部14の動作は、文字領域が字幕領域検出部8から入力される以外第1鮮明度調節部12を設けた場合と同じである。
図7は、図1に示した文字抽出部14の1例を示すブロック図である。文字抽出部14Aは、高さ比較部90、第2鮮明度調節部92、サイズ拡大部94及び第2二進化部96を備えている。
図8は、図2の第46段階の1例を説明するためのフローチャートである。第46A段階は、マスクの高さによって、文字を鮮明にして拡大する段階(第120〜第124段階)及び文字を二進化する段階(第126段階)からなる。
図7に示した高さ比較部90は、入力端子IN4を通じてマスク検出部10から入力したマスクの高さを、入力端子IN5を通じて入力した第2臨界値TH2と比較し、この比較した結果を制御信号として第2鮮明度調節部92及び第2二進化部96にそれぞれ出力する。第2臨界値TH2を高さ比較部90の内部にあらかじめ保存せずに外部から入力する場合の他、第2臨界値TH2を高さ比較部90の内部にあらかじめ保存しておくこともできる。
例えば、高さ比較部90は、マスクの高さが第2臨界値TH2より小さいか否かを判断し、この判断した結果を制御信号として出力する(第120段階)。
第2鮮明度調節部92は、高さ比較部90から入力した制御信号に応じて、文字領域をさらに鮮明に調節し、調節した鮮明度を有する文字領域をサイズ拡大部94に出力する。例えば、高さ比較部90から入力した制御信号を通じてマスクの高さが第2臨界値TH2より小さいと認識されれば、第2鮮明度調節部92は、文字領域をさらに鮮明に調節する(第122段階)。このために、第2鮮明度調節部92は、文字ラインをマスク検出部10から入力端子IN6を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN6を通じて第1鮮明度調節部12または字幕領域検出部8から入力する。
第122段階後に、サイズ拡大部94は、第2鮮明度調節部92で調節した鮮明度を有する文字領域に含まれる各文字のサイズを拡大し、この拡大した結果を第2二進化部96に出力する(第124段階)。
本発明によれば、図8に示したものと異なって、第46A段階は、第122段階を設けないこともできる。この場合、図7に示した文字抽出部14Aは、第2鮮明度調節部92を備えない。したがって、サイズ拡大部94は、高さ比較部90から入力した制御信号に応じて、すなわち、高さ比較部90から入力した制御信号を介してマスクの高さが第2臨界値TH2より小さいと判断すれば、文字領域に含まれる各文字のサイズを拡大する。このために、サイズ拡大部94は、文字ラインをマスク検出部10から入力端子IN6を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN6を通じて第1鮮明度調節部12または字幕領域検出部8から入力する。
第2二進化部96は、高さ比較部90から入力した制御信号に応じて、サイズ拡大部94から入力した拡大した文字または拡大していない文字を、文字ライン別に決定した第3臨界値TH3を利用して二進化し、この二進化した結果を抽出した文字として出力端子OUT3を通じて出力する(126段階)。このために、第2二進化部96は、文字ラインをマスク検出部10から入力端子IN6を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN6を通じて第1鮮明度調節部12または字幕領域検出部8から入力する。
例えば、第2二進化部96は、制御信号を通じてマスクの高さを第2臨界値TH2以上と認識すれば、文字ラインが表示する範囲に含まれる拡大していない文字を二進化する(第126段階)。しかし、第2二進化部96は、制御信号を通じてマスクの高さを第2臨界値TH2より小さいと認識すれば、サイズ拡大部94から入力した拡大した文字を二進化する(第126段階)。
図7に示した文字抽出部14Aの動作説明で文字領域のみを説明した。しかし、文字ラインが表示する範囲に属する文字領域だけでなく、背景領域も第2鮮明度調節部92、サイズ拡大部94及び第2二進化部96に入力され、出力される。すなわち、文字ラインが表示する範囲に属する背景領域は、文字領域と同様にサイズ拡大部94で拡大されて第2二進化部96で二進化される。
図9は、図1に示した文字抽出部14の1例を示すブロック図である。文字抽出部14Bは、高さ比較部110、サイズ拡大部112、第2鮮明度調節部114及び第2二進化部116を備えている。
図8に示したものと異なって、マスクの高さが第2臨界値TH2より小さいとき、第122段階の代りに第124段階を行い、第124段階を行った後に第122段階を行い、第122段階を行った後に第126段階を行う。この場合、図1に示した文字抽出部14は、図9に示したような構成を備えている。
図9に示した高さ比較部110は、図7に示した高さ比較部90と同じ役割を担う。すなわち、高さ比較部110は、入力端子IN7を通じてマスク検出部10から入力したマスクの高さを、入力端子IN8を通じて入力した第2臨界値TH2と比較し、この比較した結果を制御信号としてサイズ拡大部112及び第2二進化部116にそれぞれ出力する。
サイズ拡大部112は、高さ比較部110から入力した制御信号に応じて、すなわち、高さ比較部110から入力した制御信号を介してマスクの高さが第2臨界値TH2より小さいと判断すれば、文字領域に含まれる各文字のサイズを拡大する。このために、サイズ拡大部112は、文字ラインをマスク検出部10から入力端子IN9を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN9を通じて第1鮮明度調節部12または字幕領域検出部8から入力する。
第2鮮明度調節部114は、サイズ拡大部112から入力した拡大した文字を含む文字領域をさらに鮮明に調節し、この調節した鮮明度を有する文字領域を第2二進化部116に出力する。
第2二進化部116は、高さ比較部110から入力した制御信号に応じて、文字領域に含まれる拡大していない文字または第2鮮明度調節部114で調節した鮮明度を有する文字領域に含まれる文字を、第3臨界値TH3を利用して二進化し、この二進化した結果を抽出した文字として出力端子OUT4を通じて出力する。このために、第2二進化部116は、文字ラインをマスク検出部10から入力端子IN9を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN9を通じて第1鮮明度調節部12または字幕領域検出部8から入力する。
例えば、第2二進化部116は、制御信号を通じてマスクの高さを第2臨界値TH2以上と認識すれば、文字ラインが表示する範囲に属する拡大していない文字を二進化する。しかし、第2二進化部116は、制御信号を通じてマスクの高さを第2臨界値TH2より小さいと認識すれば、第2鮮明度調節部114から入力した調節した鮮明度を有する文字領域に含まれる文字を二進化する。
図9に示した文字抽出部14Bの動作説明で、文字領域のみを説明した。しかし、文字ラインが表示する範囲に属する文字領域だけでなく、背景領域もサイズ拡大部112、第2鮮明度調節部114及び第2二進化部116に入力されて処理され、出力される。すなわち、文字ラインが表示する範囲に属する背景領域は、文字領域と同様に、サイズ拡大部112で拡大され、第2鮮明度調節部114で文字領域をさらに鮮明にするために処理され、第2二進化部116で二進化される。
本発明によれば、図9に示したものと異なって、文字抽出部14Bは、第2鮮明度調節部114を備えないこともできる。この場合、第2二進化部116は、制御信号を通じてマスクの高さを第2臨界値TH2より小さいと認識すれば、サイズ拡大部112から入力した拡大した結果を二進化する。
本実施の形態によれば、図7または図9に示したサイズ拡大部94またはサイズ拡大部112は、拡大した文字の輝度をバイキュービック補間法(bi−cubic interpolation method)によって決定できる。ここで、バイキュービック補間法については、‘Randy Crane’によって書かれ、‘A simplified approach to Image Processing’という書名でPrentice Hall出版社によって1997年度に出版された刊行物のp115〜120に開示されている。
以下、バイキュービック補間法によって拡大した文字の輝度を決定する一例を、添付された図面を参照して次のように説明するが、本発明は、これに限定されない。
図10は、キュービック関数[f(x)]を例示的に示すグラフであって、キュービック係数が−0.5、−1または−2である場合をそれぞれ表す。ここで、横軸(x)は、補間される画素からの距離を表し、縦軸は、キュービック関数をそれぞれ表す。
図11は、補間画素pxと隣接画素p1及び隣接画素p2とを1次元的に示す図面である。ここで、補間画素pxとは、文字を拡大するにつれて新たに生成される画素であって、補間しなければならない画素、すなわち、その輝度が決定しなければならない画素を意味し、隣接画素p1または隣接画素p2とは、補間画素pxに隣接する画素を意味する。
図10に示したキュービック関数は、一種の加重値であって、例えば、次の式(2)のように決定される。
Figure 2005339547
ここで、aは、定数である。
例えば、補間画素pxと隣接画素p1との距離x1を、前述した式(2)のxの代りに代入して加重値を決定するか、または距離x1に該当する加重値を、図10を通じて決定し、決定された加重値と隣接画素p1の輝度、すなわち、輝度レベルとを乗算する。また、補間画素pxと隣接画素p2との距離x2を、前述した式(2)のxの代りに代入して加重値を決定するか、または距離x2に該当する加重値を、図10を通じて決定し、決定した加重値と隣接画素p2の輝度、すなわち、輝度レベルとを乗算する。このとき、乗算した結果を加算し、この加算した結果を補間画素pxの輝度レベル、すなわち、輝度として決定する。
図12は、シャープネス部100またはシャープネス部120の一例を表す図面である。
本実施の形態によれば、図7または図9に示した第2鮮明度調節部92または第2鮮明度調節部114は、小文字をさらに鮮明にする役割を担う。このために、第2鮮明度調節部92または第2鮮明度調節部114は、画像の高周波成分であるエッジを強調するシャープネス部100またはシャープネス部120より実現される。ここで、シャープネス部100またはシャープネス部120は、文字ラインが表示する範囲に属する文字領域及び背景領域を鮮明にし、この鮮明にした結果を出力する。高域通過フィルタに基づいた画像の鮮明化については、‘Randy Crane’によって書かれ、‘A simplified approach to Image Processing’という書名でPrentice Hall出版社によって1997年度に出版された刊行物のp77〜78に開示されている。例えば、シャープネス部100またはシャープネス部120は、図12に示したように実現することが可能である。
本実施の形態によれば、図7または図9に示した第2二進化部96または第2二進化部116は、文字を大津法(Otsu's method)によって二進化できる。ここで、大津法については、‘Jun Otsu’によって書かれ、‘A threshold selection method from gray−scale histograms’という題名でIEEE Trans Syst Man Cybern SMC−9(1)で1986年度に発表された論文のp62〜66に開示されている。
図13は、図7または図9に示した第2二進化部の一例を示すブロック図である。第2二進化部96、第2二進化部116は、ヒストグラム生成部140、臨界値設定部142及び第3二進化部144を備えている。
図14は、第2二進化部の動作を説明するためのフローチャートである。第2二進化部の動作は、生成したヒストグラムを利用して、第3臨界値TH3を求める段階(第160及び第162段階)及び各画素の輝度レベルを二進化する段階(第164段階)からなる。
図15は、ヒストグラムの例示的なグラフである。図15に記載されたグラフの横軸は、輝度レベルを表し、縦軸は、ヒストグラム[H(i)]をそれぞれ表す。
図13に示したヒストグラム生成部140は、文字ラインに含まれる画素の輝度レベルのヒストグラムを生成し、この生成したヒストグラムを臨界値設定部142に出力する(第160段階)。例えば、ヒストグラム生成部140は、入力端子IN10を通じて入力した制御信号を介して、マスクの高さを第2臨界値TH2以上と認識すれば、文字ラインが表示する範囲に属する拡大していない文字を有する文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成する。このために、ヒストグラム生成部140は、文字ラインをマスク検出部10から入力端子IN11を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN11を通じて、第1鮮明度調節部12または字幕領域検出部8から入力する。
しかし、ヒストグラム生成部140は、入力端子IN10を通じて入力した制御信号を介して、マスクの高さを第2臨界値TH2より小さいと認識すれば、文字ラインが表示する範囲に属する拡大された文字を有する文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成する。このために、ヒストグラム生成部140は、文字ラインをマスク検出部10から入力端子IN12を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN12を通じてサイズ拡大部94または第2鮮明度調節部114から入力する。
ヒストグラム生成部140は、例えば、図15に示したように、ヒストグラムを生成する。
第160段階後に、臨界値設定部142は、ヒストグラム生成部140から入力した、一般的に二つのピーク値を有する生成されたヒストグラム上で、分散値を最大化させて両分する輝度値を第3臨界値TH3と設定し、この設定した第3臨界値TH3を第3二進化部144に出力する(第162段階)。図15を示すように、例えば、臨界値設定部142は、二つのピーク値H1及びピーク値H2を有する生成されたヒストグラム上で、分散σ2 0及びσ2 1を最大化させて両分する輝度値kを第3臨界値TH3と設定できる。
図15に示したような二つのピーク値H1及びピーク値H2を有するヒストグラム分布上で、輝度値k、すなわち、第2臨界値TH3を大津法によって求める過程を、次のように説明する。
図15に示した輝度レベルの範囲を1〜mとし、任意の輝度レベルi(1<i>m)のヒストグラム値をH(i)とするとき、ヒストグラム生成部140でヒストグラムを生成するときに寄与した画素の総数Nと各輝度レベルの確率Piとは、次の式(3)及び式(4)の通りである。
Figure 2005339547
Figure 2005339547
輝度値kによって、図15に示したヒストグラム分布を二つの領域C0及び領域C1に両分するとき、ある画素の輝度レベルが領域C0に出現する確率e0は、次の式(5)の通りであり、ある画素の輝度レベルが領域C1に出現する確率e1は、次の式(6)の通りであり、領域C0の平均値f0は、次の式(7)の通りであり、領域C1の平均値f1は、次の式(8)の通りである。
Figure 2005339547
Figure 2005339547
Figure 2005339547
Figure 2005339547
ここで、領域C0の範囲は、輝度レベル1からkまでであり、領域C1の範囲は、輝度レベル(k+1)からmまでであり、f、すなわち、f(k)は、それぞれ式(9)及び式(10)の通りである。
Figure 2005339547
Figure 2005339547
したがって、fは、次の式(11)の通りである。
Figure 2005339547
二つの領域C0及びC1の分散[Φ0 2(k)及び[Φ1 2(k)]の和[Φ2(k)]は、式(12)の通りである。
Figure 2005339547
式(12)を利用して、maxΦ2(k)を導出する輝度値kを求める。
第162段階後に、第3二進化部144は、拡大していない文字が属する範囲を有し、入力端子IN11を通じて入力した文字ライン、または拡大した文字が属する範囲を有し、入力端子IN12を通じて入力した文字ラインのうち、何れか一つを、入力端子IN10を通じて入力した制御信号に応じて選択し、この選択した文字ラインが表示する範囲に属する文字領域及び背景領域に含まれる各画素の輝度レベルを、第3臨界値TH3を利用して二進化し、この二進化した結果を、出力端子OUT5を通じて出力する(第164段階)。
図16は、図13に示した第3二進化部の1例を示すブロック図である。第3二進化部144Aは、輝度レベル比較部180、輝度レベル決定部182、個数検出部184、個数比較部186及び輝度レベル出力部188を備えている。
図17は、図14に示した第164段階の1例を説明するためのフローチャートである。第164A段階は、各画素の輝度レベルを決定する段階(第200〜第204段階)、各画素の輝度レベルが正しく決定されたか否かを検証する段階(第206〜第218段階)及び検証結果によって決定した画素の輝度レベルを反転させる段階(第220段階)からなる。
輝度レベル比較部180は、文字ラインに属する各画素の輝度レベルを、入力端子IN14を通じて、臨界値設定部142から入力した第3臨界値と比較し、この比較した結果を輝度レベル決定部182に出力する(第200段階)。このために、輝度レベル比較部180は、入力端子IN13を通じて文字ラインと文字ラインとが表示する範囲に属する文字領域及び背景領域を入力する。例えば、輝度レベル比較部180は、文字ラインに属する各画素の輝度レベルが第3臨界値TH3より大きいか否かを判断する役割を担う。
輝度レベル決定部182は、輝度レベル比較部180で比較した結果に応じて、各画素の輝度レベルを最大輝度レベルImaxまたは最小輝度レベルIminとして決定し、この決定した結果を個数検出部184及び輝度レベル出力部188にそれぞれ出力する(第202及び第204段階)。例えば、最大輝度レベルImax及び最小輝度レベルIminは、図15に示したヒストグラム上で輝度レベルの最大値及び最小値をそれぞれ意味する。
例えば、輝度レベル決定部182は、輝度レベル比較部180で比較した結果を介して、画素の輝度レベルが第3臨界値TH3より大きいと認識すれば、入力端子IN13を通じて入力した画素の輝度レベルを最大輝度レベルImaxとして決定する(第202段階)。しかし、輝度レベル決定部182は、輝度レベル比較部180で比較した結果を介して、画素の輝度レベルが第3臨界値TH3以下であると認識すれば、入力端子IN13を通じて入力した画素の輝度レベルを最小輝度レベルIminとして決定する(第204段階)。
個数検出部184は、文字ラインまたはマスクに属する最大輝度レベルImaxの個数と最小輝度レベルIminの個数とを検出し、この検出した結果を個数比較部186に出力する(第206及び第216段階)。
また、個数比較部186は、最小輝度レベルIminの個数と最大輝度レベルImaxの個数とを比較し、この比較した結果を出力する(第208、第212及び第218段階)。
このとき、輝度レベル出力部188は、個数比較部186で比較した結果に応じて、輝度レベル決定部182で決定した各画素の輝度レベルを、出力端子OUT6を通じてそのまま又は反転させて、出力端子OUT6を通じて出力する(第210、第214及び第220段階)。
例えば、第202段階後または第204段階後に、個数検出部184は、文字ラインに属する最大輝度レベルImaxの個数である第1個数N1と最小輝度レベルIminの個数である第2個数N2とを検出し、この検出した結果を個数比較部186に出力する(第206段階)。
第206段階後に、個数比較部186は、第1個数N1が第2個数N2より大きいか否かを判断する(第208段階)。
また、個数検出部184は、個数比較部186で比較した結果を介して、第1個数N1が第2個数N2と同じであると判断すれば、マスクに属する最小輝度レベルIminの個数である第3個数N3と最大輝度レベルImaxの個数である第4個数N4とを検出し、この検出した結果を個数比較部186に出力する(第216段階)。
第216段階後に、個数比較部186は、第3個数N3が第4個数N4より大きいか否かを判断する(第218段階)。
輝度レベル出力部188は、個数比較部186で比較した結果を介して、第1個数N1が第2個数N2より大きいと認識するか、または第3個数N3が第4個数N4より小さいと認識すれば、文字に属する画素の輝度レベルを最大輝度レベルImaxとして決定したか否かを判断する(第210段階)。このとき、輝度レベル出力部188は、文字に属する画素の輝度レベルを最大輝度レベルImaxとして決定していないと判断すれば、輝度レベル決定部182で決定した画素の輝度レベルを反転させて出力端子OUT6を通じて出力する(第220段階)。しかし、輝度レベル出力部188は、文字に属する画素の輝度レベルが最大輝度レベルImaxとして決定したと判断すれば、輝度レベル決定部182で決定した画素の輝度レベルをそのまま出力端子OUT6を通じて出力する。
しかし、輝度レベル出力部188は、個数比較部186で比較した結果を通じて、第1個数N1が第2個数N2より小さいと認識するか、または第3個数N3が第4個数N4より大きいと認識すれば、文字に属する画素の輝度レベルが最小輝度レベルIminとして決定したか否かを判断する(第214段階)。このとき、輝度レベル出力部188は、文字に属する画素の輝度レベルを最小輝度レベルIminとして決定していないと判断すれば、輝度レベル決定部182で決定した画素の輝度レベルを反転させて出力端子OUT6を通じて出力する(第220段階)。しかし、輝度レベル出力部188は、文字に属する画素の輝度レベルが最小輝度レベルIminとして決定したと判断すれば、輝度レベル決定部182で決定した画素の輝度レベルをそのまま出力端子OUT6を通じて出力する。
他の実施の形態によれば、図17に示したものと異なって、第164段階は、第212段階、第216段階及び第218段階を設けないこともできる。この場合、輝度レベル出力部188は、第1個数N1が第2個数N2より大きくなければ、画素の輝度レベルを最小輝度レベルIminとして決定したか否かを判断する(第214段階)。このような実施の形態は、第1個数N1と第2個数N2とが同一ではないときに有用に利用される。
本発明のさらに他の実施の形態によれば、図17に示したものと異なって、第164段階で、輝度レベル出力部188は、各画素の輝度レベルが第3臨界値TH3より大きければ、画素の輝度レベルを最小輝度レベルIminとして決定し、各画素の輝度レベルが第3臨界値TH3より大きくなければ、画素の輝度レベルを最大輝度レベルImaxとして決定することもある。
一方、第46段階後に、ノイズ除去部16は、文字抽出部14から抽出した文字からノイズを除去し、このノイズを除去した結果を、出力端子OUT1を通じて出力する(第48段階)。
図18は、図1に示したノイズ除去部の1例を示すブロック図である。ノイズ除去部16Aは、要素分離部240及びノイズ要素分離部242を備えている。
要素分離部240は、入力端子IN15を通じて文字抽出部14から入力した抽出した文字の要素を空間的に分離し、この空間的に分離した要素をノイズ要素除去部242に出力する。ここで、要素とは、文字をなすそれぞれを意味し、例えば、文字が‘RESCUE’である場合、文字の代表的な要素は、‘R’、‘E’、‘S’、‘C’及び‘U’であるが、それ以外にノイズ成分も要素となる。
本実施の形態によれば、要素分離部240は、連結要素ラベリング法(connected component labelling method)によって要素を分離できる。ここで、連結要素ラベリング法は、‘R.Jain’、‘R.Kastuni’及び‘B.G.Schunck’によって‘Machine vision’という書名でMcGraw−Hill出版社によって1995年度に出版された刊行物のp44〜47に開示されている。
ノイズ要素除去部242は、分離した要素のうち、ノイズに該当する要素を除去し、この除去した結果を、出力端子OUT7を通じて出力する。このために、ノイズ要素除去部242は、所定数より小さな画素数を含む要素、文字ラインの全体領域の一部である所定領域より大きい領域を有する要素または文字ラインの全体幅の一部である所定幅より広い幅を有する要素をノイズに該当する要素として除去する。例えば、所定数は10となり、全体領域の一部である所定領域は、全体領域の50%となり、全体幅の一部である所定幅は、全体幅の90%となる。
ノイズ除去部16から出力されるノイズを除去した文字は、例えば、光学文字認識装置(OCR:Optical Character Recognition)(図示せず)に出力される。ここで、OCRは、ノイズを除去した文字を入力して認識し、この認識した文字を利用して、この文字が含まれていた画像の内容を把握し、この把握した結果を通じて画像を要約することもでき、ユーザが所望する内容のみを含む画像を検索することもでき、画像を内容別にインデックスをつけることもできる。すなわち、動画のコンテンツに基づくビデオコンテンツ管理を行うOCRは、ホームサーバ/次世代PCのための動画にインデックスをつけ、要約し、検索することができる。したがって、前述したように、本実施の形態による画像の文字抽出装置及び文字抽出方法によって抽出された文字を利用して、例えば、ニュースを要約及び検索し、文字に基づいて画像を検索し、スポーツから重要な情報を抽出できる。
本発明によれば、画像の文字抽出装置は、ノイズ除去部16を備えないこともできる。すなわち、図2に示した画像の文字抽出方法は、第48段階を設けないこともできる。この場合、文字抽出部14から抽出した文字は、OCRに直接出力される。
以下、本発明の理解を助けるために、文字領域に表示される文字が‘RESCUE WORKER’であると仮定し、図1に示した文字抽出部14が、図7に示したように実現されると仮定しつつ、前述した本実施の形態による画像の文字抽出装置の動作を添付した図面を参照して、次のように説明する。
図19A〜図19Dは、図7に示した文字抽出部14A及びノイズ除去部16の入出力を示す例示的な図面である。
図7に示したシャープネス部92は、‘RESCUE WORKER’という文字領域をさらに鮮明に調節し、調節した鮮明度を有する図19Aに示したような文字領域をサイズ拡大部94に出力する。このとき、サイズ拡大部94は、図19Aに示した文字領域及び背景領域を入力してサイズを拡大し、図19Bに示した拡大した結果を第2二進化部96に出力する。第2二進化部96は、図19Bに示した拡大した結果を入力して二進化し、この二進化した結果である図19Cに示した結果をノイズ除去部16に出力する。このとき、ノイズ除去部16は、図19Cに示した二進化した結果からノイズを除去し、このノイズを除去した結果である図19Dに示した文字領域を、出力端子OUT1を通じて出力する。
一方、前述した本発明の実施の形態は、コンピュータ可読コード/命令/プログラムで実現され、媒体、例えば、コンピュータ可読記録媒体を利用して、前記コード/命令/プログラムを動作させる汎用デジタルコンピュータで実現できる。前記コンピュータ可読記録媒体は、磁気記憶媒体(例えば、ROM(Read Only Memory)、フロキシブルディスク、ハードディスク、マグネチックテープなど)、光記憶媒体(例えば、CD−ROM、DVDなど)及びキャリアウェーブ(例えば、インターネットを通じた伝送)のような保存媒体を含む。また、本発明の実施の形態は、コンピュータ可読コードを内蔵する媒体として実現され、ネットワークを通じて連結した複数のコンピュータシステムに分配されて動作可能にする。本発明を実現する機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論される。
本発明の画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体は、画像を処理する技術分野に適用可能である。
本実施の形態に係る画像の文字抽出装置を説明するためのブロック図である。 本実施の形態の係る画像の文字抽出方法を説明するためのフローチャートである。 図3は、図1に示したマスク検出部の1例を示したブロック図である。 初期マスクが生成される過程の理解を助けるための例示的な図面である。 初期マスクが生成される過程の理解を助けるための例示的な図面である。 初期マスクが生成される過程の理解を助けるための例示的な図面である。 (a)は、図3に示したライン検出部の理解を助けるための例示的な図面で、(b)は、図3に示したライン検出部の理解を助けるための例示的な図面である。 図1に示した時間平均計算部の理解を助けるための例示的な図面である。 図1に示した文字抽出部14の1例を示すブロック図である。 図2の第46段階の1例を説明するためのフローチャートである。 図1に示した文字抽出部14の1例を示すブロック図である。 キュービック関数を例示的に示すグラフである。 補間画素と隣接画素とを1次元的に示す図面である。 シャープネス部の一例を示す図面である。 図7または図9に示した第2二進化部の1例を示すブロック図である。 第2二進化部の動作を説明するためのフローチャートである。 ヒストグラムの例示的なグラフである。 図13に示した第3二進化部の1例を示すブロック図である。 図14に示した第164段階の1例を説明するためのフローチャートである。 図1に示したノイズ除去部の1例を示すブロック図である。 図7に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。 図7に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。 図7に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。 図7に示した文字抽出部及びノイズ除去部の入出力を示す例示的な図面である。
符号の説明
8 字幕領域検出部
10 マスク検出部
12 第1鮮明度調節部
14 文字抽出部
16 ノイズ除去部
20 時間平均計算部
IN1 入力端子
OUT1 出力端子

Claims (42)

  1. 字幕領域を画像から検出するときに生成した前記画像のエッジグラジエントに該当する空間的な情報から文字領域を表すマスクの高さを検出するマスク検出部と、
    前記マスクの高さに相応して前記文字領域から文字を抽出する文字抽出部と、
    を備えることを特徴とする画像の文字抽出装置。
  2. 前記文字領域をさらに鮮明に調節する第1鮮明度調節部を備え、
    前記文字抽出部は、前記調節された鮮明度を有する前記文字領域から前記文字を抽出することを特徴とする請求項1に記載の画像の文字抽出装置。
  3. 前記第1鮮明度調節部は、
    同じ文字を有する前記字幕領域の輝度レベルの時間上平均値を式(1)により計算する時間平均計算部を備え、
    前記文字抽出部は、前記計算した時間上平均値を輝度レベルとして有する前記文字領域から前記文字を抽出することを特徴とする請求項2に記載の画像の文字抽出装置。
    Figure 2005339547
    ここで、Rは、時間上平均値を表し、Nfは、同じ文字を有する字幕フレームの個数を表し、Rtは、第tフレームに存在する字幕領域の輝度レベルを表す。
  4. 前記抽出した文字からノイズを除去するノイズ除去部を備えることを特徴とする請求項1に記載の画像の文字抽出装置。
  5. 前記ノイズ除去部は、
    前記抽出した文字の要素を空間的に分離する要素分離部と、
    前記分離した要素のうち、ノイズに該当する要素を除去し、除去した結果を前記ノイズを除去した文字として出力するノイズ要素除去部と、
    を備えることを特徴とする請求項4に記載の画像の文字抽出装置。
  6. 前記要素分離部は、連結要素ラベリング法によって前記要素を分離することを特徴とする請求項5に記載の画像の文字抽出装置。
  7. 前記ノイズ要素除去部は、
    予め定められた所定数より少ない画素数を含む要素、文字ラインの全体領域の一部である所定領域より大きい領域を有する要素または前記文字ラインの全体幅の一部である所定幅より広い幅である要素をノイズに該当する要素として除去し、
    前記文字ラインは、
    前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲として表すこと
    を特徴とする請求項5に記載の画像の文字抽出装置。
  8. 前記マスク検出部は、
    第1臨界値を利用して、前記空間的な情報を二進化する第1二進化部と、
    前記二進化した結果から前記文字内部のホールを除去して、前記マスクを生成するマスク生成部と、
    前記マスクの高さを出力し、前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲として表す文字ラインを検出するライン検出部と、
    を備えることを特徴とする請求項1に記載の画像の文字抽出装置。
  9. 前記マスク生成部は、
    前記二進化した結果に対してモルホロジフィルタリングを行い、この行った結果を前記マスクとして出力するモルホロジフィルタを備えることを特徴とする請求項8に記載の画像の文字抽出装置。
  10. 前記モルホロジフィルタは、
    前記二進化した結果に対してダイレーション法を行って、前記マスクを生成することを特徴とする請求項9に記載の画像の文字抽出装置。
  11. 前記文字抽出部は、
    前記マスクの高さを第2臨界値と比較し、この比較した結果を制御信号として出力する高さ比較部と、
    前記制御信号に応じて、前記文字領域に含まれる各文字のサイズを拡大するサイズ拡大部と、
    前記制御信号に応じて、前記拡大した文字または拡大していない文字を、前記文字ライン別に決定した第3臨界値を利用して二進化し、この二進化した結果を前記抽出した文字として出力する第2二進化部と、
    を備えることを特徴とする請求項8に記載の画像の文字抽出装置。
  12. 前記文字抽出部は、
    前記制御信号に応じて、前記文字領域をさらに鮮明に調節する第2鮮明度調節部をさらに備え、
    前記サイズ拡大部は、前記第2鮮明度調節部で調節した鮮明度を有する前記文字領域に含まれる各文字のサイズを拡大することを特徴とする請求項11に記載の画像の文字抽出装置。
  13. 前記文字抽出部は、
    前記拡大した文字を含む文字領域をさらに鮮明に調節する第2鮮明度調節部を備え、
    前記第2二進化部は、前記制御信号に応じて、拡大していない文字または前記第2鮮明度調節部で調節した鮮明度を有する文字領域に含まれる文字を、前記第3臨界値を利用して二進化し、この二進化した結果を前記抽出した文字として出力することを特徴とする請求項11に記載の画像の文字抽出装置。
  14. 前記サイズ拡大部は、前記拡大した文字の輝度をバイキュービック補間法によって決定することを特徴とする請求項11に記載の画像の文字抽出装置。
  15. 前記第2鮮明度調節部は、
    前記文字ラインが表示する前記範囲に属する前記文字領域及び背景領域を鮮明にし、この鮮明にした結果を出力するシャープネス部を備えることを特徴とする請求項12に記載の画像の文字抽出装置。
  16. 前記第2二進化部は、前記第3臨界値を大津法によって求めることを特徴とする請求項11に記載の画像の文字抽出装置。
  17. 前記第2二進化部は、
    前記文字ラインが表示する範囲に属する前記文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成するヒストグラム生成部と、
    二つのピーク値を有する前記生成したヒストグラム上で分散値を最大化させて両分する輝度値を前記第3臨界値と設定する臨界値設定部と、
    前記拡大した文字を含む文字ラインまたは拡大していない文字を含む文字ラインを前記制御信号に応じて選択し、この選択した文字ラインが表示する範囲に属する各画素の輝度レベルを、前記第3臨界値を利用して二進化し、この二進化した結果を出力する第3二進化部と、
    を備えることを特徴とする請求項11に記載の画像の文字抽出装置。
  18. 前記第3二進化部は、
    前記各画素の輝度レベルを前記第3臨界値と比較する輝度レベル比較部と、
    前記輝度レベル比較部で比較した結果に応じて、前記各画素の輝度レベルを最大輝度レベルまたは最小輝度レベルとして決定する輝度レベル決定部と、
    前記文字ラインに属する前記最大輝度レベルの数と前記最小輝度レベルの数とを検出する個数検出部と、
    前記最小輝度レベルの数と前記最大輝度レベルの数とを比較する個数比較部と、
    前記個数比較部で比較した結果に応じて、前記輝度レベル決定部で決定した前記各画素の輝度レベルをそのまま又は反転させて出力する輝度レベル出力部と、
    を備えることを特徴とする請求項17に記載の画像の文字抽出装置。
  19. 前記個数検出部は、
    前記個数比較部で比較した結果に応じて、前記マスクに属する前記最大輝度レベルの数と前記最小輝度レベルの数とを検出することを特徴とする請求項18に記載の画像の文字抽出装置。
  20. 文字領域と背景領域とよりなる字幕領域を画像から検出するときに生成する前記画像のエッジグラジエントに該当する空間的な情報から、前記文字領域を表すマスクの高さを求める段階と、
    前記マスクの高さに相応して、前記文字領域から文字を抽出する段階と、
    を含むことを特徴とする画像の文字抽出方法。
  21. 前記文字領域をさらに鮮明に調節する段階を含み、
    前記調節した鮮明度を有する前記文字領域から前記文字を抽出することを特徴とする請求項20に記載の画像の文字抽出方法。
  22. 前記抽出した文字からノイズを除去する段階をさらに含むことを特徴とする請求項20に記載の画像の文字抽出方法。
  23. 前記文字を抽出する段階は、
    前記マスクの高さが第2臨界値より小さいか否かを判断する段階と、
    前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字領域に含まれる各文字のサイズを拡大する段階と、
    前記マスクの高さが前記第2臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記拡大した文字を二進化し、この二進化した結果を前記抽出した文字として決定する段階と、
    を含むことを特徴とする請求項20に記載の画像の文字抽出方法。
  24. 前記文字を抽出する段階は、
    前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字領域をさらに鮮明に調節する段階をさらに含み、
    前記文字のサイズを拡大する段階は、
    前記調節した鮮明度を有する前記文字領域に含まれる各文字のサイズを拡大することを特徴とする請求項23に記載の画像の文字抽出方法。
  25. 前記文字を抽出する段階は、
    前記文字のサイズを拡大する段階後に、前記拡大した文字を有する文字領域をさらに鮮明にする段階をさらに含み、
    前記マスクの高さが前記第2臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記調節した鮮明度を有する前記文字領域に含まれる文字を二進化し、この二進化した結果を前記抽出した文字として決定することを特徴とする請求項23に記載の画像の文字抽出方法。
  26. 前記抽出した文字を決定する段階は、
    前記マスクの高さが前記第2臨界値以上と判断されれば、文字ラインが表示する前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲に属する拡大していない文字を有する前記文字領域及び前記背景領域に含まれる画素の輝度レベルのヒストグラムを生成し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字ラインに表示する範囲に属する拡大した文字を有する前記文字領域及び前記背景領域に含まれる画素の輝度レベルのヒストグラムを生成する段階と、
    二つのピーク値を有する前記生成したヒストグラム上で分散値を最大化させて両分する輝度値を第3臨界値と設定する段階と、
    前記第3臨界値を利用して、前記文字ラインが表示する範囲に含まれる各画素の輝度レベルを二進化する段階と、
    を含むことを特徴とする請求項24に記載の画像の文字抽出方法。
  27. 前記各画素の輝度レベルを二進化する段階は、
    前記各画素の輝度レベルが前記第3臨界値より大きいか否かを判断する段階と、
    前記画素の輝度レベルが前記第3臨界値より大きいと判断されれば、前記画素の輝度レベルを最大輝度レベルと決定し、前記画素の輝度レベルが前記第3臨界値以下であると判断されれば、前記画素の輝度レベルを最小輝度レベルと決定する段階と、
    前記文字ラインに属する前記最小輝度レベルの数である第1個数と前記最大輝度レベルの数である第2個数とを検出する段階と、
    前記第1個数が前記第2個数より大きいか否かを判断する段階と、
    前記第1個数が前記第2個数より大きいと判断されれば、前記文字に属する画素の輝度レベルが前記最大輝度レベルと決定されたか否かを判断する段階と、
    前記第1個数が前記第2個数より小さいと判断されれば、前記文字に属する画素の輝度レベルが前記最小輝度レベルと決定されたか否かを判断する段階と、
    前記文字に属する画素の輝度レベルを前記最大輝度レベルまたは前記最小輝度レベルと決定していないと判断されれば、前記文字ラインに属する画素に対して決定された輝度レベルを反転させる段階と、
    を含むことを特徴とする請求項26に記載の画像の文字抽出方法。
  28. 前記各画素の輝度レベルを二進化する段階は、
    前記各画素の輝度レベルが前記第3臨界値より大きいか否かを判断する段階と、
    前記画素の輝度レベルが前記第3臨界値より大きいと判断されれば、前記画素の輝度レベルを最小輝度レベルと決定し、前記画素の輝度レベルが前記第3臨界値以下であると判断されれば、前記画素の輝度レベルを最大輝度レベルと決定する段階と、
    前記文字ラインに属する前記最小輝度レベルの数である第1個数と前記最大輝度レベルの数である第2個数とを検出する段階と、
    前記第1個数が前記第2個数より大きいか否かを判断する段階と、
    前記第1個数が前記第2個数より大きいと判断されれば、前記文字に属する画素の輝度レベルが前記最大輝度レベルと決定されたか否かを判断する段階と、
    前記第1個数が前記第2個数より小さいと判断されれば、前記文字に属する画素の輝度レベルを前記最小輝度レベルと決定したか否かを判断する段階と、
    前記文字に属する画素の輝度レベルを前記最大輝度レベルまたは前記最小輝度レベルと決定していないと判断されれば、前記文字ラインに属する画素に対して決定された輝度レベルを反転させる段階と、
    を含むことを特徴とする請求項26に記載の画像の文字抽出方法。
  29. 前記各画素の輝度レベルを二進化する段階は、
    前記第1個数が前記第2個数と同じであると判断されれば、前記マスクに属する前記最小輝度レベルの第3個数と前記最大輝度レベルの数である第4個数とを検出する段階と、
    前記第3個数が前記第4個数より大きいか否かを判断する段階と、
    前記第3個数が前記第4個数より大きいと判断されれば、前記文字に属する画素の輝度レベルを前記最小輝度レベルと決定したか否かを判断する段階と、
    前記第3個数が前記第4個数より小さいと判断されれば、前記文字に属する画素の輝度レベルを前記最大輝度レベルと決定したか否かを判断する段階と、
    をさらに含むことを特徴とする請求項27に記載の画像の文字抽出方法。
  30. 前記字幕領域は、前記文字領域と背景領域とからなることを特徴とする請求項1に記載の画像の文字抽出装置。
  31. 字幕領域から文字領域を求める段階と、
    前記文字領域にある文字を拡大する段階と、
    前記文字領域から前記文字を抽出する段階と、
    を含むことを特徴とする画像の文字抽出方法。
  32. 前記文字領域を表すマスクの高さを求める段階をさらに含むことを特徴とする請求項31に記載の画像の文字抽出方法。
  33. 前記画像のエッジグラジエントを含む空間的な情報を利用して、前記文字領域を求める段階をさらに含むことを特徴とする請求項31に記載の画像の文字抽出方法。
  34. 前記字幕領域は、背景領域を含むことを特徴とする請求項31に記載の画像の文字抽出方法。
  35. 前記抽出された文字からノイズを除去する段階をさらに含むことを特徴とする請求項31に記載の画像の文字抽出方法。
  36. 字幕領域を画像から検出するときに生成した前記画像の空間的な情報から、文字領域を表すマスクの高さを求める段階と、
    前記マスクの高さに相応して、前記文字領域から文字を抽出する段階と、を含み、
    前記文字を抽出する段階は、
    前記マスクの高さが第2臨界値より小さいか否かを判断する段階と、
    前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字領域に含まれる前記文字を拡大する段階と、
    前記マスクの高さが前記第2臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記拡大した文字を二進化し、この二進化した結果を、前記抽出した文字として決定する段階と、
    を含むことを特徴とする画像の文字抽出方法。
  37. 第1臨界値を利用して、前記空間的な情報を二進化する段階をさらに含むことを特徴とする請求項36に記載の画像の文字抽出方法。
  38. 制御信号によって前記文字領域の鮮明度を高める段階をさらに含むことを特徴とする請求項36に記載の画像の文字抽出方法。
  39. 前記制御信号は、前記マスクの高さが前記第2臨界値より小さいときに決定されることを特徴とする請求項38に記載の画像の文字抽出方法。
  40. 請求項20に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
  41. 請求項31に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
  42. 請求項36に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
JP2005149191A 2004-05-21 2005-05-23 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体 Pending JP2005339547A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040036393A KR100647284B1 (ko) 2004-05-21 2004-05-21 영상의 문자 추출 장치 및 방법

Publications (1)

Publication Number Publication Date
JP2005339547A true JP2005339547A (ja) 2005-12-08

Family

ID=34940368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005149191A Pending JP2005339547A (ja) 2004-05-21 2005-05-23 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体

Country Status (4)

Country Link
US (1) US20060008147A1 (ja)
EP (1) EP1600889A1 (ja)
JP (1) JP2005339547A (ja)
KR (1) KR100647284B1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226321A1 (en) * 2006-03-23 2007-09-27 R R Donnelley & Sons Company Image based document access and related systems, methods, and devices
KR100836197B1 (ko) * 2006-12-14 2008-06-09 삼성전자주식회사 동영상 자막 검출 장치 및 그 방법
CN100562074C (zh) * 2007-07-10 2009-11-18 北京大学 一种视频字幕提取的方法
CN101453575B (zh) * 2007-12-05 2010-07-21 中国科学院计算技术研究所 一种视频字幕信息提取方法
KR101015663B1 (ko) * 2008-06-24 2011-02-22 삼성전자주식회사 문자인식장치에서의 문자인식방법 및 그 장치
US9129409B2 (en) 2009-07-29 2015-09-08 Qualcomm Incorporated System and method of compressing video content
CN101888488B (zh) * 2010-06-21 2012-08-22 深圳创维-Rgb电子有限公司 一种字幕检查方法及系统
US8989499B2 (en) * 2010-10-20 2015-03-24 Comcast Cable Communications, Llc Detection of transitions between text and non-text frames in a video stream
KR20130072073A (ko) * 2011-12-21 2013-07-01 한국전자통신연구원 영상 윤곽선 추출 장치 및 방법
JP5862304B2 (ja) * 2012-01-04 2016-02-16 株式会社リコー 投影表示装置、投影表示方法およびプログラム
US20130205213A1 (en) * 2012-02-06 2013-08-08 edX Inc. Caption-based navigation for a video player
CN103295004B (zh) * 2012-02-29 2016-11-23 阿里巴巴集团控股有限公司 确定区域结构复杂度、定位文字区域的方法及装置
US8942420B2 (en) * 2012-10-18 2015-01-27 Qualcomm Incorporated Detecting embossed characters on form factor
CN104217202B (zh) * 2013-06-03 2019-01-01 支付宝(中国)网络技术有限公司 信息识别方法、设备和系统
US9734168B1 (en) * 2013-12-08 2017-08-15 Jennifer Shin Method and system for organizing digital files
KR102208893B1 (ko) * 2013-12-30 2021-01-28 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 채널 맵 관리 방법
CN104639952A (zh) * 2015-01-23 2015-05-20 小米科技有限责任公司 台标识别方法及装置
CN105738293B (zh) * 2016-02-03 2018-06-01 中国科学院遥感与数字地球研究所 一种作物理化参数的遥感定量反演方法及系统
CN107203764B (zh) * 2016-03-18 2020-08-07 北大方正集团有限公司 长微博图片识别方法和装置
US10037459B2 (en) * 2016-08-19 2018-07-31 Sage Software, Inc. Real-time font edge focus measurement for optical character recognition (OCR)
KR101822443B1 (ko) * 2016-09-19 2018-01-30 서강대학교산학협력단 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치
US10049097B1 (en) * 2017-01-27 2018-08-14 Xerox Corporation Systems and methods for creating multi-layered optical character recognition (OCR) documents
CN109309844B (zh) * 2017-07-26 2022-02-22 腾讯科技(深圳)有限公司 视频台词处理方法、视频客户端及服务器
CN108108735A (zh) * 2017-12-22 2018-06-01 大连运明自动化技术有限公司 一种汽车车牌号自动识别方法
CN108009545A (zh) * 2017-12-22 2018-05-08 大连运明自动化技术有限公司 一种汽车发动机缸体序列号视觉自动识别方法
CN110942420B (zh) * 2018-09-21 2023-09-15 阿里巴巴(中国)有限公司 一种图像字幕的消除方法及装置
CN109740607B (zh) * 2018-12-26 2023-07-21 南京互连智能科技有限公司 字符图像的残缺区域检测和残缺字符图像恢复方法
CN112733858B (zh) * 2021-01-08 2021-10-26 北京匠数科技有限公司 基于字符区域检测的图像文字快速识别方法及装置
CN113066024B (zh) * 2021-03-19 2023-03-10 北京达佳互联信息技术有限公司 图像模糊检测模型的训练方法、图像模糊检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260993A (ja) * 1997-01-21 1998-09-29 Matsushita Electric Ind Co Ltd 書類の走査画像からのタイトル、見出しおよび写真抽出
JP2000209432A (ja) * 1999-01-18 2000-07-28 Dainippon Screen Mfg Co Ltd 画像処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
EP0677817B1 (en) * 1994-04-15 2000-11-08 Canon Kabushiki Kaisha Page segmentation and character recognition system
DE69519980T2 (de) * 1994-12-28 2001-06-07 Siemens Corp Res Inc Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
US20010011276A1 (en) * 1997-05-07 2001-08-02 Robert T. Durst Jr. Scanner enhanced remote control unit and system for automatically linking to on-line resources
GB2343579A (en) * 1998-11-07 2000-05-10 Ibm Hybrid-linear-bicubic interpolation method and apparatus
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260993A (ja) * 1997-01-21 1998-09-29 Matsushita Electric Ind Co Ltd 書類の走査画像からのタイトル、見出しおよび写真抽出
JP2000209432A (ja) * 1999-01-18 2000-07-28 Dainippon Screen Mfg Co Ltd 画像処理方法

Also Published As

Publication number Publication date
EP1600889A1 (en) 2005-11-30
KR20050111186A (ko) 2005-11-24
US20060008147A1 (en) 2006-01-12
KR100647284B1 (ko) 2006-11-23

Similar Documents

Publication Publication Date Title
JP2005339547A (ja) 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体
JP4861845B2 (ja) テロップ文字抽出プログラム、記録媒体、方法及び装置
KR100745753B1 (ko) 영상의 문자 영역 검출장치 및 방법
JP4626886B2 (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
US10748023B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
US7630544B1 (en) System and method for locating a character set in a digital image
KR20040050909A (ko) 이미지의 영역들간 판별을 위한 방법 및 장치
JP6075190B2 (ja) 画像処理方法及び装置
US20060245650A1 (en) Precise grayscale character segmentation apparatus and method
JP2011054080A (ja) 画像処理装置および方法、並びにプログラム
US8311269B2 (en) Blocker image identification apparatus and method
CN107886518B (zh) 图片检测方法、装置、电子设备及可读取存储介质
JP2021111228A (ja) 学習装置、学習方法、及びプログラム
JP7119493B2 (ja) 認識装置、認識方法およびプログラム
CN115862044A (zh) 用于从图像中提取目标文档部分的方法、设备和介质
JP3544324B2 (ja) 文字列情報抽出装置及び方法及びその方法を記録した記録媒体
JPH1125222A (ja) 文字切り出し方法及び文字切り出し装置
Yang et al. Text detection in video images using adaptive edge detection and stroke width verification
KR102180478B1 (ko) 자막 검출 장치 및 그 방법
JP4253265B2 (ja) 影検出装置、影検出方法及び影検出プログラム、影検出装置を用いた画像処理装置、影検出方法を用いた画像処理方法及び影検出プログラムを用いた画像処理プログラム
Jaiswal et al. Automatic image cropping using saliency map
JP2001291056A (ja) 文書画像認識装置及び記録媒体
Tribuzy et al. Vehicle License Plate Preprocessing Techniques Using Graphical Interface
CN115731185A (zh) 基于拉普拉斯算子的电力设备模糊图像识别方法及系统
CN117745589A (zh) 水印去除方法、装置及设备

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050906

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061026

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101019