JP2005339547A - 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体 - Google Patents
画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体 Download PDFInfo
- Publication number
- JP2005339547A JP2005339547A JP2005149191A JP2005149191A JP2005339547A JP 2005339547 A JP2005339547 A JP 2005339547A JP 2005149191 A JP2005149191 A JP 2005149191A JP 2005149191 A JP2005149191 A JP 2005149191A JP 2005339547 A JP2005339547 A JP 2005339547A
- Authority
- JP
- Japan
- Prior art keywords
- character
- luminance level
- unit
- image
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- A—HUMAN NECESSITIES
- A46—BRUSHWARE
- A46D—MANUFACTURE OF BRUSHES
- A46D1/00—Bristles; Selection of materials for bristles
- A46D1/02—Bristles details
- A46D1/0261—Roughness structure on the bristle surface
-
- A—HUMAN NECESSITIES
- A46—BRUSHWARE
- A46D—MANUFACTURE OF BRUSHES
- A46D1/00—Bristles; Selection of materials for bristles
- A46D1/02—Bristles details
- A46D1/0253—Bristles having a shape which is not a straight line, e.g. curved, "S", hook, loop
-
- A—HUMAN NECESSITIES
- A46—BRUSHWARE
- A46B—BRUSHES
- A46B2200/00—Brushes characterized by their functions, uses or applications
- A46B2200/10—For human or animal care
- A46B2200/1066—Toothbrush for cleaning the teeth or dentures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
【解決手段】 字幕領域を画像から検出するときに生成した画像の空間的な情報から文字領域を表すマスクの高さを検出するマスク検出部10と、マスクの高さに相応して前記文字領域から文字を抽出する文字抽出部14と、抽出した文字からノイズを除去するノイズ除去部16と、を備える。前記ノイズ除去部16は、前記抽出した文字の要素を空間的に分離する要素分離部と、前記分離した要素のうち、ノイズに該当する要素を除去し、除去した結果を前記ノイズを除去した文字として出力するノイズ要素除去部と、を備える。
を備える
【選択図】 図1
Description
臨界値方法は、指定された臨界値をすべての画像に適用し難く、これにより、文字を抽出する性能を低下させるという問題点を有する。このような臨界値方法については、特許文献1、特許文献2、特許文献3及び非特許文献1に開示されている。
前述した従来の文字抽出方法は、小さなサイズの文字については認識を行えないという問題点を有する。これは、光学文字認識装置(OCR:Optical Character Recognition)別に差があるが、OCRが20〜30画素以下の高さを有する文字を認識できないためである。
ここで、第1臨界値とは、空間的な情報を2進化するときに使われる臨界値である。第2臨界値とは、例えば、文字領域をさらに鮮明に調節するか否かを判断するために、マスクの高さと比較される臨界値である。第3臨界値とは、例えば、二つのピーク値を有する生成されたヒストグラム上で、分散値を最大化させて両分する輝度値をいう。
図1は、本実施の形態に係る画像の文字抽出装置を説明するためのブロック図である。本実施の形態に係る画像の文字抽出装置は、字幕領域検出部8、マスク検出部10、第1鮮明度調節部12、文字抽出部14及びノイズ除去部16を備えている。
図1に示す本発明による画像の文字抽出装置は、字幕領域検出部8を含まず、マスク検出部10、第1鮮明度調節部12、文字抽出部14及びノイズ除去部16のみから実現することも可能である。
図4Aないし図4Cは、初期マスクが生成される過程の理解を助けるための例示的な図面である。図4Aないし図4Cそれぞれは、‘RESCUE WORKER’という文字領域とその外の背景領域とより構成される。
本発明によれば、図2に示したものと異なって、第44段階を先に行い、その後に第42段階を行うこともできる。この場合、第42段階を行った後に、第46段階を行うこともできる。また、第40段階を行った後に、第42段階及び第44段階を同時に行うこともできる。
例えば、図6に示した第t Iフレーム Itから第t+X Iフレーム It+X80がいずれも同じ文字を有する字幕領域を含む場合、式(1)のNfは、‘X+1’となる。
このように、第1鮮明度調節部12が時間平均計算部20で実現される場合、文字抽出部14は、時間平均計算部20で計算した平均値を輝度レベルとして有する文字領域から文字を抽出する。
例えば、高さ比較部90は、マスクの高さが第2臨界値TH2より小さいか否かを判断し、この判断した結果を制御信号として出力する(第120段階)。
図8に示したものと異なって、マスクの高さが第2臨界値TH2より小さいとき、第122段階の代りに第124段階を行い、第124段階を行った後に第122段階を行い、第122段階を行った後に第126段階を行う。この場合、図1に示した文字抽出部14は、図9に示したような構成を備えている。
図10は、キュービック関数[f(x)]を例示的に示すグラフであって、キュービック係数が−0.5、−1または−2である場合をそれぞれ表す。ここで、横軸(x)は、補間される画素からの距離を表し、縦軸は、キュービック関数をそれぞれ表す。
図10に示したキュービック関数は、一種の加重値であって、例えば、次の式(2)のように決定される。
例えば、補間画素pxと隣接画素p1との距離x1を、前述した式(2)のxの代りに代入して加重値を決定するか、または距離x1に該当する加重値を、図10を通じて決定し、決定された加重値と隣接画素p1の輝度、すなわち、輝度レベルとを乗算する。また、補間画素pxと隣接画素p2との距離x2を、前述した式(2)のxの代りに代入して加重値を決定するか、または距離x2に該当する加重値を、図10を通じて決定し、決定した加重値と隣接画素p2の輝度、すなわち、輝度レベルとを乗算する。このとき、乗算した結果を加算し、この加算した結果を補間画素pxの輝度レベル、すなわち、輝度として決定する。
本実施の形態によれば、図7または図9に示した第2鮮明度調節部92または第2鮮明度調節部114は、小文字をさらに鮮明にする役割を担う。このために、第2鮮明度調節部92または第2鮮明度調節部114は、画像の高周波成分であるエッジを強調するシャープネス部100またはシャープネス部120より実現される。ここで、シャープネス部100またはシャープネス部120は、文字ラインが表示する範囲に属する文字領域及び背景領域を鮮明にし、この鮮明にした結果を出力する。高域通過フィルタに基づいた画像の鮮明化については、‘Randy Crane’によって書かれ、‘A simplified approach to Image Processing’という書名でPrentice Hall出版社によって1997年度に出版された刊行物のp77〜78に開示されている。例えば、シャープネス部100またはシャープネス部120は、図12に示したように実現することが可能である。
図14は、第2二進化部の動作を説明するためのフローチャートである。第2二進化部の動作は、生成したヒストグラムを利用して、第3臨界値TH3を求める段階(第160及び第162段階)及び各画素の輝度レベルを二進化する段階(第164段階)からなる。
図13に示したヒストグラム生成部140は、文字ラインに含まれる画素の輝度レベルのヒストグラムを生成し、この生成したヒストグラムを臨界値設定部142に出力する(第160段階)。例えば、ヒストグラム生成部140は、入力端子IN10を通じて入力した制御信号を介して、マスクの高さを第2臨界値TH2以上と認識すれば、文字ラインが表示する範囲に属する拡大していない文字を有する文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成する。このために、ヒストグラム生成部140は、文字ラインをマスク検出部10から入力端子IN11を通じて入力し、文字ラインが表示する範囲に属する文字領域と背景領域とを入力端子IN11を通じて、第1鮮明度調節部12または字幕領域検出部8から入力する。
ヒストグラム生成部140は、例えば、図15に示したように、ヒストグラムを生成する。
図15に示した輝度レベルの範囲を1〜mとし、任意の輝度レベルi(1<i>m)のヒストグラム値をH(i)とするとき、ヒストグラム生成部140でヒストグラムを生成するときに寄与した画素の総数Nと各輝度レベルの確率Piとは、次の式(3)及び式(4)の通りである。
第162段階後に、第3二進化部144は、拡大していない文字が属する範囲を有し、入力端子IN11を通じて入力した文字ライン、または拡大した文字が属する範囲を有し、入力端子IN12を通じて入力した文字ラインのうち、何れか一つを、入力端子IN10を通じて入力した制御信号に応じて選択し、この選択した文字ラインが表示する範囲に属する文字領域及び背景領域に含まれる各画素の輝度レベルを、第3臨界値TH3を利用して二進化し、この二進化した結果を、出力端子OUT5を通じて出力する(第164段階)。
図17は、図14に示した第164段階の1例を説明するためのフローチャートである。第164A段階は、各画素の輝度レベルを決定する段階(第200〜第204段階)、各画素の輝度レベルが正しく決定されたか否かを検証する段階(第206〜第218段階)及び検証結果によって決定した画素の輝度レベルを反転させる段階(第220段階)からなる。
また、個数比較部186は、最小輝度レベルIminの個数と最大輝度レベルImaxの個数とを比較し、この比較した結果を出力する(第208、第212及び第218段階)。
また、個数検出部184は、個数比較部186で比較した結果を介して、第1個数N1が第2個数N2と同じであると判断すれば、マスクに属する最小輝度レベルIminの個数である第3個数N3と最大輝度レベルImaxの個数である第4個数N4とを検出し、この検出した結果を個数比較部186に出力する(第216段階)。
輝度レベル出力部188は、個数比較部186で比較した結果を介して、第1個数N1が第2個数N2より大きいと認識するか、または第3個数N3が第4個数N4より小さいと認識すれば、文字に属する画素の輝度レベルを最大輝度レベルImaxとして決定したか否かを判断する(第210段階)。このとき、輝度レベル出力部188は、文字に属する画素の輝度レベルを最大輝度レベルImaxとして決定していないと判断すれば、輝度レベル決定部182で決定した画素の輝度レベルを反転させて出力端子OUT6を通じて出力する(第220段階)。しかし、輝度レベル出力部188は、文字に属する画素の輝度レベルが最大輝度レベルImaxとして決定したと判断すれば、輝度レベル決定部182で決定した画素の輝度レベルをそのまま出力端子OUT6を通じて出力する。
図18は、図1に示したノイズ除去部の1例を示すブロック図である。ノイズ除去部16Aは、要素分離部240及びノイズ要素分離部242を備えている。
以下、本発明の理解を助けるために、文字領域に表示される文字が‘RESCUE WORKER’であると仮定し、図1に示した文字抽出部14が、図7に示したように実現されると仮定しつつ、前述した本実施の形態による画像の文字抽出装置の動作を添付した図面を参照して、次のように説明する。
図7に示したシャープネス部92は、‘RESCUE WORKER’という文字領域をさらに鮮明に調節し、調節した鮮明度を有する図19Aに示したような文字領域をサイズ拡大部94に出力する。このとき、サイズ拡大部94は、図19Aに示した文字領域及び背景領域を入力してサイズを拡大し、図19Bに示した拡大した結果を第2二進化部96に出力する。第2二進化部96は、図19Bに示した拡大した結果を入力して二進化し、この二進化した結果である図19Cに示した結果をノイズ除去部16に出力する。このとき、ノイズ除去部16は、図19Cに示した二進化した結果からノイズを除去し、このノイズを除去した結果である図19Dに示した文字領域を、出力端子OUT1を通じて出力する。
10 マスク検出部
12 第1鮮明度調節部
14 文字抽出部
16 ノイズ除去部
20 時間平均計算部
IN1 入力端子
OUT1 出力端子
Claims (42)
- 字幕領域を画像から検出するときに生成した前記画像のエッジグラジエントに該当する空間的な情報から文字領域を表すマスクの高さを検出するマスク検出部と、
前記マスクの高さに相応して前記文字領域から文字を抽出する文字抽出部と、
を備えることを特徴とする画像の文字抽出装置。 - 前記文字領域をさらに鮮明に調節する第1鮮明度調節部を備え、
前記文字抽出部は、前記調節された鮮明度を有する前記文字領域から前記文字を抽出することを特徴とする請求項1に記載の画像の文字抽出装置。 - 前記抽出した文字からノイズを除去するノイズ除去部を備えることを特徴とする請求項1に記載の画像の文字抽出装置。
- 前記ノイズ除去部は、
前記抽出した文字の要素を空間的に分離する要素分離部と、
前記分離した要素のうち、ノイズに該当する要素を除去し、除去した結果を前記ノイズを除去した文字として出力するノイズ要素除去部と、
を備えることを特徴とする請求項4に記載の画像の文字抽出装置。 - 前記要素分離部は、連結要素ラベリング法によって前記要素を分離することを特徴とする請求項5に記載の画像の文字抽出装置。
- 前記ノイズ要素除去部は、
予め定められた所定数より少ない画素数を含む要素、文字ラインの全体領域の一部である所定領域より大きい領域を有する要素または前記文字ラインの全体幅の一部である所定幅より広い幅である要素をノイズに該当する要素として除去し、
前記文字ラインは、
前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲として表すこと
を特徴とする請求項5に記載の画像の文字抽出装置。 - 前記マスク検出部は、
第1臨界値を利用して、前記空間的な情報を二進化する第1二進化部と、
前記二進化した結果から前記文字内部のホールを除去して、前記マスクを生成するマスク生成部と、
前記マスクの高さを出力し、前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲として表す文字ラインを検出するライン検出部と、
を備えることを特徴とする請求項1に記載の画像の文字抽出装置。 - 前記マスク生成部は、
前記二進化した結果に対してモルホロジフィルタリングを行い、この行った結果を前記マスクとして出力するモルホロジフィルタを備えることを特徴とする請求項8に記載の画像の文字抽出装置。 - 前記モルホロジフィルタは、
前記二進化した結果に対してダイレーション法を行って、前記マスクを生成することを特徴とする請求項9に記載の画像の文字抽出装置。 - 前記文字抽出部は、
前記マスクの高さを第2臨界値と比較し、この比較した結果を制御信号として出力する高さ比較部と、
前記制御信号に応じて、前記文字領域に含まれる各文字のサイズを拡大するサイズ拡大部と、
前記制御信号に応じて、前記拡大した文字または拡大していない文字を、前記文字ライン別に決定した第3臨界値を利用して二進化し、この二進化した結果を前記抽出した文字として出力する第2二進化部と、
を備えることを特徴とする請求項8に記載の画像の文字抽出装置。 - 前記文字抽出部は、
前記制御信号に応じて、前記文字領域をさらに鮮明に調節する第2鮮明度調節部をさらに備え、
前記サイズ拡大部は、前記第2鮮明度調節部で調節した鮮明度を有する前記文字領域に含まれる各文字のサイズを拡大することを特徴とする請求項11に記載の画像の文字抽出装置。 - 前記文字抽出部は、
前記拡大した文字を含む文字領域をさらに鮮明に調節する第2鮮明度調節部を備え、
前記第2二進化部は、前記制御信号に応じて、拡大していない文字または前記第2鮮明度調節部で調節した鮮明度を有する文字領域に含まれる文字を、前記第3臨界値を利用して二進化し、この二進化した結果を前記抽出した文字として出力することを特徴とする請求項11に記載の画像の文字抽出装置。 - 前記サイズ拡大部は、前記拡大した文字の輝度をバイキュービック補間法によって決定することを特徴とする請求項11に記載の画像の文字抽出装置。
- 前記第2鮮明度調節部は、
前記文字ラインが表示する前記範囲に属する前記文字領域及び背景領域を鮮明にし、この鮮明にした結果を出力するシャープネス部を備えることを特徴とする請求項12に記載の画像の文字抽出装置。 - 前記第2二進化部は、前記第3臨界値を大津法によって求めることを特徴とする請求項11に記載の画像の文字抽出装置。
- 前記第2二進化部は、
前記文字ラインが表示する範囲に属する前記文字領域と背景領域とに含まれる画素の輝度レベルのヒストグラムを生成するヒストグラム生成部と、
二つのピーク値を有する前記生成したヒストグラム上で分散値を最大化させて両分する輝度値を前記第3臨界値と設定する臨界値設定部と、
前記拡大した文字を含む文字ラインまたは拡大していない文字を含む文字ラインを前記制御信号に応じて選択し、この選択した文字ラインが表示する範囲に属する各画素の輝度レベルを、前記第3臨界値を利用して二進化し、この二進化した結果を出力する第3二進化部と、
を備えることを特徴とする請求項11に記載の画像の文字抽出装置。 - 前記第3二進化部は、
前記各画素の輝度レベルを前記第3臨界値と比較する輝度レベル比較部と、
前記輝度レベル比較部で比較した結果に応じて、前記各画素の輝度レベルを最大輝度レベルまたは最小輝度レベルとして決定する輝度レベル決定部と、
前記文字ラインに属する前記最大輝度レベルの数と前記最小輝度レベルの数とを検出する個数検出部と、
前記最小輝度レベルの数と前記最大輝度レベルの数とを比較する個数比較部と、
前記個数比較部で比較した結果に応じて、前記輝度レベル決定部で決定した前記各画素の輝度レベルをそのまま又は反転させて出力する輝度レベル出力部と、
を備えることを特徴とする請求項17に記載の画像の文字抽出装置。 - 前記個数検出部は、
前記個数比較部で比較した結果に応じて、前記マスクに属する前記最大輝度レベルの数と前記最小輝度レベルの数とを検出することを特徴とする請求項18に記載の画像の文字抽出装置。 - 文字領域と背景領域とよりなる字幕領域を画像から検出するときに生成する前記画像のエッジグラジエントに該当する空間的な情報から、前記文字領域を表すマスクの高さを求める段階と、
前記マスクの高さに相応して、前記文字領域から文字を抽出する段階と、
を含むことを特徴とする画像の文字抽出方法。 - 前記文字領域をさらに鮮明に調節する段階を含み、
前記調節した鮮明度を有する前記文字領域から前記文字を抽出することを特徴とする請求項20に記載の画像の文字抽出方法。 - 前記抽出した文字からノイズを除去する段階をさらに含むことを特徴とする請求項20に記載の画像の文字抽出方法。
- 前記文字を抽出する段階は、
前記マスクの高さが第2臨界値より小さいか否かを判断する段階と、
前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字領域に含まれる各文字のサイズを拡大する段階と、
前記マスクの高さが前記第2臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記拡大した文字を二進化し、この二進化した結果を前記抽出した文字として決定する段階と、
を含むことを特徴とする請求項20に記載の画像の文字抽出方法。 - 前記文字を抽出する段階は、
前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字領域をさらに鮮明に調節する段階をさらに含み、
前記文字のサイズを拡大する段階は、
前記調節した鮮明度を有する前記文字領域に含まれる各文字のサイズを拡大することを特徴とする請求項23に記載の画像の文字抽出方法。 - 前記文字を抽出する段階は、
前記文字のサイズを拡大する段階後に、前記拡大した文字を有する文字領域をさらに鮮明にする段階をさらに含み、
前記マスクの高さが前記第2臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記調節した鮮明度を有する前記文字領域に含まれる文字を二進化し、この二進化した結果を前記抽出した文字として決定することを特徴とする請求項23に記載の画像の文字抽出方法。 - 前記抽出した文字を決定する段階は、
前記マスクの高さが前記第2臨界値以上と判断されれば、文字ラインが表示する前記マスクの高さに該当する幅を前記字幕領域で前記文字領域を最小限含む部分の範囲に属する拡大していない文字を有する前記文字領域及び前記背景領域に含まれる画素の輝度レベルのヒストグラムを生成し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字ラインに表示する範囲に属する拡大した文字を有する前記文字領域及び前記背景領域に含まれる画素の輝度レベルのヒストグラムを生成する段階と、
二つのピーク値を有する前記生成したヒストグラム上で分散値を最大化させて両分する輝度値を第3臨界値と設定する段階と、
前記第3臨界値を利用して、前記文字ラインが表示する範囲に含まれる各画素の輝度レベルを二進化する段階と、
を含むことを特徴とする請求項24に記載の画像の文字抽出方法。 - 前記各画素の輝度レベルを二進化する段階は、
前記各画素の輝度レベルが前記第3臨界値より大きいか否かを判断する段階と、
前記画素の輝度レベルが前記第3臨界値より大きいと判断されれば、前記画素の輝度レベルを最大輝度レベルと決定し、前記画素の輝度レベルが前記第3臨界値以下であると判断されれば、前記画素の輝度レベルを最小輝度レベルと決定する段階と、
前記文字ラインに属する前記最小輝度レベルの数である第1個数と前記最大輝度レベルの数である第2個数とを検出する段階と、
前記第1個数が前記第2個数より大きいか否かを判断する段階と、
前記第1個数が前記第2個数より大きいと判断されれば、前記文字に属する画素の輝度レベルが前記最大輝度レベルと決定されたか否かを判断する段階と、
前記第1個数が前記第2個数より小さいと判断されれば、前記文字に属する画素の輝度レベルが前記最小輝度レベルと決定されたか否かを判断する段階と、
前記文字に属する画素の輝度レベルを前記最大輝度レベルまたは前記最小輝度レベルと決定していないと判断されれば、前記文字ラインに属する画素に対して決定された輝度レベルを反転させる段階と、
を含むことを特徴とする請求項26に記載の画像の文字抽出方法。 - 前記各画素の輝度レベルを二進化する段階は、
前記各画素の輝度レベルが前記第3臨界値より大きいか否かを判断する段階と、
前記画素の輝度レベルが前記第3臨界値より大きいと判断されれば、前記画素の輝度レベルを最小輝度レベルと決定し、前記画素の輝度レベルが前記第3臨界値以下であると判断されれば、前記画素の輝度レベルを最大輝度レベルと決定する段階と、
前記文字ラインに属する前記最小輝度レベルの数である第1個数と前記最大輝度レベルの数である第2個数とを検出する段階と、
前記第1個数が前記第2個数より大きいか否かを判断する段階と、
前記第1個数が前記第2個数より大きいと判断されれば、前記文字に属する画素の輝度レベルが前記最大輝度レベルと決定されたか否かを判断する段階と、
前記第1個数が前記第2個数より小さいと判断されれば、前記文字に属する画素の輝度レベルを前記最小輝度レベルと決定したか否かを判断する段階と、
前記文字に属する画素の輝度レベルを前記最大輝度レベルまたは前記最小輝度レベルと決定していないと判断されれば、前記文字ラインに属する画素に対して決定された輝度レベルを反転させる段階と、
を含むことを特徴とする請求項26に記載の画像の文字抽出方法。 - 前記各画素の輝度レベルを二進化する段階は、
前記第1個数が前記第2個数と同じであると判断されれば、前記マスクに属する前記最小輝度レベルの第3個数と前記最大輝度レベルの数である第4個数とを検出する段階と、
前記第3個数が前記第4個数より大きいか否かを判断する段階と、
前記第3個数が前記第4個数より大きいと判断されれば、前記文字に属する画素の輝度レベルを前記最小輝度レベルと決定したか否かを判断する段階と、
前記第3個数が前記第4個数より小さいと判断されれば、前記文字に属する画素の輝度レベルを前記最大輝度レベルと決定したか否かを判断する段階と、
をさらに含むことを特徴とする請求項27に記載の画像の文字抽出方法。 - 前記字幕領域は、前記文字領域と背景領域とからなることを特徴とする請求項1に記載の画像の文字抽出装置。
- 字幕領域から文字領域を求める段階と、
前記文字領域にある文字を拡大する段階と、
前記文字領域から前記文字を抽出する段階と、
を含むことを特徴とする画像の文字抽出方法。 - 前記文字領域を表すマスクの高さを求める段階をさらに含むことを特徴とする請求項31に記載の画像の文字抽出方法。
- 前記画像のエッジグラジエントを含む空間的な情報を利用して、前記文字領域を求める段階をさらに含むことを特徴とする請求項31に記載の画像の文字抽出方法。
- 前記字幕領域は、背景領域を含むことを特徴とする請求項31に記載の画像の文字抽出方法。
- 前記抽出された文字からノイズを除去する段階をさらに含むことを特徴とする請求項31に記載の画像の文字抽出方法。
- 字幕領域を画像から検出するときに生成した前記画像の空間的な情報から、文字領域を表すマスクの高さを求める段階と、
前記マスクの高さに相応して、前記文字領域から文字を抽出する段階と、を含み、
前記文字を抽出する段階は、
前記マスクの高さが第2臨界値より小さいか否かを判断する段階と、
前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記文字領域に含まれる前記文字を拡大する段階と、
前記マスクの高さが前記第2臨界値以上と判断されれば、前記拡大していない文字を二進化し、前記マスクの高さが前記第2臨界値より小さいと判断されれば、前記拡大した文字を二進化し、この二進化した結果を、前記抽出した文字として決定する段階と、
を含むことを特徴とする画像の文字抽出方法。 - 第1臨界値を利用して、前記空間的な情報を二進化する段階をさらに含むことを特徴とする請求項36に記載の画像の文字抽出方法。
- 制御信号によって前記文字領域の鮮明度を高める段階をさらに含むことを特徴とする請求項36に記載の画像の文字抽出方法。
- 前記制御信号は、前記マスクの高さが前記第2臨界値より小さいときに決定されることを特徴とする請求項38に記載の画像の文字抽出方法。
- 請求項20に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
- 請求項31に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
- 請求項36に記載の方法をコンピュータに実現させるためのコンピュータ可読コードを記録したことを特徴とする記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040036393A KR100647284B1 (ko) | 2004-05-21 | 2004-05-21 | 영상의 문자 추출 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005339547A true JP2005339547A (ja) | 2005-12-08 |
Family
ID=34940368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005149191A Pending JP2005339547A (ja) | 2004-05-21 | 2005-05-23 | 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060008147A1 (ja) |
EP (1) | EP1600889A1 (ja) |
JP (1) | JP2005339547A (ja) |
KR (1) | KR100647284B1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070226321A1 (en) * | 2006-03-23 | 2007-09-27 | R R Donnelley & Sons Company | Image based document access and related systems, methods, and devices |
KR100836197B1 (ko) * | 2006-12-14 | 2008-06-09 | 삼성전자주식회사 | 동영상 자막 검출 장치 및 그 방법 |
CN100562074C (zh) * | 2007-07-10 | 2009-11-18 | 北京大学 | 一种视频字幕提取的方法 |
CN101453575B (zh) * | 2007-12-05 | 2010-07-21 | 中国科学院计算技术研究所 | 一种视频字幕信息提取方法 |
KR101015663B1 (ko) * | 2008-06-24 | 2011-02-22 | 삼성전자주식회사 | 문자인식장치에서의 문자인식방법 및 그 장치 |
US9129409B2 (en) | 2009-07-29 | 2015-09-08 | Qualcomm Incorporated | System and method of compressing video content |
CN101888488B (zh) * | 2010-06-21 | 2012-08-22 | 深圳创维-Rgb电子有限公司 | 一种字幕检查方法及系统 |
US8989499B2 (en) * | 2010-10-20 | 2015-03-24 | Comcast Cable Communications, Llc | Detection of transitions between text and non-text frames in a video stream |
KR20130072073A (ko) * | 2011-12-21 | 2013-07-01 | 한국전자통신연구원 | 영상 윤곽선 추출 장치 및 방법 |
JP5862304B2 (ja) * | 2012-01-04 | 2016-02-16 | 株式会社リコー | 投影表示装置、投影表示方法およびプログラム |
US20130205213A1 (en) * | 2012-02-06 | 2013-08-08 | edX Inc. | Caption-based navigation for a video player |
CN103295004B (zh) * | 2012-02-29 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 确定区域结构复杂度、定位文字区域的方法及装置 |
US8942420B2 (en) * | 2012-10-18 | 2015-01-27 | Qualcomm Incorporated | Detecting embossed characters on form factor |
CN104217202B (zh) * | 2013-06-03 | 2019-01-01 | 支付宝(中国)网络技术有限公司 | 信息识别方法、设备和系统 |
US9734168B1 (en) * | 2013-12-08 | 2017-08-15 | Jennifer Shin | Method and system for organizing digital files |
KR102208893B1 (ko) * | 2013-12-30 | 2021-01-28 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치의 채널 맵 관리 방법 |
CN104639952A (zh) * | 2015-01-23 | 2015-05-20 | 小米科技有限责任公司 | 台标识别方法及装置 |
CN105738293B (zh) * | 2016-02-03 | 2018-06-01 | 中国科学院遥感与数字地球研究所 | 一种作物理化参数的遥感定量反演方法及系统 |
CN107203764B (zh) * | 2016-03-18 | 2020-08-07 | 北大方正集团有限公司 | 长微博图片识别方法和装置 |
US10037459B2 (en) * | 2016-08-19 | 2018-07-31 | Sage Software, Inc. | Real-time font edge focus measurement for optical character recognition (OCR) |
KR101822443B1 (ko) * | 2016-09-19 | 2018-01-30 | 서강대학교산학협력단 | 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치 |
US10049097B1 (en) * | 2017-01-27 | 2018-08-14 | Xerox Corporation | Systems and methods for creating multi-layered optical character recognition (OCR) documents |
CN109309844B (zh) * | 2017-07-26 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 视频台词处理方法、视频客户端及服务器 |
CN108108735A (zh) * | 2017-12-22 | 2018-06-01 | 大连运明自动化技术有限公司 | 一种汽车车牌号自动识别方法 |
CN108009545A (zh) * | 2017-12-22 | 2018-05-08 | 大连运明自动化技术有限公司 | 一种汽车发动机缸体序列号视觉自动识别方法 |
CN110942420B (zh) * | 2018-09-21 | 2023-09-15 | 阿里巴巴(中国)有限公司 | 一种图像字幕的消除方法及装置 |
CN109740607B (zh) * | 2018-12-26 | 2023-07-21 | 南京互连智能科技有限公司 | 字符图像的残缺区域检测和残缺字符图像恢复方法 |
CN112733858B (zh) * | 2021-01-08 | 2021-10-26 | 北京匠数科技有限公司 | 基于字符区域检测的图像文字快速识别方法及装置 |
CN113066024B (zh) * | 2021-03-19 | 2023-03-10 | 北京达佳互联信息技术有限公司 | 图像模糊检测模型的训练方法、图像模糊检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10260993A (ja) * | 1997-01-21 | 1998-09-29 | Matsushita Electric Ind Co Ltd | 書類の走査画像からのタイトル、見出しおよび写真抽出 |
JP2000209432A (ja) * | 1999-01-18 | 2000-07-28 | Dainippon Screen Mfg Co Ltd | 画像処理方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
EP0677817B1 (en) * | 1994-04-15 | 2000-11-08 | Canon Kabushiki Kaisha | Page segmentation and character recognition system |
DE69519980T2 (de) * | 1994-12-28 | 2001-06-07 | Siemens Corp Res Inc | Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen |
US20010011276A1 (en) * | 1997-05-07 | 2001-08-02 | Robert T. Durst Jr. | Scanner enhanced remote control unit and system for automatically linking to on-line resources |
GB2343579A (en) * | 1998-11-07 | 2000-05-10 | Ibm | Hybrid-linear-bicubic interpolation method and apparatus |
US6470094B1 (en) * | 2000-03-14 | 2002-10-22 | Intel Corporation | Generalized text localization in images |
-
2004
- 2004-05-21 KR KR1020040036393A patent/KR100647284B1/ko not_active IP Right Cessation
-
2005
- 2005-01-19 EP EP05250250A patent/EP1600889A1/en not_active Withdrawn
- 2005-05-20 US US11/133,394 patent/US20060008147A1/en not_active Abandoned
- 2005-05-23 JP JP2005149191A patent/JP2005339547A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10260993A (ja) * | 1997-01-21 | 1998-09-29 | Matsushita Electric Ind Co Ltd | 書類の走査画像からのタイトル、見出しおよび写真抽出 |
JP2000209432A (ja) * | 1999-01-18 | 2000-07-28 | Dainippon Screen Mfg Co Ltd | 画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1600889A1 (en) | 2005-11-30 |
KR20050111186A (ko) | 2005-11-24 |
US20060008147A1 (en) | 2006-01-12 |
KR100647284B1 (ko) | 2006-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005339547A (ja) | 画像の文字抽出装置、画像の文字抽出方法及びこの画像の文字抽出方法を実現するためのコンピュータ可読コードを記録した媒体 | |
JP4861845B2 (ja) | テロップ文字抽出プログラム、記録媒体、方法及び装置 | |
KR100745753B1 (ko) | 영상의 문자 영역 검출장치 및 방법 | |
JP4626886B2 (ja) | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 | |
US10748023B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
US7630544B1 (en) | System and method for locating a character set in a digital image | |
KR20040050909A (ko) | 이미지의 영역들간 판별을 위한 방법 및 장치 | |
JP6075190B2 (ja) | 画像処理方法及び装置 | |
US20060245650A1 (en) | Precise grayscale character segmentation apparatus and method | |
JP2011054080A (ja) | 画像処理装置および方法、並びにプログラム | |
US8311269B2 (en) | Blocker image identification apparatus and method | |
CN107886518B (zh) | 图片检测方法、装置、电子设备及可读取存储介质 | |
JP2021111228A (ja) | 学習装置、学習方法、及びプログラム | |
JP7119493B2 (ja) | 認識装置、認識方法およびプログラム | |
CN115862044A (zh) | 用于从图像中提取目标文档部分的方法、设备和介质 | |
JP3544324B2 (ja) | 文字列情報抽出装置及び方法及びその方法を記録した記録媒体 | |
JPH1125222A (ja) | 文字切り出し方法及び文字切り出し装置 | |
Yang et al. | Text detection in video images using adaptive edge detection and stroke width verification | |
KR102180478B1 (ko) | 자막 검출 장치 및 그 방법 | |
JP4253265B2 (ja) | 影検出装置、影検出方法及び影検出プログラム、影検出装置を用いた画像処理装置、影検出方法を用いた画像処理方法及び影検出プログラムを用いた画像処理プログラム | |
Jaiswal et al. | Automatic image cropping using saliency map | |
JP2001291056A (ja) | 文書画像認識装置及び記録媒体 | |
Tribuzy et al. | Vehicle License Plate Preprocessing Techniques Using Graphical Interface | |
CN115731185A (zh) | 基于拉普拉斯算子的电力设备模糊图像识别方法及系统 | |
CN117745589A (zh) | 水印去除方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050906 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061026 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080502 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101019 |