JP5588987B2 - 画像及び映像ocrのためのテキストの位置決め - Google Patents
画像及び映像ocrのためのテキストの位置決め Download PDFInfo
- Publication number
- JP5588987B2 JP5588987B2 JP2011526127A JP2011526127A JP5588987B2 JP 5588987 B2 JP5588987 B2 JP 5588987B2 JP 2011526127 A JP2011526127 A JP 2011526127A JP 2011526127 A JP2011526127 A JP 2011526127A JP 5588987 B2 JP5588987 B2 JP 5588987B2
- Authority
- JP
- Japan
- Prior art keywords
- region
- text
- stroke
- threshold
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 71
- 238000012706 support-vector machine Methods 0.000 claims description 29
- 238000012015 optical character recognition Methods 0.000 claims description 19
- 239000003086 colorant Substances 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 25
- 238000001514 detection method Methods 0.000 description 11
- 238000003909 pattern recognition Methods 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 208000004350 Strabismus Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229940052586 pro 12 Drugs 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
本発明は、2008年9月30日出願のYu他に付与された米国特許仮出願第61/190,992号に関連し、かつその優先権の恩典を請求するものであり、この文献は、引用によって本明細書に組み込まれている。本出願は、全てがCandeloreに付与された2007年2月14日出願の米国特許出願第11/706,919号、2007年2月14日出願の第11/706,890号、2007年3月8日出願の第11/715,856号、及び2007年2月14日出願の第11/706,529号に関連し、これらの文献は、引用によって本明細書に組み込まれている。
本特許文献の開示内容の一部分は、権利保護の対象になる素材を含む。権利所有者は、米国特許商標庁の特許ファイル又は記録に見られる特許文献又は特許開示のファクシミリ複製に対していかなる異存も持たないが、他の場合はいかなる場合であっても全ての著作権を保有する。商標は、そのそれぞれの所有者の所有物である。
[1]Rainer Lienhart著「映像OCR:要覧及び従事者ガイド」、「映像マイニング」において、「Kluwer Academic Publisher」、155〜184ページ、2003年10月
[2]Keechul Jung、Kwang In Kim、及びAnil K.Jain著「画像及び映像におけるテキスト情報抽出:要覧」、パターン認識、第37巻、2004年、977〜997ページ
[3]Jian Liang、David Doermann、及びHuiping Li著「カメラベースのテキスト及び文書解析」、要覧、IJDAR、第7巻、第2号〜第3号、2005年
[4]Anil K.Jain及びBin Yu著「画像及び映像フレーム内のテキスト位置決め」、パターン認識、第31巻、第12号、1998年
[5]Shio J.Ohya及びS.Akamatsu著「シーン画像内の文字認識」、パターン分析及び機械知能に関するIEEE会報、第16巻、第2号、1994年、214〜220ページ
[6]C.M.Lee、A.Kankanhalli著「複雑な画像内の文字の自動抽出」、国際パターン認識及び人工知能ジャーナル、9(1)、1995年、67〜82ページ
[7]M.A.Smith、T.Kanade著「オーディオ及び画像特徴付けに基づく簡易走査検索のための映像スキミング」、カーネギーメロン大学技術報告書CMU−CS−95−186、1995年7月
[8]D.Chen、K.Shearer、及びH.Bourlard著「映像OCRのための非対称フィルタによるテキスト強調」、国際画像解析及び処理会議会報、パレルモ、イタリア、2001年、192〜197ページ
[9]H.Li、D.Doermann、O.Kia著「デジタル映像における自動テキスト検出及び追跡」、IEEE画像処理会報、9(1)、2001年、147〜156ページ
[10]D.Chen、H.Boulard、J−P.Thiran著「SVMを用いた複雑な背景内でのテキスト識別」、コンピュータ視覚及びパターン認識に関するIEEE会報、第2巻、2001年、621〜626ページ
[11]Xiangrong Che、Alan L.Yuille著「自然のシーン内のテキストの検出と読取り」、コンピュータ視覚及びパターン認識に関するIEEE会報、第2巻、2004年、366〜373ページ
[12]Edward K.Wong及びMinya Chen著「映像テキスト抽出のための新しいロバストアルゴリズム」、パターン認識、第36号、2003年、1398〜1406ページ
[13]K.Subramanian、P.Natarajan、M.Decerbo、及びD.Castanon著「テキストの位置及び抽出のための文字ストローク検出」、IEEE文書解析及び認識会報、第1巻、2007年、23〜26ページ
[14]Richard Nock及びFrank Nielsen著「統計的領域融合」、パターン解析及び機械知能に関するIEEE会報、第26巻、第11号、2004年、1452〜1458ページ
[15]V.Vapnik著「統計的学習理論」、「John Wiley and Sons」、1998年
[16]Chih−Chung Chang及びChih−Jen Lin制作「LIBSVM:サポートベクトルマシン向けライブラリ」、http://www.csie.ntu.edu.tw/〜cjlin/libsvにおいて入手可能なソフトウエア、2001年
[17]W.Niblack著「デジタル画像処理入門」、「Prentice Hall」、1986年、115〜116ページ
[18]N.Otsu著「濃淡レベルヒストグラムからの閾値選択法」、システム、人間、及びサイバネティクスに関するIEEE会報、第9巻、第1号、1979年、62〜66ページ
[19]S.D.Yanowitz及びA.M.Bruckstein著「画像セグメント化のための新しい方法」、「CVGIPコンピュータ視覚、グラフィック、及び画像処理」、第46巻、第1号、1989年、82〜95ページ
[20]S.M.Lucas、A.Panaretos、L.Sosa、A.Tang、S.Wong、及びR.Young著「ICDAR2003ロバストな読取競合」、「文書の解析及び認識に関する第7回国際会議ICDAR2003」において、2003年
[21]S.M.Lucas著「ICDAR2005テキスト位置決め競合結果」、ICDAR2005、80〜84ページ
図1は、104で始まるある一定の実施形態による映像OCR処理100の流れ図例である。この図は、図の各ブロックが、プログラム式プロセッサ、状態機械、及び/又は専用ハードウエアを用いて実施することができるシステムの機能ブロックを表すシステム図と捉えることができる。108では、システムは、入力画像又はキーフレームを受け取る。次に、112では、画像は類似色の領域へとセグメント化される。これらの領域に代表色が割り当てられると、得られる画像は、限られた数の色でレンダリングされたものに似て、色領域の境界においてブロック状の外見を有する。予備処理ブロック116では、これらの領域が、サイズ、アスペクト比、フィルファクタのような経験則的制約によってフィルタリングされる。120では、残りの領域の特徴が抽出される。124では、これらの特徴が、領域をテキスト領域と非テキスト領域とに分類するSVM分類子に供給される。128では、これらのテキスト領域が強調され、2値化される。最後に132において、プログラム式プロセッサの形態に実施することができるOCRエンジンにおいてOCR処理が実施される。OCRエンジンは、2値化された領域に対して機能し、認識結果を認識されたテキストの形態で出力し、処理は136で終了する。図1の様々な要素を下記でより詳細に説明する。
A.分割化
ある一定の実施によると、参考文献[14]に説明されている統計的領域融合アルゴリズムが入力画像に適用されて類似色の領域が得られるが、他のアルゴリズムを用いることもできる。本明細書の目的では、本明細書において一実施例に用いる「類似色」という用語は、2つの領域の平均の赤、緑、青(R、G、B)の値の絶対差が、以下の通りに定式化することができる融合閾値内にあることを意味する(ここでは一方の領域をプライム記号によって表し、上線が平均値を表す)。
セグメント化の後には、類似色の領域が得られる。目標は、これらの領域をテキスト領域と非テキスト領域とに分類することである。分類の効率を改善するために、最初にテキストではない可能性が非常に高い領域が除去される。従って、一実施では、以下の条件が調べられる。
(1)領域高さが何らかの閾値T_低よりも低いか又は領域高さがT_高よりも高い場合には、その領域は廃棄される。
(2)領域面積が、何らかの閾値T_面積よりも小さい場合には、その領域は廃棄される。
(3)領域が、画像境界の4つの辺のうちの1つに接触し、その高さが閾値Tよりも高い場合には、その領域は廃棄される。
(4)次式で定められるフィル_ファクタが、閾値T_フィルよりも小さい場合には、その領域は廃棄される。
T_低=10
T_高=HEIGHT*0.9(HEIGHTは、画像サイズの高さである)
T_面積=12
T=HEIGHT/2
T_フィル=0.1
他の実施では他の値を適切なものとすることができ、この値は、経験的に更に最適化することができる。
規則1.(高さ類似性)
規則2.(色類似性)D(c1,c2)=
規則3.(領域距離)D領域<T領域
ここで、D領域は2つの領域の水平距離である。
規則4.(水平アラインメント)D上部<T整列又はD下部<T整列
ここで、D上部及びD下部は、上部境界と下部境界の間の垂直距離である。D領域、D上部、及びD下部の定義に対しては図3を参照されたい。閾値は以下の通りに経験的に設定されるが、他の実施では他の設定を適切なものとすることができ、規則及び規則の修正、並びに閾値は、更に以下のように最適化することができる。
T高さ_類似=2.5
T色=80
T領域=HEIGHT1+HEIGHT2
次に、残りの領域の特徴が抽出される。用いられる特徴は、ストローク幅特徴、エッジ特徴、及びフィルファクタ特徴であり、これらに対して以下の通りに詳述する。
図5は、図5A〜図Bから構成され、ストローク幅の概念を示している。本出願の論旨では、ストローク幅をストロークの2つのエッジ間の水平方向のピクセル幅であると考えられる。ストローク幅の分散が閾値内にある近傍の百分率を用いる本方法では、実際の幅は特に重要ではない。
ストローク幅特徴s1、s2、s3、s4を抽出する擬似コード
特徴s1:一定の垂直ストローク幅の尺度
s1=VerticalConstStrokeWidth(img)
入力:
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1であり、画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
s1:一定の垂直ストローク幅の尺度になる特徴値
1.img内の各ピクセル(x,y)に対して、ストローク幅アレイStrokeWidthMapを計算する。
a.背景内のピクセル(x,y)では、ストローク幅は0である:
StrokeWidthMap(x,y)=0
b.前景内のピクセルでは、ストローク幅は、現在のストロークのエッジ間の距離である。例えば、図Aでは、赤線内のピクセルは全て30−10=20のストローク幅を有することになる:
StrokeWidthMap(10:30,60)=20(注意:10:30は、10から30までの座標を意味する)
2.各ピクセル(x,y)に関するストローク幅マップのアレイStrokeWidthMapが得られる(注意:StrokeWidthMapは、imgと同じ次元を有する)。
3.(x,y∈[r,r+Tn])に対して(言い換えれば、各列のxに対して及びTnがTn=max(2,ceil(HEIGHT/10))で定められる場合のTn行の各近傍に対して)、
a.ストローク幅の中央値を計算する:
medianW=median(StrokeWidthMap(x,r:r+Tn)
b.ストローク幅の標準偏差を計算する。
stdW=std(StrokeWidthMap(x,r:r+Tn))
c.medianW<WIDTH/3(ストローク幅中央値が過度に大きくない)、
stdW<medianW*0.5(標準偏差が小さい)
という条件が満たされる場合に、上述の近傍は、一定の垂直ストローク幅を有し、従って、
constStrokeNum=constStrokeNum+1
4.特徴s1は、一定の垂直ストローク幅を有する近傍の比である:
s1=constStrokeNum/total
ここで、totalは、ストロークを有する近傍の数である。
特徴s2:一定の水平ストローク幅の尺度
s2=HorizontalConstStrokeWidth(img)
入力:
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
s2:一定の垂直ストローク幅の尺度になる特徴値
1.img内の各行yに対して、現在の行に関するストローク幅を計算し、アレイStrokeWidthを検索する(StrokeWidthは、imgと同じ行数を有し、各行は、現在の行におけるストロークに対するストローク幅を有する)
2.StrokeWidth内の各行yに対して、
a.StrokeWidthの中央値を計算する:
medianW=median(StrokeWidth(y))
b.StrokeWidthの標準偏差を計算する:
stdW=std(StrokeWidth(y))
c.標準偏差とストローク幅の中央値との比が閾値よりも小さく、すなわち、
stdW/medianW<WidthStdT(閾値WidthStdT=0.5)
である場合には、この行は、水平一定ストローク幅を有する行と見なされ、すなわち、
constStrokeNum=constStrokeNum+1
d.他の場合はStrokeWidth(y)をクラスター化する。これらのクラスターのうちのいずれか1つが、3つよりも多くのメンバ(外れ値ではない)を有し、これらの中央値及び標準偏差が、
stdW/medianW<WidthStdT
を満たす場合には、この行は、水平一定ストローク幅を有する行と見なされ、すなわち、
constStrokeNum=constStrokeNum+1
3.特徴s2は、
s2=constStrokeNum/total
であり、ここでtotalは、画像内で1つよりも多くのストロークを有する行の数である。
特徴s3:現在のストロークから次の隣接ストロークまでの距離とストローク幅との比
s3=RatioStrokeDistWidth(img)
入力:
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1であり、画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
s3:現在のストロークから次の隣接ストロークまでの距離とストローク幅との比
1.ストローク幅StrokeWidthを計算する(特徴s2を抽出する段階におけるものと同じものである)。
2.現在のストロークから次の隣接ストロークまでの距離StrokeDistを計算する。
3.比ratioを計算する。
ratio=StrokeDist/StrokeWidth
4.ratioをアレイStrokeDistWidthRatio内に入れる。
5.特徴s3=median(StrokeDistWidthRatio)
特徴s4:最頻出ストローク幅の比
s4=RatioMostStrokeWidth(img)
入力:
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
s4:最頻出ストローク幅の比
1.ストローク幅アレイStrokeWidthのヒストグラムH:[H,Xw]=hist(StrokeWidth,10)を計算し、ここで、10は、ヒストグラムを計算するためのビン数であり、Hは、ビンのヒストグラム又は度数であり、Xwは、ビンの位置である。
2.ヒストグラム[sH,sI]=sort(H)を選別し、ここで、sHは、選別されたヒストグラムであり、sIは指標であり、すなわち、sH=H(sI)である。
3.sH(l)/sum(sI)=1である(1つのストローク幅しか存在しない)場合には、s4=0である。
4.他の場合は、s4=Xw(sI(1))/Xw(sI(2))であり、sI(1)及びsI(2)は、最頻出ストローク幅の指標である。
この実施例では、同様に、1組のエッジ特徴(e1,e2,e3)が用いられる。テキストには多くのエッジが存在する。従って、テキスト位置決めを助ける上でエッジ特徴を用いることができる。第1のエッジ特徴e1は、一般的に、テキスト文字が滑らかなエッジを有することに基づいている。特徴値e1は、同じ方向を有する5×5の近傍、すなわち、滑らかな方向を有するブロックの比として計算される。エッジ特徴e2は、通常テキスト文字が全方向のエッジを有するという考察に基づいている。特徴値e2は、最も多くの場合に出現するエッジ方向の度数である。通常テキスト文字は全方向のエッジを有するので、この度数が非常に高い場合には、非常に高い確率でそれはテキストではない。これが、テキスト領域と非テキスト領域とを区別する特徴としてe2が選択される理由である。最後のものは、テキストが有するエッジの量を特徴付けることができる領域面積に対する合計エッジ長の比である。
エッジ特徴(e1,e2,e3)を抽出する擬似コード
特徴e1:エッジ滑らかさ
e1=EdgeSmoothness(img)
入力:
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
e1:エッジの滑らかさの尺度になる特徴
1.Sobelエッジ検出:
Edge=SobelEdge(img)
を用いて8方向(0、π/4、π/2、3π/4、π、5π/4、3π/2、7π/4)のエッジを抽出する。
ここで、Edgeはimgと同じ次元を有し、エッジの位置で、エッジの方向に依存して1から8までの値を有し、非エッジの位置において0という値を有する。
2.Edge(x,y)≠0を満たす(x,y)に対して、
a.近傍を定める:neighborhood=edge([x−w:x+w],[y−w:y+w])
ここで、
c.現在の方向を有するピクセル数curDirNumを検索する。
d.近傍内でエッジピクセルの数を検索し、すなわち、
neighborEdgeNum=Length(neighborhood≠0)
e.同じ方向を有するエッジピクセルの比を計算する:
R(x,y)=curDirNum/neighborEdgeNum
3.エッジ滑らかさ特徴を計算する。
e1=length(R>T)/length(Edge≠0)
特徴2:エッジ方向の均一性。
e2=EdgeUniformity(img)
入力:
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
e2:エッジの均一性の尺度になる特徴
1.段階1で抽出された特徴e1の8つのエッジ方向を4つの方向Edge4へと量子化し、すなわち、Edgeにおける(5π/4,3π/2,7π/4)は、Edge4では(π/4,π/2,3π/4)になる。
2.4つの方向のヒストグラムを計算する:H=hist(Edge4(Edge4≠0))
3.Hの極大値を計算する:maxH=max(H)、従って、maxHは、方向が出現する最大回数である。
4.エッジ均一性特徴を計算する。
e2=maxH/sum(H)
特徴e3:エッジ量
e3=EdgeAmount(img)
入力:
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
e2:エッジ量の尺度になる特徴
1.Sobelエッジ検出:
Edge=SobelEdge(img)
を用いて8方向(0、π/4、π/2、3π/4、π、5π/4、3π/2、7π/4)のエッジを抽出する。
ここで、Edgeは、imgと同じ次元を有し、エッジの位置で、エッジの方向に依存して1から8までの値を有し、非エッジの位置において0という値を有する。
2.エッジ長を計算する:EdgeLength=/engtfz(Edge≠0)
3.imgの前景面積を計算する。
4.ForeArea=長さ(img(前景))
5.フィルファクタAreaFillを計算する。
6.AreaFill=ForeArea/(WIDTH*HEIGHT)
7.特徴を計算する、e3=EdgeLength/AreaFill
この実施例では1組のフィルファクタ特徴(f1、f2)が同様に用いられる。この特徴群は、テキストの前景が境界ボックスを充填することに基づいている。テキストの前景は境界ボックス全体を充填するわけではないか、又は境界ボックスの僅かしか充填しない。また、狭い近傍では、テキストの前景は、近傍全体を充填するわけではないという性質を有する。
フィルファクタ特徴f1、f2を抽出する擬似コード
特徴f1:領域全体のフィル特徴
f1=FillFactorWhole(img)
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
f1:候補画像のフィルファクタの尺度になる特徴
1.imgの前景面積を計算する。
2.ForeArea=長さ(img(前景))
3.imgの全体面積を計算する:WholeArea=WIDTH×HEIGHT
4.特徴を計算する、f1=ForeArea/WholeArea
特徴f2:局所近傍のフィル特徴
f2=FillFactorNeighborhood(img)
img:テキスト又は非テキストとして分類される2値画像:前景は黒色、背景は白色、すなわち、img(前景)=0、img(背景)=1である。画像内の行数はHEIGHTであり、画像内の列数はWIDTHである。
出力:
f2:候補画像の局所近傍内のフィルファクタの尺度になる特徴
1.x、yがstepSize=HEIGHT/3で増加する(x,y)に対して、
a.現在の近傍を得る:curN=img(x:x+stepSize,y:y+stepSize)
b.現在の近傍内の前景面積を計算する:
AreaN=length(curN(前景))
c.近傍のフィルファクタを計算する:
FillFactorN(j)=AreaN/Area(curN)
ここで、jは、現在の近傍に対する指標である。
2.大きいフィルファクタを有する近傍の数を検索する。
N=length(FillFactorN>T)
3.特徴f2は、大きいフィルファクタを有するブロックの百分率である:
f2=N/length(FillFactorN)
SVMは、参考文献[15]に説明されており、統計的学習理論を契機とする技術であり、数々の分類作業に首尾良く適用されている。重要な概念は、最大格差を有する2つのクラスを決定面を用いて分離することである。この概念は、トレーニングエラーではなく、高次元空間内でのモデルの一般化エラーに対する限度を最小にする。SVMでは、学習作業は、正のクラスと負のクラスとにおける相対的なトレーニング例の数に依存しない(この場合の検出作業では、負のクラスは、正のクラスよりも非常に多くのサンプルを有する)。従って、この実施例では、SVMが好ましい分類子として選択される。
テキスト領域を識別した後には、OCRソフトウエアがテキストを容易に認識することができるように、これらの領域を強調し、2値化すべきである。殆どのOCRソフトウエアは、十分に高い解像度でないとテキストを認識することができない。従って、テキストの高さが約75ピクセルより低い場合は(現時点で)、拡大段階が必要である可能性がある。拡大の前に、ヒストグラム均等化、鮮明化のようないくつかの強調を適用することができる。
本発明のアルゴリズムを2組のデータに対して試験した。一方のものは、ICDAR2003のテキスト位置決め競合のデータセット[20]である。ICDAR2003のデータセットには、トレーニングセット内に248個の画像があり、試験セット内に251個の画像がある。各セット内には、約1000個のテキストセグメントが存在する。このデータセット内の画像の殆どは、手持ち式デバイスを用いて屋外で撮影されたものである。他方のデータセットは、ニュース、商業広告、スポーツゲーム等からの画像を含むTV番組から収集した。このデータセット内には、約5000テキストセグメントを有する489個の画像がある。
(1)領域_高さが、何らかの閾値T_低よりも低いか、又は領域_高さが、何らかの閾値T_高よりも高い場合、又は
(2)領域_面積が、何らかの閾値T_面積よりも小さい場合、又は
(3)領域が、画像境界の4つの辺のうちの1つに接触し、その高さが閾値Tよりも高い場合、又は
(4)
(1)領域_高さが、何らかの閾値T_低よりも低いか、又は領域_高さが、何らかの閾値T_高よりも高い場合、又は
(2)領域_面積が、何らかの閾値T_面積よりも小さい場合、又は
(3)領域が、画像境界の4つの辺のうちの1つに接触し、その高さが閾値Tよりも高い場合、又は
(4)
Claims (17)
- 映像画像におけるテキスト検出の方法であって、
画像処理プロセッサにおいて、潜在的にテキストを含む映像フレームを受け取る段階と、
前記画像を類似色を有する領域へとセグメント化する段階と、
を含み、
前記類似色の色類似性が、
方法は、さらに、
前記類似色を有する領域から高可能性の非テキスト領域を識別し、該高可能性の非テキスト領域を廃棄する段階と、
前記類似色を有し、かつ、前記融合閾値T color 内である水平位置を有する領域を融合する段階と、
ストローク特徴、エッジ特徴、及びフィルファクタ特徴を抽出する特徴抽出処理を実施することにより、特徴を用いて前記領域を説明する段階と、
OCRソフトウエアによる処理のために2値化される最終テキスト領域を得るよう、残りの領域をトレーニングされた2値分類子に通す段階と、
を含むことを特徴とする方法。 - 前記2値化された最終テキスト領域を光学文字読取器に通す段階を更に含むことを特徴とする請求項1に記載の方法。
- 前記セグメント化する段階は、
隣接ピクセルの色差を計算する段階と、該ピクセルをそれらの色差に従って選別する段階と、領域が生成されるように閾値よりも小さい色差を有するピクセルを融合する段階と、
を含む、
ことを特徴とする請求項1に記載の方法。 - 前記2値分類子は、サポートベクトルマシン(SVM)ベースの分類子を含むことを特徴とする請求項1に記載の方法。
- ストローク幅の値は、該ストローク幅が閾値内にある場合に類似すると見なされることを特徴とする請求項1に記載の方法。
- 前記ストローク特徴は、ストローク幅の標準偏差が閾値内にある前記画像における近傍の百分率又は類似ストローク幅を垂直に有する近傍の百分率を表す特徴値を含むことを特徴とする請求項1に記載の方法。
- 前記ストローク特徴は、水平ストローク幅の標準偏差が閾値内にある行又は群へとクラスター化することができ、かつ各群内の水平ストローク幅の標準偏差が閾値内にある行の百分率、又は類似ストローク幅又は類似ストローク幅のクラスターを有する行の百分率を表す特徴値を含むことを特徴とする請求項1に記載の方法。
- 前記ストローク特徴は、現在のストローク幅と該現在のストロークから隣接ストロークまでの距離との平均比を含むことを特徴とする請求項1に記載の方法。
- 前記ストローク特徴は、最も多くの場合に出現する2つのストローク幅の比を含むことを特徴とする請求項1に記載の方法。
- エッジ特徴は、候補領域内のエッジの滑らかさ、エッジの均一性、及びエッジの量の測定値であり、
エッジの滑らかさは、同じ方向を有する近傍の百分率によって表され、エッジの均一性は、最も多くの場合に出現するエッジ方向の度数として計算され、前記エッジの量は、前記領域の面積に対する合計エッジの長さの比によって測定される、
ことを特徴とする請求項1に記載の方法。 - フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出されることを特徴とする請求項1に記載の方法。
- 前記2値化は、複数の2値化法を用いて実施され、各2値化された出力は、組み合わされる複数の出力を生成するために光学文字読取器によって処理されることを特徴とする請求項1に記載の方法。
- HEIGHT1及びHEIGHT2が、2つの領域の高さである場合に、高さ類似性が、
各特徴が、前記領域のストローク特徴、エッジ特徴、及びフィルファクタ特徴によって表される場合に、特徴抽出処理を実施して各残りの領域を説明する段階と、
下式:
を含み、
ここで、(xi,yi)は、前記特徴ベクトル及びトレーニングサンプルの真値ラベルであり、xは、分類される前記領域の該特徴ベクトルであり、αi及びbは、yTα=0(0≦αi≦C,i=1,...,l)の制約下で、
ことを特徴とするテキスト検出方法。 - フィルファクタ特徴は、候補画像全体と近傍毎の両方で抽出されることを特徴とする請求項14に記載の方法。
- 前記2値化は、複数の2値化法を用いて実施され、各2値化された出力は、組み合わされる複数の出力を生成するために光学文字読取器によって処理されることを特徴とする請求項14に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US19099208P | 2008-09-03 | 2008-09-03 | |
US61/190,992 | 2008-09-03 | ||
US12/380,394 | 2009-02-26 | ||
US12/380,394 US8320674B2 (en) | 2008-09-03 | 2009-02-26 | Text localization for image and video OCR |
PCT/US2009/055496 WO2010027933A1 (en) | 2008-09-03 | 2009-08-31 | Text localization for image and video ocr |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012502359A JP2012502359A (ja) | 2012-01-26 |
JP5588987B2 true JP5588987B2 (ja) | 2014-09-10 |
Family
ID=41725535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011526127A Expired - Fee Related JP5588987B2 (ja) | 2008-09-03 | 2009-08-31 | 画像及び映像ocrのためのテキストの位置決め |
Country Status (8)
Country | Link |
---|---|
US (1) | US8320674B2 (ja) |
EP (1) | EP2321767A1 (ja) |
JP (1) | JP5588987B2 (ja) |
KR (1) | KR101452562B1 (ja) |
CN (1) | CN102144236B (ja) |
CA (1) | CA2735824A1 (ja) |
MX (1) | MX2011002293A (ja) |
WO (1) | WO2010027933A1 (ja) |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8306327B2 (en) * | 2008-12-30 | 2012-11-06 | International Business Machines Corporation | Adaptive partial character recognition |
JP4998496B2 (ja) * | 2009-03-16 | 2012-08-15 | 富士ゼロックス株式会社 | 画像処理装置、情報処理装置および画像読取装置 |
US20110082735A1 (en) * | 2009-10-06 | 2011-04-07 | Qualcomm Incorporated | Systems and methods for merchandising transactions via image matching in a content delivery system |
JP5840130B2 (ja) * | 2009-12-31 | 2016-01-06 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | テキストを含む映像領域の前処理方法及びシステム |
US8526732B2 (en) * | 2010-03-10 | 2013-09-03 | Microsoft Corporation | Text enhancement of a textual image undergoing optical character recognition |
US8509534B2 (en) * | 2010-03-10 | 2013-08-13 | Microsoft Corporation | Document page segmentation in optical character recognition |
US8660371B2 (en) * | 2010-05-06 | 2014-02-25 | Abbyy Development Llc | Accuracy of recognition by means of a combination of classifiers |
US9076068B2 (en) * | 2010-10-04 | 2015-07-07 | Datacolor Holding Ag | Method and apparatus for evaluating color in an image |
KR101506446B1 (ko) * | 2010-12-15 | 2015-04-08 | 에스케이 텔레콤주식회사 | 움직임정보 병합을 이용한 부호움직임정보생성/움직임정보복원 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치 |
CN102622724A (zh) * | 2011-01-27 | 2012-08-01 | 鸿富锦精密工业(深圳)有限公司 | 外观专利图像切割方法及系统 |
US20140163969A1 (en) * | 2011-07-20 | 2014-06-12 | Tata Consultancy Services Limited | Method and system for differentiating textual information embedded in streaming news video |
JP5853470B2 (ja) | 2011-07-29 | 2016-02-09 | ブラザー工業株式会社 | 画像処理装置、画像処理プラグラム |
JP5796392B2 (ja) | 2011-07-29 | 2015-10-21 | ブラザー工業株式会社 | 画像処理装置、および、コンピュータプラグラム |
JP5842441B2 (ja) | 2011-07-29 | 2016-01-13 | ブラザー工業株式会社 | 画像処理装置およびプログラム |
JP5776419B2 (ja) * | 2011-07-29 | 2015-09-09 | ブラザー工業株式会社 | 画像処理装置、画像処理プラグラム |
FI20115821A0 (fi) * | 2011-08-24 | 2011-08-24 | Syslore Oy | Laite ja menetelmä kuljetusobjektissa olevien kiinnostusalueiden havaitsemiseen |
US8494284B2 (en) | 2011-11-21 | 2013-07-23 | Nokia Corporation | Methods and apparatuses for facilitating detection of text within an image |
US9349066B2 (en) | 2012-01-06 | 2016-05-24 | Qualcomm Incorporated | Object tracking and processing |
EP2803013A1 (en) * | 2012-01-09 | 2014-11-19 | Qualcomm Incorporated | Ocr cache update |
RU2609069C2 (ru) * | 2012-01-31 | 2017-01-30 | Хьюлетт-Паккард Дивелопмент Компани, Л.П. | Обнаружение текста в изображениях графических пользовательских интерфейсов |
US20130205213A1 (en) * | 2012-02-06 | 2013-08-08 | edX Inc. | Caption-based navigation for a video player |
US8897565B1 (en) | 2012-06-29 | 2014-11-25 | Google Inc. | Extracting documents from a natural scene image |
CN103577817B (zh) * | 2012-07-24 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
US20140193029A1 (en) * | 2013-01-08 | 2014-07-10 | Natalia Vassilieva | Text Detection in Images of Graphical User Interfaces |
CN103049750B (zh) * | 2013-01-11 | 2016-06-15 | 广州广电运通金融电子股份有限公司 | 字符识别方法 |
US8712566B1 (en) * | 2013-03-14 | 2014-04-29 | Zazzle Inc. | Segmentation of a product markup image based on color and color differences |
KR101449257B1 (ko) * | 2013-03-26 | 2014-10-08 | 현대자동차주식회사 | 각인 문자 인식 장치 및 그 방법과 이를 이용한 문자의 각인 깊이 검출 시스템 |
US9148675B2 (en) * | 2013-06-05 | 2015-09-29 | Tveyes Inc. | System for social media tag extraction |
US8831329B1 (en) | 2013-06-28 | 2014-09-09 | Google Inc. | Extracting card data with card models |
US9171224B2 (en) * | 2013-07-04 | 2015-10-27 | Qualcomm Incorporated | Method of improving contrast for text extraction and recognition applications |
US9292763B2 (en) * | 2013-07-25 | 2016-03-22 | Analog Devices Global | System, method, and medium for image object and contour feature extraction |
US9076056B2 (en) * | 2013-08-20 | 2015-07-07 | Adobe Systems Incorporated | Text detection in natural images |
US9762950B1 (en) * | 2013-09-17 | 2017-09-12 | Amazon Technologies, Inc. | Automatic generation of network pages from extracted media content |
KR20150037061A (ko) | 2013-09-30 | 2015-04-08 | 삼성전자주식회사 | 디스플레이장치 및 그 제어방법 |
US10297287B2 (en) | 2013-10-21 | 2019-05-21 | Thuuz, Inc. | Dynamic media recording |
CN103595861A (zh) * | 2013-10-23 | 2014-02-19 | 南京邮电大学 | 一种终端识别电话号码自动拨号或发送短信的方法 |
US9560449B2 (en) | 2014-01-17 | 2017-01-31 | Sony Corporation | Distributed wireless speaker system |
US9288597B2 (en) | 2014-01-20 | 2016-03-15 | Sony Corporation | Distributed wireless speaker system with automatic configuration determination when new speakers are added |
US9426551B2 (en) | 2014-01-24 | 2016-08-23 | Sony Corporation | Distributed wireless speaker system with light show |
US9866986B2 (en) | 2014-01-24 | 2018-01-09 | Sony Corporation | Audio speaker system with virtual music performance |
US9369801B2 (en) | 2014-01-24 | 2016-06-14 | Sony Corporation | Wireless speaker system with noise cancelation |
US9232335B2 (en) | 2014-03-06 | 2016-01-05 | Sony Corporation | Networked speaker system with follow me |
US9483997B2 (en) | 2014-03-10 | 2016-11-01 | Sony Corporation | Proximity detection of candidate companion display device in same room as primary display using infrared signaling |
US9496922B2 (en) | 2014-04-21 | 2016-11-15 | Sony Corporation | Presentation of content on companion display device based on content presented on primary display device |
US9583149B2 (en) | 2014-04-23 | 2017-02-28 | Daniel Stieglitz | Automated video logging methods and systems |
US9696414B2 (en) | 2014-05-15 | 2017-07-04 | Sony Corporation | Proximity detection of candidate companion display device in same room as primary display using sonic signaling |
US10070291B2 (en) | 2014-05-19 | 2018-09-04 | Sony Corporation | Proximity detection of candidate companion display device in same room as primary display using low energy bluetooth |
US9036083B1 (en) * | 2014-05-28 | 2015-05-19 | Gracenote, Inc. | Text detection in video |
CN104036292A (zh) * | 2014-06-12 | 2014-09-10 | 西安华海盈泰医疗信息技术有限公司 | 一种医学影像数字胶片中文字区域提取方法及提取系统 |
US9904956B2 (en) | 2014-07-15 | 2018-02-27 | Google Llc | Identifying payment card categories based on optical character recognition of images of the payment cards |
US9235757B1 (en) * | 2014-07-24 | 2016-01-12 | Amazon Technologies, Inc. | Fast text detection |
US10419830B2 (en) | 2014-10-09 | 2019-09-17 | Thuuz, Inc. | Generating a customized highlight sequence depicting an event |
US10433030B2 (en) | 2014-10-09 | 2019-10-01 | Thuuz, Inc. | Generating a customized highlight sequence depicting multiple events |
US11863848B1 (en) | 2014-10-09 | 2024-01-02 | Stats Llc | User interface for interaction with customized highlight shows |
US10536758B2 (en) | 2014-10-09 | 2020-01-14 | Thuuz, Inc. | Customized generation of highlight show with narrative component |
US9830508B1 (en) | 2015-01-30 | 2017-11-28 | Quest Consultants LLC | Systems and methods of extracting text from a digital image |
CN104657468B (zh) * | 2015-02-12 | 2018-07-31 | 中国科学院自动化研究所 | 基于图像与文本的视频的快速分类方法 |
CN104751142B (zh) * | 2015-04-01 | 2018-04-27 | 电子科技大学 | 一种基于笔划特征的自然场景文本检测方法 |
US9864734B2 (en) * | 2015-08-12 | 2018-01-09 | International Business Machines Corporation | Clickable links within live collaborative web meetings |
CN105095899B (zh) * | 2015-08-23 | 2018-10-09 | 华南理工大学 | 一种图片中相关文本的自动框选方法 |
US9552527B1 (en) * | 2015-08-27 | 2017-01-24 | Lead Technologies, Inc. | Apparatus, method, and computer-readable storage medium for determining a rotation angle of text |
HK1210371A2 (en) | 2015-11-20 | 2016-04-15 | 衍利行資產有限公司 | A method and system for analyzing a piece of text |
US9693168B1 (en) | 2016-02-08 | 2017-06-27 | Sony Corporation | Ultrasonic speaker assembly for audio spatial effect |
US9826332B2 (en) | 2016-02-09 | 2017-11-21 | Sony Corporation | Centralized wireless speaker system |
US9501696B1 (en) | 2016-02-09 | 2016-11-22 | William Cabán | System and method for metadata extraction, mapping and execution |
US9826330B2 (en) | 2016-03-14 | 2017-11-21 | Sony Corporation | Gimbal-mounted linear ultrasonic speaker assembly |
US9693169B1 (en) | 2016-03-16 | 2017-06-27 | Sony Corporation | Ultrasonic speaker assembly with ultrasonic room mapping |
US9794724B1 (en) | 2016-07-20 | 2017-10-17 | Sony Corporation | Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating |
US9854362B1 (en) | 2016-10-20 | 2017-12-26 | Sony Corporation | Networked speaker system with LED-based wireless communication and object detection |
US10075791B2 (en) | 2016-10-20 | 2018-09-11 | Sony Corporation | Networked speaker system with LED-based wireless communication and room mapping |
US9924286B1 (en) | 2016-10-20 | 2018-03-20 | Sony Corporation | Networked speaker system with LED-based wireless communication and personal identifier |
US10652592B2 (en) | 2017-07-02 | 2020-05-12 | Comigo Ltd. | Named entity disambiguation for providing TV content enrichment |
US10417516B2 (en) | 2017-08-24 | 2019-09-17 | Vastec, Inc. | System and method for preprocessing images to improve OCR efficacy |
US10572760B1 (en) * | 2017-11-13 | 2020-02-25 | Amazon Technologies, Inc. | Image text localization |
US11138438B2 (en) | 2018-05-18 | 2021-10-05 | Stats Llc | Video processing for embedded information card localization and content extraction |
US11025985B2 (en) | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
US11264048B1 (en) | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
CN109271999B (zh) * | 2018-09-06 | 2020-12-22 | 北京京东尚科信息技术有限公司 | 图像的处理方法、装置和计算机可读存储介质 |
US10623859B1 (en) | 2018-10-23 | 2020-04-14 | Sony Corporation | Networked speaker system with combined power over Ethernet and audio delivery |
CN109284751A (zh) * | 2018-10-31 | 2019-01-29 | 河南科技大学 | 基于频谱分析和svm的文字定位的非文本滤除方法 |
GB2596452A (en) * | 2019-02-17 | 2021-12-29 | Vizetto Inc | Systems and methods for generating documents from video content |
US11176410B2 (en) * | 2019-10-27 | 2021-11-16 | John Snow Labs Inc. | Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition |
US11521400B2 (en) | 2019-12-06 | 2022-12-06 | Synamedia Limited | Systems and methods for detecting logos in a video stream |
CN111062365B (zh) * | 2019-12-30 | 2023-05-26 | 上海肇观电子科技有限公司 | 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质 |
CA3168801A1 (en) * | 2020-01-24 | 2021-07-29 | Oswego Innovations Two Inc. | Portable tire scanners and related methods and systems |
CN111798542B (zh) * | 2020-09-10 | 2020-12-22 | 北京易真学思教育科技有限公司 | 模型训练方法、数据处理方法及装置、设备、存储介质 |
US11544828B2 (en) | 2020-11-18 | 2023-01-03 | Disney Enterprises, Inc. | Automatic occlusion detection |
US11494944B2 (en) | 2020-11-18 | 2022-11-08 | Disney Enterprises, Inc. | Automatic low contrast detection |
JP2022092119A (ja) * | 2020-12-10 | 2022-06-22 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
CN112949755B (zh) * | 2021-03-29 | 2022-09-13 | 中国科学院合肥物质科学研究院 | 一种基于图像结构信息的ocr数据合成方法 |
CN113362319A (zh) * | 2021-06-30 | 2021-09-07 | 深圳市创想三维科技股份有限公司 | 基于图像处理的激光打印方法和装置、激光打印机、计算机可读存储介质 |
US12080089B2 (en) | 2021-12-08 | 2024-09-03 | International Business Machines Corporation | Enhancing machine translation of handwritten documents |
US12008829B2 (en) | 2022-02-16 | 2024-06-11 | Vastec, Inc. | System and method for improved OCR efficacy through image segmentation |
US20240046669A1 (en) * | 2022-08-08 | 2024-02-08 | Capital One Services, Llc | Systems and methods for extracting in-video moving text in live video streams |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3361124B2 (ja) | 1991-07-30 | 2003-01-07 | ゼロックス・コーポレーション | テキストを含む2次元画像上での画像処理方法と画像処理装置 |
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
DE69330513D1 (de) | 1992-03-20 | 2001-09-06 | Commw Scient Ind Res Org | Gegenstands-überwachungsystem |
US5262860A (en) | 1992-04-23 | 1993-11-16 | International Business Machines Corporation | Method and system communication establishment utilizing captured and processed visually perceptible data within a broadcast video signal |
EP0720114B1 (en) | 1994-12-28 | 2001-01-24 | Siemens Corporate Research, Inc. | Method and apparatus for detecting and interpreting textual captions in digital video signals |
JP2007058882A (ja) * | 1996-09-27 | 2007-03-08 | Fujitsu Ltd | パターン認識装置 |
US6175844B1 (en) * | 1997-05-29 | 2001-01-16 | Adobe Systems Incorporated | Ordering groups of text in an image |
US6587586B1 (en) | 1997-06-12 | 2003-07-01 | Siemens Corporate Research, Inc. | Extracting textual information from a video sequence |
US6658662B1 (en) | 1997-06-30 | 2003-12-02 | Sun Microsystems, Inc. | Retrieving information from a broadcast signal |
US6249283B1 (en) | 1997-07-15 | 2001-06-19 | International Business Machines Corporation | Using OCR to enter graphics as text into a clipboard |
US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
US6100941A (en) | 1998-07-28 | 2000-08-08 | U.S. Philips Corporation | Apparatus and method for locating a commercial disposed within a video data stream |
US6204842B1 (en) | 1998-10-06 | 2001-03-20 | Sony Corporation | System and method for a user interface to input URL addresses from captured video frames |
US6614930B1 (en) | 1999-01-28 | 2003-09-02 | Koninklijke Philips Electronics N.V. | Video stream classifiable symbol isolation method and system |
GB2352915A (en) | 1999-08-06 | 2001-02-07 | Television Monitoring Services | A method of retrieving text data from a broadcast image |
US6469749B1 (en) | 1999-10-13 | 2002-10-22 | Koninklijke Philips Electronics N.V. | Automatic signature-based spotting, learning and extracting of commercials and other video content |
US8528019B1 (en) | 1999-11-18 | 2013-09-03 | Koninklijke Philips N.V. | Method and apparatus for audio/data/visual information |
US6470094B1 (en) * | 2000-03-14 | 2002-10-22 | Intel Corporation | Generalized text localization in images |
TW518890B (en) | 2000-03-21 | 2003-01-21 | Koninkl Philips Electronics Nv | System and method for automatic content enhancement of multimedia output device |
US6674900B1 (en) * | 2000-03-29 | 2004-01-06 | Matsushita Electric Industrial Co., Ltd. | Method for extracting titles from digital images |
JP3923243B2 (ja) * | 2000-07-24 | 2007-05-30 | 独立行政法人科学技術振興機構 | カラー文書画像からの文字抽出方法 |
WO2002025575A2 (en) | 2000-09-22 | 2002-03-28 | Sri International | Method and apparatus for portably recognizing text in an image sequence of scene imagery |
US20020083464A1 (en) | 2000-11-07 | 2002-06-27 | Mai-Ian Tomsen | System and method for unprompted, context-sensitive querying during a televison broadcast |
US6778700B2 (en) | 2001-03-14 | 2004-08-17 | Electronics For Imaging, Inc. | Method and apparatus for text detection |
JP2003101774A (ja) * | 2001-09-25 | 2003-04-04 | Ricoh Co Ltd | 画像処理装置 |
AU2002351310A1 (en) | 2001-12-06 | 2003-06-23 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
US7073193B2 (en) | 2002-04-16 | 2006-07-04 | Microsoft Corporation | Media content descriptions |
KR100483451B1 (ko) | 2002-05-27 | 2005-04-15 | 주식회사 아이큐브 | 컨텐츠 파일과 네비게이션 정보의 편집처리방법 및 그 방법에 의하여 정보가 기록된 기록매체 |
AU2003273253A1 (en) | 2002-08-26 | 2004-03-11 | Siftology, Inc. | Relating media to information in a workflow system |
EP1570655A1 (en) | 2002-11-22 | 2005-09-07 | Koninklijke Philips Electronics N.V. | Device for receiving a signal containing text information that can be used for programming the reception |
RU2234734C1 (ru) | 2002-12-17 | 2004-08-20 | Аби Софтвер Лтд. | Способ многоэтапного анализа информации растрового изображения |
JP4112968B2 (ja) | 2002-12-26 | 2008-07-02 | 富士通株式会社 | ビデオテキスト処理装置 |
US7139033B2 (en) | 2003-02-19 | 2006-11-21 | Sharp Laboratories Of America, Inc. | System and method for television frame capture and display |
US8285727B2 (en) | 2003-03-06 | 2012-10-09 | Thomson Licensing S.A. | Simplified searching for media services using a control device |
EP1463301A1 (en) | 2003-03-19 | 2004-09-29 | Thomson Licensing S.A. | Method for identification of tokens in video sequences |
US7921449B2 (en) | 2003-03-27 | 2011-04-05 | Sony Corporation | Smooth still image capture |
US20050246747A1 (en) | 2003-03-31 | 2005-11-03 | Matsushita Electric Industrial Co., Ltd. | Utilization of data broadcasting technology with handheld control apparatus |
KR100487538B1 (ko) | 2003-05-01 | 2005-05-03 | 주식회사 알티캐스트 | Tv 플라자 기능을 갖는 셋톱박스를 이용한 정보브라우징 방법 |
US20070028282A1 (en) | 2003-09-12 | 2007-02-01 | Koninklijke Philips Electronics N.V. | Start up method for a television apparatus |
US20060008260A1 (en) | 2004-01-12 | 2006-01-12 | Yu-Chi Chen | Disk player, display control method thereof, data analyzing method thereof |
US8132204B2 (en) | 2004-04-07 | 2012-03-06 | Visible World, Inc. | System and method for enhanced video selection and categorization using metadata |
US20060053470A1 (en) | 2004-04-30 | 2006-03-09 | Vulcan Inc. | Management and non-linear presentation of augmented broadcasted or streamed multimedia content |
EP1810182A4 (en) | 2004-08-31 | 2010-07-07 | Kumar Gopalakrishnan | METHOD AND SYSTEM FOR PROVIDING INFORMATION SERVICES RELEVANT TO VISUAL IMAGE |
US7716714B2 (en) | 2004-12-01 | 2010-05-11 | At&T Intellectual Property I, L.P. | System and method for recording television content at a set top box |
US20060179453A1 (en) | 2005-02-07 | 2006-08-10 | Microsoft Corporation | Image and other analysis for contextual ads |
US7570816B2 (en) | 2005-03-31 | 2009-08-04 | Microsoft Corporation | Systems and methods for detecting text |
US7607582B2 (en) | 2005-04-22 | 2009-10-27 | Microsoft Corporation | Aggregation and synchronization of nearby media |
US7734092B2 (en) | 2006-03-07 | 2010-06-08 | Ancestry.Com Operations Inc. | Multiple image input for optical character recognition processing systems and methods |
JP2008079190A (ja) | 2006-09-25 | 2008-04-03 | Olympus Corp | テレビジョン画像キャプチャシステム |
US20080091713A1 (en) | 2006-10-16 | 2008-04-17 | Candelore Brant L | Capture of television metadata via OCR |
TWI351877B (en) | 2006-11-28 | 2011-11-01 | Mstar Semiconductor Inc | System and method for tv frame capture and printin |
-
2009
- 2009-02-26 US US12/380,394 patent/US8320674B2/en not_active Expired - Fee Related
- 2009-08-31 WO PCT/US2009/055496 patent/WO2010027933A1/en active Application Filing
- 2009-08-31 JP JP2011526127A patent/JP5588987B2/ja not_active Expired - Fee Related
- 2009-08-31 MX MX2011002293A patent/MX2011002293A/es active IP Right Grant
- 2009-08-31 CA CA2735824A patent/CA2735824A1/en not_active Abandoned
- 2009-08-31 CN CN200980134487XA patent/CN102144236B/zh not_active Expired - Fee Related
- 2009-08-31 EP EP09812088A patent/EP2321767A1/en not_active Withdrawn
- 2009-08-31 KR KR1020117005003A patent/KR101452562B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CN102144236A (zh) | 2011-08-03 |
WO2010027933A1 (en) | 2010-03-11 |
KR101452562B1 (ko) | 2014-10-21 |
US8320674B2 (en) | 2012-11-27 |
JP2012502359A (ja) | 2012-01-26 |
CN102144236B (zh) | 2013-08-21 |
US20100054585A1 (en) | 2010-03-04 |
KR20110056380A (ko) | 2011-05-27 |
MX2011002293A (es) | 2011-05-24 |
WO2010027933A9 (en) | 2010-11-04 |
EP2321767A1 (en) | 2011-05-18 |
CA2735824A1 (en) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5588987B2 (ja) | 画像及び映像ocrのためのテキストの位置決め | |
US7379594B2 (en) | Methods and systems for automatic detection of continuous-tone regions in document images | |
US9064316B2 (en) | Methods of content-based image identification | |
Gllavata et al. | A robust algorithm for text detection in images | |
Shivakumara et al. | A laplacian approach to multi-oriented text detection in video | |
Jamil et al. | Edge-based features for localization of artificial Urdu text in video images | |
Yang et al. | A framework for improved video text detection and recognition | |
Sanketi et al. | Localizing blurry and low-resolution text in natural images | |
Wu et al. | Contour restoration of text components for recognition in video/scene images | |
JP5796107B2 (ja) | テキスト検出の方法及び装置 | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
Vu et al. | Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering | |
CN107545261A (zh) | 文本检测的方法及装置 | |
JP5283267B2 (ja) | コンテンツ識別方法及び装置 | |
Bouressace et al. | A convolutional neural network for Arabic document analysis | |
Chen et al. | Video-text extraction and recognition | |
Samuel et al. | Automatic Text Segmentation and Recognition in Natural Scene Images Using Msocr | |
Sharma et al. | Text Extraction from Images: A Review | |
Bere Sachin | Survey on Scene Text Recognition by using EE-MSER and OCR for Natural Images | |
Xu et al. | Extracting text information for content-based video retrieval | |
JP6191286B2 (ja) | 文字認識装置、文字認識方法及び文字認識用コンピュータプログラム | |
CN117218637A (zh) | 一种基于分割技术的视频文字识别方法 | |
Yoshida et al. | A Blanket Binarization Method for Character String Extraction. | |
Chung et al. | Extraction of character areas from digital camera based color document images and OCR system | |
Saluja et al. | Non text eradication from degraded and non degraded videos and images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130924 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20131217 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20131225 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140123 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5588987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |