JP5029412B2 - テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法 - Google Patents

テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法 Download PDF

Info

Publication number
JP5029412B2
JP5029412B2 JP2008039407A JP2008039407A JP5029412B2 JP 5029412 B2 JP5029412 B2 JP 5029412B2 JP 2008039407 A JP2008039407 A JP 2008039407A JP 2008039407 A JP2008039407 A JP 2008039407A JP 5029412 B2 JP5029412 B2 JP 5029412B2
Authority
JP
Japan
Prior art keywords
character
pattern
pixel connection
color separation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008039407A
Other languages
English (en)
Other versions
JP2009199276A (ja
Inventor
裕 勝山
浩明 武部
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008039407A priority Critical patent/JP5029412B2/ja
Publication of JP2009199276A publication Critical patent/JP2009199276A/ja
Application granted granted Critical
Publication of JP5029412B2 publication Critical patent/JP5029412B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

この発明は、テロップを含む一連のフレーム画像から文字列パターンを抽出するテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法に関する。
従来から文字認識装置が開示されている(たとえば、下記特許文献1〜4を参照。)。
特開平7−168911号公報 特開平8−55185号公報 特許第3665435号公報 特開平2−132577号公報
しかしながら、上述した従来技術には、文字認識を利用していないものがあるため、色分解後の2値画像から文字列パターンを含む行領域を抽出しても、ノイズが非常に多く含まれているという問題があった。
また、上述した従来技術では、文字列の規則性を考慮していないため、本来ノイズとして扱っていけないパターンを除去したり、ノイズとして扱うべきパターンを除去しなかったりするという問題があった。
この発明は、上述した従来技術による問題点を解消するため、文字列パターンの抽出精度の向上を図ることができるテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、第1のテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法は、テロップを含む一連のフレーム画像の平均画像を取得し、取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成し、一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去し、前記各色分解画像をエッジMFIノイズ除去により得られた各色分解2値画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成し、生成された合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力することを要件とする。
また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記エッジ2値画像において前記平均画像の画素連結パターンに接する画素数と、前記ダイレーション画像から前記色分解画像を引いた差分画像において前記平均画像の画素連結パターンに接する画素数と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去することとしてもよい。
また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去し、ノイズ除去後の合成2値画像に基づいて、前記文字列パターンを出力することとしてもよい。
また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出し、抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去することとしてもよい。
また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出し、抽出された隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することとしてもよい。
また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出し、抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去し、ノイズ除去結果に基づいて、隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することとしてもよい。
また、第2のテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法は、テロップを含む一連のフレーム画像の平均画像を取得し、取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成し、生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成し、生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去し、ノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力することを要件とする。
本テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法によれば、文字列パターンの抽出精度の向上を図ることができるという効果を奏する。
以下に添付図面を参照して、本テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法の好適な実施の形態を詳細に説明する。
(テロップ文字パターン抽出の概要)
本実施の形態のテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法は、
1)文字認識を使用して色分解2値画像から正しい行を抽出する技術と、
2)ノイズを含む行パターンから文字認識を使用してキー文字と呼ばれる代表的な文字パターン候補を求め、そのキー文字を使って生成された文字候補矩形の組み合わせとなる複数の文字列候補矩形列の中から、文字の帰属度や文字間隔情報といった文字パターンの特徴を使用して、正しい文字列矩形を求める技術と、
を用いて、テロップの中から文字パターンを抽出する技術である。
図1は、本実施の形態にかかるテロップ文字パターン抽出方法の処理手順を示すフローチャートである。図1において、テロップ文字パターン抽出方法は、テロップ領域画像取得処理(ステップS101)、色クラスタリングによる色分解画像作成処理(ステップS102)、画像周囲のノイズ除去処理(ステップS103)、エッジMFI(Multi Frame Integration)によるノイズ除去処理(ステップS104)、行領域抽出処理(ステップS105)、行領域選択処理(ステップS106)、パターンの規則性による文字間ノイズ除去処理(ステップS107)、文字矩形内ノイズ除去処理(ステップS108)の順に実行することで、テロップから文字パターンを抽出することができる。このステップS101〜S105が上記1)の技術であり、ステップS106〜S108が上記2)の技術に相当する。以下、各処理S101〜S108を実現する内容について詳細に説明する。
(テロップ文字パターン抽出装置のハードウェア構成)
図2は、本実施の形態にかかるテロップ文字パターン抽出装置のハードウェア構成を示すブロック図である。図2において、テロップ文字パターン抽出装置は、CPU(Central Processing Unit)201と、ROM(Read‐Only Memory)202と、RAM(Random Access Memory)203と、HDD(Hard Disk Drive)204と、HD(Hard Disk)205と、FDD(Flexible Disk Drive)206と、着脱可能な記録媒体の一例としてのFD(Flexible Disk)207と、ディスプレイ208と、I/F(Interface)209と、キーボード210と、マウス211と、スキャナ212と、プリンタ213と、を備えている。また、各構成部はバス200によってそれぞれ接続されている。
ここで、CPU201は、テロップ文字パターン抽出装置の全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。HDD204は、CPU201の制御にしたがってHD205に対するデータのリード/ライトを制御する。HD205は、HDD204の制御で書き込まれたデータを記憶する。
FDD206は、CPU201の制御にしたがってFD207に対するデータのリード/ライトを制御する。FD207は、FDD206の制御で書き込まれたデータを記憶したり、FD207に記憶されたデータをテロップ文字パターン抽出装置に読み取らせたりする。
また、着脱可能な記録媒体として、FD207のほか、CD−ROM(CD−R、CD−RW)、MO(Magneto−Optical disk)、DVD(Digital Versatile Disk)、メモリーカードなどであってもよい。ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
I/F209は、通信回線を通じてインターネットなどのネットワーク214に接続され、このネットワーク214を介して他の装置に接続される。そして、I/F209は、ネットワーク214と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F209には、たとえばモデムやLAN(Local Area Network)アダプタなどを採用することができる。
キーボード210は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス211は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ212は、画像を光学的に読み取り、テロップ文字パターン抽出装置内に画像データを取り込む。なお、スキャナ212は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ213は、画像データや文書データを印刷する。プリンタ213には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。
(テロップ文字パターン抽出装置の機能的構成)
図3は、本実施の形態にかかるテロップ文字パターン抽出装置の機能的構成を示すブロック図である。図3において、テロップ文字パターン抽出装置300は、取得部301と、色分解画像生成部302と、周辺ノイズ除去処理部303と、エッジMFIノイズ除去処理部304と、行領域抽出部305と、行領域選択部306と、文字間ノイズ除去処理部307と、文字矩形内ノイズ除去処理部308と、を含む構成である。
取得部301は、時系列なフレーム画像群の中から指定テロップ領域内の一連のフレーム画像を取得する機能を有する。指定テロップ区間とは、フレーム画像群が連続する全区間のうちテロップが表示される区間のことである。テロップの時間的区間、領域を求める技術については、「1994年電子情報通信学会春季大会 D−427 テロップの認識による資料映像の検索について」を用いて実現できる。取得された一連のフレーム画像は、それぞれテロップ画像を有しており、後述する平均画像やエッジ2値画像の生成元となる(図4を参照。)。
色分解画像生成部302は、取得部301によって取得された一連のフレーム画像から平均画像を生成して、平均画像に基づいて色分解画像を生成する機能を有する。色分解画像はクラスタリングにより生成できる。クラスタリングについては、「電子情報通信学会論文誌 D−II, Vol.J82−D−II,NO.4, pp.751−762, 1999年4月,ISODATAクラスタリング法を用いたカラー画像の領域分割」を用いて実現できる。色分解画像生成部302の具体的な処理内容については、図4〜図7を用いて後述する。
周辺ノイズ除去処理部303は、色分解画像生成部302によって生成された各色分解画像から、その領域周辺に接するパターンをノイズとみなして削除する機能を有する。周辺ノイズ除去処理部303は、「1996年電子情報通信学会情報・システムソサイエティ大会 D-344 映像中文字領域抽出のためのカラー画像セグメンテーション」を用いることで実現できる。周辺ノイズ除去処理部303の具体的な説明については、図8を用いて後述する。
エッジMFIノイズ除去処理部304は、一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、平均画像と、に基づいて、各色分解画像の中から動きのあるパターンをノイズとして除去する機能を有する。具体的には、一連のフレーム画像からエッジ2値画像を生成して、周辺ノイズ除去処理部303によってノイズ除去された色分解画像ごとにノイズ除去処理する。エッジMFIノイズ除去処理部304の具体的な説明については、図4および図9〜図13を用いて後述する。
行領域抽出部305は、エッジMFIノイズ除去処理部304によるノイズ除去後の各色分解2値画像から文字パターン列が存在する行を抽出する機能を有する。行領域抽出部305の具体的な説明については、図14〜図17を用いて後述する。
行領域選択部306は、各色分解画像をエッジMFIノイズ除去処理部304によるノイズ除去することにより得られた各色分解2値画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成する機能を有する。具体的には、行領域が特定された各色分解2値画像から、文字らしい画素連結パターン(たとえば、黒画素連結領域)が多く存在する行領域を行ごとに選択する。行領域選択部306の具体的な説明については、図18〜図21を用いて後述する。
文字間ノイズ除去処理部307は、行領域選択部306によって生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する機能を有する。文字列の規則とは、たとえば、対象とする2つの画素連結パターンが、テロップにおける文字と文字の間隔と同等な間隔で位置するための条件や、行高さが揃うための条件など、文字列の自然な配置に違反する画素連結パターンをノイズとして扱う条件である。具体的には、たとえば、行領域選択部306により得られた合成2値画像から行領域ごとに、文字に相当する黒画素連結領域間に存在するノイズを除去する。文字間ノイズ除去処理部307の具体的な説明については、図22〜図35を用いて後述する。
文字矩形内ノイズ除去処理部308は、合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する機能を有する。具体的には、文字候補矩形から文字に該当しない黒画素連結領域を除去して、文字パターンに該当する黒画素連結領域のみを抽出する。文字矩形内ノイズ除去処理部308の具体的な説明については、図36〜図38を用いて後述する。
なお、上述した取得部301、色分解画像生成部302、周辺ノイズ除去処理部303、エッジMFIノイズ除去処理部304、行領域抽出部305、行領域選択部306、文字間ノイズ除去処理部307、および文字矩形内ノイズ除去処理部308は、具体的には、たとえば、図2に示したROM202、RAM203、HD205などの記憶領域に記憶されたプログラムをCPUに実行させることにより、その機能を実現する。
(色分解画像生成部302の詳細な処理内容)
まず、色分解画像生成部302の詳細な処理内容について図4〜図7を用いて説明する。図4は、平均画像およびエッジ2値画像の生成内容を示す説明図である。図4において、時系列で入力されてくる指定テロップ区間内の一連のフレーム画像401の同一位置の画素値を平均化することで、平均画像410が生成される。
図5は、平均画像410の一例を示す説明図である。この平均画像410を色クラスタリングすることで、色分解画像が生成される。テロップ文字は同じ文字色を持つので、テロップ文字と背景を分離する目的で、色クラスタリングをおこなって平均画像410を色分解する。色クラスタリングとは、平均画像410の各画素の値を、R(赤)、G(緑)、B(青)の3軸からなる色空間座標にプロットし、クラスタ化する処理である。
図6は、色空間座標600における色クラスタリングを示す説明図である。ここでは、平均画像410は、4つのクラスタ(白をあらわすクラスタ601、濃い灰色をあらわすクラスタ602、薄い灰色をあらわすクラスタ603、黒をあらわすクラスタ604)にクラスタリングされている。本例では4つのクラスタ601〜604にまとめられたが、クラスタの個数は4つに限定されず、平均画像410の画素値や、適用する色クラスタリングにより適宜決定される。本例では、ISODATA(Iterative Self‐Organizing)クラスタリングを用いている。
図7は、色クラスタリングによって得られた色分解画像を示す説明図である。色分解画像はクラスタごとに生成される。本例では、4個の色分解画像701〜704が生成される。色分解画像701は、白のクラスタから得られた2値画像であり、色分解画像702は、濃い灰色のクラスタから得られた2値画像であり、色分解画像703は、薄い灰色のクラスタから得られた2値画像であり、色分解画像704は、黒のクラスタから得られた2値画像である。
(周辺ノイズ除去処理部303の詳細な処理内容)
周辺ノイズ除去処理部303の詳細な処理内容について図8を用いて説明する。図8は、画像周囲のノイズ除去処理(ステップS103)により処理された色分解画像を示す説明図である。色分解画像801は、色分解画像701の画像周囲のノイズ除去処理により処理された色分解画像であり、色分解画像802は、色分解画像702の画像周囲のノイズ除去処理により処理された色分解画像であり、色分解画像803は、色分解画像703の画像周囲のノイズ除去処理により処理された色分解画像であり、色分解画像804は、色分解画像704の画像周囲のノイズ除去処理により処理された色分解画像である。
テロップ文字は領域の中央付近にあり、文字パターンとノイズとは接触しない場合が多いので、各色分解画像801〜804の領域周辺に接するパターンが削除されている。
(エッジMFIノイズ除去処理部304の詳細な処理内容)
エッジMFIノイズ除去処理部304の詳細な処理内容について、図4、図9〜図11を用いて説明する。図4において、一連のフレーム画像401は、公知のエッジ抽出処理(たとえば、Cannyエッジ)と2値化処理により、一連のエッジ2値画像402に変換され、同一位置の画素値を合計することで、エッジ濃淡画像420が生成される。そして、エッジ濃淡画像420を、固定しきい値で2値化することで、エッジ2値画像430が生成される。
図9は、エッジMFIによるノイズ除去処理で得られる一連の画像を示す説明図である。a)は、図4に示したエッジ2値画像430である。このエッジ2値画像430は動きがないパターンのエッジ画像となる。テロップ文字は動きがないので、エッジが現れることとなる。したがって、文字ストロークパターンの周囲に動きがないエッジが多くあるものをテロップ文字パターン候補として抽出することができる。
b)は、図8に示した色分解画像801のダイレーション画像801Dである。ダイレーションとは、注目画素の周囲8画素の画素値を、注目画素の画素値に変換する処理である。c)は、b)のダイレーション画像801Dから元画像である色分解画像801を引いたことにより得られるエッジ画像901である。エッジ画像901は文字パターンの理想的なエッジを示す。d)は、a)のエッジ2値画像430とc)のエッジ画像901とを用いて、エッジMFIによるノイズ除去をおこなうことで得られる色分解2値画像910である。
d)のMFIによるノイズ除去では、色分解画像801の各黒画素連結領域と接するエッジ2値画像430の画素数p1を求める。同様に、色分解画像801の各黒画素連結領域と接するエッジ画像901の画素数p2を求める。しきい値をt(たとえば、t=0.54)とすると、p1/p2<tの場合に、色分解画像801の黒画素連結領域を、動いているパターンとして色分解画像801から削除する。削除後の画像が色分解2値画像910である。ここで、d)の処理内容について具体的に説明する。
図10は、図9のd)のMFIによるノイズ除去の処理内容を示す説明図である。図10において、黒四角(■)は、色分解画像801の黒画素連結領域の画素(以下、「■画素」)である。白四角(□)は、色分解画像801の非黒画素連結領域の画素(以下、「□画素」)である。白丸(○)は、色分解画像801の各黒画素連結領域と接するエッジ画像901の画素(以下、「○画素」)である。黒丸(●)は、色分解画像801の各黒画素連結領域と接するエッジ2値画像430の画素(以下、「●画素」)である。●画素は○画素でもある。
図10の(A)では、●画素が15画素(p1=10)であり、(B)では、○画素が20画素(p2=20)である。したがって、図10では、p1/p2<tを満たすため、■画素は削除される。なお、図9に示したb)〜d)の内容は、色分解画像801だけではなく、他の色分解画像802〜804についても求める。これにより、図16に示したような色分解2値画像920〜940が得られる。
図11は、エッジMFIノイズ除去処理部304のエッジMFIによるノイズ除去処理(ステップS104)の詳細な処理手順を示すフローチャートである。図11において、図4に示したように、エッジ2値画像生成処理を実行し(ステップS1101)、未処理の色分解画像があるか否かを判断する(ステップS1102)。未処理の色分解画像がある場合(ステップS1102:Yes)、未処理の色分解画像を選択して(ステップS1103)、選択色分解画像のダイレーション処理を実行する(ステップS1104)。
つぎに、図9のc)に示したように、ダイレーション画像から選択色分解画像を引いたエッジ画像を生成する(ステップS1105)。図9のc)の場合は、色分解画像801に対するエッジ画像901を生成することとなる。このあと、ノイズ除去処理を実行して(ステップS1106)、ステップS1102に戻る。ステップS1102において、未処理の色分解画像がない場合(ステップS1102:No)、行領域抽出処理(ステップS105)に移行する。
図12は、図11に示したエッジ2値画像生成処理(ステップS1101)の手順を示すフローチャートである。図12において、まず、指定テロップ区間の開始位置が検出されるまで待ち受け(ステップS1201:No)、指定テロップ区間の開始位置が検出された場合(ステップS1201:Yes)、フレーム画像を取得する(ステップS1202)。フレーム画像は、時系列で順次取り込まれるため、取り込まれる都度、後続の処理を実行することとなる。
つぎに、取得フレーム画像に対してCannyエッジなどのエッジ抽出処理をおこなって、エッジ抽出後の取得フレーム画像を2値化する(ステップS1203)。そして、エッジ濃淡画像として集積する(ステップS1204)。この集積処理は、2値化されたエッジ抽出後の取得フレーム画像の同一画素の画素値を累積(加算)する処理である。
このあと、指定テロップ区間の終了が検出されたか否かを判断する(ステップS1205)。終了が検出されなかった場合(ステップS1205:No)、ステップS1202に戻る。一方、検出された場合(ステップS1205:Yes)、集積されたエッジ濃淡画像を固定しきい値で2値化する(ステップS1206)。これにより、図9に示したようなエッジ2値画像が生成される。
図13は、図11に示したノイズ除去処理(ステップS1106)の詳細な処理手順を示すフローチャートである。なお、図13では、エッジ2値画像を「第1エッジ画像」と称し、ステップS1105のダイレーション画像から選択色分解画像を引いたエッジ画像を、「第2エッジ画像」と称す。
まず、選択色分解画像の中に、未処理の黒画素連結領域があるか否かを判断する(ステップS1301)。未処理の黒画素連結領域がある場合(ステップS1301:Yes)、未処理の黒画素連結領域を選択する(ステップS1302)。つぎに、選択黒画素連結領域と接する黒画素連結領域を、第1および第2エッジ画像から抽出する(ステップS1303)。これにより、第1エッジ画像については図10の(A)、第2エッジ画像については図10の(B)に示した結果が得られる。
そして、それぞれ、画素数p1,p2を算出して(ステップS1304)、p1/p2<tであるか否かを判断する(ステップS1305)。p1/p2<tでない場合(ステップS1305:No)、p1/p2がしきい値t以上であるため、ステップS1301に戻る。一方、p1/p2<tである場合(ステップS1305:Yes)、選択黒画素連結領域を、動いているパターンであるとして選択色分解画像から削除する(ステップS1306)。また、ステップS1301において、未処理の黒画素連結領域がない場合(ステップS1301:No)、ステップS1102に戻る。これにより、色分解2値画像(910〜940)が生成される。
(行領域抽出部305の詳細な処理内容)
つぎに、行領域抽出部305の詳細な処理内容について説明する。図14は、行領域抽出部305による行領域抽出処理(ステップS105)の詳細な処理手順を示すフローチャートである。図14において、まず、行方向決定処理を実行する(ステップS1401)。具体的には、色分解2値画像の領域形状から行方向を決定する。すなわち、色分解2値画像の領域形状が横長なら横書き、縦長なら縦書きとする。行方向は、色分解2値画像の画素の縦横比で決定することができる。
つぎに、色分解2値画像を絞り込む(ステップS1402)。具体的には、黒画素面積(黒画素数)から決定行方向の走査時の白黒変化数を引いた値を評価値として、上位4枚の色分解2値画像に絞り込む。なお、上位4枚の色分解2値画像を選択することとなっているが、選択数は、4枚に限らず任意に設定することができる。本例では、色分解2値画像が4枚しかないため、その4枚が選ばれることとなる。
そして、未処理の色分解2値画像があるか否かを判断する(ステップS1403)。未処理の色分解2値画像がある場合(ステップS1403:Yes)、未処理の色分解2値画像を選択する(ステップS1404)。そして、選択色分解2値画像の中に、未処理の黒画素連結領域があるか否かを判断する(ステップS1405)。未処理の黒画素連結領域がない場合(ステップS1405:No)、ステップS1403に戻る。一方、未処理の黒画素連結領域がある場合(ステップS1405:Yes)、未処理の黒画素連結領域を1つ選択する(ステップS1406)。
そして、選択黒画素連結領域に対して1文字認識処理を実行する(ステップS1407)。1文字認識処理とは、選択黒画素連結領域が1つの文字パターンとして認識する処理である。具体的には、確信度Cと呼ばれる評価値を用いて、選択黒画素連結領域が1つの文字パターンであることを認識する。
確信度Cとは、入力画像(選択黒画素連結領域)の特徴量との類似度の高さをあらわす評価値である。確信度Cの算出法については、特開2000−306045に詳細に説明されているため、ここでは、簡単に説明する。
図15は、確信度Cの算出方法を示す説明図である。確信度Cを求める場合、選択黒画素連結領域と辞書の文字との比較をおこなう。具体的には、(A)において、選択黒画素連結領域『あ』(この段階では、文字かどうかわからない)の特徴量を示す特徴ベクトルと、辞書内の各登録文字(n個)の特徴量を示す特徴ベクトルとを求め、選択黒画素連結領域『あ』の特徴ベクトルと辞書内の各登録文字の特徴ベクトルとの距離d1〜dnを求める。選択黒画素連結領域は、距離の値が小さい登録文字ほど類似している。そのため、距離で昇順にソートする。
(B)は昇順でのソート結果を示している。そして、(C)のように、1位の距離を2位の距離で除算する。K(0<K≦1)の値が小さい場合、1位の距離と2位の距離との距離差が大きいため、選択黒画素連結領域が1位の登録文字に類似している可能性が高くなる。逆に、Kの値が大きくなるにつれ、1位と2位の区別がつきにくくなる。したがって、(D)に示したように、Kの値が小さいほど大きい値の確信度Cを割り当て、Kの値が大きいほど小さい値の確信度Cを割り当てる。確信度Cは、ここでは、0≦C≦999とする。このように、確信度Cの値が大きいと一意に対応する登録文字が存在することをあらわす。
そして、図14において、確信度CがC≦Ctであるか否かを判断する(ステップS1408)。Ctとはしきい値であり、たとえば、Ct=500とする。C≦Ctでない場合(ステップS1408:No)、選択黒画素連結領域は文字でないと認識されるため、ステップS1405に戻る。一方、C≦Ctである場合(ステップS1408:Yes)、選択黒画素連結領域は文字である可能性が高いため、選択黒画素連結領域の外接矩形(内の画素)を投影軸に投影して(ステップS1409)、ステップS1405に戻る。
ここで、投影軸とは、ステップS1401で決定された行方向に直交する方向を示す軸である。この投影軸に選択黒画素連結領域の外接矩形(内の画素)を投影することで、画素のヒストグラムが生成される。
図16は、ヒストグラムの生成例を示す説明図である。図16において、ヒストグラムは、各色分解2値画像910〜940について、ステップS1403〜S1409を実行して累積することで生成される。このヒストグラムの座標軸のうち横軸は画素数であり、縦軸Xは投影軸である。
そして、図14のステップS1403において、未処理の色分解2値画像がないと判断された場合(ステップS1403:No)、行領域決定処理を実行する(ステップS1410)。行領域決定処理では、ヒストグラムの山毎に、たとえば、画素数がピークの20%の領域を行領域として抽出する。ただし、山の幅が10画素以下の行はノイズとして削除する。
たとえば、図16では、ヒストグラムの第1の山H1のピークの20%はt1であるため、その行高さh1が特定される。同様に、ヒストグラムの第2の山H2のピークの20%はt2であるため、その行高さh2が抽出される。抽出された行高さh1,h2を少し拡大してもよい。これにより、色分解2値画像ごとに行領域が決定される。
図17は、決定された行領域を示す説明図である。色分解2値画像910は、行領域L11,L12を有する。行領域L11の行高さはh1、行領域L12の行高さはh2である。色分解2値画像920は、行領域L21,L22を有する。行領域L21の行高さはh1、行領域L22の行高さはh2である。色分解2値画像930は、行領域L31,L32を有する。行領域L31の行高さはh1、行領域L32の行高さはh2である。色分解2値画像940は、行領域L41,L42を有する。行領域L41の行高さはh1、行領域L42の行高さはh2である。
(行領域選択部306の詳細な処理内容)
つぎに、行領域選択部306の詳細な処理内容について説明する。行領域選択部306では、行領域が特定された各色分解2値画像から、文字らしい黒画素連結領域が多く存在する行領域を行ごとに選択する。具体的には、図17を例に挙げると、同一行(1行目)の行領域L11,L21,L31,L41の中から、文字らしい黒画素連結領域が多く存在する行領域を選択する。同様に、同一行(2行目)の行領域L12,L22,L32,L42の中から、文字らしい黒画素連結領域が多く存在する行領域を選択する。選択された各行領域が、同一の色分解2値画像に存在する必要はない。
行領域選択部306では、行ごとに以下の処理を行う。すべての色分解2値画像に対して、以下の処理を行う。なお、色分解画像の数が、たとえば5以上である場合、ステップS1402により絞り込まれた色分解2値画像のみを処理対象とする。4以下の場合はすべての色分解2値画像を対象とする。
また、行領域選択部306では、当該色分解2値画像のすべての黒画素連結領域に対して、1文字認識を実行し、以下の(A)〜(C)の条件を満たす場合、妥当な文字として文字数をカウントする。
(A)確信度CがC≧Ctである(たとえば、Ct=0.60)。
(B)外接矩形の各辺の長さが所定画素数(たとえば10画素)以上である。
(C)ノイズ文字と一致しない。
図18は、ノイズ文字を示す説明図である。(C)については、ノイズ文字との距離が所定距離以内である場合、一致することとしてもよく、また、ノイズ文字との確信度Cが所定値以上である場合、ノイズ文字と一致することとしてもよい。また、黒画素連結領域が図18に示したノイズ文字の文字パターンと相似である場合に、ノイズ文字と一致することとしてもよい。
このあと、各行で、文字数が一番多い色分解2値画像の行領域を選択する。選択行領域の色分解2値画像を抽出して、元領域サイズの白画像上にコピーして、以降の処理対象とする。以降の処理は、行単位で行うこととなる。
図19は、行領域選択部306による行領域選択処理(ステップS106)の詳細な処理手順を示すフローチャートである。図19において、未選択の行があるか否かを判断する(ステップS1901)。未選択の行がある場合(ステップS1901:Yes)、未選択の行を選択する(ステップS1902)。図17に示した色分解2値画像では、行が2つ(1行目(上段)、2行目(下段))存在する。いずれの行も未選択であれば、いずれか一方の行を選択することとなる。
そして、未処理の色分解2値画像があるか否かを判断する(ステップS1903)。未処理の色分解2値画像がある場合(ステップS1903:Yes)、未処理の色分解2値画像からステップS1902による選択行の行領域を抽出する(ステップS1905)。そして、抽出行領域内の全黒画素連結領域の1文字認識処理を実行する(ステップS1906)。具体的には、各黒画素連結領域の確信度Cを算出する。このあと、妥当な文字カウント処理を実行する(ステップS1907)。妥当な文字カウント処理(ステップS1907)については後述する。
そして、妥当な文字カウント処理(ステップS1907)後のカウント文字数が記録情報としてすでにメモリに記録されている記録文字数よりも多いか否かを判断する(ステップS1908)。多くない場合(ステップS1908:No)、ステップS1903に戻る。一方、多い場合(ステップS1908:Yes)、メモリに記録された記録情報(選択行、抽出行領域を有する色分解2値画像(の識別番号)、カウント文字数)を更新する(ステップS1909)。そして、ステップS1903に戻る。
一方、ステップS1903において、未処理の色分解2値画像がない場合(ステップS1903:No)、メモリに記録されている最新の記録情報により特定される行領域を抽出し(ステップS1904)、ステップS1901に戻る。このとき選択行が変わるため、メモリ内の記録情報をリセットする。
そして、ステップS1901において、未選択の行がない場合(ステップS1901:No)、抽出された各行の行領域の画像を、元となる色分解2値画像の領域サイズと同サイズの白画像上の同一位置にコピーすることで、合成2値画像を生成する(ステップS1910)。
図20は、合成2値画像の一例を示す説明図である。図20の合成2値画像2000では、元となるエッジ2値画像430の領域サイズと同サイズの白画像2001の同一位置に、選択行領域L11,L12がコピーされている。
図21は、図19に示した妥当な文字カウント処理(ステップS1907)の詳細な処理手順を示すフローチャートである。図21において、未処理の認識文字があるか否かを判断する(ステップS2101)。認識文字とは、確信度Cが算出された黒画素連結領域である。未処理の認識文字がある場合(ステップS2101:Yes)、未処理の認識文字を選択する(ステップS2102)。
そして、選択認識文字についてC≧Ctであるか否かを判断する(ステップS2103)。C≧Ctでない場合(ステップS2103:No)、ステップS2101に戻る。一方、C≧Ctである場合(ステップS2103:Yes)、選択認識文字の外接矩形の各辺長が所定画素数以上であるか否かを判断する(ステップS2104)。所定画素数以上でない場合(ステップS2104:No)、ステップS2101に戻る。一方、所定画素数以上である場合(ステップS2104:Yes)、図18に示したノイズ文字と一致するか否かを判断する(ステップS2105)。
ノイズ文字と一致する場合(ステップS2105:Yes)、ステップS2101に戻る。一方、ノイズ文字と不一致である場合(ステップS2105:No)、認識文字を文字としてカウントする(ステップS2106)。すなわち、カウント値が1加算される。そして、ステップS2101に戻る。ステップS2101において、未処理の認識文字がない場合(ステップS2101:No)、ステップS1908に移行する。
これにより、文字カウント数が多い行領域は、文字らしい黒画素連結領域が多く存在することとなる。したがって、この行領域選択部306および行領域選択処理(ステップS106)により、複数ある色分解2値画像から、最も文字らしい行領域を行ごとに抽出することができる。
(文字間ノイズ除去処理部307の詳細な処理内容)
つぎに、文字間ノイズ除去処理部307の詳細な処理内容について説明する。行領域選択部306により得られた合成2値画像から行領域ごとに、文字に相当する黒画素連結領域間のノイズを除去する。
図22は、パターンの規則性による文字間ノイズ除去処理部307による文字間ノイズ除去処理(ステップS107)の詳細な処理手順を示すフローチャートである。図22において、まず、図20に示した合成2値画像2000の中から未処理の行領域があるか否かを判断する(ステップS2201)。未処理の行領域がある場合(ステップS2201:Yes)、未処理の行領域を選択して(ステップS2202)、キー文字抽出処理(ステップS2203)、文字候補矩形抽出処理(ステップS2204)、重複・包含矩形のノイズ除去処理(ステップS2205)および文字間ノイズ除去処理(ステップS2206)を実行する。
このあと、ステップS2201に戻る。ステップS2201において、未処理の行領域がない場合(ステップS2201:No)、文字矩形内ノイズ除去処理(ステップS108)に移行する。
ここで、キー文字抽出処理(ステップS2203)について具体的に説明する。選択行領域内の各黒画素連結領域を1文字認識する。具体的には、ステップS1906のように、各黒画素連結領域について確信度Cを算出する。この認識文字(確信度Cが算出された黒画素連結領域)について、以下の条件(D)〜(F)を満たすものをキー文字として選択する。なお、キー文字の数の上限は、本例では出現順に10個とする。個数は任意に設定可能である。(D)〜(F)を満たすキー文字について、それぞれ外接矩形を求める。すなわち、キー文字とは、行領域内の黒画素連結領域群の中の文字らしい黒画素連結領域である。
(D)距離di(図15の(B)に示した最小距離)がdi≦td(tdは距離しきい値で、たとえば、td=1800)である。
(E)ノイズ文字(図18を参照)と一致しない(一致判断は上記(C)と同様。)。
(F)選択行領域内に収まっている(はみ出していない)こと。
つぎに、文字候補矩形抽出処理(ステップS2204)について具体的に説明する。文字候補矩形抽出処理はキー文字ごとに実行する。具体的には、キー文字の外接矩形を上下左右に10%拡大した窓矩形を、当該キー文字から行方向に移動していき、以下の条件に該当する黒画素連結領域について外接矩形を求めて、文字候補矩形として記録する。このあと、文字候補矩形として選ばれた黒画素連結領域について1文字認識(確信度Cの算出)をおこなって、登録辞書から文字コードを取得する。これにより、窓矩形に包含されれば、黒画素連結領域が複数存在していても1文字として扱われることとなる。
(G)窓矩形に完全に含まれる黒画素連結領域であること(ただし、窓矩形が他の連結領域と重複していてもかまわない)。
(H)既出でないこと(同一矩形の複数出現防止のため)。
図23は、文字候補矩形抽出処理の具体例を示す説明図である。図23では、図20に示した合成2値画像2000の1行目の行領域についての文字候補抽出を示している。この図23の例では、『早』、『月』、および『す』のような黒画素連結領域がキー文字であり、矩形2300がキー文字に外接するキー文字矩形、矩形2301がキー文字矩形2300を拡大した窓矩形であり、行方向(左右)に移動させて、窓矩形2301に完全に含まれる黒画素連結領域を特定する。符号のない矩形は、文字候補矩形である。この処理にしたがえば、キー文字矩形も文字候補矩形となる。
図24は、図22に示した文字候補矩形抽出処理(ステップS2204)の詳細な処理手順を示すフローチャートである。図24において、まず、未処理のキー文字があるか否かを判断する(ステップS2401)。未処理のキー文字がある場合(ステップS2401:Yes)、未処理のキー文字を選択して(ステップS2402)、選択キー文字について窓矩形を生成して、行方向に移動を開始させる(ステップS2403)。そして、選択行領域内をすべて移動したか否かを判断する(ステップS2404)。
移動していない場合(ステップS2404:No)、窓矩形に包含される黒画素連結領域があるか否かを判断する(ステップS2405)。黒画素連結領域がない場合(ステップS2405:No)、ステップS2404に戻る。一方、黒画素連結領域がある場合(ステップS2405:Yes)、その検出された黒画素連結領域に外接する文字候補矩形を作成する(ステップS2406)。そして、作成された文字候補矩形が既出矩形であるか否かを判断する(ステップS2407)。
既出矩形である場合(ステップS2407:Yes)、ステップS2404に戻る。一方、既出矩形でない場合(ステップS2407:No)、文字候補矩形およびその内部の黒画素連結領域をメモリに保存して(ステップS2408)、ステップS2404に戻る。また、ステップS2404において、選択行領域内をすべて移動した場合(ステップS2404:Yes)、ステップS2401に戻る。ステップS2401において、未処理のキー文字がない場合(ステップS2401:No)、重複・包含矩形のノイズ除去処理(ステップS2205)に移行する。これにより、図23に示したような文字候補矩形の集合を得ることができる。図25は、文字候補矩形抽出処理結果を示す説明図である。
つぎに、重複・包含矩形のノイズ除去処理(ステップS2205)について具体的に説明する。重複・包含矩形のノイズ除去処理では、一方の文字候補矩形が他方の文字候補矩形に含まれている場合(包含関係)や、一方の文字候補矩形の一部が他方の文字候補矩形に重なっている場合(重複関係)、両文字候補矩形内のノイズを除去する。包含関係や重複関係は両文字候補矩形の頂点座標値により判別することができる。
ここで、帰属度(%)という評価値を用いる。帰属度とは、文字候補矩形内の黒画素連結領域を、それにより推定される文字コードと仮定したときの文字らしさをあらわす値である。帰属度が高いとそれだけ推定された文字コードが確からしいことをあらわす。
帰属度は、文字候補矩形内の黒画素連結領域により推定される文字コードとその距離から帰属度を求められる。帰属度は、予め文字コード(カテゴリ)毎に学習サンプルを認識して距離を求めて、距離に関するヒストグラムを求めておき、このヒストグラムを参照して算出する確率である。
ある文字を1文字認識(図15を参照)した結果、文字コードがcで、距離がdの場合は、文字コードcの距離に関するヒストグラムを参照し、このヒストグラムの中で距離d以上の面積を全体の面積で割った値を帰属度とする。距離に関するヒストグラムは、文字コードごとにあらかじめROM202、RAM203、HD205などの記憶領域に記憶されている。
図26は、ある文字コードの頻度分布を示すグラフである。このグラフは、ある文字コードcにおける認識文字との距離に関するヒストグラム2600を示している。横軸は距離、縦軸が頻度である。距離が短いほど、文字コードcとして選ばれる頻度が高い。図26において、求められた距離d以上のヒストグラム2600の面積(図6中、塗りつぶされた領域)をSd、ヒストグラム2600全体の面積をSとすると、文字コードcへの帰属度Bcは、Bc=Sd/Sとなる。
ここで、ノイズ除去の条件について説明する。まず、包含関係の場合について説明する。2つの文字候補矩形が包含関係である場合、
(I)包含されている文字候補矩形の高さが行高さの一定割合(たとえば30%)以下の場合、包含されている文字候補矩形(内部の黒画素連結領域含む)を削除する。ただし、文字候補矩形が中心付近にある行方向に長い矩形である場合は、長音である可能性があるため、削除しない。
(J)(I)以外で、帰属度の差が所定のしきい値(たとえば40%)未満で、かつ、行方向の開始座標・終了座標の誤差が所定画素(たとえば3画素)以内の場合、行高さ方向が大きい方の文字候補矩形を選択して、他方の文字候補矩形(内部の黒画素連結領域含む)を削除する。
図27は、包含関係を示す説明図である。図27においては、包含関係にある両文字候補矩形2700,2701のうち、包含している文字候補矩形2700が残され、包含されている文字候補矩形2701が削除されることとなる。
つぎに重複関係の場合について説明する。2つの文字候補矩形が重複関係にある場合、(K)大きい方の文字候補矩形が濁点/半濁点文字であるが文字コードがそうでない場合、小さい方の文字候補矩形(内部の黒画素連結領域含む)を削除する。文字コードが同じ場合は帰属度が小さい方の文字候補矩形(内部の黒画素連結領域含む)を削除する。
(L)(K)以外、すなわち、大きい方の文字候補矩形が濁点/半濁点文字でない場合、両文字候補矩形の帰属度の差が所定のしきい値(たとえば16%)以上である場合に、帰属度が小さい方の文字候補矩形(内部の黒画素連結領域含む)を削除する。
(M)(K)以外で、両文字候補矩形の帰属度の差が所定のしきい値(たとえば16%)未満である場合に、一方の文字候補矩形における行方向の矩形端座標の差と他方の文字候補矩形における行方向の矩形端座標の差が、ともに所定画素以内である場合、行高さ方向が大きい方の文字候補矩形を選択して、他方の文字候補矩形(内部の黒画素連結領域含む)を削除する。すなわち、大きい方の文字候補矩形を残すこととなる。
図28は、重複関係を示す説明図である。図28においては、重複関係にある両文字候補矩形2800,2801のうち、非文字パターンである文字候補矩形2801は、距離dが大きくなりやすいため帰属度Bcが低くなる。したがって、距離dが短い文字コードに対応する文字候補矩形2800が残ることとなる。
図29は、重複・包含矩形のノイズ除去処理(ステップS2205)の詳細な処理手順を示すフローチャートである。図29において、未処理の文字候補矩形ペアがあるか否かを判断する(ステップS2901)。未処理の文字候補矩形ペアがある場合(ステップS2901:Yes)、未処理の文字候補矩形ペアを選択する(ステップS2902)。
つぎに、選択文字候補矩形ペアが包含関係であるか否かを判断する(ステップS2903)。包含関係である場合(ステップS2903:Yes)、上記条件(I),(J)にしたがって、該当する文字候補矩形を削除して(ステップS2904)、ステップS2901に戻る。一方、包含関係でない場合(ステップS2903:No)、重複関係であるか否かを判断する(ステップS2905)。
重複関係である場合(ステップS2905:Yes)、上記条件(K),(L),(M)にしたがって、該当する文字候補矩形を削除して(ステップS2906)、ステップS2901に戻る。一方、重複関係でない場合(ステップS2905:No)、ステップS2901に戻る。ステップS2901において、未処理の文字候補矩形ペアがない場合(ステップS2901:No)、文字間ノイズ除去処理(ステップS2206)に移行する。これにより、重複または包含により発生している文字とは関係のないノイズを自動除去することができる。
図30は、重複・包含矩形のノイズ除去処理(ステップS2205)によるノイズ除去処理結果を示す説明図である。図25と比較すると、文字候補矩形が絞り込まれていることがわかる。
つぎに、文字間ノイズ除去処理(ステップS2206)について具体的に説明する。文字間ノイズ除去処理は行領域ごとに実行する。文字間ノイズ除去処理では、重複・包含矩形のノイズ除去処理(ステップS2205)によるノイズ除去処理後の文字候補矩形(図30に示した矩形)間の中心間距離D1の最頻値D1*と矩形間距離D2の最頻値D2*とを求める。
図31は、文字候補矩形間の中心間距離D1および矩形間距離D2を示す説明図である。すべての文字候補矩形ペアの中心間距離D1および矩形間距離D2を取得して、公知の統計的計算により、中心間距離D1の最頻値D1*と矩形間距離D2の最頻値D2*とを求める。中心間距離D1の最頻値D1*と矩形間距離D2の最頻値D2*の関係に近い文字候補矩形ペアは、文字列らしい文字候補矩形ペアとして認識される。中心間距離D1の最頻値D1*と矩形間距離D2の最頻値D2*とが求まったら、行領域内で重複している重複文字候補矩形集合を求める。
図32は、行領域内の重複文字候補矩形集合の一例を示す説明図である。図32において、重複文字候補矩形集合3200は、文字候補矩形s1〜s5が数珠繋ぎで重複している。このように、重複文字候補矩形集合3200内の各文字候補矩形s1〜s5は、全体として数珠繋ぎになっていれば、他の文字候補矩形のうち少なくともいずれか一つと重複していればよい。
そして、重複文字候補矩形集合3200内で中心間距離D1がD1*に近く、かつ矩形間距離D2がD2*に近い矩形列の組み合わせを求める。求めた組み合わせ矩形列において、以下の評価値を求め、最も評価値が大きな矩形列を選択する。
評価値=a×平均帰属度+b×中心間距離項目+c×矩形間距離項目
a,b,cは、各評価項目に対する重みで、実験的に求める。たとえば、a=9、b=3、c=1とすることができる。
また、平均帰属度とは、組み合わせ矩形列を構成する各文字候補矩形の帰属度の平均値である。中心間距離項目とは、重複文字候補矩形集合3200の区間長Lsを求め、この区間長Lsを中心間距離D1−矩形間距離D2で割った値を文字数Nと推定する。組み合わせ矩形列内の矩形数をMとすると、中心間距離項目は、1−|N−M|/Nとなる。矩形間距離項目とは、選択行領域全体から求めた推定矩形間距離Dを求める。組み合わせ矩形列内の矩形間距離をD1とすると、矩形間距離項目は、1/Σ|D1−D|となる。
なお、評価値の算出対象となる組み合わせ矩形列とは、文字列らしい矩形列である。したがって、組み合わせ矩形列とは、互いに重複しない文字候補矩形の組み合わせである。図32の例では、以下の組み合わせ矩形列が得られる。
{s1,s3}
{s1,s4}
{s1,s5}
{s1,s3,s5}
{s2,s4}
{s2,s5}
評価値が最大の組み合わせ矩形列が得られた場合、当該組み合わせ矩形列に選ばれなかった文字候補矩形はノイズとして削除される。たとえば、評価値が最大の組み合わせ矩形列が{s1,s3,s5}である場合、重複文字候補矩形集合3200から文字矩形候補s2,s4がノイズとして削除される。
図33は、文字間ノイズ除去処理(ステップS2206)の詳細な処理手順を示すフローチャートである。図33において、未処理の行領域があるか否かを判断する(ステップS3301)。未処理の行領域がある場合(ステップS3301:Yes)、未処理の行領域を選択する(ステップS3302)。そして、選択行領域内のすべての文字候補矩形ペアの中心間距離D1および矩形間距離D2を求めて、その最頻値D1*,D2*を算出する(ステップS3303)。
つぎに、選択行領域から重複文字候補矩形集合を探索する(ステップS3304)。そして、未処理の重複文字候補矩形集合があるか否かを判断する(ステップS3305)。未処理の重複文字候補矩形集合がある場合(ステップS3305:Yes)、未処理の重複文字候補矩形集合を選択して(ステップS3306)、選択された重複文字候補矩形集合について、組み合わせ矩形列生成処理を実行し(ステップS3307)、ステップS3305に戻る。
一方、ステップS3305において、未処理の重複文字候補矩形集合がない場合(ステップS3305:No)、各組み合わせ矩形列の評価値を算出する(ステップS3308)。そして、評価値が最大の組み合わせ矩形列を文字列らしい矩形列として選択して(ステップS3309)、ステップS3301に戻る。ステップ3301において、未処理の行領域がない場合(ステップS3301:No)、ステップS2201に戻る。
図34は、図33に示した組み合わせ矩形列生成処理(ステップS3307)の詳細な処理手順を示すフローチャートである。図34において、重複文字候補矩形集合の領域一端(図32を参照)からしきい値以内の距離にある文字候補矩形を抽出する(ステップS3401)。図32を例に挙げると、文字候補矩形s1はしきい値以内なので抽出されるが、しきい値によっては、文字候補矩形s2は抽出されない。
つぎに、未処理の抽出矩形があるか否かを判断する(ステップS3402)。未処理の抽出矩形がある場合(ステップS3402:Yes)、カレント矩形として取り出し(ステップS3403)、カレント矩形から領域他端(図32を参照)の間に未処理の文字候補矩形があるか否かを判断する(ステップS3404)。未処理の文字候補矩形がある場合(ステップS3404:Yes)、未処理の文字候補矩形を選択する(ステップS3405)。
そして、選択矩形がカレント矩形と妥当な位置関係にあるか否かを判断する(ステップS3406)。具体的には、選択矩形とカレント矩形との中心間距離D1と最頻値D1*との差が許容範囲以内で、かつ、選択矩形とカレント矩形との矩形間距離D2と最頻値D2*との差が許容範囲以内であるか否かを判断する。
妥当な位置関係でない場合(ステップS3406:No)、ステップS3404に戻る。一方、妥当な位置関係である場合(ステップS3406:Yes)、選択矩形を組み合わせ矩形列の構成要素の候補としてメモリに記録して(ステップS3407)、ステップS3404に戻る。
ステップS3404において、未処理の文字候補矩形がない場合(ステップS3404:No)、未処理の記録済み選択矩形があるか否かを判断する(ステップS3408)。未処理の記録済み選択矩形がある場合(ステップS3408:Yes)、領域一端に最も近い未処理の記録済み選択矩形をカレント矩形とし(ステップS3409)、ステップS3404に戻る。
一方、未処理の記録済み選択矩形がない場合(ステップS3408:No)、ステップS3403で取り出された初期のカレント矩形とステップS3407の記録済み選択矩形とを、組み合わせ矩形列として記録する(ステップS3410)。そして、ステップS3402に戻る。ステップS3402において、未処理の抽出矩形がない場合(ステップS3402:No)、ステップS3305に戻る。
このように、文字間ノイズ除去処理(ステップS2206)により、文字列にふさわしくない黒画素連結領域をノイズとして除去することで、文字列らしいパターンを取り出すことができる。図35は、文字間ノイズ除去処理(ステップS2206)によるノイズ除去処理結果を示す説明図である。
(文字矩形内ノイズ除去処理部308の詳細な処理内容)
つぎに、文字矩形内ノイズ除去処理部308の詳細な処理内容について説明する。文字矩形内ノイズ除去処理部308は、文字候補矩形から文字パターンに該当しない黒画素連結領域を除去して、文字パターンに該当する黒画素連結領域のみを抽出する。具体的には、たとえば、文字候補矩形内の黒画素連結領域が2画素以上10画素以下の場合、黒画素連結領域を組み合わせて文字パターンを生成する。
図36は、文字パターンの生成例を示す説明図である。この文字候補矩形3600では、内部の黒画素連結領域を組み合わせることで、その右側の文字パターン群が得られる。そして、生成された文字パターンの1文字認識処理(図15を参照)して、距離diを求める。生成された文字パターンの認識結果における第1〜第10候補の文字コードの中で、第1候補の文字コードとの距離diの差が700以内に収まっている候補に対して、最初の文字と同じ文字コードの候補が存在するかどうか調べる。
同じ文字コードの候補が存在していて、生成された文字パターンの認識結果における第1候補が、最初の文字の第1候補と比較して評価が高くなっている(距離が小さく、確信度Cが大きい)場合、文字パターンと認識結果を組み替える。この処理を以下、具体的に説明する。
図37は、文字矩形内ノイズ除去処理部308による文字矩形内ノイズ除去処理の詳細な処理手順を示すフローチャートである。図37において、未処理の文字候補矩形があるか否かを判断する(ステップS3701)。未処理の文字候補矩形がある場合(ステップS3701:Yes)、未処理の文字候補矩形を選択する(ステップS3702)。そして、選択文字候補矩形の文字パターンについて、図15に示したように1文字認識処理を実行する(ステップS3703)。このときの認識結果である文字コードをcとする。そして、この文字コードcの文字パターン(初期では、選択文字候補矩形内の全黒画素連結領域を組み合わせた文字パターン)をメモリに記録する(ステップS3704)。記録文字パターンはよりふさわしい文字パターンが出現すると後述のように更新されることとなる。
つぎに、図36に示したように、選択文字候補矩形内で黒画素連結領域の全組み合わせを生成する(ステップS3705)。そして、未処理の生成パターンがあるか否かを判断する(ステップS3706)。未処理の生成パターンがある場合(ステップS3706:Yes)、生成パターンを1つ選択し(ステップS3707)、1文字認識処理を実行する(ステップS3708)。このときの認識結果である文字コードをc2とする。そして、c=c2であるか否かを判断する(ステップS3709)。
c=c2でない場合(ステップS3709:No)、ステップS3706に戻る。一方、c=c2である場合(ステップS3709:Yes)、選択生成パターンと文字コードc2との距離が現在の記録文字パターンと文字コードcとの距離より小さいか否かを判断する(ステップS3710)。小さくない場合(ステップS3710:No)、ステップS3706に戻る。
一方、小さい場合(ステップS3710:Yes)、選択生成パターンの確信度が現在の記録文字パターンの確信度より大きいか否かを判断する(ステップS3711)。大きくない場合(ステップS3711:No)、ステップS3706に戻る。一方、大きい場合(ステップS3711:Yes)、記録文字パターンを生成パターンに更新する(ステップS3712)。以後、更新された生成パターンが記録文字パターンとなる。そして、ステップS3706に戻る。
一方、ステップS3706において、未処理の生成パターンがない場合(ステップS3706:No)、ステップS3701に戻る。そして、ステップS3701において、未処理の文字候補矩形がない場合(ステップS3701:No)、文字候補矩形ごとに最後まで記録された記録文字パターン群からなる文字列パターンを出力する(ステップS3713)。具体的には、たとえば、ディスプレイ208に表示する。
図38は、出力される文字列パターン3800を示す説明図である。この文字矩形内ノイズ除去処理部308および文字矩形内ノイズ除去処理によれば、各文字候補矩形内において、暫定的な文字パターンに対してより文字コードの文字らしい文字パターンが出現する都度、比較決定するため、文字らしい文字パターン列を得ることができる。
以上説明したように、テロップ文字パターン抽出装置、テロップ文字パターン抽出方法、およびテロップ文字パターン抽出プログラムによれば、文字列パターンの抽出精度の向上を図ることができる。
なお、本実施の形態で説明したテロップ文字パターン抽出方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。なお、上記実施の形態につき、以下に付記する。
(付記1)コンピュータを、
テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、前記生成手段によって生成された色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジMFIノイズ除去手段、
前記各色分解画像を前記エッジMFIノイズ除去手段によるノイズ除去することにより得られた各色分解2値画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成する行領域選択手段、
前記行領域選択手段によって生成された合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
として機能させることを特徴とするテロップ文字パターン抽出プログラム。
(付記2)前記エッジMFIノイズ除去手段は、
前記エッジ2値画像において前記平均画像の画素連結パターンに接する画素数と、前記ダイレーション画像から前記色分解画像を引いた差分画像において前記平均画像の画素連結パターンに接する画素数と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去することを特徴とする付記1に記載のテロップ文字パターン抽出プログラム。
(付記3)前記コンピュータを、
前記合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段として機能させ、
前記文字矩形内ノイズ除去手段は、
前記文字間ノイズ除去手段によるノイズ除去後の合成2値画像に基づいて、前記文字列パターンを出力することを特徴とする付記1または2に記載のテロップ文字パターン抽出プログラム。
(付記4)前記文字間ノイズ除去手段は、
前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去する重複・包含矩形ノイズ除去手段と、を備えることを特徴とする付記3に記載のテロップ文字パターン抽出プログラム。
(付記5)前記文字間ノイズ除去手段は、
前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段を備え、
前記文字候補矩形抽出手段によって抽出された隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することを特徴とする付記3に記載のテロップ文字パターン抽出プログラム。
(付記6)前記文字間ノイズ除去手段は、
前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去する重複・包含矩形ノイズ除去手段と、を備え、
前記重複・包含矩形ノイズ除去手段によるノイズ除去結果に基づいて、隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することを特徴とする付記3に記載のテロップ文字パターン抽出プログラム。
(付記7)コンピュータを、
テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
前記生成手段によって生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成する行領域選択手段、
前記行領域選択手段によって生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段、
前記文字間ノイズ除去手段によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
として機能させることを特徴とするテロップ文字パターン抽出プログラム。
(付記8)テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジMFIノイズ除去手段と、
前記各色分解画像を前記エッジMFIノイズ除去手段によるノイズ除去することにより得られた各色分解2値画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成する行領域選択手段と、
前記行領域選択手段によって生成された合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
を備えることを特徴とするテロップ文字パターン抽出装置。
(付記9)テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
前記生成手段によって生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成する行領域選択手段と、
前記行領域選択手段によって生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段と、
前記文字間ノイズ除去手段によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
を備えることを特徴とするテロップ文字パターン抽出装置。
(付記10)テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジMFIノイズ除去工程と、
前記各色分解画像を前記エッジMFIノイズ除去工程によるノイズ除去することにより得られた各色分解2値画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成する行領域選択工程と、
前記行領域選択工程によって生成された合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
を含んだことを特徴とするテロップ文字パターン抽出方法。
(付記11)テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
前記生成工程によって生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成2値画像を生成する行領域選択工程と、
前記行領域選択工程によって生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去工程と、
前記文字間ノイズ除去工程によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
を含んだことを特徴とするテロップ文字パターン抽出方法。
本実施の形態にかかるテロップ文字パターン抽出方法の処理手順を示すフローチャートである。 本実施の形態にかかるテロップ文字パターン抽出装置のハードウェア構成を示すブロック図である。 本実施の形態にかかるテロップ文字パターン抽出装置の機能的構成を示すブロック図である。 平均画像およびエッジ2値画像の生成内容を示す説明図である。 平均画像の一例を示す説明図である。 色空間座標における色クラスタリングを示す説明図である。 色クラスタリングによって得られた色分解画像を示す説明図である。 画像周囲のノイズ除去処理により処理された色分解画像を示す説明図である。 エッジMFIによるノイズ除去処理で得られる一連の画像を示す説明図である。 図9のd)のMFIによるノイズ除去の処理内容を示す説明図である。 エッジMFIノイズ除去処理部のエッジMFIによるノイズ除去処理の詳細な処理手順を示すフローチャートである。 図11に示したエッジ2値画像生成処理の手順を示すフローチャートである。 図11に示したノイズ除去処理の詳細な処理手順を示すフローチャートである。 行領域抽出部による行領域抽出処理の詳細な処理手順を示すフローチャートである。 確信度の算出方法を示す説明図である。 ヒストグラムの生成例を示す説明図である。 決定された行領域を示す説明図である。 ノイズ文字を示す説明図である。 行領域選択部による行領域選択処理の詳細な処理手順を示すフローチャートである。 合成2値画像の一例を示す説明図である。 図19に示した妥当な文字カウント処理の詳細な処理手順を示すフローチャートである。 文字間ノイズ除去処理部による文字間ノイズ除去処理の詳細な処理手順を示すフローチャートである。 文字候補矩形抽出処理の具体例を示す説明図である。 図22に示した文字候補矩形抽出処理の詳細な処理手順を示すフローチャートである。 文字候補矩形抽出処理結果を示す説明図である。 ある文字コードの頻度分布を示すグラフである。 包含関係を示す説明図である。 重複関係を示す説明図である。 重複・包含矩形のノイズ除去処理の詳細な処理手順を示すフローチャートである。 重複・包含矩形のノイズ除去処理によるノイズ除去処理結果を示す説明図である。 文字候補矩形間の中心間距離および矩形間距離を示す説明図である。 行領域内の重複文字候補矩形集合の一例を示す説明図である。 文字間ノイズ除去処理の詳細な処理手順を示すフローチャートである。 図33に示した組み合わせ矩形列生成処理の詳細な処理手順を示すフローチャートである。 文字間ノイズ除去処理によるノイズ除去処理結果を示す説明図である。 文字パターンの生成例を示す説明図である。 文字矩形内ノイズ除去処理部による文字矩形内ノイズ除去処理の詳細な処理手順を示すフローチャートである。 出力される文字列パターンを示す説明図である。
符号の説明
300 テロップ文字パターン抽出装置
301 取得部
302 色分解画像生成部
303 周辺ノイズ除去処理部
304 ノイズ除去処理部
305 行領域抽出部
306 行領域選択部
307 文字間ノイズ除去処理部
308 文字矩形内ノイズ除去処理部

Claims (10)

  1. コンピュータを、
    テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
    前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
    一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、前記生成手段によって生成された色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジMFIノイズ除去手段、
    前記各色分解画像を前記エッジMFIノイズ除去手段によってノイズ除去することにより得られた各色分解2値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを1つの文字パターンとして認識する1文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを1つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解2値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段、
    前記行領域抽出手段によって抽出された前記各色分解2値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成2値画像を生成する行領域選択手段、
    前記合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段、
    前記文字間ノイズ除去手段によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
    として機能させることを特徴とするテロップ文字パターン抽出プログラム。
  2. 前記エッジMFIノイズ除去手段は、
    前記エッジ2値画像において前記平均画像の画素連結パターンに接する画素数と、前記ダイレーション画像から前記色分解画像を引いた差分画像において前記平均画像の画素連結パターンに接する画素数と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去することを特徴とする請求項1に記載のテロップ文字パターン抽出プログラム。
  3. コンピュータを、
    テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
    前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
    前記各色分解画像を前記生成手段によって生成された各色分解2値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを1つの文字パターンとして認識する1文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを1つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解2値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段、
    前記行領域抽出手段によって抽出された前記各色分解2値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成2値画像を生成する行領域選択手段、
    前記行領域選択手段によって生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段、
    前記文字間ノイズ除去手段によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
    として機能させることを特徴とするテロップ文字パターン抽出プログラム。
  4. 前記文字間ノイズ除去手段は、
    前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
    前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係にある場合、文字候補矩形ペアのうち大きい方の文字候補矩形が濁点または半濁点文字であるが文字コードが濁点または半濁点文字でない場合、前記文字候補矩形ペアのうち小さい方の文字候補矩形を除去する重複矩形ノイズ除去手段と、を有することを特徴とする請求項1〜3のいずれか一つに記載のテロップ文字パターン抽出プログラム。
  5. テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
    前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
    一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジMFIノイズ除去手段と、
    前記各色分解画像を前記エッジMFIノイズ除去手段によってノイズ除去することにより得られた各色分解2値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを1つの文字パターンとして認識する1文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを1つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解2値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段と、
    前記行領域抽出手段によって抽出された前記各色分解2値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成2値画像を生成する行領域選択手段と、
    前記合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段と、
    前記文字間ノイズ除去手段によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
    を備えることを特徴とするテロップ文字パターン抽出装置。
  6. テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
    前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
    前記各色分解画像を前記生成手段によって生成された各色分解2値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを1つの文字パターンとして認識する1文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを1つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解2値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段と、
    前記行領域抽出手段によって抽出された前記各色分解2値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成2値画像を生成する行領域選択手段と、
    前記行領域選択手段によって生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段と、
    前記文字間ノイズ除去手段によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
    を備えることを特徴とするテロップ文字パターン抽出装置。
  7. 前記文字間ノイズ除去手段は、
    前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
    前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係にある場合、文字候補矩形ペアのうち大きい方の文字候補矩形が濁点または半濁点文字であるが文字コードが濁点または半濁点文字でない場合、前記文字候補矩形ペアのうち小さい方の文字候補矩形を除去する重複矩形ノイズ除去手段と、を有することを特徴とする請求項5または6に記載のテロップ文字パターン抽出装置。
  8. テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
    前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
    一連のフレーム画像からエッジ抽出したエッジ画像を集積して2値化したエッジ2値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジMFIノイズ除去工程と、
    前記各色分解画像を前記エッジMFIノイズ除去工程によってノイズ除去することにより得られた各色分解2値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを1つの文字パターンとして認識する1文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを1つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解2値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出工程と、
    前記行領域抽出工程によって抽出された前記各色分解2値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成2値画像を生成する行領域選択工程と、
    前記合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去工程と、
    前記文字間ノイズ除去工程によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
    を含んだことを特徴とするテロップ文字パターン抽出方法。
  9. テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
    前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
    前記各色分解画像を前記生成工程によって生成された各色分解2値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを1つの文字パターンとして認識する1文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを1つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解2値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出工程と、
    前記行領域抽出工程によって抽出された前記各色分解2値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成2値画像を生成する行領域選択工程と、
    前記行領域選択工程によって生成された合成2値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去工程と、
    前記文字間ノイズ除去工程によるノイズ除去後の合成2値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
    を含んだことを特徴とするテロップ文字パターン抽出方法。
  10. 前記文字間ノイズ除去工程は、
    前記合成2値画像内の画素連結パターンの文字認識結果に基づいて、前記合成2値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出工程と、
    前記文字候補矩形抽出工程によって抽出された文字候補矩形ペアが重複関係にある場合、文字候補矩形ペアのうち大きい方の文字候補矩形が濁点または半濁点文字であるが文字コードが濁点または半濁点文字でない場合、前記文字候補矩形ペアのうち小さい方の文字候補矩形を除去する重複矩形ノイズ除去工程と、を有することを特徴とする請求項8または9に記載のテロップ文字パターン抽出方法。
JP2008039407A 2008-02-20 2008-02-20 テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法 Expired - Fee Related JP5029412B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008039407A JP5029412B2 (ja) 2008-02-20 2008-02-20 テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008039407A JP5029412B2 (ja) 2008-02-20 2008-02-20 テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法

Publications (2)

Publication Number Publication Date
JP2009199276A JP2009199276A (ja) 2009-09-03
JP5029412B2 true JP5029412B2 (ja) 2012-09-19

Family

ID=41142714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008039407A Expired - Fee Related JP5029412B2 (ja) 2008-02-20 2008-02-20 テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法

Country Status (1)

Country Link
JP (1) JP5029412B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5672059B2 (ja) * 2011-02-24 2015-02-18 富士通株式会社 文字認識処理装置および方法並びに文字認識処理プログラム
JP5547226B2 (ja) 2012-03-16 2014-07-09 株式会社東芝 画像処理装置、及び画像処理方法
JP6303671B2 (ja) * 2014-03-20 2018-04-04 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP6671613B2 (ja) * 2017-03-15 2020-03-25 ソフネック株式会社 文字認識方法及びコンピュータプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3692018B2 (ja) * 2000-01-24 2005-09-07 株式会社東芝 テロップ情報処理装置
JP4396376B2 (ja) * 2004-04-22 2010-01-13 日本電気株式会社 図形読み取り方法及びその装置並びに主要色抽出方法及びその装置

Also Published As

Publication number Publication date
JP2009199276A (ja) 2009-09-03

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
US5335290A (en) Segmentation of text, picture and lines of a document image
Wenyin et al. From raster to vectors: extracting visual information from line drawings
EP1598770B1 (en) Low resolution optical character recognition for camera acquired documents
US8351691B2 (en) Object extraction in colour compound documents
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
JP2002024836A (ja) ディジタルイメージから表題を抽出する方法
JPH11288465A (ja) カラー画像処理装置及びパターン抽出装置
EP1854051A2 (en) Intelligent importation of information from foreign application user interface using artificial intelligence
KR102592551B1 (ko) Ar장치를 위한 객체 인식 처리 장치 및 방법
CN110766017A (zh) 基于深度学习的移动终端文字识别方法及系统
JP5029412B2 (ja) テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法
Al Abodi et al. An effective approach to offline Arabic handwriting recognition
JP4391704B2 (ja) 多値画像から二値画像を生成する画像処理装置および方法
Feild et al. Scene text recognition with bilateral regression
Nordmark et al. Window detection in facade imagery: a deep learning approach using mask R-CNN
JP3720892B2 (ja) 画像処理方法および画像処理装置
JP3819236B2 (ja) パターン認識方法及びパターン認識を行わせるプログラムを記憶したコンピュータ読み取り可能な記憶媒体
Rampurkar et al. An approach towards text detection from complex images using morphological techniques
JP3095069B2 (ja) 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
Tran et al. A deep learning-based system for document layout analysis
Robertson Optical character recognition for classical philology
JP4176175B2 (ja) パターン認識装置
US5940533A (en) Method for analyzing cursive writing
Sridevi et al. Segmentation of text lines and characters in ancient tamil script documents using computational intelligence techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120611

R150 Certificate of patent or registration of utility model

Ref document number: 5029412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees