JP5029412B2

JP5029412B2 - テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法

Info

Publication number: JP5029412B2
Application number: JP2008039407A
Authority: JP
Inventors: 裕勝山; 浩明武部; 克仁藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-02-20
Filing date: 2008-02-20
Publication date: 2012-09-19
Anticipated expiration: 2028-02-20
Also published as: JP2009199276A

Description

この発明は、テロップを含む一連のフレーム画像から文字列パターンを抽出するテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法に関する。

従来から文字認識装置が開示されている（たとえば、下記特許文献１〜４を参照。）。

特開平７−１６８９１１号公報特開平８−５５１８５号公報特許第３６６５４３５号公報特開平２−１３２５７７号公報

しかしながら、上述した従来技術には、文字認識を利用していないものがあるため、色分解後の２値画像から文字列パターンを含む行領域を抽出しても、ノイズが非常に多く含まれているという問題があった。

また、上述した従来技術では、文字列の規則性を考慮していないため、本来ノイズとして扱っていけないパターンを除去したり、ノイズとして扱うべきパターンを除去しなかったりするという問題があった。

この発明は、上述した従来技術による問題点を解消するため、文字列パターンの抽出精度の向上を図ることができるテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、第１のテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法は、テロップを含む一連のフレーム画像の平均画像を取得し、取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成し、一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去し、前記各色分解画像をエッジＭＦＩノイズ除去により得られた各色分解２値画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成し、生成された合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力することを要件とする。

また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記エッジ２値画像において前記平均画像の画素連結パターンに接する画素数と、前記ダイレーション画像から前記色分解画像を引いた差分画像において前記平均画像の画素連結パターンに接する画素数と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去することとしてもよい。

また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去し、ノイズ除去後の合成２値画像に基づいて、前記文字列パターンを出力することとしてもよい。

また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出し、抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去することとしてもよい。

また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出し、抽出された隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することとしてもよい。

また、上記テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法において、前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出し、抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去し、ノイズ除去結果に基づいて、隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することとしてもよい。

また、第２のテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法は、テロップを含む一連のフレーム画像の平均画像を取得し、取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成し、生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成し、生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去し、ノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力することを要件とする。

本テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法によれば、文字列パターンの抽出精度の向上を図ることができるという効果を奏する。

以下に添付図面を参照して、本テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法の好適な実施の形態を詳細に説明する。

（テロップ文字パターン抽出の概要）
本実施の形態のテロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法は、
１）文字認識を使用して色分解２値画像から正しい行を抽出する技術と、
２）ノイズを含む行パターンから文字認識を使用してキー文字と呼ばれる代表的な文字パターン候補を求め、そのキー文字を使って生成された文字候補矩形の組み合わせとなる複数の文字列候補矩形列の中から、文字の帰属度や文字間隔情報といった文字パターンの特徴を使用して、正しい文字列矩形を求める技術と、
を用いて、テロップの中から文字パターンを抽出する技術である。

図１は、本実施の形態にかかるテロップ文字パターン抽出方法の処理手順を示すフローチャートである。図１において、テロップ文字パターン抽出方法は、テロップ領域画像取得処理（ステップＳ１０１）、色クラスタリングによる色分解画像作成処理（ステップＳ１０２）、画像周囲のノイズ除去処理（ステップＳ１０３）、エッジＭＦＩ（ＭｕｌｔｉＦｒａｍｅＩｎｔｅｇｒａｔｉｏｎ）によるノイズ除去処理（ステップＳ１０４）、行領域抽出処理（ステップＳ１０５）、行領域選択処理（ステップＳ１０６）、パターンの規則性による文字間ノイズ除去処理（ステップＳ１０７）、文字矩形内ノイズ除去処理（ステップＳ１０８）の順に実行することで、テロップから文字パターンを抽出することができる。このステップＳ１０１〜Ｓ１０５が上記１）の技術であり、ステップＳ１０６〜Ｓ１０８が上記２）の技術に相当する。以下、各処理Ｓ１０１〜Ｓ１０８を実現する内容について詳細に説明する。

（テロップ文字パターン抽出装置のハードウェア構成）
図２は、本実施の形態にかかるテロップ文字パターン抽出装置のハードウェア構成を示すブロック図である。図２において、テロップ文字パターン抽出装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（Ｒｅａｄ‐ＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）２０４と、ＨＤ（ＨａｒｄＤｉｓｋ）２０５と、ＦＤＤ（ＦｌｅｘｉｂｌｅＤｉｓｋＤｒｉｖｅ）２０６と、着脱可能な記録媒体の一例としてのＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）２０７と、ディスプレイ２０８と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０９と、キーボード２１０と、マウス２１１と、スキャナ２１２と、プリンタ２１３と、を備えている。また、各構成部はバス２００によってそれぞれ接続されている。

ここで、ＣＰＵ２０１は、テロップ文字パターン抽出装置の全体の制御を司る。ＲＯＭ２０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される。ＨＤＤ２０４は、ＣＰＵ２０１の制御にしたがってＨＤ２０５に対するデータのリード／ライトを制御する。ＨＤ２０５は、ＨＤＤ２０４の制御で書き込まれたデータを記憶する。

ＦＤＤ２０６は、ＣＰＵ２０１の制御にしたがってＦＤ２０７に対するデータのリード／ライトを制御する。ＦＤ２０７は、ＦＤＤ２０６の制御で書き込まれたデータを記憶したり、ＦＤ２０７に記憶されたデータをテロップ文字パターン抽出装置に読み取らせたりする。

また、着脱可能な記録媒体として、ＦＤ２０７のほか、ＣＤ−ＲＯＭ（ＣＤ−Ｒ、ＣＤ−ＲＷ）、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、メモリーカードなどであってもよい。ディスプレイ２０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ２０８は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

Ｉ／Ｆ２０９は、通信回線を通じてインターネットなどのネットワーク２１４に接続され、このネットワーク２１４を介して他の装置に接続される。そして、Ｉ／Ｆ２０９は、ネットワーク２１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ２０９には、たとえばモデムやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アダプタなどを採用することができる。

キーボード２１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス２１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

スキャナ２１２は、画像を光学的に読み取り、テロップ文字パターン抽出装置内に画像データを取り込む。なお、スキャナ２１２は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を持たせてもよい。また、プリンタ２１３は、画像データや文書データを印刷する。プリンタ２１３には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。

（テロップ文字パターン抽出装置の機能的構成）
図３は、本実施の形態にかかるテロップ文字パターン抽出装置の機能的構成を示すブロック図である。図３において、テロップ文字パターン抽出装置３００は、取得部３０１と、色分解画像生成部３０２と、周辺ノイズ除去処理部３０３と、エッジＭＦＩノイズ除去処理部３０４と、行領域抽出部３０５と、行領域選択部３０６と、文字間ノイズ除去処理部３０７と、文字矩形内ノイズ除去処理部３０８と、を含む構成である。

取得部３０１は、時系列なフレーム画像群の中から指定テロップ領域内の一連のフレーム画像を取得する機能を有する。指定テロップ区間とは、フレーム画像群が連続する全区間のうちテロップが表示される区間のことである。テロップの時間的区間、領域を求める技術については、「１９９４年電子情報通信学会春季大会Ｄ−４２７テロップの認識による資料映像の検索について」を用いて実現できる。取得された一連のフレーム画像は、それぞれテロップ画像を有しており、後述する平均画像やエッジ２値画像の生成元となる（図４を参照。）。

色分解画像生成部３０２は、取得部３０１によって取得された一連のフレーム画像から平均画像を生成して、平均画像に基づいて色分解画像を生成する機能を有する。色分解画像はクラスタリングにより生成できる。クラスタリングについては、「電子情報通信学会論文誌Ｄ−ＩＩ，Ｖｏｌ．Ｊ８２−Ｄ−ＩＩ，ＮＯ．４，ｐｐ．７５１−７６２，１９９９年４月，ＩＳＯＤＡＴＡクラスタリング法を用いたカラー画像の領域分割」を用いて実現できる。色分解画像生成部３０２の具体的な処理内容については、図４〜図７を用いて後述する。

周辺ノイズ除去処理部３０３は、色分解画像生成部３０２によって生成された各色分解画像から、その領域周辺に接するパターンをノイズとみなして削除する機能を有する。周辺ノイズ除去処理部３０３は、「１９９６年電子情報通信学会情報・システムソサイエティ大会Ｄ-３４４映像中文字領域抽出のためのカラー画像セグメンテーション」を用いることで実現できる。周辺ノイズ除去処理部３０３の具体的な説明については、図８を用いて後述する。

エッジＭＦＩノイズ除去処理部３０４は、一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、平均画像と、に基づいて、各色分解画像の中から動きのあるパターンをノイズとして除去する機能を有する。具体的には、一連のフレーム画像からエッジ２値画像を生成して、周辺ノイズ除去処理部３０３によってノイズ除去された色分解画像ごとにノイズ除去処理する。エッジＭＦＩノイズ除去処理部３０４の具体的な説明については、図４および図９〜図１３を用いて後述する。

行領域抽出部３０５は、エッジＭＦＩノイズ除去処理部３０４によるノイズ除去後の各色分解２値画像から文字パターン列が存在する行を抽出する機能を有する。行領域抽出部３０５の具体的な説明については、図１４〜図１７を用いて後述する。

行領域選択部３０６は、各色分解画像をエッジＭＦＩノイズ除去処理部３０４によるノイズ除去することにより得られた各色分解２値画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成する機能を有する。具体的には、行領域が特定された各色分解２値画像から、文字らしい画素連結パターン（たとえば、黒画素連結領域）が多く存在する行領域を行ごとに選択する。行領域選択部３０６の具体的な説明については、図１８〜図２１を用いて後述する。

文字間ノイズ除去処理部３０７は、行領域選択部３０６によって生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する機能を有する。文字列の規則とは、たとえば、対象とする２つの画素連結パターンが、テロップにおける文字と文字の間隔と同等な間隔で位置するための条件や、行高さが揃うための条件など、文字列の自然な配置に違反する画素連結パターンをノイズとして扱う条件である。具体的には、たとえば、行領域選択部３０６により得られた合成２値画像から行領域ごとに、文字に相当する黒画素連結領域間に存在するノイズを除去する。文字間ノイズ除去処理部３０７の具体的な説明については、図２２〜図３５を用いて後述する。

文字矩形内ノイズ除去処理部３０８は、合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する機能を有する。具体的には、文字候補矩形から文字に該当しない黒画素連結領域を除去して、文字パターンに該当する黒画素連結領域のみを抽出する。文字矩形内ノイズ除去処理部３０８の具体的な説明については、図３６〜図３８を用いて後述する。

なお、上述した取得部３０１、色分解画像生成部３０２、周辺ノイズ除去処理部３０３、エッジＭＦＩノイズ除去処理部３０４、行領域抽出部３０５、行領域選択部３０６、文字間ノイズ除去処理部３０７、および文字矩形内ノイズ除去処理部３０８は、具体的には、たとえば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ＨＤ２０５などの記憶領域に記憶されたプログラムをＣＰＵに実行させることにより、その機能を実現する。

（色分解画像生成部３０２の詳細な処理内容）
まず、色分解画像生成部３０２の詳細な処理内容について図４〜図７を用いて説明する。図４は、平均画像およびエッジ２値画像の生成内容を示す説明図である。図４において、時系列で入力されてくる指定テロップ区間内の一連のフレーム画像４０１の同一位置の画素値を平均化することで、平均画像４１０が生成される。

図５は、平均画像４１０の一例を示す説明図である。この平均画像４１０を色クラスタリングすることで、色分解画像が生成される。テロップ文字は同じ文字色を持つので、テロップ文字と背景を分離する目的で、色クラスタリングをおこなって平均画像４１０を色分解する。色クラスタリングとは、平均画像４１０の各画素の値を、Ｒ（赤）、Ｇ（緑）、Ｂ（青）の３軸からなる色空間座標にプロットし、クラスタ化する処理である。

図６は、色空間座標６００における色クラスタリングを示す説明図である。ここでは、平均画像４１０は、４つのクラスタ（白をあらわすクラスタ６０１、濃い灰色をあらわすクラスタ６０２、薄い灰色をあらわすクラスタ６０３、黒をあらわすクラスタ６０４）にクラスタリングされている。本例では４つのクラスタ６０１〜６０４にまとめられたが、クラスタの個数は４つに限定されず、平均画像４１０の画素値や、適用する色クラスタリングにより適宜決定される。本例では、ＩＳＯＤＡＴＡ（ＩｔｅｒａｔｉｖｅＳｅｌｆ‐Ｏｒｇａｎｉｚｉｎｇ）クラスタリングを用いている。

図７は、色クラスタリングによって得られた色分解画像を示す説明図である。色分解画像はクラスタごとに生成される。本例では、４個の色分解画像７０１〜７０４が生成される。色分解画像７０１は、白のクラスタから得られた２値画像であり、色分解画像７０２は、濃い灰色のクラスタから得られた２値画像であり、色分解画像７０３は、薄い灰色のクラスタから得られた２値画像であり、色分解画像７０４は、黒のクラスタから得られた２値画像である。

（周辺ノイズ除去処理部３０３の詳細な処理内容）
周辺ノイズ除去処理部３０３の詳細な処理内容について図８を用いて説明する。図８は、画像周囲のノイズ除去処理（ステップＳ１０３）により処理された色分解画像を示す説明図である。色分解画像８０１は、色分解画像７０１の画像周囲のノイズ除去処理により処理された色分解画像であり、色分解画像８０２は、色分解画像７０２の画像周囲のノイズ除去処理により処理された色分解画像であり、色分解画像８０３は、色分解画像７０３の画像周囲のノイズ除去処理により処理された色分解画像であり、色分解画像８０４は、色分解画像７０４の画像周囲のノイズ除去処理により処理された色分解画像である。

テロップ文字は領域の中央付近にあり、文字パターンとノイズとは接触しない場合が多いので、各色分解画像８０１〜８０４の領域周辺に接するパターンが削除されている。

（エッジＭＦＩノイズ除去処理部３０４の詳細な処理内容）
エッジＭＦＩノイズ除去処理部３０４の詳細な処理内容について、図４、図９〜図１１を用いて説明する。図４において、一連のフレーム画像４０１は、公知のエッジ抽出処理（たとえば、Ｃａｎｎｙエッジ）と２値化処理により、一連のエッジ２値画像４０２に変換され、同一位置の画素値を合計することで、エッジ濃淡画像４２０が生成される。そして、エッジ濃淡画像４２０を、固定しきい値で２値化することで、エッジ２値画像４３０が生成される。

図９は、エッジＭＦＩによるノイズ除去処理で得られる一連の画像を示す説明図である。ａ）は、図４に示したエッジ２値画像４３０である。このエッジ２値画像４３０は動きがないパターンのエッジ画像となる。テロップ文字は動きがないので、エッジが現れることとなる。したがって、文字ストロークパターンの周囲に動きがないエッジが多くあるものをテロップ文字パターン候補として抽出することができる。

ｂ）は、図８に示した色分解画像８０１のダイレーション画像８０１Ｄである。ダイレーションとは、注目画素の周囲８画素の画素値を、注目画素の画素値に変換する処理である。ｃ）は、ｂ）のダイレーション画像８０１Ｄから元画像である色分解画像８０１を引いたことにより得られるエッジ画像９０１である。エッジ画像９０１は文字パターンの理想的なエッジを示す。ｄ）は、ａ）のエッジ２値画像４３０とｃ）のエッジ画像９０１とを用いて、エッジＭＦＩによるノイズ除去をおこなうことで得られる色分解２値画像９１０である。

ｄ）のＭＦＩによるノイズ除去では、色分解画像８０１の各黒画素連結領域と接するエッジ２値画像４３０の画素数ｐ１を求める。同様に、色分解画像８０１の各黒画素連結領域と接するエッジ画像９０１の画素数ｐ２を求める。しきい値をｔ（たとえば、ｔ＝０．５４）とすると、ｐ１／ｐ２＜ｔの場合に、色分解画像８０１の黒画素連結領域を、動いているパターンとして色分解画像８０１から削除する。削除後の画像が色分解２値画像９１０である。ここで、ｄ）の処理内容について具体的に説明する。

図１０は、図９のｄ）のＭＦＩによるノイズ除去の処理内容を示す説明図である。図１０において、黒四角（■）は、色分解画像８０１の黒画素連結領域の画素（以下、「■画素」）である。白四角（□）は、色分解画像８０１の非黒画素連結領域の画素（以下、「□画素」）である。白丸（○）は、色分解画像８０１の各黒画素連結領域と接するエッジ画像９０１の画素（以下、「○画素」）である。黒丸（●）は、色分解画像８０１の各黒画素連結領域と接するエッジ２値画像４３０の画素（以下、「●画素」）である。●画素は○画素でもある。

図１０の（Ａ）では、●画素が１５画素（ｐ１＝１０）であり、（Ｂ）では、○画素が２０画素（ｐ２＝２０）である。したがって、図１０では、ｐ１／ｐ２＜ｔを満たすため、■画素は削除される。なお、図９に示したｂ）〜ｄ）の内容は、色分解画像８０１だけではなく、他の色分解画像８０２〜８０４についても求める。これにより、図１６に示したような色分解２値画像９２０〜９４０が得られる。

図１１は、エッジＭＦＩノイズ除去処理部３０４のエッジＭＦＩによるノイズ除去処理（ステップＳ１０４）の詳細な処理手順を示すフローチャートである。図１１において、図４に示したように、エッジ２値画像生成処理を実行し（ステップＳ１１０１）、未処理の色分解画像があるか否かを判断する（ステップＳ１１０２）。未処理の色分解画像がある場合（ステップＳ１１０２：Ｙｅｓ）、未処理の色分解画像を選択して（ステップＳ１１０３）、選択色分解画像のダイレーション処理を実行する（ステップＳ１１０４）。

つぎに、図９のｃ）に示したように、ダイレーション画像から選択色分解画像を引いたエッジ画像を生成する（ステップＳ１１０５）。図９のｃ）の場合は、色分解画像８０１に対するエッジ画像９０１を生成することとなる。このあと、ノイズ除去処理を実行して（ステップＳ１１０６）、ステップＳ１１０２に戻る。ステップＳ１１０２において、未処理の色分解画像がない場合（ステップＳ１１０２：Ｎｏ）、行領域抽出処理（ステップＳ１０５）に移行する。

図１２は、図１１に示したエッジ２値画像生成処理（ステップＳ１１０１）の手順を示すフローチャートである。図１２において、まず、指定テロップ区間の開始位置が検出されるまで待ち受け（ステップＳ１２０１：Ｎｏ）、指定テロップ区間の開始位置が検出された場合（ステップＳ１２０１：Ｙｅｓ）、フレーム画像を取得する（ステップＳ１２０２）。フレーム画像は、時系列で順次取り込まれるため、取り込まれる都度、後続の処理を実行することとなる。

つぎに、取得フレーム画像に対してＣａｎｎｙエッジなどのエッジ抽出処理をおこなって、エッジ抽出後の取得フレーム画像を２値化する（ステップＳ１２０３）。そして、エッジ濃淡画像として集積する（ステップＳ１２０４）。この集積処理は、２値化されたエッジ抽出後の取得フレーム画像の同一画素の画素値を累積（加算）する処理である。

このあと、指定テロップ区間の終了が検出されたか否かを判断する（ステップＳ１２０５）。終了が検出されなかった場合（ステップＳ１２０５：Ｎｏ）、ステップＳ１２０２に戻る。一方、検出された場合（ステップＳ１２０５：Ｙｅｓ）、集積されたエッジ濃淡画像を固定しきい値で２値化する（ステップＳ１２０６）。これにより、図９に示したようなエッジ２値画像が生成される。

図１３は、図１１に示したノイズ除去処理（ステップＳ１１０６）の詳細な処理手順を示すフローチャートである。なお、図１３では、エッジ２値画像を「第１エッジ画像」と称し、ステップＳ１１０５のダイレーション画像から選択色分解画像を引いたエッジ画像を、「第２エッジ画像」と称す。

まず、選択色分解画像の中に、未処理の黒画素連結領域があるか否かを判断する（ステップＳ１３０１）。未処理の黒画素連結領域がある場合（ステップＳ１３０１：Ｙｅｓ）、未処理の黒画素連結領域を選択する（ステップＳ１３０２）。つぎに、選択黒画素連結領域と接する黒画素連結領域を、第１および第２エッジ画像から抽出する（ステップＳ１３０３）。これにより、第１エッジ画像については図１０の（Ａ）、第２エッジ画像については図１０の（Ｂ）に示した結果が得られる。

そして、それぞれ、画素数ｐ１，ｐ２を算出して（ステップＳ１３０４）、ｐ１／ｐ２＜ｔであるか否かを判断する（ステップＳ１３０５）。ｐ１／ｐ２＜ｔでない場合（ステップＳ１３０５：Ｎｏ）、ｐ１／ｐ２がしきい値ｔ以上であるため、ステップＳ１３０１に戻る。一方、ｐ１／ｐ２＜ｔである場合（ステップＳ１３０５：Ｙｅｓ）、選択黒画素連結領域を、動いているパターンであるとして選択色分解画像から削除する（ステップＳ１３０６）。また、ステップＳ１３０１において、未処理の黒画素連結領域がない場合（ステップＳ１３０１：Ｎｏ）、ステップＳ１１０２に戻る。これにより、色分解２値画像（９１０〜９４０）が生成される。

（行領域抽出部３０５の詳細な処理内容）
つぎに、行領域抽出部３０５の詳細な処理内容について説明する。図１４は、行領域抽出部３０５による行領域抽出処理（ステップＳ１０５）の詳細な処理手順を示すフローチャートである。図１４において、まず、行方向決定処理を実行する（ステップＳ１４０１）。具体的には、色分解２値画像の領域形状から行方向を決定する。すなわち、色分解２値画像の領域形状が横長なら横書き、縦長なら縦書きとする。行方向は、色分解２値画像の画素の縦横比で決定することができる。

つぎに、色分解２値画像を絞り込む（ステップＳ１４０２）。具体的には、黒画素面積（黒画素数）から決定行方向の走査時の白黒変化数を引いた値を評価値として、上位４枚の色分解２値画像に絞り込む。なお、上位４枚の色分解２値画像を選択することとなっているが、選択数は、４枚に限らず任意に設定することができる。本例では、色分解２値画像が４枚しかないため、その４枚が選ばれることとなる。

そして、未処理の色分解２値画像があるか否かを判断する（ステップＳ１４０３）。未処理の色分解２値画像がある場合（ステップＳ１４０３：Ｙｅｓ）、未処理の色分解２値画像を選択する（ステップＳ１４０４）。そして、選択色分解２値画像の中に、未処理の黒画素連結領域があるか否かを判断する（ステップＳ１４０５）。未処理の黒画素連結領域がない場合（ステップＳ１４０５：Ｎｏ）、ステップＳ１４０３に戻る。一方、未処理の黒画素連結領域がある場合（ステップＳ１４０５：Ｙｅｓ）、未処理の黒画素連結領域を１つ選択する（ステップＳ１４０６）。

そして、選択黒画素連結領域に対して１文字認識処理を実行する（ステップＳ１４０７）。１文字認識処理とは、選択黒画素連結領域が１つの文字パターンとして認識する処理である。具体的には、確信度Ｃと呼ばれる評価値を用いて、選択黒画素連結領域が１つの文字パターンであることを認識する。

確信度Ｃとは、入力画像（選択黒画素連結領域）の特徴量との類似度の高さをあらわす評価値である。確信度Ｃの算出法については、特開２０００−３０６０４５に詳細に説明されているため、ここでは、簡単に説明する。

図１５は、確信度Ｃの算出方法を示す説明図である。確信度Ｃを求める場合、選択黒画素連結領域と辞書の文字との比較をおこなう。具体的には、（Ａ）において、選択黒画素連結領域『あ』（この段階では、文字かどうかわからない）の特徴量を示す特徴ベクトルと、辞書内の各登録文字（ｎ個）の特徴量を示す特徴ベクトルとを求め、選択黒画素連結領域『あ』の特徴ベクトルと辞書内の各登録文字の特徴ベクトルとの距離ｄ１〜ｄｎを求める。選択黒画素連結領域は、距離の値が小さい登録文字ほど類似している。そのため、距離で昇順にソートする。

（Ｂ）は昇順でのソート結果を示している。そして、（Ｃ）のように、１位の距離を２位の距離で除算する。Ｋ（０＜Ｋ≦１）の値が小さい場合、１位の距離と２位の距離との距離差が大きいため、選択黒画素連結領域が１位の登録文字に類似している可能性が高くなる。逆に、Ｋの値が大きくなるにつれ、１位と２位の区別がつきにくくなる。したがって、（Ｄ）に示したように、Ｋの値が小さいほど大きい値の確信度Ｃを割り当て、Ｋの値が大きいほど小さい値の確信度Ｃを割り当てる。確信度Ｃは、ここでは、０≦Ｃ≦９９９とする。このように、確信度Ｃの値が大きいと一意に対応する登録文字が存在することをあらわす。

そして、図１４において、確信度ＣがＣ≦Ｃｔであるか否かを判断する（ステップＳ１４０８）。Ｃｔとはしきい値であり、たとえば、Ｃｔ＝５００とする。Ｃ≦Ｃｔでない場合（ステップＳ１４０８：Ｎｏ）、選択黒画素連結領域は文字でないと認識されるため、ステップＳ１４０５に戻る。一方、Ｃ≦Ｃｔである場合（ステップＳ１４０８：Ｙｅｓ）、選択黒画素連結領域は文字である可能性が高いため、選択黒画素連結領域の外接矩形（内の画素）を投影軸に投影して（ステップＳ１４０９）、ステップＳ１４０５に戻る。

ここで、投影軸とは、ステップＳ１４０１で決定された行方向に直交する方向を示す軸である。この投影軸に選択黒画素連結領域の外接矩形（内の画素）を投影することで、画素のヒストグラムが生成される。

図１６は、ヒストグラムの生成例を示す説明図である。図１６において、ヒストグラムは、各色分解２値画像９１０〜９４０について、ステップＳ１４０３〜Ｓ１４０９を実行して累積することで生成される。このヒストグラムの座標軸のうち横軸は画素数であり、縦軸Ｘは投影軸である。

そして、図１４のステップＳ１４０３において、未処理の色分解２値画像がないと判断された場合（ステップＳ１４０３：Ｎｏ）、行領域決定処理を実行する（ステップＳ１４１０）。行領域決定処理では、ヒストグラムの山毎に、たとえば、画素数がピークの２０％の領域を行領域として抽出する。ただし、山の幅が１０画素以下の行はノイズとして削除する。

たとえば、図１６では、ヒストグラムの第１の山Ｈ１のピークの２０％はｔ１であるため、その行高さｈ１が特定される。同様に、ヒストグラムの第２の山Ｈ２のピークの２０％はｔ２であるため、その行高さｈ２が抽出される。抽出された行高さｈ１，ｈ２を少し拡大してもよい。これにより、色分解２値画像ごとに行領域が決定される。

図１７は、決定された行領域を示す説明図である。色分解２値画像９１０は、行領域Ｌ１１，Ｌ１２を有する。行領域Ｌ１１の行高さはｈ１、行領域Ｌ１２の行高さはｈ２である。色分解２値画像９２０は、行領域Ｌ２１，Ｌ２２を有する。行領域Ｌ２１の行高さはｈ１、行領域Ｌ２２の行高さはｈ２である。色分解２値画像９３０は、行領域Ｌ３１，Ｌ３２を有する。行領域Ｌ３１の行高さはｈ１、行領域Ｌ３２の行高さはｈ２である。色分解２値画像９４０は、行領域Ｌ４１，Ｌ４２を有する。行領域Ｌ４１の行高さはｈ１、行領域Ｌ４２の行高さはｈ２である。

（行領域選択部３０６の詳細な処理内容）
つぎに、行領域選択部３０６の詳細な処理内容について説明する。行領域選択部３０６では、行領域が特定された各色分解２値画像から、文字らしい黒画素連結領域が多く存在する行領域を行ごとに選択する。具体的には、図１７を例に挙げると、同一行（１行目）の行領域Ｌ１１，Ｌ２１，Ｌ３１，Ｌ４１の中から、文字らしい黒画素連結領域が多く存在する行領域を選択する。同様に、同一行（２行目）の行領域Ｌ１２，Ｌ２２，Ｌ３２，Ｌ４２の中から、文字らしい黒画素連結領域が多く存在する行領域を選択する。選択された各行領域が、同一の色分解２値画像に存在する必要はない。

行領域選択部３０６では、行ごとに以下の処理を行う。すべての色分解２値画像に対して、以下の処理を行う。なお、色分解画像の数が、たとえば５以上である場合、ステップＳ１４０２により絞り込まれた色分解２値画像のみを処理対象とする。４以下の場合はすべての色分解２値画像を対象とする。

また、行領域選択部３０６では、当該色分解２値画像のすべての黒画素連結領域に対して、１文字認識を実行し、以下の（Ａ）〜（Ｃ）の条件を満たす場合、妥当な文字として文字数をカウントする。
（Ａ）確信度ＣがＣ≧Ｃｔである（たとえば、Ｃｔ＝０．６０）。
（Ｂ）外接矩形の各辺の長さが所定画素数（たとえば１０画素）以上である。
（Ｃ）ノイズ文字と一致しない。

図１８は、ノイズ文字を示す説明図である。（Ｃ）については、ノイズ文字との距離が所定距離以内である場合、一致することとしてもよく、また、ノイズ文字との確信度Ｃが所定値以上である場合、ノイズ文字と一致することとしてもよい。また、黒画素連結領域が図１８に示したノイズ文字の文字パターンと相似である場合に、ノイズ文字と一致することとしてもよい。

このあと、各行で、文字数が一番多い色分解２値画像の行領域を選択する。選択行領域の色分解２値画像を抽出して、元領域サイズの白画像上にコピーして、以降の処理対象とする。以降の処理は、行単位で行うこととなる。

図１９は、行領域選択部３０６による行領域選択処理（ステップＳ１０６）の詳細な処理手順を示すフローチャートである。図１９において、未選択の行があるか否かを判断する（ステップＳ１９０１）。未選択の行がある場合（ステップＳ１９０１：Ｙｅｓ）、未選択の行を選択する（ステップＳ１９０２）。図１７に示した色分解２値画像では、行が２つ（１行目（上段）、２行目（下段））存在する。いずれの行も未選択であれば、いずれか一方の行を選択することとなる。

そして、未処理の色分解２値画像があるか否かを判断する（ステップＳ１９０３）。未処理の色分解２値画像がある場合（ステップＳ１９０３：Ｙｅｓ）、未処理の色分解２値画像からステップＳ１９０２による選択行の行領域を抽出する（ステップＳ１９０５）。そして、抽出行領域内の全黒画素連結領域の１文字認識処理を実行する（ステップＳ１９０６）。具体的には、各黒画素連結領域の確信度Ｃを算出する。このあと、妥当な文字カウント処理を実行する（ステップＳ１９０７）。妥当な文字カウント処理（ステップＳ１９０７）については後述する。

そして、妥当な文字カウント処理（ステップＳ１９０７）後のカウント文字数が記録情報としてすでにメモリに記録されている記録文字数よりも多いか否かを判断する（ステップＳ１９０８）。多くない場合（ステップＳ１９０８：Ｎｏ）、ステップＳ１９０３に戻る。一方、多い場合（ステップＳ１９０８：Ｙｅｓ）、メモリに記録された記録情報（選択行、抽出行領域を有する色分解２値画像（の識別番号）、カウント文字数）を更新する（ステップＳ１９０９）。そして、ステップＳ１９０３に戻る。

一方、ステップＳ１９０３において、未処理の色分解２値画像がない場合（ステップＳ１９０３：Ｎｏ）、メモリに記録されている最新の記録情報により特定される行領域を抽出し（ステップＳ１９０４）、ステップＳ１９０１に戻る。このとき選択行が変わるため、メモリ内の記録情報をリセットする。

そして、ステップＳ１９０１において、未選択の行がない場合（ステップＳ１９０１：Ｎｏ）、抽出された各行の行領域の画像を、元となる色分解２値画像の領域サイズと同サイズの白画像上の同一位置にコピーすることで、合成２値画像を生成する（ステップＳ１９１０）。

図２０は、合成２値画像の一例を示す説明図である。図２０の合成２値画像２０００では、元となるエッジ２値画像４３０の領域サイズと同サイズの白画像２００１の同一位置に、選択行領域Ｌ１１，Ｌ１２がコピーされている。

図２１は、図１９に示した妥当な文字カウント処理（ステップＳ１９０７）の詳細な処理手順を示すフローチャートである。図２１において、未処理の認識文字があるか否かを判断する（ステップＳ２１０１）。認識文字とは、確信度Ｃが算出された黒画素連結領域である。未処理の認識文字がある場合（ステップＳ２１０１：Ｙｅｓ）、未処理の認識文字を選択する（ステップＳ２１０２）。

そして、選択認識文字についてＣ≧Ｃｔであるか否かを判断する（ステップＳ２１０３）。Ｃ≧Ｃｔでない場合（ステップＳ２１０３：Ｎｏ）、ステップＳ２１０１に戻る。一方、Ｃ≧Ｃｔである場合（ステップＳ２１０３：Ｙｅｓ）、選択認識文字の外接矩形の各辺長が所定画素数以上であるか否かを判断する（ステップＳ２１０４）。所定画素数以上でない場合（ステップＳ２１０４：Ｎｏ）、ステップＳ２１０１に戻る。一方、所定画素数以上である場合（ステップＳ２１０４：Ｙｅｓ）、図１８に示したノイズ文字と一致するか否かを判断する（ステップＳ２１０５）。

ノイズ文字と一致する場合（ステップＳ２１０５：Ｙｅｓ）、ステップＳ２１０１に戻る。一方、ノイズ文字と不一致である場合（ステップＳ２１０５：Ｎｏ）、認識文字を文字としてカウントする（ステップＳ２１０６）。すなわち、カウント値が１加算される。そして、ステップＳ２１０１に戻る。ステップＳ２１０１において、未処理の認識文字がない場合（ステップＳ２１０１：Ｎｏ）、ステップＳ１９０８に移行する。

これにより、文字カウント数が多い行領域は、文字らしい黒画素連結領域が多く存在することとなる。したがって、この行領域選択部３０６および行領域選択処理（ステップＳ１０６）により、複数ある色分解２値画像から、最も文字らしい行領域を行ごとに抽出することができる。

（文字間ノイズ除去処理部３０７の詳細な処理内容）
つぎに、文字間ノイズ除去処理部３０７の詳細な処理内容について説明する。行領域選択部３０６により得られた合成２値画像から行領域ごとに、文字に相当する黒画素連結領域間のノイズを除去する。

図２２は、パターンの規則性による文字間ノイズ除去処理部３０７による文字間ノイズ除去処理（ステップＳ１０７）の詳細な処理手順を示すフローチャートである。図２２において、まず、図２０に示した合成２値画像２０００の中から未処理の行領域があるか否かを判断する（ステップＳ２２０１）。未処理の行領域がある場合（ステップＳ２２０１：Ｙｅｓ）、未処理の行領域を選択して（ステップＳ２２０２）、キー文字抽出処理（ステップＳ２２０３）、文字候補矩形抽出処理（ステップＳ２２０４）、重複・包含矩形のノイズ除去処理（ステップＳ２２０５）および文字間ノイズ除去処理（ステップＳ２２０６）を実行する。

このあと、ステップＳ２２０１に戻る。ステップＳ２２０１において、未処理の行領域がない場合（ステップＳ２２０１：Ｎｏ）、文字矩形内ノイズ除去処理（ステップＳ１０８）に移行する。

ここで、キー文字抽出処理（ステップＳ２２０３）について具体的に説明する。選択行領域内の各黒画素連結領域を１文字認識する。具体的には、ステップＳ１９０６のように、各黒画素連結領域について確信度Ｃを算出する。この認識文字（確信度Ｃが算出された黒画素連結領域）について、以下の条件（Ｄ）〜（Ｆ）を満たすものをキー文字として選択する。なお、キー文字の数の上限は、本例では出現順に１０個とする。個数は任意に設定可能である。（Ｄ）〜（Ｆ）を満たすキー文字について、それぞれ外接矩形を求める。すなわち、キー文字とは、行領域内の黒画素連結領域群の中の文字らしい黒画素連結領域である。

（Ｄ）距離ｄｉ（図１５の（Ｂ）に示した最小距離）がｄｉ≦ｔｄ（ｔｄは距離しきい値で、たとえば、ｔｄ＝１８００）である。
（Ｅ）ノイズ文字（図１８を参照）と一致しない（一致判断は上記（Ｃ）と同様。）。
（Ｆ）選択行領域内に収まっている（はみ出していない）こと。

つぎに、文字候補矩形抽出処理（ステップＳ２２０４）について具体的に説明する。文字候補矩形抽出処理はキー文字ごとに実行する。具体的には、キー文字の外接矩形を上下左右に１０％拡大した窓矩形を、当該キー文字から行方向に移動していき、以下の条件に該当する黒画素連結領域について外接矩形を求めて、文字候補矩形として記録する。このあと、文字候補矩形として選ばれた黒画素連結領域について１文字認識（確信度Ｃの算出）をおこなって、登録辞書から文字コードを取得する。これにより、窓矩形に包含されれば、黒画素連結領域が複数存在していても１文字として扱われることとなる。

（Ｇ）窓矩形に完全に含まれる黒画素連結領域であること（ただし、窓矩形が他の連結領域と重複していてもかまわない）。
（Ｈ）既出でないこと（同一矩形の複数出現防止のため）。

図２３は、文字候補矩形抽出処理の具体例を示す説明図である。図２３では、図２０に示した合成２値画像２０００の１行目の行領域についての文字候補抽出を示している。この図２３の例では、『早』、『月』、および『す』のような黒画素連結領域がキー文字であり、矩形２３００がキー文字に外接するキー文字矩形、矩形２３０１がキー文字矩形２３００を拡大した窓矩形であり、行方向（左右）に移動させて、窓矩形２３０１に完全に含まれる黒画素連結領域を特定する。符号のない矩形は、文字候補矩形である。この処理にしたがえば、キー文字矩形も文字候補矩形となる。

図２４は、図２２に示した文字候補矩形抽出処理（ステップＳ２２０４）の詳細な処理手順を示すフローチャートである。図２４において、まず、未処理のキー文字があるか否かを判断する（ステップＳ２４０１）。未処理のキー文字がある場合（ステップＳ２４０１：Ｙｅｓ）、未処理のキー文字を選択して（ステップＳ２４０２）、選択キー文字について窓矩形を生成して、行方向に移動を開始させる（ステップＳ２４０３）。そして、選択行領域内をすべて移動したか否かを判断する（ステップＳ２４０４）。

移動していない場合（ステップＳ２４０４：Ｎｏ）、窓矩形に包含される黒画素連結領域があるか否かを判断する（ステップＳ２４０５）。黒画素連結領域がない場合（ステップＳ２４０５：Ｎｏ）、ステップＳ２４０４に戻る。一方、黒画素連結領域がある場合（ステップＳ２４０５：Ｙｅｓ）、その検出された黒画素連結領域に外接する文字候補矩形を作成する（ステップＳ２４０６）。そして、作成された文字候補矩形が既出矩形であるか否かを判断する（ステップＳ２４０７）。

既出矩形である場合（ステップＳ２４０７：Ｙｅｓ）、ステップＳ２４０４に戻る。一方、既出矩形でない場合（ステップＳ２４０７：Ｎｏ）、文字候補矩形およびその内部の黒画素連結領域をメモリに保存して（ステップＳ２４０８）、ステップＳ２４０４に戻る。また、ステップＳ２４０４において、選択行領域内をすべて移動した場合（ステップＳ２４０４：Ｙｅｓ）、ステップＳ２４０１に戻る。ステップＳ２４０１において、未処理のキー文字がない場合（ステップＳ２４０１：Ｎｏ）、重複・包含矩形のノイズ除去処理（ステップＳ２２０５）に移行する。これにより、図２３に示したような文字候補矩形の集合を得ることができる。図２５は、文字候補矩形抽出処理結果を示す説明図である。

つぎに、重複・包含矩形のノイズ除去処理（ステップＳ２２０５）について具体的に説明する。重複・包含矩形のノイズ除去処理では、一方の文字候補矩形が他方の文字候補矩形に含まれている場合（包含関係）や、一方の文字候補矩形の一部が他方の文字候補矩形に重なっている場合（重複関係）、両文字候補矩形内のノイズを除去する。包含関係や重複関係は両文字候補矩形の頂点座標値により判別することができる。

ここで、帰属度（％）という評価値を用いる。帰属度とは、文字候補矩形内の黒画素連結領域を、それにより推定される文字コードと仮定したときの文字らしさをあらわす値である。帰属度が高いとそれだけ推定された文字コードが確からしいことをあらわす。

帰属度は、文字候補矩形内の黒画素連結領域により推定される文字コードとその距離から帰属度を求められる。帰属度は、予め文字コード（カテゴリ）毎に学習サンプルを認識して距離を求めて、距離に関するヒストグラムを求めておき、このヒストグラムを参照して算出する確率である。

ある文字を１文字認識（図１５を参照）した結果、文字コードがｃで、距離がｄの場合は、文字コードｃの距離に関するヒストグラムを参照し、このヒストグラムの中で距離ｄ以上の面積を全体の面積で割った値を帰属度とする。距離に関するヒストグラムは、文字コードごとにあらかじめＲＯＭ２０２、ＲＡＭ２０３、ＨＤ２０５などの記憶領域に記憶されている。

図２６は、ある文字コードの頻度分布を示すグラフである。このグラフは、ある文字コードｃにおける認識文字との距離に関するヒストグラム２６００を示している。横軸は距離、縦軸が頻度である。距離が短いほど、文字コードｃとして選ばれる頻度が高い。図２６において、求められた距離ｄ以上のヒストグラム２６００の面積（図６中、塗りつぶされた領域）をＳｄ、ヒストグラム２６００全体の面積をＳとすると、文字コードｃへの帰属度Ｂｃは、Ｂｃ＝Ｓｄ／Ｓとなる。

ここで、ノイズ除去の条件について説明する。まず、包含関係の場合について説明する。２つの文字候補矩形が包含関係である場合、
（Ｉ）包含されている文字候補矩形の高さが行高さの一定割合（たとえば３０％）以下の場合、包含されている文字候補矩形（内部の黒画素連結領域含む）を削除する。ただし、文字候補矩形が中心付近にある行方向に長い矩形である場合は、長音である可能性があるため、削除しない。

（Ｊ）（Ｉ）以外で、帰属度の差が所定のしきい値（たとえば４０％）未満で、かつ、行方向の開始座標・終了座標の誤差が所定画素（たとえば３画素）以内の場合、行高さ方向が大きい方の文字候補矩形を選択して、他方の文字候補矩形（内部の黒画素連結領域含む）を削除する。

図２７は、包含関係を示す説明図である。図２７においては、包含関係にある両文字候補矩形２７００，２７０１のうち、包含している文字候補矩形２７００が残され、包含されている文字候補矩形２７０１が削除されることとなる。

つぎに重複関係の場合について説明する。２つの文字候補矩形が重複関係にある場合、（Ｋ）大きい方の文字候補矩形が濁点／半濁点文字であるが文字コードがそうでない場合、小さい方の文字候補矩形（内部の黒画素連結領域含む）を削除する。文字コードが同じ場合は帰属度が小さい方の文字候補矩形（内部の黒画素連結領域含む）を削除する。

（Ｌ）（Ｋ）以外、すなわち、大きい方の文字候補矩形が濁点／半濁点文字でない場合、両文字候補矩形の帰属度の差が所定のしきい値（たとえば１６％）以上である場合に、帰属度が小さい方の文字候補矩形（内部の黒画素連結領域含む）を削除する。

（Ｍ）（Ｋ）以外で、両文字候補矩形の帰属度の差が所定のしきい値（たとえば１６％）未満である場合に、一方の文字候補矩形における行方向の矩形端座標の差と他方の文字候補矩形における行方向の矩形端座標の差が、ともに所定画素以内である場合、行高さ方向が大きい方の文字候補矩形を選択して、他方の文字候補矩形（内部の黒画素連結領域含む）を削除する。すなわち、大きい方の文字候補矩形を残すこととなる。

図２８は、重複関係を示す説明図である。図２８においては、重複関係にある両文字候補矩形２８００，２８０１のうち、非文字パターンである文字候補矩形２８０１は、距離ｄが大きくなりやすいため帰属度Ｂｃが低くなる。したがって、距離ｄが短い文字コードに対応する文字候補矩形２８００が残ることとなる。

図２９は、重複・包含矩形のノイズ除去処理（ステップＳ２２０５）の詳細な処理手順を示すフローチャートである。図２９において、未処理の文字候補矩形ペアがあるか否かを判断する（ステップＳ２９０１）。未処理の文字候補矩形ペアがある場合（ステップＳ２９０１：Ｙｅｓ）、未処理の文字候補矩形ペアを選択する（ステップＳ２９０２）。

つぎに、選択文字候補矩形ペアが包含関係であるか否かを判断する（ステップＳ２９０３）。包含関係である場合（ステップＳ２９０３：Ｙｅｓ）、上記条件（Ｉ），（Ｊ）にしたがって、該当する文字候補矩形を削除して（ステップＳ２９０４）、ステップＳ２９０１に戻る。一方、包含関係でない場合（ステップＳ２９０３：Ｎｏ）、重複関係であるか否かを判断する（ステップＳ２９０５）。

重複関係である場合（ステップＳ２９０５：Ｙｅｓ）、上記条件（Ｋ），（Ｌ），（Ｍ）にしたがって、該当する文字候補矩形を削除して（ステップＳ２９０６）、ステップＳ２９０１に戻る。一方、重複関係でない場合（ステップＳ２９０５：Ｎｏ）、ステップＳ２９０１に戻る。ステップＳ２９０１において、未処理の文字候補矩形ペアがない場合（ステップＳ２９０１：Ｎｏ）、文字間ノイズ除去処理（ステップＳ２２０６）に移行する。これにより、重複または包含により発生している文字とは関係のないノイズを自動除去することができる。

図３０は、重複・包含矩形のノイズ除去処理（ステップＳ２２０５）によるノイズ除去処理結果を示す説明図である。図２５と比較すると、文字候補矩形が絞り込まれていることがわかる。

つぎに、文字間ノイズ除去処理（ステップＳ２２０６）について具体的に説明する。文字間ノイズ除去処理は行領域ごとに実行する。文字間ノイズ除去処理では、重複・包含矩形のノイズ除去処理（ステップＳ２２０５）によるノイズ除去処理後の文字候補矩形（図３０に示した矩形）間の中心間距離Ｄ１の最頻値Ｄ１^*と矩形間距離Ｄ２の最頻値Ｄ２^*とを求める。

図３１は、文字候補矩形間の中心間距離Ｄ１および矩形間距離Ｄ２を示す説明図である。すべての文字候補矩形ペアの中心間距離Ｄ１および矩形間距離Ｄ２を取得して、公知の統計的計算により、中心間距離Ｄ１の最頻値Ｄ１^*と矩形間距離Ｄ２の最頻値Ｄ２^*とを求める。中心間距離Ｄ１の最頻値Ｄ１^*と矩形間距離Ｄ２の最頻値Ｄ２^*の関係に近い文字候補矩形ペアは、文字列らしい文字候補矩形ペアとして認識される。中心間距離Ｄ１の最頻値Ｄ１^*と矩形間距離Ｄ２の最頻値Ｄ２^*とが求まったら、行領域内で重複している重複文字候補矩形集合を求める。

図３２は、行領域内の重複文字候補矩形集合の一例を示す説明図である。図３２において、重複文字候補矩形集合３２００は、文字候補矩形ｓ１〜ｓ５が数珠繋ぎで重複している。このように、重複文字候補矩形集合３２００内の各文字候補矩形ｓ１〜ｓ５は、全体として数珠繋ぎになっていれば、他の文字候補矩形のうち少なくともいずれか一つと重複していればよい。

そして、重複文字候補矩形集合３２００内で中心間距離Ｄ１がＤ１^*に近く、かつ矩形間距離Ｄ２がＤ２^*に近い矩形列の組み合わせを求める。求めた組み合わせ矩形列において、以下の評価値を求め、最も評価値が大きな矩形列を選択する。

評価値＝ａ×平均帰属度＋ｂ×中心間距離項目＋ｃ×矩形間距離項目

ａ，ｂ，ｃは、各評価項目に対する重みで、実験的に求める。たとえば、ａ＝９、ｂ＝３、ｃ＝１とすることができる。

また、平均帰属度とは、組み合わせ矩形列を構成する各文字候補矩形の帰属度の平均値である。中心間距離項目とは、重複文字候補矩形集合３２００の区間長Ｌｓを求め、この区間長Ｌｓを中心間距離Ｄ１−矩形間距離Ｄ２で割った値を文字数Ｎと推定する。組み合わせ矩形列内の矩形数をＭとすると、中心間距離項目は、１−｜Ｎ−Ｍ｜／Ｎとなる。矩形間距離項目とは、選択行領域全体から求めた推定矩形間距離Ｄを求める。組み合わせ矩形列内の矩形間距離をＤ１とすると、矩形間距離項目は、１／Σ｜Ｄ１−Ｄ｜となる。

なお、評価値の算出対象となる組み合わせ矩形列とは、文字列らしい矩形列である。したがって、組み合わせ矩形列とは、互いに重複しない文字候補矩形の組み合わせである。図３２の例では、以下の組み合わせ矩形列が得られる。

｛ｓ１，ｓ３｝
｛ｓ１，ｓ４｝
｛ｓ１，ｓ５｝
｛ｓ１，ｓ３，ｓ５｝
｛ｓ２，ｓ４｝
｛ｓ２，ｓ５｝

評価値が最大の組み合わせ矩形列が得られた場合、当該組み合わせ矩形列に選ばれなかった文字候補矩形はノイズとして削除される。たとえば、評価値が最大の組み合わせ矩形列が｛ｓ１，ｓ３，ｓ５｝である場合、重複文字候補矩形集合３２００から文字矩形候補ｓ２，ｓ４がノイズとして削除される。

図３３は、文字間ノイズ除去処理（ステップＳ２２０６）の詳細な処理手順を示すフローチャートである。図３３において、未処理の行領域があるか否かを判断する（ステップＳ３３０１）。未処理の行領域がある場合（ステップＳ３３０１：Ｙｅｓ）、未処理の行領域を選択する（ステップＳ３３０２）。そして、選択行領域内のすべての文字候補矩形ペアの中心間距離Ｄ１および矩形間距離Ｄ２を求めて、その最頻値Ｄ１^*，Ｄ２^*を算出する（ステップＳ３３０３）。

つぎに、選択行領域から重複文字候補矩形集合を探索する（ステップＳ３３０４）。そして、未処理の重複文字候補矩形集合があるか否かを判断する（ステップＳ３３０５）。未処理の重複文字候補矩形集合がある場合（ステップＳ３３０５：Ｙｅｓ）、未処理の重複文字候補矩形集合を選択して（ステップＳ３３０６）、選択された重複文字候補矩形集合について、組み合わせ矩形列生成処理を実行し（ステップＳ３３０７）、ステップＳ３３０５に戻る。

一方、ステップＳ３３０５において、未処理の重複文字候補矩形集合がない場合（ステップＳ３３０５：Ｎｏ）、各組み合わせ矩形列の評価値を算出する（ステップＳ３３０８）。そして、評価値が最大の組み合わせ矩形列を文字列らしい矩形列として選択して（ステップＳ３３０９）、ステップＳ３３０１に戻る。ステップ３３０１において、未処理の行領域がない場合（ステップＳ３３０１：Ｎｏ）、ステップＳ２２０１に戻る。

図３４は、図３３に示した組み合わせ矩形列生成処理（ステップＳ３３０７）の詳細な処理手順を示すフローチャートである。図３４において、重複文字候補矩形集合の領域一端（図３２を参照）からしきい値以内の距離にある文字候補矩形を抽出する（ステップＳ３４０１）。図３２を例に挙げると、文字候補矩形ｓ１はしきい値以内なので抽出されるが、しきい値によっては、文字候補矩形ｓ２は抽出されない。

つぎに、未処理の抽出矩形があるか否かを判断する（ステップＳ３４０２）。未処理の抽出矩形がある場合（ステップＳ３４０２：Ｙｅｓ）、カレント矩形として取り出し（ステップＳ３４０３）、カレント矩形から領域他端（図３２を参照）の間に未処理の文字候補矩形があるか否かを判断する（ステップＳ３４０４）。未処理の文字候補矩形がある場合（ステップＳ３４０４：Ｙｅｓ）、未処理の文字候補矩形を選択する（ステップＳ３４０５）。

そして、選択矩形がカレント矩形と妥当な位置関係にあるか否かを判断する（ステップＳ３４０６）。具体的には、選択矩形とカレント矩形との中心間距離Ｄ１と最頻値Ｄ１^*との差が許容範囲以内で、かつ、選択矩形とカレント矩形との矩形間距離Ｄ２と最頻値Ｄ２^*との差が許容範囲以内であるか否かを判断する。

妥当な位置関係でない場合（ステップＳ３４０６：Ｎｏ）、ステップＳ３４０４に戻る。一方、妥当な位置関係である場合（ステップＳ３４０６：Ｙｅｓ）、選択矩形を組み合わせ矩形列の構成要素の候補としてメモリに記録して（ステップＳ３４０７）、ステップＳ３４０４に戻る。

ステップＳ３４０４において、未処理の文字候補矩形がない場合（ステップＳ３４０４：Ｎｏ）、未処理の記録済み選択矩形があるか否かを判断する（ステップＳ３４０８）。未処理の記録済み選択矩形がある場合（ステップＳ３４０８：Ｙｅｓ）、領域一端に最も近い未処理の記録済み選択矩形をカレント矩形とし（ステップＳ３４０９）、ステップＳ３４０４に戻る。

一方、未処理の記録済み選択矩形がない場合（ステップＳ３４０８：Ｎｏ）、ステップＳ３４０３で取り出された初期のカレント矩形とステップＳ３４０７の記録済み選択矩形とを、組み合わせ矩形列として記録する（ステップＳ３４１０）。そして、ステップＳ３４０２に戻る。ステップＳ３４０２において、未処理の抽出矩形がない場合（ステップＳ３４０２：Ｎｏ）、ステップＳ３３０５に戻る。

このように、文字間ノイズ除去処理（ステップＳ２２０６）により、文字列にふさわしくない黒画素連結領域をノイズとして除去することで、文字列らしいパターンを取り出すことができる。図３５は、文字間ノイズ除去処理（ステップＳ２２０６）によるノイズ除去処理結果を示す説明図である。

（文字矩形内ノイズ除去処理部３０８の詳細な処理内容）
つぎに、文字矩形内ノイズ除去処理部３０８の詳細な処理内容について説明する。文字矩形内ノイズ除去処理部３０８は、文字候補矩形から文字パターンに該当しない黒画素連結領域を除去して、文字パターンに該当する黒画素連結領域のみを抽出する。具体的には、たとえば、文字候補矩形内の黒画素連結領域が２画素以上１０画素以下の場合、黒画素連結領域を組み合わせて文字パターンを生成する。

図３６は、文字パターンの生成例を示す説明図である。この文字候補矩形３６００では、内部の黒画素連結領域を組み合わせることで、その右側の文字パターン群が得られる。そして、生成された文字パターンの１文字認識処理（図１５を参照）して、距離ｄｉを求める。生成された文字パターンの認識結果における第１〜第１０候補の文字コードの中で、第１候補の文字コードとの距離ｄｉの差が７００以内に収まっている候補に対して、最初の文字と同じ文字コードの候補が存在するかどうか調べる。

同じ文字コードの候補が存在していて、生成された文字パターンの認識結果における第１候補が、最初の文字の第１候補と比較して評価が高くなっている（距離が小さく、確信度Ｃが大きい）場合、文字パターンと認識結果を組み替える。この処理を以下、具体的に説明する。

図３７は、文字矩形内ノイズ除去処理部３０８による文字矩形内ノイズ除去処理の詳細な処理手順を示すフローチャートである。図３７において、未処理の文字候補矩形があるか否かを判断する（ステップＳ３７０１）。未処理の文字候補矩形がある場合（ステップＳ３７０１：Ｙｅｓ）、未処理の文字候補矩形を選択する（ステップＳ３７０２）。そして、選択文字候補矩形の文字パターンについて、図１５に示したように１文字認識処理を実行する（ステップＳ３７０３）。このときの認識結果である文字コードをｃとする。そして、この文字コードｃの文字パターン（初期では、選択文字候補矩形内の全黒画素連結領域を組み合わせた文字パターン）をメモリに記録する（ステップＳ３７０４）。記録文字パターンはよりふさわしい文字パターンが出現すると後述のように更新されることとなる。

つぎに、図３６に示したように、選択文字候補矩形内で黒画素連結領域の全組み合わせを生成する（ステップＳ３７０５）。そして、未処理の生成パターンがあるか否かを判断する（ステップＳ３７０６）。未処理の生成パターンがある場合（ステップＳ３７０６：Ｙｅｓ）、生成パターンを１つ選択し（ステップＳ３７０７）、１文字認識処理を実行する（ステップＳ３７０８）。このときの認識結果である文字コードをｃ２とする。そして、ｃ＝ｃ２であるか否かを判断する（ステップＳ３７０９）。

ｃ＝ｃ２でない場合（ステップＳ３７０９：Ｎｏ）、ステップＳ３７０６に戻る。一方、ｃ＝ｃ２である場合（ステップＳ３７０９：Ｙｅｓ）、選択生成パターンと文字コードｃ２との距離が現在の記録文字パターンと文字コードｃとの距離より小さいか否かを判断する（ステップＳ３７１０）。小さくない場合（ステップＳ３７１０：Ｎｏ）、ステップＳ３７０６に戻る。

一方、小さい場合（ステップＳ３７１０：Ｙｅｓ）、選択生成パターンの確信度が現在の記録文字パターンの確信度より大きいか否かを判断する（ステップＳ３７１１）。大きくない場合（ステップＳ３７１１：Ｎｏ）、ステップＳ３７０６に戻る。一方、大きい場合（ステップＳ３７１１：Ｙｅｓ）、記録文字パターンを生成パターンに更新する（ステップＳ３７１２）。以後、更新された生成パターンが記録文字パターンとなる。そして、ステップＳ３７０６に戻る。

一方、ステップＳ３７０６において、未処理の生成パターンがない場合（ステップＳ３７０６：Ｎｏ）、ステップＳ３７０１に戻る。そして、ステップＳ３７０１において、未処理の文字候補矩形がない場合（ステップＳ３７０１：Ｎｏ）、文字候補矩形ごとに最後まで記録された記録文字パターン群からなる文字列パターンを出力する（ステップＳ３７１３）。具体的には、たとえば、ディスプレイ２０８に表示する。

図３８は、出力される文字列パターン３８００を示す説明図である。この文字矩形内ノイズ除去処理部３０８および文字矩形内ノイズ除去処理によれば、各文字候補矩形内において、暫定的な文字パターンに対してより文字コードの文字らしい文字パターンが出現する都度、比較決定するため、文字らしい文字パターン列を得ることができる。

以上説明したように、テロップ文字パターン抽出装置、テロップ文字パターン抽出方法、およびテロップ文字パターン抽出プログラムによれば、文字列パターンの抽出精度の向上を図ることができる。

なお、本実施の形態で説明したテロップ文字パターン抽出方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。なお、上記実施の形態につき、以下に付記する。

（付記１）コンピュータを、
テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、前記生成手段によって生成された色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジＭＦＩノイズ除去手段、
前記各色分解画像を前記エッジＭＦＩノイズ除去手段によるノイズ除去することにより得られた各色分解２値画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成する行領域選択手段、
前記行領域選択手段によって生成された合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
として機能させることを特徴とするテロップ文字パターン抽出プログラム。

（付記２）前記エッジＭＦＩノイズ除去手段は、
前記エッジ２値画像において前記平均画像の画素連結パターンに接する画素数と、前記ダイレーション画像から前記色分解画像を引いた差分画像において前記平均画像の画素連結パターンに接する画素数と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去することを特徴とする付記１に記載のテロップ文字パターン抽出プログラム。

（付記３）前記コンピュータを、
前記合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段として機能させ、
前記文字矩形内ノイズ除去手段は、
前記文字間ノイズ除去手段によるノイズ除去後の合成２値画像に基づいて、前記文字列パターンを出力することを特徴とする付記１または２に記載のテロップ文字パターン抽出プログラム。

（付記４）前記文字間ノイズ除去手段は、
前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去する重複・包含矩形ノイズ除去手段と、を備えることを特徴とする付記３に記載のテロップ文字パターン抽出プログラム。

（付記５）前記文字間ノイズ除去手段は、
前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段を備え、
前記文字候補矩形抽出手段によって抽出された隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することを特徴とする付記３に記載のテロップ文字パターン抽出プログラム。

（付記６）前記文字間ノイズ除去手段は、
前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係または包含関係にある場合、文字候補矩形ペアのうち当該重複関係または包含関係に関する規則に違反する文字候補矩形を除去する重複・包含矩形ノイズ除去手段と、を備え、
前記重複・包含矩形ノイズ除去手段によるノイズ除去結果に基づいて、隣接する文字候補矩形が重複している重複文字候補矩形集合の中から、文字間隔の規則を遵守する文字候補矩形の組み合わせからなる組み合わせ矩形列を抽出することを特徴とする付記３に記載のテロップ文字パターン抽出プログラム。

（付記７）コンピュータを、
テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
前記生成手段によって生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成する行領域選択手段、
前記行領域選択手段によって生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段、
前記文字間ノイズ除去手段によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
として機能させることを特徴とするテロップ文字パターン抽出プログラム。

（付記８）テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジＭＦＩノイズ除去手段と、
前記各色分解画像を前記エッジＭＦＩノイズ除去手段によるノイズ除去することにより得られた各色分解２値画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成する行領域選択手段と、
前記行領域選択手段によって生成された合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
を備えることを特徴とするテロップ文字パターン抽出装置。

（付記９）テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
前記生成手段によって生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成する行領域選択手段と、
前記行領域選択手段によって生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段と、
前記文字間ノイズ除去手段によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
を備えることを特徴とするテロップ文字パターン抽出装置。

（付記１０）テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジＭＦＩノイズ除去工程と、
前記各色分解画像を前記エッジＭＦＩノイズ除去工程によるノイズ除去することにより得られた各色分解２値画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成する行領域選択工程と、
前記行領域選択工程によって生成された合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
を含んだことを特徴とするテロップ文字パターン抽出方法。

（付記１１）テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
前記生成工程によって生成された各色分解画像の中から行ごとに選択された行領域を合成することにより、合成２値画像を生成する行領域選択工程と、
前記行領域選択工程によって生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去工程と、
前記文字間ノイズ除去工程によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
を含んだことを特徴とするテロップ文字パターン抽出方法。

本実施の形態にかかるテロップ文字パターン抽出方法の処理手順を示すフローチャートである。本実施の形態にかかるテロップ文字パターン抽出装置のハードウェア構成を示すブロック図である。本実施の形態にかかるテロップ文字パターン抽出装置の機能的構成を示すブロック図である。平均画像およびエッジ２値画像の生成内容を示す説明図である。平均画像の一例を示す説明図である。色空間座標における色クラスタリングを示す説明図である。色クラスタリングによって得られた色分解画像を示す説明図である。画像周囲のノイズ除去処理により処理された色分解画像を示す説明図である。エッジＭＦＩによるノイズ除去処理で得られる一連の画像を示す説明図である。図９のｄ）のＭＦＩによるノイズ除去の処理内容を示す説明図である。エッジＭＦＩノイズ除去処理部のエッジＭＦＩによるノイズ除去処理の詳細な処理手順を示すフローチャートである。図１１に示したエッジ２値画像生成処理の手順を示すフローチャートである。図１１に示したノイズ除去処理の詳細な処理手順を示すフローチャートである。行領域抽出部による行領域抽出処理の詳細な処理手順を示すフローチャートである。確信度の算出方法を示す説明図である。ヒストグラムの生成例を示す説明図である。決定された行領域を示す説明図である。ノイズ文字を示す説明図である。行領域選択部による行領域選択処理の詳細な処理手順を示すフローチャートである。合成２値画像の一例を示す説明図である。図１９に示した妥当な文字カウント処理の詳細な処理手順を示すフローチャートである。文字間ノイズ除去処理部による文字間ノイズ除去処理の詳細な処理手順を示すフローチャートである。文字候補矩形抽出処理の具体例を示す説明図である。図２２に示した文字候補矩形抽出処理の詳細な処理手順を示すフローチャートである。文字候補矩形抽出処理結果を示す説明図である。ある文字コードの頻度分布を示すグラフである。包含関係を示す説明図である。重複関係を示す説明図である。重複・包含矩形のノイズ除去処理の詳細な処理手順を示すフローチャートである。重複・包含矩形のノイズ除去処理によるノイズ除去処理結果を示す説明図である。文字候補矩形間の中心間距離および矩形間距離を示す説明図である。行領域内の重複文字候補矩形集合の一例を示す説明図である。文字間ノイズ除去処理の詳細な処理手順を示すフローチャートである。図３３に示した組み合わせ矩形列生成処理の詳細な処理手順を示すフローチャートである。文字間ノイズ除去処理によるノイズ除去処理結果を示す説明図である。文字パターンの生成例を示す説明図である。文字矩形内ノイズ除去処理部による文字矩形内ノイズ除去処理の詳細な処理手順を示すフローチャートである。出力される文字列パターンを示す説明図である。

符号の説明

３００テロップ文字パターン抽出装置
３０１取得部
３０２色分解画像生成部
３０３周辺ノイズ除去処理部
３０４ノイズ除去処理部
３０５行領域抽出部
３０６行領域選択部
３０７文字間ノイズ除去処理部
３０８文字矩形内ノイズ除去処理部

Claims

コンピュータを、
テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、前記生成手段によって生成された色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジＭＦＩノイズ除去手段、
前記各色分解画像を前記エッジＭＦＩノイズ除去手段によってノイズ除去することにより得られた各色分解２値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを１つの文字パターンとして認識する１文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを１つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解２値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段、
前記行領域抽出手段によって抽出された前記各色分解２値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成２値画像を生成する行領域選択手段、
前記合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段、
前記文字間ノイズ除去手段によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
として機能させることを特徴とするテロップ文字パターン抽出プログラム。
前記エッジＭＦＩノイズ除去手段は、
前記エッジ２値画像において前記平均画像の画素連結パターンに接する画素数と、前記ダイレーション画像から前記色分解画像を引いた差分画像において前記平均画像の画素連結パターンに接する画素数と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去することを特徴とする請求項１に記載のテロップ文字パターン抽出プログラム。
コンピュータを、
テロップを含む一連のフレーム画像の平均画像を取得する取得手段、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段、
前記各色分解画像を前記生成手段によって生成された各色分解２値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを１つの文字パターンとして認識する１文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを１つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解２値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段、
前記行領域抽出手段によって抽出された前記各色分解２値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成２値画像を生成する行領域選択手段、
前記行領域選択手段によって生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段、
前記文字間ノイズ除去手段によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段、
として機能させることを特徴とするテロップ文字パターン抽出プログラム。
前記文字間ノイズ除去手段は、
前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係にある場合、文字候補矩形ペアのうち大きい方の文字候補矩形が濁点または半濁点文字であるが文字コードが濁点または半濁点文字でない場合、前記文字候補矩形ペアのうち小さい方の文字候補矩形を除去する重複矩形ノイズ除去手段と、を有することを特徴とする請求項１〜３のいずれか一つに記載のテロップ文字パターン抽出プログラム。
テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジＭＦＩノイズ除去手段と、
前記各色分解画像を前記エッジＭＦＩノイズ除去手段によってノイズ除去することにより得られた各色分解２値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを１つの文字パターンとして認識する１文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを１つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解２値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段と、
前記行領域抽出手段によって抽出された前記各色分解２値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成２値画像を生成する行領域選択手段と、
前記合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段と、
前記文字間ノイズ除去手段によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
を備えることを特徴とするテロップ文字パターン抽出装置。
テロップを含む一連のフレーム画像の平均画像を取得する取得手段と、
前記取得手段によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成手段と、
前記各色分解画像を前記生成手段によって生成された各色分解２値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを１つの文字パターンとして認識する１文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを１つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解２値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出手段と、
前記行領域抽出手段によって抽出された前記各色分解２値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成２値画像を生成する行領域選択手段と、
前記行領域選択手段によって生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去手段と、
前記文字間ノイズ除去手段によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去手段と、
を備えることを特徴とするテロップ文字パターン抽出装置。
前記文字間ノイズ除去手段は、
前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出手段と、
前記文字候補矩形抽出手段によって抽出された文字候補矩形ペアが重複関係にある場合、文字候補矩形ペアのうち大きい方の文字候補矩形が濁点または半濁点文字であるが文字コードが濁点または半濁点文字でない場合、前記文字候補矩形ペアのうち小さい方の文字候補矩形を除去する重複矩形ノイズ除去手段と、を有することを特徴とする請求項５または６に記載のテロップ文字パターン抽出装置。
テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
一連のフレーム画像からエッジ抽出したエッジ画像を集積して２値化したエッジ２値画像と、前記色分解画像と、当該色分解画像をダイレーションしたダイレーション画像と、前記平均画像と、に基づいて、前記各色分解画像の中から動きのあるパターンをノイズとして除去するエッジＭＦＩノイズ除去工程と、
前記各色分解画像を前記エッジＭＦＩノイズ除去工程によってノイズ除去することにより得られた各色分解２値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを１つの文字パターンとして認識する１文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを１つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解２値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出工程と、
前記行領域抽出工程によって抽出された前記各色分解２値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成２値画像を生成する行領域選択工程と、
前記合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去工程と、
前記文字間ノイズ除去工程によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
を含んだことを特徴とするテロップ文字パターン抽出方法。
テロップを含む一連のフレーム画像の平均画像を取得する取得工程と、
前記取得工程によって取得された平均画像を色クラスタリングすることにより、複数の色分解画像を生成する生成工程と、
前記各色分解画像を前記生成工程によって生成された各色分解２値画像の中から画素連結パターンを選択し、選択した前記画素連結パターンを１つの文字パターンとして認識する１文字認識処理を、前記画素連結パターンの特徴量と登録文字の特徴量とに基づく前記画素連結パターンに関する確信度を用いて実行し、前記確信度がしきい値以上となる前記画素連結パターンを１つの文字パターンとして認識し、認識された前記画素連結パターンを行方向に投影したヒストグラムに基づいて、前記色分解２値画像ごとに、文字パターン列が存在する行領域を抽出する行領域抽出工程と、
前記行領域抽出工程によって抽出された前記各色分解２値画像の行領域群の中から、各行において文字パターン数が最大の行領域を選択して合成することにより、合成２値画像を生成する行領域選択工程と、
前記行領域選択工程によって生成された合成２値画像内の画素連結パターンの中から文字列の規則に違反する画素連結パターンを除去する文字間ノイズ除去工程と、
前記文字間ノイズ除去工程によるノイズ除去後の合成２値画像内の各画素連結パターンの組み合わせからなる文字パターンの文字認識結果に基づいて、当該文字パターンの外接矩形の中から前記文字パターンに不要な画素連結パターンをノイズとして除去することにより、文字列パターンを出力する文字矩形内ノイズ除去工程と、
を含んだことを特徴とするテロップ文字パターン抽出方法。
前記文字間ノイズ除去工程は、
前記合成２値画像内の画素連結パターンの文字認識結果に基づいて、前記合成２値画像の中から文字らしいキー文字パターンを抽出することにより、当該キー文字パターンを包含する矩形に包含される画素連結パターンに外接する文字候補矩形を抽出する文字候補矩形抽出工程と、
前記文字候補矩形抽出工程によって抽出された文字候補矩形ペアが重複関係にある場合、文字候補矩形ペアのうち大きい方の文字候補矩形が濁点または半濁点文字であるが文字コードが濁点または半濁点文字でない場合、前記文字候補矩形ペアのうち小さい方の文字候補矩形を除去する重複矩形ノイズ除去工程と、を有することを特徴とする請求項８または９に記載のテロップ文字パターン抽出方法。