JP4521485B2 - 文書、特に技術図面を分割し認識する方法 - Google Patents

文書、特に技術図面を分割し認識する方法 Download PDF

Info

Publication number
JP4521485B2
JP4521485B2 JP55501799A JP55501799A JP4521485B2 JP 4521485 B2 JP4521485 B2 JP 4521485B2 JP 55501799 A JP55501799 A JP 55501799A JP 55501799 A JP55501799 A JP 55501799A JP 4521485 B2 JP4521485 B2 JP 4521485B2
Authority
JP
Japan
Prior art keywords
point
double
determining
source
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP55501799A
Other languages
English (en)
Other versions
JP2002509632A (ja
Inventor
ジョエル・ガルデス
レミー・ミュロ
イヴ・ルクルティエ
ジャン−マルク・オジィエ
アラン・ラッソルゼ
Original Assignee
シャートロー・ケージー・リミテッド・ライアビリティー・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャートロー・ケージー・リミテッド・ライアビリティー・カンパニー filed Critical シャートロー・ケージー・リミテッド・ライアビリティー・カンパニー
Publication of JP2002509632A publication Critical patent/JP2002509632A/ja
Application granted granted Critical
Publication of JP4521485B2 publication Critical patent/JP4521485B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

技術分野と従来技術
ここに記された発明は、映像に含まれる情報を処理する方法と、形状を認識する方法とに関する。映像のディジタル処理、特に例えば技術文書のような文書の認識分野に応用範囲がある。
文書の認識と紙物文書のデータの復元は、現在非常に重要である。従って、そこに表れる情報を復元する目的から、おそらく紙物やそれに近い物(トレーシング紙、マイクロフィルム等)上にある文書を含めた文書類の電子的管理の戦略を立てる必要がある。
企業文書のデータベースを与えることのできるような、図面特に技術図面を変換するいくつかの技術が現在知られている。
変換する文書量が膨大で、手仕事で行う場合には、仕事量は(redhibitory)であると分かる。実際には、文書のテキストと映像の情報をデジタル化の表を用いて取り入れる場合である。加えて、そうして作られたデータの品質は保証されるものではない。その様な変換によって、しばしば下請け作業が必要であり、競合相手との関係で守秘性の問題を起こす。
技術文書の自動あるいは半自動による変換の手段が知られている。これらの手段や関係する技術には、微妙で複雑で文書表現の規則における変化に神経質なパラメータ化がある。文書中にもし寄生信号があれば、これらの変換手段は、暫時その効果を失い、手作業の処理が増えていく。
最後に、1ビットの深さで符号化された映像や白黒の文書のディジタル処理の技術が知られている。これらの技術は文書の“掃除”をすることができるが、雑音が、有効な情報に対して優性な場合、これを分離することは可能ではない。なぜなら、技術文書は、しばしば必須文書に重ね合わせをした、あるテーマを純粋に示すものに装飾をした結果であるから。
さらに、形状を認識する従来からの手段では、特に長い要素の場合には、それらの該当する部分や長さなどのデータを操作者が決めることが要求される。これらの手段は、従って自動化されず、加えて手動による選択では、今まで使用されてきた原始的なものを明らかにしない。
加えて、これらの従来からの形状認識手段は、マン/マシンインターフェイスが複雑であり、操作者の側で、操作者の仕事に関係のない習熟が必要となる。例えば、もし操作者が、電子的に配付される文書の専門家であれば、映像処理の分野での能力を得なければならない。
最後に、これらの手段は、形状認識をした後に、手動で精密な修正を必要とする。
本発明の開示
これらの技術に関して、本発明の目的は、映像の処理あるいは映像に含まれる情報の処理であり、以下の段階を含む。
− 映像の対象領域を定義する第1の処理段階と、
− 第1の閾値分けされた映像として参照される、この対象領域の閾値分けされた映像を得るために、この対象領域の適応閾値分けを実行する段階と、
− 閾値分けされた映像の形態層の第1の組を得るために、閾値分けされた映像を分割する段階。
形態層とは、類似の幾何学的特徴(例えば、大きさ、表面、内/外部の境界部、長さと幅の比率等)の組である。この類似の特徴は、例えば表面を取ると表面要素ごとの画素密度によって決まる。
対象映像の領域を定義する第1の処理を行い、その後閾値を定める処理を行うことで、この第2の段階を明らかな方法で改良する。
第1の処理は、閾値を定める(あるいは複数の閾値を定める)ことで、例えば大津あるいはKITTLER−ILLINGWORTHのアルゴリズムを使用することで、それ自身実行することかできる。
その後、形状認識処理は、形態層の第1の組の各形態層に対して行われる。こうして、各層に対して最適な認識処理を選ぶことが可能となる。
形状認識処理を行う前に、本発明による方法は、最初の映像において一番初めから形態層の第1の分析と分離をすることができる(これは通常“ラスター”映像であろう、すなわち実映像をスキャナ手段で得た映像である)。こうして、要求に応じて、一番初めの処理段階から、形態層の分離の点で有利である。
対象を形態的に区分することで、認識すべき形状専用の高度に適切なアルゴリズムが可能となり、この方法は、少ないパラメータ化と相まって処理の自動化を保証する。これらの処理の結果によって、自然なトポロジーが考慮されるような、高度に構造的なベクトル的文書になる。
さらに、その様な方法は、パラメータ化に変更を加えずに、テーマの表現や形態層の変化に適応できる。本発明によって、これらの異なる層を認識し、それらを分離し、形状認識処理に有用な層のみを残すことが可能となる。
最後に、本発明は、たとえ背景にマップがあったとしてもネットワーク図面(例えば、遠隔ネットワークや水、ガス、配電ネットワーク)の認識に良く適用できる。
第1の処理の後は、映像の対象領域を改良する、例えば画素集団をうまく選択するために膨張したり収縮したりする段階が続く。
さらに映像の異なる形態層に分類する第1段階と同様に、この第1の処理(空間マスク)は、完全に暗示的であると判断される情報から、文書中の“有効な”情報を分離することができる。
閾値映像を分割した後、形態層の一つに対応する、閾値分けされた映像のいくつかの部分を閾値分けする段階を行うことができ、得られた映像は第2の閾値分けされた映像として参照される。
閾値分けされた映像のグレイ・レベルから成るが、形態層の一つによってあるいはそれへと限定されるところの情報は、それゆえ繰り返され、その結果それ自身、閾値映像へのマスクとして使用されるものである。そして、この情報自身が閾値処理を受け、次に分割を改良することが可能で、後者の番では形態層の第2の組を得ることが可能である。
形状認識処理は、次に形態層の第2の組の各層に対して行われる。
本発明は、また上述の映像処理方法を行う装置に関する。
本発明は、従って、映像の中に含まれる情報を処理する装置に関し、以下のものを備えている:
− 映像の対象領域を定義することができる第1の処理を行う手段と、
− 上記対象領域の適応閾値分けを行い、閾値分けされた映像を得るための手段と、
− 閾値分けされた映像の形態層の第1の組を得るために、閾値分けされた映像を分割する手段。
加えて、形態層の第1の組の各形態層に形状認識処理を行う手段を与えることができる。
この装置は、また、閾値映像を分割した後に、形態層に対応する閾値分けされた部分的映像を閾値分けする段階を実行する装置を持つことができ、この得られた映像は、第2の閾値分けされた映像である。
本発明の他の目的は、映像の中で形状を認識する方法であり、以下のものを含む:
− 映像の要素の輪郭を確定するための、映像の輪郭化と、
− 要素や双点(bipoint)を作るために、映像の輪郭の画素を用いた多角形化と、
− 映像の中の同じ形状に属するものを互いに集めるために、双点の構築。
形状認識方法が与えられる映像は、上に定義した形態層の組の一つから引き出すことができる。
映像の輪郭化は、以下のものを含むことができる:
− 各画素の内部の程度を探索し、
− 内部の程度が最も高い画素を探索する。
多角形化の段階の後には、多数の点のレベルで認識される形状を決定する処理が続く。この処理には、以下の第1及び第2の輪郭追跡アルゴリズムを使用することが含まれる:
− 多重ノードの場合に左への分岐を選ぶ線追跡を実行し、第1の輪郭追跡を生成する第1アルゴリズムと、
− 多重ノードの場合に右への分岐を選ぶ線追跡を実行し、第2の輪郭追跡を生成する第2アルゴリズム。
2つの輪郭追跡に含まれる冗長な情報を除去するために、2つの輪郭追跡アルゴリズムの適用から得たデータを混ぜる段階をさらに与えることができる。このデータの混ぜ合わせには、例えば、部分的あるいは全体的に他に含まれる、一つの輪郭追跡の区分あるいは双点を決定することが含まれ得る。
双点の構築には、以下の段階が含まれ得る:
a)長さの昇順で、双点の単一の表を確定する段階と、
b)この最後の表から双点の最も大きいものを選ぶ段階と、
c)他の双点に部分的に含まれるものを探す段階と、
d)前段階で部分的に含まれる双点が見つかった場合、多角形化によって試験する段階と、
e)もし、段階d)の結果が正なら、双点を消去し、混ぜ合わせた双点に入れ替え、段階c)に戻る段階と、
f)もし、d)の段階の結果に2つ以上の双点が含まれていたら、段階c)を続ける段階と、
g)もし、段階d)で新しい双点がそれ以上無かったら、段階d)から発せられる最後の双点を記憶し、この双点を、段階a)で確定した双点の表から消去し、段階a)に戻る段階。
他の実施形態に従って、本発明の形状認識方法には、また同一の区分の中の近接する双点を集める段階が含まれ、これは一歩ずつ、連続的に延長される双点の各点の非常に近くの近接部で、物理的な連続性を求めることにより実行される。
形状認識方法が適用される映像が技術的な前提やセクションや円弧の端部に位置するチェンバー(chamber)を表している場合、形状認識方法は、また、映像の咬合部を見つける段階と、その咬合部をフィルタする段階と、チェンバーが検出された近接部に位置するセクションの端部の数を求める段階とを含む。
最後に、本発明の他の目的は、本発明による以下に記す形状認識方法を実行する装置である。その装置に含まれるのは:
− 映像の輪郭を確定するために、映像の輪郭化を実行する手段と、
− 映像の輪郭の画素を用いて、多角形化を実行する手段と、
− 双点を構築し、映像の中の同一の形状に属するものを互いに集める手段。
この装置は、また、第1と第2の輪郭追跡アルゴリズムを実行する手段を備えることができる。
− 多重ノードの場合に左への分岐を選ぶ線追跡を実行し、第1の輪郭追跡を生成する第1アルゴリズムと、
− 多重ノードの場合に右への分岐を選ぶ線追跡を実行し、第2の輪郭追跡を生成する第2アルゴリズム。
第1と第2の輪郭追跡アルゴリズムを実行する手段は、また、二つの輪郭追跡を含む冗長な情報を除去するために、二つの輪郭追跡アルゴリズムの実行の結果のデータを混ぜ合わせることが可能である。
この装置は、また、一つのかつ同じ区分の中の近接する双点を互いに集める手段を備えることが可能である。
【図面の簡単な説明】
いかなる場合も、本発明の特徴と利点とは、以下の記述によって、よりはっきりとするであろう。その記述は、例としての実施形態に関しており、これは、添付の図面を参照しつつ、説明のために制約無しに与えられる。
− 図1Aと図1Bとは、本発明による方法の段階を図示する。
− 図2は、認識すべき文書の例である。
− 図3は、図2の文書のヒストグラムである。
− 図4は、文書にマスクをかけた後の、獲得した映像を表している。
− 図5は、図4で表された映像のヒストグラムである。
− 図6は、図4で表した映像に適応閾値を施した後の、獲得した映像を表している。
− 図7Aから図7Cは、図6で表した映像を分割して獲得した3つの形態層を表している。
− 図8は、本発明を適用する装置を表している。
− 図9は、多角形化の結果の例である。
− 図10Aと図10Bとは、それぞれ三角法と非三角法との輪郭追跡アルゴリズムの結果の例である。
− 図11は、包含物の成分を図示している。
− 図12は、双点の間の実行可能な構成を表している。
− 図13は、双点を最終的に合わせた後のネットワークの外郭線を表している。
− 図14は、双点を構成して獲得した外郭線を表している。
− 図15は、元の図面をスキャンしたチェンバーの例である。
− 図16は、咬合の例を表している。
本発明の実施形態の詳細な説明
図1Aと図1Bとは、本発明に従って実行することのできる方法での段階を表している。
技術図面2(図1A)は、例えば8ビットフォーマットで、かつ例えば400dpi以上の高解像度で、最初に“スキャンされ”(あるいは段階1−2の標本化)る。従って、この段階は、原映像4を与える。
この原映像に対して、最初の処理1−4によって、対象映像の領域定義が行われる。この第1段階(また、全体的な接近段階とも呼ばれる)は、例えば、閾値分けすることで実行可能であり、閾値あるいは与えられたレベルは、原映像の未確定レベルのヒストグラムから閾値アルゴリズムによって決定される。この閾値分けによって映像のヒストグラムにおける未確定レベルの異なる区分(最低2つ)を定義することができる。例えば、これらの区分の少なくとも一つが映像の背景に対応しそれは保持される:従って背景のモードは、原映像で0へと減少させられる。この処理から、結果としてマスク6を引き出すことができ、映像の対象領域を定義することができる。
マスクされた映像8は、原映像4へとマスクをかける(1−6)ことで獲得される。従って、このマスクのかかった映像には、重要であるとして選択された文書の要素以上のものは、もはや含まれていない。
映像の局所的処理(局所的近似)が、次に実行される:マスクのかけられた映像は、閾値アルゴリズムを用いて適応閾値分け(段階1−8)を受ける。いわゆる“閾値分けされた”映像10がこうして獲得される。マスクされた映像に対して実行された閾値分け処理は、原映像4に直接実行されたであろうものよりも、さらに非常に効果的である、あるいはさらに非常に精緻である。特に、この方法に基づいて、もし閾値分けが原映像に対して直接実行されたら混ぜ合わせられたであろう映像の細部の差異を獲得することができる。
そして関係する画素の集合体を抽出する処理が実行される(図1B、段階1−10)。このようにして、映像12が作られ、各映像は似た集合体や形状や画素を表す。
これらの形状は、次に形態の基準によって記憶される(段階1−12)。形状に“ラベル”を付け、それらを形態の基準に従って区分する内容を持つ処理が、分割処理と呼ばれる。この方法によって、文書の物理的“層”14−1,14−2,14−3,...が定義される。形態に従って形状を分類することで、次に、各形状に適用される専用の認識アルゴリズムへと従わせることができる。
こうして定義された異なる各物理的層は、それぞれの番で原映像4に対するマスクとして考えることができる。これらのマスクを原映像に与えることで、部分映像16−1,16−2,16−3,...を原映像(ここでは8ビット)のフォーマットへと獲得することが可能となる。従って各物理的層によって、未確定レベルで、原映像の中にそれに対応する情報を見つけることが可能となる。
映像16−1,16−2,16−3,...の各々は、映像の区分を改良するために、それぞれの番で閾値分けによる処理へ導くことができる。映像16−iの一つに新しい閾値が決定されると、新しいサイクルがこの映像16−iに対して再開される:この映像は、関係の近いマスクの大きさによって再分割することができる。かくして、技術図面2において接続を外されたか分離され、しかし原映像4では接続されるものとしてある形状(あるいは文字)を分離することが可能となる。
図2は、認識しようとする文書の種類として特徴的な例である。抽出する要素にはマークが付けられ、それらは電話ネットワークの道筋を抽出する。こうして、見つけられるのは文字20,ネットワークのセクション22,チェンバー24(ケーブル・チェンバー)、終端建物26、集中点(CP)28(使用者がネットワークに接続できる)、プロット時の端部27である。この映像を未確定レベルの見地から調べると、地図図面の背景の中程度もしくは重度の関連性の度合いの特質によって、背景の強い雑音が見つかる。図3に表された、この映像のヒストグラムを描くことでこれらの特徴が示される。
このヒストグラムには、必然的に3つの領域が含まれる:
− 単独に映像の背景を含む、第3の領域30(あるいは“ハイ・モード”)
− 主に地籍情報を含む、中央領域32
− 主に電話ネットワークに関する情報を含む、第3の領域34(あるいは“ロー・モード”)。
全体的近似と呼ばれる、映像の最初の近似において、ネットワークを取り囲む、対象の領域が決定される。この目的のために、適応多重閾値分けが実行され;これは大津アルゴリズムに基づいて3つの区分による多重閾値分けの場合である。縦軸は、ヒストグラムからのアルゴリズムによって計算される閾値S1,S2を示している。
3つの区分の各々の画素に色を割り当てることが可能で、これらの区分の空間分布(図4)を決定することができる。
ネットワークは、映像において未確定として表される区分の中に完全に合う。しかし、雑音がかなり残るし、この区分を認識システムに直接表すことは可能ではない。他方、この区分は、ネットワークを含む最初の映像の空間的延伸に対応する。
映像の全体的近似に基づいて、ネットワークが完全に合う空間的延伸に対応する対象領域がその結果分離される。この領域は、ヒストグラムの特徴的なモードを求めることに基づいた多重閾値分けの結果である。ネットワークがこの区分に含まれるという原則から始めて、背景の画素を除去するために、原映像にマスクをかける。空間マスクが選択される区分を選択することによってなされる。
獲得された映像は、そのヒストグラムが図5で与えられる未確定レベルgの映像の“部分”である。その点でモードの区別は、かなりの程度改良されるが、これは映像上の背景画素の集団を排除することから得られる。この時から、処理の連鎖は、もはや文書の重要な要素以上のものは使用しない。
いくつかの多重閾値アルゴリズムが使用されてきた(大津,KITTLER−ILLINGWORTH,それにEDRASからのソフトウェアIMAGINEに記載された空間分類器ISODATA)。得られた結果は、画素の重要な集団のみを使用するために、原映像に戻ることで、異なる閾値分け処理の作用を明確に最適化することが分かる。
加えて、マスクの構成において、集団の選択を改良するために、従来からの数学的形態の演算子を用いることが可能であり、これは、(映像の拡張あるいは腐敗)作り出すのがより簡単である。
最後に、映像(図6)の形状の分割化が実行されるところに、対象領域が構築される。
この図において、地図的背景の情報の大部分が除去されたということが分かる;特に、これは、建物の線影付けを持った場合であり、ベクトル化に大きな障害要素である。この情報は、閾値映像の区分の選択によって区別されるので、必ずしも失われはしない。
この閾値分けされた映像は次に分割される。
分割処理は、現在の形状のラベル付けと形態基準に従って分類することから成る。ラベル付けされた形状の各々は、画素の関連する集合体を構成する。我々の試作品では、この分割は、形状の3つの分類を決定することから成る:
− 主に電線管(ネットワークにおける主要ケーブル部分)とケーブル・チェンバーを含んだ、3つの主要な線形要素(図7A)、
− ネットワークの端末設備に対応する形状(CPであり、その記号表示はここでは三角あるいは矩形によって表される)(図7B)、
− その形態は上記のいずれの基準にも合致しない(図7C)。
これらの3つの層は、文書の物理モデルを構成する。その形態に従って分類することで、各形状に適応した専用の認識アルゴリズムへと導くことが可能となる。
各層には、認識すべき要素の大部分が含まれている。ここ以降、形状の認識を通して(以下参照)層を研究することに注意が払われ、特にそれらは主要なケーブルの部分を含んでいる(図7A)。
3つの層は、同じ区分の対象にかける一組のマスクと考えることができる。従って、マスクを用いて、一つの区分に関する未確定レベルの情報を見つけることが可能となる。異なるマスクから作られる未確定のレベルは、映像の区分を改良するために、こうして再び閾値分けをすることが可能である。これは、映像に含まれる情報の種類の数を減らすことで、自動閾値を決定することが、より妥当になるからである。
一旦、新しい閾値が決定されると、新しい映像に対して新しいサイクルが再開される。この新しい映像は、関連性の強い集合体の大きさによって再分割される。
結果は全体として満足できるものである。接続された文字の大部分は、接続を外された。その後にも接続されたままのものは、また、原映像に接続される。従って、それらは、処理のこの段階では分割されることは無い。最後に、こうして得られた各層は、提示された物理的テーマに最も合ったアルゴリズムを使用することで形状認識処理に渡される。
使用される閾値アルゴリズムは、例えば、大津法あるいはKITTLER−ILLINGWORTH法を実行することができる。
大津法(“未確定ヒストグラムからの閾値選択法”、IEEE Trans.Syst.Man Cyber,1,62−66頁、1979)によって、映像の2値化のための妥当な閾値Tを決定する問題は、画素を下位グループのC1T、C2Tへとより良く分類する問題へと適合させられる。
これらの分類の一つは、常に、背景と、映像の他の対象とを含んでいる。
未確定レベルtに対して、映像のヒストグラムは、前もって分かる統計的データを計算することができる:属性の事前確率と平均未確定レベルと各区分C1とC2に対する分散とである。大津は、そこから以下の式を推定した。
− 映像全体に対する平均未確定レベル:
Figure 0004521485
− 映像全体に対する分散:
Figure 0004521485
この時、
Figure 0004521485
は、区分内の分散として参照され
Figure 0004521485
は、区分間の分散として参照される。
大津は、以下のtによる最大化されなければならない区分基準を照会している:
Figure 0004521485
この比は、映像を2値化するために閾値tを選択したことが妥当であることを表している。映像の全体の分散が何であれ、最適な閾値は、背景に関する区分と対象σ2 B(t)に関する区分との間の分散の最大値に帰するからである。
その結果、もしtが最適で、映像全体の分散であるσがtに依存しなければ、η(t)はその最大値に達する。η(t)の評価には、σ2 B(t)とσ2Tの計算が先に必要となる。閾値の最適値を求めるのにη(t)を使用する代わりに、
σ2T=σ2 W(t)+σ2 B(t)は、いかなるtに対しても定数であるという事実を使用することが可能である。
しかし、最適閾値のTに対して、最大値σ2 B(t)すなわち最小値σ2 W(t)が存在する。
従って、この最初の方法による区分は、区分を分離するために、一方では、区分間の分散を最大にする境界を見つけることになり、他方では、その平均周辺の各区分の未確定レベルを一括するために区分内の分散を最小化する。
KITTLERとILLINGWORTH(Kittler他、“最小誤り閾値分け”、パターン認識、25(9)、963−973、1992年)の方法では、最初の仮定は背景と主題に関連する集団C1とC2は、ガウス分布に従うというものである。
Tを、事前に与えられるガウスモデル変更閾値とし、h(g)を映像のヒストグラムとすると、各集団Ci(I=1.2)のパラメータを定義することができる:
ωi(T)、gi(T)とσ2i(T)
h(g/i、T)を、集団iと閾値Tの条件による、h(g)の適切な法則とする。[0,L]の未確定レベルgに対して、条件確率は、Tが次の式で選択されるとき、二値化の後で、gを映像の中で適切な値に置き換えることで定義される。
Figure 0004521485
注意として、ε(g,T)=-2log(h(g).e(g,T))=-2log(h(g/i,T.ωi(T)) (4)
しかし、仮定として
Figure 0004521485
(4)と(5)を組み合わせると、次のように推論できる。
Figure 0004521485
最大の関心は、次に与えられる非定数部分である。
Figure 0004521485
ε’(g、T)は、gの正しい区分の指標である。これが小さければ小さいほど、この画素に対してTはより良くなる。
Tの与えられた値に対して得られた閾値の質を評価するために、KITTLERとILLINGWORTHは、次の基準を定義する:
Figure 0004521485
映像の二値化のための最適閾値Tは、J(T)=minTJ(T)で与えられる。また、次の式も与えられる:
Figure 0004521485
(9)式から始め、(1),(2),(5)式を考慮して、KITTLERとILLINGWORTHの基準の次の式となる:
Figure 0004521485
最適な閾値を決定するために、J(T)が最小であるようにTを求めるのに十分である。
この方法は、多重閾値分けにも拡大できる。ある場合には、これは興味深いものであり、特に上に開示されたものではそうである。なぜならば、例として与えられたヒストグラムには2つのモードがあり、この2つの間に定義されない幅広い領域があるからである。従って、3つの区分を求めることは正しいことで、すなわち、各モードに一つずつと未定義の領域に対して最後に一つ、そこから二つの閾値を見つける必要性がある。これは、事前に選択されたパラメータである。三つ以上の閾値を選択することは、また、ある場合には有利である。
上述の方法において、最初に技術文書が、スキャナのような適切な装置によってスキャンされる。原映像は、こうして得られ、ディジタル映像の形式で記憶することができる。
本発明による映像処理方法は、UNIXあるいはWindowsのワークステーションによって実行することができる。このワークステーションは、先に映像を記憶したスキャナとは独立して動くことができる。本発明によるデータ処理プログラムは、磁気テープあるいは1枚あるいは2枚以上のディスケットに記憶しておくことができる。そのプログラムは、ANSI互換のC言語でUNIXの下で開発され、異なるUNIX/MotifワークステーションあるいはWindowsNT4の下でPCのようなマイクロコンピュータにおいて実行することができる。ワークステーションは、表示装置も組み入れることができる。
使用されるコンピュータ・システムは、マイクロプロセッサによる計算部と映像を処理するのに必要な全ての電子部品を持つ。
図8は、ブロック形態で、使用されるコンピュータの部品の一つを単純化した表記である。マイクロプロセッサ39が、バス40によって、データとプログラム命令とを記憶するRAMメモリ41と生成される処理プログラムの命令を記憶するROMメモリ42とに接続される。これらの要素を持つコンピュータは、スキャナや上述した表示装置やマウス、モデム等の他の周辺要素も持つことができる。処理すべき映像上や与えるべきプログラム上のデータは、ディスクやCDROMや磁気光ディスクやハードディスク等の記憶媒体あるいはメモリ媒体からRAMメモリ41へ転送することができる。キーボード38は、命令を装置の中に入力することができる。
一般的な意味で、映像に含まれる情報を処理するための、本発明による器具や装置には、以下のものが備わる:
− 映像に含まれる情報を処理するための記憶手段
− 記憶手段に接続されるプロセッサで、以下の命令を実行する
* 対象映像の領域を定義する第1の処理
* 第1の閾値分けされた映像と呼ばれる、この対象領域の閾値分けされた映像を得るために、対象領域の適応閾値分けの実行
* 閾値分けされた映像の形態層の第1の組を得るために、閾値分けされた映像の分割。
他の命令は、上述したように本発明による方法の他の段階や他の実施形態に関するものであり得る。
上述の装置あるいはシステムは、コンピュータ用の媒体上に存するプログラムを使用し、このプログラムはコンピュータによって読み取られることができ、映像に含まれる情報を処理する本発明による方法をコンピュータが実行することのできる命令を含んでいる。すなわち、
− 対象映像の領域を定義する第1の処理の実行
− 第1の閾値分けされた映像と呼ばれる、この対象領域の閾値分けされた映像を得るために、この対象領域の適応閾値分けの実行
− 閾値分けされた映像の形態層の第1の組を得るために、閾値分けされた映像の分割。
上述した様々な実施形態や情報処理方法の特別な段階に対応する、他の命令を与えることもできる。
本発明による方法は、また、“部品”あるいは“ハード”バージョンに従って実行することもできる。
輪郭化法(ベクトル化アルゴリズム)は、RAE Colloquium会報,Le Harve, BIGRE 68,68-76頁、1990年の“2つの輪郭化アルゴリズム”に記載されているB.Taconet(TAC90)の内容を捕捉する。このアルゴリズムの利点の一つに雑音に対する相対的な強さがある。加えて、このアルゴリズムは処理時間に関して効果的である。ライン内の内部性の程度結果としての要素のラベル付けは、重要な利点ではなく、その有用性は、少し後で開示される。この方法によって作られる輪郭は、実際には、その画素が形状の中における内部性の程度によってラベル付けされる標準化された映像であるからである。ラインの厚さの測定は、こうして直接にこのラベル付けによってアクセスできる。
このアルゴリズムには、各画素の内部性の程度を求める段階と、内部性の最も高い程度の画素を求める段階とが含まれる。
1.各画素の内部性の程度を求める。
第1段階には、形状の中の内部性の程度に従って画素をラベル付けすることから成る。それは、映像への2つの連続的なパスに分解できる。各パスは、内部性の程度に従って画素をラベル付けすることを可能にするL型マスクの応用に対応する。第1のL型マスクは、映像の上部から下部へ通過しつつ、映像に与えられる。対象の各画素Pは、次のマスク(内部性の程度の映像の構造に対する第1のマスク)に従ってラベル付けされる:
Figure 0004521485
そしてPは、次の規則に従って周囲に従ってラベル付けされる:P0=lower(P1+1,P2+1,P3+1,P4+1)。
映像の上部から下部へと、第2のスキャンが実行される。与えられるマスクは、以下のようである(内部性の程度の映像の構造に対する第2のマスク):
Figure 0004521485
そしてPは、次の規則に従って周囲に従ってラベル付けされる:P0=lower(P5+1,P6+1,P7+1,P8+1)。
各画素Pに対して選ばれた、内部性の程度は、P0とP1の最も大きい値である(higher(P0,P1))。
内部性の程度が最も高い画素は、輪郭上の点に対応する。輪郭は、最大のレベルでこれらの全ての点を求めることによって得られる。
2.中心的映像の形成:内部性の程度が最も高い画素を求める。
この第2段階は、輪郭の重要な点を抽出し、内部性の程度の映像から“中心的”映像を構築する。この中心的映像は、実際に、ラインの厚さが最大2に等しい映像である。12個の3×3のマスクを用いて計算される。12個のマスクは、Pのマスクをされた中央の画素に関して下に図示された3個のマスクを回転させて得られる(P=現在の点、C=輪郭点、X=背景もしくは内部の集合体上の点):
XCX XCX XCX
CPC XPC XPX
XXX CXX CXC
それぞれの繰り返しにおいて、処理された画素は、内部性の程度が、前の段階の間、維持されるものと同様に低い程度で現在の繰り返しの順に等しいものである。
他のマスク(下記)を回転して得られる16個のマスクによって表現される周囲の条件に従って中心的映像を改良することで、最終的に輪郭を得ることが可能となる。
XOX 000 000 X00
1P1 X11 11X 1P0
X1X X11 11X X1X
輪郭化の処理は、情報の構築はしないので、この構築を可能にする輪郭の観察が実行される。
本発明による形状認識方法が、線形対象(ネットワークとその異なる部分)に対して説明される。他の種類の対象に対して実行することが可能である。
上で決定された輪郭から、輪郭追跡によって、処理される線形対象に対応するグラフを構築することが可能となる。ネットワークを認識することで、この再構築ができる。この処理の最後に、情報は、映像の全てのノードを接続するグラフの形式で構築される。
ネットワークの再構築を実行するために、多角形化の手段が利用可能である:そのような手段によって、点からセグメントを作ることが可能となる。そのような手段の例が、J.M.Ogierによる“地図製作上の文書の自動分析への寄稿:土地台帳データの解釈”という題のRouen大学の博士の論文(1994)に記載されている。
異なる構造を持つ点に関する利用可能な表がある。これは、もし輪郭上に多数の点があれば、処理を進めるのに異なる可能性があり得るからである。こうして、追跡の結果による2つの表が作られ、再構築しようとしている形状のトポロジーに最も合うラインの追跡を行うためにデータは混ぜられる。
元のラインの厚さの利用可能な情報もある:それは実際には上述したアルゴリズムから得た情報(内部性の程度)の場合である。
最後に、処理が実行されたところに映像がある、すなわち、ここでは関係している形態層(分割処理から得た)と原映像である。関係している形態層は、一般的に、要素や対象に対応するものであり、ここでは直線的である。
加えて、関係する応用や利用が関係するときにはいつでも、(遠隔通信ネットワーク図面や、水道やガスの配付ネットワークや、配電ネットワークなどの認識)産業自身によって課せられる規則がある。特に、遠隔通信のケーブル・ラインや部分はケーブル・チェンバーを接続し、水道管は水道配付地点を接続し、電線は分岐箱を接続する等である。一般に、ネットワークの弧は、このネットワークのノードを接続する。ネットワークの弧には、“チェンバー”がある。
遠隔通信の分野では、フランス・テレコムのネットワークのモデルによって、幹線部分は、二つそれも二つだけのインフラストラクチャ・ノードに限界が決まっていると分かる。インフラストラクチャ・ノードは、チェンバーか簡単なノードかファサード上の支持物であろう。加えて、無制限の数の幹線部分がインフラストラクチャ・ノードから始まる。
さらに一般的には、主題のデータの構成の規則は、本来何であれ、文書の認識に役立つ情報を供給する。このモデル化は、この文書を作ることへ導く産業に関連している。従って、認識の連鎖において、方法の再利用が仮定された上で、システムの一部のみを変更して、その一般的な部分を保存することを可能にするために、上手に限界が定められた“産業指向のモジュール”を認識することができる。
ネットワークを再構築することで、輪郭(輪郭の全ての画素)からラインや弧を作ることが可能になる。これらのラインや弧を作ることは、産業の規則を輪郭のデータ当てはめることから得られる。
対象の再構築には異なる原初的な情報、例えば下のようなものが使われる:
− 産業に関する情報を与える、データのモデル
− 知ろうとしている対象の基礎要素を構成する原初的な分割(双点)
− 他の形態層で認識された対象から発せられる情報(遠隔通信におけるケーブル・“チェンバー”)
多角形化によって、弧(実際には双点あるいは区分)を作ることが可能となる。
上で既に与えられた例に関する多角形化された行程が図9において与えられる。区分の始点と終点と同様に、全ての接続点(あるいは反転点)は、球で表現される。
この図において分かるのは、区分間においてネットワーク50,52の要素対応するものと、小区画54,56,58の端部に対応するものとである。
ネットワークの要素の大きなものは、長い直線的対象から成る。残った小区画の端部は、重要でない長さである。
これらの直線的要素は、ネットワークの概略を作るために信頼することができ、大きな区分から成り、残されたもののみが失われた要素を認識するような、第1の原初要素(primitive)を構成する。そのような失われた要素は、例えば、図9で参照番号60,62が付けられている。
第2の原初要素は、ラインの厚さに基づいている。それは、ネットワークと小区画端部の間を広範に区別する原初要素を構成する。
この目的のために目的閾値が定義される。映像中の内部性の程度の平均値における閾値は、一般的な結果とは見えない。この段階で、その定義はmanualに留まる。
輪郭の多くの点で、この処理を続ける異なる可能性があり得る。かくして、追跡結果の二つの表が作り出され、再構築すべき形状のトポロジーに最適となるラインを追跡するためにデータは混ぜられる。
再構築のために、二つの輪郭追跡アルゴリズムがそこで使用され、その各々は対象の表を生成する。
第1の(あるいはそれぞれ第2の)アルゴリズムは、疑いのある時は、多重ノードにおいて左に(あるいはそれぞれ右に)分岐するのを選ぶようなライン追跡を実行する。
図9の例を取ると、これらの二つのアルゴリズムを実行する結果、図10Aと図10Bに表される三角法あるいは非三角法の追跡となる。
従って、ネットワークがその点で比較的連続的な方法で表現されるように、情報を構築する区分の二つの表が得られる。これらの表を最大限利用し、二つのノード間で選択するのに全体的な連続性を見つけるために、長い直線上の対象を現すデータは、それぞれ二つの相対的に離れた点で表されるので、混ぜ合わされる。
二つの表に存在する情報を分割するために、これらのデータ、すなわち双点を選択することができる。
加えて、もし、長い対象が選ばれれば、小区画の端部の一部と殆ど全てのかかり(barb)を排除して、“選択”する種類のネットワーク要素のみを保存する可能性が増える。これは、多角形化を実行するのに使用された閾値は、元のラインの厚さであるからである。こうして、よりきれいな直線である小区画の端部は、多角形化によって分けられる可能性が増える。それでもやはり、この選択によって、チェンバーを構成する要素も排除される。
それから“長い対象”という言葉を使うことのできる閾値は、正確には確定しない。約120画素の閾値を使用することが可能であり、これは紙図面の約0.6mm(400dpiの解像度)の長さに対応する。処理は、この閾値の変化に少々敏感であり、手動の決定が適していると思われる。実行された幾つかのテストにおいて、この閾値は、変更しなくても常に適切であると思われた。
データを混ぜ合わせることにより、二つの異なる追跡から作られた各表に存在する冗長性を除去することが可能であり、一方、他方に関しては、長い対象の情報を二つの表で終わらせることが可能である。この処理の最後には、最大内容まで減らされて、ネットワークの区分の主要部を再構成する一つの表が残るであろう。
この混ぜ合わせによって起こる一つの問題は、多角形化から作られる区分が全体として重なり合わないということである。この問題は、二つの追跡に対して、開始点と終了点とは異なるという事実から発している。こうして多角形化の後に、同じパスは正確には得られない。それでも、それらの二つのパスは、共にネットワークの区分の形態層に属するので、非常に近い。
従って、可能な限り完全なネットワークの全てのセグメントを記述するために、これら二つのセグメントは互いに選び出され接続されるべく試みられる。
選び出すことは、他方に含まれる双点を一つの表から除去することから成る。
この目的のために、双点が他に近いかどうかを決定することが可能な内包基準が定義される。
内包を定義するために、二つの段階が実行される。第1の段階(図11)は、内部に源双点(source bipoint)70がある領域の除去から成る。双点を取り囲む矩形である領域72が除去され;これは高さと幅が大きくされ得るが、例えば、その出発点からセグメントの内部性の程度が2倍になる。こうして、双点74,76は、この領域に含まれるものとして求められる。これが、第1の内包基準である。
第2の内包基準は、先に選択された双点74に対して、源双点70によって作られる直線に存在する距離dを測定することにある。計算された距離は、各双点を作り上げる二つの双点に関して、点を直線上に直交投影したものである。もしこの距離が二つの点もしくは双点の閾値よりも小さければ、全体的な内包があると考えられる。例えば閾値は、内部性の程度に等しく、これは非常に良好な結果を得ることを可能にする。
部分的な内包も定義され、これは源双点に含まれる双点の内の単一の点を突き止めることにある。
上記の処理は、映像を読むことによってでなく、表から発せられる情報から直接に実行される。
こうして定義された要素から、冗長な情報が除去される。この目的のために、それによって上で定義された内包基準が他の表で評価されることができる源表(source list)が任意に選ばれる。
源双点に完全に含まれる双点は全て除去される。
この処理に続いて、これら二つの表の役割は反転し処理が再開される。
そのあとに残っているものは全て、二つの表の中の双点間の部分的内包である。
部分的に含まれる双点も、また混ぜ合わせることができる。
あり得る構成には様々な種類があり、図12で表されるのは2つの主な場合80,82である。参照番号80は、同一直線上にない双点の場合であり、参照番号82は、同一直線上にある双点の場合である。
この図に従って、同一直線上にある二つの双点を一つの双点に混ぜ合わせるのは利点がある。これは、これらの二つの双点は、同じセクションの部分を表しているからである。従って、この部分的な冗長性は、除去することができる。しかし、同一直線上にない二つのセグメントは混ぜ合わされない。
問題の一つは、同一直線上にあるかを決定することにある。これは、実際に同一直線上にあるかどうかは別にして、二つのセグメントが互いに非常に近いか、そしてほぼ同一直線上にあるかを見つけることが可能だからである。
この問題は、既に先に実行されたような多角形化のアルゴリズムを使用することで切り抜けられる。これは、もし混ぜ合わされる二つの双点の座標が、最大誤りとして内部性の程度と共に多角形化機能に与えられれば、結果は、二つの双開始点が実際に同一直線上にあり同じセクションから来ていれば一つの双点であるからである。
最終的な混ぜ合わせの処理を実行するために、二つの別個の表は、もはや役に立たないが、むしろ一つの表は、先の二つの表を含む。これによって、双点を最適に選択することが可能となる。これは、二つの表を使うことが、他の表の中にある一つの表の双点の連続性を求めることになり、これは必ずしも最も賢明な解決ではないからである。
こうして、双点に続いて、二つの他の双点の候補(各表に一つ)を見つけることが可能である。最良の選択は、最も長い双点と考えられる。従って、それは、一つだけの表を作って長さの順に並べるには十分である。このようにして、双点を試験するのを指示することで、必要な優先順位を達成する。
従って、全ての双点が一つの区分(源表)中に置かれ、それらは長さの昇順に分類される。
第1の(最も大きい)双点が取られ、他の双点を部分的に内包することが求められる。部分的に最大の双点に含まれる双点が見つかったときは、二つの双点が多角形化によって試験される。
この段階では、一つの双点を構成するために、点同士が互いの点から続くような順番を知っておくことを利用する。これは、多角形化のアルゴリズムが、処理されるべき双点の組の二つの端点を知っていることを利用するからである。従って、互いに関して、異なる点の位置を知ることが求められる。
・ もしこの処理の結果が双点であれば、二つの双点は正しく混ぜられた。これを考慮して、源表の中の二つの双点が消去される。新しい、部分的な内包検索が、こうして作られた新しい双点から始まり、サイクルが再開する。
・ もし、多角形化の結果に三つ以上の点が含まれていれば、二つの双点の並びは一致しない。部分的な内包検索は続く。
部分的な内包検索によって、もはやいかなる新しい双点も得られず、この処理から発せられる双点は結果表(メモリ内に記憶)内に置かれる。もし、処理中にこの双点に変更がされなければ、源表から消去される。
源表内に残る双点の内、最大のものは、その後、処理を再始動するのに用いられる。
その次に、結果としてのセグメントには、処理済みのネットワークの概略を作る双点のみが残される。図10Aと図10Bの表から、結果の一例が図13で与えられる。ネットワークには依然として不連続部が残る。加えて、チェンバーは、明らかに消える。
次の段階は、双点の構築である。この目的のために、双点は、一緒に集められ、それらは同一区分内に互いに続く。こうして構成された全ての区分は、区分の表に置かれるであろう。
この構築の目的は、同一区分に属する連続する双点を、同一区分において集めることである。この構成によって、失われた部分の分析が容易になる。加えて、この構築は、これらの処理の出力で必要なものに近い。これは、あるセクションが分離した存在であるからである。従って、各セクションは、好ましくはこの構築から個々に認識されなくてはならない。この分類を達成するために、近接分析を進めることができる。
こうして、延長しようとする双点を作る各点の非常に近い近傍に、物理的連続性が求められる。この検索は、一続きの可能なものが見つからなくなるまで、一つつ実行される。こうして、検出された双点は、同一の区分に全て記憶される。双点が記憶される順番によって、セクションの一端から他端まで点を論理的に結合したままでいるのが可能となり、終点は置くのに最重要な点となる。
再分類処理も、映像に戻ることなく、表から直接に実行される。これらの処理は、前述した内包を検出することを使用する。ある点が検出されると、全体の中でそれがあったところの双点当然考慮される。この双点の相対的な位置は、源双点に関して知られる。
これは、双点を作っている各点の分類によって可能となる。こうして、双点の第1の要素は、常に後者よりも小さいX軸を持つ。もしそれが等しければ、考慮の上、点のY軸上で分類が行われる。これによって、処理済みの4つの点の相対位置が分かる。各双点の傾向(増加もしくは減少)も勘酌される。内包機能は、点が記憶される順番を記した指標を送り返す。
記憶の順番は、分岐点の存在によって乱される。こうして、それは一つでは無く、二つあるいはそれ以上の双点であり、点の近くで検出することができる。そして、使用された構築に関してもはや可能な順番は存在しない。樹状構造の構築は、この問題を解決する。
図14において、区分内で互いに同じ分類にされた双点は、バツ印で除去される。結果は、満足すべきものである。
この段階の後で得られる双点は、幾つかの処理から来ている:輪郭化とそして輪郭追跡、多角形化、混ぜ合わせと時に多角形化をもう一度。もし、処理のパラメータ化が、結果の正当性を維持しても、変更は有効である。
この変更は、セクションの形態層へ戻ることに基づいている。
各双点を通過する直線の方程式が計算される。そして、この方程式によって、最初の映像の層が通過するが、注意することは、双点の間に位置する各点のラベル(内部性の程度)である。このことによって、道筋のラベルのパーセンテージを確定し、そして、双点が層に属するパーセンテージを検証することが可能となる。
従って、双点の二つの端部の間の各点に、最初の映像内の内部性の非零度(non-zero degree)があるかどうか、そして、従って映像中の形状もしくは形態層に属するかを検証する。
この処理は、指標として実行されるが、双点が層の上で(recentring)が可能かを質すことが可能である。
90%の有効性と100%の有効性との間の違いについて結論を引き出すのは難しい。層の質は、完全ではないので、セクション上のラベルを持たない点は、こうしてしばしば見つかる。この層を拡大することで、この問題は解決できる。それでもやはり、80%以下の有効性は、疑わしいものと思われる。
今までに遭遇した値は、しばしば100%まであり、全ての場合に90%より大きい。
チェンバーを置く場所の原則について、まだ説明がされるべきである。最初は、ベクトル化で得る情報で、チェンバーを再構成する使用とすることは必要無いという原則である。これは、輪郭化とそれに先立つ処理は、この情報を最初の表記と全く一致しないものとしてしまったからである。最初の図面の表記も、時にゆがめられる。こうしてチェンバーは、通常矩形で表される。図面上においてこれらの要素が小さいのは、図15に見られるように、しばしば卵形の表記の原因であると思われ、ここでチェンバーは参照番号90で示される。
チェンバーの第1の位置は、セクションの形態層上の閉塞部を見つけることで得られる。この処理は、近接した関連のある集合体を検出することで実行される。各閉塞部に対して、取り囲む矩形の座標と下位の周囲の長さが与えられる。形状16は、様々な種類の閉塞部を表しており、他のもの(94,96,98,10)はそうでない。
閉塞部に最初のフィルタリングを施すために、三つの層に従った図面を分離することができるような同種の二つの原形が決定された。それらは、閉塞部の内部の周辺の長さに基づいている。こうして、図例上で、30画素の内で周辺部が最小のものと、150画素の内で最も周辺部が最大のものとを、400dpiの解像度で決定することが可能となった。これらの周辺部を図ることは、簡単な比例則によって実行される。
この最初のフィルタリングでは、チェンバーから発せられた閉塞部を単独に選べない。従って、第3の原始関数が、チェンバーの仮設を正当化するのに使用される。第3の原始関数は、チェンバーが見つかった近傍にある、区分の端部の数に基づいている。こうして、大多数の場合、チェンバーは、少なくとも二つのセクションに接続される。区分の端部(従ってセクション)が、例えば、その中心が検出された閉塞部の中心であり、側部が例えば30画素であるような矩形の中に求められる。この閾値は、実験から決められる。それは、使用可能な図面に正確に機能する。過度に大きな閾値は、誤り検出となる。過度に小さな閾値は、検出を行えない。この閾値の判断は、処理されるべき図面の比率によって、比例的に行われる。
上記の3つの原始関数の有効化によって、チェンバーの検出の有効化が生じる。
そして、チェンバーは、側面が10画素の標準化された正方形によって、表される。それにもかかわらず、チェンバーの元の座標は、閉塞部を囲む矩形の左上部の座標を含むベクトルに記憶され、かつ、この矩形の長さと高さとなる。この手法によって、チェンバーは正確に置かれ、かつ認識がされる。
形状認識方法あるいは記述されたアルゴリズムは、図8に関連して既に上述した装置によって使用することができる。上述した形状認識方法に応じたプログラムの命令は、本明細書の最初に記した映像の中に含まれる情報処理方法のための命令に代わって、あるいはそれを捕捉して、記憶される。
従って、本発明による形状認識方法を実行する装置に含まれるのは:
− 映像情報を記憶する記憶手段、
− 前記記憶手段に接続される、以下の命令を実行するプロセッサ:
* 映像の輪郭化を確定するための、映像の輪郭化、
* 双点区分を作るための、映像の輪郭の画素を用いた多角形化、
* 映像の同じ形状に属するものを互いに集めるための、双点の構築。
他の命令がプロセッサによって実行されることもあり、これは上述された本発明による形状認識方法の特別な実施形態に対応する。
本発明による装置もしくはシステムは、本発明による形状認識方法をコンピュータで実行できる命令と特に上で述べたばかりの三つの段階を含んで、かつコンピュータが読み取り可能な支援媒体に常駐している、コンピュータ用プログラムを使用する。また、本明細書で記述した形状認識方法の他の段階を実行する他の命令も含んでいる。

Claims (42)

  1. 映像(4)の中に含まれる情報を処理する装置の動作方法であって、
    前記原映像()の対象領域を決定する段階(1−4)と、
    前記対象領域の適応閾値分け(1−8)に基づいて第1の閾値映像(10)を生成する段階と、
    前記第1の値映を分割する(1−12)ことによって形態層の第1の組(14−1,14−2,14−3,...)を決定する段階
    前記形態層の第1の組の輪郭化及び多角形化に基づいて双点の組を生成する段階とを含み、前記双点の組の各双点は長さを有し、
    前記双点の組の長さに基づいて前記双点の組の源双点を選択する段階と、
    前記双点の組のうちの双点の候補が前記源双点に部分的に内包されることを判断する段階とをさらに含み、前記双点の候補は前記源双点ではなく、
    前記双点の候補が前記源双点に部分的に内包される判断に応答して、多角形化によって前記源双点と前記双点の候補との間の結果を生成する段階と、
    前記結果が双点であることに応答して、前記双点の組における前記源双点及び前記双点の候補を前記結果で置換する段階と
    をさらに含む動作方法。
  2. 形状認識処理を前記形態層の第1の組の各形態層に適用する段階をさらに含むことを特徴とする請求項1に記載の動作方法。
  3. 前記原映像の対象領域を決定する段階(1−4)は、閾値に基づいて対象領域を決定する段階を含むことを特徴とする請求項1あるいは2に記載の動作方法。
  4. 前記原映像の対象領域を決定する段階は、大津あるいはKITTLER−ILLINGWORTHアルゴリズムを用いて前記原映像の対象領域を決定する段階を含むことを特徴とする請求項1に記載の動作方法。
  5. 記対象領域を改良する段階をさらに含むことを特徴とする請求項1から4のいずれか1項に記載の動作方法。
  6. 前記対象領域を改良する段階は、前記対象領域の膨張もしくは収縮を実行する段階を含むことを特徴とする請求項5に記載の動作方法。
  7. 記形態層の第1の組の形態層に対応する第1の値映の閾値分けに基づいて第2の閾値映像(16−1,16−2,16−3,...)を生成する段階をさらに含むことを特徴とする請求項1から6のいずれか1項に記載の動作方法。
  8. 記第2の閾値映分割に基づいて形態層の第2の組を生成する段階をさらに含むことを特徴とする請求項7に記載の動作方法。
  9. 形状認識処理を前記形態層の第2の組の各形態に適用する段階をさらに含むことを特徴とする請求項8に記載の動作方法。
  10. 各形態層は、前記映像の画素の集合体を接続することを特徴とする請求項1から9のいずれか1項に記載の動作方法。
  11. 前記映像は、技術図面を含むことを特徴とする請求項1から10のいずれか1項に記載の動作方法。
  12. 映像(4)の中に含まれる情報を処理する装置であって、
    前記映像()の対象領域を決定る手(1−4)と、
    前記対象領域の適応閾値分け(1−8)に基づいて第1の閾値映像(10)を生成する手段と、
    前記第1の値映を分割する(1−12)ことによって形態層の第1の組(14−1,14−2,14−3,...)を決定る手段と、
    前記形態層の第1の組の輪郭化及び多角形化に基づいて双点の組を生成する手段とを含み、前記双点の組の各双点は長さを有し、
    前記双点の組の長さに基づいて前記双点の組の源双点を選択する手段と、
    前記双点の組のうちの双点の候補が前記源双点に部分的に内包されることを判断する手段とをさらに含み、前記双点の候補は前記源双点ではなく、
    前記双点の候補が前記源双点に部分的に内包される判断に応答して、多角形化によって前記源双点と前記双点の候補との間の結果を生成する手段と、
    前記結果が双点であることに応答して、前記双点の組における前記源双点及び前記双点の候補を前記結果で置換する手段と
    さらに含む装置。
  13. 形状認識処理を前記形態層の第1の組の各形態層に適用する手段をさらに含むことを特徴とする請求項12に記載の装置。
  14. 前記対象領域を決定する手段は、閾値に基づいて対象領域を決定する手段を含むことを特徴とする請求項12もしくは13に記載の装置。
  15. 前記対象領域を決定する手段は、大津あるいはKITTLER−ILLINGWORTHのアルゴリズムを使用して前記対象領域を決定する手段を含むことを特徴とする請求項14に記載の装置。
  16. 記対象領域を改良する手段をさらに含むことを特徴とする請求項12から15のいずれか1項に記載の装置。
  17. 前記対象領域を改良する手段は、数学的形態演算子を用いるように構成されることを特徴とする請求項16に記載の装置。
  18. 記形態層の第1の組の形態層に対応する第1の値映の閾値分けに基づいて第2の閾値映像(16−1,16−2,16−3,...)を生成する手段をさらに含むことを特徴とする請求項12から17のいずれか1項に記載の装置。
  19. 記第2の閾値映像の分割に基づいて形態層の第2の組生成する手段をさらに含むことを特徴とする請求項18に記載の装置。
  20. 形状認識処理を前記形態層の第2の組の各形態に適用する手段をさらに含むことを特徴とする請求項19に記載の装置。
  21. 前記形態層の第1の組の各形態層は複数の画素を含み
    前記形態層の第1の組を輪郭化及び多角形化する段階は、
    所定の形態層の複数の画素のうち各画素の内部性の程度を決定する段階と、
    所定の形態層の複数の画素のうち内部性の程度が最も高い画素を探査する段階
    を含むことを特徴とする請求項に記載の動作方法。
  22. 前記双点の組を生成する段階は、前記形態層の第1の組の輪郭化によって生成された輪郭上で、少なくとも第1及び第2の輪郭追跡アルゴリズム実行することによって、少なくとも第1の輪郭追跡及び第2の輪郭追跡を生成する段階を含み、
    前記第1の輪郭追跡アルゴリズムは多重ノードに対して左に分岐
    前記第2の輪郭追跡アルゴリズムは多重ノードに対して右に分岐することを特徴とする請求項に記載の動作方法。
  23. 前記双点の組のうちの双点の候補が前記源双点に部分的に内包されることを判断する段階は、前記第1及び第2の輪郭追跡データを混ぜ合わせる段階含むことを特徴とする請求項22に記載の動作方法。
  24. 前記データ混ぜ合わせる段階は、前記双点の候補が前記源双点に全体的に内包されることを判断する段階を含むこと特徴とする請求項23に記載の動作方法。
  25. 第2の双点が最も大きい双点に部分的に内包されることを判断する段階は、
    双点の候補74,76)の周囲の予め定められた領域(72)を決定する段階と、
    前記双点の候補から前記源双点(70)までの距離dを測定する段階と、
    前記距離dが閾値距離よりも小さいことを判断する段階と、
    前記距離dが前記閾値距離よりも小さい判断に応答して、前記双点の候補が前記源双点に内包されることを判断する段階と
    を含むこと特徴とする請求項に記載の動作方法。
  26. 前記閾値距離は、前記源双点の内部性の程度であることを特徴とする請求項25に記載の動作方法。
  27. 前記双点の組は、前記第1の輪郭追跡及び前記第2の輪郭追跡を含むことを特徴とする請求項22から24のいずれか1項に記載の動作方法。
  28. 前記双点の組における前記源双点及び前記双点の候補を前記結果で置換する段階は、前記源双点及び前記双点の候補を前記第1の輪郭追跡及び前記第2の輪郭追跡のうち少なくとも1つにおいて置換する段階を含むことを特徴とする請求項22から24及び27のいずれか1項に記載の動作方法。
  29. 前記源双点と前記双点の候補との間の結果を生成する段階は、前記源双点及び前記双点の候補が同一直線上にある双点(82)であることを判断する段階を含むことを特徴とする請求項に記載の動作方法。
  30. 前記源双点及び前記双点の候補が同一直線上にある双点であることを判断する段階は、前記源双点及び前記双点の候補の内部性の程度を判断する段階を含むことを特徴とする請求項29に記載の動作方法。
  31. 前記双点の組の第1の双点及び前記双点の組の第2の双点が連続的であることを判断する段階と、
    前記連続的な第1及び第2の双点を一つの区分の中に集める段階と
    をさらに含むことを特徴とする請求項1から10及び21から30のいずれか1項に記載の動作方法。
  32. 前記連続的な第1及び第2の双点を集める段階は、前記第1の双点と前記第2の双点との間の物理的連続性を判断する段階を含むことを特徴とする請求項31に記載の動作方法。
  33. 前記連続的な第1及び第2の双点を前記一つの区分の中に集める段階は、内包アルゴリズムを使用して前記連続的な第1及び第2の双点を集める段階を含むことを特徴とする請求項31あるいは32に記載の動作方法。
  34. 前記双点の組のうち少なくとも一部は、分岐点において樹状に構築されることを特徴とする請求項から10及び21から33のいずれか1項に記載の動作方法。
  35. 前記双点の組における各点が、前記形態の第1の組形態層の要素に含まれるか否かを検証する段をさらに含むことを特徴とする請求項に記載の動作方法。
  36. 前記形態の第1の組の所定の形態層が1つまたは複数の閉塞部(92,94,96,98,100)を含むことを判断する段階と、
    所定の形態層が1つまたは複数の閉塞部を含む判断に応答して、前記1つまたは複数の閉塞部をフィルタリングする段階と、
    前記1つまたは複数の閉塞部のうち少なくとも1つの閉塞部がチェンバー(90)を表わすことを判断することを求める段階と
    をさらに含むことを特徴とする請求項から10及び21から35のいずれか1項に記載の動作方法。
  37. 前記所定の形態層が1つまたは複数の閉塞部を含むことを判断する段階は、前記所定の形態層において関連性の強い画素の集合体を検出する段階を含むことを特徴とする請求項36に記載の動作方法。
  38. 前記1つまたは複数の閉塞部をフィルタリングする段階は、前記1つまたは複数の閉塞部のうち各閉塞部の内部境界に基づいて前記1つまたは複数の閉塞部をフィルタリングする段階を含むことを特徴とする請求項36または37のいずれか1項に記載の動作方法。
  39. 形状認識方法、あるいは与えられた処理を適用するための手段は、
    所定の形態層を輪郭化して前記所定の形態層の輪郭を確定する手段と、
    前記所定の形態層の輪郭の画素多角形化する手段と、
    前記所定の形態層において同じ形状の輪郭の画素を集める手段と
    を含むことを特徴とする請求項13あるいは20に記載の装置。
  40. 少なくとも第1及び第2の輪郭追跡アルゴリズムを実行することによって、少なくとも第1の輪郭追跡及び第2の輪郭追跡を生成する手段を含み、
    前記第1の輪郭追跡アルゴリズムは多重ノードに対して左に分岐
    前記第2の輪郭追跡アルゴリズムは多重ノードに対して右に分岐することを特徴とする請求項39に記載の装置。
  41. 前記双点の組における前記源双点及び前記双点の候補を前記結果で置換する手段は、前記源双点及び前記双点の候補を前記第1の輪郭追跡及び前記第2の輪郭追跡のうち少なくとも1つにおいて置換する手段を含むことを特徴とする請求項40に記載の装置。
  42. 一つ区分の中で前記双点の組の連続的双点を集める手段をさらに含むことを特徴とする請求項39あるいは40に記載の装置。
JP55501799A 1998-05-07 1999-05-06 文書、特に技術図面を分割し認識する方法 Expired - Fee Related JP4521485B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9805825A FR2778476B1 (fr) 1998-05-07 1998-05-07 Procede de segmentation et de reconnaissance d'un document, notamment d'un plan technique
FR98/05825 1998-05-07
PCT/FR1999/001076 WO1999057677A1 (fr) 1998-05-07 1999-05-06 Procede de segmentation et de reconnaissance d'un document, notamment d'un plan technique

Publications (2)

Publication Number Publication Date
JP2002509632A JP2002509632A (ja) 2002-03-26
JP4521485B2 true JP4521485B2 (ja) 2010-08-11

Family

ID=9526151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55501799A Expired - Fee Related JP4521485B2 (ja) 1998-05-07 1999-05-06 文書、特に技術図面を分割し認識する方法

Country Status (8)

Country Link
US (1) US6901168B1 (ja)
EP (1) EP0993650B1 (ja)
JP (1) JP4521485B2 (ja)
CA (1) CA2296000C (ja)
DE (1) DE69904903T2 (ja)
FR (1) FR2778476B1 (ja)
NO (1) NO316198B1 (ja)
WO (1) WO1999057677A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10154875B4 (de) * 2001-11-08 2007-06-21 Siemens Corp. Research, Inc. Verfahren zur Identifizierung grafischer Objekte in großen technischen Zeichnungen
ITVA20020060A1 (it) * 2002-11-22 2004-05-23 St Microelectronics Srl Metodo di analisi di immagini rilevate da un micro-array
US9547799B2 (en) * 2008-07-17 2017-01-17 Sharp Laboratories Of America, Inc. Methods and systems for content-boundary detection
US8873864B2 (en) * 2009-12-16 2014-10-28 Sharp Laboratories Of America, Inc. Methods and systems for automatic content-boundary detection
US10096110B2 (en) 2014-08-22 2018-10-09 University Of South Florida System and method for automated stereology of cancer
CN117173455B (zh) * 2023-08-11 2024-02-13 兰州交通大学 一种基于骨架线的地图建筑物形状分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
US5142589A (en) * 1990-12-21 1992-08-25 Environmental Research Institute Of Michigan Method for repairing images for optical character recognition performing different repair operations based on measured image characteristics
CA2078423C (en) * 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information

Also Published As

Publication number Publication date
NO316198B1 (no) 2003-12-22
JP2002509632A (ja) 2002-03-26
DE69904903T2 (de) 2003-11-06
CA2296000C (fr) 2007-04-24
FR2778476B1 (fr) 2000-06-16
EP0993650B1 (fr) 2003-01-15
WO1999057677A1 (fr) 1999-11-11
NO996462D0 (no) 1999-12-23
NO996462L (no) 2000-03-07
EP0993650A1 (fr) 2000-04-19
CA2296000A1 (fr) 1999-11-11
FR2778476A1 (fr) 1999-11-12
DE69904903D1 (de) 2003-02-20
US6901168B1 (en) 2005-05-31

Similar Documents

Publication Publication Date Title
CN108335302B (zh) 一种区域分割方法及装置
JP3950777B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
Sohn et al. Terrain surface reconstruction by the use of tetrahedron model with the MDL criterion
CN105528614B (zh) 一种漫画图像版面的识别方法和自动识别系统
CN102930561B (zh) 一种基于Delaunay三角网的栅格地图矢量化方法
Salvatore et al. Contour line recognition from scanned topographic maps
JP2002190957A (ja) 文書処理装置及び方法
Chiang et al. Efficient and robust graphics recognition from historical maps
Musavi et al. A vision based method to automate map processing
Joseph Processing of engineering line drawings for automatic input to CAD
US6360006B1 (en) Color block selection
JP4521485B2 (ja) 文書、特に技術図面を分割し認識する方法
KR100228618B1 (ko) 연결영역의 추출장치 및 방법
Sharma A methodology for raster to vector conversion of colour scanned maps
San et al. Extracting contour lines from scanned topographic maps
Tabb et al. Fast and robust curve skeletonization for real-world elongated objects
Potts et al. A topological graph-based representation for denoising low quality binary images
JP3782239B2 (ja) 画像部品化方法及び画像部品化プログラムを記録した記録媒体
Ebi et al. Automatic Data Acquisition from Topographic Maps Using a Knowledge Based Image Analysis System
Naouai et al. Line extraction algorithm based on image vectorization
Elliman A really useful vectorization algorithm
CN108109150B (zh) 图像分割方法、终端
Marais et al. Semi-automated cleaning of laser scanning campaigns with machine learning
Marchand-Maillet et al. A minimum spanning tree approach to line image analysis
JP4043629B2 (ja) 画像データ変換方法、画像部品化方法、画像データ変換プログラムを記録した記録媒体及び画像部品化プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100304

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100303

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130604

Year of fee payment: 3

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101021

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20110118

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees