JP2010205122A

JP2010205122A - レイアウト構造解析装置及びレイアウト構造解析方法

Info

Publication number: JP2010205122A
Application number: JP2009051790A
Authority: JP
Inventors: Akio Furuhata; 彰夫古畑; Naoaki Kodaira; 直朗小平
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2009-03-05
Filing date: 2009-03-05
Publication date: 2010-09-16

Abstract

【課題】名刺上の文字列の属性を示すタグを特定するための規則を簡素化し、さらにタグの判別精度を高める。
【解決手段】本発明のレイアウト構造解析装置１０は、名刺上の各文字列のレイアウト情報とタグとからなる第１の画像特徴量を記憶するレイアウト辞書１８と、名刺から読み取った入力画像のレイアウト情報を取得するレイアウト解析部１４と、文字認識結果などに基づいて記載要素毎の属性を暫定的に判定するタグ判定部１５と、判定された記載要素毎のタグとレイアウト解析により得られたレイアウト情報とを関連付けた第２の画像特徴量を生成する特徴量生成部１６と、第１及び第２の画像特徴量の比較結果に基づいて、入力画像の記載要素毎のタグを確定させるタグ確定部１７と、を備える。
【選択図】図１

Description

本発明は、名刺や帳票などを含む各種の書面についてのレイアウト構造を解析するレイアウト構造解析装置及びレイアウト構造解析方法に関する。

レイアウト解析によって文書画像中から抽出した各記載領域に対応するベタのレイアウトパターンを生成し、さらに、この生成したレイアウトパターンのパターン照合により、データベース内から同種類の文書画像を検索する技術が知られている（例えば特許文献１参照）。

また、上述したようなレイアウト解析は、いわゆる名刺リーダなどにも利用されている。一般に、名刺リーダは、名刺から読み取った画像イメージのレイアウト解析を行うと共に、このレイアウト解析された画像イメージ中の各記載要素（各文字列）を、姓名、住所、電話番号などに項目分けし、電子データとしてアドレス帳に自動登録する機能などを備えている。

特開平１１−３２８４１７号公報

つまり、名刺リーダは、名刺上から読み取った各記載要素を項目分けするために、記載要素毎の属性を判別する機能を有する。属性の判別は、名刺上の記載要素を例えば一行単位で文字認識して得た文字認識結果などに基づいて行われる。例えば、文字認識結果として得られた文字列の先頭が「ＦＡＸ」であり、後続の文字列が主に数字列で構成されている場合、その行の記載要素の属性は、ファクシミリの番号を表すものであると判定される。同様に、文字認識の結果、文字列の先頭が例えば「Ｅｍａｉｌ」であり、後続の文字列に比較的英字が多い場合、その行の記載要素の属性は、Ｅメールアドレスを表すものであると判定することが可能となる。また、予め属性毎に分類されて姓名辞書や住所辞書に登録された被照合用の文字列と、文字認識結果として得られた文字列と、の照合結果をさらに反映させて、記載要素毎の属性を判定する方法なども有用である。

しかしながら、このような方法では、属性の判定が難しい場合もある。例えば、文字認識結果として「１０５−６６９１」が得られたときに、この文字列が「郵便番号」を表す文字列であるのか、又は「市外局番なしの電話番号」を表す文字列であるのか、さらには「住所の番地部分」を表す文字列であるのか、といったことを判別する場合である。

このような場合、他の行の記載要素における文字認識結果やその属性の判定結果を利用する方法がある。すなわち、判定対象の記載要素の例えば右側に位置する記載要素の文字認識結果が「東京都港区芝浦１−１−１」であって、かつこの文字列の属性が、住所を表すものであることが既に判っている場合、判定対象の記載要素の属性は、郵便番号を表すものであると特定することが可能となる。

しかしながら、用紙サイズ以外では特にレイアウト上の制約がない上述した名刺などは、様々な種類のレイアウトが存在し、このため、属性を特定するための規則の取り決めが複雑なものとなる。また、上記した規則の取り決め方によっては、属性の判別精度を著しく低下させてしまうおそれなどもある。

本発明は、このような事情を考慮してなされたものであり、書面上の記載要素毎の属性を特定するための規則を簡素化できると共に、属性の判別精度を高めることができるレイアウト構造解析装置及びレイアウト構造解析方法の提供を目的とする。

上記目的を達成するために、本発明に係るレイアウト構造解析装置は、任意の書式で記載された書面上の複数の記載要素それぞれのレイアウトを表すレイアウト情報と、前記記載要素毎に各々対応する属性と、を予め関連付けて登録した第１の特徴量を記憶する特徴量記憶部と、構造解析の対象となる書面の画像を入力画像として取り込む画像入力部と、前記画像入力部により取り込まれた前記入力画像のレイアウト解析を行い、この入力画像を構成する複数の記載要素を各々抽出すると共にこの抽出された記載要素毎のレイアウトを表すレイアウト情報を取得するレイアウト解析部と、前記レイアウト解析部により抽出された少なくとも各記載要素を文字認識した結果に基づいて、当該抽出された記載要素毎の属性を暫定的に判定する属性判定部と、前記属性判定部により判定された記載要素毎の属性と前記レイアウト解析部により取得された記載要素毎のレイアウト情報とを互いに関連付けた第２の特徴量を生成する特徴量生成部と、前記特徴量生成部により生成された前記第２の特徴量と前記特徴量記憶部に予め記憶された前記第１の特徴量とを比較した結果に基づいて、前記入力画像を構成する記載要素毎の属性を確定させる属性確定部と、を具備することを特徴とする。

このように本発明は、任意の書式で記載された書面上の記載要素毎の属性とレイアウト情報とを関連付けた第１の特徴量を予め記憶保持しておく一方で、構造解析の対象となる入力画像をレイアウト解析して得た記載要素毎のレイアウト情報と少なくとも文字認識結果に基づき暫定的に判定した各属性とを関連付けた第２の特徴量を生成する。さらに本発明は、これら第１、第２の特徴量を互いに比較した結果から、入力画像を構成する記載要素毎の属性を確定させる。すなわち、本発明によれば、複雑な処理を伴うことなく比較的容易に生成可能な第２の特徴量と、予め記憶保持しておいた第１の特徴量と、を比較するといった簡明な処理で記載要素毎の属性を特定できるので、属性を特定するための規則などの簡素化を図れる共に属性の判別精度を向上させることができる。

また、本発明に係るレイアウト構造解析方法は、任意の書式で記載された書面の画像を構成する複数の記載要素それぞれのレイアウトを表すレイアウト情報と、前記記載要素毎に各々対応する属性と、を予め関連付けて登録した第１の特徴量を特徴量記憶部が記憶するステップと、構造解析の対象となる書面の画像を画像入力部が入力画像として取り込むステップと、前記画像入力部により取り込まれた前記入力画像のレイアウト解析を行うことにより、レイアウト解析部が、前記入力画像を構成する複数の記載要素を抽出すると共にこの抽出された記載要素毎のレイアウトを表すレイアウト情報を取得するステップと、前記レイアウト解析部により抽出された少なくとも各記載要素を文字認識した結果に基づいて、当該抽出された記載要素毎の属性を属性判定部が暫定的に判定するステップと、前記属性判定部により判定された記載要素毎の属性と前記レイアウト解析部により取得された記載要素毎のレイアウト情報とを互いに関連付けた第２の特徴量を特徴量生成部が生成するステップと、前記特徴量生成部により生成された前記第２の特徴量と前記特徴量記憶部に予め記憶された前記第１の特徴量とを比較した結果に基づいて、前記入力画像を構成する記載要素毎の属性を属性確定部が確定させるステップと、を有することを特徴とする。

本発明によれば、書面上の記載要素毎の属性を特定するための規則を簡素化できると共に、属性の判別精度を高めることが可能なレイアウト構造解析装置及びレイアウト構造解析方法を提供することができる。

本発明の第１の実施形態に係るレイアウト構造解析装置の機能ブロック図。図１のレイアウト構造解析装置によるレイアウト解析を概念的に示す図。図１のレイアウト構造解析装置を利用したレイアウト辞書の作成方法を概念的に示す図。図３のレイアウト辞書の作成方法を示すフローチャート。図１のレイアウト構造解析装置によるタグの確定処理を概念的に示す図。図１のレイアウト構造解析装置によるレイアウト構造解析方法の流れを示すフローチャート。本発明の第２の実施形態に係るレイアウト構造解析装置の機能ブロック図。図７のレイアウト構造解析装置によるタグの確定処理を概念的に示す図。図７のレイアウト構造解析装置によるレイアウト構造解析方法の流れを示すフローチャート。

以下、本発明を実施するための形態を図面に基づき説明する。
［第１の実施の形態］
図１は、本発明の第１の実施形態に係るレイアウト構造解析装置１０の構成を機能的に示すブロック図である。図２は、レイアウト構造解析装置１０が備えたレイアウト解析部１４による処理を概念的に示す図である。

本実施形態のレイアウト構造解析装置１０は、名刺などの書面から得た画像の記載要素毎の属性（以下「タグ」と記述）を特定することが可能であって、例えば名刺リーダなどの一機能を担う装置として利用される。すなわち、レイアウト構造解析装置１０は、図１に示すように、画像入力部１２と、レイアウト解析部１４と、属性判定部として機能するタグ判定部１５と、特徴量生成部１６と、属性確定部としてのタグ確定部１７と、特徴量記憶部であるレイアウト辞書１８とを備える。

レイアウト構造解析装置１０は、例えばハードウェアとしてＣＰＵ、メインメモリ、外部記憶装置などを備えており、この外部記憶装置などに格納された例えばレイアウト構造解析プログラムがＣＰＵによりメインメモリ上にロードされることによって、上記したレイアウト解析部１４やタグ判定部１５を含む各構成要素が、ソフトウェアなどで実現される。なお、レイアウト構造解析装置１０の上記した各構成要素は、各種の電子部品を組み合わせて構成したハードウェアにより実現されるものであってもよい。また、本実施形態のレイアウト構造解析装置１０には、液晶ディスプレイやＣＲＴモニタなどの表示装置、マウスやキーボードなどの入力装置、及びイメージスキャナなどが接続されている。

画像入力部１２は、図１及び図２に示すように、構造解析の対象となる書面の画像を入力画像として取り込む。具体的には、図２に示すように、画像入力部１２は、イメージスキャナなどで読み取られた例えば名刺の画像１９を取得する。また、画像入力部１２は、上記のイメージスキャナで読み取られた画像の他、例えばカメラで撮影された画像など、様々な形式の画像を取り込むことが可能である。

レイアウト解析部１４は、画像入力部１２により取り込まれた入力画像のレイアウト解析を行い、この入力画像を構成する複数の記載要素を各々抽出すると共にこの抽出された記載要素（記載項目）毎のレイアウトを表すレイアウト情報を取得する。すなわち、レイアウト解析部１４は、図２に示すように、画像入力部１２で入力を受け付けた名刺の画像１９をレイアウト解析し、名刺の画像１９中の六つの行を構成する文字列を各記載要素として抽出する。ここで、本実施形態においては、記載要素の「１０５−６６９１」と「東京都港区芝浦１−１−１」とは、位置的には同じ並びではあるものの、レイアウト解析部１４は、互いの文字列間のブランク（隙間）を検出し、異なる行の文字列としてそれぞれを抽出する。

また、レイアウト解析部１４は、抽出された記載要素毎のレイアウト（各行に位置する文字列の配置やサイズなど）を表すレイアウト情報として、名刺の画像１９のエッジ部（コーナ部）ｓを基準とした各行の文字列の中心点の座標ｘ，ｙ（座標ｘ₁〜ｘ₆，ｙ₁〜ｙ₆）、並びに各行の文字列の幅ｗ（幅ｗ₁〜ｗ₆）及び高さｈ（高さｈ₁〜ｈ₆）を取得する。ここで、レイアウト解析部１４によるレイアウト解析の手法としては、黒画素のかたまり領域を検出してその輪郭をたどる輪郭線追跡方式や、黒画素領域を検出したら順番に番号を付加して連結して行くラベリング方式などを適用することが可能である。

次に、レイアウト辞書１８の構成を図１、図２に加え、図３、図４に基づき説明する。ここで、図３は、レイアウト構造解析装置１０を利用したレイアウト辞書１８の作成方法を概念的に示す図である。また、図４は、レイアウト構造解析装置１０を利用したレイアウト辞書１８の作成方法を示すフローチャートである。

レイアウト辞書１８は、図１、図２に示すように、任意の書式で記載された名刺（書面）上の複数の記載要素それぞれのレイアウトを表すレイアウト情報と、記載要素毎に各々対応するタグと、を予め関連付けて登録した第１の画像特徴量（第１の特徴量）を記憶する。より具体的には、レイアウト辞書１８は、書式（様式）の異なる複数の種類の名刺に各々対応した複数の種類の第１の画像特徴量を記憶する。つまり、レイアウト辞書１８は、図１に示すように、名刺の書式に各々対応した複数の第１の画像特徴量を種類毎にクラス分けして記憶するクラス別記憶部としての複数のクラス辞書１８ａ、１８ｂ、１８ｃ…を備えている。

レイアウト辞書１８内のクラス辞書１８ａ、１８ｂ、１８ｃ…毎に記憶される第１の画像特徴量は、図１〜図３に示すように、名刺上の記載要素毎（各行に位置する文字列毎）のレイアウト情報として、名刺の画像のエッジ部などを基準とした各行の文字列の中心点の座標Ｘ，Ｙ（座標Ｘ₁〜Ｘ₆，Ｙ₁〜Ｙ₆）、並びに各行の文字列の幅Ｗ（幅Ｗ₁〜Ｗ₆）及び高さＨ（高さＨ₁〜Ｈ₆）を含んでいる。

また、クラス辞書１８ａ、１８ｂ、１８ｃ…毎に記憶された個々の第１の画像特徴量にそれぞれ含まれるタグは、各行に位置する文字列毎に正の整数値として割り当てられている。具体的には、図３に示すように、姓名を表す文字列の行には「１」、郵便番号を表す文字列の行には「２」、がタグ（属性）として付与されている。同様に、住所名の行には「３」、電話番号の行には「４」、ＦＡＸ番号の行には「５」、Ｅメールアドレスの行には「６」がそれぞれタグとして割り当てられている。

すなわち、第１の画像特徴量は、姓名、郵便番号、住所名、電話番号、ＦＡＸ番号及びＥメールアドレスを表す文字列が位置する六つの行それぞれが、文字列の座標Ｘ、座標Ｙ、幅Ｗ、高さＨ及びタグからなる五つの特徴量で表現され、さらにこれらの特徴量を順に並べた３０次元の特徴ベクトルとして構成されている。

ここで、このように構成されたクラス辞書１８ａ、１８ｂ、１８ｃ…を備えるレイアウト辞書１８の作成方法を図３及び図４に基づいて説明する。なお、レイアウト辞書１８の作成には、当該レイアウト構造解析装置１０の備える画像入力部１２及びレイアウト解析部１４、並びに上述した表示装置、入力装置及びイメージスキャナなどが利用される。

図３、図４に示すように、まず、複数の種類の名刺からイメージスキャナなどを介して読み取られた辞書作成用画像群２１を、画像入力部１２によって取り込む（Ｓ１）。次に、レイアウト解析部１４は、画像入力部１２が取り込んだ辞書作成用画像群２１の各画像のレイアウト解析を行い、各行の文字列の座標ｘ，ｙ、幅ｗ及び高さｈからなるレイアウト情報を取得する（Ｓ２）。次いで、レイアウト情報を取得した各画像のそれぞれの行の文字列毎にタグを辞書作成者（オペレータ）が登録する（Ｓ３）。ここで、タグの登録処理では、上記入力装置や表示装置を用いたＧＵＩなどのユーザインターフェースを適宜利用するようにしてもよい。

続いて、図３、図４に示すように、レイアウト情報及び登録されたタグに基づいてクラスタリングを行い、同一の書式を有する画像どうしを一つのクラスタとしてまとめる（Ｓ４）。ここで、画像どうしが同一の書式であるか否かの判断の基準には、例えばタグどうしの並び順などを指標にすることが可能である。次に、クラスタリングにより分類されたクラスタ（同一の書式を有する画像群）毎にクラス（クラスＡ、Ｂ、Ｃ…）を割り当て複数のクラス画像群２２ａ、２２ｂ、２２ｃ…を得る（Ｓ５）。

最後に、このようにして得られた各クラス画像群２２ａ、２２ｂ、２２ｃ…に基づいて、当該クラス画像群毎にそれぞれ対応する複数のクラス辞書１８ａ、１８ｂ、１８ｃ…を作成し、これらを集合させたレイアウト辞書１８を得る（Ｓ６）。具体的には、図３に示すように、クラス画像群毎に主成分分析を行うことにより、固有値が最大となる固有ベクトルを求め、これを第１の画像特徴量（３０次元の特徴ベクトル）として記憶させたクラス辞書を生成する。図３では、主に、クラスＡに属する画像群２２ａを各々特徴量化した複数の特徴ベクトルＦ＝(ｆ₁,ｆ₂…ｆ₃₀)^Tを生成した後、これら複数の特徴ベクトルＦ＝
(ｆ₁,ｆ₂…ｆ₃₀)^Tを主成分分析することで特徴ベクトルＡ＝(ａ₁,ａ₂…ａ₃₀)^Tを求め、さらにこれを記憶させたクラスＡ用のクラス辞書１８ａを作成した態様を例示している。

ここで、クラス辞書内の特徴量として採用するベクトルの次元数（主成分の個数）は、例えば累積寄与率が予め定めた規定値になるような次元数を採用するようにしてもよい。また、本実施形態では、名刺の画像を構成する全ての行の文字列から特徴量を抽出して、クラス辞書を作成しているが、これに代えて、名刺の画像を構成する全ての行の文字列のうちの、一部の行の文字列から選択的に特徴量を抽出してクラス辞書を作成してもよい。

次に、タグ判定部１５の構成を上記の図１及び図５に基づき説明する。ここで、図５は、レイアウト構造解析装置１０により暫定的にタグを判定してからタグを確定するまでの処理を概念的に示す図である。タグ判定部１５は、図１及び図５に示すように、レイアウト解析部１４により名刺の入力画像Ｐから抽出された少なくとも各記載要素（各行に位置する個々の文字列）を文字認識した結果に基づいて、当該抽出された記載要素毎のタグを暫定的に判定（仮決定）する。

ここで、タグ判定部１５は、レイアウト辞書１８内に予め登録された六種類のタグの中から、実質的に一種類のタグを選択するかたちで、前述した入力画像Ｐ中の各文字列に該当するタグを暫定的に判定する。さらに詳述すると、タグ判定部１５は、図１に示すように、文字認識部１５ａ、文字列照合部１５ｂ及び判定保留部１５ｃを備える。

文字認識部１５ａは、名刺の入力画像Ｐ中の各行の文字列を一文字ごとのイメージとして切り出し、切り出した一文字ごとの文字イメージの文字認識を行う。詳細には、文字認識部１５ａは、文字認識用の辞書を備えている。この文字認識用の辞書内には、複数の文字イメージと複数の文字コードとが互いに対応付けられたかたちで記憶されている。すなわち、文字認識部１５ａは、複合類似度法や部分空間法などを用いて、一文字毎の文字イメージと文字認識用の辞書内の文字イメージとのパターンマッチングを行い、文字イメージとマッチングした当該辞書内の文字コードを文字認識結果として出力する。

つまり、このような文字認識部１５ａを備えるタグ判定部１５は、図５に示すように、例えば文字認識結果として得られた文字列の先頭が「ＴＥＬ」であり、後続の文字列が主に数字列で構成されている場合、その行の文字列のタグを、電話番号を表すものであると暫定的に判定する。また同様に、タグ判定部１５は、文字認識の結果、文字列の先頭が例えば「Ｅｍａｉｌ」であり、後続の文字列に比較的英字が多い場合、その行の文字列のタグを、Ｅメールアドレスを表すものであると暫定的に判定する。

また、文字列照合部１５ｂは、文字認識部１５ａにより文字認識結果として得られた記載要素毎の（文字コードで表現される）文字列と、レイアウト辞書１８内に予め登録されている属性毎に各々分類された複数の種類の被照合用の（文字コードで表現される）文字列と、をそれぞれ照合する。具体的には、文字列照合部１５ｂは、複数の姓名を表す文字列を登録した姓名辞書や、複数の住所名を表す文字列を登録した住所辞書など、上記レイアウト辞書１８内に予め登録されているタグの種類分（六種類分）のタグ別辞書を備えている。

つまり、文字列照合部１５ｂを備えるタグ判定部１５は、文字認識の結果得られた文字列と一致する文字列が姓名辞書内に登録されている場合、当該文字認識の結果得られた文字列のタグ（属性）を、姓名を表すものであると暫定的に判定する。また、同様に、タグ判定部１５は、文字認識の結果得られた文字列と一致する文字列が住所辞書内に登録されている場合、文字認識の結果得られた文字列のタグを、住所名を表すものと暫定的に判定する。ここで、タグ判定部１５は、文字認識部１５ａによる上述した文字認識結果単独でのタグの判定結果と文字列照合部１５ｂによる判定結果とを併せた結果から、総合的にタグを判定するものであってもよい。

また、各行の文字列のサイズなどをタグの判定要素に加えるようにしてもよいし、さらに、他の行の文字列に対するタグの判定結果を判定要素に加えるようにしてもよい。他の行のタグの判定結果を利用する場合の例としては、図５に示すように、判定対象の記載要素（行）の例えば上段に位置する記載要素のタグが電話番号を表すものであると判定されている場合、判定対象の記載要素のタグは、ＦＡＸ番号を表すものであると判定される。

判定保留部１５ｃは、タグ別辞書を用いた少なくとも文字列照合部１５ｂによる照合結果に基づいて、タグの判定を記載要素毎（各行に位置する文字列毎）に保留することが可能である。具体的には、判定保留部１５ｃは、名刺の入力画像Ｐ中における記載要素の文字認識結果として得られた文字列が、姓名辞書や住所辞書などを含む六種類のタグ別辞書のうちのいずれの辞書にも登録されていなかった場合、その記載要素（その行の文字列）のタグの判定を判定エラーとする。

なお、判定保留部１５ｃは、このような文字列照合部１５ｂによる判定処理と上述した文字認識部１５ａにより得られた文字認識結果単独での判定処理とを併せてもタグを特定できない場合に、判定エラーを決定するものであってもよい。また、判定保留部１５ｃは、各行の文字列のサイズなどをタグの判定要素に加えたり、さらには、他の行の文字列に対するタグの判定結果を判定要素に加えてもなお、タグを特定できないとき、この場合にはじめて、タグの判定を保留にする（判定エラーを決定する）ものであってもよい。

図１及び図５に示すように、特徴量生成部１６は、タグ判定部１５により暫定的に判定された名刺の入力画像Ｐ中の記載要素毎（各行に位置する文字列毎）のタグと、レイアウト解析部１４により名刺の入力画像Ｐから取得された記載要素毎のレイアウト情報（各文字列の座標、幅、高さ）と、を互いに関連付けた第２の画像特徴量（第２の特徴量）を生成する。この第２の画像特徴量は、レイアウト辞書１８内のクラス辞書１８ａ、１８ｂ、１８ｃ…に記憶された複数の種類の第１の画像特徴量との比較対象となる特徴ベクトルである。

つまり、図５に示すように、第２の画像特徴量は、名刺の入力画像Ｐ中の姓名、郵便番号、住所名、電話番号、ＦＡＸ番号及びＥメールアドレスを表す文字列が位置する六つの行それぞれが、文字列の座標ｘ（ｘ₁〜ｘ₆）、座標ｙ（ｙ₁〜ｙ₆）、幅ｗ（ｗ₁〜ｗ₆）、高さｈ（ｈ₁〜ｈ₆）及びタグ（主に１〜６）からなる五つの特徴量で表現され、さらにこれらの特徴量を順に並べた３０次元の特徴ベクトルとして構成される。

ここで、特徴量生成部１６は、前述したタグ判定部１５の判定保留部１５ｃによって例えばタグの判定の保留された記載要素（名刺の入力画像Ｐ中で判定エラーとなった行に位置する文字列）に対しは、図５に示すように、タグが不明であることを表す情報として、代替用のタグとなる例えば整数値「０」を補完する（割り当てる）ことにより、第２の画像特徴量を生成する。図５は、名刺の入力画像Ｐの特徴量化によって特徴ベクトルＰ＝
(ｐ₁,ｐ₂…ｐ₃₀)^Tが生成される過程を示しており、さらに、入力画像Ｐ中における六番目の行の文字列（Ｅメールアドレス）のタグが不明となっている態様を例示している。

図１及び図５に示すように、タグ確定部１７は、特徴量生成部１６により生成された第２の画像特徴量と、レイアウト辞書１８内のクラス辞書１８ａ、１８ｂ、１８ｃ…に記憶された複数の種類の第１の画像特徴量と、を比較した結果に基づいて、名刺の入力画像Ｐを構成する記載要素毎（各行の文字列）のタグを確定させる。具体的には、タグ確定部１７は、類似性比較部１７ａ、特徴量選出部１７ｂ及び判定結果補正部１７ｃを備える。

類似性比較部１７ａは、図１、図５に示すように、上述した第２の画像特徴量と複数の種類の第１の画像特徴量との類似性を各々比較するものであって、詳細には、（一つの）第２の画像特徴量と（全ての）第１の画像特徴量との類似度を各々算出する。つまり、類似性比較部１７ａは、いわゆる部分空間法を適用するために、第１の画像特徴量毎に第２の画像特徴量との類似度を求める。

類似性比較部１７ａによる類似度算出のための基本式は、第２の画像特徴量を構成する特徴ベクトルの各成分を“ｐ_i”、第１の画像特徴量を構成する特徴ベクトルの各成分を“ａ_i”、“・”を内積、“|| ||”をノルムとすると、下記の式（１）で与えられる。式（１）では、ｃｏｓθが「１」に近付く程、特徴ベクトルどうしの類似度が高いことになる。さらに、式（１）における特徴ベクトルの各成分の長さ（スカラ量）をそれぞれ「１」とするように正規化（規格化）することで、分母を省略でき、これにより、式（２）で示される単純類似度Ｒ_Aを求めることが可能となる。

さらに、詳述すると、本実施形態の類似性比較部１７ａは、タグ判定部１５の判定保留部１５ｃによって、少なくとも一つの記載要素（入力画像Ｐ中の文字列）についてのタグの判定が保留された（判定エラーになった）場合に、第２の画像特徴量と複数の種類の第１の画像特徴量との類似性を各々比較する。このため、類似性比較部１７ａは、第２の画像特徴量から代替用のタグを表す情報（整数値０で示される属性情報）を除外した画像特徴量と複数の種類の第１の画像特徴量との類似性を各々比較する。

したがって、本実施形態の類似性比較部１７ａは、下記の式（３）で例示される演算式を適用して、第１及び第２の画像特徴量（特徴ベクトル）どうしの類似性を示す類似度
Ｒ_A1を算出する。

ここで、上記式（３）では、図５に対応させて、第２の画像特徴量を構成する特徴ベクトルＰ＝(ｐ₁,ｐ₂…ｐ₃₀)^T中の成分ｐ₃₀のタグが不明（判定エラー）となっている場合の類似度の演算式を例示している。類似性比較部１７ａが式（３）のような演算式を適用することで、代替用のタグの情報が、類似度の算出結果に悪影響を及ぼすことを防止できる。

なお、類似性比較部１７ａは、上記式（３）に代えて、下記の式（４）の演算式を適用し類似度Ｒ_A2を求めるものであってもよい。

つまり、式（４）では、第１及び第２の画像特徴量（互いの特徴ベクトル）中のタグを除いたレイアウト情報（文字列の座標、幅、高さ）だけの類似度と、タグだけの類似度と、を実質的に個別に算出し、これらを最終的に加算したものを類似度Ｒ_A2としている。ここで、“δ_pi,ai”は、タグどうしの純粋な類似度を示しており、さらに“ｋ”は、類似度の重み付け値（定数）を表している。このように、レイアウト情報どうしの類似度とタグどうしの類似度とを個別に得ることで、より緻密な類似度を求めることが可能となる。

図１及び図５に示すように、特徴量選出部１７ｂは、類似性比較部１７ａによる比較結果に基づいて、第２の画像特徴量との類似性が最も高い第１の画像特徴量を選出（選択）する。具体的には、特徴量選出部１７ｂは、下記の式（５）に例示されるように、レイアウト辞書１８内のクラス辞書１８ａ、１８ｂ、１８ｃ…に記憶された複数の種類の第１の画像特徴量毎に、第２の画像特徴量との類似度を求め、最大の類似度Ｒ_A1が得られた第１の画像特徴量を選出（図５の例ではクラスＡに属する特徴ベクトルを選出）する。

ここで、上述した類似性比較部１７ａ及び特徴量選出部１７ｂでは、類似度の比較において部分空間法を適用しているが、これに代えて、類似度の比較に例えば学習部分空間法や、さらにはニューラルネットワークなどを利用してもよい。なお、これらを利用する場合、クラス辞書１８ａ、１８ｂ、１８ｃ…の形式やその作成方法などは、適宜変更されることとなる。

また、図１及び図５に示すように、判定結果補正部１７ｃは、特徴量選出部１７ｂにより選出された類似性が最も高い第１の画像特徴量に基づいて、タグ判定部１５による暫定的なタグの判定結果を補正し、名刺の入力画像Ｐを構成する記載要素毎（各行の文字列）のタグを確定させる。具体的には、判定結果補正部１７ｃは、類似性が最も高い第１の画像特徴量のうちの、判定の保留された記載要素（判定エラーとなった行の文字列）とレイアウト情報（文字列の座標、幅、高さ）が対応する記載要素（行に位置する文字列）のタグを、当該判定の保留された記載要素に対して割り当てる。

すなわち、判定結果補正部１７ｃは、図５に例示するように、第２の画像特徴量［特徴ベクトルＰ＝(ｐ₁,ｐ₂…ｐ₃₀)^T］との類似度が最大となった第１の画像特徴量［特徴ベクトルＡ＝(ａ₁,ａ₂…ａ₃₀)^T］のうち、タグの判定エラーとなった六番目の行の文字列の成分
ｐ₃₀に対し、特徴ベクトルＡ＝(ａ₁,ａ₂…ａ₃₀)^Tにおける成分ａ₃₀のＥメールアドレスを表すタグ「６」を割り当てる（タグを確定させる）。また、本実施形態の判定結果補正部１７ｃは、判定エラーになっていない他の行の文字列については、タグ判定部１５により暫定的に判定されたタグを、そのまま最終的に特定すべきタグとして確定させる。

次に、このように構成されたレイアウト構造解析装置１０によるレイアウト構造解析方法を、主に図５及び図６のフローチャートに基づき説明する。まず、各クラス辞書１８ａ、１８ｂ、１８ｃ…にそれぞれ対応する複数の種類の第１の画像特徴量を記憶させ、レイアウト辞書１８を構成する（Ｓ１１）。次に、画像入力部１２は、構造解析の対象となる入力画像Ｐ（名刺の画像イメージ）を取り込む（Ｓ１２）。次いで、レイアウト解析部１４は、入力画像Ｐのレイアウト解析を行い、入力画像Ｐ中の記載要素毎（文字列毎）のレイアウト情報を取得する（Ｓ１３）。続いて、タグ判定部１５は、レイアウト解析された記載要素毎のタグを暫定的に判定する（Ｓ１４）。

ここで、タグ確定部１７は、タグの判定がエラーとなった記載要素の有無を検出し（Ｓ１５）、判定エラーとなった記載要素が存在しない場合（Ｓ１５のＮＯ）、タグ判定部１５により暫定的に判定された各タグをそのまま採用して全てのタグを確定させる（Ｓ１６）。一方、判定エラーとなった記載要素が存在することをタグ確定部１７が検出した場合（Ｓ１５のＹＥＳ）、特徴量生成部１６は、代替用のタグを補完して第２の画像特徴量を生成する（Ｓ１７）。

次に、タグ確定部１７は、複数の第１の画像特徴量と代替用のタグの情報を除外した第２の画像特徴量との類似度を各々比較し、類似度が最大となった第１の画像特徴量を選出する（Ｓ１８）。最後に、タグ確定部１７は、図５に示すように、類似度が最大の選出された第１の画像特徴量のうち、判定エラーとなった記載要素とレイアウト情報が対応する記載要素のタグを、当該判定エラーとなった記載要素に対して割り当てる（Ｓ１９）。なお、判定エラーになっていない他の行の文字列については、判定結果補正部１７ｃは、タグ判定部１５により暫定的に判定されたタグを、そのまま最終的に特定すべきタグとして確定させる。

既述したように、本実施形態のレイアウト構造解析装置１０は、任意の書式で記載された名刺上の記載要素毎のタグとレイアウト情報とを関連付けた第１の画像特徴量を予め記憶保持しておく一方で、構造解析の対象となる入力画像（名刺の画像）をレイアウト解析して得た記載要素毎のレイアウト情報と少なくとも文字認識結果に基づき暫定的に判定したタグとを関連付けた第２の画像特徴量を生成する。さらにレイアウト構造解析装置１０では、これら第１、第２の画像特徴量を互いに比較した結果から、入力画像を構成する記載要素毎の属性を確定させる。つまり、本実施形態のレイアウト構造解析装置１０では、複雑な処理を伴うことなく比較的容易に生成可能な第２の画像特徴量と、予め記憶保持しておいた第１の画像特徴量と、を比較するといった簡明な処理で記載要素毎のタグを特定できる。これにより、レイアウト構造解析装置１０によれば、属性を特定するための規則などの簡素化を図れる共に属性の判別精度を向上させることができる。

［第２の実施の形態］
次に、本発明の第２の実施形態を図７〜図９に基づき説明する。ここで、図７は、第２の実施形態に係るレイアウト構造解析装置３０の構成を機能的に示すブロック図である。また、図８は、レイアウト構造解析装置３０により暫定的にタグを判定してからタグを確定するまでの処理を概念的に示す図である。さらに、図９は、レイアウト構造解析装置３０によるレイアウト構造解析方法の流れを示すフローチャートである。なお、図７及び図８において、第１の実施形態で説明した図１及び図５中の構成要素と同一の構成要素については、同一の符号を付与しその説明を省略する。

図７に示すように、この実施形態のレイアウト構造解析装置３０は、第１の実施形態のレイアウト構造解析装置１０に設けられていたタグ確定部１７に代えて、タグ確定部３７を備えていると共に、特徴量更新部としての辞書修正部３９をさらに加えて構成されている。上述したタグ確定部３７は、タグ確定部１７に設けられていた判定結果補正部１７ｃに代えて、判定結果補正部３７ｃを備える。

図７及び図８に示すように、判定結果補正部３７ｃは、第２の画像特徴量側の記載要素毎の各タグ（各行の文字列毎に関連付けられた属性）と、当該第２の画像特徴量との類似性が最も高い第１の画像特徴量側の記載要素毎の各タグと、を互いのレイアウト情報の対応関係（各行に位置する文字列毎の関係）を揃えて比較した結果、タグが不一致となった記載要素が存在した場合、類似性が最も高い第１の画像特徴量側のタグの登録内容を優先させて、当該不一致となった記載要素のタグを確定させる。

図８では、特徴量選出部１７ｂは、下記の式（６）で示されるように、レイアウト辞書１８内のクラス辞書１８ａ、１８ｂ、１８ｃ…に記憶された複数の種類の第１の画像特徴量毎に、第２の画像特徴量［特徴ベクトルＰ＝(ｐ₁,ｐ₂…ｐ₃₀)^T］との類似度を求め、最大の類似度Ｒ_Bが得られた第１の画像特徴量を選出（クラスＢに属する［特徴ベクトルＢ＝(ｂ₁,ｂ₂…ｂ₃₀)^T］を選出）した態様を例示している。

ここで、図８の例では、判定結果補正部３７ｃは、第２の画像特徴量［特徴ベクトルＰ＝(ｐ₁,ｐ₂…ｐ₃₀)^T］側の記載要素毎の各タグと、当該第２の画像特徴量との類似度（Ｒ_B）が最大となった第１の画像特徴量側の記載要素毎の各タグと、を互いの文字列どうしの対応関係を揃えて比較した結果、タグが不一致となった記載要素（文字列）が存在していことを検出している。具体的には、判定結果補正部３７ｃは、五番目の行の文字列（ＦＡＸ番号を示す文字列）において、第２の画像特徴量側の成分ｐ₂₅のタグ“４”と、選出された第１の画像特徴量側の成分ｂ₂₅のタグ“５”とが不一致となったことを検出している。この場合、判定結果補正部３７ｃは、選出された第１の画像特徴量側のタグの登録内容を優先させて（タグ“５”を選択して）、当該不一致となった記載要素のタグを確定させる。

また、辞書修正部３９は、図７及び図８に示すように、特徴量生成部１６により生成された第２の画像特徴量と判定結果補正部３７ｃによるタグの判定を補正した結果とに基づいて、当該第２の画像特徴量との類似性が最も高い第１の画像特徴量を記憶したクラス辞書内の記憶内容を更新する（学習させる）。図８の例では、辞書修正部３９は、成分ｐ25としてタグ“５”を確定させたことを示す情報と、成分ｐ₂₅以外の第２の画像特徴量［特徴ベクトルＰ＝(ｐ₁,ｐ₂…ｐ₃₀)^T］の内容と、を反映させるようにして、クラスＢに対応するクラス辞書１８ｂ内の記憶内容［特徴ベクトルＢ＝(ｂ₁,ｂ₂…ｂ₃₀)^T］を更新する（学習させる）。

なお、レイアウト辞書１８内のクラス辞書１８ａ、１８ｂ、１８…を更新（修正）する方法としては、例えばレイアウト辞書１８の作成に用いたクラス画像群のうち対応する画像群に入力画像を追加し、辞書を再計算するなどの方法がある。また、辞書修正部３９は、クラス辞書を実際に更新する前に、更新予定内容を表示装置などを介してユーザ側に提示し、ユーザからの了承を示す入力操作を入力装置などを通じて受け取った場合にはじめて、クラス辞書を更新するようにしてもよい。

次に、このように構成されたレイアウト構造解析装置３０によるレイアウト構造解析方法を図７、図８及び図９のフローチャートに基づき説明する。まず、レイアウト構造解析装置３０は、図９に示すように、第１の実施形態で説明した図６中のＳ１１〜Ｓ１４と同一の処理を行う（Ｓ２１）。次に、タグ確定部３７は、タグの判定がエラーとなった記載要素の有無を検出し（Ｓ２２）、タグの判定がエラーとなった記載要素が存在する場合（Ｓ２２のＹＥＳ）、第１の実施形態で説明した図６中のＳ１７〜Ｓ１９と同一の処理を行う（Ｓ２３）。

一方、判定エラーとなった記載要素が存在しないことをタグ確定部３７が検出した場合（Ｓ２２のＮＯ）、特徴量生成部１６は、暫定的に判定された全てのタグとレイアウト情報とを関連付けた第２の画像特徴量を生成する（Ｓ２４）。さらに、タグ確定部３７は、複数の第１の画像特徴量と第２の画像特徴量との類似度を各々比較し、類似度が最大となった第１の画像特徴量を選出する（Ｓ２５）。

ここで、タグ確定部３７は、第２の画像特徴量側の記載要素毎の各タグと、選出された第１の画像特徴量側の記載要素毎の各タグと、を互いのレイアウト情報の対応関係を揃えて比較した結果、タグが不一致となった記載要素の有無を検出する（Ｓ２６）。タグが不一致となった記載要素が存在しない場合（Ｓ２６のＮＯ）、タグ確定部３７は、タグ判定部１５により暫定的に判定された各タグをそのまま採用して全てのタグを確定させる（Ｓ２７）。

一方、タグが不一致となった記載要素が存在する場合（Ｓ２６のＹＥＳ）、タグ確定部３７は、選出された第１の画像特徴量側のタグの登録内容を優先させて、当該不一致となった記載要素のタグを確定させる（Ｓ２８）。さらに、この場合、辞書修正部３９は、第２の画像特徴量と不一致を補正したタグの補正内容に基づいて、選出された第１の画像特徴量を記憶するクラス辞書内の記憶内容を更新する（Ｓ２９）。

このように本実施形態のレイアウト構造解析装置３０によれば、タグ判定部１５が実質的に誤ったタグの判定を行った場合でも、これを修正することが可能となる。また、レイアウト構造解析装置３０によれば、生成された第２の画像特徴量とタグの修正内容とに基づいて、レイアウト辞書１８内のクラス辞書を学習させることができる。

以上、本発明を第１、第２の実施の形態により具体的に説明したが、本発明はこれらの実施形態にのみ限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、上述した実施形態では、レイアウト構造の解析対象として、名刺を例示していたが、これに代えて、帳票、証明書、一般の文書などを構造解析の対象とすることもできる。

また、第１、第２の画像特徴量が、記載要素（文字列）の座標、幅、高さ及びタグで表現されていたが、このような特徴量の他、文字列の縦横比や、文字列を構成する文字種（ひらがな、カタカナ、漢字、記号、アルファベット、数字などの文字種）の比率、文字列を構成する文字の総数などを第１、第２の画像特徴量に含めるようにしてもよい。

さらに、第１、第２の画像特徴量を作成するために、レイアウト解析部１４が、各行の文字列の中心点の座標（ｘ，ｙ）を取得（算出）する場合、名刺の画像１９のエッジ部ｓ（図２中の名刺の画像の左上隅）を基準としていたが、これに代えて、例えば名刺の画像全体の中心点を基準としてもよい。また、これに代えて、事前に定義しておいた行の文字列の中心点（例えば姓名を記した文字列の中心点など）を基準として、それ以外の各行の文字列の中心点の座標を取得するようにしてもよい。

また、クラス辞書内に予め記憶された第１の画像特徴量（特徴ベクトル）の次元数と入力画像を基に生成した第２の画像特徴量（特徴ベクトル）の次元数とが異なる場合、予め定めておいた所定の特徴成分を選択したり、次元数の高いほうの特徴量から次元数の低いほうにある行と近い位置にある行のみを選択したり、あるいは次元数の低いほうの特徴量にタグ「不明」の行を追加するなどして次元数を揃えた上で、互いの類似度を算出するようにしてもよい。

１０，３０…レイアウト構造解析装置、１２…画像入力部、１４…レイアウト解析部、１５…タグ判定部、１５ａ…文字認識部、１５ｂ…文字列照合部、１５ｃ…判定保留部、１６…特徴量生成部、１７，３７…タグ確定部、１７ａ…類似性比較部、１７ｂ…特徴量選出部、１７ｃ、３７ｃ…判定結果補正部、１８…レイアウト辞書、１８ａ，１８ｂ，１８ｃ…クラス辞書、１９…名刺の画像、２１…辞書作成用画像群、３９…辞書修正部。

Claims

任意の書式で記載された書面上の複数の記載要素それぞれのレイアウトを表すレイアウト情報と、前記記載要素毎に各々対応する属性と、を予め関連付けて登録した第１の特徴量を記憶する特徴量記憶部と、
構造解析の対象となる書面の画像を入力画像として取り込む画像入力部と、
前記画像入力部により取り込まれた前記入力画像のレイアウト解析を行い、この入力画像を構成する複数の記載要素を各々抽出すると共にこの抽出された記載要素毎のレイアウトを表すレイアウト情報を取得するレイアウト解析部と、
前記レイアウト解析部により抽出された少なくとも各記載要素を文字認識した結果に基づいて、当該抽出された記載要素毎の属性を暫定的に判定する属性判定部と、
前記属性判定部により判定された記載要素毎の属性と前記レイアウト解析部により取得された記載要素毎のレイアウト情報とを互いに関連付けた第２の特徴量を生成する特徴量生成部と、
前記特徴量生成部により生成された前記第２の特徴量と前記特徴量記憶部に予め記憶された前記第１の特徴量とを比較した結果に基づいて、前記入力画像を構成する記載要素毎の属性を確定させる属性確定部と、
を具備することを特徴とするレイアウト構造解析装置。
前記特徴量記憶部は、書式の異なる複数の種類の書面に各々対応した複数の種類の第１の特徴量を記憶し、
前記属性確定部は、
前記複数の種類の第１の特徴量と前記特徴量生成部により生成された前記第２の特徴量との類似性を各々比較する類似性比較部と、
前記類似性比較部による比較結果に基づいて、前記第２の特徴量との類似性が最も高い第１の特徴量を選出する特徴量選出部と、
前記特徴量選出部により選出された前記類似性が最も高い第１の特徴量に基づいて、前記属性判定部による判定結果を補正し、前記入力画像を構成する記載要素毎の属性を確定させる判定結果補正部と、
を具備することを特徴とする請求項１記載のレイアウト構造解析装置。
前記属性判定部は、
前記レイアウト解析部により抽出された各記載要素を文字認識する文字認識部と、
前記文字認識部により文字認識結果として得られた記載要素毎の文字列と、前記特徴量記憶部に予め登録されている属性毎に各々分類された複数の種類の被照合用の文字列と、をそれぞれ照合する文字列照合部と、
少なくとも、前記文字列照合部による照合結果に基づいて、属性の判定を前記記載要素毎に保留することが可能な判定保留部と、
を備え、
前記類似性比較部は、前記判定保留部によって少なくとも一つの記載要素についての属性の判定が保留された場合に、前記複数の種類の第１の特徴量と前記第２の特徴量との類似性を各々比較し、
さらに、前記判定結果補正部は、前記類似性が最も高い第１の特徴量のうちの、前記判定の保留された記載要素とレイアウト情報が対応する記載要素の属性を、当該判定の保留された記載要素に対して割り当てる、
ことを特徴とする請求項２記載のレイアウト構造解析装置。
前記特徴量生成部は、前記判定保留部にて属性の判定の保留された記載要素に対し代替用の属性を表す情報を補完することにより前記第２の特徴量を生成することが可能であり、
さらに、前記類似性比較部は、当該第２の特徴量から前記代替用の属性を表す情報を除外した特徴量と前記複数の種類の第１の特徴量との類似性を各々比較する、
ことを特徴とする請求項３記載のレイアウト構造解析装置。
前記判定結果補正部は、前記第２の特徴量側の記載要素毎の各属性と、当該第２の特徴量との類似性が最も高い第１の特徴量側の記載要素毎の各属性と、を互いのレイアウト情報の対応関係を揃えて比較した結果、属性が不一致となった記載要素が存在した場合、前記類似性が最も高い第１の特徴量側の属性の登録内容を優先させて、当該不一致となった記載要素の属性を確定させる、
ことを特徴とする請求項２記載のレイアウト構造解析装置。
前記特徴量記憶部は、前記書面の書式に各々対応した複数の前記第１の特徴量を種類毎にクラス分けして記憶する複数のクラス別記憶部を備え、
前記特徴量生成部により生成された前記第２の特徴量と前記判定結果補正部による属性の判定を補正した結果とに基づいて、当該第２の特徴量との類似性が最も高い第１の特徴量を記憶したクラス別記憶部内の記憶内容を更新する特徴量更新部、
をさらに具備することを特徴とする請求項２ないし５のいずれか１項に記載のレイアウト構造解析装置。
任意の書式で記載された書面上の複数の記載要素それぞれのレイアウトを表すレイアウト情報と、前記記載要素毎に各々対応する属性と、を予め関連付けて登録した第１の特徴量を特徴量記憶部が記憶するステップと、
構造解析の対象となる書面の画像を画像入力部が入力画像として取り込むステップと、
前記画像入力部により取り込まれた前記入力画像のレイアウト解析を行うことにより、レイアウト解析部が、前記入力画像を構成する複数の記載要素を抽出すると共にこの抽出された記載要素毎のレイアウトを表すレイアウト情報を取得するステップと、
前記レイアウト解析部により抽出された少なくとも各記載要素を文字認識した結果に基づいて、当該抽出された記載要素毎の属性を属性判定部が暫定的に判定するステップと、
前記属性判定部により判定された記載要素毎の属性と前記レイアウト解析部により取得された記載要素毎のレイアウト情報とを互いに関連付けた第２の特徴量を特徴量生成部が生成するステップと、
前記特徴量生成部により生成された前記第２の特徴量と前記特徴量記憶部に予め記憶された前記第１の特徴量とを比較した結果に基づいて、前記入力画像を構成する記載要素毎の属性を属性確定部が確定させるステップと、
を有することを特徴とするレイアウト構造解析方法。