JP2004178010A

JP2004178010A - 文書処理装置並びにその方法及びプログラム

Info

Publication number: JP2004178010A
Application number: JP2002339999A
Authority: JP
Inventors: Yasuto Ishitani; 康人石谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-11-22
Filing date: 2002-11-22
Publication date: 2004-06-24

Abstract

【課題】印刷文書に記載されている情報を論理構造と共に抽出して文字認識する。
【解決手段】複数ページの印刷文書の文書画像からレイアウト要素を抽出すると共に、文書論理要素を抽出する。抽出した文書論理要素を規定する文書論理要素特徴のうち安定した特徴のみを用いて、文書論理要素毎のモデルを生成する。入力文書画像のレイアウト要素や論理要素に対して生成した文書論理要素モデルを適用して、各文書固有の論理要素を高精度に抽出する。文書論理要素をモデル化して入力要素との照合に用いており、モデルの生成に用いた文書画像と同一種別の文書画像については、論理要素の抽出が略可能となる。これにより、印刷文書から効率良くＸＭＬ／ＨＴＭＬ等のタグ付き文書を生成することができる。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、印刷文書に記載されている内容をその論理構造と共に抽出して文字認識する文書処理装置並びにその方法及びプログラムに関する。
【０００２】
【従来の技術】
近年、スキャナ等で取込んだ画像データから文字を認識する文字認識システムが普及している。このような文字認識システムにおいては、新聞記事、雑誌、科学技術文献、書籍、オフィス文書、公文書等の印刷文書をスキャナ等の入力装置から文書画像としてコンピュータに取り込む。文字認識システムは、取込んだ画像情報に対して解析を行って文字領域を抽出した後、抽出した文字領域から文字パターンを切り出す。そして、文字認識技術を用いて切出した文字パターンをコード化してテキスト文書等を得るようになっている。
【０００３】
ところで、一般的な文書は、その論理構成が文、段落、節、章、見出し等のように階層構造を有している。電子化された印刷文書の内容を再利用する場合には、印刷文書全体を単なる文字列として認識するだけでなく、このような階層構造（以下、論理構造という）を同時に認識した方が一層有効である。また、一般的には、各論理構造に対応してページ（紙面）上の幾何学的な配置の構造（以下、レイアウト構造という）が規定されている。
【０００４】
非特許文献１においては、文書構造をこれらの“レイアウト構造”及び“論理構造”によって定義している。非特許文献１では、“レイアウト構造”は、テキスト、図、写真、表等の文書レイアウト要素の幾何情報（位置情報と大きさ情報）とそれらの階層的な配置関係を意味し、ブロック領域等のレイアウト情報を有するものと定義されている。また、非特許文献１では、“論理構造”は、論理意味情報（コンテンツ）に関する階層構造のことであり、章節等の論理要素を有するものと定義されている。
【０００５】
文書画像から“論理構造”を取得する手法が種々開示されている。例えば、非特許文献２においては、レイアウト解析によって得られたレイアウト要素の幾何的階層構造（レイアウト構造）に対して、２，３の一般的なルールを適用することにより、論理構造に変換する方式について説明している。この場合、論理構造は木構造で表現されるが、それをルートから辿っていくと読み順が得られる。即ち、非特許文献２においては、小さいレイアウトブロックをヘッダとボディとに分け、レイアウトの形からヘッダとボディとを判断して、それに対応する論理構造を得るようになっている。
【０００６】
また、新聞等のようにレイアウトが固定の文書に適用したものとして非特許文献３に開示の手法がある。非特許文献３においては、日本語新聞のレイアウト要素を隣接関係グラフで表現し、ルールに基づいてこのグラフを解釈することでタイトル（見出し）、本文、セパレータ、写真、図表で構成される記事を個別に抽出するようになっている。非特許文献３もレイアウトの階層構造から論理構造を予測するもので、新聞の場合のヘッダとボディに相当する見出し、パラグラフ、トピックス等の新聞に限定した論理構造を予測することができる。
【０００７】
また、非特許文献４においては、レイアウト要素と１対１に対応する論理要素について表形式で簡単に表現されたモデルを入力文書のレイアウト解析結果に適用して、簡単な論理構造を抽出する手法が開示されている。即ち、非特許文献４においては、予めレイアウトに対応したテンプレートを用意し、テンプレート中の各レイアウト要素を論理要素に対応付けるようになっている。
【０００８】
また、上記非特許文献１は、レイアウト構造と論理構造との対応関係を表す文書モデルを用いて入力文書に対して推論を適用することにより文書構造を抽出するものである。文書モデルは、構造の階層性を記述できるフレーム表現を採用しており、センタリング等のレイアウト記述を可能とし、各構成要素の変動の記述も可能にしている。即ち、非特許文献１においても、レイアウト要素毎に論理要素が対応付けられており、これにより、論理構造の抽出を可能にしている。
【０００９】
また、非特許文献５では、入力文書をＯＤＡ機能標準ＰＭ（プロセッサブルモード）２６文書に自動マッピングする方式か提案されている。節構造解析により、複数ページから多段の章・節・段落を抽出・構造化し、表示属性解析により、字下げ、揃え、ハードリターン、オフセットを抽出する。また、ヘッダ／フッタ解析により、文書クラスの同定も可能としている。即ち、非特許文献５は、一般に各論理構造のレイアウトとして多用されている表示属性を利用して、論理構造を認識するようになっている。
【００１０】
また、非特許文献６は、確率文法の枠組を用いて、複数ページに渡る章節構造とリスト構造を抽出するものである。即ち、非特許文献６は、認識後の単なる文字列（プレーンテキスト）の状態で論理構造を判断するようになっている。
【００１１】
また、特許文献１においては、章見出し、パラグラフ、箇条書き、数式、脚注、ヘッダ、フッタ等の汎用的な文書論理要素を自動抽出し、それらに対して読み順を付与した後、文字認識結果を出力することを可能とした発明が提案されている。即ち、特許文献１は、レイアウト構造と文書的な内容の両方の情報を用いて論理構造を判断する。例えば、字下げされてハードリターンされている場合にはパラグラフと判断し、短い１行の文章については小見出しと判断する。
【００１２】
また、特許文献２は、文書中に含まれるキーワード情報に基づいて文書の論理構造を解析し、解析結果をＸＭＬタグ付き文書として出力することを可能とした発明が開示されている。例えば、特許文献２では、「会社」というキーワードによって、読み取り結果を組織名と判断する。
【００１３】
【特許文献１】
特開平１１−２５００４１号公報
【００１４】
【特許文献２】
特開２００１−３４４５６２号公報
【００１５】
【非特許文献１】
黄瀬他著「文書画像構造解析のための知識ベースの一構成法」、情処学論、Ｖｏｌ．３４，Ｎｏ．１，ＰＰ７５−８７，（１９９３−１）
【００１６】
【非特許文献２】
Ｓ．Ｔｓｕｊｉｍｏｔｏ著「ＭａｊｏｒＣｏｍｐｏｎｅｎｔｓｏｆａＣｏｍｐｌｅｔｅＴｅｘｔＲｅａｄｉｎｇＳｙｓｔｅｍ」，ＰｒｏｃｅｅｄｉｎｇｓｏｆＴＨＥＩＥＥＥ，Ｖｏｌ．８０，Ｎｏ．７，Ｊｕｌｙ，１９９２
【００１７】
【非特許文献３】
駱他著「ルールベースの適用による日本語新聞紙紙面の構造認識」、信学論Ｄ−ＩＩ，Ｖｏｌ．Ｊ７５−Ｄ−ＩＩ，Ｎｏ．９，ｐｐ．１５１４−１５２５，（１９９２−９）
【００１８】
【非特許文献４】
山下他著「モデルに基づいた文書画像のレイアウト理解」、信学論Ｄ−ＩＩ，Ｖｏｌ．Ｊ７５−Ｄ−ＩＩ，Ｎｏ．１０，ｐｐ．１６７３−１６８１，（１９９２−１０）
【００１９】
【非特許文献５】
山田著「文書画像のＯＤＡ論理構造化文書への変換方式」、信学論Ｄ−ＩＩ，Ｖｏｌ．Ｊ７６−Ｄ−ＩＩ，Ｎｏ．１１，ｐｐ．２２７４−２２８４，（１９９３−１１）
【００２０】
【非特許文献６】
建石著「確率文法を用いた文書論理構造の解釈法」、信学論Ｄ−ＩＩ，Ｖｏｌ．Ｊ７９−Ｄ−ＩＩ，Ｎｏ．５，ｐｐ．６８７−６９７，（１９９６−５）
【００２１】
【発明が解決しようとする課題】
このように、各種印刷文書の内容を電子化して利用する場合には、先ず、印刷文書をイメージスキャナによって画像データとしてコンピュータに取り込み、取込んだ画像データに対してレイアウト構造及び論理構造を抽出して対応付け、更に、画像データから切出した文字パターンに対して文字認識処理を行って、認識結果を読み順通りに出力するようになっている。
【００２２】
この場合には、レイアウト構造に対応させて各論理要素を抽出することで、電子化文書の有効利用を促進することができる。しかしながら、上述した特許文献２，３においては、ヘッダとボディのレイアウト構造を認識することができるのみである。また、上述した非特許文献１，４においては、論理要素を抽出するためには予めレイアウト構造が分かっていることが前提である。しかも、論理要素を抽出するためには、レイアウト構造に応じてプログラムを記述しておく必要がある。また、非特許文献５，６においては、レイアウト構造を判断せずに論理要素を抽出しており、必ずしも確実に論理要素を抽出することができるとは限らない。
【００２３】
また、特許文献１は、汎用的な文書論理要素を予め決めておく必要がある。また、特許文献２は、キーワードを用いた検出を行っており、種々の論理要素を確実に検出することができるとは限らない。
【００２４】
このように、上述した各文献では、特定のレイアウト条件下の印刷文書から特定の論理要素を抽出することはできるが、多様な印刷文書全般にわたって、詳細に解析してユーザが所望の論理情報を柔軟に抽出することはできないという問題点があった。また、論理要素を抽出するためには、処理プログラムや知識といった形式で設計者がシステムに与えなければならず、システムに関する知識を有していない一般的なユーザが所望の論理要素を抽出するための知識を簡単に定義して、外部からシステムに与えることはできないという問題点もあった。
【００２５】
本発明はかかる問題点に鑑みてなされたものであって、既存のモデルから最適モデルを予測生成することにより、多様な印刷文書から各文書に固有の文書論理要素を自動的に抽出することができる文書処理装置並びにその方法及びプログラムを提供することを目的とする。
【００２６】
【課題を解決するための手段】
本発明の請求項１に係る文書処理装置は、文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集手段と、前記収集手段が収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段とを具備したものであり、
本発明の請求項３に係る文書処理装置は、文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集手段と、前記収集手段が収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段と、前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析手段と、前記レイアウト解析手段の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出手段と、前記文書論理要素抽出手段が抽出した前記認識対象画像の文書論理要素と前記モデル生成手段が生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合手段とを具備したものである。
【００２７】
本発明の請求項１において、収集手段は、同一種別の１つ以上の文書画像について、各文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を収集する。モデル生成手段は、同一種別の１つ以上の文書画像について収集したレイアウト要素及び文書論理要素に基づいて、文書論理要素毎の要素モデルを生成する。同一種別の文書画像であれば、レイアウト及び文書論理構造は類似していると考えることができる。文書論理要素をモデル化することによって、収集手段が収集した文書画像以外の文書画像についても、同一種別の類似した文書画像であれば、各文書論理要素に対する要素モデルを用いた論理要素種別の決定が可能になる。
【００２８】
本発明の請求項３において、収集手段が収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて、モデル生成手段は、文書論理要素毎の要素モデルを生成する。レイアウト解析手段は、認識対象画像のレイアウト要素を抽出し、文書論理要素抽出手段は、認識対象画像から文書論理要素を抽出する。抽出された文書論理要素と要素モデルとは照合手段によって照合され、認識対象画像の文書論理要素の要素種別が決定される。この場合には、文書論理要素がモデル化されていることから、同一種別の類似した文書画像であれば、文書論理要素と要素モデルとの照合によって、論理要素種別は確実に決定される。
【００２９】
なお、装置に係る本発明は方法に係る発明としても成立する。
【００３０】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実行させるためのプログラムとしても成立する。
【００３１】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の一実施の形態に係る文書処理装置を示すブロック図である。
【００３２】
本実施の形態は同一種別の複数のサンプル文書について、論理要素の特徴のうち安定した特徴を用いてモデル（論理要素モデル）を生成し、生成した各論理要素モデルと入力要素との照合によって、印刷文書の論理構造を取得するものである。これにより、ユーザが設定した論理構造以外の論理構造の文書についても、同一種別の文書については、自動的に論理構造を認識した文字認識が可能である。
【００３３】
なお、本実施の形態はスキャナ等から入力された複数枚の文書画像から情報を抽出・編集して、例えばＸＭＬ技術を用いて記述されたタグ付き構造化文書を生成するものに適用した例を示している。
【００３４】
１枚以上の印刷文書はスキャナ等の画像入力装置（図示せず）によって連続する複数枚の文書画像に変換される。この文書画像は２値化処理による２値画像である。また、文献「鈴木、窪田：“補間と凸判定に基づくストローク抽出を用いた低解像度文書画像の２値化”、電子情報通信学会、パターン認識・理解研究会、技術報告、ＰＲＭＵ９９−２３１、ｐｐ１−８、２０００」に基づいた公知の技術により２値画像に変換されてもよい。２値画像はさらに公知例である「特開平５−１７４１８３号公報に開示の文書画像傾き検出方式」により画像の傾きが検出・補正されて２値画像に変換されてもよい。以下、説明の簡略化のために、入力画像はこのような傾き補正された２値画像であるものとする。
【００３５】
レイアウト解析部１には、このように２値化された画像情報が入力される。レイアウト解析部１は、順次入力される文書画像を１枚の文書画像毎にレイアウト解析処理を実行する。即ち、レイアウト解析部１は、入力画像から文章領域、表領域、図領域、写真／絵領域等の性質の異なる部分領域を、レイアウト要素群として抽出する。レイアウト要素は、例えば、各部分領域に外接する矩形により表現される。
【００３６】
図２はレイアウト要素の外接矩形を示す説明図であり、図３は各外接矩形の定義を示す説明図である。図２の例では、外枠で示す文章領域ＴＢは、斜線で示す複数の文字行領域Ｓｔｒ（Ｓｔｒ１，Ｓｔｒ２，…）を含んでいる。各文字行領域Ｓｔｒは、複数の文字領域Ｃｈ（Ｃｈ１，Ｃｈ２，…）を含んでいる。これらの各部分領域を規定する外接矩形は、図３に示すように、その左上端の位置座標（ｘ１，ｙ１）と右下端の位置座標（ｘ２，ｙ２）により表現することができる。レイアウト解析部１としては、例えば、公知である「特開平９−１６７２３３号公報に開示の画像処理方法および画像処理装置」によって構成することができる。
【００３７】
レイアウト解析では、縦書きと横書きの文章領域は異なる領域として分離されて出力されるものとする。また、１つの文章領域はカラムをまたがって抽出されることがないものとする。なお、レイアウト解析では、段落（パラグラフ）、箇条書き（リスト）、数式、章見出し等の文書論理要素に相当する領域が抽出されるとは限らない。また、レイアウト解析では、文章領域と表領域では、文字行領域が順序付けられて抽出されており、各文字行領域では文字領域が同様に順序付けられて抽出される。この文字行領域と文字領域はそれぞれを外接する矩形により表現される。文章領域（あるいは表領域）と文字行領域と文字領域とは、夫々例えば図４の説明図にて示す木構造によって階層的に記述することができる。
【００３８】
文字認識部２は、レイアウト解析で得られた文字行領域から個々の文字領域を切り出したあと、文字領域内の文字パターンを文字コード情報に変換する。文字認識部２は、文字認識結果を最終的に読み順に並んだ状態で出力する。文字認識部２としては、例えば、公知技術「有吉：“動的な仮説生成・検証による日本語印刷文書からの文字の切り出し”，電子情報通信学会技術報告，ＰＲＵ９３−４７，ｐｐ．３３−４０，１９９３．」に開示されている手法を採用することができる。
【００３９】
なお、本実施の形態においては、文字認識部２において、レイアウト解析の直後に文字認識処理を実施して文章領域の各文字をコード化したが、文字認識部２を省略して、レイアウト解析部１において文字認識処理を行って、文章領域の各文字をコード化するようにしてもよい。
【００４０】
文書論理要素抽出部３には、レイアウト解析部１からのレイアウト解析結果及び文字認識部２の文字認識結果が入力される。文書論理要素抽出部３は、レイアウト解析結果で示される文章領域から段落、ヘッダ、フッタ、キャプション（図表の標題）、箇条書き、章見出し、脚注、数式等の一般的な文書論理要素を抽出する。なお、各文書論理要素の領域（論理要素領域）はその外接矩形で表現され、その内部に文字行領域が存在し、文字行領域の内部に文字領域が存在し、文書論理要素と文字行領域と文字領域とが木構造により階層的に記述されている。そして、各文書論理要素には、段落、ヘッダ、フッタ、キャプション（図表標題）、箇条書き、章節見出し、脚注、数式等の種類情報が論理属性として割り当てられるようになっている。なお、文書論理要素抽出方法としては、例えば、公知技術である上記特許文献１の技術を採用することができる。
【００４１】
読み順決定部４には、レイアウト解析部１のレイアウト解析によって抽出された部分領域の情報と文書論理要素抽出部３によって抽出された文書論理要素とが与えられる。読み順決定部４は、レイアウト要素と文書論理要素の配置関係や幾何情報に基づいて、各領域の順序付けを行う。読み順決定方法としても、例えば上述した特許文献１で開示されている手法を採用することができる。
【００４２】
こうして、各文書画像に対して、レイアウト解析処理、文字認識処理、文書論理要素抽出処理及び読み順決定処理が適用されて、文書画像が１つ以上の論理要素領域に分割され、更に各論理要素領域毎に、属性、読み順、文字行方向、文字認識結果及び文字行領域等の特徴（以下、文書論理要素特徴という）からなる内部データ（以下、論理要素情報という）が生成される。図５は論理要素情報の一例を示す説明図である。１つの文書画像は、複数の論理要素領域に分割され、各領域は、属性や読み順等の論理要素情報を有する。この論理要素情報は、モデル生成部５及びモデル照合部６に供給されるようになっている。
【００４３】
図６は図１中のモデル生成部５の具体的な構成を示すブロック図である。
【００４４】
モデル生成部５は、文書論理要素モデル生成部１１及び文書論理要素間関係定義部１２によって構成されている。本実施の形態においては、モデル生成部５は、オペレータの指示に従って、印刷文書複数枚分の文書論理要素の指定及び定義を修正すると共に、新たな指定及び定義を作成することができるようになっている。そして、モデル生成部５は、複数枚の印刷文書の画像情報から自動的に生成された文書論理要素の情報又はオペレータの指示に従って修正若しくは生成された文書論理要素の情報に基づいて、文書論理要素をモデル化するようになっている。
【００４５】
本実施の形態においては、モデル生成部５は、モデル化に際して、論理要素情報の各文書論理要素特徴に自由度を設定する。これにより、同一種別の文書については、文書画像に対してオペレータによる論理構造の指定又は定義と異なる論理構造を有している場合でも、読み込んだ文書画像の論理構造を認識することを可能にしている。
【００４６】
なお、オペレータは、ディスプレイ装置を利用したＧＵＩ機能を用いることで、文書論理要素の指定及び定義の修正を簡単な操作で実行することができようになっている。例えば、モデル生成部５は、印刷文書複数枚分の論理要素情報を図示しないディスプレイ装置に順次与えて、論理要素情報をオペレータに表示させ、オペレータの入力操作に応じて、各論理要素を論理要素領域の変更も含み、所望の文書論理要素の指定及び定義の更新及び修正をする。
【００４７】
図７は図６中の文書論理要素モデル生成部１１の具体的な構成を示すブロック図である。
【００４８】
文書論理要素モデル生成部１１は、文書論理要素収集部１５、文書要素特徴抽出部１６、文書要素特徴選択部１７及び文書要素特徴編集部１８によって構成されている。本実施の形態においては、文書論理要素収集部１５は、文書論理要素のモデル化のために、文書論理要素の学習を行う。即ち、文書論理要素収集部１５は、先ず、複数の文書論理要素のうち学習の対象となる文書論理要素に、その種別を示す文書論理要素種別（文書論理要素の属性）を付与する。なお、上述したように、文書論理要素収集部１５は、オペレータの指示に従って、文書論理要素に付与する属性を手動で修正することもできる。そして、文書論理要素収集部１５は、複数の文書画像から同一の文書論理要素種別を有する文書論理要素を収集するようになっている。
【００４９】
文書論理要素特徴抽出部１６は、同一の属性を有する文書論理要素群から例えば以下の文書論理要素特徴についての確率分布を算出する。
【００５０】
・平均文字サイズの確率分布
・要素の高さの確率分布
・要素の幅の確率分布
・文字行数の確率分布
・言語種別の確率分布
・文字行方向の確率分布
文書要素特徴選択部１７は、これらの文書論理要素特徴の確率分布の組み合わせによって、文書論理要素モデルを構築する。なお、各々の確率分布が正規分布に従っているものとみなすと、確率関数Ｐ（Ｘ）は下記（１）式にて与えられる。
【００５１】

また、このとき、平均μと分散σは最尤推定法により、下記（２）式で与えられる。ここで、ｘは収集された要素から検出された特徴値である。
【００５２】

文書要素特徴選択部１７は、確率分布の分散が所定の閾値以下の文書論理要素特徴を安定した特徴とみなし、そうでないものを不安定な特徴とみなす。そして、文書要素特徴選択部１７は文書論理要素モデルの全ての文書論理要素特徴のうち安定した特徴と判定した文書論理要素特徴のみを選択して、選択した特徴を用いて論理要素を判定する文書論理要素モデルを構築するようになっている。
【００５３】
図８は文書論理要素モデルの定義の一例を示す説明図である。
【００５４】
図８の例では、文書論理要素モデルは、要素種別の情報、平均文字サイズ、要素の高さ、要素の幅、文字行数、言語種別、文字行方向の文書論理要素特徴を備えている。なお、各文書論理要素特徴のうち「実施」は、その文書論理要素特徴を文書論理要素モデルの定義に用いるか否かを示している。
【００５５】
更に、本実施の形態においては、オペレータは、文書要素特徴選択部１７が生成した文書論理要素モデルを、文書論理要素特徴編集部１８によって修正することもできるようになっている。例えば、文書論理要素特徴編集部１８は図示しないディスプレイ装置の表示画面上に、文書論理要素モデルの特徴抽出結果を表示させることができる。そして、文書論理要素特徴編集部１８は、ディスプレイ装置を利用したＧＵＩ機能を用いたオペレータの入力操作に応じて、文書論理要素を構成する特徴の任意の組み合わせ選択することにより文書論理要素モデルを手動で定義することができるようになっている。
【００５６】
また、文書論理要素特徴編集部１８は、図８に示すように、各文書論理要素特徴の確率分布において有効範囲（上限値と下限値）を設定することも可能である。文書論理要素のうちの所定の要素、例えば文書見出しの行数の上限・下限を設定することができる。例えば、文書論理要素特徴編集部１８が文書見出し要素のモデルの文字行数の確率分布において下限を１行とし、上限を３行と設定した場合には、４行以上の文書論理要素が文書見出しとなる確率が０％となる。
【００５７】
ところで、文書内の異なる属性の文書論理要素であっても、これらの文書論理要素モデルに定義された文書論理要素特徴が一致していることが考えられる。この場合には、文書論理要素特徴選択部１７及び文書論理要素特徴編集部１８において生成された文書論理要素モデルを単に用いただけでは、文書論理構造を正しく認識することができないことがある。この場合でも、各文書論理要素同士の順序関係から文書論理要素を判断することができることがある。
【００５８】
そこで、本実施の形態においては、生成した文書論理要素モデルの精度を向上させるために、文書論理要素間の関係を定義するようになっている。即ち、文書論理要素間関係定義部１２は、文書論理要素の隣接関係や順序関係や配置関係を定義する。文書論理要素間関係定義部１２は、各文書画像に対するレイアウト解析処理、文字認識処理、文書論理要素抽出処理及び読み順決定処理によって得られた論理要素情報に従って、或いはオペレータの操作に従って、文書論理要素の隣接関係や順序関係や配置関係を定義する。この定義を、入力文書画像と文書論理要素モデルとの照合（以下、モデル照合という）時に、文書論理要素を決定するための制約として用いることで処理精度を向上させることが可能である。即ち、モデル照合時には、定義を満足しない文書論理要素の判定結果は誤りであるものと判断するのである。
【００５９】
ところで、例えば隣接する複数の文書論理要素同士は、相互に関係を有してグループを構成することがある。例えば、同一の内容を複数の言語で提示した複数の文書論理要素同士はグループを構成する。この場合には、文書論理要素間関係定義部１２は、複数個の文書論理要素を同時に選択してグループを構成し、各グループにおいて、文書論理要素に順序付き番号を付与することで、要素間の順序関係を定義する。定義された順序関係を用いることで入力文書要素に対するモデル照合時の精度を向上させることができる。また、例えば、文書論理要素間関係定義部１２は、グループ内の２つの要素を隣接している組として定義することもある。この場合には、入力文書中ではそれらは組の文書論理要素は、隣接すべきであることが示される。また、文書論理要素間関係定義部１２において文書論理要素のグループが生成されない場合には、印刷文書中で要素間の関係は定義されない。
【００６０】
なお、文書論理要素間関係定義部１２は、例えば、文書論理要素モデルの学習の際に用いた複数枚の印刷文書の文書画像をディスプレイ装置に順次表示させて、ＧＵＩ機能を用いたオペレータの操作に従って、文書論理要素間の関係を定義することができるようになっている。
【００６１】
モデル生成部５によって生成された文書論理要素モデル及び各文書論理要素モデル同士の関係についての情報はモデルデータベース７に供給されるようになっている。モデルデータベース７は、文書種別毎に、モデル生成部５において生成された文書論理要素モデル及び各文書論理要素モデル同士の関係についての情報を蓄積するようになっている。モデル生成部５はモデルデータベース７に蓄積された情報をモデル照合部６に供給するようになっている。
【００６２】
モデル照合部６は、認識対象の文書画像に対するレイアウト解析処理、文字認識処理、文書論理要素抽出処理及び読み順決定処理が適用されて得られた各論理要素及びレイアウト要素の集合（以下、単に入力要素という）に対して、モデルデータベース７の情報を適用することで、各文書画像内の入力要素の論理要素種別を決定するようになっている。
【００６３】
図９は図１中のモデル照合部６の具体的な構成を示すブロック図である。
【００６４】
モデル照合部６は、入力−モデル対応抽出部２１、連合グラフ構成部２２、最大クリーク検出部２３及び最良照合検出部２４によって構成されている。入力−モデル対応抽出部２１ではまず、入力文書画像から抽出したレイアウト要素と一般的な文書論理要素の集合に対して、既に定義済みである文書論理要素モデルを順次適用する。即ち、モデル照合部６には、論理構造の解析を行おうとする文書と同一種別の文書についての文書論理要素モデルがモデルデータベース７から与えられ、この文書論理要素モデルに定義されている文書論理要素特徴についての確率値を算出する。
【００６５】
例えば、文書見出しの要素モデルでは、文字サイズ、文字行数、言語、文字行方向のそれぞれについて、上限値、下限値、確率分布が定義されているものとすると、入力−モデル対応抽出部２１は、それらを用いて入力要素の文字サイズ、文字行数、言語、文字行方向の確率値を計算する。このように入力要素の複数個の幾何パラメータにおいて確率値が得られた場合には、それらの平均値を対応するモデル要素に対する総合的な確率値であると見なす。
【００６６】
入力−モデル対応抽出部２１は、各入力要素に対してすべての文書論理要素モデルの確率値を計算する。文書論理要素モデルに対する入力要素の確率値があらかじめ定めたしきい値以下である場合には、それらの対応が成立しないと見なすこともある。こうして、各入力要素には対応するモデルの論理要素種別とその確率値が付与される。
【００６７】
上述したように、文書論理要素モデルを単に入力要素に適用しただけでは定義された文書論理要素特徴が一致しその確率値が一致していることによって、入力要素に適切な文書論理要素種別を決定することができないことがある。例えば、入力要素によっては対応するモデル要素が存在しなかったり、複数個のモデルが対応していてそれぞれの確率値が得られていたりする場合がある。そこで、本実施の形態においては、部連合グラフ法を用いた関係判定手段によって、共存可能な入力要素と要素モデルの対応の中で最良の組み合わせを検出するようになっている。
【００６８】
関係判定手段の一部を構成する連合グラフ構成部２２は、入力−モデル対応抽出部２１で得られた「入力要素と文書論理要素モデルとの対応の組」のそれぞれにノードを割り当てて連合グラフを構成する。図１０は連合グラフのノードを示す説明図である。図１０の枠内の数字及び英字の組み合わせによって各ノードが規定されている。各ノードの数字は入力要素に対応し、英字は入力要素に対応すると判定された文書論理要素モデルを示している。例えば、図１０の例では、数字“２”の２つの入力要素に対して“Ｂ”，“Ｄ”の２つの文書論理要素モデルが対応していると判定されたことが分かる。また、例えば、数字“７”，“８”の２つの入力要素は、いずれも同一の文書論理要素モデル“Ｅ”が対応すると判定されたことが分かる。
【００６９】
連合グラフ構成部２２は、文書論理要素間関係定義部１２において既に定義済みのページモデルを利用して、連合グラフのノードの組に順次適用してノード間の両立性を判定することでノード間にエッジを設定する。図１１はエッジの設定を説明するための説明図である。連合グラフ構成部２２は、連合グラフから２つのノードを組として抽出し、それらがページモデルで定義されている要素モデル間の関係と矛盾しないか否かを調べる。具体的には、２つのノードから入力要素の組と要素モデルの組を抽出する。入力要素間の関係がページモデル中で定義されている当該要素モデル間の関係と整合が取れている（矛盾してない）か否かを調べる。さらに、入力要素が同一であるか否かを調べてノードの組における対応関係の無矛盾性について評価する。連合グラフ構成部２２は、ノードの組において矛盾が無いことを確認した場合にノード間にエッジを設定するようになっている。連合グラフ構成部２２は、このような処理を連合グラフにおけるすべてのノードの組に対して行い、要素間の関係が矛盾しないすべてのノードの組の間にエッジを設定する。図１１の例では、例えば、ノード“２Ｂ”，“２Ｄ”相互間にはエッジが設定されていない。
【００７０】
最大クリーク検出部２３は、エッジが設定された連合グラフから両立可能なノードの最大集合、すなわち連合グラフにおける最大クリークを抽出することにより、共存可能な入力要素と要素モデルの対応の中で最大の組み合わせを検出する。図１２は最大クリークの検出を説明するための説明図である。図１２の例では、最大クリーク検出部２３は、ノード“２Ｄ”，“１１Ａ”，“２０Ｃ”，“１６Ａ”については存在しない組み合わせであるものと判定する。最大クリーク検出部２３は、例えば、最大クリークを与える組み合わせのみを出力するようにしてもよく、また、可能な全ての組み合わせを順次画面に表示してその中から任意の組み合わせをオペレータに選択させるようにしてもよい。
【００７１】
最大クリーク検出部２３の検出結果によって、複数個の最大クリークが得られることがある。この場合には、最良照合検出部２４は、確率値の和が最大となる最大クリークを最終的なモデル照合結果として出力する。なお、この場合には、入力要素間の関係がページモデル中で定義されている要素モデルを用いて最終的なモデル照合結果を得る。こうして、モデル照合部６によって、入力文書を構成する各入力要素に一意的な文書論理要素種別が付与される。
【００７２】
モデル照合部６までの処理によって得られた入力文書のレイアウト要素及び文書論理要素は、図１に示すように、文書論理構造解析部８に供給される。文書論理構造解析部８は、文書論理構造（文書論理要素間の論理的な階層構造）を抽出する。なお、文書論理構造解析部８としては、例えば特許文献（特開２００２−９３０９２号公報）「文書処理装置および文書処理方法」に開示された手法を採用することができる。抽出された文書論理構造は、文書出力部９に与えられる。文書出力部９は、文書論理構造に基づいて、例えば、ＸＭＬタグ付け文書を出力することができるようになっている。
【００７３】
次に、このように構成された実施の形態の動作について図１３乃至図１７の説明図を参照して説明する。
【００７４】
本実施の形態においては、印刷文書に対する実際の文字認識の前に、文字認識を実行する印刷文書と同一種別の印刷文書をサンプル文書として用いて、文書論理要素モデルの構築を実行する。いま、図１３に示す印刷文書をサンプル文書として用いて文書論理要素モデルの構築を行うものとする。図１３に示すサンプル文書は、上端に「コミュニティベース知識協創プラットフォーム」という日本語の文書見出し及びその英語訳を有し、上端右側には印刷文書の著者名が記されている。著者名の下には、日本語及び英語のアブストラクトが記載されている。これらの前付けの下側は左右に分離され、左側には章見出しに続けてアブストラクトが記載され、右側には上から下に向かって、図、図のキャプション、章見出し及びアブストラクトが記載されている。更に、サンプル文書の下端には、フッタが表示されており、左側のフッタはページ番号を表し、右側のフッタは著作物名を表している。
【００７５】
レイアウト解析部１には、図１３の印刷文書の２値化された画像情報が入力される。レイアウト解析部１は、入力された文書画像に対するレイアウト解析処理を実行する。図１４はレイアウト解析処理の結果を図１３のレイアウトに対応させて示している。図１４において文章又は図形を囲む枠は、各部分領域を表す外接矩形を示す。図１４の斜線で示す外接矩形は図形領域を示し、その他の外接矩形は文章領域を示している。なお、図１４乃至図１７において、丸数字及び丸数字に続く文字列は、説明のためのものである。
【００７６】
レイアウト解析部１によって、印刷文書は、文章領域、表領域、図領域、写真／絵領域等の性質が異なる部分領域であるレイアウト要素群として抽出される。図１４は図１３の印刷文書に対するレイアウト解析結果を示しており、丸数字１〜７及び９〜１３にて示す文章領域と、丸数字８にて示す図形領域とを有している。なお、これらの領域を示す外接矩形は、その左上端の位置座標（ｘ１，ｙ１）と右下端の位置座標（ｘ２，ｙ２）により表現される。
【００７７】
また、図１４の例では、縦書きと横書きの文章領域は異なる領域として分離されて認識され、一つの文章領域はカラムをまたがって抽出されていない。また、図１４の例では、段落（パラグラフ）、箇条書き（リスト）、数式、章見出し等の文書論理要素に相当する領域は抽出されていない。文章領域と表領域は文字行領域が順序付けられて抽出されており、各文字行領域においても文字領域が同様に順序付けられて抽出されている。そして、文章領域（あるいは表領域）と文字行領域と文字領域とは、上述した図４の木構造によって記述されている。
【００７８】
レイアウト解析部１のレイアウト解析結果は文字認識部２に与えられる。文字認識部２は、レイアウト解析で得られた文字行領域から個々の文字領域を切り出したあと、文字領域内の文字パターンを文字コード情報に変換し、文字認識結果を最終的に読み順に並んだ状態で出力する。
【００７９】
レイアウト解析部１のレイアウト解析結果及び文字認識部２の文字認識結果は文書論理要素抽出部３に与えられる。文書論理要素抽出部３は、レイアウト解析結果を元にして、一般的な文書論理要素を抽出する。図１５は文書論理要素抽出部３による文書論理要素の抽出結果を示している。文書論理要素抽出部３によって、丸数字１〜７、９、１０及び１４の文章領域は「パラグラフ」と判定され、丸数字８，１３の文章領域は「章見出し」と判定され、丸数字１２の文章領域は「キャプション」と判定され、丸数字１５，１６の文章領域は「フッタ」と判定され、丸数字１１の図形領域は「図」と判定される。
【００８０】
レイアウト解析結果と文書論理要素の判定結果とは読み順決定部４に入力される。読み順決定部４は、レイアウト要素と文書論理要素の配置関係や幾何情報に基づいてそれぞれの領域の順序付けを行う。図１５の丸数字は１〜１６は、数字の大小によって、文書論理要素とレイアウト要素の領域に対する順序付けの結果を示している。
【００８１】
読み順決定部４からは、図１３の印刷文書に対するレイアウト解析処理、文字認識処理、文書論理要素抽出処理、読み順決定処理の処理結果である論理要素情報が出力される。図５は図１３の印刷文書に対応しており、図１５の丸数字１にて示す領域の論理要素情報を具体的に示している。
【００８２】
論理要素情報はモデル生成部５及びモデル照合部６に供給される。モデル生成部５の文書論理要素モデル生成部１１は、例えばＧＵＩ機能によって、所望の文書論理要素の指定及び定義を実行する。例えば、文書論理要素モデル生成部１１は、論理要素情報をディスプレイの画面上に表示させる。論理要素情報モデル生成部１１は、オペレータの操作によって、文書論理要素の指定及び定義を修正することができる。オペレータによる修正を可能にすることによって、文書論理要素モデルの精度を向上させることができる。
【００８３】
例えば、図１５の解析結果に対して、論理要素の領域及び属性等を修正することによって、図１６に示す文書論理要素を定義することができる。図１６では図１５の丸数字１の領域を、図１６の丸数字１，２に示す２つの領域に分離し、丸数字１を日本語文書見出しに設定し、丸数字２を英語文書見出しに設定する。同様に、図１５の丸数字２，３の領域については、図１６の丸数字３〜６に示す４つの領域に分離し、丸数字３，４を日本語著者に設定し、丸数字５，６を英語著者に設定する。更に、図１５の丸数字４，５の領域については日本語アブストラクト（図１６の丸数字７，８）に設定し、図１５の丸数字６，７の領域については、英語アブストラクト（図１６の丸数字９，１０）に設定する。
【００８４】
これらの定義は、例えば、マウス等を利用したＧＵＩ機能によって、オペレータが簡単に設定することができる。
【００８５】
文書論理要素モデル生成部１１の文書論理要素収集部１５は、各文書論理要素についての文書論要素特徴を検出する。例えば、図１６の領域１については、属性が「日本語文書見出し」であり、文字行数が「１」行で、文字数が「２１」で、言語種別が「日本語」で、文字行方向が「横」であること、更に、平均文字サイズ、要素の高さ、幅等が検出される。
【００８６】
モデル生成部５には、例えば、図１３に示す印刷文書と同一種別の複数の印刷文書についての解析結果が順次入力されており、モデル生成部５は同一種別の複数の印刷文書の文書論理要素特徴についての情報を収集する。そして、文書論理要素モデル生成部１１は、文書論理要素特徴を収集して、各特徴毎に確率分布を求める。文書要素特徴選択部１７は、例えば、確率分布の分散がしきい値以下の安定した文書論理要素特徴のみを用いて、文書論理要素モデルを構成する。
【００８７】
例えば、「日本語文書見出し」について、平均文字サイズ、要素の高さ、言語種別、文字行方向の各特徴は、同一種別の文書であれば同一である可能性が高く、確率分布の分散は比較的小さな値となり、安定した文書論理要素特徴となる。一方、例えば要素の幅については、文字数が異なることによって文書毎の変化が比較的大きいものと考えられる。即ち、要素の幅は不安定な文書論理要素特徴であり、確率分布の分散は比較的大きな値となる。従って、「日本語文書見出し」の文書論理要素モデルにおいては、平均文字サイズ、要素の高さ、言語種別、文字行方向によって文書論理要素特徴を定義する。
【００８８】
なお、文書論理要素特徴編集部１８は、オペレータの操作に基づいて、文書論理要素モデルを手動で定義し直すことができる。例えば、「日本語文書見出し」要素のモデルの文字行数の確率分布において下限を１行とし、上限を３行と設定することができる。この場合には、４行以上の文書論理要素が「日本語文書見出し」と判定されることは無くなる。
【００８９】
次に、文書論理要素間関係定義部１２は、文書論理要素モデルの学習の際に用いた文書画像をディスプレイに順次に表示して、オペレータに文書論理要素間の関係を定義させる。これにより、文書論理要素の隣接関係や順序関係や配置関係を定義することができ、入力文書画像を対象としたモデル照合時に制約として用いて処理精度を向上させることが可能となる。
【００９０】
例えば、図１６の例では、文書見出しグループとして「日本語文書見出し」、「英語文書見出し」がこの順で配列され、著者グループとして、１つ以上の「日本語著者」及び１つ以上の「英語著者」がこの順で配列され、更に、アブストラクトグループとして「日本語アブストラクト」、「英語アブストラクト」がこの順で配列され、これらによって前付けグループを構成するという文書理論要素間の関係を定義するのである。
【００９１】
こうして、同一種別の複数の印刷文書について求めた文書論理要素モデル及び文書論理要素モデル間の関係の情報がモデルデータベース７に供給されて記憶される。なお、モデルデータベース７には、他の種別の複数の印刷文書についても同様に処理が行われて、文書論理要素モデル及び文書論理要素モデル間の関係の情報が格納される。
【００９２】
次に、文字認識の対象となる印刷文書の２値データが入力されるものとする。この２値データについてもレイアウト解析部１、文字認識部２、文書論理要素抽出部３及び読み順決定部４によって処理が施されて、文書論理要素情報が得られる。この文書論理要素情報はモデル照合部６に供給される。
【００９３】
モデル照合部６の入力−モデル対応抽出部２１は、入力文書画像から抽出したレイアウト要素と一般的な文書論理要素の集合に対して、モデルデータベース７から読み出した既に定義済みである文書論理要素モデルを順次適用する。
【００９４】
図１７は図１６に対応した入力要素と文書論理要素モデルとの照合結果を示す説明図である。
【００９５】
モデル照合部６は図１６の各入力要素に対して順次文書論理要素モデルとの照合を行う。例えば、日本語文書見出しの文書論理要素モデルについては、安定した文書論理要素特徴である文字サイズ、文字行数、言語、文字行方向のそれぞれについて、上限値、下限値、確率分布が定義されているものとする。図１６の丸数字１の領域の特徴は、日本語文書見出しの文書論理要素特徴に略一致している。即ち、丸数字１の領域は、各文書論理要素モデルのうち、日本語文書見出しの文書論理要素モデルに対する総合的な確率値が他の文書論理要素モデルに対する確率値よりも高くなる。これにより、モデル照合部６の入力−モデル対応抽出部２１は、図１６の丸数字１の領域を図１７の丸数字１に示すように日本語文書見出しと判定する。
【００９６】
図１６の丸数字２の領域については、文字サイズ、文字行数、言語、文字行方向等の文書論理要素特徴が図１６の丸数字５の領域の「英語著者」と略々等しい。このため、図１７の例では、入力−モデル対応抽出部２１は、図１６の丸数字２の領域を、「英語文書見出し」及び「英語著者」の２つの可能性があるものと判定している。以後同様にして、入力−モデル対応抽出部２１は、図１６の全ての入力要素について、各文書論理要素モデルを適用して、論理要素種別及びその確率値を求める。
【００９７】
次に、連合グラフ構成部２２は図１７の照合結果に対して連合グラフを生成する。即ち、連合グラフ構成部２２は、図１７の「入力要素と要素モデルの組」のそれぞれにノードを割り当てて連合グラフを構成する。次に、既に定義済みのページモデルを連合グラフのノードの組に順次適用してノード間の両立性を判定してノード間にエッジを設定する。エッジが設定されていないノードは、要素間の関係に矛盾を有している。例えば、図１７の例では、丸数字２の「Ｄ：英語著者」のノード（以下、ノード２Ｄという）にはエッジが設定されない。同様に、図１７の例では、ノード１１Ａ，１５Ａ，１９Ｃにエッジが設定されない。
【００９８】
最大クリーク検出部２３は、連合グラフから両立可能なノードの最大集合、すなわち連合グラフにおける最大クリークを抽出することにより、共存可能な入力要素と要素モデルの対応の中で最大の組み合わせを検出する。そして、最良照合検出部２４は確率値の和が最大となる最大クリークを得、図１６に示す定義済みのページモデルを利用して、最終的なモデル照合結果を得る。こうして、入力文書を構成する文書論理要素には一意的な文書論理要素種別が付与される。
【００９９】
モデル照合部６からの入力文書のレイアウト要素と文書論理要素出力は文書論理構造解析部８に供給される。文書論理構造解析部８は、入力されたレイアウト要素と文書論理要素とに基づいて文書論理構造を抽出して文書出力部９に与える。文書出力部９は、入力された文書論理構造に基づいて、例えばＸＭＬタグ付け文書を出力する。
【０１００】
ＸＭＬタグ付き文書としては、以下に示すものが考えられる。この例は、図１３の印刷文書の丸数字１〜１３の領域に対応したものである。
【０１０１】
＜？ｘｍｌｖｅｒｓｉｏｎ＝”１．０” ｅｎｃｏｄｉｎｇ＝”Ｓｈｉｆｔ＿ＪＩＳ”？＞
＜ｈｔｍｌ＞
＜ｂｏｄｙ＞
＜ｄｉｖｃｌａｓｓ＝”ｆｒｏｎｔ”＞
＜ｐｃｌａｓｓ＝”ｔｉｔｌｅ”＞コミュニティベース知識協創プラットフォーム＜／ｐ＞
＜ｐｃｌａｓｓ＝”ｅ−ｔｉｔｌｅ”＞ＰｌａｔｆｏｒｍｆｏｒＣｏｍｍｕｎｉｔｙ−ＢａｓｅｄＣｏｌｌａｂｏｒａｔｉｖｅＫｎｏｗｌｅｄｇｅＣｒｅａｔｉｏｎ＜／ｐ＞
＜ｄｉｖｃｌａｓｓ＝”ａｕｔｈｏｒ”＞
＜ｐｃｌａｓｓ＝”ａｕｔｈｏｒ”＞梅木秀雄＜／ｐ＞
＜ｐｃｌａｓｓ＝”ｅ−ａｕｔｈｏｒ”＞ＵＭＥＫＩＨｉｄｅｏ＜／ｐ＞
＜ｐｃｌａｓｓ＝”ａｕｔｈｏｒ”＞堀川将幸＜／ｐ＞
＜ｐｃｌａｓｓ＝”ｅ−ａｕｔｈｏｒ”＞ＨＯＲＩＫＡＷＡＭａｓａｙｕｋｉ＜／ｐ＞＜／ｄｉｖ＞
＜ｄｉｖｃｌａｓｓ＝”ａｂｓｔｒａｃｔ”＞
＜ｐｃｌａｓｓ＝”ａｂｓｔｒａｃｔ”＞組織横断型プロジェクトやインターネットにおけるコミュニティ活動において，電子メールや掲示板などのコミュニケーション手段は不可欠である。＜／ｐ＞
＜ｐｃｌａｓｓ＝”ａｂｓｔｒａｃｔ”＞しかし，コミュニケーションによって生まれる知識は，膨大な情報の中に埋もれがちで，再利用しやすい形に整理し，維持することが困難である。＜／ｐ＞
＜ｐｃｌａｓｓ＝”ｅ−ａｂｓｔｒａｃｔ”＞Ｃｏｍｍｕｎｉｃａｔｉｏｎｔｏｏｌｓｓｕｃｈａｓｅ−ｍａｉｌａｎｄｂｕｌｌｅｔｉｎｂｏａｒｄｓａｒｅｅｓｓｅｎｔｉａｌｆｏｒｓｈａｒｉｎｇｔｈｏｕｇｈｔｓａｎｄｉｄｅａｓｉｎａｃｏｍｍｕｎｉｔｙｓｕｃｈａｓａｓｅｃｔｉｏｎ−ｔｒａｎｓｖｅｒｓｅｐｒｏｊｅｃｔｔｅａｍｉｎａｃｏｍｐａｎｙｏｒａｇｒａｓｓｒｏｏｔｓｏｒｇａｎｉｚａｔｉｏｎｏｎｔｈｅＩｎｔｅｒｎｅｔ．＜／ｐ＞
＜ｐｃｌａｓｓ＝”ｅ−ａｂｓｔｒａｃｔ”＞Ｈｏｗｅｖｅｒ，ｋｎｏｗｌｅｄｇｅｃｒｅａｔｅｄｔｈｒｏｕｇｈｓｕｃｈｃｏｍｍｕｎｉｃａｔｉｏｎｉｓｄｉｆｆｉｃｕｌｔｔｏｅｘｔｒａｃｔ，ｏｒｇａｎｉｚｅ，ａｎｄｍａｉｎｔａｉｎ．＜／ｐ＞
＜／ｄｉｖ＞
＜／ｄｉｖ＞
＜ｄｉｖｃｌａｓｓ＝”ｂｏｄｙ”＞
＜ｄｉｖｃｌａｓｓ＝”ｈ１”＞
＜ｈ１＞１まえがき＜／ｈ１＞
＜ｐ＞近年，企業では，組織のフラット化や組織横断型プロジェクトの推進など，問題意識やスキル（技能，見識）を共有するコミュニティの活動が重要視されつつある。また，インターネット上では，趣味のサークルやソフトウェア開発，ユーザー会，教育・育児関係などのネットワークコミュニティが数多く存在している。＜／ｐ＞
＜ｐ＞これらのコミュニティでは，主に電子メールや掲示板などの電子的なコミュニケーション手段を使って，情報交換や議論をしている。しかし，コミュニケーションでやり取りされる情報は，前後の文脈抜きでは理解できないため，議論をすべて追わないと何が議論され，どのような結論が得られたのかといった知識を共有することはできない。＜／ｐ＞
このようなＸＭＬタグ付き文書を利用することで、例えば、同一種別の複数の印刷文書から、「文章見出し」、「著者」及び「アブストラクト」のみを抽出して、アブストラクト集を作成すること等の編集を極めて簡単に行うことが可能となる。
【０１０２】
このように、本実施の形態においては、複数ページで構成される多様な印刷文書から、章見出し、パラグラフ、箇条書き、脚注、キャプション、数式、ヘッダ、フッタ等の一般的な文書論理要素と、文書見出し、著者、アブストラクト、日付等の文書固有の論理要素を自動的に抽出した後、ＸＭＬやＨＴＭＬでタグ付けされた構造化文書を高精度に生成することが可能となる。その際、文書ごとに処理の自動化を目的としたモデル／知識を自動的に生成することができ、さらにはオペレータにより処理精度の高上を目的としたモデル／知識の低コストで簡単な編集を可能としている。その結果、多様な印刷文書から高精度な構造化文書を自動的に得ることができるようになるので、大量文書の電子化および構造化におけるオペレータの編集作業を大幅に軽減することが可能となる。
【０１０３】
【発明の効果】
以上説明したように本発明によれば、既存のモデルから最適モデルを予測生成することにより、多様な印刷文書から各文書に固有の文書論理要素を自動的に抽出することができるという効果を有する。
【図面の簡単な説明】
【図１】本発明の一実施の形態に係る文書処理装置を示すブロック図。
【図２】レイアウト要素の外接矩形を示す説明図。
【図３】各外接矩形の定義を示す説明図。
【図４】文章領域、文字行領域及び文字領域の木構造を示す説明図。
【図５】論理要素情報を示す説明図。
【図６】図１中のモデル生成部５の具体的な構成を示すブロック図。
【図７】図６中の文書論理要素モデル生成部１１の具体的な構成を示すブロック図。
【図８】文書論理要素モデルの定義の一例を示す説明図。
【図９】図１中のモデル照合部６の具体的な構成を示すブロック図。
【図１０】連合グラフのノードを示す説明図。
【図１１】エッジの設定を説明するための説明図。
【図１２】最大クリークの検出を説明するための説明図。
【図１３】実施の形態の動作を説明するための説明図。
【図１４】実施の形態の動作を説明するための説明図。
【図１５】実施の形態の動作を説明するための説明図。
【図１６】実施の形態の動作を説明するための説明図。
【図１７】実施の形態の動作を説明するための説明図。
【符号の説明】
１…レイアウト解析部、２…文字認識部、３…文書論理要素抽出部、４…読み順決定部、５…モデル生成部、６…モデル照合部、７…モデルデータベース、８…文書論理構造解析部、９…文書出力部。

Claims

文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集手段と、
前記収集手段が収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段とを具備したことを特徴とする文書処理装置。
前記収集手段は、前記文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素を抽出するレイアウト解析手段と、
前記レイアウト解析手段の解析結果に基づいて、前記文書画像から前記部分領域の文書論理要素を抽出する文書論理要素抽出手段とを具備したことを特徴とする請求項１に記載の文書処理装置。
文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集手段と、
前記収集手段が収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段と、
前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析手段と、
前記レイアウト解析手段の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出手段と、
前記文書論理要素抽出手段が抽出した前記認識対象画像の文書論理要素と前記モデル生成手段が生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合手段とを具備したことを特徴とする文書処理装置。
前記収集手段は、前記レイアウト解析手段及び前記文書論理要素抽出手段によって前記レイアウト要素及び文書論理要素を取得することを特徴とする請求項３に記載の文書処理装置。
前記モデル生成手段は、前記文書論理要素を規定する全ての文書論理要素特徴のうちの所定の特徴によって前記文書論理要素毎の要素モデルを定義することを特徴とする請求項１又は３のいずれか一方に記載の文書処理装置。
前記モデル生成手段は、前記全ての文書論理要素特徴のうちの安定した特徴によって前記文書論理要素毎の要素モデルを定義することを特徴とする請求項５に記載の文書処理装置。
前記モデル生成手段は、前記全ての文書論理要素特徴の確率分布に従って安定した特徴であるか否かを判定することを特徴とする請求項６に記載の文書処理装置。
前記収集手段は、前記文書画像について、オペレータの操作に基づいて前記レイアウト要素及び文書論理要素を定義可能であることを特徴とする請求項１又は３のいずれか一方に記載の文書処理装置。
前記モデル生成手段は、前記要素モデル同士の関係についての情報を生成することを特徴とする請求項１又は３のいずれか一方に記載の文書処理装置。
前記モデル生成手段は、前記要素モデル同士の関係についての情報として、複数個の文書論理要素モデルからなるグループについて、文書論理要素の関係を求めることを特徴する請求項９に記載の文書処理装置。
前記モデル生成手段は、前記要素モデル同士の関係についての情報として、前記文書論理要素間の順序関係、隣接関係及び配置関係の少なくとも１つの関係についての情報を生成することを特徴とする請求項９又は１０のいずれか一方に記載の文書処理装置。
前記モデル生成手段は、前記要素モデル同士の関係についての情報を生成し、
前記照合手段は、前記認識対象画像の文書論理要素と前記モデル生成手段が生成した要素モデルとの照合結果と前記要素モデル同士の関係についての情報に基づいて、前記認識対象画像の文書論理要素の要素種別を決定する関係判定手段を具備したことを特徴とする請求項３に記載の文書処理装置。
前記関係判定手段は、前記認識対象画像の文書論理要素と前記要素モデルとの対応にノードを割り当て、前記要素モデル同士の関係についての情報に基づいて前記ノードの両立性を判定して前記ノード間にエッジを設定した連合グラフを用いることで、前記認識対象画像の文書論理要素と前記要素モデルとの最良の対応を判定することを特徴とする請求項１２に記載の文書処理装置。
前記関係判定手段は、前記連合グラフからクリークを抽出するクリーク抽出手段と、
前記クリーク抽出手段によって得られた複数個のクリークから１つを選択する選択手段を更に具備したことを特徴とする請求項１３記載の文書処理装置。
文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集処理と、
収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理とを具備したことを特徴とする文書処理方法。
文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集処理と、
収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理と、
前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析処理と、
前記レイアウト解析処理の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出処理と、
前記文書論理要素抽出処理において抽出した前記認識対象画像の文書論理要素と前記モデル生成処理において生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合処理とを具備したことを特徴とする文書処理方法。
コンピュータに、
文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集処理と、
収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理とを実行させるための文書処理プログラム。
コンピュータに、
文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の１つ以上の文書画像について収集する収集処理と、
収集した同一種別の１つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理と、
前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析処理と、
前記レイアウト解析処理の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出処理と、
前記文書論理要素抽出処理において抽出した前記認識対象画像の文書論理要素と前記モデル生成処理において生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合処理とを実行させるための文書処理プログラム。