JP2004178010A - 文書処理装置並びにその方法及びプログラム - Google Patents

文書処理装置並びにその方法及びプログラム Download PDF

Info

Publication number
JP2004178010A
JP2004178010A JP2002339999A JP2002339999A JP2004178010A JP 2004178010 A JP2004178010 A JP 2004178010A JP 2002339999 A JP2002339999 A JP 2002339999A JP 2002339999 A JP2002339999 A JP 2002339999A JP 2004178010 A JP2004178010 A JP 2004178010A
Authority
JP
Japan
Prior art keywords
document
logical element
logical
model
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002339999A
Other languages
English (en)
Inventor
Yasuto Ishitani
康人 石谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002339999A priority Critical patent/JP2004178010A/ja
Publication of JP2004178010A publication Critical patent/JP2004178010A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)

Abstract

【課題】印刷文書に記載されている情報を論理構造と共に抽出して文字認識する。
【解決手段】複数ページの印刷文書の文書画像からレイアウト要素を抽出すると共に、文書論理要素を抽出する。抽出した文書論理要素を規定する文書論理要素特徴のうち安定した特徴のみを用いて、文書論理要素毎のモデルを生成する。入力文書画像のレイアウト要素や論理要素に対して生成した文書論理要素モデルを適用して、各文書固有の論理要素を高精度に抽出する。文書論理要素をモデル化して入力要素との照合に用いており、モデルの生成に用いた文書画像と同一種別の文書画像については、論理要素の抽出が略可能となる。これにより、印刷文書から効率良くXML/HTML等のタグ付き文書を生成することができる。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、印刷文書に記載されている内容をその論理構造と共に抽出して文字認識する文書処理装置並びにその方法及びプログラムに関する。
【0002】
【従来の技術】
近年、スキャナ等で取込んだ画像データから文字を認識する文字認識システムが普及している。このような文字認識システムにおいては、新聞記事、雑誌、科学技術文献、書籍、オフィス文書、公文書等の印刷文書をスキャナ等の入力装置から文書画像としてコンピュータに取り込む。文字認識システムは、取込んだ画像情報に対して解析を行って文字領域を抽出した後、抽出した文字領域から文字パターンを切り出す。そして、文字認識技術を用いて切出した文字パターンをコード化してテキスト文書等を得るようになっている。
【0003】
ところで、一般的な文書は、その論理構成が文、段落、節、章、見出し等のように階層構造を有している。電子化された印刷文書の内容を再利用する場合には、印刷文書全体を単なる文字列として認識するだけでなく、このような階層構造(以下、論理構造という)を同時に認識した方が一層有効である。また、一般的には、各論理構造に対応してページ(紙面)上の幾何学的な配置の構造(以下、レイアウト構造という)が規定されている。
【0004】
非特許文献1においては、文書構造をこれらの“レイアウト構造”及び“論理構造”によって定義している。非特許文献1では、“レイアウト構造”は、テキスト、図、写真、表等の文書レイアウト要素の幾何情報(位置情報と大きさ情報)とそれらの階層的な配置関係を意味し、ブロック領域等のレイアウト情報を有するものと定義されている。また、非特許文献1では、“論理構造”は、論理意味情報(コンテンツ)に関する階層構造のことであり、章節等の論理要素を有するものと定義されている。
【0005】
文書画像から“論理構造”を取得する手法が種々開示されている。例えば、非特許文献2においては、レイアウト解析によって得られたレイアウト要素の幾何的階層構造(レイアウト構造)に対して、2,3の一般的なルールを適用することにより、論理構造に変換する方式について説明している。この場合、論理構造は木構造で表現されるが、それをルートから辿っていくと読み順が得られる。即ち、非特許文献2においては、小さいレイアウトブロックをヘッダとボディとに分け、レイアウトの形からヘッダとボディとを判断して、それに対応する論理構造を得るようになっている。
【0006】
また、新聞等のようにレイアウトが固定の文書に適用したものとして非特許文献3に開示の手法がある。非特許文献3においては、日本語新聞のレイアウト要素を隣接関係グラフで表現し、ルールに基づいてこのグラフを解釈することでタイトル(見出し)、本文、セパレータ、写真、図表で構成される記事を個別に抽出するようになっている。非特許文献3もレイアウトの階層構造から論理構造を予測するもので、新聞の場合のヘッダとボディに相当する見出し、パラグラフ、トピックス等の新聞に限定した論理構造を予測することができる。
【0007】
また、非特許文献4においては、レイアウト要素と1対1に対応する論理要素について表形式で簡単に表現されたモデルを入力文書のレイアウト解析結果に適用して、簡単な論理構造を抽出する手法が開示されている。即ち、非特許文献4においては、予めレイアウトに対応したテンプレートを用意し、テンプレート中の各レイアウト要素を論理要素に対応付けるようになっている。
【0008】
また、上記非特許文献1は、レイアウト構造と論理構造との対応関係を表す文書モデルを用いて入力文書に対して推論を適用することにより文書構造を抽出するものである。文書モデルは、構造の階層性を記述できるフレーム表現を採用しており、センタリング等のレイアウト記述を可能とし、各構成要素の変動の記述も可能にしている。即ち、非特許文献1においても、レイアウト要素毎に論理要素が対応付けられており、これにより、論理構造の抽出を可能にしている。
【0009】
また、非特許文献5では、入力文書をODA機能標準PM(プロセッサブルモード)26文書に自動マッピングする方式か提案されている。節構造解析により、複数ページから多段の章・節・段落を抽出・構造化し、表示属性解析により、字下げ、揃え、ハードリターン、オフセットを抽出する。また、ヘッダ/フッタ解析により、文書クラスの同定も可能としている。即ち、非特許文献5は、一般に各論理構造のレイアウトとして多用されている表示属性を利用して、論理構造を認識するようになっている。
【0010】
また、非特許文献6は、確率文法の枠組を用いて、複数ページに渡る章節構造とリスト構造を抽出するものである。即ち、非特許文献6は、認識後の単なる文字列(プレーンテキスト)の状態で論理構造を判断するようになっている。
【0011】
また、特許文献1においては、章見出し、パラグラフ、箇条書き、数式、脚注、ヘッダ、フッタ等の汎用的な文書論理要素を自動抽出し、それらに対して読み順を付与した後、文字認識結果を出力することを可能とした発明が提案されている。即ち、特許文献1は、レイアウト構造と文書的な内容の両方の情報を用いて論理構造を判断する。例えば、字下げされてハードリターンされている場合にはパラグラフと判断し、短い1行の文章については小見出しと判断する。
【0012】
また、特許文献2は、文書中に含まれるキーワード情報に基づいて文書の論理構造を解析し、解析結果をXMLタグ付き文書として出力することを可能とした発明が開示されている。例えば、特許文献2では、「会社」というキーワードによって、読み取り結果を組織名と判断する。
【0013】
【特許文献1】
特開平11−250041号公報
【0014】
【特許文献2】
特開2001−344562号公報
【0015】
【非特許文献1】
黄瀬他著「文書画像構造解析のための知識ベースの一構成法」、情処学論、Vol.34, No.1, PP75−87, (1993−1)
【0016】
【非特許文献2】
S.Tsujimoto著「Major Components of a Complete Text Reading System」, Proceedings of THE IEEE, Vol.80, No.7, July, 1992
【0017】
【非特許文献3】
駱他著「ルールベースの適用による日本語新聞紙紙面の構造認識」、信学論D−II, Vol.J75−D−II, No.9, pp.1514−1525, (1992−9)
【0018】
【非特許文献4】
山下他著「モデルに基づいた文書画像のレイアウト理解」、信学論D−II, Vol.J75−D−II, No.10, pp.1673−1681, (1992−10)
【0019】
【非特許文献5】
山田著「文書画像のODA論理構造化文書への変換方式」、信学論D−II, Vol.J76−D−II, No.11, pp.2274−2284, (1993−11)
【0020】
【非特許文献6】
建石著「確率文法を用いた文書論理構造の解釈法」、信学論D−II, Vol.J79−D−II, No.5, pp.687−697, (1996−5)
【0021】
【発明が解決しようとする課題】
このように、各種印刷文書の内容を電子化して利用する場合には、先ず、印刷文書をイメージスキャナによって画像データとしてコンピュータに取り込み、取込んだ画像データに対してレイアウト構造及び論理構造を抽出して対応付け、更に、画像データから切出した文字パターンに対して文字認識処理を行って、認識結果を読み順通りに出力するようになっている。
【0022】
この場合には、レイアウト構造に対応させて各論理要素を抽出することで、電子化文書の有効利用を促進することができる。しかしながら、上述した特許文献2,3においては、ヘッダとボディのレイアウト構造を認識することができるのみである。また、上述した非特許文献1,4においては、論理要素を抽出するためには予めレイアウト構造が分かっていることが前提である。しかも、論理要素を抽出するためには、レイアウト構造に応じてプログラムを記述しておく必要がある。また、非特許文献5,6においては、レイアウト構造を判断せずに論理要素を抽出しており、必ずしも確実に論理要素を抽出することができるとは限らない。
【0023】
また、特許文献1は、汎用的な文書論理要素を予め決めておく必要がある。また、特許文献2は、キーワードを用いた検出を行っており、種々の論理要素を確実に検出することができるとは限らない。
【0024】
このように、上述した各文献では、特定のレイアウト条件下の印刷文書から特定の論理要素を抽出することはできるが、多様な印刷文書全般にわたって、詳細に解析してユーザが所望の論理情報を柔軟に抽出することはできないという問題点があった。また、論理要素を抽出するためには、処理プログラムや知識といった形式で設計者がシステムに与えなければならず、システムに関する知識を有していない一般的なユーザが所望の論理要素を抽出するための知識を簡単に定義して、外部からシステムに与えることはできないという問題点もあった。
【0025】
本発明はかかる問題点に鑑みてなされたものであって、既存のモデルから最適モデルを予測生成することにより、多様な印刷文書から各文書に固有の文書論理要素を自動的に抽出することができる文書処理装置並びにその方法及びプログラムを提供することを目的とする。
【0026】
【課題を解決するための手段】
本発明の請求項1に係る文書処理装置は、文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集手段と、前記収集手段が収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段とを具備したものであり、
本発明の請求項3に係る文書処理装置は、文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集手段と、前記収集手段が収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段と、前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析手段と、前記レイアウト解析手段の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出手段と、前記文書論理要素抽出手段が抽出した前記認識対象画像の文書論理要素と前記モデル生成手段が生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合手段とを具備したものである。
【0027】
本発明の請求項1において、収集手段は、同一種別の1つ以上の文書画像について、各文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を収集する。モデル生成手段は、同一種別の1つ以上の文書画像について収集したレイアウト要素及び文書論理要素に基づいて、文書論理要素毎の要素モデルを生成する。同一種別の文書画像であれば、レイアウト及び文書論理構造は類似していると考えることができる。文書論理要素をモデル化することによって、収集手段が収集した文書画像以外の文書画像についても、同一種別の類似した文書画像であれば、各文書論理要素に対する要素モデルを用いた論理要素種別の決定が可能になる。
【0028】
本発明の請求項3において、収集手段が収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて、モデル生成手段は、文書論理要素毎の要素モデルを生成する。レイアウト解析手段は、認識対象画像のレイアウト要素を抽出し、文書論理要素抽出手段は、認識対象画像から文書論理要素を抽出する。抽出された文書論理要素と要素モデルとは照合手段によって照合され、認識対象画像の文書論理要素の要素種別が決定される。この場合には、文書論理要素がモデル化されていることから、同一種別の類似した文書画像であれば、文書論理要素と要素モデルとの照合によって、論理要素種別は確実に決定される。
【0029】
なお、装置に係る本発明は方法に係る発明としても成立する。
【0030】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実行させるためのプログラムとしても成立する。
【0031】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の一実施の形態に係る文書処理装置を示すブロック図である。
【0032】
本実施の形態は同一種別の複数のサンプル文書について、論理要素の特徴のうち安定した特徴を用いてモデル(論理要素モデル)を生成し、生成した各論理要素モデルと入力要素との照合によって、印刷文書の論理構造を取得するものである。これにより、ユーザが設定した論理構造以外の論理構造の文書についても、同一種別の文書については、自動的に論理構造を認識した文字認識が可能である。
【0033】
なお、本実施の形態はスキャナ等から入力された複数枚の文書画像から情報を抽出・編集して、例えばXML技術を用いて記述されたタグ付き構造化文書を生成するものに適用した例を示している。
【0034】
1枚以上の印刷文書はスキャナ等の画像入力装置(図示せず)によって連続する複数枚の文書画像に変換される。この文書画像は2値化処理による2値画像である。また、文献「鈴木、窪田:“補間と凸判定に基づくストローク抽出を用いた低解像度文書画像の2値化”、電子情報通信学会、パターン認識・理解研究会、技術報告、PRMU99−231、pp1−8、2000」に基づいた公知の技術により2値画像に変換されてもよい。2値画像はさらに公知例である「特開平5−174183号公報に開示の文書画像傾き検出方式」により画像の傾きが検出・補正されて2値画像に変換されてもよい。以下、説明の簡略化のために、入力画像はこのような傾き補正された2値画像であるものとする。
【0035】
レイアウト解析部1には、このように2値化された画像情報が入力される。レイアウト解析部1は、順次入力される文書画像を1枚の文書画像毎にレイアウト解析処理を実行する。即ち、レイアウト解析部1は、入力画像から文章領域、表領域、図領域、写真/絵領域等の性質の異なる部分領域を、レイアウト要素群として抽出する。レイアウト要素は、例えば、各部分領域に外接する矩形により表現される。
【0036】
図2はレイアウト要素の外接矩形を示す説明図であり、図3は各外接矩形の定義を示す説明図である。図2の例では、外枠で示す文章領域TBは、斜線で示す複数の文字行領域Str(Str1,Str2,…)を含んでいる。各文字行領域Strは、複数の文字領域Ch(Ch1,Ch2,…)を含んでいる。これらの各部分領域を規定する外接矩形は、図3に示すように、その左上端の位置座標(x1, y1)と右下端の位置座標(x2, y2)により表現することができる。レイアウト解析部1としては、例えば、公知である「特開平9−167233号公報に開示の画像処理方法および画像処理装置」によって構成することができる。
【0037】
レイアウト解析では、縦書きと横書きの文章領域は異なる領域として分離されて出力されるものとする。また、1つの文章領域はカラムをまたがって抽出されることがないものとする。なお、レイアウト解析では、段落(パラグラフ)、箇条書き(リスト)、数式、章見出し等の文書論理要素に相当する領域が抽出されるとは限らない。また、レイアウト解析では、文章領域と表領域では、文字行領域が順序付けられて抽出されており、各文字行領域では文字領域が同様に順序付けられて抽出される。この文字行領域と文字領域はそれぞれを外接する矩形により表現される。文章領域(あるいは表領域)と文字行領域と文字領域とは、夫々例えば図4の説明図にて示す木構造によって階層的に記述することができる。
【0038】
文字認識部2は、レイアウト解析で得られた文字行領域から個々の文字領域を切り出したあと、文字領域内の文字パターンを文字コード情報に変換する。文字認識部2は、文字認識結果を最終的に読み順に並んだ状態で出力する。文字認識部2としては、例えば、公知技術「有吉:“動的な仮説生成・検証による日本語印刷文書からの文字の切り出し”,電子情報通信学会技術報告,PRU93−47, pp.33−40, 1993.」に開示されている手法を採用することができる。
【0039】
なお、本実施の形態においては、文字認識部2において、レイアウト解析の直後に文字認識処理を実施して文章領域の各文字をコード化したが、文字認識部2を省略して、レイアウト解析部1において文字認識処理を行って、文章領域の各文字をコード化するようにしてもよい。
【0040】
文書論理要素抽出部3には、レイアウト解析部1からのレイアウト解析結果及び文字認識部2の文字認識結果が入力される。文書論理要素抽出部3は、レイアウト解析結果で示される文章領域から段落、ヘッダ、フッタ、キャプション(図表の標題)、箇条書き、章見出し、脚注、数式等の一般的な文書論理要素を抽出する。なお、各文書論理要素の領域(論理要素領域)はその外接矩形で表現され、その内部に文字行領域が存在し、文字行領域の内部に文字領域が存在し、文書論理要素と文字行領域と文字領域とが木構造により階層的に記述されている。そして、各文書論理要素には、段落、ヘッダ、フッタ、キャプション(図表標題)、箇条書き、章節見出し、脚注、数式等の種類情報が論理属性として割り当てられるようになっている。なお、文書論理要素抽出方法としては、例えば、公知技術である上記特許文献1の技術を採用することができる。
【0041】
読み順決定部4には、レイアウト解析部1のレイアウト解析によって抽出された部分領域の情報と文書論理要素抽出部3によって抽出された文書論理要素とが与えられる。読み順決定部4は、レイアウト要素と文書論理要素の配置関係や幾何情報に基づいて、各領域の順序付けを行う。読み順決定方法としても、例えば上述した特許文献1で開示されている手法を採用することができる。
【0042】
こうして、各文書画像に対して、レイアウト解析処理、文字認識処理、文書論理要素抽出処理及び読み順決定処理が適用されて、文書画像が1つ以上の論理要素領域に分割され、更に各論理要素領域毎に、属性、読み順、文字行方向、文字認識結果及び文字行領域等の特徴(以下、文書論理要素特徴という)からなる内部データ(以下、論理要素情報という)が生成される。図5は論理要素情報の一例を示す説明図である。1つの文書画像は、複数の論理要素領域に分割され、各領域は、属性や読み順等の論理要素情報を有する。この論理要素情報は、モデル生成部5及びモデル照合部6に供給されるようになっている。
【0043】
図6は図1中のモデル生成部5の具体的な構成を示すブロック図である。
【0044】
モデル生成部5は、文書論理要素モデル生成部11及び文書論理要素間関係定義部12によって構成されている。本実施の形態においては、モデル生成部5は、オペレータの指示に従って、印刷文書複数枚分の文書論理要素の指定及び定義を修正すると共に、新たな指定及び定義を作成することができるようになっている。そして、モデル生成部5は、複数枚の印刷文書の画像情報から自動的に生成された文書論理要素の情報又はオペレータの指示に従って修正若しくは生成された文書論理要素の情報に基づいて、文書論理要素をモデル化するようになっている。
【0045】
本実施の形態においては、モデル生成部5は、モデル化に際して、論理要素情報の各文書論理要素特徴に自由度を設定する。これにより、同一種別の文書については、文書画像に対してオペレータによる論理構造の指定又は定義と異なる論理構造を有している場合でも、読み込んだ文書画像の論理構造を認識することを可能にしている。
【0046】
なお、オペレータは、ディスプレイ装置を利用したGUI機能を用いることで、文書論理要素の指定及び定義の修正を簡単な操作で実行することができようになっている。例えば、モデル生成部5は、印刷文書複数枚分の論理要素情報を図示しないディスプレイ装置に順次与えて、論理要素情報をオペレータに表示させ、オペレータの入力操作に応じて、各論理要素を論理要素領域の変更も含み、所望の文書論理要素の指定及び定義の更新及び修正をする。
【0047】
図7は図6中の文書論理要素モデル生成部11の具体的な構成を示すブロック図である。
【0048】
文書論理要素モデル生成部11は、文書論理要素収集部15、文書要素特徴抽出部16、文書要素特徴選択部17及び文書要素特徴編集部18によって構成されている。本実施の形態においては、文書論理要素収集部15は、文書論理要素のモデル化のために、文書論理要素の学習を行う。即ち、文書論理要素収集部15は、先ず、複数の文書論理要素のうち学習の対象となる文書論理要素に、その種別を示す文書論理要素種別(文書論理要素の属性)を付与する。なお、上述したように、文書論理要素収集部15は、オペレータの指示に従って、文書論理要素に付与する属性を手動で修正することもできる。そして、文書論理要素収集部15は、複数の文書画像から同一の文書論理要素種別を有する文書論理要素を収集するようになっている。
【0049】
文書論理要素特徴抽出部16は、同一の属性を有する文書論理要素群から例えば以下の文書論理要素特徴についての確率分布を算出する。
【0050】
・平均文字サイズの確率分布
・要素の高さの確率分布
・要素の幅の確率分布
・文字行数の確率分布
・言語種別の確率分布
・文字行方向の確率分布
文書要素特徴選択部17は、これらの文書論理要素特徴の確率分布の組み合わせによって、文書論理要素モデルを構築する。なお、各々の確率分布が正規分布に従っているものとみなすと、確率関数P(X)は下記(1)式にて与えられる。
【0051】
Figure 2004178010
また、このとき、平均μと分散σは最尤推定法により、下記(2)式で与えられる。ここで、xは収集された要素から検出された特徴値である。
【0052】
Figure 2004178010
文書要素特徴選択部17は、確率分布の分散が所定の閾値以下の文書論理要素特徴を安定した特徴とみなし、そうでないものを不安定な特徴とみなす。そして、文書要素特徴選択部17は文書論理要素モデルの全ての文書論理要素特徴のうち安定した特徴と判定した文書論理要素特徴のみを選択して、選択した特徴を用いて論理要素を判定する文書論理要素モデルを構築するようになっている。
【0053】
図8は文書論理要素モデルの定義の一例を示す説明図である。
【0054】
図8の例では、文書論理要素モデルは、要素種別の情報、平均文字サイズ、要素の高さ、要素の幅、文字行数、言語種別、文字行方向の文書論理要素特徴を備えている。なお、各文書論理要素特徴のうち「実施」は、その文書論理要素特徴を文書論理要素モデルの定義に用いるか否かを示している。
【0055】
更に、本実施の形態においては、オペレータは、文書要素特徴選択部17が生成した文書論理要素モデルを、文書論理要素特徴編集部18によって修正することもできるようになっている。例えば、文書論理要素特徴編集部18は図示しないディスプレイ装置の表示画面上に、文書論理要素モデルの特徴抽出結果を表示させることができる。そして、文書論理要素特徴編集部18は、ディスプレイ装置を利用したGUI機能を用いたオペレータの入力操作に応じて、文書論理要素を構成する特徴の任意の組み合わせ選択することにより文書論理要素モデルを手動で定義することができるようになっている。
【0056】
また、文書論理要素特徴編集部18は、図8に示すように、各文書論理要素特徴の確率分布において有効範囲(上限値と下限値)を設定することも可能である。文書論理要素のうちの所定の要素、例えば文書見出しの行数の上限・下限を設定することができる。例えば、文書論理要素特徴編集部18が文書見出し要素のモデルの文字行数の確率分布において下限を1行とし、上限を3行と設定した場合には、4行以上の文書論理要素が文書見出しとなる確率が0%となる。
【0057】
ところで、文書内の異なる属性の文書論理要素であっても、これらの文書論理要素モデルに定義された文書論理要素特徴が一致していることが考えられる。この場合には、文書論理要素特徴選択部17及び文書論理要素特徴編集部18において生成された文書論理要素モデルを単に用いただけでは、文書論理構造を正しく認識することができないことがある。この場合でも、各文書論理要素同士の順序関係から文書論理要素を判断することができることがある。
【0058】
そこで、本実施の形態においては、生成した文書論理要素モデルの精度を向上させるために、文書論理要素間の関係を定義するようになっている。即ち、文書論理要素間関係定義部12は、文書論理要素の隣接関係や順序関係や配置関係を定義する。文書論理要素間関係定義部12は、各文書画像に対するレイアウト解析処理、文字認識処理、文書論理要素抽出処理及び読み順決定処理によって得られた論理要素情報に従って、或いはオペレータの操作に従って、文書論理要素の隣接関係や順序関係や配置関係を定義する。この定義を、入力文書画像と文書論理要素モデルとの照合(以下、モデル照合という)時に、文書論理要素を決定するための制約として用いることで処理精度を向上させることが可能である。即ち、モデル照合時には、定義を満足しない文書論理要素の判定結果は誤りであるものと判断するのである。
【0059】
ところで、例えば隣接する複数の文書論理要素同士は、相互に関係を有してグループを構成することがある。例えば、同一の内容を複数の言語で提示した複数の文書論理要素同士はグループを構成する。この場合には、文書論理要素間関係定義部12は、複数個の文書論理要素を同時に選択してグループを構成し、各グループにおいて、文書論理要素に順序付き番号を付与することで、要素間の順序関係を定義する。定義された順序関係を用いることで入力文書要素に対するモデル照合時の精度を向上させることができる。また、例えば、文書論理要素間関係定義部12は、グループ内の2つの要素を隣接している組として定義することもある。この場合には、入力文書中ではそれらは組の文書論理要素は、隣接すべきであることが示される。また、文書論理要素間関係定義部12において文書論理要素のグループが生成されない場合には、印刷文書中で要素間の関係は定義されない。
【0060】
なお、文書論理要素間関係定義部12は、例えば、文書論理要素モデルの学習の際に用いた複数枚の印刷文書の文書画像をディスプレイ装置に順次表示させて、GUI機能を用いたオペレータの操作に従って、文書論理要素間の関係を定義することができるようになっている。
【0061】
モデル生成部5によって生成された文書論理要素モデル及び各文書論理要素モデル同士の関係についての情報はモデルデータベース7に供給されるようになっている。モデルデータベース7は、文書種別毎に、モデル生成部5において生成された文書論理要素モデル及び各文書論理要素モデル同士の関係についての情報を蓄積するようになっている。モデル生成部5はモデルデータベース7に蓄積された情報をモデル照合部6に供給するようになっている。
【0062】
モデル照合部6は、認識対象の文書画像に対するレイアウト解析処理、文字認識処理、文書論理要素抽出処理及び読み順決定処理が適用されて得られた各論理要素及びレイアウト要素の集合(以下、単に入力要素という)に対して、モデルデータベース7の情報を適用することで、各文書画像内の入力要素の論理要素種別を決定するようになっている。
【0063】
図9は図1中のモデル照合部6の具体的な構成を示すブロック図である。
【0064】
モデル照合部6は、入力−モデル対応抽出部21、連合グラフ構成部22、最大クリーク検出部23及び最良照合検出部24によって構成されている。入力−モデル対応抽出部21ではまず、入力文書画像から抽出したレイアウト要素と一般的な文書論理要素の集合に対して、既に定義済みである文書論理要素モデルを順次適用する。即ち、モデル照合部6には、論理構造の解析を行おうとする文書と同一種別の文書についての文書論理要素モデルがモデルデータベース7から与えられ、この文書論理要素モデルに定義されている文書論理要素特徴についての確率値を算出する。
【0065】
例えば、文書見出しの要素モデルでは、文字サイズ、文字行数、言語、文字行方向のそれぞれについて、上限値、下限値、確率分布が定義されているものとすると、入力−モデル対応抽出部21は、それらを用いて入力要素の文字サイズ、文字行数、言語、文字行方向の確率値を計算する。このように入力要素の複数個の幾何パラメータにおいて確率値が得られた場合には、それらの平均値を対応するモデル要素に対する総合的な確率値であると見なす。
【0066】
入力−モデル対応抽出部21は、各入力要素に対してすべての文書論理要素モデルの確率値を計算する。文書論理要素モデルに対する入力要素の確率値があらかじめ定めたしきい値以下である場合には、それらの対応が成立しないと見なすこともある。こうして、各入力要素には対応するモデルの論理要素種別とその確率値が付与される。
【0067】
上述したように、文書論理要素モデルを単に入力要素に適用しただけでは定義された文書論理要素特徴が一致しその確率値が一致していることによって、入力要素に適切な文書論理要素種別を決定することができないことがある。例えば、入力要素によっては対応するモデル要素が存在しなかったり、複数個のモデルが対応していてそれぞれの確率値が得られていたりする場合がある。そこで、本実施の形態においては、部連合グラフ法を用いた関係判定手段によって、共存可能な入力要素と要素モデルの対応の中で最良の組み合わせを検出するようになっている。
【0068】
関係判定手段の一部を構成する連合グラフ構成部22は、入力−モデル対応抽出部21で得られた「入力要素と文書論理要素モデルとの対応の組」のそれぞれにノードを割り当てて連合グラフを構成する。図10は連合グラフのノードを示す説明図である。図10の枠内の数字及び英字の組み合わせによって各ノードが規定されている。各ノードの数字は入力要素に対応し、英字は入力要素に対応すると判定された文書論理要素モデルを示している。例えば、図10の例では、数字“2”の2つの入力要素に対して“B”,“D”の2つの文書論理要素モデルが対応していると判定されたことが分かる。また、例えば、数字“7”,“8”の2つの入力要素は、いずれも同一の文書論理要素モデル“E”が対応すると判定されたことが分かる。
【0069】
連合グラフ構成部22は、文書論理要素間関係定義部12において既に定義済みのページモデルを利用して、連合グラフのノードの組に順次適用してノード間の両立性を判定することでノード間にエッジを設定する。図11はエッジの設定を説明するための説明図である。連合グラフ構成部22は、連合グラフから2つのノードを組として抽出し、それらがページモデルで定義されている要素モデル間の関係と矛盾しないか否かを調べる。具体的には、2つのノードから入力要素の組と要素モデルの組を抽出する。入力要素間の関係がページモデル中で定義されている当該要素モデル間の関係と整合が取れている(矛盾してない)か否かを調べる。さらに、入力要素が同一であるか否かを調べてノードの組における対応関係の無矛盾性について評価する。連合グラフ構成部22は、ノードの組において矛盾が無いことを確認した場合にノード間にエッジを設定するようになっている。連合グラフ構成部22は、このような処理を連合グラフにおけるすべてのノードの組に対して行い、要素間の関係が矛盾しないすべてのノードの組の間にエッジを設定する。図11の例では、例えば、ノード“2B”,“2D”相互間にはエッジが設定されていない。
【0070】
最大クリーク検出部23は、エッジが設定された連合グラフから両立可能なノードの最大集合、すなわち連合グラフにおける最大クリークを抽出することにより、共存可能な入力要素と要素モデルの対応の中で最大の組み合わせを検出する。図12は最大クリークの検出を説明するための説明図である。図12の例では、最大クリーク検出部23は、ノード“2D”,“11A”,“20C”,“16A”については存在しない組み合わせであるものと判定する。最大クリーク検出部23は、例えば、最大クリークを与える組み合わせのみを出力するようにしてもよく、また、可能な全ての組み合わせを順次画面に表示してその中から任意の組み合わせをオペレータに選択させるようにしてもよい。
【0071】
最大クリーク検出部23の検出結果によって、複数個の最大クリークが得られることがある。この場合には、最良照合検出部24は、確率値の和が最大となる最大クリークを最終的なモデル照合結果として出力する。なお、この場合には、入力要素間の関係がページモデル中で定義されている要素モデルを用いて最終的なモデル照合結果を得る。こうして、モデル照合部6によって、入力文書を構成する各入力要素に一意的な文書論理要素種別が付与される。
【0072】
モデル照合部6までの処理によって得られた入力文書のレイアウト要素及び文書論理要素は、図1に示すように、文書論理構造解析部8に供給される。文書論理構造解析部8は、文書論理構造(文書論理要素間の論理的な階層構造)を抽出する。なお、文書論理構造解析部8としては、例えば特許文献(特開2002−93092号公報)「文書処理装置および文書処理方法」に開示された手法を採用することができる。抽出された文書論理構造は、文書出力部9に与えられる。文書出力部9は、文書論理構造に基づいて、例えば、XMLタグ付け文書を出力することができるようになっている。
【0073】
次に、このように構成された実施の形態の動作について図13乃至図17の説明図を参照して説明する。
【0074】
本実施の形態においては、印刷文書に対する実際の文字認識の前に、文字認識を実行する印刷文書と同一種別の印刷文書をサンプル文書として用いて、文書論理要素モデルの構築を実行する。いま、図13に示す印刷文書をサンプル文書として用いて文書論理要素モデルの構築を行うものとする。図13に示すサンプル文書は、上端に「コミュニティベース知識協創プラットフォーム」という日本語の文書見出し及びその英語訳を有し、上端右側には印刷文書の著者名が記されている。著者名の下には、日本語及び英語のアブストラクトが記載されている。これらの前付けの下側は左右に分離され、左側には章見出しに続けてアブストラクトが記載され、右側には上から下に向かって、図、図のキャプション、章見出し及びアブストラクトが記載されている。更に、サンプル文書の下端には、フッタが表示されており、左側のフッタはページ番号を表し、右側のフッタは著作物名を表している。
【0075】
レイアウト解析部1には、図13の印刷文書の2値化された画像情報が入力される。レイアウト解析部1は、入力された文書画像に対するレイアウト解析処理を実行する。図14はレイアウト解析処理の結果を図13のレイアウトに対応させて示している。図14において文章又は図形を囲む枠は、各部分領域を表す外接矩形を示す。図14の斜線で示す外接矩形は図形領域を示し、その他の外接矩形は文章領域を示している。なお、図14乃至図17において、丸数字及び丸数字に続く文字列は、説明のためのものである。
【0076】
レイアウト解析部1によって、印刷文書は、文章領域、表領域、図領域、写真/絵領域等の性質が異なる部分領域であるレイアウト要素群として抽出される。図14は図13の印刷文書に対するレイアウト解析結果を示しており、丸数字1〜7及び9〜13にて示す文章領域と、丸数字8にて示す図形領域とを有している。なお、これらの領域を示す外接矩形は、その左上端の位置座標(x1, y1)と右下端の位置座標(x2, y2)により表現される。
【0077】
また、図14の例では、縦書きと横書きの文章領域は異なる領域として分離されて認識され、一つの文章領域はカラムをまたがって抽出されていない。また、図14の例では、段落(パラグラフ)、箇条書き(リスト)、数式、章見出し等の文書論理要素に相当する領域は抽出されていない。文章領域と表領域は文字行領域が順序付けられて抽出されており、各文字行領域においても文字領域が同様に順序付けられて抽出されている。そして、文章領域(あるいは表領域)と文字行領域と文字領域とは、上述した図4の木構造によって記述されている。
【0078】
レイアウト解析部1のレイアウト解析結果は文字認識部2に与えられる。文字認識部2は、レイアウト解析で得られた文字行領域から個々の文字領域を切り出したあと、文字領域内の文字パターンを文字コード情報に変換し、文字認識結果を最終的に読み順に並んだ状態で出力する。
【0079】
レイアウト解析部1のレイアウト解析結果及び文字認識部2の文字認識結果は文書論理要素抽出部3に与えられる。文書論理要素抽出部3は、レイアウト解析結果を元にして、一般的な文書論理要素を抽出する。図15は文書論理要素抽出部3による文書論理要素の抽出結果を示している。文書論理要素抽出部3によって、丸数字1〜7、9、10及び14の文章領域は「パラグラフ」と判定され、丸数字8,13の文章領域は「章見出し」と判定され、丸数字12の文章領域は「キャプション」と判定され、丸数字15,16の文章領域は「フッタ」と判定され、丸数字11の図形領域は「図」と判定される。
【0080】
レイアウト解析結果と文書論理要素の判定結果とは読み順決定部4に入力される。読み順決定部4は、レイアウト要素と文書論理要素の配置関係や幾何情報に基づいてそれぞれの領域の順序付けを行う。図15の丸数字は1〜16は、数字の大小によって、文書論理要素とレイアウト要素の領域に対する順序付けの結果を示している。
【0081】
読み順決定部4からは、図13の印刷文書に対するレイアウト解析処理、文字認識処理、文書論理要素抽出処理、読み順決定処理の処理結果である論理要素情報が出力される。図5は図13の印刷文書に対応しており、図15の丸数字1にて示す領域の論理要素情報を具体的に示している。
【0082】
論理要素情報はモデル生成部5及びモデル照合部6に供給される。モデル生成部5の文書論理要素モデル生成部11は、例えばGUI機能によって、所望の文書論理要素の指定及び定義を実行する。例えば、文書論理要素モデル生成部11は、論理要素情報をディスプレイの画面上に表示させる。論理要素情報モデル生成部11は、オペレータの操作によって、文書論理要素の指定及び定義を修正することができる。オペレータによる修正を可能にすることによって、文書論理要素モデルの精度を向上させることができる。
【0083】
例えば、図15の解析結果に対して、論理要素の領域及び属性等を修正することによって、図16に示す文書論理要素を定義することができる。図16では図15の丸数字1の領域を、図16の丸数字1,2に示す2つの領域に分離し、丸数字1を日本語文書見出しに設定し、丸数字2を英語文書見出しに設定する。同様に、図15の丸数字2,3の領域については、図16の丸数字3〜6に示す4つの領域に分離し、丸数字3,4を日本語著者に設定し、丸数字5,6を英語著者に設定する。更に、図15の丸数字4,5の領域については日本語アブストラクト(図16の丸数字7,8)に設定し、図15の丸数字6,7の領域については、英語アブストラクト(図16の丸数字9,10)に設定する。
【0084】
これらの定義は、例えば、マウス等を利用したGUI機能によって、オペレータが簡単に設定することができる。
【0085】
文書論理要素モデル生成部11の文書論理要素収集部15は、各文書論理要素についての文書論要素特徴を検出する。例えば、図16の領域1については、属性が「日本語文書見出し」であり、文字行数が「1」行で、文字数が「21」で、言語種別が「日本語」で、文字行方向が「横」であること、更に、平均文字サイズ、要素の高さ、幅等が検出される。
【0086】
モデル生成部5には、例えば、図13に示す印刷文書と同一種別の複数の印刷文書についての解析結果が順次入力されており、モデル生成部5は同一種別の複数の印刷文書の文書論理要素特徴についての情報を収集する。そして、文書論理要素モデル生成部11は、文書論理要素特徴を収集して、各特徴毎に確率分布を求める。文書要素特徴選択部17は、例えば、確率分布の分散がしきい値以下の安定した文書論理要素特徴のみを用いて、文書論理要素モデルを構成する。
【0087】
例えば、「日本語文書見出し」について、平均文字サイズ、要素の高さ、言語種別、文字行方向の各特徴は、同一種別の文書であれば同一である可能性が高く、確率分布の分散は比較的小さな値となり、安定した文書論理要素特徴となる。一方、例えば要素の幅については、文字数が異なることによって文書毎の変化が比較的大きいものと考えられる。即ち、要素の幅は不安定な文書論理要素特徴であり、確率分布の分散は比較的大きな値となる。従って、「日本語文書見出し」の文書論理要素モデルにおいては、平均文字サイズ、要素の高さ、言語種別、文字行方向によって文書論理要素特徴を定義する。
【0088】
なお、文書論理要素特徴編集部18は、オペレータの操作に基づいて、文書論理要素モデルを手動で定義し直すことができる。例えば、「日本語文書見出し」要素のモデルの文字行数の確率分布において下限を1行とし、上限を3行と設定することができる。この場合には、4行以上の文書論理要素が「日本語文書見出し」と判定されることは無くなる。
【0089】
次に、文書論理要素間関係定義部12は、文書論理要素モデルの学習の際に用いた文書画像をディスプレイに順次に表示して、オペレータに文書論理要素間の関係を定義させる。これにより、文書論理要素の隣接関係や順序関係や配置関係を定義することができ、入力文書画像を対象としたモデル照合時に制約として用いて処理精度を向上させることが可能となる。
【0090】
例えば、図16の例では、文書見出しグループとして「日本語文書見出し」、「英語文書見出し」がこの順で配列され、著者グループとして、1つ以上の「日本語著者」及び1つ以上の「英語著者」がこの順で配列され、更に、アブストラクトグループとして「日本語アブストラクト」、「英語アブストラクト」がこの順で配列され、これらによって前付けグループを構成するという文書理論要素間の関係を定義するのである。
【0091】
こうして、同一種別の複数の印刷文書について求めた文書論理要素モデル及び文書論理要素モデル間の関係の情報がモデルデータベース7に供給されて記憶される。なお、モデルデータベース7には、他の種別の複数の印刷文書についても同様に処理が行われて、文書論理要素モデル及び文書論理要素モデル間の関係の情報が格納される。
【0092】
次に、文字認識の対象となる印刷文書の2値データが入力されるものとする。この2値データについてもレイアウト解析部1、文字認識部2、文書論理要素抽出部3及び読み順決定部4によって処理が施されて、文書論理要素情報が得られる。この文書論理要素情報はモデル照合部6に供給される。
【0093】
モデル照合部6の入力−モデル対応抽出部21は、入力文書画像から抽出したレイアウト要素と一般的な文書論理要素の集合に対して、モデルデータベース7から読み出した既に定義済みである文書論理要素モデルを順次適用する。
【0094】
図17は図16に対応した入力要素と文書論理要素モデルとの照合結果を示す説明図である。
【0095】
モデル照合部6は図16の各入力要素に対して順次文書論理要素モデルとの照合を行う。例えば、日本語文書見出しの文書論理要素モデルについては、安定した文書論理要素特徴である文字サイズ、文字行数、言語、文字行方向のそれぞれについて、上限値、下限値、確率分布が定義されているものとする。図16の丸数字1の領域の特徴は、日本語文書見出しの文書論理要素特徴に略一致している。即ち、丸数字1の領域は、各文書論理要素モデルのうち、日本語文書見出しの文書論理要素モデルに対する総合的な確率値が他の文書論理要素モデルに対する確率値よりも高くなる。これにより、モデル照合部6の入力−モデル対応抽出部21は、図16の丸数字1の領域を図17の丸数字1に示すように日本語文書見出しと判定する。
【0096】
図16の丸数字2の領域については、文字サイズ、文字行数、言語、文字行方向等の文書論理要素特徴が図16の丸数字5の領域の「英語著者」と略々等しい。このため、図17の例では、入力−モデル対応抽出部21は、図16の丸数字2の領域を、「英語文書見出し」及び「英語著者」の2つの可能性があるものと判定している。以後同様にして、入力−モデル対応抽出部21は、図16の全ての入力要素について、各文書論理要素モデルを適用して、論理要素種別及びその確率値を求める。
【0097】
次に、連合グラフ構成部22は図17の照合結果に対して連合グラフを生成する。即ち、連合グラフ構成部22は、図17の「入力要素と要素モデルの組」のそれぞれにノードを割り当てて連合グラフを構成する。次に、既に定義済みのページモデルを連合グラフのノードの組に順次適用してノード間の両立性を判定してノード間にエッジを設定する。エッジが設定されていないノードは、要素間の関係に矛盾を有している。例えば、図17の例では、丸数字2の「D:英語著者」のノード(以下、ノード2Dという)にはエッジが設定されない。同様に、図17の例では、ノード11A,15A,19Cにエッジが設定されない。
【0098】
最大クリーク検出部23は、連合グラフから両立可能なノードの最大集合、すなわち連合グラフにおける最大クリークを抽出することにより、共存可能な入力要素と要素モデルの対応の中で最大の組み合わせを検出する。そして、最良照合検出部24は確率値の和が最大となる最大クリークを得、図16に示す定義済みのページモデルを利用して、最終的なモデル照合結果を得る。こうして、入力文書を構成する文書論理要素には一意的な文書論理要素種別が付与される。
【0099】
モデル照合部6からの入力文書のレイアウト要素と文書論理要素出力は文書論理構造解析部8に供給される。文書論理構造解析部8は、入力されたレイアウト要素と文書論理要素とに基づいて文書論理構造を抽出して文書出力部9に与える。文書出力部9は、入力された文書論理構造に基づいて、例えばXMLタグ付け文書を出力する。
【0100】
XMLタグ付き文書としては、以下に示すものが考えられる。この例は、図13の印刷文書の丸数字1〜13の領域に対応したものである。
【0101】
<?xml version=”1.0” encoding=”Shift_JIS”?>
<html>
<body>
<div class=”front”>
<p class=”title”>コミュニティベース知識協創プラットフォーム</p>
<p class=”e−title”>Platform for Community−Based Collaborative Knowledge Creation</p>
<div class=”author”>
<p class=”author”>梅木 秀雄</p>
<p class=”e−author”>UMEKI Hideo</p>
<p class=”author”>堀川 将幸</p>
<p class=”e−author”>HORIKAWA Masayuki</p></div>
<div class=”abstract”>
<p class=”abstract”> 組織横断型プロジェクトやインターネットにおけるコミュニティ活動において,電子メールや掲示板などのコミュニケーション手段は不可欠である。</p>
<p class=”abstract”> しかし,コミュニケーションによって生まれる知識は,膨大な情報の中に埋もれがちで,再利用しやすい形に整理し,維持することが困難である。</p>
<p class=”e−abstract”> Communication tools such as e−mail and bulletin boards are essential for sharing thoughts and ideas in a community such as a section−transverse project team in a company or a grassroots organization on the Internet. </p>
<p class=”e−abstract”> However, knowledge created throughsuch communication is difficult to extract, organize, and maintain.</p>
</div>
</div>
<div class=”body”>
<div class=”h1”>
<h1>1 まえがき</h1>
<p> 近年,企業では,組織のフラット化や組織横断型プロジェクトの推進など,問題意識やスキル(技能,見識)を共有するコミュニティの活動が重要視されつつある。また,インターネット上では,趣味のサークルやソフトウェア開発,ユーザー会,教育・育児関係などのネットワークコミュニティが数多く存在している。</p>
<p> これらのコミュニティでは,主に電子メールや掲示板などの電子的なコミュニケーション手段を使って,情報交換や議論をしている。しかし,コミュニケーションでやり取りされる情報は,前後の文脈抜きでは理解できないため,議論をすべて追わないと何が議論され,どのような結論が得られたのかといった知識を共有することはできない。</p>
このようなXMLタグ付き文書を利用することで、例えば、同一種別の複数の印刷文書から、「文章見出し」、「著者」及び「アブストラクト」のみを抽出して、アブストラクト集を作成すること等の編集を極めて簡単に行うことが可能となる。
【0102】
このように、本実施の形態においては、複数ページで構成される多様な印刷文書から、章見出し、パラグラフ、箇条書き、脚注、キャプション、数式、ヘッダ、フッタ等の一般的な文書論理要素と、文書見出し、著者、アブストラクト、日付等の文書固有の論理要素を自動的に抽出した後、XMLやHTMLでタグ付けされた構造化文書を高精度に生成することが可能となる。その際、文書ごとに処理の自動化を目的としたモデル/知識を自動的に生成することができ、さらにはオペレータにより処理精度の高上を目的としたモデル/知識の低コストで簡単な編集を可能としている。その結果、多様な印刷文書から高精度な構造化文書を自動的に得ることができるようになるので、大量文書の電子化および構造化におけるオペレータの編集作業を大幅に軽減することが可能となる。
【0103】
【発明の効果】
以上説明したように本発明によれば、既存のモデルから最適モデルを予測生成することにより、多様な印刷文書から各文書に固有の文書論理要素を自動的に抽出することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る文書処理装置を示すブロック図。
【図2】レイアウト要素の外接矩形を示す説明図。
【図3】各外接矩形の定義を示す説明図。
【図4】文章領域、文字行領域及び文字領域の木構造を示す説明図。
【図5】論理要素情報を示す説明図。
【図6】図1中のモデル生成部5の具体的な構成を示すブロック図。
【図7】図6中の文書論理要素モデル生成部11の具体的な構成を示すブロック図。
【図8】文書論理要素モデルの定義の一例を示す説明図。
【図9】図1中のモデル照合部6の具体的な構成を示すブロック図。
【図10】連合グラフのノードを示す説明図。
【図11】エッジの設定を説明するための説明図。
【図12】最大クリークの検出を説明するための説明図。
【図13】実施の形態の動作を説明するための説明図。
【図14】実施の形態の動作を説明するための説明図。
【図15】実施の形態の動作を説明するための説明図。
【図16】実施の形態の動作を説明するための説明図。
【図17】実施の形態の動作を説明するための説明図。
【符号の説明】
1…レイアウト解析部、2…文字認識部、3…文書論理要素抽出部、4…読み順決定部、5…モデル生成部、6…モデル照合部、7…モデルデータベース、8…文書論理構造解析部、9…文書出力部。

Claims (18)

  1. 文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集手段と、
    前記収集手段が収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段とを具備したことを特徴とする文書処理装置。
  2. 前記収集手段は、前記文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素を抽出するレイアウト解析手段と、
    前記レイアウト解析手段の解析結果に基づいて、前記文書画像から前記部分領域の文書論理要素を抽出する文書論理要素抽出手段とを具備したことを特徴とする請求項1に記載の文書処理装置。
  3. 文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集手段と、
    前記収集手段が収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成手段と、
    前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析手段と、
    前記レイアウト解析手段の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出手段と、
    前記文書論理要素抽出手段が抽出した前記認識対象画像の文書論理要素と前記モデル生成手段が生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合手段とを具備したことを特徴とする文書処理装置。
  4. 前記収集手段は、前記レイアウト解析手段及び前記文書論理要素抽出手段によって前記レイアウト要素及び文書論理要素を取得することを特徴とする請求項3に記載の文書処理装置。
  5. 前記モデル生成手段は、前記文書論理要素を規定する全ての文書論理要素特徴のうちの所定の特徴によって前記文書論理要素毎の要素モデルを定義することを特徴とする請求項1又は3のいずれか一方に記載の文書処理装置。
  6. 前記モデル生成手段は、前記全ての文書論理要素特徴のうちの安定した特徴によって前記文書論理要素毎の要素モデルを定義することを特徴とする請求項5に記載の文書処理装置。
  7. 前記モデル生成手段は、前記全ての文書論理要素特徴の確率分布に従って安定した特徴であるか否かを判定することを特徴とする請求項6に記載の文書処理装置。
  8. 前記収集手段は、前記文書画像について、オペレータの操作に基づいて前記レイアウト要素及び文書論理要素を定義可能であることを特徴とする請求項1又は3のいずれか一方に記載の文書処理装置。
  9. 前記モデル生成手段は、前記要素モデル同士の関係についての情報を生成することを特徴とする請求項1又は3のいずれか一方に記載の文書処理装置。
  10. 前記モデル生成手段は、前記要素モデル同士の関係についての情報として、複数個の文書論理要素モデルからなるグループについて、文書論理要素の関係を求めることを特徴する請求項9に記載の文書処理装置。
  11. 前記モデル生成手段は、前記要素モデル同士の関係についての情報として、前記文書論理要素間の順序関係、隣接関係及び配置関係の少なくとも1つの関係についての情報を生成することを特徴とする請求項9又は10のいずれか一方に記載の文書処理装置。
  12. 前記モデル生成手段は、前記要素モデル同士の関係についての情報を生成し、
    前記照合手段は、前記認識対象画像の文書論理要素と前記モデル生成手段が生成した要素モデルとの照合結果と前記要素モデル同士の関係についての情報に基づいて、前記認識対象画像の文書論理要素の要素種別を決定する関係判定手段を具備したことを特徴とする請求項3に記載の文書処理装置。
  13. 前記関係判定手段は、前記認識対象画像の文書論理要素と前記要素モデルとの対応にノードを割り当て、前記要素モデル同士の関係についての情報に基づいて前記ノードの両立性を判定して前記ノード間にエッジを設定した連合グラフを用いることで、前記認識対象画像の文書論理要素と前記要素モデルとの最良の対応を判定することを特徴とする請求項12に記載の文書処理装置。
  14. 前記関係判定手段は、前記連合グラフからクリークを抽出するクリーク抽出手段と、
    前記クリーク抽出手段によって得られた複数個のクリークから1つを選択する選択手段を更に具備したことを特徴とする請求項13記載の文書処理装置。
  15. 文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集処理と、
    収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理とを具備したことを特徴とする文書処理方法。
  16. 文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集処理と、
    収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理と、
    前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析処理と、
    前記レイアウト解析処理の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出処理と、
    前記文書論理要素抽出処理において抽出した前記認識対象画像の文書論理要素と前記モデル生成処理において生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合処理とを具備したことを特徴とする文書処理方法。
  17. コンピュータに、
    文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集処理と、
    収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理とを実行させるための文書処理プログラム。
  18. コンピュータに、
    文書画像中の少なくとも文章領域を含む部分領域についてのレイアウト要素及び文書論理要素を、同一種別の1つ以上の文書画像について収集する収集処理と、
    収集した同一種別の1つ以上の文書画像についてのレイアウト要素及び文書論理要素に基づいて文書論理要素毎の要素モデルを生成するモデル生成処理と、
    前記文書画像と同一種別の認識対象画像のレイアウト要素を抽出するレイアウト解析処理と、
    前記レイアウト解析処理の解析結果に基づいて、前記認識対象画像から文書論理要素を抽出する文書論理要素抽出処理と、
    前記文書論理要素抽出処理において抽出した前記認識対象画像の文書論理要素と前記モデル生成処理において生成した要素モデルとの照合によって、前記認識対象画像の文書論理要素の要素種別を決定する照合処理とを実行させるための文書処理プログラム。
JP2002339999A 2002-11-22 2002-11-22 文書処理装置並びにその方法及びプログラム Pending JP2004178010A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002339999A JP2004178010A (ja) 2002-11-22 2002-11-22 文書処理装置並びにその方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002339999A JP2004178010A (ja) 2002-11-22 2002-11-22 文書処理装置並びにその方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2004178010A true JP2004178010A (ja) 2004-06-24

Family

ID=32702805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002339999A Pending JP2004178010A (ja) 2002-11-22 2002-11-22 文書処理装置並びにその方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2004178010A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195980A (ja) * 2005-01-10 2006-07-27 Xerox Corp ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置
JP2009069933A (ja) * 2007-09-11 2009-04-02 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム
JP2009110500A (ja) * 2007-10-29 2009-05-21 Toshiba Corp ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置
JP2013254321A (ja) * 2012-06-06 2013-12-19 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP2019040261A (ja) * 2017-08-22 2019-03-14 大日本印刷株式会社 情報処理装置及びプログラム
JP2019040260A (ja) * 2017-08-22 2019-03-14 大日本印刷株式会社 情報処理装置及びプログラム
JP2020173784A (ja) * 2019-03-29 2020-10-22 コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド 文書におけるタイトル及びセクションの推測
JP2021033804A (ja) * 2019-08-28 2021-03-01 西日本電信電話株式会社 構造化文書作成装置とその方法
JP2021064260A (ja) * 2019-10-16 2021-04-22 トッパン・フォームズ株式会社 学習装置、学習方法、及びプログラム
CN112749529A (zh) * 2019-10-29 2021-05-04 西安诺瓦星云科技股份有限公司 文字自适应异形编辑框的方法、装置
WO2022145343A1 (ja) * 2020-12-28 2022-07-07 有限責任監査法人トーマツ 多モデル深層学習による文書のデジタル化アーキテクチャ、文書画像処理プログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195980A (ja) * 2005-01-10 2006-07-27 Xerox Corp ヘッダ/フッタ等の既存文書内ページ区切り要素の検出方法及び装置
JP2009069933A (ja) * 2007-09-11 2009-04-02 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム
JP2009110500A (ja) * 2007-10-29 2009-05-21 Toshiba Corp ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置
JP2013254321A (ja) * 2012-06-06 2013-12-19 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP7290391B2 (ja) 2017-08-22 2023-06-13 大日本印刷株式会社 情報処理装置及びプログラム
JP2019040261A (ja) * 2017-08-22 2019-03-14 大日本印刷株式会社 情報処理装置及びプログラム
JP2019040260A (ja) * 2017-08-22 2019-03-14 大日本印刷株式会社 情報処理装置及びプログラム
JP2020173784A (ja) * 2019-03-29 2020-10-22 コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド 文書におけるタイトル及びセクションの推測
JP7433068B2 (ja) 2019-03-29 2024-02-19 コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド 文書におけるタイトル及びセクションの推測
JP2021033804A (ja) * 2019-08-28 2021-03-01 西日本電信電話株式会社 構造化文書作成装置とその方法
JP7365845B2 (ja) 2019-10-16 2023-10-20 Toppanエッジ株式会社 学習装置、学習方法、及びプログラム
JP2021064260A (ja) * 2019-10-16 2021-04-22 トッパン・フォームズ株式会社 学習装置、学習方法、及びプログラム
CN112749529A (zh) * 2019-10-29 2021-05-04 西安诺瓦星云科技股份有限公司 文字自适应异形编辑框的方法、装置
WO2022145343A1 (ja) * 2020-12-28 2022-07-07 有限責任監査法人トーマツ 多モデル深層学習による文書のデジタル化アーキテクチャ、文書画像処理プログラム
JP2022104411A (ja) * 2020-12-28 2022-07-08 有限責任監査法人トーマツ 多モデル深層学習による文書のデジタル化アーキテクチャ、文書画像処理プログラム
JP7150809B2 (ja) 2020-12-28 2022-10-11 有限責任監査法人トーマツ 多モデル深層学習による文書のデジタル化アーキテクチャ、文書画像処理プログラム

Similar Documents

Publication Publication Date Title
JP4343213B2 (ja) 文書処理装置および文書処理方法
CN108614898B (zh) 文档解析方法与装置
Yildiz et al. pdf2table: A method to extract table information from pdf files
CN110609983B (zh) 一种政策文件结构化分解方法
JPH11250041A (ja) 文書処理装置および文書処理方法
CN101523413A (zh) 根据硬拷贝表单自动生成表单定义
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
US7046847B2 (en) Document processing method, system and medium
JP2003288334A (ja) 文書処理装置及び文書処理方法
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN112101004A (zh) 基于条件随机场与句法分析的通用网页人物信息提取方法
JP2005043990A (ja) 文書処理装置および文書処理方法
KR101500598B1 (ko) Xml 생성 시스템 및 방법
Elanwar et al. Extracting text from scanned Arabic books: a large-scale benchmark dataset and a fine-tuned Faster-R-CNN model
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JPH11184894A (ja) 論理要素抽出方法および記録媒体
CN117111890A (zh) 一种软件需求文档解析方法、设备及介质
Ramel et al. Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis
CN114970543A (zh) 一种众包设计资源的语义分析方法
Alzuru et al. Cooperative human-machine data extraction from biological collections
CN112733513A (zh) 自动整理航司退改规则的方法、系统、终端和存储介质
Vilkomir et al. Challenges of Automatic Document Processing with Historical Data
JP2011070529A (ja) 文書処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060418