JP2019105957A

JP2019105957A - 文書構成解析システム、文書構成解析方法、プログラム

Info

Publication number: JP2019105957A
Application number: JP2017237399A
Authority: JP
Inventors: 航一田代; Koichi Tashiro
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-06-27
Also published as: US20190180099A1

Abstract

【課題】解析の基準となるルールを複雑化させることなく、文書構成を解析することのできる文書構成解析システム、文書構成解析方法、プログラムを提供する。【解決手段】文書の論理構成を、互いに異なる手法で解析して得た、複数の解析結果に基づいて、解析対象となった文書の最終的な論理構成を判定することにより、解析の基準となるルールを複雑化させることなく、文書の論理構成を解析する。互いに異なる手法としては、タグ解析、テキスト解析、画像解析などであり、各解析方法での信頼度などに基づいて、それらの解析結果から最終的な論理構成を判定する。【選択図】図３

Description

本発明は、文書の論理構成を判定することのできる文書構成解析システム、文書構成解析方法、プログラムに関する。

テキストから有益な情報を抽出する方法として、テキストマイニングという方法がある。この方法によれば、たとえば、テキストの中から「不具合」などのネガティブな意味の言葉等を抽出して、まとめることができる。

ところで、一般に、文章は章、節、項、本文などのような構成で作成される場合が多い。図１８は章、節、項、本文で構成される文書の例を示す。図１８では、１章として「新製品の開発状況」、１章の１節として「A製品」、１章の１節の１項として「ソフトウェア」、その下に本文として「○○モジュールにて（省略）見直しが必要。」がある。同様に、１章の１節の２項として「ハードウェア」、その本文に「スケジュール通り（省略）見直す必要あり。」とある。１章の２節のB製品以下も同様の構成になっている。

このような文章の全てのテキストにテキストマイニングを行うと、章、節、項などのタイトルテキストがノイズになってしまい、有益な情報が抽出できない可能性がある。たとえば図１８では、１章の「新製品の開発状況」などがノイズになり、有益な情報の抽出ができなくなってしまう可能性がある。

よって、文書全体にテキストマイニングを行う場合、章、節、項といった文書構成を特定し、それらに付随するタイトルテキストを除去してからテキストマイニングを行うことが望ましい。また、文書構成を特定することができれば、抽出された情報が、どの章、節、項に属するものであるかを認識することができる。

文書構成を解析する方法としては、たとえば、下記特許文献１〜５に開示されているものがある。この引用文献１〜５に記載の文書構成を解析する方法は、大別するとタグ解析、テキスト解析、画像解析の３種類に分類することができる。

タグ解析、テキスト解析、画像解析によって文書構成を解析する場合、本文部分を特定するためのルールを設ける。たとえば、テキスト解析において設けられるルールの一つとして「インデント（字下げ）数をカウントし、そのカウント数で判断する」というルールがある。このルールを用いたテキスト解析の方法で図１８の文書構成を解析すると、最下層にあるテキストが文書の本文、それ以外を章や節と考えることで、本文部分を特定することができる。また、この方法では、章や節等の階層構造を取得することも可能である。

しかし、章、節、項、本文の全てが左詰め（インデントが無い）の文書もあり得る。図１９は、章、節、項、本文の全てが左詰めの文書の例を示す。図１９の文書では、前述したインデント数のカウントのルールでは文書構成を解析することができない。このような場合、例えば「テキストの最後に句点（。）があるものを本文と判定する」などのルールを追加すれば、文書構成は解析可能となる。

特開２０１０−２８２３４７号公報特開２０１６−００６６６１号公報特開２０１７−１０１０７号公報米国特許２０１３３１１４９０号公報米国特許９４５４６９６号公報

このように、一のルールで文書構成を解析することができない場合、通常は該ルールを改良したり、新たなルールを追加したりすることで判定可能とする。

しかし、文書の記述方法は人によって異なるため、無数の記述法が存在することから、その度にルールの改良や追加を行うのは手間がかかる。また、ルールの改良、追加は、ルールの複雑化や、追加していく過程でのルールの衝突などの問題が発生する原因となり得る。

本発明は、上記の問題を解決しようとするものであり、解析の基準となるルールを複雑化させることなく、文書構成を解析することのできる文書構成解析システム、文書構成解析方法、プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。

［１］文書の論理構成を、互いに異なる手法で解析する複数の文書解析部と、
前記複数の文書解析部の解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定部と、
を有する
ことを特徴とする文書構成解析システム。

上記発明では、互いに異なる手法で文書の論理構成を解析し、その複数の解析結果に基づいて、最終的な論理構成を判定する。これにより、解析の基準となるルールを複雑化させることなく、文書の論理構成を解析することができる。互いに異なる手法とは、たとえば、タグ解析、テキスト解析、画像解析などである。

［２］前記文書解析部は、解析結果に対する信頼度を導出し、
前記最終判定部は、各文書解析部が導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
ことを特徴とする［１］に記載の文書構成解析システム。

上記発明では、各解析結果の信頼度を導出し、その信頼度に基づいて最終的な論理構成を判定する。

［３］前記最終判定部は、前記複数の文書解析部の解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
ことを特徴とする［２］に記載の文書構成解析システム。

［４］前記文書解析部は、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
ことを特徴とする［２］または［３］に記載の文書構成解析システム。

上記発明では、解析を行う際に適合したルールの種類、もしくはそのルールへの適合度によって、信頼度を決定する。

［５］前記最終判定部は、前記複数の文書解析部の解析結果の多数決を採って前記文書の最終的な論理構成を判定する
ことを特徴とする［１］乃至［４］のいずれか一つに記載の文書構成解析システム。

上記発明では、解析結果の多数決を採り、その多数決の結果により最終的な論理構成を判定する。

［６］前記文書解析部の１つは、タグに基づいて文書の論理構成を解析する
ことを特徴とする［１］乃至［５］のいずれか一つに記載の文書構成解析システム。

［７］前記文書解析部の１つは、テキスト解析により文書の論理構成を解析する
ことを特徴とする［１］乃至［６］のいずれか一つに記載の文書構成解析システム。

［８］前記文書解析部の１つは、画像解析により文書の論理構成を解析する
ことを特徴とする［１］乃至［７］のいずれか一つに記載の文書構成解析システム。

［９］文書の論理構成を、互いに異なる手法で解析する複数の文書解析ステップと、
前記複数の文書解析ステップでの解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定ステップと、
を有する
ことを特徴とする文書構成解析方法。

［１０］前記文書解析ステップは、解析結果に対する信頼度を導出し、
前記最終判定ステップは、各文書解析ステップが導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
ことを特徴とする［９］に記載の文書構成解析方法。

［１１］前記最終判定ステップは、前記複数の文書解析ステップの解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
ことを特徴とする［１０］に記載の文書構成解析方法。

［１２］前記文書解析ステップは、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
ことを特徴とする［１０］または［１１］に記載の文書構成解析方法。

［１３］前記最終判定ステップは、前記複数の文書解析ステップの解析結果の多数決を採って前記文書の最終的な論理構成を判定する
ことを特徴とする［９］乃至［１２］のいずれか一つに記載の文書構成解析方法。

［１４］前記文書解析ステップの１つは、タグに基づいて文書の論理構成を解析する
ことを特徴とする［９］乃至［１３］のいずれか一つに記載の文書構成解析方法。

［１５］前記文書解析ステップの１つは、テキスト解析により文書の論理構成を解析する
ことを特徴とする［９］乃至［１４］のいずれか一つに記載の文書構成解析方法。

［１６］前記文書解析ステップの１つは、画像解析により文書の論理構成を解析する
ことを特徴とする［９］乃至［１５］のいずれか一つに記載の文書構成解析方法。

［１７］情報処理装置に、［９］乃至［１６］のいずれか１つに記載の文書構成解析方法を実行させるプログラム。

本発明に係る文書構成解析装置、文書構成解析方法、文書構成解析システムによれば、解析の基準となるルールを複雑化させることなく、文書構成を解析することができる。

本発明の実施の形態に係る文書構成解析システムの一例を示す図である。本発明に係る文書構成解析装置としてのサーバの概略構成を示すブロック図である。サーバが文書構成の解析を行う場合の処理の概略を示す流れ図である。サーバが複数の他のサーバに解析を依頼し、その解析結果から最終判定結果を導出する様子を示す図である。タグ解析を行う場合の処理の流れを示す流れ図である。テキスト解析を行う場合の処理の流れを示す流れ図である。画像解析を行う場合の処理の流れを示す流れ図である。複数の解析結果に基づいて行う最終判定処理の流れを示す図である。解析方法およびルールの詳細の一覧表を示す図である。文書から取得したタグの例を示す図である。タグ解析での判定結果の例を示す。テキスト解析（TEXT-1のルール）での判定結果の例を示す。テキスト解析（TEXT-2のルール）での判定結果の例を示す。画像の左端から、文字列の左端までの距離により、文書構成の解析を行う様子を示す図である。画像解析での判定結果の例を示す。各ルールの自信度の算出方法の一覧表を示す図である。内容が重複したタグ解析とテキスト解析での解析結果と、画像解析での解析結果を示す図である。解析対象となる文書の例を示す図である。解析対象となる文書であって図１８と異なる例を示す図である。

以下、図面に基づき本発明の実施の形態を説明する。

（第１の実施の形態）
図１は、本発明の実施の形態に係るＰＣ５を含む文書構成解析システム２の一例を示す図である。文書構成解析システム２は、ＬＡＮ（Local Area Network）などのネットワーク３にサーバ１０と、ＰＣ５、および複数台のサーバ１００が接続して構成される。

ＰＣ５は、ユーザが使用するパーソナルコンピュータ等の端末装置である。ＰＣ５は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等を備えており、ＯＳ（Operating System）、アプリケーションプログラムなどの各種のプログラムに基づいて動作する。本発明の実施の形態では、ＰＣ５は、文書の作成や保存、サーバ１０に対して文書構造の解析を依頼したりする。

サーバ１０は、ＰＣ５から文書構造の解析依頼を受けたら、複数の互いに異なる手法で文書構造を解析し、その解析によって得た複数の結果に基づいて、文書の最終的な論理構造を判定し、該判定結果をＰＣ５に返す役割を果たす。なお、本発明の実施の形態では、サーバ１０自体が複数の異なる手法で文書構造を解析してもよいし、複数台のサーバ１００が該解析を代替してもよい。

サーバ１００は、サーバ１０の依頼に応じて文書構造の解析を代替する。図１では２台のサーバ１００が描写されているが、サーバ１００は３台以上あってもよい。複数台ある各サーバ１００は、互いに異なる手法で文書構造を解析するものとする。

本発明の実施の形態では、サーバ１０が、文書の構造を複数の互いに異なる手法で解析し（もしくは複数のサーバ１００に解析の代替を依頼し）、その複数の解析の結果に基づいて文書の最終的な論理構成を判定する。複数の手法で解析して得た結果から文書の最終的な論理構成を判定するので、ある手法で文書構成が解析できない場合であっても、その手法におけるルールの改良や追加を行うことなくとも、文書の最終的な論理構成を確実に判定することができる。

図２は、サーバ１０の概略構成を示すブロック図である。サーバ１０は、当該サーバ１０の動作を統括的に制御するＣＰＵ（Central Processing Unit）１１を有する。ＣＰＵ１１にはバスを通じてＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、不揮発メモリ１４、ハードディスク装置１５、ネットワーク通信部１６などが接続されている。

ＣＰＵ１１は、ＯＳプログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムなどを実行する。ＲＯＭ１２およびハードディスク装置１５には、各種のプログラムが格納されており、これらのプログラムに従ってＣＰＵ１１が各種処理を実行することでサーバ１０の各機能が実現される。

ＲＡＭ１３は、ＣＰＵ１１がプログラムに基づいて処理を実行する際に各種のデータを一時的に格納するワークメモリや画像データを格納する画像メモリなどとして使用される。

不揮発メモリ１４は、電源をオフにしても記憶内容が破壊されないメモリ（フラッシュメモリ）であり、各種設定情報の保存などに使用される。ハードディスク装置１５は、大容量不揮発の記憶装置であり、印刷データ、画像データなどのほか各種のプログラムやデータが記憶される。

ネットワーク通信部１６は、ネットワーク３を通じて、ＰＣ５やサーバ１００など、他の外部装置と通信する機能を果たす。

本発明の実施の形態では、ＣＰＵ１１が、文書の論理構成を、互いに異なる手法で解析する複数の文書解析部３２と、複数の文書解析部３２の解析結果に基づいて文書の最終的な論理構成を判定する最終判定部３１としての役割を果たす。

サーバ１０は、自装置の複数の文書解析部３２で文書の解析を行ってもよいし、外部の複数台のサーバ１００に文書の解析を依頼してもよい。

複数台のサーバ１００は、サーバ１０と通信可能であり、サーバ１０からの依頼に応じて、文書を解析し、その結果をサーバ１０に返信する。本発明の実施の形態では、複数台のサーバ１００に、文書の解析を依頼する場合、それらのサーバ１００が文書解析部３２としての役割を果たす。

次に、サーバ１０が行う処理の概略について図３を参照しつつ説明する。まず、ＰＣ５から、文書と、該文書の構造の解析依頼を受ける（ステップＳ１０１）。次に、互いに異なる複数の手法で、文書の解析を行う。本発明の実施の形態では、タグ解析による解析処理（ステップＳ１０２）と、テキスト解析による解析処理（ステップＳ１０３）と、画像解析による解析処理（ステップＳ１０４）を行う。

ステップＳ１０２〜１０４で得た解析結果に基づいて、最終的な文書構造の判定処理を行い（ステップＳ１０５）、本処理を終了する。ステップＳ１０２〜１０４で得た解析結果には、後述する自信度（本発明の信頼度に相当）が設定されており、ステップＳ１０５では、その自信度等に従って最終的な文書構造の判定処理を行う。

タグ解析による解析処理と、テキスト解析による解析処理では、構造を解析するためのルールを設け、該ルールに従って文書構造の解析を行う。設定するルールは一つでもよいし、複数あってもよい。複数のルールを設定した場合、ルール毎に文書の解析処理を行う。

なお、サーバ１０は、ステップＳ１０２〜ステップＳ１０４での解析処理を自装置で行ってもよいし、外部のサーバ１００に依頼してもよい。図４は、ステップＳ１０２〜ステップＳ１０４での解析処理を外部の複数のサーバ１００に依頼した場合の様子を示す。

図４では、依頼を受けた各サーバ１００は、互いに異なる手法で文書の解析処理を行っている。図４では、タグ解析による解析を２台のサーバ１００が行っているが、互いに異なるルールで解析を行っているものとする。

次に、各解析処理について説明する。図５は、図３のステップＳ１０２で行われるタグ解析による解析処理のフローを示す。まず、解析対象の文書がＸＭＬ等のマークアップ言語で作成されていなければ（ステップＳ２０１；Ｎｏ）、ステップＳ２０４に進む。

解析対象の文書がマークアップ言語で作成されている場合は（ステップＳ２０１；Ｙｅｓ）、タグを取得し（ステップＳ２０２）、その取得したタグを解析する（ステップＳ２０３）。

ステップＳ２０３での解析は、あらかじめ決められたルールに従って行われる。たとえば、マークアップ言語で記載された文書中に章や本文を表すタグが用いられていたとする（タグは「<要素名 >内容</要素名>」といった形で記載され、任意で定義あるいはあらかじめ定義された要素名・属性に従って記述されている）。解析では、ルールとして、○○タグを探すものや××タグを探すもの等があり、それらのルールに従って、文書内の各文が章、節、項、本文のうちのいずれに該当するかなどを解析する。

その後、ステップＳ２０３での解析結果に基づいて文書内の各文が章、節、項、本文のうちのいずれに該当するかについて、タグ解析としての文書論理構成の最終判定結果を出して（ステップＳ２０４）本処理を終了する。文書がマークアップ言語で記載されていなかった場合、解析失敗として判定する。

なお、ルールが複数あり、該ルール毎にタグ解析を行った場合、それらの最終判定結果の全てを図３のステップＳ１０５での最終判定処理で使用してもよいし、それらの最終判定結果から、ルール毎の自信度等に基づいて総合最終判定結果を決定し、その総合最終判定結果を図３のステップＳ１０５で、タグ解析の最終判定結果として使用してもよい。

図６は、図３のステップＳ１０３で行われるテキスト解析による解析処理のフローを示す。まず、解析対象の文書から、テキストを取得する（ステップＳ３０１）。次に、その取得したテキストを解析する（ステップＳ３０２）。

その後、ステップＳ３０２での解析結果に基づいて文書内の各文が章、節、項、本文のうちのいずれに該当するかについて、テキスト解析としての文書論理構成の最終判定結果を出して（ステップＳ３０３）本処理を終了する。

図７は、図３のステップＳ１０４で行われる画像解析による解析処理のフローを示す。まず、解析対象の文書の画像を取得する（ステップＳ４０１）。次に、その取得した画像を解析する（ステップＳ４０２）。

その後、ステップＳ４０２での解析結果に基づいて文書内の各文が章、節、項、本文のうちのいずれに該当するかについて、画像解析としての文書論理構成の最終判定結果を出して（ステップＳ４０３）本処理を終了する。

図８は、図３のステップＳ１０５で行われる最終判定処理のフローを示す。まず、図５〜図７の処理での最終判定による結果を集約する（ステップＳ５０１）。次に、その集約した判定結果に基づいて、最適な判定結果を導出し（ステップＳ５０２）。本処理を終了する。最適な判定結果の導出方法は後述する。

次に、文書構成解析システム２が、文書を解析する場合に使用する各解析方法のルールの具体例について、図９〜図１７を参照しつつ説明する。

（具体例１）
図９は、文書構成解析システム２が行う各解析方法において設定されているルールの一覧（ルール表）を示す。図９のルール表では、タグ解析は２種類のルール（TAG−1、TAG−2）、テキスト解析は２種類のルール（TEXT−1、TEXT−2）、画像解析は１種類のルール（IMAGE-1）が登録されている。各ルールには、予め自信度が設定されており、各ルールで解析された結果が異なる場合、この自信度の高い方のルールの結果が優先される。

各ルールの詳細な説明、および、各ルールで解析した場合の解析結果について説明する。まず、タグ解析で使用する２つのルール（TAG−1、TAG−2）について説明する。

TAG−1のルールは、「タグにおいて「＜○章＞、＜×節＞、＜△項＞、＜○章Title＞、＜×節Title＞、＜△項Title＞、＜Body＞」と記載されているものを探し出し、それらを章、節、項、として認識する」というものである。

TAG−2のルールは、「タグにおいて「＜Title＞、＜TitleName＞、＜Text＞」と記載されているものを探し出し、それらを、章、タイトルテキスト、本文テキストとして認識する」というものである。

次に、前述したルールを使用してタグ解析を行う場合の例について説明する。タグ解析を行う場合、解析対象の文書のタグを取得する。図１０はタグの一例として、図１８の文書のXMLタグを示す。図１１は、図１０のXMLタグに対して、TAG−1のルールでタグ解析を行った場合に得られる判定結果を示す。

図１１の判定結果では、「新製品の開発状況」、「A製品」、「ソフトウェア」、「○○モジュールにて（略）見直しが必要。」、「ハードウェア」などの各抽出ワードが、どの章、どの節、どの項、どこの本文に帰属しているものかを示す。たとえば、「A製品」のワードは、１章１節に帰属しており、節としての役割を果たすワードであると判別できる。「ソフトウェア」のワードは、１章１節１項に帰属しており、項としての役割を果たすワードであると判別できる。「○○モジュールにて（略）見直しが必要。」のワードは、１章１節１項１本文に帰属しているので、１章１節１項の本文部分であると判別できる。なお、図１１に示すTAG−1のルールでタグ解析を行った場合の判定結果の自信度は９０パーセントとなっている。

図１０のXMLタグに対して、TAG−2のルールでタグ解析を行った場合、英文で記載されている部分が無いため、ルール適用不可として、判定不能の結果が出る。TAG−2のルールでタグ解析を行った場合の判定結果の自信度は８０パーセントとなっている。

二つのルールでタグ解析を行った場合、TAG-1のルールで解析した場合のみ正常な判定結果が出たので、タグ解析においてはTAG-1のルールで解析した場合の判定結果を採用する。

次に、テキスト解析で使用する２つのルール（TEXT‐1、TEXT-2）について説明する。

TEXT−1のルールは、以下のものである。
・テキストを改行で分割する。
・その後分割したテキストをコロンで分割する。
・分割できなかったものは章、タイトルテキストとする。
・さらにその分割したテキストをスペースで分割する。
・スペースで分割した際の一方を節、タイトルテキストとする。
・さらにその分割したテキストをハイフン（−）で分割する。
・分割した一歩を項、タイトルテキストとし、もう一方を本文とする。
・分割できなかった場合はそのテキストを本文とする。

TEXT−2のルールは、以下のものである。
・テキストを改行で分割する。
・その後分割したテキストをセミコロン（；）で分割する。
・分割できなかったものは章、タイトルテキストとする。
・さらにその分割したテキストをコロンで分割する。
・コロンで分割した際の一方を節、タイトルテキストとする。
・さらにその分割したテキストをハイフン（−）で分割する。
・分割した一方を項、タイトルテキストとし、もう一方を本文とする。
・分割できなかった場合はそのテキストを本文とする。

図１２は、図１８の文書に対して、TEXT−1のルールでテキスト解析を行った場合に得られる解析結果を示す。図１２の解析結果では、「新製品の開発状況」、「A製品」、「ソフトウェア○○モジュールにて（略）B製品としては問題無し。」、「B製品」などの各抽出ワードが、どの章、どの節、どの項、どこの本文に帰属しているものかを示す。たとえば、「ソフトウェア○○モジュールにて（略）B製品としては問題無し。」のワードは、１章１節１本文に帰属しているので、１章１節の本文部分であると判別できる。なお、図１２に示すTEXT−1のルールでテキスト解析を行った場合の判定結果の自信度は８０パーセントとなっている。

図１３は、図１８の文書に対して、TEXT−2のルールでテキスト解析を行った場合に得られる解析結果を示す。図１３の解析結果では、「新製品の開発状況」、「A製品ソフトウェア○○モジュールにて（略）B製品としては問題無し。（略）予定通り進行中」の各抽出ワードが、どの章、どの節、どの項、どこの本文に帰属しているものかを示す。たとえば、「A製品ソフトウェア○○モジュールにて（略）B製品としては問題無し。（略）予定通り進行中」のワードは１章１本文に帰属しているので、１章の本文部分であると判別できる。なお、図１３に示すTEXT−2のルールでテキスト解析を行った場合の判定結果の自信度は７０パーセントとなっている。

テキスト解析では、タグ解析の時と異なりTEXT-1、TEXT-2のルールの両方が適用可能である。このように、複数のルールが正常に適用可能な場合は、各ルールの判定結果の自信度を比較し、自信度が最も高い判定結果を、代表として決定する。ここでは、TEXT-1の判定結果の方が、TEXT-2の判定結果より自信度が高いので、TEXT-1の判定結果を、テキスト解析での判定結果として採用する。

次に、イメージ解析で使用するルール（IMAGE-1）について説明する。
IMAGE-1のルールは以下のものである。
・テキストの文頭と画像の距離の計算を行う。
・深さが浅いほうから章、節・・・とする。
・最も深いものを本文とする。
・距離が同じ場合、すべてのテキストを本文テキストとする。

図１４は、IMAGE-1のルールで解析する場合の例を示す。画像解析では、文字認識を行い、テキストの先頭文字の領域を取得したら（図中の黒い四角）、その黒い四角の左側と画像の左端の距離を計算する。具体的には、画像の左端から、各ワードの左端の文字（図中では「新」、「A」、「に」）の文字までの距離を計算し、その結果によって、各ワードが章、節、項、本文のどの部分に該当するのかを判断する。

図１５は、図１９の文書にIMAGE-1のルールを使用して画像解析を行った場合の結果を示す。図１９の文書では、各文が全て左詰めになっているので、文書全体の全てのワードが、１つの本文テキストのみであると判定される。画像解析ではルールが一つのみなので、この判定結果を採用する。この判定結果の自信度は８５パーセントである。

３つの解析方法での判定結果が確定したら、図８で説明したように、その結果を集約し、最終的な判定結果を導出する。タグ解析、テキスト解析、画像解析の結果の自信度を集約すると、それぞれ９０パーセント、８０パーセント、８５パーセントとなっており、最も自信度が高いタグ解析の結果を採用し、文書構造解析の結果を確定する。確定後は章、節、項、あるいは本文の抽出結果を出力する。

なお、本例のテキスト解析では、特定の記号で区切り、論理構成を判定しているが、区切りとなる記号のルールが足りておらず、うまく論理構成を判定できていない。また、画像解析では前頭の空白で論理構成を判定しているが、本例では前頭に空白を入れておらず、テキスト解析と同様に別のルールを設定する必要がある。単一の手法で文書論理構成の判定ルールを構築しようとした場合、その解析ルールを増やすか、あるいは細かく設定しなければならず、単一手法のルールの複雑化を助長する。本実施例のように、複数手法を用いることで、様々な視点から論理構成を特定できるようになり、解析ルールの増加・難化を防ぎ、また、簡素なルールの組み合わせで文書の論理構成を特定することが可能になる。

（第２の実施の形態）
第１の実施の形態では、各ルールで解析を行った場合の自信度が予め設定されていたが、第２の実施の形態では、解析対象によって自信度が変動する場合について説明する。各ルールには、自信度を算出する方法が予め設定されている。図１６は、図９で説明したルール毎に、自信度を計算する方法の一覧を示す。

図１６では、TAG-1、TAG-2、TEXT-1、TEXT-2の４つのルールにおける自信度の計算方法には、「章、節、項、本文が適切な文字数になっているかを計算する方法」が、IMAGE-1のルールには「深さの距離の差の割合を計算する方法」が採用されている。

TAG-1のルールで解析を行う場合の具体例について説明する。TAG-1のルールでの解析で、図１１で説明した結果が抽出されたものとする。この抽出結果から、章のタイトルテキストは「新製品の開発状況」であり、文字数は「8」、節のタイトルテキストは「A製品:」であり、文字数は「4」といった様に文字数を算出し、タイトルテキストとしてそれらが極端に異なった文字数になっていないか、あるいは本文の文字数が、章の文字数を超えていないか等の計算を行い自信度の計算を行う。基準となる文字数は予め設定されていてもよいし、ユーザが設定できるようにしてもよい。

このように、自信度を動的に決定する場合、最終判定にて、各ルールで解析した結果のうち最も高い自信度を持つ文書論理構成を確定する。

（第３の実施の形態）
第１、第２の実施の形態では、最も自信度の高いルールを採用していたが、第３の実施の形態では、各解析結果のうち、結果が重複するものがある場合は、その重複する結果を優先して文書論理構成を確定する。

図１７は、とある文書を図９で説明した５つのルールで解析した場合において、各ルールの自信度に基づいて決定したタグ解析、テキスト解析、画像解析の代表の解析結果を示す。図１７では、タグ解析とテキスト解析での解析結果は一致している。タグ解析の自信度は７０％、テキスト解析の自信度は８０％である。画像解析の解析結果はタグ解析とテキスト解析での解析結果とは異なっており、自信度は９０％である。

この場合、タグ解析、テキスト解析の自信度は画像解析の自信度よりは劣るものの、論理構成の結果は同じものであったため、最終判定では、多数決としてタグ解析、テキスト解析の結果を優先して文書論理構成を確定する。

なお、重複する解析結果があっても、それらの自信度の合計が一定値に達しない場合は、自信度が最も高いものを優先して文書論理構成を確定するようにしてもよい。

（第４の実施の形態）
第３の実施の形態では、各ルールでの解析結果から、タグ解析、テキスト解析、画像解析の代表の解析結果を決定し、その代表の中で、解析結果が重複しているものがあれば、その結果を優先して文書論理構成を確定していたが、第４の実施の形態では、各ルールの解析結果全ての中から、重複しているものを探し、重複しているものがあれば、その結果を優先して文書論理構成を確定する。

（第５の実施の形態）
第１〜第４の実施の形態では、図９に示す全てのルールで解析を行っていたが、第５の実施の形態では、各ルールに重みづけをしておき、全てのルールで解析を行うのではなく、例えば、最も高い自信度のルール、や自信度が一定以上のルールなど、特定の条件に合致するルールのみで解析を行う。これにより、全てのルールで解析を行う場合に比べて、解析回数を減らすことができ、その分処理完了までの時間が短くなる。

（第６の実施の形態）
第１〜第４の実施の形態では、タグ解析、テキスト解析、画像解析の３種類全てで解析を行っていたが、第６の実施の形態では、３つのうちの２種類で解析を行う。組み合わせ方は、全３通りのうちのいずれを採用してもよい。

以上、本発明の実施の形態を図面によって説明してきたが、具体的な構成は実施の形態に示したものに限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。

本発明の実施の形態では、本発明の文書構成解析システムの例として、文書構成解析システム２を挙げて説明したが、本発明の文書構成解析システムは単体の装置であってもよい。

文書の構成を解析する方法やルールは、本発明の実施の形態で説明した方法に限らない。

自信度の算出方法は、実施の形態で説明した方法に限らない。たとえば、各ルールを使用して解析を行った際に、そのルールを文書全体のうち、どの程度適合できたか（適合度）を数値化し、その適合度に基づいて自信度を算出するようにしてもよい。

２…文書構成解析システム
３…ネットワーク
５…ＰＣ
１０…サーバ
１１…ＣＰＵ
１２…ＲＯＭ
１３…ＲＡＭ
１４…不揮発メモリ
１５…ハードディスク装置
１６…ネットワーク通信部
３１…最終判定部
３２…文書解析部
１００…サーバ

Claims

文書の論理構成を、互いに異なる手法で解析する複数の文書解析部と、
前記複数の文書解析部の解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定部と、
を有する
ことを特徴とする文書構成解析システム。
前記文書解析部は、解析結果に対する信頼度を導出し、
前記最終判定部は、各文書解析部が導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
ことを特徴とする請求項１に記載の文書構成解析システム。
前記最終判定部は、前記複数の文書解析部の解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
ことを特徴とする請求項２に記載の文書構成解析システム。
前記文書解析部は、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
ことを特徴とする請求項２または３に記載の文書構成解析システム。
前記最終判定部は、前記複数の文書解析部の解析結果の多数決を採って前記文書の最終的な論理構成を判定する
ことを特徴とする請求項１乃至４のいずれか一つに記載の文書構成解析システム。
前記文書解析部の１つは、タグに基づいて文書の論理構成を解析する
ことを特徴とする請求項１乃至５のいずれか一つに記載の文書構成解析システム。
前記文書解析部の１つは、テキスト解析により文書の論理構成を解析する
ことを特徴とする請求項１乃至６のいずれか一つに記載の文書構成解析システム。
前記文書解析部の１つは、画像解析により文書の論理構成を解析する
ことを特徴とする請求項１乃至７のいずれか一つに記載の文書構成解析システム。
文書の論理構成を、互いに異なる手法で解析する複数の文書解析ステップと、
前記複数の文書解析ステップでの解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定ステップと、
を有する
ことを特徴とする文書構成解析方法。
前記文書解析ステップは、解析結果に対する信頼度を導出し、
前記最終判定ステップは、各文書解析ステップが導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
ことを特徴とする請求項９に記載の文書構成解析方法。
前記最終判定ステップは、前記複数の文書解析ステップの解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
ことを特徴とする請求項１０に記載の文書構成解析方法。
前記文書解析ステップは、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
ことを特徴とする請求項１０または１１に記載の文書構成解析方法。
前記最終判定ステップは、前記複数の文書解析ステップの解析結果の多数決を採って前記文書の最終的な論理構成を判定する
ことを特徴とする請求項９乃至１２のいずれか一つに記載の文書構成解析方法。
前記文書解析ステップの１つは、タグに基づいて文書の論理構成を解析する
ことを特徴とする請求項９乃至１３のいずれか一つに記載の文書構成解析方法。
前記文書解析ステップの１つは、テキスト解析により文書の論理構成を解析する
ことを特徴とする請求項９乃至１４のいずれか一つに記載の文書構成解析方法。
前記文書解析ステップの１つは、画像解析により文書の論理構成を解析する
ことを特徴とする請求項９乃至１５のいずれか一つに記載の文書構成解析方法。
情報処理装置に、請求項９乃至１６のいずれか１つに記載の文書構成解析方法を実行させるプログラム。