JP2019105957A - 文書構成解析システム、文書構成解析方法、プログラム - Google Patents

文書構成解析システム、文書構成解析方法、プログラム Download PDF

Info

Publication number
JP2019105957A
JP2019105957A JP2017237399A JP2017237399A JP2019105957A JP 2019105957 A JP2019105957 A JP 2019105957A JP 2017237399 A JP2017237399 A JP 2017237399A JP 2017237399 A JP2017237399 A JP 2017237399A JP 2019105957 A JP2019105957 A JP 2019105957A
Authority
JP
Japan
Prior art keywords
analysis
document
configuration
text
final
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017237399A
Other languages
English (en)
Inventor
航一 田代
Koichi Tashiro
航一 田代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017237399A priority Critical patent/JP2019105957A/ja
Priority to US16/212,602 priority patent/US20190180099A1/en
Publication of JP2019105957A publication Critical patent/JP2019105957A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Abstract

【課題】解析の基準となるルールを複雑化させることなく、文書構成を解析することのできる文書構成解析システム、文書構成解析方法、プログラムを提供する。【解決手段】文書の論理構成を、互いに異なる手法で解析して得た、複数の解析結果に基づいて、解析対象となった文書の最終的な論理構成を判定することにより、解析の基準となるルールを複雑化させることなく、文書の論理構成を解析する。互いに異なる手法としては、タグ解析、テキスト解析、画像解析などであり、各解析方法での信頼度などに基づいて、それらの解析結果から最終的な論理構成を判定する。【選択図】図3

Description

本発明は、文書の論理構成を判定することのできる文書構成解析システム、文書構成解析方法、プログラムに関する。
テキストから有益な情報を抽出する方法として、テキストマイニングという方法がある。この方法によれば、たとえば、テキストの中から「不具合」などのネガティブな意味の言葉等を抽出して、まとめることができる。
ところで、一般に、文章は章、節、項、本文などのような構成で作成される場合が多い。図18は章、節、項、本文で構成される文書の例を示す。図18では、1章として「新製品の開発状況」、1章の1節として「A製品」、1章の1節の1項として「ソフトウェア」、その下に本文として「○○モジュールにて(省略)見直しが必要。」がある。同様に、1章の1節の2項として「ハードウェア」、その本文に「スケジュール通り(省略)見直す必要あり。」とある。1章の2節のB製品以下も同様の構成になっている。
このような文章の全てのテキストにテキストマイニングを行うと、章、節、項などのタイトルテキストがノイズになってしまい、有益な情報が抽出できない可能性がある。たとえば図18では、1章の「新製品の開発状況」などがノイズになり、有益な情報の抽出ができなくなってしまう可能性がある。
よって、文書全体にテキストマイニングを行う場合、章、節、項といった文書構成を特定し、それらに付随するタイトルテキストを除去してからテキストマイニングを行うことが望ましい。また、文書構成を特定することができれば、抽出された情報が、どの章、節、項に属するものであるかを認識することができる。
文書構成を解析する方法としては、たとえば、下記特許文献1〜5に開示されているものがある。この引用文献1〜5に記載の文書構成を解析する方法は、大別するとタグ解析、テキスト解析、画像解析の3種類に分類することができる。
タグ解析、テキスト解析、画像解析によって文書構成を解析する場合、本文部分を特定するためのルールを設ける。たとえば、テキスト解析において設けられるルールの一つとして「インデント(字下げ)数をカウントし、そのカウント数で判断する」というルールがある。このルールを用いたテキスト解析の方法で図18の文書構成を解析すると、最下層にあるテキストが文書の本文、それ以外を章や節と考えることで、本文部分を特定することができる。また、この方法では、章や節等の階層構造を取得することも可能である。
しかし、章、節、項、本文の全てが左詰め(インデントが無い)の文書もあり得る。図19は、章、節、項、本文の全てが左詰めの文書の例を示す。図19の文書では、前述したインデント数のカウントのルールでは文書構成を解析することができない。このような場合、例えば「テキストの最後に句点(。)があるものを本文と判定する」などのルールを追加すれば、文書構成は解析可能となる。
特開2010−282347号公報 特開2016−006661号公報 特開2017−10107号公報 米国特許2013311490号公報 米国特許9454696号公報
このように、一のルールで文書構成を解析することができない場合、通常は該ルールを改良したり、新たなルールを追加したりすることで判定可能とする。
しかし、文書の記述方法は人によって異なるため、無数の記述法が存在することから、その度にルールの改良や追加を行うのは手間がかかる。また、ルールの改良、追加は、ルールの複雑化や、追加していく過程でのルールの衝突などの問題が発生する原因となり得る。
本発明は、上記の問題を解決しようとするものであり、解析の基準となるルールを複雑化させることなく、文書構成を解析することのできる文書構成解析システム、文書構成解析方法、プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1]文書の論理構成を、互いに異なる手法で解析する複数の文書解析部と、
前記複数の文書解析部の解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定部と、
を有する
ことを特徴とする文書構成解析システム。
上記発明では、互いに異なる手法で文書の論理構成を解析し、その複数の解析結果に基づいて、最終的な論理構成を判定する。これにより、解析の基準となるルールを複雑化させることなく、文書の論理構成を解析することができる。互いに異なる手法とは、たとえば、タグ解析、テキスト解析、画像解析などである。
[2]前記文書解析部は、解析結果に対する信頼度を導出し、
前記最終判定部は、各文書解析部が導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
ことを特徴とする[1]に記載の文書構成解析システム。
上記発明では、各解析結果の信頼度を導出し、その信頼度に基づいて最終的な論理構成を判定する。
[3]前記最終判定部は、前記複数の文書解析部の解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
ことを特徴とする[2]に記載の文書構成解析システム。
[4]前記文書解析部は、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
ことを特徴とする[2]または[3]に記載の文書構成解析システム。
上記発明では、解析を行う際に適合したルールの種類、もしくはそのルールへの適合度によって、信頼度を決定する。
[5]前記最終判定部は、前記複数の文書解析部の解析結果の多数決を採って前記文書の最終的な論理構成を判定する
ことを特徴とする[1]乃至[4]のいずれか一つに記載の文書構成解析システム。
上記発明では、解析結果の多数決を採り、その多数決の結果により最終的な論理構成を判定する。
[6]前記文書解析部の1つは、タグに基づいて文書の論理構成を解析する
ことを特徴とする[1]乃至[5]のいずれか一つに記載の文書構成解析システム。
[7]前記文書解析部の1つは、テキスト解析により文書の論理構成を解析する
ことを特徴とする[1]乃至[6]のいずれか一つに記載の文書構成解析システム。
[8]前記文書解析部の1つは、画像解析により文書の論理構成を解析する
ことを特徴とする[1]乃至[7]のいずれか一つに記載の文書構成解析システム。
[9]文書の論理構成を、互いに異なる手法で解析する複数の文書解析ステップと、
前記複数の文書解析ステップでの解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定ステップと、
を有する
ことを特徴とする文書構成解析方法。
[10]前記文書解析ステップは、解析結果に対する信頼度を導出し、
前記最終判定ステップは、各文書解析ステップが導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
ことを特徴とする[9]に記載の文書構成解析方法。
[11]前記最終判定ステップは、前記複数の文書解析ステップの解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
ことを特徴とする[10]に記載の文書構成解析方法。
[12]前記文書解析ステップは、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
ことを特徴とする[10]または[11]に記載の文書構成解析方法。
[13]前記最終判定ステップは、前記複数の文書解析ステップの解析結果の多数決を採って前記文書の最終的な論理構成を判定する
ことを特徴とする[9]乃至[12]のいずれか一つに記載の文書構成解析方法。
[14]前記文書解析ステップの1つは、タグに基づいて文書の論理構成を解析する
ことを特徴とする[9]乃至[13]のいずれか一つに記載の文書構成解析方法。
[15]前記文書解析ステップの1つは、テキスト解析により文書の論理構成を解析する
ことを特徴とする[9]乃至[14]のいずれか一つに記載の文書構成解析方法。
[16]前記文書解析ステップの1つは、画像解析により文書の論理構成を解析する
ことを特徴とする[9]乃至[15]のいずれか一つに記載の文書構成解析方法。
[17]情報処理装置に、[9]乃至[16]のいずれか1つに記載の文書構成解析方法を実行させるプログラム。
本発明に係る文書構成解析装置、文書構成解析方法、文書構成解析システムによれば、解析の基準となるルールを複雑化させることなく、文書構成を解析することができる。
本発明の実施の形態に係る文書構成解析システムの一例を示す図である。 本発明に係る文書構成解析装置としてのサーバの概略構成を示すブロック図である。 サーバが文書構成の解析を行う場合の処理の概略を示す流れ図である。 サーバが複数の他のサーバに解析を依頼し、その解析結果から最終判定結果を導出する様子を示す図である。 タグ解析を行う場合の処理の流れを示す流れ図である。 テキスト解析を行う場合の処理の流れを示す流れ図である。 画像解析を行う場合の処理の流れを示す流れ図である。 複数の解析結果に基づいて行う最終判定処理の流れを示す図である。 解析方法およびルールの詳細の一覧表を示す図である。 文書から取得したタグの例を示す図である。 タグ解析での判定結果の例を示す。 テキスト解析(TEXT-1のルール)での判定結果の例を示す。 テキスト解析(TEXT-2のルール)での判定結果の例を示す。 画像の左端から、文字列の左端までの距離により、文書構成の解析を行う様子を示す図である。 画像解析での判定結果の例を示す。 各ルールの自信度の算出方法の一覧表を示す図である。 内容が重複したタグ解析とテキスト解析での解析結果と、画像解析での解析結果を示す図である。 解析対象となる文書の例を示す図である。 解析対象となる文書であって図18と異なる例を示す図である。
以下、図面に基づき本発明の実施の形態を説明する。
(第1の実施の形態)
図1は、本発明の実施の形態に係るPC5を含む文書構成解析システム2の一例を示す図である。文書構成解析システム2は、LAN(Local Area Network)などのネットワーク3にサーバ10と、PC5、および複数台のサーバ100が接続して構成される。
PC5は、ユーザが使用するパーソナルコンピュータ等の端末装置である。PC5は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を備えており、OS(Operating System)、アプリケーションプログラムなどの各種のプログラムに基づいて動作する。本発明の実施の形態では、PC5は、文書の作成や保存、サーバ10に対して文書構造の解析を依頼したりする。
サーバ10は、PC5から文書構造の解析依頼を受けたら、複数の互いに異なる手法で文書構造を解析し、その解析によって得た複数の結果に基づいて、文書の最終的な論理構造を判定し、該判定結果をPC5に返す役割を果たす。なお、本発明の実施の形態では、サーバ10自体が複数の異なる手法で文書構造を解析してもよいし、複数台のサーバ100が該解析を代替してもよい。
サーバ100は、サーバ10の依頼に応じて文書構造の解析を代替する。図1では2台のサーバ100が描写されているが、サーバ100は3台以上あってもよい。複数台ある各サーバ100は、互いに異なる手法で文書構造を解析するものとする。
本発明の実施の形態では、サーバ10が、文書の構造を複数の互いに異なる手法で解析し(もしくは複数のサーバ100に解析の代替を依頼し)、その複数の解析の結果に基づいて文書の最終的な論理構成を判定する。複数の手法で解析して得た結果から文書の最終的な論理構成を判定するので、ある手法で文書構成が解析できない場合であっても、その手法におけるルールの改良や追加を行うことなくとも、文書の最終的な論理構成を確実に判定することができる。
図2は、サーバ10の概略構成を示すブロック図である。サーバ10は、当該サーバ10の動作を統括的に制御するCPU(Central Processing Unit)11を有する。CPU11にはバスを通じてROM(Read Only Memory)12、RAM(Random Access Memory)13、不揮発メモリ14、ハードディスク装置15、ネットワーク通信部16などが接続されている。
CPU11は、OSプログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムなどを実行する。ROM12およびハードディスク装置15には、各種のプログラムが格納されており、これらのプログラムに従ってCPU11が各種処理を実行することでサーバ10の各機能が実現される。
RAM13は、CPU11がプログラムに基づいて処理を実行する際に各種のデータを一時的に格納するワークメモリや画像データを格納する画像メモリなどとして使用される。
不揮発メモリ14は、電源をオフにしても記憶内容が破壊されないメモリ(フラッシュメモリ)であり、各種設定情報の保存などに使用される。ハードディスク装置15は、大容量不揮発の記憶装置であり、印刷データ、画像データなどのほか各種のプログラムやデータが記憶される。
ネットワーク通信部16は、ネットワーク3を通じて、PC5やサーバ100など、他の外部装置と通信する機能を果たす。
本発明の実施の形態では、CPU11が、文書の論理構成を、互いに異なる手法で解析する複数の文書解析部32と、複数の文書解析部32の解析結果に基づいて文書の最終的な論理構成を判定する最終判定部31としての役割を果たす。
サーバ10は、自装置の複数の文書解析部32で文書の解析を行ってもよいし、外部の複数台のサーバ100に文書の解析を依頼してもよい。
複数台のサーバ100は、サーバ10と通信可能であり、サーバ10からの依頼に応じて、文書を解析し、その結果をサーバ10に返信する。本発明の実施の形態では、複数台のサーバ100に、文書の解析を依頼する場合、それらのサーバ100が文書解析部32としての役割を果たす。
次に、サーバ10が行う処理の概略について図3を参照しつつ説明する。まず、PC5から、文書と、該文書の構造の解析依頼を受ける(ステップS101)。次に、互いに異なる複数の手法で、文書の解析を行う。本発明の実施の形態では、タグ解析による解析処理(ステップS102)と、テキスト解析による解析処理(ステップS103)と、画像解析による解析処理(ステップS104)を行う。
ステップS102〜104で得た解析結果に基づいて、最終的な文書構造の判定処理を行い(ステップS105)、本処理を終了する。ステップS102〜104で得た解析結果には、後述する自信度(本発明の信頼度に相当)が設定されており、ステップS105では、その自信度等に従って最終的な文書構造の判定処理を行う。
タグ解析による解析処理と、テキスト解析による解析処理では、構造を解析するためのルールを設け、該ルールに従って文書構造の解析を行う。設定するルールは一つでもよいし、複数あってもよい。複数のルールを設定した場合、ルール毎に文書の解析処理を行う。
なお、サーバ10は、ステップS102〜ステップS104での解析処理を自装置で行ってもよいし、外部のサーバ100に依頼してもよい。図4は、ステップS102〜ステップS104での解析処理を外部の複数のサーバ100に依頼した場合の様子を示す。
図4では、依頼を受けた各サーバ100は、互いに異なる手法で文書の解析処理を行っている。図4では、タグ解析による解析を2台のサーバ100が行っているが、互いに異なるルールで解析を行っているものとする。
次に、各解析処理について説明する。図5は、図3のステップS102で行われるタグ解析による解析処理のフローを示す。まず、解析対象の文書がXML等のマークアップ言語で作成されていなければ(ステップS201;No)、ステップS204に進む。
解析対象の文書がマークアップ言語で作成されている場合は(ステップS201;Yes)、タグを取得し(ステップS202)、その取得したタグを解析する(ステップS203)。
ステップS203での解析は、あらかじめ決められたルールに従って行われる。たとえば、マークアップ言語で記載された文書中に章や本文を表すタグが用いられていたとする(タグは「<要素名 >内容</要素名>」といった形で記載され、任意で定義あるいはあらかじめ定義された要素名・属性に従って記述されている)。解析では、ルールとして、○○タグを探すものや××タグを探すもの等があり、それらのルールに従って、文書内の各文が章、節、項、本文のうちのいずれに該当するかなどを解析する。
その後、ステップS203での解析結果に基づいて文書内の各文が章、節、項、本文のうちのいずれに該当するかについて、タグ解析としての文書論理構成の最終判定結果を出して(ステップS204)本処理を終了する。文書がマークアップ言語で記載されていなかった場合、解析失敗として判定する。
なお、ルールが複数あり、該ルール毎にタグ解析を行った場合、それらの最終判定結果の全てを図3のステップS105での最終判定処理で使用してもよいし、それらの最終判定結果から、ルール毎の自信度等に基づいて総合最終判定結果を決定し、その総合最終判定結果を図3のステップS105で、タグ解析の最終判定結果として使用してもよい。
図6は、図3のステップS103で行われるテキスト解析による解析処理のフローを示す。まず、解析対象の文書から、テキストを取得する(ステップS301)。次に、その取得したテキストを解析する(ステップS302)。
その後、ステップS302での解析結果に基づいて文書内の各文が章、節、項、本文のうちのいずれに該当するかについて、テキスト解析としての文書論理構成の最終判定結果を出して(ステップS303)本処理を終了する。
図7は、図3のステップS104で行われる画像解析による解析処理のフローを示す。まず、解析対象の文書の画像を取得する(ステップS401)。次に、その取得した画像を解析する(ステップS402)。
その後、ステップS402での解析結果に基づいて文書内の各文が章、節、項、本文のうちのいずれに該当するかについて、画像解析としての文書論理構成の最終判定結果を出して(ステップS403)本処理を終了する。
図8は、図3のステップS105で行われる最終判定処理のフローを示す。まず、図5〜図7の処理での最終判定による結果を集約する(ステップS501)。次に、その集約した判定結果に基づいて、最適な判定結果を導出し(ステップS502)。本処理を終了する。最適な判定結果の導出方法は後述する。
次に、文書構成解析システム2が、文書を解析する場合に使用する各解析方法のルールの具体例について、図9〜図17を参照しつつ説明する。
(具体例1)
図9は、文書構成解析システム2が行う各解析方法において設定されているルールの一覧(ルール表)を示す。図9のルール表では、タグ解析は2種類のルール(TAG−1、TAG−2)、テキスト解析は2種類のルール(TEXT−1、TEXT−2)、画像解析は1種類のルール(IMAGE-1)が登録されている。各ルールには、予め自信度が設定されており、各ルールで解析された結果が異なる場合、この自信度の高い方のルールの結果が優先される。
各ルールの詳細な説明、および、各ルールで解析した場合の解析結果について説明する。まず、タグ解析で使用する2つのルール(TAG−1、TAG−2)について説明する。
TAG−1のルールは、「タグにおいて「<○章>、<×節>、<△項>、<○章Title>、<×節Title>、<△項Title>、<Body>」と記載されているものを探し出し、それらを章、節、項、として認識する」というものである。
TAG−2のルールは、「タグにおいて「<Title>、<TitleName>、<Text>」と記載されているものを探し出し、それらを、章、タイトルテキスト、本文テキストとして認識する」というものである。
次に、前述したルールを使用してタグ解析を行う場合の例について説明する。タグ解析を行う場合、解析対象の文書のタグを取得する。図10はタグの一例として、図18の文書のXMLタグを示す。図11は、図10のXMLタグに対して、TAG−1のルールでタグ解析を行った場合に得られる判定結果を示す。
図11の判定結果では、「新製品の開発状況」、「A製品」、「ソフトウェア」、「○○モジュールにて(略)見直しが必要。」、「ハードウェア」などの各抽出ワードが、どの章、どの節、どの項、どこの本文に帰属しているものかを示す。たとえば、「A製品」のワードは、1章1節に帰属しており、節としての役割を果たすワードであると判別できる。「ソフトウェア」のワードは、1章1節1項に帰属しており、項としての役割を果たすワードであると判別できる。「○○モジュールにて(略)見直しが必要。」のワードは、1章1節1項1本文に帰属しているので、1章1節1項の本文部分であると判別できる。なお、図11に示すTAG−1のルールでタグ解析を行った場合の判定結果の自信度は90パーセントとなっている。
図10のXMLタグに対して、TAG−2のルールでタグ解析を行った場合、英文で記載されている部分が無いため、ルール適用不可として、判定不能の結果が出る。TAG−2のルールでタグ解析を行った場合の判定結果の自信度は80パーセントとなっている。
二つのルールでタグ解析を行った場合、TAG-1のルールで解析した場合のみ正常な判定結果が出たので、タグ解析においてはTAG-1のルールで解析した場合の判定結果を採用する。
次に、テキスト解析で使用する2つのルール(TEXT‐1、TEXT-2)について説明する。
TEXT−1のルールは、以下のものである。
・テキストを改行で分割する。
・その後分割したテキストをコロンで分割する。
・分割できなかったものは章、タイトルテキストとする。
・さらにその分割したテキストをスペースで分割する。
・スペースで分割した際の一方を節、タイトルテキストとする。
・さらにその分割したテキストをハイフン(−)で分割する。
・分割した一歩を項、タイトルテキストとし、もう一方を本文とする。
・分割できなかった場合はそのテキストを本文とする。
TEXT−2のルールは、以下のものである。
・テキストを改行で分割する。
・その後分割したテキストをセミコロン(;)で分割する。
・分割できなかったものは章、タイトルテキストとする。
・さらにその分割したテキストをコロンで分割する。
・コロンで分割した際の一方を節、タイトルテキストとする。
・さらにその分割したテキストをハイフン(−)で分割する。
・分割した一方を項、タイトルテキストとし、もう一方を本文とする。
・分割できなかった場合はそのテキストを本文とする。
図12は、図18の文書に対して、TEXT−1のルールでテキスト解析を行った場合に得られる解析結果を示す。図12の解析結果では、「新製品の開発状況」、「A製品」、「ソフトウェア○○モジュールにて(略)B製品としては問題無し。」、「B製品」などの各抽出ワードが、どの章、どの節、どの項、どこの本文に帰属しているものかを示す。たとえば、「ソフトウェア○○モジュールにて(略)B製品としては問題無し。」のワードは、1章1節1本文に帰属しているので、1章1節の本文部分であると判別できる。なお、図12に示すTEXT−1のルールでテキスト解析を行った場合の判定結果の自信度は80パーセントとなっている。
図13は、図18の文書に対して、TEXT−2のルールでテキスト解析を行った場合に得られる解析結果を示す。図13の解析結果では、「新製品の開発状況」、「A製品ソフトウェア○○モジュールにて(略)B製品としては問題無し。(略)予定通り進行中」の各抽出ワードが、どの章、どの節、どの項、どこの本文に帰属しているものかを示す。たとえば、「A製品ソフトウェア○○モジュールにて(略)B製品としては問題無し。(略)予定通り進行中」のワードは1章1本文に帰属しているので、1章の本文部分であると判別できる。なお、図13に示すTEXT−2のルールでテキスト解析を行った場合の判定結果の自信度は70パーセントとなっている。
テキスト解析では、タグ解析の時と異なりTEXT-1、TEXT-2のルールの両方が適用可能である。このように、複数のルールが正常に適用可能な場合は、各ルールの判定結果の自信度を比較し、自信度が最も高い判定結果を、代表として決定する。ここでは、TEXT-1の判定結果の方が、TEXT-2の判定結果より自信度が高いので、TEXT-1の判定結果を、テキスト解析での判定結果として採用する。
次に、イメージ解析で使用するルール(IMAGE-1)について説明する。
IMAGE-1のルールは以下のものである。
・テキストの文頭と画像の距離の計算を行う。
・深さが浅いほうから章、節・・・とする。
・最も深いものを本文とする。
・距離が同じ場合、すべてのテキストを本文テキストとする。
図14は、IMAGE-1のルールで解析する場合の例を示す。画像解析では、文字認識を行い、テキストの先頭文字の領域を取得したら(図中の黒い四角)、その黒い四角の左側と画像の左端の距離を計算する。具体的には、画像の左端から、各ワードの左端の文字(図中では「新」、「A」、「に」)の文字までの距離を計算し、その結果によって、各ワードが章、節、項、本文のどの部分に該当するのかを判断する。
図15は、図19の文書にIMAGE-1のルールを使用して画像解析を行った場合の結果を示す。図19の文書では、各文が全て左詰めになっているので、文書全体の全てのワードが、1つの本文テキストのみであると判定される。画像解析ではルールが一つのみなので、この判定結果を採用する。この判定結果の自信度は85パーセントである。
3つの解析方法での判定結果が確定したら、図8で説明したように、その結果を集約し、最終的な判定結果を導出する。タグ解析、テキスト解析、画像解析の結果の自信度を集約すると、それぞれ90パーセント、80パーセント、85パーセントとなっており、最も自信度が高いタグ解析の結果を採用し、文書構造解析の結果を確定する。確定後は章、節、項、あるいは本文の抽出結果を出力する。
なお、本例のテキスト解析では、特定の記号で区切り、論理構成を判定しているが、区切りとなる記号のルールが足りておらず、うまく論理構成を判定できていない。また、画像解析では前頭の空白で論理構成を判定しているが、本例では前頭に空白を入れておらず、テキスト解析と同様に別のルールを設定する必要がある。単一の手法で文書論理構成の判定ルールを構築しようとした場合、その解析ルールを増やすか、あるいは細かく設定しなければならず、単一手法のルールの複雑化を助長する。本実施例のように、複数手法を用いることで、様々な視点から論理構成を特定できるようになり、解析ルールの増加・難化を防ぎ、また、簡素なルールの組み合わせで文書の論理構成を特定することが可能になる。
(第2の実施の形態)
第1の実施の形態では、各ルールで解析を行った場合の自信度が予め設定されていたが、第2の実施の形態では、解析対象によって自信度が変動する場合について説明する。各ルールには、自信度を算出する方法が予め設定されている。図16は、図9で説明したルール毎に、自信度を計算する方法の一覧を示す。
図16では、TAG-1、TAG-2、TEXT-1、TEXT-2の4つのルールにおける自信度の計算方法には、「章、節、項、本文が適切な文字数になっているかを計算する方法」が、IMAGE-1のルールには「深さの距離の差の割合を計算する方法」が採用されている。
TAG-1のルールで解析を行う場合の具体例について説明する。TAG-1のルールでの解析で、図11で説明した結果が抽出されたものとする。この抽出結果から、章のタイトルテキストは「新製品の開発状況」であり、文字数は「8」、節のタイトルテキストは「A製品:」であり、文字数は「4」といった様に文字数を算出し、タイトルテキストとしてそれらが極端に異なった文字数になっていないか、あるいは本文の文字数が、章の文字数を超えていないか等の計算を行い自信度の計算を行う。基準となる文字数は予め設定されていてもよいし、ユーザが設定できるようにしてもよい。
このように、自信度を動的に決定する場合、最終判定にて、各ルールで解析した結果のうち最も高い自信度を持つ文書論理構成を確定する。
(第3の実施の形態)
第1、第2の実施の形態では、最も自信度の高いルールを採用していたが、第3の実施の形態では、各解析結果のうち、結果が重複するものがある場合は、その重複する結果を優先して文書論理構成を確定する。
図17は、とある文書を図9で説明した5つのルールで解析した場合において、各ルールの自信度に基づいて決定したタグ解析、テキスト解析、画像解析の代表の解析結果を示す。図17では、タグ解析とテキスト解析での解析結果は一致している。タグ解析の自信度は70%、テキスト解析の自信度は80%である。画像解析の解析結果はタグ解析とテキスト解析での解析結果とは異なっており、自信度は90%である。
この場合、タグ解析、テキスト解析の自信度は画像解析の自信度よりは劣るものの、論理構成の結果は同じものであったため、最終判定では、多数決としてタグ解析、テキスト解析の結果を優先して文書論理構成を確定する。
なお、重複する解析結果があっても、それらの自信度の合計が一定値に達しない場合は、自信度が最も高いものを優先して文書論理構成を確定するようにしてもよい。
(第4の実施の形態)
第3の実施の形態では、各ルールでの解析結果から、タグ解析、テキスト解析、画像解析の代表の解析結果を決定し、その代表の中で、解析結果が重複しているものがあれば、その結果を優先して文書論理構成を確定していたが、第4の実施の形態では、各ルールの解析結果全ての中から、重複しているものを探し、重複しているものがあれば、その結果を優先して文書論理構成を確定する。
(第5の実施の形態)
第1〜第4の実施の形態では、図9に示す全てのルールで解析を行っていたが、第5の実施の形態では、各ルールに重みづけをしておき、全てのルールで解析を行うのではなく、例えば、最も高い自信度のルール、や自信度が一定以上のルールなど、特定の条件に合致するルールのみで解析を行う。これにより、全てのルールで解析を行う場合に比べて、解析回数を減らすことができ、その分処理完了までの時間が短くなる。
(第6の実施の形態)
第1〜第4の実施の形態では、タグ解析、テキスト解析、画像解析の3種類全てで解析を行っていたが、第6の実施の形態では、3つのうちの2種類で解析を行う。組み合わせ方は、全3通りのうちのいずれを採用してもよい。
以上、本発明の実施の形態を図面によって説明してきたが、具体的な構成は実施の形態に示したものに限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。
本発明の実施の形態では、本発明の文書構成解析システムの例として、文書構成解析システム2を挙げて説明したが、本発明の文書構成解析システムは単体の装置であってもよい。
文書の構成を解析する方法やルールは、本発明の実施の形態で説明した方法に限らない。
自信度の算出方法は、実施の形態で説明した方法に限らない。たとえば、各ルールを使用して解析を行った際に、そのルールを文書全体のうち、どの程度適合できたか(適合度)を数値化し、その適合度に基づいて自信度を算出するようにしてもよい。
2…文書構成解析システム
3…ネットワーク
5…PC
10…サーバ
11…CPU
12…ROM
13…RAM
14…不揮発メモリ
15…ハードディスク装置
16…ネットワーク通信部
31…最終判定部
32…文書解析部
100…サーバ

Claims (17)

  1. 文書の論理構成を、互いに異なる手法で解析する複数の文書解析部と、
    前記複数の文書解析部の解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定部と、
    を有する
    ことを特徴とする文書構成解析システム。
  2. 前記文書解析部は、解析結果に対する信頼度を導出し、
    前記最終判定部は、各文書解析部が導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
    ことを特徴とする請求項1に記載の文書構成解析システム。
  3. 前記最終判定部は、前記複数の文書解析部の解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
    ことを特徴とする請求項2に記載の文書構成解析システム。
  4. 前記文書解析部は、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
    ことを特徴とする請求項2または3に記載の文書構成解析システム。
  5. 前記最終判定部は、前記複数の文書解析部の解析結果の多数決を採って前記文書の最終的な論理構成を判定する
    ことを特徴とする請求項1乃至4のいずれか一つに記載の文書構成解析システム。
  6. 前記文書解析部の1つは、タグに基づいて文書の論理構成を解析する
    ことを特徴とする請求項1乃至5のいずれか一つに記載の文書構成解析システム。
  7. 前記文書解析部の1つは、テキスト解析により文書の論理構成を解析する
    ことを特徴とする請求項1乃至6のいずれか一つに記載の文書構成解析システム。
  8. 前記文書解析部の1つは、画像解析により文書の論理構成を解析する
    ことを特徴とする請求項1乃至7のいずれか一つに記載の文書構成解析システム。
  9. 文書の論理構成を、互いに異なる手法で解析する複数の文書解析ステップと、
    前記複数の文書解析ステップでの解析結果に基づいて前記文書の最終的な論理構成を判定する最終判定ステップと、
    を有する
    ことを特徴とする文書構成解析方法。
  10. 前記文書解析ステップは、解析結果に対する信頼度を導出し、
    前記最終判定ステップは、各文書解析ステップが導出した信頼度に基づいて前記文書の最終的な論理構成を判定する
    ことを特徴とする請求項9に記載の文書構成解析方法。
  11. 前記最終判定ステップは、前記複数の文書解析ステップの解析結果のうち、前記信頼度が最も高い解析結果を前記文書の最終的な論理構成に採用する
    ことを特徴とする請求項10に記載の文書構成解析方法。
  12. 前記文書解析ステップは、複数のルールを有し、適合したルールの種類、もしくはルールへの適合度に基づいて信頼度を決定する
    ことを特徴とする請求項10または11に記載の文書構成解析方法。
  13. 前記最終判定ステップは、前記複数の文書解析ステップの解析結果の多数決を採って前記文書の最終的な論理構成を判定する
    ことを特徴とする請求項9乃至12のいずれか一つに記載の文書構成解析方法。
  14. 前記文書解析ステップの1つは、タグに基づいて文書の論理構成を解析する
    ことを特徴とする請求項9乃至13のいずれか一つに記載の文書構成解析方法。
  15. 前記文書解析ステップの1つは、テキスト解析により文書の論理構成を解析する
    ことを特徴とする請求項9乃至14のいずれか一つに記載の文書構成解析方法。
  16. 前記文書解析ステップの1つは、画像解析により文書の論理構成を解析する
    ことを特徴とする請求項9乃至15のいずれか一つに記載の文書構成解析方法。
  17. 情報処理装置に、請求項9乃至16のいずれか1つに記載の文書構成解析方法を実行させるプログラム。
JP2017237399A 2017-12-12 2017-12-12 文書構成解析システム、文書構成解析方法、プログラム Pending JP2019105957A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017237399A JP2019105957A (ja) 2017-12-12 2017-12-12 文書構成解析システム、文書構成解析方法、プログラム
US16/212,602 US20190180099A1 (en) 2017-12-12 2018-12-06 Document-composition analysis system, document-composition analysis method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017237399A JP2019105957A (ja) 2017-12-12 2017-12-12 文書構成解析システム、文書構成解析方法、プログラム

Publications (1)

Publication Number Publication Date
JP2019105957A true JP2019105957A (ja) 2019-06-27

Family

ID=66696239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017237399A Pending JP2019105957A (ja) 2017-12-12 2017-12-12 文書構成解析システム、文書構成解析方法、プログラム

Country Status (2)

Country Link
US (1) US20190180099A1 (ja)
JP (1) JP2019105957A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021117483A1 (ja) * 2019-12-09 2021-06-17 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086945A (ja) * 1994-06-16 1996-01-12 Ibm Japan Ltd 文書の論理構造の解析方法及びシステム
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2000105836A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 論理構造抽出装置
JP2004038827A (ja) * 2002-07-08 2004-02-05 Nec Corp 情報抽出方法、情報抽出装置および情報抽出プログラム
US6694053B1 (en) * 1999-12-02 2004-02-17 Hewlett-Packard Development, L.P. Method and apparatus for performing document structure analysis
JP2009110500A (ja) * 2007-10-29 2009-05-21 Toshiba Corp ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム
JP2013061702A (ja) * 2011-09-12 2013-04-04 Nec Corp 構造化文書処理装置、構造化文書の類似領域特定方法、及び構造化文書の類似領域特定プログラム
JP2017102587A (ja) * 2015-11-30 2017-06-08 富士ゼロックス株式会社 情報処理装置、画像読み取り装置、画像形成装置、および、プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5883986A (en) * 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction
US10198478B2 (en) * 2003-10-11 2019-02-05 Magic Number, Inc. Methods and systems for technology analysis and mapping
US8189920B2 (en) * 2007-01-17 2012-05-29 Kabushiki Kaisha Toshiba Image processing system, image processing method, and image processing program
US8311973B1 (en) * 2011-09-24 2012-11-13 Zadeh Lotfi A Methods and systems for applications for Z-numbers
US9454696B2 (en) * 2014-04-17 2016-09-27 Xerox Corporation Dynamically generating table of contents for printable or scanned content
JP6277921B2 (ja) * 2014-09-25 2018-02-14 京セラドキュメントソリューションズ株式会社 用語集管理装置および用語集管理プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086945A (ja) * 1994-06-16 1996-01-12 Ibm Japan Ltd 文書の論理構造の解析方法及びシステム
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2000105836A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 論理構造抽出装置
US6694053B1 (en) * 1999-12-02 2004-02-17 Hewlett-Packard Development, L.P. Method and apparatus for performing document structure analysis
JP2004038827A (ja) * 2002-07-08 2004-02-05 Nec Corp 情報抽出方法、情報抽出装置および情報抽出プログラム
JP2009110500A (ja) * 2007-10-29 2009-05-21 Toshiba Corp ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム
JP2013061702A (ja) * 2011-09-12 2013-04-04 Nec Corp 構造化文書処理装置、構造化文書の類似領域特定方法、及び構造化文書の類似領域特定プログラム
JP2017102587A (ja) * 2015-11-30 2017-06-08 富士ゼロックス株式会社 情報処理装置、画像読み取り装置、画像形成装置、および、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
川崎 洋治 YOJI KAWASAKI: "文書構造情報の抽出とメタデータ化 Automatic Extraction of Document Metadata and its RDF-based Repres", 情報処理学会研究報告 VOL.2003 NO.37 IPSJ SIG NOTES, vol. 第2003巻,第37号, JPN6021046734, 28 March 2003 (2003-03-28), JP, pages 43 - 50, ISSN: 0004789701 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021117483A1 (ja) * 2019-12-09 2021-06-17 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20190180099A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
US10055402B2 (en) Generating a semantic network based on semantic connections between subject-verb-object units
US8938384B2 (en) Language identification for documents containing multiple languages
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
EP3021239A2 (en) Display apparatus and method for summarizing of document
CN106462604B (zh) 识别查询意图
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
US9043339B2 (en) Extracting terms from document data including text segment
US20170277781A1 (en) Generating a summary based on readability
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN106610931B (zh) 话题名称的提取方法及装置
JP2019192247A (ja) 文ラベル方法及び文ラベル装置
EP2191396B1 (en) An apparatus for preparing a display document for analysis
JP2019220038A (ja) 文書解析装置、文書構成解析方法及びプログラム
EP3186707B1 (en) Method of and system for processing a user-generated input command
JP5317061B2 (ja) 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
JP2019105957A (ja) 文書構成解析システム、文書構成解析方法、プログラム
US20190205320A1 (en) Sentence scoring apparatus and program
RU2711123C2 (ru) Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора
CN112699634B (zh) 电子书的排版处理方法、电子设备及存储介质
CN110895654A (zh) 分段方法、分段系统及非暂态电脑可读取媒体
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
US10474726B2 (en) Generation of digital documents
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
JPWO2009041661A1 (ja) 情報処理装置、及びプログラム
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220602