JP2016103150A

JP2016103150A - 文書処理装置および文書処理プログラム

Info

Publication number: JP2016103150A
Application number: JP2014241061A
Authority: JP
Inventors: 健一桂; Kenichi Katsura
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2016-06-02

Abstract

【課題】電子文書において目次（しおり）を自動生成するために、常に正確なレイアウトを選択できる文書処理装置および文書処理プログラムを提供する。【解決手段】紙媒体に印刷された文書をページごとに読み込んで、各ページの画像データを生成するスキャナー部と、ユーザーによる前記文書のレイアウトの種類の選択を受け付ける操作入力部と、生成された前記各ページの画像データに対しＯＣＲ処理を行い、ページごとにテキストデータを抽出するＯＣＲ処理部と、選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出する見出し抽出部と、抽出された前記タイトルおよび前記見出しから、前記目次を作成する目次作成部とを備える。【選択図】図１０

Description

本発明は、入力された文書からサマリーまたは目次を生成する文書処理装置および文書処理プログラムに関する。

電子的なドキュメントを閲覧する場合、ドキュメントにサマリーや目次が付いていると効率良く閲覧することが出来る。しかし、量が多いドキュメントから人が一つずつサマリーや目次に採用する文字列を抽出することは手間がかかるため、自動的にサマリーや目次を作成するための技術が開発されてきた。

例えば、特許文献１において開示された技術では、目次やサマリーの無い文書に対して、原稿として読み込んだ文書の文書画像から特定の文書要素の箇所のみを取り出して構成した文書画像（サマリーや目次）を自動的に生成する。

特許文献１の技術では、入力文書が、事前に用意しておいた文書レイアウトのどれであるかの情報を、領域分割の結果とのマッチングにより自動判別し、判別結果に基づいて選択されたレイアウトに基づいて見出しの抽出を行っている。

また、特許文献２において開示された技術では、画像データベースにキーワードと共に画像を登録する際、キーワードの入力を容易にするために、画像から抽出した文字列のうち、大きな文字サイズの文字列をキーワードとして選択している。

また、特許文献３において開示された技術では、様々なスタイルの文書画像から自動的に見出し領域を抽出するために、文字サイズなどのスタイル種別および見出し領域と他領域とを区別するための特徴区分を用いている。

また、特許文献４において開示された技術では、文を構成する要素の総合的な特徴量を示す統合見出し度という指標を用いて、ある要素が見出しである確度を計算している。

そして、従来よりも少ない作業量で見出し要素の誤検出および未検出を修正できるように、見出し要素および非見出し要素をユーザーが確認しやすいように工夫している。

特開平０５−３４２３２６号公報特開平０８−１６６９５９号公報特開２０１０−２１８２４９号公報特開２０１０−２４４４１２号公報

例えば、特許文献１の技術では、入力文書が、事前に用意しておいた文書レイアウトのどれであるかの情報を、領域分割の結果とのマッチングにより自動判別しているが、入力文書のレイアウトとしては様々なレイアウトが考えられ、常に正確に自動判別できるとは限らなかった。

以上のような事情に鑑み、本発明の目的は、電子文書において目次（しおり）を自動生成するために、常に正確なレイアウトを選択できる文書処理装置および文書処理プログラムを提供することにある。

上記目的を達成するため、本発明の一形態に係る文書処理装置は、紙媒体に印刷された文書をページごとに読み込んで、各ページの画像データを生成するスキャナー部と、ユーザーによる前記文書のレイアウトの種類の選択を受け付ける操作入力部と、生成された前記各ページの画像データに対しＯＣＲ処理を行い、ページごとにテキストデータを抽出するＯＣＲ処理部と、選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出する見出し抽出部と、抽出された前記タイトルおよび前記見出しから、前記目次を作成する目次作成部とを備える。そのため、電子文書において目次（しおり）を自動生成するために、常に正確なレイアウトを選択できる。

上記目的を達成するため、本発明の一形態に係る文書処理装置では、前記見出し抽出部は、前記タイトルまたは前記見出しを抽出する特定のページに前記テキストデータが含まれないとき、前記特定のページの属性を示す文字列を前記見出しとして抽出する構成でもよい。

上記目的を達成するため、本発明の一形態に係る文書処理装置では、前記操作入力部は、前記ユーザーから見出しを抽出する深さの設定を受け付け、前記見出し抽出部は、受け付けられた前記見出しを抽出する深さの設定に基づいて、見出しを抽出する構成でもよい。

上記目的を達成するため、本発明の一形態に係る文書処理プログラムは、紙媒体に印刷された文書をスキャナー部にページごとに読み込ませて、各ページの画像データを生成させ、操作入力部にユーザーによる前記文書のレイアウトの種類の選択を受け付けさせ、生成された前記各ページの画像データに対しＯＣＲ処理を行い、ページごとにテキストデータを抽出し、選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出し、抽出された前記タイトルおよび前記見出しから、前記目次を作成する手順をコンピューターに実行させる。

以上のように、本発明によれば、電子文書において目次（しおり）を自動生成するために、常に正確なレイアウトを選択できる。

文書処理装置が一般的なコンピューターにより構成される場合の構成図である。ＣＰＵ１１においてプログラムが実行されることにより実現される機能ブロックの図である。典型的な論文レイアウトの例を示す図である。典型的な英文書籍レイアウトの例を示す図である。典型的なプレゼンテーション資料のレイアウトを示す図である。典型的な契約書のレイアウトを示す図である。その他のレイアウトの具体例として、新聞または雑誌のレイアウトを示す図である。通常のページＰｇから抽出された見出し、空白ページＢｌｋを示す見出し、および写真画像のみからなるページＰｉｃを示す見出しが設定される様子を示す図である。しおりに加える見出しを抽出する際の、深さの設定について説明するための図である。文書処理装置１０における処理の流れについて説明するためのフローチャートである。

以下、図面を参照しながら、本発明の実施形態を説明する。

［概要］
最初に、本発明の一実施形態に係る文書処理装置の概要について説明する。本発明の一実施形態に係る文書処理装置は、紙媒体に印刷された文書を読み込んで電子化し、電子化した文書から見出し等を抽出してサマリーまたは目次を作成するものである。

上述した通り、幾つかのテンプレートを予め用意しておき、読み込んだ文書がどのテンプレートに該当するかを自動的に判断した後、該当するテンプレートを用いて見出し等を抽出する事による見出し抽出の効率化が行われてきた。

しかし、どのテンプレートに該当するかを自動的に判別する場合、読み込む文書に様々なレイアウトがあるため、精度よく判別することは難しかった。

そこで、本発明では、ユーザーにその判別を委ねる。そのため、自動判別するよりも高精度で見出し抽出に用いるレイアウトを選択することが出来る。適切なレイアウトを選択出来るので、見出し抽出もより高精度に行うことが出来る。

なお、以下の説明では、紙媒体の文書を電子化した電子文書のフォーマットとして、ＰＤＦ（Portable Document Format）を例に挙げて説明する。

ＰＤＦでは、ドキュメント内の章や節などの構成に合わせて、紙媒体におけるサマリーまたは目次のような役割を果たす、ドキュメント内へのリンクを集めたものを作成することが出来、「しおり」と呼ばれている。

本実施形態では、ＰＤＦで作成されたドキュメントに対し、しおりに掲載すべき見出し等をドキュメントから抽出し、しおりを作成までを説明する。

以上、本発明の一実施形態に係る文書処理装置の概要について説明した。

［構成］
次に、本発明の一実施形態に係る文書処理装置の構成について説明する。文書処理装置は、専用のハードウェアやソフトウェアにより構成されていてもよいし、一般的なコンピューターにより構成されてもよい。文書処理装置が一般的なコンピューターにより構成される場合の構成図を図１に示す。

同図に示すように、文書処理装置１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、操作入力部１４、通信部１５、表示部１６、記憶部１７、およびスキャナー部１９を有し、これら各ブロックがバス１８を介して接続されている。

ＲＯＭ１２は、各種の処理を実行するためのファームウェア等の複数のプログラムやデータを記憶する。ＲＡＭ１３は、ＣＰＵ１１の作業用領域として用いられ、ＯＳ（Operating System）、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。

記憶部１７は、例えばＨＤＤ（Hard Disk Drive）や、フラッシュメモリー、その他の不揮発性メモリーである。記憶部１７には、ＯＳや各種アプリケーション、各種データが記憶される。

通信部１５は、外部の機器と情報のやりとりを行う為のネットワークと結ばれている。

ＣＰＵ１１は、ＲＯＭ１２や記憶部１７に記憶された複数のプログラムのうち、操作入力部１４から与えられる命令に対応するプログラムをＲＡＭ１３に展開し、この展開されたプログラムにしたがって、表示部１６及び記憶部１７を適宜制御する。

操作入力部１４は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の操作装置である。

表示部１６は、例えば液晶ディスプレイ、ＥＬ（Electro-Luminescence）ディスプレイ、プラズマディスプレイ等である。

次に、ＣＰＵ１１においてプログラムが実行されることにより実現される機能ブロックについて説明する。図２は、ＣＰＵ１１においてプログラムが実行されることにより実現される機能ブロックの図である。

文書処理装置１０のＣＰＵ１１において実現される機能ブロックは、デバイス制御部１１ａ、画像処理部１１ｂ、ＯＣＲ処理部１１ｃ、見出し抽出部１１ｄ、しおり作成１１ｅ、およびファイル作成部１１ｆである。

デバイス制御部１１ａは、外部機器との通信のために通信部１５を制御したり、ユーザーとのやりとりのために操作入力部１４および表示部１６を制御したり、紙媒体の文書を読み込むためにスキャナー部１９を制御したりする。

画像処理部１１ｂは、スキャナー部１９により読み込まれた画像データに対し、画質変換、解像度変換、サイズ変換、回転処理、色変換などの処理を行う。

ＯＣＲ処理部１１ｃは、画像処理部１１ｂにより処理された画像データに対して、ＯＣＲ（Optical Character Recognition）処理を行って、画像データからテキストデータを抽出する。

見出し抽出部１１ｄは、予め定められたキーワードを用いて、しおりに含めるタイトルおよび見出しをテキストデータから抽出する。

しおり作成部１１ｅは、抽出された見出し等を集めてしおりを作成する。

ファイル作成部１１ｆは、しおりが追加されたＰＤＦファイルを作成する。

以上、文書処理装置１０の構成について説明した。

［文書レイアウト毎の処理例］
次に、電子化された文書から見出し等を抽出するために用いる、予め用意しておく文書レイアウトおよびレイアウト毎の見出し等を抽出する具体的な処理の内容について説明する。

なお、レイアウト毎の具体的な処理については、ここでのみ説明し、後述する全体的な処理の流れの説明においては、説明を省略する。

以下では、（１）論文レイアウト、（２）書籍レイアウト、（３）プレゼンテーション資料レイアウト、（４）契約書レイアウト、および（５）その他のレイアウトを例に挙げて説明する。

（１）論文レイアウト
まず、論文レイアウトについて説明する。図３は、典型的な論文レイアウトの例を示す図である。

図の左側のページＴ１に示すように、論文の最初のページＴ１において、一番上にタイトル（Title name）があり、その次に概要（Summary）がある。それ以下の部分は２段組となっており、章（Chapter）、節（Section、図示せず）、項、図（fig）、表（table）などから構成されている。

タイトルを抽出する場合、論文レイアウトでは、１ページ目Ｔ１の上段１０行以内に位置する最も文字サイズの大きい文字列を抽出する。

見出しとしては、各章、各節を示す文字列を抽出する。各章および各節を示す文字列とは、「章」、「Chapter」、「節」、「Section」、および通し番号により判別される文字列であり、これらの文字列をキーワードとして、見出しの検索および抽出が行われる。

なお、全てのレイアウトに共通するが、これらの文字列は、予め設定されていてもよいし、ユーザーにより設定されてもよい。ユーザーによる設定が行われていない場合、予め設定されたデフォルトのキーワードを用いて検索および抽出が行われる構成でもよい。

節を示す見出しを抽出するために、節を判別する際には、「節」または「Section」をキーワードとする以外に、「１．１」または「１．２」のように、数字をピリオドで区切った通し番号をキーワードとして検索を行ってもよい。

（２）書籍レイアウト
次に、書籍レイアウトについて説明する。図４は、典型的な英文書籍レイアウトの例を示す図である。なお、ここで書籍という場合、英文書籍の意味である。

書籍は、レイアウトとして、最初のページＢ１にタイトル（Title name）などが記述され、次のページＢ２に目次（Index）が記述され、その次のページＢ３にプロローグ（Prologue）が記述され、その次のページＢ４から本文が記述される。

タイトルは、最初のページＢ１から抽出される。

見出しとしては、本文の記述されているページ（Ｂ４以降のページ）から、「章」または「Chapter」をキーワードとして、各章の先頭を判別し、見出しが抽出される。

なお、「章」または「Chapter」の文字列の前または後に付加される、連番になっている番号を参考に見出しとする文字列を抽出してもよい。

（３）プレゼンテーション資料レイアウト
次に、プレゼンテーション資料のレイアウトについて説明する。図５は、典型的なプレゼンテーション資料のレイアウトを示す図である。

プレゼンテーション資料は、レイアウトとして、最初のページＰ１にタイトル（Title）があり、次のページＰ２から、各ページにおいて特定のトピックを説明するための見出しがページの先頭に大きな文字サイズで記述されている。

最初のページＰ１にある最も大きい文字サイズで記述された文字列を、タイトルと判別し、最初のページＰ１の内容を表す見出しとして抽出する。

また、２ページ目以降の各ページからは、先頭の文字列を見出しとして抽出する。

（４）契約書レイアウト
次に、契約書のレイアウトについて説明する。図６は、典型的な契約書のレイアウトを示す図である。なお、ここでは英文の契約書のレイアウトを示しているが、日本語の契約書も同様である。

契約書では、レイアウトとして、最初にタイトル（Title）があり、その次から契約内容を「条」（Article）ごとに纏めて記述が行われており、「条」には通し番号が振られている。

タイトルとして、最初のページＣ１の先頭文字列を抽出する。

また、各条の見出しを、「Article」をキーワードとして検索し、抽出する。

（５）その他のレイアウト
最後に、その他のレイアウトについて説明する。図７は、その他のレイアウトの具体例として、新聞または雑誌のレイアウトを示す図である。

このようなレイアウトでは、何処にタイトルや見出しがあるかは定まっていないので、各ページの先頭にある文字列を、見出しとして抽出する。

以上、電子化された文書から見出し等を抽出するために用いる、予め用意しておく文書レイアウトおよびレイアウト毎の見出し等を抽出する具体的な処理の内容について説明した。

［特別な見出しについて］
次に、特別な見出しについて説明する。特別な見出しとは、しおりを作成する際に、各ページから抽出した文字列ではなく、特定のページの属性を示す文字列を、そのページを表す文字列としてしおりに加えるためのものである。

以下では、特定のページが白紙である場合と特定のページが写真画像のみからなる場合を例に説明する。

しおりに見出しを加える特定のページが白紙である場合、ユーザーにより設定された任意の文字列を見出しとしてしおりに加えることが出来る。ユーザーによる設定が無い場合は、デフォルトの設定として「Blank page」の文字列が見出しとしてしおりに加えられてもよい。

しおりに見出しを加える特定のページが文字を含まない写真画像（ラスター画像）からなる場合、ユーザーにより設定された任意の文字列を見出しとしてしおりに加えることが出来る。ユーザーによる設定が無い場合は、デフォルトの設定として「Picture」の文字列が見出しとしてしおりに加えられてもよい。

図８は、通常のページＰｇから抽出された見出し、空白ページＢｌｋを示す見出し、および写真画像のみからなるページＰｉｃを示す見出しが設定される様子を示す図である。

なお、図中のブックマークリストＢＬは、しおりとしてＰＤＦファイルに書き出す文字列を一時的に記憶しておくためのＲＡＭ１３上の領域を示している。

以上、特別な見出しについて説明した。

［見出しを抽出する深さについて］
次に、しおりに加える見出しを抽出する際の、深さの設定について説明する。図９は、しおりに加える見出しを抽出する際の、深さの設定について説明するための図である。

図の上側、ページＰｇ１からの見出し抽出の際には、深さの設定を「節まで」としているので、ブックマークリストＢＬ１には、章（Chapter 1）に加え、節（Section1-1、Section1-2）が抽出されている。

図の下側、ページＰｇ２からの見出し抽出の際には、深さの設定を「章まで」としているので、ブックマークリストＢＬ２には、章（Chapter 1）だけが抽出されており、節は抽出されていない。

なお、深さとしては、項までを抽出する設定を行うことも出来る。

また、深さの設定は、項までを抽出する設定を「高」、節までを抽出する設定を「中」、章のみを抽出する設定を「低」とすることも出来る。

以上、しおりに加える見出しを抽出する際の、深さの設定について説明した。

［処理の流れ］
次に、文書処理装置１０における処理の流れについて説明する。図１０は、文書処理装置１０における処理の流れについて説明するためのフローチャートである。

まず、ユーザーが、スキャナー部１９を介して、文書処理装置１０に紙媒体の文書を読み込ませ、画像データとする（ステップＳ１）。

なお、ステップＳ１は、ユーザーが既に外部のスキャナー等を用いて取り込んだ画像データを通信部１５経由で受け付ける場合は、省略することが出来る。

次に、ユーザーが、読み込ませた文書（原稿）のレイアウトを選択する（ステップＳ２）。

次に、ユーザーが、オプション設定を選択する（ステップＳ３）。なお、ここでいうオプション設定とは、上述した、特別な見出しに関する設定および見出しを抽出する深さの設定の事である。

次に、読み込まれた原稿の各ページに対して、ステップＳ４からステップＳ８までの処理を繰り返す（ステップＳ４）。

次に、画像処理部１１ｂが、読み込まれた画像データを、ＯＣＲ処理に適するように、画像処理する（ステップＳ５）。

次に、ＯＣＲ処理部１１ｃが、画像処理された画像データに対し、ＯＣＲ処理を行い、テキストデータを抽出する（ステップＳ６）。

次に、見出し抽出部１１ｄが、抽出されたテキストデータから、ステップＳ１で選択されたレイアウトおよびステップＳ２で設定されたオプション設定に基づき、タイトルおよび見出しを抽出する（ステップＳ７）。なお、抽出されたタイトルおよび見出しは、上述したように、ＲＡＭ１３上のブックマークリストＢＬに記憶される。

次に、しおり作成部１１ｅが、ブックマークリストＢＬに基づいて、タイトルや見出しをＰＤＦファイルのしおりとして書き出す（ステップＳ８）。

全てのページに対する処理が完了した後、ファイル作成部１１ｆが、抽出されたテキストデータ等を用いて、しおりの付加されたＰＤＦファイルを完成させる（ステップＳ１０）。なお、ＰＤＦファイルのファイル名は、上記のステップで抽出したタイトルを付けてもよい。

以上、文書処理装置１０における処理の流れについて説明した。

［補足事項］
その他、本発明は、上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

１０ … 文書処理装置
１１ … ＣＰＵ
１１ａ… デバイス制御部
１１ｂ… 画像処理部
１１ｃ… ＯＣＲ処理部
１１ｄ… 見出し抽出部
１１ｅ… しおり作成部
１１ｆ… ファイル作成部
１２ … ＲＯＭ
１３ … ＲＡＭ
１４ … 操作入力部
１５ … 通信部
１６ … 表示部
１７ … 記憶部
１８ … バス
１９ … スキャナー部

Claims

紙媒体に印刷された文書をページごとに読み込んで、各ページの画像データを生成するスキャナー部と、
ユーザーによる前記文書のレイアウトの種類の選択を受け付ける操作入力部と、
生成された前記各ページの画像データに対しＯＣＲ処理を行い、ページごとにテキストデータを抽出するＯＣＲ処理部と、
選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出する見出し抽出部と、
抽出された前記タイトルおよび前記見出しから、前記目次を作成する目次作成部と
を備えた
文書処理装置。
請求項１に記載の文書処理装置であって、
前記見出し抽出部は、
前記タイトルまたは前記見出しを抽出する特定のページに前記テキストデータが含まれないとき、前記特定のページの属性を示す文字列を前記見出しとして抽出する
文書処理装置。
請求項１または２に記載の文書処理装置であって、
前記操作入力部は、
前記ユーザーから見出しを抽出する深さの設定を受け付け、
前記見出し抽出部は、
受け付けられた前記見出しを抽出する深さの設定に基づいて、見出しを抽出する
文書処理装置。
紙媒体に印刷された文書をスキャナー部にページごとに読み込ませて、各ページの画像データを生成させ、
操作入力部にユーザーによる前記文書のレイアウトの種類の選択を受け付けさせ、
生成された前記各ページの画像データに対しＯＣＲ処理を行い、ページごとにテキストデータを抽出し、
選択された前記レイアウトの種類および特定のキーワードに基づき、前記画像データから生成される電子化文書の目次に加えるタイトルおよび見出しを、前記ページごとの前記テキストデータから抽出し、
抽出された前記タイトルおよび前記見出しから、前記目次を作成する
手順をコンピューターに実行させるための文書処理プログラム。