JP2017126270A

JP2017126270A - 画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム

Info

Publication number: JP2017126270A
Application number: JP2016006328A
Authority: JP
Inventors: 裕之 ▲柳▼; Hiroyuki Yanagi
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2017-07-20

Abstract

【課題】強調情報に基づいて文書のタイトルを設定することが可能な画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムを提供する。【解決手段】文書内の文字列に付され、文字列を強調する強調情報の有無を判定する判定部と、判定部が強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出部と、を備える。【選択図】図１

Description

本発明は、画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムに関する。

従来、会社等の事業者においては、膨大な量の紙（ペーパー）文書が発生し、保管されている。紙文書は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するためのスペースを必要とする。また、情報を紙文書に記録して保存する場合、後にその紙文書が必要になったときには、例えば、書庫に収納された多くの紙文書の中から目的とする紙文書を探さなければならない。従って、紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。

このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、ユーザが１ページずつ紙文書をスキャナ装置にセットすると、スキャナ装置が紙文書の各ページを読み込み、画像データとして電子ファイルに格納する。この際、電子データの受信者は任意にタイトルを指定することができる。

また、紙文書のページ数が多い場合には、オートドキュメントフィーダ（ＡＤＦ）と呼ばれる自動給紙機構（以下、単にＡＤＦという）を備えたスキャナ装置を用いて、紙文書の各ページを連続して自動的に読み取る処理が広く行われている。この場合には、読み取った画像データに基づき、文字認識により画像データの中から文字列を抽出してファイル名にしている（例えば、特許文献１、２）。

上記特許文献１では、ユーザが画像データの内容を容易に把握できるファイル名を自動的に生成する目的で、画像の一定領域（プリセット領域）を対象に文字認識し、その文字認識で得られた文字又は文字列のサイズや色を判断して、所定のサイズや色の文字を画像ファイルのファイル名としている。しかし、スキャナした原稿から文字や文字列を抽出する際、文字の大きさが一定でモノクロ原稿の場合には予め設定されている文字のみが選出されてしまう。そのため、必ずしも読み込んだ原稿からユーザが強調している文字列が選出されるとは限らず、ユーザが意図しない文字列が抽出されてしまうという問題があった。

また、特許文献２では、原稿に対して、先頭の文字列をタイトルとして設定したり、文字列の長さの情報等からタイトルを抽出していたため、ユーザがアンダーラインなどで強調している情報がタイトルとして適しているにも関わらず、タイトルとして抽出されないという問題があった。さらに、原稿が複数ページの場合であっても先頭のページからのみタイトルを抽出していたため、タイトルを抽出するのに適切なページを選択していなかった。

すなわち、これらの従来技術では、ユーザが原稿等の文書の中で文字、数字、記号、符号、図形等をはじめとする様々な入力情報に対して、意図してその入力情報を強調するためのアンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な強調情報を付した場合であっても、その意図どおりに文書のタイトルを抽出することができないという問題があった。

本発明は、このような問題を解決するためになされたもので、強調情報に基づいて文書のタイトルを抽出することが可能な画像処理装置を提供することを目的とする。

上記課題を解決し、目的を達成するために、本発明に係る画像処理装置は、文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定部と、前記判定部が前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出部と、を備えることを特徴とする画像処理装置として構成される。上記文字は、原稿等の文書の中で付された、文字、数字、記号、符号、図形等をはじめとする様々な入力情報を含み、上記強調情報は、意図してその入力情報を強調するためのアンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な情報を含むものである。

本発明によれば、強調情報に基づいて文書のタイトルを抽出することができる。

画像形成装置の機能的な構成を示すブロック図である。画像形成装置で行なわれるタイトル抽出処理の処理手順を示すフローチャートである。文字面積率の例を示すイメージ図である。抽出対象となるページからタイトルの候補を抽出した順に羅列した場合の例を示す図である。抽出対象となるページから抽出したタイトルの候補に付された強調情報の種類ごとに分類した場合の例を示す図である。Ｓ２０９におけるタイトルを抽出する処理の処理手順を示すフローチャートである。アンダーラインが付された文字を含むページの例を示す図である。文字が存在しない部分のアンダーラインは、空白文字に付されたアンダーラインであるとして認識される例を示す図である。アンダーライン上の文字およびアンダーラインが全て同じサイズに変換される例を示す図である。空白文字とその空白文字に付されていたアンダーラインを削除し、文字間を詰める例を示す図である。アンダーラインが付された文字列の中で、あらかじめ指定されているライン長が特定される例を示す図である。

以下に添付図面を参照して、本発明にかかる画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムの実施の形態を詳細に説明する。以下では、スキャンした原稿の中からユーザが強調している文字や文字列を読み取って抽出するという特徴の一例として、原稿をスキャンした時に、アンダーラインが引いてある文字や文字列の中で一番短い文字列を抽出する場合について説明している。しかし、これに限らず、一般的なエディタで編集された文書の各ページに記載されている文字や文字列が強調されている場合についても適用することができる。

すなわち、原稿等の文書の中で付された、文字、数字、記号、符号、図形等をはじめとする様々な入力情報に対して、意図してその入力情報を強調するためのアンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な強調情報が付されている場合でも同様に適用することができる。また、以下では、文字といった場合には、文字通りの文字のほか、上記入力情報等のタイトルとして構成可能な様々な情報を含み、文字列といった場合には、これら情報の配列やその組合せを含むものとする。

図１は、本発明にかかる画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムを適用した画像形成装置１００の機能的な構成を示すブロック図である。画像形成装置１０００は、例えば、ＭＦＰやプリンタから構成される。図１に示すように、画像形成装置１００は、スキャナ部１、入力処理部２、ネットワーク接続部３、記憶部（ＨＤＤ）４、出力処理部５、画像出力部６、操作表示部７、および画像処理部８を備える。なお、本発明にかかる画像処理装置は、例えば、画像形成装置１００を構成するスキャナ部１や画像出力部６を除いた各部により構成される、ＰＣ（Personal Computer）等の一般的な情報処理装置として構成されていてもよい。

スキャナ部１は、入力原稿を読み取る。入力処理部２は、スキャナ部１が読み込んだ入力原稿の画像（原稿画像、入力画像）から画像データを作成する。ネットワーク接続部３は、イーサネット（登録商標）やＵＳＢを通じて、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）等の一般的な公衆回線網であるネットワークＮを介して外部機器と通信する。

ＨＤＤ４は、入力処理部２が作成した画像データをはじめとする各種情報を格納するための記憶装置である。出力処理部５は、後述する画像処理部８が処理した後の画像データに対して出力処理を施す。画像出力部６は、出力処理部５によって出力処理が施された画像データを出力する。なお、画像出力部６は、例えば、トナー像を形成するためのトナー像形成部、印刷された文字や文字列を用紙に定着させるための定着装置、および文字や文字列が定着された用紙を搬送する用紙搬送部などで構成されている。

操作表示部７は、ユーザからＭＦＰに対する操作を受け付けたり、ユーザに対して各種情報を表示するユーザインタフェースである。例えば、操作表示部７は、液晶表示機能を有するいわゆるタッチパネルとして構成され、後述するタイトルの表示やタイトルの指定を受け付ける。

画像処理部８は、入力処理部２が作成した画像データに対して様々な処理を行い、入力原稿のタイトルを抽出する。図１に示すように、画像処理部８は、上記画像データに対する一般的なアンダーラインの認識処理を行うアンダーライン認識部１０、アンダーライン認識部１０の結果を元にアンダーラインの有無を判定するアンダーライン判定部１１、上記画像データから文字や文字列を認識するＯＣＲ処理部１２、アンダーラインとアンダーライン上の文字を同じ大きさの情報として認識させる統合部１３、アンダーライン上の文字全てを同じ大きさに変換するサイズ統一部１４、ＯＣＲ処理部１２で認識された文字間の空白部がアンダーライン上のあるかを認識する空白判定部１５、空白判定部１５にて空白部が有ると判定された場合、その空白部を削除して、文字間を詰める処理を行う空白削除部１６、アンダーライン判定部１１の結果を元に、入力原稿内に何本のアンダーラインがあるかを確認するライン数確認部１７、アンダーラインが複数個あった場合、各アンダーラインの長さを比較するライン長比較部１８、入力原稿のタイトルとなるファイル名を作成するファイル名作成部１９、一般的なレイアウト解析処理を行うレイアウト解析部２０、レイアウト解析部２０にて判定された文字領域にＯＣＲ処理部１２が算出した文字サイズ及び入力原稿の紙サイズを元に文字領域の面積率を算出する面積判定部２１、面積判定部２１の結果より原稿が複数枚有った場合に文字面積率が一番小さいページを割り出す面積比較部２２、強調文字を抽出した際に複数個の強調文字を抽出したかを判定する強調文字数カウント部２３を備えている。これらの各部が行う処理については、フローチャートを用いて後述する。

図２Ａは、画像形成装置１００で行なわれるタイトル抽出処理の処理手順を示すフローチャートである。

図２Ａに示すように、タイトル抽出処理では、スキャナ部１が入力原稿を読み取ると（Ｓ２０１）、入力処理部２は、ファイル名であるタイトルを自動選択するモードである自動選択モードで処理するか否かを指定するメニュー画面を操作表示部７に表示する（Ｓ２０２）。自動選択モードが指定された場合にはＳ２０３に進み、自動選択モードが指定されていない場合には上記タイトルを抽出せずに処理終了となる。

入力処理部２は、Ｓ２０２において自動選択モードが指定されたと判定した場合、スキャナ部１が読み取った入力原稿から画像データを取得する（Ｓ２０３）。

入力処理部２は、上記画像データが複数枚の入力原稿から得られたものであるか否かを確認し（Ｓ２０４）、上記画像データが複数枚の入力原稿から得られたものであることを確認した場合（Ｓ２０４；Ｙｅｓ）、Ｓ２０５に進む。一方、入力処理部２が、上記画像データが単数枚の入力原稿から得られたものであることを確認した場合はＳ２０９に進む。

Ｓ２０４において、上記画像データが複数枚の入力原稿から得られたものであることが確認できた場合（Ｓ２０４；Ｙｅｓ）、レイアウト解析部３０は、入力処理部２から出力された上記画像データを読み取り、画像データ内の文字領域と絵柄領域とを判別する（Ｓ２０５）。これらの領域を判別するための手法は、従来から知られている様々な技術を用いることができる。

ＯＣＲ処理部１２は、Ｓ２０５で文字領域であると判別された箇所に対して、その文字領域内の文字を認識するためのＯＣＲ処理を実行する（Ｓ２０６）。ＯＣＲ処理については、従来から知られている様々な技術を用いることができる。ＯＣＲ処理により認識された文字データは、ＨＤＤ４に記憶される。

面積判定部２１は、Ｓ２０６でＯＣＲ処理された結果を元に、文字サイズから文字面積を判定する（Ｓ２０７）。以下、具体例を挙げて説明する。

例えば、入力原稿がＡ４紙であり、１０Ｐｔで文字が１００字記載されていた場合について説明する。Ａ４紙の場合、用紙サイズは縦２９７ｍｍ、横２１０ｍｍであるため、用紙の総面積は６２３７０ｍｍ^２となる。一方、文字サイズの大きさは、およそ１ｐｔ＝０．３５２ｍｍであるため、１０ｐｔの場合は１０ｐｔ＝３．５２ｍｍ、１文字あたりの文字面積としては１２．４ｍｍ^２となる。したがって、１０ｐｔの文字が１００文字なので、文字の総面積は１２．４×１００文字＝１２００．４ｍｍ^２となる。また、Ａ４紙に記載されている文字面積率としては、１２００．４/６２３７０×１００＝１．９２％となり、結果として文字面積率は約２％となることがわかる。面積判定部２１は、入力原稿から得られた各ページの画像データについて、上記文字面積率を算出する。

面積比較部２２は、入力原稿から得られた画像データの中で、各ページの文字面積率を算出しＳ２０７において算出された文字面積率が最も大きいページと最も小さいページを特定する（Ｓ２０８）。

図２Ｂは、文字面積率の例を示すイメージ図である。図２Ｂに示すように、面積判定部２１が、Ｐ１−Ｐ５までの各ページについて、Ｐ１の文字面積率が１５％（表紙）、Ｐ２の文字面積率が７０％、Ｐ３の文字面積率が４０％、Ｐ４の文字面積率が２０％、Ｐ５の文字面積率が１０％（最終ページ）であると算出した場合を考える。

この場合、文字面積率を比較すると、Ｐ５＜Ｐ１＜Ｐ４＜Ｐ３＜Ｐ２となることが分かる。しかし、最終ページはページの最後まで文章が記載されない場合が多く、文字面積率が低くなると考えられる。そこで、予め最終ページは除外するものとすると、上記の場合の文字面積率の比較結果は、Ｐ１＜Ｐ４＜Ｐ３＜Ｐ２となる。したがって、タイトルの抽出対象となるページは、Ｐ１とＰ２であることが分かる。なお、本例では最終ページを除外する前提で説明したが、このような設定は任意で行えるものとする。また、抽出対象とするページは、例えば、操作表示部７から選択する等してユーザが任意に決定することができるものとする。このように、文字面積率に基づいてタイトルの抽出対象ページを特定することにより、例えば、絵柄領域が多いページは、通常その絵柄の説明が多く、タイトルとなりうる文字を含まないと考えられるため、そのようなページを除外した上で効率よくタイトルを抽出することができる。さらに、通常、タイトルが付されたページは文字数が少ないことに鑑み、文字面積率が最も小さいページを特定してそのページをタイトルの抽出対象ページとすることにより、タイトルとしてアンダーラインが付されている可能性が最も高い文字を抽出することができる。

そして、画像処理部８は、入力原稿が単数枚の場合はその原稿からタイトルを抽出し、また、入力原稿が複数枚の場合は、Ｓ２０８で抽出対象とされたページからタイトルを抽出する（Ｓ２０９）。以下では、タイトルを抽出する文字にアンダーラインが付されている場合について説明しているが、上記したように、様々な強調情報が付された文字を対象に処理することができる。Ｓ２０９の処理については、図３Ａを用いて後述する。

強調文字部カウント部２３は、Ｓ２０９で抽出されたタイトルが複数個あるか否かを判定し（Ｓ２１０）、タイトルが複数個あると判定した場合（Ｓ２１０；Ｙｅｓ）、それらのタイトルを操作表示部７に表示させる（Ｓ２１１）。

操作表示部７は、Ｓ２１１において表示されたタイトルの中から、ユーザ所望のタイトルの選択を受け付け（Ｓ２１２）、画像処理部８は、選択されたタイトルを、抽出対象とされたページの中から抽出する（Ｓ２１３）。

なお、Ｓ２１１において、強調文字部カウント部２３は、抽出対象となるページから抽出した通りに複数個のタイトルの候補を羅列して操作表示部７に表示するか、または、例えば、タイトルの候補に付された強調情報の種類ごとに分類した上で操作表示部７に表示するかは、あらかじめ設定できるものとする。

図２Ｃは、抽出対象となるページからタイトルの候補を抽出した順に羅列した場合の例を示す図である。図２Ｃに示すように、操作表示部７には、タイトル候補となる文字列が、色文字、太文字、アンダーライン、色文字、太文字の順に抽出され、これらが抽出された順に操作表示部７に表示されていることがわかる。このように、抽出順にタイトルの候補を表示することで、ユーザはその順序を把握しつつタイトルを選択することができる。

図２Ｄは、抽出対象となるページから抽出したタイトルの候補に付された強調情報の種類ごとに分類した場合の例を示す図である。図２Ｄに示すように、操作表示部７には、タイトル候補となる文字列が、図２Ｃに示した順ではなく、アンダーライン、色文字、太文字の順というように、強調情報の種類ごとに並べ替えて操作表示部７に表示されていることがわかる。このように、強調情報の種類ごとにタイトルの候補を表示することで、ユーザはその種類を把握しつつタイトルを選択することができる。

このように、タイトル候補となる文字列を、操作表示部７に抽出順に羅列して表示させるか、またはタイトル候補となる文字列に付された強調文字の種類ごとに並べ替えて操作表示部７に表示させるかは、ユーザにより任意に選択できるものとする。

図３Ａは、Ｓ２０９におけるタイトルを抽出する処理の処理手順を示すフローチャートである。以下では、文字にアンダーラインが付されている場合について説明しているが、上記したように、様々な強調情報が付されている場合も同様に適用することができる。

図３Ａに示すように、アンダーライン認識部１０は、Ｓ２０８で抽出対象とされたページについて、アンダーラインを認識し、その結果をＨＤＤ４に記憶する（Ｓ３０１）。アンダーラインの認識については、従来から知られている様々な技術を用いることができる。認識結果としては、例えば、付されているアンダーラインの種類、何行目の左から何文字目であるのか等の位置情報、アンダーライン長などがＨＤＤ４に記憶される。

アンダーライン判定部１１は、アンダーライン認識部１０によりアンダーラインが認識され、認識結果が記憶されているか否かを判定し（Ｓ３０２）、認識結果が記憶されていると判定した場合（Ｓ３０２;Ｙｅｓ）、そのページにはアンダーラインが付された文字があると判断し、Ｓ３０３に進む。

Ｓ３０３では、統合部１３は、図２Ａに示したＳ２０６でＯＣＲ処理部１２が認識した文字と、Ｓ３０１でアンダーライン認識部１０が記憶したアンダーライン長とに基づいて、両者を対応付けて一致させる処理を実行する（Ｓ３０３）。以下、具体的に説明する。

図３Ｂは、アンダーラインが付された文字を含むページの例を示す図である。図３Ｂに示すように、ページ内の文字にはそれぞれ異なる大きさの文字を含み、ＯＣＲ処理部１２は、これらの文字の大きさを判定する、図３Ｂでは、例えば、○が３６Ｐｔ、△が２０Ｐｔであり、（１）〜（４）に示した文字に対して、アンダーライン（（４）の場合はアンダーライン及び枠囲み）が付されていることを示している。以下、最も短い長さのアンダーラインが付された文字列を抽出する場合について説明する。

統合部１３は、アンダーラインが付された文字列を文字ごとに分解し、各文字の幅の位置に付されている部分のアンダーラインを、その文字のアンダーラインとして認識させる。すなわち、統合部１３は、図３Ｃに示すように、点線で区切られた文字列の各文字の幅方向の大きさと同じ長さとなる部分のアンダーラインを、その文字の一部として認識させる。このとき、文字が存在しない部分のアンダーラインは、空白文字に付されたアンダーラインであるとして認識される。

例えば、図３Ｂに示した（１）に示した文字に対してアンダーラインが付されている場合について説明すると、Ｓ３０３では、統合部１３は、図３Ｃに示すように、図２に示したＳ２０６においてＯＣＲ処理部１２によって認識された文字の幅方向の大きさに対応する長さ（点線の間の長さ）のアンダーラインを、その文字の一部として認識させる。

判定部１４は、Ｓ３０３で認識されたアンダーラインを含めて認識された文字について、アンダーラインの空白箇所である空白文字があるか否かを判定する（Ｓ３０４）。空白文字があると判定された場合（Ｓ３０４；Ｙｅｓ）、Ｓ３０５に進む。

サイズ統一部１５は、上記Ｓ２０６でＯＣＲ処理部１２により認識された文字サイズを参照し、アンダーライン上の全ての文字を同じ大きさに変換する（Ｓ３０５）。なお、この文字サイズは任意に変更できるものとする。また、サイズ統一部１５は、文字と共にアンダーラインも同じ大きさに変換する。

例えば、図３Ｄに示すように、サイズ統一部１５は、上記Ｓ２０６でＯＣＲ処理部１２により認識された文字サイズを参照し、アンダーライン上の文字を全て２０Ｐｔに変換する。また、各文字に付されているアンダーラインについても、文字と同様に、２０Ｐｔに対応する長さに変換する。このように、文字やアンダーラインが統一したサイズとなることにより、同じ基準でこれらの長さを判断することができる。

空白削除部１６は、サイズが統一された後のアンダーライン上の空白文字を削除する（Ｓ３０６）。また、空白削除部１６は、削除した空白文字に対応する位置に付されているアンダーラインを削除する。例えば、図３Ｅに示すように、空白削除部１６は、図３Ｄに示した中央の空白文字とその空白文字に付されていたアンダーラインを削除し、文字間を詰める。このように、文字間を詰めたうえで以降の処理を行うことにより、例えば、誤って文字間に空白が挿入されてしまった場合でも、適切に文字とアンダーラインとを対応付けることができる。

ライン数確認部１７は、抽出対象とされたページ内に、文字間が詰められた後のアンダーラインが複数個あるかを確認する（Ｓ３０７）。アンダーラインが複数個有ることが確認された場合、Ｓ３０８に進む。

ライン長比較部１８は、複数個あるアンダーラインの長さを比較し、その中から、あらかじめ指定されているライン長のアンダーラインが付されている文字を特定する（Ｓ３０８）。例えば、図３Ｆに示すように、図３Ｂに示したアンダーラインが付された文字列（１）〜（４）の中で、あらかじめ指定されているライン長として、最も短いライン長が付されている文字列である（１）で示す文字列を特定する。最も短いライン長のアンダーラインが付された文字を特定して入力原稿のタイトルとすることにより、アンダーラインが付された文字が複数存在した場合であっても、その中で、タイトルに相応しいと考えられる文字を抽出することができる。すなわち、入力原稿のタイトルとしては、通常、その入力原稿の特徴等を端的に表す文言等を用いることが多いため、その長さは短くなる傾向にある。このため、本例では最も短い上記ライン長が付された文字が、その特徴を端的に表すタイトルであると判断し、これを特定している。もちろん、どのような長さのライン長が付された文字列を特定するかは、ユーザが任意に定めることができる。

ファイル名作成部１９は、Ｓ３０８で特定された文字列を、入力原稿のタイトルとして設定する（Ｓ３１０）。このＳ３１０の処理が終了すると、図２に示したＳ２０９の処理が終了する。

このように、本実施例では、上記のような処理を実行するので、アンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な強調情報に基づいて文書のタイトルを抽出することができる。例えば、原稿の中でアンダーラインが付されている文字列を優先的に抽出することで、ユーザが強調している文字列を抽出することができる。このため、従来技術のように、モノクロで、文字の大きさが一定の原稿が入力原稿とされた場合であっても、スキャンした入力原稿の中から、ユーザが強調している文字列を選び出すことができ、アンダーラインが付されている文字列を優先的に抽出するので、ユーザにとって重要な文字列のみを抽出し、文書のタイトルとすることができる。

なお、画像形成装置１００の各部が有する各機能は、実際には、画像形成装置内にインストールされたプログラムが読み出されて実行することにより実現される。これらのプログラムは、ＲＯＭ等の記録媒体に予め組み込まれて提供されるほか、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供、配布してもよい。さらには、上記プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供したり、配布してもよい。

１００画像形成装置
１スキャナ部
２入力処理部
３ネットワーク接続部
４記憶部（ＨＤＤ）
５出力処理部
６画像出力部
７操作表示部
８画像処理部
１０アンダーライン認識部
１１アンダーライン判定部
１２ＯＣＲ処理部
１３統合部
１４サイズ統一部
１５空白判定部
１６空白削除部
１７ライン数確認部
１８ライン長比較部
１９ファイル名作成部
２０レイアウト解析部
２１面積判定部
２２面積比較部
２３強調文字数カウント部
Ｎネットワーク。

特開２００５−５６３１５号公報特開平０９−１３４４０６号公報

Claims

文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定部と、
前記判定部が前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出部と、
を備えることを特徴とする画像処理装置。
前記強調情報が付された前記文字列に空白文字が含まれているか否かを判定する空白判定部をさらに備え、
前記抽出部は、前記空白判定部が、前記強調情報が付された前記文字列に空白文字が含まれていると判定した場合、前記空白文字を削除し、前記空白文字分だけ文字間を詰めた文字列をタイトルとして抽出する、
ことを特徴とする請求項１に記載の画像処理装置。
前記文字列に付された強調情報の長さを判定する長さ判定部をさらに備え、
前記抽出部は、前記長さ判定部によって判定された前記強調情報の長さに基づいて前記文書のタイトルを抽出する、
ことを特徴とする請求項１に記載の画像処理装置。
前記文書内の文字サイズを所定のサイズに統一する統一部をさらに備え、
前記長さ判定部は前記統一部によって文字サイズが統一された後の文字列に付された強調情報の長さを判定する、
ことを特徴とする請求項３に記載の画像処理装置。
前記文書が複数ページで構成されている場合、各ページの文字面積率を算出する面積判定部をさらに備え、
前記抽出部は、前記面積判定部によって算出された各ページの文字面積率に基づき、前記文書のタイトルの抽出対象となるページを決定する、
ことを特徴とする請求項１に記載の画像処理装置。
前記抽出部は、前記文字面積率が最小となるページを前記抽出対象となるページとして決定する、
ことを特徴とする請求項５に記載の画像処理装置。
前記抽出部は、前記強調情報が付された文字列を複数抽出する、
ことを特徴とする請求項１乃至６のいずれか１項記載の画像処理装置。
情報を表示する操作表示部をさらに備え、
前記操作表示部は、前記抽出部によって抽出された前記文書のタイトルを、処理順または前記強調情報の種類ごとに前記操作表示部に表示する、
ことを特徴とする請求項７に記載の画像処理装置。
文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定ステップと、
前記判定ステップにおいて前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出ステップと、
を含むことを特徴とするタイトル抽出方法。
コンピュータに、
文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定処理と、
前記判定ステップにおいて前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出処理と、
を実行させることを特徴とするタイトル抽出プログラム。