JP2017126270A - 画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム - Google Patents

画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム Download PDF

Info

Publication number
JP2017126270A
JP2017126270A JP2016006328A JP2016006328A JP2017126270A JP 2017126270 A JP2017126270 A JP 2017126270A JP 2016006328 A JP2016006328 A JP 2016006328A JP 2016006328 A JP2016006328 A JP 2016006328A JP 2017126270 A JP2017126270 A JP 2017126270A
Authority
JP
Japan
Prior art keywords
character
title
document
unit
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016006328A
Other languages
English (en)
Inventor
裕之 ▲柳▼
裕之 ▲柳▼
Hiroyuki Yanagi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016006328A priority Critical patent/JP2017126270A/ja
Publication of JP2017126270A publication Critical patent/JP2017126270A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】強調情報に基づいて文書のタイトルを設定することが可能な画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムを提供する。【解決手段】文書内の文字列に付され、文字列を強調する強調情報の有無を判定する判定部と、判定部が強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出部と、を備える。【選択図】図1

Description

本発明は、画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムに関する。
従来、会社等の事業者においては、膨大な量の紙(ペーパー)文書が発生し、保管されている。紙文書は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するためのスペースを必要とする。また、情報を紙文書に記録して保存する場合、後にその紙文書が必要になったときには、例えば、書庫に収納された多くの紙文書の中から目的とする紙文書を探さなければならない。従って、紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。
このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、ユーザが1ページずつ紙文書をスキャナ装置にセットすると、スキャナ装置が紙文書の各ページを読み込み、画像データとして電子ファイルに格納する。この際、電子データの受信者は任意にタイトルを指定することができる。
また、紙文書のページ数が多い場合には、オートドキュメントフィーダ(ADF)と呼ばれる自動給紙機構(以下、単にADFという)を備えたスキャナ装置を用いて、紙文書の各ページを連続して自動的に読み取る処理が広く行われている。この場合には、読み取った画像データに基づき、文字認識により画像データの中から文字列を抽出してファイル名にしている(例えば、特許文献1、2)。
上記特許文献1では、ユーザが画像データの内容を容易に把握できるファイル名を自動的に生成する目的で、画像の一定領域(プリセット領域)を対象に文字認識し、その文字認識で得られた文字又は文字列のサイズや色を判断して、所定のサイズや色の文字を画像ファイルのファイル名としている。しかし、スキャナした原稿から文字や文字列を抽出する際、文字の大きさが一定でモノクロ原稿の場合には予め設定されている文字のみが選出されてしまう。そのため、必ずしも読み込んだ原稿からユーザが強調している文字列が選出されるとは限らず、ユーザが意図しない文字列が抽出されてしまうという問題があった。
また、特許文献2では、原稿に対して、先頭の文字列をタイトルとして設定したり、文字列の長さの情報等からタイトルを抽出していたため、ユーザがアンダーラインなどで強調している情報がタイトルとして適しているにも関わらず、タイトルとして抽出されないという問題があった。さらに、原稿が複数ページの場合であっても先頭のページからのみタイトルを抽出していたため、タイトルを抽出するのに適切なページを選択していなかった。
すなわち、これらの従来技術では、ユーザが原稿等の文書の中で文字、数字、記号、符号、図形等をはじめとする様々な入力情報に対して、意図してその入力情報を強調するためのアンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な強調情報を付した場合であっても、その意図どおりに文書のタイトルを抽出することができないという問題があった。
本発明は、このような問題を解決するためになされたもので、強調情報に基づいて文書のタイトルを抽出することが可能な画像処理装置を提供することを目的とする。
上記課題を解決し、目的を達成するために、本発明に係る画像処理装置は、文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定部と、前記判定部が前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出部と、を備えることを特徴とする画像処理装置として構成される。上記文字は、原稿等の文書の中で付された、文字、数字、記号、符号、図形等をはじめとする様々な入力情報を含み、上記強調情報は、意図してその入力情報を強調するためのアンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な情報を含むものである。
本発明によれば、強調情報に基づいて文書のタイトルを抽出することができる。
画像形成装置の機能的な構成を示すブロック図である。 画像形成装置で行なわれるタイトル抽出処理の処理手順を示すフローチャートである。 文字面積率の例を示すイメージ図である。 抽出対象となるページからタイトルの候補を抽出した順に羅列した場合の例を示す図である。 抽出対象となるページから抽出したタイトルの候補に付された強調情報の種類ごとに分類した場合の例を示す図である。 S209におけるタイトルを抽出する処理の処理手順を示すフローチャートである。 アンダーラインが付された文字を含むページの例を示す図である。 文字が存在しない部分のアンダーラインは、空白文字に付されたアンダーラインであるとして認識される例を示す図である。 アンダーライン上の文字およびアンダーラインが全て同じサイズに変換される例を示す図である。 空白文字とその空白文字に付されていたアンダーラインを削除し、文字間を詰める例を示す図である。 アンダーラインが付された文字列の中で、あらかじめ指定されているライン長が特定される例を示す図である。
以下に添付図面を参照して、本発明にかかる画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムの実施の形態を詳細に説明する。以下では、スキャンした原稿の中からユーザが強調している文字や文字列を読み取って抽出するという特徴の一例として、原稿をスキャンした時に、アンダーラインが引いてある文字や文字列の中で一番短い文字列を抽出する場合について説明している。しかし、これに限らず、一般的なエディタで編集された文書の各ページに記載されている文字や文字列が強調されている場合についても適用することができる。
すなわち、原稿等の文書の中で付された、文字、数字、記号、符号、図形等をはじめとする様々な入力情報に対して、意図してその入力情報を強調するためのアンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な強調情報が付されている場合でも同様に適用することができる。また、以下では、文字といった場合には、文字通りの文字のほか、上記入力情報等のタイトルとして構成可能な様々な情報を含み、文字列といった場合には、これら情報の配列やその組合せを含むものとする。
図1は、本発明にかかる画像処理装置、タイトル抽出方法、およびタイトル抽出プログラムを適用した画像形成装置100の機能的な構成を示すブロック図である。画像形成装置1000は、例えば、MFPやプリンタから構成される。図1に示すように、画像形成装置100は、スキャナ部1、入力処理部2、ネットワーク接続部3、記憶部(HDD)4、出力処理部5、画像出力部6、操作表示部7、および画像処理部8を備える。なお、本発明にかかる画像処理装置は、例えば、画像形成装置100を構成するスキャナ部1や画像出力部6を除いた各部により構成される、PC(Personal Computer)等の一般的な情報処理装置として構成されていてもよい。
スキャナ部1は、入力原稿を読み取る。入力処理部2は、スキャナ部1が読み込んだ入力原稿の画像(原稿画像、入力画像)から画像データを作成する。ネットワーク接続部3は、イーサネット(登録商標)やUSBを通じて、WWW(World Wide Web)等の一般的な公衆回線網であるネットワークNを介して外部機器と通信する。
HDD4は、入力処理部2が作成した画像データをはじめとする各種情報を格納するための記憶装置である。出力処理部5は、後述する画像処理部8が処理した後の画像データに対して出力処理を施す。画像出力部6は、出力処理部5によって出力処理が施された画像データを出力する。なお、画像出力部6は、例えば、トナー像を形成するためのトナー像形成部、印刷された文字や文字列を用紙に定着させるための定着装置、および文字や文字列が定着された用紙を搬送する用紙搬送部などで構成されている。
操作表示部7は、ユーザからMFPに対する操作を受け付けたり、ユーザに対して各種情報を表示するユーザインタフェースである。 例えば、操作表示部7は、液晶表示機能を有するいわゆるタッチパネルとして構成され、後述するタイトルの表示やタイトルの指定を受け付ける。
画像処理部8は、入力処理部2が作成した画像データに対して様々な処理を行い、入力原稿のタイトルを抽出する。図1に示すように、画像処理部8は、上記画像データに対する一般的なアンダーラインの認識処理を行うアンダーライン認識部10、アンダーライン認識部10の結果を元にアンダーラインの有無を判定するアンダーライン判定部11、上記画像データから文字や文字列を認識するOCR処理部12、アンダーラインとアンダーライン上の文字を同じ大きさの情報として認識させる統合部13、アンダーライン上の文字全てを同じ大きさに変換するサイズ統一部14、OCR処理部12で認識された文字間の空白部がアンダーライン上のあるかを認識する空白判定部15、空白判定部15にて空白部が有ると判定された場合、その空白部を削除して、文字間を詰める処理を行う空白削除部16、アンダーライン判定部11の結果を元に、入力原稿内に何本のアンダーラインがあるかを確認するライン数確認部17、アンダーラインが複数個あった場合、各アンダーラインの長さを比較するライン長比較部18、入力原稿のタイトルとなるファイル名を作成するファイル名作成部19、一般的なレイアウト解析処理を行うレイアウト解析部20、レイアウト解析部20にて判定された文字領域にOCR処理部12が算出した文字サイズ及び入力原稿の紙サイズを元に文字領域の面積率を算出する面積判定部21、面積判定部21の結果より原稿が複数枚有った場合に文字面積率が一番小さいページを割り出す面積比較部22、強調文字を抽出した際に複数個の強調文字を抽出したかを判定する強調文字数カウント部23を備えている。これらの各部が行う処理については、フローチャートを用いて後述する。
図2Aは、画像形成装置100で行なわれるタイトル抽出処理の処理手順を示すフローチャートである。
図2Aに示すように、タイトル抽出処理では、スキャナ部1が入力原稿を読み取ると(S201)、入力処理部2は、ファイル名であるタイトルを自動選択するモードである自動選択モードで処理するか否かを指定するメニュー画面を操作表示部7に表示する(S202)。自動選択モードが指定された場合にはS203に進み、自動選択モードが指定されていない場合には上記タイトルを抽出せずに処理終了となる。
入力処理部2は、S202において自動選択モードが指定されたと判定した場合、スキャナ部1が読み取った入力原稿から画像データを取得する(S203)。
入力処理部2は、上記画像データが複数枚の入力原稿から得られたものであるか否かを確認し(S204)、上記画像データが複数枚の入力原稿から得られたものであることを確認した場合(S204;Yes)、S205に進む。一方、入力処理部2が、上記画像データが単数枚の入力原稿から得られたものであることを確認した場合はS209に進む。
S204において、上記画像データが複数枚の入力原稿から得られたものであることが確認できた場合(S204;Yes)、レイアウト解析部30は、入力処理部2から出力された上記画像データを読み取り、画像データ内の文字領域と絵柄領域とを判別する(S205)。これらの領域を判別するための手法は、従来から知られている様々な技術を用いることができる。
OCR処理部12は、S205で文字領域であると判別された箇所に対して、その文字領域内の文字を認識するためのOCR処理を実行する(S206)。OCR処理については、従来から知られている様々な技術を用いることができる。OCR処理により認識された文字データは、HDD4に記憶される。
面積判定部21は、S206でOCR処理された結果を元に、文字サイズから文字面積を判定する(S207)。以下、具体例を挙げて説明する。
例えば、入力原稿がA4紙であり、10Ptで文字が100字記載されていた場合について説明する。A4紙の場合、用紙サイズは縦297mm、横210mmであるため、用紙の総面積は62370mm^2となる。一方、文字サイズの大きさは、およそ1pt=0.352mmであるため、10ptの場合は10pt=3.52mm、1文字あたりの文字面積としては12.4mm^2となる。したがって、10ptの文字が100文字なので、文字の総面積は12.4×100文字=1200.4mm^2となる。また、A4紙に記載されている文字面積率としては、1200.4/62370×100=1.92%となり、結果として文字面積率は約2%となることがわかる。面積判定部21は、入力原稿から得られた各ページの画像データについて、上記文字面積率を算出する。
面積比較部22は、入力原稿から得られた画像データの中で、各ページの文字面積率を算出しS207において算出された文字面積率が最も大きいページと最も小さいページを特定する(S208)。
図2Bは、文字面積率の例を示すイメージ図である。図2Bに示すように、面積判定部21が、P1−P5までの各ページについて、P1の文字面積率が15%(表紙)、P2の文字面積率が70%、P3の文字面積率が40%、P4の文字面積率が20%、P5の文字面積率が10%(最終ページ)であると算出した場合を考える。
この場合、文字面積率を比較すると、P5<P1<P4<P3<P2となることが分かる。しかし、最終ページはページの最後まで文章が記載されない場合が多く、文字面積率が低くなると考えられる。そこで、予め最終ページは除外するものとすると、上記の場合の文字面積率の比較結果は、P1<P4<P3<P2となる。したがって、タイトルの抽出対象となるページは、P1とP2であることが分かる。なお、本例では最終ページを除外する前提で説明したが、このような設定は任意で行えるものとする。また、抽出対象とするページは、例えば、操作表示部7から選択する等してユーザが任意に決定することができるものとする。このように、文字面積率に基づいてタイトルの抽出対象ページを特定することにより、例えば、絵柄領域が多いページは、通常その絵柄の説明が多く、タイトルとなりうる文字を含まないと考えられるため、そのようなページを除外した上で効率よくタイトルを抽出することができる。さらに、通常、タイトルが付されたページは文字数が少ないことに鑑み、文字面積率が最も小さいページを特定してそのページをタイトルの抽出対象ページとすることにより、タイトルとしてアンダーラインが付されている可能性が最も高い文字を抽出することができる。
そして、画像処理部8は、入力原稿が単数枚の場合はその原稿からタイトルを抽出し、また、入力原稿が複数枚の場合は、S208で抽出対象とされたページからタイトルを抽出する(S209)。以下では、タイトルを抽出する文字にアンダーラインが付されている場合について説明しているが、上記したように、様々な強調情報が付された文字を対象に処理することができる。S209の処理については、図3Aを用いて後述する。
強調文字部カウント部23は、S209で抽出されたタイトルが複数個あるか否かを判定し(S210)、タイトルが複数個あると判定した場合(S210;Yes)、それらのタイトルを操作表示部7に表示させる(S211)。
操作表示部7は、S211において表示されたタイトルの中から、ユーザ所望のタイトルの選択を受け付け(S212)、画像処理部8は、選択されたタイトルを、抽出対象とされたページの中から抽出する(S213)。
なお、S211において、強調文字部カウント部23は、抽出対象となるページから抽出した通りに複数個のタイトルの候補を羅列して操作表示部7に表示するか、または、例えば、タイトルの候補に付された強調情報の種類ごとに分類した上で操作表示部7に表示するかは、あらかじめ設定できるものとする。
図2Cは、抽出対象となるページからタイトルの候補を抽出した順に羅列した場合の例を示す図である。図2Cに示すように、操作表示部7には、タイトル候補となる文字列が、色文字、太文字、アンダーライン、色文字、太文字の順に抽出され、これらが抽出された順に操作表示部7に表示されていることがわかる。このように、抽出順にタイトルの候補を表示することで、ユーザはその順序を把握しつつタイトルを選択することができる。
図2Dは、抽出対象となるページから抽出したタイトルの候補に付された強調情報の種類ごとに分類した場合の例を示す図である。図2Dに示すように、操作表示部7には、タイトル候補となる文字列が、図2Cに示した順ではなく、アンダーライン、色文字、太文字の順というように、強調情報の種類ごとに並べ替えて操作表示部7に表示されていることがわかる。このように、強調情報の種類ごとにタイトルの候補を表示することで、ユーザはその種類を把握しつつタイトルを選択することができる。
このように、タイトル候補となる文字列を、操作表示部7に抽出順に羅列して表示させるか、またはタイトル候補となる文字列に付された強調文字の種類ごとに並べ替えて操作表示部7に表示させるかは、ユーザにより任意に選択できるものとする。
図3Aは、S209におけるタイトルを抽出する処理の処理手順を示すフローチャートである。以下では、文字にアンダーラインが付されている場合について説明しているが、上記したように、様々な強調情報が付されている場合も同様に適用することができる。
図3Aに示すように、アンダーライン認識部10は、S208で抽出対象とされたページについて、アンダーラインを認識し、その結果をHDD4に記憶する(S301)。アンダーラインの認識については、従来から知られている様々な技術を用いることができる。認識結果としては、例えば、付されているアンダーラインの種類、何行目の左から何文字目であるのか等の位置情報、アンダーライン長などがHDD4に記憶される。
アンダーライン判定部11は、アンダーライン認識部10によりアンダーラインが認識され、認識結果が記憶されているか否かを判定し(S302)、認識結果が記憶されていると判定した場合(S302;Yes)、そのページにはアンダーラインが付された文字があると判断し、S303に進む。
S303では、統合部13は、図2Aに示したS206でOCR処理部12が認識した文字と、S301でアンダーライン認識部10が記憶したアンダーライン長とに基づいて、両者を対応付けて一致させる処理を実行する(S303)。以下、具体的に説明する。
図3Bは、アンダーラインが付された文字を含むページの例を示す図である。図3Bに示すように、ページ内の文字にはそれぞれ異なる大きさの文字を含み、OCR処理部12は、これらの文字の大きさを判定する、図3Bでは、例えば、○が36Pt、△が20Ptであり、(1)〜(4)に示した文字に対して、アンダーライン((4)の場合はアンダーライン及び枠囲み)が付されていることを示している。以下、最も短い長さのアンダーラインが付された文字列を抽出する場合について説明する。
統合部13は、アンダーラインが付された文字列を文字ごとに分解し、各文字の幅の位置に付されている部分のアンダーラインを、その文字のアンダーラインとして認識させる。すなわち、統合部13は、図3Cに示すように、点線で区切られた文字列の各文字の幅方向の大きさと同じ長さとなる部分のアンダーラインを、その文字の一部として認識させる。このとき、文字が存在しない部分のアンダーラインは、空白文字に付されたアンダーラインであるとして認識される。
例えば、図3Bに示した(1)に示した文字に対してアンダーラインが付されている場合について説明すると、S303では、統合部13は、図3Cに示すように、図2に示したS206においてOCR処理部12によって認識された文字の幅方向の大きさに対応する長さ(点線の間の長さ)のアンダーラインを、その文字の一部として認識させる。
判定部14は、S303で認識されたアンダーラインを含めて認識された文字について、アンダーラインの空白箇所である空白文字があるか否かを判定する(S304)。空白文字があると判定された場合(S304;Yes)、S305に進む。
サイズ統一部15は、上記S206でOCR処理部12により認識された文字サイズを参照し、アンダーライン上の全ての文字を同じ大きさに変換する(S305)。なお、この文字サイズは任意に変更できるものとする。また、サイズ統一部15は、文字と共にアンダーラインも同じ大きさに変換する。
例えば、図3Dに示すように、サイズ統一部15は、上記S206でOCR処理部12により認識された文字サイズを参照し、アンダーライン上の文字を全て20Ptに変換する。また、各文字に付されているアンダーラインについても、文字と同様に、20Ptに対応する長さに変換する。このように、文字やアンダーラインが統一したサイズとなることにより、同じ基準でこれらの長さを判断することができる。
空白削除部16は、サイズが統一された後のアンダーライン上の空白文字を削除する(S306)。また、空白削除部16は、削除した空白文字に対応する位置に付されているアンダーラインを削除する。例えば、図3Eに示すように、空白削除部16は、図3Dに示した中央の空白文字とその空白文字に付されていたアンダーラインを削除し、文字間を詰める。このように、文字間を詰めたうえで以降の処理を行うことにより、例えば、誤って文字間に空白が挿入されてしまった場合でも、適切に文字とアンダーラインとを対応付けることができる。
ライン数確認部17は、抽出対象とされたページ内に、文字間が詰められた後のアンダーラインが複数個あるかを確認する(S307)。アンダーラインが複数個有ることが確認された場合、S308に進む。
ライン長比較部18は、複数個あるアンダーラインの長さを比較し、その中から、あらかじめ指定されているライン長のアンダーラインが付されている文字を特定する(S308)。例えば、図3Fに示すように、図3Bに示したアンダーラインが付された文字列(1)〜(4)の中で、あらかじめ指定されているライン長として、最も短いライン長が付されている文字列である(1)で示す文字列を特定する。最も短いライン長のアンダーラインが付された文字を特定して入力原稿のタイトルとすることにより、アンダーラインが付された文字が複数存在した場合であっても、その中で、タイトルに相応しいと考えられる文字を抽出することができる。すなわち、入力原稿のタイトルとしては、通常、その入力原稿の特徴等を端的に表す文言等を用いることが多いため、その長さは短くなる傾向にある。このため、本例では最も短い上記ライン長が付された文字が、その特徴を端的に表すタイトルであると判断し、これを特定している。もちろん、どのような長さのライン長が付された文字列を特定するかは、ユーザが任意に定めることができる。
ファイル名作成部19は、S308で特定された文字列を、入力原稿のタイトルとして設定する(S310)。このS310の処理が終了すると、図2に示したS209の処理が終了する。
このように、本実施例では、上記のような処理を実行するので、アンダーライン、太文字、色付き文字、斜め文字、枠囲み、ユーザ指定の書式等をはじめとする様々な強調情報に基づいて文書のタイトルを抽出することができる。例えば、原稿の中でアンダーラインが付されている文字列を優先的に抽出することで、ユーザが強調している文字列を抽出することができる。このため、従来技術のように、モノクロで、文字の大きさが一定の原稿が入力原稿とされた場合であっても、スキャンした入力原稿の中から、ユーザが強調している文字列を選び出すことができ、アンダーラインが付されている文字列を優先的に抽出するので、ユーザにとって重要な文字列のみを抽出し、文書のタイトルとすることができる。
なお、画像形成装置100の各部が有する各機能は、実際には、画像形成装置内にインストールされたプログラムが読み出されて実行することにより実現される。これらのプログラムは、ROM等の記録媒体に予め組み込まれて提供されるほか、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供、配布してもよい。さらには、上記プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供したり、配布してもよい。
100 画像形成装置
1 スキャナ部
2 入力処理部
3 ネットワーク接続部
4 記憶部(HDD)
5 出力処理部
6 画像出力部
7 操作表示部
8 画像処理部
10 アンダーライン認識部
11 アンダーライン判定部
12 OCR処理部
13 統合部
14 サイズ統一部
15 空白判定部
16 空白削除部
17 ライン数確認部
18 ライン長比較部
19 ファイル名作成部
20 レイアウト解析部
21 面積判定部
22 面積比較部
23 強調文字数カウント部
N ネットワーク。
特開2005−56315号公報 特開平09−134406号公報

Claims (10)

  1. 文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定部と、
    前記判定部が前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出部と、
    を備えることを特徴とする画像処理装置。
  2. 前記強調情報が付された前記文字列に空白文字が含まれているか否かを判定する空白判定部をさらに備え、
    前記抽出部は、前記空白判定部が、前記強調情報が付された前記文字列に空白文字が含まれていると判定した場合、前記空白文字を削除し、前記空白文字分だけ文字間を詰めた文字列をタイトルとして抽出する、
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記文字列に付された強調情報の長さを判定する長さ判定部をさらに備え、
    前記抽出部は、前記長さ判定部によって判定された前記強調情報の長さに基づいて前記文書のタイトルを抽出する、
    ことを特徴とする請求項1に記載の画像処理装置。
  4. 前記文書内の文字サイズを所定のサイズに統一する統一部をさらに備え、
    前記長さ判定部は前記統一部によって文字サイズが統一された後の文字列に付された強調情報の長さを判定する、
    ことを特徴とする請求項3に記載の画像処理装置。
  5. 前記文書が複数ページで構成されている場合、各ページの文字面積率を算出する面積判定部をさらに備え、
    前記抽出部は、前記面積判定部によって算出された各ページの文字面積率に基づき、前記文書のタイトルの抽出対象となるページを決定する、
    ことを特徴とする請求項1に記載の画像処理装置。
  6. 前記抽出部は、前記文字面積率が最小となるページを前記抽出対象となるページとして決定する、
    ことを特徴とする請求項5に記載の画像処理装置。
  7. 前記抽出部は、前記強調情報が付された文字列を複数抽出する、
    ことを特徴とする請求項1乃至6のいずれか1項記載の画像処理装置。
  8. 情報を表示する操作表示部をさらに備え、
    前記操作表示部は、前記抽出部によって抽出された前記文書のタイトルを、処理順または前記強調情報の種類ごとに前記操作表示部に表示する、
    ことを特徴とする請求項7に記載の画像処理装置。
  9. 文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定ステップと、
    前記判定ステップにおいて前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出ステップと、
    を含むことを特徴とするタイトル抽出方法。
  10. コンピュータに、
    文書内の文字列に付され、前記文字列を強調する強調情報の有無を判定する判定処理と、
    前記判定ステップにおいて前記強調情報有と判定した場合、当該強調情報が付された文字列を前記文書のタイトルとして抽出する抽出処理と、
    を実行させることを特徴とするタイトル抽出プログラム。


JP2016006328A 2016-01-15 2016-01-15 画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム Pending JP2017126270A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016006328A JP2017126270A (ja) 2016-01-15 2016-01-15 画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016006328A JP2017126270A (ja) 2016-01-15 2016-01-15 画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム

Publications (1)

Publication Number Publication Date
JP2017126270A true JP2017126270A (ja) 2017-07-20

Family

ID=59365287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016006328A Pending JP2017126270A (ja) 2016-01-15 2016-01-15 画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム

Country Status (1)

Country Link
JP (1) JP2017126270A (ja)

Similar Documents

Publication Publication Date Title
US8726178B2 (en) Device, method, and computer program product for information retrieval
CN101443790B (zh) 数字图像中的非回流内容的有效处理
CN101178725B (zh) 用于信息检索的设备和方法
US9697179B2 (en) Method and apparatus for inserting image into electronic document
JP2007042106A (ja) 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム
KR20160060499A (ko) 화상독취장치 및 그의 제어 방법
JP2010020468A (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP5226553B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
US11146705B2 (en) Character recognition device, method of generating document file, and storage medium
JP4811133B2 (ja) 画像形成装置及び画像処理装置
US11521404B2 (en) Information processing apparatus and non-transitory computer readable medium for extracting field values from documents using document types and categories
JP4682747B2 (ja) 文書処理装置、ルールデータ生成方法およびプログラム
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP5298997B2 (ja) 文書画像編集装置、文書画像編集方法、文書画像編集プログラム、及びその方法をコンピュータに実行させるプログラムを記憶したコンピュータ読み取り可能な記録媒体
JP2017126270A (ja) 画像処理装置、タイトル抽出方法、およびタイトル抽出プログラム
JP2006330995A (ja) 文書処理装置
JP2008181485A (ja) 画像形成装置、電子文書データ作成方法、および電子文書データ作成プログラム
KR20150027963A (ko) 화상형성장치, 화상처리방법 및 컴퓨터 판독가능 기록매체
JP2011028503A (ja) 画像処理装置、画像処理方法、およびプログラム
KR100601676B1 (ko) 편집기능을 갖는 문서 스캔 방법 및 장치 및 그를 이용한복합기
JP5673277B2 (ja) 画像処理装置およびプログラム
US20240031500A1 (en) Image forming apparatus, image forming system, and image forming method
US11206336B2 (en) Information processing apparatus, method, and non-transitory computer readable medium
US11693825B2 (en) Information processing apparatus, control method, and recording medium storing program
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム