JP5663866B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP5663866B2 JP5663866B2 JP2009275746A JP2009275746A JP5663866B2 JP 5663866 B2 JP5663866 B2 JP 5663866B2 JP 2009275746 A JP2009275746 A JP 2009275746A JP 2009275746 A JP2009275746 A JP 2009275746A JP 5663866 B2 JP5663866 B2 JP 5663866B2
- Authority
- JP
- Japan
- Prior art keywords
- page
- heading
- paragraph
- character
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Description
これに関連する技術として、例えば、特許文献1には、入力されたイメージ文書データから、文章のタイトル領域を自動的に抽出する手段を提供することを目的とし、イメージ文書上の指定された矩形領域について、イメージ・データについての例えば水平方向への射影をとり、当該射影値が所定のしきい値範囲内にある横行が所定個数連続するところを、タイトル領域として抽出することが開示されている。
請求項1の発明は、ページ内における文書構成要素の位置が固定されており、文字画像を含む文書を受け付ける文書受付手段と、前記文書受付手段によって受け付けられた文書をページ毎に分割するページ分割手段と、前記文書内の文字画像を文字認識する文字認識手段と、前記ページ分割手段によって分割されたページ内から該ページの見出しを決定するページ見出し決定手段と、前記ページ見出し決定手段によって決定された見出しを前記ページ分割手段によって分割されたページの第1レベルのアウトライン情報として該ページに付与する処理を行う処理手段を具備し、前記ページ見出し決定手段は、1ページ毎に前記文字認識手段による認識結果内の文字列を、ページ見出し候補として登録し、該ページにおける該登録処理における2回目以降においては、登録済みの第1のページ見出し候補と、今回抽出した第2のページ見出し候補のいずれかをページ見出しとして登録し、
前記第1のページ見出し候補と第2のページ見出し候補のいずれかをページ見出しとして登録するかは、次のいずれか又はこれらの組み合わせによって行う
(1)前記第2のページ見出し候補の文字の大きさが、前記第1のページ見出し候補の文字の大きさに予め定められた閾値を乗算した結果よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録すること、
(2)前記第2のページ見出し候補において、文字認識が失敗したときに出現しやすい記号の割合が予め定められた閾値よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録しないこと、
(3)前記第2のページ見出し候補の文字の位置が予め定められた位置の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること、
(4)前記第2のページ見出し候補の文字の色が予め定められた色の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること
を特徴とする情報処理装置である。
前記第1のページ見出し候補と第2のページ見出し候補のいずれかをページ見出しとして登録するかは、次のいずれか又はこれらの組み合わせによって行う
(1)前記第2のページ見出し候補の文字の大きさが、前記第1のページ見出し候補の文字の大きさに予め定められた閾値を乗算した結果よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録すること、
(2)前記第2のページ見出し候補において、文字認識が失敗したときに出現しやすい記号の割合が予め定められた閾値よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録しないこと、
(3)前記第2のページ見出し候補の文字の位置が予め定められた位置の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること、
(4)前記第2のページ見出し候補の文字の色が予め定められた色の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること
を特徴とする情報処理プログラムである。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウエア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、一つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、一つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
背景技術で説明した技術は、複数の文書の中から対象とする文書を検索するものである。
一方、ワードプロセッサや、PDF(Portable Document Format)(登録商標)などの文書を表示するソフトウエアにはアウトライン、又は、しおりと呼ばれる機能(以下、アウトライン機能と呼ぶ)がある。アウトライン機能は複数の文書の中から文書を検索するための機能ではなく、一つの文書の中にある1あるいは複数のページの中から、所望の場所を検索するための機能である。
このアウトライン機能は、木構造を持った章立てを表示するものである(以下、木構造を持った章立てのことをアウトラインと呼ぶ)。アウトラインは、文書をページや段落(部、章、節、項等を含む)単位の“かたまり”として管理するための書式であり、文書の表示、その文書内における検索等に用いられるものである。ソフトウエアにも依存するが、一般にアウトライン上の段落のテキストはハイパーテキストとなっている。そのため、アウトライン上の段落のテキスト(例えば、段落の見出し)をクリックすると、それに対応する段落の本文を表示するようになっている。このようなアウトライン機能は、主に、文書を閲覧する場合に用いられる。木構造としては部、章、節、項等は一例であって、最も上のレベルが部ではなく、章や節であってもよい。
なお、文書とは、テキストデータ、場合によっては画像、動画、音声等の電子データ、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。
一般にワードプロセッサなどでは、編集中においては、対象としてテキストコード列(さらに、各種の編集情報を含む場合もある)があるのみであり、紙に印刷されたような固定したページの概念がない。そして、編集が終了し、最終的に各ページにテキストや図が割り当てられることになる。例えば、ワードプロセッサにおいて、テキストを入力した後で、出来上がりの紙サイズを変更すると、ページの内容が変化する。つまり、このような文書は、「ページ内における文書構成要素の位置が変化してしまう文書」である。
一例として、ここではPDFフォーマットを出力文書フォーマットとする。PDFでは、複数ページの文書を作成することが可能である。そして、各ページの内容をJPEG画像フォーマットで格納することができる。さらに、アウトライン機能として、アウトライン情報を画像情報とは別に持つことができる。このようなPDFを出力文書フォーマットとした場合の例を図3(B)に示す。出力文書フォーマットとして、図3(B)に例示するように、その文書全体(Nページからなる文書)のPDF制御情報を先頭にし、その後にページ毎に1ページ目からNページ目までの画像情報(例えば、JPEG)311、その他のPDF制御情報312(ページ毎のPDF制御情報)の組を付与し、その後に各ページのタイトルを格納した第1レベルアウトライン321とアウトラインに関するその他のPDF制御情報322の組を付与する。
ステップS202では、ページ処理モジュール110が、文書を受け付ける。
ステップS204では、ページ処理モジュール110が、ページ毎の画像に分割する。
ステップS206では、ページ処理モジュール110が、ページ毎にページ番号を付与する。
ステップS208では、ページタイトル決定処理モジュール120が、ページ毎にページタイトルを決定する。
ステップS210では、ページタイトル決定処理モジュール120が、最終ページまで終了したか否かを判断する。最終ページまで終了した場合はステップS212へ進み、それ以外の場合はステップS208へ戻る。
ステップS212では、最終ページまでページタイトルが決定された後に、文書フォーマット処理モジュール130が、文書フォーマット処理を行い、その文書を出力する。
文書ビューアは文書ビューア表示領域400内に、アウトラインビューア表示領域410、ページ画像表示領域420を表示する。この文書ビューアにおいては、ページ画像表示領域420に各ページの画像を表示する。さらに、文書ビューアのオプションとしてアウトラインビューアを持っている。アウトラインビューアを開くと、各ページのタイトルをアウトラインビューア表示領域410に表示する。このアウトラインビューア表示領域410内のテキスト(ページのタイトル)が利用者の操作(クリック等)によって選択されると、ページ画像表示領域420に表示されているページを選択されたページに変更する。つまり、ページのタイトルを第1レベルのアウトラインとすることにより、このような処理が行えるようになる。
前述の第1の実施の形態では、ページのタイトルを求めるのに背景技術で説明した特許文献に記載の技術を用いた。しかし、それらの技術は文書のタイトルを取得する手法であるため、ページタイトルを取得するには必ずしも適さない場合がある。
そこで、本実施の形態では、ページのタイトル取得に適した手法を示す。
この処理を行う前に、文字認識モジュールが文書内の文字画像を認識する。また、この処理は1ページ毎に行う。複数ページある場合は、そのページ数の回数だけ、この処理を行うこととなる。文字認識結果は、文字認識結果である文字コードが順番に並んでおり、ステップS504でその順番に取り出される。順番として、例えば、横書きの場合は左から右へ、縦書きの場合は上から下へである。なお、文書画像解析によって、横書き、縦書きを判定する。
ステップS504では、その文字認識処理結果から次の1文字分の文字コード(つまり、対象とする文字コード)を取り出す。文字列長を計数するために、文字列長の変数に1を加える。
文字列が終了したか否かを判断する方法としては、以下のようなものがある。
(A)認識結果の文字コード
(A1)改行コード(「CR(Carriage Return)」、「LF(Line Feed)」など)を検出した段階で文字列が終了したとする。
(A2)句読点(「、」、「。」等)を検出した段階で文字列が終了したとする。
(B)文字画像の位置(ここでの文字画像とは、文字認識による一つの認識結果に対応する文字画像をいい、いわゆる1文字分の文字画像である)
次の文字との相対位置が予め定めておいた閾値より大であるときに文字列が終了したとする。ここで、「相対位置が大」とは、横方向又は縦方向の文字位置の差分とする。又は、「相対位置が大」とは、横方向かつ縦方向の文字位置の差分とする。ページタイトルが他の文字とは異なる位置で表現されている場合(例えば、他の文字よりも左方向に寄っている等)に対応するものである。なお、この場合、文字認識モジュールは、文字認識結果として、文字コードの他に、文字位置も出力する。
(C)文字画像の色
次の文字との色の差が予め定めておいた閾値よりも大であるときに文字列が終了したとする。ページタイトルが他の文字とは異なる色で表現されている場合に対応するものである。ここで、「色の差」とは、RGB3次元空間のユークリッド距離、YCbCr空間のユークリッド距離、その他の色差計算手法による距離を用いてもよい。なお、この場合、文字認識モジュールは、文字認識結果として、文字コードの他に、その文字の色も出力する。
(D)文字画像の大きさ
次の文字との大きさの相対的な差が予め定めておいた閾値よりも大であるときに文字列が終了したとする。ページタイトルが他の文字とは異なる大きさで表現されている場合に対応するものである。なお、この場合、文字認識モジュールは、文字認識結果として、文字コードの他に、その文字のサイズ(縦と横の画素数、ポイント数等)も出力する。
一度も登録されていない場合(そのページおいて、ステップS510が最初に処理される場合)は、無条件に登録する。既に登録されている場合は、既登録済みの候補と、今回抽出した新候補のどちらがページタイトルとしてふさわしいかを判断して、ページタイトルとしてふさわしい方を登録する。
例えば、以下のような方法がある。
新候補の文字の大きさが既登録済み候補よりも、α倍以上大きいときに限り、新候補をページタイトル候補として登録する。ここでαは予め定めておいた閾値である。例えば、α=1.5等の数値を用いる。
又は、文字認識が失敗したときに出現しやすい記号(例えば、カンマ記号)などを登録しておいて、そのような記号の割合が閾値よりも大である場合、その文字列は登録しない処理を行ってもよい。
又は、新候補の文字の位置が予め定められた位置の範囲内(例えば、横書きの場合は予め定められた位置よりも上方向にあること、縦書きの場合は予め定められた位置よりも右方向にあること等)にある場合に登録するようにしてもよい。
又は、新候補の文字の色が予め定められた色の範囲内(例えば、黒以外の色、予め定められた色等)にある場合に登録するようにしてもよい。
なお、これらの方法を組み合わせて判断してもよい。例えば、新候補の文字の大きさと位置で判断するようにしてもよい。
ステップS514では、ステップS510で登録されているページタイトルを出力する。ここでページタイトルが未登録の場合には、例えば空白文字列を出力すればよい。
前述の実施の形態では第1レベルのアウトライン情報を付与していたが、第3の実施の形態は、ページ内をさらに段落に分割して、第2レベルのアウトライン情報を抽出、付与してもよい。第2レベルのアウトライン情報としては、例えば、前述した「章」のレベルのものを指している。第3の実施の形態においては、段落のタイトルが該当する。
図6は、第3の実施の形態の構成例についての概念的なモジュール構成図である。図1に例示した第1、第2の実施の形態のモジュールと同等のものは、その旨を示し、重複した説明を省略する。
ページ処理モジュール610は、ページタイトル決定処理モジュール620、段落分割処理モジュール630、文書フォーマット処理モジュール650と接続されている。図1に例示したページ処理モジュール110と同等である。ただし、ページ情報をページタイトル決定処理モジュール620、文書フォーマット処理モジュール650の他に段落分割処理モジュール630へも渡す。
ページタイトル決定処理モジュール620は、ページ処理モジュール610、文書フォーマット処理モジュール650と接続されている。図1に例示したページタイトル決定処理モジュール120と同等である。
図10は、第3の実施の形態の段落分割処理モジュール630の構成例についての概念的なモジュール構成図である。
また、画素塊とは、4連結又は8連結で連続する画素領域を少なくとも含み、これらの画素領域の集合をも含む。これらの画素領域の集合とは、4連結等で連続した画素領域が複数あり、その複数の画素領域は近傍にあるものをいう。ここで、近傍にあるものとは、例えば、互いの画素領域が距離的に近いもの、文章としての1行から1文字ずつ切り出すように縦又は横方向に射影し、空白地点で切り出した画像領域、又は予め定められた間隔で切り出した画像領域等がある。例えば、文字認識処理を行って、1文字として認識された画像を一つの画素塊としてもよい。
なお、一つの画素塊として、1文字の画像となる場合が多い。本実施の形態では、画素塊のことを文字又は文字画像ともいう。
ライン認識処理モジュール1010は、文字情報データを受け付ける。ここでいう文字情報データとは、ページ処理モジュール610から受け取ったページ情報を用いて段落分割処理モジュール630が生成するものであり、文書内の画素塊の矩形に関する情報を少なくとも含む。矩形に関する情報としては、例えば、文字外接矩形情報(その文書内の座標値(絶対座標値又は相対座標値のいずれであってもよい))、フォント情報(文字形状情報)であってもよい。また、画素塊に対応している文字の認識順序に関する情報(文字認識モジュールによって認識順に順序付けられた番号)が含まれていてもよい。例えば、文書中における文字の座標(例えば、文字を囲む外接矩形の左上座標)、文字の大きさを表す外接矩形サイズ(外接矩形幅、高さ)、文字形状、文字コード、文字の順序情報、縦書き文字なのか横書き文字なのかを表す情報などである。本実施の形態では、これらの文字情報データを文字認識モジュールから受け取った場合について説明する。ただし、文字認識モジュールに限る必要はなく、文字の外接矩形を受け取って、同等の文字情報データを生成するようにしてもよい。
ライン認識処理モジュール1010は、図11(a)の例に示すように、注目文字情報データの外接矩形(注目外接矩形1112)の左上y座標(upper_y)が、その一つ前の文字情報データの外接矩形(注目外接矩形1111)の左下y座標(lower_y)より小さいときは(upper_y<lower_y)、その注目文字情報データの外接矩形(注目外接矩形1112)は、注目外接矩形1111と同じ行であると認識する。なお、左上を原点(0,0)として、x座標は右方向へ、y座標は下方向へ向かうと数値が増える座標系である。
また、図11(b)の例に示すように、注目文字情報データの外接矩形(注目外接矩形1122)の左上y座標(upper_y)が、その一つ前の文字情報データの外接矩形(注目外接矩形1121)の左下y座標(lower_y)より大きいときは(lower_y<upper_y)、異なる行であると認識する。
そして、同じライン内にあると認識された文字情報データの列をライン特徴算出モジュール1020へ渡す。
なお、受け付けた文字情報データは、文字画像の外接矩形の出現順序(例えば、横書きの場合は、左上から右へ走査し、次の行ではまた左から右へ走査した順番に並んでいる)となっているので、一つ前の文字情報データの外接矩形とは、出現順序で一つ前である。また、外接矩形の左上の座標を用いてソートしてもよい。
ライン認識処理モジュール1010は、図12(a)の例に示すように、注目文字情報データの外接矩形(注目外接矩形1203)と、その一つ前の文字情報データの外接矩形(外接矩形1202)との外接矩形間距離1211(以下、現外接矩形間距離ともいう)が、現在処理している行において、既に同一行であると認識された各外接矩形間の距離の平均値(以下、平均外接矩形間距離ともいう)をα倍した値以下である場合は(つまり、現外接矩形間距離≦平均外接矩形間距離×αを満たす場合)、注目外接矩形1203は外接矩形1202と同じ行であると認識する。なお、αは、ライン認識パラメータであり、予め定められた値である。例えば、文字情報データに応じて定められる。
また、図12(b)の例に示すように、注目文字情報データの外接矩形(注目外接矩形1223)と、その一つ前の文字情報データの外接矩形(外接矩形1222)との外接矩形間距離1231が、現在処理している行における平均外接矩形間距離をα倍した値より大である場合は(現外接矩形間距離>平均外接矩形間距離×α)、注目外接矩形1223は外接矩形1222とは異なる行であると認識する。
つまり、ライン認識処理モジュール1010によって同じ行と認識された文字情報データ列から行高さ、行幅、行外接矩形座標、平均外接矩形間距離などのラインに関する特徴を算出する。
また、行高列幅算出モジュール1021は、行高さ(h)を先に求めた行外接矩形座標を用いて、h = max_y − min_y として求める。同様に、行幅(w)を行外接矩形座標を用いて、w = max_x − min_x として求める。これらの行高さ、行幅は、各外接矩形のサイズ(高さ、幅)又はその座標を用いて求める。
また、矩形間距離算出モジュール1022は、平均文字外接矩形間距離を、同じ行に属する隣接する文字情報データの外接矩形間距離g0, g1, ……, gnの平均値として求める。また、最大外接矩形間距離max_gを、g0, g1, ……, gnのうちの最大値として求める。なお、リストデータとしてg0, g1, …… , gnのそれぞれの値も保持するようにしてもよい。
ステップS1402では、まず初めにライン認識処理モジュール1010で認識された行に関して、行外接矩形のy座標値であるmin_y値で昇順にソートする。
ステップS1404では、ステップS1402でソートされた行を全て探索(ステップS1406からステップS1414までの処理)したか否かを判定する。全て探索されていればステップS1416に、探索が終了していなければステップS1406に処理を移す。
ステップS1406では、注目する行(以降は、現探索行ともいう)をソート順に選択する。
ステップS1408では、現探索行に関して段落に登録されているか否かを判定する。現探索行が段落に登録されているならば処理をステップS1404に戻し、登録されていなければステップS1410に処理を移す。
ステップS1412では、現段落に対して現探索行が登録できるか否かを判定する。現探索行が現段落に登録可能ならば処理をステップS1414に移し、登録できないならば処理をステップS1404に戻す。なお、ステップS1412における現探索行の登録可否処理の詳細は、図16を用いて後で詳しく説明する。
ここで、図15に段落に関する情報の具体的な例を示す。段落に関する情報として、例えば、その段落の位置情報(例えば、左上座標及び右下座標)、段落順序値(その段落を読む際の順序)を含む。段落認識処理モジュール1030は、図15の例に示すように、段落に登録されている行情報(登録行情報)を用いて、段落に登録された全ての行の行外接矩形(登録行0 1500から登録行8 1508)を含む矩形を段落外接矩形1510として、その左上座標(min_x, min_y)及び右下座標(max_x, max_y)を算出する。また図15には図示していないが、同一段落に登録された各行のうち、最も行高さが大きい値max_hを算出し、段落代表値とする。同一段落に登録された文字情報データ中で最も小さい文字認識順序の値min_orderを算出し、段落順序値とする。
ステップS1418では、全ての行が段落登録されたかを判定する。全ての行がいずれかの段落に登録されていれば段落抽出処理を終了する(ステップS1499)。いずれの段落にも登録されていない行がある場合には、ステップS1404に処理を戻し、次の段落抽出処理を行う。
ステップS1602において、現探索行が現段落の段落外接矩形に対して、右又は左にずれているかを判定する。つまり、現探索行の左端が現段落の右端より右にあるか否か、又は現探索行の右端が現段落の左端より左にあるか否かを判定する。例えば、図17(a)の例に示すように、現探索行1712が現段落1710より右にずれているか否か、又は図17(b)の例に示すように、現探索行1732が現段落1730よりも左にずれているか否かを判定する。現探索行が図17の例のように右あるいは左にずれている場合には、現探索行は現段落に登録せず、図14の例に示したステップS1404に処理を戻す。それ以外の場合は、ステップS1604に処理を移す。
より具体的に説明すると、段落統合処理モジュール1040は、段落認識処理モジュール1030で認識された段落を、各段落の段落代表値(max_h)を用いて統合する。
ステップS2002において、段落認識処理モジュール1030で認識された全ての段落の段落代表値max_hの差分値を算出し、その差分値が最小となる2つの段落を抽出する(このときの差分値を以下では「差分最小値」ともいう)。
ステップS2004において、ステップS2002で算出された差分最小値を予め定めた閾値と比較する。前記差分最小値が予め定めた閾値より大きい場合(ステップS2004でNO)は、これ以上統合すべき段落はないと判断して、段落統合処理モジュール1040における段落統合処理を終了する(ステップS2099)。前記差分最小値がある所定の閾値より小さい場合(ステップS2004でYES)は、ステップS2006に処理を移す。
ステップS2008において、ステップS2006において統合された段落の段落代表値max_hを、統合元の2つの段落の段落代表値の大きい方で設定し、処理をステップS2002に戻す。つまり、統合後の段落の段落代表値max_hを、元の段落の段落代表値max_hのうち大きい値とする。
このように段落統合処理モジュール1040は、前述したように、ステップS2002で算出する差分最小値がステップS2004において予め定めた閾値より大きくなるまでステップS2002からステップS2008の統合処理を繰り返して段落を統合する。
文字情報補正処理モジュール1050では、図21の例に示す各補正値を以下のように算出する。
補正矩形高さHには、補正対象の文字情報データが属する統合段落の段落代表値max_hを設定する。
補正矩形幅Wは、補正対象の文字情報データが属する行の最大外接矩形間距離max_gを用いて、以下の式(1)で算出する。
W = max_g + w ・・・・・ 式(1)
ここでwは、補正前(ライン認識処理モジュール1010が受け付けた元の文字情報データのもの)の外接矩形幅である。
new_x = x − max_g/2
new_y = min_y − (H − h)/2 ・・・・・ 式(2)
ここでxは補正前の外接矩形2110の左上x座標値、max_gは補正対象の文字情報データが属する行の最大外接矩形間距離の代表値、min_yは補正対象の文字情報データが属する行のy座標の最小値、Hは補正矩形2120の高さ、hは補正前の外接矩形高さである。
shiftx = max_g/2
shifty = y − new_y ・・・・・ 式(3)
ここでyは補正前の外接矩形2110の左上y座標値である。
例えば、句点の文字コードを段落の区切りとして用いるようにしてもよい。具体的には、例えば、段落分割処理モジュール630が文字認識モジュールを含んでおり、その文字認識モジュールの文字認識結果として、文字コードを順番に受け取り、このとき、句点コード(又はピリオドコード等)を受け取った時点で、段落の区切りと判断する。
又は、文字認識モジュールの文字認識結果として、文字コードと文字の位置を順番に受け取る。ここで、文字の位置として、例えば、文字の外接矩形の左上の位置XY座標とする。そのXY座標は、画像の左上端をX=0、Y=0として、右に行くにつれてXが増加し、下に行くにつれてYが増加するような座標とする。なお、文字の位置としては、外接矩形の左上の位置以外であってもよい。そして、順番に受け取った文字位置のX座標の差分と、Y座標の差分を計算する。このXとYの差分がどちらも予め定められた閾値よりも大であるときに、段落の区切りとするようにしてもよい。
又は、特開2000−90194号公報に示された手法、又は、その公報に従来技術として示された手法で、画像を分割して、各分割領域を段落としてもよい。具体的には、例えば、文書に含まれる文章が縦書きであるか又は横書きであるかを算定し、その算定した結果を参照して前記文書を分割する境界を設定し、その設定した境界において前記文書を分割する。また、前記文書を横書き文章方向に膨張処理した画像と、前記文書を縦書き文章方向に膨張処理した画像との論理積を求め、この論理積画像を新たな文書として受け付ける。境界の設定に際しては、前記文書を構成する画素の横書き文章方向及び縦書き文章方向における投影分布を算出し、この算出した投影分布を用いて前記境界を設定する。前記算定の結果において、前記文書に含まれる文章が縦書き主体である場合には、縦書き文章方向に境界を設定する確率を高め、横書き主体である場合には、横書き文章方向に境界を設定する確率を高める。前記文書に含まれる文章が縦書き主体であるか又は横書き主体であるかを、前記文書の連結成分の中で文字画像の配置情報から算出する。
またその他の手法であってもよい。
一例として、PDFを出力文書フォーマットとした場合の例を図8に示す。図8に例示の出力文書フォーマットは、図3(B)に例示した出力文書フォーマットのその他のPDF制御情報322−1と第1レベルアウトライン(2ページ目の画像のタイトル)321−2の間に、1ページ目の第2レベルのアウトライン情報を追加したものである。1ページ目のタイトルを格納した第1レベルアウトライン(1ページ目の画像のタイトル)321−1と第1レベルのアウトラインに関するその他のPDF制御情報322−1の組を付与した後に、その1ページ目内の一つ目の段落のタイトルを格納した第2レベルアウトライン(1ページ目の画像の1段落目のタイトル)831−1とその段落の第2レベルのアウトラインに関するその他のPDF制御情報832−1の組を付与し、以後、2つ目以降の段落についての組(第2レベルアウトライン(1ページ目の画像のM段落目のタイトル)841−1、その他のPDF制御情報842−1等)を順に付与したものである。2ページ目以降についても、第1ページ目と同等の第1レベル、第2レベルのアウトライン情報を付与する。
ステップS702では、ページ処理モジュール610が、文書を受け付ける。
ステップS704では、ページ処理モジュール610が、ページ毎の画像に分割する。
ステップS706では、ページ処理モジュール610が、ページ毎にページ番号を付与する。
ステップS708では、ページタイトル決定処理モジュール620が、ページ毎にページタイトルを決定する。
ステップS710では、段落分割処理モジュール630が、ページ毎に段落に分割する。
ステップS712では、段落タイトル決定処理モジュール640が、段落毎に段落タイトルを決定する。
ステップS714では、段落タイトル決定処理モジュール640が、そのページ内の最終段落まで終了したか否かを判断する。最終段落まで終了した場合はステップS716へ進み、それ以外の場合はステップS712へ戻る。
ステップS716では、ページタイトル決定処理モジュール620が、最終ページまで終了したか否かを判断する。最終ページまで終了した場合はステップS718へ進み、それ以外の場合はステップS708へ戻る。
ステップS718では、最終ページまでページタイトル、段落タイトルが決定された後に、文書フォーマット処理モジュール650が、文書フォーマット処理を行い、その文書を出力する。
文書ビューアは文書ビューア表示領域900内に、アウトラインビューア表示領域910、ページ画像表示領域920を表示する。この文書ビューアにおいては、ページ画像表示領域920に各ページの画像を表示する。さらに、文書ビューアのオプションとしてアウトラインビューアを持っている。アウトラインビューアを開くと、各ページのタイトルとそのページ内に含まれている段落のタイトルを階層的にアウトラインビューア表示領域910に表示する。このアウトラインビューア表示領域910内のページのタイトルが利用者の操作によって選択されると、ページ画像表示領域920に表示されているページを選択されたページに変更し、アウトラインビューア表示領域910内の段落のタイトルが利用者の操作によって選択されると、ページ画像表示領域920に表示されている段落を選択表示に変更する。つまり、ページのタイトルを第1レベルのアウトラインとし、段落のタイトルを第2レベルのアウトラインにすることにより、このような処理が行えるようになる。
前述の実施の形態では各ページ内における第1レベルのアウトライン情報、第2レベルのアウトライン情報を抽出している。つまり階層構造(第1レベル、第2レベル)として、各ページ独立のものである。第4の実施の形態では、ページ間の関連を用いて、ページ独立に設定されたタイトルの階層構造を変更するものである。
第4の実施の形態は、前述の第3の実施の形態の文書フォーマット処理モジュール650に機能を追加するものである。したがって、他のモジュールの構成、働き等は同等のものである。したがって、第3の実施の形態と同種のモジュールには同一符号を付し重複した説明を省略する。
第4の実施の形態は複数ページの文書を対象としているので、ページ処理モジュール610は複数のページを有する文書を受け付ける。
つまり、各ページ毎にページタイトルが付与されている。各ページは複数の段落から構成されている場合がある。例えば出力文書2300では、ページ1は3つの段落を有している。そして、各段落は複数のサブ段落から構成されている場合がある。例えば出力文書2300では、ページ2は段落1の下にサブ段落1がある。なお、段落は、ページよりも1段階下がった階層に属する。サブ段落は、段落よりも1段階下がった階層に属する。
実際の文書において、ページ1ページタイトルとページ2ページタイトルが同一階層であるとは限らないということがある。例えば、ページ1ページタイトルは、文書のタイトルであって、ページ2ページタイトルは、章のタイトルであるかもしれない。そのような場合には、ページ1ページタイトルより下位の階層としてページ2ページタイトルとして抽出すべきである。
そこで、以下、第4の実施の形態では、ページ間の階層構造の関係を抽出し、ページにまたがる階層に変更する。
属性値処理モジュール2210は、ページタイトル決定処理モジュール620によって決定されたページの見出しの属性又は段落タイトル決定処理モジュール640によって決定された段落の見出しの属性を抽出する。
階層処理モジュール2220は、属性値処理モジュール2210によって抽出されたページの見出しの属性又は段落の見出しの属性に基づいて、複数ページ間における階層構造を決定する。
第3の実施の形態における文書フォーマット処理モジュール650の処理が終了した後に、属性値処理モジュール2210、階層処理モジュール2220が処理を行う。
属性値としては、例えば、各タイトルの文字の大きさ、文字を構成する線の太さ、文字の色、最初の文字の位置、前後の行(又は列、以下同様)との距離等がある。又は、複数の属性値(文字の太さ、文字の大きさ、前後の行との距離など)の重み付け線形和を用いてもよい。
文字の大きさとしては、タイトルが横書きであれば、タイトルの文字列の外接矩形の高さ等を取得すればよい。タイトルが縦書きであれば、タイトルの文字列の外接矩形の幅等を取得すればよい。
文字の太さは、タイトルの文字列の外接矩形の濃度等を取得すればよい。また、文字を構成する線のうち、予め定められた値以上の長さの線を対象とし、その太さを計測するようにしてもよい。
文字の色は、タイトルの文字の画素値を取得すればよい。
最初の文字の位置の場合、横書きの場合はタイトル内の左端にある文字からページの左端までの距離、縦書きの場合はタイトル内の上端にある文字からページの上端までの距離を計測して取得すればよい。
前後の行との距離の場合、横書きであれば、上下の行との距離を計測し、縦書きであれば、左右の列との距離を計測して取得すればよい。
本実施の形態では、ページ内の階層構造として、上位階層のタイトルは、下位階層のタイトルよりも本属性値の値が大きくなるようにする。
ステップS2602では、タイトル・属性値テーブル2500から各タイトルの属性値を取得する。
ステップS2604では、属性値のクラスタリングを行う。クラスタリングとしては、一般的なクラスタリングアルゴリズムを用いればよい。例えば、具体的には、K−means法、クラスター分析法等を用いればよい。より単純には、同じ値のものを一つのクラスにする。例えば、図25に例示したタイトル・属性値テーブル2500の場合、属性値が、10、12、18、20の4つのクラスに分割することができる。又は、ある属性値から予め定められた範囲内にあれば(つまり、微小なずれは無視するとすれば)、属性値が、10、20の2つのクラスに分割するようにしてもよい。
このように属性値をクラスタリングして、クラス分けする。ここでは属性値が、10、12、18、20の4つのクラスに分ける。
ステップS2608では、クラスに階層番号を付与する。つまり、クラスの属性値が大きな順に小さな階層番号を与える。前述の例では、クラス20に対して、階層番号1を与える。クラス18に対して、階層番号2を与える。クラス12に対して、階層番号3を与える。クラス10に対して、階層番号4を与える。
ステップS2610では、最終的に、タイトルに階層番号を付与する。結果として、前述の例では、図27に例示するタイトル・階層テーブル2700の階層番号を得ることができる。タイトル・階層テーブル2700はタイトル・階層テーブル2400を書き換えたものである。つまり、階層番号はタイトル・階層テーブル2400の状態では3であったが、階層処理モジュール2220の処理によって階層番号は4に増えている。そして、階層番号:1はページ1のページタイトルだけであり、階層番号:2はページ3のページタイトルとなり、ページ2のページタイトルはページ1内の段落タイトルと同じ階層番号:3となる。
このように作成された文書は、そのフォーマットに適した文書ビューアを用いて、図28に例示するような表示が行われる。これは、図9に例示したアウトラインビューア表示領域910に対応するものである。アウトラインビューア表示領域2800内では、右に行くほど下位の階層であるような表示の仕方をしている。つまり、アウトラインビューア表示領域2800では、文書内のページタイトル、段落タイトル、サブ段落タイトルを階層的に表示しており、ページ1のページタイトルは最上位の階層にあり、ページ3のページタイトルは次の階層にあり、ページ2のページタイトルは段落のタイトルと同じ第3階層にあり、サブ段落タイトルはページ2の段落1タイトルの下の階層に位置していることが示されている。
第4の実施の形態では、複数のページ(例示したものは全てのページ)を対象として、階層構造を決定した。第5の実施の形態は、これをページ毎の逐次的処理としたものである。第5の実施の形態のモジュール構成は、第4の実施の形態と同等のものである。ただし、文書フォーマット処理モジュール650は、以下に示す処理を行う。
ステップS2904では、対象とする文書内のページが終了したか否かを判断する。ページが終了した場合(次のページがない場合)は処理を終了(ステップS2999)し、それ以外の場合はステップS2906へ進む。
ステップS2906では、そのページにおける第1クラスを取得する。
ステップS2908では、既階層にマッピング可か否かを判断する。マッピング可の場合はステップS2912へ進み、それ以外の場合はステップS2910へ進む。この判断は、既階層がなればマッピング不可と判断し、既階層があってもその既階層の属性と対象としているクラスの属性値が対応していない場合もマッピング不可と判断し、既階層があり、その既階層の属性と対象としているクラスの属性値が対応している場合はマッピング可と判断する。
ステップS2912では、既階層にマッピングする。
ステップS2914では、そのページ内における次のクラスを取得する。
ステップS2916では、そのページ内におけるクラスが終了したか否かを判断する。クラスが終了した場合(そのページ内に次のクラスがない場合)はステップS2918へ進み、それ以外の場合はステップS2908へ戻る。
ステップS2918では、次のページを取得する。
ページ1は、ページタイトル、段落タイトルの2層構造であるため、2クラス構成となる。
ページ1の最上位の階層(ページタイトル)を第1クラスとする(ステップS2906)。
そして、1ページ目の場合、既階層はないので、既階層にマッピング不可であり、ステップS2908ではステップS2910へ進むことになる。
1ページ目の第1クラスの場合、新階層1を登録して、さらに、第1クラスをその新階層1にマッピングする(ステップS2910)。
ページ1の第2クラスは、段落階層である。このクラスに対しても既階層はないため、既階層にマッピング不可であり、2巡目のステップS2908でもステップS2910へ進むことになる。そして、新階層2を登録して、さらに、ページ1の第2クラスをその新階層2にマッピングする(ステップS2910)。
これで、ページ1のクラスは終了した(ステップS2916でY)ので、ページ2を取得する(ステップS2918)。
まずページ2のクラス1は、ページ2のページタイトルである。この属性値は12である。なお、属性値は、属性値処理モジュール2210が予め抽出してタイトル・属性値テーブル2500を生成していてもよいし、必要となる毎に抽出してもよい。属性値:12の既階層は階層2であるため、ページ2のページタイトルは階層2にマッピングする(ステップS2912)。つまり、対象とするタイトルの属性値に対応する、既に階層にマッピングされたタイトルの属性値をタイトル・属性値テーブル2500から検索し、その検索された属性値を有するタイトルの階層を対象とするタイトルに付与するものである。
次のクラスであるページ2の段落の属性値は12であるため、ページ2の段落も階層2にマッピングする(ステップS2912)。
次のクラスであるページ2のサブ段落の属性値は10である。これに対応する既階層はない(ステップS2908でN)ため、新階層を設定する。属性値10は、既階層のどれよりも小さな値であるため、新階層3を登録する。ページ2のサブ段落は、その新階層3にマッピングする(ステップS2910)。
ページ3のページタイトルの属性値は18である。これに対応する既階層はない(ステップS2908でN)ため、新階層を設定する(ステップS2910)。
これまで登録された階層は、図30に例示する階層・属性テーブル3000のようになっている。階層・属性テーブル3000は、階層番号欄3010、属性値欄3020を有している。階層番号欄3010はページ間にまたがる階層構造を記憶し、属性値欄3020はその階層構造のタイトルが有する属性値を記憶する。つまり、階層1は属性値:20を有するものであり、階層2は属性値:12を有するものであり、階層3は属性値:10を有するものである。
属性値:18は、階層1と階層2の間であるため、その間に新階層を作る。階層2以降の番号は1ずつずらす(階層番号を増加させる)。つまり、図31に例示する階層・属性テーブル3100のようになる。階層3の属性値として18を登録し、階層4として階層・属性テーブル3000の階層3を登録する。なお、階層・属性テーブル3000(階層・属性テーブル3100)は、文書フォーマット処理モジュール650内に記憶されており、各値は階層処理モジュール2220によって記憶される。
そして、ページ3のページタイトルは、階層2にマッピングする(ステップS2910)。
ページ3のクラス2である段落は、属性値12であるため、階層3にマッピングする(ステップS2912)。
しかし、既階層に一致しない場合でも、ある程度の誤差を許容してもよい。例えば、既階層との差分が予め定めた閾値以下であれば、その階層に登録してもよい。閾値以内の既階層が複数ある場合には、比較した場合に属性値が近い既階層に登録すればよい。閾値以内の既階層がない場合に限り、新階層を登録する。
例えば、文書フォーマット処理モジュール130、文書フォーマット処理モジュール650が出力する文書フォーマット内のページタイトルとして、
<Page#>ページタイトル
のような記述を与える。なお、この記述内の「#」はページ番号を示す。また、「ページタイトル」は、ページタイトル決定処理モジュール120、ページタイトル決定処理モジュール620で決定したページタイトル(ページ番号)を示す。
また、例えば、段落タイトルとして、
<Para#>段落タイトル
のような記述を与える。なお、この記述内の「#」は段落番号を示す。また、「段落タイトル」は、段落分割処理モジュール630で決定した段落タイトル(段落番号)を示す。
アウトラインレベルを増加させたときの処理は、アウトラインレベルを1から2へ増加させたときの処理と同等である。つまり、段落分割処理モジュール630が出力する段落情報を受け取って、小段落、文、行等に分割して、そのタイトルを決定するモジュールを付加させればよい。
なお、数式を用いて説明したが、数式には、その数式と同等のものを含めてもよい。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」等としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」等としてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…ページタイトル決定処理モジュール
130…文書フォーマット処理モジュール
610…ページ処理モジュール
620…ページタイトル決定処理モジュール
630…段落分割処理モジュール
640…段落タイトル決定処理モジュール
650…文書フォーマット処理モジュール
1010…ライン認識処理モジュール
1020…ライン特徴算出モジュール
1021…行高列幅算出モジュール
1022…矩形間距離算出モジュール
1030…段落認識処理モジュール
1040…段落統合処理モジュール
1050…文字情報補正処理モジュール
2210…属性値処理モジュール
2220…階層処理モジュール
Claims (8)
- ページ内における文書構成要素の位置が固定されており、文字画像を含む文書を受け付ける文書受付手段と、
前記文書受付手段によって受け付けられた文書をページ毎に分割するページ分割手段と、
前記文書内の文字画像を文字認識する文字認識手段と、
前記ページ分割手段によって分割されたページ内から該ページの見出しを決定するページ見出し決定手段と、
前記ページ見出し決定手段によって決定された見出しを前記ページ分割手段によって分割されたページの第1レベルのアウトライン情報として該ページに付与する処理を行う処理手段
を具備し、
前記ページ見出し決定手段は、1ページ毎に前記文字認識手段による認識結果内の文字列を、ページ見出し候補として登録し、該ページにおける該登録処理における2回目以降においては、登録済みの第1のページ見出し候補と、今回抽出した第2のページ見出し候補のいずれかをページ見出しとして登録し、
前記第1のページ見出し候補と第2のページ見出し候補のいずれかをページ見出しとして登録するかは、次のいずれか又はこれらの組み合わせによって行う
(1)前記第2のページ見出し候補の文字の大きさが、前記第1のページ見出し候補の文字の大きさに予め定められた閾値を乗算した結果よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録すること、
(2)前記第2のページ見出し候補において、文字認識が失敗したときに出現しやすい記号の割合が予め定められた閾値よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録しないこと、
(3)前記第2のページ見出し候補の文字の位置が予め定められた位置の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること、
(4)前記第2のページ見出し候補の文字の色が予め定められた色の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること
を特徴とする情報処理装置。 - 前記分割手段によって分割されたページを段落に分割する段落分割手段と、
前記段落分割手段によって分割された段落内から該段落の見出しを決定する段落見出し決定手段
をさらに具備し、
前記処理手段は、前記段落見出し決定手段によって決定された見出しを前記ページ分割手段によって分割されたページの第2レベルのアウトライン情報として該ページに付与する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記段落見出し決定手段は、前記文字認識手段による認識結果、前記文字画像の位置、色、大きさのいずれか一つ以上を用いて、前記ページ又は前記段落の見出しを決定する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記ページ分割手段によって分割されたページのページ番号を生成するページ番号生成手段
をさらに具備し、
前記ページ見出し決定手段は、前記ページ番号生成手段によって生成されたページ番号を付加して前記ページの見出しを決定する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記段落分割手段によって分割された段落の段落番号を生成する段落番号生成手段
をさらに具備し、
前記段落見出し決定手段は、前記段落番号生成手段によって生成された段落番号を付加して前記段落の見出しを決定する
ことを特徴とする請求項2、請求項3、又は請求項2若しくは請求項3に従属する請求項4のいずれか一項に記載の情報処理装置。 - 前記文書受付手段は、複数のページを有する文書を受け付け、
前記処理手段は、
前記ページ見出し決定手段によって決定されたページの見出しの属性又は前記段落見出し決定手段によって決定された段落の見出しの属性を抽出する属性抽出手段と、
前記属性抽出手段によって抽出されたページの見出しの属性又は段落の見出しの属性に基づいて、複数ページ間における階層構造を決定する階層構造決定手段
を具備することを特徴とする請求項2、請求項3、請求項5、又は請求項2若しくは請求項3に従属する請求項4のいずれか一項に記載の情報処理装置。 - 前記階層構造決定手段は、ページ毎に順次階層構造を決定していく
ことを特徴とする請求項6に記載の情報処理装置。 - コンピュータを、
ページ内における文書構成要素の位置が固定されており、文字画像を含む文書を受け付ける文書受付手段と、
前記文書受付手段によって受け付けられた文書をページ毎に分割するページ分割手段と、
前記文書内の文字画像を文字認識する文字認識手段と、
前記ページ分割手段によって分割されたページ内から該ページの見出しを決定するページ見出し決定手段と、
前記ページ見出し決定手段によって決定された見出しを前記ページ分割手段によって分割されたページの第1レベルのアウトライン情報として該ページに付与する処理を行う処理手段
として機能させ、
前記ページ見出し決定手段は、1ページ毎に前記文字認識手段による認識結果内の文字列を、ページ見出し候補として登録し、該ページにおける該登録処理における2回目以降においては、登録済みの第1のページ見出し候補と、今回抽出した第2のページ見出し候補のいずれかをページ見出しとして登録し、
前記第1のページ見出し候補と第2のページ見出し候補のいずれかをページ見出しとして登録するかは、次のいずれか又はこれらの組み合わせによって行う
(1)前記第2のページ見出し候補の文字の大きさが、前記第1のページ見出し候補の文字の大きさに予め定められた閾値を乗算した結果よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録すること、
(2)前記第2のページ見出し候補において、文字認識が失敗したときに出現しやすい記号の割合が予め定められた閾値よりも大きい場合は、該第2のページ見出し候補をページ見出しとして登録しないこと、
(3)前記第2のページ見出し候補の文字の位置が予め定められた位置の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること、
(4)前記第2のページ見出し候補の文字の色が予め定められた色の範囲内にある場合に、該第2のページ見出し候補をページ見出しとして登録すること
を特徴とする情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009275746A JP5663866B2 (ja) | 2009-08-20 | 2009-12-03 | 情報処理装置及び情報処理プログラム |
US12/716,829 US8824798B2 (en) | 2009-08-20 | 2010-03-03 | Information processing device, computer readable medium storing information processing program, and information processing method |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009190890 | 2009-08-20 | ||
JP2009190890 | 2009-08-20 | ||
JP2009275746A JP5663866B2 (ja) | 2009-08-20 | 2009-12-03 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011065621A JP2011065621A (ja) | 2011-03-31 |
JP5663866B2 true JP5663866B2 (ja) | 2015-02-04 |
Family
ID=43605427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009275746A Active JP5663866B2 (ja) | 2009-08-20 | 2009-12-03 | 情報処理装置及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8824798B2 (ja) |
JP (1) | JP5663866B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5794677B2 (ja) * | 2011-06-14 | 2015-10-14 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法およびコンピュータプログラム |
US9734132B1 (en) * | 2011-12-20 | 2017-08-15 | Amazon Technologies, Inc. | Alignment and reflow of displayed character images |
CN105283902B (zh) * | 2013-06-17 | 2018-10-30 | 富士通株式会社 | 图像处理装置、图像处理方法、以及图像处理程序的存储介质 |
US9588971B2 (en) | 2014-02-03 | 2017-03-07 | Bluebeam Software, Inc. | Generating unique document page identifiers from content within a selected page region |
JP6686957B2 (ja) * | 2017-03-31 | 2020-04-22 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
US10346702B2 (en) | 2017-07-24 | 2019-07-09 | Bank Of America Corporation | Image data capture and conversion |
US10192127B1 (en) * | 2017-07-24 | 2019-01-29 | Bank Of America Corporation | System for dynamic optical character recognition tuning |
JP6731011B2 (ja) * | 2018-02-23 | 2020-07-29 | シナノケンシ株式会社 | 電子図書の表示用データの作成装置 |
JP6977661B2 (ja) * | 2018-05-14 | 2021-12-08 | コニカミノルタ株式会社 | 印刷制御装置、印刷制御プログラム及び印刷制御方法 |
US11468346B2 (en) * | 2019-03-29 | 2022-10-11 | Konica Minolta Business Solutions U.S.A., Inc. | Identifying sequence headings in a document |
US11494555B2 (en) * | 2019-03-29 | 2022-11-08 | Konica Minolta Business Solutions U.S.A., Inc. | Identifying section headings in a document |
CN109934210B (zh) * | 2019-05-17 | 2019-08-09 | 上海肇观电子科技有限公司 | 版面分析方法、阅读辅助设备、电路和介质 |
US10956731B1 (en) * | 2019-10-09 | 2021-03-23 | Adobe Inc. | Heading identification and classification for a digital document |
US10949604B1 (en) | 2019-10-25 | 2021-03-16 | Adobe Inc. | Identifying artifacts in digital documents |
JP7457903B2 (ja) * | 2020-03-24 | 2024-03-29 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
CN111753832B (zh) * | 2020-07-02 | 2023-12-08 | 杭州睿琪软件有限公司 | 图像处理方法、图像处理装置、电子设备和存储介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02165262A (ja) * | 1988-12-19 | 1990-06-26 | Canon Inc | 文字処理装置 |
JPH05274471A (ja) | 1992-03-30 | 1993-10-22 | Nippon Telegr & Teleph Corp <Ntt> | イメージ文書のタイトル領域抽出処理方法 |
JP3313519B2 (ja) * | 1994-09-19 | 2002-08-12 | シャープ株式会社 | 画像処理装置 |
US5987171A (en) * | 1994-11-10 | 1999-11-16 | Canon Kabushiki Kaisha | Page analysis system |
JP3373068B2 (ja) * | 1994-12-05 | 2003-02-04 | 沖電気工業株式会社 | 光学式文字認識装置 |
JP3487523B2 (ja) | 1995-04-18 | 2004-01-19 | 株式会社リコー | 文書処理装置 |
JP3425834B2 (ja) | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US5784487A (en) * | 1996-05-23 | 1998-07-21 | Xerox Corporation | System for document layout analysis |
JP2000148788A (ja) | 1998-11-05 | 2000-05-30 | Ricoh Co Ltd | 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法 |
US7099507B2 (en) * | 1998-11-05 | 2006-08-29 | Ricoh Company, Ltd | Method and system for extracting title from document image |
EP1252603A1 (en) * | 2000-02-01 | 2002-10-30 | Scansoft, Inc. | Automatic conversion of static documents into dynamic documents |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
US7756871B2 (en) * | 2004-10-13 | 2010-07-13 | Hewlett-Packard Development Company, L.P. | Article extraction |
JP4789516B2 (ja) * | 2005-06-14 | 2011-10-12 | キヤノン株式会社 | 文書変換装置、文書変換方法並びに記憶媒体 |
GB2428114A (en) * | 2005-07-08 | 2007-01-17 | William Alan Hollingsworth | Data Format Conversion System |
JP2007124489A (ja) * | 2005-10-31 | 2007-05-17 | Kyocera Mita Corp | 画像形成装置 |
KR100664311B1 (ko) * | 2005-11-18 | 2007-01-04 | 삼성전자주식회사 | 자동 인덱스 생성이 가능한 화상형성장치 및 그 자동인덱스 생성방법 |
US7810026B1 (en) * | 2006-09-29 | 2010-10-05 | Amazon Technologies, Inc. | Optimizing typographical content for transmission and display |
JP5125238B2 (ja) * | 2007-06-06 | 2013-01-23 | コニカミノルタビジネステクノロジーズ株式会社 | 文書処理装置、文書処理方法および文書処理プログラム |
US8260049B2 (en) * | 2007-09-28 | 2012-09-04 | Abbyy Software Ltd. | Model-based method of document logical structure recognition in OCR systems |
US8392816B2 (en) * | 2007-12-03 | 2013-03-05 | Microsoft Corporation | Page classifier engine |
-
2009
- 2009-12-03 JP JP2009275746A patent/JP5663866B2/ja active Active
-
2010
- 2010-03-03 US US12/716,829 patent/US8824798B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011065621A (ja) | 2011-03-31 |
US8824798B2 (en) | 2014-09-02 |
US20110044539A1 (en) | 2011-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
KR101363808B1 (ko) | 문서 콘텐츠의 순서화 | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
JP4682284B2 (ja) | 文書差分検出装置 | |
US20070136660A1 (en) | Creation of semantic objects for providing logical structure to markup language representations of documents | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
EP2159736A2 (en) | Image processing apparatus, image processing method and image processing program | |
JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
JPH11250041A (ja) | 文書処理装置および文書処理方法 | |
JP5321109B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP4623169B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2007304864A (ja) | 文字認識処理システムおよび文字認識処理プログラム | |
US8804139B1 (en) | Method and system for repurposing a presentation document to save paper and ink | |
JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2003288334A (ja) | 文書処理装置及び文書処理方法 | |
CN114359943A (zh) | Ofd版式文档段落识别方法及装置 | |
JPH11184894A (ja) | 論理要素抽出方法および記録媒体 | |
JP5446877B2 (ja) | 目次構造特定装置 | |
JP2006221569A (ja) | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP2009251872A (ja) | 情報処理装置及び情報処理プログラム | |
JP2015005100A (ja) | 情報処理装置、テンプレート生成方法、およびプログラム | |
KR20090098650A (ko) | 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독 가능한 기억 매체 | |
JP2007310501A (ja) | 情報処理装置、その制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131015 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5663866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |