JP6394069B2 - 文書処理装置及び文書処理プログラム - Google Patents

文書処理装置及び文書処理プログラム Download PDF

Info

Publication number
JP6394069B2
JP6394069B2 JP2014108111A JP2014108111A JP6394069B2 JP 6394069 B2 JP6394069 B2 JP 6394069B2 JP 2014108111 A JP2014108111 A JP 2014108111A JP 2014108111 A JP2014108111 A JP 2014108111A JP 6394069 B2 JP6394069 B2 JP 6394069B2
Authority
JP
Japan
Prior art keywords
document
data
image
page
link information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014108111A
Other languages
English (en)
Other versions
JP2015225377A (ja
Inventor
淳志 松本
淳志 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2014108111A priority Critical patent/JP6394069B2/ja
Publication of JP2015225377A publication Critical patent/JP2015225377A/ja
Application granted granted Critical
Publication of JP6394069B2 publication Critical patent/JP6394069B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、OCR(optical character recognition)により電子化された文書データに対して自動的にリンク情報を付与する文書処理装置及び文書処理プログラムに関する。
従来より、たとえばOCR変換により電子化された文書データにおいては、リンク元となる文字列などにリンク情報を埋め込むことができるようになっている。この場合、ディスプレイ上に表示されたリンク元の文字列などをマウスなどによりクリックすると、リンク先の文書や画像などが表示される。
このようなリンク情報を埋め込むようにしたものとして、たとえば特許文献1では、抽出手段によりリンク対象となるタイトル部分を抽出し、位置特定手段により抽出された各タイトル部分の文書上の位置をジャンプ先位置として特定し、割当て手段により抽出されたタイトル部分が、各タイトル部分に対して文書内に1箇所現れる場合は、各タイトル部分に対応して複数のキーのいずれかのキーを割り当て、各タイトル部分に対して文書内に2箇所現れる場合は、該2箇所のうち先に現れるタイトル部分と該2箇所のうち後に現れるタイトル部分との距離及び表示部の表示範囲に応じて、いずれかのキーを割り当てるようにした文書処理装置を提案している。
特許5278996
上述した特許文献1でのリンク情報を埋め込む方法では、タイトル部分に対応して、複数のキーのいずれかのキーが割り当てられるので、文書の閲覧を快適に行うことができる。ところが、このような文書処理装置では、ユーザーがリンク対象を決める条件指定を行う必要がある。そのため、このようなリンク情報を埋め込む方法を適用し、たとえばOCR変換により電子化された文書データにリンク情報を埋め込むようにすると、ユーザーへの作業負担がかかってしまうという問題があった。
本発明は、このような状況に鑑みてなされたものであり、OCR変換を行った文書データに対してリンク情報を自動的に付与することにより、ユーザーへの作業負担を大幅に軽減させることができる文書処理装置及び文書処理プログラムを提供することを目的とする。
本発明の文書処理装置は、スキャナーによって読み取られた紙文書のデータ化を行い、データ化文書を生成するデータ化文書生成部と、前記データ化文書に対しOCR変換を行って文字画像を特定し、前記文字画像に基づく文書データを生成する文書データ生成部と、前記文書データからリンク対象となる文字データを検索し、それぞれの文字データの間での移動を可能とするリンク情報を付与するリンク情報付与部とを備え、前記リンク情報付与部は、前記文書データから図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、前記画像領域を広げて画像番号である図番号又は表番号を検索し、前記検索した画像番号である図番号又は表番号をリンク付与領域候補とし、前記広げた画像領域と同じ大きさ及び形状の1つの透明の領域データを、前記広げた画像領域上に埋め込み、さらに、前記文書データから前記リンク付与領域候補と同一の文字列を検索し、前記文字列に対して前記広げた画像領域に移動できるリンク情報を付与し、前記画像番号である図番号又は表番号を検索する際、前記画像領域に隣接する文字画像が含まれるまで前記画像領域を広げることを特徴とする。
また、前記紙文書は目次ページを含み、前記リンク情報付与部は、前記文書データから前記目次ページを認識して項目に対応するページ番号を判断し、前記判断したページ番号をリンク付与番号候補とし、さらに前記リンク付与番号候補と各ページのページ番号とを照合し、一致していればそれぞれ一致した前記リンク付与番号候補及び前記各ページのページ番号に対して双方向に移動できるリンク情報を付与することを特徴とする。
また、前記リンク情報付与部は、前記各ページに対してヘッダー領域及びフッター領域を検索し、前記ヘッダー領域又はフッター領域に文字データがあり、前記文字データが数字であればページ番号であると判断することを特徴とする。
本発明の文書処理プログラムは、文書データに対してリンク情報を付与する文書処理装置を制御するためのコンピューターで実行される文書処理プログラムであって、データ化文書生成部により、スキャナーによって読み取られた紙文書のデータ化を行い、データ化文書を生成する工程と、文書データ生成部により、前記データ化文書に対しOCR変換を行って文字画像を特定し、前記文字画像に基づく前記文書データを生成する工程と、リンク情報付与部により、前記文書データからリンク対象となる文字データを検索し、それぞれの文字データの間での移動を可能とするリンク情報を付与する工程とを前記コンピューターに実行させ、前記リンク情報付与部は、前記文書データから図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、前記画像領域を広げて画像番号である図番号又は表番号を検索し、前記検索した画像番号である図番号又は表番号をリンク付与領域候補とし、前記広げた画像領域と同じ大きさ及び形状の1つの透明の領域データを、前記広げた画像領域上に埋め込み、さらに、前記文書データから前記リンク付与領域候補と同一の文字列を検索し、前記文字列に対して前記広げた画像領域に移動できるリンク情報を付与し、前記画像番号である図番号又は表番号を検索する際、前記画像領域に隣接する文字画像が含まれるまで前記画像領域を広げることを特徴とする。
本発明の文書処理装置及び文書処理プログラムでは、データ化文書生成部により、スキャナーによって読み取られた紙文書のデータ化が行われてデータ化文書が生成され、文書データ生成部により、データ化文書に対しのOCR変換により文書データが生成され、リンク情報付与部により、文書データからリンク対象となる文字データが検索され、それぞれの文字データの間での移動を可能とするリンク情報が付与される。これにより、OCR変換を行った文書データに対してリンク情報が自動的に付与される。
本発明の文書処理装置及び文書処理プログラムによれば、OCR変換を行った文書データに対してリンク情報が自動的に付与されるようにしているので、ユーザーへの作業負担を大幅に軽減させることができる。
本発明の文書処理装置の一実施形態を示す図である。 図1の文書構成理解部によって生成された文書データの一例を示す図であって、同図(a)は目次ページを示す図、同図(b)は1ページ目を示す図である。 図1の文書構成理解部によって生成された文書データ内の画像領域を説明するための図である。 図1のリンク付与部による画像番号である図番号の検索について説明するための図である。 図1のリンク付与部による画像番号である図番号又は表番号と同一の文字列に対してのリンク情報の付与を説明するための図である。 図1の文書処理装置による文書処理を説明するためのフローチャートである。
以下、本発明の文書処理装置の一実施形態を、図1〜図6を参照しながら説明する。まず、図1に示すように、文書処理装置10は、制御部11、操作部12、表示部13、スキャナー部14を備えている。
制御部11は、図示しないROM内の制御プログラムなどに基づき、文書処理装置10の全体の動作を制御するものであり、操作受付部11a、文書読取部11b、文書構成理解部11c、リンク情報付与部11d、リンク実行部11e、メモリー11fを備えている。
操作受付部11aは、操作部12による文書処理などに係わる操作を受け付ける。文書読取部11bは、スキャナー部14によって読み取られた紙文書のデータ化(二値化)を行い、データ化文書を生成する。なお、紙文書には、目次ページが含まれているものとする。
文書構成理解部11cは、文書読取部11bによってデータ化(二値化)されたデータ化文書に対し、OCR(Optical Character Reader)変換を行い、文書データを生成する。すなわち、文書構成理解部11cは、まず、文書読取部11bによってデータ化(二値化)されたデータ化文書を文字パターンと照合して文字画像を特定し、特定された文字画像に対応する文字データを得る。次いで、文字構成理解部11cは、データ化文書の特定された文字画像上または文字画像周囲の特定の位置に、対応する(透明の)文字データを埋め込むことにより、文書データを生成する。このとき、文字構成理解部11cは、文字画像と同じサイズの文字データを埋め込むことができる。
リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、リンク対象となる文字データを検索し、同一の文字データの間での移動を可能とするリンク情報をそれぞれの文字データに付与する。すなわち、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから目次ページを認識し、この目次ページの項目に対応するページ番号を判断する。また、リンク情報付与部11dは、この判断したページ番号をリンク付与番号候補とし、さらにそのリンク付与番号候補と各ページのページ番号とを照合する。そして、一致していればそれぞれ一致したリンク付与番号候補及び各ページのページ番号に対して双方向に移動できるリンク情報を付与する。
ここで、たとえば図2(a)に示すように、目次ページが、ページの左側に項目が付され、ページの右側にページ番号が付されている構成であるとする。この場合、リンク情報付与部11dは、ページ番号の位置、すなわちページの右側にページ番号が付されていることを判断する。この判断は、目次ページに対して文字データの数字を検索することにより行われる。また、それぞれの項目に対応するページ番号は、リンク付与番号候補とされる。
また、たとえば1ページ目が図2(b)のような構成となっているものとすると、右下に付されている数字がページ番号として判断される。この場合、リンク情報付与部11dは、たとえば1ページ目のヘッダー領域a及びフッター領域bの文字データの数字を検索する。これは、ページ番号がページの上部又は下部に付されていることが一般的なためである。そして、リンク情報付与部11dは、図2(b)のように、ヘッダー領域aに文字データがなく、フッター領域bに文字データがあり、その文字データが数字であればページ番号であると判断する。
また、リンク情報付与部11dは、ページ番号であると判断すると、このページ番号と上述したリンク付与番号候補とを照合して一致していれば、このページ番号とリンク付与番号候補に対し、双方向に移動させるためのリンク情報を付与する。
ここで、双方向に移動できるようにするということは、たとえば図2(a)に示す目次ページがディスプレイ上に表示されている状態で、目次ページのページ番号(たとえば数字の1)がマウスなどによってクリックされると、図2(b)に示す1ページ目が表示されるようにすることである。また、1ページ目のページ番号(この場合、数字の1)が同様にクリックされると、図2(a)に示す目次ページが表示されるようにすることである。
なお、図2(a)に示す目次ページの構成では、目次ページのページ番号がたとえば1、4、11、14、17、19、22となっている。そのため、それぞれのページ番号がクリックされることにより、それぞれのページ番号に対応したページが表示されることになる。また、それぞれのページ番号に対応したページが表示された後、それぞれのページのページ番号がクリックされることにより、目次ページが表示されることになる。このように、目次ページのページ番号又は各ページのページ番号をクリックすることで、目次ページと目次ページで指定されたページとの間での移動の繰り返しが可能となる。
また、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、後述のように、その画像領域を広げて画像番号である図番号又は表番号を検索し、これらの図番号又は表番号をリンク付与領域候補とする。ここで、画像領域を広げる程度は、画像領域に隣接する文字画像が含まれるまで、又は、特定の方向(例えば、上、下、右、及び左の少なくとも一部)へ一定の長さとすることができる。
また、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、リンク付与領域候補と同一の文字列を検索する。そして、リンク情報付与部11dは、リンク付与領域候補と同一の文字列に対して、リンク付与領域候補と同一の文字列との間での移動を可能とするリンク情報を付与する。
すなわち、文書構成理解部11cによって生成された文書データの任意のページの構成がたとえば図3に示すようになっているものとする。この場合、リンク情報付与部11dは、画像領域(表)c、画像領域(円グラフの図形)d、画像領域(棒グラフの図形)eがあることを判断する。なお、これらの画像領域c〜eは、画像と認識した範囲である。つまり、これらの画像領域c〜eは、文書構成理解部11cによるOCR変換によって得られた文字データのサイズより大きいサイズとなっている。
そのため、リンク情報付与部11dは、文書データにおいて文字データのサイズより大きいサイズの画像の領域を図形又は表の画像領域と判断することができる。具体的には、リンク情報付与部11dは、文書データにおいて文字データのサイズより大きいサイズの画像、文書データにおいて文字データのサイズより大きいサイズの画像を内接する矩形、または、文書データにおいて文字データのサイズより大きいサイズの画像とその周囲の余白部分の少なくとも一部とを合わせた領域を内接する矩形を図形又は表の画像領域と判断してもよい。
また、リンク情報付与部11dは、文書データにおいて文字画像ではない画像の領域を図形又は表の画像領域と判断してもよい。具体的には、リンク情報付与部11dは、文書データにおいて文字画像ではない画像、文書データにおいて文字画像ではない画像を内接する矩形、または、文書データにおいて文字画像ではない画像とその周囲の余白部分の少なくとも一部とを合わせた領域を内接する矩形を図形又は表の画像領域と判断してもよい。
なお、画像領域の有無の判断だけでは、その画像領域が図であるのか表であるかの判断ができない。この場合、図3に示すように、画像領域(表)cの画像番号である表番号は一般的に図の上部に付されていることが多い。また、画像領域(円グラフの図形)d、画像領域(棒グラフの図形)eの画像番号である図番号は、一般的に図の下部に付されていることが多い。よって、画像番号である表番号又は図番号が分かれば、その画像領域が図であるのか表であるかの判断が付けられる。
そこで、リンク情報付与部11dは、図4に示すように、たとえば画像領域(円グラフの図形)dを、点線矢印で示すように上下左右方向に広げ、画像領域(円グラフの図形)dの画像番号である図番号(たとえば図1)を検索する。なお、上下左右方向に広げるということは、画像と認識した範囲を広げることを意味する。この場合、リンク情報付与部11dは、画像領域(円グラフの図形)dの下部に付されている画像番号である図番号(たとえば図1)を検索する。また、同図のように、下部に付されている文字データがたとえば図1であれば、リンク情報付与部11dは、その文字データが図番号あると判断する。
また、リンク情報付与部11dは、画像領域(表)c及び画像領域(棒グラフの図形)eについても同様にそれぞれの画像領域c、eを上下左右方向に広げ、画像番号である図番号及び表番号を検索する。また、リンク情報付与部11dは、それぞれの画像領域c〜eの画像番号である図番号及び表番号を検索すると、図番号及び表番号をリンク付与領域候補とする。また、リンク情報付与部11dは、リンク付与領域候補と同一の文字列を検索して照合し、リンク付与領域候補と一致した文字列に対し、図又は表への一方向に移動させるためのリンク情報を付与する。具体的には、リンク情報付与部11dは、リンク付与領域候補と一致した文字列に対し、リンク付与領域候補への一方向に移動させるためのリンク情報を付与することができる。あるいは、リンク情報付与部11dは、リンク付与領域候補と一致した文字列に対し、図形又は表の画像領域への一方向に移動させるためのリンク情報を付与することができる。また、リンク情報付与部11dは、リンク付与領域候補と一致した文字列に対し、広げた画像領域への一方向に移動させるためのリンク情報を付与することができる。
なお、図形又は表の画像領域、または広げた画像領域に移動させるためのリンク情報を付与する場合、リンク情報付与部11dは、図形又は表の画像領域、または広げた画像領域と同じ大きさ及び形状の1つの(透明の)領域データを、対応する画像領域上に埋め込む。これにより、それぞれの画像領域が文書データから分離して認識されることが可能になるため、リンク情報によってリンク先の画像領域を指定することができる。
リンク実行部11eは、リンク情報付与部11dによって付与されたリンク情報に基づき、目次ページから各ページへのページ移動や、図又は表への移動を実行する。すなわち、リンク実行部11eは、ディスプレイ上に表示された目次ページのページ番号又は各ページのページ番号がクリックされると、目次ページと目次ページで指定されたページとの間での移動の繰り返しを行わせる。また、画像番号である図番号又は表番号と同一の文字列がクリックされると、その文字列に対応する図又は表への移動を行わせる。
メモリー11fは、文書読取部11bによってデータ化(二値化)された文書データ、文書構成理解部11cによってOCR変換された文字画像のデータ、リンク情報付与部11dによって付与されたリンク情報、文字の形状を示す文字パターンなどを記憶する。
次に、図6を参照し、文書処理について説明する。まず、スキャナー部14は、紙文書のスキャンを行う(ステップS1)。このとき、文書読取部11bは、スキャナー部14によってスキャンされた紙文書のデータ化(二値化)を行う(ステップS2)。次いで、文書構成理解部11cは、文書読取部11bによってデータ化(二値化)されたデータ化文書に対し、OCR変換を行う(ステップS3)。これにより、たとえば図2及び図3に示したような文書データが生成される。
次いで、リンク情報付与部11dは、文書構成理解部11cが生成した文書データから目次ページを認識し、この目次ページの項目に対応するページ番号を判断する。また、リンク情報付与部11dは、この判断したページ番号をリンク付与番号候補とし、さらにそのリンク付与番号候補と各ページのページ番号とを照合する(ステップS4)。
すなわち、図2(a)に示したように、目次ページが、ページの左側に項目が付され、ページの右側にページ番号が付されている構成であるとすると、目次ページに対して文字データの数字が検索されることにより、ページ番号の判断が可能となる。また、各ページのページ番号については、図2(b)に示したように、たとえば1ページ目のヘッダー領域a及びフッター領域bの文字データの数字が検索される。このとき、フッター領域bに文字データがあり、その文字データが数字であればページ番号であるとした判断が可能となる。
リンク情報付与部11dは、ステップS4での照合の結果、リンク付与番号候補と各ページのページ番号とが一致すると、両者間で双方向に移動できるリンクを付与する(ステップS5)。
すなわち、図2(a)に示した目次ページのリンク付与番号候補とされたページ番号のたとえば「1」と、図2(b)に示した1ページ目の右下のページ番号の「1」とが一致すると、目次ページのリンク付与番号候補とされたページ番号の「1」と、1ページ目のページ番号の「1」に対し、双方向にジャンプさせるためのリンク情報が付与される。このようなリンク情報の付与は、目次ページの他のページ番号と、目次ページの他のページ番号に対応する各ページのページ番号についても、上記同様にして行われる。
すなわち、図2(a)に示した目次ページの構成のように、目次ページのページ番号がたとえば1、4、11、14、17、19、22となっている場合、それぞれのページ番号がリンク付与番号候補とされ、これらのリンク付与番号候補との照合により一致する各ページのページ番号が判断され、それぞれのリンク付与番号候補とそれぞれのページ番号に対し、双方向にジャンプさせるためのリンク情報が付与される。
これにより、上述したように、目次ページのページ番号又は各ページのページ番号をクリックすることで、目次ページと、目次ページで指定されたページとの間での移動の繰り返しが可能となる。
また、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、図形又は表の画像領域の有無を判断する(ステップS6)。なお、画像領域は、上述したように、リンク情報付与部11dは、たとえば文書構成理解部11cによるOCR変換によって得られた文字データのサイズより大きいサイズの画像の領域を検索することで、判断することができる。あるいは、リンク情報付与部11dは、文字画像ではない画像の領域を検索することで、判断することができる。ここで、図形又は表の画像領域が無ければ(ステップS6:NO)、以降の処理が終了となる。
これに対し、図形又は表の画像領域が有れば(ステップS6:YES)、リンク情報付与部11dは、それぞれの画像領域の画像番号である図番号又は表番号を検索し、これらの図番号又は表番号をリンク付与領域候補とし、このリンク付与領域候補と文字列とを照合する(ステップS7)。すなわち、リンク情報付与部11dは、画像領域が有ると判断した場合、図4に示したように、たとえば画像領域(円グラフの図形)dを、点線矢印で示すように上下左右方向に広げ、画像領域(円グラフの図形)dの下部に付されている画像番号である図番号(たとえば図1)を検索する。また、リンク情報付与部11dは、画像領域(表)c及び画像領域(棒グラフの図形)eについても同様にして画像番号である図番号及び表番号を検索する。
そして、リンク情報付与部11dは、画像番号である表番号及び図番号の検索を終えると、それぞれの図番号及び表番号をリンク付与領域候補とする。また、リンク情報付与部11dは、リンク付与領域候補と同一の文字列を検索して照合し、リンク付与領域候補と一致した文字列に対し、図又は表への一方向に移動させるためのリンク情報を付与する。
このように、本実施形態では、データ化文書生成部の一形態である文書読取部11bにより、スキャナー部14によって読み取られた紙文書のデータ化を行ってデータ化文書を生成し、文書データ生成部の一形態である文書構成理解部11cにより、データ化文書に対しOCR変換を行って文書データを生成し、リンク情報付与部の一形態であるリンク情報付与部11dにより、文書データからリンク対象となる文字データを検索し、それぞれの文字データの間での移動を可能とするリンク情報を付与するようにした。これにより、OCR変換を行った文書データに対してリンク情報が自動的に付与されることから、ユーザーへの作業負担を大幅に軽減させることができる。
具体的には、リンク情報付与部11dにより、文書構成理解部11cによって生成された文書データから目次ページを認識して項目に対応するページ番号を判断し、前記判断したページ番号をリンク付与番号候補とし、さらに前記リンク付与番号候補と各ページのページ番号とを照合し、一致していればそれぞれ一致したリンク付与番号候補及び各ページのページ番号に対して双方向に移動できるリンク情報を付与するようにした。
また、リンク情報付与部11dが、文書構成理解部11cによって生成された文書データから図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、その画像領域を広げて画像番号である図番号又は表番号を検索し、前記検索した画像番号である図番号又は表番号をリンク付与領域候補とし、さらに、文書データからリンク付与領域候補と同一の文字列を検索し、前記文字列に対して図形又は表(例えば、リンク付与領域候補図形又は表の画像領域、又は広げた画像領域)に移動できるリンク情報を付与するようにした。
なお、本実施形態では、目次ページのページ番号に対応するページが全て存在していることを前提として説明したが、場合によっては目次ページのページ番号に対応するページの一部が欠落していることもある。この場合は、目次ページのページ番号と、このページ番号と一致するページのページ番号のみにリンク情報が付与されるようにすることで、リンク情報の付与が確実に行われる。
10 文書処理装置
11 制御部
11a 操作受付部
11b 文書読取部
11c 文書構成理解部
11d リンク情報付与部
11e リンク実行部
11f メモリー
12 操作部
13 表示部
14 スキャナー部
a ヘッダー領域
b フッター領域
c 画像領域(表)
d 画像領域(円グラフの図形)
e 画像領域(棒グラフの図形)

Claims (4)

  1. スキャナーによって読み取られた紙文書のデータ化を行い、データ化文書を生成するデータ化文書生成部と、
    前記データ化文書に対しOCR変換を行って文字画像を特定し、前記文字画像に基づく文書データを生成する文書データ生成部と、
    前記文書データからリンク対象となる文字データを検索し、それぞれの文字データの間での移動を可能とするリンク情報を付与するリンク情報付与部とを備え、
    前記リンク情報付与部は、
    前記文書データから図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、前記画像領域を広げて画像番号である図番号又は表番号を検索し、前記検索した画像番号である図番号又は表番号をリンク付与領域候補とし、前記広げた画像領域と同じ大きさ及び形状の1つの透明の領域データを、前記広げた画像領域上に埋め込み、さらに、前記文書データから前記リンク付与領域候補と同一の文字列を検索し、前記文字列に対して前記広げた画像領域に移動できるリンク情報を付与し、
    前記画像番号である図番号又は表番号を検索する際、前記画像領域に隣接する文字画像が含まれるまで前記画像領域を広げる
    ことを特徴とする文書処理装置。
  2. 前記紙文書は目次ページを含み、
    前記リンク情報付与部は、
    前記文書データから前記目次ページを認識して項目に対応するページ番号を判断し、前記判断したページ番号をリンク付与番号候補とし、さらに前記リンク付与番号候補と各ページのページ番号とを照合し、一致していればそれぞれ一致した前記リンク付与番号候補及び前記各ページのページ番号に対して双方向に移動できるリンク情報を付与する
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 前記リンク情報付与部は、前記各ページに対してヘッダー領域及びフッター領域を検索し、前記ヘッダー領域又はフッター領域に文字データがあり、前記文字データが数字であればページ番号であると判断することを特徴とする請求項2に記載の文書処理装置。
  4. 文書データに対してリンク情報を付与する文書処理装置を制御するためのコンピューターで実行される文書処理プログラムであって、
    データ化文書生成部により、スキャナーによって読み取られた紙文書のデータ化を行い、データ化文書を生成する工程と、
    文書データ生成部により、前記データ化文書に対しOCR変換を行って文字画像を特定し、前記文字画像に基づく前記文書データを生成する工程と、
    リンク情報付与部により、前記文書データからリンク対象となる文字データを検索し、それぞれの文字データの間での移動を可能とするリンク情報を付与する工程とを前記コンピューターに実行させ、
    前記リンク情報付与部は、
    前記文書データから図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、前記画像領域を広げて画像番号である図番号又は表番号を検索し、前記検索した画像番号である図番号又は表番号をリンク付与領域候補とし、前記広げた画像領域と同じ大きさ及び形状の1つの透明の領域データを、前記広げた画像領域上に埋め込み、さらに、前記文書データから前記リンク付与領域候補と同一の文字列を検索し、前記文字列に対して前記広げた画像領域に移動できるリンク情報を付与し、
    前記画像番号である図番号又は表番号を検索する際、前記画像領域に隣接する文字画像が含まれるまで前記画像領域を広げる
    ことを特徴とする文書処理プログラム。
JP2014108111A 2014-05-26 2014-05-26 文書処理装置及び文書処理プログラム Expired - Fee Related JP6394069B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014108111A JP6394069B2 (ja) 2014-05-26 2014-05-26 文書処理装置及び文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014108111A JP6394069B2 (ja) 2014-05-26 2014-05-26 文書処理装置及び文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2015225377A JP2015225377A (ja) 2015-12-14
JP6394069B2 true JP6394069B2 (ja) 2018-09-26

Family

ID=54842101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014108111A Expired - Fee Related JP6394069B2 (ja) 2014-05-26 2014-05-26 文書処理装置及び文書処理プログラム

Country Status (1)

Country Link
JP (1) JP6394069B2 (ja)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2506987B2 (ja) * 1988-09-09 1996-06-12 松下電器産業株式会社 画像検索装置及び方法
JP3711636B2 (ja) * 1996-06-18 2005-11-02 富士ゼロックス株式会社 情報検索装置および方法
JPH10228473A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
JP3717742B2 (ja) * 2000-03-29 2005-11-16 大日本スクリーン製造株式会社 ブックデータ生成装置、およびブックデータ生成方法
JP3476752B2 (ja) * 2000-07-07 2003-12-10 日本電信電話株式会社 情報重ね合わせ表示方法及び装置並びにそのプログラムを格納した記録媒体
JP2006085234A (ja) * 2004-09-14 2006-03-30 Fuji Xerox Co Ltd 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
US20080065671A1 (en) * 2006-09-07 2008-03-13 Xerox Corporation Methods and apparatuses for detecting and labeling organizational tables in a document
JP4780169B2 (ja) * 2008-09-30 2011-09-28 ブラザー工業株式会社 データ生成装置、スキャナ、及びコンピュータプログラム
US8719702B2 (en) * 2010-03-09 2014-05-06 Xerox Corporation Document organizing based on page numbers
JP2013152564A (ja) * 2012-01-24 2013-08-08 Canon Inc 文書処理装置及び文書処理方法
US9495334B2 (en) * 2012-02-01 2016-11-15 Adobe Systems Incorporated Visualizing content referenced in an electronic document
JP5753828B2 (ja) * 2012-09-27 2015-07-22 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JP2015225377A (ja) 2015-12-14

Similar Documents

Publication Publication Date Title
JP5402099B2 (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
US10949662B2 (en) Image processing apparatus
JP2014102669A (ja) 情報処理装置、情報処理方法およびプログラム
JP6896292B2 (ja) 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
AU2013374725B2 (en) Display control apparatus and program
JP4724507B2 (ja) 情報処理装置、方法、プログラム、および、記憶媒体
JP2016024488A (ja) 画像処理装置および画像処理装置の制御方法
JP2020184276A5 (ja)
JP6394069B2 (ja) 文書処理装置及び文書処理プログラム
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
JP5623574B2 (ja) 帳票識別装置および帳票識別方法
JP2017068303A (ja) 画像処理装置及びプログラム
JP2018200614A (ja) 表示制御プログラム、表示制御方法及び表示制御装置
JP6432179B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
JP2016018454A (ja) 画像処理装置および画像処理装置の制御方法
JP6222541B2 (ja) 画像処理装置及びプログラム
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP2006252455A (ja) ファイル管理装置、ファイル管理方法及びファイル管理プログラム
JP6651675B1 (ja) 画像情報処理装置、画像情報処理方法、及び画像情報処理プログラム
JP3897772B2 (ja) ファイル名作成装置及びファイル名作成プログラム
JP2019169182A (ja) 情報処理装置、制御方法、プログラム
JP2019197337A (ja) メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム
JP2018147400A (ja) 表示差異検出プログラム、装置、及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180813

R150 Certificate of patent or registration of utility model

Ref document number: 6394069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees