JP2004206520A - Document image distribution system and device, terminal device, and document image distribution program - Google Patents

Document image distribution system and device, terminal device, and document image distribution program Download PDF

Info

Publication number
JP2004206520A
JP2004206520A JP2002376260A JP2002376260A JP2004206520A JP 2004206520 A JP2004206520 A JP 2004206520A JP 2002376260 A JP2002376260 A JP 2002376260A JP 2002376260 A JP2002376260 A JP 2002376260A JP 2004206520 A JP2004206520 A JP 2004206520A
Authority
JP
Japan
Prior art keywords
image data
document
area
search
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002376260A
Other languages
Japanese (ja)
Inventor
Hidetoshi Tanaka
英俊 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002376260A priority Critical patent/JP2004206520A/en
Publication of JP2004206520A publication Critical patent/JP2004206520A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Facsimiles In General (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document image distribution system and device, a terminal device, and a document image distribution program, for searching and distributing formatted documents via a network while reducing the amount of data sent and received between devices. <P>SOLUTION: A keyword search is performed over the search area of a document image and an image of the search area on a page where there is a string of characters as the result of a character recognition process that match the keyword is distributed. The user checks whether or not the keyword is described in the document distributed. If the keyword is described there, the user requests the document image distribution device to distribute the entire image of the document. The document image distribution device distributes the entire image of the document. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、文書画像配信システム、文書画像配信装置、端末装置、文書画像配信プログラムおよび画像作成プログラムに関し、特に検索キーワードを含むページの文書画像を出力する文書画像配信システム、文書画像配信装置、端末装置、文書画像配信プログラムおよび画像作成プログラムに関する。
【0002】
【従来の技術】
本や文書に代表される紙等に書かれた情報から、必要な情報を抽出する方法の1つにOCR(光学式文字読み取り装置)を用いた方法がある。この方法では、紙等に書かれた画像を読み取って、読み取った画像における文字部分の抽出処理と抽出した文字部分の文字認識処理とを行ってテキストデータに変換する。また、読み取った画像の画像データも保持する。そして、テキストデータを用いて文字列を検索し、検索結果を用いて画像データを出力する。
【0003】
そのような検索に用いられる装置として、ユーザが入力した検索キーワードと、検索キーワードに類似するキーワードである類似キーワードとを用いて、OCRの精度を補完する装置が提案されている(例えば特許文献1)。
【0004】
また、検索の際に行う、文書の文字認識処理結果と検索に用いるキーワードとの照合を、文字認識処理結果の文字とキーワードの文字とについて行うことに加えて、文字認識処理結果の文字とキーワードの文字に誤認識しやすい文字とについても行い、そのいずれかに該当すれば、検索結果として文字認識処理結果の文字を抽出する文書検索方法および装置がある(例えば特許文献2。)。
【0005】
【特許文献1】
特開2000−305935号公報 (第4−9頁、第1図)
【特許文献2】
特開平7−152774号公報 (第4−9頁、第1図)
【0006】
【発明が解決しようとする課題】
文書の画像データをサーバが保持し、ユーザが通信回線であるネットワークとネットワークに接続されたクライアント端末とを介して文書の検索を行い、検索結果の画像データを取り出したい場合がある。このときサーバは、クライアント端末の要求に応じて文書の検索と、画像データの送信を行う。
【0007】
しかし、画像データのデータ量は大きい。クライアント端末によって文書の検索処理を行い、すべての文書のうち検索条件に合致した文書のみをサーバから受信してもネットワークに負荷がかかる。
【0008】
例えば、検索の結果100ページ分の文書画像が抽出された場合、サーバはその100ページ分の画像データをクライアント端末に送信する。1ページのデータ量が200KBであるとすると、ネットワークで送受信されるデータ量の合計は20MBになり、ネットワークにかかる負荷が大きくなってしまう。
【0009】
特許文献1に記載されている文書ファイリング装置は、OCRの精度を補完する方法について開示している。しかし、文書ファイリング装置を文書画像検索サーバとしてネットワークに接続する視点はなく、文書画像の出力データ量を削減する方法については何ら開示していない。
【0010】
特許文献2に記載されている方法および装置は、文字認識処理の誤りによる検索漏れを防ぐ方法について開示しているが、ネットワークに接続する視点はなく、文書画像の出力データ量を削減する方法については何ら開示していない。
【0011】
特許文献1および特許文献2に記載されている装置をネットワークに接続してサーバとして用いた場合、ネットワークへの負荷が大きいという問題がある。特に定型フォーマットの画像データの場合、検索に必要な領域は全体のフォーマットのうちの一部の領域に限られている場合があり、そのような場合にも検索の度に全体の画像データをサーバからクライアント端末に送信すると、それだけネットワークに与える負荷が大きくなる。
【0012】
そこで本発明は、定型フォーマットの文書の検索と配信とをネットワークを介して行う場合において、各装置間で送受信されるデータ量を抑えることができる文書画像配信システム、文書画像配信装置、端末装置、文書画像配信プログラムおよび画像作成プログラムを提供することを目的とする。
【0013】
【課題を解決するための手段】
本発明による文書画像配信システムは、検索キーワードに応じた画像データを配信する文書画像配信装置と、通信ネットワークを介して文書画像配信装置に検索キーワードを送信し、文書画像配信装置から受信する画像データを表示する端末装置とを備えた文書画像配信システムであって、文書画像配信装置は、定型フォーマットの文書を読み取って、文書全体の画像データと、文書全体のうち検索対象となる領域である検索領域の画像データとを生成し、検索領域に対して文字認識処理を行うことによって検索領域に記載された文字の文字候補データを作成する文書読み取り手段と、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段と、端末装置が指定した文書全体の画像データを端末装置に送信する全体画像データ送信手段とを備えたことを特徴とする。
【0014】
領域画像データ送信手段は、領域画像データ特定手段が複数の検索領域の画像データを特定した場合、各検索領域の画像データを順次端末装置に配信してもよく、端末装置は、領域画像データ送信手段から受信する検索領域の画像データを順次表示してもよい。そのような構成によれば、使用者は検索キーワードに該当した画像データを順次閲覧することができる。
【0015】
本発明による文書画像配信装置は、通信ネットワークを介して端末装置から検索キーワードを受信し、検索キーワードに応じた画像データを配信する文書画像配信装置であって、定型フォーマットの文書を読み取って、文書全体の画像データと、文書全体のうち検索対象となる領域である検索領域の画像データとを生成し、検索領域に対して文字認識処理を行うことによって検索領域に記載された文字の文字候補データを作成する文書読み取り手段と、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段と、端末装置が指定した文書全体の画像データを端末装置に送信する全体画像データ送信手段とを備えたことを特徴とする。
【0016】
本発明による文書画像配信プログラムは、通信ネットワークを介して端末装置から検索キーワードを受信し、検索キーワードに応じた画像データを配信する文書画像配信装置に搭載される文書画像配信プログラムであって、コンピュータに、定型フォーマットの文書を読み取った情報から、文書全体の画像データと、文書全体のうち検索対象となる領域である検索領域の画像データとを生成し、検索領域に対して文字認識処理を行うことによって検索領域に記載された文字の文字候補データを作成する処理、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する処理、特定した検索領域の画像データを端末装置に送信する処理、および端末装置が指定した文書全体の画像データを端末装置に送信する処理を実行させることを特徴とする。
【0017】
本発明による文書画像配信システムは、検索キーワードに応じた画像データを配信する文書画像配信装置と、通信ネットワークを介して文書画像配信装置に検索キーワードを送信し、文書画像配信装置から受信する画像データを表示する端末装置とを備えた文書画像配信システムであって、文書画像配信装置は、定型フォーマットの文書を読み取って、文書全体のうち検索対象となる領域である検索領域の画像データを生成し、検索領域に対して文字認識処理を行うことによって検索領域に記載された文字の文字候補データを作成する文書読み取り手段と、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段とを備え、端末装置は、定型フォーマットの文書全体の領域のうち、少なくとも検索領域以外の領域の画像データを記憶する基本画像データ記憶手段と、領域画像データ送信手段から受信する検索領域の画像データと、基本画像データ記憶手段が記憶する画像データとを合成して文書全体の画像データを作成する画像データ合成手段とを備えたことを特徴とする。
【0018】
領域画像データ送信手段は、領域画像データ特定手段が複数の検索領域の画像データを特定した場合、各検索領域の画像データを順次端末装置に送信してもよく、端末装置は、領域画像データ送信手段から受信する検索領域の画像データを順次表示してもよい。そのような構成によれば、使用者は検索キーワードに該当した画像データを順次閲覧することができる。
【0019】
端末装置の画像データ合成手段は、領域画像データ送信手段から受信する検索領域の画像データのうち端末装置の使用者によって指定された画像データと、基本画像データ記憶手段が記憶する画像データとを合成してもよい。そのような構成によれば、検索領域のみの画像データを受信すると、検索領域以外の領域の画像データを受信することなく、全体の画像データを表示することができる。
【0020】
本発明による文書画像配信装置は、通信ネットワークを介して端末装置から検索キーワードを受信し、検索キーワードに応じた画像データを配信する文書画像配信装置であって、定型フォーマットの文書を読み取って、文書全体のうち検索対象となる領域である検索領域の画像データを生成し、検索領域に対して文字認識処理を行うことによって検索領域に記載された文字の文字候補データを作成する文書読み取り手段と、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段とを備えたことを特徴とする。
【0021】
本発明による端末装置は、定型フォーマットの文書全体のうち検索対象となる領域である検索領域の画像データを配信する文書画像配信装置から、検索キーワードに応じた検索領域の画像データを受信し、画像データを表示する端末装置であって、定型フォーマットの文書全体の領域のうち、少なくとも検索領域以外の領域の画像データを記憶する基本画像データ記憶手段と、領域画像データ送信手段から受信する検索領域の画像データと、基本画像データ記憶手段が記憶する画像データとを合成して文書全体の画像データを作成する画像データ合成手段とを備えたことを特徴とする。
【0022】
本発明による文書画像配信プログラムは、通信ネットワークを介して端末装置から検索キーワードを受信し、検索キーワードに応じた画像データを配信する文書画像配信装置に搭載される文書画像配信プログラムであって、コンピュータに、定型フォーマットの文書を読み取った情報から、文書全体のうち検索対象となる領域である検索領域の画像データを生成し、検索領域に対して文字認識処理を行うことによって検索領域に記載された文字の文字候補データを作成する処理、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する処理、および特定した検索領域の画像データを端末装置に送信する処理を実行させることを特徴とする。
【0023】
本発明による画像作成プログラムは、定型フォーマットの文書全体のうち検索対象となる領域である検索領域の画像データを配信する文書画像配信装置から、検索キーワードに応じた検索領域の画像データを受信し、画像データを表示する端末装置に搭載される画像作成プログラムであって、コンピュータに、定型フォーマットの文書全体の領域のうち、少なくとも検索領域以外の領域の画像データを記憶装置に記憶させる処理、および受信する検索領域の画像データと、記憶装置が記憶する画像データとを合成して文書全体の画像データを作成する処理を実行させることを特徴とする。
【0024】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
【0025】
実施の形態1.
図1は本発明による第1の実施の形態を示すブロック図である。この実施の形態における文書画像配信装置8は、例えばサーバ等の情報処理装置であり、定型フォーマットの文書の検索および配信に用いられる。
【0026】
文書画像配信装置8は、インターネット等の通信回線6を介して、クライアント端末7に接続される。文書画像配信装置8は、定型フォーマットの領域内に検索対象となる領域(以下、検索領域と記す。)を設定する。そして、各文書の全体の画像データと、各文書の検索領域のテキストデータとを、どの文書のデータであるかが分かるようにした上で文書画像配信装置8内部のデータ記憶部5が保持する。文書画像配信装置8は、クライアント端末7から検索キーワードを受信すると、検索キーワードと一致する文字列をテキストデータから検索する。そして、検索キーワードと一致する文字列を含むテキストデータの文書の全体の画像データから、検索領域を切り出した画像データを、データ記憶部5からクライアント端末7に送信する。クライアント端末7が特定の文書の全体の画像データを要求すると、文書画像配信装置8は、クライアント端末7が要求する文書の全体の画像データを送信する。
【0027】
図2は、定型フォーマットの文書の例を示す。図2に示す文書30は、定型フォーマットの文書である。また、図2では、管理符号の記載欄を検索領域とする場合を例に示している。文書画像配信装置8は、「管理符号 RS」の文書のデータを記憶する場合、図2に示す文書30の全体の画像データと、検索領域31に含まれる文字列のデータとを記憶する。他の管理符号が記載された文書についても、同様のデータを記憶する。文書画像配信装置8は、検索キーワードが入力されると、検索キーワードに合致する文字列を含むテキストデータを特定し、そのテキストデータに対応する検索領域31の画像データをクライアント端末7に送信する。従って、検索キーワードを送信したクライアント端末7は、検索領域31の画像を表示する。ユーザが検索領域31だけでなく文書30全体を閲覧する場合、クライアント端末7は、ユーザの操作に従い、文書30の全体の画像データを文書画像配信装置8に要求し、この画像データによって文書30全体を表示する。
【0028】
文書画像配信装置8において、スキャナ1は、紙等の媒体に記載された情報を読み取る入力装置である。プログラム記憶部3は、本発明による文書画像配信プログラムを記憶する記憶装置である。通信インタフェース4は、通信回線6を介してクライアント端末7と情報の送受信を行う。データ記憶部5は、制御部2が作成するデータを記憶する記憶装置である。またデータ記憶部5は、文字認識処理で用いられる文字認識辞書を記憶する。
【0029】
制御部2は、プログラム記憶部3が記憶する文書画像配信プログラムに従って処理を実行する。制御部2は、スキャナ1に所定のフォーマットの文書を読み取らせる。そしてスキャナ1が読み取った情報の各文書全体の画像データである全体画像データを作成する。制御部2は、ユーザにより検索領域を指定される。同一の定型フォーマットの各文書において検索領域は同じ領域に位置する。
【0030】
さらに制御部2は、ユーザが指定した検索領域内の情報に対して文字認識処理を行い、テキストデータを作成する。このとき制御部2は、スキャナ1が読み取った情報の検索領域内が縦書きであるか横書きであるかを判断し、テキストデータにおける一文字毎にそのページの何文字目であるかを示す番号である文字番号を設定する。さらに制御部2は、テキストデータ中の各文字の候補である文字候補を一文字以上特定する。また、特定時に、各文字候補が、文書内の各文字と同一文字であることの確からしさの度合を示した文字認識評価情報を生成する。さらに、制御部2は、各文字候補が、全体画像データにおけるどの位置の文字の文字候補であるかを示す文字位置情報を生成する。
【0031】
制御部2は、全体画像データと、文字番号と、文字候補と、各文字候補の文字認識評価情報と、文字位置情報とをデータ記憶部5に出力して記憶させる。この時制御部2は、文字認識評価情報に基づいて、各文字候補を、文書内の各文字と同一文字であることの確からしさの度合の順位を付けてデータ記憶部5に記憶させる。
【0032】
制御部2は、クライアント端末7から検索キーワードを受信すると、その検索キーワードと一致する文字列候補の有無を確認する。ここで、文字列候補とは、各文字毎に定められた文字候補の文字列であって、検索キーワードと一致する文字列である。検索キーワードと一致する文字列である文字列候補が存在した場合、その文字列候補の元となった文字列が含まれる文書の全体画像データをデータ記憶部5から取り出す。文字列候補の元となった文字列が含まれる文書は、文字列候補がどの文書についてのものかを示す情報を用いて判断することができる。制御部2は、全体画像データから検索領域の画像データを切り出して、検索領域の画像データ(以下、領域画像データと記す。)を作成する。制御部2は、領域画像データを、通信回線6を介してクライアント端末7に出力する。また、制御部2は、クライアント端末7の要求に応じて指定された文書の全体画像データを出力する。
【0033】
クライアント端末7は、例えばパーソナルコンピュータ等の情報処理端末である。クライアント端末7は、ユーザが入力した検索キーワードを文書画像配信装置8に送信し、文書画像配信装置8から受信した領域画像データを表示する。クライアント端末7は、検索キーワードに対応する領域画像データが表示された場合には、表示している領域画像データのページの全体画像データを文書画像配信装置8に要求し、文書画像配信装置8から受信した全体画像データを表示する。
【0034】
文書読み取り手段と、領域画像データ特定手段と、領域画像データ送信手段と、全体画像データ送信手段とは、制御部2によって実現される。制御部2は、プログラム記憶部3に記憶される文書画像配信プログラムによって各手段として機能する。
【0035】
文書画像配信プログラムは、通信ネットワークを介して端末装置から検索キーワードを受信し、検索キーワードに応じた画像データを配信する文書画像配信装置に搭載される文書画像配信プログラムであって、コンピュータに、定型フォーマットの文書を読み取った情報から、文書全体の画像データと、文書全体のうち検索対象となる領域である検索領域の画像データとを生成し、検索領域に記載された文字に対して文字認識処理を行うことによって文字の文字候補データを作成する処理、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する処理、特定した検索領域の画像データを端末装置に送信する処理、および端末装置が指定した文書全体の画像データを端末装置に送信する処理を実行させるためのものである。
【0036】
次に本実施の形態の動作について説明する。まず、紙等の媒体に書かれた情報が、データ記憶部5に記憶されるまでについて説明する。ここでは、10ページの文書によって構成される定型フォーマットの文書において、各ページの特定の領域にそれぞれ管理符号が記載されており、図2に示されたように、管理符号の記載欄を検索領域31とする場合を例に説明する。1ページ目の検索領域31に「RS」という管理符号が記載されていたとする。各ページの検索領域31に記載され、検索に用いる文字列は、例えば人名のような文字列であっても、管理番号のような数字であってもよく、検索キーワードとして入力できるものであればよい。
【0037】
スキャナ1は、まず1ページ目の文書に書かれている情報を読み取り、読み取った情報を制御部2に出力する。制御部2は、スキャナ1が読み取った1ページ目の文書全体の画像データである全体画像データを作成する。そして、全体画像データを、1ページ目の画像データであることがわかるようにした上でデータ記憶部5に出力し記憶させる。また、制御部2は、ユーザの指示により検索対象の領域である検索領域31を画像データ上に設定する。ここでは、管理番号「RS」と書かれている領域が検索領域31に設定される。
【0038】
制御部2は、全体画像データにおける検索領域31の位置情報を作成する。検索領域31の位置情報は、例えば図3に示すように、X座標(例えば検索領域31の左上の位置のX座標)、横幅、Y座標(例えば検索領域31の左上の位置のY座標)、縦幅により示されるが、全体画像データにおける検索領域31の位置がわかるものであれば、どのような情報により示してもよい。制御部2は、検索領域31の位置情報をデータ記憶部5に出力して記憶させる。
【0039】
制御部2は、スキャナ1が読み取った情報のうち、検索領域31内の情報に対して、文字認識処理を行う。このとき、制御部2は、スキャナ1が読み取った検索領域内の情報を1文字単位に分割し、個々の文字に切り離す。そして個々の文字に対して文字認識処理を行い、文字認識処理結果の候補となりうる文字候補を特定する。このように文字候補データを作成する。そして検索領域内の情報が縦書きであるか横書きであるかを判断し、一文字毎にそのページの何文字目であるかを示す番号である文字番号を設定する。
【0040】
この例では検索領域31には「RS」と書かれているので、この2文字をそれぞれ切り離し、この2文字それぞれに対して文字候補を特定する。なお、図2では、検索領域31に「管理符号」との文字も記載されているが、この文字はすべてのページに共通であるため、以下の説明では、その後に続く文字のみを文字認識の対象にする。すると、検索領域内の1番目の文字である「R」の文字番号は1であり、2番目の文字である「S」の文字番号は2である。ここで、文書内の個々の文字に対する文字候補は1つに限らない。また、各文字候補が文書内に実際に記載されている文字と一致する確からしさは、文書内の文字の記載状態によって変化する。従って、文書内の文字「R」の文字候補として「R」、「P」等が挙げられ、文字候補「P」の確からしさのほうが高いと判断される場合もある。また、以下の説明では、文書内に実際に記載されたある文字Xのことを、『文書内文字「X」』と記すことにする。
【0041】
制御部2は、一文字単位に読み取った文字を、あらかじめデータ記憶部5が記憶する文字認識辞書の文字と照合する。そして一致要素の大きい文字を文字認識辞書から選択して文字候補とする。各文字候補の数に制限はなく、各画像データの文字ごとに文字候補の数が違っていてもよい。例えば、文書内文字「R」の文字候補は「P」、「R」、「8」、「B」の4個であったとし、文書内文字「S」の文字候補は「8」、「S」、「3」、「R」、「う]の5個であったとする。
【0042】
また、制御部2は、各文字候補が、文書内の各文字と同一文字であることの確からしさの度合を示した文字認識評価情報を生成する。文字認識評価情報は、あらかじめデータ記憶部5が記憶する文字認識辞書の文字と、スキャナ1が読み取って制御部2が切り出した文字とを照合して、一致の度合に基づいて決定する。ここで、文字認識評価情報の一例として数値で表した文字認識評価値による評価例を図4に示す。図4において、1行目には文書内文字「R」の各文字候補の文字認識評価値の例が示され、2行目には文書内文字「S」の各文字候補の文字認識評価値の例が示されている。文字認識評価値を用いると各文字候補に候補順位を付けることができる。例えば、文書内文字「R」の候補順位1位の文字候補は「P」であり、候補順位2位の文字候補は「R」である。
【0043】
さらに制御部2は、各文字候補が、全体画像データにおけるどの位置の文字の文字候補であるかを示す文字位置情報を生成する。この例では、文字位置情報は、X座標(例えば文字領域の左上の位置のX座標)、文字幅、Y座標(例えば文字領域の左上の位置のY座標)、文字高により示されるが、全体画像データにおける文字の位置が分かるものであればどのような画像により示してもよい。
【0044】
そして制御部2は、各文字番号と、各文字候補と、各文字認識評価値と、各文字位置情報とをデータ記憶部5に出力し、データ記憶部5はこれらを1ページ目についてのデータであることが分かるような形で記憶する。
【0045】
次に、2ページ目以降の読み取り動作について説明する。スキャナ1が、文書の2ページ目以降の各ページに書かれている情報を読み取り、読み取った情報を制御部2に出力する。制御部2は、スキャナ1が読み取った各ページの全体画像データを作成する。そして、各ページの全体画像データを、どのページの画像データであるかが分かるようにした上でデータ記憶部5に出力し、記憶させる。なお、検索領域の位置情報については、1ページ目を読み取る際に設定したものを用いることができるので、ここで新たに作成する必要はない。
【0046】
以下、1ページ目と同様に、制御部2は、各ページの検索領域内の文字に文字認識処理を行い、文字番号と、文字候補と文字認識評価値と文字位置情報とを決定する。そして制御部2は、各文字番号と、各文字候補と、各文字認識評価値と、各文字位置情報とをデータ記憶部5に出力し、データ記憶部5は、それぞれを、どのページについてのデータであるかが分かるようにした上で記憶する。
【0047】
図5は、定型フォーマットの文書に本発明を適用した場合の具体例を示す説明図である。図5に示す例では、図5(A)に示されているように定型フォーマットの文書31としてのバックナンバー文書における「2002−11−29 バックナンバー」と記載されている領域が検索領域31に指定されている。従って、制御部2は、バックナンバー文書の1ページ目が読み取られたときに、検索領域31のX座標、横幅、Y座標、縦幅を検出し、図5(B)に示されるような位置情報を作成する。図5(B)に示された例では、検索領域31のX座標、横幅、Y座標、縦幅として、「200」、「300」、「30」、「50」が検出されたことが示されている。
【0048】
さらに、制御部2は、検索領域31を個々の文字領域に分割し、各文字領域について、座標とサイズ(文字幅および文字高)を検出する。また、文字認識処理を行って、文字候補を特定する。図5(C)に示された例では、1番目の文字の候補順位第1位の文字候補が「2」であり、候補順位第2位の文字候補が「乙」である。また、2番目の文字の候補順位第1位の文字候補が「0」であり、候補順位第2位の文字候補が「o」である。
【0049】
次に、ユーザが検索したい検索キーワードを入力して、検索キーワードを含む画像データの出力を行う検索動作について図6を参照して説明する。図6はこの時の動作を説明するフローチャートである。ここでは、ユーザは管理符号「RS」のページに書かれた情報を要求としているものとする。
【0050】
クライアント端末7はユーザから検索キーワードの入力を受け付ける(ステップS101)。例としてユーザが「RS」と入力したとする。クライアント端末7は、ユーザが入力した文字列である検索キーワード「RS」を通信回線6を介して文書画像配信装置8に送信する(ステップS102)。文書画像配信装置8において、通信インタフェース4が受信して制御部2に出力する。
【0051】
制御部2は、すべてのページについて、データ記憶部5が記憶している文字候補を組み合わせて、検索キーワードと一致する文字列である文字列候補を特定する(ステップS103)。このとき制御部2は検索漏れをなくすため、データ記憶部5が記憶している検索領域内の各文字について1つずつ文字候補を取りだし、それらを文字番号の順に組み合わせて文字列を生成し、検索キーワードと一致するか否かの判定を行う。その結果、1ページ目の文字候補「R」と文字候補「S」との組み合わせが検索キーワードと一致するため、文字列候補「RS」となる。
【0052】
制御部2は、文字列候補がどのページに存在するかをデータ記憶部5に記憶された情報をもとに判断する(ステップS104)。図2に示された文書31を例にすると、文字列候補「RS」は1ページ目に存在していることが分かるので、制御部2はデータ記憶部5から1ページ目の全体画像データを取り出し、全体画像データから検索領域31の位置情報をもとに切り出した検索領域31の画像データ(以下、領域画像データと記す。)を、通信インタフェース4と、通信回線6とを介して、クライアント端末7に出力する(ステップS105)。結果、出力した領域画像データには「RS」が書かれている。このように領域画像データを特定して出力する。
【0053】
また制御部2は、他の文字列候補が存在した場合には、他の文字列候補が存在するページの全体画像データから切り出した領域画像データも、クライアント端末7に出力する。ここで、複数の領域画像データを出力する場合に、領域画像データを出力する順序について説明する。
【0054】
文字列候補が複数存在した場合に、制御部2は、例えば、文字列候補を構成する文字候補(すなわち検索キーワード内の文字と一致する文字候補)の候補順位に着目して、候補順位の平均値の少ない順に画像データを出力する。このとき制御部2は、データ記憶部5が記憶している各文字候補の文字認識評価値を読み出し、文字認識評価値による候補順位を用いて、文字列候補毎に分析する。
【0055】
具体的には、1ページ目の文字候補「R」の候補順位は2位、文字候補「S」の候補順位は2位であり、候補順位の平均値は2.0である。例えば7ページ目に候補順位1位の文字候補「R」を有する文書内文字「B」と、候補順位2位の文字候補「S」を有する文書内文字「8」とが存在した場合、文字列「B8」の候補順位の平均値は1.5である。また、9ページ目に候補順位3位の文字候補「R」を有する文書内文字「P」と、候補順位2位の文字候補「S」を有する文書内文字「G」とが存在した場合、文字列「PG」の候補順位の平均値は2.5である。これら3個の文字候補「R」、「S」のうち、候補順位の平均値の最も少ない7ページ目の領域画像データである「B8」が最初に出力される。次に1ページ目の領域画像データである「RS」が、最後に9ページ目の領域画像データである「PG」が出力される。クライアント端末7は、制御部2が出力した順序に領域画像データを受信して表示する。
【0056】
制御部2は文字列候補が複数存在した場合、領域画像データをクライアント端末7に連続的に出力する。ここでは制御部2は、候補順位の平均値の少ない順に画像データを出力したが、これに限らず、文字認識評価情報等を用いて、各文字候補の文字認識処理の確からしさの度合の高い順に出力すればよい。すると、クライアント端末7では、文字認識処理の確からしさの度合の高い順に連続的に表示される。なお、出力順序の決定に関して特別な処理を行わず、ページ番号の少ない順序等で出力してもよい。
【0057】
ユーザは、クライアント端末7が表示した領域画像データに検索キーワードである「RS」が書かれているか否かを確認する。ここでは最初に7ページ目の領域画像データが表示され、2番目に1ページ目の領域画像データが表示され、3番目に9ページ目の領域画像データが表示される。
【0058】
この例では、1ページ目の領域画像データに「RS」と書かれているので、ユーザは1ページ目に所望の情報があることがわかる。そこでクライアント端末7は1ページ目の全体画像データの出力を、文書画像配信装置8に要求する(ステップS106)。ここで、ユーザは2番目に表示された領域画像データである1ページ目の領域画像データが表示された時点で、自分が所望している情報は1ページ目にあることがわかったので、3番目の領域画像データの表示を中断して、1ページ目の全体画像データの出力を要求してもよい。
【0059】
文書画像配信装置8では、通信インタフェース4を介して、制御部2がクライアント端末7の要求を受信する。制御部2は、クライアント端末7の要求に応じて、1ページ目の全体画像データをデータ記憶部5から取り出し、通信インタフェース4を介してクライアント端末7に送信し、クライアント端末7は、受信した1ページ目の全体画像データを表示する(ステップS107)。このように全体画像データを出力する。
【0060】
この例において、文書画像配信装置8がクライアント端末7に送信したデータは、領域画像データが3個と、全体画像データが1個である。従来技術を用いた場合、領域画像データを用いずに検索条件に該当したすべての文書の全体画像データを送信するので、全体画像データを3個送信することとなる。ここで例えば1個の領域画像データが10KB、1個の全体画像データが200KBであったとすると、従来技術を用いた場合は、600KBのデータを送信しなければならないのに対して、本発明による文書画像配信装置8は、230KBのデータを送信するだけであり、ネットワークへの負荷を軽減し、データの伝送時間を短縮することができる。
【0061】
また、従来技術と同程度のデータ量の送信が許されるのであれば、より解像度の高い領域画像データを送信することができる。例えば、検索領域のみ単位面積あたり10倍のデータ量の画像データを送信するとすると、1個の領域画像データが100KBとなる。すると、領域画像データ3個と全体画像データ1個との送信には500KBのデータ量となる。従って従来技術よりも少ないデータ量で、より解像度の高い領域画像データを送信することができる。
【0062】
実施の形態2.
図7は本発明による第2の実施の形態を示すブロック図である。この実施の形態における文書画像配信装置20は、例えばサーバ等の情報処理装置であり、各文書間で共通の情報の領域と、差異のある領域とが、それぞれ固定された位置に存在する定型フォーマットの文書の検索および配信に用いられる。この実施の形態において、文書画像配信装置20と、クライアント端末10と、通信回線6との接続の形態は、第1の実施の形態と同様である。ここで、第1の実施の形態と同様のブロックについては図1と同じ符号を付し、説明を省略する。クライアント端末10において第1の実施の形態の構成と異なる点は、画像データを記憶する基本画像記憶部11を有する点と、領域画像データと、基本画像記憶部11が記憶する画像データとの合成を行う画像データ合成部12を有する点とである。画像データ合成部12は、例えば文書画像配信プログラムに従って処理を実行するCPUによって実現される。
【0063】
本実施の形態における文書画像配信プログラムは、通信ネットワークを介して端末装置から検索キーワードを受信し、検索キーワードに応じた画像データを配信する文書画像配信装置に搭載される文書画像配信プログラムであって、コンピュータに、定型フォーマットの文書を読み取った情報から、文書全体のうち検索対象となる領域である検索領域の画像データを作成し、検索領域に記載された文字に対して文字認識処理を行うことによって文字の文字候補データを作成する処理、文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する処理、および特定した検索領域の画像データを端末装置に送信する処理を実行させるためのものである。文書画像配信装置20の制御部21は、この文書配信プログラムに従って処理を行う。
【0064】
また、クライアント端末10は、記憶装置(図示せず)が記憶する画像作成プログラムに従って処理を行う。この画像作成プログラムは、定型フォーマットの文書全体のうち検索対象となる領域である検索領域の画像データを配信する文書画像配信装置から、検索キーワードに応じた検索領域の画像データを受信し、画像データを表示する端末装置に搭載される画像作成プログラムであって、コンピュータに、定型フォーマットの文書全体の領域のうち、少なくとも検索領域以外の領域の画像データを記憶装置に記憶させる処理、および受信する検索領域の画像データと、記憶装置が記憶する画像データとを合成して文書全体の画像データを作成する処理を実行させるためのものである。
【0065】
基本画像記憶部11が記憶する画像データは、特定のページの文書の全体画像データであってもよく、文書間で共通の情報を示す領域の画像データである共通画像データであってもよい。文書間で共通の情報を示す領域を有する文書の例には、賞状や、卒業証明書や、未記入の旅費精算書等が挙げられる。例に挙げたこれらは、いずれも学籍番号等の整理番号や、氏名等が記載されている領域のみに差異があり、その他の領域の情報は共通である。
【0066】
基本画像記憶部11は、全体画像データ、あるいは共通画像データをあらかじめ記憶している。画像データ合成部12は、文書画像配信装置20から受信する領域画像データと、基本画像記憶部11が記憶している画像データとの合成を行う。文書画像配信装置20において第1の実施の形態の構成と異なる点は、制御部21が全体画像データの作成を行わない点と、画像表示位置情報をデータ記憶部5に記憶させる点とである。
【0067】
本実施の形態の動作について説明する。ここでは図2に示す文書を例にして説明する。まず、紙等の媒体に書かれた情報が、データ記憶部5に記憶されるまでについて説明する。一例として10ページの文書の各ページの特定の領域にそれぞれ管理符号が記載されており、この管理符号を用いて検索を行うものとする。また、クライアント端末7の基本画像記憶部11は、この例に用いるページ間で差異のない領域の画像データである共通画像データをあらかじめ記憶しているものとする。すなわち、図2に示す文書のうち検索領域31以外の領域の画像データを記憶する。ただし、この領域は未記入であるものとする。また1ページ目の文書の検索領域に「RS」という管理符号が記載されていたとする。検索に用いる文字列は各ページの検索領域に記載され、検索キーワードとして入力できるものであれば、例えば人名のような文字列であっても、管理番号のような数字であってもよい。
【0068】
スキャナ1は、まず1ページ目の文書に書かれている情報を読み取り、読み取った情報を制御部21に出力する。このときスキャナ1は、1ページ目の文書全体の情報を読み取ってもよいし、ユーザが指示する領域のみを読み取ってもよい。制御部21は、スキャナ1が1ページ目の文書全体を読み取った場合には、ユーザの指示により検索対象の領域である検索領域を全体画像データ上に設定して領域画像データを作成し、ユーザの指示する領域のみを読み取った場合には、読み取った領域を検索領域と設定して領域画像データを作成する。ここでは、管理番号「RS」と書かれている領域が検索領域に設定されて、領域画像データが作成されたものとする。制御部21は、作成した領域画像データを1ページ目の画像データであることがわかるようにした上で、データ記憶部5に出力し、記憶させる。。ここで、この実施の形態では第1の実施の形態と異なり、全体画像データの記憶は行わずに領域画像データのみを記憶させる。
【0069】
また制御部21は、検索領域が1ページ目の文書のどこに位置するのかの情報である画像表示位置情報を作成する。制御部21は、作成した1ページ目の領域画像データと、画像表示位置情報とをデータ記憶部5に出力し、記憶させる。なお画像表示位置情報は、第1の実施の形態と同様に、例えば図3に示すように、X座標、横幅、Y座標、縦幅により示されるが、全体画像データにおける検索領域の表示位置が分かるようなものであればどのように示してもよい。
【0070】
制御部21は、検索領域に設定された領域内の情報に対して、文字認識処理を行う。このとき制御部21は、スキャナ1が読み取った検索領域内の情報を1文字単位に分割し、個々の文字に切り離す。そして切り離した個々の文字に対して文字認識処理を行い、文字認識処理結果の候補となりうる文字候補を特定し、特定した文字候補の文字認識評価値と、文字位置情報とを設定してデータ記憶部5に記憶させる。このように文字候補データを作成する。ここで、文字番号を設定する方法と、文字候補を特定する方法と、特定した文字候補の文字認識評価値と、文字位置情報とを設定する方法とは第1の実施の形態と同様である。
【0071】
制御部21は、第1の実施の形態の制御部2と同様に、各文字番号と、各文字候補と、各文字認識評価値と、各文字位置情報とをデータ記憶部5に出力し、データ記憶部5はそれぞれを記憶する。
【0072】
次に、2ページ目以降の読み取り動作について説明する。スキャナ1が、2ページ目以降の文書の各ページに書かれている情報を読み取り、読み取った情報を制御部21に出力する。制御部21は、スキャナ1が読み取った各ページの情報から各ページの領域画像データを作成する。各ページの領域画像データの作成方法は1ページ目の領域画像データの作成方法と同様に、全体画像データから検索領域の画像データを切り出してもよいし、検索領域のみをスキャナ1が読み取って領域画像データを作成してもよい。このときの検索領域の位置は、1ページ目の検索領域と同じ位置である。制御部21は、作成した各ページの領域画像データをどのページの画像データであるかが分かるようにした上で、データ記憶部5に出力し、記憶させる。なお、画像表示位置情報については、1ページ目を読み取る際に設定したものを用いることができるので、ここで新たに作成する必要はない。
【0073】
以下、第1の実施の形態の制御部2と同様に制御部21は各ページの検索領域内の文字に文字認識処理を行い、文字番号と文字候補と文字認識評価値と文字位置情報とを決定する。そして制御部21は、各文字番号と、各文字候補と、各文字認識評価値と、各文字位置情報とをデータ記憶部5に出力し、データ記憶部5は、それぞれをどのページについてのデータであるかが分かるようにした上で記憶する。
【0074】
また、クライアント端末10は、各文書で共通の領域(検索領域31以外の領域)の共通画像データを基本画像記憶部11に記憶する。クライアント端末10は、例えば、文書画像配信装置20から共通画像データを取得すればよい。すなわち、文書画像配信装置20が共通画像データを作成し、クライアント端末10に送信し、クライアント端末10が基本画像記憶部11に記憶させればよい。
【0075】
次にユーザが検索したい検索キーワードを入力して、検索キーワードを含む画像データの出力を行う検索動作について図8を参照して説明する。図8はこの時の動作を説明するフローチャートである。ここでは、ユーザは管理符号「RS」が書かれたページの領域画像データを要求としているものとする。
【0076】
クライアント端末10はユーザから検索キーワードの入力を受け付ける(ステップS201)。例としてユーザが「RS」と入力したとする。クライアント端末10は、ユーザが入力した文字列である検索キーワード「RS」を通信回線6を介して文書画像配信装置20に送信する(ステップS202)。文書画像配信装置20において、通信インタフェース4が受信して制御部21に出力する。
【0077】
制御部21は、すべてのページについて、データ記憶部5が記憶している文字候補を組み合わせて、検索キーワードと一致する文字列である文字列候補を特定する(ステップS203)。このとき制御部21は検索漏れをなくすため、データ記憶部5が記憶している検索領域内の各文字について、1つずつ文字候補を取りだし、それらを文字番号の順に組み合わせて文字列を生成し、検索キーワードと一致するか否かの判定を行う。その結果、1ページ目の文字候補「R」と文字候補「S」との組み合わせが検索キーワードと一致するため、文字列候補「RS」となる。
【0078】
制御部21は、文字列候補がどのページに存在するかをデータ記憶部5に記憶された情報を元に判断する。(ステップS204)。文字列候補「RS」は1ページ目に存在していることが分かるので、制御部21はデータ記憶部5から1ページ目の領域画像データを取りだし画像表示位置情報とともに、通信インタフェース4と、通信回線6とを介して、クライアント端末10に出力する(ステップS205)。結果、出力した領域画像データには「RS」が書かれている。このように領域画像データを特定して出力する。
【0079】
また制御部21は、他の文字列候補が存在した場合には、他の文字列候補の文字候補の文字位置情報に基づいた領域画像データも、クライアント端末10に出力する。ここで、複数の領域画像データを出力する場合に、領域画像データを出力する順序は、第1の実施の形態と同様である。
【0080】
この例では、1ページ目の領域画像データに「RS」と書かれているので、ユーザは1ページ目が所望の文書であることがわかる。そこでユーザは1ページ目の領域画像データと基本画像記憶部11が記憶する画像データとの合成を画像データ合成部12に指示する。画像データ合成部12は、画像表示位置情報に基づき、基本画像記憶部11が記憶する画像データである共通画像データに領域画像データを合成して表示する(ステップS206)。このとき基本画像記憶部11があらかじめ記憶していた画像データは、共通画像データであっても全体画像データであってもよい。基本画像記憶部11があらかじめ記憶していた画像データが全体画像データであった場合、画像表示位置情報に基づいて全体画像データの所定の位置に領域画像データを重ねて表示する。このように文書全体の画像データを作成する。
【0081】
ここで、2番目に1ページ目の領域画像データが表示され、ユーザは2番目の領域画像データが表示された時点で、自分が所望している文書は1ページ目にあることがわかった場合、3番目以降の領域画像データの表示を中断して、1ページ目の領域画像データと、基本画像記憶部11が記憶する画像データとの合成を画像データ合成部12に指示してもよい。
【0082】
この例において文書画像配信装置20がクライアント端末7に送信したデータは、領域画像データが3個である。従来技術を用いた場合、領域画像データを用いずに検索条件に該当したすべての文書の全体画像データを送信するので、全体画像データを3個送信することとなる。ここで例えば1個の領域画像データが10KB、1個の全体画像データが200KBであったとすると、従来技術を用いた場合は、600KBのデータを送信しなければならないのに対して、本発明による文書画像配信装置8は、30KBのデータを送信するだけであり、ネットワークへの負荷を軽減し、データの伝送時間を短縮することができる。
【0083】
また、従来技術と同程度のデータ量の送信が許されるのであれば、より解像度の高い領域画像データを送信することができる。例えば、検索領域のみ単位面積あたり20倍のデータ量の画像データを送信すると、1個の領域画像データが200KBとなる。すると、領域画像データ3個の送信には600KBのデータ量となる。従って従来技術と同等のデータ量で、より解像度の高い領域画像データを送信することができる。
【0084】
本実施の形態は、例えば、未記入の帳票に個人の名前や社員番号(学籍番号)のみを付加した状態で表示する場合等に意義を有する。ユーザは、帳票の未記入部分の画像データを共通画像データとして記憶するクライアント端末で、自分の名前等を示す領域画像データを検索する。この領域画像データと共通画像データとの合成結果を印刷すれば、すでに自分の氏名等が記載された帳票を得ることができる。そして、この帳票を作成する際に、ネットワークへの負荷を抑えることができる。
【0085】
また、本実施の形態は、各種賞状などの複製を作成する場合にも意義を有する。ユーザは、賞状に記載された氏名等以外の部分(共通の文面が記載された箇所)の画像データを共通画像データとして記憶するクライアント端末10で、氏名等を示す領域画像データを検索する。この領域画像データと共通画像データとの合成結果を印刷すれば、賞状等の複製を得ることができる。この場合もネットワークへの負荷を抑えることができる。
【0086】
ここでは、帳票の未記入部分や賞状の共通の文面が記載された箇所を共通画像データとする場合を例示したが、本実施の形態の適用例は、上記の例に限定されない。
【0087】
【発明の効果】
以上のように本発明によれば、配信すべき文書が確定していない、文書の検索中の場合は、検索の対象となる領域の画像データのみを配信し、配信すべき文書が確定した場合に全体の画像データを配信する、あるいは記憶していた画像データと合成する構成としたため、文書全体の画像データを検索毎に配信する構成と比べて、ネットワークへの負荷を軽くすることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の一例を示すブロック図である。
【図2】定型フォーマットの文書の一例を示す説明図である。
【図3】本発明による検索領域の位置情報の一例を示す説明図である。
【図4】本発明における各情報の一例を示す説明図である。
【図5】本発明を定型フォーマットに適用した場合の具体例を示す説明図である。
【図6】本発明の第1の実施の形態の動作を説明するフローチャートである。
【図7】本発明の第2の実施の形態の一例を示すブロック図である。
【図8】本発明の第2の実施の形態の動作を説明するフローチャートである。
【符号の説明】
1 スキャナ
2 制御部
3 プログラム記憶部
4 通信インタフェース
5 データ記憶部
6 通信回線
7 クライアント端末
8 文書画像配信装置
10 クライアント端末
11 基本画像記憶部
12 画像データ合成部
20 文書画像配信装置
21 制御部
30 文書
31 検索領域
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document image delivery system, a document image delivery device, a terminal device, a document image delivery program, and an image creation program, and more particularly to a document image delivery system, a document image delivery device, and a terminal that output a document image of a page including a search keyword. The present invention relates to an apparatus, a document image distribution program, and an image creation program.
[0002]
[Prior art]
One method of extracting necessary information from information written on paper or the like represented by a book or a document is a method using an OCR (optical character reading device). In this method, an image written on paper or the like is read, and character data extraction processing of the read image and character recognition processing of the extracted character part are performed to convert the data into text data. Also, the image data of the read image is held. Then, a character string is searched using the text data, and image data is output using the search result.
[0003]
As an apparatus used for such a search, an apparatus that complements the accuracy of OCR using a search keyword input by a user and a similar keyword that is similar to the search keyword has been proposed (for example, Patent Document 1). ).
[0004]
In addition, in addition to performing matching between the character recognition processing result of the document and the keyword used in the search, which is performed at the time of the search, with respect to the character of the character recognition processing result and the keyword character, the character of the character recognition processing result and the keyword are compared. There is also a document search method and apparatus for extracting characters that are likely to be erroneously recognized as characters and extracting a character resulting from the character recognition processing as a search result if any of the characters is found (for example, Patent Document 2).
[0005]
[Patent Document 1]
JP 2000-305935 A (Page 4-9, FIG. 1)
[Patent Document 2]
JP-A-7-152774 (page 4-9, FIG. 1)
[0006]
[Problems to be solved by the invention]
There is a case where a server holds image data of a document, a user searches for the document via a network which is a communication line, and a client terminal connected to the network, and there is a case where the user wants to retrieve the image data of the search result. At this time, the server searches for a document and transmits image data in response to a request from the client terminal.
[0007]
However, the amount of image data is large. Even if a document search process is performed by the client terminal and only documents that match the search conditions among all the documents are received from the server, a load is applied to the network.
[0008]
For example, when a document image of 100 pages is extracted as a result of the search, the server transmits the image data of 100 pages to the client terminal. Assuming that the data amount of one page is 200 KB, the total amount of data transmitted and received on the network is 20 MB, which increases the load on the network.
[0009]
The document filing apparatus described in Patent Document 1 discloses a method for complementing the accuracy of OCR. However, there is no viewpoint of connecting the document filing device to a network as a document image search server, and no method for reducing the output data amount of the document image is disclosed.
[0010]
The method and apparatus described in Patent Literature 2 disclose a method for preventing search omission due to an error in character recognition processing. However, there is no viewpoint for connecting to a network, and a method for reducing the amount of output data of a document image. Does not disclose anything.
[0011]
When the devices described in Patent Literature 1 and Patent Literature 2 are connected to a network and used as a server, there is a problem that the load on the network is large. In particular, in the case of image data in a fixed format, the area required for the search may be limited to a part of the entire format, and even in such a case, the entire image data is stored in the server every time the search is performed. If the data is transmitted from the client to the client terminal, the load on the network increases accordingly.
[0012]
Therefore, the present invention provides a document image distribution system, a document image distribution device, a terminal device, and a device that can reduce the amount of data transmitted and received between devices when searching and distributing documents in a fixed format via a network. A document image distribution program and an image creation program are provided.
[0013]
[Means for Solving the Problems]
A document image distribution system according to the present invention includes a document image distribution device that distributes image data according to a search keyword, and image data that transmits a search keyword to a document image distribution device via a communication network and receives from the document image distribution device. And a terminal device for displaying a document image. The document image distribution device reads a document in a fixed format, and searches for image data of the entire document and a search target area of the entire document. A document reading unit that generates image data of the area and performs character recognition processing on the search area to create character candidate data of characters described in the search area; and a terminal device based on the character candidate data. An area image data specifying unit for specifying image data of a search area corresponding to the received search keyword; Area image data transmitting means for transmitting image data of the search area specified by the means to the terminal device; and overall image data transmitting means for transmitting image data of the entire document designated by the terminal device to the terminal device. And
[0014]
The area image data transmitting means may, when the area image data specifying means specifies the image data of the plurality of search areas, sequentially deliver the image data of each search area to the terminal device. The image data of the search area received from the means may be sequentially displayed. According to such a configuration, the user can sequentially browse image data corresponding to the search keyword.
[0015]
A document image distribution device according to the present invention is a document image distribution device that receives a search keyword from a terminal device via a communication network, and distributes image data according to the search keyword. Generates the entire image data and the image data of the search area, which is the area to be searched in the entire document, and performs character recognition processing on the search area, thereby performing character recognition processing on the search area. Document image reading means for creating a search area, area image data specifying means for specifying image data of a search area corresponding to a search keyword received from a terminal device based on character candidate data, and a search area specified by the area image data specifying means. Area image data transmission means for transmitting the image data of the document to the terminal device, and image data of the entire document designated by the terminal device Characterized in that an entire image data transmitting means for transmitting to the terminal device.
[0016]
A document image distribution program according to the present invention is a document image distribution program installed in a document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword. Then, image data of the entire document and image data of a search area, which is a search target area in the entire document, are generated from the information obtained by reading the document in the fixed format, and a character recognition process is performed on the search area. Processing to create character candidate data of characters described in the search area, processing to specify image data of the search area corresponding to the search keyword received from the terminal device based on the character candidate data, A process of transmitting image data to the terminal device, and a process of transmitting image data of the entire document designated by the terminal device to the terminal device. Characterized in that to execute a process of transmitting to.
[0017]
A document image distribution system according to the present invention includes a document image distribution device that distributes image data according to a search keyword, and image data that transmits a search keyword to a document image distribution device via a communication network and receives from the document image distribution device. And a terminal device for displaying a document image. The document image distribution device reads a document in a fixed format and generates image data of a search area that is a search target area in the entire document. Document reading means for creating character candidate data of a character described in a search area by performing a character recognition process on the search area, and a search corresponding to a search keyword received from a terminal device based on the character candidate data An area image data specifying unit that specifies the image data of the area, and a search area that is specified by the area image data specifying unit. A region image data transmitting unit that transmits image data to the terminal device, the terminal device includes a basic image data storage unit that stores image data of at least a region other than the search region in the entire region of the document in the fixed format, Image data combining means for combining the image data of the search area received from the area image data transmission means with the image data stored in the basic image data storage means to create image data of the entire document. I do.
[0018]
When the area image data specifying means specifies the image data of the plurality of search areas, the area image data transmitting means may sequentially transmit the image data of each search area to the terminal device. The image data of the search area received from the means may be sequentially displayed. According to such a configuration, the user can sequentially browse image data corresponding to the search keyword.
[0019]
The image data synthesizing unit of the terminal device synthesizes the image data specified by the user of the terminal device and the image data stored in the basic image data storage unit out of the image data of the search area received from the area image data transmitting unit. May be. According to such a configuration, when image data of only the search area is received, the entire image data can be displayed without receiving image data of an area other than the search area.
[0020]
A document image distribution device according to the present invention is a document image distribution device that receives a search keyword from a terminal device via a communication network, and distributes image data according to the search keyword. Document reading means for generating image data of a search area that is a search target area of the whole, and performing character recognition processing on the search area to create character candidate data of characters described in the search area, Area image data specifying means for specifying image data of a search area corresponding to a search keyword received from the terminal apparatus based on the character candidate data, and transmitting the image data of the search area specified by the area image data specifying means to the terminal apparatus And an area image data transmitting unit that performs the operation.
[0021]
A terminal device according to the present invention receives image data of a search area according to a search keyword from a document image distribution device that distributes image data of a search area that is a search target area in a whole fixed format document, A terminal device for displaying data, wherein a basic image data storage means for storing image data of at least an area other than a search area in a whole area of a document in a fixed format, and a search area received from an area image data transmission means. An image data synthesizing unit for synthesizing image data and image data stored in the basic image data storage unit to create image data of the entire document is provided.
[0022]
A document image distribution program according to the present invention is a document image distribution program installed in a document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword. Then, from information obtained by reading a document in a fixed format, image data of a search area, which is a search target area in the entire document, is generated, and the search area is described in the search area by performing a character recognition process. A process of creating character candidate data of a character, a process of specifying image data of a search area corresponding to a search keyword received from a terminal device based on the character candidate data, and transmitting the image data of the specified search region to the terminal device Is performed.
[0023]
An image creation program according to the present invention receives image data of a search area according to a search keyword from a document image distribution device that distributes image data of a search area which is an area to be searched out of a whole document in a fixed format, An image creation program installed in a terminal device for displaying image data, wherein a process of causing a computer to store, in a storage device, image data of at least an area other than a search area in a whole area of a fixed format document, and receiving the image data. The image data of the search area to be searched is combined with the image data stored in the storage device to execute a process of creating image data of the entire document.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0025]
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a first embodiment according to the present invention. The document image distribution device 8 in this embodiment is an information processing device such as a server, and is used for searching and distributing a document in a fixed format.
[0026]
The document image distribution device 8 is connected to a client terminal 7 via a communication line 6 such as the Internet. The document image distribution device 8 sets an area to be searched (hereinafter, referred to as a search area) in the area of the fixed format. Then, the data storage unit 5 in the document image distribution device 8 stores the entire image data of each document and the text data of the search area of each document so that the document data can be identified. . When receiving the search keyword from the client terminal 7, the document image distribution device 8 searches the text data for a character string that matches the search keyword. Then, image data obtained by extracting a search area from the entire image data of the text data document including a character string that matches the search keyword is transmitted from the data storage unit 5 to the client terminal 7. When the client terminal 7 requests the entire image data of a specific document, the document image distribution device 8 transmits the entire image data of the document requested by the client terminal 7.
[0027]
FIG. 2 shows an example of a fixed format document. The document 30 shown in FIG. 2 is a fixed format document. FIG. 2 shows an example in which a description field of a management code is used as a search area. When storing the document data of the “management code RS”, the document image distribution device 8 stores the entire image data of the document 30 shown in FIG. 2 and the data of the character string included in the search area 31. The same data is stored for a document in which another management code is described. When the search keyword is input, the document image distribution device 8 specifies text data including a character string that matches the search keyword, and transmits the image data of the search area 31 corresponding to the text data to the client terminal 7. Therefore, the client terminal 7 that has transmitted the search keyword displays the image of the search area 31. When the user browses not only the search area 31 but also the entire document 30, the client terminal 7 requests the entire image data of the document 30 from the document image distribution device 8 according to the operation of the user, and the entire document 30 is Is displayed.
[0028]
In the document image distribution device 8, the scanner 1 is an input device for reading information described on a medium such as paper. The program storage unit 3 is a storage device that stores a document image distribution program according to the present invention. The communication interface 4 transmits and receives information to and from the client terminal 7 via the communication line 6. The data storage unit 5 is a storage device that stores data created by the control unit 2. The data storage unit 5 stores a character recognition dictionary used in the character recognition processing.
[0029]
The control unit 2 executes processing according to the document image distribution program stored in the program storage unit 3. The control unit 2 causes the scanner 1 to read a document in a predetermined format. Then, the whole image data which is the image data of the whole document of the information read by the scanner 1 is created. The control unit 2 is designated by the user with a search area. In each document of the same fixed format, the search area is located in the same area.
[0030]
Further, the control unit 2 performs a character recognition process on the information in the search area specified by the user, and creates text data. At this time, the control unit 2 determines whether the search area of the information read by the scanner 1 is vertical writing or horizontal writing, and uses a number indicating the number of the character on the page for each character in the text data. Set a certain character number. Further, the control unit 2 specifies one or more character candidates that are candidates for each character in the text data. In addition, at the time of identification, character recognition evaluation information indicating the degree of certainty that each character candidate is the same character as each character in the document is generated. Further, the control unit 2 generates character position information indicating the position of each character candidate in the entire image data.
[0031]
The control unit 2 outputs the whole image data, the character number, the character candidates, the character recognition evaluation information of each character candidate, and the character position information to the data storage unit 5 and stores them. At this time, based on the character recognition evaluation information, the control unit 2 stores the character candidates in the data storage unit 5 with the order of the degree of certainty that the characters are the same as the characters in the document.
[0032]
When receiving the search keyword from the client terminal 7, the control unit 2 checks whether there is a character string candidate that matches the search keyword. Here, the character string candidate is a character string of a character candidate determined for each character, and is a character string that matches the search keyword. If there is a character string candidate that is a character string that matches the search keyword, the entire image data of the document including the character string that is the basis of the character string candidate is extracted from the data storage unit 5. The document including the character string that is the source of the character string candidate can be determined using information indicating which document the character string candidate is for. The control unit 2 cuts out the image data of the search area from the entire image data and creates image data of the search area (hereinafter, referred to as area image data). The control unit 2 outputs the area image data to the client terminal 7 via the communication line 6. Further, the control unit 2 outputs the entire image data of the designated document in response to a request from the client terminal 7.
[0033]
The client terminal 7 is, for example, an information processing terminal such as a personal computer. The client terminal 7 transmits the search keyword input by the user to the document image distribution device 8, and displays the area image data received from the document image distribution device 8. When the region image data corresponding to the search keyword is displayed, the client terminal 7 requests the entire image data of the page of the displayed region image data from the document image distribution device 8, and The received whole image data is displayed.
[0034]
The document reading unit, the area image data specifying unit, the area image data transmitting unit, and the entire image data transmitting unit are realized by the control unit 2. The control unit 2 functions as each unit by the document image distribution program stored in the program storage unit 3.
[0035]
The document image distribution program is a document image distribution program installed in a document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword. Generates image data of the entire document and image data of a search area, which is a search target area of the entire document, from the information obtained by reading the document in the format, and performs character recognition processing on the characters described in the search area. Performing a process of generating character candidate data of a character, a process of specifying image data of a search area corresponding to a search keyword received from the terminal device based on the character candidate data, and a step of transmitting the image data of the specified search area to the terminal. Processing for transmitting to the device and processing for transmitting image data of the entire document designated by the terminal device to the terminal device It is intended to execute.
[0036]
Next, the operation of the present embodiment will be described. First, a description will be given of how information written on a medium such as paper is stored in the data storage unit 5. Here, a management code is described in a specific area of each page in a document of a fixed format composed of a document of 10 pages, and as shown in FIG. The case where the number is 31 will be described as an example. It is assumed that the management code “RS” is described in the search area 31 of the first page. The character string described in the search area 31 of each page and used for the search may be, for example, a character string such as a person's name or a number such as a management number, as long as it can be input as a search keyword. Good.
[0037]
The scanner 1 first reads information written in the first page of the document, and outputs the read information to the control unit 2. The control unit 2 creates overall image data that is image data of the entire document of the first page read by the scanner 1. Then, the entire image data is output to and stored in the data storage unit 5 after it is determined that the image data is the image data of the first page. Further, the control unit 2 sets a search area 31 which is a search target area on the image data according to a user's instruction. Here, the area in which the management number “RS” is written is set as the search area 31.
[0038]
The control unit 2 creates position information of the search area 31 in the entire image data. As shown in FIG. 3, for example, the position information of the search area 31 includes an X coordinate (for example, an X coordinate of an upper left position of the search area 31), a width, a Y coordinate (for example, a Y coordinate of an upper left position of the search area 31), Although indicated by the vertical width, any information may be used as long as the position of the search area 31 in the entire image data is known. The control unit 2 outputs and stores the position information of the search area 31 to the data storage unit 5.
[0039]
The control unit 2 performs a character recognition process on the information in the search area 31 among the information read by the scanner 1. At this time, the control unit 2 divides the information in the search area read by the scanner 1 into units of one character and separates the information into individual characters. Then, character recognition processing is performed on each character, and character candidates that can be candidates for the result of the character recognition processing are specified. Thus, character candidate data is created. Then, it is determined whether the information in the search area is in vertical writing or horizontal writing, and a character number is set for each character to indicate the number of the character on the page.
[0040]
In this example, since "RS" is written in the search area 31, these two characters are separated from each other, and a character candidate is specified for each of these two characters. In FIG. 2, a character “management code” is also described in the search area 31. However, since this character is common to all pages, in the following description, only the character following the character is used for character recognition. Target. Then, the character number of the first character “R” in the search area is 1 and the character number of the second character “S” is 2. Here, the number of character candidates for each character in the document is not limited to one. The likelihood that each character candidate matches a character actually described in the document changes depending on the description state of the character in the document. Accordingly, character candidates for the character "R" in the document include "R", "P", and the like, and the probability of the character candidate "P" may be determined to be higher. In the following description, a certain character X actually described in a document is referred to as a “character“ X ”in a document”.
[0041]
The control unit 2 checks the characters read one character at a time against characters in a character recognition dictionary stored in the data storage unit 5 in advance. Then, a character having a large matching element is selected from the character recognition dictionary and set as a character candidate. The number of character candidates is not limited, and the number of character candidates may be different for each character of each image data. For example, it is assumed that there are four character candidates for the character “R” in the document, “P”, “R”, “8”, and “B”, and the character candidates for the character “S” in the document are “8”, “ It is assumed that there are five pieces of "S", "3", "R", and "u".
[0042]
Further, the control unit 2 generates character recognition evaluation information indicating the degree of certainty that each character candidate is the same character as each character in the document. The character recognition evaluation information is determined based on the degree of matching by comparing characters in a character recognition dictionary stored in the data storage unit 5 in advance with characters read by the scanner 1 and cut out by the control unit 2. Here, as an example of the character recognition evaluation information, FIG. 4 shows an example of evaluation using character recognition evaluation values expressed by numerical values. In FIG. 4, the first line shows an example of the character recognition evaluation value of each character candidate of the character "R" in the document, and the second line shows the character recognition evaluation value of each character candidate of the character "S" in the document. Is shown. When the character recognition evaluation value is used, each character candidate can be given a candidate ranking. For example, the character candidate with the first candidate rank of the character “R” in the document is “P”, and the character candidate with the second highest rank is “R”.
[0043]
Further, the control unit 2 generates character position information indicating the position of each character candidate in the entire image data. In this example, the character position information is indicated by an X coordinate (for example, an X coordinate of the upper left position of the character area), a character width, a Y coordinate (for example, a Y coordinate of the upper left position of the character area), and a character height. Any image may be used as long as the position of the character in the image data is known.
[0044]
Then, the control unit 2 outputs each character number, each character candidate, each character recognition evaluation value, and each character position information to the data storage unit 5, and the data storage unit 5 outputs the data for the first page. Is stored in such a form that it can be understood that
[0045]
Next, the reading operation for the second and subsequent pages will be described. The scanner 1 reads information written on each of the second and subsequent pages of the document, and outputs the read information to the control unit 2. The control unit 2 creates overall image data of each page read by the scanner 1. Then, the entire image data of each page is output to the data storage unit 5 and stored in such a manner that the image data of which page is known. Note that the position information set when reading the first page can be used as the position information of the search area, and there is no need to newly create the position information here.
[0046]
Hereinafter, similarly to the first page, the control unit 2 performs a character recognition process on characters in the search area of each page, and determines a character number, a character candidate, a character recognition evaluation value, and character position information. Then, the control unit 2 outputs each character number, each character candidate, each character recognition evaluation value, and each character position information to the data storage unit 5, and the data storage unit 5 stores the The data is stored after being understood.
[0047]
FIG. 5 is an explanatory diagram showing a specific example when the present invention is applied to a document in a fixed format. In the example shown in FIG. 5, the area described as “2002-11-29 back number” in the back number document as the fixed format document 31 as shown in FIG. Is specified. Accordingly, when the first page of the back number document is read, the control unit 2 detects the X coordinate, the horizontal width, the Y coordinate, and the vertical width of the search area 31 and determines the position as shown in FIG. Create information. In the example shown in FIG. 5B, “200”, “300”, “30”, and “50” are detected as the X coordinate, the horizontal width, the Y coordinate, and the vertical width of the search area 31. Have been.
[0048]
Further, the control unit 2 divides the search area 31 into individual character areas, and detects coordinates and sizes (character width and character height) for each character area. Further, a character candidate is specified by performing a character recognition process. In the example shown in FIG. 5C, the first character candidate in the candidate order of the first character is “2”, and the second character candidate in the candidate order is “Otsu”. The first character candidate in the candidate order of the second character is “0”, and the second character candidate in the candidate order is “o”.
[0049]
Next, a search operation in which a user inputs a search keyword to be searched and image data including the search keyword is output will be described with reference to FIG. FIG. 6 is a flowchart for explaining the operation at this time. Here, it is assumed that the user has requested information written on the page of the management code “RS”.
[0050]
The client terminal 7 receives an input of a search keyword from a user (step S101). As an example, assume that the user inputs “RS”. The client terminal 7 transmits the search keyword “RS”, which is a character string input by the user, to the document image distribution device 8 via the communication line 6 (Step S102). In the document image distribution device 8, the communication interface 4 receives and outputs it to the control unit 2.
[0051]
The control unit 2 specifies a character string candidate that is a character string that matches the search keyword by combining the character candidates stored in the data storage unit 5 for all pages (step S103). At this time, the control unit 2 extracts character candidates one by one for each character in the search area stored in the data storage unit 5 and combines them in the order of the character numbers to generate a character string in order to eliminate omission in the search. It is determined whether or not it matches the search keyword. As a result, since the combination of the character candidate “R” and the character candidate “S” on the first page matches the search keyword, the combination becomes the character string candidate “RS”.
[0052]
The control unit 2 determines on which page the character string candidate is located based on the information stored in the data storage unit 5 (step S104). Taking the document 31 shown in FIG. 2 as an example, it can be seen that the character string candidate “RS” exists on the first page, so the control unit 2 reads the entire image data of the first page from the data storage unit 5. The extracted image data of the search area 31 (hereinafter, referred to as area image data) extracted from the entire image data based on the position information of the search area 31 is transmitted to the client via the communication interface 4 and the communication line 6. Output to the terminal 7 (step S105). As a result, “RS” is written in the output area image data. Thus, the area image data is specified and output.
[0053]
If another character string candidate exists, the control unit 2 also outputs, to the client terminal 7, area image data cut out from the entire image data of the page where the other character string candidate exists. Here, the order of outputting the region image data when outputting a plurality of region image data will be described.
[0054]
When there are a plurality of character string candidates, the control unit 2 pays attention to the candidate ranks of the character candidates constituting the character string candidates (that is, the character candidates that match the characters in the search keyword), and averages the candidate ranks. The image data is output in order of decreasing value. At this time, the control unit 2 reads the character recognition evaluation value of each character candidate stored in the data storage unit 5 and analyzes each character string candidate using the candidate ranking based on the character recognition evaluation value.
[0055]
Specifically, the candidate rank of the character candidate “R” on the first page is second, the candidate rank of the character candidate “S” is second, and the average of the candidate rank is 2.0. For example, if there is a character "B" in the document having the character candidate "R" in the first candidate rank on the seventh page and a character "8" in the document having the character candidate "S" in the second candidate rank, the character The average value of the candidate rank of column “B8” is 1.5. In addition, when a document character “P” having a character candidate “R” in the third place and a document character “G” having a character candidate “S” in the second place are present on the ninth page, The average value of the candidate rank of the character string “PG” is 2.5. Among these three character candidates “R” and “S”, “B8” which is the area image data of the seventh page having the smallest candidate ranking average value is output first. Next, “RS”, which is the area image data of the first page, and “PG”, which is the area image data of the ninth page, are finally output. The client terminal 7 receives and displays the area image data in the order output by the control unit 2.
[0056]
When there are a plurality of character string candidates, the control unit 2 continuously outputs the area image data to the client terminal 7. Here, the control unit 2 outputs the image data in ascending order of the average value of the candidate rank. However, the present invention is not limited to this, and the degree of certainty of the character recognition process of each character candidate is high using the character recognition evaluation information and the like. Output them in order. Then, on the client terminal 7, the characters are continuously displayed in the descending order of the likelihood of the character recognition processing. Note that the output order may be output in the order of smaller page numbers without performing any special processing.
[0057]
The user checks whether or not the search keyword “RS” is written in the area image data displayed by the client terminal 7. Here, the area image data of the seventh page is displayed first, the area image data of the first page is displayed second, and the area image data of the ninth page is displayed third.
[0058]
In this example, since “RS” is written in the area image data of the first page, the user knows that the first page has desired information. Then, the client terminal 7 requests the document image distribution device 8 to output the entire image data of the first page (step S106). At this point, when the user has displayed the area image data on the first page, which is the area image data displayed second, the user has found that the desired information is on the first page. The display of the first region image data may be interrupted, and an output of the entire image data of the first page may be requested.
[0059]
In the document image distribution device 8, the control unit 2 receives a request from the client terminal 7 via the communication interface 4. In response to a request from the client terminal 7, the control unit 2 retrieves the entire image data of the first page from the data storage unit 5 and transmits it to the client terminal 7 via the communication interface 4. The entire image data of the page is displayed (step S107). Thus, the entire image data is output.
[0060]
In this example, the data transmitted from the document image distribution device 8 to the client terminal 7 includes three area image data and one entire image data. When the conventional technique is used, three pieces of whole image data are transmitted because the whole image data of all documents meeting the search condition is transmitted without using the area image data. Here, for example, assuming that one area image data is 10 KB and one entire image data is 200 KB, when the conventional technique is used, 600 KB of data must be transmitted. The document image distribution device 8 only transmits 230 KB data, and can reduce the load on the network and shorten the data transmission time.
[0061]
In addition, if transmission of the same amount of data as that of the related art is permitted, it is possible to transmit higher-resolution area image data. For example, if image data having a data amount 10 times larger per unit area is transmitted for only the search area, one area image data becomes 100 KB. Then, a data amount of 500 KB is required to transmit three area image data and one entire image data. Therefore, area image data with higher resolution can be transmitted with a smaller amount of data than in the related art.
[0062]
Embodiment 2 FIG.
FIG. 7 is a block diagram showing a second embodiment according to the present invention. The document image distribution device 20 in this embodiment is an information processing device such as a server, and has a fixed format in which an area of information common to each document and an area of difference exist at fixed positions. Used for searching and delivering documents. In this embodiment, the form of connection between the document image distribution device 20, the client terminal 10, and the communication line 6 is the same as in the first embodiment. Here, the same blocks as those in the first embodiment are denoted by the same reference numerals as in FIG. 1, and description thereof will be omitted. The difference between the client terminal 10 and the first embodiment is that the client terminal 10 has a basic image storage unit 11 that stores image data, and that the area image data and the image data that the basic image storage unit 11 stores are combined. And an image data synthesizing unit 12 that performs the following. The image data synthesizing unit 12 is realized by, for example, a CPU that executes processing according to a document image distribution program.
[0063]
The document image distribution program according to the present embodiment is a document image distribution program installed in a document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword. A computer that generates image data of a search area that is a search target area of the entire document from information obtained by reading a document in a fixed format, and performs a character recognition process on characters described in the search area. Processing for creating character candidate data of a character, processing for identifying image data of a search area corresponding to a search keyword received from the terminal device based on the character candidate data, and image data of the identified search area to the terminal device. This is for executing the transmission process. The control unit 21 of the document image distribution device 20 performs processing according to the document distribution program.
[0064]
The client terminal 10 performs processing according to an image creation program stored in a storage device (not shown). The image creation program receives image data of a search area corresponding to a search keyword from a document image distribution device that distributes image data of a search area, which is an area to be searched, in an entire document in a fixed format, and Processing for causing a computer to store, in a storage device, image data of at least an area other than a search area in a whole area of a fixed format document, and a search to be received. The image data of the area is combined with the image data stored in the storage device to execute a process of creating image data of the entire document.
[0065]
The image data stored in the basic image storage unit 11 may be the entire image data of the document of a specific page, or may be the common image data of the area indicating information common to the documents. Examples of a document having an area indicating common information between documents include a certificate of diploma, a graduation certificate, a blank travel expense report, and the like. All of the above-mentioned examples differ only in the area where the serial number such as the student registration number and the name are described, and the information of the other areas is common.
[0066]
The basic image storage unit 11 stores the entire image data or the common image data in advance. The image data combining unit 12 combines the area image data received from the document image distribution device 20 with the image data stored in the basic image storage unit 11. The document image distribution device 20 differs from the configuration of the first embodiment in that the control unit 21 does not create the entire image data and that the image display position information is stored in the data storage unit 5. .
[0067]
The operation of the present embodiment will be described. Here, the document shown in FIG. 2 will be described as an example. First, a description will be given of how information written on a medium such as paper is stored in the data storage unit 5. As an example, a management code is described in a specific area of each page of a 10-page document, and a search is performed using this management code. It is also assumed that the basic image storage unit 11 of the client terminal 7 has previously stored common image data which is image data of an area having no difference between pages used in this example. That is, image data of an area other than the search area 31 in the document shown in FIG. 2 is stored. However, this area shall be left blank. It is also assumed that a management code “RS” is described in the search area of the document on the first page. The character string used for the search is described in the search area of each page, and may be a character string such as a person's name or a number such as a management number as long as it can be input as a search keyword.
[0068]
The scanner 1 first reads information written in the first page of the document, and outputs the read information to the control unit 21. At this time, the scanner 1 may read the information of the entire document on the first page, or may read only the area specified by the user. When the scanner 1 reads the entire first page of the document, the control unit 21 creates a region image data by setting a search region, which is a search target region, on the entire image data in accordance with a user's instruction. When only the area indicated by the above is read, the read area is set as a search area and area image data is created. Here, it is assumed that the area in which the management number “RS” is written is set as the search area, and the area image data is created. The control unit 21 outputs the created area image data to the data storage unit 5 after storing it so as to be recognized as the image data of the first page. . Here, in this embodiment, unlike the first embodiment, only the area image data is stored without storing the entire image data.
[0069]
Further, the control unit 21 creates image display position information which is information on where the search area is located in the document of the first page. The control unit 21 outputs the created region image data of the first page and the image display position information to the data storage unit 5 and stores them. Note that the image display position information is represented by an X coordinate, a horizontal width, a Y coordinate, and a vertical width as shown in FIG. 3, for example, as in the first embodiment. Any method that can be understood may be used.
[0070]
The control unit 21 performs a character recognition process on information in the area set as the search area. At this time, the control unit 21 divides the information in the search area read by the scanner 1 into units of one character, and separates the information into individual characters. Then, character recognition processing is performed on each separated character, character candidates that can be candidates for the character recognition processing result are specified, and character recognition evaluation values of the specified character candidates and character position information are set and data storage is performed. It is stored in the unit 5. Thus, character candidate data is created. Here, the method of setting the character number, the method of specifying the character candidate, and the method of setting the character recognition evaluation value of the specified character candidate and the character position information are the same as in the first embodiment. .
[0071]
The control unit 21 outputs each character number, each character candidate, each character recognition evaluation value, and each character position information to the data storage unit 5, similarly to the control unit 2 of the first embodiment. The data storage unit 5 stores each of them.
[0072]
Next, the reading operation for the second and subsequent pages will be described. The scanner 1 reads information written on each page of the second and subsequent pages of the document, and outputs the read information to the control unit 21. The control unit 21 creates area image data of each page from information of each page read by the scanner 1. As in the method of creating the region image data of the first page, the image data of the search region may be cut out from the entire image data, or only the search region may be read by the Image data may be created. The position of the search area at this time is the same position as the search area of the first page. The control unit 21 outputs the data to the data storage unit 5 after storing the created region image data of each page as the image data of which page. Note that the image display position information set when reading the first page can be used, and thus it is not necessary to newly create the image display position information.
[0073]
Hereinafter, similarly to the control unit 2 of the first embodiment, the control unit 21 performs a character recognition process on the characters in the search area of each page, and stores a character number, a character candidate, a character recognition evaluation value, and character position information. decide. Then, the control unit 21 outputs each character number, each character candidate, each character recognition evaluation value, and each character position information to the data storage unit 5, and the data storage unit 5 stores the data for each page. Is stored after being understood.
[0074]
Further, the client terminal 10 stores the common image data of an area common to each document (an area other than the search area 31) in the basic image storage unit 11. The client terminal 10 may acquire the common image data from the document image distribution device 20, for example. That is, the document image distribution device 20 may create the common image data, transmit it to the client terminal 10, and store it in the basic image storage unit 11.
[0075]
Next, a search operation in which a user inputs a search keyword to be searched and output image data including the search keyword will be described with reference to FIG. FIG. 8 is a flowchart for explaining the operation at this time. Here, it is assumed that the user has requested area image data of a page in which the management code “RS” is written.
[0076]
The client terminal 10 receives an input of a search keyword from a user (step S201). As an example, assume that the user inputs “RS”. The client terminal 10 transmits the search keyword “RS”, which is a character string input by the user, to the document image distribution device 20 via the communication line 6 (Step S202). In the document image distribution device 20, the communication interface 4 receives and outputs the received data to the control unit 21.
[0077]
The control unit 21 specifies a character string candidate that is a character string that matches the search keyword by combining the character candidates stored in the data storage unit 5 for all pages (step S203). At this time, the control unit 21 extracts character candidates one by one for each character in the search area stored in the data storage unit 5 and combines them in the order of the character numbers to generate a character string in order to eliminate search omission. It is determined whether or not it matches the search keyword. As a result, since the combination of the character candidate “R” and the character candidate “S” on the first page matches the search keyword, the combination becomes the character string candidate “RS”.
[0078]
The control unit 21 determines on which page the character string candidate exists based on the information stored in the data storage unit 5. (Step S204). Since it is known that the character string candidate “RS” exists on the first page, the control unit 21 extracts the area image data of the first page from the data storage unit 5 and, together with the image display position information, communicates with the communication interface 4. The data is output to the client terminal 10 via the line 6 (step S205). As a result, “RS” is written in the output area image data. Thus, the area image data is specified and output.
[0079]
If another character string candidate exists, the control unit 21 also outputs the area image data based on the character position information of the character candidate of the other character string candidate to the client terminal 10. Here, when outputting a plurality of area image data, the order of outputting the area image data is the same as that of the first embodiment.
[0080]
In this example, since “RS” is written in the area image data of the first page, the user can understand that the first page is a desired document. Therefore, the user instructs the image data synthesizing unit 12 to synthesize the area image data of the first page with the image data stored in the basic image storage unit 11. The image data combining unit 12 combines the area image data with the common image data, which is the image data stored in the basic image storage unit 11, based on the image display position information and displays the combined image data (Step S206). At this time, the image data previously stored in the basic image storage unit 11 may be common image data or entire image data. When the image data previously stored in the basic image storage unit 11 is the entire image data, the area image data is displayed in a superimposed manner at a predetermined position of the entire image data based on the image display position information. Thus, the image data of the entire document is created.
[0081]
Here, when the area image data of the first page is displayed second, and the user knows that the desired document is on the first page at the time when the second area image data is displayed. The display of the third and subsequent area image data may be interrupted to instruct the image data synthesizing unit 12 to synthesize the area image data of the first page with the image data stored in the basic image storage unit 11.
[0082]
In this example, the data transmitted from the document image distribution device 20 to the client terminal 7 is three region image data. When the conventional technique is used, three pieces of whole image data are transmitted because the whole image data of all documents meeting the search condition is transmitted without using the area image data. Here, for example, assuming that one area image data is 10 KB and one entire image data is 200 KB, when the conventional technique is used, 600 KB of data must be transmitted. The document image distribution device 8 only transmits 30 KB data, and can reduce the load on the network and shorten the data transmission time.
[0083]
In addition, if transmission of the same amount of data as that of the related art is permitted, it is possible to transmit higher-resolution area image data. For example, when image data having a data amount 20 times larger per unit area is transmitted for only the search area, one area image data becomes 200 KB. Then, the transmission of three area image data requires a data amount of 600 KB. Therefore, it is possible to transmit the region image data with higher resolution with the same data amount as the conventional technology.
[0084]
This embodiment is significant, for example, when displaying a blank form with only an individual's name or employee number (student registration number) added. A user searches for area image data indicating his / her name or the like at a client terminal that stores image data of an unfilled portion of a form as common image data. By printing the result of synthesizing the area image data and the common image data, it is possible to obtain a form in which the user's name and the like are already described. When creating this form, the load on the network can be reduced.
[0085]
In addition, the present embodiment is also significant when making copies of various award certificates and the like. The user searches for area image data indicating a name or the like on the client terminal 10 that stores image data of a portion other than the name or the like described in the award certificate (a place where common text is described) as common image data. By printing the result of synthesizing the area image data and the common image data, a copy such as a certificate can be obtained. Also in this case, the load on the network can be suppressed.
[0086]
Here, an example has been described in which an unfilled part of a form or a place where a common text of a prize is described is used as the common image data, but the application example of the present embodiment is not limited to the above example.
[0087]
【The invention's effect】
As described above, according to the present invention, when the document to be distributed is not determined, when the document is being searched, only the image data of the search target area is distributed, and when the document to be distributed is determined. Since the entire image data is distributed or combined with the stored image data, the load on the network can be reduced as compared with the configuration in which the image data of the entire document is distributed for each search.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating an example of a first embodiment of the present invention.
FIG. 2 is an explanatory diagram showing an example of a document in a fixed format.
FIG. 3 is an explanatory diagram showing an example of position information of a search area according to the present invention.
FIG. 4 is an explanatory diagram showing an example of each information in the present invention.
FIG. 5 is an explanatory diagram showing a specific example when the present invention is applied to a fixed format.
FIG. 6 is a flowchart illustrating an operation of the first exemplary embodiment of the present invention.
FIG. 7 is a block diagram illustrating an example of a second embodiment of the present invention.
FIG. 8 is a flowchart illustrating an operation of the second exemplary embodiment of the present invention.
[Explanation of symbols]
1 Scanner
2 Control unit
3 Program storage
4 Communication interface
5 Data storage unit
6 communication lines
7 Client terminal
8 Document image distribution device
10 Client terminal
11 Basic image storage
12 Image data synthesis unit
20 Document image distribution device
21 Control unit
30 documents
31 Search area

Claims (11)

検索キーワードに応じた画像データを配信する文書画像配信装置と、通信ネットワークを介して文書画像配信装置に検索キーワードを送信し、文書画像配信装置から受信する画像データを表示する端末装置とを備えた文書画像配信システムであって、
文書画像配信装置は、定型フォーマットの文書を読み取って、前記文書全体の画像データと、前記文書全体のうち検索対象となる領域である検索領域の画像データとを生成し、前記検索領域に対して文字認識処理を行うことによって前記検索領域に記載された文字の文字候補データを作成する文書読み取り手段と、
文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、
領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段と、
端末装置が指定した文書全体の画像データを端末装置に送信する全体画像データ送信手段とを備えた
ことを特徴とする文書画像配信システム。
A document image distribution device that distributes image data according to the search keyword; and a terminal device that transmits the search keyword to the document image distribution device via the communication network and displays image data received from the document image distribution device. A document image distribution system,
The document image distribution device reads a document in a fixed format, and generates image data of the entire document and image data of a search area that is a search target area in the entire document. Document reading means for creating character candidate data of characters described in the search area by performing a character recognition process,
Area image data specifying means for specifying image data of a search area corresponding to a search keyword received from the terminal device based on the character candidate data;
Area image data transmitting means for transmitting image data of the search area specified by the area image data specifying means to the terminal device;
A document image distribution system comprising: an entire image data transmitting unit that transmits image data of an entire document designated by a terminal device to the terminal device.
領域画像データ送信手段は、領域画像データ特定手段が複数の検索領域の画像データを特定した場合、各検索領域の画像データを順次端末装置に配信し、
端末装置は、領域画像データ送信手段から受信する検索領域の画像データを順次表示する
請求項1に記載の文書画像配信システム。
The area image data transmitting means, when the area image data specifying means specifies the image data of the plurality of search areas, sequentially delivers the image data of each search area to the terminal device,
2. The document image distribution system according to claim 1, wherein the terminal device sequentially displays the image data of the search area received from the area image data transmitting means.
通信ネットワークを介して端末装置から検索キーワードを受信し、前記検索キーワードに応じた画像データを配信する文書画像配信装置であって、
定型フォーマットの文書を読み取って、前記文書全体の画像データと、前記文書全体のうち検索対象となる領域である検索領域の画像データとを生成し、前記検索領域に対して文字認識処理を行うことによって前記検索領域に記載された文字の文字候補データを作成する文書読み取り手段と、
文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、
領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段と、
端末装置が指定した文書全体の画像データを端末装置に送信する全体画像データ送信手段とを備えた
ことを特徴とする文書画像配信装置。
A document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword,
Reading a document in a fixed format, generating image data of the entire document, and image data of a search area that is a search target area in the entire document, and performing a character recognition process on the search area; Document reading means for creating character candidate data of characters described in the search area by
Area image data specifying means for specifying image data of a search area corresponding to a search keyword received from the terminal device based on the character candidate data;
Area image data transmitting means for transmitting image data of the search area specified by the area image data specifying means to the terminal device;
A document image distribution apparatus comprising: an entire image data transmission unit configured to transmit image data of an entire document designated by the terminal device to the terminal device.
通信ネットワークを介して端末装置から検索キーワードを受信し、前記検索キーワードに応じた画像データを配信する文書画像配信装置に搭載される文書画像配信プログラムであって、
コンピュータに、
定型フォーマットの文書を読み取った情報から、前記文書全体の画像データと、前記文書全体のうち検索対象となる領域である検索領域の画像データとを生成し、前記検索領域に対して文字認識処理を行うことによって前記検索領域に記載された文字の文字候補データを作成する処理、
文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する処理、
特定した検索領域の画像データを端末装置に送信する処理、および
端末装置が指定した文書全体の画像データを端末装置に送信する処理
を実行させるための文書画像配信プログラム。
A document image distribution program installed in a document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword,
On the computer,
From the information obtained by reading the document in the fixed format, image data of the entire document and image data of a search area that is a search target area in the entire document are generated, and a character recognition process is performed on the search area. Processing to create character candidate data of characters described in the search area by performing
A process of specifying image data of a search area corresponding to a search keyword received from the terminal device based on the character candidate data;
A document image distribution program for executing a process of transmitting image data of a specified search area to a terminal device and a process of transmitting image data of an entire document specified by the terminal device to the terminal device.
検索キーワードに応じた画像データを配信する文書画像配信装置と、通信ネットワークを介して文書画像配信装置に検索キーワードを送信し、文書画像配信装置から受信する画像データを表示する端末装置とを備えた文書画像配信システムであって、
文書画像配信装置は、定型フォーマットの文書を読み取って、前記文書全体のうち検索対象となる領域である検索領域の画像データを生成し、前記検索領域に対して文字認識処理を行うことによって前記検索領域に記載された文字の文字候補データを作成する文書読み取り手段と、
文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、
領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段とを備え、
端末装置は、前記定型フォーマットの文書全体の領域のうち、少なくとも検索領域以外の領域の画像データを記憶する基本画像データ記憶手段と、
領域画像データ送信手段から受信する検索領域の画像データと、基本画像データ記憶手段が記憶する画像データとを合成して文書全体の画像データを作成する画像データ合成手段とを備えた
ことを特徴とする文書画像配信システム。
A document image distribution device that distributes image data according to the search keyword; and a terminal device that transmits the search keyword to the document image distribution device via the communication network and displays image data received from the document image distribution device. A document image distribution system,
The document image distribution device reads a document in a fixed format, generates image data of a search area that is a search target area in the entire document, and performs a character recognition process on the search area to perform the search. Document reading means for creating character candidate data of characters described in the area,
Area image data specifying means for specifying image data of a search area corresponding to a search keyword received from the terminal device based on the character candidate data;
Area image data transmitting means for transmitting the image data of the search area specified by the area image data specifying means to the terminal device,
A terminal device, a basic image data storage unit that stores image data of at least an area other than a search area in an area of the entire document in the fixed format;
Image data combining means for combining the image data of the search area received from the area image data transmission means with the image data stored in the basic image data storage means to create image data of the entire document. Document image distribution system.
領域画像データ送信手段は、領域画像データ特定手段が複数の検索領域の画像データを特定した場合、各検索領域の画像データを順次端末装置に送信し、
端末装置は、領域画像データ送信手段から受信する検索領域の画像データを順次表示する
請求項5に記載の文書画像配信システム。
The area image data transmitting means, when the area image data specifying means specifies the image data of the plurality of search areas, sequentially transmits the image data of each search area to the terminal device,
6. The document image distribution system according to claim 5, wherein the terminal device sequentially displays the image data of the search area received from the area image data transmitting means.
端末装置の画像データ合成手段は、領域画像データ送信手段から受信する検索領域の画像データのうち端末装置の使用者によって指定された画像データと、基本画像データ記憶手段が記憶する画像データとを合成する
請求項5または請求項6に記載の文書画像配信システム。
The image data synthesizing unit of the terminal device synthesizes the image data specified by the user of the terminal device and the image data stored in the basic image data storage unit out of the image data of the search area received from the area image data transmitting unit. The document image distribution system according to claim 5 or 6, wherein
通信ネットワークを介して端末装置から検索キーワードを受信し、前記検索キーワードに応じた画像データを配信する文書画像配信装置であって、
定型フォーマットの文書を読み取って、前記文書全体のうち検索対象となる領域である検索領域の画像データを生成し、検索領域に記載された文字に対して文字認識処理を行うことによって前記文字の文字候補データを作成する文書読み取り手段と、
文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する領域画像データ特定手段と、
領域画像データ特定手段が特定した検索領域の画像データを端末装置に送信する領域画像データ送信手段とを備えた
ことを特徴とする文書画像配信装置。
A document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword,
By reading a document in a fixed format, generating image data of a search area that is a search target area in the entire document, and performing a character recognition process on the characters described in the search area, thereby obtaining the characters of the characters. Document reading means for creating candidate data;
Area image data specifying means for specifying image data of a search area corresponding to a search keyword received from the terminal device based on the character candidate data;
A document image distribution device comprising: a region image data transmitting unit that transmits image data of a search region specified by a region image data specifying unit to a terminal device.
定型フォーマットの文書全体のうち検索対象となる領域である検索領域の画像データを配信する文書画像配信装置から、検索キーワードに応じた検索領域の画像データを受信し、前記画像データを表示する端末装置であって、
前記定型フォーマットの文書全体の領域のうち、少なくとも検索領域以外の領域の画像データを記憶する基本画像データ記憶手段と、
領域画像データ送信手段から受信する検索領域の画像データと、基本画像データ記憶手段が記憶する画像データとを合成して文書全体の画像データを作成する画像データ合成手段とを備えた
ことを特徴とする端末装置。
A terminal device that receives image data of a search area corresponding to a search keyword from a document image distribution apparatus that distributes image data of a search area that is a search target area in the entire document in a fixed format, and displays the image data And
Basic image data storage means for storing image data of at least an area other than the search area in the entire area of the document in the fixed format;
Image data combining means for combining the image data of the search area received from the area image data transmission means with the image data stored in the basic image data storage means to create image data of the entire document. Terminal device to do.
通信ネットワークを介して端末装置から検索キーワードを受信し、前記検索キーワードに応じた画像データを配信する文書画像配信装置に搭載される文書画像配信プログラムであって、
コンピュータに、
定型フォーマットの文書を読み取った情報から、前記文書全体のうち検索対象となる領域である検索領域の画像データを生成し、前記検索領域に対して文字認識処理を行うことによって前記検索領域に記載された文字の文字候補データを作成する処理、
文字候補データに基づいて、端末装置から受信する検索キーワードに応じた検索領域の画像データを特定する処理、および
特定した検索領域の画像データを端末装置に送信する処理
を実行させるための文書画像配信プログラム。
A document image distribution program installed in a document image distribution device that receives a search keyword from a terminal device via a communication network and distributes image data according to the search keyword,
On the computer,
From the information obtained by reading the document in the fixed format, image data of a search area that is a search target area in the entire document is generated, and the image data described in the search area is obtained by performing a character recognition process on the search area. Processing to create character candidate data for
Document image distribution for executing a process of specifying image data of a search area corresponding to a search keyword received from a terminal device based on the character candidate data and a process of transmitting the image data of the specified search region to the terminal device program.
定型フォーマットの文書全体のうち検索対象となる領域である検索領域の画像データを配信する文書画像配信装置から、検索キーワードに応じた検索領域の画像データを受信し、前記画像データを表示する端末装置に搭載される画像作成プログラムであって、
コンピュータに、
定型フォーマットの文書全体の領域のうち、少なくとも検索領域以外の領域の画像データを記憶装置に記憶させる処理、および
受信する検索領域の画像データと、記憶装置が記憶する画像データとを合成して文書全体の画像データを作成する処理
を実行させるための画像作成プログラム。
A terminal device that receives image data of a search area corresponding to a search keyword from a document image distribution apparatus that distributes image data of a search area that is a search target area in the entire document in a fixed format, and displays the image data An image creation program installed in the
On the computer,
A process of storing image data of at least an area other than the search area in the entire area of the document in the fixed format in the storage device, and combining the received search area image data with the image data stored in the storage apparatus to obtain the document. An image creation program for executing a process of creating entire image data.
JP2002376260A 2002-12-26 2002-12-26 Document image distribution system and device, terminal device, and document image distribution program Pending JP2004206520A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002376260A JP2004206520A (en) 2002-12-26 2002-12-26 Document image distribution system and device, terminal device, and document image distribution program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002376260A JP2004206520A (en) 2002-12-26 2002-12-26 Document image distribution system and device, terminal device, and document image distribution program

Publications (1)

Publication Number Publication Date
JP2004206520A true JP2004206520A (en) 2004-07-22

Family

ID=32813763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002376260A Pending JP2004206520A (en) 2002-12-26 2002-12-26 Document image distribution system and device, terminal device, and document image distribution program

Country Status (1)

Country Link
JP (1) JP2004206520A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5259876B2 (en) * 2010-02-26 2013-08-07 楽天株式会社 Information processing apparatus, information processing method, and recording medium recording information processing program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5259876B2 (en) * 2010-02-26 2013-08-07 楽天株式会社 Information processing apparatus, information processing method, and recording medium recording information processing program
US8825670B2 (en) 2010-02-26 2014-09-02 Rakuten, Inc. Information processing device, information processing method, and recording medium that has recorded information processing program
US8949267B2 (en) 2010-02-26 2015-02-03 Rakuten, Inc. Information processing device, information processing method, and recording medium that has recorded information processing program

Similar Documents

Publication Publication Date Title
JP4931538B2 (en) Content distribution apparatus, content distribution method, and content distribution program
US20060044619A1 (en) Document processing apparatus and method
US6972863B2 (en) Direct barcode printing from internet database
US7770112B2 (en) Data conversion method and apparatus to partially hide data
JP2005108254A (en) Icon generation method, icon selection method, and document retrieval method
JP2009122760A (en) Document processing apparatus, document processing method, and document processing program
JP5551986B2 (en) Information processing apparatus, information processing method, and program
JP2004206520A (en) Document image distribution system and device, terminal device, and document image distribution program
JP4208566B2 (en) Document image search apparatus and method, document image search system, and program
JP6763173B2 (en) Document correction methods, document correction devices, and computer programs
JP2006229874A (en) Information processor, information processing method, information processing program, computer readable recording medium and information processing system
JP7317612B2 (en) Information processing device, information processing method and program
JP2007011683A (en) Document management support device
JP2002236677A (en) Data presentation method, information processing system, recording medium readable by computer and program
JP5310206B2 (en) Document processing apparatus, document processing method, and document processing program
CN112632973A (en) Text processing method, device, equipment and storage medium
JP2011238047A (en) Information processing apparatus and information processing method
JP2022019445A (en) Image processing apparatus, method, and program
JP2010072850A (en) Image processor
JP4804591B2 (en) Data conversion method, apparatus and program
JP2006215619A (en) Document creation support system, program and method
US8271874B2 (en) Method and apparatus for locating and transforming data
JP3480888B2 (en) Document information management system
JP2001297114A (en) Document processor
US11656819B2 (en) Information processing apparatus and printing request for designating documents based on a spoken voice

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040427

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051117

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071120