JP2007122392A - Device, method, and program for image processing, and storage medium - Google Patents

Device, method, and program for image processing, and storage medium Download PDF

Info

Publication number
JP2007122392A
JP2007122392A JP2005313399A JP2005313399A JP2007122392A JP 2007122392 A JP2007122392 A JP 2007122392A JP 2005313399 A JP2005313399 A JP 2005313399A JP 2005313399 A JP2005313399 A JP 2005313399A JP 2007122392 A JP2007122392 A JP 2007122392A
Authority
JP
Japan
Prior art keywords
data
search
image processing
page
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005313399A
Other languages
Japanese (ja)
Inventor
Shigeo Fukuoka
茂雄 福岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005313399A priority Critical patent/JP2007122392A/en
Publication of JP2007122392A publication Critical patent/JP2007122392A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Record Information Processing For Printing (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device, method, and program for image processing, and a storage medium capable of easily searching for a target document to be transmitted out of a large amount of documents. <P>SOLUTION: A multifunctional printer is provided with a scanner part 101, a printer part 102, an operation part 103, a modem 104, a network controller part 105, a device for image processing 106, an HDD 107, a memory 108, a transmitting/receiving part 109, a character recognition part 110, and a search part 112, and is further provided with a dictionary 111 for character recognition connected to the character recognition part 110, and a dictionary 113 for search connected to the search part 112. After dividing each of the plurality of the documents by pages and by regions of the respective pages, a plurality of regions are searched on the basis of a predetermined search keyword. Based on the search result, the region and its page and document with maximum scores as the number of hits of search by the predetermined keyword are selected. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、画像処理装置及び方法、並びにプログラム及び記憶媒体に関し、特に、読み取った画像データを送信する画像処理装置及び方法、並びにプログラム及び記憶媒体に関する。   The present invention relates to an image processing apparatus and method, a program, and a storage medium, and more particularly, to an image processing apparatus and method, a program, and a storage medium that transmit read image data.

近年、スキャナの普及により文書の電子化が進んでいる。多機能型プリンタ(MFP)にも読み取った画像データを蓄積するボックス機能が搭載され、また、メールやファイル送信(FTP(File Transfer Protocol),SMB(Server Message Block)等)で送信する機能を備えるようになってきている。
特開2002−059593号公報
In recent years, the digitization of documents has progressed with the spread of scanners. A multi-function printer (MFP) is also equipped with a box function for storing scanned image data, and also has a function for transmitting by mail or file transmission (FTP (File Transfer Protocol), SMB (Server Message Block), etc.). It has become like this.
JP 2002-059593 A

しかしながら、従来技術では、目的の文書をボックス内から見つけ出すのが困難であり、特に、ボックス内に大量の文書が存在する場合には、送信する目的文書を探すことが極めて困難であった。   However, in the conventional technique, it is difficult to find a target document from the box, and in particular, when a large number of documents exist in the box, it is extremely difficult to search for a target document to be transmitted.

本発明の目的は、大量の文書の中から、送信する目的文書を容易に探すことができる画像処理装置及び方法、並びにプログラム及び記憶媒体を提供することにある。   An object of the present invention is to provide an image processing apparatus and method, a program, and a storage medium that can easily find a target document to be transmitted from a large number of documents.

上記の目的を達成するために、請求項1記載の画像処理装置は、データ蓄積部に蓄積された複数のデータから所定のデータを検索する画像処理装置において、前記複数のデータの各々をページ毎及び各ページの部分領域毎に区分けした上で所定の検索情報に基づいて前記複数の部分領域を検索する検索手段と、前記検索結果に基づいて前記複数のデータを再構成する再構成手段とを備えることを特徴とする。   In order to achieve the above object, an image processing apparatus according to claim 1 is an image processing apparatus that retrieves predetermined data from a plurality of data stored in a data storage unit. And a search means for searching for the plurality of partial areas based on predetermined search information after dividing each partial area of each page, and a reconstruction means for reconfiguring the plurality of data based on the search results It is characterized by providing.

請求項7記載の画像処理方法は、データ蓄積部に蓄積された複数のデータから所定のデータを検索する画像処理方法において、前記複数のデータの各々をページ毎及び各ページの部分領域毎に区分けした上で所定の検索情報に基づいて前記複数の部分領域を検索する検索ステップと、前記検索結果に基づいて前記複数のデータを再構成する再構成ステップとを備えることを特徴とする。   The image processing method according to claim 7 is an image processing method for retrieving predetermined data from a plurality of data stored in a data storage unit, wherein each of the plurality of data is classified for each page and for each partial region of each page. And a search step for searching for the plurality of partial areas based on predetermined search information, and a reconstruction step for reconfiguring the plurality of data based on the search results.

請求項13記載の画像処理プログラムは、データ蓄積部に蓄積された複数のデータから所定のデータを検索する画像処理プログラムにおいて、前記複数のデータの各々をページ毎及び各ページの部分領域毎に区分けした上で所定の検索情報に基づいて前記複数の部分領域を検索する検索モジュールと、前記検索結果に基づいて前記複数のデータを再構成する再構成モジュールとをコンピュータに実行させることを特徴とする。   An image processing program according to claim 13 is an image processing program for retrieving predetermined data from a plurality of data stored in a data storage unit, and divides each of the plurality of data into pages and partial areas of each page. And a computer that executes a search module that searches the plurality of partial areas based on predetermined search information and a reconfiguration module that reconfigures the plurality of data based on the search results. .

請求項12記載のコンピュータ読取り可能な記憶媒体は、請求項11記載のプログラムを格納することを特徴とする。   A computer-readable storage medium according to a twelfth aspect stores the program according to the eleventh aspect.

本発明によれば、まず、複数のデータの各々をページ毎及び各ページの部分領域毎に区分けした上で所定の検索情報に基づいて複数の部分領域を検索する。そして、この検索結果に基づいて複数のデータを再構成するので、大量の文書の中から目的文書を容易に探すことができる。   According to the present invention, first, a plurality of partial areas are searched based on predetermined search information after each of a plurality of data is divided into pages and partial areas of each page. Since a plurality of data is reconstructed based on the search result, the target document can be easily searched from a large number of documents.

以下、本発明の実施の形態を図面を参照しながら詳述する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の実施の形態に係る画像処理装置を備える多機能型プリンタ(MFP)の構成を概略的に示すブロック図である。   FIG. 1 is a block diagram schematically showing a configuration of a multifunction printer (MFP) including an image processing apparatus according to an embodiment of the present invention.

図1において、多機能型プリンタ(MFP、複合機とも言う)は、スキャナ部101、プリンタ部102、操作部103,モデム104、ネットワークコントローラ部105、画像処理装置106、HDD107、メモリ108、送受信部109、文字認識部110、及び検索部112を備え、これらは、システムバスによって接続されている。MFPは、さらに、文字認識部110に接続された文字認識用辞書111、及び検索部112に接続された検索用辞書113を備える。   In FIG. 1, a multifunction printer (also referred to as an MFP or a multifunction device) includes a scanner unit 101, a printer unit 102, an operation unit 103, a modem 104, a network controller unit 105, an image processing device 106, an HDD 107, a memory 108, and a transmission / reception unit. 109, a character recognition unit 110, and a search unit 112, which are connected by a system bus. The MFP further includes a character recognition dictionary 111 connected to the character recognition unit 110 and a search dictionary 113 connected to the search unit 112.

スキャナ部101は、画像を取り込む。プリンタ部102は、コピーやコンピュータ等からの印刷をする。操作部103は、MFPの操作を行い、通常はタッチパネル付きの液晶ディスプレイである。モデム104は、ファックス送受信時に使用される。ここから公衆回線へ接続することができる。ネットワークコントローラ部105は、通常Ethernet(登録商標)を使いLANへ接続される。   The scanner unit 101 captures an image. The printer unit 102 performs copying and printing from a computer or the like. The operation unit 103 operates the MFP and is usually a liquid crystal display with a touch panel. The modem 104 is used at the time of fax transmission / reception. You can connect to the public line from here. The network controller unit 105 is normally connected to the LAN using Ethernet (registered trademark).

画像処理部106は、YCbCrとRGB等の色空間変換の相互変換やJPEG,MMRといった画像の圧縮伸張等の処理を行う。ハードディスクドライブ(HDD)107(データ蓄積部)は、スキャナ部101から読み取った画像等を一時的に蓄積し、またMFPの蓄積機能のためのデータを保存する領域として使用される。メモリ108は、画像処理を行う場合のワークエリア等として使用される。送受信部109は、ファイルを送受信する場合にネットワークコントローラ部105を操作して、実際の送受信処理を行う。文字認識部110は、メモリ108上に展開された画像データから、文字領域を識別し、文字認識処理を行う。   The image processing unit 106 performs processing such as mutual conversion between color space conversions such as YCbCr and RGB, and image compression / decompression such as JPEG and MMR. A hard disk drive (HDD) 107 (data storage unit) is used as an area for temporarily storing images read from the scanner unit 101 and storing data for the storage function of the MFP. The memory 108 is used as a work area when image processing is performed. The transmission / reception unit 109 operates the network controller unit 105 to perform actual transmission / reception processing when transmitting / receiving a file. The character recognition unit 110 identifies a character region from the image data developed on the memory 108 and performs character recognition processing.

文字認識用辞書111は、文字認識部が使用し、通常のDRAM上に置かれてもよいし、ROMであってもよい。検索部112は、操作部から入力された検索キーワードを用い、文字認識部110が出力した、文字列を検索してページのスコアを算出する。検索用辞書113は、検索部112によって使用される。   The character recognition dictionary 111 is used by the character recognition unit and may be placed on a normal DRAM or a ROM. The search unit 112 searches the character string output by the character recognition unit 110 using the search keyword input from the operation unit, and calculates the score of the page. The search dictionary 113 is used by the search unit 112.

1.スキャンによる文書の蓄積
MFPの蓄積機能は、スキャンした画像、ファックス受信した画像、メール等の受信機能による画像、PDLによる画像等を蓄積することができる。メール等の受信機能は、ネットワークインターフェースを経由して受信し、PDLによる画像は、ネットワークインターフェースやUSB等のコンピュータと直接接続するインターフェースを経由して受信する。
1. Accumulation of Documents by Scanning The accumulation function of the MFP can accumulate scanned images, images received by fax, images by receiving functions such as mail, images by PDL, and the like. A receiving function such as mail is received via a network interface, and an image by PDL is received via an interface directly connected to a computer such as a network interface or USB.

ここでは、スキャナ部101から読み取った画像をHDD107へ蓄積する場合について説明する。   Here, a case where an image read from the scanner unit 101 is stored in the HDD 107 will be described.

操作部103を操作し、蓄積機能を呼び出し、ADF(Auto Document Feeder)に原稿がセットされているものとする。また画像の取り込みモードは24ビットフルカラーがセットされているものとする。   It is assumed that the operation unit 103 is operated to call a storage function, and a document is set in an ADF (Auto Document Feeder). Further, it is assumed that 24-bit full color is set as the image capture mode.

スタートボタンが押されると、スキャナ部101が動作し、画像処理部106でガンマ補正やJPEG圧縮の画像処理が行われ、HDD107に保存される。HDD107に空き領域があり、ADFに次の原稿があれば次ページのスキャン動作を行うことを繰り返すことで原稿の全ページのスキャンを行う。HDD107に空き領域がなければ、操作部103に「HDDがいっぱいです」等のメッセージを表示し、処理を中断する。   When the start button is pressed, the scanner unit 101 operates, the image processing unit 106 performs gamma correction and JPEG compression image processing, and the image is stored in the HDD 107. If there is an empty area in the HDD 107 and there is a next document in the ADF, the next page scan operation is repeated to scan all pages of the document. If there is no free space in the HDD 107, a message such as “HDD is full” is displayed on the operation unit 103, and the processing is interrupted.

全てのページの読み込みが終了すると、HDD107上には図2に示す文書データが蓄積される。   When all the pages have been read, the document data shown in FIG.

2.蓄積された文書データに対する検索用データ生成
スキャナ部101によるスキャンが終了した時点では、HDD107上に図2に示す文書データが蓄積されている。この時点では、画像データと日付程度のデータしか付加されていないため、これにレイアウトデータやテキストコード、タイトル、要約等のデータを付加する処理を行う。この処理は、図3の構成によって実行される。
2. Search Data Generation for Stored Document Data When the scan by the scanner unit 101 is completed, the document data shown in FIG. At this time, since only image data and date data are added, a process of adding data such as layout data, text code, title, and summary is performed. This process is executed by the configuration shown in FIG.

図3は、図2の文書データにデータ処理を行う動作を説明する図である。   FIG. 3 is a diagram for explaining an operation for performing data processing on the document data of FIG.

図3において、ページ画像201は、スキャナ部101で読み取られた文書データであって、JPEGで圧縮してある。HDD読み出し部202は、HDDに記録されているJPEGデータ201を読み出し、JPEG伸張部203へ符号データを送る。JPEG伸張部203は、受け取ったJPEGのデータを復号し、YCbCrのラスタ画像を生成し画像二値化部204へ送信する。画像二値化部204は、受け取ったYCbCrのラスタ画像から輝度成分(Y成分)のみを抽出し、あらかじめ決められた閾値に基づき二値化し、二値画像データ205を出力する。領域識別部206は、得られた二値画像データ205から、通常の文字認識と同様に、文字外接矩形の分布の検出や外接矩形の結合等を行い、レイアウトデータ207を生成する。   In FIG. 3, a page image 201 is document data read by the scanner unit 101 and is compressed by JPEG. The HDD reading unit 202 reads JPEG data 201 recorded in the HDD and sends code data to the JPEG decompression unit 203. The JPEG decompression unit 203 decodes the received JPEG data, generates a YCbCr raster image, and transmits it to the image binarization unit 204. The image binarization unit 204 extracts only the luminance component (Y component) from the received YCbCr raster image, binarizes it based on a predetermined threshold value, and outputs binary image data 205. From the obtained binary image data 205, the area identification unit 206 detects the distribution of the circumscribed rectangle of the character, combines the circumscribed rectangle, and the like to generate the layout data 207, as in normal character recognition.

例えば、二値画像データ205が、図14の左側面に示す画像である場合、連結黒画素を判別したり、水平方向及び垂直方向のヒストグラムを取ったりすることにより、図14の右側部に示すように属性ごとの領域に分割する。領域分割処理については公知の技術を用いることが可能である。このような領域分割結果(例えば図14の右や図15(A))に基づいて、入れ子になっている各領域の配置構造を示すツリー型のデータ構造(例えば図15(B))を作成し、レイアウトデータ207として保持される。   For example, when the binary image data 205 is the image shown on the left side of FIG. 14, it is shown on the right side of FIG. 14 by determining connected black pixels or taking histograms in the horizontal and vertical directions. As shown in FIG. A known technique can be used for the area division processing. Based on such region segmentation results (for example, the right side of FIG. 14 or FIG. 15A), a tree-type data structure (for example, FIG. 15B) showing the arrangement structure of each nested region is created. And stored as layout data 207.

文字認識部208は、二値画像205とレイアウトデータ207に含まれている文字領域の情報を用い文字認識処理を行い、テキストコードデータ209を生成する。HDD書き込み部210は、レイアウトデータ207とテキストコードデータ209をHDD107に書き込み、HDD107上にレイアウトデータ211とテキストコードデータ212を生成する。   The character recognition unit 208 performs character recognition processing using information on the character area included in the binary image 205 and the layout data 207 to generate text code data 209. The HDD writing unit 210 writes layout data 207 and text code data 209 to the HDD 107, and generates layout data 211 and text code data 212 on the HDD 107.

以上が1文書中の1ページ分の画像に対する処理である。この処理を全てのページに対して行うことで図4に示す文書データの構造がHDD107上に生成される。   The above is the processing for the image for one page in one document. By performing this process on all pages, the document data structure shown in FIG.

図3において、HDD読み出し部202、JPEG伸張部203、画像二値化部204、及び領域識別部206は、図1における画像処理部106に対応し、文字認識部208は図1における文字認識部110に対応する。   In FIG. 3, an HDD reading unit 202, a JPEG decompression unit 203, an image binarization unit 204, and an area identification unit 206 correspond to the image processing unit 106 in FIG. 1, and a character recognition unit 208 is a character recognition unit in FIG. Corresponds to 110.

3.タイトル情報生成
図5は、図4の文書データにタイトル付加処理を行う動作を説明するブロック図である。
3. Title Information Generation FIG. 5 is a block diagram illustrating an operation for performing a title addition process on the document data of FIG.

文書のタイトルは、先頭ページのレイアウトデータとテキストコードデータから生成する。文書データ301は、図4の文書データと同じもので、スキャナ部101から取り込まれ、各ページ画像とレイアウトデータ、テキストコードデータが含まれている。この文書データからHDD読み出し部302は、先頭ページのページデータに含まれるレイアウトデータ303とテキストコードデータ304を読み出す。タイトル生成部305は、レイアウトデータとテキストコードデータから、タイトル306を生成する。タイトル306の生成方法は、例えば、一番上に存在する文字領域のテキストコードから一行分の文字コードデータを取り出し、タイトルとする。また、レイアウトデータとテキストコードデータから、一番大きな文字で記述されている文字列を含む文字領域を探し出しタイトルとする等の方法がある。HDD書き込み部307は、生成されたタイトル306をHDD107の文書情報に追加する。この結果HDD107には文書データ308が生成される。図5において、HDD読み出し部302、タイトル生成部305、及びHDD書き込み部307は図1における画像処理部106に対応する。   The document title is generated from the layout data and text code data of the first page. The document data 301 is the same as the document data in FIG. 4 and is taken from the scanner unit 101 and includes each page image, layout data, and text code data. From this document data, the HDD reading unit 302 reads the layout data 303 and the text code data 304 included in the page data of the first page. The title generation unit 305 generates a title 306 from the layout data and text code data. As a method for generating the title 306, for example, one line of character code data is extracted from the text code of the character area existing at the top, and is used as the title. Also, there is a method of searching for a character area including a character string described by the largest character from layout data and text code data and using it as a title. The HDD writing unit 307 adds the generated title 306 to the document information of the HDD 107. As a result, document data 308 is generated in the HDD 107. In FIG. 5, an HDD reading unit 302, a title generation unit 305, and an HDD writing unit 307 correspond to the image processing unit 106 in FIG.

4.要約データ生成
図6は、図5の処理によって生成された文書データに要約データ付加処理を行う動作を概略的に示すブロック図である。
4). Summary Data Generation FIG. 6 is a block diagram schematically showing an operation of performing summary data addition processing on the document data generated by the processing of FIG.

図6において、要約データは、全てのページの、全てのテキストコードデータから表中の文字等本文ではないテキストコードを除いたテキストコードを用い生成する。   In FIG. 6, the summary data is generated by using a text code obtained by excluding a text code that is not a body such as characters in a table from all text code data of all pages.

文書データ401は、図5の文書データ306と同じもので、スキャナから取り込まれ、各ページ画像とレイアウトデータ、テキストコードデータが含まれている。この文書データからHDD読み出し部402は、まず、各ページのページデータに含まれるレイアウトデータ403とテキストコードデータ404を読み出す。テキスト抽出部405は、レイアウトデータとテキストコードデータを用い、表中の文字や図表のキャプション等の本文ではない部分を除いた本文テキスト406を生成する。要約生成部407は、入力された本文テキスト情報から要約データ408を生成する。HDD書き込み部409は、生成された要約データ409をHDD107の文書データに追加する。この結果HDDには文書データ410が生成される。これにより、HDD107には図7の検索情報付き文書データを生成することができる。   The document data 401 is the same as the document data 306 in FIG. 5 and is taken from the scanner, and includes each page image, layout data, and text code data. From this document data, the HDD reading unit 402 first reads layout data 403 and text code data 404 included in the page data of each page. The text extraction unit 405 uses the layout data and the text code data to generate body text 406 excluding non-body parts such as characters in the table and captions of the chart. The summary generation unit 407 generates summary data 408 from the input body text information. The HDD writing unit 409 adds the generated summary data 409 to the document data in the HDD 107. As a result, document data 410 is generated in the HDD. As a result, the document data with search information shown in FIG.

図6において、HDD読み出し部402、テキスト抽出部405、要約生成部407、及びHDD書き込み部409は図1における画像処理部106に対応する。   In FIG. 6, an HDD reading unit 402, a text extracting unit 405, a summary generating unit 407, and an HDD writing unit 409 correspond to the image processing unit 106 in FIG.

5.検索送信機能
図8は、図7の文書データの検索処理を行う動作を説明する図である。
5. Search / Transmission Function FIG. 8 is a diagram for explaining the operation of performing the document data search process of FIG.

ここまでの処理によって、HDD107には複数の文書データが保存されており、操作部103から検索用のキーワードとして「ABC」が入力されたものとする。   By the processing so far, a plurality of document data is stored in the HDD 107, and “ABC” is input from the operation unit 103 as a search keyword.

図8において、検索部506は、操作部から入力された検索キーワードや検索条件(カラー画像だけに限定する等)を用い、以下のように、各文書のスコアを求める。   In FIG. 8, a search unit 506 obtains the score of each document as follows using a search keyword and search conditions (limited to color images only) input from the operation unit.

文書データ501は検索対象となり、各ページ画像とレイアウトデータ、テキストコードデータが含まれている。この文書データ501からHDD読み出し部502は、まず、各ページのページデータに含まれるレイアウトデータ503とテキストコードデータ504を読み出す。検索部506は、レイアウトデータ503とテキストコードデータ504と操作部から入力された検索クエリ505を用い、各ページに含まれる各文字領域に対して検索結果によるスコア507を求める。検索クエリ505は、操作部から入力された検索キーワードや検索条件(カラー画像だけに限定する等)を含む検索情報を用い生成される。ここでは、検索キーワードにヒットした回数をスコア507とする。この結果の例を図9に示す。   The document data 501 is a search target and includes each page image, layout data, and text code data. First, the HDD reading unit 502 reads the layout data 503 and the text code data 504 included in the page data of each page from the document data 501. The search unit 506 uses the layout data 503, the text code data 504, and the search query 505 input from the operation unit to obtain a search result score 507 for each character area included in each page. The search query 505 is generated using search information including a search keyword and a search condition (limited to color images only) input from the operation unit. Here, the score 507 is the number of times the search keyword has been hit. An example of the result is shown in FIG.

この処理を全ての文書に対して行い、各文書の検索スコア507を求める(再構成手段)。この結果、図10に示すものが得られる。   This processing is performed for all documents, and a search score 507 for each document is obtained (reconstruction means). As a result, the one shown in FIG. 10 is obtained.

次に、この検索結果を1つのファイルにまとめて送信する。ここでは、テキストと画像データを1つのファイルの中に入れることが可能であるPDF形式で送信する場合について説明する。   Next, the search results are sent together in one file. Here, a case will be described in which text and image data are transmitted in the PDF format that can be included in one file.

図10によれば、文書あたりのスコアは文書1の方が文書5より大きいため、文書1の情報を検索結果ページの先頭に配置し、その後に文書5の情報を配置する。文書1の検索結果としてはページ2の領域3の領域スコアが一番高いため、この領域の部分画像をページ画像から切り出し、検索ページに配置する。また文書5の検索結果としては、ページ2の領域1が選ばれる。検索ページには、各文書のタイトルも共に配置する。図10のような検索結果の場合は、図11のような検索ページが生成されることになる。検索ページの後には、文書1と文書5の全ページを配置する。検索ページ中の各文書のタイトル部分には、各文書の先頭ページへのリンク情報を埋め込んでおく。また、検索ページ中の部分画像にも、その画像が含まれているページへのリンク情報を埋め込んでおく。実際の送信ファイル形式は図12のようになる。このようにリンク情報を埋め込んでおくことで、受信側でそのファイルを開いたときに、リンク情報を辿って対象ページを参照することができるようになる。   According to FIG. 10, since the score per document is larger in document 1 than in document 5, information on document 1 is arranged at the top of the search result page, and information on document 5 is arranged thereafter. As a search result of the document 1, since the area score of the area 3 of the page 2 is the highest, a partial image of this area is cut out from the page image and arranged on the search page. As a search result of the document 5, the area 1 of the page 2 is selected. The title of each document is also placed on the search page. In the case of the search result as shown in FIG. 10, a search page as shown in FIG. 11 is generated. All pages of document 1 and document 5 are arranged after the search page. In the title portion of each document in the search page, link information to the first page of each document is embedded. Also, link information to the page including the image is embedded in the partial image in the search page. The actual transmission file format is as shown in FIG. By embedding the link information in this way, when the file is opened on the receiving side, the target page can be referred to by following the link information.

このように生成したPDFファイルを図1中の送受信部109を用いファイルサーバ等へ送信する。   The PDF file generated in this way is transmitted to a file server or the like using the transmission / reception unit 109 in FIG.

上記実施の形態では、検索によってヒットした文書の全てのページが送信されることになるが、MFPがWebサーバとしても動作している場合は、ヒットした文書の全てのページを添付するのではなく、その文書にアクセス可能なURLを添付してもよい。この場合の送信ファイルの例を図13に示す。   In the above embodiment, all pages of the document hit by the search are transmitted. However, when the MFP also operates as a Web server, not all pages of the hit document are attached. A URL that can access the document may be attached. An example of the transmission file in this case is shown in FIG.

本実施の形態によれば、複数の文書の各々をページ毎及び各ページの領域毎に区分けした上で所定の検索キーワードに基づいて複数の領域を検索し、この検索結果に基づいて、所定のキーワードによる検索のヒット数であるスコアが最も多い領域、及びそのページ及びその文書を選択する。   According to the present embodiment, each of a plurality of documents is divided into pages and regions of each page, and a plurality of regions are searched based on a predetermined search keyword. An area having the highest score, which is the number of hits for a search by keyword, and its page and its document are selected.

また、本発明の目的は、上記実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(又は記録媒体)を、システム又は装置に供給し、そのシステム又は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。   Another object of the present invention is to supply a storage medium (or recording medium) in which a program code of software for realizing the functions of the above-described embodiments is recorded to a system or apparatus, and to perform computer (or CPU or MPU) of the system or apparatus. Needless to say, this is also achieved by reading and executing the program code stored in the storage medium.

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。   In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an operating system (OS) or the like running on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Further, after the program code read from the storage medium is written in a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the case where the CPU or the like provided in the card or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.

また、上記プログラムは、上述した実施の形態の機能をコンピュータで実現することができればよく、その形態は、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給されるスクリプトデータ等の形態を有するものでもよい。   The above-described program only needs to be able to realize the functions of the above-described embodiments by a computer, and the form includes forms such as object code, a program executed by an interpreter, and script data supplied to the OS. But you can.

プログラムを供給する記録媒体としては、例えば、RAM、NV−RAM、フロッピー(登録商標)ディスク、光ディスク、光磁気ディスク、CD−ROM、MO、CD−R、CD−RW、DVD(DVD−ROM、DVD−RAM、DVD−RW、DVD+RW)、磁気テープ、不揮発性のメモリカード、他のROM等の上記プログラムを記憶できるものであればよい。又は、上記プログラムは、インターネット、商用ネットワーク、若しくはローカルエリアネットワーク等に接続される不図示の他のコンピュータやデータベース等からダウンロードすることにより供給される。   As a recording medium for supplying the program, for example, RAM, NV-RAM, floppy (registered trademark) disk, optical disk, magneto-optical disk, CD-ROM, MO, CD-R, CD-RW, DVD (DVD-ROM, DVD-RAM, DVD-RW, DVD + RW), magnetic tape, non-volatile memory card, other ROM, etc. may be used as long as they can store the above programs. Alternatively, the program is supplied by downloading from another computer or database (not shown) connected to the Internet, a commercial network, a local area network, or the like.

本発明の実施の形態に係る画像処理装置を備える多機能型プリンタ(MFP)の構成を概略的に示すブロック図である。1 is a block diagram schematically showing a configuration of a multifunction printer (MFP) including an image processing apparatus according to an embodiment of the present invention. 図1におけるHDDに蓄積された文書データを説明する図である。It is a figure explaining the document data accumulate | stored in HDD in FIG. 図2の文書データにデータ処理を行う動作を説明する図である。It is a figure explaining the operation | movement which performs a data process to the document data of FIG. 図3のデータ処理によって生成された文書データを説明する図である。It is a figure explaining the document data produced | generated by the data processing of FIG. 図4の文書データにタイトル付加処理を行う動作を説明するブロック図である。FIG. 5 is a block diagram illustrating an operation for performing a title addition process on the document data of FIG. 4. 図5の文書データに要約データ付加処理を行う動作を概略的に示すブロック図である。FIG. 6 is a block diagram schematically showing an operation of performing summary data addition processing on the document data of FIG. 5. 図6の要約データ付加処理によって生成された文書データを説明する図である。It is a figure explaining the document data produced | generated by the summary data addition process of FIG. 図7の文書データの検索処理を行う動作を説明する図である。It is a figure explaining the operation | movement which performs the search process of the document data of FIG. 図8の検索処理の結果の一例を示す図である。It is a figure which shows an example of the result of the search process of FIG. 図8の検索処理の結果の一例を示す図であり、全ての文書を対象とした場合を示す。It is a figure which shows an example of the result of the search process of FIG. 8, and shows the case where all the documents are object. 図8の検索処理の結果としての検索ページを説明する図である。It is a figure explaining the search page as a result of the search process of FIG. 図8の検索処理の結果としての送信ファイル形式を説明する図である。It is a figure explaining the transmission file format as a result of the search process of FIG. 図8の検索処理の結果としての送信ファイル形式を説明する図であり、アクセス可能なURLを添付した場合を示す。It is a figure explaining the transmission file format as a result of the search process of FIG. 8, and shows the case where accessible URL is attached. 領域分割処理の一例を示す図である。It is a figure which shows an example of an area | region division process. 領域分割処理結果に基づくレイアウトデータを説明する図である。It is a figure explaining the layout data based on a region division process result.

符号の説明Explanation of symbols

101 スキャナ部
102 プリンタ部
103 操作部
104 モデム
105 ネットワークコントローラ部
106 画像処理部
107 ストレージ部
108 メモリ
109 送受信部
110 文字認識部
111 文字認識用辞書
112 検索部
113 検索用辞書
DESCRIPTION OF SYMBOLS 101 Scanner part 102 Printer part 103 Operation part 104 Modem 105 Network controller part 106 Image processing part 107 Storage part 108 Memory 109 Transmission / reception part 110 Character recognition part 111 Character recognition dictionary 112 Search part 113 Search dictionary

Claims (14)

データ蓄積部に蓄積された複数のデータから所定のデータを検索する画像処理装置において、
前記複数のデータの各々をページ毎及び各ページの部分領域毎に区分けした上で所定の検索情報に基づいて前記複数の部分領域を検索する検索手段と、前記検索結果に基づいて前記複数のデータを再構成する再構成手段とを備えることを特徴とする画像処理装置。
In an image processing apparatus that retrieves predetermined data from a plurality of data stored in a data storage unit,
Search means for searching for the plurality of partial areas based on predetermined search information after dividing each of the plurality of data for each page and each partial area of each page, and the plurality of data based on the search results An image processing apparatus comprising: reconstruction means for reconfiguring the image processing apparatus.
前記検索情報は検索キーワードから成る請求項1記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the search information includes a search keyword. 前記再構成手段は、前記所定に検索キーワードによる検索のヒット数が最も多い部分領域、及びそのページ及びそのデータを選択することを特徴とする請求項2記載の画像処理装置。   3. The image processing apparatus according to claim 2, wherein the reconstruction unit selects a partial area having the largest number of search hits based on the predetermined search keyword, its page, and its data. 前記再構成手段は、前記所定に検索キーワードによる検索のヒット数が最も多いページ、及びそのデータを選択することを特徴とする請求項2記載の画像処理装置。   The image processing apparatus according to claim 2, wherein the reconfiguration unit selects a page having the largest number of search hits according to the predetermined search keyword and its data. 前記再構成手段は、前記所定に検索キーワードによる検索のヒット数が最も多いデータを選択することを特徴とする請求項2記載の画像処理装置。   The image processing apparatus according to claim 2, wherein the reconstruction unit selects data having the largest number of search hits based on the search keyword. 前記データは文書データであることを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the data is document data. データ蓄積部に蓄積された複数のデータから所定のデータを検索する画像処理方法において、
前記複数のデータの各々をページ毎及び各ページの部分領域毎に区分けした上で所定の検索情報に基づいて前記複数の部分領域を検索する検索ステップと、前記検索結果に基づいて前記複数のデータを再構成する再構成ステップとを備えることを特徴とする画像処理方法。
In an image processing method for retrieving predetermined data from a plurality of data stored in a data storage unit,
A search step of searching each of the plurality of partial areas based on predetermined search information after dividing each of the plurality of data for each page and each partial area of each page, and the plurality of data based on the search result An image processing method comprising: a reconstruction step for reconstructing the image.
前記検索情報は検索キーワードから成る請求項7記載の画像処理方法。   The image processing method according to claim 7, wherein the search information includes a search keyword. 前記再構成ステップは、前記所定に検索キーワードによる検索のヒット数が最も多い部分領域、及びそのページ及びそのデータを選択することを特徴とする請求項7記載の画像処理方法。   8. The image processing method according to claim 7, wherein the reconstructing step selects the partial area having the largest number of search hits by the search keyword, its page, and its data. 前記再構成ステップは、前記所定に検索キーワードによる検索のヒット数が最も多いページ、及びそのデータを選択することを特徴とする請求項7記載の画像処理方法。   8. The image processing method according to claim 7, wherein the reconstructing step selects a page having the largest number of search hits according to the predetermined search keyword and its data. 前記再構成ステップは、前記所定に検索キーワードによる検索のヒット数が最も多いデータを選択することを特徴とする請求項7記載の画像処理方法。   8. The image processing method according to claim 7, wherein the reconstruction step selects data having the largest number of search hits based on the predetermined search keyword. 前記データは文書データであることを特徴とする請求項7乃至11のいずれか1項に記載の画像処理方法。   12. The image processing method according to claim 7, wherein the data is document data. データ蓄積部に蓄積された複数のデータから所定のデータを検索する画像処理プログラムにおいて、
前記複数のデータの各々をページ毎及び各ページの部分領域毎に区分けした上で所定の検索情報に基づいて前記複数の部分領域を検索する検索モジュールと、前記検索結果に基づいて前記複数のデータを再構成する再構成モジュールとをコンピュータに実行させることを特徴とする画像処理プログラム。
In an image processing program for retrieving predetermined data from a plurality of data stored in a data storage unit,
A search module that searches the plurality of partial areas based on predetermined search information after dividing each of the plurality of data into pages and partial areas of each page, and the plurality of data based on the search results An image processing program for causing a computer to execute a reconstruction module for reconfiguring the image.
請求項11記載のプログラムを格納することを特徴とするコンピュータ読取り可能な記憶媒体。   A computer-readable storage medium storing the program according to claim 11.
JP2005313399A 2005-10-27 2005-10-27 Device, method, and program for image processing, and storage medium Pending JP2007122392A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005313399A JP2007122392A (en) 2005-10-27 2005-10-27 Device, method, and program for image processing, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005313399A JP2007122392A (en) 2005-10-27 2005-10-27 Device, method, and program for image processing, and storage medium

Publications (1)

Publication Number Publication Date
JP2007122392A true JP2007122392A (en) 2007-05-17

Family

ID=38146181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005313399A Pending JP2007122392A (en) 2005-10-27 2005-10-27 Device, method, and program for image processing, and storage medium

Country Status (1)

Country Link
JP (1) JP2007122392A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008022107A1 (en) 2007-05-07 2008-11-13 Denso Corp., Kariya-shi Wheel recognition device and tire pressure detection device with the function of the wheel recognition
JP2010140136A (en) * 2008-12-10 2010-06-24 Konica Minolta Business Technologies Inc Image processing apparatus, image data management method, and computer program
US8605297B2 (en) 2008-03-07 2013-12-10 Jl Holdings Aps Method of scanning to a field that covers a delimited area of a document repeatedly

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008022107A1 (en) 2007-05-07 2008-11-13 Denso Corp., Kariya-shi Wheel recognition device and tire pressure detection device with the function of the wheel recognition
US8605297B2 (en) 2008-03-07 2013-12-10 Jl Holdings Aps Method of scanning to a field that covers a delimited area of a document repeatedly
JP2010140136A (en) * 2008-12-10 2010-06-24 Konica Minolta Business Technologies Inc Image processing apparatus, image data management method, and computer program
JP4645731B2 (en) * 2008-12-10 2011-03-09 コニカミノルタビジネステクノロジーズ株式会社 Image processing apparatus, image data management method, and computer program

Similar Documents

Publication Publication Date Title
US7545992B2 (en) Image processing system and image processing method
JP5111268B2 (en) Image processing apparatus, image processing method, program thereof, and storage medium
US8130404B2 (en) Image processing system and image processing apparatus
US8224131B2 (en) Image processing apparatus and image processing method
US8493595B2 (en) Image processing apparatus, image processing method, program, and storage medium
JP2007034847A (en) Retrieval apparatus and retrieval method
JP2007193446A (en) Image processing system and ruled line extracting program
JP2008146258A (en) Image processor and image processing method
JP2007193750A (en) Image processing device, character determination program, and character determination method
US8724165B2 (en) Image data generating device, image data generating method, and computer-readable storage medium for generating monochrome image data and color image data
EP2403228B1 (en) Image scanning apparatus, computer readable medium, and image storing method
JP4089736B2 (en) Image processing apparatus, image processing method, and image processing program
JP2007025814A (en) Image processing system, image processing method, and computer program
JP4960796B2 (en) Image processing apparatus, image processing method, program thereof, and storage medium
JP2007280362A (en) Job history management system, control method, program and storage medium
JP2007122392A (en) Device, method, and program for image processing, and storage medium
JP5098614B2 (en) Method for controlling sentence processing apparatus and sentence processing apparatus
US8014016B2 (en) Retrieving system and retrieving method
JP2002369011A (en) Image processing apparatus, image processing method and image processing program
JP4710672B2 (en) Character color discrimination device, character color discrimination method, and computer program
JP7301529B2 (en) Image processing device, image processing method, and program
JP6753370B2 (en) Document reader
JP2010073165A (en) Information processor, control method for the same, and computer program
JP2005316813A (en) Image processing method, image processing program, and image processor
JP2012204906A (en) Image processing device and program

Legal Events

Date Code Title Description
RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626