JP2008040834A - Image processor and image processing program - Google Patents

Image processor and image processing program Download PDF

Info

Publication number
JP2008040834A
JP2008040834A JP2006214886A JP2006214886A JP2008040834A JP 2008040834 A JP2008040834 A JP 2008040834A JP 2006214886 A JP2006214886 A JP 2006214886A JP 2006214886 A JP2006214886 A JP 2006214886A JP 2008040834 A JP2008040834 A JP 2008040834A
Authority
JP
Japan
Prior art keywords
information
document
image data
ruled line
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006214886A
Other languages
Japanese (ja)
Inventor
Kunikazu Ueno
邦和 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006214886A priority Critical patent/JP2008040834A/en
Publication of JP2008040834A publication Critical patent/JP2008040834A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an image processor and an image processing program which can efficiently retrieve document data that shows paper document in which ruled lines and characters are included. <P>SOLUTION: An image data acquisition means reads a paper document in which ruled lines and characters are included and acquires information included in the paper document as image data. An extraction means extracts characteristic information and character information that shows characteristics of the ruled lines from the image data acquired by the image data acquisition means. A discrimination information imparting means imparts discrimination information which discriminates characteristic information extracted by the extraction means. A recording means records document information including discrimination information granted by the discrimination information imparting means, characteristic information, and character information. An acquisition means acquires character string information and discrimination information to retrieve desired document information from a plurality of document information recorded by the recording means. A retrieval means retrieves document information having discrimination information coinciding with discrimination information acquired by the acquisition means from a plurality of recorded document information, and retrieves character string information from the retrieved document information. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、画像処理装置、及び画像処理プログラムに関する。   The present invention relates to an image processing apparatus and an image processing program.

従来より、経理業務などにおいて帳票のような主に表罫線で構成された紙文書をスキャンし、XML等の構造化文書に変換した後、データベース登録することがある。この変換された文書はそのままの形でデータベースに登録することが多い。このような文書をデータベースに登録する技術として、特許文献1には、文書名を付して記録媒体に文書を登録する文書作成装置が開示されている。
特開平3−40065号公報
Conventionally, a paper document mainly composed of table ruled lines such as a form is scanned in an accounting operation or the like, converted into a structured document such as XML, and then registered in a database. In many cases, the converted document is registered in a database as it is. As a technique for registering such a document in a database, Patent Document 1 discloses a document creation apparatus that registers a document on a recording medium with a document name.
Japanese Patent Laid-Open No. 3-40065

しかしながら、罫線が記された帳票等の限られた文書を中心とするデータベースの場合には、ユーザが検索する際に用いるキーワードの内容が類似しており(例:「品名」、「単価」、「個数」、「総額」、「金額」、「税込み」、など)、結果として、多くの文書がヒットすることが多く、所望の帳票を効率よく検索することが困難であった。   However, in the case of a database centered on a limited document such as a form with a ruled line, the contents of keywords used when a user searches are similar (for example, “product name”, “unit price”, As a result, many documents are often hit, and it is difficult to efficiently search for a desired form.

キーワードを用いた検索の他に、インデックス(タイトル)検索などの仕組みもあるが、これだけでも類似性の高いタイトルの文書は誤って検索されてしまうことが多い。   In addition to search using keywords, there is a mechanism such as index (title) search, but this alone often results in erroneous search for documents with titles with high similarity.

本発明は上記問題点に鑑み、罫線及び文字が記載された紙文書を示す文書データを効率よく検索することを可能とする画像処理装置、及び画像処理プログラムを提供することを目的とする。   In view of the above problems, an object of the present invention is to provide an image processing apparatus and an image processing program that can efficiently search document data indicating a paper document in which ruled lines and characters are described.

上記目的を達成するために請求項1の画像処理装置は、罫線及び文字が記載された紙文書を読み込み、該紙文書に記載された情報を画像データとして取得する画像データ取得手段と、前記画像データ取得手段により取得された画像データから、前記罫線の特徴を示す特徴情報、及び前記文字を示す文字情報を抽出する抽出手段と、前記抽出手段により抽出された特徴情報を識別するための識別情報を付与する識別情報付与手段と、前記識別情報付与手段により付与された識別情報、前記特徴情報、及び前記文字情報を含む文書情報を記録する記録手段と、前記記録手段により複数の紙文書に対応して記録された複数の前記文書情報から、所望する文書情報を検索するための文字列情報、及び前記識別情報を取得する取得手段と、前記記録手段により記録された前記複数の文書情報から、前記取得手段により取得された前記識別情報に一致する識別情報を有する文書情報を検索し、検索された文書情報が有する文字情報から前記文字列情報を検索する検索手段と、を有する。   In order to achieve the above object, an image processing apparatus according to claim 1 reads a paper document in which ruled lines and characters are described, and acquires image data acquisition means for acquiring information described in the paper document as image data; Extraction means for extracting feature information indicating the feature of the ruled line and character information indicating the character from the image data acquired by the data acquisition means, and identification information for identifying the feature information extracted by the extraction means ID information providing means for providing ID information, recording means for recording document information including identification information given by the ID information giving means, the feature information, and the character information, and a plurality of paper documents by the recording means Acquisition means for acquiring character string information for searching for desired document information and the identification information from the plurality of document information recorded as a result, and the recording means The document information having the identification information that matches the identification information acquired by the acquisition unit is searched from the plurality of document information recorded by the acquisition unit, and the character string information is searched from the character information included in the searched document information. Search means.

なお、本発明は、請求項2の発明のように、前記画像データから、前記紙文書に記載された罫線の画像である罫線画像を示す罫線画像データを生成する罫線画像データ生成手段を更に有し、前記記録手段は、前記罫線画像データ生成手段により生成された罫線画像データを、前記画像データに付与された前記識別情報に対応づけて、前記文書情報に含まれる情報として更に記録するようにしても良い。   The present invention further includes ruled line image data generating means for generating ruled line image data indicating a ruled line image as a ruled line image described in the paper document from the image data, as in the invention of claim 2. The recording means further records the ruled line image data generated by the ruled line image data generating means as information included in the document information in association with the identification information given to the image data. May be.

なお、本発明は、請求項3の発明のように、前記文字列情報、及び前記識別情報がユーザにより入力される入力手段を更に有し、前記取得手段は、前記入力手段により入力された文字列情報、及び識別情報を取得するようにしても良い。   The present invention further includes input means for inputting the character string information and the identification information by a user as in the invention of claim 3, wherein the acquisition means is a character input by the input means. You may make it acquire column information and identification information.

なお、本発明は、請求項4の発明のように、複数の前記罫線画像データが示す複数の罫線画像を表示する罫線画像表示手段を更に有し、前記入力手段は、前記罫線画像表示手段により表示された前記罫線画像から、検索する文書情報に対応する罫線画像をユーザに指定させ、前記取得手段は、指定された罫線画像を示す罫線画像データに対応する識別情報を取得するようにしても良い。   The present invention further includes ruled line image display means for displaying a plurality of ruled line images indicated by the plurality of ruled line image data, as in the invention of claim 4, wherein the input means includes the ruled line image display means. From the displayed ruled line image, the user can specify a ruled line image corresponding to the document information to be searched, and the acquisition unit can acquire identification information corresponding to the ruled line image data indicating the specified ruled line image. good.

なお、本発明は、請求項5の発明のように、前記検索手段で前記文字列情報が検索された文書情報に含まれる情報を記録する検索情報記録手段と、前記検索情報記録手段により記録された文書情報に含まれる情報を表示する表示手段と、を更に有するようにしても良い。   The present invention is recorded by the search information recording means for recording the information included in the document information searched for the character string information by the search means and the search information recording means, as in the invention of claim 5. Display means for displaying information included in the document information.

上記目的を達成するために請求項6の画像処理プログラムは、罫線及び文字が記載された紙文書を読み込み、該紙文書に記載された情報を画像データとして取得する画像データ取得ステップと、前記画像データ取得ステップにより取得された画像データから、前記罫線の特徴を示す特徴情報、及び前記文字を示す文字情報を抽出する抽出ステップと、前記抽出ステップにより抽出された特徴情報を識別するための識別情報を付与する識別情報付与ステップと、前記識別情報付与ステップにより付与された識別情報、前記特徴情報、及び前記文字情報を含む文書情報を記録する記録ステップと、前記記録ステップにより複数の紙文書に対応して記録された複数の前記文書情報から、所望する文書情報を検索するための文字列情報、及び前記識別情報を取得する取得ステップと、前記記録ステップにより記録された前記複数の文書情報から、前記取得手段により取得された前記識別情報に一致する識別情報を有する文書情報を検索し、検索された文書情報が有する文字情報から前記文字列情報を検索する検索ステップと、を有する処理をコンピュータに実行させる。   In order to achieve the above object, an image processing program according to claim 6 reads an image data acquisition step of reading a paper document in which ruled lines and characters are described, and acquiring information described in the paper document as image data; An extraction step for extracting feature information indicating the feature of the ruled line and character information indicating the character from the image data acquired by the data acquisition step, and identification information for identifying the feature information extracted by the extraction step An identification information providing step for assigning a document, a recording step for recording document information including the identification information given by the identification information giving step, the feature information, and the character information, and a plurality of paper documents by the recording step. Character string information for searching for desired document information from the plurality of document information recorded as a result, and the identification A document information having an identification information that matches the identification information acquired by the acquisition means from the plurality of document information recorded by the acquisition step, and the document information searched A search step of searching for the character string information from the character information of the computer.

本発明によれば、罫線及び文字が記載された紙文書を示す文書データを効率よく検索することを可能とする画像処理装置、及び画像処理プログラムを提供することができるという効果が得られる。   According to the present invention, it is possible to provide an image processing apparatus and an image processing program that can efficiently search document data indicating a paper document in which ruled lines and characters are described.

以下、図面を参照して、本発明の実施の形態について詳細に説明する。なお、本実施の形態では、本発明の画像処理装置を、パソコン(Personal Computer)とスキャナの組み合わせたものに適用している。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In this embodiment, the image processing apparatus of the present invention is applied to a combination of a personal computer and a scanner.

まず、図1を用いて画像処理装置について説明する。図1には、LANやUSBなどで接続されたパソコン10と、スキャナ34とが示されている。   First, the image processing apparatus will be described with reference to FIG. FIG. 1 shows a personal computer 10 and a scanner 34 connected via a LAN or USB.

このうち、スキャナ34は、罫線及び文字が記載された紙文書を読込み、紙文書に記載された情報を画像データとして取得する。取得した画像データを、スキャナ34はパソコン10に送信する。   Among these, the scanner 34 reads a paper document in which ruled lines and characters are described, and acquires information described in the paper document as image data. The scanner 34 transmits the acquired image data to the personal computer 10.

パソコン10は、画像データから、罫線の特徴を示す特徴情報、及び前記文字を示す文字情報を抽出し、抽出された特徴情報を識別するための識別情報を付与し、付与された識別情報、前記特徴情報、及び前記文字情報を含む文書情報を記録する。   The personal computer 10 extracts feature information indicating the characteristics of the ruled lines and character information indicating the characters from the image data, and gives identification information for identifying the extracted feature information. Document information including feature information and the character information is recorded.

また、パソコン10は、記録された複数の文書情報から、所望する文書情報を検索するための文字列情報、及び前記識別情報を取得し、記録された複数の前記文書情報から、取得された識別情報に一致する識別情報を有する文書情報を検索し、検索された文書情報が有する文字情報から文字列情報を検索する。   Further, the personal computer 10 acquires character string information for searching for desired document information and the identification information from a plurality of recorded document information, and acquires the identification information acquired from the plurality of recorded document information. Document information having identification information that matches the information is retrieved, and character string information is retrieved from character information included in the retrieved document information.

以上説明したパソコン10の処理の詳細については後述する。次に、図2を用いて、パソコン10の構成について説明する。パソコン10は、CPU(中央処理装置)18と、HDD(ハードディスクドライブ)20と、RAM22と、ネットワークI/F(インタフェース)部24と、ROM26と、表示部28と、操作入力部30と、それらを接続するバス32とを含む。   Details of the processing of the personal computer 10 described above will be described later. Next, the configuration of the personal computer 10 will be described with reference to FIG. The personal computer 10 includes a CPU (Central Processing Unit) 18, an HDD (Hard Disk Drive) 20, a RAM 22, a network I / F (interface) unit 24, a ROM 26, a display unit 28, an operation input unit 30, and the like. And a bus 32 for connecting the two.

CPU18は、パソコン10の全体の動作を司るものであり、後述するパソコン10の処理の流れを示すフローチャートは、CPU18により実行される。HDD20は、各データベース、各種プログラム、そしてOSなどが記録される不揮発性の記憶装置である。RAM22は、OS、プログラム、データなどが展開される揮発性の記憶装置である。   The CPU 18 governs the overall operation of the personal computer 10, and a flowchart showing a processing flow of the personal computer 10 described later is executed by the CPU 18. The HDD 20 is a non-volatile storage device that records each database, various programs, an OS, and the like. The RAM 22 is a volatile storage device in which the OS, programs, data, and the like are expanded.

ネットワークI/F部24は、ネットワークに接続するためのものであり、LANに接続するためのNICやそのドライバ、又はUSBデバイスを含んで構成される。ROM26は、パソコン10の起動時に動作するブートプログラムなどが記憶されている不揮発性の記憶装置である。表示部28は、各種情報をユーザに表示するものである。操作入力部30は、ユーザがパソコン10の操作指示や各種情報を入力する際に用いられるものである。バス32は、以上の各部間で情報のやりとりが行われる際に使用される。   The network I / F unit 24 is for connecting to a network, and includes a NIC for connecting to a LAN, its driver, or a USB device. The ROM 26 is a non-volatile storage device that stores a boot program that operates when the personal computer 10 is activated. The display unit 28 displays various information to the user. The operation input unit 30 is used when a user inputs an operation instruction or various information of the personal computer 10. The bus 32 is used when information is exchanged between the above units.

なお、上述したHDD20には、CPU18により実行される後述する画像処理プログラムやそのプログラムが用いるデータなどが記録される。このプログラムは、必ずしもHDD20に記録されたプログラムでなくても良い。HDD20以外の記録媒体として、具体的には可搬型の記録媒体にプログラムを記録したものが挙げられる。この場合、パソコン10に、可搬型の記録媒体を読み取るための読み取り装置を設け、可搬型の記録媒体は読み取り装置に対して、磁気、光、電気等のエネルギーの変化状態を引き起こし、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。   The HDD 20 described above stores an image processing program (to be described later) executed by the CPU 18 and data used by the program. This program is not necessarily a program recorded in the HDD 20. Specific examples of the recording medium other than the HDD 20 include a program recorded on a portable recording medium. In this case, the personal computer 10 is provided with a reading device for reading a portable recording medium, and the portable recording medium causes a change state of energy such as magnetism, light, electricity, etc. to the reading device and responds to it. The contents of the program description can be transmitted to the reading device in the form of a signal.

可搬型の記録媒体として、例えば光磁気ディスク、光ディスク(CDやDVDなどを含む)、磁気ディスク、メモリ(ICカード、メモリカードなどを含む)などが挙げられる。   Examples of portable recording media include magneto-optical disks, optical disks (including CDs and DVDs), magnetic disks, memories (including IC cards and memory cards), and the like.

以上が本実施の形態における画像処理装置の構成となっている。上記パソコン10のHDD20には、文書情報が文書情報データベース(以下、DBと記す)として記録される。この文書情報について、図3を用いて説明する。同図は、1つの画像データに対応する文書情報のデータ構造を示す図である。文書情報の構造は、同図に示されるように、整理番号、ID、特徴情報、サムネイルデータ、及び文字情報を含む。   The above is the configuration of the image processing apparatus in this embodiment. Document information is recorded in the HDD 20 of the personal computer 10 as a document information database (hereinafter referred to as DB). This document information will be described with reference to FIG. The figure shows a data structure of document information corresponding to one image data. The structure of the document information includes a serial number, ID, feature information, thumbnail data, and character information as shown in FIG.

整理番号は、文書情報を識別するための一意的な値であり、通常は登録された順番に従って付与される。IDは、特徴情報を識別するための値であり、特徴情報が同じ文書情報は、同一のIDを有する。   The reference number is a unique value for identifying the document information, and is usually given in the registered order. The ID is a value for identifying feature information, and document information having the same feature information has the same ID.

特徴情報は、スキャナ34により取得された画像データから抽出された罫線の特徴を示す情報である。サムネイルデータは、紙文書に記載された罫線の概略を示す画像データである。文字情報は、スキャナ34により取得された画像データから抽出された文字を示す情報である。   The feature information is information indicating the feature of the ruled line extracted from the image data acquired by the scanner 34. The thumbnail data is image data indicating an outline of ruled lines described in a paper document. The character information is information indicating characters extracted from the image data acquired by the scanner 34.

上述した文書情報は、読み込んだ画像データの数に応じた数だけ設けられる。   The document information described above is provided in a number corresponding to the number of read image data.

以下、上述した特徴情報、サムネイルデータ、及び文字情報の詳細について順に説明する。図4は、特徴情報を示す図である。また、図5は、特徴情報を抽出する様子を示す図である。図5(a)は罫線の一例を示し、図5(b)は、罫線の縦方向・横方向の投影分布パタンを示している。具体的に図5(b)は、黒ドットを抽出することで画像データから罫線を抽出し、抽出された黒ドットの数を示すヒストグラムを、左上を頂点とする座標における縦軸及び横軸毎に示したものである。   Hereinafter, the details of the above-described feature information, thumbnail data, and character information will be described in order. FIG. 4 is a diagram showing feature information. FIG. 5 is a diagram showing how feature information is extracted. FIG. 5A shows an example of ruled lines, and FIG. 5B shows projection distribution patterns in the vertical and horizontal directions of the ruled lines. Specifically, FIG. 5 (b) extracts a ruled line from the image data by extracting black dots, and displays a histogram indicating the number of extracted black dots for each vertical axis and horizontal axis in coordinates with the upper left as a vertex. It is shown in.

このようにして抽出された黒ドットの数が所定の閾値以上となった横軸及び縦軸上の点(図5(b)の矢印で示される点)の情報が図4に示される特徴情報である。   Information on the points on the horizontal axis and the vertical axis (points indicated by arrows in FIG. 5B) where the number of black dots extracted in this way is equal to or greater than a predetermined threshold is shown in FIG. It is.

なお、上述したヒストグラムを用いる他に、投影分布の山と谷のランレングスを特徴情報としても良い。或いは、画像データそのものを特徴情報としても良い。   In addition to using the above-described histogram, run lengths of peaks and valleys of the projection distribution may be used as the feature information. Alternatively, the image data itself may be used as feature information.

次にサムネイルデータについて、図6に示されるユーザインタフェース(UI)を用いて説明する。同図に示されるUIは、表示部28に表示され、文字列情報、及び前記識別情報がユーザにより入力される画面を示している。   Next, the thumbnail data will be described using the user interface (UI) shown in FIG. The UI shown in the figure is displayed on the display unit 28 and shows a screen on which character string information and the identification information are input by the user.

このUIは、同図に示されるように、キーワード入力欄52、ラジオボタン56、及びサムネイル画像54で構成される。また、これらの情報は、図3で説明したDBにより取得されUIに反映される。   This UI includes a keyword input field 52, radio buttons 56, and thumbnail images 54, as shown in FIG. These pieces of information are acquired by the DB described in FIG. 3 and reflected in the UI.

キーワード入力欄52は、文字列情報をユーザが入力する欄である。サムネイル画像54は、サムネイルデータが示す画像で、同図に示されるように、このUIでは、複数のサムネイルデータが示す複数のサムネイル画像を表示することで、検索する文書情報に対応するサムネイルデータを、ラジオボタン56を用いてユーザに指定させるようになっている。   The keyword input field 52 is a field for the user to input character string information. The thumbnail image 54 is an image indicated by the thumbnail data. As shown in the figure, the UI displays thumbnail data corresponding to the document information to be searched by displaying a plurality of thumbnail images indicated by the plurality of thumbnail data. , The radio button 56 is used to allow the user to specify.

なお、上述したサムネイルデータは、スキャナ34から画像データが送信された際に作成される。また、上記UIに文書タイトルや用語、日付などを入力可能なようにし、それらの入力情報を検索処理に反映させるようにしても良い。   Note that the thumbnail data described above is created when image data is transmitted from the scanner 34. Further, it is possible to make it possible to input a document title, a term, a date, and the like in the UI, and to reflect the input information in the search processing.

次に、文字情報について、図7〜図10を用いて説明する。これらの図は、紙文書と、その紙文書からOCR処理などの画像処理を用いて抽出された文字情報とが示された図である。図7に示される紙文書から抽出された文字情報が、図8に示される文字情報に対応し、図9に示される紙文書から抽出された文字情報が、図10に示される文字情報に対応している。   Next, character information will be described with reference to FIGS. These figures show a paper document and character information extracted from the paper document using image processing such as OCR processing. The character information extracted from the paper document shown in FIG. 7 corresponds to the character information shown in FIG. 8, and the character information extracted from the paper document shown in FIG. 9 corresponds to the character information shown in FIG. is doing.

なお、図8、図10に示されるように、文字情報は、XMLで記述された情報であり、紙文書に記されている文字が抽出されている。具体的に図7に示される紙文書では、「甲ソフト社製見積書作成TOOL Ver.1.0」や「2個」という文字が記載されている。この紙文書から抽出された文字情報を示す図8には、タグ「PRODUCT」により「甲ソフト社製見積書作成TOOL Ver.1.0」が示され、同様にタグ「QUANTITY」により個数である「2」が示されている。   As shown in FIGS. 8 and 10, the character information is information described in XML, and the characters described in the paper document are extracted. Specifically, in the paper document shown in FIG. 7, the characters “Establishment of quotes made by Kou Soft Co., Ltd. TOOL Ver.1.0” and “2” are described. In FIG. 8 showing the character information extracted from this paper document, the tag “PRODUCT” indicates “Established Quote Form TOOL Ver.1.0”, and the tag “QUANTITY” indicates the number. “2” is shown.

また、図9に示される紙文書では、「山田太郎」や単価として「110,000」という文字が記載されている。この紙文書から抽出された文字情報を示す図10には、タグ「WRITER」により「山田太郎」が示され、同様にタグ「UNITOFPRICE」により単価である「110,000」が示されている。   Further, in the paper document shown in FIG. 9, “Taro Yamada” and characters “110,000” are described as the unit price. In FIG. 10 showing the character information extracted from this paper document, “Taro Yamada” is indicated by the tag “WRITER”, and “110,000” which is the unit price is indicated by the tag “UNITOFPRICE”.

以上説明したように、紙文書から文字情報がXML文書として抽出される。なお、上述したXML文書に示されるように、本実施の形態における抽出処理では、紙文書に記載されている項目を考慮して適切なタグに抽出する高度な処理を行っているが、このような高度な処理をせず、紙文書に記載されている文字を単純に抽出する処理を行うようにしても良い。また、文書は紙に限らず、文字や罫線が記載されたプラスティックなど、他の記録媒体であっても良い。   As described above, character information is extracted from the paper document as an XML document. Note that, as shown in the XML document described above, in the extraction processing according to the present embodiment, advanced processing is performed for extracting to an appropriate tag in consideration of items described in the paper document. A process of simply extracting characters described in a paper document may be performed without performing such advanced processing. Further, the document is not limited to paper, but may be another recording medium such as a plastic on which characters and ruled lines are described.

次に、パソコン10のCPU18により実行される処理について説明する。図11は、紙文書を読み込んでから文書情報をDBに記録するまでの処理の流れを示すフローチャートが示されている。   Next, processing executed by the CPU 18 of the personal computer 10 will be described. FIG. 11 is a flowchart showing a processing flow from reading a paper document to recording document information in the DB.

まず、ステップ100で、CPU18は、スキャナ34に対して罫線及び文字が記載された紙文書を読み込み、見積書に記述された情報を画像データとして取得するように指示する。次に、ステップ101で、CPU18は、スキャナ34から画像データを取得したか否かを判断し、取得した場合、ステップ102に処理が進む。   First, in step 100, the CPU 18 instructs the scanner 34 to read a paper document in which ruled lines and characters are described, and to acquire information described in the estimate as image data. Next, in step 101, the CPU 18 determines whether or not image data has been acquired from the scanner 34. If acquired, the process proceeds to step 102.

次に、CPU18は、ステップ102で後述する特徴情報抽出処理を実行し、続いてステップ103で後述する文字情報抽出処理を実行する。   Next, the CPU 18 executes a feature information extraction process described later in step 102, and subsequently executes a character information extraction process described later in step 103.

その後、CPU18は、ステップ104で文書情報(ID、特徴情報、文字情報、サムネイルデータ)を整理番号と共にDBに記録する。   Thereafter, in step 104, the CPU 18 records document information (ID, feature information, character information, thumbnail data) together with the reference number in the DB.

次に、上記特徴情報抽出処理の流れを、図12に示されるフローチャートを用いて説明する。ステップ200で、CPU18は、画像データを2値化し、ステップ201で罫線を抽出する。次に、CPU18は、ステップ202で、サムネイルデータを生成する。   Next, the flow of the feature information extraction process will be described with reference to the flowchart shown in FIG. In step 200, the CPU 18 binarizes the image data, and in step 201, a ruled line is extracted. Next, in step 202, the CPU 18 generates thumbnail data.

ステップ203で、CPU18は、抽出した罫線から縦横投影分布を算出して特徴情報を抽出する。この特徴情報の抽出処理は、図5で説明した通りである。特徴情報を抽出すると、CPU18は、ステップ204で、DBで特徴情報を検索し、ステップ205で特徴情報が存在したか否かを判断する。   In step 203, the CPU 18 calculates vertical and horizontal projection distributions from the extracted ruled lines and extracts feature information. This feature information extraction processing is as described in FIG. When the feature information is extracted, the CPU 18 searches the feature information in the DB in step 204, and determines whether or not the feature information exists in step 205.

ステップ205で、CPU18が否定判断した場合、新たな特徴情報であるため、ステップ206で、新規IDを付与する。一方、ステップ205で、CPU18が肯定判断した場合、既に存在する特徴情報であるので、ステップ207で存在した特徴情報のIDを付与する。   If the CPU 18 makes a negative determination in step 205, since it is new feature information, a new ID is assigned in step 206. On the other hand, if the CPU 18 makes an affirmative determination in step 205, the feature information already exists in step 207 is assigned because the feature information already exists.

なお、上述したステップ204の特徴情報検索処理では、登録する特徴情報とDB記録された特徴情報が一致した場合に検索されたと判断するが、この処理では、特徴情報が若干異なる程度である場合でも検索された判断するようにしても良い。これは、紙文書をスキャナで読み込む場合、同じ紙文書でも若干の誤差が生じる可能性があるためである。   In the feature information search process in step 204 described above, it is determined that the search is performed when the feature information to be registered matches the feature information recorded in the DB. However, in this process, even if the feature information is slightly different. The search may be determined. This is because when a paper document is read by a scanner, a slight error may occur even in the same paper document.

以上説明した特徴情報抽出処理により、特徴情報、サムネイルデータ、及びIDが得られる。   The feature information, thumbnail data, and ID are obtained by the feature information extraction process described above.

次に、上記文字情報抽出処理の流れを、図13に示されるフローチャートを用いて説明する。ステップ300で、CPU18は、OCR処理などの画像処理により画像データの文字を認識し、認識された文字をステップ301で抽出し、ステップ302で抽出された文字を用いてXML文書(図8、図10参照)を作成する。   Next, the flow of the character information extraction process will be described with reference to the flowchart shown in FIG. In step 300, the CPU 18 recognizes characters in the image data by image processing such as OCR processing, extracts the recognized characters in step 301, and uses the characters extracted in step 302 to generate an XML document (FIG. 8, FIG. 10).

以上説明した文字情報抽出処理により文字情報が得られる。従って、この文字情報抽出処理、及び上記特徴情報抽出処理により、文書情報(ID、特徴情報、文字情報、サムネイルデータ)が得られる。   Character information is obtained by the character information extraction process described above. Therefore, document information (ID, feature information, character information, thumbnail data) is obtained by this character information extraction process and the feature information extraction process.

次に、検索処理について説明する。図14に示されるフローチャートは、検索処理の流れを示している。   Next, the search process will be described. The flowchart shown in FIG. 14 shows the flow of search processing.

まず、ステップ400で、CPU18はUI(図6参照)を表示し、ステップ401で、ユーザによる入力完了待ちとなる。ユーザが入力を完了すると、CPU18は、ステップ402で、検索キーワード、及びIDを取得する。   First, in step 400, the CPU 18 displays a UI (see FIG. 6), and in step 401, waits for completion of input by the user. When the user completes the input, the CPU 18 acquires the search keyword and ID in step 402.

次に、CPU18は、ステップ403で、IDに対応する文書情報をDBで検索し、ステップ404で、IDに対応する文書情報が存在したか否か判断する。ステップ404で、CPU18が否定判断した場合、ステップ409に処理が進む。CPU18が肯定判断した場合、ステップ405で、文書情報でキーワードを更に検索する。   Next, in step 403, the CPU 18 searches the DB for document information corresponding to the ID, and in step 404, determines whether there is document information corresponding to the ID. If the CPU 18 makes a negative determination in step 404, the process proceeds to step 409. If the CPU 18 makes an affirmative determination, in step 405, the keyword is further searched for in the document information.

検索した結果、文書情報でキーワードが存在しない場合、ステップ408に処理が進み、キーワードが存在した場合、ステップ407で、CPU18はキーワードが検索された文書情報の整理番号を例えばRAM22に保持する。   If the keyword does not exist in the document information as a result of the search, the process proceeds to step 408. If the keyword exists, in step 407, the CPU 18 stores the reference number of the document information for which the keyword is searched, for example, in the RAM 22.

次のステップ408は、IDに対応する文書情報を全て検索したか否かの判断である。ステップ408で、CPU18が否定判断した場合、再びステップ404の処理が実行される。一方、ステップ408で、CPU18が肯定判断した場合、CPU18は、ステップ409で、保持された整理番号に対応する文書情報を表示する。ここで表示される文書情報は、文書情報の全てを表示するようにしても良いし、文書情報の一部(整理番号など)を表示するようにしても良い。このとき、整理番号が保持されていない場合は、何も検索されなかったことなので、その場合は、検索件数0件などと表示する。   The next step 408 is a determination of whether or not all document information corresponding to the ID has been searched. If the CPU 18 makes a negative determination in step 408, the process of step 404 is executed again. On the other hand, if the CPU 18 makes an affirmative determination in step 408, the CPU 18 displays document information corresponding to the stored serial number in step 409. As the document information displayed here, all of the document information may be displayed, or a part of the document information (reference number or the like) may be displayed. At this time, if the reference number is not held, nothing has been searched, and in this case, the number of searches is displayed as 0.

なお、ここでの文書情報の表示は、表示部28に表示するようにしても良いし、プリンタを接続して印刷するようにしても良い。或いは、検索された文書情報を電子メールを用いて配信するようにしても良い。   Here, the document information may be displayed on the display unit 28 or may be printed by connecting a printer. Alternatively, the retrieved document information may be distributed using electronic mail.

以上説明したように、本実施の形態では、罫線及び文字が記載された紙文書を読み込み、該紙文書に記載された情報を画像データとして取得する画像データ取得手段(ステップ101)と、前記画像データ取得手段により取得された画像データから、前記罫線の特徴を示す特徴情報、及び前記文字を示す文字情報を抽出する抽出手段(ステップ102、103)と、前記抽出手段により抽出された特徴情報を識別するための識別情報を付与する識別情報付与手段(ステップ206、207)と、前記識別情報付与手段により付与された識別情報、前記特徴情報、及び前記文字情報を含む文書情報を記録する記録手段(ステップ104)と、前記記録手段により複数の紙文書に対応して記録された複数の前記文書情報から、所望する文書情報を検索するための文字列情報、及び前記識別情報を取得する取得手段(ステップ402)と、前記記録手段により記録された前記複数の文書情報から、前記取得手段により取得された前記識別情報に一致する識別情報を有する文書情報を検索し、検索された文書情報が有する文字情報から前記文字列情報を検索する検索手段(ステップ403、ステップ405)と、を有する。   As described above, in the present embodiment, an image data acquisition unit (step 101) that reads a paper document in which ruled lines and characters are described and acquires information described in the paper document as image data, and the image Extraction means (steps 102 and 103) for extracting feature information indicating the features of the ruled lines and character information indicating the characters from the image data acquired by the data acquisition means; and feature information extracted by the extraction means. Identification information adding means (steps 206 and 207) for giving identification information for identification, and recording means for recording the document information including the identification information given by the identification information giving means, the feature information, and the character information (Step 104) and the desired document information from the plurality of document information recorded corresponding to the plurality of paper documents by the recording means. It matches the identification information acquired by the acquisition means from the character string information for searching and the acquisition means (step 402) for acquiring the identification information and the plurality of document information recorded by the recording means. Searching means (step 403, step 405) for searching for document information having identification information and searching for the character string information from character information of the searched document information.

また、前記画像データから、前記紙文書に記載された罫線の画像である罫線画像を示す罫線画像データを生成する罫線画像データ生成手段(ステップ202)を更に有し、前記記録手段は、前記罫線画像データ生成手段により生成された罫線画像データを、前記画像データに付与された前記識別情報に対応づけて、前記文書情報に含まれる情報として更に記録する。   The image data further includes ruled line image data generating means (step 202) for generating ruled line image data indicating a ruled line image which is a ruled line image described in the paper document, and the recording means includes the ruled line image data. The ruled line image data generated by the image data generating means is further recorded as information included in the document information in association with the identification information given to the image data.

また、前記文字列情報、及び前記識別情報がユーザにより入力される入力手段(ステップ401)を更に有し、前記取得手段は、前記入力手段により入力された文字列情報、及び識別情報を取得する。   Further, the image processing apparatus further includes an input unit (step 401) for inputting the character string information and the identification information by a user, and the acquisition unit acquires the character string information and the identification information input by the input unit. .

また、複数の前記罫線画像データが示す複数の罫線画像を表示する罫線画像表示手段(ステップ400)を更に有し、前記入力手段は、前記罫線画像表示手段により表示された前記罫線画像から、検索する文書情報に対応する罫線画像をユーザに指定させ、前記取得手段は、指定された罫線画像を示す罫線画像データに対応する識別情報を取得する。   The image processing apparatus further includes ruled line image display means (step 400) for displaying a plurality of ruled line images indicated by the plurality of ruled line image data, wherein the input means searches from the ruled line image displayed by the ruled line image display means. The ruler image corresponding to the document information to be specified is specified by the user, and the acquisition unit acquires identification information corresponding to the ruled line image data indicating the specified ruled line image.

また、前記検索手段で前記文字列情報が検索された文書情報に含まれる情報を記録する検索情報記録手段(ステップ407)と、前記検索情報記録手段により記録された文書情報に含まれる情報を表示する表示手段(ステップ409)と、を更に有するようにしても良い。   Further, search information recording means (step 407) for recording information included in the document information searched for the character string information by the search means, and displaying information included in the document information recorded by the search information recording means. Display means (step 409).

また、本実施の形態では、罫線及び文字が記載された紙文書を読み込み、該紙文書に記載された情報を画像データとして取得する画像データ取得ステップ(ステップ101)と、前記画像データ取得ステップにより取得された画像データから、前記罫線の特徴を示す特徴情報、及び前記文字を示す文字情報を抽出する抽出ステップ(ステップ102、103)と、前記抽出ステップにより抽出された特徴情報を識別するための識別情報を付与する識別情報付与ステップ(ステップ206、207)と、前記識別情報付与ステップにより付与された識別情報、前記特徴情報、及び前記文字情報を含む文書情報を記録する記録ステップ(ステップ104)と、前記記録ステップにより複数の紙文書に対応して記録された複数の前記文書情報から、所望する文書情報を検索するための文字列情報、及び前記識別情報を取得する取得ステップ(ステップ402)と、前記記録ステップにより記録された前記複数の文書情報から、前記取得手段により取得された前記識別情報に一致する識別情報を有する文書情報を検索し、検索された文書情報が有する文字情報から前記文字列情報を検索する検索ステップ(ステップ403、ステップ405)と、を有する処理をコンピュータに実行させる。   In this embodiment, an image data acquisition step (step 101) for reading a paper document in which ruled lines and characters are described and acquiring information described in the paper document as image data, and the image data acquisition step. An extraction step (steps 102 and 103) for extracting feature information indicating the feature of the ruled line and character information indicating the character from the acquired image data, and for identifying the feature information extracted by the extraction step An identification information adding step (steps 206 and 207) for assigning identification information, and a recording step (step 104) for recording the document information including the identification information given by the identification information giving step, the feature information, and the character information. And from the plurality of document information recorded corresponding to a plurality of paper documents by the recording step, The acquisition step (step 402) for acquiring the character string information for searching for desired document information and the identification information, and the acquisition means acquired from the plurality of document information recorded by the recording step. Document information having identification information that matches the identification information is searched, and a search step (step 403, step 405) for searching the character string information from the character information included in the searched document information is executed on the computer. Let

画像処理装置の構成例を示す外観図である。1 is an external view illustrating a configuration example of an image processing apparatus. パソコンの構成例を示すブロック図である。It is a block diagram which shows the structural example of a personal computer. 文書情報のデータ構造を示す図である。It is a figure which shows the data structure of document information. 特徴情報を示す図である。It is a figure which shows the characteristic information. 特徴情報を抽出する様子を示す図である。It is a figure which shows a mode that feature information is extracted. ユーザインタフェースを示す図である。It is a figure which shows a user interface. 紙文書例(その1)を示す図である。It is a figure which shows the paper document example (the 1). 文字情報例(その1)を示す図である。It is a figure which shows the character information example (the 1). 紙文書例(その2)を示す図である。It is a figure which shows the paper document example (the 2). 文字情報例(その2)を示す図である。It is a figure which shows the example of character information (the 2). 紙文書を読み込んでから文書情報をDBに記録するまでの処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process from reading a paper document to recording document information in DB. 特徴情報抽出処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a feature information extraction process. 文字情報抽出処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a character information extraction process. 検索処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a search process.

符号の説明Explanation of symbols

10 パソコン
18 CPU
20 HDD
22 RAM
34 スキャナ
10 PC 18 CPU
20 HDD
22 RAM
34 Scanner

Claims (6)

罫線及び文字が記載された紙文書を読み込み、該紙文書に記載された情報を画像データとして取得する画像データ取得手段と、
前記画像データ取得手段により取得された画像データから、前記罫線の特徴を示す特徴情報、及び前記文字を示す文字情報を抽出する抽出手段と、
前記抽出手段により抽出された特徴情報を識別するための識別情報を付与する識別情報付与手段と、
前記識別情報付与手段により付与された識別情報、前記特徴情報、及び前記文字情報を含む文書情報を記録する記録手段と、
前記記録手段により複数の紙文書に対応して記録された複数の前記文書情報から、所望する文書情報を検索するための文字列情報、及び前記識別情報を取得する取得手段と、
前記記録手段により記録された前記複数の文書情報から、前記取得手段により取得された前記識別情報に一致する識別情報を有する文書情報を検索し、検索された文書情報が有する文字情報から前記文字列情報を検索する検索手段と、
を有する画像処理装置。
Image data acquisition means for reading a paper document in which ruled lines and characters are described, and acquiring information described in the paper document as image data;
Extraction means for extracting feature information indicating the characteristics of the ruled lines and character information indicating the characters from the image data acquired by the image data acquisition means;
Identification information giving means for giving identification information for identifying the feature information extracted by the extraction means;
Recording means for recording document information including the identification information given by the identification information giving means, the feature information, and the character information;
Acquisition means for acquiring the character string information for searching for desired document information and the identification information from the plurality of document information recorded corresponding to the plurality of paper documents by the recording means;
Document information having identification information that matches the identification information acquired by the acquisition unit is searched from the plurality of document information recorded by the recording unit, and the character string is extracted from character information included in the searched document information. A search means for searching for information;
An image processing apparatus.
前記画像データから、前記紙文書に記載された罫線の画像である罫線画像を示す罫線画像データを生成する罫線画像データ生成手段を更に有し、
前記記録手段は、前記罫線画像データ生成手段により生成された罫線画像データを、前記画像データに付与された前記識別情報に対応づけて、前記文書情報に含まれる情報として更に記録する請求項1に記載の画像処理装置。
The image data further comprises ruled line image data generating means for generating ruled line image data indicating a ruled line image which is a ruled line image described in the paper document,
The recording unit further records the ruled line image data generated by the ruled line image data generating unit as information included in the document information in association with the identification information given to the image data. The image processing apparatus described.
前記文字列情報、及び前記識別情報がユーザにより入力される入力手段を更に有し、
前記取得手段は、前記入力手段により入力された文字列情報、及び識別情報を取得する請求項2に記載の画像処理装置。
The character string information and the identification information further include an input means for inputting by a user,
The image processing apparatus according to claim 2, wherein the acquisition unit acquires character string information and identification information input by the input unit.
複数の前記罫線画像データが示す複数の罫線画像を表示する罫線画像表示手段を更に有し、
前記入力手段は、前記罫線画像表示手段により表示された前記罫線画像から、検索する文書情報に対応する罫線画像をユーザに指定させ、
前記取得手段は、指定された罫線画像を示す罫線画像データに対応する識別情報を取得する請求項3に記載の画像処理装置。
A ruled line image display means for displaying a plurality of ruled line images indicated by the plurality of ruled line image data;
The input unit causes the user to specify a ruled line image corresponding to the document information to be searched from the ruled line image displayed by the ruled line image display unit,
The image processing apparatus according to claim 3, wherein the acquisition unit acquires identification information corresponding to ruled line image data indicating a specified ruled line image.
前記検索手段で前記文字列情報が検索された文書情報に含まれる情報を記録する検索情報記録手段と、
前記検索情報記録手段により記録された文書情報に含まれる情報を表示する表示手段と、
を更に有する請求項1から請求項4のいずれか1項に記載の画像処理装置。
Search information recording means for recording information included in the document information searched for the character string information by the search means;
Display means for displaying information included in the document information recorded by the search information recording means;
The image processing apparatus according to any one of claims 1 to 4, further comprising:
罫線及び文字が記載された紙文書を読み込み、該紙文書に記載された情報を画像データとして取得する画像データ取得ステップと、
前記画像データ取得ステップにより取得された画像データから、前記罫線の特徴を示す特徴情報、及び前記文字を示す文字情報を抽出する抽出ステップと、
前記抽出ステップにより抽出された特徴情報を識別するための識別情報を付与する識別情報付与ステップと、
前記識別情報付与ステップにより付与された識別情報、前記特徴情報、及び前記文字情報を含む文書情報を記録する記録ステップと、
前記記録ステップにより複数の紙文書に対応して記録された複数の前記文書情報から、所望する文書情報を検索するための文字列情報、及び前記識別情報を取得する取得ステップと、
前記記録ステップにより記録された前記複数の文書情報から、前記取得手段により取得された前記識別情報に一致する識別情報を有する文書情報を検索し、検索された文書情報が有する文字情報から前記文字列情報を検索する検索ステップと、
を有する処理をコンピュータに実行させる画像処理プログラム。
An image data acquisition step of reading a paper document in which ruled lines and characters are described, and acquiring information described in the paper document as image data;
An extraction step for extracting feature information indicating the feature of the ruled line and character information indicating the character from the image data acquired by the image data acquisition step;
An identification information providing step for providing identification information for identifying the feature information extracted by the extraction step;
A recording step for recording the document information including the identification information given by the identification information giving step, the feature information, and the character information;
An acquisition step of acquiring character string information for searching for desired document information and the identification information from a plurality of the document information recorded corresponding to a plurality of paper documents by the recording step;
Document information having identification information that matches the identification information acquired by the acquisition unit is searched from the plurality of document information recorded by the recording step, and the character string is extracted from character information included in the searched document information. A search step for searching for information;
An image processing program for causing a computer to execute a process including:
JP2006214886A 2006-08-07 2006-08-07 Image processor and image processing program Withdrawn JP2008040834A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006214886A JP2008040834A (en) 2006-08-07 2006-08-07 Image processor and image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006214886A JP2008040834A (en) 2006-08-07 2006-08-07 Image processor and image processing program

Publications (1)

Publication Number Publication Date
JP2008040834A true JP2008040834A (en) 2008-02-21

Family

ID=39175751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006214886A Withdrawn JP2008040834A (en) 2006-08-07 2006-08-07 Image processor and image processing program

Country Status (1)

Country Link
JP (1) JP2008040834A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004417A (en) * 2014-06-17 2016-01-12 日本電信電話株式会社 Data processing method for document file, program and device therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004417A (en) * 2014-06-17 2016-01-12 日本電信電話株式会社 Data processing method for document file, program and device therefor

Similar Documents

Publication Publication Date Title
JP4366108B2 (en) Document search apparatus, document search method, and computer program
US6671684B1 (en) Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
US8139870B2 (en) Image processing apparatus, recording medium, computer data signal, and image processing method
US7991778B2 (en) Triggering actions with captured input in a mixed media environment
US7669148B2 (en) System and methods for portable device for mixed media system
US7587412B2 (en) Mixed media reality brokerage network and methods of use
US8195659B2 (en) Integration and use of mixed media documents
JP5238249B2 (en) Acquiring data from rendered documents using handheld devices
US20070050341A1 (en) Triggering applications for distributed action execution and use of mixed media recognition as a control input
US20070050360A1 (en) Triggering applications based on a captured text in a mixed media environment
US20070047781A1 (en) Authoring Tools Using A Mixed Media Environment
US20100166309A1 (en) System And Methods For Creation And Use Of A Mixed Media Environment
JP2004348591A (en) Document search method and device thereof
JP2005295564A (en) Document management method
KR20090069300A (en) Capture and display of annotations in paper and electronic documents
KR20070092596A (en) Processing techniques for visual capture data from a rendered document
JP2010536188A6 (en) Acquiring data from rendered documents using handheld devices
Morley Understanding computers in a changing society
KR101103126B1 (en) Information processing apparatus, information processing method, and computer program
Leggett Digitization and digital archiving: a practical guide for librarians
JP6262708B2 (en) Document detection method for detecting original electronic files from hard copy and objectification with deep searchability
JP2006065477A (en) Character recognition device
JP2008129793A (en) Document processing system, apparatus and method, and recording medium with program recorded thereon
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2004334341A (en) Document retrieval system, document retrieval method, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090212

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100712