JP2009026122A - Document-processing device, document-processing method, and document-processing program - Google Patents

Document-processing device, document-processing method, and document-processing program Download PDF

Info

Publication number
JP2009026122A
JP2009026122A JP2007189479A JP2007189479A JP2009026122A JP 2009026122 A JP2009026122 A JP 2009026122A JP 2007189479 A JP2007189479 A JP 2007189479A JP 2007189479 A JP2007189479 A JP 2007189479A JP 2009026122 A JP2009026122 A JP 2009026122A
Authority
JP
Japan
Prior art keywords
document
unit
selection condition
image
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007189479A
Other languages
Japanese (ja)
Other versions
JP5176416B2 (en
Inventor
Koji Fujiwara
浩次 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Business Technologies Inc
Original Assignee
Konica Minolta Business Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Business Technologies Inc filed Critical Konica Minolta Business Technologies Inc
Priority to JP2007189479A priority Critical patent/JP5176416B2/en
Publication of JP2009026122A publication Critical patent/JP2009026122A/en
Application granted granted Critical
Publication of JP5176416B2 publication Critical patent/JP5176416B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide: a document-processing device which adequately generates annex information for identifying the position of a document element in a document image when an electronic document including the document image is generated; a document-processing method; and a document-processing program. <P>SOLUTION: A displaying part 24 displays the number of document elements included in a document image for each kind of element after an element kind determination part 20 analyzes the kinds of extracted document elements. Selection conditions relating to the kinds are set to the display of the analysis result by the displaying part 24. The element kind determination part 20 selects the document elements, which satisfy the selection conditions, from among the extracted document elements in response to the selection conditions concerned, and outputs the kinds of the selected document elements and position information for identifying their positions in the document image to a bookmark data-generating part 22. The bookmark data-generating part 22 generates bookmark data, and an electronic document-generating part 16 generates an electronic document by adding the bookmark data to the (compressed) document image from a compression processing part 14. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

この発明は文書画像を含む電子化文書を生成する文書処理装置、文書処理方法、および文書処理プログラムに関し、特に文書画像に含まれる文書要素のうち、特定の種別の文書要素に関する付属情報を生成する技術に関する。   The present invention relates to a document processing apparatus, a document processing method, and a document processing program for generating an electronic document including a document image, and in particular, generates attached information related to a specific type of document element among document elements included in the document image. Regarding technology.

省資源や省スペースの観点から、紙原稿などに記載された文書を電子化文書に変換して管理する文書管理システムが実用化されている。このような文書管理システムでは、スキャナ装置などを用いて原稿を読取ることで文書画像を生成し、これらの文書画像から電子化文書を生成する。   From the viewpoint of resource saving and space saving, a document management system that converts and manages a document described on a paper manuscript or the like into an electronic document has been put into practical use. In such a document management system, a document image is generated by reading a document using a scanner device or the like, and an electronic document is generated from these document images.

このような文書画像は、文書を画素の集合である画像(イメージ)として格納しているので、当該文書に含まれる文字や図表などの内容を特定するためのデータ(代表的に、テキストデータなど)を元来含んでいない。そのため、特定の情報を含む文書を多くの文書画像の中から検索することは困難である。   Since such a document image stores the document as an image (image) that is a set of pixels, data for specifying the contents such as characters and charts included in the document (typically, text data, etc.) ) By nature. Therefore, it is difficult to search a document including specific information from many document images.

そこで、このような文書画像をより容易に管理できるように、文書画像に含まれる文書の内容を認識や解析する技術が提案されている。たとえば、特開平07−141368号公報(特許文献1)には、入力された文書の見出し類と、段落とその段落内の文等の文書内要素を認識する文書内要素認識手段と、選択するべき文書内要素の条件に基づき、文書内要素認識手段で認識された文書内要素を選択する文書内要素選択手段と、文書内要素選択手段で選択された文書内要素を識別して表示する文書表示手段とを有する飛ばし読み支援表示装置が開示されている。また、特開平06−214983号公報(特許文献2)には、黒白2値画像で表現される複数の文書画像を、章・節・文書段落・図等に分けられた構造を持つ論理構造化文書に変換するシステムが開示されている。   Therefore, a technique for recognizing and analyzing the contents of a document included in the document image has been proposed so that such a document image can be managed more easily. For example, in Japanese Patent Application Laid-Open No. 07-141368 (Patent Document 1), a heading of an input document, an in-document element recognition unit that recognizes an in-document element such as a paragraph and a sentence in the paragraph, and the like are selected. A document element selecting unit for selecting an element in the document recognized by the element recognition unit in the document based on the condition of the element in the document to be identified, and a document for identifying and displaying the element in the document selected by the element selecting unit in the document A skip reading support display device having a display means is disclosed. In Japanese Patent Laid-Open No. 06-214983 (Patent Document 2), a plurality of document images expressed as black and white binary images are logically structured having a structure divided into chapters, sections, document paragraphs, drawings, and the like. A system for converting to a document is disclosed.

ところで、電子化文書には、文書画像に加えて、ページや文書内位置などを特定するための付属情報が付加されることがある。このような付属情報は、「しおり」や「注釈」などとも称され、対応する文書要素の位置(ページ番号やページ内位置)や属性情報などを示す。そこで、スキャナ装置などを用いて原稿を読取る際に、上述の特開平07−141368号公報(特許文献1)や特開平06−214983号公報(特許文献2)に開示されるような技術を用いて文書画像内の文書要素を抽出し、この抽出結果に基づいて付属情報を自動的に生成できれば非常に有用である。
特開平07−141368号公報 特開平06−214983号公報
By the way, in addition to the document image, attached information for specifying a page, a position in the document, and the like may be added to the digitized document. Such attached information is also referred to as “bookmark” or “annotation”, and indicates the position (page number or in-page position) and attribute information of the corresponding document element. Therefore, when reading a document using a scanner device or the like, the technique disclosed in the above-mentioned Japanese Patent Application Laid-Open No. 07-141368 (Patent Document 1) or Japanese Patent Application Laid-Open No. 06-214983 (Patent Document 2) is used. It is very useful to extract document elements from the document image and automatically generate the attached information based on the extraction result.
Japanese Patent Application Laid-Open No. 07-141368 Japanese Patent Laid-Open No. 06-214983

しかしながら、文書画像内の全ての文書要素について付属情報を生成してしまうと、付属情報のデータサイズが大きくなり過ぎるという問題がある。また、対象となる文書要素が多くなり過ぎるので、検索効率が低下するという問題もある。   However, if the attached information is generated for all document elements in the document image, there is a problem that the data size of the attached information becomes too large. There is also a problem that search efficiency is lowered because there are too many target document elements.

そこで、この発明は、かかる問題を解決するためになされたものであり、その目的は、文書画像を含む電子化文書を生成する際に、文書画像内における文書要素の位置などを特定するための付属情報を適切に生成できる文書処理装置、文書処理方法、および文書処理プログラムを提供することである。   Accordingly, the present invention has been made to solve such a problem, and an object of the present invention is to specify the position of a document element in a document image when generating an electronic document including the document image. To provide a document processing apparatus, a document processing method, and a document processing program capable of appropriately generating attached information.

この発明のある局面に従う文書画像を含む電子化文書を生成する文書処理装置は、文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の文書画像内での位置とを取得する取得手段と、文書要素の種別についての選別条件の設定を受付ける設定受付手段と、抽出された文書要素の種別と選別条件とを比較する比較手段と、選別条件を満たす文書要素の文書画像内での位置を特定するための付属情報を生成する付属情報生成手段とを備える。   A document processing apparatus that generates an electronic document including a document image according to an aspect of the present invention extracts a document element from the document image, and acquires the type of the extracted document element and the position of the document element in the document image Obtaining means for receiving, setting accepting means for accepting the setting of the selection condition for the type of document element, comparison means for comparing the type of the extracted document element and the selection condition, and in the document image of the document element satisfying the selection condition And auxiliary information generation means for generating auxiliary information for specifying the position at

この発明によれば、文書画像を含む電子化文書を生成する際に、文書画像から抽出される文書要素のうち、ユーザが設定する選別条件を満たす文書要素だけが選択され、当該選択された文書要素について付属情報が生成される。すなわち、付属情報に含まれるデータは、選別条件を満たす文書要素の文書画像内の位置を特定するための情報に限られる。そのため、文書画像に含まれる全ての文書要素を対象とする場合に比較して、文書画像のデータサイズを低減できるとともに、重要度が高いとユーザが考える文書要素に限定して付属情報を生成することができる。   According to the present invention, when generating an electronic document including a document image, only document elements satisfying a selection condition set by the user are selected from the document elements extracted from the document image, and the selected document is selected. Ancillary information is generated for the element. That is, the data included in the attached information is limited to information for specifying the position in the document image of the document element that satisfies the selection condition. Therefore, compared to the case where all document elements included in the document image are targeted, the data size of the document image can be reduced, and the attached information is generated only for the document elements that the user considers to be high in importance. be able to.

好ましくは、抽出された文書要素の種別についての取得結果とともに、選別条件の設定画面を表示する表示手段をさらに備え、設定受付手段は、設定画面に対する操作に応じて選別条件を受付け、比較手段は、選別条件の設定動作に応答して比較動作を開始する。   Preferably, the information processing apparatus further includes display means for displaying a selection condition setting screen together with the acquisition result for the extracted document element type, the setting reception means accepts the selection condition in accordance with an operation on the setting screen, and the comparison means includes The comparison operation is started in response to the selection condition setting operation.

さらに好ましくは、表示手段は、取得結果として、文書画像から抽出された文書要素の数を種別毎に表示する。   More preferably, the display means displays the number of document elements extracted from the document image for each type as an acquisition result.

さらに好ましくは、文書画像は、少なくとも1つのページ領域を含み、表示手段は、ページ領域に対応付けて、文書要素の数を種別毎に表示する。   More preferably, the document image includes at least one page area, and the display unit displays the number of document elements for each type in association with the page area.

また、さらに好ましくは、文書画像のページ領域別に選別条件の設定を受付け可能である。   More preferably, the setting of the selection condition can be accepted for each page area of the document image.

また好ましくは、選別条件の設定を受付ける設定受付手段をさらに備え、比較手段は、抽出された文書要素の種別と予め設定された選別条件とを比較する。   Preferably, the information processing apparatus further includes setting accepting means for accepting setting of a sorting condition, and the comparing means compares the type of the extracted document element with a preset sorting condition.

さらに好ましくは、選択可能な少なくとも1つの選別条件候補を表示する表示手段をさらに備え、選択条件候補の各々は、文書要素の種別のうち少なくとも1つの特定の種別を指定するものであり、比較手段は、選択条件候補のうち選択された選択条件候補に対応する選別条件に基づいて、比較処理を行なう。   More preferably, it further comprises display means for displaying at least one selectable selection condition candidate, and each of the selection condition candidates designates at least one specific type of document element types, and the comparison means. Performs comparison processing based on the selection condition corresponding to the selection condition candidate selected from the selection condition candidates.

好ましくは、文書画像に付属情報を付加することで電子化文書を生成する文書生成手段をさらに備える。   Preferably, the apparatus further includes document generation means for generating an electronic document by adding attached information to the document image.

好ましくは、文書要素の種別は、表題、見出し、段落区切り、図、表、写真、手書き文字、下線付文字、装飾文字、色文字、の少なくともいずれかを含む。   Preferably, the document element type includes at least one of a title, a headline, a paragraph break, a figure, a table, a photograph, a handwritten character, an underlined character, a decorative character, and a color character.

好ましくは、原稿を読取ることで文書画像を生成する画像読取手段をさらに備える。
好ましくは、ネットワークを介して電子化文書を他の装置へ送信するための送信手段をさらに備える。
Preferably, the apparatus further includes image reading means for generating a document image by reading a document.
Preferably, a transmission unit for transmitting the digitized document to another device via the network is further provided.

好ましくは、電子化文書を格納するための格納手段をさらに備える。
この発明の別の局面に従う文書画像を含む電子化文書を生成する文書処理方法は、文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の文書画像内での位
置とを取得するステップと、文書要素の種別についての選別条件の設定を受付けるステップと、抽出された文書要素の種別と選別条件とを比較するステップと、選別条件を満たす文書要素の文書画像内での位置を特定するための付属情報を生成するステップとを備える。
Preferably, storage means for storing the digitized document is further provided.
A document processing method for generating an electronic document including a document image according to another aspect of the present invention extracts a document element from the document image, and determines the type of the extracted document element and the position of the document element in the document image. The step of obtaining, the step of accepting the setting of the screening condition for the type of the document element, the step of comparing the type of the extracted document element and the screening condition, and the position of the document element satisfying the screening condition in the document image Generating ancillary information for specifying.

この発明のさらに別の局面に従えば、上記の記載の文書処理方法をコンピュータに実行させる文書処理プログラムである。   According to still another aspect of the present invention, there is provided a document processing program for causing a computer to execute the document processing method described above.

この発明によれば、文書画像を含む電子化文書を生成する際に、文書画像内における文書要素の位置などを特定するための付属情報を適切に生成できる文書処理装置、文書処理方法、および文書処理プログラムを実現できる。   According to the present invention, when an electronic document including a document image is generated, a document processing apparatus, a document processing method, and a document that can appropriately generate attached information for specifying the position of a document element in the document image, etc. A processing program can be realized.

この発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。   Embodiments of the present invention will be described in detail with reference to the drawings. Note that the same or corresponding parts in the drawings are denoted by the same reference numerals and description thereof will not be repeated.

[実施の形態1]
(全体システム構成)
図1は、この発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
[Embodiment 1]
(Overall system configuration)
FIG. 1 is a schematic configuration diagram of a system including a document processing apparatus according to the first embodiment of the present invention. In the present embodiment, an MFP (Multi Function Peripheral) equipped with the document processing apparatus according to the present invention will be typically described. The document processing apparatus according to the present invention is not limited to an MFP, and can be applied to a copying machine, a facsimile apparatus, a scanner apparatus, and the like.

図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含んで構成される。   Referring to FIG. 1, MFP 1 according to the present embodiment is configured to include an image reading unit 104 for reading a document 300 and a printing unit 106 for performing a printing process on a paper medium or the like.

特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書を生成する。この際、MFP1は、読取った文書画像に含まれる文書要素のうち所定の選別条件を満たすものについて、種別と文書画像内における位置とを特定するための付属情報を生成する。この「文書要素」とは、文書を構成する記述要素である。なお、このような付属情報は、「メタデータ(meta data)」とも称され、上述のような種別および位置を特定するためのデータに加えて、たとえば各文書要素のサムネイル(縮小画像)などを含めてもよい。そして、MFP1は、読取った文書画像に付属情報を付加して、電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。   In particular, MFP 1 according to the present embodiment acquires a document image by reading original 300 with image reading unit 104 and generates an electronic document including the document image. At this time, the MFP 1 generates ancillary information for specifying the type and the position in the document image for the document elements included in the read document image that satisfy a predetermined selection condition. The “document element” is a descriptive element constituting the document. Such ancillary information is also referred to as “meta data”, and in addition to the data for specifying the type and position as described above, for example, thumbnails (reduced images) of each document element, etc. May be included. Then, the MFP 1 adds the attached information to the read document image and generates the digitized document 400. Typically, the electronic document 400 can employ a format such as PDF (Portable Document Format).

MFP1は、生成した電子化文書400を自身の記憶部(図示しない)に格納したり、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも総称する)に送信したりする。代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対しては、MFP1から電子化文書400が直接的に送信される。一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けてあり、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3などに対しては、MFP1からサーバ装置SRVを介して電子化文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバなどからなる。   The MFP 1 stores the generated electronic document 400 in its own storage unit (not shown), or transmits it to the personal computers PC1, PC2, PC3 (hereinafter also collectively referred to as “personal computer PC”) via the network. To do. As a typical usage mode, the personal computer PC1 and PC2 connected to a LAN (Local Area Network) that is a network laid in the same office where the MFP 1 is installed are transferred from the MFP 1 to an electronic document. 400 is sent directly. On the other hand, a server SRV is provided at a connection point between a LAN and a WAN (Wide Area Network). A personal computer PC3 or the like located in an office remote from the MFP 1 is connected from the MFP 1 via the server SRV. An electronic document 400 is transmitted. Here, the server SRV typically includes a mail server, an FTP (File Transfer Protocol) server, a Web server, an SMB server, and the like.

画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書400として生成することができる。   The image reading unit 104 includes a loading table for setting a document, a document table glass, a conveyance unit that automatically conveys the documents set on the loading table one by one to the document table glass, and a scanned document. And a discharge stand for discharging (both not shown). As a result, a plurality of documents can be continuously read and generated as one electronic document 400.

(MFP1の概略構成)
図2は、この発明の実施の形態1に従うMFP1における概略の機能構成を示すブロック図である。
(Schematic configuration of MFP 1)
FIG. 2 is a block diagram showing a schematic functional configuration in MFP 1 according to the first embodiment of the present invention.

図2を参照して、MFP1の機能構成としては、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、操作パネル部110と、記憶部112とを含む。   Referring to FIG. 2, the functional configuration of MFP 1 includes a control unit 100, a memory unit 102, an image reading unit 104, a printing unit 106, a communication interface unit 108, an operation panel unit 110, and a storage unit 112. Including.

制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、ネットワーク(たとえば、図1に示すLAN)を介してパーソナルコンピュータPC(図1)との間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部112は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100で生成された電子化文書400などを格納する。   The control unit 100 is typically composed of an arithmetic device such as a CPU (Central Processing Unit), and implements document processing according to the present embodiment by executing a program. The memory unit 102 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory), and holds a program executed by the control unit 100, data necessary for executing the program, and the like. The communication interface unit 108 is typically a part for transmitting and receiving data to and from the personal computer PC (FIG. 1) via a network (for example, the LAN shown in FIG. 1). Including driver software to control The print unit 106 is a part for performing print processing, and includes a control device for controlling the operation of each unit in addition to the hardware configuration related to print processing. The storage unit 112 is typically a non-volatile storage device such as a hard disk device or a flash memory, and stores the electronic document 400 generated by the control unit 100.

(パーソナルコンピュータの構成)
図3は、この発明の実施の形態1に従うパーソナルコンピュータPCの概略のハードウェア構成を示す模式図である。
(Configuration of personal computer)
FIG. 3 is a schematic diagram showing a schematic hardware configuration of personal computer PC according to the first embodiment of the present invention.

図3を参照して、パーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、MFP1で生成された電子化文書400を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によって、それぞれフレキシブルディスク217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られる。   Referring to FIG. 3, personal computer PC temporarily stores a CPU (Central Processing Unit) 201 that executes various programs including an operating system (OS) and data necessary for the CPU 201 to execute the program. A memory unit 213 that stores data and a hard disk unit (HDD: Hard Disk Drive) 211 that stores programs executed by the CPU 201 in a nonvolatile manner are included. The hard disk unit 211 stores a browsing application for displaying the digitized document 400 generated by the MFP 1. Such a program is stored in the flexible disk by the FDD drive 217 or the CD-ROM drive 215, respectively. 217a or CD-ROM (Compact Disk-Read Only Memory) 215a.

CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置SRV(図1)から電子化文書400を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。   The CPU 201 receives an instruction from the user via the input unit 209 including a keyboard and a mouse, and outputs a screen output generated by executing the program to the display unit 205. Further, the CPU 201 acquires the digitized document 400 from the MFP 1 or the server SRV (FIG. 1) connected to the LAN or WAN via the communication interface unit 207 including a LAN card and stores it in the hard disk unit 211 and the like. . Further, the above-described units exchange data with each other via the internal bus 203.

(パーソナルコンピュータPCにおける電子化文書の表示画面)
CPU201がハードディスク部211に記憶された閲覧アプリケーションを実行することで、ディスプレイ部205上には図4に示すような形態で電子化文書400が表示さ
れる。
(Display screen of digitized document on personal computer PC)
When the CPU 201 executes the browsing application stored in the hard disk unit 211, the digitized document 400 is displayed on the display unit 205 in the form shown in FIG.

図4は、この発明の実施の形態1に従うパーソナルコンピュータPCにおける電子化文書400の表示画面の一例を模式的に示した図である。   FIG. 4 schematically shows an example of a display screen of the digitized document 400 in the personal computer PC according to the first embodiment of the present invention.

図4を参照して、ディスプレイ部205上には一例として、文書表示領域500と、付属情報表示領域510とが形成される。文書表示領域500には、電子化文書400に含まれる文書画像300Aが表示され、付属情報表示領域510には、付属情報に応じたアイコン512,514が表示される。本実施の形態においては、付属情報の代表例として、「しおり」(bookmark)の機能を発揮するアイコン512,514を示す。   Referring to FIG. 4, a document display area 500 and an attached information display area 510 are formed on display unit 205 as an example. The document image 300A included in the digitized document 400 is displayed in the document display area 500, and icons 512 and 514 corresponding to the attached information are displayed in the attached information display area 510. In the present embodiment, icons 512 and 514 that exhibit a “bookmark” function are shown as representative examples of attached information.

これらの付属情報は、特定の文書要素の文書内位置を特定する情報を含んでおり、ユーザがアイコン512を選択(代表的には、図示しないマウスなどによるクリック動作)すれば、文書表示領域500では、しおり位置502が所定位置(代表的に、文書表示領域500の最上部)となるように、文書画像300Aの表示領域が変化(スクロール)する。同様に、ユーザがアイコン514を選択選択すれば、しおり位置504が所定位置となるように、文書画像300Aの表示領域が変化する。   The attached information includes information for specifying the position in the document of a specific document element. When the user selects the icon 512 (typically, a click operation with a mouse or the like not shown), the document display area 500 is displayed. Then, the display area of the document image 300A changes (scrolls) so that the bookmark position 502 becomes a predetermined position (typically, the uppermost part of the document display area 500). Similarly, when the user selects and selects the icon 514, the display area of the document image 300A changes so that the bookmark position 504 becomes a predetermined position.

また、アイコン512,514に隣接する位置に文書要素の種別(一例として、「見出し」および「手書き(文字)」)も表示されており、ユーザはこの表示内容を参照して、必要な種別の文書要素を検索することもできる。   In addition, document element types (for example, “headline” and “handwritten (character)”) are also displayed at positions adjacent to the icons 512 and 514, and the user refers to this display content to determine the necessary type. You can also search for document elements.

このようにユーザは、しおりのアイコンを手掛かりに電子化文書内の所定の記載や内容を容易に検索および閲覧することができる。以下の説明では、付属情報の代表例として、「しおり」を電子化文書に付加する構成について説明する。なお、本明細書において、「付属情報」とは、文書要素の「文書画像内における位置」に関する情報を少なくとも含むメタデータであり、「しおり」の他に、文書要素についての補足的コメントをさらに含む「注釈」などであってもよい。   As described above, the user can easily search and browse predetermined descriptions and contents in the digitized document by using the bookmark icon as a clue. In the following description, a configuration in which “bookmark” is added to an electronic document will be described as a representative example of attached information. In this specification, “attached information” is metadata including at least information related to “position in a document image” of a document element, and in addition to “bookmark”, a supplementary comment about the document element is further added. It may be an “annotation” or the like.

(付属情報の生成処理に係る機能構成)
図5は、この発明の実施の形態1に従う付属情報の生成処理を実現する機能構成を示すブロック図である。これらの機能は、主として制御部100やメモリ部102などによって実現される。
(Functional configuration related to attached information generation processing)
FIG. 5 is a block diagram showing a functional configuration for realizing the auxiliary information generation process according to the first embodiment of the present invention. These functions are mainly realized by the control unit 100, the memory unit 102, and the like.

図5を参照して、付属情報の生成処理を実現する機能は、画像読取部104と、画像バッファ部12と、圧縮処理部14と、電子化文書生成部16と、文書要素抽出部18と、要素種別判断部20と、しおりデータ生成部22と、表示部24と、設定操作部26と、送信部28と、記憶部112とを含む。   Referring to FIG. 5, the functions for realizing the attached information generation process are the image reading unit 104, the image buffer unit 12, the compression processing unit 14, the digitized document generation unit 16, and the document element extraction unit 18. , Element type determination unit 20, bookmark data generation unit 22, display unit 24, setting operation unit 26, transmission unit 28, and storage unit 112.

画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像バッファ部12へ出力する。画像バッファ部12は、画像読取部104が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14および文書要素抽出部18へ出力する。圧縮処理部14は、画像バッファ部12から出力される文書画像を圧縮処理して、電子化文書生成部16へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理は非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。   The image reading unit 104 reads the document 300 to acquire a document image, and outputs the document image to the image buffer unit 12. The image buffer unit 12 is a part that temporarily stores document image data sequentially output by the image reading unit 104, and outputs the once stored document image to the compression processing unit 14 and the document element extraction unit 18. The compression processing unit 14 compresses the document image output from the image buffer unit 12 and outputs the compressed document image to the digitized document generation unit 16. The degree of compression by this compression processing may be changed according to the size of the generated electronic document, the required resolution of the document image, and the compression processing may be irreversible conversion. Note that the compression process may be omitted when high resolution is required.

文書要素抽出部18は、画像バッファ部12から出力される文書画像に含まれる所定の種別の文書要素を抽出する。文書要素抽出部18は、この文書要素の抽出に際して、各文
書要素の文書画像内における位置も抽出する。そして、文書要素抽出部18は、抽出した文書要素の種別およびその位置情報を要素種別判断部20へ出力する。
The document element extraction unit 18 extracts a predetermined type of document element included in the document image output from the image buffer unit 12. When extracting the document element, the document element extracting unit 18 also extracts the position of each document element in the document image. Then, the document element extraction unit 18 outputs the extracted document element type and its position information to the element type determination unit 20.

図6は、文書画像に含まれる文書要素の抽出処理を説明するための図である。
図6(a)は、原稿300から生成される文書画像の一例を示す図であり、図6(b)は、図6(a)に示す文書画像に対して文書要素が抽出された状態の一例を示す図である。図6(a)を参照して、一例として、報告書の原稿300(5ページ)が画像読取部104で読取られると、画像バッファ部12には各ページに対応する文書画像が格納される。図6(b)に示すように、文書要素抽出部18は、このような文書画像に含まれる矩形の文書要素420を抽出する。なお、文書要素420の抽出については、公知の方法を用いることができるが、代表的に文字サイズや隣接する領域に対する間隔などに基づいて、各領域が抽出される。ここで、抽出対象の文書要素は、「表題(タイトル)」、「見出し」、「段落区切り」、「図」、「表」、「写真」、「手書き文字」、「下線付文字」、「装飾文字」、「色文字」などの種別を有するものが含まれる。
FIG. 6 is a diagram for explaining extraction processing of document elements included in a document image.
FIG. 6A is a diagram illustrating an example of a document image generated from the document 300, and FIG. 6B illustrates a state in which document elements are extracted from the document image illustrated in FIG. It is a figure which shows an example. With reference to FIG. 6A, as an example, when a document 300 (5 pages) of a report is read by the image reading unit 104, a document image corresponding to each page is stored in the image buffer unit 12. As shown in FIG. 6B, the document element extraction unit 18 extracts a rectangular document element 420 included in such a document image. Note that a known method can be used for extracting the document element 420, but each area is typically extracted based on the character size, the interval between adjacent areas, and the like. Here, the document elements to be extracted are “title”, “heading”, “paragraph break”, “figure”, “table”, “photo”, “handwritten character”, “underlined character”, “ Those having types such as “decorated characters” and “color characters” are included.

より具体的には、「表題(タイトル)」は、文書画像内に配置される文字の文字サイズに基づいて抽出することができる。「見出し」は、文書画像内におけるオフセット位置やインデント位置などに基づいて抽出することができる。「段落区切り」は、後続する文字領域との間の間隔などに基づいて抽出することができる。「図」は、直線や曲線の検出数などに基づいて抽出することができる。「表」は、直線および直線の交差点の検出数などに基づいて抽出することができる。「写真」は、画像の濃淡変化の度合いなどに基づいて抽出することができる。「手書き文字」は、文字認識の度合いなどに基づいて抽出することができる。「下線付文字」は、文字と直線との距離などに基づいて抽出することができる。「装飾文字」は、複数の段階で文字認識を行なうことで抽出することができる。「色文字」は、文字認識と対応する画素の色情報などに基づいて抽出することができる。なお、文書画像内の共通の領域に対して、複数の文書要素が重複して抽出されてもよい。また、文字要素として抽出する種別は、上述のものに限られることなく、公知の認識技術を用いて様々な種別の文書要素を抽出することができる。   More specifically, the “title (title)” can be extracted based on the character size of the character arranged in the document image. The “heading” can be extracted based on an offset position, an indent position, or the like in the document image. The “paragraph break” can be extracted based on an interval between character areas that follow. The “diagram” can be extracted based on the number of detected straight lines or curves. The “table” can be extracted based on the number of detected straight lines and intersections of the straight lines. The “photograph” can be extracted based on the degree of change in shading of the image. The “handwritten character” can be extracted based on the degree of character recognition. The “underlined character” can be extracted based on the distance between the character and a straight line. The “decorative character” can be extracted by performing character recognition at a plurality of stages. The “color character” can be extracted based on pixel color information corresponding to character recognition. Note that a plurality of document elements may be extracted redundantly for a common area in the document image. The types extracted as character elements are not limited to those described above, and various types of document elements can be extracted using a known recognition technique.

そして、要素種別判断部20は、抽出された文書要素の種別を解析した後、ユーザに文書画像に含まれる文書要素の取得結果を通知するために、その解析した情報を表示部24に出力する。より具体的には、要素種別判断部20は、文書画像に含まれる文書要素の種別毎の数をカウントし、この取得結果として表示部24へ出力する。   Then, after analyzing the type of the extracted document element, the element type determination unit 20 outputs the analyzed information to the display unit 24 in order to notify the user of the acquisition result of the document element included in the document image. . More specifically, the element type determination unit 20 counts the number of document elements included in the document image for each type, and outputs the obtained result to the display unit 24.

表示部24は、要素種別判断部20から出力される取得結果に応じて、文書画像に含まれる文書要素の数を種別毎に表示する。この表示部24による取得結果の表示に対して、ユーザは、設定操作部26を操作して、種別に関する選別条件を設定する。この選別条件とは、しおりを付加すべき種別を指定するものであり、各種別についてしおりの付加についての要否が選択可能である。この選別条件に応答して、要素種別判断部20は、抽出された文書要素のうち選別条件を満たす文書要素を選別し、当該選別した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する。   The display unit 24 displays the number of document elements included in the document image for each type according to the acquisition result output from the element type determination unit 20. In response to the display of the acquisition result by the display unit 24, the user operates the setting operation unit 26 to set the selection condition regarding the type. This selection condition is to specify the type to which a bookmark should be added, and the necessity for adding a bookmark can be selected for each type. In response to the selection condition, the element type determination unit 20 selects a document element satisfying the selection condition from the extracted document elements, and specifies the type and position of the selected document element in the document image. Are output to the bookmark data generation unit 22.

図7は、この発明の実施の形態1に従うMFP1の操作パネル部110の外観を示す一例である。   FIG. 7 is an example showing an appearance of operation panel unit 110 of MFP 1 according to the first embodiment of the present invention.

図7を参照して、操作パネル部110は、液晶表示装置やタッチパネルなどから構成される表示パネル110aと、ストップボタン110bと、スタートボタン110cと、英数キーなどを含む操作ボタン110dとを備えている。図5に示す表示部24は、表示パネル110aによって実現され、設定操作部26は、表示パネル110aと、ストップボ
タン110bと、スタートボタン110cと、操作ボタン110dとによって実現される。
Referring to FIG. 7, operation panel unit 110 includes a display panel 110a including a liquid crystal display device, a touch panel, and the like, a stop button 110b, a start button 110c, and an operation button 110d including alphanumeric keys. ing. The display unit 24 shown in FIG. 5 is realized by the display panel 110a, and the setting operation unit 26 is realized by the display panel 110a, the stop button 110b, the start button 110c, and the operation button 110d.

図8は、この発明の実施の形態1に従う解析結果の表示および選別条件の設定に関して、操作パネル部110の表示パネル110aにおける表示内容の一例を示す図である。図8(a)は、文字要素のうち「活字要素」に関する表示内容を示し、図8(b)は、文字要素のうち「活字要素」以外の要素に関する表示内容を示す。   FIG. 8 is a diagram showing an example of display contents on display panel 110a of operation panel unit 110 regarding the display of analysis results and the setting of selection conditions according to the first embodiment of the present invention. FIG. 8A shows display contents related to “type elements” among character elements, and FIG. 8B shows display contents related to elements other than “type elements” among character elements.

図8(a)および図8(b)を参照して、文書画像に含まれる文書要素の種別毎の数を視覚的に表す種別出現度数グラフ450が表示される。この種別出現度数グラフ450の行要素に対応付けて種別表示452が配置される。ユーザは、この種別出現度数グラフ450を参照しながら、種別表示452に対応付けて設けられているチェックボックス454をチェックすることで、しおりを付加すべき種別を選択する。すなわち、このチェックボックス454のうち選択された(チェックマークが設定された)ものに対応する種別を選択対象とする選別条件が設定される。   With reference to FIGS. 8A and 8B, a type appearance frequency graph 450 that visually represents the number of document elements included in the document image for each type is displayed. A type display 452 is arranged in association with the row element of the type appearance frequency graph 450. The user selects a type to which a bookmark is to be added by checking a check box 454 provided in association with the type display 452 while referring to the type appearance frequency graph 450. In other words, a selection condition is set for selecting a type corresponding to the selected check box 454 (a check mark is set).

さらに、選別条件としては、文書画像の全ページを一括して設定することも可能であり、もしくは各ページ単位で設定することも可能である。ユーザが、全ページ選択ボタン(ALL)460を選択することで選別条件を全ページに対して一括して設定するモードが選択され、ページ別選択ボタン(頁別)462を選択すること選択条件をページ単位で設定するモードが選択される。さらに、選択条件をページ単位で設定するモードにおいては、ユーザがページ送りボタン(次頁)456を選択することで、文書画像内の対象となるページを切替えることができる。   Further, as the selection condition, all pages of the document image can be set collectively, or can be set for each page. When the user selects the all page selection button (ALL) 460, the mode for selecting the sorting condition for all pages at once is selected, and the selection of the page selection button (by page) 462 selects the selection condition. The mode to be set for each page is selected. Further, in the mode in which the selection condition is set in units of pages, the user can switch the target page in the document image by selecting a page feed button (next page) 456.

また、ユーザが、タブボタン(活字要素)464を選択することで、図8(a)に示す「活字要素」(表題(タイトル)、見出し、段落区切り、下線付文字、装飾文字、色文字)に関する表示画面が表示され、タブボタン(その他)466を選択することで、図8(b)に示す「活字要素」以外の要素(写真、表、図、手書き文字)に関する表示画面が表示される。   Further, when the user selects a tab button (type element) 464, a “type element” (title (title), heading, paragraph break, underlined character, decoration character, color character) shown in FIG. When the tab button (others) 466 is selected, a display screen related to elements (photos, tables, figures, handwritten characters) other than the “printed elements” shown in FIG. 8B is displayed. .

なお、この発明に係る表示内容は図8に示す態様に限られることなく、ユーザが選別条件を設定できれば、いずれの態様であってもよい。   The display content according to the present invention is not limited to the mode shown in FIG. 8, and may be any mode as long as the user can set the selection condition.

再度、図5を参照して、しおりデータ生成部22は、要素種別判断部20から出力される文書要素の種別と位置情報とに基づいて、しおりデータを生成する。そして、しおりデータ生成部22は、生成したしおりデータを電子化文書生成部16へ出力する。   Referring again to FIG. 5, the bookmark data generation unit 22 generates bookmark data based on the document element type and position information output from the element type determination unit 20. Then, the bookmark data generation unit 22 outputs the generated bookmark data to the digitized document generation unit 16.

電子化文書生成部16は、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部22からのしおりデータを付加することで、電子化文書を生成する。   The digitized document generation unit 16 generates a digitized document by adding the bookmark data from the bookmark data generation unit 22 to the (compressed) document image from the compression processing unit 14.

図9は、電子化文書生成部16が生成する電子化文書400のデータ構造の一例を示す図である。   FIG. 9 is a diagram illustrating an example of a data structure of the digitized document 400 generated by the digitized document generation unit 16.

図9を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、しおりデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部406には、文書画像に含まれる文書要素を特定するためのしおりデータが格納される。   Referring to FIG. 9, the digitized document 400 includes a header part 402, a document image part 404, a bookmark data part 406, and a footer part 408. The header part 402 and the footer part 408 store information about the attributes of the digitized document 400, such as creation date / time / creator / copyright information. A document image corresponding to each page is stored in the document image unit 404. The document image may be stored in a compressed state as described above. The bookmark data unit 406 stores bookmark data for specifying a document element included in the document image.

図10は、しおりデータのデータ構造の一例を示す図である。
図10を参照して、しおりデータには、各文書要素に対応付けて、ページ番号・領域左上座標・領域右下座標・要素種別などが格納される。ページ番号は、対応する文書要素が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応する文書要素のページ内での領域(矩形)を特定するための位置情報である。また、要素種別は、対応する文書要素の種別を特定するための情報である。
FIG. 10 is a diagram illustrating an example of the data structure of bookmark data.
Referring to FIG. 10, the bookmark data stores page numbers, area upper left coordinates, area lower right coordinates, element types, and the like in association with each document element. The page number is position information for specifying the page on which the corresponding document element exists. The area upper left coordinates and area lower right coordinates are position information for specifying the area (rectangle) in the page of the corresponding document element. The element type is information for specifying the type of the corresponding document element.

再度、図5を参照して、電子化文書生成部16は、生成した電子化文書をユーザによる設定などに応じて、記憶部112へ格納し、または送信部28へ出力する。送信部28は、通信インターフェイス部108によって実現され、電子化文書生成部16で生成された電子化文書をLANなどのネットワークを介して、パーソナルコンピュータPC(図1)などへ送信する。   Referring again to FIG. 5, the digitized document generation unit 16 stores the generated digitized document in the storage unit 112 or outputs it to the transmission unit 28 according to the setting by the user. The transmission unit 28 is realized by the communication interface unit 108, and transmits the digitized document generated by the digitized document generation unit 16 to a personal computer PC (FIG. 1) or the like via a network such as a LAN.

図11は、電子化文書の出力先の設定に関して、操作パネル部110の表示パネル110aにおける表示内容の一例を示す図である。図11(a)は、電子化文書をメールに添付して送信する場合の表示内容を示し、図11(b)は、電子化文書400をMFP1自身の記憶部112に保存する場合の表示内容を示す。この図11(a)および図11(b)に示す表示内容は、それぞれユーザが、タブボタン(メール送信)474およびタブボタン476(メール送信)を選択することで切替えられる。   FIG. 11 is a diagram illustrating an example of display contents on the display panel 110a of the operation panel unit 110 regarding the setting of the output destination of the digitized document. FIG. 11A shows display contents when an electronic document is attached to a mail and sent, and FIG. 11B shows display contents when the electronic document 400 is stored in the storage unit 112 of the MFP 1 itself. Indicates. The display contents shown in FIGS. 11A and 11B are switched when the user selects a tab button (mail transmission) 474 and a tab button 476 (mail transmission), respectively.

図11(a)に示す表示画面では、予め宛先アドレスなどが割当てられている宛先ボタン470が選択可能に表示されており、ユーザが宛先ボタン470のうち所望のボタンを選択することで、対応する宛先アドレスに電子化文書が添付されたメールが送信される。   In the display screen shown in FIG. 11A, a destination button 470 to which a destination address or the like is assigned in advance is displayed so that it can be selected. A mail with an electronic document attached to the destination address is transmitted.

一方、図11(b)に示す表示画面では、記憶部112のフォルダ(ディレクトリ)が予め割当てられている保存先ボタン472が選択可能に表示されており、ユーザが保存先ボタン472のうち所望のボタンを選択することで、対応する保存先のフォルダに電子化文書が格納される。   On the other hand, in the display screen shown in FIG. 11B, a storage destination button 472 to which a folder (directory) in the storage unit 112 is assigned in advance is displayed so as to be selectable. By selecting the button, the digitized document is stored in the corresponding save destination folder.

上述のような構成により、文書画像に含まれる文書要素のうち、ユーザが選択した所望の種別をもつ文書要素に対してしおりデータを付加した電子化文書を生成することができる。   With the configuration described above, an electronic document in which bookmark data is added to a document element having a desired type selected by the user from among the document elements included in the document image can be generated.

なお、図5に示す各機能ブロックと本願発明との対応関係については、文書要素抽出部18が「取得手段」に相当し、要素種別判断部20が「比較手段」に相当し、しおりデータ生成部22が「付属情報生成手段」に相当し、表示部24が「表示手段」に相当し、設定操作部26は「設定受付手段」に相当し、電子化文書生成部16が「文書生成手段」に相当し、画像読取部104が「画像読取手段」に相当し、送信部28が「送信手段」に相当し、記憶部112が「格納手段」に相当する。   As for the correspondence between each functional block shown in FIG. 5 and the present invention, the document element extraction unit 18 corresponds to “acquisition means”, the element type determination unit 20 corresponds to “comparison means”, and bookmark data generation is performed. The unit 22 corresponds to the “attached information generation unit”, the display unit 24 corresponds to the “display unit”, the setting operation unit 26 corresponds to the “setting reception unit”, and the digitized document generation unit 16 performs the “document generation unit”. The image reading unit 104 corresponds to “image reading unit”, the transmission unit 28 corresponds to “transmission unit”, and the storage unit 112 corresponds to “storage unit”.

(フローチャート)
図12は、この発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。図12のフローチャートに示される処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
(flowchart)
FIG. 12 is a flowchart showing a specific example of the digitized document generation process according to the first embodiment of the present invention. The process shown in the flowchart of FIG. 12 is realized by the control unit 100 reading the program to the memory unit 102 and executing the program, and controlling each function shown in FIG.

図5および図12を参照して、まず、画像読取部104が原稿300を読取って文書画像を生成する(ステップS100)。この生成された文書画像は、画像バッファ部12に格納される。そして、圧縮処理部14が、画像バッファ部12に格納された文書画像を圧
縮処理して、電子化文書生成部16へ出力する(ステップS102)。
Referring to FIGS. 5 and 12, first, image reading unit 104 reads document 300 to generate a document image (step S100). The generated document image is stored in the image buffer unit 12. Then, the compression processing unit 14 compresses the document image stored in the image buffer unit 12, and outputs the compressed document image to the digitized document generation unit 16 (step S102).

一方、文書要素抽出部18が、画像バッファ部12に格納された文書画像に含まれる所定の種別の文書要素およびその位置を抽出する(ステップS104)。そして、要素種別判断部20が、文書要素抽出部18で抽出された文書要素の種別を判断し、文書画像に含まれる文書要素の種別を解析する(ステップS106)。具体的には、要素種別判断部20は、文書画像に含まれる文書要素の数を種別毎にカウントする。この解析結果を受けて、表示部24が、対象となる文書画像に含まれる文書要素の数を種別毎に表示する(ステップS108)。   On the other hand, the document element extraction unit 18 extracts a predetermined type of document element and its position included in the document image stored in the image buffer unit 12 (step S104). Then, the element type determination unit 20 determines the type of the document element extracted by the document element extraction unit 18, and analyzes the type of the document element included in the document image (step S106). Specifically, the element type determination unit 20 counts the number of document elements included in the document image for each type. In response to this analysis result, the display unit 24 displays the number of document elements included in the target document image for each type (step S108).

この解析結果の表示に応答してユーザが設定する選別条件が、設定操作部26から要素種別判断部20へ与えられる。これに応答して、要素種別判断部20が、文書要素抽出部18で抽出された文書要素のうち選別条件を満たす文書要素を選別する(ステップS110)。そして、要素種別判断部20が、選別した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する(ステップS112)。すると、しおりデータ生成部22が、これらの文書要素の種別と位置情報とに基づいて、しおりデータを生成する(ステップS114)。   Selection conditions set by the user in response to the display of the analysis result are given from the setting operation unit 26 to the element type determination unit 20. In response to this, the element type determination unit 20 selects a document element satisfying the selection condition from the document elements extracted by the document element extraction unit 18 (step S110). Then, the element type determination unit 20 outputs the type of the selected document element and position information for specifying the position in the document image to the bookmark data generation unit 22 (step S112). Then, the bookmark data generation unit 22 generates bookmark data based on the type and position information of these document elements (step S114).

続いて、電子化文書生成部16が、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部22からのしおりデータを付加することで、電子化文書を生成する(ステップS116)。さらに、ユーザの設定に応じて、送信部28が、ネットワークを介して接続された所定の送信先に電子化文書を送信する(ステップS118)。もしくは、ユーザの設定に応じて、電子化文書生成部16が、記憶部112の所定のディレクトリに電子化文書を格納する(ステップS120)。そして、電子化文書の生成処理は終了する。   Subsequently, the digitized document generation unit 16 generates a digitized document by adding the bookmark data from the bookmark data generation unit 22 to the (compressed) document image from the compression processing unit 14 (step S116). ). Further, in accordance with the user setting, the transmission unit 28 transmits the digitized document to a predetermined transmission destination connected via the network (step S118). Alternatively, the digitized document generation unit 16 stores the digitized document in a predetermined directory of the storage unit 112 according to the user setting (step S120). Then, the digitized document generation process ends.

この発明の実施の形態1によれば、文書画像を含む電子化文書を生成する際に、文書画像に含まれる文書要素の解析結果をユーザに通知した上で、ユーザが選別条件を設定できる。このため、対象となる文書画像の種類などに応じて、適切に選別情報を設定することができる。よって、しおり情報に含まれるデータは、選別条件を満たす文書要素についての種別と文書画像内における位置とを特定するための情報に限られる。そのため、文書画像に含まれる全ての文書要素を対象とする場合に比較して、文書画像のデータサイズを低減できるとともに、重要度が高いとユーザが考える文書要素に限定してしおり情報を生成することができる。   According to the first embodiment of the present invention, when an electronic document including a document image is generated, the user can set the selection condition after notifying the user of the analysis result of the document element included in the document image. For this reason, it is possible to appropriately set the selection information according to the type of the target document image. Therefore, the data included in the bookmark information is limited to information for specifying the type of the document element that satisfies the selection condition and the position in the document image. Therefore, compared to the case where all the document elements included in the document image are targeted, the data size of the document image can be reduced, and bookmark information is generated only for the document elements that the user considers to be high in importance. be able to.

この結果、しおり情報のデータサイズが大きくなり過ぎることを回避するとともに、検索効率の低下も抑制できる。   As a result, it is possible to avoid the bookmark information data size from becoming too large, and to suppress a decrease in search efficiency.

[実施の形態2]
上述のこの発明の実施の形態1では、取得された文書画像に含まれる文書要素を解析し、その解析結果に基づいて、ユーザがいずれの文書要素についてしおりを付加するかを決定できる構成について説明した。これに対して、この発明の実施の形態2では、ユーザがしおりを付加すべき文書要素の種別を予め設定しておき、MFPがこの予め設定された条件に従って、電子化文書を生成する構成について例示する。
[Embodiment 2]
In the first embodiment of the present invention described above, a configuration is described in which the document element included in the acquired document image is analyzed, and the user can determine which document element the bookmark is added to based on the analysis result. did. On the other hand, in the second embodiment of the present invention, the type of document element to which a user should add a bookmark is set in advance, and the MFP generates a digitized document according to the preset condition. Illustrate.

この発明の実施の形態2に従うMFP1#やパーソナルコンピュータPCのハードウェア構成などについては、上述の実施の形態1と同様であるので、詳細な説明は繰返さない。   Since the hardware configuration and the like of MFP 1 # and personal computer PC according to the second embodiment of the present invention are the same as those in the first embodiment, detailed description will not be repeated.

図13は、この発明の実施の形態2に従う付属情報の生成処理を実現する機能構成を示
すブロック図である。これらの機能は、主として制御部100やメモリ部102などによって実現される。
FIG. 13 is a block diagram showing a functional configuration for realizing the auxiliary information generation process according to the second embodiment of the present invention. These functions are mainly realized by the control unit 100, the memory unit 102, and the like.

図13に示す機能ブロック図は、図5に示すこの発明の実施の形態1に従う機能ブロックにおいて、文書要素抽出部18と、要素種別判断部20と、表示部24と、設定操作部26とに代えて、文書要素抽出部18#と、表示部24#と、設定操作部26#と、設定データ格納部32#とを設けたものに相当する。   The functional block diagram shown in FIG. 13 is the functional block according to the first embodiment of the present invention shown in FIG. 5 and includes a document element extraction unit 18, an element type determination unit 20, a display unit 24, and a setting operation unit 26. Instead, this corresponds to a document element extraction unit 18 #, a display unit 24 #, a setting operation unit 26 #, and a setting data storage unit 32 #.

表示部24#および設定操作部26#は、主として、ユーザが予め選別条件を設定するための部位であり、設定データ格納部32#は、選別条件候補およびユーザが予め設定した選別条件を格納するための部位である。より具体的には、表示部24#は、ユーザが選別条件を設定するための設定画面を表示する。この設定画面には、設定データ格納部32#に予め格納される選別条件候補が表示されてもよい。そして、ユーザは、表示部24#に表示される設定画面に沿って設定操作部26を操作することで、種別に関する選別条件を設定する。この設定された選別条件は、設定データ格納部32#に格納される。   The display unit 24 # and the setting operation unit 26 # are mainly parts for the user to set the selection conditions in advance, and the setting data storage unit 32 # stores the selection condition candidates and the selection conditions set in advance by the user. It is a part for. More specifically, display unit 24 # displays a setting screen for the user to set selection conditions. On this setting screen, selection condition candidates stored in advance in the setting data storage unit 32 # may be displayed. Then, the user operates the setting operation unit 26 along the setting screen displayed on the display unit 24 #, thereby setting the sorting condition regarding the type. The set screening conditions are stored in the setting data storage unit 32 #.

また、文書要素抽出部18#は、画像バッファ部12から出力される文書画像に含まれる文書要素のうち、設定データ格納部32#に予め格納される選別条件を満たすものだけを選択的に抽出する。そして、文書要素抽出部18#は、選択的に抽出した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する。   In addition, the document element extraction unit 18 # selectively extracts only the document elements included in the document image output from the image buffer unit 12 that satisfy the selection condition stored in advance in the setting data storage unit 32 #. To do. Then, the document element extraction unit 18 # outputs the type of the selectively extracted document element and the position information for specifying the position in the document image to the bookmark data generation unit 22.

図14および図15は、この発明の実施の形態2に従う選別条件の設定に関して、操作パネル部110の表示パネル110aにおける表示内容の一例を示す図である。図14は、選別条件候補が選択可能に表示される場合を示し、図15は、各選別条件候補の詳細な条件が設定可能な表示される場合を示す。   14 and 15 are diagrams showing an example of display contents on the display panel 110a of the operation panel unit 110 regarding the setting of the selection conditions according to the second embodiment of the present invention. FIG. 14 shows a case where selection condition candidates are displayed so as to be selectable, and FIG. 15 shows a case where detailed conditions of each selection condition candidate are displayed.

図14を参照して、まず、ユーザが選別条件を設定しようとする場合には、複数の選別条件候補480が選択可能に表示される。各選別条件候補480は、代表的に文書のタイプ(たとえば、研究報告書、新聞、プレゼンテーション資料、議事録など)別に設定されることが好ましい。すなわち、対象となる文書のタイプによって、書式(スタイル)やコンテンツ(文字、図、表など)の構成が異なるので、より着目すべき文書要素の種別が異なるからである。そこで、文書のタイプ別に選別条件を設定しておき、電子化文書を生成する対象となる文書のタイプに応じてユーザが選択的に設定することがよりユーザフレンドリである。   Referring to FIG. 14, first, when the user intends to set selection conditions, a plurality of selection condition candidates 480 are displayed so as to be selectable. Each selection condition candidate 480 is preferably set for each document type (for example, research report, newspaper, presentation material, minutes, etc.). That is, because the format (style) and content (characters, diagrams, tables, etc.) are different depending on the type of the target document, the types of document elements to which attention should be paid differ. Therefore, it is more user-friendly that a selection condition is set for each document type, and the user selectively sets the selection condition according to the type of the document for which the digitized document is generated.

さらに、ユーザが選別条件候補480の条件を変更したい場合や、新たに選別条件候補480を設定したい場合には、図15に示すような詳細設定のための画面が表示されてもよい。   Furthermore, when the user wants to change the condition of the selection condition candidate 480 or to newly set the selection condition candidate 480, a screen for detailed setting as shown in FIG. 15 may be displayed.

図15を参照して、各選別条件候補480に対応して、種別表示494および対応するチェックボックス492が配置された詳細設定画面が表示される。ユーザは、この詳細設定画面において、しおりを付加すべき種別に対応するチェックボックス492をチェックすることで詳細設定を変更または新たに選択することができる。このように、変更または設定された選別条件候補480(および、対応する詳細設定)は、設定データ格納部32#に格納される。なお、予め選別条件を設定する場合には、原稿の枚数が未知であるので、ページ単位で選別条件を設定する必要はない。   Referring to FIG. 15, a detailed setting screen on which type display 494 and corresponding check box 492 are arranged is displayed corresponding to each selection condition candidate 480. The user can change or newly select the detailed setting by checking a check box 492 corresponding to the type to which the bookmark is to be added on the detailed setting screen. Thus, the changed or set selection condition candidate 480 (and the corresponding detailed setting) is stored in the setting data storage unit 32 #. Note that when the selection condition is set in advance, it is not necessary to set the selection condition for each page because the number of documents is unknown.

このようにユーザが選別条件候補480のいずれかを選択すると、要素種別判断部20#は、当該選択された選別条件候補480に対応する選択条件を有効化し、文書要素の選
別処理を実行する。
When the user selects any one of the selection condition candidates 480 in this way, the element type determination unit 20 # validates the selection condition corresponding to the selected selection condition candidate 480 and executes document element selection processing.

その他の構成については、図5の対応する機能と同様であるので、詳細な説明は繰返さない。   Since other configurations are the same as the corresponding functions in FIG. 5, detailed description will not be repeated.

なお、図13に示す各機能ブロックと本願発明との対応関係については、文書要素抽出部18#が「取得手段」および「比較手段」に相当し、しおりデータ生成部22が「付属情報生成手段」に相当し、表示部24#が「表示手段」に相当し、設定操作部26#は「設定受付手段」に相当し、電子化文書生成部16が「文書生成手段」に相当し、画像読取部104が「画像読取手段」に相当し、送信部28が「送信手段」に相当し、記憶部112が「格納手段」に相当する。   As for the correspondence between each functional block shown in FIG. 13 and the present invention, the document element extraction unit 18 # corresponds to “acquisition unit” and “comparison unit”, and the bookmark data generation unit 22 “attachment information generation unit”. ”, The display unit 24 # corresponds to“ display unit ”, the setting operation unit 26 # corresponds to“ setting reception unit ”, the digitized document generation unit 16 corresponds to“ document generation unit ”, and the image The reading unit 104 corresponds to “image reading unit”, the transmission unit 28 corresponds to “transmission unit”, and the storage unit 112 corresponds to “storage unit”.

(フローチャート)
図16は、この発明の実施の形態2に従う電子化文書の生成処理の具体例を示すフローチャートである。図16のフローチャートに示される処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図13に示される各機能を制御することで実現される。
(flowchart)
FIG. 16 is a flowchart showing a specific example of the digitized document generation process according to the second embodiment of the present invention. The processing shown in the flowchart of FIG. 16 is realized by the control unit 100 reading the program to the memory unit 102 and executing it, and controlling each function shown in FIG.

図13および図16を参照して、まず、要素種別判断部20#が、ユーザによる選別条件候補の選択指示を設定操作部26から受付けたか否かを判断する(ステップS200)。選別条件候補の選択指示を受付けていなければ(ステップS200においてNO)、選別条件候補の選択指示が与えられるまで、処理は待機状態となる。   Referring to FIGS. 13 and 16, first, element type determination unit 20 # determines whether or not the user has selected a selection condition candidate selection instruction from setting operation unit 26 (step S200). If no selection condition candidate selection instruction has been received (NO in step S200), the process enters a standby state until a selection condition candidate selection instruction is given.

選別条件候補の選択指示を受付けていれば(ステップS200においてYES)、要素種別判断部20#が、選択された選別条件候補に対応する選別条件を設定データ格納部32#から取得する(ステップS202)。   If an instruction to select a selection condition candidate is accepted (YES in step S200), element type determination unit 20 # acquires a selection condition corresponding to the selected selection condition candidate from setting data storage unit 32 # (step S202). ).

そして、画像読取部104が原稿300を読取って文書画像を生成する(ステップS204)。この生成された文書画像は、画像バッファ部12に格納される。そして、圧縮処理部14が、画像バッファ部12に格納された文書画像を圧縮処理して、電子化文書生成部16へ出力する(ステップS206)。   Then, the image reading unit 104 reads the document 300 and generates a document image (step S204). The generated document image is stored in the image buffer unit 12. Then, the compression processing unit 14 compresses the document image stored in the image buffer unit 12, and outputs the compressed document image to the digitized document generation unit 16 (step S206).

一方、文書要素抽出部18#が、画像バッファ部12に格納された文書画像に含まれる文書要素のうち、ステップS202で予め取得した選別条件を満たす文書要素を選択的に抽出する(ステップS208)。そして、文書要素抽出部18#が、選択的に抽出した文書要素の、種別と文書画像内における位置を特定するための位置情報とをしおりデータ生成部22へ出力する(ステップS210)。すると、しおりデータ生成部22が、これらの文書要素の種別と位置情報とに基づいて、しおりデータを生成する(ステップS212)。   On the other hand, the document element extraction unit 18 # selectively extracts document elements satisfying the selection condition acquired in advance in step S202 from among the document elements included in the document image stored in the image buffer unit 12 (step S208). . Then, the document element extraction unit 18 # outputs the type of the selectively extracted document element and the position information for specifying the position in the document image to the bookmark data generation unit 22 (step S210). Then, the bookmark data generation unit 22 generates bookmark data based on the type and position information of these document elements (step S212).

続いて、電子化文書生成部16が、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部22からのしおりデータを付加することで、電子化文書を生成する(ステップS214)。さらに、ユーザの設定に応じて、送信部28が、ネットワークを介して接続された所定の送信先に電子化文書を送信する(ステップS216)。もしくは、ユーザの設定に応じて、電子化文書生成部16が、記憶部112の所定のディレクトリに電子化文書を格納する(ステップS218)。そして、電子化文書の生成処理は終了する。   Subsequently, the digitized document generation unit 16 generates a digitized document by adding the bookmark data from the bookmark data generation unit 22 to the (compressed) document image from the compression processing unit 14 (step S214). ). Further, according to the user setting, the transmission unit 28 transmits the digitized document to a predetermined transmission destination connected via the network (step S216). Alternatively, the digitized document generation unit 16 stores the digitized document in a predetermined directory of the storage unit 112 according to the user setting (step S218). Then, the digitized document generation process ends.

この発明の実施の形態2によれば、文書画像を含む電子化文書を生成する際に、ユーザが予め設定した選別条件に従って、文書画像に含まれる文書要素のうち所定の条件を満た
すものだけが選別された上で、しおり情報が生成される。この選別条件を設定する際には、対象とする文書画像の種類(タイプ)に応じた少なくとも1つの選別条件候補を表示され、ユーザが容易に選別条件を選択できる。
According to the second embodiment of the present invention, when an electronic document including a document image is generated, only those satisfying a predetermined condition among document elements included in the document image according to a selection condition preset by the user. After selection, bookmark information is generated. When setting the selection condition, at least one selection condition candidate corresponding to the type (type) of the target document image is displayed, and the user can easily select the selection condition.

これにより、大量の原稿から電子化文書を生成する必要がある場合であっても、ユーザは比較的容易な操作を行なうだけで、適切なしおり情報を付加された電子化文書を生成することができる。この結果、しおり情報のデータサイズが大きくなり過ぎることを回避するとともに、検索効率の低下も抑制できる。   Thus, even when it is necessary to generate an electronic document from a large amount of manuscripts, the user can generate an electronic document with appropriate bookmark information added by performing a relatively easy operation. it can. As a result, it is possible to avoid the bookmark information data size from becoming too large, and to suppress a decrease in search efficiency.

[その他の実施の形態]
上述の実施の形態1および2においては、本発明に係る処理がMFP1またはMFP1#で実行される場合について説明したが、原稿300を読取るための画像読取機能を備えたコンピュータにおいて上記処理が実行されてもよい。この場合には、コンピュータを文書処理装置として機能させるための図5や図13に示された処理機能を実行させるプログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、ROM(Read Only
Memory)、RAM(Random Access Memory)およびメモリカードなどのコンピュータ読取り可能な記憶媒体にて記憶させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記憶媒体にて記憶させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
[Other embodiments]
In the first and second embodiments described above, the case where the processing according to the present invention is executed by the MFP 1 or MFP 1 # has been described, but the above processing is executed by a computer having an image reading function for reading the document 300. May be. In this case, a program for executing the processing functions shown in FIG. 5 and FIG. 13 for causing the computer to function as a document processing apparatus can be provided. Such programs include a flexible disk, CD-ROM (Compact Disk-Read Only Memory), ROM (Read Only) attached to the computer.
It can be stored in a computer-readable storage medium such as a memory (Random Access Memory), a RAM (Random Access Memory), and a memory card and provided as a program product. Alternatively, the program can be provided by being stored in a storage medium such as a hard disk built in the computer. A program can also be provided by downloading via a network.

また、画像読取機能を他の装置またはコンピュータで実現した上で、生成された文書画像を受取って、上記のような処理に従って付属情報のみを生成してもよい。また、文書画像と付属情報とが同一の電子化文書に含まれる構成について例示したが、必ずしも同一の電子化文書に付属情報を付加しなくてもよく、別のファイルとして出力してもよい。   Alternatively, the image reading function may be realized by another device or a computer, and the generated document image may be received and only the attached information may be generated according to the above processing. Further, the configuration in which the document image and the attached information are included in the same digitized document is illustrated, but the attached information may not necessarily be added to the same digitized document, and may be output as a separate file.

なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。   The program according to the present invention is a program module that is provided as a part of a computer operating system (OS) and calls necessary modules in a predetermined arrangement at a predetermined timing to execute processing. Also good. In that case, the program itself does not include the module, and the process is executed in cooperation with the OS. A program that does not include such a module can also be included in the program according to the present invention.

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。   The program according to the present invention may be provided by being incorporated in a part of another program. Even in this case, the program itself does not include the module included in the other program, and the process is executed in cooperation with the other program. Such a program incorporated in another program can also be included in the program according to the present invention.

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。   The provided program product is installed in a program storage unit such as a hard disk and executed. Note that the program product includes the program itself and a storage medium in which the program is stored.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。   The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

この発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。1 is a schematic configuration diagram of a system including a document processing device according to a first embodiment of the present invention. この発明の実施の形態1に従うMFPにおける概略の機能構成を示すブロック図である。It is a block diagram showing a schematic functional configuration in the MFP according to the first embodiment of the present invention. この発明の実施の形態1に従うパーソナルコンピュータの概略のハードウェア構成を示す模式図である。It is a schematic diagram which shows the schematic hardware constitutions of the personal computer according to Embodiment 1 of this invention. この発明の実施の形態1に従うパーソナルコンピュータにおける電子化文書400の表示画面の一例を模式的に示した図である。It is the figure which showed typically an example of the display screen of the electronic document 400 in the personal computer according to Embodiment 1 of this invention. この発明の実施の形態1に従う付属情報の生成処理を実現する機能構成を示すブロック図である。It is a block diagram which shows the function structure which implement | achieves the production | generation process of the attached information according to Embodiment 1 of this invention. 文書画像に含まれる文書要素の抽出処理を説明するための図である。It is a figure for demonstrating the extraction process of the document element contained in a document image. この発明の実施の形態1に従うMFPの操作パネル部の外観を示す一例である。It is an example showing an appearance of an operation panel unit of the MFP according to the first embodiment of the present invention. この発明の実施の形態1に従う解析結果の表示および選別条件の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図である。It is a figure which shows an example of the display content on the display panel of an operation panel part regarding the display of the analysis result according to Embodiment 1 of this invention, and the setting of the selection conditions. 電子化文書生成部が生成する電子化文書400のデータ構造の一例を示す図である。It is a figure which shows an example of the data structure of the electronic document 400 which an electronic document production | generation part produces | generates. しおりデータのデータ構造の一例を示す図である。It is a figure which shows an example of the data structure of bookmark data. 電子化文書の出力先の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図である。It is a figure which shows an example of the display content in the display panel of an operation panel part regarding the setting of the output destination of an electronic document. この発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。It is a flowchart which shows the specific example of the production | generation process of the digitized document according to Embodiment 1 of this invention. この発明の実施の形態2に従う付属情報の生成処理を実現する機能構成を示すブロック図である。It is a block diagram which shows the function structure which implement | achieves the production | generation process of the attached information according to Embodiment 2 of this invention. この発明の実施の形態2に従う選別条件の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図であるIt is a figure which shows an example of the display content in the display panel of an operation panel part regarding the setting of the selection conditions according to Embodiment 2 of this invention. この発明の実施の形態2に従う選別条件の設定に関して、操作パネル部の表示パネルにおける表示内容の一例を示す図であるIt is a figure which shows an example of the display content in the display panel of an operation panel part regarding the setting of the selection conditions according to Embodiment 2 of this invention. この発明の実施の形態2に従う電子化文書の生成処理の具体例を示すフローチャートである。It is a flowchart which shows the specific example of the production | generation process of the digitized document according to Embodiment 2 of this invention.

符号の説明Explanation of symbols

1,1# MFP、12 画像バッファ部、14 圧縮処理部、16 電子化文書生成部、18,18# 文書要素抽出部、20 要素種別判断部、22 しおりデータ生成部、24,24# 表示部、26,26# 設定操作部、28 送信部、32 設定データ格納部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 操作パネル部、110a 表示パネル、110b ストップボタン、110c スタートボタン、110d 操作ボタン、112 記憶部、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部(HDD)、213 メモリ部、215 CD−ROMドライブ、215a CD−ROM、217 FDDドライブ、217a フレキシブルディスク、300 原稿、300A 文書画像、400 電子化文書、402 ヘッダ部、404 文書画像部、406 データ部、408 フッタ部、420 文書要素、450 種別出現度数グラフ、452 種別表示、454,792 チェックボックス、470 宛先ボタン、472 保存先ボタン、476 タブボタン、480 選別条件候補、494 種別表示、500 文書表示領域、502,504 しおり位置、510 付属情報表示領域、512,514 アイコン、PC,PC1,PC2,PC3
パーソナルコンピュータ、SRV サーバ装置。
1, 1 # MFP, 12 image buffer unit, 14 compression processing unit, 16 digitized document generation unit, 18, 18 # document element extraction unit, 20 element type determination unit, 22 bookmark data generation unit, 24, 24 # display unit , 26, 26 # setting operation unit, 28 transmission unit, 32 setting data storage unit, 100 control unit, 102 memory unit, 104 image reading unit, 106 printing unit, 108 communication interface unit, 110 operation panel unit, 110a display panel, 110b stop button, 110c start button, 110d operation button, 112 storage unit, 203 internal bus, 205 display unit, 207 communication interface unit, 209 input unit, 211 hard disk unit (HDD), 213 memory unit, 215 CD-ROM drive, 215a CD-ROM, 217 FDD drive, 217a Flexible disk, 300 document, 300A document image, 400 digitized document, 402 header part, 404 document image part, 406 data part, 408 footer part, 420 document element, 450 type appearance frequency graph, 452 type display, 454, 792 Check box, 470 destination button, 472 save destination button, 476 tab button, 480 sorting condition candidate, 494 type display, 500 document display area, 502,504 bookmark position, 510 attached information display area, 512, 514 icon, PC, PC1 , PC2, PC3
Personal computer, SRV server device.

Claims (14)

文書画像を含む電子化文書を生成する文書処理装置であって、
前記文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の前記文書画像内での位置とを取得する取得手段と、
前記文書要素の種別についての選別条件の設定を受付ける設定受付手段と、
抽出された前記文書要素の種別と前記選別条件とを比較する比較手段と、
前記選別条件を満たす文書要素の前記文書画像内での位置を特定するための付属情報を生成する付属情報生成手段とを備える、文書処理装置。
A document processing apparatus for generating an electronic document including a document image,
Obtaining means for extracting a document element from the document image and obtaining a type of the extracted document element and a position of the document element in the document image;
Setting accepting means for accepting setting of the selection condition for the type of the document element;
A comparing means for comparing the type of the extracted document element and the selection condition;
A document processing apparatus comprising: attached information generating means for generating attached information for specifying a position in the document image of a document element satisfying the selection condition.
抽出された前記文書要素の種別についての取得結果とともに、前記選別条件の設定画面を表示する表示手段をさらに備え、
前記設定受付手段は、前記設定画面に対する操作に応じて前記選別条件を受付け、
前記比較手段は、前記選別条件の設定動作に応答して比較動作を開始する、請求項1に記載の文書処理装置。
A display means for displaying the setting screen of the selection condition together with the acquisition result about the type of the extracted document element,
The setting accepting unit accepts the selection condition according to an operation on the setting screen,
The document processing apparatus according to claim 1, wherein the comparison unit starts a comparison operation in response to the selection condition setting operation.
前記表示手段は、前記取得結果として、前記文書画像から抽出された前記文書要素の数を種別毎に表示する、請求項2に記載の文書処理装置。   The document processing apparatus according to claim 2, wherein the display unit displays the number of the document elements extracted from the document image for each type as the acquisition result. 前記文書画像は、少なくとも1つのページ領域を含み、
前記表示手段は、ページ領域に対応付けて、前記文書要素の数を種別毎に表示する、請求項3に記載の文書処理装置。
The document image includes at least one page region;
The document processing apparatus according to claim 3, wherein the display unit displays the number of the document elements for each type in association with a page area.
前記設定受付手段は、前記文書画像のページ領域別に前記選別条件の設定を受付け可能である、請求項4に記載の文書処理装置。   The document processing apparatus according to claim 4, wherein the setting receiving unit is capable of receiving the setting of the selection condition for each page area of the document image. 前記選別条件の設定を受付ける設定受付手段をさらに備え、
前記比較手段は、抽出された前記文書要素の種別と予め設定された前記選別条件とを比較する、請求項1に記載の文書処理装置。
Further comprising setting accepting means for accepting the setting of the selection condition;
The document processing apparatus according to claim 1, wherein the comparison unit compares the type of the extracted document element with the selection condition set in advance.
選択可能な少なくとも1つの選別条件候補を表示する表示手段をさらに備え、
前記選択条件候補の各々は、前記文書要素の種別のうち少なくとも1つの特定の種別を指定するものであり、
前記比較手段は、前記選択条件候補のうち選択された選択条件候補に対応する前記選別条件に基づいて比較処理を行なう、請求項6に記載の文書処理装置。
A display unit for displaying at least one selectable selection condition candidate;
Each of the selection condition candidates designates at least one specific type among the types of the document elements,
The document processing apparatus according to claim 6, wherein the comparison unit performs a comparison process based on the selection condition corresponding to the selection condition candidate selected from the selection condition candidates.
前記文書画像に前記付属情報を付加することで前記電子化文書を生成する文書生成手段をさらに備える、請求項1〜7のいずれか1項に記載の文書処理装置。   The document processing apparatus according to claim 1, further comprising a document generation unit configured to generate the digitized document by adding the attached information to the document image. 前記文書要素の種別は、表題、見出し、段落区切り、図、表、写真、手書き文字、下線付文字、装飾文字、色文字、の少なくともいずれかを含む、請求項1〜8のいずれか1項に記載の文書処理装置。   The type of the document element includes at least one of a title, a headline, a paragraph break, a figure, a table, a photograph, a handwritten character, an underlined character, a decorative character, and a color character. Document processing apparatus described in 1. 原稿を読取ることで前記文書画像を生成する画像読取手段をさらに備える、請求項1〜9のいずれか1項に記載の文書処理装置。   The document processing apparatus according to claim 1, further comprising an image reading unit that generates the document image by reading a document. ネットワークを介して前記電子化文書を他の装置へ送信するための送信手段をさらに備える、請求項1〜10のいずれか1項に記載の文書処理装置。   The document processing apparatus according to claim 1, further comprising a transmission unit configured to transmit the digitized document to another apparatus via a network. 前記電子化文書を格納するための格納手段をさらに備える、請求項1〜11のいずれか
1項に記載の文書処理装置。
The document processing apparatus according to claim 1, further comprising storage means for storing the electronic document.
文書画像を含む電子化文書を生成する文書処理方法であって、
前記文書画像から文書要素を抽出し、抽出した文書要素の種別と当該文書要素の前記文書画像内での位置とを取得するステップと、
前記文書要素の種別についての選別条件の設定を受付けるステップと、
抽出された前記文書要素の種別と前記選別条件とを比較するステップと、
前記選別条件を満たす文書要素の前記文書画像内での位置を特定するための付属情報を生成するステップとを備える、文書処理方法。
A document processing method for generating an electronic document including a document image,
Extracting a document element from the document image, obtaining a type of the extracted document element and a position of the document element in the document image;
Receiving a setting of a selection condition for the type of the document element;
Comparing the type of the extracted document element with the selection condition;
Generating ancillary information for specifying a position of the document element satisfying the selection condition in the document image.
請求項13に記載の文書処理方法をコンピュータに実行させる、文書処理プログラム。   A document processing program for causing a computer to execute the document processing method according to claim 13.
JP2007189479A 2007-07-20 2007-07-20 Document processing apparatus, document processing method, and document processing program Expired - Fee Related JP5176416B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007189479A JP5176416B2 (en) 2007-07-20 2007-07-20 Document processing apparatus, document processing method, and document processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007189479A JP5176416B2 (en) 2007-07-20 2007-07-20 Document processing apparatus, document processing method, and document processing program

Publications (2)

Publication Number Publication Date
JP2009026122A true JP2009026122A (en) 2009-02-05
JP5176416B2 JP5176416B2 (en) 2013-04-03

Family

ID=40397862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007189479A Expired - Fee Related JP5176416B2 (en) 2007-07-20 2007-07-20 Document processing apparatus, document processing method, and document processing program

Country Status (1)

Country Link
JP (1) JP5176416B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244412A (en) * 2009-04-08 2010-10-28 Konica Minolta Business Technologies Inc Apparatus, method and program for processing document
US20110032556A1 (en) * 2009-08-06 2011-02-10 Konica Minolta Business Technologies, Inc. Document processing device, document processing method, and recording medium
JP2014171053A (en) * 2013-03-01 2014-09-18 Sky Com:Kk Electronic document container data file, electronic document container data file generating apparatus, electronic document container data file generating program, server apparatus, and electronic document container data file generating method
JP2017507444A (en) * 2014-02-03 2017-03-16 ブルービーム ソフトウェア インコーポレイテッドBluebeam Software, Inc. Document page identifier from selected page area content
US9778823B2 (en) 2014-01-09 2017-10-03 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and non-transitory computer readable medium

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7959395B2 (en) 2002-07-22 2011-06-14 Brooks Automation, Inc. Substrate processing apparatus
US7988398B2 (en) 2002-07-22 2011-08-02 Brooks Automation, Inc. Linear substrate transport apparatus
US8602706B2 (en) 2009-08-17 2013-12-10 Brooks Automation, Inc. Substrate processing apparatus

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342326A (en) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd Document processor
JPH06214983A (en) * 1993-01-20 1994-08-05 Kokusai Denshin Denwa Co Ltd <Kdd> Method and device for converting document picture to logical structuring document
JPH07141368A (en) * 1993-11-18 1995-06-02 Ricoh Co Ltd Skipping support display device and word processor
JPH11232271A (en) * 1998-02-16 1999-08-27 Fuji Xerox Co Ltd Document managing device and storage medium
JP2000250909A (en) * 1999-03-02 2000-09-14 Fuji Xerox Co Ltd Device and method for displaying structured document
JP2002342343A (en) * 2001-05-18 2002-11-29 Ricoh Co Ltd Document managing system
JP2003132078A (en) * 2001-10-25 2003-05-09 Toppan Printing Co Ltd Database construction device, method therefor, program thereof and recording medium
JP2005043990A (en) * 2003-07-23 2005-02-17 Toshiba Corp Document processor and document processing method
JP2005346376A (en) * 2004-06-02 2005-12-15 Fuji Xerox Co Ltd Document processor, document processing method and document processing program
JP2006163602A (en) * 2004-12-03 2006-06-22 Sharp Corp Device and method of outputting memo, computer program and recording medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342326A (en) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd Document processor
JPH06214983A (en) * 1993-01-20 1994-08-05 Kokusai Denshin Denwa Co Ltd <Kdd> Method and device for converting document picture to logical structuring document
JPH07141368A (en) * 1993-11-18 1995-06-02 Ricoh Co Ltd Skipping support display device and word processor
JPH11232271A (en) * 1998-02-16 1999-08-27 Fuji Xerox Co Ltd Document managing device and storage medium
JP2000250909A (en) * 1999-03-02 2000-09-14 Fuji Xerox Co Ltd Device and method for displaying structured document
JP2002342343A (en) * 2001-05-18 2002-11-29 Ricoh Co Ltd Document managing system
JP2003132078A (en) * 2001-10-25 2003-05-09 Toppan Printing Co Ltd Database construction device, method therefor, program thereof and recording medium
JP2005043990A (en) * 2003-07-23 2005-02-17 Toshiba Corp Document processor and document processing method
JP2005346376A (en) * 2004-06-02 2005-12-15 Fuji Xerox Co Ltd Document processor, document processing method and document processing program
JP2006163602A (en) * 2004-12-03 2006-06-22 Sharp Corp Device and method of outputting memo, computer program and recording medium

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244412A (en) * 2009-04-08 2010-10-28 Konica Minolta Business Technologies Inc Apparatus, method and program for processing document
US20110032556A1 (en) * 2009-08-06 2011-02-10 Konica Minolta Business Technologies, Inc. Document processing device, document processing method, and recording medium
US8854635B2 (en) * 2009-08-06 2014-10-07 Konica Minolta Business Technologies, Inc. Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings
JP2014171053A (en) * 2013-03-01 2014-09-18 Sky Com:Kk Electronic document container data file, electronic document container data file generating apparatus, electronic document container data file generating program, server apparatus, and electronic document container data file generating method
US9778823B2 (en) 2014-01-09 2017-10-03 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method, and non-transitory computer readable medium
JP2017507444A (en) * 2014-02-03 2017-03-16 ブルービーム ソフトウェア インコーポレイテッドBluebeam Software, Inc. Document page identifier from selected page area content
US10976899B2 (en) 2014-02-03 2021-04-13 Bluebeam, Inc. Method for automatically applying page labels using extracted label contents from selected pages
US11592967B2 (en) 2014-02-03 2023-02-28 Bluebeam, Inc. Method for automatically indexing an electronic document

Also Published As

Publication number Publication date
JP5176416B2 (en) 2013-04-03

Similar Documents

Publication Publication Date Title
JP5176416B2 (en) Document processing apparatus, document processing method, and document processing program
US8724193B2 (en) Image forming device creating a preview image
US8896859B2 (en) Printer and scanner utilizing a file sharing protocol
JP6849387B2 (en) Image processing device, image processing system, control method of image processing device, and program
US8634100B2 (en) Image forming apparatus for detecting index data of document data, and control method and program product for the same
US20120072833A1 (en) Host apparatus and screen capture control method thereof
JP2008250666A (en) Image processor and control method for image processor
KR20100039167A (en) Method for viewing thumbnail, and image forming apparatus
JP2009146064A (en) Image processor, image processing method, and program and storage medium thereof
JP2006178973A (en) Document separator page
US8134739B2 (en) Information processing device for outputting reduced-size pages
JP4635907B2 (en) Printing device
JP2009169675A (en) Document processing apparatus, document processing method and document processing program
JP2008052496A (en) Image display device, method, program and recording medium
JP4849154B2 (en) Image processing apparatus, image processing method, image forming apparatus, and image processing program
JP5125238B2 (en) Document processing apparatus, document processing method, and document processing program
JP4101052B2 (en) Document management apparatus, document management apparatus control method, and computer program
JP5098614B2 (en) Method for controlling sentence processing apparatus and sentence processing apparatus
JP5747344B2 (en) Document management system, document management server, control method therefor, and program
JP2015028750A (en) Image forming apparatus, control method of image forming apparatus, and program
JP5181631B2 (en) Image forming apparatus, electronic document data creation method, and electronic document data creation program
JP5205821B2 (en) Document processing method, document processing program, and document processing apparatus
JP2009140311A (en) Document processing apparatus and method
US20240129416A1 (en) Method of producing image data and image reading system
JP2010220046A (en) Device and sytem for document management, method and program for print control, and recording medium with the program recorded therein

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121224

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees