JP2005322060A - Document image processor and document image processing system - Google Patents

Document image processor and document image processing system Download PDF

Info

Publication number
JP2005322060A
JP2005322060A JP2004140130A JP2004140130A JP2005322060A JP 2005322060 A JP2005322060 A JP 2005322060A JP 2004140130 A JP2004140130 A JP 2004140130A JP 2004140130 A JP2004140130 A JP 2004140130A JP 2005322060 A JP2005322060 A JP 2005322060A
Authority
JP
Japan
Prior art keywords
image
document
document image
partial
partial image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004140130A
Other languages
Japanese (ja)
Inventor
Katsuhiko Itonori
勝彦 糸乘
Masahiro Kato
雅弘 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004140130A priority Critical patent/JP2005322060A/en
Publication of JP2005322060A publication Critical patent/JP2005322060A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To easily change the layout of a document image with image data as it is even when elements other than characters are included. <P>SOLUTION: A document image processing server 10 cuts out a partial image from a document image 200 for each element constituting the document and attaches a tag showing the type of the element and identification information of the other relating partial images to each cut out partial image to generate editing data 300. When the document image processing server 10 receives an acquisition request for a document image from a communication terminal, the document image processing server 10, for example, determines a layout 400 suitable for the display performance of a display device provided in the communication terminal, arranges each partial image included in the editing data 300 according to an edition rule for each element defined in an edition rule table 105c and the determined layout 400, regenerates a document image 500 and transmits the document image 500 to the communication terminal. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文書画像のレイアウトを変更するための技術に関する。   The present invention relates to a technique for changing the layout of a document image.

例えば、イメージスキャナによって原稿から読み取られた文書画像のレイアウトを変更する場合、特許文献1に記載されているように、文字認識処理を行って文書画像中に含まれる文字列を文字コードに置き換えたテキストデータを生成し、このテキストデータを変更後のレイアウトに従って編集し直した上で文書画像を再生成することが多い。これに対し、特許文献2には、文書画像から行単位で部分画像を切り出し、切り出した各部分画像を変更後のレイアウトに従ってつなぎあわせ、文書画像を再生成することが記載されている。この特許文献2に記載された技術によれば、文書画像のレイアウト変更を、文字認識処理を施さずにイメージデータのままで行える。   For example, when the layout of a document image read from an original by an image scanner is changed, a character recognition process is performed to replace a character string included in the document image with a character code, as described in Patent Document 1. In many cases, text data is generated, the text data is re-edited according to the changed layout, and then the document image is re-generated. On the other hand, Patent Document 2 describes that a partial image is cut out from a document image in line units, the cut out partial images are connected according to the changed layout, and the document image is regenerated. According to the technique described in Patent Document 2, the layout of a document image can be changed as it is without performing character recognition processing.

特開平11−219442号公報JP 11-219442 A 特開2003−348326号公報JP 2003-348326 A

ところで、特許文献2に記載された技術は、図や表、画像等の文字以外の要素を含まない文書画像のレイアウトを変更するものであるので、文字の他に図や表、画像が含まれている文書画像のレイアウトを変更する場合に、例えば、1画面分の文書画像が複数画面分の文書画像に変更されたとしても、本文中の図や表について述べている1文の近くに、該当する図や表が適切な大きさで配置されるよう、文書画像を編集し直すことができない。   By the way, since the technique described in Patent Document 2 changes the layout of a document image that does not include elements other than characters such as diagrams, tables, and images, it includes diagrams, tables, and images in addition to characters. For example, even when the document image for one screen is changed to a document image for a plurality of screens, when the layout of the document image is changed, The document image cannot be re-edited so that the corresponding figure or table is arranged in an appropriate size.

本発明は、以上説明した事情に鑑みてなされたものであり、その目的は、文字以外の要素が含まれている場合であっても、文書画像のレイアウトをイメージデータのままで容易に変更できるようにすることである。   The present invention has been made in view of the circumstances described above, and its purpose is to easily change the layout of a document image as it is, even when elements other than characters are included. Is to do so.

上記課題を解決するために、本発明は、文書画像から文書を構成する要素毎に切り出された各部分画像と、当該各部分画像に付与された、当該各部分画像が属する前記要素の種類を示す識別子とを、文書の先頭からの当該各部分画像の順序と関連付けて記憶する第1の記憶手段と、複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、前記生成手段により生成された文書画像を出力する出力手段とを具備する文書画像処理装置を提供する。   In order to solve the above-described problems, the present invention provides each partial image cut out for each element constituting a document from a document image, and the type of the element to which each partial image belongs to each partial image. A first storage unit that stores an identifier to be associated with the order of each partial image from the top of the document, and a part belonging to the element for each type of the element corresponding to each of a plurality of layouts A second storage unit that stores editing rule information that defines an image editing rule; a determination unit that determines a layout for outputting the document image from the plurality of layouts; and the first storage unit. Each stored partial image is edited for the element specified by the assigned identifier in the editing rule information associated with the layout determined by the determining means. And rules, and the layout, the are arranged in accordance with the order, providing a generating unit that generates a document image, the document image processing apparatus and an output means for outputting the document image generated by the generation unit.

本発明によれば、文書画像処理装置は、文書画像から切り出した各部分画像を、決定したレイアウト用の編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、決定したレイアウトと、文書の先頭からの順序とに従って配置し、文書画像を生成する。   According to the present invention, the document image processing apparatus edits each partial image cut out from the document image with respect to the element specified by the assigned identifier in the determined editing rule information for layout. The document image is generated by arranging according to the rule, the determined layout, and the order from the top of the document.

また、本発明は、文書画像を取得する取得手段と、前記取得手段により取得された文書画像から文書を構成する要素毎の部分画像を切り出す切出手段と、前記切出手段により切り出された各部分画像に対し、当該部分画像が属する前記要素の種類を示す識別子を付与する付与手段と、前記付与手段により識別子が付与された各部分画像を、文書の先頭からの当該各部分画像の順序と関連付けて記憶する第1の記憶手段と、複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、前記生成手段により生成された文書画像を出力する出力手段とを具備する文書画像処理システムを提供する。   Further, the present invention provides an acquisition unit for acquiring a document image, a cutout unit for cutting out a partial image for each element constituting the document from the document image acquired by the acquisition unit, and each of the cutout units cut out by the cutout unit An assigning unit that assigns an identifier indicating the type of the element to which the partial image belongs to a partial image, and each partial image to which the identifier is assigned by the assigning unit, and the order of the partial images from the top of the document Corresponding to each of a plurality of layouts, first storage means for storing in association with each other, and second storage for storing, for each element type, editing rule information that defines editing rules for partial images belonging to the element Means for determining a layout for outputting the document image from the plurality of layouts, and each partial image stored in the first storage means for the determination means. A document image arranged in accordance with the editing rule defined for the element specified by the assigned identifier, the layout, and the order among the editing rule information associated with the determined layout There is provided a document image processing system comprising generation means for generating a document image and output means for outputting the document image generated by the generation means.

本発明によれば、文字以外の要素が含まれている場合であっても、文書画像のレイアウトをイメージデータのままで容易に変更できる。   According to the present invention, even when elements other than characters are included, the layout of a document image can be easily changed while maintaining the image data.

以下、図面を参照して本発明の実施形態について説明する。
[A−1.実施形態の構成]
図1は、本発明の実施形態に係る文書画像処理サーバ10の構成を例示するブロック図である。同図において、CPU101は、ROM102やHD(ハードディスク)105に記憶されているプログラムを読み出して実行し、文書画像処理サーバ10を制御する。ROM102には、文書画像処理サーバ10の基本制御を司るプログラム等が記憶されている。RAM103は、CPU101のワークエリアとして用いられる。通信制御部104は、パケット通信機能を有する携帯電話機やPDA、パーソナルコンピュータ(以下、本明細書では「PC」と記載する)等との間で、ネットワークを介して行われるパケット通信を制御する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[A-1. Configuration of Embodiment]
FIG. 1 is a block diagram illustrating the configuration of a document image processing server 10 according to an embodiment of the invention. In the figure, a CPU 101 reads out and executes a program stored in a ROM 102 or an HD (hard disk) 105 and controls a document image processing server 10. The ROM 102 stores a program that performs basic control of the document image processing server 10. The RAM 103 is used as a work area for the CPU 101. The communication control unit 104 controls packet communication performed via a network with a mobile phone, a PDA, a personal computer (hereinafter referred to as “PC” in this specification) having a packet communication function.

HD105には、文書画像記憶領域105aと、レイアウト情報記憶領域105bと、編集ルールテーブル105cとが設けられている。ここで、文書画像記憶領域105aには、例えば、イメージスキャナによって原稿から読み取られて文書画像処理サーバ10に入力された文書画像のデータや、この文書画像に対して後述する文書画像解析処理(図3のステップS101〜S103)を施して得られる編集用データ300(図4(c)参照)等が保存される。   The HD 105 is provided with a document image storage area 105a, a layout information storage area 105b, and an editing rule table 105c. Here, in the document image storage area 105a, for example, document image data read from an original by an image scanner and input to the document image processing server 10, or a document image analysis process (see FIG. The editing data 300 (see FIG. 4C) obtained by performing the steps S101 to S103 of 3 is stored.

なお、詳細は後述するが、編集用データ300は、例えば、タイトル(文字列)、本文(1行毎の文字列)、図、表、画像、図や表のキャプション(見出し)等の、文書を構成する要素毎に文書画像から切り出された各部分画像に対して、この部分画像の属する要素の種類や、関連する他の部分画像の識別情報等を示すタグが付与されたデータである。   Although details will be described later, the editing data 300 is, for example, a document such as a title (character string), a text (character string for each line), a figure, a table, an image, a figure or a table caption (heading), and the like. For each of the partial images cut out from the document image for each element that constitutes, the data indicating the type of element to which the partial image belongs, identification information of other related partial images, and the like are added.

レイアウト情報記憶領域105bには、文書画像のレイアウトを定めるレイアウト情報が複数記憶されている。例えば、レイアウト情報記憶領域105bには、PDAや携帯電話機等の、画面サイズが比較的小さい通信機器で文書画像を表示するためのレイアウト情報や、PC用のレイアウト情報等、表示デバイスの表示性能(画面サイズ、解像度、白黒/カラー等)に応じて異なる複数種類のレイアウト情報が記憶されている。   The layout information storage area 105b stores a plurality of pieces of layout information that determine the layout of the document image. For example, in the layout information storage area 105b, display performance (such as layout information for displaying a document image on a communication device having a relatively small screen size, such as a PDA or a cellular phone, layout information for a PC, etc.) Different types of layout information are stored depending on the screen size, resolution, monochrome / color, etc.

編集ルールテーブル105cは、レイアウト情報記憶領域105bに記憶されたレイアウト情報毎に設けられ、文書画像のレイアウトを変更する場合に参照される。この編集ルールテーブル105cには、図2に示すように、文書を構成する要素(タイトル、本文、図、表、画像、キャプション)毎に、この要素に属する部分画像について、使用の有無や、配置する場合に適用する編集規則が定められている。   The editing rule table 105c is provided for each layout information stored in the layout information storage area 105b, and is referred to when changing the layout of the document image. In the editing rule table 105c, as shown in FIG. 2, for each element (title, text, figure, table, image, caption) constituting the document, whether or not the partial image belonging to this element is used and the arrangement are arranged. Editing rules to be applied when doing so are established.

なお、文書画像処理サーバ10は、キーボードやマウス等を有する操作部や、CRTやLCD等によって構成される表示部、原稿を光学的に読み取って文書画像を生成するイメージスキャナ、DVD等の記録媒体から文書画像を読み出す記録媒体ドライブをさらに備えていてもよい。   The document image processing server 10 includes an operation unit having a keyboard and a mouse, a display unit configured by a CRT or LCD, an image scanner that optically reads a document and generates a document image, a recording medium such as a DVD May further include a recording medium drive for reading a document image from the recording medium drive.

[A−2.実施形態の動作]
図3は、文書画像処理サーバ10の動作を説明するための図である。同図に示すステップS101〜S108までの処理は、大別して、文書画像解析処理(ステップS101〜S103)と、文書画像編集処理(ステップS104〜S108)とに分けられる。
[A-2. Operation of the embodiment]
FIG. 3 is a diagram for explaining the operation of the document image processing server 10. The processing from step S101 to S108 shown in the figure is roughly divided into document image analysis processing (steps S101 to S103) and document image editing processing (steps S104 to S108).

文書画像解析処理において、まず、CPU101は、文書画像を取得する処理を行なう(ステップS101)。例えば、CPU101は、通信制御部104を制御して、PC等の通信端末からネットワークを介して送信されてきた文書画像を受信する。なお、文書画像処理サーバ10にイメージスキャナや記録媒体ドライブが備わっている場合は、イメージスキャナによって原稿から読み取られた文書画像や、記録媒体ドライブによって記録媒体から読み出された文書画像を取得する構成であってもよい。   In the document image analysis process, first, the CPU 101 performs a process of acquiring a document image (step S101). For example, the CPU 101 controls the communication control unit 104 to receive a document image transmitted from a communication terminal such as a PC via a network. When the document image processing server 10 includes an image scanner or a recording medium drive, the document image read from the original by the image scanner or the document image read from the recording medium by the recording medium drive is acquired. It may be.

次いで、CPU101は、ステップS101において取得した文書画像のレイアウトを解析する。例えば、CPU101は、図4(a)に示す文書画像200のレイアウトを解析し、図4(b)に示すように、“タイトル領域”、“本文領域1”、“本文領域2”および“図領域”を認識するとともに、背景画像が付与されていることを認識する。なお、背景画像は、文書画像200から分離され、文書画像200の認証情報やアノテーション情報等とともに文書画像記憶領域105aに保存される。   Next, the CPU 101 analyzes the layout of the document image acquired in step S101. For example, the CPU 101 analyzes the layout of the document image 200 shown in FIG. 4A and, as shown in FIG. 4B, “title area”, “text area 1”, “text area 2”, and “figure”. “Region” is recognized and a background image is added. The background image is separated from the document image 200 and is stored in the document image storage area 105a together with the authentication information and annotation information of the document image 200.

次いで、CPU101は、解析によって得られたレイアウトに従って、文書の先頭から順に、タイトル(文字列)、本文(1行毎の文字列)、図、表、画像、キャプション等、文書を構成する要素毎に文書画像200から部分画像を切り出していく(ステップS102)。例えば、図4(b)において“タイトル領域”は、文書のタイトルを示す部分画像としてそのまま切り出される。また、同図において、“本文領域1”および“本文領域2”からは、1行毎に文字列の部分画像が切り出される。また、“図領域”からは、図を示す部分画像と、図のキャプションを示す部分画像が切り出される。なお、文字列の部分画像については、1行単位ではなく、句読点単位あるいは1文字単位で部分画像が切り出される構成であってもよい。   Next, in accordance with the layout obtained by the analysis, the CPU 101 sequentially determines, for each element constituting the document, such as a title (character string), a body (character string for each line), a figure, a table, an image, and a caption. Then, partial images are cut out from the document image 200 (step S102). For example, in FIG. 4B, the “title area” is cut out as it is as a partial image indicating the title of the document. Also, in the figure, a partial image of a character string is cut out for each line from “text area 1” and “text area 2”. Also, from the “figure region”, a partial image showing a figure and a partial image showing a caption of the figure are cut out. The partial image of the character string may be cut out in units of punctuation marks or in units of one character instead of in units of one line.

このようにして文書画像200から各部分画像を切り出し終えると、次いで、CPU101は、切り出された各部分画像に対してデータ記述言語によりタグを付与し、編集用データ300を生成する(ステップS103)。ここで、図4(c)は、編集用データ300のデータ構造を例示する図である。同図に示すように、編集用データ300のデータ構造は、HTML等のマークアップ言語を用いてWebブラウザ上での文字列の表示方法を記述する態様と似ている。   When each partial image has been cut out from the document image 200 in this way, the CPU 101 then adds a tag to the cut out partial image using a data description language to generate editing data 300 (step S103). . Here, FIG. 4C is a diagram illustrating the data structure of the editing data 300. As shown in the figure, the data structure of the editing data 300 is similar to an aspect of describing a character string display method on a Web browser using a markup language such as HTML.

すなわち、CPU101は、文書画像200から切り出された各部分画像に対し、文書の先頭から順に1ないし複数の部分画像毎に、データ記述言語によって、“<title>”や“</title>”等の開始タグと終了タグを付与していく。例えば、図4(c)において、“<title>”と“</title>”は、これらのタグによって挟まれた部分画像が文書のタイトルであることを示すタグである。また、“<body>”と“</body>”は、これらのタグによって挟まれた、1ないし複数の部分画像が1行毎の文字列(本文)であることを示すタグである。また、“<figure>”と“</figure>”は、図の部分画像を示すタグである。   That is, the CPU 101 applies “<title>”, “</ title>”, and the like for each partial image cut out from the document image 200 according to the data description language for each of one or more partial images in order from the top of the document. The start tag and end tag are added. For example, in FIG. 4C, “<title>” and “</ title>” are tags indicating that the partial image sandwiched between these tags is the title of the document. Further, “<body>” and “</ body>” are tags indicating that one or more partial images sandwiched between these tags are character strings (text) for each line. “<Figure>” and “</ figure>” are tags indicating partial images in the figure.

なお、“<figure name=fig1 index=(キャプションの部分画像)>”は、このタグの付与された図の部分画像の名称を“fig1”と定義し、かつ、この図のキャプションが“index=”の後ろにある部分画像であることを示している。また、“<body link:href=#fig1>”は、このタグの付与された1行分の文字列の部分画像が、図の部分画像“fig1”と関連していることを示している。   Note that “<figure name = fig1 index = (partial image of caption)>” defines the name of the partial image of the figure to which this tag is attached as “fig1”, and the caption of this figure is “index = It is a partial image behind “”. “<Body link: href = # fig1>” indicates that the partial image of the character string for one line to which this tag is attached is related to the partial image “fig1” in the figure.

このようにタグは、タグの付与された部分画像が、文書を構成する各要素のうち、どの要素に属しているのかを示す識別子の役割を果たすとともに、関連する他の部分画像の識別情報を含んでいる。なお、CPU101は、図、表、画像の部分画像を切り出すと、そのキャプションの部分画像(例えば、“図1”を示す画像)と、行単位で切り出された文字列の各部分画像とを比較し、画像認識処理によって図、表、画像の部分画像とリンクさせる文字列の部分画像を特定する。そして、CPU101は、特定した文字列の部分画像に対し、リンクさせる部分画像の識別情報を含んだタグを付与する。   In this way, the tag serves as an identifier that indicates which element of the elements constituting the document the partial image to which the tag is attached, and also provides identification information of other related partial images. Contains. When the CPU 101 cuts out a partial image of a figure, a table, or an image, it compares the partial image of the caption (for example, an image showing “FIG. 1”) with each partial image of the character string cut out in units of lines. Then, the partial image of the character string to be linked to the partial image of the figure, table, or image is specified by the image recognition process. Then, the CPU 101 assigns a tag including identification information of the partial image to be linked to the partial image of the specified character string.

CPU101は、このようにして生成した編集用データ300を、ステップS101において取得した文書画像200のデータや、この文書画像200のアノテーション情報、背景画像等とともに文書画像記憶領域105aへ蓄積する。   The CPU 101 accumulates the editing data 300 generated in this way in the document image storage area 105a together with the data of the document image 200 acquired in step S101, the annotation information of the document image 200, the background image, and the like.

次に、文書画像編集処理において、まず、CPU101は、通信制御部104を制御して、PC等の通信端末から送信されてきた、文書画像の取得要求メッセージを受信する(ステップS104)。この取得要求メッセージには、取得対象となる文書画像に割り当てられている文書画像ID(例えば、文書画像のデータ名や識別番号等)と、取得要求メッセージの送信元となる通信端末に備わる表示デバイスの表示性能(画面サイズ、解像度、白黒/カラー等)を示す表示性能情報が含まれている。   Next, in the document image editing process, first, the CPU 101 controls the communication control unit 104 to receive a document image acquisition request message transmitted from a communication terminal such as a PC (step S104). The acquisition request message includes a document image ID assigned to the document image to be acquired (for example, the data name or identification number of the document image) and a display device provided in the communication terminal that is the transmission source of the acquisition request message. Display performance information indicating the display performance (screen size, resolution, monochrome / color, etc.).

CPU101は、受信した取得要求メッセージに含まれている表示性能情報に従って、レイアウト情報記憶領域105bに記憶されている複数のレイアウト情報の中から、通信端末に備わる表示デバイスに適したレイアウト情報を読み出す(ステップS105)。ここで読み出されたレイアウト情報が変更後のレイアウトとして決定される。   In accordance with the display performance information included in the received acquisition request message, the CPU 101 reads layout information suitable for the display device provided in the communication terminal from the plurality of layout information stored in the layout information storage area 105b ( Step S105). The layout information read here is determined as the layout after change.

なお、CPU101は、表示性能情報の代わりに、通信端末の機種や表示デバイスの機種を示す情報を用いてレイアウトを決定してもよい。この場合、通信端末の機種情報や表示デバイスの機種情報が取得要求メッセージに含まれて通信端末から文書画像処理サーバ10へ送信される。また、CPU101は、通信端末のユーザによって指定されたレイアウトを、変更後のレイアウトとして決定してもよい。また、文書画像処理サーバ10に操作部が備わっている場合、この操作部から、文書画像を指定する情報と、レイアウトの変更要求と、変更後のレイアウトを指定する情報が入力されてもよい。   Note that the CPU 101 may determine the layout using information indicating the model of the communication terminal and the model of the display device instead of the display performance information. In this case, the model information of the communication terminal and the model information of the display device are included in the acquisition request message and transmitted from the communication terminal to the document image processing server 10. Further, the CPU 101 may determine the layout designated by the user of the communication terminal as the layout after the change. When the document image processing server 10 includes an operation unit, information for designating a document image, a layout change request, and information for designating a layout after the change may be input from the operation unit.

次いで、CPU101は、受信した取得要求メッセージに含まれている文書画像IDによって特定される編集用データ300を文書画像記憶領域105aから読み出す。また、CPU101は、ステップS105において決定したレイアウト用の編集ルールテーブル105cをHD105から読み出す。そして、CPU101は、編集用データ300に含まれている各部分画像を先頭から順に、編集ルールテーブル105cに定められた要素毎の規則と、決定したレイアウトとに従って配置していく(ステップS106)。   Next, the CPU 101 reads the editing data 300 specified by the document image ID included in the received acquisition request message from the document image storage area 105a. Further, the CPU 101 reads from the HD 105 the layout editing rule table 105c determined in step S105. Then, the CPU 101 arranges the partial images included in the editing data 300 in order from the top in accordance with the rules for each element determined in the editing rule table 105c and the determined layout (step S106).

なお、前述したように編集ルールテーブル105cには、文書を構成する要素毎に、この要素に属する部分画像の編集規則が定められている。CPU101は、各部分画像に適用する規則を、部分画像に付与されているタグに従って決定する。すなわち、編集ルールテーブル105cが図2に示すものであって、開始タグとして“<title>”の付与された部分画像を配置しようとした場合、CPU101は、このタイトルの部分画像を、編集ルールテーブル105cにおいてタイトルに対して定められている規則に従って、1文字が16×16ピクセル程度の大きさとなるように拡大または縮小した上で、レイアウトに沿って配置する。また、開始タグとして“<figure>”の付与された部分画像を配置しようとした場合、図2に示すように、この編集ルールテーブル105cでは、図の部分画像の使用は許可されていないので、CPU101は、この部分画像を配置せずに削除する。   As described above, in the editing rule table 105c, editing rules for partial images belonging to this element are defined for each element constituting the document. The CPU 101 determines a rule to be applied to each partial image according to a tag attached to the partial image. That is, when the editing rule table 105c is as shown in FIG. 2 and an attempt is made to place a partial image to which “<title>” is assigned as a start tag, the CPU 101 displays the partial image of the title as an editing rule table. In accordance with the rule defined for the title in 105c, the characters are enlarged or reduced so as to have a size of about 16 × 16 pixels, and then arranged along the layout. Further, when trying to place a partial image with “<figure>” as a start tag, as shown in FIG. 2, in this editing rule table 105c, the use of the partial image in the figure is not permitted. The CPU 101 deletes this partial image without arranging it.

このようにCPU101は、編集ルールテーブル105cに定められた規則のうち、付与されているタグに応じた規則を適用しながら各部分画像をレイアウトに沿って配置していく。なお、例えば、図4(d)に示すレイアウト400が変更後のレイアウトとして決定され、このレイアウト400に従って図4(c)に示す編集用データ300を配置する場合、変更後のレイアウト400は段組が2段であるので、文字列の部分画像を配置していく際には、1行分の文字列の部分画像を段組の枠の端で折り返えしたり、1行分の文字列の部分画像を配置し終えた場合に枠の端まで余りがある場合は、その位置から次の文字列の部分画像を続けて配置していく。また、文字列の部分画像を枠の端で折り返す際には、文字が途中で切れて次の行に移行してしまうことがないよう、折り返しの位置を文字単位で制御してもよい。また、1文字単位で部分画像を切り出す構成であれば、文字毎に拡大や縮小を行うとともに、文字飾りや文字の色を変更する等、簡易的な編集を行うことも可能である。   In this way, the CPU 101 arranges the partial images along the layout while applying the rule according to the tag assigned among the rules defined in the editing rule table 105c. For example, when the layout 400 shown in FIG. 4D is determined as the layout after change, and the editing data 300 shown in FIG. Since there are two levels, when arranging partial images of character strings, the partial images of the character strings for one line are folded at the end of the column frame, or the character strings for one line When the partial image has been arranged, if there is a remainder to the end of the frame, the partial image of the next character string is continuously arranged from that position. Further, when the partial image of the character string is folded at the end of the frame, the folding position may be controlled in units of characters so that the character is not cut off and moved to the next line. In addition, if the configuration is such that the partial image is cut out in units of one character, it is possible to perform simple editing such as enlargement or reduction for each character, and changing the character decoration or the color of the character.

また、CPU101は、文字列の部分画像を配置していく途中で、例えば、開始タグとして“<body link:href=#fig1>”の付与された文字列の部分画像があると、この文字列の部分画像を配置し終えた直後の位置に、図の部分画像“fig1”と、そのキャプションの部分画像を配置する。すなわち、レイアウトの変更に際し、図や表について述べている1文の近傍に、該当する図や表を配置することができる。この際、近傍に配置される図や表の部分画像についても、適用する画像処理の内容を編集規則として編集ルールテーブル105cに定めておくことで、レイアウト400に応じた適切な大きさに拡大または縮小することができる。   In the middle of arranging the character string partial image, for example, if there is a character string partial image with “<body link: href = # fig1>” as a start tag, the CPU 101 The partial image “fig1” in the figure and the partial image of the caption are arranged at a position immediately after the arrangement of the partial image. That is, when changing the layout, the corresponding figure or table can be arranged in the vicinity of one sentence describing the figure or table. At this time, the image processing contents to be applied to the image and table partial images arranged in the vicinity are enlarged or reduced to an appropriate size according to the layout 400 by setting the editing rule in the editing rule table 105c. Can be reduced.

なお、開始タグとして“<body link:href=#fig1>”の付与された文字列の部分画像については、図の部分画像“fig1”を配置せずに、この文字列の部分画像に、例えば、アンダーラインを付与するとともに色を変える等の修飾を施し、図の部分画像“fig1”とのリンクを設定することも可能である。このような規則を編集ルールテーブル105cに登録しておけば、例えば、通信端末のユーザは、画面表示された文書画像中において、周囲の文字列とは異なる態様で表示されている文字列部分にカーソルを移動し、クリックすることで、リンク先の図の部分画像を呼び出して閲覧することができる。   For the partial image of the character string assigned with “<body link: href = # fig1>” as the start tag, the partial image “fig1” in the figure is not arranged, It is also possible to set a link to the partial image “fig1” in the figure by applying modifications such as adding an underline and changing the color. If such a rule is registered in the editing rule table 105c, for example, the user of the communication terminal can enter the character string portion displayed in a different form from the surrounding character strings in the document image displayed on the screen. By moving the cursor and clicking, it is possible to call and view the partial image of the linked diagram.

このようにCPU101は、編集ルールテーブル105cに定められた要素毎の規則と、レイアウト400とに従って各部分画像を配置し終えると、レイアウト変更後の文書画像500(図4(e)参照)を生成する(ステップS107)。そして、CPU101は、生成した文書画像500を、取得要求メッセージの送信元となる通信端末へ返信する(ステップS108)。これにより、通信端末では、文書画像処理サーバ10から取得した文書画像500が画面に表示される。   As described above, when the CPU 101 finishes arranging the partial images according to the rules for each element defined in the editing rule table 105c and the layout 400, the CPU 101 generates a document image 500 (see FIG. 4E) after the layout change. (Step S107). Then, the CPU 101 returns the generated document image 500 to the communication terminal that is the transmission source of the acquisition request message (step S108). Thereby, in the communication terminal, the document image 500 acquired from the document image processing server 10 is displayed on the screen.

なお、文書画像処理サーバ10に表示部が備わっている場合は、この表示部に、生成した文書画像500を表示するようにしてもよい。また、文書画像処理サーバ10に記録媒体ドライブが備わっている場合は、生成した文書画像500を、記録媒体ドライブを介してDVD等の記録媒体に書き込み、この記録媒体をユーザに配布するようにしてもよい。   When the document image processing server 10 includes a display unit, the generated document image 500 may be displayed on the display unit. If the document image processing server 10 includes a recording medium drive, the generated document image 500 is written to a recording medium such as a DVD via the recording medium drive, and the recording medium is distributed to the user. Also good.

以上説明したように本実施形態によれば、文書画像処理サーバ10は、文書を構成する要素毎に文書画像200から部分画像を切り出し、切り出した各部分画像に、要素の種類や、関連する他の部分画像の識別情報を示すタグを付与して編集用データ300を生成する。また、文書画像処理サーバ10は、通信端末から文書画像の取得要求を受信すると、例えば、通信端末に備わる表示デバイスの表示性能に適したレイアウト400を決定し、編集用データ300に含まれる各部分画像を、編集ルールテーブル105cに定められた要素毎の編集規則と、決定したレイアウト400とに従って配置し、文書画像500を再生成して通信端末に送信する。   As described above, according to the present embodiment, the document image processing server 10 cuts out a partial image from the document image 200 for each element constituting the document, and for each cut out partial image, the type of element and other related items. Editing data 300 is generated with a tag indicating identification information of the partial image. Further, when the document image processing server 10 receives a document image acquisition request from the communication terminal, for example, the document image processing server 10 determines a layout 400 suitable for the display performance of the display device provided in the communication terminal, and each part included in the editing data 300 The image is arranged according to the editing rule for each element defined in the editing rule table 105c and the determined layout 400, and the document image 500 is regenerated and transmitted to the communication terminal.

したがって、図5に示すように、文書画像処理サーバ10は、通信端末に備わる表示デバイスの表示性能に適したレイアウトに文書画像200をイメージデータのまま編集し直して出力することができる。これにより、例えば、画面サイズが比較的小さく、かつ解像度が低い表示デバイスを備えたPDAや携帯電話機に対しては、編集用データ300のうち、タイトルや本文を示すタグが付与されている部分画像のみを使用して生成した文書画像500を送信する等、文字を優先的して表示させることができる。なお、同図に示すように、通信端末に接続されている印刷デバイス(プリンタやコピー機等)の印刷性能に適したレイアウトに変更することも可能である。   Therefore, as shown in FIG. 5, the document image processing server 10 can edit and output the document image 200 as it is in the layout suitable for the display performance of the display device provided in the communication terminal. Thereby, for example, for a PDA or a mobile phone having a display device with a relatively small screen size and a low resolution, a partial image to which a tag indicating a title or text is given in the editing data 300. It is possible to preferentially display characters such as transmitting a document image 500 generated using only As shown in the figure, it is possible to change to a layout suitable for the printing performance of a printing device (printer, copier, etc.) connected to the communication terminal.

また、図や表について述べている1文の近傍に、該当する図や表を配置することができる等、本文の内容と、本文以外の要素(図や表、画像)との関係を踏まえて文書画像200のレイアウトを変更することができる。また、レイアウトの変更に際して各部分画像に適用する編集規則を、文書を構成する要素毎に定めたことで、レイアウト変更時における各部分画像の編集処理が簡素化できる。なお、文書画像処理サーバ10で扱われる文書画像200は、原稿から読み取ったもの以外に、PC等で生成された文書のイメージデータであってもよい。また、文書画像処理サーバ10は、文書画像200のレイアウトをイメージデータのまま変更することができるので、例えば、契約書、請求書、領収書等の文書画像のレイアウト変更に適している。   In addition, based on the relationship between the contents of the text and elements (diagrams, tables, images) other than the text, such as being able to place the corresponding figure or table in the vicinity of one sentence describing the figure or table The layout of the document image 200 can be changed. Further, by defining the editing rules to be applied to each partial image when changing the layout for each element constituting the document, the editing process of each partial image at the time of changing the layout can be simplified. Note that the document image 200 handled by the document image processing server 10 may be image data of a document generated by a PC or the like other than the one read from the original. Further, since the document image processing server 10 can change the layout of the document image 200 without changing the image data, the document image processing server 10 is suitable for changing the layout of document images such as contracts, invoices, and receipts.

[B.変形例]
(1)文書画像処理サーバ10は、通信端末からの検索要求に応じて、文書画像記憶領域105aに記憶されている複数の文書画像の中から、検索キー(文字列)が含まれる文書画像を検索し、検索結果を通信端末に通知することができる。この場合、レイアウト情報記憶領域105bには、文書画像の検索結果を表示するためのレイアウト情報が複数記憶されており、例えば、ヒットした複数の文書画像について、各々のタイトルのみの一覧を表示するためのレイアウト情報や、各々のタイトルおよび検索キーを含んだ1行分の文字列の一覧を表示するためのレイアウト情報等が記憶されている。
[B. Modified example]
(1) The document image processing server 10 selects a document image including a search key (character string) from a plurality of document images stored in the document image storage area 105a in response to a search request from the communication terminal. It is possible to search and notify the search result to the communication terminal. In this case, the layout information storage area 105b stores a plurality of layout information for displaying search results of document images. For example, a list of only the titles of a plurality of hit document images is displayed. Layout information, layout information for displaying a list of character strings for one line including each title and search key, and the like are stored.

図6は、文書画像の検索処理について説明するための図である。文書画像処理サーバ10は、通信端末から検索キーとして、ASCIIコードやJISコード等の文字コードで示された文字列情報を受信すると、まず、この文字列情報をフォント化して文字列画像を生成する。次いで、文書画像処理サーバ10は、生成した文字列画像と、文書画像記憶領域105aに記憶されている各編集用データ300内の部分画像とを画像認識処理によって順次比較していき、文字列画像にマッチする部分画像を検索する。なお、文書画像処理サーバ10は、各部分画像のうち、タイトルや本文を示すタグ、すなわち文字列を示すタグの付与された部分画像のみを検索の対象としてもよい。   FIG. 6 is a diagram for explaining a document image search process. When the document image processing server 10 receives character string information indicated by a character code such as an ASCII code or a JIS code as a search key from the communication terminal, first, the character image information is converted into a font to generate a character string image. . Next, the document image processing server 10 sequentially compares the generated character string image and the partial image in each editing data 300 stored in the document image storage area 105a by image recognition processing, and the character string image. Search for partial images that match. Note that the document image processing server 10 may search only a partial image to which a tag indicating a title or text, that is, a tag indicating a character string, is assigned among the partial images.

そして、検索の結果、文字列画像にマッチする部分画像がヒットした場合、文書画像処理サーバ10は、ヒットした部分画像が含まれる文書画像の情報を、検索要求の発信元となった通信端末へ送信する。例えば、文書画像処理サーバ10は、検索結果として、ヒットした文書画像のデータ名や識別番号を送信することができる。また、文書画像処理サーバ10は、検索によってヒットした複数の文書画像について、各々の編集用データ300内からタイトルを示すタグが付与された部分画像のみを抽出し、その一覧を示す検索結果画像を、レイアウト情報記憶領域105bに記憶されているレイアウト情報を用いて生成し、通信端末へ送信することができる。なお、文書画像処理サーバ10に操作部や表示部が備わっている場合は、操作部から入力された検索キーに従って文書画像の検索処理を行い、検索結果を示す画像を生成して文書画像処理サーバ10に備わる表示部に表示することもできる。   If the partial image matching the character string image is hit as a result of the search, the document image processing server 10 sends the information on the document image including the hit partial image to the communication terminal that has sent the search request. Send. For example, the document image processing server 10 can transmit the data name and identification number of the hit document image as a search result. Further, the document image processing server 10 extracts only partial images to which a tag indicating a title is assigned from each editing data 300 for a plurality of document images hit by the search, and searches the search result image indicating the list. It can be generated using the layout information stored in the layout information storage area 105b and transmitted to the communication terminal. When the document image processing server 10 includes an operation unit and a display unit, the document image search process is performed according to the search key input from the operation unit, and an image indicating the search result is generated to generate the document image processing server. 10 can also be displayed on the display unit 10.

(2)上述した実施形態では、本発明を文書画像処理サーバ10に適用した場合について説明したが、例えば、PCやコピー機等に本発明を適用してもよい。また、部分画像に付与されるのは、データ記述言語によるタグに限定されない。要は、部分画像が文書を構成する各要素のうちどの要素に属しているのかを示す識別子や、関連する他の部分画像の識別情報が、文書画像から切り出された各部分画像に対して付与されていればよい。また、文書画像から切り出された各部分画像には、文書の先頭からの順序を示す順序番号が付与されていてもよい。 (2) In the above-described embodiment, the case where the present invention is applied to the document image processing server 10 has been described. However, the present invention may be applied to, for example, a PC or a copier. Moreover, what is given to a partial image is not limited to the tag by a data description language. In short, an identifier indicating which element the partial image belongs to and the identification information of other related partial images are given to each partial image cut out from the document image. It only has to be done. Further, each partial image cut out from the document image may be given a sequence number indicating the sequence from the top of the document.

(3)上述した実施形態では、文書画像解析処理(ステップS101〜S103)と、文書画像編集処理(ステップS104〜S108)と、編集用データ300、レイアウト情報、編集ルールテーブル105c等を記憶するHD105とが1台の装置(文書画像処理サーバ10)に全て組み込まれている場合について説明した。しかしながら、本発明は、例えば、文書画像解析処理を行う文書画像解析装置と、文書画像編集処理を行う文書画像編集装置と、編集用データ300、レイアウト情報、編集ルールテーブル105c等を記憶する記憶装置とを有する文書画像処理システムとして実施することができる。勿論、記憶装置は、編集用データ300を記憶する記憶装置と、レイアウト情報や編集ルールテーブル105cを記憶する記憶装置とに分けられていてもよい。 (3) In the above-described embodiment, the document image analysis processing (steps S101 to S103), the document image editing processing (steps S104 to S108), the editing data 300, the layout information, the editing rule table 105c, etc. are stored in the HD 105. A case has been described in which these are all incorporated in one apparatus (document image processing server 10). However, the present invention, for example, a document image analysis device that performs document image analysis processing, a document image editing device that performs document image editing processing, a storage device that stores editing data 300, layout information, an editing rule table 105c, and the like. Can be implemented as a document image processing system. Of course, the storage device may be divided into a storage device that stores the editing data 300 and a storage device that stores layout information and the editing rule table 105c.

本発明の実施形態に係る文書画像処理サーバ10の構成を例示するブロック図である。It is a block diagram which illustrates the composition of document image processing server 10 concerning an embodiment of the present invention. 同実施形態に係る編集ルールテーブル105cのデータ構成について例示する図である。It is a figure which illustrates about the data structure of the edit rule table 105c which concerns on the embodiment. 同実施形態に係る文書画像処理サーバ10の動作を説明するための図である。It is a figure for demonstrating operation | movement of the document image processing server 10 concerning the embodiment. 同実施形態に係り、文書画像200の解析から再生成までの処理の流れを説明するための図である。5 is a diagram for explaining a flow of processing from analysis to re-generation of a document image 200 according to the embodiment. FIG. 同実施形態に係り、文書画像200のレイアウトを変更した場合について例示する図である。6 is a diagram illustrating a case where the layout of the document image 200 is changed according to the embodiment. FIG. 本発明の変形例(1)に係り、文書画像の検索処理について説明するための図である。It is a figure for demonstrating the search process of a document image concerning the modification (1) of this invention.

符号の説明Explanation of symbols

10…文書画像処理サーバ、101…CPU、102…ROM、103…RAM、104…通信制御部、105…HD、105a…文書画像記憶領域、105b…レイアウト情報記憶領域、105c…編集ルールテーブル、200…文書画像、300…編集用データ、400…レイアウト、500…レイアウト変更後の文書画像。   DESCRIPTION OF SYMBOLS 10 ... Document image processing server 101 ... CPU, 102 ... ROM, 103 ... RAM, 104 ... Communication control part, 105 ... HD, 105a ... Document image storage area, 105b ... Layout information storage area, 105c ... Editing rule table, 200 ... document image, 300 ... editing data, 400 ... layout, 500 ... document image after layout change.

Claims (10)

文書画像から文書を構成する要素毎に切り出された各部分画像と、当該各部分画像に付与された、当該各部分画像が属する前記要素の種類を示す識別子とを、文書の先頭からの当該各部分画像の順序と関連付けて記憶する第1の記憶手段と、
複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、
前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、
前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、
前記生成手段により生成された文書画像を出力する出力手段と
を具備することを特徴とする文書画像処理装置。
Each partial image cut out from the document image for each element constituting the document, and an identifier indicating the type of the element to which each partial image belongs, assigned to each partial image, from the beginning of the document First storage means for storing in association with the order of the partial images;
Corresponding to each of a plurality of layouts, for each type of element, a second storage means for storing editing rule information defining an editing rule for a partial image belonging to the element;
Determining means for determining a layout for outputting the document image from the plurality of layouts;
Each partial image stored in the first storage means is determined for an element specified by an assigned identifier in the editing rule information associated with the layout determined by the determination means. Generating means for generating a document image by arranging according to the edited editing rules, the layout, and the order;
An output means for outputting the document image generated by the generating means.
文書画像を取得する第1の取得手段と、
前記第1の取得手段により取得された文書画像から文書を構成する要素毎の部分画像を切り出す切出手段と、
前記切出手段により切り出された各部分画像に対し、当該部分画像が属する前記要素の種類を示す識別子を付与する付与手段と、
前記付与手段により識別子が付与された各部分画像を、文書の先頭からの当該各部分画像の順序と関連付けて前記第1の記憶手段に記憶する記憶制御手段をさらに具備する
ことを特徴とする請求項1に記載の文書画像処理装置。
First acquisition means for acquiring a document image;
Clipping means for cutting out a partial image for each element constituting the document from the document image obtained by the first obtaining means;
An assigning means for giving an identifier indicating the type of the element to which the partial image belongs to each partial image cut out by the cutting means;
The storage control means for storing each partial image assigned with an identifier by the assigning means in the first storage means in association with the order of the partial images from the beginning of the document. Item 2. The document image processing apparatus according to Item 1.
前記第1の取得手段により取得された文書画像のレイアウトを解析する解析手段をさらに具備し、
前記切出手段は、前記解析手段による解析により得られたレイアウトに従って前記文書画像から文書を構成する要素毎の部分画像を切り出す
ことを特徴とする請求項2に記載の文書画像処理装置。
An analysis unit for analyzing the layout of the document image acquired by the first acquisition unit;
The document image processing apparatus according to claim 2, wherein the cutout unit cuts out a partial image for each element constituting the document from the document image in accordance with a layout obtained by the analysis by the analysis unit.
前記編集規則情報には、複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の配置の有無と、配置する場合に前記部分画像に対して施す画像処理が定められている
ことを特徴とする請求項1に記載の文書画像処理装置。
The editing rule information includes, for each of the plurality of layouts, the presence / absence of arrangement of partial images belonging to the element and image processing performed on the partial image when arranged. The document image processing apparatus according to claim 1, wherein the document image processing apparatus is defined.
前記部分画像には、当該部分画像と関連する他の部分画像がある場合に、当該他の部分画像を示す画像識別情報が付与され、
前記編集規則情報には、前記画像識別情報が付与された部分画像の近傍に、前記画像識別情報によって特定される他の部分画像を配置することが定められている
ことを特徴とする請求項1に記載の文書画像処理装置。
When there is another partial image related to the partial image, the partial image is given image identification information indicating the other partial image,
2. The editing rule information defines that another partial image specified by the image identification information is arranged in the vicinity of the partial image to which the image identification information is assigned. The document image processing apparatus described in 1.
前記部分画像には、当該部分画像と関連する他の部分画像がある場合に、当該他の部分画像を示す画像識別情報が付与され、
前記編集規則情報には、前記画像識別情報が付与された部分画像と、前記画像識別情報によって特定される他の部分画像とにリンクを設定することが定められている
ことを特徴とする請求項1に記載の文書画像処理装置。
When there is another partial image related to the partial image, the partial image is given image identification information indicating the other partial image,
The edit rule information defines that a link is set between a partial image to which the image identification information is assigned and another partial image specified by the image identification information. The document image processing apparatus according to 1.
文書画像を表示または印刷するデバイスの出力性能を示す情報、あるいは前記デバイスの機種を示す情報を取得する第2の取得手段をさらに具備し、
前記決定手段は、前記第2の取得手段により取得された情報に基づいて、前記文書画像を前記デバイスで出力する際のレイアウトを前記複数のレイアウトの中から決定する
ことを特徴とする請求項1に記載の文書画像処理装置。
Further comprising second acquisition means for acquiring information indicating the output performance of a device displaying or printing a document image, or information indicating the model of the device;
The determination unit determines a layout for outputting the document image by the device from the plurality of layouts based on the information acquired by the second acquisition unit. The document image processing apparatus described in 1.
前記第1の記憶手段には、文書画像毎に、前記識別子の付与された前記各部分画像が前記順序と関連付けられて記憶されており、
文字列を入力する入力手段と、
前記入力手段により入力された文字列の画像を生成する文字列画像生成手段と、
前記文字列画像生成手段により生成された文字列画像と、前記第1の記憶手段に記憶されている各部分画像とを比較し、前記文字列画像が含まれる文書画像を検索する検索手段と、
前記検索手段による検索結果を出力する手段とをさらに具備する
ことを特徴とする請求項1に記載の文書画像処理装置。
The first storage means stores, for each document image, the partial images assigned with the identifiers in association with the order,
An input means for inputting a character string;
A character string image generating means for generating an image of the character string input by the input means;
Search means for comparing the character string image generated by the character string image generation means with each partial image stored in the first storage means and searching for a document image including the character string image;
The document image processing apparatus according to claim 1, further comprising means for outputting a search result by the search means.
前記検索手段は、前記第1の記憶手段に記憶されている各部分画像のうち、文字列であることを示す識別子の付与されている部分画像と、前記文字列画像生成手段により生成された文字列画像とを比較し、前記文字列画像が含まれる文書画像を検索する
ことを特徴とする請求項8に記載の文書画像処理装置。
The search unit includes a partial image to which an identifier indicating a character string is assigned among the partial images stored in the first storage unit, and a character generated by the character string image generation unit. The document image processing apparatus according to claim 8, wherein a document image including the character string image is searched by comparing with a column image.
文書画像を取得する取得手段と、
前記取得手段により取得された文書画像から文書を構成する要素毎の部分画像を切り出す切出手段と、
前記切出手段により切り出された各部分画像に対し、当該部分画像が属する前記要素の種類を示す識別子を付与する付与手段と、
前記付与手段により識別子が付与された各部分画像を、文書の先頭からの当該各部分画像の順序と関連付けて記憶する第1の記憶手段と、
複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、
前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、
前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、
前記生成手段により生成された文書画像を出力する出力手段と
を具備することを特徴とする文書画像処理システム。
An acquisition means for acquiring a document image;
Cutting means for cutting out a partial image for each element constituting the document from the document image obtained by the obtaining means;
An assigning means for giving an identifier indicating the type of the element to which the partial image belongs to each partial image cut out by the cutting means;
First storage means for storing each partial image assigned with an identifier by the assigning means in association with the order of the partial images from the beginning of the document;
Corresponding to each of a plurality of layouts, for each type of element, a second storage means for storing editing rule information defining an editing rule for a partial image belonging to the element;
Determining means for determining a layout for outputting the document image from the plurality of layouts;
Each partial image stored in the first storage means is determined for an element specified by an assigned identifier in the editing rule information associated with the layout determined by the determination means. Generating means for generating a document image by arranging according to the edited editing rules, the layout, and the order;
And an output means for outputting the document image generated by the generating means.
JP2004140130A 2004-05-10 2004-05-10 Document image processor and document image processing system Pending JP2005322060A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004140130A JP2005322060A (en) 2004-05-10 2004-05-10 Document image processor and document image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004140130A JP2005322060A (en) 2004-05-10 2004-05-10 Document image processor and document image processing system

Publications (1)

Publication Number Publication Date
JP2005322060A true JP2005322060A (en) 2005-11-17

Family

ID=35469294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004140130A Pending JP2005322060A (en) 2004-05-10 2004-05-10 Document image processor and document image processing system

Country Status (1)

Country Link
JP (1) JP2005322060A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097040A (en) * 2018-01-31 2019-08-06 精工爱普生株式会社 Image processing apparatus and storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097040A (en) * 2018-01-31 2019-08-06 精工爱普生株式会社 Image processing apparatus and storage medium
CN110097040B (en) * 2018-01-31 2023-07-04 精工爱普生株式会社 Image processing apparatus and storage medium

Similar Documents

Publication Publication Date Title
US9436419B2 (en) Selectively printing portions of a web page based on user selection
US6537324B1 (en) Generating and storing a link correlation table in hypertext documents at the time of storage
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
KR100907671B1 (en) How to Edit Recording Media and Character Input
US20010027460A1 (en) Document processing apparatus and document processing method
KR20080034873A (en) Method and apparatus for generating xhtml data of device
JP2004252944A (en) Program, character input edit method and device, and recording medium
US7746491B2 (en) Information processing method and apparatus
US20110032556A1 (en) Document processing device, document processing method, and recording medium
JP2000148748A (en) Japanese syllbary-to-chinese character conversion and image retrieval and display system
JP4666996B2 (en) Electronic filing system and electronic filing method
JP2010277120A (en) Image forming apparatus and application view conversion program
JP3571312B2 (en) Link collection creation device, link collection creation method, and link collection creation program
CN102193789A (en) Method and equipment for realizing configurable skip link
US20020103704A1 (en) Banner advertisement forming apparatus, banner advertisement forming method, and storage medium
JP4106220B2 (en) Response sentence creation support system and method, and program
JP4935396B2 (en) Web content providing apparatus, web content providing method, and program
JP2005322060A (en) Document image processor and document image processing system
JP4012047B2 (en) Electronic document creation apparatus, electronic document creation method, and program causing computer to execute the method
JP2010049598A (en) Web-site creation support device and program
JP4119413B2 (en) Knowledge information collection system, knowledge search system, and knowledge information collection method
JP4013748B2 (en) Document generator
JP2001306550A (en) Display information processor
JP5232748B2 (en) Workflow display support apparatus and workflow display program
JP3712320B2 (en) Variable document creation system, variable document output device and variable document creation device