JP2005322060A - Document image processor and document image processing system - Google Patents
Document image processor and document image processing system Download PDFInfo
- Publication number
- JP2005322060A JP2005322060A JP2004140130A JP2004140130A JP2005322060A JP 2005322060 A JP2005322060 A JP 2005322060A JP 2004140130 A JP2004140130 A JP 2004140130A JP 2004140130 A JP2004140130 A JP 2004140130A JP 2005322060 A JP2005322060 A JP 2005322060A
- Authority
- JP
- Japan
- Prior art keywords
- image
- document
- document image
- partial
- partial image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、文書画像のレイアウトを変更するための技術に関する。 The present invention relates to a technique for changing the layout of a document image.
例えば、イメージスキャナによって原稿から読み取られた文書画像のレイアウトを変更する場合、特許文献1に記載されているように、文字認識処理を行って文書画像中に含まれる文字列を文字コードに置き換えたテキストデータを生成し、このテキストデータを変更後のレイアウトに従って編集し直した上で文書画像を再生成することが多い。これに対し、特許文献2には、文書画像から行単位で部分画像を切り出し、切り出した各部分画像を変更後のレイアウトに従ってつなぎあわせ、文書画像を再生成することが記載されている。この特許文献2に記載された技術によれば、文書画像のレイアウト変更を、文字認識処理を施さずにイメージデータのままで行える。
For example, when the layout of a document image read from an original by an image scanner is changed, a character recognition process is performed to replace a character string included in the document image with a character code, as described in
ところで、特許文献2に記載された技術は、図や表、画像等の文字以外の要素を含まない文書画像のレイアウトを変更するものであるので、文字の他に図や表、画像が含まれている文書画像のレイアウトを変更する場合に、例えば、1画面分の文書画像が複数画面分の文書画像に変更されたとしても、本文中の図や表について述べている1文の近くに、該当する図や表が適切な大きさで配置されるよう、文書画像を編集し直すことができない。 By the way, since the technique described in Patent Document 2 changes the layout of a document image that does not include elements other than characters such as diagrams, tables, and images, it includes diagrams, tables, and images in addition to characters. For example, even when the document image for one screen is changed to a document image for a plurality of screens, when the layout of the document image is changed, The document image cannot be re-edited so that the corresponding figure or table is arranged in an appropriate size.
本発明は、以上説明した事情に鑑みてなされたものであり、その目的は、文字以外の要素が含まれている場合であっても、文書画像のレイアウトをイメージデータのままで容易に変更できるようにすることである。 The present invention has been made in view of the circumstances described above, and its purpose is to easily change the layout of a document image as it is, even when elements other than characters are included. Is to do so.
上記課題を解決するために、本発明は、文書画像から文書を構成する要素毎に切り出された各部分画像と、当該各部分画像に付与された、当該各部分画像が属する前記要素の種類を示す識別子とを、文書の先頭からの当該各部分画像の順序と関連付けて記憶する第1の記憶手段と、複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、前記生成手段により生成された文書画像を出力する出力手段とを具備する文書画像処理装置を提供する。 In order to solve the above-described problems, the present invention provides each partial image cut out for each element constituting a document from a document image, and the type of the element to which each partial image belongs to each partial image. A first storage unit that stores an identifier to be associated with the order of each partial image from the top of the document, and a part belonging to the element for each type of the element corresponding to each of a plurality of layouts A second storage unit that stores editing rule information that defines an image editing rule; a determination unit that determines a layout for outputting the document image from the plurality of layouts; and the first storage unit. Each stored partial image is edited for the element specified by the assigned identifier in the editing rule information associated with the layout determined by the determining means. And rules, and the layout, the are arranged in accordance with the order, providing a generating unit that generates a document image, the document image processing apparatus and an output means for outputting the document image generated by the generation unit.
本発明によれば、文書画像処理装置は、文書画像から切り出した各部分画像を、決定したレイアウト用の編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、決定したレイアウトと、文書の先頭からの順序とに従って配置し、文書画像を生成する。 According to the present invention, the document image processing apparatus edits each partial image cut out from the document image with respect to the element specified by the assigned identifier in the determined editing rule information for layout. The document image is generated by arranging according to the rule, the determined layout, and the order from the top of the document.
また、本発明は、文書画像を取得する取得手段と、前記取得手段により取得された文書画像から文書を構成する要素毎の部分画像を切り出す切出手段と、前記切出手段により切り出された各部分画像に対し、当該部分画像が属する前記要素の種類を示す識別子を付与する付与手段と、前記付与手段により識別子が付与された各部分画像を、文書の先頭からの当該各部分画像の順序と関連付けて記憶する第1の記憶手段と、複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、前記生成手段により生成された文書画像を出力する出力手段とを具備する文書画像処理システムを提供する。 Further, the present invention provides an acquisition unit for acquiring a document image, a cutout unit for cutting out a partial image for each element constituting the document from the document image acquired by the acquisition unit, and each of the cutout units cut out by the cutout unit An assigning unit that assigns an identifier indicating the type of the element to which the partial image belongs to a partial image, and each partial image to which the identifier is assigned by the assigning unit, and the order of the partial images from the top of the document Corresponding to each of a plurality of layouts, first storage means for storing in association with each other, and second storage for storing, for each element type, editing rule information that defines editing rules for partial images belonging to the element Means for determining a layout for outputting the document image from the plurality of layouts, and each partial image stored in the first storage means for the determination means. A document image arranged in accordance with the editing rule defined for the element specified by the assigned identifier, the layout, and the order among the editing rule information associated with the determined layout There is provided a document image processing system comprising generation means for generating a document image and output means for outputting the document image generated by the generation means.
本発明によれば、文字以外の要素が含まれている場合であっても、文書画像のレイアウトをイメージデータのままで容易に変更できる。 According to the present invention, even when elements other than characters are included, the layout of a document image can be easily changed while maintaining the image data.
以下、図面を参照して本発明の実施形態について説明する。
[A−1.実施形態の構成]
図1は、本発明の実施形態に係る文書画像処理サーバ10の構成を例示するブロック図である。同図において、CPU101は、ROM102やHD(ハードディスク)105に記憶されているプログラムを読み出して実行し、文書画像処理サーバ10を制御する。ROM102には、文書画像処理サーバ10の基本制御を司るプログラム等が記憶されている。RAM103は、CPU101のワークエリアとして用いられる。通信制御部104は、パケット通信機能を有する携帯電話機やPDA、パーソナルコンピュータ(以下、本明細書では「PC」と記載する)等との間で、ネットワークを介して行われるパケット通信を制御する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[A-1. Configuration of Embodiment]
FIG. 1 is a block diagram illustrating the configuration of a document image processing server 10 according to an embodiment of the invention. In the figure, a
HD105には、文書画像記憶領域105aと、レイアウト情報記憶領域105bと、編集ルールテーブル105cとが設けられている。ここで、文書画像記憶領域105aには、例えば、イメージスキャナによって原稿から読み取られて文書画像処理サーバ10に入力された文書画像のデータや、この文書画像に対して後述する文書画像解析処理(図3のステップS101〜S103)を施して得られる編集用データ300(図4(c)参照)等が保存される。
The
なお、詳細は後述するが、編集用データ300は、例えば、タイトル(文字列)、本文(1行毎の文字列)、図、表、画像、図や表のキャプション(見出し)等の、文書を構成する要素毎に文書画像から切り出された各部分画像に対して、この部分画像の属する要素の種類や、関連する他の部分画像の識別情報等を示すタグが付与されたデータである。 Although details will be described later, the editing data 300 is, for example, a document such as a title (character string), a text (character string for each line), a figure, a table, an image, a figure or a table caption (heading), and the like. For each of the partial images cut out from the document image for each element that constitutes, the data indicating the type of element to which the partial image belongs, identification information of other related partial images, and the like are added.
レイアウト情報記憶領域105bには、文書画像のレイアウトを定めるレイアウト情報が複数記憶されている。例えば、レイアウト情報記憶領域105bには、PDAや携帯電話機等の、画面サイズが比較的小さい通信機器で文書画像を表示するためのレイアウト情報や、PC用のレイアウト情報等、表示デバイスの表示性能(画面サイズ、解像度、白黒/カラー等)に応じて異なる複数種類のレイアウト情報が記憶されている。
The layout
編集ルールテーブル105cは、レイアウト情報記憶領域105bに記憶されたレイアウト情報毎に設けられ、文書画像のレイアウトを変更する場合に参照される。この編集ルールテーブル105cには、図2に示すように、文書を構成する要素(タイトル、本文、図、表、画像、キャプション)毎に、この要素に属する部分画像について、使用の有無や、配置する場合に適用する編集規則が定められている。
The editing rule table 105c is provided for each layout information stored in the layout
なお、文書画像処理サーバ10は、キーボードやマウス等を有する操作部や、CRTやLCD等によって構成される表示部、原稿を光学的に読み取って文書画像を生成するイメージスキャナ、DVD等の記録媒体から文書画像を読み出す記録媒体ドライブをさらに備えていてもよい。 The document image processing server 10 includes an operation unit having a keyboard and a mouse, a display unit configured by a CRT or LCD, an image scanner that optically reads a document and generates a document image, a recording medium such as a DVD May further include a recording medium drive for reading a document image from the recording medium drive.
[A−2.実施形態の動作]
図3は、文書画像処理サーバ10の動作を説明するための図である。同図に示すステップS101〜S108までの処理は、大別して、文書画像解析処理(ステップS101〜S103)と、文書画像編集処理(ステップS104〜S108)とに分けられる。
[A-2. Operation of the embodiment]
FIG. 3 is a diagram for explaining the operation of the document image processing server 10. The processing from step S101 to S108 shown in the figure is roughly divided into document image analysis processing (steps S101 to S103) and document image editing processing (steps S104 to S108).
文書画像解析処理において、まず、CPU101は、文書画像を取得する処理を行なう(ステップS101)。例えば、CPU101は、通信制御部104を制御して、PC等の通信端末からネットワークを介して送信されてきた文書画像を受信する。なお、文書画像処理サーバ10にイメージスキャナや記録媒体ドライブが備わっている場合は、イメージスキャナによって原稿から読み取られた文書画像や、記録媒体ドライブによって記録媒体から読み出された文書画像を取得する構成であってもよい。
In the document image analysis process, first, the
次いで、CPU101は、ステップS101において取得した文書画像のレイアウトを解析する。例えば、CPU101は、図4(a)に示す文書画像200のレイアウトを解析し、図4(b)に示すように、“タイトル領域”、“本文領域1”、“本文領域2”および“図領域”を認識するとともに、背景画像が付与されていることを認識する。なお、背景画像は、文書画像200から分離され、文書画像200の認証情報やアノテーション情報等とともに文書画像記憶領域105aに保存される。
Next, the
次いで、CPU101は、解析によって得られたレイアウトに従って、文書の先頭から順に、タイトル(文字列)、本文(1行毎の文字列)、図、表、画像、キャプション等、文書を構成する要素毎に文書画像200から部分画像を切り出していく(ステップS102)。例えば、図4(b)において“タイトル領域”は、文書のタイトルを示す部分画像としてそのまま切り出される。また、同図において、“本文領域1”および“本文領域2”からは、1行毎に文字列の部分画像が切り出される。また、“図領域”からは、図を示す部分画像と、図のキャプションを示す部分画像が切り出される。なお、文字列の部分画像については、1行単位ではなく、句読点単位あるいは1文字単位で部分画像が切り出される構成であってもよい。
Next, in accordance with the layout obtained by the analysis, the
このようにして文書画像200から各部分画像を切り出し終えると、次いで、CPU101は、切り出された各部分画像に対してデータ記述言語によりタグを付与し、編集用データ300を生成する(ステップS103)。ここで、図4(c)は、編集用データ300のデータ構造を例示する図である。同図に示すように、編集用データ300のデータ構造は、HTML等のマークアップ言語を用いてWebブラウザ上での文字列の表示方法を記述する態様と似ている。
When each partial image has been cut out from the
すなわち、CPU101は、文書画像200から切り出された各部分画像に対し、文書の先頭から順に1ないし複数の部分画像毎に、データ記述言語によって、“<title>”や“</title>”等の開始タグと終了タグを付与していく。例えば、図4(c)において、“<title>”と“</title>”は、これらのタグによって挟まれた部分画像が文書のタイトルであることを示すタグである。また、“<body>”と“</body>”は、これらのタグによって挟まれた、1ないし複数の部分画像が1行毎の文字列(本文)であることを示すタグである。また、“<figure>”と“</figure>”は、図の部分画像を示すタグである。
That is, the
なお、“<figure name=fig1 index=(キャプションの部分画像)>”は、このタグの付与された図の部分画像の名称を“fig1”と定義し、かつ、この図のキャプションが“index=”の後ろにある部分画像であることを示している。また、“<body link:href=#fig1>”は、このタグの付与された1行分の文字列の部分画像が、図の部分画像“fig1”と関連していることを示している。 Note that “<figure name = fig1 index = (partial image of caption)>” defines the name of the partial image of the figure to which this tag is attached as “fig1”, and the caption of this figure is “index = It is a partial image behind “”. “<Body link: href = # fig1>” indicates that the partial image of the character string for one line to which this tag is attached is related to the partial image “fig1” in the figure.
このようにタグは、タグの付与された部分画像が、文書を構成する各要素のうち、どの要素に属しているのかを示す識別子の役割を果たすとともに、関連する他の部分画像の識別情報を含んでいる。なお、CPU101は、図、表、画像の部分画像を切り出すと、そのキャプションの部分画像(例えば、“図1”を示す画像)と、行単位で切り出された文字列の各部分画像とを比較し、画像認識処理によって図、表、画像の部分画像とリンクさせる文字列の部分画像を特定する。そして、CPU101は、特定した文字列の部分画像に対し、リンクさせる部分画像の識別情報を含んだタグを付与する。
In this way, the tag serves as an identifier that indicates which element of the elements constituting the document the partial image to which the tag is attached, and also provides identification information of other related partial images. Contains. When the
CPU101は、このようにして生成した編集用データ300を、ステップS101において取得した文書画像200のデータや、この文書画像200のアノテーション情報、背景画像等とともに文書画像記憶領域105aへ蓄積する。
The
次に、文書画像編集処理において、まず、CPU101は、通信制御部104を制御して、PC等の通信端末から送信されてきた、文書画像の取得要求メッセージを受信する(ステップS104)。この取得要求メッセージには、取得対象となる文書画像に割り当てられている文書画像ID(例えば、文書画像のデータ名や識別番号等)と、取得要求メッセージの送信元となる通信端末に備わる表示デバイスの表示性能(画面サイズ、解像度、白黒/カラー等)を示す表示性能情報が含まれている。
Next, in the document image editing process, first, the
CPU101は、受信した取得要求メッセージに含まれている表示性能情報に従って、レイアウト情報記憶領域105bに記憶されている複数のレイアウト情報の中から、通信端末に備わる表示デバイスに適したレイアウト情報を読み出す(ステップS105)。ここで読み出されたレイアウト情報が変更後のレイアウトとして決定される。
In accordance with the display performance information included in the received acquisition request message, the
なお、CPU101は、表示性能情報の代わりに、通信端末の機種や表示デバイスの機種を示す情報を用いてレイアウトを決定してもよい。この場合、通信端末の機種情報や表示デバイスの機種情報が取得要求メッセージに含まれて通信端末から文書画像処理サーバ10へ送信される。また、CPU101は、通信端末のユーザによって指定されたレイアウトを、変更後のレイアウトとして決定してもよい。また、文書画像処理サーバ10に操作部が備わっている場合、この操作部から、文書画像を指定する情報と、レイアウトの変更要求と、変更後のレイアウトを指定する情報が入力されてもよい。
Note that the
次いで、CPU101は、受信した取得要求メッセージに含まれている文書画像IDによって特定される編集用データ300を文書画像記憶領域105aから読み出す。また、CPU101は、ステップS105において決定したレイアウト用の編集ルールテーブル105cをHD105から読み出す。そして、CPU101は、編集用データ300に含まれている各部分画像を先頭から順に、編集ルールテーブル105cに定められた要素毎の規則と、決定したレイアウトとに従って配置していく(ステップS106)。
Next, the
なお、前述したように編集ルールテーブル105cには、文書を構成する要素毎に、この要素に属する部分画像の編集規則が定められている。CPU101は、各部分画像に適用する規則を、部分画像に付与されているタグに従って決定する。すなわち、編集ルールテーブル105cが図2に示すものであって、開始タグとして“<title>”の付与された部分画像を配置しようとした場合、CPU101は、このタイトルの部分画像を、編集ルールテーブル105cにおいてタイトルに対して定められている規則に従って、1文字が16×16ピクセル程度の大きさとなるように拡大または縮小した上で、レイアウトに沿って配置する。また、開始タグとして“<figure>”の付与された部分画像を配置しようとした場合、図2に示すように、この編集ルールテーブル105cでは、図の部分画像の使用は許可されていないので、CPU101は、この部分画像を配置せずに削除する。
As described above, in the editing rule table 105c, editing rules for partial images belonging to this element are defined for each element constituting the document. The
このようにCPU101は、編集ルールテーブル105cに定められた規則のうち、付与されているタグに応じた規則を適用しながら各部分画像をレイアウトに沿って配置していく。なお、例えば、図4(d)に示すレイアウト400が変更後のレイアウトとして決定され、このレイアウト400に従って図4(c)に示す編集用データ300を配置する場合、変更後のレイアウト400は段組が2段であるので、文字列の部分画像を配置していく際には、1行分の文字列の部分画像を段組の枠の端で折り返えしたり、1行分の文字列の部分画像を配置し終えた場合に枠の端まで余りがある場合は、その位置から次の文字列の部分画像を続けて配置していく。また、文字列の部分画像を枠の端で折り返す際には、文字が途中で切れて次の行に移行してしまうことがないよう、折り返しの位置を文字単位で制御してもよい。また、1文字単位で部分画像を切り出す構成であれば、文字毎に拡大や縮小を行うとともに、文字飾りや文字の色を変更する等、簡易的な編集を行うことも可能である。
In this way, the
また、CPU101は、文字列の部分画像を配置していく途中で、例えば、開始タグとして“<body link:href=#fig1>”の付与された文字列の部分画像があると、この文字列の部分画像を配置し終えた直後の位置に、図の部分画像“fig1”と、そのキャプションの部分画像を配置する。すなわち、レイアウトの変更に際し、図や表について述べている1文の近傍に、該当する図や表を配置することができる。この際、近傍に配置される図や表の部分画像についても、適用する画像処理の内容を編集規則として編集ルールテーブル105cに定めておくことで、レイアウト400に応じた適切な大きさに拡大または縮小することができる。
In the middle of arranging the character string partial image, for example, if there is a character string partial image with “<body link: href = # fig1>” as a start tag, the
なお、開始タグとして“<body link:href=#fig1>”の付与された文字列の部分画像については、図の部分画像“fig1”を配置せずに、この文字列の部分画像に、例えば、アンダーラインを付与するとともに色を変える等の修飾を施し、図の部分画像“fig1”とのリンクを設定することも可能である。このような規則を編集ルールテーブル105cに登録しておけば、例えば、通信端末のユーザは、画面表示された文書画像中において、周囲の文字列とは異なる態様で表示されている文字列部分にカーソルを移動し、クリックすることで、リンク先の図の部分画像を呼び出して閲覧することができる。 For the partial image of the character string assigned with “<body link: href = # fig1>” as the start tag, the partial image “fig1” in the figure is not arranged, It is also possible to set a link to the partial image “fig1” in the figure by applying modifications such as adding an underline and changing the color. If such a rule is registered in the editing rule table 105c, for example, the user of the communication terminal can enter the character string portion displayed in a different form from the surrounding character strings in the document image displayed on the screen. By moving the cursor and clicking, it is possible to call and view the partial image of the linked diagram.
このようにCPU101は、編集ルールテーブル105cに定められた要素毎の規則と、レイアウト400とに従って各部分画像を配置し終えると、レイアウト変更後の文書画像500(図4(e)参照)を生成する(ステップS107)。そして、CPU101は、生成した文書画像500を、取得要求メッセージの送信元となる通信端末へ返信する(ステップS108)。これにより、通信端末では、文書画像処理サーバ10から取得した文書画像500が画面に表示される。
As described above, when the
なお、文書画像処理サーバ10に表示部が備わっている場合は、この表示部に、生成した文書画像500を表示するようにしてもよい。また、文書画像処理サーバ10に記録媒体ドライブが備わっている場合は、生成した文書画像500を、記録媒体ドライブを介してDVD等の記録媒体に書き込み、この記録媒体をユーザに配布するようにしてもよい。
When the document image processing server 10 includes a display unit, the generated
以上説明したように本実施形態によれば、文書画像処理サーバ10は、文書を構成する要素毎に文書画像200から部分画像を切り出し、切り出した各部分画像に、要素の種類や、関連する他の部分画像の識別情報を示すタグを付与して編集用データ300を生成する。また、文書画像処理サーバ10は、通信端末から文書画像の取得要求を受信すると、例えば、通信端末に備わる表示デバイスの表示性能に適したレイアウト400を決定し、編集用データ300に含まれる各部分画像を、編集ルールテーブル105cに定められた要素毎の編集規則と、決定したレイアウト400とに従って配置し、文書画像500を再生成して通信端末に送信する。
As described above, according to the present embodiment, the document image processing server 10 cuts out a partial image from the
したがって、図5に示すように、文書画像処理サーバ10は、通信端末に備わる表示デバイスの表示性能に適したレイアウトに文書画像200をイメージデータのまま編集し直して出力することができる。これにより、例えば、画面サイズが比較的小さく、かつ解像度が低い表示デバイスを備えたPDAや携帯電話機に対しては、編集用データ300のうち、タイトルや本文を示すタグが付与されている部分画像のみを使用して生成した文書画像500を送信する等、文字を優先的して表示させることができる。なお、同図に示すように、通信端末に接続されている印刷デバイス(プリンタやコピー機等)の印刷性能に適したレイアウトに変更することも可能である。
Therefore, as shown in FIG. 5, the document image processing server 10 can edit and output the
また、図や表について述べている1文の近傍に、該当する図や表を配置することができる等、本文の内容と、本文以外の要素(図や表、画像)との関係を踏まえて文書画像200のレイアウトを変更することができる。また、レイアウトの変更に際して各部分画像に適用する編集規則を、文書を構成する要素毎に定めたことで、レイアウト変更時における各部分画像の編集処理が簡素化できる。なお、文書画像処理サーバ10で扱われる文書画像200は、原稿から読み取ったもの以外に、PC等で生成された文書のイメージデータであってもよい。また、文書画像処理サーバ10は、文書画像200のレイアウトをイメージデータのまま変更することができるので、例えば、契約書、請求書、領収書等の文書画像のレイアウト変更に適している。
In addition, based on the relationship between the contents of the text and elements (diagrams, tables, images) other than the text, such as being able to place the corresponding figure or table in the vicinity of one sentence describing the figure or table The layout of the
[B.変形例]
(1)文書画像処理サーバ10は、通信端末からの検索要求に応じて、文書画像記憶領域105aに記憶されている複数の文書画像の中から、検索キー(文字列)が含まれる文書画像を検索し、検索結果を通信端末に通知することができる。この場合、レイアウト情報記憶領域105bには、文書画像の検索結果を表示するためのレイアウト情報が複数記憶されており、例えば、ヒットした複数の文書画像について、各々のタイトルのみの一覧を表示するためのレイアウト情報や、各々のタイトルおよび検索キーを含んだ1行分の文字列の一覧を表示するためのレイアウト情報等が記憶されている。
[B. Modified example]
(1) The document image processing server 10 selects a document image including a search key (character string) from a plurality of document images stored in the document
図6は、文書画像の検索処理について説明するための図である。文書画像処理サーバ10は、通信端末から検索キーとして、ASCIIコードやJISコード等の文字コードで示された文字列情報を受信すると、まず、この文字列情報をフォント化して文字列画像を生成する。次いで、文書画像処理サーバ10は、生成した文字列画像と、文書画像記憶領域105aに記憶されている各編集用データ300内の部分画像とを画像認識処理によって順次比較していき、文字列画像にマッチする部分画像を検索する。なお、文書画像処理サーバ10は、各部分画像のうち、タイトルや本文を示すタグ、すなわち文字列を示すタグの付与された部分画像のみを検索の対象としてもよい。
FIG. 6 is a diagram for explaining a document image search process. When the document image processing server 10 receives character string information indicated by a character code such as an ASCII code or a JIS code as a search key from the communication terminal, first, the character image information is converted into a font to generate a character string image. . Next, the document image processing server 10 sequentially compares the generated character string image and the partial image in each editing data 300 stored in the document
そして、検索の結果、文字列画像にマッチする部分画像がヒットした場合、文書画像処理サーバ10は、ヒットした部分画像が含まれる文書画像の情報を、検索要求の発信元となった通信端末へ送信する。例えば、文書画像処理サーバ10は、検索結果として、ヒットした文書画像のデータ名や識別番号を送信することができる。また、文書画像処理サーバ10は、検索によってヒットした複数の文書画像について、各々の編集用データ300内からタイトルを示すタグが付与された部分画像のみを抽出し、その一覧を示す検索結果画像を、レイアウト情報記憶領域105bに記憶されているレイアウト情報を用いて生成し、通信端末へ送信することができる。なお、文書画像処理サーバ10に操作部や表示部が備わっている場合は、操作部から入力された検索キーに従って文書画像の検索処理を行い、検索結果を示す画像を生成して文書画像処理サーバ10に備わる表示部に表示することもできる。
If the partial image matching the character string image is hit as a result of the search, the document image processing server 10 sends the information on the document image including the hit partial image to the communication terminal that has sent the search request. Send. For example, the document image processing server 10 can transmit the data name and identification number of the hit document image as a search result. Further, the document image processing server 10 extracts only partial images to which a tag indicating a title is assigned from each editing data 300 for a plurality of document images hit by the search, and searches the search result image indicating the list. It can be generated using the layout information stored in the layout
(2)上述した実施形態では、本発明を文書画像処理サーバ10に適用した場合について説明したが、例えば、PCやコピー機等に本発明を適用してもよい。また、部分画像に付与されるのは、データ記述言語によるタグに限定されない。要は、部分画像が文書を構成する各要素のうちどの要素に属しているのかを示す識別子や、関連する他の部分画像の識別情報が、文書画像から切り出された各部分画像に対して付与されていればよい。また、文書画像から切り出された各部分画像には、文書の先頭からの順序を示す順序番号が付与されていてもよい。 (2) In the above-described embodiment, the case where the present invention is applied to the document image processing server 10 has been described. However, the present invention may be applied to, for example, a PC or a copier. Moreover, what is given to a partial image is not limited to the tag by a data description language. In short, an identifier indicating which element the partial image belongs to and the identification information of other related partial images are given to each partial image cut out from the document image. It only has to be done. Further, each partial image cut out from the document image may be given a sequence number indicating the sequence from the top of the document.
(3)上述した実施形態では、文書画像解析処理(ステップS101〜S103)と、文書画像編集処理(ステップS104〜S108)と、編集用データ300、レイアウト情報、編集ルールテーブル105c等を記憶するHD105とが1台の装置(文書画像処理サーバ10)に全て組み込まれている場合について説明した。しかしながら、本発明は、例えば、文書画像解析処理を行う文書画像解析装置と、文書画像編集処理を行う文書画像編集装置と、編集用データ300、レイアウト情報、編集ルールテーブル105c等を記憶する記憶装置とを有する文書画像処理システムとして実施することができる。勿論、記憶装置は、編集用データ300を記憶する記憶装置と、レイアウト情報や編集ルールテーブル105cを記憶する記憶装置とに分けられていてもよい。
(3) In the above-described embodiment, the document image analysis processing (steps S101 to S103), the document image editing processing (steps S104 to S108), the editing data 300, the layout information, the editing rule table 105c, etc. are stored in the
10…文書画像処理サーバ、101…CPU、102…ROM、103…RAM、104…通信制御部、105…HD、105a…文書画像記憶領域、105b…レイアウト情報記憶領域、105c…編集ルールテーブル、200…文書画像、300…編集用データ、400…レイアウト、500…レイアウト変更後の文書画像。
DESCRIPTION OF SYMBOLS 10 ... Document
Claims (10)
複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、
前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、
前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、
前記生成手段により生成された文書画像を出力する出力手段と
を具備することを特徴とする文書画像処理装置。 Each partial image cut out from the document image for each element constituting the document, and an identifier indicating the type of the element to which each partial image belongs, assigned to each partial image, from the beginning of the document First storage means for storing in association with the order of the partial images;
Corresponding to each of a plurality of layouts, for each type of element, a second storage means for storing editing rule information defining an editing rule for a partial image belonging to the element;
Determining means for determining a layout for outputting the document image from the plurality of layouts;
Each partial image stored in the first storage means is determined for an element specified by an assigned identifier in the editing rule information associated with the layout determined by the determination means. Generating means for generating a document image by arranging according to the edited editing rules, the layout, and the order;
An output means for outputting the document image generated by the generating means.
前記第1の取得手段により取得された文書画像から文書を構成する要素毎の部分画像を切り出す切出手段と、
前記切出手段により切り出された各部分画像に対し、当該部分画像が属する前記要素の種類を示す識別子を付与する付与手段と、
前記付与手段により識別子が付与された各部分画像を、文書の先頭からの当該各部分画像の順序と関連付けて前記第1の記憶手段に記憶する記憶制御手段をさらに具備する
ことを特徴とする請求項1に記載の文書画像処理装置。 First acquisition means for acquiring a document image;
Clipping means for cutting out a partial image for each element constituting the document from the document image obtained by the first obtaining means;
An assigning means for giving an identifier indicating the type of the element to which the partial image belongs to each partial image cut out by the cutting means;
The storage control means for storing each partial image assigned with an identifier by the assigning means in the first storage means in association with the order of the partial images from the beginning of the document. Item 2. The document image processing apparatus according to Item 1.
前記切出手段は、前記解析手段による解析により得られたレイアウトに従って前記文書画像から文書を構成する要素毎の部分画像を切り出す
ことを特徴とする請求項2に記載の文書画像処理装置。 An analysis unit for analyzing the layout of the document image acquired by the first acquisition unit;
The document image processing apparatus according to claim 2, wherein the cutout unit cuts out a partial image for each element constituting the document from the document image in accordance with a layout obtained by the analysis by the analysis unit.
ことを特徴とする請求項1に記載の文書画像処理装置。 The editing rule information includes, for each of the plurality of layouts, the presence / absence of arrangement of partial images belonging to the element and image processing performed on the partial image when arranged. The document image processing apparatus according to claim 1, wherein the document image processing apparatus is defined.
前記編集規則情報には、前記画像識別情報が付与された部分画像の近傍に、前記画像識別情報によって特定される他の部分画像を配置することが定められている
ことを特徴とする請求項1に記載の文書画像処理装置。 When there is another partial image related to the partial image, the partial image is given image identification information indicating the other partial image,
2. The editing rule information defines that another partial image specified by the image identification information is arranged in the vicinity of the partial image to which the image identification information is assigned. The document image processing apparatus described in 1.
前記編集規則情報には、前記画像識別情報が付与された部分画像と、前記画像識別情報によって特定される他の部分画像とにリンクを設定することが定められている
ことを特徴とする請求項1に記載の文書画像処理装置。 When there is another partial image related to the partial image, the partial image is given image identification information indicating the other partial image,
The edit rule information defines that a link is set between a partial image to which the image identification information is assigned and another partial image specified by the image identification information. The document image processing apparatus according to 1.
前記決定手段は、前記第2の取得手段により取得された情報に基づいて、前記文書画像を前記デバイスで出力する際のレイアウトを前記複数のレイアウトの中から決定する
ことを特徴とする請求項1に記載の文書画像処理装置。 Further comprising second acquisition means for acquiring information indicating the output performance of a device displaying or printing a document image, or information indicating the model of the device;
The determination unit determines a layout for outputting the document image by the device from the plurality of layouts based on the information acquired by the second acquisition unit. The document image processing apparatus described in 1.
文字列を入力する入力手段と、
前記入力手段により入力された文字列の画像を生成する文字列画像生成手段と、
前記文字列画像生成手段により生成された文字列画像と、前記第1の記憶手段に記憶されている各部分画像とを比較し、前記文字列画像が含まれる文書画像を検索する検索手段と、
前記検索手段による検索結果を出力する手段とをさらに具備する
ことを特徴とする請求項1に記載の文書画像処理装置。 The first storage means stores, for each document image, the partial images assigned with the identifiers in association with the order,
An input means for inputting a character string;
A character string image generating means for generating an image of the character string input by the input means;
Search means for comparing the character string image generated by the character string image generation means with each partial image stored in the first storage means and searching for a document image including the character string image;
The document image processing apparatus according to claim 1, further comprising means for outputting a search result by the search means.
ことを特徴とする請求項8に記載の文書画像処理装置。 The search unit includes a partial image to which an identifier indicating a character string is assigned among the partial images stored in the first storage unit, and a character generated by the character string image generation unit. The document image processing apparatus according to claim 8, wherein a document image including the character string image is searched by comparing with a column image.
前記取得手段により取得された文書画像から文書を構成する要素毎の部分画像を切り出す切出手段と、
前記切出手段により切り出された各部分画像に対し、当該部分画像が属する前記要素の種類を示す識別子を付与する付与手段と、
前記付与手段により識別子が付与された各部分画像を、文書の先頭からの当該各部分画像の順序と関連付けて記憶する第1の記憶手段と、
複数のレイアウトのそれぞれに対応して、前記要素の種類毎に、当該要素に属する部分画像の編集規則を定めた編集規則情報を記憶する第2の記憶手段と、
前記文書画像を出力する際のレイアウトを前記複数のレイアウトの中から決定する決定手段と、
前記第1の記憶手段に記憶されている各部分画像を、前記決定手段により決定されたレイアウトと対応付けられた前記編集規則情報のうち、付与されている識別子によって特定される要素に対して定められた編集規則と、前記レイアウトと、前記順序とに従って配置し、文書画像を生成する生成手段と、
前記生成手段により生成された文書画像を出力する出力手段と
を具備することを特徴とする文書画像処理システム。 An acquisition means for acquiring a document image;
Cutting means for cutting out a partial image for each element constituting the document from the document image obtained by the obtaining means;
An assigning means for giving an identifier indicating the type of the element to which the partial image belongs to each partial image cut out by the cutting means;
First storage means for storing each partial image assigned with an identifier by the assigning means in association with the order of the partial images from the beginning of the document;
Corresponding to each of a plurality of layouts, for each type of element, a second storage means for storing editing rule information defining an editing rule for a partial image belonging to the element;
Determining means for determining a layout for outputting the document image from the plurality of layouts;
Each partial image stored in the first storage means is determined for an element specified by an assigned identifier in the editing rule information associated with the layout determined by the determination means. Generating means for generating a document image by arranging according to the edited editing rules, the layout, and the order;
And an output means for outputting the document image generated by the generating means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004140130A JP2005322060A (en) | 2004-05-10 | 2004-05-10 | Document image processor and document image processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004140130A JP2005322060A (en) | 2004-05-10 | 2004-05-10 | Document image processor and document image processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005322060A true JP2005322060A (en) | 2005-11-17 |
Family
ID=35469294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004140130A Pending JP2005322060A (en) | 2004-05-10 | 2004-05-10 | Document image processor and document image processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005322060A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097040A (en) * | 2018-01-31 | 2019-08-06 | 精工爱普生株式会社 | Image processing apparatus and storage medium |
-
2004
- 2004-05-10 JP JP2004140130A patent/JP2005322060A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097040A (en) * | 2018-01-31 | 2019-08-06 | 精工爱普生株式会社 | Image processing apparatus and storage medium |
CN110097040B (en) * | 2018-01-31 | 2023-07-04 | 精工爱普生株式会社 | Image processing apparatus and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9436419B2 (en) | Selectively printing portions of a web page based on user selection | |
US6537324B1 (en) | Generating and storing a link correlation table in hypertext documents at the time of storage | |
US7984076B2 (en) | Document processing apparatus, document processing method, document processing program and recording medium | |
KR100907671B1 (en) | How to Edit Recording Media and Character Input | |
US20010027460A1 (en) | Document processing apparatus and document processing method | |
KR20080034873A (en) | Method and apparatus for generating xhtml data of device | |
JP2004252944A (en) | Program, character input edit method and device, and recording medium | |
US7746491B2 (en) | Information processing method and apparatus | |
US20110032556A1 (en) | Document processing device, document processing method, and recording medium | |
JP2000148748A (en) | Japanese syllbary-to-chinese character conversion and image retrieval and display system | |
JP4666996B2 (en) | Electronic filing system and electronic filing method | |
JP2010277120A (en) | Image forming apparatus and application view conversion program | |
JP3571312B2 (en) | Link collection creation device, link collection creation method, and link collection creation program | |
CN102193789A (en) | Method and equipment for realizing configurable skip link | |
US20020103704A1 (en) | Banner advertisement forming apparatus, banner advertisement forming method, and storage medium | |
JP4106220B2 (en) | Response sentence creation support system and method, and program | |
JP4935396B2 (en) | Web content providing apparatus, web content providing method, and program | |
JP2005322060A (en) | Document image processor and document image processing system | |
JP4012047B2 (en) | Electronic document creation apparatus, electronic document creation method, and program causing computer to execute the method | |
JP2010049598A (en) | Web-site creation support device and program | |
JP4119413B2 (en) | Knowledge information collection system, knowledge search system, and knowledge information collection method | |
JP4013748B2 (en) | Document generator | |
JP2001306550A (en) | Display information processor | |
JP5232748B2 (en) | Workflow display support apparatus and workflow display program | |
JP3712320B2 (en) | Variable document creation system, variable document output device and variable document creation device |