JP4759848B2 - Information extraction device from printing plate making data - Google Patents
Information extraction device from printing plate making data Download PDFInfo
- Publication number
- JP4759848B2 JP4759848B2 JP2001158433A JP2001158433A JP4759848B2 JP 4759848 B2 JP4759848 B2 JP 4759848B2 JP 2001158433 A JP2001158433 A JP 2001158433A JP 2001158433 A JP2001158433 A JP 2001158433A JP 4759848 B2 JP4759848 B2 JP 4759848B2
- Authority
- JP
- Japan
- Prior art keywords
- extraction
- character
- information
- extracted
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Manufacture Or Reproduction Of Printing Formes (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は全てデジタルデータで制作された印刷製版データ、特に下版データから必要な情報を抽出する情報抽出装置に関する。
【0002】
【従来技術】
いわゆるDTPレイアウトソフトを用いて作成した下版データから、必要な情報を抽出して、別冊の作成、CD−ROMやWWWで公開するWebページデータとして再利用したいことがある。このような場合従来は、それらの品目制作に必要となるデータベースを作成するために、下版データをDTPレイアウトソフトで表示させて、必要な項目をデータベースに手入力して作成するしか方法がなかった。
【0003】
【発明が解決しようとする課題】
従来方法では、手作業のため時間がかかりコストが高くつくこと、またデータ量が多い場合は作業者のミスが発生しやすくなるという問題点があった。本発明はこのような問題点を考慮してなされたものであり、事前に必要な事項を設定しておけば、完成した印刷製版データから必要な項目の情報を自動的に拾ってデータベースファイルまたはデータベースファイルに変換可能な一定の構造を持ったテキストデータファイルを生成する情報抽出装置を提供することを課題とする。
【0004】
【課題を解決するための手段】
上記課題を解決するための第1の発明は、印刷物における部分区画の画像である小区画部分の集合として構成される印刷物における全体区画の画像を文字図形オブジェクトとそのレイアウトのデータとして保有する印刷製版データから、小区画部分毎に、指定された条件で文字情報を抽出して指定されたフィールド構成の1レコードデータを作成して最終的にデータベースファイルを作成する情報抽出装置であって、小区画部分から抽出すべき文字情報の項目を定義し、作成されるデータベースのレコードを構成するフィールドとの対応を設定し、それら文字情報項目を印刷製版データから抽出する条件を設定する抽出項目設定手段と、それぞれの小区画部分を構成する文字図形オブジェクトに対して小区画部分毎の部品番号を属性値として設定することにより、作成されるデータベースのレコードデータを作成するために、前記部品番号で特定し抽出することが可能な抽出部品として定める抽出部品登録手段と、前記抽出項目設定手段の設定に基づいて、印刷製版データから抽出すべき文字情報を特定して、対応するフィールド項目のデータとしてデータベースファイルに記録する情報抽出記録手段と、を備えるものである。ここでデータベースファイルはデータベースファイルそのものだけではなく、データベース作成ソフトに読込ませることによりデータベースファイルに変換できる一定の構造を持ったテキストファイルをも含むものとする。
【0005】
第1の発明のより好ましい第2の態様は、第1の態様の情報抽出装置において、前記抽出項目設定手段は前記文字図形オブジェクトの一種であって、ボックス位置、ボックスサイズ、リンク画像ファイル名をその属性値とする画像ボックスオブジェクトの内で小区画部分に含まれる画像ボックスオブジェクトに設定されたリンク画像ファイル名を前記抽出すべき文字情報の一つとして定義し、前記情報抽出記録手段は前記ボックス位置と前記ボックスサイズから該当する前記画像ボックスオブジェクトを特定し設定されているリンク画像ファイル名を求める情報抽出装置である。
【0006】
第1の発明のより好ましい第3の態様は、第1の態様の情報抽出装置において、前記抽出項目設定手段は、抽出したい文字情報の製版印刷データにおける文字列の見た目に関わる属性であって使用フォント、文字サイズ、文字の色を含む組版属性を文字情報の項目毎に指定する「マクロ定義」と、この「マクロ定義」を用いて文字情報の抽出範囲を抽出の手がかりを含む文字列によって指定する「抽出範囲」と、「抽出範囲」により抽出した手がかりを含む文字列から実際にデータベースファイルに記録すべき文字列を指定する「展開内容」の3種類の設定により、文字情報項目を抽出する条件を設定する情報抽出装置である。
【0007】
組版属性とは、ここでは、使用フォント、文字サイズ、文字の色、文字の変形・飾り、文字種(日本語か英文字かなど)、文字数などの文字列の見た目に関わる属性である。印刷物の文字情報は、表示される文字列の意味内容に応じて見た目を変えることが普通なので組版属性を文字抽出の手がかりに用いるのである。
【0008】
第1の発明のより好ましい第4の態様は、第3の態様の情報抽出装置において、前記抽出項目設定手段は、前記「抽出範囲」の指定において、必要であれば、対象とする文字データ上で「抽出範囲」に設定された条件で抽出すべき文字列の判断処理を始める「開始条件」とする文字列、同判断処理を終了させる「終了条件」とする文字列のいずれかまたは両方を設定する情報抽出装置である。
【0009】
「抽出範囲」の指定だけでは、正しく所望の文字データを抽出させる設定を行うことができない場合や、困難な場合があるので、上記「開始条件」「終了条件」を設定できることができるようにした方がよい。
【0010】
第1の発明のより好ましい第5の態様は、第1の態様の情報抽出装置において、前記情報抽出記録手段は、抽出できなかった項目については、抽出できなかった箇所を知らせるために、当該箇所の印刷製版データ上の頁数、記録されるはずであったレコード番号、文字情報項目名、抽出できなかった理由をログファイルに記録することができる情報抽出装置である。
【0011】
実際の製版作業では、印刷物発注者の直し指示により様々な手作業による直しを行うため、下版データに対して情報抽出装置が完璧な抽出を行うことが困難な場合もある。そのような場合に、抽出条件の設定をやり直して再抽出処理させるより、抽出に失敗した箇所だけを手で直す方が、合理的な場合がある。ログファイルは抽出に失敗した箇所をもれなく指摘するのでそのような柔軟な運用を可能にする。
【0012】
第1の発明のより好ましい第6の態様は、第1の態様の情報抽出装置において、前記抽出部品登録手段は、1つの抽出部品に含まれるべき文字図形オブジェクトを、その印刷製版データの編集レイアウト画面上で対話的に領域指定して選択することにより決定する情報抽出装置である。
【0013】
印刷製版データの表示画面上で対話的に抽出部品を指定するやり方なので、本発明の情報抽出装置は、製版データ上で小区画部分相互間の位置関係が定形でない印刷物にも問題無く適用可能である。
【0014】
上記課題を解決する第2の発明は、コンピュータに搭載することにより第1の発明の情報抽出装置を実現するコンピュータプログラムである。
【0015】
第2の発明の第2の態様は、編集レイアウトソフトウエアを具備したコンピュータにおいて、前記情報抽出装置の前記抽出項目設定手段、前記抽出部品登録手段、前記情報抽出記録手段の各モジュールは前記編集レイアウトソフトウエアに組込まれており、前記編集レイアウトソフトのメニューから呼出され動作することにより、第1の発明の情報抽出装置を実現するコンピュータプログラムである。
【0016】
本発明の情報抽出装置は、印刷製版データを表示し、印刷製版データを構成する文字図形オブジェクトを扱わなければならないので、編集レイアウトソフトのメニューコマンドで、抽出のための条件設定や抽出の実行ができるなど、印刷製版データを作成する編集レイアウトソフトと一体化させた形のプログラムとして利用できる方が作業者の使い勝手がよい。
【0017】
上記課題を解決する第3の発明は、第2の発明のプログラムを記録したコンピュータ可読な記憶媒体である。
【0018】
【発明の実施の形態】
図1は、本発明の一実施形態である情報抽出装置1の構成を示すブロック図である。10は、グラフィックディスプレイ11、キーボードおよびマウス12、プリンタ13、ハードディスク20が接続されたコンピュータ本体である。コンピュータ本体10には、編集レイアウトソフトウエア100、抽出項目設定手段110、抽出部品登録手段120、情報抽出記録手段130、の各ソフトウエアプログラムが備えられている。抽出項目設定手段110、抽出部品登録手段120、情報抽出記録手段130、の各モジュールは編集レイアウトソフト100に組込まれた形でインストールされており、編集レイアウトソフト100のメニューから呼出されることにより動作する。ハードディスク20上の200は完成された印刷製版データファイルである下版データファイルである。201は抽出設定値ファイル、300はテキストデータベース、301はログファイルである。
【0019】
図2は本発明の装置による下版データからの情報抽出の作業フローを示す流れ図である。以下この流れに沿って説明してゆく。まずステップS1で、作業者は下版データのどの情報をデータベースのフィールドとして抽出するかを決定する。図3は、下版データの一例である。図3(A)は下版データ全体のイメージを示し、図3(B)は小区画部分である。例として、作業者は、「商品番号」「商品名」「価格」「説明」「画像名(リンク画像のファイル名)」の部分を抽出するように決めたことにして説明を進める。次にステップS2で、編集レイアウトソフト100を起動し下版データを表示させ後に作成されるデータベースの1レコードとなる範囲を登録する。ステップS2の処理は、図3(C)に示すように、小区画部分ごとに小区画部分を構成する文字図形オブジェクトを表示画面上での対話操作により適切に選択した後、抽出部品登録のコマンドを指定することにより行う。この操作により1つの小区画部分を構成する幾つかの文字図形オブジェクトが1つの抽出部品としてグループ化されるわけである。尚小区画部分をコマとも呼ぶ。
【0020】
編集レイアウトソフト100により作成される印刷製版データは、様々な文字図形オブジェクトで構成されるが、それらのオブジェクトの中で代表的なものが文字ボックスと画像ボックスである。文字ボックスオブジェクトはそのプロパティ(属性値)として、版上の位置情報、ボックスサイズ、表示されるべき文字列データ、組版属性等を持つものとする。画像ボックスオブジェクトは、版上の位置情報、ボックスサイズ、リンク画像ファイル名等をそのプロパティとして持つものとする。
【0021】
次に、抽出すべき情報の抽出条件の設定を行うフェーズ(ステップS3〜S6)に入る。まず、「画像名」に関する抽出条件の設定は、ステップS3において、1つの抽出部品において「画像名」と論理的にリンクすべき画像ボックスの位置情報とサイズ情報を設定する。画像ボックスに関わりのない文字情報を抽出する場合は、ステップS4で「マクロ定義」により抽出したい文字列の組版属性を設定する。さらにステップS5で、抽出したい文字情報の「抽出範囲」を設定する。
【0022】
図4(A)は、ステップS4で使用する抽出範囲の設定ウインドウ500である。下版データ表示上の1個のコマ(図4(B))の中で、対象画像ボックスの位置をコマの中の相対的な位置関係で指定し、その内容を設定ウインドウ500に設定する。まず項目名には「画像名」を指定する。抽出されたデータはデータベースの「画像名」フィールドに格納されることになる。項目「画像名」に結び付けられる画像ボックスは、コマの中で、左上から2番目の要素であるので、設定ウインドウ500にはそのように設定する。ものによっては、コマ内の位置が固定されていない場合がある。そのような場合には、Box位置を「無視」と設定し、設定ウインドウ500の下部にあるBoxサイズの指定によって抽出すべき部品の構成要素を特定する。いずれにしても、抽出部品内に複数の画像ボックスが存在する場合には、項目「画像名」に結び付けられる画像ボックスを適切に特定できるように設定しなければならないが、Box位置とBoxサイズの両方を指定すれば通常は十分である。
【0023】
図4(C)は、画像ボックスに関わりのない文字情報を特定するための条件を設定するにあたり、ステップS4で行うマクロ設定に用いる設定ダイアログ600である。文字オブジェクトは、その文字列に適用される組版属性(使用フォント、文字サイズ、文字色等)を持つので、マクロ名(ここでは“抽出する項目名”)とその項目に設定されている組版属性を設定ウインドウ600にて設定する。尚図9は図4(C)の設定ウインドウ600の詳細図である。必要な場合には文字の変形や文字飾りの属性を設定することも可能である。
【0024】
図5(A)は、文字情報を抽出するための「抽出範囲」の設定ダイアログ501である。項目名設定欄510、展開内容設定欄511、抽出範囲設定欄512が設けられている。まず項目名設定欄510には「商品番号」「商品名」「価格」「説明」のどれかを指定する(図では「商品番号」を指定)。抽出範囲設定欄512には、文字列の抽出条件として抽出したい文字列の手がかりを与える指定と文字情報が持つ組版属性を与えるマクロ名を記述する。例えば、下版データで「商品番号」の前に必ずタブが入っている場合は、図5(A)で抽出範囲に“@タブ”と“*商品番号”をつなげて指定する。“@タブ”は抽出する文字列の始まりの手がかりの指定である。そして出力する文字列にはタブを含める必要がないので、展開内容設定欄511には“*商品番号”と設定する。ここで抽出範囲や展開内容の設定には特定の文字または文字の並びを情報抽出記録手段130への引数として渡すための一定の規則が用いられていることを断っておく。例えば、項目「価格」に関して下版データ上で常に直前に“スペース”があり直後に“円”がある場合は、抽出範囲設定欄512に“@空白*売価%(円)”と指定する。すると抽出部品の中から直前にスペース文字が有り直後に“円”があるマクロ名“*価格”の組版属性と一致する文字列を抽出することになる。
【0025】
図2のフローに戻る。ステップS6で、データベースのフィールドとなる項目の抽出順序を設定する。これで抽出のために必要な設定が全て終り、図6に示す抽出設定値を記録した抽出設定値ファイルを作成する。ステップS7で、抽出する範囲を、選択した範囲のみ、指定した頁のみ、フォルダ内の全ドキュメントのどれかから選択して、情報抽出記録手段130による抽出記録処理を実行させてデータベースの構造を持ったテキストデータファイル300を作成する。図7はこうして作成されたテキストデータファイル300を出力したものである。行方向の数は抽出部品として登録した数に相当する。このテキストデータファイル300を市販のデータベース作成ソフトウエアに読込ませてデータベースファイルとすることができる。こうして作成されるデータベースのレコード数は抽出部品数に、フィールド数は抽出項目数に一致する。ステップS7で、抽出できなかった箇所があった場合は、頁数、書出したテキスト内の行番号、項目名、抽出できなかった理由(設定不一致のためかNULLのためか)をログファイル301として出力する。図8はログファイル301の出力例である。必要であればステップS3〜S7の作業をテキストデータが正常に出力されるまで繰り返すことができる。最後にステップS8で、下版データと出力したテキストデータファイル300およびログファイル301とを比較してデータベースファイルの修正作業を行う。
【0026】
抽出範囲設定ダイアログ500(図4(A))と501(図5(A))は、説明しやすくするために単純化したものであって、実際の情報抽出装置1では図10に示すダイアログ502を使用する。ダイアログ502では、文字ボックスに関係する抽出項目と画像ボックスに関係する抽出項目(リンク画像ファイル名)の両方に対応しており、抽出種別519で、そのどちらであるかを選択する。抽出部品の中に複数の文字ボックスが存在する場合は、画像ボックスの場合と同じようにBox位置518、Boxサイズ517で適当なボックスを選択するよう設定することができる。
【0027】
抽出範囲設定欄512の設定だけでは、文字列を正しく抽出する条件を設定できない場合や、正しい設定を行うことが難しい場合があるのでダイアログ502では、文字抽出条件520の詳細指定欄を設け、チェックボックス521、522をチェックすることにより抽出する文字列の検索を開始する開始条件、終了条件を細かく指定することができるようになっている。例えば図10では、開始条件524、526の設定により、文字ボックス内で、3行目の先頭から、タブが2個並びその次に文字列“START”が出現した次の文字列から、抽出範囲設定欄512に設定された条件を満たす文字列の抽出を始める。また、終了条件534の設定により、文字列“END”の出現で文字列の抽出を終了する。図11(A)は条件524、526の設定で抽出される開始位置を、図11(B)に条件534の設定で抽出される終了位置を例示する。開始条件および終了条件の設定はオプションであり、必要のない場合は使用しなくてよい。使用する場合でも必要に応じてチェックボックス523、525、533、535を選択して必要な条件だけを利用することができる。
【0028】
以上情報抽出装置1の作業の流れと抽出条件設定について説明した。次にこれまで述べた情報抽出装置1の働きがどのように実現されているかについて述べる。前述したように情報抽出装置1のコンピュータ本体10には、抽出項目設定手段110、抽出部品登録手段120、情報抽出記録手段130が編集レイアウトソフト100に組込まれた状態でインストールされている。これらの各手段が編集レイアウトソフト100上の対話操作によりメニューコマンド等から呼出されて動作することにより図2の各ステップが実現される。すなわち、ステップS2では抽出部品登録手段120が、ステップS3〜S6では抽出項目設定手段110が、ステップS7では情報抽出記録手段130が、それぞれ呼出され実行される。
【0029】
抽出部品登録手段120は、ステップS2において、文字図形オブジェクトを表示画面上での対話操作により適切に選択した後、抽出部品登録のコマンドを指定すると、選択された個々の文字図形オブジェクトに部品番号を意味する属性値を設定する。後の処理では、文字図形オブジェクトに設定されている部品番号を意味する属性値を検査することによってそのオブジェクトがどの抽出部品に属するか、またはどれにも属さないか、を判別することができる。
【0030】
図12は、情報抽出記録手段130が呼出されたときに実行される情報抽出記録処理のフローチャートである。情報抽出記録手段130は呼出されるとまず、抽出項目設定手段が作成した抽出設定値ファイル201を読込み抽出設定値を得る(S100)。次に、抽出部品を特定するカウンタおよび項目を特定するカウンタを初期化する(S102、104)。次にこれから抽出する対象項目を設定する(S106)。次に部品番号で特定される抽出部品内で対象項目に対応する文字ボックスまたは画像ボックスオブジェクトを設定に基づいて選択する(S108)。次に選択したボックス内のオブジェクトのプロパティから対象項目の文字情報を抽出する(S110)。選択したボックスが文字ボックスの場合このステップは、まず、開始条件が設定されている場合は、条件の満たされる位置まで当該文字列(これもプロパティの1つである。以下対象文字列と呼ぶ)を走査し、対象文字列の開始位置からは、その位置の文字が抽出範囲512で設定された条件に一致するかどうかを検査して、抽出範囲512の条件を満たし、かつ終了条件に達する直前まで、対象文字列の文字をコピーして一時記憶バッファに記憶する。抽出が成功すればステップS112に進む。抽出に失敗した時(開始条件を満たす文字または部分文字列が見つからなかった場合、画像ボックスにリンク画像ファイル名が設定されていなかった場合、組版属性が一致していなかった場合、など)はログバッファに、(部品番号、項目名、失敗理由)を記録して(S114)ステップS116に進む。抽出に成功した場合は、テキストバッファの(部品番号、項目番号)の位置に一時記憶バッファに格納した文字列から展開内容に相当する部分を切出してこれを記録する(S112)。項目番号を1加え、全ての項目がおわりでなければステップS106に戻る(S116、118)。全ての項目が終ったら、部品番号を1加えて(S120)、まだ処理すべき抽出部品が残っているならば、次の抽出部品の処理を行うためにステップS104に戻る。最後に、テキストバッファの展開内容に相当する部分をテキストファイル300として出力し、ログバッファの内容をログファイル301として出力する(S124)。
【0031】
以上、本発明の一実施形態である情報抽出装置1について述べた。情報抽出装置1では、抽出項目設定手段110、抽出部品登録手段120、情報抽出記録手段130、の各モジュールは編集レイアウトソフト100に組込まれた形でインストールされており、編集レイアウトソフト100のメニューから呼出されることにより動作するが、本発明の趣旨はこのような形態にのみ制限されるものではない。下版データを構成する文字図形オブジェクトの情報を適切にアクセスする手段を備えることができれば下版データを作成した編集レイアウトソフト100とは独立した情報抽出装置として構成してもよい。
【0032】
情報抽出装置1がテキストデータファイル300ではなくデータベースファイルを直接作成してもよい。その場合には情報抽出装置1がデータベース作成モジュールを備える必要がある。
【0033】
【発明の効果】
以上詳しく説明してきたように本発明の情報抽出装置を用いれば、完成した印刷製版データから必要な項目の情報を自動的に拾ってデータベースに登録可能なテキストデータファイルを得ることができ、一度作成した下版データから他の目的の別の印刷物を容易に作成できるという顕著な効果を奏することができる。文字情報項目の抽出条件の設定に関しては「マクロ定義」「抽出範囲」「開始条件」「終了条件」「展開内容」の各設定欄が用意されているので、作業者は、正確な抽出条件を容易に設定可能である。また抽出に失敗した箇所を知らせるログファイルを得ることができるので、自動抽出と手作業の直しの組み合わせによる効率的な運用を図ることができるという顕著な効果を奏する。また抽出部品の設定は下版データの表示画面上で対話的に行うので、小区画部分の集合として構成される様々なレイアウトの製版データに適用可能である。
【図面の簡単な説明】
【図1】 本発明の一実施形態である情報抽出装置1の全体構成図である。
【図2】 情報抽出装置1による下版データからの情報抽出の作業フローを示す流れ図である。
【図3】 抽出部品登録を説明する図である。
【図4】 抽出範囲設定ダイアログ500、マクロ定義ダイアログ600の説明図である。
【図5】 「抽出範囲」設定ダイアログ501である。
【図6】 抽出設定値ファイルの説明図である。
【図7】情報抽出記録手段130が生成するテキストデータファイルである。
【図8】 情報抽出記録手段130が生成するログファイルである。
【図9】 マクロ定義設定ダイアログ600である。
【図10】抽出範囲設定ダイアログ502である。
【図11】開始条件および終了条件の設定方法と意味を説明する図である。
【図12】情報抽出記録手段130の動作を説明するフローチャート。
【符号の説明】
1 情報抽出装置
10 コンピュータ本体
11 グラフィックディスプレイ
12 キーボードおよびマウス
13 プリンタ
20 ハードディスク
100 編集レイアウトソフト
110 抽出項目設定手段
120 抽出部品登録手段
130 情報抽出記録手段
200 下版データファイル
201 抽出設定値ファイル
300 テキストデータファイル
301 ログファイル
500 抽出範囲設定ダイアログ
501 抽出範囲設定ダイアログ
502 抽出範囲設定ダイアログ
600 マクロ定義設定ダイアログ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information extracting apparatus for extracting necessary information from printing plate making data, particularly, lower plate data, all produced with digital data.
[0002]
[Prior art]
In some cases, it is desired to extract necessary information from lower version data created using so-called DTP layout software and reuse it as Web page data to be published on a CD-ROM or WWW. In such a case, conventionally, in order to create a database necessary for the production of those items, there is only a method for creating the database by displaying the lower version data with DTP layout software and manually inputting necessary items into the database. It was.
[0003]
[Problems to be solved by the invention]
The conventional method has a problem that it is time consuming and expensive due to manual work, and an operator's mistake is likely to occur when the amount of data is large. The present invention has been made in view of such problems, and if necessary items are set in advance, information on necessary items is automatically picked up from the completed printing plate making data, or a database file or It is an object of the present invention to provide an information extraction device that generates a text data file having a certain structure that can be converted into a database file.
[0004]
[Means for Solving the Problems]
According to a first aspect of the present invention, there is provided a printing plate making that stores an image of an entire section in a printed matter configured as a set of small section portions that are images of partial sections in a printed matter as character graphic objects and layout data thereof. An information extraction device for extracting character information from a data under a specified condition for each small section to create one record data of a specified field configuration and finally creating a database file. An extraction item setting means for defining items of character information to be extracted from the part, setting correspondences with fields constituting the database records to be created, and setting conditions for extracting those character information items from the printing plate making data; , the part number of small sections each partial as the attribute value for the character graphic objects that make up each small compartment By constant, in order to create a record data of the database to be created, and the extraction component registration means for determining as an extraction component that can be identified and extracted by the part number, based on the setting of the extraction item setting means And information extraction recording means for specifying character information to be extracted from the printing plate making data and recording it in the database file as data of the corresponding field item. Here, the database file includes not only the database file itself but also a text file having a certain structure that can be converted into the database file by being read by the database creation software.
[0005]
In a more preferred second aspect of the first invention, in the information extraction apparatus according to the first aspect, the extraction item setting means is a type of the character / graphic object, and includes a box position, a box size, and a link image file name. defines a link image file name set in the image box object contained in the small compartment within the picture box object and its attribute value as one of the character information to be the extraction, the information extraction recording means the box position and an information extraction device for determining the link image file name that is specified to set the picture box object corresponding from the box size.
[0006]
In a more preferable third aspect of the first invention, in the information extraction apparatus according to the first aspect, the extraction item setting means is an attribute used for the appearance of the character string in the plate-making print data of the character information to be extracted. "Macro definition" that specifies formatting attributes including font, character size, and character color for each item of character information, and the character information extraction range using this "macro definition" is specified by a character string that includes clues for extraction Character information items are extracted with three types of settings: “extraction range” and “development contents” that specify a character string to be actually recorded in the database file from the character string including the clue extracted by “extraction range” This is an information extraction device for setting conditions.
[0007]
Here, the composition attributes are attributes related to the appearance of the character string such as the font used, character size, character color, character deformation / decoration, character type (such as Japanese or English characters), and the number of characters. Since the character information of the printed matter usually changes its appearance according to the meaning content of the displayed character string, the typesetting attribute is used as a clue for character extraction.
[0008]
According to a fourth preferred embodiment of the first invention, in the information extraction device according to the third aspect, the extraction item setting means may specify the target character data if necessary in the designation of the “extraction range”. Either the character string to be used as the “start condition” for starting the determination process for the character string to be extracted under the condition set in “extraction range” in the above, or the character string to be used as the “end condition” for ending the determination process. An information extraction device to be set.
[0009]
It is possible to set the above “start condition” and “end condition” because it may not be possible or difficult to set the desired character data correctly by simply specifying the “extraction range”. Better.
[0010]
In a more preferable fifth aspect of the first invention, in the information extraction apparatus according to the first aspect, the information extraction and recording means, in order to inform the location where the information could not be extracted, This is an information extraction device capable of recording the number of pages on the printing plate making data, the record number that should have been recorded, the character information item name, and the reason why it cannot be extracted in a log file.
[0011]
In an actual plate making operation, various manual operations are performed according to a correction instruction from a print orderer, and therefore it may be difficult for the information extraction device to perform perfect extraction on the lower plate data. In such a case, it may be more reasonable to manually correct only the portion where extraction has failed, rather than re-extracting the extraction condition setting. Since the log file points out the points where the extraction failed, it allows such flexible operation.
[0012]
According to a sixth preferred aspect of the first invention, in the information extraction apparatus according to the first aspect, the extracted component registration means selects a character / graphic object to be included in one extracted component from an editing layout of the printing plate making data. This is an information extraction device that is determined by interactively designating and selecting an area on the screen.
[0013]
Since the extraction component is interactively specified on the printing plate making data display screen, the information extraction apparatus of the present invention can be applied without problems to printed materials in which the positional relationship between the small sections is not fixed on the plate making data. is there.
[0014]
A second invention for solving the above problem is a computer program for realizing the information extraction apparatus of the first invention by being mounted on a computer.
[0015]
According to a second aspect of the second invention, in the computer provided with the editing layout software , each module of the extraction item setting means, the extraction part registration means, and the information extraction recording means of the information extraction device is the editing layout. It is a computer program that is incorporated in software and realizes the information extraction device of the first invention by being called up and operated from the menu of the editing layout software .
[0016]
Since the information extraction apparatus of the present invention has to display the printing plate making data and handle the character / graphic objects constituting the printing plate making data, the condition setting for extraction and the execution of the extraction can be performed by the menu command of the editing layout software. For example, it can be used as a program integrated with editing layout software that creates printing prepress data.
[0017]
A third invention for solving the above problem is a computer-readable storage medium recording the program of the second invention.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a block diagram showing a configuration of an
[0019]
FIG. 2 is a flowchart showing a work flow for extracting information from the lower plate data by the apparatus of the present invention. The following is a description along this flow. First, in step S1, the operator determines which information of the lower version data is to be extracted as a database field. FIG. 3 is an example of lower plate data. FIG. 3A shows an image of the entire lower plate data, and FIG. 3B shows a small section. As an example, the worker will proceed with the explanation by deciding to extract portions of “product number”, “product name”, “price”, “description”, and “image name (file name of link image)”. Next, in step S2, the
[0020]
The printing plate making data created by the
[0021]
Next, a phase (steps S3 to S6) for setting extraction conditions for information to be extracted is entered. First, the extraction condition regarding “image name” is set in step S3 by setting position information and size information of an image box to be logically linked to “image name” in one extraction component. When extracting character information not related to the image box, the formatting attribute of the character string to be extracted is set by “macro definition” in step S4. In step S5, an “extraction range” of character information to be extracted is set.
[0022]
FIG. 4A shows an extraction
[0023]
FIG. 4C shows a setting
[0024]
FIG. 5A shows an “extraction range” setting
[0025]
Returning to the flow of FIG. In step S6, the extraction order of items to be database fields is set. This completes all the settings necessary for extraction, and creates an extraction setting value file in which the extraction setting values shown in FIG. 6 are recorded. In step S7, the range to be extracted is selected from only the selected range, only the specified page, or all the documents in the folder, and the extraction recording process by the information extraction recording means 130 is executed to have the database structure. A text data file 300 is created. FIG. 7 shows the output of the text data file 300 created in this way. The number in the row direction corresponds to the number registered as extracted parts. This text data file 300 can be read into commercially available database creation software to form a database file. The number of records in the database thus created matches the number of extracted parts, and the number of fields matches the number of extracted items. If there is a portion that could not be extracted in step S7, the
[0026]
The extraction range setting dialogs 500 (FIG. 4A) and 501 (FIG. 5A) are simplified for ease of explanation, and the actual
[0027]
Since only the setting in the extraction
[0028]
The work flow and extraction condition setting of the
[0029]
In step S2, the extracted
[0030]
FIG. 12 is a flowchart of the information extraction / recording process executed when the information extraction / recording means 130 is called. When called, the information extraction / recording means 130 first reads the extraction setting
[0031]
Heretofore, the
[0032]
The
[0033]
【The invention's effect】
As described above in detail, by using the information extraction device of the present invention, it is possible to automatically pick up necessary item information from completed printing plate making data and obtain a text data file that can be registered in a database. It is possible to obtain a remarkable effect that another printed matter having another purpose can be easily created from the prepared lower-layer data. Regarding the setting of extraction conditions for character information items, the setting fields of “macro definition”, “extraction range”, “start condition”, “end condition” and “development contents” are prepared, so the operator can set the exact extraction condition. It can be easily set. In addition, since a log file that informs the location where extraction has failed can be obtained, there is a remarkable effect that efficient operation can be achieved by a combination of automatic extraction and manual correction. Since the extraction part is interactively set on the display screen of the lower plate data, it can be applied to plate making data having various layouts configured as a set of small sections.
[Brief description of the drawings]
FIG. 1 is an overall configuration diagram of an
FIG. 2 is a flowchart showing a work flow for extracting information from lower plate data by the
FIG. 3 is a diagram for explaining extraction part registration;
4 is an explanatory diagram of an extraction
FIG. 5 is an “extraction range” setting
FIG. 6 is an explanatory diagram of an extraction setting value file.
7 is a text data file generated by the information extraction / recording means 130. FIG.
FIG. 8 is a log file generated by the information extraction /
9 is a macro
FIG. 10 is an extraction
FIG. 11 is a diagram illustrating a setting method and meaning of a start condition and an end condition.
12 is a flowchart for explaining the operation of the information extraction / recording means 130. FIG.
[Explanation of symbols]
DESCRIPTION OF
Claims (9)
小区画部分から抽出すべき文字情報の項目を定義し、作成されるデータベースのレコードを構成するフィールドとの対応を設定し、それら文字情報項目を印刷製版データから抽出する条件を設定する抽出項目設定手段と、
それぞれの小区画部分を構成する文字図形オブジェクトに対して小区画部分毎の部品番号を属性値として設定することにより、作成されるデータベースのレコードデータを作成するために、前記部品番号で特定し抽出することが可能な抽出部品として定める抽出部品登録手段と、
前記抽出項目設定手段の設定に基づいて、印刷製版データから抽出すべき文字情報を特定して、対応するフィールド項目のデータとしてデータベースファイルに記録する情報抽出記録手段と、
を備えることを特徴とする情報抽出装置。Specified conditions for each subdivision part from the printing plate making data that holds the image of the whole section in the printed matter configured as a set of subdivision parts that are images of the subdivision part in the printed matter as the character graphic object and its layout data An information extraction device that extracts character information and creates one record data of a specified field configuration and finally creates a database file,
Extraction item setting that defines the items of character information to be extracted from the subsection, sets the correspondence with the fields that make up the database record to be created, and sets the conditions for extracting those character information items from the printing plate making data Means,
By specifying the part number of each subdivision part as an attribute value for the character / graphic object constituting each subdivision part, the record number of the database to be created is specified and extracted by the part number. Extraction component registration means defined as extraction components that can be performed ,
Information extraction recording means for identifying character information to be extracted from the printing plate making data based on the setting of the extraction item setting means and recording it in a database file as data of the corresponding field item;
An information extraction device comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001158433A JP4759848B2 (en) | 2001-05-28 | 2001-05-28 | Information extraction device from printing plate making data |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001158433A JP4759848B2 (en) | 2001-05-28 | 2001-05-28 | Information extraction device from printing plate making data |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002351895A JP2002351895A (en) | 2002-12-06 |
| JP4759848B2 true JP4759848B2 (en) | 2011-08-31 |
Family
ID=19002161
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001158433A Expired - Lifetime JP4759848B2 (en) | 2001-05-28 | 2001-05-28 | Information extraction device from printing plate making data |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4759848B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5323421B2 (en) * | 2008-08-21 | 2013-10-23 | 京セラドキュメントソリューションズ株式会社 | Image forming apparatus, image forming system, and image creating method |
| JP5928210B2 (en) * | 2012-07-13 | 2016-06-01 | 大日本印刷株式会社 | Typesetting device, typesetting method, and typesetting processing program |
| JP5928211B2 (en) * | 2012-07-13 | 2016-06-01 | 大日本印刷株式会社 | Typesetting device, typesetting method, and typesetting processing program |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS62165269A (en) * | 1986-01-17 | 1987-07-21 | Hitachi Ltd | Business card file method |
| JPH10134081A (en) * | 1996-11-05 | 1998-05-22 | Omron Corp | Page creation support method and apparatus |
| JP2000003362A (en) * | 1998-06-16 | 2000-01-07 | Dainippon Printing Co Ltd | Document analysis system and recording medium |
| JP2000200280A (en) * | 1999-01-05 | 2000-07-18 | Nec Software Kobe Ltd | Device and method for automatic generation of organization constitution information |
-
2001
- 2001-05-28 JP JP2001158433A patent/JP4759848B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002351895A (en) | 2002-12-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5623079B2 (en) | Automatic generation of form definitions from hardcopy forms | |
| US20090204888A1 (en) | Document processing apparatus, document processing method, and storage medium | |
| US6959414B1 (en) | Form editing method and apparatus, and storage medium storing computer-readable program | |
| JP2021047688A (en) | Form recognition method and program | |
| US7880919B2 (en) | Image processing apparatus and method | |
| EP0760140B1 (en) | Method and system for checking print orders for short run printing applications | |
| JP4759848B2 (en) | Information extraction device from printing plate making data | |
| KR20050106559A (en) | Method for outputting document form sheet | |
| JP4334987B2 (en) | DTP editing apparatus having area designation function and data cutout function | |
| JP4373470B2 (en) | Document conversion utilization system | |
| JP2000168294A (en) | Electronic white board system | |
| EP3853711B1 (en) | System and method for object-annotated trapping | |
| JP4357226B2 (en) | Form definition device, form definition method, and form definition program | |
| JPH08190636A (en) | Image editing printing system | |
| JP4845287B2 (en) | Form editing apparatus and method, and storage medium storing computer-readable program | |
| JP4433963B2 (en) | Print data generation apparatus and print data generation method | |
| JP2004171170A (en) | DTP editing device with database update function | |
| JP4033606B2 (en) | Page component layout device, page component layout method, and recording medium | |
| JP4737659B2 (en) | Table set database system and table set data creation device | |
| JP2004213636A (en) | Media production information system | |
| JP2001051771A (en) | System and method for processing picture | |
| JP2001230918A (en) | Image data reading method and image reader | |
| US20090241063A1 (en) | Information processing apparatus, information processing method, and computer readable medium for designing a gui | |
| JP2001216522A (en) | Method and system for generating printing data | |
| JP2001101327A (en) | Information processing method and apparatus, and printing system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080411 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100910 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101112 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110523 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140617 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4759848 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| EXPY | Cancellation because of completion of term |