JP2002351895A - 印刷製版データからの情報抽出装置 - Google Patents

印刷製版データからの情報抽出装置

Info

Publication number
JP2002351895A
JP2002351895A JP2001158433A JP2001158433A JP2002351895A JP 2002351895 A JP2002351895 A JP 2002351895A JP 2001158433 A JP2001158433 A JP 2001158433A JP 2001158433 A JP2001158433 A JP 2001158433A JP 2002351895 A JP2002351895 A JP 2002351895A
Authority
JP
Japan
Prior art keywords
extraction
information
character
extracted
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001158433A
Other languages
English (en)
Other versions
JP4759848B2 (ja
Inventor
Akira Matsumura
明 松村
Katsuhiro Sakaino
勝浩 境野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2001158433A priority Critical patent/JP4759848B2/ja
Publication of JP2002351895A publication Critical patent/JP2002351895A/ja
Application granted granted Critical
Publication of JP4759848B2 publication Critical patent/JP4759848B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Manufacture Or Reproduction Of Printing Formes (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】完成した印刷製版データから必要な項目の情報
を自動的に拾ってデータベースに登録可能なテキストデ
ータファイルを生成する情報抽出装置を提供することを
課題とする。 【解決手段】印刷製版データを構成する小区画部分から
抽出すべき文字情報の項目を定義し、作成されるデータ
ベースのフィールドとの対応を設定し、それら文字情報
項目を印刷製版データから抽出する条件を設定する抽出
項目設定手段と、それぞれの小区画部分に対応した印刷
製版データの文字図形オブジェクトを後に行う情報抽出
の処理単位である抽出部品として定める抽出部品登録手
段と、前記抽出項目設定手段の設定に基づいて、印刷製
版データから抽出すべき文字情報を特定して、対応する
フィールド項目のデータとしてデータベースファイルに
記録する情報抽出記録手段とを備えることを特徴とする
情報抽出装置により上記課題を解決する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は全てデジタルデータ
で制作された印刷製版データ、特に下版データから必要
な情報を抽出する情報抽出装置に関する。
【0002】
【従来技術】いわゆるDTPレイアウトソフトを用いて
作成した下版データから、必要な情報を抽出して、別冊
の作成、CD−ROMやWWWで公開するWebページ
データとして再利用したいことがある。このような場合
従来は、それらの品目制作に必要となるデータベースを
作成するために、下版データをDTPレイアウトソフト
で表示させて、必要な項目をデータベースに手入力して
作成するしか方法がなかった。
【0003】
【発明が解決しようとする課題】従来方法では、手作業
のため時間がかかりコストが高くつくこと、またデータ
量が多い場合は作業者のミスが発生しやすくなるという
問題点があった。本発明はこのような問題点を考慮して
なされたものであり、事前に必要な事項を設定しておけ
ば、完成した印刷製版データから必要な項目の情報を自
動的に拾ってデータベースファイルまたはデータベース
ファイルに変換可能な一定の構造を持ったテキストデー
タファイルを生成する情報抽出装置を提供することを課
題とする。
【0004】
【課題を解決するための手段】上記課題を解決するため
の第1の発明は、商品スペック等の小区画部分の集合と
して構成される印刷製版データから、小区画部分毎に、
指定された条件で文字情報を抽出して指定されたフィー
ルド構成の1レコードデータを作成して最終的にデータ
ベースファイルを作成する情報抽出装置であって、その
第1の態様は、小区画部分から抽出すべき文字情報の項
目を定義し、作成されるデータベースのレコードを構成
するフィールドとの対応を設定し、それら文字情報項目
を印刷製版データから抽出する条件を設定する抽出項目
設定手段と、それぞれの小区画部分に対応した印刷製版
データの文字図形オブジェクトを後に行う情報抽出の処
理単位である抽出部品として定める抽出部品登録手段
と、前記抽出項目設定手段の設定に基づいて、印刷製版
データから抽出すべき文字情報を特定して、対応するフ
ィールド項目のデータとしてデータベースファイルに記
録する情報抽出記録手段と、を備えるものである。ここ
でデータベースファイルはデータベースファイルそのも
のだけではなく、データベース作成ソフトに読込ませる
ことによりデータベースファイルに変換できる一定の構
造を持ったテキストファイルをも含むものとする。
【0005】第1の発明のより好ましい第2の態様は、
第1の態様の情報抽出装置において、小区画部分に含ま
れる画像ボックスオブジェクトに設定されたリンク画像
ファイル名を抽出すべき文字情報の一つとして定義可能
な抽出項目設定手段と、そのような画像ボックスオブジ
ェクトについては、抽出部品中の相対位置と画像ボック
スのサイズから該当する画像ボックスオブジェクトを特
定し、設定されているリンク画像ファイル名を求めるこ
とができる情報抽出記録手段とを備えた情報抽出装置で
ある。
【0006】第1の発明のより好ましい第3の態様は、
第1の態様の情報抽出装置において、前記抽出項目設定
手段は、抽出したい文字情報の製版印刷データにおける
組版属性を文字情報の項目毎に指定する「マクロ定義」
と、この「マクロ定義」を用いて文字情報の抽出範囲を
指定する「抽出範囲」と、「抽出範囲」により抽出した
文字列から実際にデータベースファイルに記録すべき文
字列を指定する「展開内容」の3種類の設定により、文
字情報項目を抽出する条件を設定する情報抽出装置であ
る。
【0007】組版属性とは、ここでは、使用フォント、
文字サイズ、文字の色、文字の変形・飾り、文字種(日本
語か英文字かなど)、文字数などの文字列の見た目に関
わる属性である。印刷物の文字情報は、表示される文字
列の意味内容に応じて見た目を変えることが普通なので
組版属性を文字抽出の手がかりに用いるのである。
【0008】第1の発明のより好ましい第4の態様は、
第3の態様の情報抽出装置において、前記抽出項目設定
手段は、前記「抽出範囲」の指定において、必要であれ
ば、対象とする文字データ上で、「抽出範囲」に設定さ
れた条件で抽出すべき文字の判断処理を始める「開始条
件」、同判断処理を終了させる「終了条件」のいずれか
または両方を設定することができる情報抽出装置であ
る。
【0009】「抽出範囲」の指定だけでは、正しく所望
の文字データを抽出させる設定を行うことができない場
合や、困難な場合があるので、上記「開始条件」「終了
条件」を設定できることができるようにした方がよい。
【0010】第1の発明のより好ましい第5の態様は、
第1の態様の情報抽出装置において、前記情報抽出記録
手段は、抽出できなかった項目については、抽出できな
かった箇所を知らせるために、当該箇所の印刷製版デー
タ上の頁数、記録されるはずであったレコード番号、文
字情報項目名、抽出できなかった理由をログファイルに
記録することができる情報抽出装置である。
【0011】実際の製版作業では、印刷物発注者の直し
指示により様々な手作業による直しを行うため、下版デ
ータに対して情報抽出装置が完璧な抽出を行うことが困
難な場合もある。そのような場合に、抽出条件の設定を
やり直して再抽出処理させるより、抽出に失敗した箇所
だけを手で直す方が、合理的な場合がある。ログファイ
ルは抽出に失敗した箇所をもれなく指摘するのでそのよ
うな柔軟な運用を可能にする。
【0012】第1の発明のより好ましい第6の態様は、
第1の態様の情報抽出装置において、前記抽出部品登録
手段は、1つの抽出部品に含まれるべき文字図形オブジ
ェクトを、その印刷製版データの編集レイアウト画面上
で対話的に領域指定して選択することにより決定する情
報抽出装置である。
【0013】印刷製版データの表示画面上で対話的に抽
出部品を指定するやり方なので、本発明の情報抽出装置
は、製版データ上で小区画部分相互間の位置関係が定形
でない印刷物にも問題無く適用可能である。
【0014】上記課題を解決する第2の発明は、コンピ
ュータに搭載することにより第1の発明の情報抽出装置
を実現するコンピュータプログラムである。
【0015】第2の発明の第2の態様は、編集レイアウ
トソフトウエアを具備したコンピュータに搭載すること
により第1の発明の情報抽出装置を実現する編集レイア
ウトソフトウエアに組込まれた形で動作するコンピュー
タプログラムである。
【0016】本発明の情報抽出装置は、印刷製版データ
を表示し、印刷製版データを構成する文字図形オブジェ
クトを扱わなければならないので、編集レイアウトソフ
トのメニューコマンドで、抽出のための条件設定や抽出
の実行ができるなど、印刷製版データを作成する編集レ
イアウトソフトと一体化させた形のプログラムとして利
用できる方が作業者の使い勝手がよい。
【0017】上記課題を解決する第3の発明は、第2の
発明のプログラムを記録したコンピュータ可読な記憶媒
体である。
【0018】
【発明の実施の形態】図1は、本発明の一実施形態であ
る情報抽出装置1の構成を示すブロック図である。10
は、グラフィックディスプレイ11、キーボードおよび
マウス12、プリンタ13、ハードディスク20が接続
されたコンピュータ本体である。コンピュータ本体10
には、編集レイアウトソフトウエア100、抽出項目設
定手段110、抽出部品登録手段120、情報抽出記録
手段130、の各ソフトウエアプログラムが備えられて
いる。抽出項目設定手段110、抽出部品登録手段12
0、情報抽出記録手段130、の各モジュールは編集レ
イアウトソフト100に組込まれた形でインストールさ
れており、編集レイアウトソフト100のメニューから
呼出されることにより動作する。ハードディスク20上
の200は完成された印刷製版データファイルである下
版データファイルである。201は抽出設定値ファイ
ル、300はテキストデータベース、301はログファ
イルである。
【0019】図2は本発明の装置による下版データから
の情報抽出の作業フローを示す流れ図である。以下この
流れに沿って説明してゆく。まずステップS1で、作業
者は下版データのどの情報をデータベースのフィールド
として抽出するかを決定する。図3は、下版データの一
例である。図3(A)は下版データ全体のイメージを示
し、図3(B)は小区画部分である。例として、作業者
は、「商品番号」「商品名」「価格」「説明」「画像名
(リンク画像のファイル名)」の部分を抽出するように
決めたことにして説明を進める。次にステップS2で、
編集レイアウトソフト100を起動し下版データを表示
させ後に作成されるデータベースの1レコードとなる範
囲を登録する。ステップS2の処理は、図3(C)に示
すように、小区画部分ごとに小区画部分を構成する文字
図形オブジェクトを表示画面上での対話操作により適切
に選択した後、抽出部品登録のコマンドを指定すること
により行う。この操作により1つの小区画部分を構成す
る幾つかの文字図形オブジェクトが1つの抽出部品とし
てグループ化されるわけである。尚小区画部分をコマと
も呼ぶ。
【0020】編集レイアウトソフト100により作成さ
れる印刷製版データは、様々な文字図形オブジェクトで
構成されるが、それらのオブジェクトの中で代表的なも
のが文字ボックスと画像ボックスである。文字ボックス
オブジェクトはそのプロパティ(属性値)として、版上
の位置情報、ボックスサイズ、表示されるべき文字列デ
ータ、組版属性等を持つものとする。画像ボックスオブ
ジェクトは、版上の位置情報、ボックスサイズ、リンク
画像ファイル名等をそのプロパティとして持つものとす
る。
【0021】次に、抽出すべき情報の抽出条件の設定を
行うフェーズ(ステップS3〜S6)に入る。まず、
「画像名」に関する抽出条件の設定は、ステップS3に
おいて、1つの抽出部品において「画像名」と論理的に
リンクすべき画像ボックスの位置情報とサイズ情報を設
定する。画像ボックスに関わりのない文字情報を抽出す
る場合は、ステップS4で「マクロ定義」により抽出し
たい文字列の組版属性を設定する。さらにステップS5
で、抽出したい文字情報の「抽出範囲」を設定する。
【0022】図4(A)は、ステップS4で使用する抽
出範囲の設定ウインドウ500である。下版データ表示
上の1個のコマ(図4(B))の中で、対象画像ボック
スの位置をコマの中の相対的な位置関係で指定し、その
内容を設定ウインドウ500に設定する。まず項目名に
は「画像名」を指定する。抽出されたデータはデータベ
ースの「画像名」フィールドに格納されることになる。
項目「画像名」に結び付けられる画像ボックスは、コマ
の中で、左上から2番目の要素であるので、設定ウイン
ドウ500にはそのように設定する。ものによっては、
コマ内の位置が固定されていない場合がある。そのよう
な場合には、Box位置を「無視」と設定し、設定ウイ
ンドウ500の下部にあるBoxサイズの指定によって
抽出すべき部品の構成要素を特定する。いずれにして
も、抽出部品内に複数の画像ボックスが存在する場合に
は、項目「画像名」に結び付けられる画像ボックスを適
切に特定できるように設定しなければならないが、Bo
x位置とBoxサイズの両方を指定すれば通常は十分で
ある。
【0023】図4(C)は、画像ボックスに関わりのな
い文字情報を特定するための条件を設定するにあたり、
ステップS4で行うマクロ設定に用いる設定ダイアログ
600である。文字オブジェクトは、その文字列に適用
される組版属性(使用フォント、文字サイズ、文字色
等)を持つので、マクロ名(ここでは“抽出する項目
名”)とその項目に設定されている組版属性を設定ウイ
ンドウ600にて設定する。尚図9は図4(C)の設定
ウインドウ600の詳細図である。必要な場合には文字
の変形や文字飾りの属性を設定することも可能である。
【0024】図5(A)は、文字情報を抽出するための
「抽出範囲」の設定ダイアログ501である。項目名設
定欄510、展開内容設定欄511、抽出範囲設定欄5
12が設けられている。まず項目名設定欄510には
「商品番号」「商品名」「価格」「説明」のどれかを指
定する(図では「商品番号」を指定)。抽出範囲設定欄
512には、文字列の抽出条件として抽出したい文字列
の手がかりを与える指定と文字情報が持つ組版属性を与
えるマクロ名を記述する。例えば、下版データで「商品
番号」の前に必ずタブが入っている場合は、図5(A)
で抽出範囲に“@タブ”と“*商品番号”をつなげて指
定する。“@タブ”は抽出する文字列の始まりの手がか
りの指定である。そして出力する文字列にはタブを含め
る必要がないので、展開内容設定欄511には“*商品
番号”と設定する。ここで抽出範囲や展開内容の設定に
は特定の文字または文字の並びを情報抽出記録手段13
0への引数として渡すための一定の規則が用いられてい
ることを断っておく。例えば、項目「価格」に関して下
版データ上で常に直前に“スペース”があり直後に
“円”がある場合は、抽出範囲設定欄512に“@空白
*売価%(円)”と指定する。すると抽出部品の中から
直前にスペース文字が有り直後に“円”があるマクロ名
“*価格”の組版属性と一致する文字列を抽出すること
になる。
【0025】図2のフローに戻る。ステップS6で、デ
ータベースのフィールドとなる項目の抽出順序を設定す
る。これで抽出のために必要な設定が全て終り、図6に
示す抽出設定値を記録した抽出設定値ファイルを作成す
る。ステップS7で、抽出する範囲を、選択した範囲の
み、指定した頁のみ、フォルダ内の全ドキュメントのど
れかから選択して、情報抽出記録手段130による抽出
記録処理を実行させてデータベースの構造を持ったテキ
ストデータファイル300を作成する。図7はこうして
作成されたテキストデータファイル300を出力したも
のである。行方向の数は抽出部品として登録した数に相
当する。このテキストデータファイル300を市販のデ
ータベース作成ソフトウエアに読込ませてデータベース
ファイルとすることができる。こうして作成されるデー
タベースのレコード数は抽出部品数に、フィールド数は
抽出項目数に一致する。ステップS7で、抽出できなか
った箇所があった場合は、頁数、書出したテキスト内の
行番号、項目名、抽出できなかった理由(設定不一致の
ためかNULLのためか)をログファイル301として
出力する。図8はログファイル301の出力例である。
必要であればステップS3〜S7の作業をテキストデー
タが正常に出力されるまで繰り返すことができる。最後
にステップS8で、下版データと出力したテキストデー
タファイル300およびログファイル301とを比較し
てデータベースファイルの修正作業を行う。
【0026】抽出範囲設定ダイアログ500(図4
(A))と501(図5(A))は、説明しやすくする
ために単純化したものであって、実際の情報抽出装置1
では図10に示すダイアログ502を使用する。ダイア
ログ502では、文字ボックスに関係する抽出項目と画
像ボックスに関係する抽出項目(リンク画像ファイル
名)の両方に対応しており、抽出種別519で、そのど
ちらであるかを選択する。抽出部品の中に複数の文字ボ
ックスが存在する場合は、画像ボックスの場合と同じよ
うにBox位置518、Boxサイズ517で適当なボ
ックスを選択するよう設定することができる。
【0027】抽出範囲設定欄512の設定だけでは、文
字列を正しく抽出する条件を設定できない場合や、正し
い設定を行うことが難しい場合があるのでダイアログ5
02では、文字抽出条件520の詳細指定欄を設け、チ
ェックボックス521、522をチェックすることによ
り抽出する文字列の検索を開始する開始条件、終了条件
を細かく指定することができるようになっている。例え
ば図10では、開始条件524、526の設定により、
文字ボックス内で、3行目の先頭から、タブが2個並び
その次に文字列“START”が出現した次の文字列か
ら、抽出範囲設定欄512に設定された条件を満たす文
字列の抽出を始める。また、終了条件534の設定によ
り、文字列“END”の出現で文字列の抽出を終了す
る。図11(A)は条件524、526の設定で抽出さ
れる開始位置を、図11(B)に条件534の設定で抽
出される終了位置を例示する。開始条件および終了条件
の設定はオプションであり、必要のない場合は使用しな
くてよい。使用する場合でも必要に応じてチェックボッ
クス523、525、533、535を選択して必要な
条件だけを利用することができる。
【0028】以上情報抽出装置1の作業の流れと抽出条
件設定について説明した。次にこれまで述べた情報抽出
装置1の働きがどのように実現されているかについて述
べる。前述したように情報抽出装置1のコンピュータ本
体10には、抽出項目設定手段110、抽出部品登録手
段120、情報抽出記録手段130が編集レイアウトソ
フト100に組込まれた状態でインストールされてい
る。これらの各手段が編集レイアウトソフト100上の
対話操作によりメニューコマンド等から呼出されて動作
することにより図2の各ステップが実現される。すなわ
ち、ステップS2では抽出部品登録手段120が、ステ
ップS3〜S6では抽出項目設定手段110が、ステッ
プS7では情報抽出記録手段130が、それぞれ呼出さ
れ実行される。
【0029】抽出部品登録手段120は、ステップS2
において、文字図形オブジェクトを表示画面上での対話
操作により適切に選択した後、抽出部品登録のコマンド
を指定すると、選択された個々の文字図形オブジェクト
に部品番号を意味する属性値を設定する。後の処理で
は、文字図形オブジェクトに設定されている部品番号を
意味する属性値を検査することによってそのオブジェク
トがどの抽出部品に属するか、またはどれにも属さない
か、を判別することができる。
【0030】図12は、情報抽出記録手段130が呼出
されたときに実行される情報抽出記録処理のフローチャ
ートである。情報抽出記録手段130は呼出されるとま
ず、抽出項目設定手段が作成した抽出設定値ファイル2
01を読込み抽出設定値を得る(S100)。次に、抽
出部品を特定するカウンタおよび項目を特定するカウン
タを初期化する(S102、104)。次にこれから抽
出する対象項目を設定する(S106)。次に部品番号
で特定される抽出部品内で対象項目に対応する文字ボッ
クスまたは画像ボックスオブジェクトを設定に基づいて
選択する(S108)。次に選択したボックス内のオブ
ジェクトのプロパティから対象項目の文字情報を抽出す
る(S110)。選択したボックスが文字ボックスの場
合このステップは、まず、開始条件が設定されている場
合は、条件の満たされる位置まで当該文字列(これもプ
ロパティの1つである。以下対象文字列と呼ぶ)を走査
し、対象文字列の開始位置からは、その位置の文字が抽
出範囲512で設定された条件に一致するかどうかを検
査して、抽出範囲512の条件を満たし、かつ終了条件
に達する直前まで、対象文字列の文字をコピーして一時
記憶バッファに記憶する。抽出が成功すればステップS
112に進む。抽出に失敗した時(開始条件を満たす文
字または部分文字列が見つからなかった場合、画像ボッ
クスにリンク画像ファイル名が設定されていなかった場
合、組版属性が一致していなかった場合、など)はログ
バッファに、(部品番号、項目名、失敗理由)を記録し
て(S114)ステップS116に進む。抽出に成功し
た場合は、テキストバッファの(部品番号、項目番号)
の位置に一時記憶バッファに格納した文字列から展開内
容に相当する部分を切出してこれを記録する(S11
2)。項目番号を1加え、全ての項目がおわりでなけれ
ばステップS106に戻る(S116、118)。全て
の項目が終ったら、部品番号を1加えて(S120)、
まだ処理すべき抽出部品が残っているならば、次の抽出
部品の処理を行うためにステップS104に戻る。最後
に、テキストバッファの展開内容に相当する部分をテキ
ストファイル300として出力し、ログバッファの内容
をログファイル301として出力する(S124)。
【0031】以上、本発明の一実施形態である情報抽出
装置1について述べた。情報抽出装置1では、抽出項目
設定手段110、抽出部品登録手段120、情報抽出記
録手段130、の各モジュールは編集レイアウトソフト
100に組込まれた形でインストールされており、編集
レイアウトソフト100のメニューから呼出されること
により動作するが、本発明の趣旨はこのような形態にの
み制限されるものではない。下版データを構成する文字
図形オブジェクトの情報を適切にアクセスする手段を備
えることができれば下版データを作成した編集レイアウ
トソフト100とは独立した情報抽出装置として構成し
てもよい。
【0032】情報抽出装置1がテキストデータファイル
300ではなくデータベースファイルを直接作成しても
よい。その場合には情報抽出装置1がデータベース作成
モジュールを備える必要がある。
【0033】
【発明の効果】以上詳しく説明してきたように本発明の
情報抽出装置を用いれば、完成した印刷製版データから
必要な項目の情報を自動的に拾ってデータベースに登録
可能なテキストデータファイルを得ることができ、一度
作成した下版データから他の目的の別の印刷物を容易に
作成できるという顕著な効果を奏することができる。文
字情報項目の抽出条件の設定に関しては「マクロ定義」
「抽出範囲」「開始条件」「終了条件」「展開内容」の
各設定欄が用意されているので、作業者は、正確な抽出
条件を容易に設定可能である。また抽出に失敗した箇所
を知らせるログファイルを得ることができるので、自動
抽出と手作業の直しの組み合わせによる効率的な運用を
図ることができるという顕著な効果を奏する。また抽出
部品の設定は下版データの表示画面上で対話的に行うの
で、小区画部分の集合として構成される様々なレイアウ
トの製版データに適用可能である。
【図面の簡単な説明】
【図1】 本発明の一実施形態である情報抽出装置1の
全体構成図である。
【図2】 情報抽出装置1による下版データからの情報
抽出の作業フローを示す流れ図である。
【図3】 抽出部品登録を説明する図である。
【図4】 抽出範囲設定ダイアログ500、マクロ定義
ダイアログ600の説明図である。
【図5】 「抽出範囲」設定ダイアログ501である。
【図6】 抽出設定値ファイルの説明図である。
【図7】情報抽出記録手段130が生成するテキストデ
ータファイルである。
【図8】 情報抽出記録手段130が生成するログファ
イルである。
【図9】 マクロ定義設定ダイアログ600である。
【図10】抽出範囲設定ダイアログ502である。
【図11】開始条件および終了条件の設定方法と意味を
説明する図である。
【図12】情報抽出記録手段130の動作を説明するフ
ローチャート。
【符号の説明】
1 情報抽出装置 10 コンピュータ本体 11 グラフィックディスプレイ 12 キーボードおよびマウス 13 プリンタ 20 ハードディスク 100 編集レイアウトソフト 110 抽出項目設定手段 120 抽出部品登録手段 130 情報抽出記録手段 200 下版データファイル 201 抽出設定値ファイル 300 テキストデータファイル 301 ログファイル 500 抽出範囲設定ダイアログ 501 抽出範囲設定ダイアログ 502 抽出範囲設定ダイアログ 600 マクロ定義設定ダイアログ
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 2H084 AE06 AE07 AE10 5B050 AA08 BA10 CA07 FA02 FA03 GA08 5B075 ND06 ND36 NK37 UU40

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 商品スペック等の小区画部分の集合とし
    て構成される印刷製版データから、小区画部分毎に、指
    定された条件で文字情報を抽出して指定されたフィール
    ド構成の1レコードデータを作成して最終的にデータベ
    ースファイルを作成する情報抽出装置であって、小区画
    部分から抽出すべき文字情報の項目を定義し、作成され
    るデータベースのレコードを構成するフィールドとの対
    応を設定し、それら文字情報項目を印刷製版データから
    抽出する条件を設定する抽出項目設定手段と、それぞれ
    の小区画部分に対応した印刷製版データの文字図形オブ
    ジェクトを後に行う情報抽出の処理単位である抽出部品
    として定める抽出部品登録手段と、前記抽出項目設定手
    段の設定に基づいて、印刷製版データから抽出すべき文
    字情報を特定して、対応するフィールド項目のデータと
    してデータベースファイルに記録する情報抽出記録手段
    と、を備えることを特徴とする情報抽出装置。
  2. 【請求項2】 請求項1に記載の情報抽出装置におい
    て、小区画部分に含まれる画像ボックスオブジェクトに
    設定されたリンク画像ファイル名を抽出すべき文字情報
    の一つとして定義可能な抽出項目設定手段と、そのよう
    な画像ボックスオブジェクトについては、抽出部品中の
    相対位置と画像ボックスのサイズから該当する画像ボッ
    クスオブジェクトを特定し、設定されているリンク画像
    ファイル名を求めることができる情報抽出記録手段とを
    備えた情報抽出装置。
  3. 【請求項3】 前記抽出項目設定手段は、抽出したい文
    字情報の製版印刷データにおける組版属性を文字情報の
    項目毎に指定する「マクロ定義」と、この「マクロ定
    義」を用いて文字情報の抽出範囲を指定する「抽出範
    囲」と、「抽出範囲」により抽出した文字列から実際に
    データベースファイルに記録すべき文字列を指定する
    「展開内容」の3種類の設定により、文字情報項目を抽
    出する条件を設定する請求項1に記載の情報抽出装置。
  4. 【請求項4】 前記抽出項目設定手段は、前記「抽出範
    囲」の指定において、必要であれば、対象とする文字デ
    ータ上で「抽出範囲」に設定された条件で抽出すべき文
    字の判断処理を始める「開始条件」、同判断処理を終了
    させる「終了条件」のいずれかまたは両方を設定するこ
    とができるものである請求項3に記載の情報抽出装置。
  5. 【請求項5】 前記情報抽出記録手段は、抽出できなか
    った項目については、抽出できなかった箇所を知らせる
    ために、当該箇所の印刷製版データ上の頁数、記録され
    るはずであったレコード番号、文字情報項目名、抽出で
    きなかった理由をログファイルに記録することができる
    請求項1に記載の情報抽出装置。
  6. 【請求項6】 前記抽出部品登録手段は、1つの抽出部
    品に含まれるべき文字図形オブジェクトを、その印刷製
    版データの編集レイアウト画面上で対話的に領域指定し
    て選択することにより決定することを特徴とする請求項
    1に記載の情報抽出装置。
  7. 【請求項7】 コンピュータに搭載することにより請求
    項1から請求項6のいずれかに記載の情報抽出装置を実
    現するコンピュータプログラム。
  8. 【請求項8】 編集レイアウトソフトウエアを具備した
    コンピュータに搭載することにより請求項1から請求項
    6のいずれかに記載の情報抽出装置を実現する編集レイ
    アウトソフトウエアに組込まれた形で動作するコンピュ
    ータプログラム。
  9. 【請求項9】 請求項7または請求項8に記載のコンピ
    ュータプログラムを記録したコンピュータ可読な記録媒
    体。
JP2001158433A 2001-05-28 2001-05-28 印刷製版データからの情報抽出装置 Expired - Lifetime JP4759848B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001158433A JP4759848B2 (ja) 2001-05-28 2001-05-28 印刷製版データからの情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001158433A JP4759848B2 (ja) 2001-05-28 2001-05-28 印刷製版データからの情報抽出装置

Publications (2)

Publication Number Publication Date
JP2002351895A true JP2002351895A (ja) 2002-12-06
JP4759848B2 JP4759848B2 (ja) 2011-08-31

Family

ID=19002161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001158433A Expired - Lifetime JP4759848B2 (ja) 2001-05-28 2001-05-28 印刷製版データからの情報抽出装置

Country Status (1)

Country Link
JP (1) JP4759848B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010050685A (ja) * 2008-08-21 2010-03-04 Kyocera Mita Corp 画像形成装置、画像形成システム及び画像作成方法
JP2014021614A (ja) * 2012-07-13 2014-02-03 Dainippon Printing Co Ltd 組版装置、組版方法、及び組版処理プログラム
JP2014021615A (ja) * 2012-07-13 2014-02-03 Dainippon Printing Co Ltd 組版装置、組版方法、及び組版処理プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62165269A (ja) * 1986-01-17 1987-07-21 Hitachi Ltd 名刺フアイル方式
JPH10134081A (ja) * 1996-11-05 1998-05-22 Omron Corp ページ作成支援方法及び装置
JP2000003362A (ja) * 1998-06-16 2000-01-07 Dainippon Printing Co Ltd 文書解析システム及び記録媒体
JP2000200280A (ja) * 1999-01-05 2000-07-18 Nec Software Kobe Ltd 組織構成情報自動作成装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62165269A (ja) * 1986-01-17 1987-07-21 Hitachi Ltd 名刺フアイル方式
JPH10134081A (ja) * 1996-11-05 1998-05-22 Omron Corp ページ作成支援方法及び装置
JP2000003362A (ja) * 1998-06-16 2000-01-07 Dainippon Printing Co Ltd 文書解析システム及び記録媒体
JP2000200280A (ja) * 1999-01-05 2000-07-18 Nec Software Kobe Ltd 組織構成情報自動作成装置および方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010050685A (ja) * 2008-08-21 2010-03-04 Kyocera Mita Corp 画像形成装置、画像形成システム及び画像作成方法
JP2014021614A (ja) * 2012-07-13 2014-02-03 Dainippon Printing Co Ltd 組版装置、組版方法、及び組版処理プログラム
JP2014021615A (ja) * 2012-07-13 2014-02-03 Dainippon Printing Co Ltd 組版装置、組版方法、及び組版処理プログラム

Also Published As

Publication number Publication date
JP4759848B2 (ja) 2011-08-31

Similar Documents

Publication Publication Date Title
US6289254B1 (en) Parts selection apparatus and parts selection system with CAD function
US7313754B2 (en) Method and expert system for deducing document structure in document conversion
US20090204888A1 (en) Document processing apparatus, document processing method, and storage medium
US20070067336A1 (en) Electronic publishing system and method for managing publishing requirements in a neutral format
JP5521384B2 (ja) 書籍掲載文書の電子的な編集・内容変更システム、書籍掲載文書の電子的な編集・内容変更プログラムおよび書籍作成システム
JP4373470B2 (ja) 文書変換活用システム
JPH09507934A (ja) 短期印刷作業の印刷注文チェックのための方法およびシステム
JP2002351895A (ja) 印刷製版データからの情報抽出装置
EP1256900A1 (en) Database entry system and method employing optical character recognition
JPS60222270A (ja) 表デ−タ差込み印刷装置
JP3076348B2 (ja) 文書整形装置及び文書整形方法
JP2004213636A (ja) 媒体制作情報システム
JP4334987B2 (ja) 領域指定機能およびデータ切り出し機能を備えたdtp編集装置
JP2004171170A (ja) データベース更新機能を備えたdtp編集装置
JP4357226B2 (ja) 帳票定義装置、帳票定義方法及び帳票定義プログラム
JP4737659B2 (ja) 表組データベースシステムおよび表組データ作成装置
JP4828318B2 (ja) 複数様式帳票統合印刷方法、システム及びプログラム
JP4845287B2 (ja) フォーム編集装置及び方法及びコンピュータ読取り可能なプログラムが格納された記憶媒体
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP2002169692A (ja) 仕様書作成プログラム及び仕様書作成プログラムを格納したコンピュータ可読媒体
JP4033606B2 (ja) ページ構成部品レイアウト装置、ページ構成部品レイアウト方法、並びに記録媒体
JPH11250037A (ja) コンテンツ編集装置および記録媒体
JP2000280435A (ja) 入校データチェックシステム
JP4399296B2 (ja) Dtpデータ編集システム、dtpデータ編集方法及びdtpデータ編集プログラム
JP2001051771A (ja) 画像処理システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110523

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4759848

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

EXPY Cancellation because of completion of term