JP5938425B2 - データ処理装置、方法及びプログラム - Google Patents

データ処理装置、方法及びプログラム Download PDF

Info

Publication number
JP5938425B2
JP5938425B2 JP2014013114A JP2014013114A JP5938425B2 JP 5938425 B2 JP5938425 B2 JP 5938425B2 JP 2014013114 A JP2014013114 A JP 2014013114A JP 2014013114 A JP2014013114 A JP 2014013114A JP 5938425 B2 JP5938425 B2 JP 5938425B2
Authority
JP
Japan
Prior art keywords
page
operator
data
specific
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014013114A
Other languages
English (en)
Other versions
JP2015141495A (ja
Inventor
正志 藏之下
正志 藏之下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2014013114A priority Critical patent/JP5938425B2/ja
Priority to US14/606,095 priority patent/US9367525B2/en
Publication of JP2015141495A publication Critical patent/JP2015141495A/ja
Application granted granted Critical
Publication of JP5938425B2 publication Critical patent/JP5938425B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は、ページ記述言語を用いて表現された複数のページデータに対して所望のデータ処理を実行するデータ処理装置、方法及びプログラムに関する。
近時、印刷製版の分野において、DTP(DeskTop Publishing)やCTP(Computer To Plate)の普及により、印刷工程のワークフローが全体的にデジタル化されている。例えば、複数のデザイナが各自の情報処理端末を用いてページ単位のコンテンツを創作した後、電子データとして印刷会社側にそれぞれ入稿するケースが増加している。そこで、順次入稿された電子データをノンブル(ページ番号)の順番に従って自動的に配列する機能があれば、作業者にとって便宜である。
例えば、特許文献1では、スキャン画像(ラスタ形式の画像データ)が示すページ領域のうち、特定の領域における「数字」の照合処理(いわゆるテンプレートマッチング処理)を行うことで、ノンブルの内容を特定する装置が提案されている。
特開2010−086151号公報
特に最近、装飾性又は識別性の高いフォント(文字の書体)が種々開発されている。また、市場のグローバル化に伴って、コンテンツに含まれる言語の数も増えつつある。
しかし、特許文献1で提案された装置では、予め用意すべきテンプレートの総数が膨大になるばかりでなく、候補数が増える分だけノンブルの内容の検出精度が低下するという問題があった。特に、複雑なデザインが施されたフォントや、サイズが小さいフォントほど誤検出の可能性が高くなる。
本発明は上記した課題を解決するためになされたものであり、ノンブルに使用され得るフォントの種類が膨大であっても、きわめて高い確度でのページ配列処理を実行可能なデータ処理装置、方法及びプログラムを提供することを目的とする。
本発明に係るデータ処理装置は、ページ記述言語を用いて表現された複数のページデータを取得するページ取得部と、上記ページ取得部より取得された各上記ページデータの中から、テキスト形式で文字列を記述するオペレータを少なくとも1つずつ抽出するオペレータ抽出部と、上記オペレータ抽出部により抽出された各上記オペレータを解析し、上記文字列の中に序列を示す特定文字が含まれ、且つ、上記文字列に関するフォント情報が一致する上記オペレータを、特定オペレータとして分類するオペレータ分類部と、上記オペレータ分類部により分類された上記特定オペレータを含む2つ以上の上記ページデータの配列順番を、上記特定文字により示される上記序列に従って決定するページ順番決定部を備える。
このように、各ページデータの中からテキスト形式で文字列を記述するオペレータ(特定オペレータを含む)を少なくとも1つずつ抽出するオペレータ抽出部と、フォント情報が一致する特定オペレータを含む2つ以上のページデータの配列順番を、特定文字により示される序列に従って決定するページ順番決定部を設けたので、フォント情報そのものを用いてノンブルの書式に関する共通性を容易に且つ確実に判別可能になり、ノンブルの存否及び内容の検出精度を向上できる。これにより、ノンブルに使用され得るフォントの種類が膨大であっても、成功の確度がきわめて高いページ配列処理を実行できる。
また、上記オペレータ分類部は、更に、上記文字列の位置情報が一致又は対応する上記オペレータを分類することが好ましい。
また、上記オペレータ分類部は、更に、上記位置情報により特定される上記文字列の位置が、上記ページデータが表すページの辺縁領域に属する上記オペレータを分類することが好ましい。
また、上記オペレータ分類部は、上記フォント情報としてのフォント名及びフォントサイズが一致する上記オペレータを分類することが好ましい。
また、上記ページ順番決定部による決定結果を示すページ配列画像を作成する画像作成部を更に備えることが好ましい。
また、上記ページ取得部は、少なくとも2つのデータファイルから複数の上記ページデータを取得することが好ましい。
本発明に係るデータ処理方法は、ページ記述言語を用いて表現された複数のページデータを取得する取得ステップと、取得された各上記ページデータの中から、テキスト形式で文字列を記述するオペレータを少なくとも1つずつ抽出する抽出ステップと、抽出された各上記オペレータを解析し、上記文字列の中に序列を示す特定文字が含まれ、且つ、上記文字列に関するフォント情報が一致する上記オペレータを、特定オペレータとして分類する分類ステップと、分類された上記特定オペレータを含む2つ以上の上記ページデータの配列順番を、上記特定文字により示される上記序列に従って決定する決定ステップをコンピュータに実行させる。
本発明に係るデータ処理プログラムは、ページ記述言語を用いて表現された複数のページデータを取得する取得ステップと、取得された各上記ページデータの中から、テキスト形式で文字列を記述するオペレータを少なくとも1つずつ抽出する抽出ステップと、抽出された各上記オペレータを解析し、上記文字列の中に序列を示す特定文字が含まれ、且つ、上記文字列に関するフォント情報が一致する上記オペレータを、特定オペレータとして分類する分類ステップと、分類された上記特定オペレータを含む2つ以上の上記ページデータの配列順番を、上記特定文字により示される上記序列に従って決定する決定ステップをコンピュータに実行させる。
本発明に係るデータ処理装置、方法及びプログラムによれば、各ページデータの中からテキスト形式で文字列を記述するオペレータ(特定オペレータを含む)を少なくとも1つずつ抽出し、フォント情報が一致する特定オペレータを含む2つ以上のページデータの配列順番を、特定文字により示される序列に従って決定するようにしたので、フォント情報そのものを用いてノンブルの書式に関する共通性を容易に且つ確実に判別可能になり、ノンブルの存否及び内容の検出精度を向上できる。これにより、ノンブルに使用され得るフォントの種類が膨大であっても、成功の確度がきわめて高いページ配列処理を実行できる。
この実施形態に係るデータ処理装置としての面付け装置を組み込んだ印刷物生産システムの全体構成図である。 図1に示す面付け装置の電気的なブロック図である。 図1及び図2に示す面付け装置の動作説明に供されるフローチャートである。 ジョブ編集画面を表す第1の画像図である。 ページデータの描画内容を示す模式図である。 図6Aは、テキスト記述オペレータの抽出方法に関する概略説明図である。図6Bは、テキスト記述オペレータの抽出結果を示す模式図である。 ページデータ情報及びオペレータの変数を並べた一覧表を示す図である。 特定文字が含まれるテキスト内容を例示する概略説明図である。 ページデータの配列結果を示す模式図である。 ジョブ編集画面を表す第2の画像図である。
以下、本発明に係るデータ処理方法について、それを実施するデータ処理装置及びデータ処理プログラムとの関係において好適な実施形態を挙げ、添付の図面を参照しながら詳細に説明する。
[印刷物生産システム10の全体構成]
図1は、この実施形態に係るデータ処理装置としての面付け装置20を組み込んだ印刷物生産システム10の全体構成図である。
印刷物生産システム10内には、ネットワーク12との接続を中継する機器であるルータ14と、外部ネットワークに属する図示しない各端末装置からネットワーク12を介してアクセス可能なサーバ装置16と、サーバ装置16等から取得したデータの編集等を含むDTP(Desktop Publishing)処理を行うためのDTP端末18と、DTP端末18により処理されたコンテンツデータを面付けする面付け装置20(データ処理装置)と、面付け装置20により面付けされた出力用データに基づいてラスタライズ処理や色変換処理等の各画像処理を実行するRIP装置22と、RIP装置22から送信された校正用データに基づいてプルーフ24を印刷可能である校正機26と、RIP装置22から送信された製版用データに基づいて刷版28を作製するプレートセッタ30と、刷版28を装着して印刷物32を形成可能であるオフセット印刷機34と、が設けられている。
サーバ装置16は、印刷物生産システム10におけるワークフロー管理の中核をなす装置である。サーバ装置16は、ルータ14及びネットワーク12を介して、デザイナ及び/又は制作会社(いずれも図示しない)が備える各端末装置に通信可能に接続されている。また、サーバ装置16は、印刷物生産システム10内に構築されたLAN(Local Area Network)36を介して、DTP端末18、面付け装置20及びRIP装置22に通信可能に接続されている。
すなわち、サーバ装置16は、各種データファイルの格納・転送を司るファイルサーバとしての機能、各端末装置、各ユーザ、又は各印刷ジョブにおいて実行可能なタスク権限を管理する権限管理サーバとしての機能、又は、各工程の開始・終了等の所定のタイミングで通知メールを生成・配信するメールサーバとしての機能をそれぞれ実行可能に構成されている。
なお、ファイルサーバとして管理可能な各種データファイルには、例えば、コンテンツデータ、印刷用データ(例えば、製版用データ、刷版用データ、又は校正用データ)、ジョブチケット{例えば、JDF(Job Definition Format)ファイル}、ICC(International Color Consortium)プロファイル、色見本データ等が含まれる。
DTP端末18は、文字、図形、絵柄や写真等から構成されるコンテンツデータに対してプリフライト処理を施した後、ページ単位の画像データを作成する。面付け装置20は、ジョブチケットのタグ情報を参照しながら、指定された綴じ方法や紙折り方法に応じた面付け処理を行う。
RIP装置22は、少なくとも1種の印刷機に対する印刷処理サーバとして機能する。図1例では、RIP装置22は、校正機26と、プレートセッタ30とに通信可能に接続されている。この場合、RIP装置22は、ページ記述言語で記述されたPDL形式のデータ(以下、ページデータDpともいう)を各出力デバイスに適した出力用データに変換し、該出力用データを校正機26又はプレートセッタ30に供給する。
校正機26は、RIP装置22から供給された校正用データに基づいて、校正用紙38(印刷媒体)上に画像が形成されたプルーフ24を出力する。校正機26として、DDCP(Direct Digital Color Proofing)、インクジェットカラープルーファ、低解像度のカラーレーザプリンタ(電子写真方式)又はインクジェットプリンタ等を用いてもよい。
オフセット印刷機34は、刷版28及び図示しない中間転写体を介して、インキを印刷用紙40(印刷媒体)の片面又は両面に付着させることで、印刷用紙40上に画像が形成された印刷物32を出力する。なお、オフセット印刷機34に代替して、ダイレクト印刷のためのデジタル印刷機を設けてもよい。デジタル印刷機としては、インクジェット印刷機、ワイドフォーマット印刷機、インクジェットカラープルーファ、カラーレーザプリンタ等を用いてもよい。
[面付け装置20の電気的なブロック図]
図2は、図1に示す面付け装置20の電気的なブロック図である。面付け装置20は、基本的には、制御部50と、通信I/F52と、表示制御部54と、表示部56と、入力部58と、メモリ60(記憶媒体)とを備えるコンピュータである。
通信I/F52は、外部装置からの電気信号を送受信するインターフェース(I/F)である。これにより、面付け装置20は、各種データ(例えば、入稿ファイル62)をサーバ装置16(図1)から取得可能であり、各種データ(例えば、面付けデータ64)をサーバ装置16に供給可能である。
表示制御部54は、制御部50の制御に従って、表示部56を駆動制御する制御回路である。表示制御部54が、図示しないI/Fを介して、表示制御信号を表示部56に出力することで、表示部56が駆動する。これにより、表示部56は、ウィンドウW(図4、図10)を含む各種画像を表示することができる。
メモリ60は、制御部50が各構成要素を制御するのに必要なプログラム及びデータ等を記憶している。本図例では、PDF形式の入稿ファイル62及びJDF形式の面付けデータ64がそれぞれ格納されている。
メモリ60は、非一過性であり、且つ、コンピュータ読み取り可能な記憶媒体で構成されてもよい。ここで、コンピュータ読み取り可能な記憶媒体は、光磁気ディスク、ROM、CD−ROM、フラッシュメモリ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、この記憶媒体は、プログラムを短時間に且つ動的に保持するものであっても、一定時間保持するものであってもよい。
制御部50は、CPU(Central Processing Unit)等のプロセッサによって構成されている。制御部50は、メモリ60に格納されたプログラムを読み出し実行することで、面付け処理部66、表示用データ作成部68、及びラスタライズ処理部70の各機能を実現可能である。
面付け処理部66は、予め取得した入稿ファイル62を解析することで、複数のページデータDp(図5)の配列順番を含む面付けデータ64を作成する。具体的には、面付け処理部66は、複数のページデータDpを取得するページ取得部72、後述するテキスト記述オペレータ(或いは、単にオペレータ)を抽出するオペレータ抽出部74、テキスト記述オペレータを分類するオペレータ分類部76、各ページデータDpの配列順番を決定するページ順番決定部78、及び、面付けデータ64を作成する面付けデータ作成部80を備える。
表示用データ作成部68は、編集画面100(図4等)の表示用データを作成する画面作成部82、及び、ページ配列画像118(同図)の表示用データを作成する画像作成部84を備える。この表示用データは、応用ソフトウェアを介して作成された画像データであってもよいし、基本ソフトウェアが提供するAPI(Application Programming Interface)機能を利用するための各種パラメータであってもよい。
ラスタライズ処理部70は、面付け処理済みのページデータに対してラスタライズ処理を実行する。このラスタライズ処理には、PDL形式からラスタ形式に変換するデータ形式変換処理と、ICCプロファイルを用いたカラーマッチング処理とが含まれる。
入力部58は、マウス、トラックボール、キーボード、タッチセンサ等の種々の入力デバイスで構成される。表示部56による表示機能及び入力部58による入力機能を組み合わせることで、グラフィカル・ユーザ・インターフェース(GUI)を実現する。
[面付け装置20の動作]
この実施形態に係る面付け装置20は、以上のように構成される。続いて、図1及び図2に示す面付け装置20の動作について、図3のフローチャートを主に参照しながら詳細に説明する。
この動作に先立ち、制作会社等に属する1人又は複数のデザイナは、印刷物32のコンテンツを創作した後、データファイルとして電子的に送信する。これにより、サーバ装置16は、ネットワーク12、ルータ14及びLAN36を介して、入稿ファイル62を受信しデータベースに蓄積する。ここで、DTP端末18は、作業者による操作に応じて、コンテンツデータに所望のDTP処理を施すことで、複数の入稿ファイル62をページ単位で編集してもよい。
そして、サーバ装置16は、保存している入稿ファイル62を、面付け装置20を含む要求先に向けて送信可能に構成されている。この場合、面付け装置20は、LAN36、通信I/F52を介して入稿ファイル62を受信した後、メモリ60に一時的に格納する。
図3のステップS1において、面付け装置20は、印刷ジョブの編集に供される編集画面100の表示を行う。編集作業を開始する旨の指示に応じて、画面作成部82は、編集画面100の表示用データを作成した後、該表示用データを表示制御部54に供給する。そして、表示制御部54は、ウィンドウW(編集画面100を含む)を表示部56に表示させる。
図4に示すように、編集画面100上には、第1設定欄102、第2設定欄104、第3設定欄106、第4設定欄108、及び[中止][保存]と表記されたボタン群110が配置されている。ユーザとしての作業者は、入力部58(図2)を操作させながら各設定欄を介して種々の設定を行うことができる。
第1設定欄102の上部には、[追加]と表記されたボタン112が配されている。[追加]ボタン112のクリック操作をトリガとして、面付け対象であるデータファイルを追加可能である。本図例では、上から順に、「Train.pdf」、「Bus.pdf」、「Giraffe.pdf」からなるファイル名が付与された3つのアイコン114が表示されている。すなわち、この順番に従って、入稿ファイル62(図2)の選択・追加がなされたことを想定する。
第2設定欄104の上部には、[追加]及び[ソート]と表記されたボタン116、117が配されている。[追加]ボタン116のクリック操作をトリガとして、読み出し対象のページを追加可能である。本図例では、複数のサムネイルで構成されるページ配列画像118の一部、より詳細には、第1〜第4ページ目のサムネイル(全部分又は一部分)が表示されている。
第3設定欄106の上部には、[追加]と表記されたボタン120が配されている。[追加]ボタン120のクリック操作をトリガとして、ジョブ構造のセクションを追加可能である。階層メニュー122には、全てのページ(本図例では6ページ分)が同一の階層レベルに表示されている。
第4設定欄108には、1つのプルダウンメニュー124、[検索][新規作成][編集]と表記されたボタン群126、及び、両面のテンプレート画像128(表面画像130及び裏面画像132)が配されている。本図例では、テンプレート画像128は、名称が「Custom Template」である2面付け・両面印刷の形態を模式的に表現している。そして、プルダウンメニュー124の変更操作に追従して、テンプレート画像128の形態が更新される。
ステップS2において、面付け処理部66は、設定保存の指示を受け付けたか否かを判定する。より詳細には、面付け処理部66は、ボタン群110(特に[保存]ボタン)のクリック操作があったか否かを判定する。このクリック操作がなかった場合(ステップS2:NO)、次のステップ(S3)に進む。
ステップS3において、面付け処理部66は、自動配列の指示を受け付けたか否かを判定する。ここで、「自動配列」とは、複数のページデータDpにおけるノンブル146の存否及び内容を解析し、各ページデータDpの配列順番を決定する手法である。
図5は、配列対象である複数のページデータDpの描画内容を示す模式図である。本図例では、ページサイズが共通する6つのページデータDp、より詳細には、子供向け図鑑のコンテンツである電車、バス、キリン、自動車、犬、及びダチョウをそれぞれ示す。
最も左側にあるページデータDpについて詳述する。ページ領域140の中央部には電車を模式的に示すイラスト142が、左上側には「でんしゃ」からなる見出し144がそれぞれ配置されている。また、ページ領域140の左下側にはノンブル146が配置されているので、作業者は、ノンブル146を視認することで、このページデータDpが「第2ページ」に対応することを把握できる。
1人のデザイナが単独で全ページを担当する場合、通常、全ページ分のコンテンツデータが正しい順番に配列された状態下に1つの入稿ファイル62が提供される。一方、複数のデザイナが全ページを分担する場合、ページ順番とは無関係に複数の入稿ファイル62が適時に提供される。
第2設定欄104(図4)において、1つの入稿ファイル62につき1ページ分のコンテンツデータが含まれる場合を想定する。例えば、「Train.pdf」、「Bus.pdf」、「Giraffe.pdf」、「Car.pdf」、「Dog.pdf」及び「Ostrich.pdf」の順に選択されたとき、ノンブル146の内容が「2」、「4」、「7」、「1」、「6」及び「8」の順番になっている(図5参照)。
このように、複数の入稿ファイル62に関して、ページ番号とは無関係の順番で取得されることや、ページ番号とは無関係のファイル名が付与されることがある。作業者は、入稿ファイル62を1つずつ開いた上で、ノンブル146の内容をページ毎に閲覧・確認しなければならず、作業の煩に堪えない。そこで、後に詳述する「自動配列」機能を実行することで、作業者による手間が大幅に省けるため便宜である。
面付け処理部66は、より詳細には、「ソート」ボタン117(図4)のクリック操作があったか否かを判定する(ステップS3)。このクリック操作がなかった場合(ステップS3:NO)にはステップS1に戻って、以下ステップS1〜S3を順次繰り返す。一方、この操作があった場合(ステップS3:YES)、次のステップ(S4)に進む。
ステップS4において、ページ取得部72は、1つ又は2つ以上の入稿ファイル62をメモリ60から読み出し、配列対象である複数のページデータDp(図5例では、6つ)を取得する。ここでは、少なくとも2つの入稿ファイル62から複数のページデータDpを取得する場合を想定する。
ステップS5において、オペレータ抽出部74は、ステップS4で取得された各ページデータDpの中から、1つ又は2つ以上の記述子からなり、テキスト形式で記述するオペレータ(以下、「テキスト記述オペレータ」、単に「オペレータ」ともいう)を抽出する。
図6Aは、テキスト記述オペレータの抽出方法に関する概略説明図である。本図に示すように、ページ領域140の左下隅を原点O(0,0)とし、その短手方向をx軸(単位:mm)とし、その長手方向をy軸(単位:mm)として定義する。この場合、A4判サイズのページ領域140は、一辺(x軸方向)の長さが210mm、他辺(y軸方向)の長さが297mmである矩形状の領域に相当する。
その結果、図6Bに示すように、「Train.pdf」が示すページデータDpの中から3つのオペレータが抽出される。各オペレータの変数には、フォント情報、位置情報(任意の座標系での位置)及びテキスト内容が含まれる。ここで、「フォント情報」とは、文字のフォントを特定する情報であり、例えば、フォント名、フォントサイズ、装飾情報(太字、斜体、下線等)が含まれる。
上から1番目のオペレータは、フォント名が「フォントA」、フォントサイズが「20」(単位はポイント)、位置が(10,10)(単位はmm)、及びテキスト内容が「2」である文字列148を記述する。上から2番目のオペレータは、フォント名が「フォントB」、フォントサイズが「40」、位置が(25,260)、及びテキスト内容が「でんしゃ」である文字列149を記述する。上から3番目のオペレータは、フォント名が「フォントC」、フォントサイズが「24」、位置が(50,160)、及びテキスト内容が「choo−choo」である文字列150を記述する。
以下同様にして、オペレータ抽出部74は、残りすべてのページデータDpの中からオペレータを順次抽出する。そして、抽出された各オペレータをページデータDpと対応付けて一時的に記憶しておく。
ステップS6において、オペレータ分類部76は、ステップS5で抽出された各オペレータを解析・分類することで、所定の記述条件を満たす「特定オペレータ」を得る。ここで、所定の記述条件とは、文字列148〜150の位置情報、フォント情報等に関する条件をいう。
例えば、ノンブル146はその性質上、ページの辺縁領域に位置することが知られている。そこで、分類に先立ち、オペレータ分類部76は、ノンブル146の位置的特徴を考慮することで、ノンブル146に該当し得ないオペレータを予め除外してもよい。
図6Aに戻って、破線状の矩形は、オペレータの除外可否を判定するための境界枠152に相当する。境界枠152に囲まれる領域は、ページ領域140における一辺(x軸方向)の15〜85%、他辺(y軸方向)の15〜85%に相当する。オペレータ分類部76は、位置(x,y)が境界枠152の外側(ページの辺縁領域)に属するオペレータを残し、境界枠152の内側に属するオペレータを除外する。本図例では、文字列148〜150のうち、文字列150を記述するオペレータのみが除外される。
その結果、図7に示すように、6つのページデータDpの中から12個のテキスト記述オペレータが抽出される。なお、本図は、ページデータ情報及びオペレータの変数(図6B参照)を並べた一覧表に相当する。なお、ページデータ情報とは、ページデータDpを特定可能な情報であり、例えば、ファイル名や、各データファイルに固有のページ番号である。
その後、オペレータ分類部76は、12個のオペレータのうち、次の4つの判別条件を同時に満たすオペレータを「特定オペレータ」として分類する。以下、判別条件の具体例について説明する。
[1]第1条件として、オペレータ分類部76は、テキスト内容の中に序列を示す文字(以下、「特定文字」という)が含まれるか否かを判別する。「2」は特定文字であるため、文字列148を記述するオペレータは第1条件を満たす。一方、「でんしゃ」には特定文字が含まれないため、文字列149を記述するオペレータは第1条件を満たさない。
[2]第2条件として、オペレータ分類部76は、複数のページデータDpにわたって特定文字の重複がないか否かを判別する。図7例では、テキスト内容が「2」、「4」、「7」、「1」、「6」及び「8」であり、重複しないオペレータが6つ存在する。
なお、特定文字は1文字に限られず、「16」「128」のように複数文字で構成される場合もある。また、テキスト内容がすべて算用数字で構成される場合のみならず、種々の文字の組み合わせで構成される場合もある。
図8は、特定文字が含まれるテキスト内容を例示する概略説明図である。第1例では、「−1−」のように、ページ番号の前後にハイフン「−」が配置されている。第2例では、「(1)」等のように、ページ番号が括弧「(」「)」で囲まれている。第3例では、「1/8」等のように、ページ番号の後にページの総数を示す「/8」が付加されている。第4例では、「1−1」等のように、ページ番号の前に章番号を示す「1−」が付加されている。第5例では、「i」等のように、算用数字の代わりにローマ数字が使用されている。
ところが、第3例及び第4例の場合、テキスト内容には、本来のページ番号のみならず、ページ番号を示さない数字(前者は「8」、後者は「1」)も含まれている。この数字をページ番号として誤って検出することで、ページデータDpの配列処理が失敗する懸念がある。
そこで、オペレータ分類部76は、1つの文字列のうち離れた位置に複数の特定文字(以下、特定文字候補)が存在する場合、複数のページデータDpにわたる文字の一致度を計算することで、複数の特定文字候補の中から1つを決定してもよい。第3例では、「1/8」の1文字目(1〜8)及び3文字目(いずれも8)に関する文字の一致度を計算し、該一致度が最も低い文字(1文字目)を選択すればよい。
[3]第3条件として、オペレータ分類部76は、複数のページデータDpにわたってフォント名及びフォントサイズが一致するオペレータが複数存在するか否かを判別する。図7例では、フォント名が「フォントA」、フォントサイズが「20」であるオペレータが6つ存在する。また、フォント名が「フォントB」、フォントサイズが「40」であるオペレータが3つ存在する。また、フォント名が「フォントC」、フォントサイズが「40」であるオペレータが3つ存在する。
[4]第4条件として、オペレータ分類部76は、複数のページデータDpにわたって位置情報が一致又は対応するオペレータが複数存在するか否かを判別する。ここで、「位置情報の一致」とは、両方の位置が等しい場合のみならず、両者の距離が許容誤差(例えば、10mm)よりも小さい場合であってもよい。また、「位置情報の対応」とは、両者が所定の位置関係(例えば、中心軸に対する対称性)を満たすことを意味する。
図7例では、位置(30,260)が一致するオペレータが6つ存在する。また、位置(10,10)が一致するオペレータが4つ存在する。また、位置(200,10)が一致するオペレータが2つ存在する。また、位置(10,10)及び(200,10)が対応するオペレータが6つ存在する。なお、両者の位置は、ページ領域140の中心軸(x=105)に対して対称である。
このように、オペレータ分類部76は、第1〜第4条件をすべて満たすオペレータが存在する場合、特定オペレータとして分類する。図7例では、特定オペレータとして、テキスト内容がそれぞれ「2」、「4」、「7」、「1」、「6」及び「8」である6つのオペレータが得られる。
なお、判別条件は上記した例に限られず、ノンブル146の書式に関する共通性を適切に判別可能であれば、その種類又は個数を問わない。例えば、配列対象のページデータDpのうち所定の割合(100%を含む)で特定オペレータが含まれる場合を含めてもよい。
図3のステップS7において、ページ順番決定部78は、ステップS6で分類された特定オペレータを含む2つ以上のページデータDpの配列順番を、特定文字により示される序列に従って決定する。ここでは、ページ順番決定部78は、6つのページデータDpをページ番号の昇順に配列することを想定する。
図9は、ページデータDpの配列結果を示す模式図である。「ノンブル1」には、「Car.pdf」の「第1ページ」に対応するページデータDp(図5における左側から4番目)が配列される。「ノンブル2」には、「Train.pdf」の「第1ページ」に対応するページデータDp(同じく左側から1番目)が配列される。「ノンブル4」には、「Bus.pdf」の「第1ページ」に対応するページデータDp(同じく左側から2番目)が配列される。
「ノンブル6」には、「Dog.pdf」の「第1ページ」に対応するページデータDp(同じく左側から5番目)が配列される。「ノンブル7」には、「Giraffe.pdf」の「第1ページ」に対応するページデータDp(同じく左側から3番目)が配列される。「ノンブル8」には、「Ostrich.pdf」の「第1ページ」に対応するページデータDp(同じく左側から6番目)が配列される。
なお、「ノンブル3」及び「ノンブル5」には、テキスト内容が「3」「5」に相当するページデータDpが存在しないため、「該当なし」(欠番)が設定されている。このように構成することで、ページデータDpを複数回にわたって追加・配列する場合、既に配列されたページデータDpの順番を更新する必要がなく、作業上便宜である。
ステップS7が終了した後、ステップS1に戻って、面付け装置20は、編集画面100の表示内容を更新する。表示に先立ち、画像作成部84は、ページ順番決定部78による決定結果を示すページ配列画像118を作成する。そして、画面作成部82は、ページ配列画像118を含む編集画面100の表示用データを作成した後、該表示用データを表示制御部54に供給する。そして、表示制御部54は、ウィンドウWを表示部56に表示させる。
図10に示すように、編集画面100上の第2設定欄104には、図4と異なる形態のページ配列画像118が新たに表示されている。ページ配列画像118として、上から順に、第1ページ目に「自動車」のサムネイル、第2ページ目に「電車」のサムネイル、第3ページ目に「NONE」のサムネイル、第4ページ目に「バス」のサムネイル(一部)が配置されている。
また、編集画面100上の第3設定欄106には、図4と異なる形態の階層メニュー122が新たに表示されている。階層メニュー122には、元の6ページに余白の2ページを追加した8ページが同一の階層レベルに表示されている。
図3のステップS2に戻って、面付け処理部66は、図4又は図10のボタン群110(特に[保存]ボタン)のクリック操作があった場合、次のステップ(S8)に進む。
ステップS8において、面付けデータ作成部80は、ステップS1〜S7を経て確定された面付け情報である面付けデータ64を作成する。面付けデータ作成部80は、ノンブル146とページデータDpの対応付け情報(第2設定欄104での設定内容)を含む面付けデータ64を作成する。或いは、面付けデータ作成部80は、上記した対応付け情報に関する目次又は索引を示すページデータDpを、面付けデータ64の一部として新たに作成・追加してもよい。
その後、面付けデータ作成部80は、面付けデータ64をメモリ60に格納・保存させる。その後、面付け装置20は、サーバ装置16に保管させるため、面付けデータ64を通信I/F52を介して外部に送出してもよい。
[この実施形態による効果]
この実施形態に係る面付け装置20は、ページ記述言語を用いて表現された複数のページデータDpを取得するページ取得部72と、各ページデータDpの中から、テキスト形式で文字列148〜150を記述するオペレータを少なくとも1つずつ抽出するオペレータ抽出部74と、各オペレータを解析し、文字列148〜150の中に序列を示す特定文字が含まれ、且つ、文字列148〜150に関するフォント情報が一致するオペレータを、特定オペレータとして分類するオペレータ分類部76と、特定オペレータを含む2つ以上のページデータDpの配列順番を、特定文字により示される序列に従って決定するページ順番決定部78を備える。
このように構成したので、フォント情報そのものを用いてノンブル146の書式に関する共通性を容易に且つ確実に判別可能になり、ノンブル146の存否及び内容の検出精度を向上できる。これにより、ノンブル146に使用され得るフォントの種類が膨大であっても、成功の確度がきわめて高いページ配列処理を実行できる。
[補足]
なお、この発明は、上述した実施形態に限定されるものではなく、この発明の主旨を逸脱しない範囲で自由に変更できることは勿論である。
例えば、特定文字の種類は、上記した算用数字、ローマ数字に限られず、漢数字、インド数字、アルファベット等の序列関係を観念させる文字であればよい。
10…印刷物生産システム 16…サーバ装置
18…DTP端末 20…面付け装置
22…RIP装置 24…プルーフ
26…校正機 32…印刷物
34…オフセット印刷機 40…印刷用紙
50…制御部 56…表示部
58…入力部 60…メモリ
62…入稿ファイル 64…面付けデータ
66…面付け処理部 72…ページ取得部
74…オペレータ抽出部 76…オペレータ分類部
78…ページ順番決定部 80…面付けデータ作成部
100…編集画面 118…ページ配列画像
140…ページ領域 146…ノンブル
148〜150…文字列 152…境界枠
Dp…ページデータ W…ウィンドウ

Claims (8)

  1. ページ記述言語を用いて表現された複数のページデータを取得するページ取得部と、
    前記ページ取得部より取得された各前記ページデータの中から、テキスト形式で文字列を記述するオペレータを少なくとも1つずつ抽出するオペレータ抽出部と、
    前記オペレータ抽出部により抽出された各前記オペレータを解析し、前記文字列の中に序列を示す特定文字が含まれ、且つ、前記文字列に関するフォント情報が一致する前記オペレータを、特定オペレータとして分類するオペレータ分類部と、
    前記オペレータ分類部により分類された前記特定オペレータを含む2つ以上の前記ページデータの配列順番を、前記特定文字により示される前記序列に従って決定するページ順番決定部と
    を備え
    前記オペレータ分類部は、更に、前記文字列の中で複数の特定文字候補が離れた位置に存在する場合に、各前記ページデータにわたる文字の一致度を計算することにより、各前記特定文字候補の中から、一致度が最も低い文字を前記特定文字として選択することを特徴とするデータ処理装置。
  2. 請求項1記載のデータ処理装置において、
    前記オペレータ分類部は、更に、前記文字列の位置情報が一致又は対応する前記オペレータを分類することを特徴とするデータ処理装置。
  3. 請求項2記載のデータ処理装置において、
    前記オペレータ分類部は、更に、前記位置情報により特定される前記文字列の位置が、前記ページデータが表すページの辺縁領域に属する前記オペレータを分類することを特徴とするデータ処理装置。
  4. 請求項1〜3のいずれか1項に記載のデータ処理装置において、
    前記オペレータ分類部は、前記フォント情報としてのフォント名及びフォントサイズが一致する前記オペレータを分類することを特徴とするデータ処理装置。
  5. 請求項1〜4のいずれか1項に記載のデータ処理装置において、
    前記ページ順番決定部による決定結果を示すページ配列画像を作成する画像作成部を更に備えることを特徴とするデータ処理装置。
  6. 請求項1〜5のいずれか1項に記載のデータ処理装置において、
    前記ページ取得部は、少なくとも2つのデータファイルから複数の前記ページデータを取得することを特徴とするデータ処理装置。
  7. ページ記述言語を用いて表現された複数のページデータを取得する取得ステップと、
    取得された各前記ページデータの中から、テキスト形式で文字列を記述するオペレータを少なくとも1つずつ抽出する抽出ステップと、
    抽出された各前記オペレータを解析し、前記文字列の中に序列を示す特定文字が含まれ、且つ、前記文字列に関するフォント情報が一致する前記オペレータを、特定オペレータとして分類する分類ステップと、
    分類された前記特定オペレータを含む2つ以上の前記ページデータの配列順番を、前記特定文字により示される前記序列に従って決定する決定ステップと
    をコンピュータに実行させ
    前記分類ステップでは、更に、前記文字列の中で複数の特定文字候補が離れた位置に存在する場合に、各前記ページデータにわたる文字の一致度を計算することにより、各前記特定文字候補の中から、一致度が最も低い文字を前記特定文字として選択することを特徴とするデータ処理方法。
  8. ページ記述言語を用いて表現された複数のページデータを取得する取得ステップと、
    取得された各前記ページデータの中から、テキスト形式で文字列を記述するオペレータを少なくとも1つずつ抽出する抽出ステップと、
    抽出された各前記オペレータを解析し、前記文字列の中に序列を示す特定文字が含まれ、且つ、前記文字列に関するフォント情報が一致する前記オペレータを、特定オペレータとして分類する分類ステップと、
    分類された前記特定オペレータを含む2つ以上の前記ページデータの配列順番を、前記特定文字により示される前記序列に従って決定する決定ステップと
    をコンピュータに実行させ
    前記分類ステップでは、更に、前記文字列の中で複数の特定文字候補が離れた位置に存在する場合に、各前記ページデータにわたる文字の一致度を計算することにより、各前記特定文字候補の中から、一致度が最も低い文字を前記特定文字として選択することを特徴とするデータ処理プログラム。
JP2014013114A 2014-01-28 2014-01-28 データ処理装置、方法及びプログラム Expired - Fee Related JP5938425B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014013114A JP5938425B2 (ja) 2014-01-28 2014-01-28 データ処理装置、方法及びプログラム
US14/606,095 US9367525B2 (en) 2014-01-28 2015-01-27 Data processing apparatus for page ordering, data processing method, and nontransitory storage medium for same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014013114A JP5938425B2 (ja) 2014-01-28 2014-01-28 データ処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015141495A JP2015141495A (ja) 2015-08-03
JP5938425B2 true JP5938425B2 (ja) 2016-06-22

Family

ID=53679097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014013114A Expired - Fee Related JP5938425B2 (ja) 2014-01-28 2014-01-28 データ処理装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US9367525B2 (ja)
JP (1) JP5938425B2 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296311A (ja) 2002-03-29 2003-10-17 Nec Corp ノンブル情報生成システム及びプログラム
JP2004274279A (ja) 2003-03-06 2004-09-30 Ricoh Co Ltd 画像形成システム
US7710590B2 (en) * 2006-09-26 2010-05-04 Xerox Corporation Automatic maintenance of page attribute information in a workflow system
US7797622B2 (en) 2006-11-15 2010-09-14 Xerox Corporation Versatile page number detector
US20080298635A1 (en) * 2007-05-29 2008-12-04 West William M Method for identifying images using fixtureless tracking and system for performing same
JP4780169B2 (ja) 2008-09-30 2011-09-28 ブラザー工業株式会社 データ生成装置、スキャナ、及びコンピュータプログラム
JP5606712B2 (ja) * 2009-09-25 2014-10-15 大日本スクリーン製造株式会社 面付け情報生成装置およびプログラム
JP2011138378A (ja) * 2009-12-28 2011-07-14 Canon It Solutions Inc 情報処理装置、およびその制御方法、プログラムおよび記録媒体。
JP5867108B2 (ja) * 2011-02-01 2016-02-24 株式会社リコー 印刷制御プログラム、印刷制御装置、印刷制御方法及び印刷システム

Also Published As

Publication number Publication date
US9367525B2 (en) 2016-06-14
US20150212777A1 (en) 2015-07-30
JP2015141495A (ja) 2015-08-03

Similar Documents

Publication Publication Date Title
US9641705B2 (en) Image forming apparatus for reading indicia on a sheet and inserting images on a subsequent printed sheet at a location corresponding to the location of the read indicia
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US20150235111A1 (en) Information processing apparatus, information processing method, and recording medium
JP5591866B2 (ja) データ作成装置、方法及びプログラム
US8773677B2 (en) Information processing apparatus, PDL data conversion method, and storage medium
JP7022305B2 (ja) 制御プログラム及び、情報処理装置
JP2008181174A (ja) 特許出願又は実用新案登録出願の図面原稿の作成方法
US20110157634A1 (en) Printing process device, printing process method, and computer readable storage medium storing printing process program
JP5938425B2 (ja) データ処理装置、方法及びプログラム
JP5802706B2 (ja) データ作成装置、方法及びプログラム
US10839206B2 (en) Information processing device and method performing character recognition on document image data masked or not based on text image count
US10936893B2 (en) Information processing device and method for document image extraction, composite image generation, and OCR processing including display of reading resolution instructions based on character density
JP6205973B2 (ja) 変更履歴出力装置、プログラム
EP2813364B1 (en) Calibration data generation apparatus, method, and program
JP2006119712A (ja) 情報管理端末装置、情報管理プログラム及び電子ペン用帳票
CN102737372A (zh) 校对装置、校对方法和记录介质
JP7200530B2 (ja) 情報処理装置および情報処理プログラム
US8908227B2 (en) Image forming apparatus, image forming system, image data processing method, program, and storage medium
JP5940512B2 (ja) 面付け装置、方法及びプログラム
JP5935376B2 (ja) 複写装置
JP6515893B2 (ja) 画像形成装置、プログラム及び情報処理システム
JP5694135B2 (ja) 画像編集装置、画像編集方法、プログラム及び印刷物生産システム
JP2019175235A (ja) 制御プログラム及びプログラム群
JP2016184359A (ja) 文字認識装置、文字認識処理システム、およびプログラム
JP2015022425A (ja) 画像処理装置および画像処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160516

R150 Certificate of patent or registration of utility model

Ref document number: 5938425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees