JP2013257659A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2013257659A
JP2013257659A JP2012132278A JP2012132278A JP2013257659A JP 2013257659 A JP2013257659 A JP 2013257659A JP 2012132278 A JP2012132278 A JP 2012132278A JP 2012132278 A JP2012132278 A JP 2012132278A JP 2013257659 A JP2013257659 A JP 2013257659A
Authority
JP
Japan
Prior art keywords
image
data
text
objects
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012132278A
Other languages
English (en)
Inventor
Mikio Takasugi
幹生 高杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NIKKEI BUSINESS PUBLICATIONS Inc
Original Assignee
NIKKEI BUSINESS PUBLICATIONS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NIKKEI BUSINESS PUBLICATIONS Inc filed Critical NIKKEI BUSINESS PUBLICATIONS Inc
Priority to JP2012132278A priority Critical patent/JP2013257659A/ja
Publication of JP2013257659A publication Critical patent/JP2013257659A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】印刷用の文書データから画像データを好適に出力することのできる情報処理装置、情報処理方法、及びプログラムを提供する。
【解決手段】1以上のテキストオブジェクト及び1以上の画像オブジェクトを含む文書データから、少なくとも一部の前記画像オブジェクトを抽出するデータ抽出部205と、抽出された画像オブジェクトを、当該画像オブジェクトとは異なるフォーマットの画像データとして出力すると共に、少なくとも一部のテキストオブジェクトに含まれるテキスト情報と、画像データへの参照情報とを含むテキストデータを出力するデータ出力部207とを備える。
【選択図】図3

Description

本発明に係るいくつかの態様は、情報処理装置、情報処理方法、及びプログラムに関する。
近年、DTP(Desktop Publishing)ソフト等を用いて印刷用のドキュメント(文書)が作成されることが多くなってきている。
ここで、例えば特許文献1には、DTPソフト等を用いて作成された印刷用のドキュメントなどのようにオブジェクトの配置が複雑なドキュメントではオブジェクトの閲覧順とオブジェクトリスト順とが一致していない場合があること、及びそのような場合に閲覧順にオブジェクトが並んでいる新たなドキュメントを生成する装置、等が開示されている。
特開2011−186754号公報
印刷用の最終文書は、通常、複数の記事を含んでいる。更に、それらの記事は、それぞれテキストデータや画像等、各種の情報を含んでいる。近年、例えば雑誌に掲載された情報(記事)をWeb上で公開することが多くなっている等、記事に含まれる情報の再利用が進んでいることから、印刷用の文書をソフトウェア上で作成するだけでなく、この文書データから、意味ある形で情報を抽出してデジタル管理することが求められている。
この点、特許文献1に開示されているのは、元のドキュメントに対して、配置のみを変えたドキュメントを生成する装置である。つまり、文書データからの、意味を構成する単位での情報抽出(たとえば文書データの少なくとも一部に係る記事データの抽出)等については、引用文献1では何ら考慮されていない。
特に近年、いわゆるスマートフォンと呼ばれる携帯電話が普及しつつある。このようなスマートフォンで記事を表示する際には、解像度に応じた見せ方をするため、記事をHTML5(HyperText Markup Language 5)等の形式に変換する必要がある。しかしながらHTML5とDTPソフトとでは画像の管理方法が異なるため、HTML5上で適切に画像を表示させるためには、適切に画像データを変換する必要がある。
本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、印刷用の文書データから画像データを好適に出力することのできる情報処理装置、情報処理方法、及びプログラムを提供することを目的の1つとする。
本発明に係る情報処理装置は、1以上のテキストオブジェクト及び1以上の画像オブジェクトを含む文書データから、少なくとも一部の前記画像オブジェクトを抽出する抽出手段と、抽出された前記画像オブジェクトを、当該画像オブジェクトとは異なるフォーマットの画像データとして出力する第1の出力手段と、少なくとも一部の前記テキストオブジェクトに含まれるテキスト情報と、前記画像データへの参照情報とを含むテキストデータを出力する第2の出力手段とを備える。
本発明に係る情報処理方法は、1以上のテキストオブジェクト及び1以上の画像オブジェクトを含む文書データから、少なくとも一部の前記画像オブジェクトを抽出するステップと、抽出された前記画像オブジェクトを、当該画像オブジェクトとは異なるフォーマットの画像データとして出力するステップと、少なくとも一部の前記テキストオブジェクトに含まれるテキスト情報と、前記画像データへの参照情報とを含むテキストデータを出力するステップとを情報処理装置が実行する。
本発明に係るプログラムは、1以上のテキストオブジェクト及び1以上の画像オブジェクトを含む文書データから、少なくとも一部の前記画像オブジェクトを抽出するステップと、抽出された前記画像オブジェクトを、当該画像オブジェクトとは異なるフォーマットの画像データとして出力するステップと、少なくとも一部の前記テキストオブジェクトに含まれるテキスト情報と、前記画像データへの参照情報とを含むテキストデータを出力するステップとを情報処理装置に実行させる。
なお、本発明において、「部」や「手段」とは、単に物理的手段を意味するものではなく、その「部」や「手段」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」の機能が1つの物理的手段や装置により実現されても良い。
本発明によれば、印刷用の文書データから画像データを好適に出力することのできる情報処理装置、情報処理方法、及びプログラムを提供することができる。
本発明の実施形態における情報処理装置の概略機能を説明するための図である。 本発明の実施形態における情報処理装置の画像にかかる出力処理を説明するための図である。 本発明の実施形態における情報処理装置の概略構成を示す機能ブロック図である。 図3に示した情報処理装置が表示可能なウィンドウの具体例を示す図である。 図3に示した情報処理装置が表示可能なウィンドウの具体例を示す図である。 図3に示した情報処理装置の処理の流れを示すフローチャートである。
以下に本発明の実施形態を説明する。以下の説明及び参照する図面の記載において、同一又は類似の構成には、それぞれ同一又は類似の符号が付されている。
(実施形態)
図1乃至図6は、本発明の実施形態を説明するための図である。以下、これらの図を参照しながら実施形態を詳細に説明する。
(1 概要)
(1.1 システム概要)
図1は、本発明に係る実施形態の情報処理装置の概略機能を説明するための図である。図1に係る情報処理装置10には、DTP(Desktop Publishing)ソフトウェア100と、データ抽出プラグイン200とがインストールされる。
DTPソフトウェア100は、例えば書籍や雑誌、新聞等の文書データに関し、テキストや図表などを割り付けることのできるソフトウェアである。ユーザは、DTPソフトウェア100が描画するウィンドウ110上で文書データの印刷レイアウトを確認しながら、割付などの各種編集作業を行うことができる。文書データは、テキストや図表に係るオブジェクトを含んでいるので、各オブジェクト単位で管理や編集することが可能となっている。
ここで、本実施形態のDTPソフトウェア100は、印刷用PDF/X−1a(Portable Document Format eXchange)ファイルF1を出力する機能を持っている。ユーザは当該PDF/X−1aファイルF1を印刷(文書出力)することで、WYSIWYG(What You See Is What You Get)システムを実現することができる。
また、DTPソフトウェア100は、自ソフトウェアに係るファイル形式(ファイルフォーマット)でDTPファイルF2を図示しない記憶媒体に記憶すると共に、当該DTPファイルF2を読み込む機能を有する。
このような機能を有するDTPソフトウェア100の具体例としては、アドビシステムズ社が提供するInDesign等が挙げられる。
データ抽出プラグイン200は、DTPソフトウェア100の機能を拡張するために追加されるプラグインとソフトウェアである。データ抽出プラグイン200は、DTPソフトウェア100と一体となって機能する。
データ抽出プラグイン200は、DTPソフトウェア100により作成及び編集された印刷用の文書データに含まれるテキストや図表等の各種オブジェクトに対し、各種属性(順序、使用権等の情報も含む)を設定することにより、文書を構成する記事(パーツ)毎の管理を可能としている。
またデータ抽出プラグイン200は、当該記事データをHTML(HyperText Markup Language)形式の出力ファイルF3aやPDF形式の出力ファイルF3dとしてデータベース300に出力することにより図示しない記憶媒体に記憶させる機能を有する。ここで、HTMLの形式(バージョン)はいくつか考えられるが、ここではHTML5であるものとする。出力用のファイルをHTML5化することにより、いわゆるスマートフォン等の解像度に応じた見せ方が可能となる。
ここで、HTMLで記述された出力ファイルF3a自体は、画像に係るオブジェクト(以下、画像オブジェクトという。)を含まない。そこで、HTMLで記述された出力ファイルF3aは、後述する画像に係る出力ファイルF3bを参照するためのリンク情報(参照情報)を含む。これにより、出力ファイルF3aをブラウザ上に表示されると、リンク情報により参照される画像に係る出力ファイルF3bをもブラウザ上に表示させることが可能となる。
同様にデータ抽出プラグイン200は、画像オブジェクトはJPG形式やPNG形式の出力ファイルF3bとして、表に係るオブジェクトはCSV(Comma Separated Values)形式の出力ファイルF3cとしてデータベース300に出力可能である。ここで、画像に係るオブジェクトには、イラストや写真、図の他、表をも含むものとする。
更に、データ抽出プラグイン200は、記事データに関する各種属性情報を出力ファイルF3eとしてデータベース300に出力する機能も有する。
ユーザは、データ抽出プラグイン200が提供する機能に係る操作を、DTPソフトウェア100が表示するウィンドウ110上に表示されるウィンドウ210(パレットやダイアログとも呼ぶ)に対して行う。
ここで、データベース300は、例えば記憶媒体上の特定の管理フォルダ等である。データベース300に出力された記事データ(出力ファイルF3)は、記事単位または複数の記事を纏めた電子雑誌として、インターネットを介して公開若しくは販売することが可能である。
(1.2 画像データ出力の概要)
次に、データ抽出プラグイン200が画像に係る出力ファイルF3bを出力する際の処理の概要を、図2を参照しながら説明する。図2は、DTPソフトウェア100で扱う記事データ20の具体例を示す図である。
図2の例において、記事データ20は、テキストオブジェクト21a、21b、21c及び21dと、画像オブジェクト23a、23b、及び23cとを含む。
テキストオブジェクト21a、21b、21c及び21dは、各種テキスト情報を含む。このうち、テキストオブジェクト21a、21b、21cは、例えば記事データ20で扱う記事の本文に相当する。一方、テキストオブジェクト21dは、画像オブジェクト23aの下方近傍に配置されている。つまり、テキストオブジェクト21dは、例えば画像オブジェクト23aに含まれる画像に対する説明(エトキ)である。ここで、「画像オブジェクトの近傍に配置されたテキストオブジェクト」とは、画像オブジェクトとテキストオブジェクトとが重ならない場合だけでなく、両者の少なくとも一部が重なる場合をも含む概念をいうものとする。
画像オブジェクト23a、23b、及び23cは、それぞれ写真やイラスト等の画像情報を含むオブジェクトである。ここでは、画像オブジェクト23aは写真を含むオブジェクトであるものとし、画像オブジェクト23bは、画像オブジェクト23a上の写真と少なくとも一部が重なるイラストを含むオブジェクトであるものとする。また、画像オブジェクト23cは、画像オブジェクト23aと少なくとも一部が重なる図を含むオブジェクトであるものとする。
このような記事データ20を、携帯電話やパーソナルコンピュータが有するウェブブラウザ上で表示可能としようとすると、記事データ20をHTML(本実施形態では、HTML5)の形式に変換する必要がある。HTMLファイルは、上述の通りテキストデータと画像データへの参照情報(リンク情報)を含むことができるが、画像データを含むことはできない。一方、DTPソフトウェア100が管理する画像オブジェクトは、JPGやPNG等のブラウザ上で表示可能な形式ではないことが多いので、画像オブジェクトに係る画像を、JPGやPNG、GIF等の形式で作成する必要がある。
ここで、画像データの作成手法としては、例えば以下のような手法が考えられる。まず、記事データ全体をPDFとして出力し(出力ファイルF3d)、次に、その出力ファイルF3dを所定のアプリケーションで表示させた画面のスクリーンショットをOS(Operating System)の機能で撮る。そして、画像編集アプリケーション上で、スクリーンショットで撮影した画面画像から所望の画像の画像領域を切り出した上で、当該画像領域の画像データを作成すると共に、当該画像データに名前をつける。これにより、所望の画像データを得ることができる。
しかしながら、このような作業は非常に煩雑であることから、画像データを自動で出力することが望まれる。そこで、本実施形態に係るデータ抽出プラグイン200は、画像オブジェクト23a、23b、及び23cに係る画像を出力可能としている。これにより、印刷用の文書データから、ウェブページに表示可能な画像データを好適に出力することができるようになる。
図2の例において、画像オブジェクト23bは、その領域の半分以上で画像オブジェクト23aと重なっている。この場合、視覚的には画像オブジェクト23aと画像オブジェクト23bとが1つの図面を形成しているように見えるので、データ抽出プラグイン200は、画像オブジェクト23a及び23bを1つの画像データである出力ファイルF3bとして出力する。
一方、画像オブジェクト23aと23cとは、一部の領域が重なっているものの、半分以上の領域では重なっていない。このような場合、ユーザは視覚的に画像オブジェクト23aと画像オブジェクト23cとを別々の画像として認識する可能性が高い。そこで、データ抽出プラグイン200は、画像オブジェクト23aと23cとは、それぞれ異なる2つの出力ファイルF3bとして出力する。
このように実装することで、ユーザが特に指定せずとも、好適に画像オブジェクト23に係る画像データである出力ファイルF3bを出力することが可能となる。
尚、ここでは画像オブジェクト23の重なり割合が半分以上であるかどうかを元に1つの画像データとして出力するか否かを切り替えるように説明を行ったが、これに限られるものではなく、1画像として取扱うための重なり割合は任意に設定することが可能である。また、複数の画像オブジェクト23を1つの出力ファイルF3bとして出力するか否かは、データ抽出プラグイン200が一時的に決定した上で、ユーザがその決定を変える(異なる画像データ/1つの画像データとして出力可能とする)ようにできるようにしても良い。
更に、本実施形態において、データ抽出プラグイン200は出力ファイルF3bの出力の際に、エトキであるテキストオブジェクト21dのテキストデータを出力ファイルF3bのファイル名として使用する。例えば、機械的に連番で図面のファイル名を決定すると、ユーザはどのような画像なのかを名称から把握することは困難となるが、エトキを利用することで、ユーザが画像を開かずとも、画像の内容を把握できるようになる。尚、このときデータ抽出プラグイン200は、テキストオブジェクト21dがエトキであるか否かを、当該テキストオブジェクト21dが画像オブジェクト23の近傍(例えば、画像オブジェクト23から所定の距離内若しくは位置的に重なっている)にあるかどうか等で判断することが可能である。或いは、ユーザが属性として当該テキストオブジェクト21dがエトキであることを明示的に指定しても良い。
更に、ファイル名に使用するのに好適なエトキが存在しない場合には、データ抽出プラグイン200は、ページ内(記事データ20内)の座標を元に上下左右の場所情報を判定した上で、当該場所情報に基づいてファイル名を作成する(例えば、「P76右上図版」等。)。このようにすることで、通常の連番のみでファイル名を決定する場合よりも、直感的に画像データを扱いやすくなる。
(2 データ抽出プラグイン200の概略構成及び機能)
続いて、データ抽出プラグイン200の概略構成及び機能を説明する。図3は、データ抽出プラグイン200の概略構成を示す機能ブロック図である。
データ抽出プラグイン200は、ユーザインタフェース部201と、属性設定部203と、データ抽出部205と、データ出力部207とを含む。
ユーザインタフェース部201は、図1に示したウィンドウ210(パレット)等を、図示しない表示装置の表示画面上に表示するとともに、当該ウィンドウ210等に対するユーザからの操作入力を受け付けるGUI(Graphical User Interface)に係る処理を行う。
属性設定部203は、DTPソフトウェア100で編集される文書データ自体や、文書データを構成する各オブジェクト(テキストや図、表など)に対して、後述する属性を設定する。当該属性により、記事データを構成するオブジェクトがどれかや、記事データを構成するオブジェクトの順序などを、データ抽出部205が判別できるようになる。
ここで、文書データとは、DTPソフトウェア100で作成される印刷用の文書に係るデータをいうものとする。また、記事データとは、自動及びユーザの設定(順序/属性により設定)に応じて文書データから抽出される、意味ある情報単位を言うものとする。より具体的には、例えば、記事データは文書を構成する記事(複数の記事であっても良い)に対応することが考えられる。
以下、属性設定部203で設定可能な属性の例について説明する。属性設定部203で設定される属性(順序情報とその他の情報とを区別せずに「属性」または「属性情報」と呼ぶこともある)は、例えば以下のようなものである。
<文書データに対して設定可能な属性>
1)媒体属性(媒体の名称及び略語)
2)巻号属性(巻号及び発行日)
3)コラム属性(コラム名)
4)記事属性(文書データに含まれる記事の仮見出し、使用権、図表件数、メモ等)
<オブジェクトに設定可能な属性>
1)オブジェクトのタイプ(タイトル、サブタイトル、中見出し、本文、表、その他、ノンブル、エトキ、非抽出、記事区切り、記事分割のいずれであるのか)
2)順序番号(本文抽出の順序を表す番号)
3)図表属性(図表番号、使用権、仮エトキ、メモ)
ここでオブジェクトタイプ「タイトル」のオブジェクトは、後述する本文データ抽出機能(記事データの抽出機能)でタイトルとして抽出され、また、上述の記事属性に含まれるタイトルとして使用される。
オブジェクトタイプ「サブタイトル」のオブジェクトは、後述する本文データ抽出機能でサブタイトルとして抽出され、また、上述の記事属性に含まれるサブタイトルとして使用される。
オブジェクトタイプ「中見出し」、「本文」、又は「その他」であるオブジェクトは、後述する本文データ抽出機能でそれぞれ中見出し、本文またはその他として抽出される。
オブジェクトタイプ「表」であるオブジェクトは、後述する本文データ抽出機能では抽出されず、表抽出機能によりCSV形式で抽出される。
オブジェクトタイプ「ノンブル」のオブジェクトは、後述する本文データ抽出機能では抽出されず、前述の記事属性に含まれるページ数として使用される。
オブジェクトタイプ「エトキ」のオブジェクトは、後述する本文データ抽出機能でエトキとして抽出され、また、上述の図表属性に含まれるエトキとして使用される。更に、画像オブジェクトに係る出力ファイルF3b出力の際に、当該エトキに含まれるテキストデータの少なくとも一部を、ファイル名として使用しても良い。
オブジェクトタイプ「非抽出」のオブジェクトは、データ抽出部205による抽出対象とはならない。
オブジェクトタイプが記事区切りであるオブジェクトは、オブジェクトのテキストの終わりで記事が終了し、次のオブジェクトから次の記事が始まることを示す。
オブジェクトタイプが記事分割であるオブジェクトは、オブジェクト内に複数の記事を含むことを示し、オブジェクト内の指定の文字サイズのテキスト又は段落の分離禁止指定で記事を分割する。
順序番号は、本文抽出(記事データ抽出)の順序を表す番号である。順序番号は例えば、文書データに含まれる記事毎の順番と、記事内のオブジェクトの順番とを、それぞれ上2桁と下3桁とで示す5桁の数字で表現される。
ここで、順序番号は、ページ順や座標順により一括付加することも可能であるが、それだけでは十分ではない場合が多いため、ユーザにより番号を直接入力(修正も含む)することもできる。
図3の説明に戻る。データ抽出部205は、DTPソフトウェア100が編集した印刷用の文書データから、属性設定部203で設定した属性に従って記事データを抽出する。当該記事データには、1以上の(通常は複数の)テキストや図、表のデータが含まれる。また、データ抽出部205は、テキストのデータと図のデータとを別々に抽出することも可能である。
データ出力部207は、データ抽出部205により抽出された記事データを、ユーザインタフェース部201で指定されたフォーマット(本実施形態では、HTML、CSV、及びPDF)に変換した上で、データベース300に出力ファイルF3として出力する。また、画像データについても、データ出力部207は別途単独で出力することが可能である。データ出力部207は、記事データをHTML形式で出力する際には、当該画像データを参照するリンク情報を含む形で出力する。
データ抽出部205及びデータ出力部207が有するデータ抽出機能及び出力機能には、例えば以下のようなものがある。
1)本文データ抽出機能(HTMLとして出力ファイルF3aを出力する。記事区切り、記事分割がある場合は、記事毎に出力ファイルF3aを作成。更に、当該記事内に画像オブジェクトがある場合には、当該画像オブジェクトに対応する出力ファイルF3bへの参照情報を出力ファイルF3aに含める。)
2)画像抽出機能(画像のオブジェクトを抽出するとともに、当該画像オブジェクトに係る画像データに適当なファイル名をつけた上で出力ファイルF3bとして出力する。上記「1.2」参照。)
3)表抽出機能(表属性のオブジェクトのデータを抽出するとともに、CSVの出力ファイルF3cとして出力する)
4)属性抽出機能(属性情報を出力ファイルF3eとしてデータベース300に出力する。
5)PDF作成機能(使用権に応じて、社内用/社外用のPDF形式の記事データである出力ファイルF3dを作成する。ここで、社内用の出力ファイルF3dは、文書データがそのままPDFとして出力されたものである。社外用の出力ファイルF3dは、文書データに含まれる使用権の無い記事や図表オブジェクトをブランク、若しくはダミーデータに差し替えてPDF形式で出力されたデータである)
ここで、5)のPDF作成機能では、PDF分割機能を用いることで、文書データを複数のPDF記事データに分割して出力することも可能である。
(3 データ抽出プラグイン200の機能詳細)
以下、データ抽出プラグイン200の機能を、ユーザインタフェース部201が出力するウィンドウ210と共に説明する。
(3.1 メイン機能)
図4は、データ抽出プラグイン200のメイン機能をユーザに提供するウィンドウであるメインパレット210aの例である。メインパレット210aは、DTPソフトウェア100のウィンドウメニュー上でのユーザ選択操作により表示される。
ユーザインタフェース部201は、メインパレット210aにより、ユーザに以下のような機能を提供する。
1)オブジェクトタイプの確認と設定
2)順序番号の表示及び入力(編集)
3)属性設定ダイアログ(記事属性、図表属性)の表示
4)番号付ダイアログの表示
5)抽出ダイアログの表示
6)仮抽出の実行
7)順序番号の一括表示/非表示
8)記事区切り、記事分割の設定/解除
メインパレット210aに向かって左側にある領域211aには、カレントオブジェクト(選択されているオブジェクト)に対して設定されている属性が表示される。ここで、カレントオブジェクトが連結されているテキストオブジェクトである場合には、先頭のオブジェクトの情報が領域211aに表示される。
領域211aの2行目には、カレントオブジェクトのタイプ(オブジェクトタイプ)が表示される。図4の例では、オブジェクトタイプとして「本文」となっているが、カレントオブジェクトが例えば画像オブジェクトの場合には「画像」、罫線オブジェクトの場合には「線」、順序番号の場合には「順序番号」と表示される。
領域211aの3行目には、カレントオブジェクトが本文データ抽出対象のオブジェクトタイプである場合(本実施形態では、オブジェクトタイプ「タイトル」、「サブタイトル」、「本文」等)、当該オブジェクトに設定されている順序番号が表示される。属性設定部203がオブジェクトに設定する順序番号は、ユーザ入力により変更することができる。ユーザにより新たな番号が入力されると、属性設定部203は、カレントオブジェクトに設定されている順序番号を変更する。
図4の例には図示していないが、領域211aの4行目には、付加情報が表示される。例えば、記事区切りが設定されていれば「記事区切」、記事分割が設定されていれば「記事分割」と表示される。また、カレントオブジェクトが図表オブジェクトで図表属性が設定されている場合には、図表番号が表示される。
メインパレット210aの中央の領域213aには、オブジェクトタイプを設定するためのボタンが配置される。カレントオブジェクトがテキストオブジェクトである場合には、ユーザが領域213a及び215aのいずれかにあるボタンを操作することで、オブジェクトタイプを設定することができる。
図4の例で領域215aにボタンが配置される記事区切および記事分割は、オブジェクトタイプとは別に、文書データを複数の記事に分けるための設定である。本文抽出対象のオブジェクトが設定されている場合、これらのボタンが表示される。
もし記事区切設定がされていなければ「記事区切」ボタンが表示される。もし記事区切設定がされていれば、「区切解除」ボタンが表示されると共に、領域211aの属性表示に付加情報として「記事区切」と表示される。
また、もし記事分割設定がされていなければ「記事分割」ボタンが表示される。記事分割設定がされていれば「分割解除」ボタンが表示されると共に、領域211aの属性表示に、付加情報として「記事分割」と表示される。
(3.2 データ抽出処理に係るユーザ設定)
メインパレット210a上で「抽出」ボタンが選択されると、図5に例を示すダイアログ210bが表示される。
ダイアログ210b上の「本文抽出」チェックボックスは、文書データから抽出した記事を、HTML形式の記事データである出力ファイルF3aとして出力(書き出し)するか否かを指定するためのものである。「本文抽出」チェックボックスがチェックされると、データ出力部207はHTML形式による記事データ(出力ファイルF3a)をデータベース300へ書きだす。
ここで、データ出力部207は、生成したHTML形式の各記事データ(出力ファイルF3a)について、記事単位でファイル名を定義して、文書データと同一のフォルダ内に出力する。また、データ出力部207は、当該記事データの出力時に、定義されたフォントではない外字が含まれる場合には、その文字を、予め定められた別の文字に置換する機能も有する。
ダイアログ210bの「表抽出」チェックボックスは、文書データに含まれる、表属性が設定されたオブジェクトのデータを、CSV形式の出力ファイルF3cとして書きだすか否かを指定するためのものである。データ出力部207は、各CSVデータの出力ファイルF3cのファイル名を、表単位で定義すると共に、作成したCSVデータを文書データと同一のフォルダ内に出力する。
ダイアログ210bの「画像抽出」チェックボックスは、文書データに含まれる、画像属性が設定されたオブジェクトのデータを、PNG形式の出力ファイルF3bとして書きだすか否かを指定するためのものである。データ出力部207は、各PNGデータの出力ファイルF3bのファイル名を、画像データ単位で定義するとともに、作成したCSVデータを文書データと同一のフォルダ内に出力する。
この時、前述の通り、データ出力部207は出力ファイルF3bのファイル名を、エトキのテキストオブジェクトに含まれるテキストデータ、若しくは文書データ内の位置に基づいて定義する。更に、当該ファイル名に基づき、データ出力部207は、HTML形式の出力ファイルF3aに対し、画像に係る出力ファイルF3bへの参照情報(リンク情報)を埋め込む。
更に、データ出力部207は、画像オブジェクト毎の重なり割合が高い場合には、複数のオブジェクトを1つの出力ファイルF3bとする。
ダイアログ210b上の「PDF作成」チェックボックスは、記事データにかかるPDFの出力ファイルF3dとして書きだすか否かを指定するためのものである。
分割タイトルサイズに関する入力ボックスは、記事分割で設定されているオブジェクト内で記事を分ける判断基準として記事につけられたタイトルの文字サイズを使用するために、当該文字サイズの指定を受けるための入力ボックスである。データ抽出部205は、この入力ボックスで指定されている文字サイズ以上のテキストがあると、そのテキストの前で記事を分割する(先頭記事は除く)。「読込」ボタンが押されると、このダイアログ210bを開く時点で選択されていた文字の文字サイズが、分割タイトルサイズとして読み込まれる。また、分割タイトルサイズのテキストは、記事データのタイトルとして処理される。
尚、分割タイトルサイズのチェックボックスがチェックされていない場合には、データ抽出部205は段落の分離禁止指定により記事を分割する。
(3.3 処理の流れ)
以下、図6を参照しながら、情報処理装置10(データ抽出プラグイン200)の処理の流れを説明する。尚、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行することができ、また、各処理ステップ間に他のステップを追加しても良い。更に、便宜上1つのステップとして記載されているステップは複数のステップに分けて実行することもでき、便宜上複数に分けて記載されているステップを1ステップとして実行することもできる。
まず、データ抽出部205は、DTPソフトウェア100が扱う記事データから、図表番号の小さい順に1つの画像オブジェクトを選択する(S601)。そして、データ抽出部205は、当該画像オブジェクトに対し、予め定められた一定割合以上重なる画像オブジェクトがあるか否かを判別する(S603)。もし、一定割合以上重なる画像オブジェクトが存在する場合には(S603のYes)、S607で1画像データとして出力するために、それらの画像オブジェクトを全て選択する(S605)。もし、一定割合以上重なる画像オブジェクトがない場合には(S603のNo)、現在処理対象である1つの画像オブジェクト(S601で選択した画像オブジェクト)を選択した状態でS607へと進む。
データ出力部207は、S601及びS603(S603がYesの場合)で選択された画像オブジェクトを、HTML5で処理可能な(表示可能な)画像形式(本実施形態では、PGN)の出力ファイルF3bに変換した上で、データベース300に出力する(S607)。
また、データ抽出部205は、S607で出力した画像オブジェクトの近傍にテキストオブジェクトが存在するか否かを確認する(S609)。もし、テキストオブジェクトが存在した場合には(S609のYes)、当該テキストオブジェクトは画像オブジェクトのエトキであると考えられるので、テキストオブジェクトに含まれるテキストデータを、S607で出力した出力ファイルF3bのファイル名とする(S611)。
一方、もし、エトキと推定できるテキストオブジェクトが存在しない場合には(S609のNo)、文書データ内の位置情報に基づき、例えば「P76右上図版」といった名称を、出力ファイルF3bのファイル名とする(S613)。
もし、文書データに含まれる全ての画像に対する出力が終われば(S615のYes)、データ出力部207は、画像に係るデータ出力処理を終了する。
(本実施形態に係る効果)
以上説明したように、本実施形態の情報処理装置10では、データ抽出プラグイン200により、印刷用のDTP文書データから、記事データである出力ファイルF3を出力することができる。
データ出力時には、DTP文書データに含まれる(少なくとも一部の)各記事や、各記事を構成する、文書データに含まれる各オブジェクト等に対して、属性や順序などの設定をする。この属性や順序は、データ抽出プラグイン200が自動で、若しくはユーザの指定により設定される。
このように設定された属性や順序に従って記事データを抽出することにより、データ抽出プラグイン200は、好適に文書データから記事データを抽出できる。
特に本実施形態では、好適に画像データを出力することが可能である。DTP文書データは、通常画像オブジェクトがHTMLなどでは表示できない画像形式で埋め込まれているところ、データ抽出プラグイン200は、簡易な操作でPNGやJPG等のHTMLで表示可能なファイル形式の画像データを出力できる。
更に、画像データの出力の際に、画像オブジェクト間の重なり具合、若しくはユーザの選択に応じて、複数の画像オブジェクトを1つの画像データとして出力することが可能となっている。これにより、本来1つの画像として認識させたい複数の画像オブジェクトを、好適な形で出力することが可能となる。
データ出力部207はHTML形式の出力ファイルF3aを出力する際に、画像データである出力ファイルF3bへのリンク情報を埋め込む。これによりデータ抽出プラグイン200は、画像を含む一体的なブラウザ用の記事データを、画面キャプチャやファイル名変換等といった煩雑な操作なしに、簡易な操作で出力することが可能となる。
また、データ出力部207は、画像データである出力ファイルF3bのファイル名をエトキや位置情報に基づいて決定するため、ユーザが各出力ファイルF3bを直感的に扱いやすくなる。
(付記事項)
本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。
10・・・情報処理装置、100・・・DTPソフトウェア、200・・・データ抽出プラグイン、201・・・ユーザインタフェース部、203・・・属性設定部、205・・・データ抽出部、207・・・データ出力部、300・・・データベース、F1、F2、F3・・・出力ファイル

Claims (15)

  1. 1以上のテキストオブジェクト及び1以上の画像オブジェクトを含む文書データから、少なくとも一部の前記画像オブジェクトを抽出する抽出手段と、
    抽出された前記画像オブジェクトを、当該画像オブジェクトとは異なるフォーマットの画像データとして出力する第1の出力手段と、
    少なくとも一部の前記テキストオブジェクトに含まれるテキスト情報と、前記画像データへの参照情報とを含むテキストデータを出力する第2の出力手段と
    を備える情報処理装置。
  2. 前記第2の出力手段は、HTML(HyperText Markup Language)で記述された前記テキストデータを出力する、
    請求項1記載の情報処理装置。
  3. 前記第1の出力手段は、前記文書データが含む複数の前記画像オブジェクト同士の重なり具合に応じて、当該複数の前記画像オブジェクトを1の前記画像データとして出力する、
    請求項1又は請求項2記載の情報処理装置。
  4. 前記第1の出力手段は、出力対象の前記画像オブジェクト近傍の前記テキストオブジェクトに含まれるテキスト情報を前記画像データのファイル名に利用する、
    請求項1乃至請求項3のいずれか1項記載の情報処理装置。
  5. 前記第1の出力手段は、前記文書データ内における前記画像オブジェクトの位置に応じたファイル名で前記画像データを出力する、
    請求項1乃至請求項3のいずれか1項記載の情報処理装置。
  6. 1以上のテキストオブジェクト及び1以上の画像オブジェクトを含む文書データから、少なくとも一部の前記画像オブジェクトを抽出するステップと、
    抽出された前記画像オブジェクトを、当該画像オブジェクトとは異なるフォーマットの画像データとして出力するステップと、
    少なくとも一部の前記テキストオブジェクトに含まれるテキスト情報と、前記画像データへの参照情報とを含むテキストデータを出力するステップと
    を情報処理装置が実行する情報処理方法。
  7. 前記テキストデータはHTML(HyperText Markup Language)で記述される、請求項6記載の情報処理方法。
  8. 前記画像データを出力する際に、前記文書データが含む複数の前記画像オブジェクト同士の重なり具合に応じて、当該複数の前記画像オブジェクトを1の前記画像データとして出力する、
    請求項6又は請求項7記載の情報処理方法。
  9. 前記画像データを出力する際に、出力対象の前記画像オブジェクト近傍の前記テキストオブジェクトに含まれるテキスト情報を当該画像データのファイル名に利用する、
    請求項6乃至請求項8のいずれか1項記載の情報処理方法。
  10. 前記画像データを出力する際に、前記文書データ内における前記画像オブジェクトの位置に応じて当該画像データのファイル名とする、
    請求項6乃至請求項8のいずれか1項記載の情報処理方法。
  11. 1以上のテキストオブジェクト及び1以上の画像オブジェクトを含む文書データから、少なくとも一部の前記画像オブジェクトを抽出するステップと、
    抽出された前記画像オブジェクトを、当該画像オブジェクトとは異なるフォーマットの画像データとして出力するステップと、
    少なくとも一部の前記テキストオブジェクトに含まれるテキスト情報と、前記画像データへの参照情報とを含むテキストデータを出力するステップと
    を情報処理装置に実行させるプログラム。
  12. 前記テキストデータはHTML(HyperText Markup Language)で記述される、請求項11記載のプログラム。
  13. 前記画像データを出力する際に、前記文書データが含む複数の前記画像オブジェクト同士の重なり具合に応じて、当該複数の前記画像オブジェクトを1の前記画像データとして出力する、
    請求項11又は請求項12記載のプログラム。
  14. 前記画像データを出力する際に、出力対象の前記画像オブジェクト近傍の前記テキストオブジェクトに含まれるテキスト情報を当該画像データのファイル名に利用する、
    請求項11乃至請求項13のいずれか1項記載のプログラム。
  15. 前記画像データを出力する際に、前記文書データ内における前記画像オブジェクトの位置に応じて当該画像データのファイル名とする、
    請求項11乃至請求項13のいずれか1項記載のプログラム。
JP2012132278A 2012-06-11 2012-06-11 情報処理装置、情報処理方法、及びプログラム Pending JP2013257659A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012132278A JP2013257659A (ja) 2012-06-11 2012-06-11 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012132278A JP2013257659A (ja) 2012-06-11 2012-06-11 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2013257659A true JP2013257659A (ja) 2013-12-26

Family

ID=49954067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012132278A Pending JP2013257659A (ja) 2012-06-11 2012-06-11 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2013257659A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053427A (ja) * 2017-09-13 2019-04-04 富士ゼロックス株式会社 情報処理装置、画像ファイルのデータ構造及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09223240A (ja) * 1996-02-14 1997-08-26 Oki Electric Ind Co Ltd 文書電子化装置
JPH10222510A (ja) * 1997-02-07 1998-08-21 Hitachi Ltd 文書変換方法
JP2005284688A (ja) * 2004-03-30 2005-10-13 Toppan Printing Co Ltd 印刷データ転用装置、印刷データ転用方法、印刷データ転用プログラム
JP2006221569A (ja) * 2005-02-14 2006-08-24 Canon Inc 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2007310501A (ja) * 2006-05-16 2007-11-29 Canon Inc 情報処理装置、その制御方法、及びプログラム
JP2010087792A (ja) * 2008-09-30 2010-04-15 Kyocera Mita Corp 画像形成装置及び画像形成プログラム
JP2010205060A (ja) * 2009-03-04 2010-09-16 Nomura Research Institute Ltd 文書内画像検索方法および文書内画像検索システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09223240A (ja) * 1996-02-14 1997-08-26 Oki Electric Ind Co Ltd 文書電子化装置
JPH10222510A (ja) * 1997-02-07 1998-08-21 Hitachi Ltd 文書変換方法
JP2005284688A (ja) * 2004-03-30 2005-10-13 Toppan Printing Co Ltd 印刷データ転用装置、印刷データ転用方法、印刷データ転用プログラム
JP2006221569A (ja) * 2005-02-14 2006-08-24 Canon Inc 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2007310501A (ja) * 2006-05-16 2007-11-29 Canon Inc 情報処理装置、その制御方法、及びプログラム
JP2010087792A (ja) * 2008-09-30 2010-04-15 Kyocera Mita Corp 画像形成装置及び画像形成プログラム
JP2010205060A (ja) * 2009-03-04 2010-09-16 Nomura Research Institute Ltd 文書内画像検索方法および文書内画像検索システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016007724; 'DTPデータをマルチユースする' ホームページデザイン 第5号, 19980225, p.73-78, エーアイ出版株式会社 *
JPN6016007727; ペルト ライナス・バン: 'Delphi2.0プログラミング講座第3回' DDJ 第5巻第7号, 19960701, p.65-74, 株式会社翔泳社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053427A (ja) * 2017-09-13 2019-04-04 富士ゼロックス株式会社 情報処理装置、画像ファイルのデータ構造及びプログラム
JP7180061B2 (ja) 2017-09-13 2022-11-30 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP5439454B2 (ja) 電子コミック編集装置、方法及びプログラム
US20060224952A1 (en) Adaptive layout templates for generating electronic documents with variable content
CN104239284A (zh) 一种图文自动排版的方法和装置
US20130290837A1 (en) Method and Apparatus for Correcting Document Formatting Based on Source Document
KR100884195B1 (ko) 전자책에서의 텍스트 변경으로 컨텐츠 리포맷팅 및 페이지수의 재산출을 위한 방법, 및 이에 적용되는 장치
KR101790727B1 (ko) 문서 형식 자동 변환 시스템 및 방법
US9483569B2 (en) Electronic-manual browsing apparatus and system
KR101768899B1 (ko) 문단 내 메모 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법
EP2547085A1 (en) Electronic comic display device, method and program
KR101546359B1 (ko) 웹 브라우저 호환성 및 폰트 유지를 위한 웹 페이지 생성방법 및 시스템
JP2013257659A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2011123828A (ja) 電子ファイルデータのデータ構造、電子ファイル処理装置、電子ファイル処理プログラム
KR102298752B1 (ko) 전자문서 작성 방법, 전자문서 작성 장치 및 컴퓨터 프로그램
JP6353261B2 (ja) 情報処理装置、制御方法およびプログラム
JP2018036794A (ja) 画像処理装置及びプログラム
JP6701268B2 (ja) 情報処理装置、制御方法およびプログラム
JP5712612B2 (ja) 電子文書変換装置及び電子文書変換方法
JP3965836B2 (ja) 画像処理システム
US9104649B2 (en) Information processing apparatus and program
JP2009157470A (ja) 電子文書処理装置及びプログラム
JP2008026995A (ja) 文書ファイル処理プログラム、方法、及び装置
KR101202849B1 (ko) 스마트 기기에 최적화된 가독성을 갖도록 하는 피디에프 문서의 변환 방법
JP2016103150A (ja) 文書処理装置および文書処理プログラム
JP2014153879A (ja) 編集システム
KR102317666B1 (ko) 책의 제본을 위한 전자문서의 편집 방법 및 이를 수행하는 전자 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160229

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160905