JP5482223B2 - 情報処理装置、情報処理方法 - Google Patents
情報処理装置、情報処理方法 Download PDFInfo
- Publication number
- JP5482223B2 JP5482223B2 JP2010012334A JP2010012334A JP5482223B2 JP 5482223 B2 JP5482223 B2 JP 5482223B2 JP 2010012334 A JP2010012334 A JP 2010012334A JP 2010012334 A JP2010012334 A JP 2010012334A JP 5482223 B2 JP5482223 B2 JP 5482223B2
- Authority
- JP
- Japan
- Prior art keywords
- additional information
- information
- document
- processing
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
Description
こうした加工を行う文書処理装置には、ユーザーの操作による指示が容易に行えるようにするために、処理対象とする文書において処理範囲を指定して一括変更指示を行なう機能を備えているものが多く提案されている。
特許文献1〜4は、一括変更指示を行なう機能を備えた従来の文書処理装置を例示するものである。
これらの従来技術により例示される一括変更指示を行なう機能は、いずれも一括変更の対象を指定する条件として、下記a.及びb.の2種類を考慮し、柔軟な一括変更を実現することを意図している。
a. 文書における文字、図、写真等の表示属性
b. 書式(文書の体裁に関する設定)
特許文献5には、原画像データのレイヤーとは別に、アノテーションの画像データのレイヤーを構成するファイルを作成、つまり複数レイヤーの画像データのファイルを作成し、作成した複数レイヤーの画像データをもとに、原画像に予定したアノテーション画像を重ね合わせ1画像として出力する方法が記載されている。
また、上記した一括変更指示を行なう従来技術の機能は、表示属性や書式の変更を行うための機能であり、例えば、文字で表された文書のように、表示属性や書式が同じであっても文書の情報の種類が異なることがある文書を対象にする場合、情報内容によっては、一括変更すると、利用者が望まない範囲にまで変更が及ぶおそれがある。
前記原画像データから文書情報を認識し、抽出される文書情報のうち前記付加情報を挿入する処理の対象となる文書情報を取得する文書情報取得部と、前記文書情報取得部によって取得された文書情報に挿入する付加情報を前記付加情報データベースから取得する追加情報取得部と、前記追加情報取得部によって取得された付加情報の挿入形態を付加情報データベースの種類ごとに指定する挿入形態指定部と、前記挿入形態指定部によって指定された挿入形態に従い、原画像データのレイヤーに対し別レイヤーとして挿入する付加情報の画像データを生成する追加情報データ処理部とを有し、前記追加情報データ処理部は、挿入する付加情報に該付加情報が登録されたデータベースの識別情報を付記することを特徴とする情報処理装置である。
なお、原画像データを生成する方法は、画像データから文書情報が認識できさえすれば、スキャナ読取り以外の方法でもよい。また、画像出力についても、ユーザーが利用する形態の多くは、印刷、表示の形をとるが、実施形態によっては、画像出力の実行手段を持たない画像処理装置もしくは画像処理システムでも実施し得る。
図1は、本実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。
この情報処理装置は、バス1と、それぞれがバス1に接続されたCPU(Central Processing Unit)2、メモリ3、通信装置4、表示装置5、HD(Hard Disk)ドライブ6、入力装置7、CD(Compact Disk)−ROM(Read Only Memory)ドライブ8、FD(Flexible Disk)ドライブ9及びIF(インターフェース)15を備えている。
CPU2は、RAMをワークメモリとして用いることにより、ROM、HDドライブ6等に格納されたソフトウェア(プログラム)を動作させ、これらの要素で構成するコンピュータを動作制御部として機能させる。このコンピュータは、本実施形態では、後述するマルチレイヤー機能を有するファイルの作成及びファイルを用いて行う画像出力に係る処理を実行するためのプログラムを駆動することにより、これらの処理手段として機能する。
通信装置4は、この情報処理装置をインターネットなどの通信回線に接続し、外部の情報処理装置等とのデータ交換を行うための装置である。
入力装置7は、キーボードやマウスなどからなり、この情報処理装置に対する種々のキー操作や指示の入力を行うためのものである。
IF15は、接続する外部デバイス(周辺機器)との間でデータをやり取りするための装置であり、この実施形態では画像処理装置(システム)を構成するので、スキャナ、プリンタ等の外部デバイス16がこのIFを介して接続される。
本実施形態の情報処理装置は、マルチレイヤー機能を有するファイルを扱うので、まずマルチレイヤー機能を有するファイルの一例としてサーチャブルPDF(Portable Document Format)について説明する。なお、以降、PDFを例に説明するが、PDFに代表されるマルチレイヤー機能をもつ電子文書において、一般的に具備している要素のみに言及するものであり、本発明はPDFに限らず、マルチレイヤー機能をもつ電子文書全般に適用できることは言うまでもない。また、電子文書の構成として多層である必要はなく、何らかの手段で文書要素群を層状に分離/重複可能であれば、この実施形態を適用し得るマルチレイヤー機能にあたる。
このように、サーチャブルPDFのようなマルチレイヤー機能をもつ電子文書フォーマットを利用すれば、原文書に対して、外部の情報源から、原文書に関連した情報を付加し、文書の価値を高めていくことが可能となる。
ここで、上記したサーチャブルな透明テキスト付きPDFを作成する処理過程を図3及び図4の概念図にもとづいて説明する。
図3は、原画像から認識される文書情報(例えば文字画像)にテキストを対応させ、透明テキスト付きPDFを作成する処理を説明する図である。
図3に示すように、まず処理対象の原画像にOCR12を用いて文字画像を認識し、文字情報を抽出する。次に、抽出した文字情報のテキストを、付加情報源14としての文字情報とテキストデータとが関連付けて登録されているデータベースから取得する。
次いで、取得したテキストを原画像における文字画像の位置に対応させて、原画像のレイヤーとは別のレイヤーとして挿入するデータを透明テキストとして生成し、こうした加工を行うことにより、原画像が担う文字の認識結果を付加した透明テキスト付きPDFを作成する。なお、この実施形態の画像処理装置は、作成したサーチャブル(透明テキスト付き)PDFを用いて印刷、配信等の出力処理を行う。
外部の付加情報源から得られる情報を付加する処理は、処理対象がテキストである場合、図3の処理過程で説明したと同様に、原画像から抽出した文字情報のテキストを取得し、その後、得たテキストをもとに、外部の付加情報源14eからこのテキストと関連する付加情報をさらに取得する。外部の付加情報源14eは、例えば、各種の辞書類であり、テキストの文字(単語)の読み方、意味等の解説を記載した辞書データベースであり、この付加情報源14eを利用して付加情報を取得する。
例えば、外部の複数付加情報源14eが英和辞書のデータベースで、辞書の種類を、汎用の基本辞書(以下「基本辞書」という)、ユーザーにカスタム化した辞書(以下「ユーザー辞書」という)或いは専門用語の辞書(以下「専門語辞書」という)等の種類として、後記で詳述するように、これらを使い分けることを可能にしたい場合には、外部の複数付加情報源14e−1,14e−2,14e−3,・・・それぞれに対応したレイヤーをサーチャブルPDFのレイヤーとして挿入するデータを生成し、追加することにより、翻訳情報付きのサーチャブルPDFを作成する。
ところで、サーチャブルPDFにおいて、原文書の作成者とPDF文書の使用者とは一般的には異なり、両者の間で必要とする付加情報(テキストに関連して追加される情報)が違い、一方で利用価値が高い付加情報でも他方では高くなるとは限らない。また、文書作成者と文書使用者が同じ場合でも、状況によって、付加情報の利用価値に違いが生じるのは、自然である。
例えば、付加情報が不要な文書利用者にとっては、付加情報は不可視であることが望ましいし、小さな字が見えにくい利用者にとっては、付加情報は大きなフォントを用いて表示することが望まれる。
上記で前提技術として述べた透明テキスト付きPDFであれば、既存のAcrobat等の編集ツールを用いれば、原画から認識される文書情報(文字等)に対応付けられる付加情報(ここではテキスト)の単位で、その利用形態を変更することは可能である。例えば、付加情報としてのテキストに用いられている文字が小さい場合には、ユーザーはより大きな文字を指定することで、所望の大きさのフォントに変更可能である。また、所望のテキストをコピー&ペーストし、取り出すことも可能である。
ただ、この操作は、付加情報としてのテキスト(文字、単語等)の単位で処理対象を指定した上で編集指示をする必要があり、編集個所が多い場合には非常に手間がかかってしまう。このように、付加情報の利用形態を変更することが可能であっても、その操作に手間がかかってしまい、利便性が損なわれる。
上記で図4の概念図を参照して説明したように、付加情報は、目的別あるいは分野別に分類された複数の付加情報源14e−1,14e−2,14e−3,・・・を用意しておき、そのなかから、原文書を利用する際に有用な情報源として選択する付加情報源14eを指定し、取得される付加情報を望ましい形態で利用するための利用形態を選択可能とする。
付加情報は情報源別に利用目的が明確であるから、文書使用者は、自身の利用目的にあう情報源を選択することは容易である。
例えば、翻訳情報付きの文書を編集する際、付加情報源として、1.基本辞書、2.専門語辞書、3.ユーザー辞書の3種が用意されている場合に、この3種の付加情報源から翻訳情報を付加して作成される文書が有効利用されるようにするためには、語学力の上級者であれば、1.基本辞書は不要であり、初級者であれば、1.基本辞書、2.専門語辞書、3.ユーザー辞書すべてを必要とする利用形態が適当となる。
したがって、作成するサーチャブルPDFにおける指示は、上級者は付加情報源の1.基本辞書から取得される付加情報に対する指示を不可視にし、初級者は付加情報に対する指示を行わず、そのまま利用する(後述する図6(C)に示すPDFのオペレーションとオペランドの定義に関する説明、参照)。また、原文書のみを閲覧したい場合には、全ての付加情報源14eからの付加情報を不可視にする利用形態によって実施することができる。
このように、ユーザーが望む利用形態は、ユーザー自身により付加情報源14eを指定し、取得される付加情報をどのような形態で挿入するかを指定することによって指示される。つまり、付加情報の挿入形態がユーザーによって指示される。
ここで、ユーザーの指示により挿入形態を定める本実施形態におけるサーチャブルPDFの処理について、図5に示すこの処理フローの1例を示す概略図を参照して説明する。なお、この処理は、基本的には、図3及び図4を参照して概念的に説明した処理過程に従う。
図5に例示する処理フローによるPDFの処理は、原文書の原稿からスキャナ読取りで原画像データを生成し、情報処理装置100が行う一連の初期処理により、一旦PDFを完成させる。この段階で得られるPDFは、複数の付加情報源14e全部から取得した付加情報を付け、情報処理装置100側で予めデフォルトとして定めた挿入形態を指定する付加情報レイヤーを有するファイルとする。この後、ユーザーの要求する挿入形態の指示は、一旦完成させたPDFに対し、デフォルト設定を変更する形で付加情報源ごとに挿入形態を指定する追加編集を行い、この編集結果を反映したPDFが求めるサーチャブルPDFとなる。
なお、このサーチャブルPDFの処理は、当該処理の処理手段として機能する情報処理装置100のコンピュータが行う。つまり、情報処理装置100のコンピュータは、上記したように、マルチレイヤー機能を有するファイルの作成及びこのファイルを用いて行う画像出力に係る処理を実行するためのプログラムを駆動することにより、これらの処理の処理手段として機能する。したがって、情報処理装置100のコンピュータ(CPU2)は、以下に記載するマルチレイヤー機能を有するファイルとしてのサーチャブルPDFの作成処理過程に含まれる処理に係る下記の文書情報取得部、追加情報取得部、挿入形態指定部、追加情報データ処理部の各処理部を要素とする処理手段を構成する。
情報処理装置100のCPU2は、サーチャブルPDFの処理を実行するプログラムを起動し、まず、原文書の原稿からスキャナで読取った原画像データをもとに画像ファイルを生成する(ステップS101)。この原文書の画像ファイルの生成過程では、IF15を介して外部デバイス16として接続したスキャナを動作させ、ビットマップの画像データとして原稿文書の読取画像を取得し、このデータをもとに、PDFのファイル形式の画像データを作成する。PDFは、テキスト情報の他、フォントやレイアウト等の情報をファイル内に含む。このため、ステップS101では、上述で図3を参照して説明した処理や加工、即ちOCRによる文字情報の抽出、文字情報に対応する付加情報としてのテキストの取得及び得たテキストを透明テキストとして原画像に挿入する透明テキストレイヤーの生成、を行う。ここでは、上記した、OCRによる文字情報の抽出を行う処理手段を文書情報取得部といい、また、文字情報に対応する付加情報としてのテキストの取得を行う処理手段を追加情報取得部という。
複数の付加情報源14e全部から取得した付加情報を付け、この処理プログラムによって予めデフォルトとして定めた挿入形態を指定した段階で、サーチャブルPDFは、一旦完成する。
ここでは、上記した利用形態を指示する処理手段を挿入形態指定部といい、また、別レイヤーの追加編集をする処理手段を追加情報データ処理部という。
上記した利用形態の指示は、ユーザーインターフェースとして機能する表示装置5及び入力装置7を用いて行うユーザーの操作により、一旦完成させたPDFに対し、デフォルト設定を変更する形で行う。ここでは、サーチャブルPDFの追加編集として、付加情報をどのような形態で挿入するかを決める挿入形態の指定の変更をする。
例えば、
“「ユーザー辞書」の付加情報を「不可視」にする”という指定をすれば、このPDFを用いて実行する印刷や表示においてユーザー辞書から取得した付加情報の画像出力を一括して無くすことができ、
“「難易度3未満」の付加情報を「不可視」にする”という指定をすれば、難易度に応じて辞書を使い分けることができ、
“「付加情報の文字サイズ」を「10ポイント」にする”という指定をすれば、付加情報の画像出力を一括してユーザー所望の文字サイズにすることができる。
なお、挿入形態の指示についての詳細は、後述する“サーチャブルPDFの記述”にて説明する。
他方、ステップS103で作成されたサーチャブルPDFに対し外部装置への配信が要求されると、上記と同様に追加編集によって作成されたPDFデータの配信を通信装置4に指示する。この配信の指示を受ける通信装置4は、ユーザー所望の挿入形態のPDFデータを送信先の外部装置に通信回線を介して配信する(ステップS105)。PDFデータの配信は、例えば、インターネットを通信回線とする電子メールを利用することができる。
具体的な文書画像を例に、画像出力が可能なサーチャブルPDFとして作成されるファイルに関する説明をする。
ここでは、サーチャブルPDFを用いて画面表示等を行ったときの出力画像例として示す図6(A)を定義するサーチャブルPDFの記述を例示する。
図6(A)の出力画像例は、
1.原文書:英文文書画像
2.付加情報源(1):英文文書画像からOCR結果として得た英単語(文字、文字列);透明色にて元画像の文字の上に貼付
3.付加情報源(2):英和辞書から英単語の和訳として得た語句(文字、文字列);可視色(緑色)にて英単語の下にルビ状に貼付
の1〜3を出力条件とする。
つまり、図6(A)の表示例は、英文の原文書における単語の一部に付加情報としての日本語訳を緑色(同図では英文に比べ細字にて示す)でルビ状にもしくは添え字で挿入する単語訳情報付きPDFの例を示す。
なお、図6(C)には、記述例の図6(B)に示すオペレーション(図中、太字で示す)とオペランド(図中、普通字で示す)の意味を、
font size Tf:カレントフォント(font)とカレントフォントサイズ(size)を設定
x y Td:カレントを相対座標(x,y)に移動
string Tj:string(文字列型のデータ)を表示
r g b. rg.:塗りつぶしの色(r g b)を指定
T_mode Tr:レンダリングモード(T_mode)の設定
(T_mode 0:縁どり,2:塗りつぶし+縁どり,3:無表示,4-7:0-3 の処理の後、クリッピングに追加)
として、まとめて示す。
図6(B)の2行目の「-184.7 -48.6 Td (適用する) Tj」は、相対座標(-184.7,-48.6)に移動して文字列「適用する」を表示することを意味する。なお、フォントのサイズや色などは現在の設定値に従うので、文字列「適用する」は、緑で可視色として表示される。
図6(B)の3,4行目も2行目の「-184.7 -48.6 Td (適用する) Tj」と同様に解釈される。
図6(B)の5行目の「/F10 9 Tf」は、現在のフォントを/F10、サイズを9に設定することを意味し、2〜4行目に指示された文字列はこの設定で表示される。
図6(B)の7行目の「-149.2 3.3 Td (You must apply in person at any Social Secu-) Tj」は、相対座標(-149.2 3.3)に移動して文字列「You must apply in person at any Social Secu-」を挿入することを意味する。
図6(B)の8行目の「/F10 10 Tf」は、現在のフォントを/F10、サイズを10に設定することを意味し、7行目に指示された文字列はこの設定で付加される。
図6(B)の9行目の「-149.2 3.3 Td (You must apply in person at any Social Secu-) Tj」は、相対座標(-149.2 3.3)に移動して文字列「You must apply in person at any Social Secu-」を挿入することを意味する。
図6(B)の10,11行目は、原画像にあるstringの英文として、「rity office. We will help you complete:」が8,9行目と同様に挿入される。
この設定で、原画像のレイヤーにある英文字に重ねて透明テキストを挿入し、この透明テキストを検索することによって、原画像の英文字画像(見かけ上)を検索できるようになる。これがサーチャブル(透明テキスト付き)PDFの原理である。
単語訳情報付きPDFによる図6(A)の表示例は、通常のサーチャブル(透明テキスト付き)PDFに加えて、単語訳が可視色で表示されたものである。
図6(A)の表示例において、現在可視状態にある単語訳情報を不可視にしたければ、図6(B)の1行目に記述された「0 Tr」を「3 Tr」に変更すればよい。
また、単語訳情報をもっと大きなサイズで表示したい場合やフォントの種類を変えるには、Tfオペレーションのオペランドを変更すれば実現できる。しかしながら、これもTfオペレーションが単語訳情報の表示用か、例えば原文テキストのような他の表示用かを区別できないので、必要な場合には、全てのTfオペレーションを変更するしかない。
つまり、既存のサーチャブルPDFの記述例を示す図6(B)では、どの情報に関連するオペレーションなのかが記載されていないために情報ごとに表示モードを変更することができない。
このための手段としては、サーチャブルPDFの記述において、付加情報源でくくられる情報ごとに開始識別子「%」を挿入し、付加情報の種類が同じである範囲を限定する。
例えば、「%JpnInfo」は、日本語情報が開始することを意味し、「%EngInfo」は、英語情報が開始することを意味する。
なお、PDF定義において行頭が、識別子「%」から始まる行はコメント行であり、PDF解釈では無視され、PDFをもとに印刷や表示の画像出力に用いるデータを生成する処理を行う際には、出力用データには全く影響しない。
サーチャブルPDFの記述に「%JpnInfo」を適用した場合、%JpnInfo行から日本語情報に関するPDF定義が始まり、次に%EngInfo行が出現するまで続く。
同様に、%EngInfo行から英語情報に関するPDF定義が始まり、次に%JpnInfo行が出現するまで続く。
よって、図7の2行目の「0 Tr 0 1 0 rg」から6行目の「/F10 9 Tf」の和訳(日本語)情報に関するPDF定義の先頭行に日本語情報の開始を意味する「%JpnInfo」を記述し、図7の8行目の「3 Tr」から12行目の「/F2 4.5 Tf」の英語情報に関するPDF定義の先頭行に英語情報の開始を意味する「%EngInfo」を記述する。
ここで示す実施形態は、付加情報の種類として難易度レベルの異なる言語に対応するものである。例えば、英語という同じ言語であっても、誰でも理解できるレベルから理解の困難なレベルという難易度レベルの違いがある。難易度レベルによって分類される言語の種類を限定してサーチャブルPDFの記述を変更可能とする実施形態である。
図8は、本実施形態のサーチャブルPDFの記述例を説明する図である。図8の記述例は、図7の記述例の%JpnInfoを難易度レベルで分類したものである。即ち、単語の難易度レベルごとに挿入形態を指定可能にして、ユーザーの要求に適応する付加情報の挿入を行うようにしたものである。
・難易度レベル1:
訳語「適用する」に対応する英語“apply”
訳語「社会保障」に対応する英語“Social Security”
・難易度レベル2:
訳語「自分で」に対応する英語“in person”
と分類されている場合に、図8に示すように、そのレベル別に「%JpnInfo_LV1」、「%JpnInfo_LV2」という日本語情報の開始を意味する「%」行を設ける。このように設定する「%」行のもとに対象とする「適用する」、「社会保障」等の単語訳の日本語stringごとにオペレーションやオペランドの記述を変更、追加することで、各単語訳の挿入形態を指定することができる。
このように分類しておけば、英語初級者は全てのレベルの単語訳を利用し、英語上級者は高いレベルの単語訳のみ利用することができ、利用者の英語レベルに応じた付加情報を選択でき、ユーザーの要求に適応することができる。
この方法によるサーチャブルPDFの処理の手順は、先に述べたサーチャブルPDFの作成処理における初期処理、即ち、図5のステップS101,S102で一旦PDFを作成する過程(全付加情報源から取得した付加情報をデフォルトの挿入形態で付加する作成過程)において、「%JpnInfo」、「%EngInfo」等の「%」行を当該PDFに記述し、付加情報の挿入形態を指示できる範囲を設定する。この後、この段階で作成されたサーチャブルPDFに対して、図5のステップS103で説明したように、ユーザー操作によって付加情報源の種類ごとに行われる挿入形態の変更指示に応じて、サーチャブルPDFの記述を変更する。
次いで、上記のユーザー操作に応じて、サーチャブルPDFの記述を変更する処理を行い、ユーザーの指示に従い、変更されたサーチャブルPDFを用いて画像出力を実行する。なお、サーチャブルPDFの記述を変更する処理は、下記で図9の処理フローを参照して詳述する。
上記“サーチャブルPDFの記述”で示した「%JpnInfo」、「%EngInfo」等の「%」行が記述されたサーチャブルPDFの記述を変更する処理について説明する。
この処理は、全付加情報源から取得した付加情報をデフォルトの挿入形態で付加し、「%」行を加えて、一旦完成させたサーチャブルPDFを、ユーザーインターフェースを介して指示された変更条件に応じて変更し、ユーザーが実行を求めるサーチャブルPDFを作成する処理である。ここでは、変更条件が、付加情報源の種類に対応する変更対象と変更内容として指示され、指示された内容に従い変更対象を一括処理する。
図9は、この実施形態のサーチャブルPDFの記述変更処理のフローを示す図である。
以下、図9を参照して、処理フローを説明する。
次に、変更を加えようとする一旦完成させたサーチャブルPDFを定義する記述を1行ずつ順に処理していくので、全行の処理を終えたかを否かを確認し(ステップS202)、PDFを定義する記述に未処理の行が確認できれば(ステップS202-YES)、処理を進行させる。
他方、ステップS202でPDFを定義する記述全行の処理を終えたことが確認できれば(ステップS202-YES)、このフローの処理を終了する。
次いで、処理対象行が、開始識別子である「%」を先頭に付した%行(例えば、「%JpnInfo」、「%EngInfo」等)であるか否かを確認し(ステップS204)、その結果により処理手順を分岐する。
ここで、%行であることが確認できれば(ステップS204-YES)、次いで、当該処理対象行が、変更対象の行であるか否かを確認する(ステップS205)。この確認は、ユーザーが求める変更対象の行であるか否かを、ステップS201で受取った指定変更対象との一致/不一致の判断に従って行う。
他方、ユーザーが求める変更対象の行と一致し、変更対象であることが確認できれば(ステップS205-YES)、変更モードを「オン」にする(ステップS207)。なお、この変更モードの「オン」「オフ」は、後述するステップS208の手順を管理するために用いる。
変更モードの「オン」「オフ」を設定した後、次の順番の行に対する処理を行うために、ステップS202に戻り、PDFを定義する記述の次行に対する処理を前行で行ったステップS202〜S204の処理と同様に行う。
ステップS208で現在の変更モードがオンであることが確認できれば(ステップS208-YES)、ステップS201で受取ったこの変更対象行に対して指示された変更内容に従って、PDF定義内のオペレーションとオペランド(図6(C)、参照)を変更する(ステップS209)。
他方、ステップS208で現在の変更モードがオンであることが確認できなければ(ステップS208-NO)、変更対象行ではないので、何の処理もしないで、次の順番の行に対する処理を行うために、ステップS202に戻る。
なお、ステップS206で変更モードがオフになると、これ以降、変更モードがオンになるまでPDF定義は変更されず、読み飛ばされることになる。また、ステップS206で変更モードがオンになると、これ以降、変更モードがオフになるまでPDF定義はステップS201で受取った変更内容にしたがって変更される。
ユーザーが指示する付加情報の挿入形態の変更内容は、PDF定義内のオペレーションとオペランド(図6(C)、参照)で表現される。
ユーザーが必要とする付加情報は、ユーザー個人によって異なるので、付加情報の情報源ごとに、Trオペレーションを用いてレンダリングモードを塗りつぶし/非表示にするオペレーションとオペランドを指示することで、付加情報の可視/不可視を選択できるようになり、ユーザー個人に適応した利用形態が実現できる。また、付加情報の可視/不可視を変更することは、付加レイヤーとしてのサーチャブルPDFを利用した原文書の閲覧という側面からも有用性が増す。
その他、フォント種類など、文字の表示属性に関わる設定は、オペランドの変更で容易に実現できる。
サーチャブルPDFの付加情報の利用形態としては、付加された透明テキストレイヤーの画像データを用い、そのデータに対するレンダリングモードを変更することにより原文画像の表示形態等を変更できるが、これだけでなく、付加情報としての透明テキストを取り出して、別アプリケーションにて利用したい場合もある。
例えば、単語訳情報付きPDFから、原文テキストのみ取り出して、別のワープロソフトにて再利用したい場合等が想定される。
ただ、既存のサーチャブルPDFの場合、単語訳情報まで抽出されてしまい、取り出した後に余分な単語訳情報を削除する手間が生じてしまう。
ところが、この実施形態のサーチャブルPDFによれば、付加情報源ごとに挿入形態を指定できる、即ちサーチャブルPDFを定義しなおすことができることから、先の挿入形態(表示形態等)の変更と同様の方法によって、求める付加情報のみを取り出すPDFに作り変えることができる。
具体的な処理の手順は、図9に示した処理フロー(ステップS206,S207,S208が関連する)における“変更モード”を“取り出しモード”と置き換えることによって、取り出したい付加情報部分(原文のテキストを含む)のみ、取り出す処理を行うことが可能になる。
本実施形態の情報処理装置は、図1に示した内蔵のCPU2の制御下で動作する外部デバイス16を含む各種デバイスで構成することができるが、それぞれ独立に動作する情報処理装置で処理を分担する形態のシステム構成で実現することもできる。
図10は、通信回線で互いに結ばれた情報処理装置を利用して本実施形態の情報処理装置を構成するシステムの構成例を示す図である。同図に示すシステムは、インターネットなどの通信回線300を介して、情報処理装置1001,1002,1003が互いに接続されて構成する。情報処理装置1001,1002,1003は、図1に示した情報処理装置100であっても良いが、上記したサーチャブルPDFの処理に必要な機能の一部を有する装置でもよい。
また、例えば、各々の情報処理装置1001,1002,1003が有する付加情報源14eとしての辞書データベース等が異なる場合、文書の種類によっては、外部の情報処理装置のデータベースを利用することにより適正な処理が可能になる。
また、情報処理装置1001,1002,1003の処理能力に違いがある場合には、能力の高い外部の情報処理装置を利用することにより、処理時間の短縮化が可能になる。
Claims (7)
- 文書を担う原画像データのレイヤーに対し、別レイヤーの画像データとして前記文書の文書情報に対応付けて該文書情報と関連する付加情報を挿入してマルチレイヤー機能を有するファイルを作成する処理を行う情報処理装置であって、
前記文書情報と関連する複数の付加情報をそれぞれ該文書情報に対応付けて登録し、異なる種類のデータベースを構築する付加情報データベースと、
前記原画像データから文書情報を認識し、抽出される文書情報のうち前記付加情報を挿入する処理の対象となる文書情報を取得する文書情報取得部と、
前記文書情報取得部によって取得された文書情報に挿入する付加情報を前記付加情報データベースから取得する追加情報取得部と、
前記追加情報取得部によって取得された付加情報の挿入形態を付加情報データベースの種類ごとに指定する挿入形態指定部と、
前記挿入形態指定部によって指定された挿入形態に従い、原画像データのレイヤーに対し別レイヤーとして挿入する付加情報の画像データを生成する追加情報データ処理部と
を有し、
前記追加情報データ処理部は、挿入する付加情報に該付加情報が登録されたデータベースの識別情報を付記することを特徴とする情報処理装置。 - 請求項1に記載された情報処理装置において、
前記追加情報データ処理部は、処理の対象になる複数の文書情報に対し、同じ種類のデータベースに係る処理を一括して実施することを指定する処理の指示を受けて、指示に従う処理を行うことを特徴とする情報処理装置。 - 請求項2に記載された情報処理装置において、
前記指示に従う処理が、情報の可視/不可視を指定する挿入形態の処理であることを特徴とする情報処理装置。 - 請求項2に記載された情報処理装置において、
前記指示に従う処理が、文書情報に用いる文字情報の属性を指定する挿入形態の処理であることを特徴とする情報処理装置。 - 文書を担う原画像データのレイヤーに対し、別レイヤーの画像データとして前記文書の文書情報に対応付けて該文書情報と関連する付加情報を挿入してマルチレイヤー機能を有するファイルを作成する処理を行う情報処理装置であって、
前記文書情報と関連する複数の付加情報をそれぞれ該文書情報に対応付けて登録し、異なる種類のデータベースを構築する付加情報データベースと、
前記原画像データから文書情報を認識し、抽出される文書情報のうち前記付加情報を挿入する処理の対象となる文書情報を取得する文書情報取得部と、
前記文書情報取得部によって取得された文書情報に挿入する付加情報を前記付加情報データベースから取得する追加情報取得部と、
前記追加情報取得部によって取得された付加情報の挿入形態を付加情報データベースの種類ごとに指定する挿入形態指定部と、
前記挿入形態指定部によって指定された挿入形態に従い、原画像データのレイヤーに対し別レイヤーとして挿入する付加情報の画像データを生成する追加情報データ処理部と
を有し、
前記追加情報データ処理部は、処理の対象になる複数の文書情報に対し、同じ種類のデータベースに係る処理を一括して実施することを指定する処理の指示を受けて、指示に従う処理を行い、
前記指示に従う処理が、生成された別レイヤーとして挿入する付加情報の画像データから一部の付加情報の画像データを抽出し、外部へ取り出す処理であることを特徴とする情報処理装置。 - 請求項1乃至4のいずれかに記載された情報処理装置における情報処理方法であって、
前記文書情報と関連する複数の付加情報をそれぞれ該文書情報に対応付けて付加情報データベースに登録し、異なる種類のデータベースを構築する工程と、
前記原画像データから文書情報を認識し、抽出される文書情報のうち前記付加情報を挿入する処理の対象となる文書情報を取得する文書情報取得工程と、
前記文書情報取得工程で取得された文書情報に挿入する付加情報を前記付加情報データベースから取得する追加情報取得工程と、
前記追加情報取得工程で取得された付加情報の挿入形態を付加情報データベースの種類ごとに指定する挿入形態指定工程と、
前記挿入形態指定工程で指定された挿入形態に従い、原画像データのレイヤーに対し別レイヤーとして挿入する付加情報の画像データを生成する追加情報データ処理工程と、を有し、
前記追加情報データ処理工程では、挿入する付加情報に該付加情報が登録されたデータベースの識別情報を付記することを特徴とする情報処理方法。 - 請求項5に記載された情報処理装置における情報処理方法であって、
前記文書情報と関連する複数の付加情報をそれぞれ該文書情報に対応付けて付加情報データベースに登録し、異なる種類のデータベースを構築する工程と、
前記原画像データから文書情報を認識し、抽出される文書情報のうち前記付加情報を挿入する処理の対象となる文書情報を取得する文書情報取得工程と、
前記文書情報取得工程で取得された文書情報に挿入する付加情報を前記付加情報データベースから取得する追加情報取得工程と、
前記追加情報取得工程で取得された付加情報の挿入形態を付加情報データベースの種類ごとに指定する挿入形態指定工程と、
前記挿入形態指定工程で指定された挿入形態に従い、原画像データのレイヤーに対し別レイヤーとして挿入する付加情報の画像データを生成する追加情報データ処理工程と、を有し、
前記追加情報データ処理工程では、処理の対象になる複数の文書情報に対し、同じ種類のデータベースに係る処理を一括して実施することを指定する処理の指示を受けて、指示に従う処理を行い、
前記指示に従う処理が、生成された別レイヤーとして挿入する付加情報の画像データから一部の付加情報の画像データを抽出し、外部へ取り出す処理であることを特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012334A JP5482223B2 (ja) | 2010-01-22 | 2010-01-22 | 情報処理装置、情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012334A JP5482223B2 (ja) | 2010-01-22 | 2010-01-22 | 情報処理装置、情報処理方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011150599A JP2011150599A (ja) | 2011-08-04 |
JP2011150599A5 JP2011150599A5 (ja) | 2013-02-14 |
JP5482223B2 true JP5482223B2 (ja) | 2014-05-07 |
Family
ID=44537502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010012334A Expired - Fee Related JP5482223B2 (ja) | 2010-01-22 | 2010-01-22 | 情報処理装置、情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5482223B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5972578B2 (ja) * | 2012-01-16 | 2016-08-17 | シャープ株式会社 | 画像処理装置、画像形成装置、プログラム、記録媒体 |
JP2013238933A (ja) * | 2012-05-11 | 2013-11-28 | Sharp Corp | 画像処理装置、画像形成装置、プログラムおよびその記録媒体 |
JP6108106B2 (ja) * | 2013-06-28 | 2017-04-05 | 大日本印刷株式会社 | 文書ファイルに対する情報埋め込み装置 |
JP6229672B2 (ja) | 2015-02-06 | 2017-11-15 | コニカミノルタ株式会社 | 画像形成装置及び履歴生成方法 |
JP6938318B2 (ja) * | 2017-10-03 | 2021-09-22 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3161942B2 (ja) * | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
JP2002202966A (ja) * | 2000-12-28 | 2002-07-19 | Akinobu Kuwabara | 電子文書作成表示システムおよび電子文書作成表示方法 |
JP4148029B2 (ja) * | 2002-06-20 | 2008-09-10 | 富士ゼロックス株式会社 | 文書処理装置 |
JP2009294788A (ja) * | 2008-06-03 | 2009-12-17 | Ricoh Co Ltd | 情報処理装置、情報処理方法、制御プログラム及び記録媒体 |
-
2010
- 2010-01-22 JP JP2010012334A patent/JP5482223B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011150599A (ja) | 2011-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240037173A1 (en) | System and method for converting the digital typesetting documents used in publishing to a device-specific format for electronic publishing | |
JP5724430B2 (ja) | 情報検索装置およびプログラム | |
KR100725195B1 (ko) | 정보 처리 장치, 정보 처리 방법 및 인쇄 제어 프로그램을 기록한 기록 매체 | |
US9875220B2 (en) | Panoptic visualization document printing | |
US7606823B2 (en) | Document processing apparatus and method | |
JP2003091520A (ja) | 文書処理装置及び方法 | |
US20090204888A1 (en) | Document processing apparatus, document processing method, and storage medium | |
JP5661663B2 (ja) | 情報抽出装置 | |
JP5482223B2 (ja) | 情報処理装置、情報処理方法 | |
JP2006004402A (ja) | 書類作成支援装置、書類作成支援プログラムおよび記憶媒体、並びに書類作成支援方法 | |
WO2022014629A1 (ja) | ウェブページ処理装置、ウェブページ処理方法、および記録媒体 | |
JP4356533B2 (ja) | ドキュメント処理装置 | |
JP2006309443A (ja) | 情報処理システム、情報処理装置、情報処理端末、情報処理方法、その方法をコンピュータで実行するプログラム、および記録媒体 | |
JP2018036794A (ja) | 画像処理装置及びプログラム | |
JP4561156B2 (ja) | ドキュメント処理装置 | |
JP6080058B2 (ja) | オーサリング装置、オーサリング方法、およびプログラム | |
JP3041883B2 (ja) | 文書作成支援方法および装置 | |
JP2000076226A (ja) | 文書データの編集システム | |
JP5569178B2 (ja) | 辞書検索装置及びプログラム | |
JP4013748B2 (ja) | 文書生成装置 | |
JP2010140169A (ja) | 情報処理装置及び情報処理装置の制御方法、プログラム、記憶媒体 | |
JPH1049529A (ja) | ドキュメント作成装置 | |
JP2005165790A (ja) | 画像処理装置、画像処理方法、画像処理プログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP2013161375A (ja) | 編集システム | |
JP2005309817A (ja) | ドキュメント処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121227 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131107 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140203 |
|
LAPS | Cancellation because of no payment of annual fees |