JP2006166091A - 文書処理装置、文書処理方法 - Google Patents

文書処理装置、文書処理方法 Download PDF

Info

Publication number
JP2006166091A
JP2006166091A JP2004355387A JP2004355387A JP2006166091A JP 2006166091 A JP2006166091 A JP 2006166091A JP 2004355387 A JP2004355387 A JP 2004355387A JP 2004355387 A JP2004355387 A JP 2004355387A JP 2006166091 A JP2006166091 A JP 2006166091A
Authority
JP
Japan
Prior art keywords
document
image
digital watermark
character
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004355387A
Other languages
English (en)
Inventor
Keiko Nakanishi
恵子 中西
Kitahiro Kaneda
北洋 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004355387A priority Critical patent/JP2006166091A/ja
Publication of JP2006166091A publication Critical patent/JP2006166091A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 イメージベースの文書に電子透かしとOCR結果を同時に埋め込むことが望まれている。
【解決手段】 本発明は、イメージに文書用電子透かしを埋め込む前に文字認識処理を行う。このように構成することにより、精度の高い検索インデックスを生成すると同時に、文書用電子透かしを埋め込んでセキュリティ対策を施すことが可能となった。
【選択図】 図2

Description

本発明は、文書にOCRコードと電子透かしを同時に埋め込むものに関する。
近年、インターネット上での文書のやりとりが、ブロードバンド化の急速な普及に符丁を合わせるかのごとく拡がりを見せている。
インターネット上で画像などのデジタル化されたデータが流通する際の著作権保護手段として、電子透かしが注目されている。電子透かしとは、画像などのデジタル化されたデータを操作して、人間が知覚できないように情報を埋め込む技術である。
多値画像に対する電子透かしの技術は、一般的に画素の濃度の冗長性を利用しており、種々の方法が知られているが、2値画像である文書画像は冗長度が少なく、電子透かしの技術を実現するのは困難である。しかしながら、文書画像特有の特徴を利用した幾つかの方式が知られている。例えば、特許文献1では、単語間の空白長を利用してデータを埋め込んでいる。
一方、スキャナで読み取った文書イメージを文字認識し、文字認識結果として得たテキストデータと前記文書イメージデータとを対応付けて保存しておくことにより、検索語句によりイメージデータを検索な技術が開発されている(例えば特許文献2)。このようなイメージデータとテキストデータとを対応付けて格納するフォーマットとして、PDF(Portable Document Format)などを利用することが可能である。
特開平9−186603号公報 特開平7−093374号公報
このような状況で、検索容易性とセキュリティ対策を両立させるためには、前記イメージベースのPDFに、電子透かし埋め込みとOCRで得たテキストデータとを同時に適用することが望まれる。
しかしながら、一般に前記文書画像用電子透かしは、文字画像に直接手を加える場合が多く、画像品位のダメージは避けられない。従って前記イメージベースのPDFに電子透かしを埋め込んだあとにOCR処理を行った場合、OCR精度が悪くなってしまうという問題があった。
上記課題を解決するために、本発明の文書処理装置は、文書画像を入力する文書入力手段と、前記文書入力手段により入力された文書画像から文字画像を抽出し、当該抽出された文字画像に対して文字認識処理を行うことにより文字コードを取得する文字認識手段と、前記文書画像に電子透かしを埋め込む電子透かし埋込手段と、前記電子透かし埋込手段で電子透かしが埋め込まれた文書画像と、前記文字認識手段で取得した文字コードとを合成することにより、所定フォーマットの文書を生成する文書生成手段とを備えることを特徴とする。
上記課題を解決するために、本発明の文書処理方法は、文書画像を入力する文書入力ステップと、前記文書入力ステップにより入力された文書画像から文字画像を抽出し、当該抽出された文字画像に対して文字認識処理を行うことにより文字コードを取得する文字認識ステップと、前記文書画像に電子透かしを埋め込む電子透かし埋込ステップと、前記電子透かし埋込ステップで電子透かしが埋め込まれた文書画像と、前記文字認識ステップで取得した文字コードとを合成することにより、所定フォーマットの文書を生成する文書生成ステップとを備えることを特徴とする。
本発明によれば、文字認識を文書用電子透かしを埋め込む前に行うことにより、精度の高い検索インデックスを生成すると同時に、文書用電子透かしを埋め込んでセキュリティ対策を施すことが可能となった。
(実施例1)
以下、図面を参照して本発明の実施形態を詳細に説明する。
図1は、本発明の実施の形態に係る文書処理装置の概略構成を示すブロック図である。
図1において、2は処理対象文書を入力するスキャナ、カメラ、処理対象文書を入力するネットワーク、ファイル読み込み装置、あるいはテキストデータ、ベクトルデータ等の電子文書データをラスタライズする入力手段、4は各種処理を行うプロセッサ、6はプロセッサ4への命令を入力するキーボード、8は読み込んだ文書画像、あるいは変換されたPDFファイルを保存するディスク、10はプロセッサ4において為される各種処理の一時データ記憶、あるいは画像入力手段2で読み込んだ文書画像を蓄積するメモリ、12はプロセッサ4への命令入力、および処理の状態を示すディスプレイ、14は処理されたPDFファイルを出力するプリンタ、ネットワーク等の出力手段である。
次に、図2概略フローを用いて本発明の文書処理の概要について説明する。
S200では、イメージベースPDFファイルを入力し、メモリへ展開する。
S202では、PDFファイルに透かしとして埋め込むべき情報、例えば文書識別情報(ID、金額、住所、氏名、生年月日、オリジナルデータのポインタなど)を入力する。
S204では、S200でメモリ上に展開されたイメージベースPDFの画像抽出、及び変換を行う。すなわち、PDFコードを解釈し、画像部を抽出し、圧縮されている場合はエンコードし、メモリ上に展開する。
S206では、S204で展開された文書画像中の文字領域を抽出する。
S208では、S206で抽出された文字領域に対し文字認識を行い、文字コードを抽出する。
S210では、S202で入力された情報を、S206で抽出された文字領域に電子透かしとして埋め込む。
S212では、S210で電子透かしを埋め込まれた画像と、S208で抽出された文字コードを束ねてPDFに変換し、メモリ上に展開する。
S214では、S212で展開されたメモリ上のPDFをファイルとして出力する。
以下図を参照して本発明の主眼を為す、文字領域抽出手段(S206)、文字認識手段(S208)、電子透かし埋込み手段(S210)の制御処理の動作詳細を説明する。
[文字領域抽出手段(S206)]
文書画像解析技術は本来、文字認識技術の要素技術の一つであり、入力された文書画像に対して、文字領域やグラフ等の図形の領域などへの分割と、文字領域に対しては、射影を用いて文字単位での切り出しを行うものである。例として、特開平6−68301を挙げることができる。ここでは、基本的には本提案をベースに実現させるものとする。
[文字認識手段(S208)]
文字認識技術は、古くから多種多様の手法が提案されているが、本実施例では、基本的には、文字輪郭の方向成分の分布を利用する方式を前提とする。例えば、特公平2−59507などを挙げることができる。
[電子透かし埋め込み手段(S210)]
電子透かし埋め込み手法について述べる。まず図3において、S206において抽出された文字領域に対し、文字要素毎に外接矩形が抽出される。その結果が(0104)である。文字要素とは、射影を用いて抽出された矩形領域内の、一つの文字か文字の構成要素(へん、つくり等)を示す。
また、抽出された外接矩形の情報から、外接矩形間の空白長を算出する。後述する埋め込み規則に基づき、1bitを埋め込むための文字の外接矩形内の領域を左右にシフトすることで、電子透かし情報(0106)を埋め込んだ文書画像(0105)を生成(0103)する。
次に埋め込み原理について述べる。図4のように、文字の間隔をP,Sと順に定める。2つの空白で1ビットを表すものとし、埋め込む透かしビットが0ならばP>Sになるように、1ならばP<SになるようにPとSに挟まれた文字要素をシフトする。抽出の際にはP>Sならば透かしビットは0,P<Sならば透かしビットは1とする。
以上述べてきたように、イメージベースPDFにおける文字認識を文書用電子透かしを埋め込む前に行うことにより、精度の高い文字認識が可能となると同時に、任意の文書用電子透かしを埋め込むことが可能となった。
(実施例2)
第1の実施例では、文書用電子透かしとして外接矩形間の空白長を利用した手法を使用していたが何もこれに限ることは無く、例えば、文字の回転を用いる方式(中村、松井:“和文書へのシール画像による電子透かし”,情報処理学会論文誌,Vol38 No.11 Nov.1997)や、文字の大小関係を用いる方式(小西、梅村、岩城:“文書画像の入力ノイズに耐性のある電子透かし法の一検討”,コンピュータセキュリティ4−2,1999.3.5)など、文書画像を直接操作する電子透かし手法であれば、どれでも効果は高い。
(その他の実施例)
なお、上述したような本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、コンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
以上述べたように本発明によれば、文字認識を文書用電子透かしを埋め込む前に行うことにより、精度の高い検索インデックスを生成すると同時に、文書用電子透かしを埋め込んでセキュリティ対策を施すことが可能となった。
本発明の実施の形態に係る文書処理装置の概略構成を示すブロック図 本発明の実施の形態に係る文書処理装置の処理概略フロー 電子透かし埋め込み手法概要 電子透かし埋め込み原理

Claims (9)

  1. 文書画像を入力する文書入力手段と、
    前記文書入力手段により入力された文書画像から文字画像を抽出し、当該抽出された文字画像に対して文字認識処理を行うことにより文字コードを取得する文字認識手段と、
    前記文書画像に電子透かしを埋め込む電子透かし埋込手段と、
    前記電子透かし埋込手段で電子透かしが埋め込まれた文書画像と、前記文字認識手段で取得した文字コードとを合成することにより、所定フォーマットの文書を生成する文書生成手段と
    を備えることを特徴とする文書処理装置。
  2. 前記文書入力手段で入力される文書画像は、PDF文書を展開してデコードすることによって得た文書画像であることを特徴とする請求項1に記載の文書処理装置。
  3. 前記電子透かし埋込手段では、前記文書画像内の文章画像領域に対して、前記電子透かしを埋め込むことを特徴とする請求項1に記載の文書処理装置。
  4. 前記電子透かし埋込手段で電子透かしが埋め込まれる文書画像は、前記文字認識手段で処理済の文書画像であることを特徴とする請求項1に記載の文書処理装置。
  5. 前記文書生成手段で生成される文書のフォーマットはPDFであることを特徴とする請求項1に記載の文書処理装置。
  6. 前記文書生成手段で生成された文書を外部に出力する出力手段を更に有することを特徴とする請求項1に記載の文書処理装置。
  7. 文書画像を入力する文書入力ステップと、
    前記文書入力ステップにより入力された文書画像から文字画像を抽出し、当該抽出された文字画像に対して文字認識処理を行うことにより文字コードを取得する文字認識ステップと、
    前記文書画像に電子透かしを埋め込む電子透かし埋込ステップと、
    前記電子透かし埋込ステップで電子透かしが埋め込まれた文書画像と、前記文字認識ステップで取得した文字コードとを合成することにより、所定フォーマットの文書を生成する文書生成ステップと
    を備えることを特徴とする文書処理方法。
  8. 文書画像を入力する文書入力ステップと、
    前記文書入力ステップにより入力された文書画像から文字画像を抽出し、当該抽出された文字画像に対して文字認識処理を行うことにより文字コードを取得する文字認識ステップと、
    前記文書画像に電子透かしを埋め込む電子透かし埋込ステップと、
    前記電子透かし埋込ステップで電子透かしが埋め込まれた文書画像と、前記文字認識ステップで取得した文字コードとを合成することにより、所定フォーマットの文書を生成する文書生成ステップと、
    の各ステップをコンピュータに実行させるためのコードを含むことを特徴とするコンピュータプログラム。
  9. 請求項8に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
JP2004355387A 2004-12-08 2004-12-08 文書処理装置、文書処理方法 Withdrawn JP2006166091A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004355387A JP2006166091A (ja) 2004-12-08 2004-12-08 文書処理装置、文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004355387A JP2006166091A (ja) 2004-12-08 2004-12-08 文書処理装置、文書処理方法

Publications (1)

Publication Number Publication Date
JP2006166091A true JP2006166091A (ja) 2006-06-22

Family

ID=36667582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004355387A Withdrawn JP2006166091A (ja) 2004-12-08 2004-12-08 文書処理装置、文書処理方法

Country Status (1)

Country Link
JP (1) JP2006166091A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009111984A (ja) * 2007-10-11 2009-05-21 Canon Inc 情報処理装置及び情報処理方法、並びに、コンピュータプログラム及びコンピュータ可読記録媒体
JP2014049782A (ja) * 2012-08-29 2014-03-17 Kyocera Document Solutions Inc 画像読取装置、文書管理システム、及び画像読取制御プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009111984A (ja) * 2007-10-11 2009-05-21 Canon Inc 情報処理装置及び情報処理方法、並びに、コンピュータプログラム及びコンピュータ可読記録媒体
JP2014049782A (ja) * 2012-08-29 2014-03-17 Kyocera Document Solutions Inc 画像読取装置、文書管理システム、及び画像読取制御プログラム
CN103685834A (zh) * 2012-08-29 2014-03-26 京瓷办公信息系统株式会社 图像读取装置及文件管理系统

Similar Documents

Publication Publication Date Title
JP3977216B2 (ja) 情報処理装置及び方法及び情報処理プログラム及び記憶媒体
JP4921065B2 (ja) 情報処理装置及び方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
EP1291819A2 (en) Digital watermark embeddig
JP4510092B2 (ja) 電子透かしの埋め込み及び検出
JP2002232685A (ja) 電子透かし処理装置、情報処理装置、ディジタルコンテンツ配布システム、電子透かし挿入方法、及び記憶媒体
JP2008085920A (ja) 電子透かし埋め込み装置および検出装置
JP2004007463A (ja) 情報処理方法及び装置、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
US20070217651A1 (en) Information embedding apparatus, information embedding method, information extracting apparatus, information extracting method, computer program product
JP2003338924A (ja) 電子透かし抽出方法及び装置及びプログラム及び記憶媒体
JP4632443B2 (ja) 画像処理装置及び画像処理方法並びにプログラム
JP4673200B2 (ja) 印刷処理システムおよび印刷処理方法
JP2006025129A (ja) 画像処理システム及び画像処理方法
JP2006166091A (ja) 文書処理装置、文書処理方法
JP3805141B2 (ja) 画像処理方法及び装置と記憶媒体
JP2007025815A (ja) 画像処理方法、画像処理装置、デジタルカメラ及びコンピュータプログラム
JP2007156841A (ja) 画像処理方法及び画像処理装置
JP4652167B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4164458B2 (ja) 情報処理装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP2003152979A (ja) 文書印刷装置および文書印刷方法
JP3884997B2 (ja) 電子透かし埋め込み装置及び電子透かし抽出装置並びにそれらの方法、コンピュータプログラム、記録媒体
JP4260076B2 (ja) 文書作成装置、文書検証装置、文書作成方法、文書検証方法、文書作成プログラム、文書検証プログラム、文書作成プログラムを格納した記録媒体、および文書検証プログラムを格納した記録媒体
JP3814618B2 (ja) 文章処理装置、及び制御方法
JP2007081472A (ja) 画像処理装置、画像形成装置、及び画像形成システム
JP2007034923A (ja) 画像処理システム
KR100773854B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 컴퓨터 판독가능한기억 매체

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080304