JP2009048621A - データ提供装置、データ提供方法、及びプログラム - Google Patents

データ提供装置、データ提供方法、及びプログラム Download PDF

Info

Publication number
JP2009048621A
JP2009048621A JP2008181694A JP2008181694A JP2009048621A JP 2009048621 A JP2009048621 A JP 2009048621A JP 2008181694 A JP2008181694 A JP 2008181694A JP 2008181694 A JP2008181694 A JP 2008181694A JP 2009048621 A JP2009048621 A JP 2009048621A
Authority
JP
Japan
Prior art keywords
data
search
searched
character
irreversible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008181694A
Other languages
English (en)
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008181694A priority Critical patent/JP2009048621A/ja
Priority to EP08160810A priority patent/EP2026219A1/en
Priority to US12/219,664 priority patent/US8166057B2/en
Publication of JP2009048621A publication Critical patent/JP2009048621A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

【課題】本発明は、データの機密を保持しつつデータの検索を効率的に行うデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体に関する。
【解決手段】画像検索システム1は、画像検索装置10が、その被検索データ蓄積部44に、登録者装置20によって不可逆コード変換された被検索データが蓄積され、利用者装置30からクエリーワードが入力されると、該入力されたクエリーワードを不可逆コード変換部41で同じ不可逆符号化方式で不可逆コード変換して、照合処理部42が、不可逆コード変換されたクエリーワードと被検索データ蓄積部44から文書取り出し部43の取り出した不可逆コード変換されている被検索データとを照合して検索する。したがって、被検索データの機密を確実に確保することができる。
【選択図】 図1

Description

本発明は、データ提供装置、データ提供方法、及びプログラムに関し、詳細には、データ検索を効率的に行うデータ提供装置、データ提供方法、及びプログラムに関する。
近年、情報化が進み、各種データが電子化されて各種利用に供されている一方で、電子化されたデータの機密保持が重要な課題となっている。
従来、一般的なデータ検索システムは、図22に示すような文書検索システムに適用され、文書検索システム100は、サービス提供者装置110とサービス利用者装置120がネットワーク等で接続されている。サービス提供者装置110は、サーバ装置やパーソナルコンピュータ等が用いられ、被検索データ蓄積部111、文書取り出し部112及び照合処理部113等を備えている。サービス利用者装置120は、パーソナルコンピュータ等が用いられ、クエリーワードの入力される入力部121及び液晶ディスプレイ等の表示部122等を備えている。
サービス利用者装置120は、サービス提供者装置110に対してデータの検索、更新、削除等の命令を発行する検索文字列であるクエリーワードを、入力部121から入力し、検索結果をサービス提供者装置110から受け取ると、該受け取った検索結果を表示部122に表示出力する。
サービス提供者装置110は、被検索データ蓄積部111が、検索対象の文書データを蓄積しており、サービス利用者装置120からクエリーワードが入力されると、文書取り出し部112が被検索データ蓄積部111から文書データを取り出して照合処理部113に渡す。照合処理部113は、サービス利用者装置120から入力されたクエリーワードと文書取り出し部112から受け取った文書データを照合して、照合結果をサービス利用者装置120に渡す。
このような検索システムとしては、例えば、書籍販売を行っているインターネットサイトのAmazon社がある。このような書籍販売の検索システムは、書名や著者名等の書誌的な情報を被検索データとして公開して、利用者が検索できるようにし、所望の書籍を見つけることができるようにして、書籍の購入を促している。また、書籍販売検索システムは、一部の書籍の内容を電子化して、書籍の内容をも検索対象にすることによって、利用者が所望の書籍をより適切かつ確実に見つけることができるように便宜を図っている(「なか見!検索」)。
このような書籍販売検索システムにおいては、クエリーワードに合致した書籍全体を閲覧可能とすることは書籍販売を妨げることになるため、印刷不可能な状態にするとともに、クエリーワードの前後の書籍内容のみに限定して表示可能としている。
すなわち、文書検索システム等のデータ検索システムにおいては、データの機密を如何に保持するかが重要な課題となっており、特に、被検索データが著作権で保護されるべきデータである場合には、該被検索データを厳重に管理する必要があり、管理コストが大きな負担となる。このような場合、被検索データを使用者に配布することはできず、検索サービス提供者側が管理する必要があり、例えば、クエリーワードを含む所定範囲のデータのみを印刷不可能な状態で提供する技術(特許文献1参照)やデータを可逆の符号化(暗号化)方式で符号化して提供し、復号鍵の入力等に基づいて復号してデータ内容を提示する技術(特許文献2の段落「0002」等参照)が用いられている。
特開平11−282867号公報 特開2006−48464号公報
しかしながら、上記従来技術にあっては、データとして一部のみを公開したり、可逆符号化方式で符号化したデータを提供しているため、データ検索システムの利用性を図りつつデータの保護を図る上で改良の必要があった。
すなわち、データの一部のみ公開する従来技術では、書籍全体を読むことに主に意味のある小説等は、一部だけを公開しても利用者の目的を満足することにはならず、書籍購入を取り止めることが少なく、書籍販売検索システムでは効果的であるが、技術書や実用書等は、クエリーワードに関連する情報だけを入手すれば、利用者は目的を達成することができる場合があり、このような場合、クエリーワード前後の内容を見るだけで満足して、書籍購入を取り止める恐れがあり、改良の必要があった。
また、従来、印刷不可能な状態でデータを提供する従来技術では、印刷を不可能な状態としても、画面表示そのものを印刷すれば情報としては十分である場合も多く、データのコンテンツの二次利用防止の抑止力としては不十分であり、改良の必要があった。
さらに、従来、データを可逆符号化方式で提供する従来技術では、符号化されたデータを符号化された状態のまま検索することは一般に困難であり、所望するクエリーワード(検索文字)が含まれているか否かを確認するためには、一般的に、復号化して検索する必要があるが、符号を復号する方法には統一的な方法は存在せず、符号の種類別に復号装置を用意する必要があり、装置が複雑で大型化するだけでなく、コストが高くつくという問題があった。また、可逆符号化方式で符号化されており、符号データが復号鍵を用いて復号することができるようになっているため、復号鍵が漏れたり、解読されると、被検索データの全てのコンテンツが知られ、機密を保つことができないという問題があった。
したがって、書籍の検索システムの場合、書籍の著作権者や出版社が、書籍の元になった電子データの提供を躊躇するおそれがあり、内容を検索可能な書籍が増えない結果となって、利用者が所望の書籍に到達する機会が少なくなり、出版社の潜在的な利益も損なわれることとなる。
そこで、本発明は、被検索データの機密を確実に保護しつつ安価に検索の利用性を向上させることのできるデータ提供装置、データ提供方法、及びプログラムを提供することを目的としている。
データ提供装置、データ提供方法、及びプログラムは、入力された検索クエリーを含む被検索データを提供するため、所定の方式により不可逆符号化された前記被検索データと、該被検索データに対する検索結果として提供する検索結果情報とを対応付けて記憶する記憶手段を用い、入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化し、不可逆符号化された前記検索クエリーをキーとして、不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得し、取得された前記検索結果情報を提供する。
ここで上記記憶手段は、不可逆変換された、被検索データの形状特徴を記憶しており、前記の如く入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化する際、入力された前記検索クエリーの形状特徴を前記所定の方式と同一の方式により不可逆符号化するようにしてもよい。
また前記の如く不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得する際、前記検索クエリーに対応する複数の不可逆符号化された前記被検索データを抽出し、各被検索データに対応付けられている前記検索結果情報を取得するようにしてもよい。
本発明によれば、被検索データを不可逆符号化した状態で検索対象とし、検索文字を該被検索データと同一の方式によって不可逆符号化して該検索対象を検索するので、被検索データの機密を確実に確保することができる。
以下、本発明の好適な実施例を添付図面に基づいて詳細に説明する。なお、以下に述べる実施例は、本発明の好適な実施例であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
図1〜図6は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第1実施例を示す図であり、図1は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第1実施例を適用したデータ検索システム1のシステム構成図である。
図1において、データ検索システム1は、検索サービス提供者のデータ検索装置10、被検索データの登録者の登録者装置20、及び検索サービス利用者の利用者装置30からなり、インターネットやLAN(Local Area Network)等の有線または無線の通信回線(ネットワーク)NWで接続されている。
利用者装置30は、通常のハードウェア及びソフトウェア構成のパーソナルコンピュータ等が用いられ、そのキーボード等の入力手段である入力部31(図3参照)から入力されたクエリーワード(検索クエリー)を通信回線NWを介してデータ検索装置10に送って、データ検索装置10に画像検索を依頼する。データ検索装置10から検索結果が送られてくると、該検索結果を液晶ディスプレイ等の出力手段である表示部32(図3参照)に表示出力したり、接続されているプリンタに印刷出力させて出力する。
データ検索装置10は、例えば、図2に示すようなハードウェア構成のコンピュータが用いられ、CPU(Central Processing Unit )11、メモリ12、通信部13、表示部14、ハードディスク15、入力部16、CD−ROM(Compact Disc Read Only Memory )ドライブ17及びFD(フレキシブルディスク)ドライブ18等を備え、主要各部は、バス19で接続されている。
メモリ12は、ROM(Read Only Memory)やRAM(Random Access Memory)等で構成され、基本プログラムやデータ検索装置10としてのデータ検索プログラムが格納されているとともに、CPU11によりワークメモリとして利用される。なお、プログラムは、メモリ12に格納されている場合に限るものではなく、ハードディスク15に格納されていてもよい。
CPU11は、メモリ12またはハードディスク15のプログラムに基づいてメモリ12をワークメモリとして利用してデータ検索装置10の各部を制御し、データ検索装置10としての基本処理を実行するとともに、後述する本発明のデータ検索処理を実行する。
通信部13は、通信回線NWに接続され、通信回線NWに接続されている登録者装置20や利用者装置30と通信して、登録者装置20及び利用者装置30との間でデータや制御信号の授受を行う。
表示部14は、例えば、CRT(陰極線管:Cathode Ray Tube)や液晶ディスプレイ等が用いられ、CPU11の制御下で、各種情報を表示出力する。
ハードディスク(記憶手段)15は、各種データ、特に、検索対象としての被検索データを蓄積する。すなわち、データ検索装置10は、通信回線NWを介して登録者装置20から登録依頼とともに送られてくる被検索データを、ハードディスク15に登録して、利用者装置30からのデータ検索に供する。この被検索データは、後述するように、所定の不可逆符号化方式で符号化された状態でハードディスクに蓄積される。
入力部16は、キーボード、マウス等のポインティングデバイス、音声入力デバイス等の入力デバイスであり、データ検索装置10を動作させるのに必要な各種操作や各種情報の入力が行われる。
CD−ROMドライブ17には、図示しないCD−ROMが着脱可能に挿入され、CD−ROMドライブ17は、CPU11の制御下で、CD−ROMに記録されているデータを読み出す。
FDドライブ18には、図示しないFDが着脱可能に挿入され、FDドライブ18は、CPU11の制御下で、FDへのデータの書き込みやFDに書き込まれているデータの読み出し、削除、変更等を行う。
そして、データ検索装置10は、データ検索プログラムの記録されている記録媒体としてのCD−ROMまたはFDから該データ検索プログラムを、CD−ROMドライブ17またはFDドライブ18を介して読み取って、メモリ12またはハードディスク15にロードして実行することで、図3に示すような機能ブロックを備えて、後述するデータ検索処理を実行するデータ検索装置10として構築されている。
図3において、データ検索装置10は、不可逆コード変換部41、照合処理部42、文書取り出し部43及び被検索データ蓄積部44等を備えており、不可逆コード変換部41、照合処理部42及び文書取り出し部43の機能は、上記CPU11により実現され、被検索データ蓄積部44の機能は、上記ハードディスク15により実現される。
被検索データ蓄積部(記憶手段)44は、所定の不可逆符号化方式で不可逆コード変換された検索対象である被検索データを蓄積しており、データ検索装置10は、登録者装置20から通信回線NW及び通信部13を介して不可逆符号化された被検索データが送られてくると、この被検索データを被検索データ蓄積部44に蓄積する記憶処理を行う。さらに、被検索データ蓄積部44は、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、前記分割部分の該当する被検索データ中のページ番号、行番号、文字位置、前記被検索データを示す識別情報等を、不可逆コード変換後の被検索データと一緒に記憶している。なお、被検索データを示す識別情報には、被検索データが格納されている場所を示すURLや、被検索データが本であればISBN等、被検索データを一意に識別可能な情報全てが含まれる。
文書取り出し部43は、不可逆コード変換されている被検索データを被検索データ蓄積部44から取り出して、照合処理部42に渡す。
不可逆コード変換部(変換手段)41には、利用者装置30の入力部31で入力された検索文字列であるクエリーワード(検索クエリー)が通信回線NW及び通信部13を介して入力され、不可逆コード変換部41は、被検索データ蓄積部44の被検索データの不可逆符号化方式と同じ不可逆符号化方式で利用者装置30からのクエリーワードを不可逆コード変換して、照合処理部42に渡す。なお、入力部31が検索文字列であるクエリーワードを入力した場合について以下に説明するが、検索クエリーを、画像データや、音声データ等の各種情報としてもよい。
照合処理部42は、不可逆コード変換部41から渡された不可逆コード変換されているクエリーワードが文書取り出し部43から渡された不可逆コード変換されている被検索データに存在するか否か照合して抽出し、該抽出した被検索データに対応付けて被検索データ蓄積部44に記憶されている検索結果情報(ページ番号、行番号、文字位置、被検索結果の格納場所を示すURL等)を検索結果として通信部13及び通信回線NWを介して利用者装置30に送信する。したがって、照合処理部42及び文書取り出し部43は、全体として検索手段(取得手段)として機能している。
利用者装置30は、検索結果が送られてくると、該検索結果を表示部32に表示出力すること等によって出力する。
そして、登録者装置20は、通常のハードウェア及びソフトウェア構成のパーソナルコンピュータ等が用いられ、その機能ブロックとして、被検索データ蓄積部21や不可逆コード変換部22等を備えている。
被検索データ蓄積部21は、不可逆コード変換前の被検索データ、例えば、小説、技術書、実用書等の書籍データ等のデータ、特に、著作権の保護対象となるデータを蓄積する。また、不可逆コード変換部22は、被検索データ蓄積部21の被検索データを上記不可逆符号化方式で不可逆コード変換する。そして、登録者装置20は、不可逆コード変換部22の不可逆コード変換した被検索データを通信回線NWを介してデータ検索装置10に送信し、データ検索装置10は、上述のように、この登録者装置20から送られてきた被検索データを被検索データ蓄積部44に蓄積する記憶処理を実行する。
次に、本実施例の作用を説明する。本実施例のデータ検索システム1は、データ検索装置10が、被検索データを所定の不可逆符号化方式で不可逆コード変換された被検索データを蓄積し、検索文字列であるクエリーワードが入力されると、該クエリーワードを同じ不可逆符号化方式で不可逆コード変換して該不可逆コード変換後のクエリーワードで不可逆コード変換されている被検索データを検索する。
データ検索システム1は、登録者装置20から該登録者装置20の不可逆コード変換部22で所定の不可逆符号化方式で不可逆コード変換された被検索データがデータ検索装置10に送られてくると、データ検索装置10が、該不可逆コード変換された被検索データを被検索データ蓄積部44に蓄積する記憶処理を実行して、検索サービスに提供している。
この被検索データ蓄積部44の被検索データは、符号化は容易に行うことができるが、符号化されたデータを元のデータに復元することが困難な不可逆符号化方式(一方向暗号化方式ともいわれる)で不可逆コード変換されている。この不可逆符号化方式としては、例えば、DES(Data Encryption Standard)、MD5(Message Digest 5)等があるが、不可逆符号化方式としては、これらに限るものではない。
MD5の場合、その詳細については、Rivest, R.,「MD5 メッセージダイジェストアルゴリズム(The MD5 Message-Digest Algorithm)」,RFC 1321,1992年4月に記載されているが、図4に示すように、不可逆コード変換前の原文の長さに関わらず、常に128bitの固定長のハッシュが算出され、符号化文から原文を容易に復号することができないようになっている。
そして、データ検索装置10は、クエリーワードが利用者装置30から入力されると、不可逆コード変換部41で該クエリーワードを被検索データ蓄積部44に蓄積されている被検索データと同じ不可逆符号化方式で不可逆コード変換する変換処理を実行する。そして、照合処理部42が、該不可逆コード変換部41の不可逆コード変換したクエリーワードと文書取り出し部43が被検索データ蓄積部44から取り出した被検索データを照合して、クエリーワードに対応する被検索データを抽出し、該被検索データに対応付けられている検索結果情報を被検索データ蓄積部44から取得する検索処理を実行する。
すなわち、データ検索装置10は、不可逆符号化方式としてMD5を用いている場合、被検索データ蓄積部44に、被検索データ(被検索文書)として、例えば、"Hello World, Hello You"のような被検索データが、図5(a)に示すように、単語(所定分割部分)に分解され、該単語毎に、MD5で符号化された状態で蓄積されている。そして、データ検索装置10は、例えば、クエリーワードとして、"World"が利用者装置30から入力されると、不可逆コード変換部41で、MD5を用いて符号化する。なお、図5では、欧文文字の場合について示しているが、日本語のような膠着語の場合には、形態素解析を用いて、単語に分割した後、符号化する。
そして、データ検索装置10は、照合処理部42がこの不可逆コード変換部41の不可逆コード変換した符号が、文書取り出し部43が被検索データ蓄積部44から取り出した被検索データの符号に含まれているかを照合して抽出し、該抽出した被検索データに対応付けられている検索結果情報をデータ蓄積部44から取得して、検索結果として利用者装置30に送信する。上記図5の場合には、照合処理部42は、クエリーワードである"World"の符号化文"f5a7924e621e84c9280a9a27e1bcb7f6"が、図5(a)の被検索データの符号化文に含まれているか否かを調べる。この符号化文の照合方法としては、文字列検索で用いられている一般的な手法を用いることができる。
このように、本実施例のデータ検索システム1は、データ検索装置10が、その被検索データ蓄積部44に、被検索データを不可逆符号化した状態で蓄積して検索対象とし、利用者装置30から入力される検索文字であるクエリーワードを不可逆コード変換部41で被検索データと同一の方式によって不可逆符号化変換(不可逆コード変換)して、照合処理部42が、該不可逆変換されたクエリーワードと被検索データ蓄積部44から文書取り出し部43の取り出した該検索対象である不可逆コード変換されている被検索データとを照合して、検索している。
したがって、検索対象から元の被検索データを復元されることを防止して、被検索データの機密を確実に確保することができるとともに、複数の復号手段を用意することなく、検索文字を入力するだけで検索を可能として、安価にデータ検索の利用性を向上させることができる。
すなわち、本実施例のデータ検索システム1は、被検索対象文書及びクエリーワードを不可逆コードに変換し、不可逆コード同士を照合検査することによって、被検索データの内容を秘匿しながら、正当な著作物等の被検索データの所有者が検索結果を利用することができるようにして、著作権者の承諾なしに被検索データが再利用、複製、再配布されることを確実に防止することができ、著作権者の権利を保護しつつ、利用者の便宜をも図ることができる。 そして、データ検索装置10の被検索データ蓄積部44には、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、ページ番号、行番号、文字位置等が、不可逆コード変換後の被検索データと一緒に格納されている。
したがって、クエリーワードと一致した被検索データのページ番号、行番号、文字位置等の検索結果情報を検索結果として提示することができる。すなわち、書籍購入者等のように正当に著作物を購入した者にとっては検索結果の書籍中の位置だけを知れば、クエリーワードに対応する被検索データの内容(クエリーワードに対応する書籍の内容等)を知ることができるとともに、著作物を所有しない者にとっては、ページ番号等の検索結果情報は何の役にも立たず、書籍等の内容を不正に知ることができない。その結果、被検索用データを提供する著作権者等の利益を確実に確保することができ、著作権者等が被検索データを提供に対することに対する抵抗感を解消して、検索可能な書籍等の被検索データの増加を図ることができる。すなわち、書籍等の元の被検索データの不正な利用を防ぎつつ、書籍購入者等の正規の利用者の便宜を図ることができる。また、書籍の検索システムに限られず、衣服や車の検索システムにも応用することが可能である。
なお、上記説明では、データ検索システム1が、通信回線NWを介してデータ検索装置10、登録者装置20及び利用者装置30が接続されていて、登録者装置20から通信回線NWを介して不可逆コード変換した被検索データをデータ検索装置10に登録して、該データ検索装置10が該被検索データの利用者装置30からのデータ検索に供している。しかし、データ検索システム1の構成としては、上記構成に限るものではなく、例えば、検索利用者に、不可逆コード変換された被検索データ(符号化文)と該検索利用者のパーソナルコンピュータ等のコンピュータを制御するデータ検索プログラムを記録したCD−ROM等の記録媒体を提供し、該検索利用者が自己のコンピュータに該記録媒体のデータ検索プログラムを読み取らせて導入することで、図3のデータ検索装置10と利用者装置30を一体化させたようなデータ検索装置を構築させ、該利用者のコンピュータに構築されたデータ検索装置を利用して、該コンピュータのキーボード等の入力部(入力手段)から入力されたクエリーワードを不可逆コード変換して、CD−ROM上または該コンピュータのハードディスク等にコピーされた不可逆コード変換されている被検索データの検索を行うようにしてもよい。
このように、被検索データ(符号化文)自体を利用者に提供すると、ネットワークNWに接続したデータ検索装置10を提供する必要がなく、データ検索の構成を簡略化してコストを削減することができるとともに、符号化文から原文を復元することが困難であるので、原文の内容を秘匿することができる。また、この場合、利用者は検索サービスに依存することなく、自らの利用環境で検索することができ、使用感を向上させることができる。また、データ検索は、未知の情報を探すという用途の他に、過去に検索した情報の所在を探すという用途も多いため、このような場合、利用者が自らの蔵書や過去の読書歴にある書籍の検索データを利用者のコンピュータ等に蓄積しておくと、検索対象が限定される分、処理時間も短く、かつ余分な検索結果が提示されることを削減して利用性を向上させることができる。
また、データ検索システム1は、その機能構成部を上記データ検索装置10、登録者装置20及び利用者装置30に分割する状態で分散させているが、この機能構成部の分散形態は、適宜の分散形態を用いることができる。
さらに、被検索データは、原文をそのまま不可逆コード変換して蓄積するものに限るものではなく、例えば、N-gramインデックス方式で用いられるインデックステーブルを用いて、被検索データの原文データを検索に必要な情報に限定してから不可逆コード変換して検索対象としてもよい。
この場合、例えば、上記例では、N=2の場合、すなわち、bigramの場合、図6(a)に示すように、原文を、bigramでの検索に必要な情報に限定して、MD5等の不可逆符号化方式で不可逆コード変換して符号化文とする。そして、クエリーワードが入力されると、図6(b)に示すように、該クエリーワード、例えば、"World"をbigramに分割した後に不可逆コード変換して、該bigramを不可逆変換したクエリーワードの全ての符号化文が、bigramを不可逆コード変換した被検索データに含まれているか照合して検索する。
このようにすると、総当り式等の方法で符号化文から平文(原文)が解読されても、原文のbigramのリストが得られるだけであり、そのbigramのリストからは、元々の被検索データの原文を復元することができず、機密をより一層確保することができる。
図7〜図18は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第2実施例を示す図である。
なお、本実施例は、上記第1実施例のデータ検索システム1と同様のデータ検索システムに適用したものであり、本実施例の説明においては、必要に応じて上記第1実施例の説明で用いた符号をそのまま用いて説明する。
本実施例のデータ検索システム1は、被検索データが画像データの場合にも、不可逆符号化方式で不可逆コード変換、特に、該画像の形状特徴に基づいた不可逆符号化方式で不可逆コード変換する。
すなわち、電子化された被検索データは、文字データの場合、画像データで被検索データとして提供したとしても、OCR(Optical Character Reader:光学式文字読取装置)で読み取ることで、無断で文字データとして電子化されてしまう恐れがある。
そこで、本実施例のデータ検索システム1は、文字画像データを不可逆に符号化することによって、検索可能な状態であって、かつ、元の画像が復元できないようにして、被検索データが、該被検索データの提供者(著作権者等)の許可なく電子化されることを防止する。
以下、この文字画像の形状特徴(形態特徴)を利用した不可逆符号化方式による文字画像の不可逆コード変換について説明する。この形状特徴を利用した不可逆符号化方式による不可逆コード変換では、外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行う。
いま、図7に示すような文字画像の元原稿(元の被検索データ)があった場合、まず、図8に示すように、該元原稿における黒画素の外接矩形(所定分割部分)を求める外接矩形抽出処理を行い、図9に示すように、該求めた外接矩形の近隣同士を順次連結して行に成長させるという行切り出し処理を行う。これらの外接矩形抽出処理及び行切り出し処理は、周知の方法で行うことができるため、詳細な説明を省略する。
そして、外接矩形の成長を、水平方向及び垂直方向の両方で実施すると、水平行と垂直行の両方の切り出し行うことができる。
上述のようにして、文字画像の元原稿の行画像の切り出しが完了すると、行内部の画像を不可逆に符号化する量子化処理を行う。
この量子化処理は、文字画像の構成要素の黒画素連結を外接する矩形を量子化することで元原稿画像を不可逆符号化する。すなわち、黒画素連結の外接矩形から文字要素そのものを復元することができないことは明らかであるが、文字要素に依存して外接矩形の位置、大きさは変化し、文字の大まかな画像特徴(形状特徴)を表現していることも明らかである。また、一つの矩形だけでは文字を特定することは不可能であるが、文字列から導かれる複数の矩形連続については、文字列に固有な並びとなり、文字列を特定することが可能である。そして、一般的に一文字だけを検索対象とすることは稀であり、多くの場合、複数文字からなる単語を検索することが行われている。このように複数の文字列であれば、検索文字列(検索クエリー)の文字要素の外接矩形の並びに対して、被検索データに対する検索結果が複数合致する場合があっても、実用上、十分な程度に検索結果を限定することができる。
以下、外接矩形処理して行切り出し処理までを行った結果から矩形の配置状態を表す特徴の量子化処理について説明し、次に、量子化された矩形の配置状態を表す特徴からシンボルを生成するシンボル生成処理について説明する。
文字画像としては、例えば、図10(a)に示すような欧文文字の文字画像や図10(b)に示すようなアジア系文字の文字画像等があり、図10(a)の欧文文字の行内の文字要素の黒画素連結を外接する矩形(以下、行内矩形という。)と図10(b)のアジア系文字の文字画像の行内矩形を比較すると、行内矩形の並び方は、言語の種類にかかわらず、その文字行の内容に応じて変化していくことが分かる。そこで、文字の外接矩形を注目することで、文字の大まかな特徴を捉えることができる。したがって、文字そのものを特定することなく、例えば、図11に示すように、矩形座標の始点(Xs,Ys)と終点(Xe,Ye)を求め、この矩形座標の始点(Xs,Ys)と終点(Xe,Ye)を利用した文字画像の外接矩形の配置状態を表す特徴を取得するだけで、文字行の画像特徴である形状特徴を捉えることができる。なお、図11において、Hは、行高さ、hは、行内矩形の高さ、wは、行内矩形の幅、ysは、行内矩形始点の高さである。
この行内における一つの矩形は、行内矩形の始点の高さys、矩形サイズ(幅w、高さh)、行内矩形中の黒画素密度を計測することによって一義に定義され、これらの計測結果を用いて、行内矩形の配置状態を定義することができる。なお、行内矩形は、行切り出し処理の過程で既に求まっているので、文字行を特定するために、追加の特徴抽出処理を行う必要はない。
そして、上記図11は、行内矩形の配置情報を量子化するための数値算出図を示しており、原稿を特定していない状況下では、行高さは可変であり、処理が行高さの値に依存しないように、行内矩形の始点高さysを次式で正規化する。
YsRate=ys/H・・・(1)
いま、0<YsRate≦1であるので、YsRateを容易に固定段階に量子化することができる。例えば、N段階に量子化する場合、(1)式を用いて、
YsVal=INT(YsRate*(N−1))・・・(2)
(ただし、INT():小数点以下切り捨て)
とすることにより、算出することができ、各段階は、0〜(N−1)とラベル付けされる。
なお、原稿画像をスキャンして取得する場合、原稿が傾いてしまうと、原稿画像も図12に示すように傾いた状態となる。原稿画像の傾きが極端な場合には、行切り出し処理が失敗することとなるが、少々の傾きであれば、行間の空白部を利用して、行を切り出すことができる。
この原稿画像の傾きは、行内矩形の始点の高さysに注目する場合、行の僅かな傾きでも、行切り出し結果に大きく影響する。すなわち、図12に示す欧米系文字行の例のように、行矩形の終点から始点までの距離が、行高さHに対して万遍なく分布することとなり、欧米系文字行の特徴である頻度の明確な2箇所への集中が観測できなくなる。
そこで、原稿画像の傾きがあるときには、図12に破線ラインdで示すようなベースラインdを定め、ベースラインdから行内矩形の始点までの高さを求める。具体的には、行内矩形の終点座標(Xe,Ye)の分布の回帰直線を求める。回帰直線の求め方は、周知であるため、ここでは説明しないが、例えば、「工科系のための統計概論」(培風館:I・ガットマン、S・S・ウィルクス共著)等に記述されている。
上記処理により、行内矩形の始点の高さysを量子化することができ、同様に、行内矩形の高さhの量子化は、次式により実施することができ、各段階は、0〜(N−1)とラベル付けされる。
HeigtRate=h/H・・・(3)
HeigtVal=INT(HeigtRate*(N−1)+0.5)
・・・(4)
(ただし、INT():小数点以下切り捨て)
また、同様に、行内矩形の幅wの量子化は、次式により実施することができ、各段階は、0〜(N−1)とラベル付けされる。
WidthRate=w/H・・・(5)
WidthVal=INT((WidthRate*(N−1)+0.5))
・・・(6)
このように、行内矩形の始点高さys、高さh、幅wを量子化して、図13に示すように、これら複数の量子化した配置情報を画像特徴(形状特徴)として、1つの組みにまとめる。なお、図13は、行内矩形の始点高さysが4bits、行内矩形の高さhが3bits、行内矩形の幅wが1bitの合計1byteにまとめられている例を示している。
なお、画像特徴(形状特徴)としては、上記行内矩形の始点高さYs、行内矩形の高さh及び行内矩形の幅wに限るものではなく、行内矩形内部の黒画素密度、隣接矩形との中心点距離等を、検索データの機密度や利用形態等に基づく文字画像の復元の困難さに応じて適宜採用することができる。
すなわち、上記行内矩形の始点高さys、高さh、幅wは、文字の内容には感知せず、文字の構成要素の外接矩形にのみ基づいて求めたものであるが、行内矩形の配置状態が同じであっても、欧文系文字は構造が単純であるため、行内矩形内の黒画素密度が低く、アジア系文字は構造が複雑であるため、行内矩形内の黒画素密度が高い。当然のことながら、同じアジア系文字であっても、構造が簡単なひらがな・カタカナは、黒画素密度が低く、構造が複雑な漢字は、黒画素密度が高い。このように、行内矩形の黒画素密度は、文字を区別する特徴となりうる。そこで、黒画素密度(=行内矩形内の黒画素数/行内矩形内の画素の総数)も同様に量子化し、固定段階として定義して、画像特徴(形状特徴)として採用することで、復元を困難にすることができる。
このように、上記行内矩形の配置状態は、複数の測定結果によって定義することができ、この行内矩形を定義する複数の測定結果のうち、検索対象によっては、不要なものがある。例えば、被検索データがラテン系文字のみであると、黒画素密度は、不要である。すなわち、ラテン文字については、文字構造が、どの文字も同じ程度の複雑さであるので、行内矩形の黒画素密度はほぼ同程度であり、行内矩形を特徴付けることに寄与しないからである。
このように、検索文字列(検索クエリー)と被検索データの集合の性質によっては、識別に影響しない特徴が存在し、その特徴を使用することに意味がない場合がある。検索に用いる場合、複数の測定結果のうち、該当行と非該当行とを区別するに足る特徴のみを使用するようにすることで、処理効率を向上させることができる。
また、画素特徴(形状特徴)、特に、欧米系文字行とアジア系文字行における行内矩形の配置状態の違いとしては、図10に示したように、近接矩形との距離にも現れている。
欧米系文字行においては、隣接矩形との距離は正値である場合が多く、矩形同士が重複することは少ない。一方、アジア系文字行においては、隣接矩形と重複する場合が頻繁に観測される。また、アルファベットの「i」や「j」のように、矩形の垂直上に点が存在するもの、ドイツ語におけるウムラウトのように矩形上に点が2つ存在するもの、スペイン言における(N+〜:エニェ)のように矩形が存在するものがある。このような特徴を量子化することによって、行内矩形の配置状態を、より詳細に定義することができる。具体的には、図14に示す各矩形(矩形1、矩形2)において、次式により、矩形間距離dを求め、注目矩形と隣接矩形との距離の割合を固定段階に量子化する。各段階は、0〜(N−1)とラベル付けされる。
RightDistanceRate=d/H・・・(7)
(ただし、dは、矩形間距離、Hは、行高さである。)
RightDistanceVal
=INT_PLUS((RightDistanceRate*(N−1))
+0.5)・・・(8)
(ただし、INT_PLUS():正数化して、小数点以下切り捨て)
この隣接矩形との距離を用いることで、アジア系文字を多く含む行の特徴を、より詳細に定義することができ、厳密な文字行の判定を行うことができる。
次に、上記量子化された矩形の配置状態を表す特徴からシンボル(変換キー)を生成するシンボル生成処理について説明する。このシンボル生成処理では、一つの行内矩形に関する複数種類の測定結果を一つにまとめてシンボル化することで、一つの行内矩形を一つのシンボルに対応させることができる。例えば、矩形の始点高さ、矩形高さ、矩形幅の3種の情報をまとめる。仮に、上記の処理で、行内矩形の始点の高さys/Hを15段階、矩形高さh/Hを8段階、矩形幅w/Hを2段階に量子化するものとすると、図13に示したように、行内矩形の始点高さYs/Hは、15段階であるので、4bits、行内矩形の高さh/Hは、8段階であるので、3bits、行内矩形の幅w/Hは、2段階であるので、1bitの合計1byteで表現される。
また、4bits+3bits+1bit=8bitsであるので、1byteの各ビットに全情報を格納することができる。そして、これらの3種の情報を一つにまとめたシンボルの種類は、
15段階×8段階×2段階=240種
となる。なお、まとめる情報の種類及びその格納のための記憶エリア、記憶サイズは固定ではなく、識別対象である文字行を特定するのに好適な情報を適宜選択し、決定する。
なお、文字行内における空白の存在情報も、行を特徴付ける。特に、単語間に空白を挿入する習慣のあるラテン系文字行では、重要な特徴である。行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出することができる。例えば、図15において、行高さに対する矩形間距離の割合(a/H、b/H、c/H)に、閾値を設ける。そして、これら行高さに対する矩形間距離の割合と閾値とを比較して、閾値より行高さに対する矩形間距離の割合が大きい値を示した場合に空白有りと判定する。空白有りと判定された場合には、図15に示すように、シンボル系列に、空白を意味するシンボル(例えば、sSPC)を挿入する。なお図15に示される「s021」、「s124」、「s032」、「s048」、「s012」の各々が、上記シンボル生成処理で生成されたシンボルを示す。図13の場合、矩形の配置情報に対応するシンボルが240種類であることに対し、記憶領域サイズは1byteであるので、16種類(=256−240)の特別シンボルを、さらに設定することができる。空白用のシンボルsSPCは、この16種類のいずれかに対応させる。
上述のようにして被検索データの画像データに対して、外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行って、行内矩形の配置情報(形状特徴)を、図10(a)、(b)、図15に示したようなシンボル系列に変換することができる。
そこで、検索システム1は、登録者装置20が、その不可逆コード変換部22で被検索データから所定分割部分(行内矩形)毎に該分割部分に対して不可逆符号化した変換キーであるシンボル系列を生成し、該生成したシンボル系列をデータ検索装置10の被検索データ蓄積部44に保管する記憶処理を実行する。
この状態で、データ検索装置10は、利用者装置30の入力部(入力手段)31でクエリーワードを入力する入力処理が行われて、該入力されたクエリーワードが通信回線NWを介して不可逆コード変換部41に入力されると、不可逆コード変換部(変換手段)41は、該クエリーワードのテキストデータから文字列画像を生成する。このテキストデータから文字列画像の生成は、フォントジェネレータや印刷プレビュー画面を生成する技術等の一般的な技術を用いて行うことができる。不可逆コード変換部41は、該クエリーワードのテキストデータから文字列画像を生成すると、上記同様に、該文字列画像に対して、外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行って、シンボル系列に変換する変換処理を実行し、該変換したクエリーワードのシンボル系列を照合処理部42に渡す。
すなわち、例えば、いま、図16に示すように、「ソフ流・・」なるクエリーワードが入力されたとすると、この文字コードから文字列画像を生成し、該生成した文字列画像に上記外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行って、各文字コードをシンボルに変換し、該シンボルを、図17に示すように、不可逆コード列としてのシンボル系列に変換する。ただし、1文字に含まれる矩形は一つとは限らないので、1文字から複数のシンボル系列に変換されることがある。
なお、この文字コードからシンボルへの変換は、図16に示したような文字コード−シンボル対応表を予め用意して、該対応表を用いて実行してもよい。
照合処理部42は、この不可逆コード変換部41から受け取ったシンボル系列と文字取り出し部43が被検索データ蓄積部44から取り出した被検索データのシンボル系列を照合してクエリーワードのシンボル系列に対応する被検索データのシンボル系列を抽出し、該被検索データのシンボル系列に対応付けて被検索データ蓄積部44に記憶されている検索結果情報(ページ番号、行番号等)を取得して、その検索結果情報を検索結果として利用者装置30に送信する。
この場合、照合処理部42は、このクエリーワードのシンボル系列に対応する被検索データのシンボル系列の抽出においては、クエリーワードのシンボル系列に対応する被検索データのシンボル系列を複数抽出してもよい。
すなわち、不可逆コード列は、シンボルの単位が元の文字ではないシンボル系列と見なすことができ、元の文字列と同じ長さである保証はないが、クエリーワードであっても、被検索データ(被検索文書)の文字列であれば、同じ文字列から生成されるシンボル列は同じになる。
したがって、被検索データ文字列とクエリーワードが、シンボル系列に変換された後は、通常のテキスト検索技術によって照合を判定することができ、上記照合処理部42は、適切にクエリーワードのシンボル系列が被検索データのシンボル系列に含まれているかを照合して、クエリーワードのシンボル系列に対応する被検索データのシンボル系列が複数該当する場合には、該複数の被検索データのシンボル系列を抽出する。
このように、本実施例のデータ検索システム1は、データ検索装置10の被検索データ蓄積部44に、画像としての被検索データまたは画像に変換された被検索データの行内矩形(分割部分)の形状特徴を不可逆符号化方式で不可逆符号化したシンボル系列(変換キー)を記憶し、不可逆コード変換部41が、入力された検索文字であるクエリーワードを画像変換し、該変換したクエリーワード画像の形状特徴を不可逆符号化方式で不可逆符号化したシンボル系列に変換して、照合処理部42が、不可逆変換されたクエリーワードと被検索データ蓄積部44から文書取り出し部43の取り出した不可逆コード変換されている被検索データとを照合して、検索している。
したがって、検索対象から元の被検索データを復元されることをより一層防止して、被検索データの機密をより一層確実に確保することができるとともに、複数の復号手段を用意することなく、検索文字を入力するだけで検索を可能として、安価にデータ検索の利用性を向上させることができる。
そして、データ検索装置10の被検索データ蓄積部44には、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、ページ番号、行番号、文字位置等が、不可逆コード変換後の被検索データと一緒に格納されている。
したがって、クエリーワードと一致した被検索データのページ番号、行番号、文字位置等の検索結果情報を検索結果として提示することができる。
なお、上記説明では、矩形の画像特徴として、開始位置、矩形サイズ、矩形内部の黒画素密度、隣接矩形との中心点距離等の複数の特徴を例に挙げたが、使用する特徴が多くなるにつれて、元の文字画像を復元しやすくなるので、被検索データ蓄積部44に画像特徴毎等にシンボル系列に変換した被検索データを用意し、データ検索装置10のキーボード等の入力部で、所望する復元され易さの程度に応じて、画像検索に使用する画像特徴を選択設定し、該選択設定された画像特徴によって、不可逆コード変換部41が、該入力部から選択された画像特徴に応じて、利用者装置30からのクエリーワードをシンボル系列に変換して検索を行うようにしてもよい。
このようにすると、被検索データの価値に応じて秘匿性の程度を調整することができ、著作権者等の被検索データの権利者の権利保護とデータの公開の推進を同時に図ることができる。
また、文字の画像特徴は、該文字に使用されるフォント種類によって変化する。すなわち、矩形特徴は、フォントの違いに影響されにくい特徴ではあるが、全く影響されないとはいえず、クエリーワードのテキストデータから生成された文字列画像におけるフォントと、被検索データで使用されているフォントとが異なる場合、フォントが異なることから矩形特徴が変化すると、検索に失敗する可能性がある。
そこで、検索対象データにおける画像特徴に、フォント種を示すID情報を、ページ単位、行単位、矩形単位等毎に付加して、被検索データ蓄積部44に保管する。
そして、データ検索装置10は、不可逆コード変換部41で利用者装置30からのクエリーワードから文字列画像を生成する際に、被検索対象文書の画像特徴にて指定されているフォント種類にしたがって文字列画像を生成し、矩形特徴を求めた後、例えば、図18に示すように、シンボル系列に変換する。このテキストデータから文字画像を得るには、フォントデータを用いることができ、例えば、true typeフォントのようなベクトルデータを展開して文字のビットマップデータ(画像)を生成し、クエリーワード(テキスト)をシンボル系列に変換する。そこで、不可逆コード変換部41は、文字フォントセットと、文字テキストから文字フォントを展開し、テキスト文字列から文字列画像を生成した後、行内矩形シンボルに変換する機能を備えている必要がある。
このようにすると、一旦文字画像を生成した後に、行内矩形シンボルへと変換する場合、フォントセットを備えていれば、フォントの違いによる行内矩形シンボルの変動を考慮した検索を行うことができ、適切に検索処理することができる。
ところが、行内矩形シンボル系列に変換するために、全文字のフォントデータを用意する必要があるだけでなく、文字画像生成のための演算処理も必要になる。
そこで、さらに、文字毎に予め矩形シンボル変換結果を用意し、図16に示した文字コード−シンボル対応表と同様の文字毎にその文字内の矩形の配置情報を表現するシンボルを対応させた文字コード−シンボル対応表を用意することで、入力テキストの文字列から矩形シンボル系列に容易かつ速やかに変換することができる。
さらに、照合処理部42は、このクエリーワードのシンボル系列に対応する被検索データのシンボル系列の抽出においては、クエリーワードのシンボル系列に対応する被検索データのシンボル系列を複数抽出している。
したがって、検索利用者は、入力したクエリーワードに対応する被検索データの検索結果情報を確実に入手することができ、データ検索の利用性を向上させることができる。
図19〜図21は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第3実施例を示す図であり、図19は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第3実施例を適用したデータ検索システム50のシステム構成図である。
なお、本実施例の説明においては、上記第1及び第2実施例のデータ検索システム1と同様の構成部分には、同一の符号を付して、その詳細な説明を省略または簡略化する。
本実施例のデータ検索システム50は、データ検索装置60、登録者装置70及び利用者装置30からなり、通信回線NW(図示略)で接続されている。
利用者装置30は、第1実施例及び第2実施例の利用者装置と同様であり、少なくともクエリーワードの入力に用いられる入力部(入力手段)31とデータ検索装置60の検索結果を表示する表示部(出力手段)32等を備えている。
登録者装置70は、第1実施例及び第2実施例の登録者装置20と同様に、通常のハードウェア及びソフトウェア構成のパーソナルコンピュータ等が用いられ、その機能ブロックとして、上記同様の被検索データ蓄積部21及び不可逆コード変換部22を備えているとともに、ベクトル量子化部71及びコードブック72等を備えている。
被検索データ蓄積部21は、不可逆コード変換前の被検索データを蓄積し、不可逆コード変換部22は、被検索データ蓄積部21の被検索データを不可逆符号化方式で不可逆コード変換する。
ベクトル量子化部71は、コードブック72を用いて不可逆コード変換された被検索データをベクトル量子化する。すなわち、被検索データの文字画像から求められる矩形の配置状態を表す複数の形状特徴(矩形集合)を多次元ベクトルの各次元(集合)とみなすと、矩形を、その各特徴を用いて一つのベクトルデータに変換(ベクトル量子化)することができ、求められた代表ベクトルに順にラベル付けを行うと、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。なお、このベクトル量子化とは、周知のように、ベクトルデータの多数のバラエティから、それらを代表する小数のベクトルデータを求めることであり、ベクトル量子化に関しては、「ベクトル量子化と情報圧縮」(コロナ社:Allen Gersho,Robert M.Gray著、田崎三郎他訳)に詳細に記載されている。
このように、シンボル系列に変換することで、上記第2実施例に説明したように、その並べ傾向を学習することができる。例えば、図20に示すように、被検索データ蓄積部21に蓄積されている不可逆コード変換された被検索データから矩形の配置に関する3次元のベクトルデータを求め、それらから240種等の代表的な矩形の集合(代表ベクトル)を求めて、該代表ベクトルの集合(代表ベクトル群)をコードブック72として作成する。このコードブック72には、被検索データ蓄積部21の被検索データをベクトル変換した結果から求めた代表ベクトルのみが含まれており、データ検索装置60にコードブック62として渡される。
そして、ベクトル量子化部71は、図21に示すように、不可逆コード変換部22が不可逆コード変換した被検索データ蓄積部21の被検索データを、3次元ベクトル表現に変換し、コードブック72の代表ベクトルと照合してベクトル量子化する。登録者装置70は、このベクトル量子化した被検索データをデータ検索装置60に渡す。
データ検索装置60は、上記第1実施例及び第2実施例と同様の不可逆コード変換部41、照合処理部42及び文書取り出し部43を備えているとともに、ベクトル量子化部61、コードブック62及び被検索データ蓄積部63等を備えている。
コードブック62は、登録者装置70のコードブック72と同じコードブックが登録者装置70から渡されて登録されている。データ検索装置60は、上述のようにしてベクトル量子化された被検索データが登録者装置70から通信回線NWを介して、または、CD−ROM等によって提供されると、該被検索データを被検索データ蓄積部63に蓄積する記憶処理を実行する。
不可逆コード変換部41は、利用者装置30から入力されるクエリーワードを第2実施例と同様に文字画像変換した後に不可逆コード変換して、該不可逆コード変換した矩形特徴(形状特徴)を、ベクトル量子化部61に渡し、ベクトル量子化部61は、図21と同様に、不可逆コード変換部41から渡された不可逆コード変換されたクエリーワードをコードブック62の代表ベクトルと照合してベクトル量子化して、クエリーワードのシンボル系列として照合処理部42に渡す。したがって、不可逆コード変換部41、ベクトル量子化部61及びコードブック62は、全体として変換処理を実行する変換手段として機能している。
照合処理部42は、このベクトル量子化部61から受け取ったクエリーワードの量子化されたシンボル系列と文字取り出し部43が被検索データ蓄積部44から取り出した量子化された被検索データのシンボル系列を照合し、その照合結果を利用者装置30に送信する。
このように、本実施例のデータ検索システム50は、データ検索装置60の被検索データ蓄積部63に、画像としての被検索データまたは画像に変換された被検索データの行内矩形(分割部分)の形状特徴を不可逆符号変換した後にベクトル量子化して記憶し、不可逆コード変換部41が、検索文字であるクエリーワードを画像変換し、該変換したクエリーワード画像の形状特徴を不可逆符号変換した後にベクトル量子化して、照合処理部42が、不可逆変換されてベクトル量子化されたクエリーワードと被検索データ蓄積部44から文書取り出し部43の取り出した不可逆コード変換されてベクトル量子化された被検索データとを照合して、検索している。
したがって、検索対象から元の被検索データを復元されることをより一層確実に防止して、被検索データの機密をより一層確実に確保することができるとともに、検索文字を入力するだけで検索を可能として、データ検索の利用性を向上させることができる。
そして、データ検索装置60の被検索データ蓄積部63には、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、ページ番号、行番号、文字位置等が、不可逆コード変換後の被検索データと一緒に格納されている。
したがって、クエリーワードと一致した被検索データのページ番号、行番号、文字位置等の検索結果情報を検索結果として提示することができる。
また、被検索データ及びクエリーワードの双方を不可逆変換した後のベクトル量子化したベクトル系列を照合して検索しているので、量子化誤差に起因する照合失敗を避けることができる。
さらに、上述のように、このコードブック62には、登録者装置70で被検索データ蓄積部21の被検索データをベクトル変換した結果から求められた代表ベクトルのみが含まれているので、このコードブック62と該コードブック62でベクトル量子化された被検索データからベクトル量子化及び不可逆コード変換される前の元の被検索データを復元することは困難であり、より一層機密保持を向上させることができる。
また、ベクトル量子化を行う場合、コードブック62に収録する代表ベクトルの数(コードブックサイズ)を調整することによって、量子化の程度を調整することができる。
なお、上記説明では、データ検索システム50が、通信回線NWを介してデータ検索装置60、登録者装置70及び利用者装置30が接続されて、登録者装置70から通信回線NWを介して不可逆コード変換した後ベクトル量子化した被検索データをデータ検索装置60に登録して、該データ検索装置60が、該不可逆コード変換されてベクトル量子化されている被検索データを被検索データ蓄積部63に登録して、利用者装置30からのデータ検索に供しているが、データ検索システム50の構成としては、上記構成に限るものではなく、例えば、検索利用者に、該被検索データ(符号化文)とコードブック及び該検索利用者のパーソナルコンピュータ等のコンピュータを制御するデータ検索プログラムを記録したCD−ROM等の記録媒体を提供し、該検索利用者が自己のコンピュータに該記録媒体のデータ検索プログラムを読み取らせて導入することで、図19のデータ検索装置60と利用者装置30を一体化させたようなデータ検索装置を構築させ、該利用者のコンピュータに構築されたデータ検索装置を利用して、該コンピュータのキーボード等の入力部(入力手段)から入力されたクエリーワードをCD−ROM上または該コンピュータのハードディスク等にコピーされているコードブック62を用いて不可逆コード変換及びベクトル量子化して、CD−ROM上または該コンピュータのハードディスク等にコピーされている不可逆コード変換されている被検索データの検索を行うようにしてもよい。
このように、被検索データ(符号化文)自体を利用者に提供すると、ネットワークNWに接続したデータ検索装置60を提供する必要がなく、データ検索システム50を簡略化してコストを削減することができるとともに、符号化文から原文を復元することが困難であるので、原文の内容を秘匿することができる。また、この場合、利用者は検索サービスに依存することなく、自らの利用環境で検索することができ、使用感を向上させることができる。特に、著作物等の元の被検索データそのものが検索対象とはならず、データ検索装置60には、不可逆コードに変換後のさらにコードブック62で量子化した被検索データと、コードブック62と、ベクトル量子化手法(コードブック照合)とが渡るだけであるので、被検索データの機密性をより一層向上させることができ、著作物等の被検索データとしての提供を図ることができる。また、上記同様に、データ検索は、未知の情報を探すという用途の他に、過去に検索した情報の所在を探すという用途も多いため、このような場合、利用者が自らの蔵書や過去の読書歴にある書籍の検索データを利用者のコンピュータ等に蓄積しておくと、検索対象が限定される分、処理時間も短く、かつ余分な検索結果が提示されることを削減して利用性を向上させることができる。
さらに、データ検索システム50は、その機能構成部を上記データ検索装置60、登録者装置70及び利用者装置30に分割する状態で分散させているが、この機能構成部の分散形態は、適宜の分散形態を用いることができる。
以上、本発明者によってなされた発明を好適な実施例に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、著作物等の被検索データを該被検索データの機密を保ちつつ検索を可能とするデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体に利用することができる。
本発明の第1実施例を適用したデータ検索システムのシステム構成図である。 図1のデータ検索装置のブロック構成図である。 図2のデータ検索装置の機能ブロック構成図である。 図3のデータ検索装置による不可逆符号化方式としてのMD5による符号化の一例を示す図である。 図3のデータ検索装置による不可逆符号化方式としてのMD5によって被検索データとクエリーワードを符号化する場合の原文と符号化文の一例を示す図である。 図3のデータ検索装置による不可逆符号化方式としてbigramを用いた場合の符号化の一例を示す図である。 本発明の第2実施例のデータ検索システムで用いる文字画像の一例を示す図である。 図7の文字画像に対する外接矩形抽出処理の説明図である。 図8の外接矩形抽出処理後のデータに対する行切り出し処理の説明図である。 欧文文字とアジア系文字の行内矩形の配置状態を示す特徴からシンボルを生成した例を示す図である。 行内矩形の配置状態を表す特徴の量子化方法の説明図である。 スキャン画像が傾いている場合の行切り出し処理の説明図である。 複数の量子化配置情報を画像特徴として1つの組みにまとめる例を示す図である。 矩形間距離の量子化の説明図である。 矩形間距離に基づく空白シンボルの挿入処理の説明図である。 文字コードと矩形シンボルの対応表の一例を示す図である。 図16の文字コードと矩形シンボルの対応表を用いたクエリーワードの矩形シンボルへの変換例の一例を示す図である。 クエリーワードをフォントに応じた矩形シンボルに変換する一例を示す図である。 本発明の第3実施例を適用したデータ検索システムのシステム構成図である。 図19のデータ検索システムによるコードブック作成処理の説明図である。 図19のデータ検索システムによるクエリーワードのベクトル量子化処理の説明図である。 従来のデータ検索システムの要部概略ブロック構成図である。
符号の説明
1 データ検索システム
10 データ検索装置
11 CPU
12 メモリ
13 通信部
14 表示部
15 ハードディスク
16 入力部
17 CD−ROMドライブ
18 FDドライブ
19 バス
20 登録者装置
21 被検索データ蓄積部
22 不可逆コード変換部
30 利用者装置
31 入力部
32 表示部
41 不可逆コード変換部
42 照合処理部
43 文書取り出し部
44 被検索データ蓄積部
NW 通信回線

Claims (7)

  1. 入力された検索クエリーを含む被検索データを提供するためのデータ提供装置であって、
    所定の方式により不可逆符号化された前記被検索データと、該被検索データに対する検索結果として提供する検索結果情報とを対応付けて記憶する記憶手段と、
    入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化する変換手段と、
    不可逆符号化された前記検索クエリーをキーとして、不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得する取得手段と、
    取得された前記検索結果情報を提供する提供手段と、
    を備えていることを特徴とするデータ提供装置。
  2. 前記記憶手段は、不可逆変換された、被検索データの形状特徴を記憶しており、
    前記変換手段は、入力された前記検索クエリーの形状特徴を前記所定の方式と同一の方式により不可逆符号化することを特徴とする請求項1記載のデータ提供装置。
  3. 前記取得手段は、前記検索クエリーに対応する複数の不可逆符号化された前記被検索データを抽出し、各被検索データに対応付けられている前記検索結果情報を取得することを特徴とする請求項1または請求項2記載のデータ提供装置。
  4. 入力された検索クエリーを含む被検索データを提供するためのデータ提供方法であり、所定の方式により不可逆符号化された前記被検索データと、該被検索データに対する検索結果として提供する検索結果情報とを対応付けて記憶する記憶手段を用いるデータ提供方法であって、
    入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化する変換段階と、
    不可逆符号化された前記検索クエリーをキーとして、不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得する取得段階と、
    取得された前記検索結果情報を提供する提供段階と、
    を実行することを特徴とするデータ提供方法。
  5. 前記記憶手段は、不可逆変換された、被検索データの形状特徴を記憶しており、
    前記変換段階では、入力された前記検索クエリーの形状特徴を前記所定の方式と同一の方式により不可逆符号化することを特徴とする請求項4記載のデータ提供方法。
  6. 前記取得段階では、前記検索クエリーに対応する複数の不可逆符号化された前記被検索データを抽出し、各被検索データに対応付けられている前記検索結果情報を取得することを特徴とする請求項4または請求項5記載のデータ提供方法。
  7. 請求項4乃至6のうちの何れか一項記載のデータ提供方法をコンピュータに実行させるためのプログラム。
JP2008181694A 2007-07-26 2008-07-11 データ提供装置、データ提供方法、及びプログラム Pending JP2009048621A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008181694A JP2009048621A (ja) 2007-07-26 2008-07-11 データ提供装置、データ提供方法、及びプログラム
EP08160810A EP2026219A1 (en) 2007-07-26 2008-07-21 Data providing apparatus, data providing method and program
US12/219,664 US8166057B2 (en) 2007-07-26 2008-07-25 Data providing apparatus, data providing method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007195255 2007-07-26
JP2008181694A JP2009048621A (ja) 2007-07-26 2008-07-11 データ提供装置、データ提供方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2009048621A true JP2009048621A (ja) 2009-03-05

Family

ID=40331788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008181694A Pending JP2009048621A (ja) 2007-07-26 2008-07-11 データ提供装置、データ提供方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2009048621A (ja)
CN (1) CN101359338A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014194662A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd データ検索方法、データ検索プログラムおよび中継装置
JP6038427B1 (ja) * 2016-01-15 2016-12-07 三菱電機株式会社 暗号化装置、暗号化方法、暗号化プログラム及び保管装置
JP2019020795A (ja) * 2017-07-12 2019-02-07 富士ゼロックス株式会社 文書管理装置、文書管理システム及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426431A (zh) * 2015-11-02 2016-03-23 国云科技股份有限公司 一种面向分布式资源站点的搜索系统及其实现方法
CN111881465B (zh) * 2020-08-03 2021-05-18 朱捷 一种不可逆文字、字母和数字信息加密比对方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278970A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 文書管理システム
JP2004061976A (ja) * 2002-07-30 2004-02-26 Yuka Hirakawa 地図帳検索支援システム、地図帳のページ情報提供方法
JP2005242579A (ja) * 2004-02-25 2005-09-08 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
JP2007052698A (ja) * 2005-08-19 2007-03-01 Kddi Corp 暗号化された文書のためのインデックス生成および検索方法ならびに暗号化文書検索システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278970A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 文書管理システム
JP2004061976A (ja) * 2002-07-30 2004-02-26 Yuka Hirakawa 地図帳検索支援システム、地図帳のページ情報提供方法
JP2005242579A (ja) * 2004-02-25 2005-09-08 Ricoh Co Ltd 文書処理装置、文書処理方法、および文書処理プログラム
JP2007052698A (ja) * 2005-08-19 2007-03-01 Kddi Corp 暗号化された文書のためのインデックス生成および検索方法ならびに暗号化文書検索システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014194662A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd データ検索方法、データ検索プログラムおよび中継装置
JP6038427B1 (ja) * 2016-01-15 2016-12-07 三菱電機株式会社 暗号化装置、暗号化方法、暗号化プログラム及び保管装置
JP2019020795A (ja) * 2017-07-12 2019-02-07 富士ゼロックス株式会社 文書管理装置、文書管理システム及びプログラム
US11250152B2 (en) 2017-07-12 2022-02-15 Fujifilm Business Innovation Corp. Document management apparatus, document management system, and non-transitory computer readable medium

Also Published As

Publication number Publication date
CN101359338A (zh) 2009-02-04

Similar Documents

Publication Publication Date Title
US6782509B1 (en) Method and system for embedding information in document
Shirali-Shahreza et al. A new approach to Persian/Arabic text steganography
US9984046B2 (en) Font delivery system and font delivery method
US8812870B2 (en) Confidentiality preserving document analysis system and method
US8166057B2 (en) Data providing apparatus, data providing method and program
JP5471065B2 (ja) 文書情報生成装置、文書登録システム、及びプログラム
CN100397864C (zh) 图像处理系统及图像处理方法
Heather Turnitoff: Identifying and fixing a hole in current plagiarism detection software
US20030145206A1 (en) Document authentication and verification
US20030061316A1 (en) Variable length file header apparatus and system
US20050053258A1 (en) System and method for watermarking a document
JP2005108254A (ja) アイコン生成方法、アイコン選択方法及び文書検索方法
KR20010095343A (ko) 디지털 증명서의 발급 및 인증을 위한 텍스트의 삽입 방법및 장치
EP0798619A2 (en) Identification of electronic documents
Taleby Ahvanooey et al. An innovative technique for web text watermarking (AITW)
US11281783B2 (en) Systems and methods for creating enhanced documents for perfect automated parsing
Memon et al. EVALUATION OF STEGANOGRAPHY FOR URDU/ARABIC TEXT.
JP2009048621A (ja) データ提供装置、データ提供方法、及びプログラム
US8976003B2 (en) Large-scale document authentication and identification system
Alanazi et al. Involving spaces of unicode standard within irreversible Arabic text steganography for practical implementations
JP2011221894A (ja) セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置
US11188707B1 (en) Systems and methods for creating enhanced documents for perfect automated parsing
KR20100067316A (ko) 문서식별자의 삽입방법 및 그의 해독방법
JP7222766B2 (ja) 印刷物を介したメタ情報伝達システム、印刷制御装置、印刷物読取装置、印刷物に対するメタ情報付与方法および印刷物からのメタ情報取得方法
JP2020030722A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130305