JP2009048621A

JP2009048621A - データ提供装置、データ提供方法、及びプログラム

Info

Publication number: JP2009048621A
Application number: JP2008181694A
Authority: JP
Inventors: Yoshihisa Oguro; 慶久大黒
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2007-07-26
Filing date: 2008-07-11
Publication date: 2009-03-05
Also published as: CN101359338A

Abstract

【課題】本発明は、データの機密を保持しつつデータの検索を効率的に行うデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体に関する。
【解決手段】画像検索システム１は、画像検索装置１０が、その被検索データ蓄積部４４に、登録者装置２０によって不可逆コード変換された被検索データが蓄積され、利用者装置３０からクエリーワードが入力されると、該入力されたクエリーワードを不可逆コード変換部４１で同じ不可逆符号化方式で不可逆コード変換して、照合処理部４２が、不可逆コード変換されたクエリーワードと被検索データ蓄積部４４から文書取り出し部４３の取り出した不可逆コード変換されている被検索データとを照合して検索する。したがって、被検索データの機密を確実に確保することができる。
【選択図】図１

Description

本発明は、データ提供装置、データ提供方法、及びプログラムに関し、詳細には、データ検索を効率的に行うデータ提供装置、データ提供方法、及びプログラムに関する。

近年、情報化が進み、各種データが電子化されて各種利用に供されている一方で、電子化されたデータの機密保持が重要な課題となっている。

従来、一般的なデータ検索システムは、図２２に示すような文書検索システムに適用され、文書検索システム１００は、サービス提供者装置１１０とサービス利用者装置１２０がネットワーク等で接続されている。サービス提供者装置１１０は、サーバ装置やパーソナルコンピュータ等が用いられ、被検索データ蓄積部１１１、文書取り出し部１１２及び照合処理部１１３等を備えている。サービス利用者装置１２０は、パーソナルコンピュータ等が用いられ、クエリーワードの入力される入力部１２１及び液晶ディスプレイ等の表示部１２２等を備えている。

サービス利用者装置１２０は、サービス提供者装置１１０に対してデータの検索、更新、削除等の命令を発行する検索文字列であるクエリーワードを、入力部１２１から入力し、検索結果をサービス提供者装置１１０から受け取ると、該受け取った検索結果を表示部１２２に表示出力する。

サービス提供者装置１１０は、被検索データ蓄積部１１１が、検索対象の文書データを蓄積しており、サービス利用者装置１２０からクエリーワードが入力されると、文書取り出し部１１２が被検索データ蓄積部１１１から文書データを取り出して照合処理部１１３に渡す。照合処理部１１３は、サービス利用者装置１２０から入力されたクエリーワードと文書取り出し部１１２から受け取った文書データを照合して、照合結果をサービス利用者装置１２０に渡す。

このような検索システムとしては、例えば、書籍販売を行っているインターネットサイトのAmazon社がある。このような書籍販売の検索システムは、書名や著者名等の書誌的な情報を被検索データとして公開して、利用者が検索できるようにし、所望の書籍を見つけることができるようにして、書籍の購入を促している。また、書籍販売検索システムは、一部の書籍の内容を電子化して、書籍の内容をも検索対象にすることによって、利用者が所望の書籍をより適切かつ確実に見つけることができるように便宜を図っている（「なか見！検索」）。

このような書籍販売検索システムにおいては、クエリーワードに合致した書籍全体を閲覧可能とすることは書籍販売を妨げることになるため、印刷不可能な状態にするとともに、クエリーワードの前後の書籍内容のみに限定して表示可能としている。

すなわち、文書検索システム等のデータ検索システムにおいては、データの機密を如何に保持するかが重要な課題となっており、特に、被検索データが著作権で保護されるべきデータである場合には、該被検索データを厳重に管理する必要があり、管理コストが大きな負担となる。このような場合、被検索データを使用者に配布することはできず、検索サービス提供者側が管理する必要があり、例えば、クエリーワードを含む所定範囲のデータのみを印刷不可能な状態で提供する技術（特許文献１参照）やデータを可逆の符号化（暗号化）方式で符号化して提供し、復号鍵の入力等に基づいて復号してデータ内容を提示する技術（特許文献２の段落「０００２」等参照）が用いられている。
特開平１１−２８２８６７号公報特開２００６−４８４６４号公報

しかしながら、上記従来技術にあっては、データとして一部のみを公開したり、可逆符号化方式で符号化したデータを提供しているため、データ検索システムの利用性を図りつつデータの保護を図る上で改良の必要があった。

すなわち、データの一部のみ公開する従来技術では、書籍全体を読むことに主に意味のある小説等は、一部だけを公開しても利用者の目的を満足することにはならず、書籍購入を取り止めることが少なく、書籍販売検索システムでは効果的であるが、技術書や実用書等は、クエリーワードに関連する情報だけを入手すれば、利用者は目的を達成することができる場合があり、このような場合、クエリーワード前後の内容を見るだけで満足して、書籍購入を取り止める恐れがあり、改良の必要があった。

また、従来、印刷不可能な状態でデータを提供する従来技術では、印刷を不可能な状態としても、画面表示そのものを印刷すれば情報としては十分である場合も多く、データのコンテンツの二次利用防止の抑止力としては不十分であり、改良の必要があった。

さらに、従来、データを可逆符号化方式で提供する従来技術では、符号化されたデータを符号化された状態のまま検索することは一般に困難であり、所望するクエリーワード（検索文字）が含まれているか否かを確認するためには、一般的に、復号化して検索する必要があるが、符号を復号する方法には統一的な方法は存在せず、符号の種類別に復号装置を用意する必要があり、装置が複雑で大型化するだけでなく、コストが高くつくという問題があった。また、可逆符号化方式で符号化されており、符号データが復号鍵を用いて復号することができるようになっているため、復号鍵が漏れたり、解読されると、被検索データの全てのコンテンツが知られ、機密を保つことができないという問題があった。

したがって、書籍の検索システムの場合、書籍の著作権者や出版社が、書籍の元になった電子データの提供を躊躇するおそれがあり、内容を検索可能な書籍が増えない結果となって、利用者が所望の書籍に到達する機会が少なくなり、出版社の潜在的な利益も損なわれることとなる。

そこで、本発明は、被検索データの機密を確実に保護しつつ安価に検索の利用性を向上させることのできるデータ提供装置、データ提供方法、及びプログラムを提供することを目的としている。

データ提供装置、データ提供方法、及びプログラムは、入力された検索クエリーを含む被検索データを提供するため、所定の方式により不可逆符号化された前記被検索データと、該被検索データに対する検索結果として提供する検索結果情報とを対応付けて記憶する記憶手段を用い、入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化し、不可逆符号化された前記検索クエリーをキーとして、不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得し、取得された前記検索結果情報を提供する。

ここで上記記憶手段は、不可逆変換された、被検索データの形状特徴を記憶しており、前記の如く入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化する際、入力された前記検索クエリーの形状特徴を前記所定の方式と同一の方式により不可逆符号化するようにしてもよい。

また前記の如く不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得する際、前記検索クエリーに対応する複数の不可逆符号化された前記被検索データを抽出し、各被検索データに対応付けられている前記検索結果情報を取得するようにしてもよい。

本発明によれば、被検索データを不可逆符号化した状態で検索対象とし、検索文字を該被検索データと同一の方式によって不可逆符号化して該検索対象を検索するので、被検索データの機密を確実に確保することができる。

以下、本発明の好適な実施例を添付図面に基づいて詳細に説明する。なお、以下に述べる実施例は、本発明の好適な実施例であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。

図１〜図６は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第１実施例を示す図であり、図１は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第１実施例を適用したデータ検索システム１のシステム構成図である。

図１において、データ検索システム１は、検索サービス提供者のデータ検索装置１０、被検索データの登録者の登録者装置２０、及び検索サービス利用者の利用者装置３０からなり、インターネットやＬＡＮ（Local Area Network）等の有線または無線の通信回線（ネットワーク）ＮＷで接続されている。

利用者装置３０は、通常のハードウェア及びソフトウェア構成のパーソナルコンピュータ等が用いられ、そのキーボード等の入力手段である入力部３１（図３参照）から入力されたクエリーワード（検索クエリー）を通信回線ＮＷを介してデータ検索装置１０に送って、データ検索装置１０に画像検索を依頼する。データ検索装置１０から検索結果が送られてくると、該検索結果を液晶ディスプレイ等の出力手段である表示部３２（図３参照）に表示出力したり、接続されているプリンタに印刷出力させて出力する。

データ検索装置１０は、例えば、図２に示すようなハードウェア構成のコンピュータが用いられ、ＣＰＵ（Central Processing Unit ）１１、メモリ１２、通信部１３、表示部１４、ハードディスク１５、入力部１６、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory ）ドライブ１７及びＦＤ（フレキシブルディスク）ドライブ１８等を備え、主要各部は、バス１９で接続されている。

メモリ１２は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等で構成され、基本プログラムやデータ検索装置１０としてのデータ検索プログラムが格納されているとともに、ＣＰＵ１１によりワークメモリとして利用される。なお、プログラムは、メモリ１２に格納されている場合に限るものではなく、ハードディスク１５に格納されていてもよい。

ＣＰＵ１１は、メモリ１２またはハードディスク１５のプログラムに基づいてメモリ１２をワークメモリとして利用してデータ検索装置１０の各部を制御し、データ検索装置１０としての基本処理を実行するとともに、後述する本発明のデータ検索処理を実行する。

通信部１３は、通信回線ＮＷに接続され、通信回線ＮＷに接続されている登録者装置２０や利用者装置３０と通信して、登録者装置２０及び利用者装置３０との間でデータや制御信号の授受を行う。

表示部１４は、例えば、ＣＲＴ（陰極線管：Cathode Ray Tube）や液晶ディスプレイ等が用いられ、ＣＰＵ１１の制御下で、各種情報を表示出力する。

ハードディスク（記憶手段）１５は、各種データ、特に、検索対象としての被検索データを蓄積する。すなわち、データ検索装置１０は、通信回線ＮＷを介して登録者装置２０から登録依頼とともに送られてくる被検索データを、ハードディスク１５に登録して、利用者装置３０からのデータ検索に供する。この被検索データは、後述するように、所定の不可逆符号化方式で符号化された状態でハードディスクに蓄積される。

入力部１６は、キーボード、マウス等のポインティングデバイス、音声入力デバイス等の入力デバイスであり、データ検索装置１０を動作させるのに必要な各種操作や各種情報の入力が行われる。

ＣＤ−ＲＯＭドライブ１７には、図示しないＣＤ−ＲＯＭが着脱可能に挿入され、ＣＤ−ＲＯＭドライブ１７は、ＣＰＵ１１の制御下で、ＣＤ−ＲＯＭに記録されているデータを読み出す。

ＦＤドライブ１８には、図示しないＦＤが着脱可能に挿入され、ＦＤドライブ１８は、ＣＰＵ１１の制御下で、ＦＤへのデータの書き込みやＦＤに書き込まれているデータの読み出し、削除、変更等を行う。

そして、データ検索装置１０は、データ検索プログラムの記録されている記録媒体としてのＣＤ−ＲＯＭまたはＦＤから該データ検索プログラムを、ＣＤ−ＲＯＭドライブ１７またはＦＤドライブ１８を介して読み取って、メモリ１２またはハードディスク１５にロードして実行することで、図３に示すような機能ブロックを備えて、後述するデータ検索処理を実行するデータ検索装置１０として構築されている。

図３において、データ検索装置１０は、不可逆コード変換部４１、照合処理部４２、文書取り出し部４３及び被検索データ蓄積部４４等を備えており、不可逆コード変換部４１、照合処理部４２及び文書取り出し部４３の機能は、上記ＣＰＵ１１により実現され、被検索データ蓄積部４４の機能は、上記ハードディスク１５により実現される。

被検索データ蓄積部（記憶手段）４４は、所定の不可逆符号化方式で不可逆コード変換された検索対象である被検索データを蓄積しており、データ検索装置１０は、登録者装置２０から通信回線ＮＷ及び通信部１３を介して不可逆符号化された被検索データが送られてくると、この被検索データを被検索データ蓄積部４４に蓄積する記憶処理を行う。さらに、被検索データ蓄積部４４は、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、前記分割部分の該当する被検索データ中のページ番号、行番号、文字位置、前記被検索データを示す識別情報等を、不可逆コード変換後の被検索データと一緒に記憶している。なお、被検索データを示す識別情報には、被検索データが格納されている場所を示すＵＲＬや、被検索データが本であればＩＳＢＮ等、被検索データを一意に識別可能な情報全てが含まれる。

文書取り出し部４３は、不可逆コード変換されている被検索データを被検索データ蓄積部４４から取り出して、照合処理部４２に渡す。

不可逆コード変換部（変換手段）４１には、利用者装置３０の入力部３１で入力された検索文字列であるクエリーワード（検索クエリー）が通信回線ＮＷ及び通信部１３を介して入力され、不可逆コード変換部４１は、被検索データ蓄積部４４の被検索データの不可逆符号化方式と同じ不可逆符号化方式で利用者装置３０からのクエリーワードを不可逆コード変換して、照合処理部４２に渡す。なお、入力部３１が検索文字列であるクエリーワードを入力した場合について以下に説明するが、検索クエリーを、画像データや、音声データ等の各種情報としてもよい。

照合処理部４２は、不可逆コード変換部４１から渡された不可逆コード変換されているクエリーワードが文書取り出し部４３から渡された不可逆コード変換されている被検索データに存在するか否か照合して抽出し、該抽出した被検索データに対応付けて被検索データ蓄積部４４に記憶されている検索結果情報（ページ番号、行番号、文字位置、被検索結果の格納場所を示すＵＲＬ等）を検索結果として通信部１３及び通信回線ＮＷを介して利用者装置３０に送信する。したがって、照合処理部４２及び文書取り出し部４３は、全体として検索手段（取得手段）として機能している。

利用者装置３０は、検索結果が送られてくると、該検索結果を表示部３２に表示出力すること等によって出力する。

そして、登録者装置２０は、通常のハードウェア及びソフトウェア構成のパーソナルコンピュータ等が用いられ、その機能ブロックとして、被検索データ蓄積部２１や不可逆コード変換部２２等を備えている。

被検索データ蓄積部２１は、不可逆コード変換前の被検索データ、例えば、小説、技術書、実用書等の書籍データ等のデータ、特に、著作権の保護対象となるデータを蓄積する。また、不可逆コード変換部２２は、被検索データ蓄積部２１の被検索データを上記不可逆符号化方式で不可逆コード変換する。そして、登録者装置２０は、不可逆コード変換部２２の不可逆コード変換した被検索データを通信回線ＮＷを介してデータ検索装置１０に送信し、データ検索装置１０は、上述のように、この登録者装置２０から送られてきた被検索データを被検索データ蓄積部４４に蓄積する記憶処理を実行する。

次に、本実施例の作用を説明する。本実施例のデータ検索システム１は、データ検索装置１０が、被検索データを所定の不可逆符号化方式で不可逆コード変換された被検索データを蓄積し、検索文字列であるクエリーワードが入力されると、該クエリーワードを同じ不可逆符号化方式で不可逆コード変換して該不可逆コード変換後のクエリーワードで不可逆コード変換されている被検索データを検索する。

データ検索システム１は、登録者装置２０から該登録者装置２０の不可逆コード変換部２２で所定の不可逆符号化方式で不可逆コード変換された被検索データがデータ検索装置１０に送られてくると、データ検索装置１０が、該不可逆コード変換された被検索データを被検索データ蓄積部４４に蓄積する記憶処理を実行して、検索サービスに提供している。

この被検索データ蓄積部４４の被検索データは、符号化は容易に行うことができるが、符号化されたデータを元のデータに復元することが困難な不可逆符号化方式（一方向暗号化方式ともいわれる）で不可逆コード変換されている。この不可逆符号化方式としては、例えば、ＤＥＳ（Data Encryption Standard）、ＭＤ５（Message Digest ５）等があるが、不可逆符号化方式としては、これらに限るものではない。

ＭＤ５の場合、その詳細については、Rivest, R.,「ＭＤ５メッセージダイジェストアルゴリズム（The MD5 Message-Digest Algorithm）」,ＲＦＣ１３２１，１９９２年４月に記載されているが、図４に示すように、不可逆コード変換前の原文の長さに関わらず、常に１２８bitの固定長のハッシュが算出され、符号化文から原文を容易に復号することができないようになっている。

そして、データ検索装置１０は、クエリーワードが利用者装置３０から入力されると、不可逆コード変換部４１で該クエリーワードを被検索データ蓄積部４４に蓄積されている被検索データと同じ不可逆符号化方式で不可逆コード変換する変換処理を実行する。そして、照合処理部４２が、該不可逆コード変換部４１の不可逆コード変換したクエリーワードと文書取り出し部４３が被検索データ蓄積部４４から取り出した被検索データを照合して、クエリーワードに対応する被検索データを抽出し、該被検索データに対応付けられている検索結果情報を被検索データ蓄積部４４から取得する検索処理を実行する。

すなわち、データ検索装置１０は、不可逆符号化方式としてＭＤ５を用いている場合、被検索データ蓄積部４４に、被検索データ（被検索文書）として、例えば、"Hello World, Hello You"のような被検索データが、図５（ａ）に示すように、単語（所定分割部分）に分解され、該単語毎に、ＭＤ５で符号化された状態で蓄積されている。そして、データ検索装置１０は、例えば、クエリーワードとして、"World"が利用者装置３０から入力されると、不可逆コード変換部４１で、ＭＤ５を用いて符号化する。なお、図５では、欧文文字の場合について示しているが、日本語のような膠着語の場合には、形態素解析を用いて、単語に分割した後、符号化する。

そして、データ検索装置１０は、照合処理部４２がこの不可逆コード変換部４１の不可逆コード変換した符号が、文書取り出し部４３が被検索データ蓄積部４４から取り出した被検索データの符号に含まれているかを照合して抽出し、該抽出した被検索データに対応付けられている検索結果情報をデータ蓄積部４４から取得して、検索結果として利用者装置３０に送信する。上記図５の場合には、照合処理部４２は、クエリーワードである"World"の符号化文"f5a7924e621e84c9280a9a27e1bcb7f6"が、図５（ａ）の被検索データの符号化文に含まれているか否かを調べる。この符号化文の照合方法としては、文字列検索で用いられている一般的な手法を用いることができる。

このように、本実施例のデータ検索システム１は、データ検索装置１０が、その被検索データ蓄積部４４に、被検索データを不可逆符号化した状態で蓄積して検索対象とし、利用者装置３０から入力される検索文字であるクエリーワードを不可逆コード変換部４１で被検索データと同一の方式によって不可逆符号化変換（不可逆コード変換）して、照合処理部４２が、該不可逆変換されたクエリーワードと被検索データ蓄積部４４から文書取り出し部４３の取り出した該検索対象である不可逆コード変換されている被検索データとを照合して、検索している。

したがって、検索対象から元の被検索データを復元されることを防止して、被検索データの機密を確実に確保することができるとともに、複数の復号手段を用意することなく、検索文字を入力するだけで検索を可能として、安価にデータ検索の利用性を向上させることができる。

すなわち、本実施例のデータ検索システム１は、被検索対象文書及びクエリーワードを不可逆コードに変換し、不可逆コード同士を照合検査することによって、被検索データの内容を秘匿しながら、正当な著作物等の被検索データの所有者が検索結果を利用することができるようにして、著作権者の承諾なしに被検索データが再利用、複製、再配布されることを確実に防止することができ、著作権者の権利を保護しつつ、利用者の便宜をも図ることができる。そして、データ検索装置１０の被検索データ蓄積部４４には、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、ページ番号、行番号、文字位置等が、不可逆コード変換後の被検索データと一緒に格納されている。

したがって、クエリーワードと一致した被検索データのページ番号、行番号、文字位置等の検索結果情報を検索結果として提示することができる。すなわち、書籍購入者等のように正当に著作物を購入した者にとっては検索結果の書籍中の位置だけを知れば、クエリーワードに対応する被検索データの内容（クエリーワードに対応する書籍の内容等）を知ることができるとともに、著作物を所有しない者にとっては、ページ番号等の検索結果情報は何の役にも立たず、書籍等の内容を不正に知ることができない。その結果、被検索用データを提供する著作権者等の利益を確実に確保することができ、著作権者等が被検索データを提供に対することに対する抵抗感を解消して、検索可能な書籍等の被検索データの増加を図ることができる。すなわち、書籍等の元の被検索データの不正な利用を防ぎつつ、書籍購入者等の正規の利用者の便宜を図ることができる。また、書籍の検索システムに限られず、衣服や車の検索システムにも応用することが可能である。

なお、上記説明では、データ検索システム１が、通信回線ＮＷを介してデータ検索装置１０、登録者装置２０及び利用者装置３０が接続されていて、登録者装置２０から通信回線ＮＷを介して不可逆コード変換した被検索データをデータ検索装置１０に登録して、該データ検索装置１０が該被検索データの利用者装置３０からのデータ検索に供している。しかし、データ検索システム１の構成としては、上記構成に限るものではなく、例えば、検索利用者に、不可逆コード変換された被検索データ（符号化文）と該検索利用者のパーソナルコンピュータ等のコンピュータを制御するデータ検索プログラムを記録したＣＤ−ＲＯＭ等の記録媒体を提供し、該検索利用者が自己のコンピュータに該記録媒体のデータ検索プログラムを読み取らせて導入することで、図３のデータ検索装置１０と利用者装置３０を一体化させたようなデータ検索装置を構築させ、該利用者のコンピュータに構築されたデータ検索装置を利用して、該コンピュータのキーボード等の入力部（入力手段）から入力されたクエリーワードを不可逆コード変換して、ＣＤ−ＲＯＭ上または該コンピュータのハードディスク等にコピーされた不可逆コード変換されている被検索データの検索を行うようにしてもよい。

このように、被検索データ（符号化文）自体を利用者に提供すると、ネットワークＮＷに接続したデータ検索装置１０を提供する必要がなく、データ検索の構成を簡略化してコストを削減することができるとともに、符号化文から原文を復元することが困難であるので、原文の内容を秘匿することができる。また、この場合、利用者は検索サービスに依存することなく、自らの利用環境で検索することができ、使用感を向上させることができる。また、データ検索は、未知の情報を探すという用途の他に、過去に検索した情報の所在を探すという用途も多いため、このような場合、利用者が自らの蔵書や過去の読書歴にある書籍の検索データを利用者のコンピュータ等に蓄積しておくと、検索対象が限定される分、処理時間も短く、かつ余分な検索結果が提示されることを削減して利用性を向上させることができる。

また、データ検索システム１は、その機能構成部を上記データ検索装置１０、登録者装置２０及び利用者装置３０に分割する状態で分散させているが、この機能構成部の分散形態は、適宜の分散形態を用いることができる。

さらに、被検索データは、原文をそのまま不可逆コード変換して蓄積するものに限るものではなく、例えば、N-gramインデックス方式で用いられるインデックステーブルを用いて、被検索データの原文データを検索に必要な情報に限定してから不可逆コード変換して検索対象としてもよい。

この場合、例えば、上記例では、Ｎ＝２の場合、すなわち、bigramの場合、図６（ａ）に示すように、原文を、bigramでの検索に必要な情報に限定して、ＭＤ５等の不可逆符号化方式で不可逆コード変換して符号化文とする。そして、クエリーワードが入力されると、図６（ｂ）に示すように、該クエリーワード、例えば、"World"をbigramに分割した後に不可逆コード変換して、該bigramを不可逆変換したクエリーワードの全ての符号化文が、bigramを不可逆コード変換した被検索データに含まれているか照合して検索する。

このようにすると、総当り式等の方法で符号化文から平文（原文）が解読されても、原文のbigramのリストが得られるだけであり、そのbigramのリストからは、元々の被検索データの原文を復元することができず、機密をより一層確保することができる。

図７〜図１８は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第２実施例を示す図である。

なお、本実施例は、上記第１実施例のデータ検索システム１と同様のデータ検索システムに適用したものであり、本実施例の説明においては、必要に応じて上記第１実施例の説明で用いた符号をそのまま用いて説明する。

本実施例のデータ検索システム１は、被検索データが画像データの場合にも、不可逆符号化方式で不可逆コード変換、特に、該画像の形状特徴に基づいた不可逆符号化方式で不可逆コード変換する。

すなわち、電子化された被検索データは、文字データの場合、画像データで被検索データとして提供したとしても、ＯＣＲ（Optical Character Reader：光学式文字読取装置）で読み取ることで、無断で文字データとして電子化されてしまう恐れがある。

そこで、本実施例のデータ検索システム１は、文字画像データを不可逆に符号化することによって、検索可能な状態であって、かつ、元の画像が復元できないようにして、被検索データが、該被検索データの提供者（著作権者等）の許可なく電子化されることを防止する。

以下、この文字画像の形状特徴（形態特徴）を利用した不可逆符号化方式による文字画像の不可逆コード変換について説明する。この形状特徴を利用した不可逆符号化方式による不可逆コード変換では、外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行う。

いま、図７に示すような文字画像の元原稿（元の被検索データ）があった場合、まず、図８に示すように、該元原稿における黒画素の外接矩形（所定分割部分）を求める外接矩形抽出処理を行い、図９に示すように、該求めた外接矩形の近隣同士を順次連結して行に成長させるという行切り出し処理を行う。これらの外接矩形抽出処理及び行切り出し処理は、周知の方法で行うことができるため、詳細な説明を省略する。

そして、外接矩形の成長を、水平方向及び垂直方向の両方で実施すると、水平行と垂直行の両方の切り出し行うことができる。

上述のようにして、文字画像の元原稿の行画像の切り出しが完了すると、行内部の画像を不可逆に符号化する量子化処理を行う。

この量子化処理は、文字画像の構成要素の黒画素連結を外接する矩形を量子化することで元原稿画像を不可逆符号化する。すなわち、黒画素連結の外接矩形から文字要素そのものを復元することができないことは明らかであるが、文字要素に依存して外接矩形の位置、大きさは変化し、文字の大まかな画像特徴（形状特徴）を表現していることも明らかである。また、一つの矩形だけでは文字を特定することは不可能であるが、文字列から導かれる複数の矩形連続については、文字列に固有な並びとなり、文字列を特定することが可能である。そして、一般的に一文字だけを検索対象とすることは稀であり、多くの場合、複数文字からなる単語を検索することが行われている。このように複数の文字列であれば、検索文字列（検索クエリー）の文字要素の外接矩形の並びに対して、被検索データに対する検索結果が複数合致する場合があっても、実用上、十分な程度に検索結果を限定することができる。

以下、外接矩形処理して行切り出し処理までを行った結果から矩形の配置状態を表す特徴の量子化処理について説明し、次に、量子化された矩形の配置状態を表す特徴からシンボルを生成するシンボル生成処理について説明する。

文字画像としては、例えば、図１０（ａ）に示すような欧文文字の文字画像や図１０（ｂ）に示すようなアジア系文字の文字画像等があり、図１０（ａ）の欧文文字の行内の文字要素の黒画素連結を外接する矩形（以下、行内矩形という。）と図１０（ｂ）のアジア系文字の文字画像の行内矩形を比較すると、行内矩形の並び方は、言語の種類にかかわらず、その文字行の内容に応じて変化していくことが分かる。そこで、文字の外接矩形を注目することで、文字の大まかな特徴を捉えることができる。したがって、文字そのものを特定することなく、例えば、図１１に示すように、矩形座標の始点（Ｘｓ，Ｙｓ）と終点（Ｘｅ，Ｙｅ）を求め、この矩形座標の始点（Ｘｓ，Ｙｓ）と終点（Ｘｅ，Ｙｅ）を利用した文字画像の外接矩形の配置状態を表す特徴を取得するだけで、文字行の画像特徴である形状特徴を捉えることができる。なお、図１１において、Ｈは、行高さ、ｈは、行内矩形の高さ、ｗは、行内矩形の幅、ｙｓは、行内矩形始点の高さである。

この行内における一つの矩形は、行内矩形の始点の高さｙｓ、矩形サイズ（幅ｗ、高さｈ）、行内矩形中の黒画素密度を計測することによって一義に定義され、これらの計測結果を用いて、行内矩形の配置状態を定義することができる。なお、行内矩形は、行切り出し処理の過程で既に求まっているので、文字行を特定するために、追加の特徴抽出処理を行う必要はない。

そして、上記図１１は、行内矩形の配置情報を量子化するための数値算出図を示しており、原稿を特定していない状況下では、行高さは可変であり、処理が行高さの値に依存しないように、行内矩形の始点高さｙｓを次式で正規化する。

ＹｓＲａｔｅ＝ｙｓ／Ｈ・・・（１）
いま、０＜ＹｓＲａｔｅ≦１であるので、ＹｓＲａｔｅを容易に固定段階に量子化することができる。例えば、Ｎ段階に量子化する場合、（１）式を用いて、
ＹｓＶａｌ＝ＩＮＴ（ＹｓＲａｔｅ＊（Ｎ−１））・・・（２）
（ただし、ＩＮＴ（）：小数点以下切り捨て）
とすることにより、算出することができ、各段階は、０〜（Ｎ−１）とラベル付けされる。

なお、原稿画像をスキャンして取得する場合、原稿が傾いてしまうと、原稿画像も図１２に示すように傾いた状態となる。原稿画像の傾きが極端な場合には、行切り出し処理が失敗することとなるが、少々の傾きであれば、行間の空白部を利用して、行を切り出すことができる。

この原稿画像の傾きは、行内矩形の始点の高さｙｓに注目する場合、行の僅かな傾きでも、行切り出し結果に大きく影響する。すなわち、図１２に示す欧米系文字行の例のように、行矩形の終点から始点までの距離が、行高さＨに対して万遍なく分布することとなり、欧米系文字行の特徴である頻度の明確な２箇所への集中が観測できなくなる。

そこで、原稿画像の傾きがあるときには、図１２に破線ラインｄで示すようなベースラインｄを定め、ベースラインｄから行内矩形の始点までの高さを求める。具体的には、行内矩形の終点座標（Ｘｅ，Ｙｅ）の分布の回帰直線を求める。回帰直線の求め方は、周知であるため、ここでは説明しないが、例えば、「工科系のための統計概論」（培風館：Ｉ・ガットマン、Ｓ・Ｓ・ウィルクス共著）等に記述されている。

上記処理により、行内矩形の始点の高さｙｓを量子化することができ、同様に、行内矩形の高さｈの量子化は、次式により実施することができ、各段階は、０〜（Ｎ−１）とラベル付けされる。

ＨｅｉｇｔＲａｔｅ＝ｈ／Ｈ・・・（３）
ＨｅｉｇｔＶａｌ＝ＩＮＴ（ＨｅｉｇｔＲａｔｅ＊（Ｎ−１）＋０．５）
・・・（４）
（ただし、ＩＮＴ（）：小数点以下切り捨て）
また、同様に、行内矩形の幅ｗの量子化は、次式により実施することができ、各段階は、０〜（Ｎ−１）とラベル付けされる。

ＷｉｄｔｈＲａｔｅ＝ｗ／Ｈ・・・（５）
ＷｉｄｔｈＶａｌ＝ＩＮＴ（（ＷｉｄｔｈＲａｔｅ＊（Ｎ−１）＋０．５））
・・・（６）
このように、行内矩形の始点高さｙｓ、高さｈ、幅ｗを量子化して、図１３に示すように、これら複数の量子化した配置情報を画像特徴（形状特徴）として、１つの組みにまとめる。なお、図１３は、行内矩形の始点高さｙｓが４bits、行内矩形の高さｈが３bits、行内矩形の幅ｗが１bitの合計１byteにまとめられている例を示している。

なお、画像特徴（形状特徴）としては、上記行内矩形の始点高さＹｓ、行内矩形の高さｈ及び行内矩形の幅ｗに限るものではなく、行内矩形内部の黒画素密度、隣接矩形との中心点距離等を、検索データの機密度や利用形態等に基づく文字画像の復元の困難さに応じて適宜採用することができる。

すなわち、上記行内矩形の始点高さｙｓ、高さｈ、幅ｗは、文字の内容には感知せず、文字の構成要素の外接矩形にのみ基づいて求めたものであるが、行内矩形の配置状態が同じであっても、欧文系文字は構造が単純であるため、行内矩形内の黒画素密度が低く、アジア系文字は構造が複雑であるため、行内矩形内の黒画素密度が高い。当然のことながら、同じアジア系文字であっても、構造が簡単なひらがな・カタカナは、黒画素密度が低く、構造が複雑な漢字は、黒画素密度が高い。このように、行内矩形の黒画素密度は、文字を区別する特徴となりうる。そこで、黒画素密度（＝行内矩形内の黒画素数／行内矩形内の画素の総数）も同様に量子化し、固定段階として定義して、画像特徴（形状特徴）として採用することで、復元を困難にすることができる。

このように、上記行内矩形の配置状態は、複数の測定結果によって定義することができ、この行内矩形を定義する複数の測定結果のうち、検索対象によっては、不要なものがある。例えば、被検索データがラテン系文字のみであると、黒画素密度は、不要である。すなわち、ラテン文字については、文字構造が、どの文字も同じ程度の複雑さであるので、行内矩形の黒画素密度はほぼ同程度であり、行内矩形を特徴付けることに寄与しないからである。

このように、検索文字列（検索クエリー）と被検索データの集合の性質によっては、識別に影響しない特徴が存在し、その特徴を使用することに意味がない場合がある。検索に用いる場合、複数の測定結果のうち、該当行と非該当行とを区別するに足る特徴のみを使用するようにすることで、処理効率を向上させることができる。

また、画素特徴（形状特徴）、特に、欧米系文字行とアジア系文字行における行内矩形の配置状態の違いとしては、図１０に示したように、近接矩形との距離にも現れている。
欧米系文字行においては、隣接矩形との距離は正値である場合が多く、矩形同士が重複することは少ない。一方、アジア系文字行においては、隣接矩形と重複する場合が頻繁に観測される。また、アルファベットの「ｉ」や「ｊ」のように、矩形の垂直上に点が存在するもの、ドイツ語におけるウムラウトのように矩形上に点が２つ存在するもの、スペイン言における（Ｎ＋〜：エニェ）のように矩形が存在するものがある。このような特徴を量子化することによって、行内矩形の配置状態を、より詳細に定義することができる。具体的には、図１４に示す各矩形（矩形１、矩形２）において、次式により、矩形間距離ｄを求め、注目矩形と隣接矩形との距離の割合を固定段階に量子化する。各段階は、０〜（Ｎ−１）とラベル付けされる。

ＲｉｇｈｔＤｉｓｔａｎｃｅＲａｔｅ＝ｄ／Ｈ・・・（７）
（ただし、ｄは、矩形間距離、Ｈは、行高さである。）
ＲｉｇｈｔＤｉｓｔａｎｃｅＶａｌ
＝ＩＮＴ＿ＰＬＵＳ（（ＲｉｇｈｔＤｉｓｔａｎｃｅＲａｔｅ＊（Ｎ−１））
＋０．５）・・・（８）
（ただし、ＩＮＴ＿ＰＬＵＳ（）：正数化して、小数点以下切り捨て）
この隣接矩形との距離を用いることで、アジア系文字を多く含む行の特徴を、より詳細に定義することができ、厳密な文字行の判定を行うことができる。

次に、上記量子化された矩形の配置状態を表す特徴からシンボル（変換キー）を生成するシンボル生成処理について説明する。このシンボル生成処理では、一つの行内矩形に関する複数種類の測定結果を一つにまとめてシンボル化することで、一つの行内矩形を一つのシンボルに対応させることができる。例えば、矩形の始点高さ、矩形高さ、矩形幅の３種の情報をまとめる。仮に、上記の処理で、行内矩形の始点の高さｙｓ／Ｈを１５段階、矩形高さｈ／Ｈを８段階、矩形幅ｗ／Ｈを２段階に量子化するものとすると、図１３に示したように、行内矩形の始点高さＹｓ／Ｈは、１５段階であるので、４bits、行内矩形の高さｈ／Ｈは、８段階であるので、３bits、行内矩形の幅ｗ／Ｈは、２段階であるので、１bitの合計１byteで表現される。

また、４bits＋３bits＋１bit＝８bitsであるので、１byteの各ビットに全情報を格納することができる。そして、これらの３種の情報を一つにまとめたシンボルの種類は、
１５段階×８段階×２段階＝２４０種
となる。なお、まとめる情報の種類及びその格納のための記憶エリア、記憶サイズは固定ではなく、識別対象である文字行を特定するのに好適な情報を適宜選択し、決定する。

なお、文字行内における空白の存在情報も、行を特徴付ける。特に、単語間に空白を挿入する習慣のあるラテン系文字行では、重要な特徴である。行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出することができる。例えば、図１５において、行高さに対する矩形間距離の割合（ａ／Ｈ、ｂ／Ｈ、ｃ／Ｈ）に、閾値を設ける。そして、これら行高さに対する矩形間距離の割合と閾値とを比較して、閾値より行高さに対する矩形間距離の割合が大きい値を示した場合に空白有りと判定する。空白有りと判定された場合には、図１５に示すように、シンボル系列に、空白を意味するシンボル（例えば、ｓＳＰＣ）を挿入する。なお図１５に示される「ｓ０２１」、「ｓ１２４」、「ｓ０３２」、「ｓ０４８」、「ｓ０１２」の各々が、上記シンボル生成処理で生成されたシンボルを示す。図１３の場合、矩形の配置情報に対応するシンボルが２４０種類であることに対し、記憶領域サイズは１ｂｙｔｅであるので、１６種類（＝２５６−２４０）の特別シンボルを、さらに設定することができる。空白用のシンボルｓＳＰＣは、この１６種類のいずれかに対応させる。

上述のようにして被検索データの画像データに対して、外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行って、行内矩形の配置情報（形状特徴）を、図１０（ａ）、（ｂ）、図１５に示したようなシンボル系列に変換することができる。

そこで、検索システム１は、登録者装置２０が、その不可逆コード変換部２２で被検索データから所定分割部分（行内矩形）毎に該分割部分に対して不可逆符号化した変換キーであるシンボル系列を生成し、該生成したシンボル系列をデータ検索装置１０の被検索データ蓄積部４４に保管する記憶処理を実行する。

この状態で、データ検索装置１０は、利用者装置３０の入力部（入力手段）３１でクエリーワードを入力する入力処理が行われて、該入力されたクエリーワードが通信回線ＮＷを介して不可逆コード変換部４１に入力されると、不可逆コード変換部（変換手段）４１は、該クエリーワードのテキストデータから文字列画像を生成する。このテキストデータから文字列画像の生成は、フォントジェネレータや印刷プレビュー画面を生成する技術等の一般的な技術を用いて行うことができる。不可逆コード変換部４１は、該クエリーワードのテキストデータから文字列画像を生成すると、上記同様に、該文字列画像に対して、外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行って、シンボル系列に変換する変換処理を実行し、該変換したクエリーワードのシンボル系列を照合処理部４２に渡す。

すなわち、例えば、いま、図１６に示すように、「ソフ流・・」なるクエリーワードが入力されたとすると、この文字コードから文字列画像を生成し、該生成した文字列画像に上記外接矩形抽出処理、行切り出し処理、量子化処理及びシンボル生成処理を順次行って、各文字コードをシンボルに変換し、該シンボルを、図１７に示すように、不可逆コード列としてのシンボル系列に変換する。ただし、１文字に含まれる矩形は一つとは限らないので、１文字から複数のシンボル系列に変換されることがある。

なお、この文字コードからシンボルへの変換は、図１６に示したような文字コード−シンボル対応表を予め用意して、該対応表を用いて実行してもよい。

照合処理部４２は、この不可逆コード変換部４１から受け取ったシンボル系列と文字取り出し部４３が被検索データ蓄積部４４から取り出した被検索データのシンボル系列を照合してクエリーワードのシンボル系列に対応する被検索データのシンボル系列を抽出し、該被検索データのシンボル系列に対応付けて被検索データ蓄積部４４に記憶されている検索結果情報（ページ番号、行番号等）を取得して、その検索結果情報を検索結果として利用者装置３０に送信する。

この場合、照合処理部４２は、このクエリーワードのシンボル系列に対応する被検索データのシンボル系列の抽出においては、クエリーワードのシンボル系列に対応する被検索データのシンボル系列を複数抽出してもよい。

すなわち、不可逆コード列は、シンボルの単位が元の文字ではないシンボル系列と見なすことができ、元の文字列と同じ長さである保証はないが、クエリーワードであっても、被検索データ（被検索文書）の文字列であれば、同じ文字列から生成されるシンボル列は同じになる。

したがって、被検索データ文字列とクエリーワードが、シンボル系列に変換された後は、通常のテキスト検索技術によって照合を判定することができ、上記照合処理部４２は、適切にクエリーワードのシンボル系列が被検索データのシンボル系列に含まれているかを照合して、クエリーワードのシンボル系列に対応する被検索データのシンボル系列が複数該当する場合には、該複数の被検索データのシンボル系列を抽出する。

このように、本実施例のデータ検索システム１は、データ検索装置１０の被検索データ蓄積部４４に、画像としての被検索データまたは画像に変換された被検索データの行内矩形（分割部分）の形状特徴を不可逆符号化方式で不可逆符号化したシンボル系列（変換キー）を記憶し、不可逆コード変換部４１が、入力された検索文字であるクエリーワードを画像変換し、該変換したクエリーワード画像の形状特徴を不可逆符号化方式で不可逆符号化したシンボル系列に変換して、照合処理部４２が、不可逆変換されたクエリーワードと被検索データ蓄積部４４から文書取り出し部４３の取り出した不可逆コード変換されている被検索データとを照合して、検索している。

したがって、検索対象から元の被検索データを復元されることをより一層防止して、被検索データの機密をより一層確実に確保することができるとともに、複数の復号手段を用意することなく、検索文字を入力するだけで検索を可能として、安価にデータ検索の利用性を向上させることができる。

そして、データ検索装置１０の被検索データ蓄積部４４には、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、ページ番号、行番号、文字位置等が、不可逆コード変換後の被検索データと一緒に格納されている。

したがって、クエリーワードと一致した被検索データのページ番号、行番号、文字位置等の検索結果情報を検索結果として提示することができる。

なお、上記説明では、矩形の画像特徴として、開始位置、矩形サイズ、矩形内部の黒画素密度、隣接矩形との中心点距離等の複数の特徴を例に挙げたが、使用する特徴が多くなるにつれて、元の文字画像を復元しやすくなるので、被検索データ蓄積部４４に画像特徴毎等にシンボル系列に変換した被検索データを用意し、データ検索装置１０のキーボード等の入力部で、所望する復元され易さの程度に応じて、画像検索に使用する画像特徴を選択設定し、該選択設定された画像特徴によって、不可逆コード変換部４１が、該入力部から選択された画像特徴に応じて、利用者装置３０からのクエリーワードをシンボル系列に変換して検索を行うようにしてもよい。

このようにすると、被検索データの価値に応じて秘匿性の程度を調整することができ、著作権者等の被検索データの権利者の権利保護とデータの公開の推進を同時に図ることができる。

また、文字の画像特徴は、該文字に使用されるフォント種類によって変化する。すなわち、矩形特徴は、フォントの違いに影響されにくい特徴ではあるが、全く影響されないとはいえず、クエリーワードのテキストデータから生成された文字列画像におけるフォントと、被検索データで使用されているフォントとが異なる場合、フォントが異なることから矩形特徴が変化すると、検索に失敗する可能性がある。

そこで、検索対象データにおける画像特徴に、フォント種を示すＩＤ情報を、ページ単位、行単位、矩形単位等毎に付加して、被検索データ蓄積部４４に保管する。

そして、データ検索装置１０は、不可逆コード変換部４１で利用者装置３０からのクエリーワードから文字列画像を生成する際に、被検索対象文書の画像特徴にて指定されているフォント種類にしたがって文字列画像を生成し、矩形特徴を求めた後、例えば、図１８に示すように、シンボル系列に変換する。このテキストデータから文字画像を得るには、フォントデータを用いることができ、例えば、ｔｒｕｅｔｙｐｅフォントのようなベクトルデータを展開して文字のビットマップデータ（画像）を生成し、クエリーワード（テキスト）をシンボル系列に変換する。そこで、不可逆コード変換部４１は、文字フォントセットと、文字テキストから文字フォントを展開し、テキスト文字列から文字列画像を生成した後、行内矩形シンボルに変換する機能を備えている必要がある。

このようにすると、一旦文字画像を生成した後に、行内矩形シンボルへと変換する場合、フォントセットを備えていれば、フォントの違いによる行内矩形シンボルの変動を考慮した検索を行うことができ、適切に検索処理することができる。

ところが、行内矩形シンボル系列に変換するために、全文字のフォントデータを用意する必要があるだけでなく、文字画像生成のための演算処理も必要になる。

そこで、さらに、文字毎に予め矩形シンボル変換結果を用意し、図１６に示した文字コード−シンボル対応表と同様の文字毎にその文字内の矩形の配置情報を表現するシンボルを対応させた文字コード−シンボル対応表を用意することで、入力テキストの文字列から矩形シンボル系列に容易かつ速やかに変換することができる。

さらに、照合処理部４２は、このクエリーワードのシンボル系列に対応する被検索データのシンボル系列の抽出においては、クエリーワードのシンボル系列に対応する被検索データのシンボル系列を複数抽出している。

したがって、検索利用者は、入力したクエリーワードに対応する被検索データの検索結果情報を確実に入手することができ、データ検索の利用性を向上させることができる。

図１９〜図２１は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第３実施例を示す図であり、図１９は、本発明のデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体の第３実施例を適用したデータ検索システム５０のシステム構成図である。

なお、本実施例の説明においては、上記第１及び第２実施例のデータ検索システム１と同様の構成部分には、同一の符号を付して、その詳細な説明を省略または簡略化する。

本実施例のデータ検索システム５０は、データ検索装置６０、登録者装置７０及び利用者装置３０からなり、通信回線ＮＷ（図示略）で接続されている。

利用者装置３０は、第１実施例及び第２実施例の利用者装置と同様であり、少なくともクエリーワードの入力に用いられる入力部（入力手段）３１とデータ検索装置６０の検索結果を表示する表示部（出力手段）３２等を備えている。

登録者装置７０は、第１実施例及び第２実施例の登録者装置２０と同様に、通常のハードウェア及びソフトウェア構成のパーソナルコンピュータ等が用いられ、その機能ブロックとして、上記同様の被検索データ蓄積部２１及び不可逆コード変換部２２を備えているとともに、ベクトル量子化部７１及びコードブック７２等を備えている。

被検索データ蓄積部２１は、不可逆コード変換前の被検索データを蓄積し、不可逆コード変換部２２は、被検索データ蓄積部２１の被検索データを不可逆符号化方式で不可逆コード変換する。

ベクトル量子化部７１は、コードブック７２を用いて不可逆コード変換された被検索データをベクトル量子化する。すなわち、被検索データの文字画像から求められる矩形の配置状態を表す複数の形状特徴（矩形集合）を多次元ベクトルの各次元（集合）とみなすと、矩形を、その各特徴を用いて一つのベクトルデータに変換（ベクトル量子化）することができ、求められた代表ベクトルに順にラベル付けを行うと、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。なお、このベクトル量子化とは、周知のように、ベクトルデータの多数のバラエティから、それらを代表する小数のベクトルデータを求めることであり、ベクトル量子化に関しては、「ベクトル量子化と情報圧縮」（コロナ社：Allen Gersho，Robert M.Gray著、田崎三郎他訳）に詳細に記載されている。

このように、シンボル系列に変換することで、上記第２実施例に説明したように、その並べ傾向を学習することができる。例えば、図２０に示すように、被検索データ蓄積部２１に蓄積されている不可逆コード変換された被検索データから矩形の配置に関する３次元のベクトルデータを求め、それらから２４０種等の代表的な矩形の集合（代表ベクトル）を求めて、該代表ベクトルの集合（代表ベクトル群）をコードブック７２として作成する。このコードブック７２には、被検索データ蓄積部２１の被検索データをベクトル変換した結果から求めた代表ベクトルのみが含まれており、データ検索装置６０にコードブック６２として渡される。

そして、ベクトル量子化部７１は、図２１に示すように、不可逆コード変換部２２が不可逆コード変換した被検索データ蓄積部２１の被検索データを、３次元ベクトル表現に変換し、コードブック７２の代表ベクトルと照合してベクトル量子化する。登録者装置７０は、このベクトル量子化した被検索データをデータ検索装置６０に渡す。

データ検索装置６０は、上記第１実施例及び第２実施例と同様の不可逆コード変換部４１、照合処理部４２及び文書取り出し部４３を備えているとともに、ベクトル量子化部６１、コードブック６２及び被検索データ蓄積部６３等を備えている。

コードブック６２は、登録者装置７０のコードブック７２と同じコードブックが登録者装置７０から渡されて登録されている。データ検索装置６０は、上述のようにしてベクトル量子化された被検索データが登録者装置７０から通信回線ＮＷを介して、または、ＣＤ−ＲＯＭ等によって提供されると、該被検索データを被検索データ蓄積部６３に蓄積する記憶処理を実行する。

不可逆コード変換部４１は、利用者装置３０から入力されるクエリーワードを第２実施例と同様に文字画像変換した後に不可逆コード変換して、該不可逆コード変換した矩形特徴（形状特徴）を、ベクトル量子化部６１に渡し、ベクトル量子化部６１は、図２１と同様に、不可逆コード変換部４１から渡された不可逆コード変換されたクエリーワードをコードブック６２の代表ベクトルと照合してベクトル量子化して、クエリーワードのシンボル系列として照合処理部４２に渡す。したがって、不可逆コード変換部４１、ベクトル量子化部６１及びコードブック６２は、全体として変換処理を実行する変換手段として機能している。

照合処理部４２は、このベクトル量子化部６１から受け取ったクエリーワードの量子化されたシンボル系列と文字取り出し部４３が被検索データ蓄積部４４から取り出した量子化された被検索データのシンボル系列を照合し、その照合結果を利用者装置３０に送信する。

このように、本実施例のデータ検索システム５０は、データ検索装置６０の被検索データ蓄積部６３に、画像としての被検索データまたは画像に変換された被検索データの行内矩形（分割部分）の形状特徴を不可逆符号変換した後にベクトル量子化して記憶し、不可逆コード変換部４１が、検索文字であるクエリーワードを画像変換し、該変換したクエリーワード画像の形状特徴を不可逆符号変換した後にベクトル量子化して、照合処理部４２が、不可逆変換されてベクトル量子化されたクエリーワードと被検索データ蓄積部４４から文書取り出し部４３の取り出した不可逆コード変換されてベクトル量子化された被検索データとを照合して、検索している。

したがって、検索対象から元の被検索データを復元されることをより一層確実に防止して、被検索データの機密をより一層確実に確保することができるとともに、検索文字を入力するだけで検索を可能として、データ検索の利用性を向上させることができる。

そして、データ検索装置６０の被検索データ蓄積部６３には、被検索データの所定分割部分毎に該分割部分に対して検索結果として提供する検索結果情報、例えば、ページ番号、行番号、文字位置等が、不可逆コード変換後の被検索データと一緒に格納されている。

また、被検索データ及びクエリーワードの双方を不可逆変換した後のベクトル量子化したベクトル系列を照合して検索しているので、量子化誤差に起因する照合失敗を避けることができる。

さらに、上述のように、このコードブック６２には、登録者装置７０で被検索データ蓄積部２１の被検索データをベクトル変換した結果から求められた代表ベクトルのみが含まれているので、このコードブック６２と該コードブック６２でベクトル量子化された被検索データからベクトル量子化及び不可逆コード変換される前の元の被検索データを復元することは困難であり、より一層機密保持を向上させることができる。

また、ベクトル量子化を行う場合、コードブック６２に収録する代表ベクトルの数（コードブックサイズ）を調整することによって、量子化の程度を調整することができる。

なお、上記説明では、データ検索システム５０が、通信回線ＮＷを介してデータ検索装置６０、登録者装置７０及び利用者装置３０が接続されて、登録者装置７０から通信回線ＮＷを介して不可逆コード変換した後ベクトル量子化した被検索データをデータ検索装置６０に登録して、該データ検索装置６０が、該不可逆コード変換されてベクトル量子化されている被検索データを被検索データ蓄積部６３に登録して、利用者装置３０からのデータ検索に供しているが、データ検索システム５０の構成としては、上記構成に限るものではなく、例えば、検索利用者に、該被検索データ（符号化文）とコードブック及び該検索利用者のパーソナルコンピュータ等のコンピュータを制御するデータ検索プログラムを記録したＣＤ−ＲＯＭ等の記録媒体を提供し、該検索利用者が自己のコンピュータに該記録媒体のデータ検索プログラムを読み取らせて導入することで、図１９のデータ検索装置６０と利用者装置３０を一体化させたようなデータ検索装置を構築させ、該利用者のコンピュータに構築されたデータ検索装置を利用して、該コンピュータのキーボード等の入力部（入力手段）から入力されたクエリーワードをＣＤ−ＲＯＭ上または該コンピュータのハードディスク等にコピーされているコードブック６２を用いて不可逆コード変換及びベクトル量子化して、ＣＤ−ＲＯＭ上または該コンピュータのハードディスク等にコピーされている不可逆コード変換されている被検索データの検索を行うようにしてもよい。

このように、被検索データ（符号化文）自体を利用者に提供すると、ネットワークＮＷに接続したデータ検索装置６０を提供する必要がなく、データ検索システム５０を簡略化してコストを削減することができるとともに、符号化文から原文を復元することが困難であるので、原文の内容を秘匿することができる。また、この場合、利用者は検索サービスに依存することなく、自らの利用環境で検索することができ、使用感を向上させることができる。特に、著作物等の元の被検索データそのものが検索対象とはならず、データ検索装置６０には、不可逆コードに変換後のさらにコードブック６２で量子化した被検索データと、コードブック６２と、ベクトル量子化手法（コードブック照合）とが渡るだけであるので、被検索データの機密性をより一層向上させることができ、著作物等の被検索データとしての提供を図ることができる。また、上記同様に、データ検索は、未知の情報を探すという用途の他に、過去に検索した情報の所在を探すという用途も多いため、このような場合、利用者が自らの蔵書や過去の読書歴にある書籍の検索データを利用者のコンピュータ等に蓄積しておくと、検索対象が限定される分、処理時間も短く、かつ余分な検索結果が提示されることを削減して利用性を向上させることができる。

さらに、データ検索システム５０は、その機能構成部を上記データ検索装置６０、登録者装置７０及び利用者装置３０に分割する状態で分散させているが、この機能構成部の分散形態は、適宜の分散形態を用いることができる。

以上、本発明者によってなされた発明を好適な実施例に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、著作物等の被検索データを該被検索データの機密を保ちつつ検索を可能とするデータ検索システム、データ検索装置、データ検索方法、データ検索プログラム及び記録媒体に利用することができる。

本発明の第１実施例を適用したデータ検索システムのシステム構成図である。図１のデータ検索装置のブロック構成図である。図２のデータ検索装置の機能ブロック構成図である。図３のデータ検索装置による不可逆符号化方式としてのＭＤ５による符号化の一例を示す図である。図３のデータ検索装置による不可逆符号化方式としてのＭＤ５によって被検索データとクエリーワードを符号化する場合の原文と符号化文の一例を示す図である。図３のデータ検索装置による不可逆符号化方式としてbigramを用いた場合の符号化の一例を示す図である。本発明の第２実施例のデータ検索システムで用いる文字画像の一例を示す図である。図７の文字画像に対する外接矩形抽出処理の説明図である。図８の外接矩形抽出処理後のデータに対する行切り出し処理の説明図である。欧文文字とアジア系文字の行内矩形の配置状態を示す特徴からシンボルを生成した例を示す図である。行内矩形の配置状態を表す特徴の量子化方法の説明図である。スキャン画像が傾いている場合の行切り出し処理の説明図である。複数の量子化配置情報を画像特徴として１つの組みにまとめる例を示す図である。矩形間距離の量子化の説明図である。矩形間距離に基づく空白シンボルの挿入処理の説明図である。文字コードと矩形シンボルの対応表の一例を示す図である。図１６の文字コードと矩形シンボルの対応表を用いたクエリーワードの矩形シンボルへの変換例の一例を示す図である。クエリーワードをフォントに応じた矩形シンボルに変換する一例を示す図である。本発明の第３実施例を適用したデータ検索システムのシステム構成図である。図１９のデータ検索システムによるコードブック作成処理の説明図である。図１９のデータ検索システムによるクエリーワードのベクトル量子化処理の説明図である。従来のデータ検索システムの要部概略ブロック構成図である。

符号の説明

１データ検索システム
１０データ検索装置
１１ＣＰＵ
１２メモリ
１３通信部
１４表示部
１５ハードディスク
１６入力部
１７ＣＤ−ＲＯＭドライブ
１８ＦＤドライブ
１９バス
２０登録者装置
２１被検索データ蓄積部
２２不可逆コード変換部
３０利用者装置
３１入力部
３２表示部
４１不可逆コード変換部
４２照合処理部
４３文書取り出し部
４４被検索データ蓄積部
ＮＷ通信回線

Claims

入力された検索クエリーを含む被検索データを提供するためのデータ提供装置であって、
所定の方式により不可逆符号化された前記被検索データと、該被検索データに対する検索結果として提供する検索結果情報とを対応付けて記憶する記憶手段と、
入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化する変換手段と、
不可逆符号化された前記検索クエリーをキーとして、不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得する取得手段と、
取得された前記検索結果情報を提供する提供手段と、
を備えていることを特徴とするデータ提供装置。
前記記憶手段は、不可逆変換された、被検索データの形状特徴を記憶しており、
前記変換手段は、入力された前記検索クエリーの形状特徴を前記所定の方式と同一の方式により不可逆符号化することを特徴とする請求項１記載のデータ提供装置。
前記取得手段は、前記検索クエリーに対応する複数の不可逆符号化された前記被検索データを抽出し、各被検索データに対応付けられている前記検索結果情報を取得することを特徴とする請求項１または請求項２記載のデータ提供装置。
入力された検索クエリーを含む被検索データを提供するためのデータ提供方法であり、所定の方式により不可逆符号化された前記被検索データと、該被検索データに対する検索結果として提供する検索結果情報とを対応付けて記憶する記憶手段を用いるデータ提供方法であって、
入力された前記検索クエリーを前記所定の方式と同一の方式により不可逆符号化する変換段階と、
不可逆符号化された前記検索クエリーをキーとして、不可逆符号化された被検索データに対応付けられている前記検索結果情報を取得する取得段階と、
取得された前記検索結果情報を提供する提供段階と、
を実行することを特徴とするデータ提供方法。
前記記憶手段は、不可逆変換された、被検索データの形状特徴を記憶しており、
前記変換段階では、入力された前記検索クエリーの形状特徴を前記所定の方式と同一の方式により不可逆符号化することを特徴とする請求項４記載のデータ提供方法。
前記取得段階では、前記検索クエリーに対応する複数の不可逆符号化された前記被検索データを抽出し、各被検索データに対応付けられている前記検索結果情報を取得することを特徴とする請求項４または請求項５記載のデータ提供方法。
請求項４乃至６のうちの何れか一項記載のデータ提供方法をコンピュータに実行させるためのプログラム。