JP2007249584A

JP2007249584A - クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器

Info

Publication number: JP2007249584A
Application number: JP2006071844A
Authority: JP
Inventors: Masamiki Shishibori; 正幹獅々堀; Kenji Kita; 研二北
Original assignee: NIPPON LABOATEC KK; SOFTEC KK
Current assignee: NIPPON LABOATEC KK; SOFTEC KK
Priority date: 2006-03-15
Filing date: 2006-03-15
Publication date: 2007-09-27

Abstract

【課題】高速で漏れの少ないデータ検索システムを省力化して構築する。
【解決手段】検索対象を表す基底キーワードの入力を促す工程と、サーバデータベース３０中から該基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース４０中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値をクライアントデータベース４０に記録する工程とを含む。
【選択図】図１

Description

本発明は、データベース等に記録されたデータ中からキーワードを指定して所望のデータを検索するためのクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器に関する。

近年、情報の電子化が進むと共に、蓄積された情報の分量が膨大となって、必要な情報を取り出すための検索システムが求められている。例えば、ローカルのハードディスク等の記録媒体に記録されたデータや、インターネット等のネットワーク接続されたシステムに記録されたデータの中から、所望のデータを抽出する検索システムの研究が進められている。このような検索システムとしては、ユーザが求める情報に関連したキーワードを指定し、このキーワードと一致する情報を抽出して、検索結果として一覧表示するキーワード検索が一般的に知られている。
特開２００３−２７１１９０号公報

しかしながら、所望の検索結果を得るための適切なキーワードの選定は容易でなく、キーワードを含む不要なデータも検索されるため、検索結果が膨大となって必要な情報を速やかに探し出すことは困難である。一般には、検索結果に応じてキーワードを変更したり、検索結果に対してさらに検索を行って検索結果を絞り込み、試行錯誤によって所望のデータを探し当てることが行われている。しかしながら、このような操作は熟練を要するため、初心者には敷居が高い。特に、検索に適したキーワードを選定することが容易でないため、検索結果にいわゆるノイズやゴミが多く含まれることとなり、必要な情報が埋もれてしまうことが多かった。さらに、試行錯誤を繰り返しながら検索を複数回行うには、手間も時間もかかる。このため、高速に、かつ手間のかからない方法で所望の情報を取り出すことのできる検索システムが切望されている。

本発明は、このような問題点を解決するためになされたものである。本発明の第一の目的は、必要なデータを必要時に高速に検索することが可能なクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を提供することにある。

一方、検索結果や表示させようとするデータに有害な情報が含まれる場合、これを排除するシステムも望まれている。例えば、未成年者を有害情報から守るため、有害情報を検知してこれを表示させないようブロックするフィルタリングプログラムが開発されている。このようなフィルタリングプログラムは、例えばユーザが予め有害な情報に関連すると思われるキーワード（例えばｓｅｘ、ヌード等）を指定しておく。そして検索を実行した際、あるいは情報を表示させようとする際等に、表示させようとするデータに該キーワードが含まれるかどうかを判定し、該キーワードを含んでおれば有害情報と判定して、表示をブロックする。また、例えばインターネットのホームページを表示させる際に、いわゆるアダルトサイト等の有害情報を含むＵＲＬ（Uniform Resource Locator）を予め登録しておき、該ＵＲＬを表示しようとするとこれをブロックするフィルタリングプログラムもある。

また一方で、画像を表示させる際に、これが有害画像であるかどうかを判定してブロックするフィルタリングプログラムも研究されている。画像検索は、例えば教育現場等で利用されることが多いため、有害画像を効果的に排除する方法が望まれている。特に画像は文章等のテキスト情報に比べ、一目で判別できるという性質から有害性が高く、テキスト情報以上に正確な精度で有害画像を検出できるシステムが切望されている。

既存の画像のフィルタリングシステムとしては、コンテンツチェック方式、検索キーチェック方式、ＵＲＬチェック方式の３つが主に知られている。このうち、コンテンツチェック方式は、画像を直接解析することによって、有害画像を自動で判定し制限するというものである。しかしながら、現在の画像解析技術では有害画像かどうかの判定は困難であり、未だ実用化はされていない。

また検索キーチェック方式は、有害画像が検索結果として表示されることが予想されるキーワードを制限しようとするものであり、例えばインターネット上の検索エンジンとして有名なｇｏｏ（登録商標）やＡｌｔａＶｉｓｔａ（登録商標）等で採用される。しかしながらこの方法では、有害画像のみならず無害な画像までも制限されてしまうという問題があり、そのフィルタリング精度を向上させることが困難である。

一方、ＵＲＬチェック方式は、アクセス制限を行うＵＲＬの一覧を予めデータベース化しておき、指定されたＵＲＬがこのＵＲＬデータベースに登録されているかどうかを判別し、登録ＵＲＬに対してはアクセス制限をかけるというものである。このＵＲＬチェック方式は、有害サイトを効果的に排除でき、サーチエンジンとして著名なＧｏｏｇｌｅ（登録商標）やＹａｈｏｏ！（登録商標）等で実際に採用されている。しかしながら、この方式ではＵＲＬデータベースの構築を人手で行うため、多大な労力が必要となるという欠点があった。また、ＵＲＬデータベースに未登録のデータベースはフィルタリングできないという問題もある。

本発明は、さらにこのような問題点を解消するためになされたものである。本発明の第二の目的は、データベースの構築を省力化できる検索システムを提供することにある。加えて、データベースに未登録の情報も対象とすることが可能なクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を提供することにある。

上記の目的を達成するために、本発明の第１のクライアントデータベース構築方法は、複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、検索対象を表す基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが所望の基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースをインデックス情報として利用できるので、マスタレコード中から直接検索を行うよりも極めて高速で、かつ精度の高い検索が実現される。

また第２のクライアントデータベース構築方法は、前記重み付けが、クライアントデータベース中のデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化した値である。これにより、データの重み付けがデータの内容と出現頻度に応じて適正に行われ、より正確な検索が実現される。

さらに第３のクライアントデータベース構築方法は、前記クライアントデータベース中から検索を行う際の一致／不一致の判定のため、前記基準値に対する閾値を設定可能に構成している。これにより、ユーザが閾値を設定可能とすることで検索のヒット率を任意に調整することが可能となる。

さらにまた第４のクライアントデータベース構築方法は、さらに、入力された基底キーワードに対して、該基底キーワードを含むデータのコンテンツを解析し、該コンテンツ中に他の基底キーワードが表れる頻度を調べ、この値に基づいて該基底キーワードの適正を判定する工程を含む。これにより、指定された基底キーワードの有効性を判定できるので、例えば他の基底キーワードに比較して有効性の低い基底キーワードが指定されると警告を発して基底キーワードの再考を促す等の指示を行うことも可能であり、より適正な検索システムが実現される。

さらにまた第５のクライアントデータベース構築方法は、入力された基底キーワードに関連するキーワードを自動的に選定し、さらに該関連キーワードを用いて同様に検索、抽出を行ってクライアントデータベースを構築する。これにより、入力されたキーワードに関する情報のみならず、これに関連する情報も検索できるので、さらに漏れの少ない情報の検索が可能となる。

さらにまた第６のクライアントデータベース構築方法は、前記関連キーワードが、入力された基底キーワードを含むマスタレコード中のデータのコンテンツを解析して、関連性の高い語句を抽出したものである。これによって、実際にキーワードが使用されているコンテンツからキーワードを抽出するため、シソーラス等を使用する必要が無く、さらにシソーラス等の予め規定された関連性データベースに比べて、関連性キーワードの選定がより実践的で、現実に即した適正な関連キーワードの選定と、このキーワード検索を併用した漏れのない検索が可能となる。

さらにまた第７のクライアントデータベース構築方法は、前記関連キーワードが、入力された基底キーワードに関連する語句をベイズ推定により選定したキーワードであり、ベイズ推定で選定された関連キーワードに基づいて、さらに前記サーバデータベース中から該関連キーワードを含むデータ及び／又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該関連キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録してクライアントデータベースの構築を行う。これにより、指定された基底キーワードと関連するキーワードを自動的に選定して、関連キーワードに基づいてさらにクライアントデータベースを構築するので、更なる情報の収集によって検索漏れの少ない確実な検索結果を得ることが期待できる。

さらにまた第８のクライアントデータベース構築方法は、複数のサーバデータベースを構築すると共に、これらを切り替え可能に構成している。これにより、複数の情報に対して専用のクライアントデータベースを各々構築し、必要に応じて切り替えて使用することが可能となる。

さらにまた第９のクライアントデータベース構築方法は、前記クライアントデータベースの少なくとも一部が、サーバデータベースと共用されている。これにより、物理的に一のデータベースに複数のデータベースを構築して、ハードウェアを共有化してコストを低減できる。

さらにまた第１０のクライアントデータベース構築方法は、前記マスタレコードがインターネット上のサーバに保存された検索可能なデータであり、前記サーバデータベース及びクライアントデータベースが、ＵＲＬを記録したＵＲＬデータベースである。これにより、インターネット上の検索高速に行え、かつ検索結果の遺漏やフィルタリング漏れを低減できる。

さらにまた第１１のクライアントデータベース構築方法は、前記サーバデータベースが、インターネット上を巡回してデータの保存位置を示すＵＲＬを自動的に収集して蓄積したＵＲＬサーバデータベースである。これにより、ユーザが個別にデータ収集作業を行うことなく、自動的に情報の蓄積、更新を行わせることができ、使い勝手の良い検索システムが構築される。

さらにまた第１２のクライアントデータベース構築方法は、検索対象のＵＲＬデータを蓄積したサーバデータベース中から、特定の情報に特化したＵＲＬデータを記録したクライアントデータベースを構築する方法であって、検索対象のＵＲＬデータを表す基底キーワードの入力を促す工程と、検索対象の情報に関する基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードを含むＵＲＬデータを検索して抽出する工程と、抽出されたＵＲＬデータに対して、クライアントデータベース中のＵＲＬデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化することで重み付けを行う工程とを含む。これにより、ユーザが基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースから検索することで、より高速な検索を実現できる。

さらにまた第１３のクライアントデータベース構築方法は、複数のデータを含むマスタレコード中から、検索対象としたいデータ及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、サーバデータベース中から検索除外のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、検索除外とする情報に関する基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードに基づいてデータ及び／又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該画像データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが検索結果から除外したい基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができ、効果的なフィルタリングを行うことができる。

さらにまた第１４のクライアントデータベース構築方法は、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び／又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外の画像データに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、検索除外とする画像に関する基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードに基づいて画像データ及び／又は該画像データの保存位置に関する情報を検索して抽出し、抽出された画像データ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該画像データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが所望の基底キーワードを指定するのみで、検索結果から除外したい画像データに関するクライアントデータベースを自動的に構築することができる。検索を行う際は除外したい画像データに該当するか否かの判定をクライアントデータベースと対比して行えるので、フィルタリングを高速に行うことができる。

さらにまた第１５のクライアントデータベース構築方法は、複数の画像データが含まれるインターネット中から、検索候補となる画像データのＵＲＬを収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外する画像データのＵＲＬを抽出して記録したクライアントデータベースを構築する方法であって、検索除外とする画像データに関するハザーダスキーワードの入力を促す工程と、前記サーバデータベース中から該ハザーダスキーワードに基づいて画像データのＵＲＬを検索して抽出し、抽出されたＵＲＬに対し、該ＵＲＬのコンテンツを解析して基底キーワードの出現頻度を計数し、クライアントデータベース中のＵＲＬの出現頻度を、サーバデータベース中のＵＲＬの出現頻度で除算して正規化することにより、重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値をハザーダスキーワード毎に設定し、前記ハザーダスキーワードと画像データのＵＲＬ、基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが検索から除外したい有害なハザーダスキーワードを幾つか指定するのみで、有害な画像データのＵＲＬを記録したクライアントデータベースを自動的に構築することができる。画像検索を行う際は、検索結果のＵＲＬが有害な画像データを含むか否かの判定を、クライアントデータベースに登録されたＵＲＬと対比して行えるので、フィルタリングを極めて高速に行うことができる。

さらにまた第１６のデータ検索方法は、複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、検索対象を表す検索キーワードの入力を促す工程と、前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程とを含む。これにより、予め構築されたクライアントデータベースとのマッチングによって検索結果を得ることができるので、高速で効率の良い検索を行うことができる。

さらにまた第１７のデータ検索方法は、複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び／又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象の画像データに関する情報を抽出して記録したクライアントデータベースを構築しておき、検索対象の情報に関する検索キーワードの入力を促す工程と、前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程とを含む。これにより、予め構築されたクライアントデータベースとのマッチングによって検索結果を得ることができるので、高速で効率の良い画像検索を行うことができる。

さらにまた第１８のデータ検索方法は、複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、予め、複数のデータを含むマスタレコード中から、検索対象としたいデータ及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、検索結果から除外したいデータに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、検索対象の情報に関する検索キーワードの入力を促す工程と、前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、前記一次検索結果に含まれるデータの内、前記クライアントデータベース中に登録されているデータを除外して二次検索結果を抽出する工程と、前記二次検索結果を検索結果として出力する工程とを含む。これにより、アクセス制限等、検索結果から除外したいデータを、クライアントデータベースで高速に検査できる。またクライアントデータベースを自動的に構築できるので、除外したいキーワードを一々指定する手間を省くことができる。

さらにまた第１９のデータ検索方法は、複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、検索結果から除外したい画像データに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、検索対象の情報に関する検索キーワードの入力を促す工程と、前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、前記一次検索結果に含まれる画像データの内、前記クライアントデータベース中に登録されている画像データを除外して二次検索結果を抽出する工程と、前記二次検索結果を検索結果として出力する工程とを含む。これにより、アクセス制限等、検索結果から除外したい画像データを、クライアントデータベースで高速に検査できる。またクライアントデータベースを自動的に構築できるので、除外したいキーワードを一々指定する手間を省くことができる。

さらにまた第２０のデータ検索方法は、前記クライアントデータベースとして上述したクライアントデータベースを利用している。

さらにまた第２１のデータ検索システムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するデータ検索システムであって、各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワードを設定するためのキーワード設定手段と、複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び／又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索対象を表す基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を記録したクライアントデータベースとを備える。これにより、ユーザが所望の基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースから検索することで、サーバデータベースから検索を行うよりも高速な検索を実現できる。

さらにまた第２２のデータ検索フィルタリングシステムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングシステムであって、各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定するためのキーワード設定手段と、複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び／又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索除外を表す基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を記録したクライアントデータベースとを備える。これにより、ユーザが検索結果から除外したい基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができ、効果的なフィルタリングを行うことができる。

さらにまた第２３のクライアントデータベース構築プログラムは、複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築するプログラムであって、検索対象を表す基底キーワードの入力を促す機能と、前記サーバデータベース中から該基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する機能とをコンピュータに実現させる。これにより、ユーザが所望の基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースから検索することで、サーバデータベースから検索を行うよりも高速な検索を実現できる。

さらにまた第２４のデータ検索プログラムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するためのデータ検索プログラムであって、予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、検索対象を表す検索キーワードの入力を促す機能と、前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する機能とをコンピュータに実現させる。これにより、予め構築されたクライアントデータベースとのマッチングによって検索結果を得ることができるので、高速で効率の良い検索を行うことができる。

さらにまた第２５のデータ検索フィルタリングプログラムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングプログラムであって、各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定する機能と、設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を、自動巡回により収集する機能と、必要に応じて、収集されたデータ及び／又は位置情報を、前記キーワードと関連付けてサーバデータベースに蓄積する機能と、キーワード設定機能で設定された検索除外を表す基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を記録したクライアントデータベースを構築する機能とをコンピュータに実現させる。これにより、アクセス制限等、検索結果から除外したいデータを、クライアントデータベースで高速に検査できる。またクライアントデータベースを自動的に構築できるので、除外したいキーワードを一々指定する手間を省くことができる。

さらにまた第２６のコンピュータで読み取り可能な記録媒体又は記録した機器は、上記プログラムを格納するものである。記録媒体には、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷやフレキシブルディスク、磁気テープ、ＭＯ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒ、ＤＶＤ＋Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ、Ｂｌｕｅ−ｒａｙ（登録商標）、ＨＤＤＶＤ（登録商標）（ＡＯＤ）等の磁気ディスク、光ディスク、光磁気ディスク、半導体メモリその他のプログラムを格納可能な媒体が含まれる。またプログラムには、上記記録媒体に格納されて配布されるものの他、インターネット等のネットワーク回線を通じてダウンロードによって配布される形態のものも含まれる。さらに記録した機器には、上記プログラムがソフトウェアやファームウェア等の形態で実行可能な状態に実装された汎用もしくは専用機器を含む。さらにまたプログラムに含まれる各処理や機能は、コンピュータで実行可能なプログラムソフトウエアにより実行してもよいし、各部の処理を所定のゲートアレイ（ＦＰＧＡ、ＡＳＩＣ）等のハードウエア、又はプログラム・ソフトウエアとハードウェアの一部の要素を実現する部分的ハードウエア・モジュールとが混在する形式で実現してもよい。

本発明のクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器によれば、ユーザの興味を象徴する基底キーワードに基づいてクライアントデータベースを自動的に構築することができ、インデックス情報の作成を大幅に省力化できる。また検索に際してはクライアントデータベースをインデックス情報として利用できるので、マスタレコード中から直接検索を行うよりも極めて高速で、かつ精度の高い検索が実現される。

以下、本発明の実施の形態を図面に基づいて説明する。ただし、以下に示す実施の形態は、本発明の技術思想を具体化するためのクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を例示するものであって、本発明はクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を以下のものに特定しない。また、本明細書は特許請求の範囲に示される部材を、実施の形態の部材に特定するものでは決してない。特に実施の形態に記載されている構成部品の寸法、材質、形状、その相対的配置等は特に特定的な記載がない限りは、本発明の範囲をそれのみに限定する趣旨ではなく、単なる説明例にすぎない。なお、各図面が示す部材の大きさや位置関係等は、説明を明確にするため誇張していることがある。さらに以下の説明において、同一の名称、符号については同一もしくは同質の部材を示しており、詳細説明を適宜省略する。さらに、本発明を構成する各要素は、複数の要素を同一の部材で構成して一の部材で複数の要素を兼用する態様としてもよいし、逆に一の部材の機能を複数の部材で分担して実現することもできる。

本明細書においてデータ検索システムまたはデータ検索システムとこれに接続される操作、制御、入出力、表示、その他の処理等のためのコンピュータ、プリンタ、外部記憶装置その他の周辺機器との接続は、例えばＩＥＥＥ１３９４、ＲＳ−２３２ｘ、ＲＳ−４２２、ＲＳ−４２３、ＲＳ−４８５、ＵＳＢ等のシリアル接続、パラレル接続、あるいは１０ＢＡＳＥ−Ｔ、１００ＢＡＳＥ−ＴＸ、１０００ＢＡＳＥ−Ｔ等のネットワークを介して電気的に接続して通信を行う。接続は有線を使った物理的な接続に限られず、ＩＥＥＥ８０２．１ｘ、ＯＦＤＭ方式等の無線ＬＡＮやＢｌｕｅｔｏｏｔｈ等の電波、赤外線、光通信等を利用した無線接続等でもよい。さらに検索対象のテキストや画像データの保存やデータベース構築、検索等に関する設定の保存等を行うための記録媒体には、メモリカードや磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が利用できる。
（データ検索システム）

図１に、本発明の一実施の形態として、インターネット上の画像検索に本発明を適用したデータ検索システム１００の概要を示す。この図に示すデータ検索システム１００は、サーバコンピュータ１０と、ユーザ側の端末コンピュータ２０が接続されている。接続はローカルでも、ネットワーク経由でも良い。またサーバコンピュータ１０は、マスタレコードの一例であるインターネットにも接続されている。なお、サーバコンピュータ１０と端末コンピュータ２０との接続にもインターネットを利用することができる。サーバコンピュータ１０や端末コンピュータ２０は、汎用のパーソナルコンピュータやワークステーション等が利用できる。また端末コンピュータ２０は、携帯電話やスマートフォン、ＰＤＡ、通信機能付カーナビゲーションやデータ通信可能な固定電話等の、通信可能な機器が適宜利用できる。
（サーバコンピュータ１０）

サーバコンピュータ１０は、マウスやキーボード等の入力手段と、ＣＰＵやメモリ等で構成された演算手段と、外部接続機器とデータ通信するための通信手段（例えばイーサネット（登録商標））と、検索条件の設定内容の確認や検索結果の表示等を行うための表示手段と、サーバデータベース３０と、一以上のクライアントデータベース４０を備えている。入力手段は、後述する閾値や各キーワードを入力するためのキーワード設定手段として機能する。入力手段は、サーバコンピュータ１０と有線もしくは無線で接続され、あるいはコンピュータに固定されている。一般的な入力手段としては、例えばマウスやキーボード、スライドパッド、トラックポイント、タブレット、ジョイスティック、コンソール、ジョグダイヤル、デジタイザ、ライトペン、テンキー、タッチパッド、アキュポイント等の各種ポインティングデバイスが挙げられる。またこれらの入力手段は、コンピュータ等のハードウェアの操作の他、プログラムの操作にも利用できる。さらに、インターフェース画面を表示するディスプレイ自体にタッチスクリーンやタッチパネルを利用して、画面上をユーザが手で直接触れることにより入力や操作を可能としたり、または音声入力その他の既存の入力手段を利用、あるいはこれらを併用することもできる。

演算手段は、通信手段でマスタレコード等とデータ通信を行い、設定されたキーワードに基づいて、検索対象としたい情報のデータ及び／又は該データの保存位置に関する情報を収集するデータ収集手段として機能する。データ収集手段は、設定されたタイミングで自動的にインターネットにアクセスして各サイトを巡回しながらデータ収集する。また、ユーザが手動でタイミングを指定してデータ収集することもできる。このようにして取得された情報やデータは、サーバデータベース３０に保存される。自動巡回してデータを取得する手法は、既存のあるいは将来開発される手法が適宜利用できる。
（端末コンピュータ２０）

また端末コンピュータ２０も同様に、入力手段、演算手段、通信手段、表示手段等を備える。なお、図１の例ではサーバ側にサーバコンピュータ１０を設置した例を説明しているが、サーバ側にコンピュータを設置せず、端末側に設置したコンピュータで操作することも可能である。すなわち、ネットワーク等を介して遠隔操作でサーバデータベース３０やクライアントデータベース４０にアクセスする構成や、端末コンピュータの一をサーバコンピュータに兼用してサーバ側のデータベースを操作することもできる。
（データベース）

データベースは、検索対象のデータを保存する記憶媒体であり、大容量のハードディスク等が利用される。一般にはサーバコンピュータに内蔵あるいは接続されており、端末コンピュータ２０と通信可能に接続されている。またデータベースは、端末コンピュータに備えることもでき、さらに端末コンピュータの２次記憶部と兼用することもできる。このように本実施の形態に係るデータ検索システムは、データベースとの接続をネットワーク接続あるいはスタンドアロン接続の両方に対応できる。すなわち、サーバデータベース３０をサーバコンピュータ１０に接続する場合は、ネットワーク接続されたユーザの端末コンピュータや携帯電話等の端末から入力されるキーワードを受信して、これを入力キーワードとして検索を実行し、その検索結果を端末側に返して端末側の表示部にて表示させる。ネットワーク接続としてはＬＡＮやＷＡＮ、インターネット等が利用できる。この形態では、サーバデータベース３０がサーチエンジンとして機能し、各端末から入力された検索条件に対して検索を行った結果をそれぞれの端末に出力する。
（サーバデータベース３０）

サーバデータベース３０は、マスタレコードとしてインターネット上から検索可能な画像データに関する情報を自動収集したデータベースである。ここでは、画像データの保存されている位置情報、すなわちＵＲＬアドレスを記録している。例えばインターネット上でサーチエンジンと呼ばれる検索サービスを提供するために、検索対象のキーワードとＵＲＬとを関連付けて記録したデータベースと同等のものである。なお位置情報に加えて、又はこれに代わって画像データ自体をサーバデータベース３０に保存して検索可能としても良い。
（クライアントデータベース４０）

一方、クライアントデータベース４０は、サーバデータベース３０中から検索を行う際のインデックス（索引）情報として、あるいは特定の情報をカットするためのフィルタリングを行うフィルタリング情報として機能する。インデックスを作成するインデキシング等、クライアントデータベース４０の構築、更新は、サーバコンピュータ１０が行う。ここでは、予めサーバデータベース３０に登録されている情報から、検索したい特定の情報に関する基底キーワード、あるいはアクセス制限したい情報に関する基底キーワードに基づいて、これらに該当する情報を抽出し、データベースとして構築する。データベースに蓄積する情報は、基底キーワードに対して、該基底キーワードを含むデータが保存されている位置、ここではＵＲＬアドレスを関連付けて登録する。また、ＵＲＬに加えて、画像データ自体をクライアントデータベース４０に保存してもよい。
（基底キーワード）

基底キーワードは、検索テーマ毎に一以上指定できる。特定の検索テーマ、例えば野球であれば、野球に関連する「高校野球」、「プロ野球」、「メジャーリーグ」等を基底キーワードとして、ユーザが指定する。これによって、ユーザが検索したいテーマに関するＵＲＬ情報を、予めクライアントデータベース４０として自動的に収集することができる。そして構築されたクライアントデータベース４０はＵＲＬ情報のみであるため、極めて高速な検索結果を得ることができるという利点が得られる。

また、検索テーマ毎に、クライアントデータベース４０を構築することができる。実際にデータ検索を行う際には、検索テーマに応じてクライアントデータベースを切り替えたり、複数のクライアントデータベースを組み合わせて選択することもできる。これを実現するため、サーバコンピュータ１０は、クライアントデータベース切替手段として機能させてもよい。
（フィルタリング）

さらに、ユーザが望む情報を収集したクライアントデータベースを構築するほか、アクセスを制限したいＵＲＬを収集したクライアントデータベースを構築し、これを利用してフィルタリングを行うこともできる。すなわち、検索結果として表示させたくない情報を意図的に収集することで、このＵＲＬをブロック対象とすることで、フィルタリングを実現できる。例えば、有害画像を含むＵＲＬを収集することで、これらの画像の表示を制限するフィルタリングとして、教育機関等に好適に導入できる。特に画像情報は有害性が強いため、教育現場で有効なフィルタリングが求められている。従来のフィルタリングでは予めブロックする情報をユーザが手動で指定する必要があり、手間がかかるという問題があった。本実施の形態では有害画像のＵＲＬを自動的に収集できるので、手間のかからない効率的なフィルタリングを実現できる。
（画像検索に対するフィルタリング）

データ検索には、テキストデータの検索の他、画像データの検索も利用されている。現在主流の画像検索方法は、画像のファイル名や画像の周辺に存在するテキスト、あるいは画像のキャプション情報等に基づいて、該画像用の検索キーを設定するものである。これによって、検索キーに関連する画像を検索することができる。代表的なものとして、Ｇｏｏｇｌｅ（登録商標）、ｇｏｏ（登録商標）、ＡｌｔａＶｉｓｔａ（登録商標）、Ｙａｈｏｏ（登録商標）が挙げられる。これらのシステムで問題となるのは、検索結果に有害な画像が表示されてしまうことである。Ｗｅｂ検索の場合には、有害サイトが検索されても検索結果中にはそのサイトへのリンク、及び検索キーが存在する近辺のテキストしか表示されない。そのため、有害な検索キーが存在する近辺のテキストが表示されたとしても有害性は、相対的に低い。一方、画像検索では、検索結果中にサムネイル画像として有害画像が表示されてしまうため、この場合の有害性は非常に高い。このため、ＷＷＷ画像検索システムにおいて、有害画像のフィルタリング機能が求められている。

ｇｏｏ（登録商標）やＡｌｔａＶｉｓｔａ（登録商標）では、検索キーに対して制限するフィルタリング機能を提供している。両検索システムでは、有害画像が検索されるであろう検索キーに対して制限することで、有害画像を閲覧できないようにしている。しかしながら、検索キーによっては多くの無害な画像をも制限してしまい、フィルタリング精度は悪い。一方、Ｇｏｏｇｌｅ（登録商標）やＹａｈｏｏ（登録商標）では、アクセス制限するＵＲＬ一覧をデータベース化し、データベースに登録されたＵＲＬと一致する画像に対して制限を行っている。この方法では、誤って無害な画像を制限してしまうことが無い反面、ＵＲＬデータベースの構築を人手で行わなければならないため、多大な労力が必要となるという欠点がある。そのため、Ｇｏｏｇｌｅ（登録商標）やＹａｈｏｏ（登録商標）では、すべての有害画像のＵＲＬをデータベース化できておらず、多くの有害画像が表示されてしまっているのが現状である。また、どのフィルタリング機能であっても、フリーメールを使用できる程度の知識があれば、簡単にフィルタリング機能をオフにすることができてしまう。したがって、クライアント側において、ＷＷＷ画像検索システムの検索結果に対するフィルタリング処理の適用が必要である。

このような状況において、本実施の形態を適用すれば、クライアントデータベースに有害画像のＵＲＬを蓄積する作業を自動化できるので、画像検索のフィルタリングを効果的に行いつつ、データベース化の作業を大幅に省力化できるという実用性の高いフィルタリングが実現できる。
（クライアントデータベースの構築方法）

次に、クライアントデータベースの構築方法について、図２のブロック図及び図３のフローチャートに基づいて説明する。ここでは、画像検索の際に有害画像のフィルタリングを行うために、サーバコンピュータを兼用する端末コンピュータでクライアントデータベースを構築する例について説明する。まず、ステップＳ１０１で、ユーザが端末コンピュータを操作して、有害画像に関連すると思われる基底キーワードとして、ハザーダス（Hazardous ）キーワードを複数選定し、入力手段から入力する。ハザーダスキーワードとしては、例えばヌードやエッチ、ＳＥＸ等の単語が該当する。次にステップＳ１０２で、入力されたハザーダスキーワード群を検索キーワードとして、サーバデータベース３０の画像検索を行う。そしてステップＳ１０３で、検索された画像データをダウンロードして出力する。ここでは、検索結果として取得された複数の画像の一覧を端末側コンピュータの表示手段に表示する。ユーザは、検索された画像中から有害画像を手動で選択する。そしてステップＳ１０４で、有害画像として選択された画像を取得したＵＲＬを抽出し、クライアントデータベースに登録する。次にステップＳ１０５で、登録された各ＵＲＬに対して重み付けを行う。
（重み付け）

ここでは、重み付けとしてＵＲＬの出現頻度に基づく正規化を行う。以下、重み付けの手順の一例を、図４のフローチャート及び図５〜図７に基づいて説明する。まずステップＳ２０１で、クライアントデータベース中に登録されたＵＲＬに対して、ＵＲＬを分解して出現頻度を求める。ここでは図５に示すようにＵＲＬの構成要素をディレクトリ毎に分解して部分ＵＲＬとし、トライ構造によって部分ＵＲＬ以下のリーフ数を計数する。図５に例示する３つのＵＲＬがクライアントデータベースに登録されている場合、トライ構造は図５のようになり、各部分ＵＲＬの出現頻度が計数される。

次にステップＳ２０２で大域的頻度の抽出を行う。ここでは、ＷＷＷ（World Wide Web）空間中において、上記の部分ＵＲＬが出現する頻度を求める。この例では、サーチエンジン等ＷＷＷ検索システムが有する、いわゆるＵＲＬ検索を使用して、部分ＵＲＬを入力して検索し、仮想的にＷＷＷ空間中の大域的頻度を求めた。この結果を図６に示す。

そしてステップＳ２０３で、得られた大域的頻度による正規化を行う。ここでは、図７に示すように、部分ＵＲＬの出現頻度を、大域的頻度で除算して正規化する。この結果得られた値を各部分ＵＲＬの基準値とすると、（部分ＵＲＬの基準値）＝（クライアントデータベース中の部分ＵＲＬの出現頻度）／（ＷＷＷ空間中の部分ＵＲＬの出現頻度）となる。ここでは、部分ＵＲＬの有害度Ｈ_ｕｒｌとすると、以下の数１で表現できる。

この例では有害な画像のフィルタリングを行うため、基準値を有害度として、有害度が高い場合にアクセス制限を行うための閾値を設定することにより、適正なフィルタリングが実現できる。閾値はユーザが入力手段から入力する。これにより、設定された閾値よりも有害度の高い部分ＵＲＬが含まれるＵＲＬについては、アクセス制限がかけられる。

以上のようにして、効果的なフィルタリングが行える。すなわちユーザが数個〜数十個程度のハザーダスキーワード（有害な画像を象徴するキーワード）を選定してキーワード設定手段から入力することにより、有害画像のＵＲＬデータベースを自動的に構築することが可能となり、ユーザは有害画像を含むサイトのＵＲＬを一々調べて入力する手間を省力化することができる。
（フィルタリング手法）

以下、具体的なフィルタリングの手法について、図８のフローチャート及び図９〜図１１のブロック図に基づいて説明する。ここでは、ユーザがインターネット上から画像検索を行う際に、予め上記の手法で構築された有害画像を含むＵＲＬクライアントデータベースに基づいて、検索結果から有害画像のフィルタリングを行う例について説明する。まずステップＳ３０１で、検索を行う。ここではユーザが端末コンピュータを使用して、画像検索の検索キーワードをキーワード入力手段から入力する。検索キーワードは、ユーザが検索したい画像を象徴するキーワードを文字で指定する。また、検索したい画像に関する検索テーマについて、予めサーバデータベース３０を構築しておき、画像検索の際にはこのサーバデータベース３０を検索対象として選択する。

次にステップＳ３０２で、検索キーワードに基づいてサーバデータベース３０を検索し、一次検索結果として画像のＵＲＬ群を生成する。一次検索結果として得られたＵＲＬの画像は、この段階では表示手段に表示されない。

そしてステップＳ３０３で、この一次検索結果と、クライアントデータベースのＵＲＬとの比較を行う。ここでは、予め閾値設定手段で設定された閾値に基づいて、一次検索結果の各ＵＲＬと一致する部分ＵＲＬの有害度との部分マッチングを行う。例えば図１０に示すように、閾値を０．３０に設定し、一次検索結果としてＵＲＬ「http://a2server/yoshiyuki/sexy.html」が取得されたとする。このＵＲＬ構造から部分ＵＲＬを解析すると、「a2server」、「yoshiyuki」に分解される。そしてこれらの部分ＵＲＬをクライアントデータベースに登録されている部分ＵＲＬと対比して検索すると、「a2server」と「yoshiyuki」が検索される。さらに、これらの有害度を参照すると、「a2server」の有害度は上述の計算式より０．０６、「yoshiyuki」の有害度は０．６７となっている。この結果、「yoshiyuki」の有害度０．６７は閾値０．３０を超えているため、この部分ＵＲＬを含むＵＲＬ「http://a2server/yoshiyuki/sexy.html」は有害と判定され、閲覧を制限する。すなわち、画像の表示対象から除外される。

一方、図１１に示すように一次検索結果としてＵＲＬ「http://a2server/issei/index.html」が取得されたとし、同様にこのＵＲＬ構造から部分ＵＲＬを解析し、「a2server」、「issei」を得、これらの部分ＵＲＬをクライアントデータベースに登録されている部分ＵＲＬと対比すると、「a2server」の有害度０．０６、「issei」の有害度０．１０が得られる。この結果、「a2server」、「issei」のいずれも、有害度が閾値以下であるため、これらの部分ＵＲＬを含むＵＲＬ「http://a2server/issei/index.html」はフィルタリング対象外とされて、このＵＲＬの画像は検索結果として表示手段への表示が許可される。

このようにして一次検索結果をフィルタリングして二次検索結果を得て、ステップＳ３０４で、二次検索結果として表示可能な画像を表示手段に出力する。表示方法としては、フィルタリング対象とされた画像を完全に排除して画像一覧を表示する他、フィルタリング対象画像については「！」、「×」等の閲覧制限がかけられていることを示す画像を代替画像として表示し、アドレスやファイル名を表示することで、閲覧制限の画像が存在することをユーザに知らせることもできる。

このようにして、閲覧対象の画像と、閲覧制限を行う画像とを峻別することができる。この方法によれば、従来フィルタリングができなかった未登録のＵＲＬについてもフィルタリングが可能となる。すなわち、ＵＲＬを分解して構成部分毎に重み付けを行い、さらに検索結果のＵＲＬを部分的にマッチングすることで、未登録ＵＲＬであっても一部が一致する限り、その有害度を判定可能となる。
（基底キーワードの適正判定）

一方、この方法ではハザーダスキーワードによっては、ユーザが意図しないＵＲＬを収集してしまうという問題がある。これは単語の持つ意味的多義性に起因する。例えばハザーダスキーワードとして「処女」を設定すると、有害画像の他、処女作、処女航海といった有害でない画像についてもフィルタリングの対象となるおそれがあり、ノイズによるフィルタリング精度の低下が生じ得る。そこで、ハザーダスキーワードとして選定されたキーワードの異なり数に着目して、ハザーダスキーワードとしての適正を判定し、ユーザによる適正なハザーダスキーワードの選定を支援する。

ここでは、ヒットする画像にリンクされたホームページの内容までダウンロードして、そのコンテンツを解析する。例えば「処女」で検索された画像を含むページのテキスト情報を取得し、このページ内に、ユーザが設定した複数のハザーダスキーワード群が幾つ含まれているかを計数する。例えばハザーダスキーワードとして「アダルト」、「エッチ」、「ヌード」、「処女」が指定されている場合で、「処女」で検索された画像を含むページのテキスト情報を解析する。例えば、検索のキーとなった「処女」以外に、「アダルト」、「エッチ」、「ヌード」の３つのキーワードも含まれているページは、「処女」以外のハザーダスキーワードの異なり数が３となり、有害画像に該当する可能性が高いと判断できる。一方、処女航海のページのような安全なサイトであれば、「処女」以外の他のハザーダスキーワードが含まれておらず、ハザーダスキーワードの異なり数が０となる。このように、アクセス制限したいページであれば、相対的に複数種類のハザーダスキーワードが含まれている可能性が高く、一方、安全なページであれば相対的に他のハザーダスキーワードが含まれている可能性が低くなる傾向に着目して、複数のハザーダスキーワード群の異なり数を調べ、ハザーダスキーワードとして有効であるかどうかの適正を判定する。

以下、基底キーワードの適正判定を行う手順を説明する。ここでは、基底キーワードとして複数のハザーダスキーワードを選択し、これらの内で適正さの高いキーワードを選択する手順について、図１２のフローチャート及び図１３のブロック図に基づいて説明する。まずステップＳ４０１において、複数の基底キーワードをユーザが指定する。ここではハザーダスキーワードとして「アダルト」、「処女」、「ヌード」、「エッチ」、「セックス」の５つをキーワード入力手段から入力する。次にステップＳ４０２で、検索を実行する。ここではサーバデータベース３０から、上記のハザーダスキーワードについて画像検索を行う。

次にステップＳ４０３でコンテンツを取得する。ここでは、取得された画像にリンクするｈｔｍｌファイルをダウンロードする。そしてステップＳ４０４で、基底キーワード毎に異なり数を計測する。ここでは、ハザーダスキーワード毎に、ダウンロードしたｈｔｍｌファイルに含まれる他のハザーダスキーワードの数を、異なり数として計数し、ハザーダスキーワード毎に得られた異なり数の平均値を演算する。最後にステップＳ４０５で、異なり数に基づいて基底キーワードの適正を判定する。異なり数が多い基底キーワードは、使用頻度が高い、すなわち基底キーワード群の中でも関連性が高いと推測でき、逆に異なり数が少ない基底キーワードは、他の基底キーワードとの関連性が低い、すなわちノイズが多くなると推測できる。ここでは、異なり数の平均値で基底キーワードをソートし、平均値の高いハザーダスキーワードを適正とし、平均値の低いハザーダスキーワードを除外する。この判定は、例えば平均値の高い順に上位から所定の個数を抽出したり、平均値の低いものから順にハザーダスキーワードとして適正でないとして所定個数を排除する。あるいは、平均値に対して閾値を設定し、設定された閾値を下回るハザーダスキーワードを除外しても良い。

また、このような判定に基づき、ハザーダスキーワードとして不適切であり、フィルタリングの精度が低下するおそれがあるとして、ユーザに対してハザーダスキーワードの選定を再考するよう促すことができる。例えば基底キーワードの適正判定結果として「ハザーダスキーワードとして不適切です」等の警告メッセージを表示手段に表示させる。

この方法であれば、基底キーワードを選定する時点で、該基底キーワード自体の有効性を判定できるので、より適正な基底キーワードに基づいてクライアントデータベースを構築できる。これによってクライアントデータベース自体の品質が向上し、フィルタリングの際の精度向上や検索の際の検索漏れ低減が期待できる。
（評価試験）

次に、ＵＲＬの重み付けの評価を行った結果について説明する。ここでは、ＵＲＬの部分マッチングによるフィルタリング手法及びハザーダスキーワード選定手法を用いて、既存のＷＷＷ画像検索システムの検索結果に対するフィルタリング実験を行った。以下に実験条件、評価基準、各手法に対する実験結果、考察を述べる。

実験条件としては、既存のＷＷＷ画像検索システムにGoogle Image Searchを用いて、ハザーダスＵＲＬデータベースと評価用データを作成した。まず、ｋ個のハザーダスキーワードで検索し、検索結果上位１００件の画像ページのＵＲＬをデータベースに登録した。ｋは各評価実験により異なるため、評価毎の実験方法で説明する。次に、ハザーダスキーワードとは別に有害な画像が検索される可能性がある「看護婦」や「制服」といった２７個の評価用キーワードで検索を行い、検索結果上位１００件の画像ページのＵＲＬ計２６３９件を評価用データとした。さらに、評価用データ中のＵＲＬを人手で判定し、性的描写がある場合はハザーダス、性的描写が無い場合はセーフと２種類に分類し、４５６件のハザーダスＵＲＬと２１８３件のセーフＵＲＬを得た。

フィルタリング精度の評価尺度には、再現率・適合率及びＦ尺度を用いた。評価用データに対してハザーダスＵＲＬデータベースを用いてフィルタリングを行い、以下の数２、３に示すハザーダス画像の再現率（Ｒ_ｈａｚ）、適合率（Ｐ_ｈａｚ）を求めた。Ｒ_ｈａｚは評価用データ中の全ハザーダス画像を正しくブロックできた割合を表し、Ｐ_ｈａｚはブロックした画像の中で本当にハザーダス画像であった割合を表す。

また、ハザーダス画像の再現率・適合率を求めると同時に、数４、５に示すセーフ画像の再現率（Ｒ_ｓａｆ）、適合率（Ｐ_ｓａｆ）も併せて求めた。Ｒ_ｓａｆは評価用データ中の全セーフ画像に対してアクセスを許す割合を表し、Ｐ_ｓａｆはアクセスを許した画像の中で本当にセーフ画像であった割合を表す。

本手法では、部分ＵＲＬの有害度に閾値を設定してフィルタリングを行うため、閾値毎に再現率・適合率は変化する。そこで、閾値Ｔを０．０〜１．０まで０．０００１毎に変化させ、それにより得られた再現率・適合率をプロットし、再現率・適合率曲線を求めた。各曲線は再現率・適合率の幅がまばらであり、曲線が交差する部分があるため、各手法の精度を順位付けするのは困難である。そこで、再現率と適合率を総合的な観点から１つの値により評価するためにＦ尺度を求めた。Ｆ尺度は以下の数６で求めることができる。

再現率・適合率曲線では、グラフ中に多数の再現率と適合率のペアが存在するため、各曲線において、再現率を０．０〜１．０まで０．０５毎に区切った計１０１点のＦ尺度を計算し、その平均値を求めた。
（ＵＲＬの部分マッチングによる評価）

次にＵＲＬの部分マッチングによる評価について説明する。まず、５４個のハザーダスキーワードで検索し、検索結果上位１００件のＵＲＬ計４１８９件をハザーダスＵＲＬデータベースに登録した。次に、登録されたＵＲＬに対して以下の４つ手法を用い、評価用データに対してフィルタリングを行い、再現率・適合率及びＦ尺度を求めた。
（１）正規化あり（Ａｌｌ）

本実施の形態に係る部分ＵＲＬの有害度による重み付けを行ったものである。
（２）正規化無し（Ｎｏｒｍａｌ）

正規化を施さず、ハザーダスＵＲＬデータベース中の部分ＵＲＬの出現頻度による重み付けを行ったものである。ハザーダスキーワードで検索されたＵＲＬを多く持つサーバであるほど重みが高い。そのため従来のＵＲＬチェック方式で問題となっているサーバ全体の包括規制に該当する。
（３）パスの深さによる重み付け（Ｐａｓｓ）

ＵＲＬのパス数をｄとすると、ＵＲＬのサーバ部を深さ１、サーバ以下の第一パス部を深さ２、第二パス部を深さ３、．．．、ファイル部を深さｄとして重み付けを行う。
（４）画像解析（Ｉｍａｇｅ）

既存のＷＷＷ画像検索システムを用いて、人手でハザーダス画像を５００件抽出し、色情報、形状情報を用いて画像解析によりハザーダス画像を自動で判定した。距離計算方法には画像検索の分野で高精度な検索を実現するEarth Mover's Distanceを用いた。この手法は、従来のコンテンツチェック方式に該当する。

以上の実験結果として、ハザーダス画像の再現率・適合率曲線を図１４に、セーフ画像の再現率・適合率曲線を図１５に示す。また各手法のＦ尺度の平均値を表１に示す。

これらから明らかなように、Ｎｏｒｍａｌに比べＡｌｌが高い値を示していることから、正規化した頻度を用いたフィルタリング手法が有効であるといえる。これは、従来のＵＲＬチェック方式で問題であった包括規制を緩和できているといえる。Ｎｏｒｍａｌでは正規化が行われていないため、従来の包括規制と同様にサーバやディレクトリで過剰な規制が行われている。また、Ｐａｓｓに比べＡｌｌが高い値を示していることから、Ｐａｓｓではサーバやディレクトリで過剰な規制が行われてしまうのに対し、Ａｌｌでは過剰な規制を防ぎつつＵＲＬの有害性を部分的に識別できていると考えられる。Ｉｍａｇｅでは、再現率の値に関わらず適合率が低く、誤って多くのセーフ画像がハザーダスと判定されている。これは肌色の画像を全てハザーダス画像とみなすため、適合率が悪くなったと考えられる。以上から、本実施の形態では過剰な規制を回避しつつ、ＵＲＬの有害性を部分的に識別できていることが確認できた。
（ハザーダスキーワードの選定による評価）

次に、ハザーダスキーワードの選定による評価を行った結果を示す。実験方法としては、５４個のハザーダスキーワードの中から、上位１０件、２０件、３０件、４０件のキーワード選定を行った。この４通りに選定したキーワードセット及び５４個のキーワードセットを用いて、Ｇｏｏｇｌｅ（登録商標）で検索し、検索結果上位１００件のＵＲＬをデータベースに登録し、上記の手法により重み付けを行った。各キーワードセットで構築したＵＲＬ数を以下に示す。
（１）１０件による選定（ｋｅｙ１０）：７５２件
（２）上位２０件による選定（ｋｅｙ２０）：１５４４件
（３）上位３０件による選定（ｋｅｙ３０）：２３１０件
（４）上位４０件による選定（ｋｅｙ４０）：３０６１件
（５）選定なし（ｋｅｙ５４）：４１８９件

これら５つのデータベースを用い、評価用データに対してフィルタリングを行い、再現率・適合率及びＦ尺度を求めた。この実験結果として、ハザーダス画像の再現率・適合率曲線を図１６に、セーフ画像の再現率・適合率曲線を図１７に示す。また各手法のＦ尺度の平均値を表２に示す。

実験結果より、選定するキーワード数を絞るほどセーフのＦ尺度が向上していることが確認できた。これは、キーワードを絞るほど、ハザーダスＵＲＬデータベースに混入するセーフＵＲＬの割合が少なくなっているためである。したがって、ハザーダスキーワードの選定手法により、ノイズの少ないキーワードを効率良く選定できているといえる。一方、選定するキーワード数が１０個〜３０個の場合、キーワードを絞りすぎるとハザーダスのＦ尺度が減少していることが確認できた。これは、除去したキーワードの中にセーフＵＲＬと併せてハザーダスＵＲＬも多く含んでいたためであると考えられる。以上より、選定するハザーダスキーワード数を変化させることで、ハザーダス画像やセーフ画像のフィルタリング精度のどちらを重視するかを調整することができた。

以上のように、数十個の基底となるハザーダスキーワードを準備するだけで、既存のＷＷＷ画像検索システムの検索結果から有害画像をフィルタリングするのに有効なＵＲＬデータベースの構築手法、及びＵＲＬをパス毎に重み付けし、有害性の高いＵＲＬを部分的に識別することでフィルタリングすることが可能となる。また、ＵＲＬデータベースの自動構築時に問題となるノイズ混入を防ぐため、ハザーダスキーワードの意味的多義性に着目したキーワードの選定手法が実現できる。評価実験では、従来のＵＲＬチェック方式、コンテンツチェック方式に比べフィルタリング精度を向上することができた。また、ＵＲＬデータベースに混入するノイズを除去することに成功した。
（複数のクライアントデータベースの切り替え）

また、上記はフィルタリングの例について説明した。フィルタリングの場合、例えば有害画像の閲覧制限であれば、有害画像のＵＲＬに関する一のクライアントデータベースを構築すれば足りる。一方、フィルタリングでなく積極的に情報を収集する用途に本発明を適用する場合は、検索テーマ毎にクライアントデータベースを構築し、これら複数のクライアントデータベースを検索テーマに応じて切り替え、選択することが好ましい。もちろん、フィルタリング用途においても、閲覧制限したいテーマ毎に個別にクライアントデータベースを構築することは可能である。

次に、フィルタリングでなく検索される情報の精度を高めるために本実施の形態を利用する例について説明する。例えば、図１８に示すように野球に関する情報を収集するためにキーワードを「阪神」として検索すると、「阪神タイガース公式サイト」の他、「阪神高速」、「阪神電車ホームページ」、「阪神百貨店」、「阪神航空フレンドツアー」、「阪神シティケーブル」、「阪神大震災」等、「阪神」に関連する様々な意味が検索される。このため、ユーザは検索結果の絞り込みを行う必要があり、キーワードを指定し直して再検索する等の作業が必要で、時間と手間と経験を要する。

そこで、図１９に示すように野球関連の基底キーワードを複数設定して野球関連のＵＲＬを集めたクライアントデータベースを構築しておき、このクライアントデータベースを利用することで検索テーマとして野球に関する情報を高速に、かつノイズを少なくして収集することが可能となる。図１９の例では、まず基底キーワードとして野球に関連する言葉、「プロ野球」、「タイガース」、「高校野球」等を指定する。そしてこれらの野球関連キーワードでサーバデータベース３０に対して画像検索を行い、検索結果を出力し、この画像の保存先を示すＵＲＬ群を抽出してＵＲＬデータベースに登録する。このようにして、予め野球関連のＵＲＬクライアントデータベースを構築しておく。また、検索テーマに応じて複数のクライアントデータベースを構築しておくこともできる。そして検索を行う際は、図２０に示すように、検索キーワードを指定すると共に検索目的に応じたクライアントデータベースを一以上選択する。例えばクライアントデータベースとして野球関連ＵＲＬデータベースを選択し、検索キーワードとして「阪神」を入力すると、該野球関連ＵＲＬデータベース中から、阪神に該当する情報（例えば「阪神タイガース公式サイト」、「デイリースポーツ新聞」、「阪神ファンどっとコム」等）を得ることができる。この方法であれば、予め野球関連のデータが集められたＵＲＬデータベースをインデックス情報として利用できるので、検索が極めて高速である上、元々野球関連の情報が収集されたデータベースから検索するため、野球関連以外の情報が少なく、そのため検索のノイズが少ないというデータ検索として理想的なシステムが実現される。
（識別モデル）

一方、この方法では検索が高速でノイズが少ない反面、検索対象がクライアントデータベースに予め登録された情報に制限される。いいかえると、クライアントデータベースに登録されていない情報を検索することはできない。したがって、検索漏れが発生するおそれが生じる。そこで、クライアントデータベースに登録されていない情報も併せて検索できるよう、他の検索モデルを組み合わせて使用する。
（ベイズ理論に基づく学習）

コンテンツデータベースから関連するキーワードを取得するために、本実施の形態ではベイズ学習を利用する。ベイズ理論あるいはベイズ推定とは、過去に起きた事象の確率を利用して未来を予測する手法であって、最適化に好適である。文書内答を判定して分類する学習方法として、決定木、ニューラルネット、最近隣法等が知られているが、ここではナイーブ・ベイズ分類手法（Naive Bayes Classification Method）を利用した。ナイーブ・ベイズ分類は、迷惑メールを排除するシステム等で利用されており、文書の分類における有効性が確認されている。ナイーブ・ベイズの分類手法は、各分野に属する文書内の単語の出現確率に基づいているため、高い分類精度が得られるが、判別モデル作成のために多くのデータが必要となるといった問題点がある。そこで本実施の形態では、自動構築したデータベース内のＵＲＬにリンクするＨＴＭＬページのコンテンツを正事例とし、学習過程を簡略化したナイーブ・ベイズ分類手法を採用した。

図２１に一例として、野球関連ＵＲＬデータベースからベイズ学習によって野球分野のキーワードを選定した野球関連識別モデルデータベースを構築し、この識別モデルデータベースを利用して検索を行う様子を示す。ベイズ学習では、コンテンツデータベース中に登録されたテキストデータから、使用頻度の高い用語を切り出して抽出する。この抽出には、ベイズ学習が利用できる。ベイズ理論（ベイズ推定）とは、過去に起きた事象の確率を利用して未来を予測する手法であって、最適化に好適である。ここでは、クライアントデータベースに登録されているＵＲＬの内、特に上位、すなわち重み付けの重いホームページのテキストデータをダウンロードしてコンテンツデータベースを構築し、このコンテンツに含まれるテキストの単語を分割して、ベイズ学習を行う。ベイズ学習は、コンテンツデータベース中に現れる各単語の出現頻度を単語同士の関連性も含めて数値化してデータベースに登録し、それらに基づき関連キーワードの候補となる単語とその組み合わせから、その単語が既に基底キーワードとされた用語にどれほど近いかを確率的に決定する。
（ナイーブ・ベイズ）

ナイーブ・ベイズは、学習データを用いてベイズの定理に基づき何種類かのクラスへ文書を分類する手法の一つである。まず、学習データとしていくつかの分野ごとに分けられた文書集合を用意する。次に、学習データから判別モデルを作成する。これをデータの学習と呼ぶ。学習方法にはベクトル空間モデルを用いる方法、確率計算から得られる方法等があるが、ナイーブ・ベイズでは確率計算を行う。実際に分類をする際には、分野が未知の文書を、学習結果に基づいて得られた各クラスの文書データの特徴判別モデルと対比させて、入力文書がどのクラスに属するかを判断する。
（ベイズの定理）

機械学習においては学習用データＤが与えられたとき、仮説の全体集合Ｈからなる最も良い仮説を導くことが重要である。その一つの方法はデータと共に様々な仮説の事前確率の知識を応用して、より有効な仮説を求めることである。ベイズの定理はこのような確率を計算する手法を直接提供する。事前確率とは、仮説を有効とみなすためのデータを観測する確率である。ベイズの定理はそれに基づいて新しい仮説の確率を計算することができる。ベイズの定理は事前確率ｐ（ｈ）とＰ（Ｄ）やＰ（Ｄ｜ｈ）を用いて事後確率ｐ（ｈ｜Ｄ）を計算する方法を与えるもので、ベイズの学習方法の基礎をなす。ベイズの定理を次式数７に示す。

これより、Ｐ（ｈ｜Ｄ）はＰ（ｈ）やＰ（Ｄ｜ｈ）とともに増加することが分かる。逆にＰ（Ｄ）が増加するとＰ（ｈ｜Ｄ）は減少する。これは学習データＤが仮説ｈから独立して存在していれば、データＤが仮説ｈに及ぼす影響が少なくなることを示している。
（ナイーブ・ベイズの分類方法）

事実上のベイズの学習方法はナイーブ・ベイズの学習であり、ナイーブ・ベイズの分類方法と呼ばれる。それぞれの文書ｘが単語の集合＜ａ₁、ａ₂、…、ａ_n＞で表され、学習データのクラス集合Ｖに全ての文書が分類される条件で、ナイーブ・ベイズの分類は学習を行い、モデルを構築する。学習データに含まれない新しい文書をクラスに分類するベイズの方法は、学習データのモデルを設定し、入力文書ｘ_inから単語の集合＜ａ_inl、ａ_in2、…、ａ_inn＞を基に各クラスに属する確率Ｖを求め、最大の確率になるｖ_MAPを決定することである。すなわち、次式数８より求めることになる。

ベイズの定理を使うと、この等式は数９のように書き換えられる。

今、学習データに基づいて数９のうち、２つの項を計算する。学習データの中で、単純に個々のクラスに属する文書を数えることによって、Ｐ（ｖ_j）を概算することができる。しかし、非常に多くの学習データの集合を持たなければ、この方法でそれぞれのＰ（ａ_inl、ａ_in2、…、ａ_inn｜ｖ_j）の項を概算することは不可能である。このベイズの分類は文書を与えられたときに各単語が条件つきで独立であるという仮定に基づいている。仮定とは、実例の目的値が与えられたときに属性値ａ₁、ａ₂、…、ａ_nの結合を決める確率がある一つの性質である数１０

の積であることをいう。これを数９に置き換えるとベイズの使用される解法が得られる。ベイズの分類は次式数１１のようになる。単語の出現確率が単純に独立していると仮定することから、このベイズの分類はナイーブ・ベイズと呼ばれる。

（ＷＷＷ検索システムへの適用）

本実施の形態ではＷＷＷ検索システムにおいて、検索結果をＵＲＬデータベースのＵＲＬのコンテンツをナイーブ・ベイズの学習データとして用いて選定する。ナイーブ・ベイズは学習データが適切であれば高い分類精度を得ることができる。しかしながら、ユーザが求める多く分野の学習データを収集することは非常に困難である。そこで、本実施の形態では上記で構築したＵＲＬデータベースのコンテンツを解析し、ナイーブ・ベイズの学習を行う。コンテンツの解析は、形態素解析で行い、その結果の内、動詞、名詞を抽出することで行う。学習課程では各クラスのコンテンツ数、それらの単語出現頻度に基づいたモデルが構築される。

図２３に、ＵＲＬデータベースを用いて、ＷＷＷ検索結果をナイーブ・ベイズ選定手法で分類する処理を示す。また図２４は、ベイズ学習によって識別モデルデータベースを構築する手順を示すフローチャートである。以下、これらの図に基づいて、ベイズ学習によって識別モデルデータベースを構築する手順を説明する。

まず、ステップＳ５０１で、クライアントデータベースに登録された位置情報からコンテンツを取得する。ここでは、ＵＲＬ先のテキストデータをダウンロードする。図２１の例では、クライアントデータベースとして野球関連ＵＲＬデータベースが構築されているため、これらのＵＲＬを辿って野球関連の情報が得られる。そしてステップＳ５０２で、取得したコンテンツに基づいてコンテンツデータベースを作成する。ここでは、野球関連のホームページのコンテンツを含むデータベースとなる。さらにステップＳ５０３で、コンテンツデータベースから関連するキーワードを取得する。すなわち、コンテンツデータベース中に登録されたテキストデータから、ベイズ学習により使用頻度の高い用語を切り出して抽出する。そしてステップＳ５０４で、関連キーワードに基づいて識別モデルデータベースを構築する。ここでは、ベイズ学習によって得られた関連キーワードで、さらにクライアントデータベースを構築する。

このようにして構築された識別モデルデータベースを、検索テーマ毎のクライアントデータベースと併用することで、クライアントデータベースに登録されていない情報は識別モデルデータベースで補完することができるので、検索漏れの少ない検索結果を得ることができる。また、識別モデルデータベースの生成には、コンテンツの取得が必要であるため時間がかかるという問題があるが、本実施の形態ではクライアントデータベースと併用することによって、検索に要する処理時間を短縮できる。あるいは、識別モデルデータベースを予め構築しておき、クライアントデータベースと併合することで、漏れの少ないデータベースとできる。

ここで、ＵＲＬデータベースを用いてＷＷＷ検索結果をナイーブ・ベイズ選定手法で分類する手順を説明する。まず準備として、予め上述した手順にしたがって各分野のＵＲＬデータベースを構築する。各分野のＵＲＬデータベースの上位２００件のＵＲＬのコンテンツをＷＷＷからダウンロードし、解析する。その結果の単語の出現頻度から各クラスのモデルを構築する。この状態で検索キーワードを入力し、ＷＷＷ検索システムＧｏｏｇｌｅ（登録商標）Ｓｅａｒｃｈの検索結果にリンクされるＵＲＬのコンテンツ１つずつダウンロード、解析する。さらにコンテンツの解析結果をモデルに基づき、各クラス毎の分類確率を求め、最大となるクラスに分類する。このようにして、ナイーブ・ベイズ選定手法によってＷＷＷ検索結果をカテゴリー毎に分類する。

次に、上記のナイーブ・ベイズ選定手法による分類の有効性を確認するため、実際にＷＷＷ検索システムの検索結果に対する選定を行った結果を説明する。ここでは、解析したＵＲＬデータベースのＵＲＬのコンテンツ情報を学習したナイーブ・ベイズ選定手法によって、ＷＷＷ検索システムの検索結果に対する選定を行った。この例では、既存のＷＷＷ検索システムにＧｏｏｇｌｅ（登録商標）ＩｍａｇｅＳｅａｒｃｈを用いて、「野球」、「アイドル」、「有害」、「車」の分野のＵＲＬデータベースと評価用データを作成した。まず、５件の基底単語を定め、各分野のＵＲＬデータベースを構築した。ＵＲＬデータベースの上位２００件ずつのＵＲＬを基に学習を行いモデルを構築した。次に各分野毎に実験を行うために、各分野の情報が検索される可能性がある「野球」分野に対し「井川」、「鈴木」、「松井」、「お立ち台」等９件、「アイドル」分野に対し、「鈴木」、「モデル」、「握手会」等８件、「車」分野に対し「マルポーロ」、「センチュリー」、「ワゴン」等５件といった計２２個の評価用キーワードで検索を行い、検索結果上位４０件のＵＲＬ計８８０件を評価用データとした。さらに、評価様データ中の各分野の分類を人手で判別し、「野球」関連の検索結果３６０件のうち１８１件が「野球」分野、「アイドル」関連の検索結果３２０件のうち１１８件が「アイドル」分野、「車」関連の検索結果２００件のうち９８件が「車」分野の情報として得られた。

選定精度の評価尺度には、再現率・適合率を用いた。ここで、情報が分野に選定されることをＴＲＵＥと定義し、分野に選定されないことをＦＡＵＬＴと定義する。評価用データに対してＵＲＬデータベースの学習データを用いて選定を行い、次式数１２、数１３に示す各分野の情報の再現率Ｒ_trueと適合率Ｐ_trueを求めたＲ_trueは評価用データ中の情報が各分野に正しく選定できた割合を表しＰ_trueは選定した情報の中で本当にその分野に分類されるべき情報であった割合を表す。

また、選定された情報の再現率・適合率を求めると同時に、次式数１４、数１５に示す、不選定の情報の再現率（Ｒ_fault）、（Ｐ_fault）も併せて求めた。Ｒ_faultは評価用データ中の分野に属さない情報に対して、分野に選定する割合を表し、Ｐ_faultは選定されなかった情報の中で本当にその分野に適合していなかった情報の割合を示す。

これらの再現率・適合率を求め、それらをプロットすることで再現率・適合率曲線を求める。次に、実際に行った実験結果を説明する。まず５件の基底単語で検索し、ＵＲＬデータベースを構築した。ＵＲＬデータベースの上位２００件のＵＲＬのコンテンツを収集、解析しナイーブ・ベイズの学習を行った。次に、各分野の評価用データに対して選定を行い、再現率・適合率を求めた。ここで検索キーワードとして「野球」、「アイドル」、「車」の分類結果の再現率及び適合率曲線を、それぞれ図２５、図２６、図２７に示す。これらの図に示すとおり、ＵＲＬデータベース内のＵＲＬとの照合によりフィルタリングを行うＵＲＬ選定手法に比べ、本手法の再現率・適合曲線を大きく上回っていることから、ＵＲＬデータベースのＵＲＬコンテンツに基づいて学習を行うナイーブ・ベイズ分類が有効であるといえる。ナイーブ・ベイズの分類精度は学習データの精度に依存するため、自動構築した各分野のＵＲＬデータベースの情報が適切であったことを示している。ＵＲＬ選定手法で問題であった未登録のＵＲＬに対する分類精度の低下を解決できているといえる。「アイドル」、「車」のＴＲＵＥ選定の再現率・適合率曲線は、高い再現率では本手法がＵＲＬ選定手法より下降している。これは、本手法が多くの情報をＴＲＵＥ選定したことを示し、ＵＲＬ選定手法では選定できなかった多くの情報を選定できることがわかる。

図２８に従来のＷＷＷ検索結果を、図２９に本実施の形態に係る分類を適用した「車」分野への分類実験結果の例を、それぞれ示す。検索キーワードは「三菱」とした。これらの図に示すように、従来の検索では、車に限らず電化製品の「三菱」に関連する画像が検索されているが、実施例を適用した検索結果では、「三菱」の車に関する画像のみが選定されており、本発明の有用性が確認された。

以上のように本実施例では、数個の基底となる各分野を象徴するキーワードを準備するだけで自動構築するＵＲＬデータベースの情報を用いて、既存のＷＷＷ検索システムの検索結果に対しユーザが求める各分野の情報を分類するのに有効なナイーブ・ベイズ分類の学習の簡略化が実現できる。この手法を組み合わせることで、ＵＲＬ選定手法に比べ、分類精度を向上することができる。

次に、クライアントデータベースに識別モデルデータベースを併用した検索の手順を、図２１のブロック図と図２２のフローチャートに基づいて説明する。まず、ステップＳ６０１で検索キーワードを入力する。次にステップＳ６０２で、この検索キーワードでクライアントデータベースを検索し、その結果を保持する。この検索は上述の通り高速に実行できる。さらにステップＳ６０３で、識別モデルデータベースを使って検索し、その結果を保存する。識別モデルデータベースは検索の度に構築することもできるし、予め作成しておくこともできる。そしてステップＳ６０４で、両検索結果を統合して最終的な検索結果を生成、出力する。ここでは、クライアントデータベースの検索結果と識別モデルデータベースの検索結果をマージし、重複する検索結果を排除した後、必要に応じてソートして出力する。

このようにして、ＵＲＬデータベースによる照合のみでは、未登録のＵＲＬに対する検索漏れが生じるという欠点に対し、本実施の形態では各検索テーマ毎のＵＲＬデータベースに登録済みＵＲＬのページから出現単語の頻度情報を抽出し、その頻度情報と該当分野の組み合わせをベイズ学習することで、識別モデルを作成する。そして、検索テーマ別ＵＲＬデータベースに未登録のＵＲＬに対しては、ユーザが選択した識別モデルを用いて、各ページ内の内容に基づきフィルタリングを行う。

このように、インターネット上のデータに対して検索を行う際に、直接サーバデータベース３０から検索するのでなく、より小規模で、且つ必要な情報を予め保存したクライアントデータベースから検索を行うことにより、高速でかつ精度の高い検索、あるいはフィルタリング若しくはその両方が実現される。
（関連キーワードの自動収集）

以上は、ユーザが設定した基底キーワードを取捨選択する手法を説明した。一方、入力された基底キーワードに関連するキーワードを自動的に選定し、さらに該関連キーワードを用いて同様に検索、抽出を行ってクライアントデータベースを構築することもできる。これにより、入力されたキーワードに関する情報のみならず、これに関連する情報も検索できるので、さらに漏れの少ない情報の検索が可能となる。この関連キーワードは、入力された基底キーワードを含むマスタレコード中のデータのコンテンツを解析して、関連性の高い語句を抽出したものとできる。これにより、実際にキーワードが使用されているコンテンツからキーワードを抽出するため、シソーラス等を使用する必要が無く、さらにシソーラス等の予め規定された関連性データベースに比べて、関連性キーワードの選定がより実践的で、現実に即した適正な関連キーワードの選定と、このキーワード検索を併用した漏れのない検索が可能となる。以下、関連キーワードの自動収集について詳述する。

従来のＷＷＷ空間からの関連語収集手法は、Ｗｅｂページ内の出現単語を利用するものが殆どであった。これに対して本実施の形態では、ＷＷＷ上に存在する文書に付随するＵＲＬを利用してＷＷＷ空間から関連語を自動収集する。ここでは、数個のシーズとなる単語（基底キーワード）を準備し、基底キーワード群に意味的に関連した単語をＷＷＷ空間から自動収集する例について説明する。

本実施の形態では、まず、基底キーワード群を既存のＷＷＷ検索システムに入力する。ここで、基底キーワード群が一連の同じ意味を有すると仮定すると、検索結果内には、基底キーワード群に関連性の高いページが多く含まれると考えられる。従来は、この関連性の度合いをページ内に共起する単語（関連候補語）の頻度情報を用いて評価していた。しかしながら、Ｗｅｂページは一般の文書と異なり、各ページにＵＲＬが付随している。そこで本実施の形態では、ＵＲＬ集合間の類似度により関連性の度合いを評価する。つまり、既存のＷＷＷ検索システムに対する各関連候補語の検索結果から得られるＵＲＬ集合と、基底キーワード群から得られたＵＲＬ集合との間で類似性が高ければ、その関連候補語を関連語として採用する。

例えば、基底キーワード「本塁打」と「ホームラン」から得られたＵＲＬ集合には、同一のサイトやホスト名に類似性をもつサイトが多数出現する。ここに、関連候補語「松井秀喜」の検索結果から得られるＵＲＬ集合が高い類似性をもっていれば、この関連候補語は関連語であると判断できる。また、本実施の形態を用いればＵＲＬをマッチングをするだけで、単語の関連性を短時間に取得することができ、効率的な関連語収集を実現できる。
（従来の関連語収集技術）

従来の代表的な関連語収集技術としては、単語の共起情報を基に相互情報量を求め、この値により関連語を収集する方法、及び検索結果内に出現する単語の類似性により関連語を収集する方法が挙げられる。以下に、各手法の概要を説明する。
（相互情報量による関連語収集）

まず単語の共起情報に基づく相互情報量による関連語収集手法について説明する。これは、単語ｘとｙが同時に観測される確率Ｐ（ｘ、ｙ）とｘ、ｙが独立に観測される確率Ｐ（ｘ）、Ｐ（ｙ）から数１６で単語の関連性を評価する。

これは、ＷＷＷ空間をキーワードの収集対象とした場合、出現頻度の極端に低い固有名詞等の単語がノイズとなる問題が生じるため、ＷＷＷ空間における関連語収集手法として不適切である。
（出現単語の類似性よる関連語収集）

次に出現単語の類似性による関連語収集手法について説明する。これは、２つの単語ｘとｙをそれぞれＷＷＷ検索システムを用いて検索し、検索結果から得られる頻度ベクトル間の類似度をＪａｃｃａｒｄ係数である次式数１７で評価する。

次に、出現単語の類似性による関連語収集のシステムの概要を図３０に示す。この図に基づいて、出現単語の類似性による関連語収集の手順を説明する。
（ステップＳ７０１：基底キーワードが存在するページを検索）

予め人手で登録した各基底キーワードＫｅｙｉ（１＜ｉ＜ｎ）をＷＷＷ検索システムに入力し、各キーワード毎に上位ｍ件の検索結果ＵＲＬｉｊ（１＜ｊ＜ｍ）を得る。
（ステップＳ７０２：ページ内容の解析（基底キーワードの頻度ベクトルを取得））

ステップＳ７０１の検索結果ＵＲＬｉｊに対応するＨＴＭＬを形態素解析し、各出現単語ｗｉｋ（１＜ｋ＜ｐ）を関連候補語とする。また、総出現頻度ベクトルＣＦ（ｋｅｙｉ）＝（ｃｗｉ１、ｃｗｉ２、…、ｃｗｉｋ、…）を集計する。ただし、ｃｗｉｋは、キーワードｗｉｋの出現頻度とする。
（ステップＳ７０３：関連候補語の頻度ベクトルを取得）

ステップＳ７０２で取得した関連候補語ｗｉｋ（１＜ｋ＜ｐ）について、同様にステップＳ７０１、ステップＳ７０２を行い、各関連候補語の検索結果ｓｌ（１＜ｌ＜ｑ）に対しても総出現頻度ベクトルＣＦ（ｗｋｌ）＝（ｃｓｋ１、ｃｓｋ２、…、ｃｓｋｌ、…）を集計する。
（ステップＳ７０４：類似度計算）

基底キーワードと関連候補語の頻度ベクトルを用いて、数１７により類似度を求める。
（ステップＳ７０５：関連キーワードの特定）

各基底キーワードから求めた関連語において、同一の単語が存在すれば、それぞれの類似度で和をとる。ｗｉｋの類似度σ（ＣＦ（ｋｅｙ）、ＣＦ（ｗ））でソートし、上位の単語を関連キーワードとする。

Ｗｅｂの内容解析による関連語の収集手法は、関連候補語数の影響でＷＷＷ空間へのアクセス数が多くなり、収集に膨大な時間を費してしまう。そこで、ＷＷＷ上に存在する文書にはＵＲＬが付随していることに着目し、ＵＲＬの共通性を用いることで関連語の収集時間を短縮する。その手法として、本実施の形態では基底キーワードの検索結果ＵＲＬから構築するＵＲＬデータベースを用いて、検索範囲を限定して関連語を収集する。さらに、ＵＲＬによる関連度の判定により、関連語の収集効率を上昇させている。
（ＵＲＬの類似性に基づく関連キーワード収集手法）

図３１に関連キーワード自動収集手法のシステム図を示す。以下、ＵＲＬの類似性を用いた関連語収集の手順を説明する。なお、以下のステップＳ８０２で示すＵＲＬデータベースの構築方法、およびステップＳ８０５で示す関連度の計算方法については、後述する。
（ステップＳ８０１：基底キーワードが存在するページを検索）

予め人手で登録した各基底キーワードｋｅｙｉ（１＜ｉ＜ｎ）をＷＷＷ検索システムに入力し、各キーワード毎に上位ｍ件の検索結果ＵＲＬｉｊ（１＜ｊ＜ｍ）を得る。
（ステップＳ８０２：ＵＲＬデータベースを構築）

ステップＳ８０１で得た検索結果ＵＲＬｉｊから部分ＵＲＬを抽出し、ＷＷＷ空間全体のＵＲＬ出現頻度を用いて正規化を行い、ＵＲＬデータベースを構築する。
（ステップＳ８０３：ページ内容の解析（出現単語頻度の計算））

ＵＲＬデータベース中の正規化されたＵＲＬ出現頻度の上位Ｎ件のＵＲＬに対応するＨＴＭＬを形態素解析し、出現単語ｗｋ（ｉ＜ｋ＜ｐ）と出現頻度Ｆｒｅｑ（ｗｋ）を集計する。
（ステップＳ８０４：出現単語のＵＲＬを取得）

出現単語ｗｋをＷＷＷ検索システムに入力し、出現単語毎に上位Ｍ件の検索結果ＵＲＬｋｌ（１＜ｌ＜M）を取得する。
（ステップＳ８０５：関連度の計算）

ＵＲＬデータベースとＵＲＬｋｌのマッチングを行い、出現単語ｗｋの関連度を求める。
（ステップＳ８０６：関連キーワードの特定）

関連度とＦｒｅｑ（ｗｋ）の積から類似度を求め、ソートして関連キーワードを特定する。

上記アルゴリズムのステップＳ８０２において、基底キーワード群が出現するＵＲＬ集合を特定している。また、ステップＳ８０４において出現単語（関連候補語）が出現するＵＲＬ集合を求め、ステップＳ８０５において双方のＵＲＬ集合の類似性を計算している。
（ＵＲＬデータベースの構築方法）

上記のステップＳ８０１で得られたＵＲＬｉｊに対し、ＷＷＷ空間中のＵＲＬ出現頻度で正規化する。出現頻度の正規化で、基底キーワードとＵＲＬにおける関連性の強弱を判別することができる。これにより、関連性の低いＷｅｂサイトの検出を抑え、関連性が高いと思われるＷｅｂサイトを特定することができる。以下に正規化の手順を示す。
（ステップＳ９０１：部分ＵＲＬ毎の出現頻度の計算）

ＵＲＬデータベース内に出現する部分ＵＲＬ毎の出現頻度を求める。部分ＵＲＬは、「/」を区切りとして分割したものである。例として、「http://www.tokushima-u.ac.jp/Glife/main.htm」のＵＲＬに対して部分ＵＲＬを求めると「www.tokushima-u.ac.jp」と「www.tokushima-u.ac.jp/G-life」の２つの部分ＵＲＬが作成される。これらの部分ＵＲＬの各パスの共通部分の頻度を出現頻度とする。
（ステップＳ９０２：部分ＵＲＬの大域的頻度の取得）

各部分ＵＲＬをＷＷＷ検索システムのＵＲＬ検索機能に入力し、検索結果内の「検索件数」を部分ＵＲＬがＷＷＷ空間中に存在する大域的出現頻度とする。
（ステップＳ９０３：部分ＵＲＬの出現頻度の正規化）

ステップＳ９０１の出現頻度を次式数１８により大域的出現頻度で正規化し、その値を関連度とする。

上記の手順に従い、部分ＵＲＬの出現頻度の正規化を行う例を図３２に示す。図３２のＵＲＬデータベースには３つのＵＲＬから作成される部分ＵＲＬが登録されている。部分ＵＲＬは（ａ）www.tokushimau.ac.jpと（ｂ）www.tokushima-u.ac.jp/G-lifeの２つであり、部分ＵＲＬ（ａ）のデータベース内での出現頻度は３、（ｂ）は２である。つぎに各部分ＵＲＬをＷＷＷ検索システムのＵＲＬ検索機能に入力して検索を行うと部分ＵＲＬ（ａ）は８５７０件、（ｂ）は７８件の検索結果を得る。最後に、数１８により正規化した出現頻度を求める。部分ＵＲＬ（ａ）は０．０００３５、（ｂ）は０．０２５６となる。

この関連度は、基底キーワードが出現しやすいＷｅｂサイトとの関連性を示している。上記のステップＳ７０５では、構築したＵＲＬデータベースと出現単語のＵＲＬで、部分ＵＲＬ毎にマッチングを行い、マッチングに成功した部分ＵＲＬの関連度の総和を求める。これを出現単語の関連度としている。さらに、ステップＳ８０６で出現単語の関連度と出現頻度で積をとった類似度により関連語を特定している。

なお、本実施の形態では、ＵＲＬデータベース内において部分ＵＲＬとのマッチングを効率的に行うため、共通接尾辞を併合できるトライ構造によってＵＲＬデータベースを構築している。

次に本実施の形態の有効性を確認するために、検索分野として「野球」に関連するキーワードを収集して評価を行った。ここでは予め準備した関連候補語に対して、本実施例と従来例とをそれぞれ適用したときの適合単語数で比較する。ここで、関連候補語は基底キーワードの検索結果に対するサムネイルを基に生成し、出現頻度の多い単語からＮ件取得した。また、本実施の形態におけるＵＲＬのデータベース構築は、既存のＷＷＷ検索システムに入力して得られた検索結果のＵＲＬを登録している。以下に実験で使用した基底キーワード（ｋｅｙ１、ｋｅｙ２）を示す。
１．ｋｅｙ１＝｛本塁打、打率、打点｝
２．ｋｅｙ２＝｛本塁打、打率、打点、打者、三冠王｝

また比較のための従来例としては、ＷＷＷを利用した関連用語収集を用い、本実施の形態で収集した関連語に対する精度比較、及び、収集速度について理論的に検証した。図３３〜図３８に、野球の分野に関する上記の基底キーワードｋｅｙ１、ｋｅｙ２それぞれについて、関連候補語数Ｎを１００、３００、５００件と変化させたときの適合単語数の推移を、本実施例と従来例それぞれについて表すグラフを示す。これらの図において、図３３はｋｅｙ１でＮ＝１００の関連語数推移グラフ、図３４はｋｅｙ２でＮ＝１００の関連語数推移グラフ、図３５はｋｅｙ１でＮ＝３００の関連語数推移グラフ、図３６はｋｅｙ２でＮ＝３００の関連語数推移グラフ、図３７はｋｅｙ１でＮ＝５００の関連語数推移グラフ、図３８はｋｅｙ２でＮ＝５００の関連語数推移グラフを、それぞれ示している。各グラフは、横軸が収集した関連語をソートした上位Ｎ件を表し、縦軸がＮ件中に含まれる適切な関連語数を人手により評価した結果を示す。各棒グラフの左側が本実施例、右側が比較例である。左側の棒グラフの値が高い程、より上位に適切な関連語が取得できたことを表す。

これらの図より、本実施の形態に係る手法と従来手法を比較すると、本実施の形態に係る手法が上位の適合単語数で上回っていることが確認できる。また、基底キーワード数を変化させても同様の結果を得ることができた。したがって、本実施の形態に係る手法は従来手法より収集精度において優れていることが証明された。またグラフより、関連候補語数Ｎの値を大きくするほど適合単語数も増加していることが判明した。つまり、基底キーワードの検索結果に対するサムネイルの中には、関連語が多く含まれており、関連候補語数Ｎの値を大きく設定すれば、多種にわたる関連語を収集することができることを示している。

一方、従来例の場合、サムネイルに対してｊａｃｃａｒｄ係数を適用すると、出現する共通単語が少ないという要因により、適切に単語の関連性を評価することができないため、精度が低下してしまう欠点がある。また、基底キーワード数を３件から５件にすると、本実施の形態に係る手法で精度の上昇を見ることができた。これは、基底キーワード数を増やすことで、サムネイルに出現する適合単語数も増加したために収集精度が上昇したと考えられる。さらに、ＵＲＬの数が増えることで、より完成度の高いＵＲＬデータベースが構築できたと考えられる。一方、従来例では基底キーワードの数を増やしても、欠点が改善されないため精度に変化は見られなかった。したがって、従来例よりも本実施の形態に係る手法が関連語の収集精度において、優れていることを検証できた。なお実際に収集した関連語を人手により検証したところ、従来例では人名が多く含まれるのに対し、本実施の形態では一般名詞系の関連語が多く収集できた。これは、基底キーワードとして採用する際には、本実施の形態の方が適していることを示している。
（関連語収集時間の比較）

次に、関連語収集時間を本実施例と従来例とで比較した。ここでは、関連語収集時の本実施例、比較例が各々ＷＷＷ空間にアクセスした回数により、処理時間の比較を行った。表３に、両手法の基底キーワード数の違いによるＷＷＷ空間アクセス数の変化を示す。

表３に示すように、本実施の形態に係る手法は従来例よりも少ないＷＷＷアクセス数で関連語収集をしていることがわかる。すなわち、本実施の形態に係る手法の方が短時間で関連語収集を行うことができる。これは、従来例のステップＳ７０３と本実施の形態に係る手法のステップＳ８０４におけるＷＷＷアクセス数の差が要因となっている。従来例は、関連候補語の検索結果に含まれるすべてのページにアクセスする。一方、本実施の形態に係る手法では、関連候補語の検索結果のＵＲＬを取得するだけである。すなわち、関連候補語の検索結果１００件のＵＲＬを対象とした場合、従来例では１００回のアクセスが必要であるが、検索結果１ページ内に１００件のＵＲＬが表示されると仮定すると、本実施の形態に係る手法では１回のアクセスで手順を進めることができる。ただし、本実施の形態に係る手法では、ＵＲＬデータベースを構築する際、各ＵＲＬの大域的頻度を得るためにパス毎のＵＲＬ検索を行う必要がある。そのため、本実施の形態に係る手法ではこの処理に対するアクセス数が増加する。

次に、実際の検索を行った結果として、表４に本実施の形態に係る手法、表５に従来例で収集した単語の出力例を示す。また、基底キーワードはｋｅｙ２で、関連候補語数Ｎを１００件とする。

これらの表に示すように、本実施の形態に係る手法と従来例を比較すると、本実施の形態に係る手法の収集精度の方が優れていることがわかる。さらに、本実施の形態に係る手法では意味的に類似性が大きいと思われる単語が多く上位に出力されている。

以上のように、本実施の形態では、特定の分野に関連するキーワードを用いて、ＷＷＷ空間内におけるＵＲＬの出現頻度に着目し、関連語を自動収集することができる。評価試験では、本実施の形態に係る手法を用いることにより、従来例よりも関連語収集の精度と速度が向上することを示した。

以上は、インターネット上の画像検索システムについて説明した。ただ、本発明はこれに限られない。例えばインターネットやＷＡＮのようなオープンなネットワークに適用する他、ＬＡＮ等クローズのネットワーク接続においても、適用できることは言うまでもない。またマスタレコードとして、ローカルのハードディスク等の記録媒体に記録されたデータを対象とする検索にも適用できる。さらに画像データ検索に限られず、動画や音声等のマルチメディアデータに対しても適用可能である。さらにテキスト情報に対しても適用できる。

本発明のクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器は、ローカルまたはネットワーク上のデータベースにアクセスして画像等のデータ検索を行うサーチエンジン、デスクトップ検索ソフトウェア等として好適に適用できる。

本発明の一実施の形態に係るデータ検索システムを示す概念図である。図１において、クライアントデータベースを構築する様子を示す概念図である。クライアントデータベースを構築する手順を示すフローチャートである。重み付けの手順を示すフローチャートである。重み付けの手順を示す概念図である。重み付けの手順を示す概念図である。重み付けの手順を示す概念図である。フィルタリングの手順を示すフローチャートである。フィルタリングの手順を示す概念図である。フィルタリングの手順を示す概念図である。フィルタリングの手順を示す概念図である。基底キーワードの適正判定を行う手順を示すフローチャートである。基底キーワードの適正判定を行う手順を示す概念図である。ハザーダス画像の再現率・適合率曲線を示すグラフである。セーフ画像の再現率・適合率曲線を示すグラフである。ハザーダス画像の再現率・適合率曲線を示すグラフである。セーフ画像の再現率・適合率曲線を示すグラフである。キーワード検索を行う様子を示す概念図である。特定のテーマに関するＵＲＬを収集したクライアントデータベースを構築する様子を示す概念図である。複数のクライアントデータベースを選択可能としたデータ検索システムを示す概念図である。ベイズ学習によって識別モデルデータベースを構築する手順を示す概念図である。クライアントデータベースに識別モデルデータベースを併用した検索の手順を示す概念図である。ＵＲＬデータベースを用いて、ＷＷＷ検索結果をナイーブ・ベイズ選定手法で分類する処理の流れを示す概念図である。ベイズ学習によって識別モデルデータベースを構築する手順を示すフローチャートである。「野球」分野の再現率及び適合率を示すグラフである。「アイドル」分野の再現率及び適合率を示すグラフである。「車」分野の再現率及び適合率を示すグラフである。従来のＷＷＷ検索により検索キーワード「三菱」で画像を検索した結果を示すイメージ図である。本実施の形態に係るベイズ分類により「車」分野で検索キーワード「三菱」で画像を検索した結果を示すイメージ図である。出現単語の類似性による関連語収集のシステムを示す模式図である。関連キーワード自動収集手法のシステムを示す模式図である。部分ＵＲＬの出現頻度の正規化を行う例を示す説明図である。ｋｅｙ１でＮ＝１００の関連語数推移グラフである。ｋｅｙ２でＮ＝１００の関連語数推移グラフである。ｋｅｙ１でＮ＝３００の関連語数推移グラフである。ｋｅｙ２でＮ＝３００の関連語数推移グラフである。ｋｅｙ１でＮ＝５００の関連語数推移グラフである。ｋｅｙ２でＮ＝５００の関連語数推移グラフである。

符号の説明

１００…データ検索システム
１０…サーバコンピュータ
２０…端末コンピュータ
３０…サーバデータベース
４０…クライアントデータベース

Claims

複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、
検索対象を表す基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。
請求項１に記載のクライアントデータベース構築方法であって、
前記重み付けが、クライアントデータベース中のデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化した値であることを特徴とするクライアントデータベース構築方法。
請求項１又は２に記載のクライアントデータベース構築方法であって、
前記クライアントデータベース中から検索を行う際の一致／不一致の判定のため、前記基準値に対する閾値を設定可能に構成してなることを特徴とするクライアントデータベース構築方法。
請求項１から３のいずれか一に記載のクライアントデータベース構築方法であって、さらに、
入力された基底キーワードに対して、該基底キーワードを含むデータのコンテンツを解析し、該コンテンツ中に他の基底キーワードが表れる頻度を調べ、この値に基づいて該基底キーワードの適正を判定する工程を含むことを特徴とするクライアントデータベース構築方法。
請求項１から４のいずれか一に記載のクライアントデータベース構築方法であって、
入力された基底キーワードに関連するキーワードを自動的に選定し、さらに該関連キーワードを用いて同様に検索、抽出を行ってクライアントデータベースを構築することを特徴とするクライアントデータベース構築方法。
請求項５に記載のクライアントデータベース構築方法であって、
前記関連キーワードが、入力された基底キーワードを含むマスタレコード中のデータのコンテンツを解析して、関連性の高い語句を抽出したものであることを特徴とするクライアントデータベース構築方法。
請求項５に記載のクライアントデータベース構築方法であって、
前記関連キーワードが、入力された基底キーワードに関連する語句をベイズ推定により選定したキーワードであり、
ベイズ推定で選定された関連キーワードに基づいて、さらに前記サーバデータベース中から該関連キーワードを含むデータ及び／又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び／又は位置情報に対し、該関連キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録してクライアントデータベースの構築を行うことを特徴とするクライアントデータベース構築方法。
請求項１から７のいずれか一に記載のクライアントデータベース構築方法であって、
複数のサーバデータベースを構築すると共に、これらを切り替え可能に構成してなることを特徴とするクライアントデータベース構築方法。
請求項１から８のいずれか一に記載のクライアントデータベース構築方法であって、
前記クライアントデータベースの少なくとも一部が、サーバデータベースと共用されていることを特徴とするクライアントデータベース構築方法。
請求項１から９のいずれか一に記載のクライアントデータベース構築方法であって、
前記マスタレコードがインターネット上のサーバに保存された検索可能なデータであり、
前記サーバデータベース及びクライアントデータベースが、ＵＲＬを記録したＵＲＬデータベースであることを特徴とするクライアントデータベース構築方法。
請求項１０に記載のクライアントデータベース構築方法であって、
前記サーバデータベースが、インターネット上を巡回してデータの保存位置を示すＵＲＬを自動的に収集して蓄積したＵＲＬサーバデータベースであることを特徴とするクライアントデータベース構築方法。
検索対象のＵＲＬデータを蓄積したサーバデータベース中から、特定の情報に特化したＵＲＬデータを記録したクライアントデータベースを構築する方法であって、
検索対象のＵＲＬデータを表す基底キーワードの入力を促す工程と、
検索対象の情報に関する基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードを含むＵＲＬデータを検索して抽出する工程と、
抽出されたＵＲＬデータに対して、クライアントデータベース中のＵＲＬデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化することで重み付けを行う工程と、
を含むことを特徴とするクライアントデータベース構築方法。
複数のデータを含むマスタレコード中から、検索対象としたいデータ及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、サーバデータベース中から検索除外のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、
検索除外とする情報に関する基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードに基づいてデータ及び／又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該画像データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。
複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び／又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外の画像データに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、
検索除外とする画像に関する基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードに基づいて画像データ及び／又は該画像データの保存位置に関する情報を検索して抽出し、
抽出された画像データ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該画像データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。
複数の画像データが含まれるインターネット中から、検索候補となる画像データのＵＲＬを収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外する画像データのＵＲＬを抽出して記録したクライアントデータベースを構築する方法であって、
検索除外とする画像データに関するハザーダスキーワードの入力を促す工程と、
前記サーバデータベース中から該ハザーダスキーワードに基づいて画像データのＵＲＬを検索して抽出し、
抽出されたＵＲＬに対し、該ＵＲＬのコンテンツを解析して基底キーワードの出現頻度を計数し、クライアントデータベース中のＵＲＬの出現頻度を、サーバデータベース中のＵＲＬの出現頻度で除算して正規化することにより、重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値をハザーダスキーワード毎に設定し、
前記ハザーダスキーワードと画像データのＵＲＬ、基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。
複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、
予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象を表す検索キーワードの入力を促す工程と、
前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程と、
を含むことを特徴とするデータ検索方法。
複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、
予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び／又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象の画像データに関する情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象の情報に関する検索キーワードの入力を促す工程と、
前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程と、
を含むことを特徴とするデータ検索方法。
複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、
予め、複数のデータを含むマスタレコード中から、検索対象としたいデータ及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、検索結果から除外したいデータに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象の情報に関する検索キーワードの入力を促す工程と、
前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、
前記一次検索結果に含まれるデータの内、前記クライアントデータベース中に登録されているデータを除外して二次検索結果を抽出する工程と、
前記二次検索結果を検索結果として出力する工程と、
を含むことを特徴とするデータ検索方法。
複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、
予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、検索結果から除外したい画像データに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象の情報に関する検索キーワードの入力を促す工程と、
前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、
前記一次検索結果に含まれる画像データの内、前記クライアントデータベース中に登録されている画像データを除外して二次検索結果を抽出する工程と、
前記二次検索結果を検索結果として出力する工程と、
を含むことを特徴とするデータ検索方法。
請求項１６から１９のいずれか一に記載のデータ検索方法であって、
前記クライアントデータベースが、請求項１から１３のいずれに記載のクライアントデータベースであることを特徴とするデータ検索方法。
複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するデータ検索システムであって、
各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワードを設定するためのキーワード設定手段と、
複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、
前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び／又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、
前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索対象を表す基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を記録したクライアントデータベースと、
を備えることを特徴とするデータ検索システム。
複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングシステムであって、
各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定するためのキーワード設定手段と、
複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、
前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び／又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、
前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索除外を表す基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を記録したクライアントデータベースと、
を備えることを特徴とするデータ検索フィルタリングシステム。
複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築するプログラムであって、
検索対象を表す基底キーワードの入力を促す機能と、
前記サーバデータベース中から該基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該データ及び／又は位置情報、並びに基準値を前記クライアントデータベースに記録する機能と、
をコンピュータに実現させることを特徴とするクライアントデータベース構築プログラム。
複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するためのデータ検索プログラムであって、
予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象を表す検索キーワードの入力を促す機能と、
前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する機能と、
をコンピュータに実現させることを特徴とするデータ検索プログラム。
複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングプログラムであって、
各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定する機能と、
設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び／又は該データの保存位置に関する情報を、自動巡回により収集する機能と、
必要に応じて、収集されたデータ及び／又は位置情報を、前記キーワードと関連付けてサーバデータベースに蓄積する機能と、
キーワード設定機能で設定された検索除外を表す基底キーワードを含むデータ及び／又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び／又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び／又は位置情報、並びに基準値を記録したクライアントデータベースを構築する機能と、
をコンピュータに実現させることを特徴とするデータ検索フィルタリングプログラム。
請求項２３から２５のいずれか一に記載されるプログラムを格納したコンピュータで読み取り可能な記録媒体又は記録した機器。