JP2007249584A - クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器 - Google Patents
クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器 Download PDFInfo
- Publication number
- JP2007249584A JP2007249584A JP2006071844A JP2006071844A JP2007249584A JP 2007249584 A JP2007249584 A JP 2007249584A JP 2006071844 A JP2006071844 A JP 2006071844A JP 2006071844 A JP2006071844 A JP 2006071844A JP 2007249584 A JP2007249584 A JP 2007249584A
- Authority
- JP
- Japan
- Prior art keywords
- data
- search
- information
- keyword
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】高速で漏れの少ないデータ検索システムを省力化して構築する。
【解決手段】検索対象を表す基底キーワードの入力を促す工程と、サーバデータベース30中から該基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース40中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値をクライアントデータベース40に記録する工程とを含む。
【選択図】図1
【解決手段】検索対象を表す基底キーワードの入力を促す工程と、サーバデータベース30中から該基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース40中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値をクライアントデータベース40に記録する工程とを含む。
【選択図】図1
Description
本発明は、データベース等に記録されたデータ中からキーワードを指定して所望のデータを検索するためのクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器に関する。
近年、情報の電子化が進むと共に、蓄積された情報の分量が膨大となって、必要な情報を取り出すための検索システムが求められている。例えば、ローカルのハードディスク等の記録媒体に記録されたデータや、インターネット等のネットワーク接続されたシステムに記録されたデータの中から、所望のデータを抽出する検索システムの研究が進められている。このような検索システムとしては、ユーザが求める情報に関連したキーワードを指定し、このキーワードと一致する情報を抽出して、検索結果として一覧表示するキーワード検索が一般的に知られている。
特開2003−271190号公報
しかしながら、所望の検索結果を得るための適切なキーワードの選定は容易でなく、キーワードを含む不要なデータも検索されるため、検索結果が膨大となって必要な情報を速やかに探し出すことは困難である。一般には、検索結果に応じてキーワードを変更したり、検索結果に対してさらに検索を行って検索結果を絞り込み、試行錯誤によって所望のデータを探し当てることが行われている。しかしながら、このような操作は熟練を要するため、初心者には敷居が高い。特に、検索に適したキーワードを選定することが容易でないため、検索結果にいわゆるノイズやゴミが多く含まれることとなり、必要な情報が埋もれてしまうことが多かった。さらに、試行錯誤を繰り返しながら検索を複数回行うには、手間も時間もかかる。このため、高速に、かつ手間のかからない方法で所望の情報を取り出すことのできる検索システムが切望されている。
本発明は、このような問題点を解決するためになされたものである。本発明の第一の目的は、必要なデータを必要時に高速に検索することが可能なクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を提供することにある。
一方、検索結果や表示させようとするデータに有害な情報が含まれる場合、これを排除するシステムも望まれている。例えば、未成年者を有害情報から守るため、有害情報を検知してこれを表示させないようブロックするフィルタリングプログラムが開発されている。このようなフィルタリングプログラムは、例えばユーザが予め有害な情報に関連すると思われるキーワード(例えばsex、ヌード等)を指定しておく。そして検索を実行した際、あるいは情報を表示させようとする際等に、表示させようとするデータに該キーワードが含まれるかどうかを判定し、該キーワードを含んでおれば有害情報と判定して、表示をブロックする。また、例えばインターネットのホームページを表示させる際に、いわゆるアダルトサイト等の有害情報を含むURL(Uniform Resource Locator)を予め登録しておき、該URLを表示しようとするとこれをブロックするフィルタリングプログラムもある。
また一方で、画像を表示させる際に、これが有害画像であるかどうかを判定してブロックするフィルタリングプログラムも研究されている。画像検索は、例えば教育現場等で利用されることが多いため、有害画像を効果的に排除する方法が望まれている。特に画像は文章等のテキスト情報に比べ、一目で判別できるという性質から有害性が高く、テキスト情報以上に正確な精度で有害画像を検出できるシステムが切望されている。
既存の画像のフィルタリングシステムとしては、コンテンツチェック方式、検索キーチェック方式、URLチェック方式の3つが主に知られている。このうち、コンテンツチェック方式は、画像を直接解析することによって、有害画像を自動で判定し制限するというものである。しかしながら、現在の画像解析技術では有害画像かどうかの判定は困難であり、未だ実用化はされていない。
また検索キーチェック方式は、有害画像が検索結果として表示されることが予想されるキーワードを制限しようとするものであり、例えばインターネット上の検索エンジンとして有名なgoo(登録商標)やAltaVista(登録商標)等で採用される。しかしながらこの方法では、有害画像のみならず無害な画像までも制限されてしまうという問題があり、そのフィルタリング精度を向上させることが困難である。
一方、URLチェック方式は、アクセス制限を行うURLの一覧を予めデータベース化しておき、指定されたURLがこのURLデータベースに登録されているかどうかを判別し、登録URLに対してはアクセス制限をかけるというものである。このURLチェック方式は、有害サイトを効果的に排除でき、サーチエンジンとして著名なGoogle(登録商標)やYahoo!(登録商標)等で実際に採用されている。しかしながら、この方式ではURLデータベースの構築を人手で行うため、多大な労力が必要となるという欠点があった。また、URLデータベースに未登録のデータベースはフィルタリングできないという問題もある。
本発明は、さらにこのような問題点を解消するためになされたものである。本発明の第二の目的は、データベースの構築を省力化できる検索システムを提供することにある。加えて、データベースに未登録の情報も対象とすることが可能なクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を提供することにある。
上記の目的を達成するために、本発明の第1のクライアントデータベース構築方法は、複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、検索対象を表す基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが所望の基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースをインデックス情報として利用できるので、マスタレコード中から直接検索を行うよりも極めて高速で、かつ精度の高い検索が実現される。
また第2のクライアントデータベース構築方法は、前記重み付けが、クライアントデータベース中のデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化した値である。これにより、データの重み付けがデータの内容と出現頻度に応じて適正に行われ、より正確な検索が実現される。
さらに第3のクライアントデータベース構築方法は、前記クライアントデータベース中から検索を行う際の一致/不一致の判定のため、前記基準値に対する閾値を設定可能に構成している。これにより、ユーザが閾値を設定可能とすることで検索のヒット率を任意に調整することが可能となる。
さらにまた第4のクライアントデータベース構築方法は、さらに、入力された基底キーワードに対して、該基底キーワードを含むデータのコンテンツを解析し、該コンテンツ中に他の基底キーワードが表れる頻度を調べ、この値に基づいて該基底キーワードの適正を判定する工程を含む。これにより、指定された基底キーワードの有効性を判定できるので、例えば他の基底キーワードに比較して有効性の低い基底キーワードが指定されると警告を発して基底キーワードの再考を促す等の指示を行うことも可能であり、より適正な検索システムが実現される。
さらにまた第5のクライアントデータベース構築方法は、入力された基底キーワードに関連するキーワードを自動的に選定し、さらに該関連キーワードを用いて同様に検索、抽出を行ってクライアントデータベースを構築する。これにより、入力されたキーワードに関する情報のみならず、これに関連する情報も検索できるので、さらに漏れの少ない情報の検索が可能となる。
さらにまた第6のクライアントデータベース構築方法は、前記関連キーワードが、入力された基底キーワードを含むマスタレコード中のデータのコンテンツを解析して、関連性の高い語句を抽出したものである。これによって、実際にキーワードが使用されているコンテンツからキーワードを抽出するため、シソーラス等を使用する必要が無く、さらにシソーラス等の予め規定された関連性データベースに比べて、関連性キーワードの選定がより実践的で、現実に即した適正な関連キーワードの選定と、このキーワード検索を併用した漏れのない検索が可能となる。
さらにまた第7のクライアントデータベース構築方法は、前記関連キーワードが、入力された基底キーワードに関連する語句をベイズ推定により選定したキーワードであり、ベイズ推定で選定された関連キーワードに基づいて、さらに前記サーバデータベース中から該関連キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該関連キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録してクライアントデータベースの構築を行う。これにより、指定された基底キーワードと関連するキーワードを自動的に選定して、関連キーワードに基づいてさらにクライアントデータベースを構築するので、更なる情報の収集によって検索漏れの少ない確実な検索結果を得ることが期待できる。
さらにまた第8のクライアントデータベース構築方法は、複数のサーバデータベースを構築すると共に、これらを切り替え可能に構成している。これにより、複数の情報に対して専用のクライアントデータベースを各々構築し、必要に応じて切り替えて使用することが可能となる。
さらにまた第9のクライアントデータベース構築方法は、前記クライアントデータベースの少なくとも一部が、サーバデータベースと共用されている。これにより、物理的に一のデータベースに複数のデータベースを構築して、ハードウェアを共有化してコストを低減できる。
さらにまた第10のクライアントデータベース構築方法は、前記マスタレコードがインターネット上のサーバに保存された検索可能なデータであり、前記サーバデータベース及びクライアントデータベースが、URLを記録したURLデータベースである。これにより、インターネット上の検索高速に行え、かつ検索結果の遺漏やフィルタリング漏れを低減できる。
さらにまた第11のクライアントデータベース構築方法は、前記サーバデータベースが、インターネット上を巡回してデータの保存位置を示すURLを自動的に収集して蓄積したURLサーバデータベースである。これにより、ユーザが個別にデータ収集作業を行うことなく、自動的に情報の蓄積、更新を行わせることができ、使い勝手の良い検索システムが構築される。
さらにまた第12のクライアントデータベース構築方法は、検索対象のURLデータを蓄積したサーバデータベース中から、特定の情報に特化したURLデータを記録したクライアントデータベースを構築する方法であって、検索対象のURLデータを表す基底キーワードの入力を促す工程と、検索対象の情報に関する基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードを含むURLデータを検索して抽出する工程と、抽出されたURLデータに対して、クライアントデータベース中のURLデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化することで重み付けを行う工程とを含む。これにより、ユーザが基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースから検索することで、より高速な検索を実現できる。
さらにまた第13のクライアントデータベース構築方法は、複数のデータを含むマスタレコード中から、検索対象としたいデータ及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、サーバデータベース中から検索除外のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、検索除外とする情報に関する基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードに基づいてデータ及び/又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該画像データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが検索結果から除外したい基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができ、効果的なフィルタリングを行うことができる。
さらにまた第14のクライアントデータベース構築方法は、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び/又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外の画像データに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、検索除外とする画像に関する基底キーワードの入力を促す工程と、前記サーバデータベース中から該基底キーワードに基づいて画像データ及び/又は該画像データの保存位置に関する情報を検索して抽出し、抽出された画像データ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該画像データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが所望の基底キーワードを指定するのみで、検索結果から除外したい画像データに関するクライアントデータベースを自動的に構築することができる。検索を行う際は除外したい画像データに該当するか否かの判定をクライアントデータベースと対比して行えるので、フィルタリングを高速に行うことができる。
さらにまた第15のクライアントデータベース構築方法は、複数の画像データが含まれるインターネット中から、検索候補となる画像データのURLを収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外する画像データのURLを抽出して記録したクライアントデータベースを構築する方法であって、検索除外とする画像データに関するハザーダスキーワードの入力を促す工程と、前記サーバデータベース中から該ハザーダスキーワードに基づいて画像データのURLを検索して抽出し、抽出されたURLに対し、該URLのコンテンツを解析して基底キーワードの出現頻度を計数し、クライアントデータベース中のURLの出現頻度を、サーバデータベース中のURLの出現頻度で除算して正規化することにより、重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値をハザーダスキーワード毎に設定し、前記ハザーダスキーワードと画像データのURL、基準値を前記クライアントデータベースに記録する工程とを含む。これにより、ユーザが検索から除外したい有害なハザーダスキーワードを幾つか指定するのみで、有害な画像データのURLを記録したクライアントデータベースを自動的に構築することができる。画像検索を行う際は、検索結果のURLが有害な画像データを含むか否かの判定を、クライアントデータベースに登録されたURLと対比して行えるので、フィルタリングを極めて高速に行うことができる。
さらにまた第16のデータ検索方法は、複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、検索対象を表す検索キーワードの入力を促す工程と、前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程とを含む。これにより、予め構築されたクライアントデータベースとのマッチングによって検索結果を得ることができるので、高速で効率の良い検索を行うことができる。
さらにまた第17のデータ検索方法は、複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び/又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象の画像データに関する情報を抽出して記録したクライアントデータベースを構築しておき、検索対象の情報に関する検索キーワードの入力を促す工程と、前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程とを含む。これにより、予め構築されたクライアントデータベースとのマッチングによって検索結果を得ることができるので、高速で効率の良い画像検索を行うことができる。
さらにまた第18のデータ検索方法は、複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、予め、複数のデータを含むマスタレコード中から、検索対象としたいデータ及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、検索結果から除外したいデータに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、検索対象の情報に関する検索キーワードの入力を促す工程と、前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、前記一次検索結果に含まれるデータの内、前記クライアントデータベース中に登録されているデータを除外して二次検索結果を抽出する工程と、前記二次検索結果を検索結果として出力する工程とを含む。これにより、アクセス制限等、検索結果から除外したいデータを、クライアントデータベースで高速に検査できる。またクライアントデータベースを自動的に構築できるので、除外したいキーワードを一々指定する手間を省くことができる。
さらにまた第19のデータ検索方法は、複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、検索結果から除外したい画像データに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、検索対象の情報に関する検索キーワードの入力を促す工程と、前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、前記一次検索結果に含まれる画像データの内、前記クライアントデータベース中に登録されている画像データを除外して二次検索結果を抽出する工程と、前記二次検索結果を検索結果として出力する工程とを含む。これにより、アクセス制限等、検索結果から除外したい画像データを、クライアントデータベースで高速に検査できる。またクライアントデータベースを自動的に構築できるので、除外したいキーワードを一々指定する手間を省くことができる。
さらにまた第20のデータ検索方法は、前記クライアントデータベースとして上述したクライアントデータベースを利用している。
さらにまた第21のデータ検索システムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するデータ検索システムであって、各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワードを設定するためのキーワード設定手段と、複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び/又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索対象を表す基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を記録したクライアントデータベースとを備える。これにより、ユーザが所望の基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースから検索することで、サーバデータベースから検索を行うよりも高速な検索を実現できる。
さらにまた第22のデータ検索フィルタリングシステムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングシステムであって、各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定するためのキーワード設定手段と、複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び/又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索除外を表す基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を記録したクライアントデータベースとを備える。これにより、ユーザが検索結果から除外したい基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができ、効果的なフィルタリングを行うことができる。
さらにまた第23のクライアントデータベース構築プログラムは、複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築するプログラムであって、検索対象を表す基底キーワードの入力を促す機能と、前記サーバデータベース中から該基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する機能とをコンピュータに実現させる。これにより、ユーザが所望の基底キーワードを指定するのみで、クライアントデータベースを自動的に構築することができる。検索を行う際はクライアントデータベースから検索することで、サーバデータベースから検索を行うよりも高速な検索を実現できる。
さらにまた第24のデータ検索プログラムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するためのデータ検索プログラムであって、予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、検索対象を表す検索キーワードの入力を促す機能と、前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する機能とをコンピュータに実現させる。これにより、予め構築されたクライアントデータベースとのマッチングによって検索結果を得ることができるので、高速で効率の良い検索を行うことができる。
さらにまた第25のデータ検索フィルタリングプログラムは、複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングプログラムであって、各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定する機能と、設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を、自動巡回により収集する機能と、必要に応じて、収集されたデータ及び/又は位置情報を、前記キーワードと関連付けてサーバデータベースに蓄積する機能と、キーワード設定機能で設定された検索除外を表す基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を記録したクライアントデータベースを構築する機能とをコンピュータに実現させる。これにより、アクセス制限等、検索結果から除外したいデータを、クライアントデータベースで高速に検査できる。またクライアントデータベースを自動的に構築できるので、除外したいキーワードを一々指定する手間を省くことができる。
さらにまた第26のコンピュータで読み取り可能な記録媒体又は記録した機器は、上記プログラムを格納するものである。記録媒体には、CD−ROM、CD−R、CD−RWやフレキシブルディスク、磁気テープ、MO、DVD−ROM、DVD−RAM、DVD−R、DVD+R、DVD−RW、DVD+RW、Blue−ray(登録商標)、HD DVD(登録商標)(AOD)等の磁気ディスク、光ディスク、光磁気ディスク、半導体メモリその他のプログラムを格納可能な媒体が含まれる。またプログラムには、上記記録媒体に格納されて配布されるものの他、インターネット等のネットワーク回線を通じてダウンロードによって配布される形態のものも含まれる。さらに記録した機器には、上記プログラムがソフトウェアやファームウェア等の形態で実行可能な状態に実装された汎用もしくは専用機器を含む。さらにまたプログラムに含まれる各処理や機能は、コンピュータで実行可能なプログラムソフトウエアにより実行してもよいし、各部の処理を所定のゲートアレイ(FPGA、ASIC)等のハードウエア、又はプログラム・ソフトウエアとハードウェアの一部の要素を実現する部分的ハードウエア・モジュールとが混在する形式で実現してもよい。
本発明のクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器によれば、ユーザの興味を象徴する基底キーワードに基づいてクライアントデータベースを自動的に構築することができ、インデックス情報の作成を大幅に省力化できる。また検索に際してはクライアントデータベースをインデックス情報として利用できるので、マスタレコード中から直接検索を行うよりも極めて高速で、かつ精度の高い検索が実現される。
以下、本発明の実施の形態を図面に基づいて説明する。ただし、以下に示す実施の形態は、本発明の技術思想を具体化するためのクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を例示するものであって、本発明はクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器を以下のものに特定しない。また、本明細書は特許請求の範囲に示される部材を、実施の形態の部材に特定するものでは決してない。特に実施の形態に記載されている構成部品の寸法、材質、形状、その相対的配置等は特に特定的な記載がない限りは、本発明の範囲をそれのみに限定する趣旨ではなく、単なる説明例にすぎない。なお、各図面が示す部材の大きさや位置関係等は、説明を明確にするため誇張していることがある。さらに以下の説明において、同一の名称、符号については同一もしくは同質の部材を示しており、詳細説明を適宜省略する。さらに、本発明を構成する各要素は、複数の要素を同一の部材で構成して一の部材で複数の要素を兼用する態様としてもよいし、逆に一の部材の機能を複数の部材で分担して実現することもできる。
本明細書においてデータ検索システムまたはデータ検索システムとこれに接続される操作、制御、入出力、表示、その他の処理等のためのコンピュータ、プリンタ、外部記憶装置その他の周辺機器との接続は、例えばIEEE1394、RS−232x、RS−422、RS−423、RS−485、USB等のシリアル接続、パラレル接続、あるいは10BASE−T、100BASE−TX、1000BASE−T等のネットワークを介して電気的に接続して通信を行う。接続は有線を使った物理的な接続に限られず、IEEE802.1x、OFDM方式等の無線LANやBluetooth等の電波、赤外線、光通信等を利用した無線接続等でもよい。さらに検索対象のテキストや画像データの保存やデータベース構築、検索等に関する設定の保存等を行うための記録媒体には、メモリカードや磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が利用できる。
(データ検索システム)
(データ検索システム)
図1に、本発明の一実施の形態として、インターネット上の画像検索に本発明を適用したデータ検索システム100の概要を示す。この図に示すデータ検索システム100は、サーバコンピュータ10と、ユーザ側の端末コンピュータ20が接続されている。接続はローカルでも、ネットワーク経由でも良い。またサーバコンピュータ10は、マスタレコードの一例であるインターネットにも接続されている。なお、サーバコンピュータ10と端末コンピュータ20との接続にもインターネットを利用することができる。サーバコンピュータ10や端末コンピュータ20は、汎用のパーソナルコンピュータやワークステーション等が利用できる。また端末コンピュータ20は、携帯電話やスマートフォン、PDA、通信機能付カーナビゲーションやデータ通信可能な固定電話等の、通信可能な機器が適宜利用できる。
(サーバコンピュータ10)
(サーバコンピュータ10)
サーバコンピュータ10は、マウスやキーボード等の入力手段と、CPUやメモリ等で構成された演算手段と、外部接続機器とデータ通信するための通信手段(例えばイーサネット(登録商標))と、検索条件の設定内容の確認や検索結果の表示等を行うための表示手段と、サーバデータベース30と、一以上のクライアントデータベース40を備えている。入力手段は、後述する閾値や各キーワードを入力するためのキーワード設定手段として機能する。入力手段は、サーバコンピュータ10と有線もしくは無線で接続され、あるいはコンピュータに固定されている。一般的な入力手段としては、例えばマウスやキーボード、スライドパッド、トラックポイント、タブレット、ジョイスティック、コンソール、ジョグダイヤル、デジタイザ、ライトペン、テンキー、タッチパッド、アキュポイント等の各種ポインティングデバイスが挙げられる。またこれらの入力手段は、コンピュータ等のハードウェアの操作の他、プログラムの操作にも利用できる。さらに、インターフェース画面を表示するディスプレイ自体にタッチスクリーンやタッチパネルを利用して、画面上をユーザが手で直接触れることにより入力や操作を可能としたり、または音声入力その他の既存の入力手段を利用、あるいはこれらを併用することもできる。
演算手段は、通信手段でマスタレコード等とデータ通信を行い、設定されたキーワードに基づいて、検索対象としたい情報のデータ及び/又は該データの保存位置に関する情報を収集するデータ収集手段として機能する。データ収集手段は、設定されたタイミングで自動的にインターネットにアクセスして各サイトを巡回しながらデータ収集する。また、ユーザが手動でタイミングを指定してデータ収集することもできる。このようにして取得された情報やデータは、サーバデータベース30に保存される。自動巡回してデータを取得する手法は、既存のあるいは将来開発される手法が適宜利用できる。
(端末コンピュータ20)
(端末コンピュータ20)
また端末コンピュータ20も同様に、入力手段、演算手段、通信手段、表示手段等を備える。なお、図1の例ではサーバ側にサーバコンピュータ10を設置した例を説明しているが、サーバ側にコンピュータを設置せず、端末側に設置したコンピュータで操作することも可能である。すなわち、ネットワーク等を介して遠隔操作でサーバデータベース30やクライアントデータベース40にアクセスする構成や、端末コンピュータの一をサーバコンピュータに兼用してサーバ側のデータベースを操作することもできる。
(データベース)
(データベース)
データベースは、検索対象のデータを保存する記憶媒体であり、大容量のハードディスク等が利用される。一般にはサーバコンピュータに内蔵あるいは接続されており、端末コンピュータ20と通信可能に接続されている。またデータベースは、端末コンピュータに備えることもでき、さらに端末コンピュータの2次記憶部と兼用することもできる。このように本実施の形態に係るデータ検索システムは、データベースとの接続をネットワーク接続あるいはスタンドアロン接続の両方に対応できる。すなわち、サーバデータベース30をサーバコンピュータ10に接続する場合は、ネットワーク接続されたユーザの端末コンピュータや携帯電話等の端末から入力されるキーワードを受信して、これを入力キーワードとして検索を実行し、その検索結果を端末側に返して端末側の表示部にて表示させる。ネットワーク接続としてはLANやWAN、インターネット等が利用できる。この形態では、サーバデータベース30がサーチエンジンとして機能し、各端末から入力された検索条件に対して検索を行った結果をそれぞれの端末に出力する。
(サーバデータベース30)
(サーバデータベース30)
サーバデータベース30は、マスタレコードとしてインターネット上から検索可能な画像データに関する情報を自動収集したデータベースである。ここでは、画像データの保存されている位置情報、すなわちURLアドレスを記録している。例えばインターネット上でサーチエンジンと呼ばれる検索サービスを提供するために、検索対象のキーワードとURLとを関連付けて記録したデータベースと同等のものである。なお位置情報に加えて、又はこれに代わって画像データ自体をサーバデータベース30に保存して検索可能としても良い。
(クライアントデータベース40)
(クライアントデータベース40)
一方、クライアントデータベース40は、サーバデータベース30中から検索を行う際のインデックス(索引)情報として、あるいは特定の情報をカットするためのフィルタリングを行うフィルタリング情報として機能する。インデックスを作成するインデキシング等、クライアントデータベース40の構築、更新は、サーバコンピュータ10が行う。ここでは、予めサーバデータベース30に登録されている情報から、検索したい特定の情報に関する基底キーワード、あるいはアクセス制限したい情報に関する基底キーワードに基づいて、これらに該当する情報を抽出し、データベースとして構築する。データベースに蓄積する情報は、基底キーワードに対して、該基底キーワードを含むデータが保存されている位置、ここではURLアドレスを関連付けて登録する。また、URLに加えて、画像データ自体をクライアントデータベース40に保存してもよい。
(基底キーワード)
(基底キーワード)
基底キーワードは、検索テーマ毎に一以上指定できる。特定の検索テーマ、例えば野球であれば、野球に関連する「高校野球」、「プロ野球」、「メジャーリーグ」等を基底キーワードとして、ユーザが指定する。これによって、ユーザが検索したいテーマに関するURL情報を、予めクライアントデータベース40として自動的に収集することができる。そして構築されたクライアントデータベース40はURL情報のみであるため、極めて高速な検索結果を得ることができるという利点が得られる。
また、検索テーマ毎に、クライアントデータベース40を構築することができる。実際にデータ検索を行う際には、検索テーマに応じてクライアントデータベースを切り替えたり、複数のクライアントデータベースを組み合わせて選択することもできる。これを実現するため、サーバコンピュータ10は、クライアントデータベース切替手段として機能させてもよい。
(フィルタリング)
(フィルタリング)
さらに、ユーザが望む情報を収集したクライアントデータベースを構築するほか、アクセスを制限したいURLを収集したクライアントデータベースを構築し、これを利用してフィルタリングを行うこともできる。すなわち、検索結果として表示させたくない情報を意図的に収集することで、このURLをブロック対象とすることで、フィルタリングを実現できる。例えば、有害画像を含むURLを収集することで、これらの画像の表示を制限するフィルタリングとして、教育機関等に好適に導入できる。特に画像情報は有害性が強いため、教育現場で有効なフィルタリングが求められている。従来のフィルタリングでは予めブロックする情報をユーザが手動で指定する必要があり、手間がかかるという問題があった。本実施の形態では有害画像のURLを自動的に収集できるので、手間のかからない効率的なフィルタリングを実現できる。
(画像検索に対するフィルタリング)
(画像検索に対するフィルタリング)
データ検索には、テキストデータの検索の他、画像データの検索も利用されている。現在主流の画像検索方法は、画像のファイル名や画像の周辺に存在するテキスト、あるいは画像のキャプション情報等に基づいて、該画像用の検索キーを設定するものである。これによって、検索キーに関連する画像を検索することができる。代表的なものとして、Google(登録商標)、goo(登録商標)、AltaVista(登録商標)、Yahoo(登録商標)が挙げられる。これらのシステムで問題となるのは、検索結果に有害な画像が表示されてしまうことである。Web検索の場合には、有害サイトが検索されても検索結果中にはそのサイトへのリンク、及び検索キーが存在する近辺のテキストしか表示されない。そのため、有害な検索キーが存在する近辺のテキストが表示されたとしても有害性は、相対的に低い。一方、画像検索では、検索結果中にサムネイル画像として有害画像が表示されてしまうため、この場合の有害性は非常に高い。このため、WWW画像検索システムにおいて、有害画像のフィルタリング機能が求められている。
goo(登録商標)やAltaVista(登録商標)では、検索キーに対して制限するフィルタリング機能を提供している。両検索システムでは、有害画像が検索されるであろう検索キーに対して制限することで、有害画像を閲覧できないようにしている。しかしながら、検索キーによっては多くの無害な画像をも制限してしまい、フィルタリング精度は悪い。一方、Google(登録商標)やYahoo(登録商標)では、アクセス制限するURL一覧をデータベース化し、データベースに登録されたURLと一致する画像に対して制限を行っている。この方法では、誤って無害な画像を制限してしまうことが無い反面、URLデータベースの構築を人手で行わなければならないため、多大な労力が必要となるという欠点がある。そのため、Google(登録商標)やYahoo(登録商標)では、すべての有害画像のURLをデータベース化できておらず、多くの有害画像が表示されてしまっているのが現状である。また、どのフィルタリング機能であっても、フリーメールを使用できる程度の知識があれば、簡単にフィルタリング機能をオフにすることができてしまう。したがって、クライアント側において、WWW画像検索システムの検索結果に対するフィルタリング処理の適用が必要である。
このような状況において、本実施の形態を適用すれば、クライアントデータベースに有害画像のURLを蓄積する作業を自動化できるので、画像検索のフィルタリングを効果的に行いつつ、データベース化の作業を大幅に省力化できるという実用性の高いフィルタリングが実現できる。
(クライアントデータベースの構築方法)
(クライアントデータベースの構築方法)
次に、クライアントデータベースの構築方法について、図2のブロック図及び図3のフローチャートに基づいて説明する。ここでは、画像検索の際に有害画像のフィルタリングを行うために、サーバコンピュータを兼用する端末コンピュータでクライアントデータベースを構築する例について説明する。まず、ステップS101で、ユーザが端末コンピュータを操作して、有害画像に関連すると思われる基底キーワードとして、ハザーダス(Hazardous )キーワードを複数選定し、入力手段から入力する。ハザーダスキーワードとしては、例えばヌードやエッチ、SEX等の単語が該当する。次にステップS102で、入力されたハザーダスキーワード群を検索キーワードとして、サーバデータベース30の画像検索を行う。そしてステップS103で、検索された画像データをダウンロードして出力する。ここでは、検索結果として取得された複数の画像の一覧を端末側コンピュータの表示手段に表示する。ユーザは、検索された画像中から有害画像を手動で選択する。そしてステップS104で、有害画像として選択された画像を取得したURLを抽出し、クライアントデータベースに登録する。次にステップS105で、登録された各URLに対して重み付けを行う。
(重み付け)
(重み付け)
ここでは、重み付けとしてURLの出現頻度に基づく正規化を行う。以下、重み付けの手順の一例を、図4のフローチャート及び図5〜図7に基づいて説明する。まずステップS201で、クライアントデータベース中に登録されたURLに対して、URLを分解して出現頻度を求める。ここでは図5に示すようにURLの構成要素をディレクトリ毎に分解して部分URLとし、トライ構造によって部分URL以下のリーフ数を計数する。図5に例示する3つのURLがクライアントデータベースに登録されている場合、トライ構造は図5のようになり、各部分URLの出現頻度が計数される。
次にステップS202で大域的頻度の抽出を行う。ここでは、WWW(World Wide Web)空間中において、上記の部分URLが出現する頻度を求める。この例では、サーチエンジン等WWW検索システムが有する、いわゆるURL検索を使用して、部分URLを入力して検索し、仮想的にWWW空間中の大域的頻度を求めた。この結果を図6に示す。
そしてステップS203で、得られた大域的頻度による正規化を行う。ここでは、図7に示すように、部分URLの出現頻度を、大域的頻度で除算して正規化する。この結果得られた値を各部分URLの基準値とすると、(部分URLの基準値)=(クライアントデータベース中の部分URLの出現頻度)/(WWW空間中の部分URLの出現頻度)となる。ここでは、部分URLの有害度Hurlとすると、以下の数1で表現できる。
この例では有害な画像のフィルタリングを行うため、基準値を有害度として、有害度が高い場合にアクセス制限を行うための閾値を設定することにより、適正なフィルタリングが実現できる。閾値はユーザが入力手段から入力する。これにより、設定された閾値よりも有害度の高い部分URLが含まれるURLについては、アクセス制限がかけられる。
以上のようにして、効果的なフィルタリングが行える。すなわちユーザが数個〜数十個程度のハザーダスキーワード(有害な画像を象徴するキーワード)を選定してキーワード設定手段から入力することにより、有害画像のURLデータベースを自動的に構築することが可能となり、ユーザは有害画像を含むサイトのURLを一々調べて入力する手間を省力化することができる。
(フィルタリング手法)
(フィルタリング手法)
以下、具体的なフィルタリングの手法について、図8のフローチャート及び図9〜図11のブロック図に基づいて説明する。ここでは、ユーザがインターネット上から画像検索を行う際に、予め上記の手法で構築された有害画像を含むURLクライアントデータベースに基づいて、検索結果から有害画像のフィルタリングを行う例について説明する。まずステップS301で、検索を行う。ここではユーザが端末コンピュータを使用して、画像検索の検索キーワードをキーワード入力手段から入力する。検索キーワードは、ユーザが検索したい画像を象徴するキーワードを文字で指定する。また、検索したい画像に関する検索テーマについて、予めサーバデータベース30を構築しておき、画像検索の際にはこのサーバデータベース30を検索対象として選択する。
次にステップS302で、検索キーワードに基づいてサーバデータベース30を検索し、一次検索結果として画像のURL群を生成する。一次検索結果として得られたURLの画像は、この段階では表示手段に表示されない。
そしてステップS303で、この一次検索結果と、クライアントデータベースのURLとの比較を行う。ここでは、予め閾値設定手段で設定された閾値に基づいて、一次検索結果の各URLと一致する部分URLの有害度との部分マッチングを行う。例えば図10に示すように、閾値を0.30に設定し、一次検索結果としてURL「http://a2server/yoshiyuki/sexy.html」が取得されたとする。このURL構造から部分URLを解析すると、「a2server」、「yoshiyuki」に分解される。そしてこれらの部分URLをクライアントデータベースに登録されている部分URLと対比して検索すると、「a2server」と「yoshiyuki」が検索される。さらに、これらの有害度を参照すると、「a2server」の有害度は上述の計算式より0.06、「yoshiyuki」の有害度は0.67となっている。この結果、「yoshiyuki」の有害度0.67は閾値0.30を超えているため、この部分URLを含むURL「http://a2server/yoshiyuki/sexy.html」は有害と判定され、閲覧を制限する。すなわち、画像の表示対象から除外される。
一方、図11に示すように一次検索結果としてURL「http://a2server/issei/index.html」が取得されたとし、同様にこのURL構造から部分URLを解析し、「a2server」、「issei」を得、これらの部分URLをクライアントデータベースに登録されている部分URLと対比すると、「a2server」の有害度0.06、「issei」の有害度0.10が得られる。この結果、「a2server」、「issei」のいずれも、有害度が閾値以下であるため、これらの部分URLを含むURL「http://a2server/issei/index.html」はフィルタリング対象外とされて、このURLの画像は検索結果として表示手段への表示が許可される。
このようにして一次検索結果をフィルタリングして二次検索結果を得て、ステップS304で、二次検索結果として表示可能な画像を表示手段に出力する。表示方法としては、フィルタリング対象とされた画像を完全に排除して画像一覧を表示する他、フィルタリング対象画像については「!」、「×」等の閲覧制限がかけられていることを示す画像を代替画像として表示し、アドレスやファイル名を表示することで、閲覧制限の画像が存在することをユーザに知らせることもできる。
このようにして、閲覧対象の画像と、閲覧制限を行う画像とを峻別することができる。この方法によれば、従来フィルタリングができなかった未登録のURLについてもフィルタリングが可能となる。すなわち、URLを分解して構成部分毎に重み付けを行い、さらに検索結果のURLを部分的にマッチングすることで、未登録URLであっても一部が一致する限り、その有害度を判定可能となる。
(基底キーワードの適正判定)
(基底キーワードの適正判定)
一方、この方法ではハザーダスキーワードによっては、ユーザが意図しないURLを収集してしまうという問題がある。これは単語の持つ意味的多義性に起因する。例えばハザーダスキーワードとして「処女」を設定すると、有害画像の他、処女作、処女航海といった有害でない画像についてもフィルタリングの対象となるおそれがあり、ノイズによるフィルタリング精度の低下が生じ得る。そこで、ハザーダスキーワードとして選定されたキーワードの異なり数に着目して、ハザーダスキーワードとしての適正を判定し、ユーザによる適正なハザーダスキーワードの選定を支援する。
ここでは、ヒットする画像にリンクされたホームページの内容までダウンロードして、そのコンテンツを解析する。例えば「処女」で検索された画像を含むページのテキスト情報を取得し、このページ内に、ユーザが設定した複数のハザーダスキーワード群が幾つ含まれているかを計数する。例えばハザーダスキーワードとして「アダルト」、「エッチ」、「ヌード」、「処女」が指定されている場合で、「処女」で検索された画像を含むページのテキスト情報を解析する。例えば、検索のキーとなった「処女」以外に、「アダルト」、「エッチ」、「ヌード」の3つのキーワードも含まれているページは、「処女」以外のハザーダスキーワードの異なり数が3となり、有害画像に該当する可能性が高いと判断できる。一方、処女航海のページのような安全なサイトであれば、「処女」以外の他のハザーダスキーワードが含まれておらず、ハザーダスキーワードの異なり数が0となる。このように、アクセス制限したいページであれば、相対的に複数種類のハザーダスキーワードが含まれている可能性が高く、一方、安全なページであれば相対的に他のハザーダスキーワードが含まれている可能性が低くなる傾向に着目して、複数のハザーダスキーワード群の異なり数を調べ、ハザーダスキーワードとして有効であるかどうかの適正を判定する。
以下、基底キーワードの適正判定を行う手順を説明する。ここでは、基底キーワードとして複数のハザーダスキーワードを選択し、これらの内で適正さの高いキーワードを選択する手順について、図12のフローチャート及び図13のブロック図に基づいて説明する。まずステップS401において、複数の基底キーワードをユーザが指定する。ここではハザーダスキーワードとして「アダルト」、「処女」、「ヌード」、「エッチ」、「セックス」の5つをキーワード入力手段から入力する。次にステップS402で、検索を実行する。ここではサーバデータベース30から、上記のハザーダスキーワードについて画像検索を行う。
次にステップS403でコンテンツを取得する。ここでは、取得された画像にリンクするhtmlファイルをダウンロードする。そしてステップS404で、基底キーワード毎に異なり数を計測する。ここでは、ハザーダスキーワード毎に、ダウンロードしたhtmlファイルに含まれる他のハザーダスキーワードの数を、異なり数として計数し、ハザーダスキーワード毎に得られた異なり数の平均値を演算する。最後にステップS405で、異なり数に基づいて基底キーワードの適正を判定する。異なり数が多い基底キーワードは、使用頻度が高い、すなわち基底キーワード群の中でも関連性が高いと推測でき、逆に異なり数が少ない基底キーワードは、他の基底キーワードとの関連性が低い、すなわちノイズが多くなると推測できる。ここでは、異なり数の平均値で基底キーワードをソートし、平均値の高いハザーダスキーワードを適正とし、平均値の低いハザーダスキーワードを除外する。この判定は、例えば平均値の高い順に上位から所定の個数を抽出したり、平均値の低いものから順にハザーダスキーワードとして適正でないとして所定個数を排除する。あるいは、平均値に対して閾値を設定し、設定された閾値を下回るハザーダスキーワードを除外しても良い。
また、このような判定に基づき、ハザーダスキーワードとして不適切であり、フィルタリングの精度が低下するおそれがあるとして、ユーザに対してハザーダスキーワードの選定を再考するよう促すことができる。例えば基底キーワードの適正判定結果として「ハザーダスキーワードとして不適切です」等の警告メッセージを表示手段に表示させる。
この方法であれば、基底キーワードを選定する時点で、該基底キーワード自体の有効性を判定できるので、より適正な基底キーワードに基づいてクライアントデータベースを構築できる。これによってクライアントデータベース自体の品質が向上し、フィルタリングの際の精度向上や検索の際の検索漏れ低減が期待できる。
(評価試験)
(評価試験)
次に、URLの重み付けの評価を行った結果について説明する。ここでは、URLの部分マッチングによるフィルタリング手法及びハザーダスキーワード選定手法を用いて、既存のWWW画像検索システムの検索結果に対するフィルタリング実験を行った。以下に実験条件、評価基準、各手法に対する実験結果、考察を述べる。
実験条件としては、既存のWWW画像検索システムにGoogle Image Searchを用いて、ハザーダスURLデータベースと評価用データを作成した。まず、k個のハザーダスキーワードで検索し、検索結果上位100件の画像ページのURLをデータベースに登録した。kは各評価実験により異なるため、評価毎の実験方法で説明する。次に、ハザーダスキーワードとは別に有害な画像が検索される可能性がある「看護婦」や「制服」といった27個の評価用キーワードで検索を行い、検索結果上位100件の画像ページのURL計2639件を評価用データとした。さらに、評価用データ中のURLを人手で判定し、性的描写がある場合はハザーダス、性的描写が無い場合はセーフと2種類に分類し、456件のハザーダスURLと2183件のセーフURLを得た。
フィルタリング精度の評価尺度には、再現率・適合率及びF尺度を用いた。評価用データに対してハザーダスURLデータベースを用いてフィルタリングを行い、以下の数2、3に示すハザーダス画像の再現率(Rhaz)、適合率(Phaz)を求めた。Rhazは評価用データ中の全ハザーダス画像を正しくブロックできた割合を表し、Phazはブロックした画像の中で本当にハザーダス画像であった割合を表す。
また、ハザーダス画像の再現率・適合率を求めると同時に、数4、5に示すセーフ画像の再現率(Rsaf)、適合率(Psaf)も併せて求めた。Rsafは評価用データ中の全セーフ画像に対してアクセスを許す割合を表し、Psafはアクセスを許した画像の中で本当にセーフ画像であった割合を表す。
本手法では、部分URLの有害度に閾値を設定してフィルタリングを行うため、閾値毎に再現率・適合率は変化する。そこで、閾値Tを0.0〜1.0まで0.0001毎に変化させ、それにより得られた再現率・適合率をプロットし、再現率・適合率曲線を求めた。各曲線は再現率・適合率の幅がまばらであり、曲線が交差する部分があるため、各手法の精度を順位付けするのは困難である。そこで、再現率と適合率を総合的な観点から1つの値により評価するためにF尺度を求めた。F尺度は以下の数6で求めることができる。
再現率・適合率曲線では、グラフ中に多数の再現率と適合率のペアが存在するため、各曲線において、再現率を0.0〜1.0まで0.05毎に区切った計101点のF尺度を計算し、その平均値を求めた。
(URLの部分マッチングによる評価)
(URLの部分マッチングによる評価)
次にURLの部分マッチングによる評価について説明する。まず、54個のハザーダスキーワードで検索し、検索結果上位100件のURL計4189件をハザーダスURLデータベースに登録した。次に、登録されたURLに対して以下の4つ手法を用い、評価用データに対してフィルタリングを行い、再現率・適合率及びF尺度を求めた。
(1)正規化あり(All)
(1)正規化あり(All)
本実施の形態に係る部分URLの有害度による重み付けを行ったものである。
(2)正規化無し(Normal)
(2)正規化無し(Normal)
正規化を施さず、ハザーダスURLデータベース中の部分URLの出現頻度による重み付けを行ったものである。ハザーダスキーワードで検索されたURLを多く持つサーバであるほど重みが高い。そのため従来のURLチェック方式で問題となっているサーバ全体の包括規制に該当する。
(3)パスの深さによる重み付け(Pass)
(3)パスの深さによる重み付け(Pass)
URLのパス数をdとすると、URLのサーバ部を深さ1、サーバ以下の第一パス部を深さ2、第二パス部を深さ3、...、ファイル部を深さdとして重み付けを行う。
(4)画像解析(Image)
(4)画像解析(Image)
既存のWWW画像検索システムを用いて、人手でハザーダス画像を500件抽出し、色情報、形状情報を用いて画像解析によりハザーダス画像を自動で判定した。距離計算方法には画像検索の分野で高精度な検索を実現するEarth Mover's Distanceを用いた。この手法は、従来のコンテンツチェック方式に該当する。
以上の実験結果として、ハザーダス画像の再現率・適合率曲線を図14に、セーフ画像の再現率・適合率曲線を図15に示す。また各手法のF尺度の平均値を表1に示す。
これらから明らかなように、Normalに比べAllが高い値を示していることから、正規化した頻度を用いたフィルタリング手法が有効であるといえる。これは、従来のURLチェック方式で問題であった包括規制を緩和できているといえる。Normalでは正規化が行われていないため、従来の包括規制と同様にサーバやディレクトリで過剰な規制が行われている。また、Passに比べAllが高い値を示していることから、Passではサーバやディレクトリで過剰な規制が行われてしまうのに対し、Allでは過剰な規制を防ぎつつURLの有害性を部分的に識別できていると考えられる。Imageでは、再現率の値に関わらず適合率が低く、誤って多くのセーフ画像がハザーダスと判定されている。これは肌色の画像を全てハザーダス画像とみなすため、適合率が悪くなったと考えられる。以上から、本実施の形態では過剰な規制を回避しつつ、URLの有害性を部分的に識別できていることが確認できた。
(ハザーダスキーワードの選定による評価)
(ハザーダスキーワードの選定による評価)
次に、ハザーダスキーワードの選定による評価を行った結果を示す。実験方法としては、54個のハザーダスキーワードの中から、上位10件、20件、30件、40件のキーワード選定を行った。この4通りに選定したキーワードセット及び54個のキーワードセットを用いて、Google(登録商標)で検索し、検索結果上位100件のURLをデータベースに登録し、上記の手法により重み付けを行った。各キーワードセットで構築したURL数を以下に示す。
(1)10件による選定(key10):752件
(2)上位20件による選定(key20):1544件
(3)上位30件による選定(key30):2310件
(4)上位40件による選定(key40):3061件
(5)選定なし(key54):4189件
(1)10件による選定(key10):752件
(2)上位20件による選定(key20):1544件
(3)上位30件による選定(key30):2310件
(4)上位40件による選定(key40):3061件
(5)選定なし(key54):4189件
これら5つのデータベースを用い、評価用データに対してフィルタリングを行い、再現率・適合率及びF尺度を求めた。この実験結果として、ハザーダス画像の再現率・適合率曲線を図16に、セーフ画像の再現率・適合率曲線を図17に示す。また各手法のF尺度の平均値を表2に示す。
実験結果より、選定するキーワード数を絞るほどセーフのF尺度が向上していることが確認できた。これは、キーワードを絞るほど、ハザーダスURLデータベースに混入するセーフURLの割合が少なくなっているためである。したがって、ハザーダスキーワードの選定手法により、ノイズの少ないキーワードを効率良く選定できているといえる。一方、選定するキーワード数が10個〜30個の場合、キーワードを絞りすぎるとハザーダスのF尺度が減少していることが確認できた。これは、除去したキーワードの中にセーフURLと併せてハザーダスURLも多く含んでいたためであると考えられる。以上より、選定するハザーダスキーワード数を変化させることで、ハザーダス画像やセーフ画像のフィルタリング精度のどちらを重視するかを調整することができた。
以上のように、数十個の基底となるハザーダスキーワードを準備するだけで、既存のWWW画像検索システムの検索結果から有害画像をフィルタリングするのに有効なURLデータベースの構築手法、及びURLをパス毎に重み付けし、有害性の高いURLを部分的に識別することでフィルタリングすることが可能となる。また、URLデータベースの自動構築時に問題となるノイズ混入を防ぐため、ハザーダスキーワードの意味的多義性に着目したキーワードの選定手法が実現できる。評価実験では、従来のURLチェック方式、コンテンツチェック方式に比べフィルタリング精度を向上することができた。また、URLデータベースに混入するノイズを除去することに成功した。
(複数のクライアントデータベースの切り替え)
(複数のクライアントデータベースの切り替え)
また、上記はフィルタリングの例について説明した。フィルタリングの場合、例えば有害画像の閲覧制限であれば、有害画像のURLに関する一のクライアントデータベースを構築すれば足りる。一方、フィルタリングでなく積極的に情報を収集する用途に本発明を適用する場合は、検索テーマ毎にクライアントデータベースを構築し、これら複数のクライアントデータベースを検索テーマに応じて切り替え、選択することが好ましい。もちろん、フィルタリング用途においても、閲覧制限したいテーマ毎に個別にクライアントデータベースを構築することは可能である。
次に、フィルタリングでなく検索される情報の精度を高めるために本実施の形態を利用する例について説明する。例えば、図18に示すように野球に関する情報を収集するためにキーワードを「阪神」として検索すると、「阪神タイガース公式サイト」の他、「阪神高速」、「阪神電車ホームページ」、「阪神百貨店」、「阪神航空フレンドツアー」、「阪神シティケーブル」、「阪神大震災」等、「阪神」に関連する様々な意味が検索される。このため、ユーザは検索結果の絞り込みを行う必要があり、キーワードを指定し直して再検索する等の作業が必要で、時間と手間と経験を要する。
そこで、図19に示すように野球関連の基底キーワードを複数設定して野球関連のURLを集めたクライアントデータベースを構築しておき、このクライアントデータベースを利用することで検索テーマとして野球に関する情報を高速に、かつノイズを少なくして収集することが可能となる。図19の例では、まず基底キーワードとして野球に関連する言葉、「プロ野球」、「タイガース」、「高校野球」等を指定する。そしてこれらの野球関連キーワードでサーバデータベース30に対して画像検索を行い、検索結果を出力し、この画像の保存先を示すURL群を抽出してURLデータベースに登録する。このようにして、予め野球関連のURLクライアントデータベースを構築しておく。また、検索テーマに応じて複数のクライアントデータベースを構築しておくこともできる。そして検索を行う際は、図20に示すように、検索キーワードを指定すると共に検索目的に応じたクライアントデータベースを一以上選択する。例えばクライアントデータベースとして野球関連URLデータベースを選択し、検索キーワードとして「阪神」を入力すると、該野球関連URLデータベース中から、阪神に該当する情報(例えば「阪神タイガース公式サイト」、「デイリースポーツ新聞」、「阪神ファンどっとコム」等)を得ることができる。この方法であれば、予め野球関連のデータが集められたURLデータベースをインデックス情報として利用できるので、検索が極めて高速である上、元々野球関連の情報が収集されたデータベースから検索するため、野球関連以外の情報が少なく、そのため検索のノイズが少ないというデータ検索として理想的なシステムが実現される。
(識別モデル)
(識別モデル)
一方、この方法では検索が高速でノイズが少ない反面、検索対象がクライアントデータベースに予め登録された情報に制限される。いいかえると、クライアントデータベースに登録されていない情報を検索することはできない。したがって、検索漏れが発生するおそれが生じる。そこで、クライアントデータベースに登録されていない情報も併せて検索できるよう、他の検索モデルを組み合わせて使用する。
(ベイズ理論に基づく学習)
(ベイズ理論に基づく学習)
コンテンツデータベースから関連するキーワードを取得するために、本実施の形態ではベイズ学習を利用する。ベイズ理論あるいはベイズ推定とは、過去に起きた事象の確率を利用して未来を予測する手法であって、最適化に好適である。文書内答を判定して分類する学習方法として、決定木、ニューラルネット、最近隣法等が知られているが、ここではナイーブ・ベイズ分類手法(Naive Bayes Classification Method)を利用した。ナイーブ・ベイズ分類は、迷惑メールを排除するシステム等で利用されており、文書の分類における有効性が確認されている。ナイーブ・ベイズの分類手法は、各分野に属する文書内の単語の出現確率に基づいているため、高い分類精度が得られるが、判別モデル作成のために多くのデータが必要となるといった問題点がある。そこで本実施の形態では、自動構築したデータベース内のURLにリンクするHTMLページのコンテンツを正事例とし、学習過程を簡略化したナイーブ・ベイズ分類手法を採用した。
図21に一例として、野球関連URLデータベースからベイズ学習によって野球分野のキーワードを選定した野球関連識別モデルデータベースを構築し、この識別モデルデータベースを利用して検索を行う様子を示す。ベイズ学習では、コンテンツデータベース中に登録されたテキストデータから、使用頻度の高い用語を切り出して抽出する。この抽出には、ベイズ学習が利用できる。ベイズ理論(ベイズ推定)とは、過去に起きた事象の確率を利用して未来を予測する手法であって、最適化に好適である。ここでは、クライアントデータベースに登録されているURLの内、特に上位、すなわち重み付けの重いホームページのテキストデータをダウンロードしてコンテンツデータベースを構築し、このコンテンツに含まれるテキストの単語を分割して、ベイズ学習を行う。ベイズ学習は、コンテンツデータベース中に現れる各単語の出現頻度を単語同士の関連性も含めて数値化してデータベースに登録し、それらに基づき関連キーワードの候補となる単語とその組み合わせから、その単語が既に基底キーワードとされた用語にどれほど近いかを確率的に決定する。
(ナイーブ・ベイズ)
(ナイーブ・ベイズ)
ナイーブ・ベイズは、学習データを用いてベイズの定理に基づき何種類かのクラスへ文書を分類する手法の一つである。まず、学習データとしていくつかの分野ごとに分けられた文書集合を用意する。次に、学習データから判別モデルを作成する。これをデータの学習と呼ぶ。学習方法にはベクトル空間モデルを用いる方法、確率計算から得られる方法等があるが、ナイーブ・ベイズでは確率計算を行う。実際に分類をする際には、分野が未知の文書を、学習結果に基づいて得られた各クラスの文書データの特徴判別モデルと対比させて、入力文書がどのクラスに属するかを判断する。
(ベイズの定理)
(ベイズの定理)
機械学習においては学習用データDが与えられたとき、仮説の全体集合Hからなる最も良い仮説を導くことが重要である。その一つの方法はデータと共に様々な仮説の事前確率の知識を応用して、より有効な仮説を求めることである。ベイズの定理はこのような確率を計算する手法を直接提供する。事前確率とは、仮説を有効とみなすためのデータを観測する確率である。ベイズの定理はそれに基づいて新しい仮説の確率を計算することができる。ベイズの定理は事前確率p(h)とP(D)やP(D|h)を用いて事後確率p(h|D)を計算する方法を与えるもので、ベイズの学習方法の基礎をなす。ベイズの定理を次式数7に示す。
これより、P(h|D)はP(h)やP(D|h)とともに増加することが分かる。逆にP(D)が増加するとP(h|D)は減少する。これは学習データDが仮説hから独立して存在していれば、データDが仮説hに及ぼす影響が少なくなることを示している。
(ナイーブ・ベイズの分類方法)
(ナイーブ・ベイズの分類方法)
事実上のベイズの学習方法はナイーブ・ベイズの学習であり、ナイーブ・ベイズの分類方法と呼ばれる。それぞれの文書xが単語の集合<a1、a2、…、an>で表され、学習データのクラス集合Vに全ての文書が分類される条件で、ナイーブ・ベイズの分類は学習を行い、モデルを構築する。学習データに含まれない新しい文書をクラスに分類するベイズの方法は、学習データのモデルを設定し、入力文書xinから単語の集合<ainl、ain2、…、ainn>を基に各クラスに属する確率Vを求め、最大の確率になるvMAPを決定することである。すなわち、次式数8より求めることになる。
ベイズの定理を使うと、この等式は数9のように書き換えられる。
今、学習データに基づいて数9のうち、2つの項を計算する。学習データの中で、単純に個々のクラスに属する文書を数えることによって、P(vj)を概算することができる。しかし、非常に多くの学習データの集合を持たなければ、この方法でそれぞれのP(ainl、ain2、…、ainn|vj)の項を概算することは不可能である。このベイズの分類は文書を与えられたときに各単語が条件つきで独立であるという仮定に基づいている。仮定とは、実例の目的値が与えられたときに属性値a1、a2、…、anの結合を決める確率がある一つの性質である数10
の積であることをいう。これを数9に置き換えるとベイズの使用される解法が得られる。ベイズの分類は次式数11のようになる。単語の出現確率が単純に独立していると仮定することから、このベイズの分類はナイーブ・ベイズと呼ばれる。
本実施の形態ではWWW検索システムにおいて、検索結果をURLデータベースのURLのコンテンツをナイーブ・ベイズの学習データとして用いて選定する。ナイーブ・ベイズは学習データが適切であれば高い分類精度を得ることができる。しかしながら、ユーザが求める多く分野の学習データを収集することは非常に困難である。そこで、本実施の形態では上記で構築したURLデータベースのコンテンツを解析し、ナイーブ・ベイズの学習を行う。コンテンツの解析は、形態素解析で行い、その結果の内、動詞、名詞を抽出することで行う。学習課程では各クラスのコンテンツ数、それらの単語出現頻度に基づいたモデルが構築される。
図23に、URLデータベースを用いて、WWW検索結果をナイーブ・ベイズ選定手法で分類する処理を示す。また図24は、ベイズ学習によって識別モデルデータベースを構築する手順を示すフローチャートである。以下、これらの図に基づいて、ベイズ学習によって識別モデルデータベースを構築する手順を説明する。
まず、ステップS501で、クライアントデータベースに登録された位置情報からコンテンツを取得する。ここでは、URL先のテキストデータをダウンロードする。図21の例では、クライアントデータベースとして野球関連URLデータベースが構築されているため、これらのURLを辿って野球関連の情報が得られる。そしてステップS502で、取得したコンテンツに基づいてコンテンツデータベースを作成する。ここでは、野球関連のホームページのコンテンツを含むデータベースとなる。さらにステップS503で、コンテンツデータベースから関連するキーワードを取得する。すなわち、コンテンツデータベース中に登録されたテキストデータから、ベイズ学習により使用頻度の高い用語を切り出して抽出する。そしてステップS504で、関連キーワードに基づいて識別モデルデータベースを構築する。ここでは、ベイズ学習によって得られた関連キーワードで、さらにクライアントデータベースを構築する。
このようにして構築された識別モデルデータベースを、検索テーマ毎のクライアントデータベースと併用することで、クライアントデータベースに登録されていない情報は識別モデルデータベースで補完することができるので、検索漏れの少ない検索結果を得ることができる。また、識別モデルデータベースの生成には、コンテンツの取得が必要であるため時間がかかるという問題があるが、本実施の形態ではクライアントデータベースと併用することによって、検索に要する処理時間を短縮できる。あるいは、識別モデルデータベースを予め構築しておき、クライアントデータベースと併合することで、漏れの少ないデータベースとできる。
ここで、URLデータベースを用いてWWW検索結果をナイーブ・ベイズ選定手法で分類する手順を説明する。まず準備として、予め上述した手順にしたがって各分野のURLデータベースを構築する。各分野のURLデータベースの上位200件のURLのコンテンツをWWWからダウンロードし、解析する。その結果の単語の出現頻度から各クラスのモデルを構築する。この状態で検索キーワードを入力し、WWW検索システムGoogle(登録商標)Searchの検索結果にリンクされるURLのコンテンツ1つずつダウンロード、解析する。さらにコンテンツの解析結果をモデルに基づき、各クラス毎の分類確率を求め、最大となるクラスに分類する。このようにして、ナイーブ・ベイズ選定手法によってWWW検索結果をカテゴリー毎に分類する。
次に、上記のナイーブ・ベイズ選定手法による分類の有効性を確認するため、実際にWWW検索システムの検索結果に対する選定を行った結果を説明する。ここでは、解析したURLデータベースのURLのコンテンツ情報を学習したナイーブ・ベイズ選定手法によって、WWW検索システムの検索結果に対する選定を行った。この例では、既存のWWW検索システムにGoogle(登録商標)Image Searchを用いて、「野球」、「アイドル」、「有害」、「車」の分野のURLデータベースと評価用データを作成した。まず、5件の基底単語を定め、各分野のURLデータベースを構築した。URLデータベースの上位200件ずつのURLを基に学習を行いモデルを構築した。次に各分野毎に実験を行うために、各分野の情報が検索される可能性がある「野球」分野に対し「井川」、「鈴木」、「松井」、「お立ち台」等9件、「アイドル」分野に対し、「鈴木」、「モデル」、「握手会」等8件、「車」分野に対し「マルポーロ」、「センチュリー」、「ワゴン」等5件といった計22個の評価用キーワードで検索を行い、検索結果上位40件のURL計880件を評価用データとした。さらに、評価様データ中の各分野の分類を人手で判別し、「野球」関連の検索結果360件のうち181件が「野球」分野、「アイドル」関連の検索結果320件のうち118件が「アイドル」分野、「車」関連の検索結果200件のうち98件が「車」分野の情報として得られた。
選定精度の評価尺度には、再現率・適合率を用いた。ここで、情報が分野に選定されることをTRUEと定義し、分野に選定されないことをFAULTと定義する。評価用データに対してURLデータベースの学習データを用いて選定を行い、次式数12、数13に示す各分野の情報の再現率Rtrueと適合率Ptrueを求めたRtrueは評価用データ中の情報が各分野に正しく選定できた割合を表しPtrueは選定した情報の中で本当にその分野に分類されるべき情報であった割合を表す。
また、選定された情報の再現率・適合率を求めると同時に、次式数14、数15に示す、不選定の情報の再現率(Rfault)、(Pfault)も併せて求めた。Rfaultは評価用データ中の分野に属さない情報に対して、分野に選定する割合を表し、Pfaultは選定されなかった情報の中で本当にその分野に適合していなかった情報の割合を示す。
これらの再現率・適合率を求め、それらをプロットすることで再現率・適合率曲線を求める。次に、実際に行った実験結果を説明する。まず5件の基底単語で検索し、URLデータベースを構築した。URLデータベースの上位200件のURLのコンテンツを収集、解析しナイーブ・ベイズの学習を行った。次に、各分野の評価用データに対して選定を行い、再現率・適合率を求めた。ここで検索キーワードとして「野球」、「アイドル」、「車」の分類結果の再現率及び適合率曲線を、それぞれ図25、図26、図27に示す。これらの図に示すとおり、URLデータベース内のURLとの照合によりフィルタリングを行うURL選定手法に比べ、本手法の再現率・適合曲線を大きく上回っていることから、URLデータベースのURLコンテンツに基づいて学習を行うナイーブ・ベイズ分類が有効であるといえる。ナイーブ・ベイズの分類精度は学習データの精度に依存するため、自動構築した各分野のURLデータベースの情報が適切であったことを示している。URL選定手法で問題であった未登録のURLに対する分類精度の低下を解決できているといえる。「アイドル」、「車」のTRUE選定の再現率・適合率曲線は、高い再現率では本手法がURL選定手法より下降している。これは、本手法が多くの情報をTRUE選定したことを示し、URL選定手法では選定できなかった多くの情報を選定できることがわかる。
図28に従来のWWW検索結果を、図29に本実施の形態に係る分類を適用した「車」分野への分類実験結果の例を、それぞれ示す。検索キーワードは「三菱」とした。これらの図に示すように、従来の検索では、車に限らず電化製品の「三菱」に関連する画像が検索されているが、実施例を適用した検索結果では、「三菱」の車に関する画像のみが選定されており、本発明の有用性が確認された。
以上のように本実施例では、数個の基底となる各分野を象徴するキーワードを準備するだけで自動構築するURLデータベースの情報を用いて、既存のWWW検索システムの検索結果に対しユーザが求める各分野の情報を分類するのに有効なナイーブ・ベイズ分類の学習の簡略化が実現できる。この手法を組み合わせることで、URL選定手法に比べ、分類精度を向上することができる。
次に、クライアントデータベースに識別モデルデータベースを併用した検索の手順を、図21のブロック図と図22のフローチャートに基づいて説明する。まず、ステップS601で検索キーワードを入力する。次にステップS602で、この検索キーワードでクライアントデータベースを検索し、その結果を保持する。この検索は上述の通り高速に実行できる。さらにステップS603で、識別モデルデータベースを使って検索し、その結果を保存する。識別モデルデータベースは検索の度に構築することもできるし、予め作成しておくこともできる。そしてステップS604で、両検索結果を統合して最終的な検索結果を生成、出力する。ここでは、クライアントデータベースの検索結果と識別モデルデータベースの検索結果をマージし、重複する検索結果を排除した後、必要に応じてソートして出力する。
このようにして、URLデータベースによる照合のみでは、未登録のURLに対する検索漏れが生じるという欠点に対し、本実施の形態では各検索テーマ毎のURLデータベースに登録済みURLのページから出現単語の頻度情報を抽出し、その頻度情報と該当分野の組み合わせをベイズ学習することで、識別モデルを作成する。そして、検索テーマ別URLデータベースに未登録のURLに対しては、ユーザが選択した識別モデルを用いて、各ページ内の内容に基づきフィルタリングを行う。
このように、インターネット上のデータに対して検索を行う際に、直接サーバデータベース30から検索するのでなく、より小規模で、且つ必要な情報を予め保存したクライアントデータベースから検索を行うことにより、高速でかつ精度の高い検索、あるいはフィルタリング若しくはその両方が実現される。
(関連キーワードの自動収集)
(関連キーワードの自動収集)
以上は、ユーザが設定した基底キーワードを取捨選択する手法を説明した。一方、入力された基底キーワードに関連するキーワードを自動的に選定し、さらに該関連キーワードを用いて同様に検索、抽出を行ってクライアントデータベースを構築することもできる。これにより、入力されたキーワードに関する情報のみならず、これに関連する情報も検索できるので、さらに漏れの少ない情報の検索が可能となる。この関連キーワードは、入力された基底キーワードを含むマスタレコード中のデータのコンテンツを解析して、関連性の高い語句を抽出したものとできる。これにより、実際にキーワードが使用されているコンテンツからキーワードを抽出するため、シソーラス等を使用する必要が無く、さらにシソーラス等の予め規定された関連性データベースに比べて、関連性キーワードの選定がより実践的で、現実に即した適正な関連キーワードの選定と、このキーワード検索を併用した漏れのない検索が可能となる。以下、関連キーワードの自動収集について詳述する。
従来のWWW空間からの関連語収集手法は、Webページ内の出現単語を利用するものが殆どであった。これに対して本実施の形態では、WWW上に存在する文書に付随するURLを利用してWWW空間から関連語を自動収集する。ここでは、数個のシーズとなる単語(基底キーワード)を準備し、基底キーワード群に意味的に関連した単語をWWW空間から自動収集する例について説明する。
本実施の形態では、まず、基底キーワード群を既存のWWW検索システムに入力する。ここで、基底キーワード群が一連の同じ意味を有すると仮定すると、検索結果内には、基底キーワード群に関連性の高いページが多く含まれると考えられる。従来は、この関連性の度合いをページ内に共起する単語(関連候補語)の頻度情報を用いて評価していた。しかしながら、Webページは一般の文書と異なり、各ページにURLが付随している。そこで本実施の形態では、URL集合間の類似度により関連性の度合いを評価する。つまり、既存のWWW検索システムに対する各関連候補語の検索結果から得られるURL集合と、基底キーワード群から得られたURL集合との間で類似性が高ければ、その関連候補語を関連語として採用する。
例えば、基底キーワード「本塁打」と「ホームラン」から得られたURL集合には、同一のサイトやホスト名に類似性をもつサイトが多数出現する。ここに、関連候補語「松井秀喜」の検索結果から得られるURL集合が高い類似性をもっていれば、この関連候補語は関連語であると判断できる。また、本実施の形態を用いればURLをマッチングをするだけで、単語の関連性を短時間に取得することができ、効率的な関連語収集を実現できる。
(従来の関連語収集技術)
(従来の関連語収集技術)
従来の代表的な関連語収集技術としては、単語の共起情報を基に相互情報量を求め、この値により関連語を収集する方法、及び検索結果内に出現する単語の類似性により関連語を収集する方法が挙げられる。以下に、各手法の概要を説明する。
(相互情報量による関連語収集)
(相互情報量による関連語収集)
まず単語の共起情報に基づく相互情報量による関連語収集手法について説明する。これは、単語xとyが同時に観測される確率P(x、y)とx、yが独立に観測される確率P(x)、P(y)から数16で単語の関連性を評価する。
これは、WWW空間をキーワードの収集対象とした場合、出現頻度の極端に低い固有名詞等の単語がノイズとなる問題が生じるため、WWW空間における関連語収集手法として不適切である。
(出現単語の類似性よる関連語収集)
(出現単語の類似性よる関連語収集)
次に出現単語の類似性による関連語収集手法について説明する。これは、2つの単語xとyをそれぞれWWW検索システムを用いて検索し、検索結果から得られる頻度ベクトル間の類似度をJaccard係数である次式数17で評価する。
次に、出現単語の類似性による関連語収集のシステムの概要を図30に示す。この図に基づいて、出現単語の類似性による関連語収集の手順を説明する。
(ステップS701:基底キーワードが存在するページを検索)
(ステップS701:基底キーワードが存在するページを検索)
予め人手で登録した各基底キーワードKeyi(1<i<n)をWWW検索システムに入力し、各キーワード毎に上位m件の検索結果URLij(1<j<m)を得る。
(ステップS702:ページ内容の解析(基底キーワードの頻度ベクトルを取得))
(ステップS702:ページ内容の解析(基底キーワードの頻度ベクトルを取得))
ステップS701の検索結果URLijに対応するHTMLを形態素解析し、各出現単語wik(1<k<p)を関連候補語とする。また、総出現頻度ベクトルCF(keyi)=(cwi1、cwi2、…、cwik、…)を集計する。ただし、cwikは、キーワードwikの出現頻度とする。
(ステップS703:関連候補語の頻度ベクトルを取得)
(ステップS703:関連候補語の頻度ベクトルを取得)
ステップS702で取得した関連候補語wik(1<k<p)について、同様にステップS701、ステップS702を行い、各関連候補語の検索結果sl(1<l<q)に対しても総出現頻度ベクトルCF(wkl)=(csk1、csk2、…、cskl、…)を集計する。
(ステップS704:類似度計算)
(ステップS704:類似度計算)
基底キーワードと関連候補語の頻度ベクトルを用いて、数17により類似度を求める。
(ステップS705:関連キーワードの特定)
(ステップS705:関連キーワードの特定)
各基底キーワードから求めた関連語において、同一の単語が存在すれば、それぞれの類似度で和をとる。wikの類似度σ(CF(key)、CF(w))でソートし、上位の単語を関連キーワードとする。
Webの内容解析による関連語の収集手法は、関連候補語数の影響でWWW空間へのアクセス数が多くなり、収集に膨大な時間を費してしまう。そこで、WWW上に存在する文書にはURLが付随していることに着目し、URLの共通性を用いることで関連語の収集時間を短縮する。その手法として、本実施の形態では基底キーワードの検索結果URLから構築するURLデータベースを用いて、検索範囲を限定して関連語を収集する。さらに、URLによる関連度の判定により、関連語の収集効率を上昇させている。
(URLの類似性に基づく関連キーワード収集手法)
(URLの類似性に基づく関連キーワード収集手法)
図31に関連キーワード自動収集手法のシステム図を示す。以下、URLの類似性を用いた関連語収集の手順を説明する。なお、以下のステップS802で示すURLデータベースの構築方法、およびステップS805で示す関連度の計算方法については、後述する。
(ステップS801:基底キーワードが存在するページを検索)
(ステップS801:基底キーワードが存在するページを検索)
予め人手で登録した各基底キーワードkeyi(1<i<n)をWWW検索システムに入力し、各キーワード毎に上位m件の検索結果URLij(1<j<m)を得る。
(ステップS802:URLデータベースを構築)
(ステップS802:URLデータベースを構築)
ステップS801で得た検索結果URLijから部分URLを抽出し、WWW空間全体のURL出現頻度を用いて正規化を行い、URLデータベースを構築する。
(ステップS803:ページ内容の解析(出現単語頻度の計算))
(ステップS803:ページ内容の解析(出現単語頻度の計算))
URLデータベース中の正規化されたURL出現頻度の上位N件のURLに対応するHTMLを形態素解析し、出現単語wk(i<k<p)と出現頻度Freq(wk)を集計する。
(ステップS804:出現単語のURLを取得)
(ステップS804:出現単語のURLを取得)
出現単語wkをWWW検索システムに入力し、出現単語毎に上位M件の検索結果URLkl(1<l<M)を取得する。
(ステップS805:関連度の計算)
(ステップS805:関連度の計算)
URLデータベースとURLklのマッチングを行い、出現単語wkの関連度を求める。
(ステップS806:関連キーワードの特定)
(ステップS806:関連キーワードの特定)
関連度とFreq(wk)の積から類似度を求め、ソートして関連キーワードを特定する。
上記アルゴリズムのステップS802において、基底キーワード群が出現するURL集合を特定している。また、ステップS804において出現単語(関連候補語)が出現するURL集合を求め、ステップS805において双方のURL集合の類似性を計算している。
(URLデータベースの構築方法)
(URLデータベースの構築方法)
上記のステップS801で得られたURLijに対し、WWW空間中のURL出現頻度で正規化する。出現頻度の正規化で、基底キーワードとURLにおける関連性の強弱を判別することができる。これにより、関連性の低いWebサイトの検出を抑え、関連性が高いと思われるWebサイトを特定することができる。以下に正規化の手順を示す。
(ステップS901:部分URL毎の出現頻度の計算)
(ステップS901:部分URL毎の出現頻度の計算)
URLデータベース内に出現する部分URL毎の出現頻度を求める。部分URLは、「/」を区切りとして分割したものである。例として、「http://www.tokushima-u.ac.jp/Glife/main.htm」のURLに対して部分URLを求めると「www.tokushima-u.ac.jp」と「www.tokushima-u.ac.jp/G-life」の2つの部分URLが作成される。これらの部分URLの各パスの共通部分の頻度を出現頻度とする。
(ステップS902:部分URLの大域的頻度の取得)
(ステップS902:部分URLの大域的頻度の取得)
各部分URLをWWW検索システムのURL検索機能に入力し、検索結果内の「検索件数」を部分URLがWWW空間中に存在する大域的出現頻度とする。
(ステップS903:部分URLの出現頻度の正規化)
(ステップS903:部分URLの出現頻度の正規化)
ステップS901の出現頻度を次式数18により大域的出現頻度で正規化し、その値を関連度とする。
上記の手順に従い、部分URLの出現頻度の正規化を行う例を図32に示す。図32のURLデータベースには3つのURLから作成される部分URLが登録されている。部分URLは(a)www.tokushimau.ac.jpと(b)www.tokushima-u.ac.jp/G-lifeの2つであり、部分URL(a)のデータベース内での出現頻度は3、(b)は2である。つぎに各部分URLをWWW検索システムのURL検索機能に入力して検索を行うと部分URL(a)は8570件、(b)は78件の検索結果を得る。最後に、数18により正規化した出現頻度を求める。部分URL(a)は0.00035、(b)は0.0256となる。
この関連度は、基底キーワードが出現しやすいWebサイトとの関連性を示している。上記のステップS705では、構築したURLデータベースと出現単語のURLで、部分URL毎にマッチングを行い、マッチングに成功した部分URLの関連度の総和を求める。これを出現単語の関連度としている。さらに、ステップS806で出現単語の関連度と出現頻度で積をとった類似度により関連語を特定している。
なお、本実施の形態では、URLデータベース内において部分URLとのマッチングを効率的に行うため、共通接尾辞を併合できるトライ構造によってURLデータベースを構築している。
次に本実施の形態の有効性を確認するために、検索分野として「野球」に関連するキーワードを収集して評価を行った。ここでは予め準備した関連候補語に対して、本実施例と従来例とをそれぞれ適用したときの適合単語数で比較する。ここで、関連候補語は基底キーワードの検索結果に対するサムネイルを基に生成し、出現頻度の多い単語からN件取得した。また、本実施の形態におけるURLのデータベース構築は、既存のWWW検索システムに入力して得られた検索結果のURLを登録している。以下に実験で使用した基底キーワード(key1、key2)を示す。
1.key1={本塁打、打率、打点}
2.key2={本塁打、打率、打点、打者、三冠王}
1.key1={本塁打、打率、打点}
2.key2={本塁打、打率、打点、打者、三冠王}
また比較のための従来例としては、WWWを利用した関連用語収集を用い、本実施の形態で収集した関連語に対する精度比較、及び、収集速度について理論的に検証した。図33〜図38に、野球の分野に関する上記の基底キーワードkey1、key2それぞれについて、関連候補語数Nを100、300、500件と変化させたときの適合単語数の推移を、本実施例と従来例それぞれについて表すグラフを示す。これらの図において、図33はkey1でN=100の関連語数推移グラフ、図34はkey2でN=100の関連語数推移グラフ、図35はkey1でN=300の関連語数推移グラフ、図36はkey2でN=300の関連語数推移グラフ、図37はkey1でN=500の関連語数推移グラフ、図38はkey2でN=500の関連語数推移グラフを、それぞれ示している。各グラフは、横軸が収集した関連語をソートした上位N件を表し、縦軸がN件中に含まれる適切な関連語数を人手により評価した結果を示す。各棒グラフの左側が本実施例、右側が比較例である。左側の棒グラフの値が高い程、より上位に適切な関連語が取得できたことを表す。
これらの図より、本実施の形態に係る手法と従来手法を比較すると、本実施の形態に係る手法が上位の適合単語数で上回っていることが確認できる。また、基底キーワード数を変化させても同様の結果を得ることができた。したがって、本実施の形態に係る手法は従来手法より収集精度において優れていることが証明された。またグラフより、関連候補語数Nの値を大きくするほど適合単語数も増加していることが判明した。つまり、基底キーワードの検索結果に対するサムネイルの中には、関連語が多く含まれており、関連候補語数Nの値を大きく設定すれば、多種にわたる関連語を収集することができることを示している。
一方、従来例の場合、サムネイルに対してjaccard係数を適用すると、出現する共通単語が少ないという要因により、適切に単語の関連性を評価することができないため、精度が低下してしまう欠点がある。また、基底キーワード数を3件から5件にすると、本実施の形態に係る手法で精度の上昇を見ることができた。これは、基底キーワード数を増やすことで、サムネイルに出現する適合単語数も増加したために収集精度が上昇したと考えられる。さらに、URLの数が増えることで、より完成度の高いURLデータベースが構築できたと考えられる。一方、従来例では基底キーワードの数を増やしても、欠点が改善されないため精度に変化は見られなかった。したがって、従来例よりも本実施の形態に係る手法が関連語の収集精度において、優れていることを検証できた。なお実際に収集した関連語を人手により検証したところ、従来例では人名が多く含まれるのに対し、本実施の形態では一般名詞系の関連語が多く収集できた。これは、基底キーワードとして採用する際には、本実施の形態の方が適していることを示している。
(関連語収集時間の比較)
(関連語収集時間の比較)
次に、関連語収集時間を本実施例と従来例とで比較した。ここでは、関連語収集時の本実施例、比較例が各々WWW空間にアクセスした回数により、処理時間の比較を行った。表3に、両手法の基底キーワード数の違いによるWWW空間アクセス数の変化を示す。
表3に示すように、本実施の形態に係る手法は従来例よりも少ないWWWアクセス数で関連語収集をしていることがわかる。すなわち、本実施の形態に係る手法の方が短時間で関連語収集を行うことができる。これは、従来例のステップS703と本実施の形態に係る手法のステップS804におけるWWWアクセス数の差が要因となっている。従来例は、関連候補語の検索結果に含まれるすべてのページにアクセスする。一方、本実施の形態に係る手法では、関連候補語の検索結果のURLを取得するだけである。すなわち、関連候補語の検索結果100件のURLを対象とした場合、従来例では100回のアクセスが必要であるが、検索結果1ページ内に100件のURLが表示されると仮定すると、本実施の形態に係る手法では1回のアクセスで手順を進めることができる。ただし、本実施の形態に係る手法では、URLデータベースを構築する際、各URLの大域的頻度を得るためにパス毎のURL検索を行う必要がある。そのため、本実施の形態に係る手法ではこの処理に対するアクセス数が増加する。
次に、実際の検索を行った結果として、表4に本実施の形態に係る手法、表5に従来例で収集した単語の出力例を示す。また、基底キーワードはkey2で、関連候補語数Nを100件とする。
これらの表に示すように、本実施の形態に係る手法と従来例を比較すると、本実施の形態に係る手法の収集精度の方が優れていることがわかる。さらに、本実施の形態に係る手法では意味的に類似性が大きいと思われる単語が多く上位に出力されている。
以上のように、本実施の形態では、特定の分野に関連するキーワードを用いて、WWW空間内におけるURLの出現頻度に着目し、関連語を自動収集することができる。評価試験では、本実施の形態に係る手法を用いることにより、従来例よりも関連語収集の精度と速度が向上することを示した。
以上は、インターネット上の画像検索システムについて説明した。ただ、本発明はこれに限られない。例えばインターネットやWANのようなオープンなネットワークに適用する他、LAN等クローズのネットワーク接続においても、適用できることは言うまでもない。またマスタレコードとして、ローカルのハードディスク等の記録媒体に記録されたデータを対象とする検索にも適用できる。さらに画像データ検索に限られず、動画や音声等のマルチメディアデータに対しても適用可能である。さらにテキスト情報に対しても適用できる。
本発明のクライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器は、ローカルまたはネットワーク上のデータベースにアクセスして画像等のデータ検索を行うサーチエンジン、デスクトップ検索ソフトウェア等として好適に適用できる。
100…データ検索システム
10…サーバコンピュータ
20…端末コンピュータ
30…サーバデータベース
40…クライアントデータベース
10…サーバコンピュータ
20…端末コンピュータ
30…サーバデータベース
40…クライアントデータベース
Claims (26)
- 複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、
検索対象を表す基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。 - 請求項1に記載のクライアントデータベース構築方法であって、
前記重み付けが、クライアントデータベース中のデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化した値であることを特徴とするクライアントデータベース構築方法。 - 請求項1又は2に記載のクライアントデータベース構築方法であって、
前記クライアントデータベース中から検索を行う際の一致/不一致の判定のため、前記基準値に対する閾値を設定可能に構成してなることを特徴とするクライアントデータベース構築方法。 - 請求項1から3のいずれか一に記載のクライアントデータベース構築方法であって、さらに、
入力された基底キーワードに対して、該基底キーワードを含むデータのコンテンツを解析し、該コンテンツ中に他の基底キーワードが表れる頻度を調べ、この値に基づいて該基底キーワードの適正を判定する工程を含むことを特徴とするクライアントデータベース構築方法。 - 請求項1から4のいずれか一に記載のクライアントデータベース構築方法であって、
入力された基底キーワードに関連するキーワードを自動的に選定し、さらに該関連キーワードを用いて同様に検索、抽出を行ってクライアントデータベースを構築することを特徴とするクライアントデータベース構築方法。 - 請求項5に記載のクライアントデータベース構築方法であって、
前記関連キーワードが、入力された基底キーワードを含むマスタレコード中のデータのコンテンツを解析して、関連性の高い語句を抽出したものであることを特徴とするクライアントデータベース構築方法。 - 請求項5に記載のクライアントデータベース構築方法であって、
前記関連キーワードが、入力された基底キーワードに関連する語句をベイズ推定により選定したキーワードであり、
ベイズ推定で選定された関連キーワードに基づいて、さらに前記サーバデータベース中から該関連キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び/又は位置情報に対し、該関連キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録してクライアントデータベースの構築を行うことを特徴とするクライアントデータベース構築方法。 - 請求項1から7のいずれか一に記載のクライアントデータベース構築方法であって、
複数のサーバデータベースを構築すると共に、これらを切り替え可能に構成してなることを特徴とするクライアントデータベース構築方法。 - 請求項1から8のいずれか一に記載のクライアントデータベース構築方法であって、
前記クライアントデータベースの少なくとも一部が、サーバデータベースと共用されていることを特徴とするクライアントデータベース構築方法。 - 請求項1から9のいずれか一に記載のクライアントデータベース構築方法であって、
前記マスタレコードがインターネット上のサーバに保存された検索可能なデータであり、
前記サーバデータベース及びクライアントデータベースが、URLを記録したURLデータベースであることを特徴とするクライアントデータベース構築方法。 - 請求項10に記載のクライアントデータベース構築方法であって、
前記サーバデータベースが、インターネット上を巡回してデータの保存位置を示すURLを自動的に収集して蓄積したURLサーバデータベースであることを特徴とするクライアントデータベース構築方法。 - 検索対象のURLデータを蓄積したサーバデータベース中から、特定の情報に特化したURLデータを記録したクライアントデータベースを構築する方法であって、
検索対象のURLデータを表す基底キーワードの入力を促す工程と、
検索対象の情報に関する基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードを含むURLデータを検索して抽出する工程と、
抽出されたURLデータに対して、クライアントデータベース中のURLデータの出現頻度を、サーバデータベース中の出現頻度で除算して正規化することで重み付けを行う工程と、
を含むことを特徴とするクライアントデータベース構築方法。 - 複数のデータを含むマスタレコード中から、検索対象としたいデータ及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、サーバデータベース中から検索除外のデータに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、
検索除外とする情報に関する基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードに基づいてデータ及び/又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該画像データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。 - 複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び/又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外の画像データに関する情報を抽出して記録したクライアントデータベースを構築する方法であって、
検索除外とする画像に関する基底キーワードの入力を促す工程と、
前記サーバデータベース中から該基底キーワードに基づいて画像データ及び/又は該画像データの保存位置に関する情報を検索して抽出し、
抽出された画像データ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該画像データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。 - 複数の画像データが含まれるインターネット中から、検索候補となる画像データのURLを収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、サーバデータベース中から検索除外する画像データのURLを抽出して記録したクライアントデータベースを構築する方法であって、
検索除外とする画像データに関するハザーダスキーワードの入力を促す工程と、
前記サーバデータベース中から該ハザーダスキーワードに基づいて画像データのURLを検索して抽出し、
抽出されたURLに対し、該URLのコンテンツを解析して基底キーワードの出現頻度を計数し、クライアントデータベース中のURLの出現頻度を、サーバデータベース中のURLの出現頻度で除算して正規化することにより、重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値をハザーダスキーワード毎に設定し、
前記ハザーダスキーワードと画像データのURL、基準値を前記クライアントデータベースに記録する工程と、
を含むことを特徴とするクライアントデータベース構築方法。 - 複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、
予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象を表す検索キーワードの入力を促す工程と、
前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程と、
を含むことを特徴とするデータ検索方法。 - 複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、
予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び/又は該画像データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象の画像データに関する情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象の情報に関する検索キーワードの入力を促す工程と、
前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する工程と、
を含むことを特徴とするデータ検索方法。 - 複数のデータを含むマスタレコード中から、所望のデータを検索するためのデータ検索方法であって、
予め、複数のデータを含むマスタレコード中から、検索対象としたいデータ及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したいデータを特定するためのフィルタリング情報として、検索結果から除外したいデータに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象の情報に関する検索キーワードの入力を促す工程と、
前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、
前記一次検索結果に含まれるデータの内、前記クライアントデータベース中に登録されているデータを除外して二次検索結果を抽出する工程と、
前記二次検索結果を検索結果として出力する工程と、
を含むことを特徴とするデータ検索方法。 - 複数の画像データを含むマスタレコード中から、所望の画像データを検索するためのデータ検索方法であって、
予め、複数の画像データを含むマスタレコード中から、検索対象としたい画像データ及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行う際に、検索結果から除外したい画像データを特定するためのフィルタリング情報として、検索結果から除外したい画像データに関する基底キーワードに基づいて、サーバデータベース中から該基底キーワードに関連した情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象の情報に関する検索キーワードの入力を促す工程と、
前記サーバデータベースに対して、前記検索キーワードで検索を行い、一次検索結果を抽出する工程と、
前記一次検索結果に含まれる画像データの内、前記クライアントデータベース中に登録されている画像データを除外して二次検索結果を抽出する工程と、
前記二次検索結果を検索結果として出力する工程と、
を含むことを特徴とするデータ検索方法。 - 請求項16から19のいずれか一に記載のデータ検索方法であって、
前記クライアントデータベースが、請求項1から13のいずれに記載のクライアントデータベースであることを特徴とするデータ検索方法。 - 複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するデータ検索システムであって、
各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワードを設定するためのキーワード設定手段と、
複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、
前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び/又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、
前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索対象を表す基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を記録したクライアントデータベースと、
を備えることを特徴とするデータ検索システム。 - 複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングシステムであって、
各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定するためのキーワード設定手段と、
複数のデータを含むマスタレコードとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を、自動巡回により収集可能なデータ収集手段と、
前記データ収集手段とデータ通信可能な状態で接続されており、該データ収集手段で収集されたデータ及び/又は位置情報を、前記キーワードと関連付けて蓄積するためのサーバデータベースと、
前記サーバデータベースとデータ通信可能な状態で接続されており、前記キーワード設定手段で設定された検索除外を表す基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を記録したクライアントデータベースと、
を備えることを特徴とするデータ検索フィルタリングシステム。 - 複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築するプログラムであって、
検索対象を表す基底キーワードの入力を促す機能と、
前記サーバデータベース中から該基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を検索して抽出し、
抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、
該データ及び/又は位置情報、並びに基準値を前記クライアントデータベースに記録する機能と、
をコンピュータに実現させることを特徴とするクライアントデータベース構築プログラム。 - 複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索するためのデータ検索プログラムであって、
予め、複数のデータを含むマスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を収集してサーバデータベースを作成し、さらに前記サーバデータベースに対して検索を行うためのインデックス情報として、サーバデータベース中から検索対象のデータに関する情報を抽出して記録したクライアントデータベースを構築しておき、
検索対象を表す検索キーワードの入力を促す機能と、
前記クライアントデータベースに対して、前記検索キーワードで検索を行い、検索結果を抽出する機能と、
をコンピュータに実現させることを特徴とするデータ検索プログラム。 - 複数のデータを含むマスタレコード中から、検索対象としたい情報に関するキーワードを指定することで所望のデータを検索する際に、指定されたデータを検索結果から除外するデータ検索フィルタリングプログラムであって、
各種データベースを構築するためのキーワード、あるいは検索対象に関するキーワード、検索結果から除外する情報に関するキーワードを設定する機能と、
設定されたキーワードに基づいて、前記マスタレコード中から、検索対象としたい情報及び/又は該データの保存位置に関する情報を、自動巡回により収集する機能と、
必要に応じて、収集されたデータ及び/又は位置情報を、前記キーワードと関連付けてサーバデータベースに蓄積する機能と、
キーワード設定機能で設定された検索除外を表す基底キーワードを含むデータ及び/又は該データの保存位置に関する情報を、前記サーバデータベース中から検索して抽出し、抽出されたデータ及び/又は位置情報に対し、該基底キーワードの出現頻度に基づいて重み付けを行い、該重み付けに基づいてクライアントデータベース中から検索を行う際の基準値を抽出情報毎に設定し、該データ及び/又は位置情報、並びに基準値を記録したクライアントデータベースを構築する機能と、
をコンピュータに実現させることを特徴とするデータ検索フィルタリングプログラム。 - 請求項23から25のいずれか一に記載されるプログラムを格納したコンピュータで読み取り可能な記録媒体又は記録した機器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006071844A JP2007249584A (ja) | 2006-03-15 | 2006-03-15 | クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006071844A JP2007249584A (ja) | 2006-03-15 | 2006-03-15 | クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007249584A true JP2007249584A (ja) | 2007-09-27 |
Family
ID=38593812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006071844A Pending JP2007249584A (ja) | 2006-03-15 | 2006-03-15 | クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007249584A (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009096523A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
JP2009289245A (ja) * | 2008-05-27 | 2009-12-10 | Yahoo Japan Corp | メッセージ判定装置、方法及びプログラム |
JP2012094071A (ja) * | 2010-10-28 | 2012-05-17 | Nippon Telegr & Teleph Corp <Ntt> | フィルタリング方法、フィルタリングシステム及びフィルタリングプログラム |
JP2012118713A (ja) * | 2010-11-30 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | リスト生成方法、リスト生成装置及びリスト生成プログラム |
JP2012203454A (ja) * | 2011-03-23 | 2012-10-22 | Yahoo Japan Corp | レコメンドリスト生成装置 |
JP2013030179A (ja) * | 2012-09-20 | 2013-02-07 | Olympus Imaging Corp | 画像記憶検索システム |
JP6097429B1 (ja) * | 2016-03-31 | 2017-03-15 | 株式会社三菱総合研究所 | 情報抽出装置、情報抽出方法、およびプログラム |
US10210248B2 (en) | 2015-12-04 | 2019-02-19 | Fujitsu Limited | Computer-readable recording medium, display control method, and information processing device |
JP2019067194A (ja) * | 2017-10-02 | 2019-04-25 | Soinnホールディングス合同会社 | 自律学習装置、自律学習方法及びプログラム |
US10409847B2 (en) | 2015-12-04 | 2019-09-10 | Fujitsu Limited | Computer-readable recording medium, learning method, and mail server |
CN110457679A (zh) * | 2019-07-01 | 2019-11-15 | 深圳追一科技有限公司 | 用户画像的构建方法、装置、计算机设备和存储介质 |
JP2022522020A (ja) * | 2019-04-08 | 2022-04-13 | ドロップボックス, インコーポレイテッド | 意味画像検索 |
CN117633675A (zh) * | 2024-01-25 | 2024-03-01 | 成都无糖信息技术有限公司 | 一种基于模型级联的网络公害网站发现方法及系统 |
CN117633675B (en) * | 2024-01-25 | 2024-04-30 | 成都无糖信息技术有限公司 | Network pollution website discovery method and system based on model cascading |
-
2006
- 2006-03-15 JP JP2006071844A patent/JP2007249584A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2009096523A1 (ja) * | 2008-01-30 | 2011-05-26 | 日本電気株式会社 | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
WO2009096523A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
JP2009289245A (ja) * | 2008-05-27 | 2009-12-10 | Yahoo Japan Corp | メッセージ判定装置、方法及びプログラム |
JP2012094071A (ja) * | 2010-10-28 | 2012-05-17 | Nippon Telegr & Teleph Corp <Ntt> | フィルタリング方法、フィルタリングシステム及びフィルタリングプログラム |
JP2012118713A (ja) * | 2010-11-30 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | リスト生成方法、リスト生成装置及びリスト生成プログラム |
JP2012203454A (ja) * | 2011-03-23 | 2012-10-22 | Yahoo Japan Corp | レコメンドリスト生成装置 |
JP2013030179A (ja) * | 2012-09-20 | 2013-02-07 | Olympus Imaging Corp | 画像記憶検索システム |
US10210248B2 (en) | 2015-12-04 | 2019-02-19 | Fujitsu Limited | Computer-readable recording medium, display control method, and information processing device |
US10409847B2 (en) | 2015-12-04 | 2019-09-10 | Fujitsu Limited | Computer-readable recording medium, learning method, and mail server |
JP2017182544A (ja) * | 2016-03-31 | 2017-10-05 | 株式会社三菱総合研究所 | 情報抽出装置、情報抽出方法、およびプログラム |
JP6097429B1 (ja) * | 2016-03-31 | 2017-03-15 | 株式会社三菱総合研究所 | 情報抽出装置、情報抽出方法、およびプログラム |
JP2019067194A (ja) * | 2017-10-02 | 2019-04-25 | Soinnホールディングス合同会社 | 自律学習装置、自律学習方法及びプログラム |
JP2022522020A (ja) * | 2019-04-08 | 2022-04-13 | ドロップボックス, インコーポレイテッド | 意味画像検索 |
JP7180009B2 (ja) | 2019-04-08 | 2022-11-29 | ドロップボックス, インコーポレイテッド | 意味画像検索 |
CN110457679A (zh) * | 2019-07-01 | 2019-11-15 | 深圳追一科技有限公司 | 用户画像的构建方法、装置、计算机设备和存储介质 |
CN110457679B (zh) * | 2019-07-01 | 2023-11-28 | 深圳追一科技有限公司 | 用户画像的构建方法、装置、计算机设备和存储介质 |
CN117633675A (zh) * | 2024-01-25 | 2024-03-01 | 成都无糖信息技术有限公司 | 一种基于模型级联的网络公害网站发现方法及系统 |
CN117633675B (en) * | 2024-01-25 | 2024-04-30 | 成都无糖信息技术有限公司 | Network pollution website discovery method and system based on model cascading |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007249584A (ja) | クライアントデータベース構築方法、データ検索方法、データ検索システム、データ検索フィルタリングシステム、クライアントデータベース構築プログラム、データ検索プログラム、データ検索フィルタリングプログラム及びプログラムを格納したコンピュータで読み取り可能な記録媒体並びに記録した機器 | |
US8135739B2 (en) | Online relevance engine | |
US5625767A (en) | Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents | |
US20130110839A1 (en) | Constructing an analysis of a document | |
Huang et al. | Topic detection from large scale of microblog stream with high utility pattern clustering | |
KR101100830B1 (ko) | 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법 | |
US20110295857A1 (en) | System and method for aligning and indexing multilingual documents | |
JP2010055618A (ja) | トピックを基にした検索を提供する方法及びシステム | |
Yi et al. | Discovering users' specific geo intention in web search | |
CN101425071A (zh) | 位置描述检测装置、程序以及存储介质 | |
US20150206101A1 (en) | System for determining infringement of copyright based on the text reference point and method thereof | |
KR101543680B1 (ko) | 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법 | |
Dutta et al. | PNRank: Unsupervised ranking of person name entities from noisy OCR text | |
IL265851A (en) | Methods for automatically detecting content disputes | |
Bagdouri et al. | Profession-based person search in microblogs: Using seed sets to find journalists | |
CN103034657B (zh) | 文档摘要生成方法和装置 | |
Oliveira et al. | Automatic tag suggestion based on resource contents | |
JP4134975B2 (ja) | 話題文書提示方法及び装置及びプログラム | |
KR101363335B1 (ko) | 문서 분류모델 생성장치 및 방법 | |
JP5810937B2 (ja) | 管理プログラムおよび装置 | |
KR101057075B1 (ko) | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 | |
Jatowt et al. | Calculating content recency based on timestamped and non-timestamped sources for supporting page quality estimation | |
Li et al. | iTopic: Influential topic discovery from information networks via keyword query | |
Bashir et al. | Retrieval Models Versus Retrievability | |
KR20070057557A (ko) | 입력한 단어의 속성에 따른 키워드 검색 장치, 방법 및이를 구현할 수 있는 프로그램이 수록된 컴퓨터로 읽을 수있는 기록매체 |