JP2011043914A - ファイル検索システム - Google Patents

ファイル検索システム Download PDF

Info

Publication number
JP2011043914A
JP2011043914A JP2009190303A JP2009190303A JP2011043914A JP 2011043914 A JP2011043914 A JP 2011043914A JP 2009190303 A JP2009190303 A JP 2009190303A JP 2009190303 A JP2009190303 A JP 2009190303A JP 2011043914 A JP2011043914 A JP 2011043914A
Authority
JP
Japan
Prior art keywords
data
search
user
database
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009190303A
Other languages
English (en)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2009190303A priority Critical patent/JP2011043914A/ja
Publication of JP2011043914A publication Critical patent/JP2011043914A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザから検索条件を受け付けたときに、そのユーザが欲しい情報を的確に抽出することができるようにする。
【解決手段】ネットワークシステムSは、検索対象となる多数のファイルが蓄積されたデータベース10と、検索キーワードの入力をユーザから受け付ける端末装置30と、当該ユーザの行動履歴に関連して収集された行動履歴データが蓄積されたデータ蓄積部40と、データ蓄積部40にGPSデータ、写真データ、音声データ及びメールデータ等の行動履歴データを与える携帯電話機50と、端末装置30から与えられる検索キーワードと、前記行動履歴データとを統合して検索インデックスを作成し、データベース10に対して前記ファイルの検索処理を行う検索エンジン20と、を備える。
【選択図】図1

Description

本発明は、ユーザが通信ネットワークを利用して様々な情報を得ようとする場合に、当該ユーザの行動履歴を参照して最適な回答を得ることが出来るようにするファイル検索システムに関する。
一般にユーザが通信ネットワークを介して自分の欲する情報を取得しようとするとき、検索エンジンに検索キーワードを入力し、各種のファイルを蓄積しているデータベースに検索をかける。例えば、特定の場所において特定の種類の料理の食事ができる飲食店をサーチしようとする場合、「大阪 中華料理」というようなキーワードを検索エンジンに入力し、関連する情報ファイルを抽出している。
しかし、検索キーワードを適切に入力しないと、なかなか自分の欲する情報を速やかに入手することはできない。すなわち、上掲のような単純なキーワード検索、言わば思い付き検索では、多くの場合、自分の嗜好にマッチした飲食店を容易に探知することはできない。これは、検索者が想起できる検索キーワードには限界があることが大きな原因である。従って、ユーザは、本当に欲しい情報を入手するまでに、何度も検索キーワードを設定し直したり、検索でヒットしたファイルのページを何ページも捲ったりしなければならない不具合が度々発生する。
特許文献1には、上記の問題の解消のため、ユーザの嗜好情報、過去のサイトへのアクセス及び商品購入の履歴情報、及びユーザの生活スケジュール情報を予め登録しておき、そのユーザが検索を行うときに、上記の嗜好情報、履歴情報及び生活スケジュール情報に基づき選別された情報を提供することが開示されている。この手法では、嗜好情報や生活スケジュール情報をユーザが登録する必要がある。しかしながら、検索キーワードの入力と同様に、嗜好情報をユーザが的確に入力できないことが想定され、また嗜好や生活スケジュールはしばしば変わることがあり、的確な情報を常に提供することは困難であるという問題がある。
特開2002−216035号公報
本発明は上記の問題に鑑みてなされたもので、ユーザから検索条件を受け付けたときに、そのユーザが欲しい情報を的確に抽出することができるファイル検索システムを提供することを目的とする。
本発明の一の局面に係るファイル検索システムは、検索対象となる多数のファイルが蓄積された第1データベースと、前記検索処理を行わせる検索条件の入力をユーザから受け付ける入力手段と、前記ユーザの行動履歴に関連して収集された行動履歴データが蓄積された第2データベースと、前記入力手段から与えられる検索条件と、前記行動履歴データとを用いて検索インデックスを作成する検索インデックス作成手段と、前記データベースに対して前記検索インデックスを用いて前記ファイルの検索処理を行う検索手段と、を備えることを特徴とする(請求項1)。
上記構成によれば、第2データベースによりユーザの行動履歴データが収集され、検索処理の検索インデックスが、ユーザが現に入力した検索条件と、日々の行動履歴データとから作成される。従って、たとえば行動履歴データに基づき特定のキーワードに高い重み付け等を与えることで、そのユーザが欲しい情報を的確に抽出することができるようになる。
上記構成において、前記第2データベースに前記行動履歴データを与える携帯端末装置をさらに備えることが望ましい(請求項2)。この構成によれば、ユーザが携帯端末装置を用いて実行した各種の操作を、行動履歴データとして取得することが可能になり、ユーザに特段意識させることなく、行動履歴データの収集を容易に且つ的確に行うことができる。
上記構成において、複数のユーザが存在しユーザ毎に識別符号が割り当てられている場合において、前記第2データベースに前記行動履歴データが各識別符号に関連付けて蓄積され、前記入力手段は、ユーザから前記検索条件と共に前記識別符号の入力を受け付け、前記検索インデックス作成手段は、前記入力手段から与えられた前記識別符号に合致する識別符号に関連付けられた前記行動履歴データを前記第2データベースから抽出し、当該ユーザ用にカスタマイズされた検索インデックスを作成することが望ましい(請求項3)。この構成によれば、多数のユーザが存在する大規模なネットワーク上においても、行動履歴データの取得、及び検索インデックス作成における行動履歴データの適用を、前記識別符号に基づき確実に行うことができる。
上記構成において、前記携帯端末装置は、GPS機能、画像の撮像機能、電話機能及び電子メール機能のうちの少なくとも一つの機能を有し、前記第2データベースは、前記行動履歴データとして、前記GPS機能に基づいたGPSデータ、前記撮像機能に基づいた写真データ、前記電話機能に基づいた音声データ及び前記電子メール機能に基づいた文書データのうちの少なくとも一つを蓄積していることが望ましい(請求項4)。この構成によれば、GPSデータに基づきユーザの行動情報を、写真データに基づきユーザお気に入りの建物や状況に情報等を、また、音声データや文書データに基づきユーザの嗜好情報等を、行動履歴データとして取得することができる。
この場合、前記検索インデックス作成手段は、前記GPSデータ、前記写真データ、前記音声データ及び前記文書データのうちの少なくとも一つを解析してユーザの嗜好に関連する嗜好データを導出するデータ処理部を備えることが望ましい(請求項5)。この構成によれば、行動履歴データを嗜好データとして具体化するので、検索インデックス作成の際に処理を簡素化することができる。
本発明によれば、ユーザから検索条件を受け付けたときに、そのユーザが欲しい情報を的確に抽出することができるファイル検索システムを提供することができる。従って、通信ネットワークの利用性を一層向上させることができる。
本発明に係るファイル検索システムが適用されるネットワークシステムのハードウェア構成を概略的に示す構成図である。 データ蓄積部及び携帯電話機の機能構成を示すブロック図である。 検索エンジン及びデータ解析装置の機能構成を示すブロック図である。 ネットワークシステムによる文書インデックス作成のフローチャートである。 ネットワークシステムによる検索処理のフローチャートである。
以下、図面に基づいて本発明の実施形態につき詳細に説明する。
図1は、本発明のファイル検索システムが適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、インターネット上において利用可能なデータベース10(第1データベース)と、このデータベース10に対して所定の検索アルゴリズムを用いて検索処理を行う検索エンジン20(検索手段及び検索インデックス作成手段)と、ユーザが利用する端末装置30(入力手段)と、ユーザの行動履歴データを蓄積するデータ蓄積部40(第2データベース)と、各ユーザに保持されデータ蓄積部40に所定の行動履歴データを与える携帯電話機50(携帯端末装置)と、ユーザの嗜好に関連するテキストデータ(嗜好データ)を導出するデータ解析装置60(データ処理部/検索インデックス作成手段の一部)とが、インターネットINを介してデータ通信可能に接続されてなる。
データベース10は、インターネットに接続され、検索対象となる多数の文書ファイル(HTMLファイル等)や画像ファイル(JPEGファイル等)が大量に記憶されているデータベースである。ここでは簡略的に図示しているが、データベース10は各々ドメイン名を持つ多数のウエブサイトの集合を示している。このようなデータベース10としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。
検索エンジン20は、所定のパラメータを有する検索アルゴリズムが搭載され、データベース10に対し、端末装置30から与えられた検索条件に対応する文書ファイルの検索処理を行う。具体的には検索エンジン20は、データベース10に記憶されている検索対象の文書ファイル毎にキーワードや属性(メタデータ)を抽出して検索用の文書インデックス等を作成する。また、検索エンジン20は、ユーザが端末装置30から入力する検索条件をベースとして、データ解析装置60で生成される当該ユーザの嗜好データを用いて重み付け条件等を設定した検索インデックスを作成する。さらに検索エンジン20は、前記検索アルゴリズムを用いて、前記文書インデックスと前記検索インデックスとの照合処理を行い、合致度合いの高い文書ファイルを抽出する。このように嗜好データを加味することで、ユーザが検索キーワードの入力だけでは表現できない検索要求をアシストできるようになり、ユーザの潜在的要望に沿った検索処理が実現される。
端末装置30は、多数のユーザに各々保有されるパーソナルコンピュータ等の通信端末機31、32、33、34・・・である。端末装置30は、インターネットINを介して検索エンジン20及びデータベース10にアクセス可能とされている。例えば端末機31は、検索処理条件となるキーワードや文章(クエリ)を入力するためのキーボード311と、検索画面、ヒット文書のリスト、文書のコンテンツ等を表示するディスプレイ312と、ディスプレイ312上の表示画面に対してコマンド(文書の選択指示や選択終了指示等)を入力するためのマウス313を備えている。
各ユーザにはユーザID(識別符号)が割り当てられ、ユーザは各自の通信端末機31、32、33、34・・・のキーボード311を介して、検索エンジン20にユーザIDと共に検索条件を与え、その検索条件での検索処理によりヒットした文書ファイルのリストを取得する。さらにユーザは、前記リストの中から希望する文書ファイルを選択し、その文書ファイルの内容を自身のディスプレイ312で表示させることができる。
データ蓄積部40は、携帯電話機50を介して、各ユーザの行動履歴に関連する行動履歴データを取得してこれを蓄積するデータベースである。本実施形態では、行動履歴データとして、携帯電話機50の存在位置から取得されるGPSデータ、携帯電話機50から発信される写真データ、音声データ及びメールデータが用いられる例を示す。このデータ蓄積部40は、例えば携帯電話事業者が管理・運用するサーバ装置が備える記憶装置からなる。なお、上記のようなデータがデータ蓄積部40に蓄積されること、また、検索インデックスの作成の際に当該データが利用されることに関し、各ユーザが承諾しているものとする。
携帯電話機50は、検索エンジン20のユーザに保有される汎用の携帯電話機である。各携帯電話機50には、そのユーザが検索エンジン20にエントリーする際のユーザIDと同じユーザIDが割り当てられ、データ蓄積部40には行動履歴データが蓄積される際には、このユーザIDに関連付けて各データが蓄積される。
データ解析装置60は、データ蓄積部40に蓄積されている上記のGPSデータ、写真データ、音声データ及び文書データを解析して、ユーザの嗜好に関連するテキストデータを作成する。この蓄積データは、検索エンジン20において検索インデックスが作成される際に利用される。このデータ解析装置40の具体的構成については、後記で詳述する。
図2は、データ蓄積部40及び携帯電話機50の機能構成を示すブロック図である。携帯電話機50は、GPS受信機51(GPS機能)、撮像部52(撮像機能)、通話部53(電話機能)及び電子メール部54(電子メール機能)を備えている。また、データ蓄積部40には、GPSデータ記憶部41、写真データ記憶部42、音声データ記憶部43及びメールデータ記憶部44が備えられている。
GPS受信機51は、GPS衛星が発信するGPS信号及び携帯電話基地局が発信する衛星番号やドップラー周波数等のアシスト情報信号を受信する。携帯電話機50は、このアシスト情報を使用してGPS衛星を探索し、捕捉したGPS衛星のコード位相を測定し基地局(図示せず)に送る。基地局のGPS演算部では、このコード位相と自ら得た衛星軌道情報等を用いて携帯電話機50の存在位置を、緯度及び経度情報として求める。この緯度及び経度情報が、携帯電話機50の側から(実際は、上記の基地局のGPS演算部から)データ蓄積部40にGPSデータとして送信される。
該GPSデータは、ユーザID及び時刻情報に関連付けてGPSデータ記憶部41に蓄積される。かかるGPSデータは、当該ユーザが、どのようなエリアに、どのような時間帯に出入りしたかという行動履歴を知見するために活用される。例えば、GPSデータを解析することで、そのユーザの常勤の場所、たびたび出張するエリア、昼食時やアフターファイブに出入りするエリア及びその頻度、休日に訪れる場所等の情報を取得することができる。
撮像部52は、CCDやCMOS等の撮像素子と、この撮像素子の撮像面に被写体の光像を結像させる光学レンズとを含み、被写体の画像データを取得する機能部である。この画像データは、携帯電話機50に備えられている図略の画像メモリに画像ファイルとして記憶される。ユーザからの転送処理等により、前記画像ファイルが、携帯電話機50からデータ蓄積部40に写真データとして送信される。
該写真データは、ユーザIDに関連付けて写真データ記憶部42に蓄積される。一般にユーザは、自身が気に入った建物や風景、感銘を受けた場所等を撮影する傾向がある。例えば飲食店等では、食することを熱望していた料理、特に美味を感じた料理、或いは特に感銘を受けた店内のインテリアや装飾等を撮影することが多い。従って、写真データ解析することで、そのユーザの嗜好に関する情報を取得することができる。
通話部53は、マイクロフォン、スピーカ、増幅回路などを含み、交信先と音声による通信を行わせる。この通信は、携帯電話基地局を介して行われるが、この際にユーザが発声した音声データは、ユーザIDに関連付けて、リアルタイムで音声データ記憶部43に格納される。携帯電話機50を介して交わされる会話には、ユーザの嗜好に関連するキーワードがしばしば登場する。例えば、好みの食べ物や飲食店、スポーツ、趣味に関するキーワードである。従って、音声データを解析することで、そのユーザの嗜好に関するキーワード等を取得することができる。
電子メール部54は、いわゆる電子メールの機能を実行させる機能部であり、ユーザが携帯電話機50のキーボタンを使用して入力した文字・符号情報を、通信先に電送する。この電子メール通信は、携帯電話基地局を介して行われるが、この際にユーザのメールデータは、ユーザIDに関連付けて、リアルタイムでメールデータ記憶部44に格納される。この電子メール交信においても、ユーザの嗜好に関連するキーワードがしばしば登場する。従って、メールデータを解析することで、そのユーザの嗜好に関するキーワード等を取得することができる。
図3は、本実施形態に係るネットワークシステムSの機能構成(特に検索エンジン20及びデータ解析装置60の機能構成)を示すブロック図である。データベース10は、各種の文書ファイルが記憶された複数のウエブサイト(ウエブサーバ)11、12、13・・・を含む。検索エンジン20は、文書インデックス作成部21、検索インデックス作成部22、検索処理部23、検索アルゴリズム記憶部24及び検索キーワード解析部25を含む。データ解析装置60は、場所解析部61、写真データ解析部62及び文字データ解析部63を含む。
データ解析装置60の場所解析部61は、GPSデータ記憶部41に格納されているGPSデータを用いて、そのユーザの訪問先及びその訪問回数に関する第1テキストデータを作成する。場所解析部61は、住所テーブル611、住所変換部612、訪問回数カウント部613及び第1テキストデータ作成部614を備える。
住所テーブル611は、緯度及び経度情報と住所情報とを関連付けたテーブルを記憶する部位である。住所変換部612は、GPSデータが与えられたときに、住所テーブル611に格納されているデータに基づき、その緯度及び経度情報を住所(所在地)情報に変換する。これにより、ユーザの訪問先情報が取得される。訪問回数カウント部613は、前記訪問先情報を区分し、実質的に同じ訪問先が幾つ存在するかをカウントすることによって、訪問先毎に訪問回数を求める処理を行う。この際、それぞれの訪問先についての訪問時刻の情報も付加する。
第1テキストデータ作成部614は、訪問回数カウント部613により導出された訪問先及びその訪問回数情報に基づき、有意な訪問先を、一定の滞在期間を有するか否か等で判定して特定すると共に、その有意な訪問先への訪問回数及び訪問時間が紐付けされた第1テキストデータを生成する。
写真データ解析部62は、写真データ記憶部42に格納されている写真データから所定の画像情報を抽出し、この画像情報を所定の判別式に当て嵌めて写真を自動的に分類し、その分類に基づいた第2テキストデータを作成する。写真データ解析部62は、画像情報抽出部621、SVM(サポートベクターマシン)部622、判別部623及び第2テキストデータ作成部624を含む。
画像情報抽出部621は、前記写真データを画像解析し、写真画像の輪郭情報や色彩情報等を抽出する。このような画像情報の抽出のため、画像情報抽出部621は、例えばソーベルフィルタを用いたエッジ検出処理、ハフ変換投票による直線、円、楕円といったパラメトリックな図形の特徴抽出処理、輝度情報に基づいた色彩抽出処理等を利用する。
SVM部622は、機械学習を行うことで、写真データの種別を判別する線形な判別関数(判別式)を求める機能部である。この判別関数の導出のため、適当数の学習用サンプル写真データと、各々についてのラベル(分類)情報がSVM部622に与えられる。SVM部622は、各分類に属する写真データ同士のマージンが最大になる分離平面を求め、これらを区切る境目を学習することで、上記判別関数を導出する。例えば、建物の区分を学習させる場合は、ユーザは和様式、中華様式、洋風様式の建物をそれぞれ撮像した適当数の写真データに、各様式区分を付帯させてSVM部622に登録する。SVM部622は、これらに基づき、和様式、中華様式、洋風様式を判別する判別式を求める。この判別式は、以後に写真データ解析部62へ与えられる写真データの分類のために用いられる。なお、当該判別式は、適宜なタイミングで更新することが望ましい。
判別部623は、SVM部622で導出された判別式を用い、写真データ記憶部42から与えられる写真データを判別する処理を行う。第2テキストデータ作成部624は、判別部623での写真判別結果に基づき、どの分類に属する写真データが何枚存在したかを示す第2テキストデータを作成する。
文字データ解析部63は、音声データ記憶部43に格納されている音声データ、及びメールデータ記憶部44に格納されているメールデータから、そのユーザの嗜好に関連する第3テキストデータを作成する。文字データ解析部63は、音声−文字変換部631、辞書記憶部632、文書解析部633及び第3テキストデータ作成部634を含む。
音声−文字変換部631は、音声データ記憶部43から与えられる音声データを、テキスト文書データに変換する処理を行う。辞書記憶部632は、文書解析の際に参照される日本語辞書並びに同義語辞書(シソーラス)等を記憶する。
文書解析部633は、音声−文字変換部631により生成された音声データのテキスト文書データと、メールデータのテキスト文書データとに対し、辞書記憶部632の辞書データを参照して、正規化処理、形態素解析及び同義語処理などの文書解析処理を行う。かかる文書解析処理により、テキスト文書データから自立する単語(キーワード)が抽出される。
第3テキストデータ作成部634は、文書解析部633により抽出された単語のリスト、並びにその出現頻度を示す第3テキストデータを作成する。例えば、食べ物の嗜好に注目すれば、そのユーザが発信する電子メールや電話での会話中に、無意識に自分の好みの料理名、飲み物、飲食店に関連する単語がしばしば登場する。例えば、スパゲッティ、ピザ、ワイン等である。この場合、第3テキストデータ作成部634は、第3テキストデータとしてスパゲッティ、ピザ、ワインの類の単語リスト及びその出現頻度を表すデータを作成する。
検索エンジン20の文書インデックス作成部21は、データベース10に含まれる文書ファイルを検索させるための文書インデックスを作成する。文書インデックス作成部21は、複数のウエブサイト11、12、13・・・に各々存在する文書ファイルを統合・編集してデータを共通化し、これらの文書に対して、正規化処理、文書構造解析処理、同義語処理などを行う。正規化処理は、文書構造解析を正常に行い得るようにするために、解析対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。同義語処理は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用して、表現が異なる用語を単一の単語と扱うようにする処理である。かかる文書解析処理により、文書タイトルや著者、自立する単語(キーワード)が導出され、これらの単語等に基づいて、文書インデックスが作成される。
さらに文書インデックス作成部21は、文書ファイルに添付されている写真データに対し、SVM部622で導出された判別式を使用して、第2テキストデータ作成部624と同様な分類判別処理を行う。ここでは、分類に当て嵌まる写真データについては、当該写真分類に応じたテキストタグを付与し、判別式で判別出来ない写真データについてはスルーする。
検索インデックス作成部22は、端末装置30から与えられた検索条件(キーワードや質問文書)を文書解析して得られた検索キーワードのテキストデータと、データ解析装置60にて導出される行動履歴データ(第1、第2、第3テキストデータ作成部614、624、634で作成される第1、第2、第3テキストデータ)とを用いて、検索インデックスを作成する処理を行う。具体的には、あるユーザから与えられた検索キーワードに対して、当該ユーザの行動履歴データを統合して所定の重み付けを行い、当該ユーザ用にカスタマイズされた検索インデックスを作成する。このようなデータ統合は、検索したユーザのユーザIDを判読し、そのユーザIDにマッチするデータをデータ蓄積部40から抽出することで実行される。
例えばあるユーザが、検索エンジン20にアクセスし、端末装置30の入力部301から、検索キーワードとして「大阪市内 中華料理 ランチ」と入力したとする。ユーザが一般に想起する検索キーワードはこのレベルのブロードなものが多々あり、自身の嗜好を充分に反映した検索キーワードを設定することはなかなか困難である。従って、上記のような検索キーワードでそのまま検索処理を実行させても、ヒットするファイルは当該ユーザの要望を満たさない場合が多い。
そこで、本実施形態では、行動履歴データを用い、検索キーワード設定の不十分さを補うようにしている。例えば、検索を実行したユーザについて、GPSデータに基づいて第1テキストデータ作成部614が、ランチタイムに頻繁に訪問するエリアとして「中之島、心斎橋、日本橋」というデータを有し、写真データとして、どこかの店舗で撮影した「白が基調の店」という分類のデータを有し、頻繁に登場するメール(音声)データとして、「シュウマイ、餃子、杏仁豆腐」という単語が存在したとする。これらの行動履歴データは、検索処理を実行するときに本人は怏々として気付かないが、本人の好みにマッチした潜在的なキーワードであると評価することができる。
この例の場合、検索インデックス作成部22は、実際にユーザが入力した「大阪市内 中華料理 ランチ」という検索キーワードと、当該ユーザのユーザIDに関連付けて蓄積された行動履歴データから導出された「中之島、心斎橋、日本橋」という地理的な嗜好キーワード、「白が基調の店」という分類、及び「シュウマイ、餃子、杏仁豆腐」という内容的な嗜好キーワードとを統合して、検索インデックスを作成する。また、仮に「心斎橋」と「杏仁豆腐」の出現頻度が特に高いとすると、これらのキーワードについて高い重み付けを与えて検索インデックスが作成される。これにより、当該ユーザが好む可能性が高いコンテンツを含むファイルが上位にランクされる検索を実現することができる。
検索処理部23は、検索アルゴリズムを用いて、データベース10に対して文書ファイルの検索処理を行う。具体的には、検索インデックス作成部22によりユーザに応じてカスタマイズされた検索インデックスと前記文書インデックスとを照合し、この検索インデックスに対する類似度が高い文書ファイルを抽出する。
検索アルゴリズム記憶部24は、検索処理に用いられる検索アルゴリズムを記憶する。検索アルゴリズムは、例えばコサイン尺度、Dics係数、Jaccard係数、Tスコア、相互情報量、及びSimpson係数などのベクトル空間モデル、ブーリアンモデル、或いはパターンマッチング等から選ばれる。これらの検索アルゴリズムは各々計算式を有し、その計算式において種々のパラメータが設定される。
検索キーワード解析部25は、端末装置30から与えられるキーワードや検索文書を文書解析して、検索キーワードのテキストデータを作成する。例えば、検索条件が文書の形態で与えられた場合は、その文書内において自立する単語として抽出して、前記テキストデータを作成する。かかるテキストデータは、上記の検索インデックス作成部22に提供される。
端末装置30の入力部301は、ユーザから検索処理のためのクエリの入力を受け付ける部位であって、例えば図1に示すキーボード311である。
表示部302は、例えば図1に示すディスプレイ312であって、検索エンジン20のブラウジング画面(クエリ入力画面)、ヒット文書ファイルのリスト、及び前記リストから選択された文書ファイルの内容等を表示する。
操作部303は、例えば図1に示すマウス313であって、表示部302に表示された画像上の選択部、リンク部、タスクバー等に対して操作指示を与える。ユーザは、表示部302に表示されたヒット文書ファイルのリストのいずれかを選択しその内容を表示させる選択指示、及び、その表示を停止させる選択終了指示を、この操作部303を介して与える。
続いて、以上説明した本実施形態に係るネットワークシステムSの動作を、図4、図5に示すフローチャートに基づいて説明する。図4は、ネットワークシステムSによる文書インデックス作成のフローチャートである。文書インデックスは、データベース10に含まれる文書ファイルを対象として、検索エンジン20の文書インデックス作成部21により作成される。文書インデックス作成部21は、文書インデックスの作成タイミングであるか否かを確認する(ステップS1)。この作成タイミングは、例えば1日毎、或いは12時間毎である。
作成タイミングである場合(ステップS1でYES)、文書インデックス作成部21は、複数のウエブサイトに散在している文書ファイルを統合・編集してデータを共通化し(ステップS2)、文書解析に不要な文字、記号の削除等を行う正規化処理(ステップS3)を実行する。その後、文書インデックス作成部21は、ある一つの文書ファイルに対して、形態素解析を実施して文書から有意なキーワードを抽出し(ステップS4)、これらキーワードについて同義語処理を実行する(ステップS5)。
引き続き文書インデックス作成部21は、当該文書ファイルに画像データが含まれているか否かを確認する(ステップS6)。画像データ(写真データ)が含まれている場合(ステップS6でYES)、文書インデックス作成部21は、その写真データに対し、SVM部622で導出された判別式を使用して、いずれかの写真分類に当て嵌まるか否かを判別する(ステップS7)。もし当て嵌まる分類が存在するなら、その文書ファイルには当該写真分類に応じたテキストタグが付与される。写真データが含まれていない場合は(ステップS6でNO)、このステップS7はスキップされる。このようにして抽出されたキーワード及びテキストタグが、当該文書ファイルについての文書インデックスとして設定される(ステップS8)。同様の処理が、データベース10に含まれる他の文書ファイルについても実行される。
図5は、ネットワークシステムSによる検索処理のフローチャートである。検索エンジン20は、ユーザからのエントリーを待つ(ステップS11)。このエントリーとは、端末装置30からのユーザID(識別符号)を伴った検索エンジン20へのアクセスである。エントリーがあった場合(ステップS11でYES)、与えられたユーザIDが有効であるか否かが確認される(ステップS12)。ユーザIDが有効でない場合は(ステップS12でNO)、検索エンジン20は、エラーメッセージを端末装置30に送信し(ステップS13)、処理を終える。
ユーザIDが有効である場合(ステップS12でYES)、検索指示、つまり検索キーワードの入力を待つ(ステップS14)。単なるブラウジングのように検索指示の入力がない場合(ステップS14でNO)、端末装置30が終了処理を入力するか否かを待つ(ステップS15)。もし、終了処理が与えられた場合は(ステップS15でYES)、そのユーザについての処理は終えられることになる。
一方、検索キーワードや検索文書等の検索指示が入力された場合(ステップS14でYES)、検索キーワード解析部25により、その検索キーワード又は検索文書の正規化処理(ステップS16)、検索キーワードの形態素解析等の文書解析処理(ステップS17)、及び同義語処理(ステップS18)が実行される。これらの処理を経て、検索キーワードリストが作成される(ステップS19)。この検索キーワードリストは、検索インデックス作成部22に提供される。
検索インデックス作成部22は、検索指示を与えたユーザのユーザIDに関連付けられた行動履歴データがデータ蓄積部40に存在するか否か、つまり、検索インデックスを作成するに際しユーザが現に入力した検索キーワードに統合するテキストデータが存在するか否かを確認する(ステップS20)。統合すべきデータが存在する場合(ステップS20でYES)、検索インデックス作成部22は、前記検索キーワードリストと、GPSデータ、写真データ、音声データ及びメールデータの少なくとも一つから導出された嗜好データリストとを統合する処理を行い(ステップS21)、当該ユーザに応じてカスタマイズされた検索インデックスを作成する(ステップS22)。一方、統合すべきデータが存在しない場合は(ステップS20でNO)、ステップS21はスキップされ、検索キーワードリストのみの基づき検索インデックスが作成される。
その後、検索処理部23により検索処理が実行される。すなわち、前記検索インデックスと前記文書インデックスとが照合され、検索インデックスに対する類似度が高い文書ファイルが抽出される(ステップS23)。そして、検索結果が検索エンジン20から端末装置30の側へ出力され(ステップS24)、処理を終える。
以上説明した本実施形態に係るネットワークシステムSによれば、データ蓄積部40によりユーザの行動履歴データが収集され、検索処理の検索インデックスが、ユーザが現に端末装置30から入力した検索キーワードと、日々の行動履歴データとから作成される。従って、ユーザの潜在的ニーズを反映させた検索処理を行い、各ユーザが欲する情報を的確に得ることができるファイル検索システムを提供することができる。
S ネットワークシステムS(検索システム)
10 データベース(第1データベース)
20 検索エンジン(検索手段)
21 文書インデックス作成部
22 検索インデックス作成部(検索インデックス作成手段)
23 検索処理部
30 端末装置(入力手段)
40 データ蓄積部(第2データベース)
41 GPSデータ記憶部
42 写真データ記憶部
43 音声データ記憶部
44 メールデータ記憶部
50 携帯電話機(携帯端末装置)
60 データ解析装置(データ処理部/検索インデックス作成手段の一部)
61 場所解析部
62 写真データ解析部
63 文字データ解析部

Claims (5)

  1. 検索対象となる多数のファイルが蓄積された第1データベースと、
    前記検索処理を行わせる検索条件の入力をユーザから受け付ける入力手段と、
    前記ユーザの行動履歴に関連して収集された行動履歴データが蓄積された第2データベースと、
    前記入力手段から与えられる検索条件と、前記行動履歴データとを用いて検索インデックスを作成する検索インデックス作成手段と、
    前記データベースに対して前記検索インデックスを用いて前記ファイルの検索処理を行う検索手段と、
    を備えることを特徴とするファイル検索システム。
  2. 前記第2データベースに前記行動履歴データを与える携帯端末装置をさらに備えることを特徴とする請求項1に記載のファイル検索システム。
  3. 複数のユーザが存在しユーザ毎に識別符号が割り当てられている場合において、
    前記第2データベースに前記行動履歴データが各識別符号に関連付けて蓄積され、
    前記入力手段は、ユーザから前記検索条件と共に前記識別符号の入力を受け付け、
    前記検索インデックス作成手段は、前記入力手段から与えられた前記識別符号に合致する識別符号に関連付けられた前記行動履歴データを前記第2データベースから抽出し、当該ユーザ用にカスタマイズされた検索インデックスを作成することを特徴とする請求項1又は2に記載のファイル検索システム。
  4. 前記携帯端末装置は、GPS機能、画像の撮像機能、電話機能及び電子メール機能のうちの少なくとも一つの機能を有し、
    前記第2データベースは、前記行動履歴データとして、前記GPS機能に基づいたGPSデータ、前記撮像機能に基づいた写真データ、前記電話機能に基づいた音声データ及び前記電子メール機能に基づいた文書データのうちの少なくとも一つを蓄積していることを特徴とする請求項2又は3に記載のファイル検索システム。
  5. 前記検索インデックス作成手段は、前記GPSデータ、前記写真データ、前記音声データ及び前記文書データのうちの少なくとも一つを解析してユーザの嗜好に関連する嗜好データを導出するデータ処理部を備えることを特徴とする請求項4に記載のファイル検索システム。

JP2009190303A 2009-08-19 2009-08-19 ファイル検索システム Pending JP2011043914A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009190303A JP2011043914A (ja) 2009-08-19 2009-08-19 ファイル検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009190303A JP2011043914A (ja) 2009-08-19 2009-08-19 ファイル検索システム

Publications (1)

Publication Number Publication Date
JP2011043914A true JP2011043914A (ja) 2011-03-03

Family

ID=43831313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009190303A Pending JP2011043914A (ja) 2009-08-19 2009-08-19 ファイル検索システム

Country Status (1)

Country Link
JP (1) JP2011043914A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037498A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 情報処理装置及び情報処理方法
JP2014006669A (ja) * 2012-06-22 2014-01-16 Sharp Corp 推奨コンテンツ通知システム、その制御方法および制御プログラム、ならびに記録媒体
JP2015207322A (ja) * 2015-08-19 2015-11-19 株式会社ぐるなび サーバ装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037498A (ja) * 2011-08-05 2013-02-21 Toshiba Corp 情報処理装置及び情報処理方法
JP2014006669A (ja) * 2012-06-22 2014-01-16 Sharp Corp 推奨コンテンツ通知システム、その制御方法および制御プログラム、ならびに記録媒体
JP2015207322A (ja) * 2015-08-19 2015-11-19 株式会社ぐるなび サーバ装置

Similar Documents

Publication Publication Date Title
US9411827B1 (en) Providing images of named resources in response to a search query
CA2727537C (en) System and method for compending blogs
WO2020140360A1 (zh) 基于剪贴板进行信息推送的方法、系统及终端设备
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
US10956948B2 (en) System and method for hotel discovery and generating generalized reviews
US20050234851A1 (en) Automatic modification of web pages
JP5444115B2 (ja) データ検索装置、データ検索方法及びプログラム
CN107958042B (zh) 一种目标专题的推送方法及移动终端
US20110106805A1 (en) Method and system for searching multilingual documents
CN109614504A (zh) 一种互联网电子书的管理系统及方法
JP2008529179A (ja) 自然言語によってモバイル情報にアクセスするための方法及び装置
KR20170131924A (ko) 이미지 검색 방법, 장치 및 컴퓨터 프로그램
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
KR20130083703A (ko) 이동 단말기의 위치 로그 기반의 개인화된 여행지 컨텐츠 검색 방법 및 이를 수행하는 여행지 컨텐츠 검색 시스템
CN107992563B (zh) 一种用户浏览内容的推荐方法及系统
US7917520B2 (en) Pre-cognitive delivery of in-context related information
KR20070082075A (ko) 질의어 및 콘텐츠 분류 기반 템플릿을 이용한 검색결과제공방법 및 그 장치
JP2011043914A (ja) ファイル検索システム
KR100900467B1 (ko) 개인 미디어 검색 서비스 시스템 및 방법
KR101776806B1 (ko) 문맥기반 키워드 검색 방법 및 시스템
KR20070052027A (ko) 입력한 단어의 우선 순위 설정에 따른 키워드 검색 장치,방법 및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로읽을 수 있는 기록매체
KR101319024B1 (ko) 이동 단말기를 이용한 개인화된 컨텐츠 검색 방법 및 이를 수행하는 컨텐츠 검색 시스템
Divya et al. Onto-search: An ontology based personalized mobile search engine
KR101756738B1 (ko) 메시지 기반 관련 앱 제공 방법 및 그 장치
JP2004287696A (ja) 検索システム及び検索プログラム