以下,本発明の好適な実施の形態について,添付図面を参照しながら詳細に説明する。なお,以下の説明及び添付図面において,略同一の機能及び構成を有する構成要素については,同一符号を付することにより,重複説明を省略する。
まず,図1を参照しながら,本実施の形態にかかる情報提供システム100について説明する。図1は,本実施の形態にかかる情報システムの概略的な構成を示すブロック図である。
図1に示すように,インターネットなどのネットワーク103を介して,利用者端末101(101a,101b,…,101n)と,メタデータアグリゲーションサーバ(メタデータ収集解析サーバ)104と,Webサーバ105(105a,105b,…,105n)とが接続されている。利用者端末101は,メタデータアグリゲーションサーバ104から利用者のニーズに適合する情報や,その情報に類似する関連情報等の提供を受けることができる。
メタデータアグリゲーションサーバ104は,ネットワーク103を介してWebサーバ105が保有するネット上の構造化された文書データからメタデータを収集し,そのメタデータを解析し,複数のメタデータ間の類似性を判断し,関連付け,関連情報を画面に表示するためのビューデータを生成する。利用者端末101は,そのビューデータを受信することで,画面に関連情報等の有益な情報を表示することができる。なお,上記ビューデータは,利用者端末101の画面上に関連情報等を表示するための画面表示データであるが,詳細については後述する。
また,本実施の形態にかかる構造化された文書データは,ネット上のWebサーバ105等に格納される場合を例に挙げて説明するが,かかる例に限定されず,例えば,文書データは,利用者端末101が保有する文書データの場合等でもよい。
また,本実施の形態にかかる構造化された文書データは,例えば,XML(eXtensible Markup Language),RSS(Rich Site Summary),またはRDF(Resource Description Framework)によって作成されたデータであるが,かかる例に限定されない。
また,本実施の形態にかかるメタデータアグリゲーションサーバ104は,ネットワーク103に1台接続する場合を例に挙げて説明するが,かかる例に限定されず,例えば,さらにもう1台備え,本番系と待機系など2系統のメタデータアグリゲーションサーバ104がネットワーク103と接続する場合でも実施可能である。
上記Webサーバ105は,XML等で作成された文書データとともに,画像データや,音声データ等を提供し,利用者が画面を通じて様々な情報を閲覧する閲覧サービスを提供するサーバである。利用者端末101からWeb画面の要求があると,Webサーバ105aは,指定された文書データや,動画像データ,または音声データなどを利用者端末101に送信する。
ここで図1に示す利用者端末101は,ネットワーク103を介してメタデータアグリゲーションサーバ104にアクセス可能な情報処理装置であり,メタデータアグリゲーションサーバ104から送信されるビューデータを受信し,そのデータを画面に表示する機能(Webブラウザ機能等)を有する。より具体的には,利用者端末101は,例えば,パーソナルコンピュータ(PC)等のコンピュータ装置(ノート型,デスクトップ型を問わない。)である。
なお,本実施の形態においてアクセスは,例えば,利用者端末101による情報提供システム100の利用,利用者端末101からメタデータアグリゲーションサーバ104への接続またはデータ送信,メタデータアグリゲーションサーバ104からWebサーバ105に対するデータの参照,取得,または保存,さらにはメタデータアグリゲーションサーバ104から利用者端末101に対するデータの参照,取得,または保存などの情報処理を総称していう。
なお,本実施の形態にかかる利用者端末101はコンピュータ装置の場合を例に挙げて説明するが,かかる例に限定されず,例えば,利用者端末101は,ネットワーク103を介して外部と通信可能であって,ビューデータを画面に表示可能であれば,かかる例に限定されない。例えば,利用者端末101は,PDA(Personal Digital Assistant),デジタルカメラ若しくはビデオレコーダ等の撮像装置,家庭用ゲーム機,VTR,CD若しくはDVDレコーダ/プレーヤ,ラジオ装置,携帯電話,PHS,TV(TeleVison),情報家電などの場合でもよい。
また,本実施の形態にかかる利用者端末101は,メタデータアグリゲーションサーバ104にアクセスし,事業者ポリシーデータ(広告類似ルール)を設定することもできる。なお,事業者ポリシーデータを設定する場合,利用者端末101を操作するユーザは,情報提供事業者(広告事業者),または情報提供事業者を代行する第三者(代行事業者)などに限られる。
また,図1に示すネットワーク103は,利用者端末101と,メタアグリゲーションサーバ104と,Webサーバ105とを相互に双方向通信可能に接続するものであり,典型的にはADSL(Asymmetric Digital Subscriber Line)またはFTTH(Fiber To The Home)などそれに類する方法で接続するインターネットなどの公衆回線網であるが,WAN,LAN,IP−VPNなどの閉鎖回線網も含む。また接続媒体は,FDDI(Fiber Distributed Data Interface)などによる光ファイバケーブル,Ethernetによる同軸ケーブル又はツイストペアケーブル,もしくはIEEE802.11bなどによる無線など,有線無線を問わず,衛星通信網なども含む。
次に,図2を参照しながら,本実施形態にかかる利用者端末101の構成について詳細に説明する。なお,図2は,本実施の形態にかかる利用者端末101の構成を概略的に示すブロック図である。
図2に示すように,利用者端末101は,例えば,CPU112と,メモリ114と,入力部116と,表示部118と,通信部120と,閲覧部122と,ストレージ装置(または,記憶装置)124とを備える。
CPU112は,演算処理装置および制御装置として機能し,利用者端末101内の各部の処理を制御することができる。
メモリ114は,例えば,RAM,ROM,キャッシュメモリなどで構成されており,CPU112の処理に関する各種データ,ビューデータを表示するためのソフトウェア等を一時的に記憶する機能を有する。
入力部116は,例えば,マウス,キーボード,タッチパネル,ボタン,スイッチ,レバー等の操作手段と,入力信号を生成してCPU112に出力する入力制御回路などから構成されている。利用者端末101のユーザは,この入力部116を操作することにより,利用者端末101に対して各種のデータを入力したり処理動作を指示したりすることができる。
表示部118は,例えば,CRTディスプレイ装置,液晶ディスプレイ(LCD)装置,ランプ等の表示装置や,スピーカ等の音声出力装置などで構成される。この表示部118は,閲覧部122で文字,図形,動画像,または静止画像などのレイアウトが校正されたWebページデータを表示することができる。
通信部120は,例えば,通信回線,通信回路,通信デバイス等で構成された通信インタフェースである。この通信部120は,ネット上のメタデータアグリゲーションサーバ104との間で,ネットワーク103を介して,ビューデータなどを受信したり,ビューデータを要求するための要求データ等の各種データを送信することができる。
閲覧部122は,メタデータアグリゲーションサーバ104に対してビューデータを要求する。また閲覧部122は,メタデータアグリゲーションサーバ104から送信されたビューデータの内容に応じて,そのビューデータに含まれる情報を画面上に表示するため所定の位置に配置する。
なお,本実施の形態にかかる閲覧部122は,ビューデータを要求し,表示する場合に限定されず,例えば,閲覧部122は,Webサーバ105に対してWebデータを要求する,または閲覧部122は,Webデータの内容に応じて,そのWebデータに含まれる文字の書式や,画像のサイズや,その画像の配置される位置など画面上に表示する画面レイアウト等を編集等する場合も実施可能である。
なお,本実施の形態にかかる閲覧部122は,ハードウェアから構成される場合を例に挙げて説明するが,かかる例に限定されず,ビューデータを編集し,その編集したビューデータを表示部118に表示することが可能であれば,かかる例に限定されず,例えば,1又は2以上のモジュールまたはコンポーネントから構成されるプログラム等の場合であってもよい。
ストレージ装置124は,例えば,ハードディスクドライブ,フラッシュメモリ等で構成されたデータ格納用の装置であり,プログラム,ビューデータなどの各種データを格納することができる。
次に,図3を参照しながら,本実施形態にかかるメタデータアグリゲーションサーバ104について詳細に説明する。なお,図3は,本実施形態にかかるメタデータアグリゲーションサーバの構成を概略的に示すブロック図である。
図3に示すように,メタデータアグリゲーションサーバ104は,例えば,事業者ポリシー処理部201と,事業者ポリシーデータベース202と,関連メタデータデータベース(関連メタデータベース)203と,ユーザアクションログデータベース204と,ユーザアクセスログ収集部205と,メタデータ解析部206と,メタデータ関連化処理部(類似判断部,関連メタデータ取得部)207と,ユーザアクセスログ処理部208と,メタデータ収集部209と,メタデータデータベース(メタデータベース)210と,コンテンツジェネレータ部(ビューデータ生成部又はメタデータ検索部)211とを備える。なお,以下データベースについては,DBと記載する。
また,図3に図示されていないが,メタデータアグリゲーションサーバ104は,各部の処理を制御等するCPUと,メモリと,入力部と,データを送受信する通信部と,ストレージ装置とを備えている。上記ストレージ装置に事業者ポリシーDB202,メタデータDB210,関連メタデータDB203,およびユーザアクションログDB204等の各種DBや,各種データ等を記憶している。
メタデータ収集部209は,Webサーバ105等の外部サーバに公開されているXML等で作成された文書データからメタデータを収集し,メタデータDB210に格納する。メタデータ解析部206は,メタデータDB210に格納されたメタデータを解析する。
メタデータ関連化処理部207は,メタデータDB210に格納されたメタデータと,メタデータ解析部206で解析されることで,生成された解析情報(重要度情報,位置特定情報,時間情報)をもとに,メタデータ間の類似性を判断し,さらにメタデータ間を関連付け,関連メタデータDBに格納する。
さらに,メタデータ関連化処理部207は,抽出設定ファイルを参照することで抽出パラメータ値を取得し,その抽出パラメータ値に従って,類似性が判断されたメタデータのうち最も類似度の高いメタデータを取得し,そのメタデータを関連メタデータDB203に格納すること等も可能である。なお詳細については,3軸類似性処理で後程説明する。
また,メタデータ関連化処理部207は事業者ポリシーDB202に格納された事業者ポリシーデータと,ユーザアクションログDB204に格納された検索履歴情報,アクセス履歴情報,または遷移履歴情報から求められた類似度重み付け情報を参照し,メタデータ間の類似性を判断する。事業者のポリシーや利用者のアクセス状況による嗜好性が,メタデータ間の類似性の判断に反映される。
事業者ポリシー処理部201は,広告事業者が操作する利用者端末101から広告を提供する際の事業者ポリシーデータの生成指示を受けて,事業者ポリシーデータを事業者ポリシーDB202に格納する。
ユーザアクセスログ収集部205は,利用者端末101からメタデータアグリゲーションサーバ104に対するアクセスログを収集し,アクセスログから各ユーザの検索履歴情報,アクセス履歴情報,遷移履歴情報をユーザアクションログDB204に格納する。
ユーザアクセスログ処理部208は,ユーザアクションログDB204に格納された検索履歴情報,アクセス履歴情報,または遷移履歴情報から,メタデータの類似性の類似重み付け情報を求め,ユーザアクションログDB204に格納する。
コンテンツジェネレータ部211は,関連メタデータDB203とメタデータDB210とからメタデータを含んだメタデータファイルを集め,利用者端末101の画面に表示させるためのView(ビュー)データを生成する。ビューデータは,表示画面用のデータであり,例えば,テキスト,静止画,動画,または音声のうち少なくとも一つを組み合わせたデータである。画面に表示されるビューデータについての詳細は後述する。
次に,図4,図5,図7,および図8を参照しながら,本実施の形態にかかるデータベースのデータ構造について説明する。図4は,本実施の形態にかかるメタデータDBの概略を示す説明図であり,図5は,本実施の形態にかかる関連メタデータDBの概略を示す説明図であり,図7は,本実施の形態にかかるユーザアクションログDBの概略を示す説明図であり,図8は,本実施の形態にかかる事業者ポリシーDBの概略を示す説明図である。
図4に示すように,メタデータDB210は,メタデータアグリゲーションサーバ104に備わるストレージ装置(図示せず。)に記憶されており,メタデータテーブル302と,解析情報テーブル303とから少なくとも構成されている。
メタデータテーブル302には,メタデータ収集部209によって文書データから収集された1又は2以上のメタデータが格納されている。例えば,図4に示すようにニュースデータや,イベントデータ,さらには個人の住所や連絡先等が含まれた個人プロファイルデータ(図示せず。)などに関するメタデータがメタデータテーブル302に格納されている。
メタデータテーブル302に格納されたメタデータ群は,図4に示すようにタイトル,リンク先の情報,概要,発効日などの情報を例示することができる。また,文書データがパース処理され,各メタデータがメタデータテーブル302に格納される際に,メタデータの識別子が割当てられる。なお,図4に示すように,識別子は,イベント又はニュース等が共通するメタデータ群(アイテム,メタデータファイル)単位に割当てられているが,かかる例に限定されず,各メタデータごとに識別子が割当てられても良い。
また,パース処理(S105)で実施場所などの位置を示すメタデータが抽出された場合,位置特定情報を生成するために,メタデータテーブル302のうちメタデータ位置情報L(j)に格納され(S106),さらに作成時間,開始時間などの時間に関するメタデータの場合は,時間情報を生成するために,メタデータテーブル302のメタデータ時間情報T(j)に格納される(S106)。それ以外のメタデータは,メタデータサマリーI(j)に格納される(S106)。
解析情報テーブル303には,メタデータテーブル302に格納されたメタデータをメタデータ解析部206が解析し,生成される解析情報(重要度情報,位置特定情報,時間情報)がメタデータの識別子ごとに格納されている。
例えば,図4の解析情報テーブル303に示すように,形態素解析により抽出される意味を有する各単語(特徴語)を,TF/IDF法等で生成された各特徴語の重要度情報と,その特徴語が格納されている。例えばRSSの場合,メタデータである「Title」および「Description」をあわせて一つの文章とみなし,その文章に対してTF/IDF法を用いて各特徴語の重要度を計算する。さらに,メタデータに住所など位置を特定可能な文字列が含まれている場合,その住所などの情報から,緯度・経度を割り出し,位置特定情報として緯度・経度情報が格納されている。もしくは,メタデータとして指定されたイメージファイル(画像ファイル)がJPEG(Joint Photographic Experts Group)などの場合で,そのJPEG等の画像ファイルのなかにEXIF(EXchange Image File format)形式で位置情報(緯度・経度)等が格納されている場合,その位置情報等を使用する。なお,メタデータテーブル302に格納されたメタデータと関連付けるために解析情報テーブル303にメタデータの識別子をさらに格納しても良い。
次に,図5に示すように,本実施の形態にかかる関連メタデータDB203は,意味類似度テーブル402と,時間類似度テーブル403と,位置類似度テーブル404と,3軸類似度テーブル405とを有する。
意味類似度テーブル402には,メタデータの識別子と,そのメタデータと意味的に類似する類似メタデータ(関連メタデータ)の識別子と,当該メタデータと関連メタデータ間の類似度(意味類似度情報)と,関連する広告が存在する場合はその広告のID(関連広告ID)とが格納されている。なお,上記メタデータの識別子と類似メタデータの識別子との関係は1対Nであり,上記メタデータの識別子と関連広告IDとの関係は1対Nである。
上記メタデータ間の意味類似度情報は,メタデータ関連化処理部207によって,空間ベクトル法などの判断方法でメタデータ間の内容の意味的な類似度が判断され,その判断結果,判断対象となったメタデータと関連メタデータの識別子とともに,意味類似度情報が格納される。例えば,RSSの各Item間の意味的な類似度を,空間ベクトル法で文章(「Title」+「Description」)間の類似度として計算し算出する。算出した結果,意味的類似度が,例えば0.3以上のものを抽出し,意味類似度テーブル402に格納すると,図6の図示の通りになる。なお,図6は,本実施の形態にかかる意味類似度テーブルの概略的な構成の一例を示す説明図である。
図6に示すように,意味類似度テーブル402は,意味的な類似度が判断される双方のメタデータの識別子(「オリジナルItemID」および「意味関連ItemID」)と,「類似度」と,双方のメタデータの類似度の算出に特に寄与した「特徴語」とから構成されるが,かかる例に限定されない。
図6に示す意味類似度テーブル402では,意味的類似度が最も高いメタデータの組合せは,「オリジナルItemID」が「47508」のメタデータと,「意味関連ItemID」が「51054」のメタデータであり,その場合の「類似度」は「0.470649」である。
メタデータ関連化処理部207は,さらに上記と同様な判断手法で後述する事業者ポリシーテーブルを参照し,メタデータと広告との間の類似度を判断し,類似度の高い関連する広告が存在する場合,その広告ID(関連広告ID)を意味類似度テーブルに格納する。
次に,時間類似度テーブル403には,メタデータの識別子と,そのメタデータと時間的に類似する類似メタデータ(関連メタデータ)の識別子と,当該メタデータと関連メタデータ間の類似度(時間類似度情報)と,関連する広告が存在する場合はその広告のID(関連広告ID)とが格納されている。なお,上記メタデータの識別子と類似メタデータの識別子との関係は1対Nであり,上記メタデータの識別子と関連広告IDとの関係は1対Nである。
上記メタデータ間の時間類似度情報は,メタデータ関連化処理部207によって,後述する時間類似度判断テーブルを参照することで,メタデータ間の時間的な類似度が判断され,その判断結果,判断対象となったメタデータと関連メタデータの識別子とともに,時間類似度情報が格納される。
メタデータ関連化処理部207は,さらに上記と同様な判断手法で後述する事業者ポリシーテーブルを参照し,メタデータと広告との間の時間的な類似度を判断し,類似度の高い関連する広告が存在する場合,その広告ID(関連広告ID)を時間類似度テーブルに格納する。
次に,位置類似度テーブル404には,メタデータの識別子と,そのメタデータと位置的に類似する類似メタデータ(関連メタデータ)の識別子と,当該メタデータと関連メタデータ間の類似度(位置類似度情報)と,関連する広告が存在する場合はその広告のID(関連広告ID)とが格納されている。なお,上記メタデータの識別子と類似メタデータの識別子との関係は1対Nであり,上記メタデータの識別子と関連広告IDとの関係は1対Nである。
上記メタデータ間の時間類似度情報は,メタデータ関連化処理部207によって,上述の解析情報テーブルテーブル303に格納された緯度・経度情報に基づきメタデータ間の物理的距離を求めることで,メタデータ間の位置的な類似度が判断され,その結果,判断対象となったメタデータと関連メタデータの識別子とともに,位置類似度情報が格納される。
メタデータ関連化処理部207は,さらに上記と同様な判断手法で後述する事業者ポリシーテーブルを参照し,メタデータと広告との間の位置的な類似度を判断し,類似度の高い関連する広告が存在する場合,その広告ID(関連広告ID)を位置類似度テーブルに格納する。
次に,3軸類似度テーブル404には,メタデータの識別子と,そのメタデータと位置的に類似する類似メタデータ(関連メタデータ)の識別子と,関連する広告が存在する場合はその広告のID(関連広告ID)とが格納されている。なお,上記メタデータの識別子と類似メタデータの識別子との関係は1対Nであり,上記メタデータの識別子と関連広告IDとの関係は1対Nである。
上記3軸類似度テーブル404に格納される上記メタデータと類似メタデータの識別子は,メタデータ関連化処理部207によって,上記意味類似度,時間類似度,および位置類似度が所定値以上であるメタデータのみが抽出されたものである。なお,上記抽出されるメタデータのうち最も類似度が高いメタデータのみ関連メタデータDB203に格納される場合でもよく,最も類似度が高いメタデータが複数の場合は,複数のメタデータが格納される。上記所定値は,利用者端末101から動的にパラメータとして渡される場合でもよく,予めメタデータアグリゲーションサーバ104に各利用者ごとにパラメータが登録される場合でもよい。
メタデータ関連化処理部207は,さらに上記と同様な判断手法で後述する事業者ポリシーテーブルを参照し,メタデータと広告との間が3軸の尺度(意味類似度,時間類似度,および位置類似度)で所定値以上の類似度を有する広告情報を抽出し,その広告のIDを関連広告IDとして3軸類似度テーブル405に格納する。
なお,図5に示す意味類似度テーブル402,時間類似度テーブル403,位置類似度テーブル404,および3軸類似度テーブル405には,メタデータと関連メタデータの識別子が格納される場合を例に挙げて説明したが,かかる例に限定されず,例えば,メタデータと関連メタデータ自体が格納される場合でも実施可能である。
次に,図7に示すように,本実施の形態にかかるユーザアクションログDB204は,重み付けパラメータテーブル502と,情報遷移テーブル503と,検索ログテーブル504とを有する。
上記重み付けパラメータテーブル502には,収集されたメタデータから形態素解析等によって抽出された単語の重要度を求める際の重み付けのパラメータとなる重要度重み付けパラメータと,メタデータ間の類似度を判断する際の重み付けのパラメータとなる類似度重み付けパラメータとが格納されている。
重要度重み付けパラメータは,重み付け対象となるメタデータの識別子と,そのメタデータに含まれる単語(キーワード)と,重み付けパラメータ値となる重要度ポイントとから少なくとも構成される。
また,上記類似度重み付けパラメータは,重み付け対象となるメタデータ間の識別子(メタデータの識別子と,そのメタデータに類似する関連メタデータの識別子)と,類似度を判断する際の重み付けのパラメータ値となる関連度ポイントとから少なくとも構成される。
次に,上記情報遷移テーブル503には,メタデータの識別子と,そのメタデータに関連する関連メタデータの識別子と,上記メタデータが表示された画面から上記関連メタデータが表示された画面に遷移した回数を示す遷移数とが,各メタデータごとに格納される。なお,上記遷移数は,例えば利用者による入力部116の操作によって,メタデータアグリゲーションサーバ104又はWebサーバ105に別のメタデータが表示された画面を要求するためアクセスし,別の画面に切換えた回数の総和である。利用者端末101が蓄積するユーザアクセスデータから遷移数が求められる。
検索ログテーブル504には,検索されたメタデータの識別子と,検索時に指定されたキーワード(検索キーワード)と,検索されたメタデータにアクセスした回数(アクセス数)とが,各メタデータごとに格納されている。
次に,図8に示すように,本実施の形態にかかる事業者ポリシーDB202には,事業者情報テーブル602と,事業者広告情報テーブル603と,事業者広告ポリシーテーブル604とが格納されている。
上記事業者情報テーブル602には,事業者に関する情報(事業者情報)が格納されており,例えば,事業者情報テーブル602には,図8に示すように,事業者名と,事業者IDと,事業者URLとが格納されている。なお,事業者情報テーブル602に格納される情報は,かかる例に限定されない。
また,上記事業者IDが付与された事業者に対してのみ利用者端末101を利用し,事業者ポリシーDB202に格納された各種情報テーブルの内容を設定/更新等するアクセス権が与えられる。なお,上記事業者IDを複数割当て,事業者を代行する第三者に上記アクセス権を付与する場合でも実施可能である。
上記事業者広告情報テーブル603には,事業者が配信する広告に関する情報(広告情報)が格納されており,例えば,事業者広告情報テーブル603には,図8に示すように,事業者IDと,広告情報を識別する広告IDと,広告のタイトルと,リンク先を示すリンクと,広告の概要を示すサマリーと,広告のカテゴリーとが格納されている。
上記事業者広告ポリシーテーブル604には,事業者が広告をメタデータに関連付けて配信する際のルールや条件等を定めるためのポリシー情報が格納されている。例えば,事業者広告ポリシーテーブル604には,図8に示すように,広告IDと,カテゴリーと,メタデータと広告とを意味的に関連付けるキーワードが設定される関連キーワードと,メタデータと広告とを時間的に関連付ける時間が設定される関連時間と,メタデータと広告とを位置的に関連付ける緯度・経度等が設定される関連場所と,メタデータと広告を事業者で関連付けるための事業者名が設定される関連事業者とが格納されている。
なお,本実施の形態にかかる事業者広告ポリシーテーブル604には,広告情報をメタデータに関連付ける際の条件(関連キーワード,関連時間,関連場所,関連事業者)等が格納される場合を例に挙げて説明したが,かかる例に限定されず,例えば,広告情報をメタデータに関連付けない条件(非関連キーワード,非関連時間,非関連場所,非関連事業者)等が格納される場合であっても実施可能である。
次に,図9を参照しながら,本実施の形態にかかるメタデータの収集処理について説明する。図9は,本実施の形態にかかるメタデータ収集処理の概略を示すフローチャートである。
図9に示すように,本実施の形態にかかるメタデータ収集処理は,まず,メタデータ収集部209は,メタデータを収集する収集先がリストアップされたメタデータ収集先URLリストを参照(S101)し,次にメタデータを収集する収集先のURLを取得する。なお,収集先としては,例えば,Webサーバ105等を例示することができる。なお,上記収集先を示すものとして,URLの場合を例に挙げて説明するが,かかる例に限定されない。
次に,メタデータ収集部209は,上記URLに基づき,Webサーバ105等の収集先にアクセスし,構造化された文書データを要求する。収集先から文書データを受信すると,文書データのうちニュースや,ブログ(WebLog)の概要等のメタデータファイルが含まれる場合,そのメタデータファイルを収集する(S103)。なお,ブログは,継続して更新され続けるWebページのことである。
次に,メタデータ収集部209は,収集したメタデータファイルが新規に作成されたファイルまたは更新されたファイルであるかを判断し,新規又は更新されたメタデータファイルである場合(S104),メタデータ収集部209は,メタデータファイル内に埋め込まれたタグ等に基づき,そのメタデータファイルをパース処理(S105)することで,例えば,タイトルや,カテゴリーなど,1又は2以上のメタデータを抽出し,メタデータDB210に格納する(S106)。
次に,図10を参照しながら,本実施の形態にかかるメタデータを解析するメタデータ解析処理について説明する。図10は,本実施の形態にかかるメタデータ解析処理の概略を示すフローチャートである。
図10に示すように,まず,メタデータ解析部206は,メタデータDB210からメタデータ(又は,メタデータサマリーI(j))とメタデータ内の位置を示す位置情報L(j)を取得する(S201)。なお,上記変数jは,任意の自然数である。
メタデータ解析部206は,取得したメタデータを以前に解析したか否かを確認する(S202)。なお,確認する手段として,例えば,取得したメタデータに解析フラグを設け,メタデータ解析部206が上記解析フラグを参照することで解析の有無を判断するが,かかる例に限定されない。
次に,以前に解析したことがない場合,メタデータ解析部206は,取得したメタデータ(又は,メタデータサマリーI(j))を形態素解析し,メタデータを意味のある最小単位である特徴語(Term(j))に分解する(S203)。
次に,メタデータ解析部206は,形態素解析された各Term(j)についてTF/IDF法(空間ベクトル法)により,重要度情報となる重要度W(j,k)を求める(S204)。
各Term(j)について,重要度W(j,k)が求められたら(S204),次にメタデータ解析部206は,メタデータの各Term(j)の中で,例えば,重要度W(j,k)が上位5位内のTerm(j)全てをメタデータDB210の解析情報テーブル303に特徴キーワードとして,重要度情報(重要度W(j,k))とともに格納する(S205)。
また一方で,メタデータ解析部206がメタデータを解析したことがある場合(S202),該当する各Term(j)の重要度ポイント“p1”が上記ユーザアクションDB204の重み付けパラメータテーブル502に格納されているか否かを確認する(S206)。
確認後(S206),重み付けパラメータテーブル502に“p1”が格納され,その“p1”が更新されていた場合(S206),更新後の“p1”を重要度情報(重要度W(j,k))に反映させるため,重要度W(j,k)に更新後の“p1”を乗算し(S207),その値を重要度情報として,解析情報テーブル303に格納する(S208)。
次に,メタデータテーブル302のメタデータ位置情報L(j)に住所などの位置を特定するための情報が格納されていた場合(S209),メタデータ解析部206は,その情報を取得し,緯度,経度を計算することで求めて,その緯度・経度が設定された位置特定情報を生成する(S210)。
メタデータ解析部206は,生成された位置特定情報をメタデータDB210の解析情報テーブル303に格納することで,メタデータ解析処理の一連の処理が終了する。なお,イベントの開始時刻,終了時刻,または営業時間等の時間情報については,そのまま時間情報として解析情報テーブル303に格納されるが,かかる例に限定されず,例えば,時間情報については,解析情報テーブル303に格納せず,メタデータテーブル302からそのまま時間情報として取得する場合でも実施可能である。
次に,図11を参照しながら,本実施の形態にかかるメタデータ間の類似性を判断する類似判断処理について説明する。図11は,本実施の形態にかかる類似判断処理の概略を示すフローチャートである。
図11に示すように,まず,メタデータ関連化処理部207は,メタデータテーブル302に格納されたメタデータ間の内容の意味的な類似性について判断する意味類似性処理(S301)を実行する。
上記意味類似性処理(S301)が終了後,次に,メタデータ関連化処理部207は,メタデータ間の時間的な類似性について判断する時間類似性処理(S302)を実行し,上記時間類似性処理(S302)が終了後,次に,メタデータ間の位置的な類似性を判断する空間類似性処理(S303)を実行する。
最後に,メタデータ関連化処理部207は,意味的,時間的,および位置的の3軸の尺度で,メタデータ間の類似性を判断する3軸類似性処理(S304)を実行する。以上で,本実施の形態にかかる類似判断処理の一連の処理が終了する。なお,本実施の形態にかかる類似判断処理は,日次又は月次など定期的に行われるバッチ処理であるが,かかる例に限定されず,例えば,利用者端末101から要求されるタイミング,または新たな文書データが作成された等のタイミングで類似判断処理がリアルタイムで実行されるオンライン処理等の場合でも実施可能である。
次に,図11に示す類似判断処理に構成される各処理(意味類似性処理(S301),時間類似性処理(S302),空間類似性処理(S303),3軸類似性処理(S304))について,以下に説明する。
まず,図12を参照しながら,本実施の形態にかかる意味類似性処理(S301)について説明する。図12は,本実施の形態にかかる意味類似性処理の概略を示すフローチャートである。
図12に示すように,本実施の形態にかかる意味類似性処理では,まず,メタデータ関連化処理部207が,メタデータ解析部206によって解析され,解析情報テーブル303に格納された特徴キーワードとしての単語(Term)と,そのTermの重要度情報と,さらにメタデータテーブル302に格納されたメタデータ識別子とを取得する(S401)。
次に,メタデータ関連化処理部207は,取得したメタデータとメタデータテーブル302に格納された他のメタデータについてメタデータ間の意味的な類似度を,上記Termと重要度情報とを参照し,空間ベクトル法を使用して求める(S402)。
メタデータ関連化処理部207は,上記取得したメタデータについて各メタデータとの意味類似度を計算し,意味類似度情報を生成すると,当該メタデータの識別子と,そのメタデータと意味類似度が判断されたメタデータ(類似メタデータ又は関連メタデータ)の識別子と,さらに意味類似度情報を関連メタデータDB203に格納する(S403)。
さらに,メタデータ関連化処理部207は,まだ意味類似度の判断が行われていない,未取得のメタデータについて,同様に,メタデータ識別子と,Termと,重要度情報とを取得し,意味類似度情報を生成する(S403)。
メタデータテーブル302に格納されたメタデータ全てについてメタデータ間の意味的な類似性が判断され,意味類似度情報が関連メタデータDB203に格納された場合(S403),メタデータ関連化処理部207は,ユーザアクションログDB204の重み付けパラメータテーブル502に各メタデータの関連度ポイント“p2”が格納されているか否かを確認する(S404)。
上記関連度ポイント“p2”が重み付けパラメータテーブル502に格納されていた場合,メタデータ関連化処理部207は,上記関連度ポイント“p2”を上記意味類似度情報の値に乗算し,“p2”を反映する(S405)。なお,本実施の形態にかかる関連度ポイントは,遷移数に基づき求められるが,詳細については後述する。
次に,メタデータ関連化処理部207は,格納先の関連メタデータDB203の該当個所を反映後(S405)の意味類似度情報に更新する。なお,関連度ポイント“p2”が格納されず,存在しない場合は,上記S405〜S406の処理は実行されない。
次に,メタデータ関連化処理部207は,メタデータのTermが上記事業者ポリシーDBに格納された関連キーワードに一致または類似するのかを判断する(S407)。なお,メタデータのTermと関連キーワードの類似性の判断は,例えば,上記空間ベクトル法等を使用して行われ,所定値以上の類似度を示した場合,上記Term(メタデータ)と関連キーワード(広告情報)の間には類似性があると判断される。
上記S407で,メタデータ関連化処理部207が,メタデータのTermと一致する又は類似する関連キーワードが存在すると判断した場合,次に,メタデータ関連化処理部207は,上記関連キーワードに該当する広告情報のID(広告ID)を関連広告IDとして,関連メタデータDB203に格納する(S408)。
関連広告IDとTermを含むメタデータとが関連付けられることで,例えば,検索する際に指定したキーワードと関連性のあるメタデータを情報提供するだけに留まらず,さらにそのキーワードに関連性のある広告情報を利用者に提供することができる。
なお,本実施の形態にかかる事業者ポリシーデータの登録に連動してリアルタイムにメタデータ関連化処理部207が広告情報とメタデータとの意味的な類似性を判断する場合でも実施可能である。
次に,図13を参照しながら,本実施の形態にかかる時間類似性処理(S302)について説明する。なお,図13は,本実施の形態にかかる時間類似性処理の概略を示すフローチャートである。
図13に示すように,本実施の形態にかかる時間類似性処理では,まず,メタデータ関連化処理部207が,メタデータ解析部206により,解析情報テーブル303に格納された時間情報,メタデータテーブル302に格納されたメタデータ識別子とを取得する(S501)。
次に,メタデータ関連化処理部207は,上記取得したメタデータと時間的な類似性の判断対象となるメタデータをメタデータDB210から取得する(S502)。
次に,メタデータ関連化処理部207は,上記取得したメタデータと,そのメタデータと類似性の判断対象となるメタデータとの時間的類似度を時間類似度判断テーブルを参照することで,判断する(S503)。
メタデータ間の時間的類似度が判断されると,その判断の結果生成される時間類似度情報を,上記取得したメタデータの識別子と当該メタデータの判断対象となったメタデータ(関連メタデータ)の識別子とともに,関連メタデータDB203の時間類似度テーブル403に格納する(S504)。
さらに,メタデータ関連化処理部207は,まだ時間類似度の判断が行われていない未取得のメタデータについて,同様に,メタデータ識別子と,時間情報とを取得し,時間類似度情報を生成する(S503)。
メタデータテーブル302に格納されたメタデータ全てについてメタデータ間の時間的な類似性が判断され,時間類似度情報が関連メタデータDB203に格納された場合(S504),メタデータ関連化処理部207は,取得したメタデータの時間情報が上記事業者ポリシーDBに格納された関連時間に一致または類似するのかを判断する(S505)。なお,メタデータの時間情報と関連時間の類似性の判断は,例えば,上記時間類似度判断テーブルを参照することで行われる。
上記S505で,メタデータ関連化処理部207が,メタデータのTermと一致する又は類似する関連時間が存在すると判断した場合,次に,メタデータ関連化処理部207は,上記関連時間に該当する広告情報のID(広告ID)を関連広告IDとして,関連メタデータDB203に格納する(S506)。
関連広告IDと時間情報に係るメタデータとが関連付けられることで,例えば,検索する際に指定した時間又は時刻と関連性のあるメタデータを情報提供するだけに留まらず,さらにその指定時間又は指定時刻に関連性のある広告情報を利用者に提供することができる。
なお,本実施の形態にかかる事業者ポリシーデータの登録に連動してリアルタイムにメタデータ関連化処理部207が広告情報とメタデータとの時間的な類似性を判断する場合でも実施可能である。
ここで,図14を参照しながら,本実施の形態にかかる時間類似性処理(S302)で使用された時間類似度判断テーブルについて,さらに詳細に説明する。なお,図14は,本実施の形態にかかる時間類似度判断テーブルの概略的な構成を示す説明図である。
図14に示す時間類似度判断テーブルは,メタデータアグリゲーションサーバ104に備わるストレージ装置(図示せず。)に格納され,メタデータ関連化処理部207は,必要に応じて,上記時間類似度判断テーブルを参照することができる。
図14に示すように,時間類似度判断テーブルは,時間類似度レベルと,ケース1〜ケース4の時間類似度を判断するモデルケースとから構成されている。
上記時間類似度レベルは,時間類似度情報に設定される値(時間類似度レベル)として,“1”全部一致〜“4−b”一日以内後までの7つから少なくとも構成されるが,かかる例に限定されない。
上記ケース1〜ケース4は,メタデータの時間情報のうち,例えば所定期間開催されるようなイベントに関する時間情報と,突発的に一時的に発生するようなニュースに関する時間情報とを組合せることで,メタデータ間の時間的な類似度を判断している。
図14に示すように,ケース1では,双方のメタデータの時間情報がイベントに関する時間情報の場合,メタデータ間の時間的な類似性が判断され,ケース2では,双方のメタデータの時間情報がニュースに関する時間情報の場合,メタデータ間の時間的な類似性が判断され,ケース3とケース4では,双方のメタデータの時間情報がイベントとニュースに関する時間情報の場合,メタデータ間の時間的な類似性が判断される。
なお,本実施の形態にかかるメタデータの時間情報は,イベントに関する時間情報またはニュースに関する時間情報の場合を例に挙げて説明したが,例えば,メタデータの時間情報が,開催期間など所定の時間幅を有する時間情報や,時間幅が限りなく短く,一時的又は瞬間的な時間情報のどちらかであれば,かかる例に限定されない。
上記時間類似度レベルのうち,“1”全部一致では,ケース1の双方の時間情報がイベントに関する時間情報であって,双方の始めと終わりの時間が一致している場合に“1”全部一致であると判断される。なお,完全一致の場合に限定されず,例えば,始めと終わりの日時が分単位まで一致すれば,秒単位が相違しても“1”全部一致であると判断するなど,ある一定の誤差を考慮する場合でも実施可能である。
また,ケース2において時間類似度レベルが“1”全部一致の場合も,双方の時間情報が示す発生時刻等が一致する場合に“1”全部一致であると判断されるが,完全一致の場合に限らず,所定の誤差が考慮される場合であっても実施可能である。
さらに,ケース3,4における“1”全部一致の場合,ニュースに関する時間情報がイベントに関する時間情報の始めから終わりの範囲内に完全に含まれる場合,上記“1”全部一致であると判断される。
上記“2−a”前半に部分マッチの場合は,ケース1の場合のみ該当し,時間的類似度が判断されるメタデータ(イベント1)の時間情報の前半部分にイベント2の時間情報が重複する場合に,“2−a”であると判断される。なお,時間類似度レベルが“2−b”の場合もケース1のみ該当する。また“2−b”は前半部分ではなく,イベント1の時間情報の後半部分にイベント2の時間情報が重複する場合に“2−b”に該当すると判断される。
また,時間類似度レベルが“3−a”については,イベント1の時間情報が示す時刻よりもイベント2の時間情報が示す時刻の方が早く,その差が1時間以内である場合,“3−a”に該当すると判断され,同様に,“3−b”については,イベント1の時間情報が示す時刻よりもイベント2の時間情報が示す時刻の方が遅く,その差が1時間以内である場合,“3−b”に該当すると判断される。
さらに,時間類似度レベルが“4−a”については,イベント1の時間情報が示す日時よりもイベント2の時間情報が示す日時の方が早く,その差が1日以内(24時間)である場合,“4−a”に該当すると判断され,同様に,“4−b”については,イベント1の時間情報が示す日時よりもイベント2の時間情報が示す日時の方が遅く,その差が1日以内である場合,“4−b”に該当すると判断される。
メタデータ関連化処理部207は,メタデータの時間情報を取得すると,取得した時間情報が所定の時間幅を有する時間情報(イベントに関する時間情報)であるのか,または一時的な時間情報(ニュースに関する時間情報)であるのかを判断する。
次に,メタデータ関連化処理部207は,ケース1〜ケース4のどのモデルケースに上記判断した時間情報が該当するのかを判断し,さらにメタデータ間の時間類似度レベルがどのレベル(“1”〜“4―b”)に該当するかを判断する。
メタデータ関連化処理部207は,判断した結果,時間類似度レベルの値を時間類似度情報に設定し,時間類似度情報を生成する。以下,関連メタデータDB203にメタデータ識別子,関連メタデータ識別子,および時間類似度情報が格納される処理については,上記説明した通りであるため,省略する。
メタデータ関連化処理部207が,上記時間類似度判断テーブルを参照することで,容易に,効率的にメタデータ間の時間的な類似性を判断することができる。なお,本実施の形態にかかる時間類似度判断テーブルは,利用者ごとに生成され,時間類似度レベルを利用者がカスタマイズする場合であっても実施可能である。
次に,図15を参照しながら,本実施の形態にかかる空間類似性処理(S303)について説明する。なお,図15は,本実施の形態にかかる空間類似性処理の概略を示すフローチャートである。
図15に示すように,本実施の形態にかかる空間類似性処理では,まず,メタデータ関連化処理部207が,メタデータ解析部206により,解析情報テーブル303に格納された位置特定情報(経度・緯度),メタデータテーブル302に格納されたメタデータ識別子とを取得する(S601)。
次に,メタデータ関連化処理部207は,上記取得したメタデータと位置的な類似性の判断対象となるメタデータをメタデータDB210から取得する(S602)。
次に,メタデータ関連化処理部207は,上記取得したメタデータと,そのメタデータと類似性の判断対象となるメタデータとの位置的な類似度を,双方の位置特定情報に含む緯度,経度からメタデータ間の距離を求めて,位置類似度情報を生成する(S603)。
なお,本実施の形態にかかるメタデータ間の距離は,緯度,経度から求められる物理的な距離の場合を例示することができるが,かかる例に限定されない。また,位置類似度情報には,上記求められたメタデータ間の距離が設定されるが,かかる例に限定されず,例えば,位置類似度情報には,上記説明した時間類似度レベルのようにメタデータ間の距離に応じて複数段階のレベルに分類されたレベルの数値が設定される場合等でも実施可能である。
メタデータ間の位置的な類似度が判断され,その判断の結果生成される位置類似度情報を,上記取得したメタデータの識別子と当該メタデータと位置的な類似性の判断対象となったメタデータ(関連メタデータ)の識別子とともに,関連メタデータDB203の位置類似度テーブル403に格納する(S604)。
さらに,メタデータ関連化処理部207は,まだ位置類似度の判断が行われていない未取得のメタデータについて,同様に,メタデータ識別子と,位置特定情報とを取得し,位置類似度情報を生成する(S603)。
メタデータテーブル302に格納されたメタデータ全てについてメタデータ間の位置的な類似性が判断され,位置類似度情報が関連メタデータDB203に格納された場合(S604),メタデータ関連化処理部207は,取得したメタデータの時間情報が上記事業者ポリシーDBに格納された関連場所に一致または類似するのかを判断する(S605)。なお,メタデータの位置特定情報と関連場所の類似性の判断は,例えば,上記説明のメタデータ間の距離を求めることで行われ,例えばメタデータの位置特定情報と関連場所との距離が所定値以下であれば位置的な類似性が高いと判断される。位置的な類似度の判断基準としては,例えば,図16に示す位置類似度判断テーブルを予め作成しておくことで,メタデータ関連化処理部207は,位置的な類似度を判断できる。さらに,位置的な類似度が判断された後,図16に示すように,メタデータ関連化処理部207は,例えば,徒歩15分以内(レベル5)の位置的な類似度に該当するメタデータだけを抽出することもできる。図16は,位置類似度判断テーブルの概略的な構成の一例を示す説明図である。
図16に示すように,位置類似度判断テーブルは,メタデータ間の距離が算出され,類似度の評価をレベル別に表わす「類似度レベル」と,各レベルの距離範囲を示す「該当範囲」と,どの程度位置的に類似しているのか度合いを示す「類似度」とから少なくとも構成される。なお,本実施の形態にかかる位置類似度判断テーブルには,「類似度レベル」が含まれる場合を例に挙げて説明したが,かかる例に限定されず,位置類似度判断テーブルには,「該当範囲」と「類似度」が含まれる場合,「類似度レベル」と「該当範囲」が含まれる場合等でもよい。
上記S605で,メタデータ関連化処理部207が,メタデータの位置特定情報と関連場所との距離に基づいて,類似性が高いと判断した場合,次に,メタデータ関連化処理部207は,上記関連場所に該当する広告情報のID(広告ID)を関連広告IDとして,関連メタデータDB203に格納する(S606)。
関連広告IDと位置特定情報に係るメタデータとが関連付けられることで,例えば,検索する際に指定した場所と関連性のあるメタデータを情報提供するだけに留まらず,さらにその指定場所から距離が近い等の関連性のある広告情報を利用者に提供することができる。
なお,本実施の形態にかかる事業者ポリシーデータの登録に連動してリアルタイムにメタデータ関連化処理部207が広告情報とメタデータとの位置的な類似性を判断する場合でも実施可能である。
次に,図17を参照しながら,本実施の形態にかかる3軸類似性処理(S304)について説明する。なお,図17は,本実施の形態にかかる3軸類似性処理の概略を示すフローチャートである。
図17に示すように,本実施の形態にかかる3軸類似性処理では,まず,メタデータ関連化処理部207は,抽出設定ファイルを参照し,抽出設定ファイルから抽出パラメータa(意味類似度情報の設定値)と,抽出パラメータb(時間類似度情報の設定値)と,抽出パラメータc(位置類似度情報の設定値)とを取得する(S701)。なお,上記抽出パラメータbと抽出パラメータcはリミット値となる値である。また,本実施の形態にかかる抽出設定ファイルは,情報提供システム100内で1つのファイルに限定されず,利用者ごとに生成する等の場合でもよく,また抽出設定ファイルは,抽出パラメータa〜抽出パラメータcが指定されることで動的に生成される場合等でもよい。
次に,メタデータ関連化処理部207が,メタデータテーブル302に格納されたメタデータ又はメタデータの識別子を取得する(S702)。
メタデータ関連化処理部207は,上記取得したメタデータと意味的類似性について上記抽出パラメータaの設定値以上のメタデータを関連メタデータとしてメタデータDB210から取得する(S703)。
また,メタデータ関連化処理部207は,上記取得したメタデータと時間的類似性について上記抽出パラメータbの設定値以内のメタデータを関連メタデータとしてメタデータDB210から取得する(S704)。
さらに,メタデータ関連化処理部207は,上記取得したメタデータと位置的類似性について上記抽出パラメータcの設定値以内のメタデータを関連メタデータとしてメタデータDB210から取得する(S705)。
上記S703〜S705において取得した関連メタデータ群を,メタデータ関連化処理部207は,関連メタデータDB203に格納する(S706)。なお,上記S703〜S705において取得した関連メタデータ群のうち,抽出パラメータa〜抽出パラメータcと最も類似度が高いメタデータを関連メタデータDB203に格納する場合でもよい。以上で,本実施の形態にかかる3軸類似性処理の一連の動作が終了する。
次に,図18を参照しながら,本実施の形態にかかるユーザアクションデータ収集解析処理について説明する。図18は,本実施の形態にかかるユーザアクションデータ収集解析処理の概略を示すフローチャートである。
図18に示すように,本実施の形態にかかるユーザアクションデータ収集解析処理では,まず,利用者端末101に蓄積される利用者のアクセス情報からTermの重要度の重み付けとする重要度ポイントを求める処理が実行される。
最初に,ユーザアクセスログ収集部205は利用者端末101が蓄積する利用者のアクセスデータ(ユーザアクセスログデータ)を収集する。次に,ユーザアクセスログ収集部205は,利用者のユーザアクセスログデータから検索ログを取得する(S801)。
ユーザアクセスログ収集部205は,検索ログに含まれる検索キーワードと,実際にアクセスしたメタデータ又はメタデータの識別子と,当該メタデータにアクセスしたアクセス数とを,ユーザアクションログDB204に格納する(S802)。
次に重要度ポイントを計算するため,ユーザアクセスログ処理部208は,検索キーワードでTerm(単語,特徴語)が少なくとも一度は検索され,実際にアクセスされたメタデータm(i)を取得する(S803)。なお,変数iは自然数である。
さらに,ユーザアクションログDB204に格納されたアクセス数に基づき,ユーザアクセスログ処理部208は,各メタデータm(i)のアクセス数の総和s(i)を算出する。
次に,ユーザアクセスログ処理部208は,Term(単語,特徴語)を含むメタデータについてのアクセス数a(i)各々を,先程算出したs(i)で割ることで,正規化し,その値r(i)を重要度ポイントとしてユーザアクションログDB204に格納する(S804)。
次に,ユーザアクセスログ収集部205により収集されたユーザアクセスデータに含まれるメタデータ間の遷移履歴情報をユーザアクションログDB204から抽出し,メタデータ間の関連度ポイントを求める処理を実行する。以下,関連度ポイントを求める処理について説明する。
まず,ユーザアクセスログ収集部205が収集したユーザアクセスログデータのうち,ユーザアクセスログ収集部205はメタデータ間の遷移履歴情報を取得する(S805)。
次に,ユーザアクセスログ収集部205は,遷移元のメタデータ又はメタデータの識別子と,遷移先のメタデータ又はメタデータの識別子と,遷移元から遷移先のメタデータに遷移した回数を示す遷移数とをユーザアクションログDB204に格納する(S806)。
なお,遷移履歴情報は,表示画面を切換える度に生成される履歴情報である。遷移履歴情報には,遷移元のメタデータ又はその識別子と,遷移先のメタデータ又はその識別子と,遷移数とが含まれている。遷移元のメタデータは,例えば,表示画面を切換える前の利用者端末101の画面に表示されたメタデータ等であり,遷移先のメタデータは,例えば,表示画面を切換えた後の利用者端末101の画面に表示されたメタデータ等である。
次に,ユーザアクセスログ処理部208は,ユーザアクションログDB204から遷移元と遷移先のメタデータと,それらの遷移数とを抽出し,遷移先のメタデータが遷移元のメタデータ自身に関連する関連メタデータDB203に格納された関連メタデータであって,その関連メタデータへの遷移が少なくとも一度は行われた遷移元のメタデータm(j)を取得する(S807)。
上記取得したメタデータm(j)から遷移先のメタデータに遷移した遷移数の総和s(j)で,上記取得したメタデータm(j)から関連メタデータへの遷移数a(j)を各々割って,正規化し,その値r(j)を関連度ポイントとしてユーザアクションログDB204に格納する(S808)。
上記関連度ポイントが例えば,上記説明の類似度の判断において重み付けのパラメータ値となるため,利用者によって実際にメタデータをアクセスすることで,ユーザによるメタデータの関連付け,またはリンク付けを,類似度判断処理に反映することができる。
次に,図19を参照しながら,本実施の形態にかかる事業者ポリシーデータ(広告類似ルール)収集処理について説明する。なお,図19は,本実施の形態にかかる事業者ポリシーデータ収集処理の概略を示すフローチャートである。
図19に示すように,本実施の形態にかかる事業者ポリシーデータ収集処理では,まず,事業者が利用者端末101を操作し,利用者端末101からメタデータアグリゲーションサーバ104にネットワーク103を介してアクセスし,事業者情報テーブル602に事業者情報を登録する(S901)。なお,事業者情報テーブル602に事業者情報が格納されない限り,事業者は広告情報等を配信することができない。
次に,登録後(S901),事業者は,利用者端末101を操作し,利用者端末101からメタデータアグリゲーションサーバ104にアクセスすることで,さらに事業者ポリシーDB202の事業者広告情報テーブル603に広告情報または事業者広告ポリシーテーブル604に事業者ポリシーデータ(広告類似ルール)を登録する(S902)。
次に,図20を参照しながら,本実施の形態にかかる利用者端末101の画面に表示するためのビューデータ生成処理について説明する。図20は,本実施の形態にかかるビューデータ生成処理の概略を示すフローチャートである。
図20に示すように,本実施の形態にかかるビューデータ生成処理では,まず,コンテンツジェネレータ部211は,検索設定ファイルを参照し,検索設定ファイルからビューデータを生成するため,メタデータを検索する際に用いられる検索パラメータを取得する(S1001)。
なお,本実施の形態にかかる検索設定ファイルには,検索パラメータa(意味類似度情報の設定値)と,検索パラメータb(時間類似度情報の設定値)と,検索パラメータc(位置類似度情報の設定値)とが設定されているが,これは上記説明の抽出パラメータa(意味類似度情報の設定値)と,抽出パラメータb(時間類似度情報の設定値)と,抽出パラメータc(位置類似度情報の設定値)と,ほぼ同様な構成であるため詳細な説明は省略する。また,検索設定ファイルは,例えば,予めメタデータアグリゲーションサーバ104内に格納されている場合でもよく,利用者からリアルタイムに検索設定ファイルの生成を受付けて動的に生成されてもよい。
次に,コンテンツジェネレータ211は,検索設定ファイルにしたがってメタデータDB210および関連メタデータDB203からメタデータを含んだメタデータファイルを検索し,抽出し,ビューデータ212を生成する(S1002)。なお,検索設定ファイルからメタデータファイルを検索する処理については,上記3軸類似性処理で説明した,類似するメタデータを検索し,抽出する処理とほぼ同様であるため詳細な説明は省略する。
なお,コンテンツジェネレータ211は,必要に応じて,事業者ポリシーDB202の事業者広告情報テーブル603からメタデータに関連する広告情報を抽出し,その広告情報とメタデータを含むメタデータファイルとからビューデータ212を生成する場合でもよい。
生成されたビューデータ212は,通信部(図示せず。)からネットワーク103を介して利用者端末101に送信され,利用者端末101の画面に表示される。
次に,図21〜図25を参照しながら,本実施の形態にかかる情報提供システム100の利用者端末101の画面に表示される画面イメージについて説明する。
図21は,リスト画面が利用者端末101の画面に表示された場合の画面イメージである。利用者端末101の画面の上段には,リストと,時間類似一覧と,位置類似一覧と,3軸類似一覧とが表示され,上記各項目名を入力部116の選択によって,表示切換えることができる。図21に示すように,上記リスト画面には,ビューデータに含まれるアイテムが全て一覧表示される。
また,ビューデータに含まれるメタデータファイル(アイテム)は,図21に示す画面の表示領域1901(1901−1〜1901−5)に表示される。表示領域1901−1には,“タイトル/リンク”,“日時”,“概要”,“リンク:位置,時間,意味”からなるアイテムが表示されている。なお,“リンク:位置”は,位置的に類似するメタデータにリンクすることを示し,その他の“時間”と“意味”のリンクについても同様である。
図22に示す時間類似一覧画面は,設定ファイルに基づき抽出されたメタデータと時間的に類似するメタデータを含んだメタデータファイル(アイテム)が一覧表示された画面イメージである。
図22に示すように,例えば,2004年6月27日については,“12:00〜13:00”の時間帯にアイテム2001aと,アイテム2001bと,アイテム2001cとが時間的に類似している。なお,アイテム2001は,広告情報等も含む。
さらに,図22に示す左右の矢印を入力部116で選択すれば,2004年6月27日の表示された以外の時間帯について時間的に類似したアイテムの有無を確認することができる。さらに日付を変更することで,2004年6月27日以外の時間帯の類似したアイテムの有無を確認することができる。
図23に示す位置類似一覧画面は,設定ファイルに基づき抽出されたメタデータと位置的に類似するメタデータを含んだメタデータファイル(アイテム)が一覧表示された画面イメージである。
図23に示すように,位置類似一覧画面には,検索設定ファイルの検索パラメータから抽出された最も類似度が高いアイテム2001aの位置特定情報の周辺地図2101が表示される。アイテム2001aには,タイトル(店舗名等も含む。)や,住所等が表示される。
さらに,図23に示すように,上記周辺地図2101には,アイテム2001aの位置特定情報と類似するアイテム2001(2001b〜2001f)が“○”表示されている。なお,利用者が入力部116で上記○を選択すれば,上記アイテム2001a等のようにポップアップ表示される。利用者は,設定ファイルで抽出されたアイテム2001aのみでなく,そのアイテム2001aと地理的に近いその他の関連情報を効率的に得ることができる。
図24に示す3軸類似一覧画面は,設定ファイルに基づき抽出されたメタデータと意味的,位置的,および時間的に類似するメタデータを含んだアイテムが一覧表示された画面イメージである。
図24に示すように,3軸類似一覧画面には,検索設定ファイルの検索パラメータから抽出された意味的,位置的,および時間的に最も類似度が高い(又は,完全に一致する)アイテム2001aを中心とし,横軸を時間軸(Time:時間類似度軸),縦軸を位置軸(Location:位置類似度軸)としたxy座標画面が表示されている。
さらに,3軸類似一覧画面には,アイテム2001aと意味的,時間的,および位置的に類似するアイテム2001(2001b〜2001h)がxy座標上に“○”表示されている。なお,アイテム2001は,広告情報等も含む。
利用者が上記時間軸を参照すれば,上記アイテム2001aと他のアイテム2001とはどの程度の時間だけ類似しているのか,利用者は容易に把握することができる。また,利用者が位置軸を参照すれば,上記アイテム2001aと他のアイテム2001とはどの程度の距離だけ近いのか,利用者は容易に把握することができる。なお,利用者が入力部116で上記○を選択すれば,上記アイテム2001a等のようにポップアップ表示される。
また,図24に示すように,上記アイテム2001d又はアイテム2001fなどは,イベントに関する情報であるため時間幅があり,例えば,アイテム2001dは,開始時刻(アイテム2001d)から終了時刻(アイテム2001d´)まで所定の時間幅を有している。
さらに,アイテム2001間の意味的な類似度も上記○の大きさで利用者は把握することができる。例えば,図24に示すように,アイテム2001aと,アイテム2001bと,アイテム2001eとの“○”の大きさは同一であり,かつ図24に示す○のなかで最小の大きさのため,アイテム2001bおよびアイテム2001eは上記アイテム2001aと意味的な類似性は最も高いと判別できる。なお,反対に,図24に示す○のなかで最大の大きさであるアイテム2001cは,意味的な類似性は最も低いと判別できる。
また,図24に示すように,意味類似一覧画面には,検索キーワード,検索時間,検索位置を利用者が入力可能な入力領域が設けられているため,利用者は上記検索キーワード,検索時間,または検索位置のうち少なくとも一つに値を指定すれば,利用者端末101は指定された値から設定ファイルを生成し,メタデータアグリゲーションサーバ104に設定ファイルを送信することができる。
なお,本実施の形態にかかる3軸類似一覧画面には,意味的,時間的,および位置的に類似するメタデータを含んだアイテムが一覧表示された画面イメージの場合を例に挙げて説明したが,かかる例に限定されず,例えば,3軸類似一覧画面は,意味的,時間的,または位置的のうち少なくとも二つに類似するメタデータを含んだアイテムが一覧表示された画面イメージの場合でもよい。
図25に示す全体画面は,上記説明した位置類似一覧画面または時間類似一覧画面等を1画面内に収められた画面イメージである。
例えば,図25に示すBlock1(ブロック1)には,設定ファイルに基づき抽出されたメタデータのうち意味的に最も類似度が高いアイテム2001が表示され,Block2(ブロック2)には,時間類似一覧画面で表示された時間的に最も類似するアイテム2001aが表示され,Block3(ブロック3)には,位置類似一覧画面で表示された位置的に最も類似するアイテム2001aが表示される。さらに「more」ボタンを利用者が選択すれば,選択されたブロック内の画面が切換わり,別のアイテム等が表示される。
図25に示すように,全体画面は1又は2以上の表示ブロックに分割されているため,時間的に類似している情報や位置的に類似している情報など1画面で情報を多面的に表示することができる。
ここで,本明細書において,メタデータアグリゲーションサーバ104に各種の処理を行わせるためのプログラムを記述する処理ステップは,必ずしも,例えば図9〜図20に示すフローチャートとして記載された順序に沿って時系列に処理する必要はなく,並列的あるいは個別に実行される処理(例えば,並列処理あるいはオブジェクトによる処理)も含むものである。
以上から,情報提供システム100により,意味的,位置的,または時間的な3つの尺度をもとに,例えば,図24に示すようなビューデータを生成することで,利用者端末101の画面に表示することができ,利用者は,多面的な類似情報を効率的に得ることができる。
また,図21〜図23に示すような画面を利用者端末101の画面に表示させるビューデータを必要に応じて生成することも可能であるため,ユーザのより細やかなニーズに対応することができる。
また,複数のアイテムと,意味的,時間的,または位置的に関連付けることができるため,3つの尺度を1画面に全て表示する図25に示すような画面を表示するためのビューデータを生成することも可能であり,ユーザは詳細な関連情報を容易に得ることができる。
利用者端末101は,ユーザから検索パラメータとして検索キーワード,検索時間,または検索位置のうち少なくとも一つを受付けて,検索ファイルをメタデータアグリゲーションサーバ104に送信することができるため,より精度の高い情報の検索ができる。
メタデータ間の意味的,時間的,または位置的な類似度の判断の際に,ユーザの行動パターンとなるアクセス履歴情報等を反映することによって,ユーザの嗜好などを類似度の判断に反映することができ,ユーザが情報を要求する際のユーザの多様なニーズに対応することができる。
また,事業者は,広告情報をキーワードの意味的な一致又は類似によって利用者に提供するだけに留まらず,キーワードと時間的または位置的に一致又は類似する広告情報を広く利用者に配信することで,利用者への配信チャネルの拡大又は利用者が広告情報を獲得するチャンスの拡大を容易に実現できる。
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
上記実施形態においては,メタデータ関連化処理部207が,上記意味類似度情報,位置類似度情報,または時間類似度情報のうち少なくとも二つを,メタデータ及び/又は類似メタデータと紐付くように関連メタデータDBに格納する場合を例に挙げて説明したが,かかる例に限定されず,例えば,関連付けられたメタデータ又は類似メタデータのうち少なくとも一方に,上記意味類似度情報,位置類似度情報,または時間類似度情報のうち少なくとも二つを含ませる場合であってもよい。
また上記実施形態においては,ストレージ装置は,単体のハードディスクドライブから構成される場合を例に挙げて説明したが,かかる例に限定されず,例えば,別体としてハードディスクドライブがさらに1または2以上備わる場合でもよく,またRAM,ROM,フラッシュメモリ,または持ち運び可能なリムーバブル記録媒体のうち少なくとも一つがさらに備わる場合でもよい。
上記実施形態においては,メタデータアグリゲーションサーバ104に備わる各部はハードウェアからなる場合を例にあげて説明したが,本発明はかかる例に限定されない。例えば,上記各部は,1又は2以上のモジュールまたはコンポーネントから構成されるプログラムの場合であってもよい。