JP6162664B2 - 抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラム - Google Patents

抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラム Download PDF

Info

Publication number
JP6162664B2
JP6162664B2 JP2014164949A JP2014164949A JP6162664B2 JP 6162664 B2 JP6162664 B2 JP 6162664B2 JP 2014164949 A JP2014164949 A JP 2014164949A JP 2014164949 A JP2014164949 A JP 2014164949A JP 6162664 B2 JP6162664 B2 JP 6162664B2
Authority
JP
Japan
Prior art keywords
extraction
user
information
unit
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014164949A
Other languages
English (en)
Other versions
JP2016042213A (ja
Inventor
翔 大沼
翔 大沼
俊平 大倉
俊平 大倉
明弘 小出
明弘 小出
誠 ▲片▼居木
誠 ▲片▼居木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2014164949A priority Critical patent/JP6162664B2/ja
Priority to US14/821,302 priority patent/US10467305B2/en
Publication of JP2016042213A publication Critical patent/JP2016042213A/ja
Application granted granted Critical
Publication of JP6162664B2 publication Critical patent/JP6162664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラムに関する。
近年、インターネットの飛躍的な普及に伴い、インターネットを介した広告配信が盛んに行われている。かかる広告配信においては、宣伝効果を高めるために、ユーザの嗜好、性別、年齢、住所、職業などのユーザ属性を予めユーザデータとして登録しておき、ユーザデータに対応する広告を選択的に配信するターゲティング配信が行われている。
ターゲティング配信においては、ユーザ端末が任意のウェブサイトにアクセスした際の閲覧情報や、検索サイトの利用履歴などの行動履歴をユーザデータとしてデータベース化する。そして、データベース化されたユーザデータを活用することにより、効果の高い広告配信が期待できる。このようなデータベースの技術として、例えば、ユーザ間のプロフィールマッチングを適切に行う技術が知られている。
特開2012−194900号公報
しかしながら、上記の従来技術では、ユーザデータを柔軟に活用できていたとは言い難い。具体的には、ユーザデータは、ユーザ端末がウェブサイトにアクセスした際の閲覧情報などで構成されるため、絶え間なくユーザデータを処理する装置に送信される。このため、例えば、DMP(Data Management Platform)事業などで多数のユーザデータを管理する処理装置においては、膨大な情報量を含むユーザデータを扱うことになる。ゆえに、処理装置に蓄積するユーザデータについて、データの利用者(例えば、広告主)の様々な要求に応じて迅速にユーザデータを分析することなどに対応し辛い。
本願は、上記に鑑みてなされたものであって、ユーザデータを柔軟に活用することができる抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラムを提供することを目的とする。
本願に係る抽出装置は、情報利用者から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジンに抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、任意のクエリに対応するユーザの数を抽出結果として取得する取得部と、任意のクエリを送信した情報利用者に対して、取得部によって取得されたユーザの数を通知する通知部と、を備えたことを特徴とする。
実施形態の一態様によれば、ユーザデータを柔軟に活用することができるという効果を奏する。
図1は、実施形態に係る抽出処理の一例を示す図である。 図2は、実施形態に係る抽出装置の構成例を示す図である。 図3は、実施形態に係る検索ID記憶部の一例を示す図である。 図4は、実施形態に係るメタデータ記憶部の一例を示す図である。 図5は、実施形態に係る検索サーバの構成例を示す図である。 図6は、実施形態に係るユーザデータ記憶部の一例を示す図である。 図7は、実施形態に係る第1処理データテーブルの一例を示す図である。 図8は、実施形態に係る第2処理データテーブルの一例を示す図である。 図9は、実施形態に係る抽出処理システムによる抽出処理手順を示すシーケンス図である。 図10は、実施形態に係る抽出装置による抽出処理手順を示すフローチャートである。 図11は、抽出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.抽出処理〕
まず、図1を用いて、実施形態に係る抽出処理の一例について説明する。図1は、実施形態に係る抽出処理の一例を示す図である。図1では、抽出処理システム1を例に挙げて、処理対象であるユーザの中から所定の条件に該当するユーザを抽出する処理について説明する。
図1に示すように、抽出処理システム1には、利用者端末10と、検索サーバ20と、ユーザデータサーバ40と、メタデータサーバ50と、抽出装置100とが含まれる。抽出装置100は、図示しないネットワークN(例えば、インターネット)を介して、利用者端末10、検索サーバ20、ユーザデータサーバ40及びメタデータサーバ50と通信可能に接続される。
なお、抽出処理システム1に含まれる利用者端末10、検索サーバ20、ユーザデータサーバ40及びメタデータサーバ50の台数は、図1に示した例に限られない。例えば、抽出処理システム1には、2台以上の利用者端末10が含まれてもよい。
利用者端末10は、情報利用者P1によって利用される情報端末である。利用者端末10は、例えば、スマートフォンやタブレット端末やPDA(Personal Digital Assistant)等の移動端末や、デスクトップ型PC(Personal Computer)や、ノート型PC等である。
情報利用者P1は、抽出処理システム1を利用して情報を取得する者である。例えば、情報利用者P1は、所定の商品「AAA」を販売する販売業者や、商品「AAA」に係る広告を配信させようとする広告主である。情報利用者P1は、抽出処理システム1を利用することで、例えば、商品「AAA」に興味を持つユーザに関する情報を取得する。
検索サーバ20は、所定のウェブ検索エンジンを利用して情報を抽出するサーバ装置である。図1に示すように、検索サーバ20は、検索処理の負荷を分散させるため、検索サーバ20及び検索サーバ20のように複数台が備えられる。以下において、検索サーバ20と検索サーバ20とを区別する必要がない場合には、これらを総称して「検索サーバ20」と表記する。
ユーザデータサーバ40は、ユーザデータを取得し、取得したユーザデータを保持するサーバ装置である。ここで、ユーザとは、抽出処理システム1の抽出処理の対象となる者をいう。ユーザデータは、例えば、ネットワークNを介して、ユーザが所定のウェブサイトを閲覧したり、検索サイトで検索をしたりした、ユーザの行動履歴に関するデータである。なお、ユーザの行動履歴には、例えば、所定のウェブサイトにおいてユーザの性別、年齢、住所などの情報を入力する行動(例えば、所定のウェブサイトにおける会員登録など)等も含まれる。このため、ユーザデータには、ユーザの性別、年齢、住所などのユーザの属性情報が含まれる場合がある。また、ユーザデータは、ウェブ上の行動履歴等に限られず、例えば、情報利用者P1が運営する実際の店舗でユーザが購入した履歴等を含んでもよい。
メタデータサーバ50は、ユーザデータに関するメタデータ(metadata)を保持するサーバ装置である。メタデータは、例えば、ユーザデータの保存されているアドレスや、データの更新日時などを示すものであり、ユーザデータのインデックスとしての役割を有する。
抽出装置100は、抽出処理された結果を情報利用者P1に提供するサーバ装置である。具体的には、抽出装置100は、利用者端末10から任意のクエリを受け付け、受け付けたクエリに基づいて検索サーバ20に抽出処理を実行させ、抽出処理の結果を利用者端末10に提供する。
上記の抽出処理システム1では、ユーザデータサーバ40が保持するユーザデータの中から、情報利用者P1が投稿するクエリが示す条件に該当するユーザを抽出する処理が実行される。ここで、抽出処理は、情報利用者P1が活用しやすく、かつ、高速に結果が抽出されることが望ましい。そこで、抽出処理システム1では、所定のウェブ検索エンジンを利用してユーザデータを検索することにより、情報利用者P1の要望に沿う抽出結果を高速に求めることを可能にする。この点について、図1の例を用いて説明する。
図1の例では、抽出装置100が、情報利用者P1から投稿されたクエリに該当するユーザ数に関する情報を情報利用者P1に提供する例について説明する。
図1に示した例において、ユーザデータサーバ40は、取得したユーザデータを検索サーバ20及び検索サーバ20に分散して保持させる(ステップS11)。検索サーバ20及び検索サーバ20は、後述する抽出処理において、自身が保持するユーザデータのみを処理対象とすることで、高速に抽出結果を返すことを可能にする。
すなわち、検索サーバ20及び検索サーバ20は、ユーザデータをユーザデータサーバ40から取得する。そして、検索サーバ20及び検索サーバ20は、取得したユーザデータの読み込み処理が完了し、ユーザデータを抽出処理の対象とすることが可能になった時点で、保持するユーザデータのメタデータを更新する(ステップS12)。具体的には、検索サーバ20及び検索サーバ20は、保持するユーザデータについて抽出処理が可能になったことや、保持するユーザデータの所在場所を示す情報などのメタデータをメタデータサーバ50に送信する。そして、メタデータサーバ50は、取得したメタデータをメタデータ記憶部51に格納することで、メタデータを更新する。
ここで、抽出処理システム1を利用する情報利用者P1は、利用者端末10を介して、任意のクエリを抽出装置100に送信する(ステップS13)。任意のクエリは、例えば、情報利用者P1が利用者端末10に入力する任意のテキストで示される。図1に示した例において、利用者端末10は、「都内在住で、一週間以内に商品「AAA」を検索したユーザ数は?」というクエリを抽出装置100に送信する。
そして、抽出装置100は、利用者端末10から受け付けたクエリを解析する(ステップS14)。具体的には、抽出装置100は、利用者端末10から受け付けたクエリを解析し、検索サーバ20に係るウェブ検索エンジンが処理可能な形態に分解する。一例としては、抽出装置100は、受け付けたクエリを、「都内在住」と、「直近一週間、商品「AAA」、検索」という2種類の検索対象に分解する。これにより、検索サーバ20は、ユーザの属性情報に基づいて、「都内在住」のユーザであるか否かを判定し得る。また、検索サーバ20は、ユーザの行動履歴に基づいて、「直近一週間、商品「AAA」、検索」に合致する行動をしたユーザか否かを判定し得る。このように、抽出装置100は、利用者端末10から受け付けた任意のクエリについて、検索サーバ20が利用可能な形態に変換する。
続いて、抽出装置100は、メタデータサーバ50にアクセスし、メタデータ記憶部51に記憶されているメタデータを取得する(ステップS15)。そして、抽出装置100は、解析したクエリに関するメタデータを参照することにより、情報利用者P1が要望する条件に沿った結果を抽出するための情報である抽出情報を生成する。
抽出情報には、「都内在住」など検索サーバ20が検索を実行するための検索対象となる情報と、検索を実行する際の基準となる時間情報(以下、「基準日時」と表記する)とが含まれる。
以下に、基準日時について説明する。基準日時は、上記のように、情報利用者P1が要望する条件に沿った抽出結果を得るために利用される。ここで、ユーザデータは、ユーザデータサーバ40により随時取得され、検索サーバ20又は検索サーバ20に随時分散されて処理される。このため、検索サーバ20及び検索サーバ20がユーザデータを処理できるようになる時間について、検索サーバ20及び検索サーバ20間に差が生じる場合がある。そして、抽出装置100が、基準日時を参照せずに抽出処理のための情報を検索サーバ20及び検索サーバ20に送信した場合には、所定の日時において、抽出されるユーザに差異が生じうる可能性がある。
例えば、同一の日時に同一の検索行動を行った二人のユーザがいて、一のユーザデータは検索サーバ20に保持され、残りの一のユーザデータは検索サーバ20に保持されたとする。そして、検索サーバ20においては一のユーザデータの読み込み処理が終了して抽出処理の対象となっているのに対し、検索サーバ20においては残りの一のユーザデータの読み込み処理が終了しておらず、抽出処理の対象となっていないものとする。ここで、検索サーバ20及び20において抽出処理が実行された場合、検索サーバ20においては、条件に該当するユーザとして一のユーザが抽出されるのに対して、検索サーバ20においては、同一の行動履歴を持つユーザであっても、条件に該当するユーザとして抽出されないことになる。このことは、同時刻に複数の検索サーバ20が検索を行った場合に、抽出される結果に齟齬が生じ得ることを示す。このため、基準日時を参照せずに実行される抽出処理では、抽出されるデータの信頼性が担保されない場合がある。
そこで、抽出装置100は、メタデータを参照することにより、抽出処理を行う全ての検索サーバ20においてユーザデータの読み込みが完了しているか否かを参照する。そして、抽出装置100は、メタデータにおいて、ユーザデータの読み込みが完了していることを示している日時を抽出情報における基準日時として設定する。そして、抽出装置100は、設定された基準日時と、検索対象の内容とを含む抽出情報を生成する。抽出装置100は、生成した抽出情報に基づいて各検索サーバ20に検索を実行させることで、各検索サーバ20間で齟齬のない、信頼性の高いデータを取得することができる。
そして、抽出装置100は、生成した抽出情報に基づいて、検索サーバ20及び検索サーバ20に検索の問い合わせを行う(ステップS16)。言い換えれば、抽出装置100は、検索サーバ20及び検索サーバ20に抽出情報を送信し、送信した抽出情報に基づいた抽出処理を検索サーバ20及び検索サーバ20に実行させる。検索サーバ20及び検索サーバ20は、送信された抽出情報に基づいて、ウェブ検索エンジンを利用して保持するユーザデータの中から条件に合致したユーザを検索する(ステップS17)。そして、検索サーバ20及び検索サーバ20は、検索されたユーザを計数することにより、結果であるユーザ数を算出する。そして、検索サーバ20及び検索サーバ20は、算出されたユーザ数を抽出処理の結果として抽出装置100に送信する。
抽出装置100は、検索サーバ20及び検索サーバ20から送信された抽出結果を受信することにより、各抽出結果を取得する(ステップS18)。そして、抽出装置100は、検索サーバ20及び検索サーバ20から取得したユーザ数を合算することにより、情報利用者P1が要望するユーザ数を計数する。そして、抽出装置100は、計数した抽出結果(ユーザ数)を利用者端末10に通知する(ステップS19)。
上記のように、実施形態に係る抽出装置100は、情報利用者P1から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジンに抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、任意のクエリに対応するユーザの数を抽出結果として取得する。また、実施形態に係る抽出装置100は、任意のクエリを送信した情報利用者P1に対して、取得されたユーザの数を通知する。
このように、実施形態に係る抽出装置100は、ユーザデータに対して既存のウェブ検索エンジンを利用することによって、情報利用者P1が要望する条件に沿ったユーザを高速に抽出することができる。一般的には、ユーザデータ等のデータは、RDB(Relational Database、関係データベース)やKVS(Key-Value Store、キーバリューストア)のような方式により保持される。そして、データの利用の際には、各方式に対応する読出し方式によって目的のデータが抽出される。しかしながら、RDBを利用する場合には、情報利用者P1による自由なカラムの追加が困難であり、膨大なデータの中から適切なデータを抽出することができるとは言い難い。また、KVSにおいては、一定の標識(キー)を指定してデータの読出し処理を行うため、情報利用者が柔軟に条件を指定してデータを活用することができるとは言い難い。一方、実施形態に係る抽出装置100によれば、ユーザの行動履歴などのユーザデータに対して、ウェブ検索エンジンを利用して検索を行うため、情報利用者は自由な条件を用いてデータを抽出することができる。また、ウェブ検索エンジンでは、各ユーザの詳細なデータを抽出結果として返さずに、ユーザデータの中から条件に沿って抽出された(検索でヒットした)ユーザの人数を返す。これにより、実施形態に係る抽出装置100は、DMP事業などで用いられる膨大な量のユーザデータの中から、情報利用者P1の目的に沿った抽出結果を高速に返すことができる。すなわち、情報利用者P1は、特定の商品に興味を持つユーザの数を素早く認識することができる。例えば、情報利用者P1が広告主である場合には、特定の商品に関して広告配信すべきユーザ数を素早く認識することができる。また、情報利用者P1は、ユーザの抽出に関する条件を自由に設定しうるので、より広告効果が高いと想定される需要者層のユーザ数を容易に把握することができる。このように、実施形態に係る抽出装置100によれば、情報利用者P1は、ユーザデータを柔軟に活用することができる。
〔2.抽出装置100の構成〕
次に、図2を用いて、実施形態に係る抽出装置100の構成について説明する。図2は、実施形態に係る抽出装置100の構成例を示す図である。図2に示すように、抽出装置100は、通信部110と、検索ID記憶部120と、制御部130とを有する。
(通信部110について)
通信部110は、ネットワークNと有線又は無線で接続され、利用者端末10、検索サーバ20及びメタデータサーバ50との間で情報の送受信を行う。例えば、通信部110は、NIC(Network Interface Card)等によって実現される。
(検索ID記憶部120について)
検索ID記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
検索ID記憶部120は、利用者端末10から投稿されるクエリに基づいた検索IDを記憶する。ここで、図3に、実施形態に係る検索ID記憶部120の一例を示す。図3に示した例では、検索ID記憶部120は、「検索ID」、「検索対象」といった項目を有する。
「検索ID」は、利用者端末10から投稿されたクエリが示す条件の内容であって、検索サーバ20に実行させる検索処理の内容を識別するための識別情報を示す。具体的には、「検索ID」は、解析されたクエリに関する、「直近一週間、商品「AAA」、検索」などの行動履歴や、「都内在住」などのユーザの属性情報を識別するための識別情報である。なお、以下では、検索IDを検索対象の参照符号として用いる場合がある。例えば、検索ID「C10」によって識別される検索対象を「検索対象C10」と表記する場合がある。
「検索対象」は、利用者端末10から投稿されたクエリが示す条件の内容であって、検索対象とするユーザの属性や行動の内容を示す。具体的には、抽出装置100は、利用者端末10から「都内在住で、一週間以内に商品「AAA」を検索したユーザ数は?」というクエリを受け付けた場合には、「直近一週間、商品「AAA」、検索」と、「都内在住」とを検索対象とするように、クエリが示す条件を解析する。そして、抽出装置100は、それぞれの検索対象に検索IDを付与するとともに、検索IDと検索対象とを対応付けて検索ID記憶部120に格納する。
すなわち、図3では、検索対象「直近一週間、商品「AAA」、検索」には、検索ID「C10」が付与され、検索対象「都内在住」には、検索ID「C20」が付与されている例を示している。
(制御部130について)
制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、抽出装置100内部の記憶装置に記憶されている各種プログラムがRAM(Random Access Memory)を作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図2に示すように、制御部130は、クエリ受付部131と、検索アクセス部132と、通知部137とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図2に示した接続関係に限られず、他の接続関係であってもよい。
(クエリ受付部131について)
クエリ受付部131は、投稿されるクエリを受け付ける。具体的には、実施形態に係るクエリ受付部131は、情報利用者P1の要望に対応する任意のクエリを利用者端末10から受け付ける。
(検索アクセス部132について)
検索アクセス部132は、検索処理を実行する装置にアクセスし、所定の情報の送受信を行う。図2に示すように、実施形態に係る検索アクセス部132は、クエリ解析部133と、抽出情報生成部134と、抽出情報送信部135と、抽出結果取得部136とを有する。
(クエリ解析部133について)
クエリ解析部133は、検索サーバ20に係るウェブ検索エンジンが検索処理を実行可能なように、受け付けたクエリを解析する。具体的には、実施形態に係るクエリ解析部133は、ウェブ検索エンジンがクエリの示す条件を認識可能となるように、受け付けたクエリを検索対象とするユーザの属性情報や行動情報の単位に解析する。例えば、クエリ解析部133は、クエリ受付部131が利用者端末10から「都内在住で、一週間以内に商品「AAA」を検索したユーザ数は?」というクエリを受け付けた場合には、受け付けたクエリを、「都内在住」と、「直近一週間、商品「AAA」、検索」との2種類の検索対象に解析する。
そして、クエリ解析部133は、各検索対象について、過去に検索IDを付与したことがあるか否かを判定する。具体的には、クエリ解析部133は、検索ID記憶部120に記憶されている検索IDを参照する。そして、クエリ解析部133は、過去に検索IDを付与したことがない検索対象が解析したクエリに含まれている場合には、新たに検索IDを発行し、検索対象に付与する。そして、クエリ解析部133は、検索IDと検索対象とを対応付けて検索ID記憶部120に格納する。
(抽出情報生成部134について)
抽出情報生成部134は、抽出情報を生成する。具体的には、実施形態に係る抽出情報生成部134は、クエリ解析部133が解析した情報に基づいて、ウェブ検索エンジンに抽出対象を特定させる情報である抽出情報を生成する。上述のように、抽出情報は、検索サーバ20が検索処理を実行するための検索対象に係る情報と、メタデータに基づいて特定される基準日時に係る情報とを含む。ここで、メタデータが記憶されるメタデータ記憶部51について説明する。
(メタデータ記憶部51について)
メタデータ記憶部51は、メタデータサーバ50内に備えられる記憶装置である。例えば、メタデータ記憶部51は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
メタデータ記憶部51は、検索サーバ20が保持するユーザデータに関するメタデータを記憶する。ここで、図4に、実施形態に係るメタデータ記憶部51の一例を示す。図4に示した例では、メタデータ記憶部51は、「検索ID」、「基準日時」、「状態」といった項目を有する。
「検索ID」は、検索サーバ20がユーザデータサーバ40から取得したユーザデータを解析した結果得られる情報であって、検索サーバ20が検索対象とするユーザの属性や行動履歴を含む情報を識別するための識別情報を示す。なお、検索サーバ20がユーザデータを解析した際に検索対象に付与する検索IDと、抽出装置100がクエリを解析した際に検索対象に付与する検索IDとは、同様の検索対象に対して、共通した検索IDが発行される。言い換えれば、抽出装置100は、取得したメタデータに記憶されている検索対象と同じ内容を示すクエリに対して、同じ検索IDを付与する。これにより、検索サーバ20は、抽出装置100から送信される検索対象に該当するユーザを検索することができる。
「基準日時」は、検索サーバ20が検索を実行する際の基準となる日時を示す。図4に示すように、例えば、検索ID「C10」の検索対象の内容は、「2014年6月12日00時00分00秒」、「2014年6月13日00時00分00秒」、「2014年6月14日00時00分00秒」、・・・、のように、24時間単位で基準日時が更新される。また、検索ID「C20」の検索対象の内容は、「2014年5月1日00時00分00秒」、「2014年6月1日00時00分00秒」、「2014年7月1日00時00分00秒」、・・・、のように、1カ月単位で基準日時が更新されることを示している。このように、基準日時は、保持するユーザデータの内容によって更新タイミングが異なる場合がある。例えば、検索ID「C10」が示す検索対象である検索行動のように、比較的新しいデータの方がより信頼性の高いデータに関しては、メタデータは頻繁に更新されることが望ましい。一方、検索ID「C20」が示す検索対象であるユーザの住所などの属性情報に関しては、メタデータの更新を検索行動等と比較して頻繁に行わなくても、信頼性の高いデータが得られる可能性が高い。このように、検索サーバ20は、メタデータを更新するタイミングを検索対象毎に適宜変えることにより、更新の処理負荷を軽減する。
「状態」は、検索IDに対応する基準日時の時点で、検索サーバ20、検索サーバ20、・・・、検索サーバ20(nは任意の数)におけるユーザデータの読み込み状態を示す。「状態」の項目における「終了」は、より新しい基準日時が設定されたため、現時点において検索処理に用いない基準日時であることを示す。「状態」の項目における「完了」は、現時点において、全ての検索サーバ20のユーザデータの読み込み処理が完了していることを示す。すなわち、抽出装置100に係る抽出情報生成部134は、「完了」状態である基準日時を用いて、検索サーバ20に対象を抽出させるための抽出情報を生成する。「状態」の項目における「読み込み中」は、現時点において、いずれかの検索サーバ20でユーザデータを読み込んでいる途中であることを示す。抽出情報生成部134が「読み込み中」状態である基準日時を用いて抽出情報を生成した場合には、上述のように、検索サーバ20毎に抽出結果の食い違いが生じる抽出処理を実行させる可能性がある。このため、抽出情報生成部134は、「読み込み中」状態にある基準日時を用いて抽出情報を生成しない。
すなわち、図4では、検索ID「C10」が付与された検索対象についての基準日時「2014年6月12日00時00分00秒」は、「終了」状態であることを示している。また、基準日時「2014年6月13日00時00分00秒」は、「完了」状態であることを示している。また、基準日時「2014年6月14日00時00分00秒」は、「読み込み中」状態であることを示している。
ここで、抽出情報生成部134は、メタデータ記憶部51に記憶された上記の情報を取得する。そして、抽出情報生成部134は、行動履歴に関するメタデータに基づいて、行動履歴のうちウェブ検索エンジンが検索の対象とする行動履歴か否かを判定する基準の日時である基準日時が設定された抽出情報を生成する。なお、抽出情報生成部134は、行動履歴に関するメタデータに基づいて、ウェブ検索エンジンが検索対象とした内容と同一又は類似の内容を示すクエリから、同一又は類似の検索対象を示す抽出情報を生成する。これにより、抽出情報生成部134は、ウェブ検索エンジンが検索対象とした内容と整合性のとれた抽出情報を生成することができる。上記のように、ウェブ検索エンジンが検索対象とした内容と、抽出情報生成部134が検索対象とする行動履歴の内容とは、完全に一致することを要しない。すなわち、抽出情報生成部134は、ウェブ検索エンジンが検索対象とした内容について、拡張して解釈することができる。例えば、抽出情報生成部134は、ウェブ検索エンジンが検索対象とした内容を示すクエリの類似語や、類義語や、関連語に該当するクエリに基づいて、ウェブ検索エンジンが検索対象とした内容と類似する内容や、関連する内容の検索対象を示す抽出情報を生成してもよい。
具体的には、抽出情報生成部134は、検索ID「C10」に係る検索対象においては、「完了」状態である「2014年6月13日00時00分00秒」の基準日時を用いて抽出情報を生成する。この場合、抽出情報生成部134は、例えば、抽出情報「C10−20140613」のように表される抽出情報を生成する。抽出情報「C10−20140613」は、検索ID「C10」に関して、検索サーバ20が保持するユーザデータのうち、「2014年6月13日00時00分00秒」以前における行動履歴であって、「直近一週間、商品「AAA」、検索」に該当する行動履歴を持つユーザを抽出させる指示をウェブ検索エンジンに与えるための情報である。言い換えれば、検索サーバ20は、抽出情報「C10−20140613」を受け付けることにより、抽出情報「C10−20140613」に示される条件に該当するユーザを検索する。同様に、抽出情報生成部134は、検索ID「C20」に係る抽出情報においては、「完了」状態である「2014年6月1日00時00分00秒」の基準日時を用いる。この場合、抽出情報生成部134は、例えば、抽出情報「C20−20140601」のように表される抽出情報を生成する。抽出情報「C20−20140601」は、検索サーバ20が保持するユーザデータのうち、「2014年6月1日00時00分00秒」以前において「都内在住」に該当する属性情報を有するユーザを抽出させる指示をウェブ検索エンジンに与える情報である。
(抽出情報送信部135について)
抽出情報送信部135は、抽出情報を送信する。具体的には、実施形態に係る抽出情報送信部135は、抽出情報生成部134が生成した抽出情報を各検索サーバ20に送信する。
(抽出結果取得部136について)
抽出結果取得部136は、抽出結果を取得する。具体的には、実施形態に係る抽出結果取得部136は、抽出情報送信部135が送信した抽出情報を受け付けた検索サーバ20から、送信した抽出情報に対応した抽出結果を取得する。言い換えれば、抽出結果取得部136は、情報利用者P1から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジン(ここでは、検索サーバ20が相当する)に抽出処理を実行させることにより、処理対象であるユーザの行動履歴の中から任意のクエリに対応するユーザの数を抽出結果として取得する。例えば、抽出結果取得部136は、ユーザの行動又は属性に関する条件の設定に関するクエリに基づいて、クエリに対応するユーザの数を取得する。
また、抽出結果取得部136は、基準日時が設定された抽出情報を用いて、基準日時以前における行動履歴が記憶されているユーザのうち、基準日時が設定された抽出情報に対応するユーザの数をウェブ検索エンジンに抽出させることにより、送信した抽出情報に対応した抽出結果を取得する。
また、抽出結果取得部136は、ユーザ毎に分散されたユーザの行動履歴に関する情報を処理する複数のウェブ検索エンジンに対して、共通する任意のクエリに基づいて抽出処理を実行させることにより、各ウェブ検索エンジンが抽出したユーザの数を取得する。
(通知部137について)
通知部137は、抽出結果を通知する。具体的には、実施形態に係る通知部137は、抽出結果取得部136が取得した抽出結果として、情報利用者P1から受け付けた任意のクエリに該当するユーザ数に関する情報を利用者端末10に通知する。
なお、通知部137は、抽出結果取得部136が複数の検索サーバ20から抽出結果を取得した場合には、抽出結果取得部136によって各検索サーバ20から取得されたユーザの数を合算した数を通知する。
〔3.検索サーバ20の構成〕
次に、図5を用いて、実施形態に係る検索サーバ20の構成について説明する。図5は、実施形態に係る検索サーバ20の構成例を示す図である。図5に示すように、検索サーバ20は、通信部21と、ユーザデータ記憶部22と、処理データ記憶部23と、制御部24とを有する。なお、検索サーバ20は、検索サーバ20を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部21について)
通信部21は、例えば、NIC等によって実現される。通信部21は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、抽出装置100やメタデータサーバ50との間で情報の送受信を行う。
(ユーザデータ記憶部22について)
ユーザデータ記憶部22及び処理データ記憶部23は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
ユーザデータ記憶部22は、ユーザデータを記憶する。具体的には、実施形態に係るユーザデータ記憶部22は、ユーザデータサーバ40がユーザデータに係るユーザ毎に各検索サーバ20に分散したユーザデータを記憶する。
ここで、ユーザデータサーバ40について説明する。ユーザデータサーバ40は、ユーザデータを保持するサーバ装置である。上述のように、ユーザとは、抽出処理システム1の抽出処理の対象となる者であり、例えば、ネットワークNを介して、所定のウェブサイトを閲覧したり、検索サイトで検索をしたりした者である。このようなユーザの行動履歴を含むユーザデータは、例えば、ユーザが利用する情報端末とウェブサイトを提供するウェブサーバとの間でやり取りされるHTTPクッキー(HyperText Transfer Protocol Cookie:以下、単に「クッキー」と表記する)に含まれる。ユーザデータサーバ40は、例えば、クッキーに含まれるユーザ識別情報等をウェブサーバから取得し、各ユーザと、各ユーザの行動履歴とを対応付けて記憶する。なお、ユーザデータサーバ40がユーザデータを取得する手法は上記に限られない。例えば、所定のウェブサイトには、ウェブビーコン(web beacon)等によって実現される、ユーザデータに関する通知機能が埋め込まれる場合がある。例えば、ウェブビーコンは、ウェブページにアクセスしたユーザが利用する情報端末をユーザデータサーバ40内に格納される透明な画像又は非常に小さな画像(「クリアGIF」と呼ばれることもある)にアクセスさせる機能を有する。これにより、ユーザデータサーバ40は、ユーザが利用する情報端末からユーザデータを受信し、取得する。
また、ユーザデータサーバ40は、各ユーザの属性情報等についても保持する。例えば、ユーザデータサーバ40は、ユーザデータサーバ40の管理者と同一又は関連する管理者が提供するポータルサイトにおいてユーザがユーザデータを登録する内容等に基づいて、ユーザの年齢や、性別や、住所等の属性情報を取得することができる。すなわち、ユーザデータは、ユーザの行動情報のみならず、ユーザの行動に伴って取得されるユーザの属性情報をも含むデータである。
そして、ユーザデータサーバ40は、取得したユーザデータを各検索サーバ20に分散して処理させる。なお、ユーザデータサーバ40は、ユーザデータを各検索サーバ20に分散する際には、各ユーザデータが示すユーザ毎に各検索サーバ20に分散する。すなわち、ユーザデータは、ある特定のユーザの一のユーザデータが検索サーバ20に保持され、かつ、同一のユーザの他のユーザデータが検索サーバ20に保持されることはない。このように同一のユーザを示すユーザデータが分散して検索サーバ20に保持された場合、抽出処理において、抽出されるユーザが重複したり、適切にユーザの抽出がなされなかったりする可能性があるからである。
ユーザデータ記憶部22の説明に戻る。ここで、図6に、実施形態に係るユーザデータ記憶部22の一例を示す。図6は、実施形態に係るユーザデータ記憶部22の一例を示す図である。図6に示した例では、ユーザデータ記憶部22は、「行動日時」、「ユーザID」、「ユーザ属性データ」、「検索クエリ」といった項目を有するアクセスログを含むユーザデータファイルF01を記憶する。
「行動日時」は、ユーザが情報端末等を利用して、ユーザデータファイルF01に記憶される行動を行った日時を示す。ユーザデータファイルF01において、「行動日時」は、例えば、「2014/06/11_10:00:00」のように表される。言い換えれば、「行動日時」は、ユーザが所定のポータルサイト等において検索行動を実行したときに作成されるアクセスログに記憶される日時のことを示す。
「ユーザID」は、ユーザを識別するための識別情報である。ユーザデータファイルF01において、「ユーザID」は、例えば、「UserID=U11」のように表される。ここで、ユーザの識別は、例えば、ユーザが利用する情報端末と所定のウェブサーバとの間でやり取りされるクッキーにユーザ識別情報を含めることよって行うことができる。また、ユーザを識別する手法は上記に限られない。例えば、ユーザが利用する情報端末に専用のプログラムを設定し、かかる専用プログラムからユーザ識別情報をユーザデータサーバ40に送信させるようにすることもできる。また、ユーザデータにはユーザの属性情報が含まれるので、ユーザID毎にユーザの属性情報が特定される。ユーザデータファイルF01において、ユーザの属性情報は、例えば、「User data=・・・」や、「Address=Tokyo」のように表される。なお、ユーザデータ記憶部22は、ユーザの行動情報と、ユーザの属性情報を別々に記憶してもよい。この場合、ユーザの属性情報は、ユーザデータファイルF01には記載されずに、別の所定のデータファイルに記憶される。この場合、検索サーバ20は、ユーザIDを各々のファイル間で対応させることにより、各ファイルの情報をユーザ毎に関連付けることができる。
「検索クエリ」は、検索要求を文字列として表したものである。ここでは、ユーザが利用する情報端末によって検索が行われる際に入力された文字列を意味する。例えば、検索に用いた任意の商品名「AAA」などが該当する。図6に示すように、ユーザデータファイルF01において、「検索クエリ」は、例えば、「Query=AAA」のように表される。
すなわち、図6に示したユーザデータファイルF01には、ユーザIDが「U11」であるユーザに操作される情報端末が、検索クエリ「AAA」を入力して「2014年6月11日10時00分00秒」に検索を行ったことを示す。
なお、ここでは、実施形態に係るユーザデータ記憶部22の記憶するユーザデータとして、図6に示すように、ユーザの行動履歴として検索履歴が含まれる例を示した。しかし、ユーザデータ記憶部22は、アクセスログとして、行動履歴である「Query」に代わり、例えば、商品の購入を示す行動履歴や、バナー広告をクリックしたことを示す行動履歴などを記憶してもよい。この場合には、ユーザデータ記憶部22は、行動履歴の種別毎に新たなユーザデータファイルを作成する。
(処理データ記憶部23について)
処理データ記憶部23は、ユーザデータを検索処理に適する形態に処理した後のデータである処理データを記憶する。図5に示すように、実施形態に係る処理データ記憶部23は、第1処理データテーブル23a及び第2処理データテーブル23bを有する。
第1処理データテーブル23aは、ユーザデータを検索処理に適する形態に処理した後のデータである処理データを記憶する。ここで、図7に、実施形態に係る第1処理データテーブル23aの一例を示す。図7に示した例では、第1処理データテーブル23aは、「抽出情報ID」、「ユーザID」といった項目を有する。
「抽出情報ID」は、ユーザデータから条件に該当するユーザを抽出するための抽出情報を識別するための識別情報を示す。また、「ユーザID」は、ユーザデータのうち、抽出情報に対応するユーザを識別する識別情報を示す。
すなわち、図7では、抽出情報ID「C10―20140612」に対応するユーザは、ユーザID「U11、U14、U15、U16」であることを示している。また、抽出情報ID「C10―20140613」に対応するユーザは、ユーザID「U11、U14、U15、U16、U31」であることを示している。また、抽出情報ID「C10―20140614」に対応するユーザは、ユーザID「U11、U14、U15、U16、U31、U41、・・・」であり、いまだ全てのユーザIDが確定していない状態であることを示している。言い換えれば、抽出情報ID「C10―20140614」に対応するユーザデータは、検索サーバ20において読み込み中であることを示している。
図7に示すように、第1処理データテーブル23aは、ユーザを抽出するための情報である抽出情報IDを有するとともに、抽出情報に対応するユーザを配置して記憶する、いわゆる転置インデックスの形態を有する。これにより、検索サーバ20は、処理データ記憶部23に記憶されたデータに関して、ウェブ検索エンジンを利用して高速に検索処理を実行することができる。
第2処理データテーブル23bについても、ユーザデータを検索処理に適する形態に処理した後のデータである処理データを記憶する。ここで、図8に、実施形態に係る第2処理データテーブル23bの一例を示す。図8に示すように、第2処理データテーブル23bは、第1処理データテーブル23aと同様に、「抽出情報ID」、「ユーザID」といった項目を有する。
すなわち、図8では、抽出情報ID「C20―20140501」に対応するユーザは、ユーザID「U11、U12、U13、U15、U17、U18、U31、U41」であることを示している。また、抽出情報ID「C20―20140601」に対応するユーザも、ユーザID「U11、U12、U13、U15、U17、U18、U31、U41」であることを示している。また、抽出情報ID「C20―20140701」に対応するユーザは、いまだ全てのユーザIDが確定していない状態であることを示している。
(制御部24について)
制御部24は、例えば、CPUやMPU等によって、検索サーバ20内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部24は、例えば、ASICやFPGA等の集積回路により実現される。
図5に示すように、制御部24は、ユーザデータ受付部25と、処理エンジン部26と、検索エンジン部29と、抽出結果送信部32とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部24の内部構成は、図5に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部24が有する各処理部の接続関係は、図5に示した接続関係に限られず、他の接続関係であってもよい。
(ユーザデータ受付部25について)
ユーザデータ受付部25は、ユーザデータを受け付ける。具体的には、実施形態に係るユーザデータ受付部25は、ユーザデータサーバ40から送信されるユーザデータを受け付け、受け付けたユーザデータをユーザデータ記憶部22に記憶する。
(処理エンジン部26について)
処理エンジン部26は、ウェブ検索エンジンにおけるデータの処理段階に関する処理を実行する。図5に示すように、処理エンジン部26は、ユーザデータ処理部27と、メタデータ更新部28を有する。
(ユーザデータ処理部27について)
ユーザデータ処理部27は、検索エンジン部が検索処理を実行することができるように、ユーザデータを分析処理する。具体的には、ユーザデータ処理部27は、ユーザデータ記憶部22に記憶されているユーザデータについて、ユーザの行動情報とユーザの属性情報とに分解し、各々の情報に検索IDを付与する。なお、ユーザの行動情報や、ユーザの属性情報に付与される検索IDは、抽出装置100に係るクエリ解析部133が付与する検索IDと共通する。
ここで、ユーザデータ処理部27が、図6に示すユーザデータ記憶部22内のユーザデータファイルF01に記憶されているユーザデータを処理する例について説明する。ユーザデータ処理部27は、ユーザU11に関するデータを処理する場合、行動日時と、検索クエリの項目に基づき、「直近一週間、商品「AAA」、検索」に該当する行動履歴に対して検索ID「C10」を付与する。また、ユーザデータ処理部27は、ユーザU11が有する属性情報を分析する。そして、ユーザデータ処理部27は、ユーザU11が「address=Tokyo」で示される属性情報を有することから、「都内在住」を示す検索ID「C20」を付与する。このように、ユーザデータ処理部27は、他のユーザU12、U13、U14、・・・、の行動を示すユーザデータに対しても、それぞれ該当する検索IDを付与する。
そして、ユーザデータ処理部27は、処理したユーザデータと抽出情報IDとを対応付けて第1処理データテーブル23a及び第2処理データテーブル23bに記憶する。この場合の抽出情報IDとは、検索IDに図4で示すような基準日時を含ませて生成される抽出情報を識別する情報である。すなわち、ユーザデータ処理部27は、検索IDと、基準日時をともに満たすユーザIDを検出し、抽出情報IDに対応付けて記憶する。例えば、図6において、ユーザU11は、「2014年6月11日10時00分00秒」に検索行動を行っている。この場合、ユーザU11は、基準日時「2014年6月12日00時00分00秒」の時点で、検索ID「C10」を満たすユーザである。言い換えれば、ユーザU11は、基準日時「2014年6月12日00時00分00秒」の時点で、「直近一週間以内に、商品「AAA」について、検索を実行した」ユーザに該当する。このとき、第1処理データテーブル23aにおいて、抽出情報ID「C10−20140612」に対応するユーザとして、ユーザU11が配置される。また、ユーザU11は、基準日時「2014年6月13日00時00分00秒」及び基準日時「2014年6月14日00時00分00秒」の時点においても、検索ID「C10」を満たすユーザである。よって、図7に示すように、第1処理データテーブル23aにおいて、抽出情報ID「C10−20140613」及び抽出情報ID「C10−20140614」に対応するユーザとしても、ユーザU11は配置される。ユーザデータ処理部27は、随時ユーザデータ受付部25が受け付けるユーザデータに関して上記処理を実行する。このようにして、ユーザデータ処理部27は、各ユーザデータの転置インデックスとして、各処理データテーブルを生成する。そして、ユーザデータ処理部27は、生成したデータテーブルを処理データ記憶部23に記憶する。
(メタデータ更新部28について)
メタデータ更新部28は、ユーザデータに関するメタデータを更新する。具体的には、実施形態に係るメタデータ更新部28は、ユーザデータ処理部27が実行する分析処理が完了した時点で、ユーザデータの読み込み処理が完了したことを示すメタデータを生成する。そして、メタデータ更新部28は、メタデータサーバ50にアクセスし、生成したメタデータを送信することで、記憶されているメタデータを更新させる。例えば、ユーザデータ処理部27が、検索ID「C10」に係るユーザデータであって、「2014年6月12日」に係るユーザデータの読み込みを完了させたものとする。この場合、メタデータ更新部28は、「読み込み中」の状態であった検索ID「C10」、かつ、基準日時「2014年6月13日00時00分00秒」に該当するメタデータの状態を「完了」に更新する。
なお、メタデータ更新部28は、ユーザデータの格納場所を示すメタデータに関してもメタデータ記憶部51のデータを更新する。これにより、ユーザデータサーバ40から分散されたユーザデータについて、いずれの検索サーバ20により保持され、またいずれの検索サーバ20において抽出処理等が実行されているかを識別することができる。
(検索エンジン部29について)
検索エンジン部29は、ウェブ検索エンジンにおいてデータの検索に関する処理を実行する。図5に示すように、検索エンジン部29は、抽出情報受付部30と、抽出部31を有する。
(抽出情報受付部30について)
抽出情報受付部30は、抽出処理における任意のクエリを受け付ける。具体的には、実施形態に係る抽出情報受付部30は、抽出装置100に係る抽出情報送信部135が送信する抽出情報を任意のクエリとして受け付ける。なお、抽出情報受付部30が受け付ける任意のクエリとは、情報利用者P1が抽出装置100に送信したクエリと同一であることを要しない。ここでいう任意のクエリとは、ウェブ検索エンジンにおける抽出処理の契機となる要求(問い合わせ)を文字列として表したものを意味する。すなわち、抽出情報受付部30は、抽出装置100に係る抽出情報送信部135が送信する抽出情報を、検索処理の契機となる要求である任意のクエリとして受け付ける。
(抽出部31について)
抽出部31は、処理対象とするデータのうち、任意のクエリにより示される所定の条件に対応するデータを抽出する。具体的には、実施形態に係る抽出部31は、処理データ記憶部23に行動履歴が記憶されているユーザのうち、抽出情報受付部30によって受け付けられた任意のクエリ(すなわち、抽出情報受付部30によって受け付けられた抽出情報)に対応するユーザの数を抽出する。例えば、抽出部31は、受け付けた抽出情報が「C10−20140613」及び「C20−20140601」である場合には、各抽出情報に対応するユーザを検索結果として抽出する。すなわち、抽出部31は、受け付けた抽出情報「C10−20140613」に対しては、図7に示すように、ユーザID「U11、U14、U15、U16、U31」を検索する。また、抽出部31は、受け付けた抽出情報「C20−20140601」に対しては、図8に示すように、ユーザID「U11、U12、U13、U15、U17、U18、U31、U41」を検索する。そして、抽出部31は、両方の検索結果に共通するユーザID「U11、U15、U31」を抽出する。この場合、抽出部31は、受け付けた抽出情報に対する抽出結果として、該当するユーザ数である「3」を算出する。
(抽出結果送信部32について)
抽出結果送信部32は、抽出結果を送信する。具体的には、実施形態に係る抽出結果送信部32は、抽出情報受付部30が受け付けた抽出情報に対して、抽出部31が抽出処理を実行した結果として、抽出情報に該当するユーザ数を抽出装置100に送信する。
〔4.抽出処理手順〕
次に、図9を用いて、実施形態に係る抽出処理システム1による抽出処理の手順について説明する。図9は、実施形態に係る抽出処理システム1による抽出処理手順を示すシーケンス図である。
図9に示すように、ユーザデータサーバ40は、ユーザデータを検索サーバ20に分散する(ステップS101)。そして、検索サーバ20は、ユーザデータの読み込みが完了した旨等を示すユーザデータのメタデータについて、メタデータサーバ50内に記憶されるメタデータを更新する(ステップS102)。
続いて、利用者端末10は、情報利用者P1が抽出を所望するユーザの条件に沿うクエリを抽出装置100に送信する(ステップS103)。抽出装置100は、受け付けたクエリを解析する(ステップS104)。また、抽出装置100は、解析したクエリごとの検索IDに対応するメタデータをメタデータサーバ50から取得する(ステップS105)。
そして、抽出装置100は、検索IDとメタデータに基づいて抽出情報を生成する(ステップS106)。続いて、抽出装置100は、抽出情報に該当するユーザを検索させるために、検索サーバ20に抽出情報を問い合わせる(ステップS107)。
そして、抽出情報を受け付けた検索サーバ20は、抽出情報に該当するユーザを抽出する(ステップS108)。続いて、検索サーバ20は、抽出結果を抽出装置100に送信する(ステップS109)。そして、抽出装置100は、各検索サーバ20から受け付けた抽出結果を合算した結果を抽出結果として、利用者端末10に送信する(ステップS110)。
〔5.抽出装置の抽出処理手順〕
次に、図10を用いて、実施形態に係る抽出装置100による抽出処理の手順について説明する。図10は、実施形態に係る抽出装置100による抽出処理手順を示すフローチャートである。
図10に示すように、抽出装置100は、利用者端末10からクエリを受け付けたか否かを判定する(ステップS201)。そして、抽出装置100は、クエリを受け付けていない場合には(ステップS201;No)、クエリを受け付けるまで待機する。
一方、抽出装置100は、利用者端末10からクエリを受け付けた場合には(ステップS201;Yes)、受け付けたクエリを解析する(ステップS202)。
そして、抽出装置100は、解析したクエリについて、検索対象とする内容ごとに検索IDを付与する(ステップS203)。続いて、抽出装置100は、メタデータサーバ50からメタデータを取得する(ステップS204)。そして、抽出装置100は、検索IDと、取得したメタデータとに基づいて、抽出情報を生成する(ステップS205)。
続いて、抽出装置100は、各検索サーバ20に対して、抽出情報を問い合わせる(ステップS206)。すなわち、抽出装置100は、各検索サーバ20に対して抽出処理を実行させる。そして、抽出装置100は、処理結果として、抽出された各検索サーバ20のユーザ数を計数する(ステップS207)。そして、抽出装置100は、抽出結果を利用者端末10に通知する(ステップS208)。
〔6.変形例〕
上述した実施形態は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、他の実施形態について説明する。
〔6−1.メタデータ〕
上記実施形態では、図4に示したように、検索サーバ20がユーザデータの読み込みを完了する毎に、メタデータを更新する例を示した。ここで、メタデータの状態は、常に最新のユーザデータが「完了」状態になることを要しない。
例えば、メタデータ更新部28は、適宜メタデータの状態を更新することができる。メタデータの状態が更新された場合、抽出情報生成部134が生成する抽出情報における基準日時には、更新された後の基準日時が設定される。これにより、例えば、ユーザデータの最新の更新データにエラーが存在していた場合であって、最新の更新データを破棄して、過去の時点のユーザデータを使用して抽出処理をしたい場合などに、抽出処理システム1は、柔軟に対応することができる。
また、抽出情報生成部134は、メタデータにおいて、常に「完了」状態の基準日時を設定して抽出情報を生成することを要しない。例えば、情報利用者が、ある過去の時点から遡った所定の行動履歴を有するユーザの抽出を望む場合がありうる。この場合、抽出情報生成部134は、メタデータにおける状態が「終了」である基準日時であっても、かかる基準日時を設定して抽出情報を生成することができる。このように、抽出装置100は、情報利用者の柔軟な要望に応答することができる。
なお、上記実施形態では、図4のように、検索ID「C10」の基準日時の更新タイミングが24時間である例を示した。しかし、メタデータ更新部28は、基準日時の更新タイミングをより短くしてもよいし、より長く設定してもよい。メタデータ更新部28は、基準日時の更新タイミングをより短くすることによって、より新しい行動履歴に該当するユーザを抽出させることが可能になる。
〔6−2.ユーザデータの関連性〕
上記実施形態では、検索サーバ20に係る検索エンジン部29は、抽出情報に合致したユーザを抽出する例を示した。ここで、検索エンジン部29は、抽出情報に関連するユーザ数について抽出してもよい。
例えば、検索対象に係る内容が「直近一週間、クエリ「野球」、検索」であるものとする。この場合、検索エンジン部29は、基準日時以前の直近一週間のうち、クエリ「野球」を検索したユーザを抽出する。ここで、クエリ「野球」に、クエリ「サッカー」が関連付けられていたとする。この場合には、検索エンジン部29は、検索対象「直近一週間、クエリ「野球」、検索」に該当するユーザのみならず、検索対象「直近一週間、クエリ「サッカー」、検索」に該当するユーザの数についても抽出する。
すなわち、抽出装置100は、情報利用者P1が投稿した任意のクエリに関連する内容についても検索対象として、検索サーバ20に検索を実行させることができる。これにより、抽出装置100は、情報利用者P1が入力した条件に関連する条件に対する結果についても、同時に情報利用者P1に提供することができるので、情報利用者P1が抽出処理システム1を利用する際の利便性を向上させることができる。
〔6−3.ウェブ検索エンジン〕
上記実施形態において、検索サーバ20がウェブ検索エンジンを利用してユーザデータを検索し、条件に該当するユーザを抽出する例を示した。また、検索サーバ20は、例えば図7及び図8で示すような転置インデックスを生成し、生成したデータテーブルを利用する例を示した。また、検索サーバ20が有するウェブ検索エンジンは、処理エンジン部26や検索エンジン部29に相当し、例えば、図7及び図8で示すような転置インデックスを利用して検索を実行する例を示した。
上記のように、実施形態におけるウェブ検索エンジンとは、「クローラー」あるいは「スパイダー」と呼ばれるロボット(プログラム)を用いてウェブ上のページの情報を収集し(例えば、ユーザデータサーバ40が実行する処理に相当する)、収集したデータをもとにインデックスに登録する情報の作成、登録及び更新を行い(例えば、処理エンジン部26が実行する処理に相当する)、インデックスに登録されたデータの中から、情報利用者P1から送信されるクエリに対応するデータを抽出する(例えば、検索エンジン部29が実行する処理に相当する)ウェブ検索エンジンである。
すなわち、上記実施形態におけるウェブ検索エンジンは、RDBやKVSの方式以外の読出し方式により、ユーザデータを読み出す処理を実行する。例えば、実施形態に係るウェブ検索エンジンは、RDB方式とは異なり、処理対象とするユーザデータに関して、動的にユーザの行動履歴に関する情報を追加することや、削除することや、変更することができる。具体的には、抽出装置100に係る抽出結果取得部136は、ウェブ検索エンジンとして、ユーザの行動履歴に関する情報について転置インデックスを生成するとともに、転置インデックスを利用することにより情報利用者P1から受け付けた任意のクエリに対応するユーザを抽出する検索エンジンに抽出処理を実行させる。
なお、検索サーバ20が抽出処理において利用するウェブ検索エンジンは、実施形態で示した処理手法に限定されるものではない。すなわち、検索サーバ20が利用するウェブ検索エンジンは、処理対象とするユーザデータに関して、自然文及び論理式の片方、もしくはその両方による任意のクエリを受け付け、受け付けたクエリが示す条件に該当するユーザ数を抽出する抽出手段(例えば、サーバ装置上で動作するプログラム)であればよい。すなわち、実施形態に係るウェブ検索エンジンとは、処理エンジン部26や、抽出結果送信部32等を有することを要しない。例えば、受け付けたクエリに対して検索処理を実行する検索エンジン部29や、検索エンジン部29が有する抽出部31のみを、ウェブ検索エンジンと捉えてもよい。また、上記実施形態において、図5に示すように、検索サーバ20は、処理エンジン部26と検索エンジン部29と、抽出結果送信部32とを各別に有する例を示した。しかし、検索サーバ20は、処理エンジン部26と、検索エンジン部29と、抽出結果送信部32とが統合されたウェブ検索エンジン部を有していてもよい。この場合、検索サーバ20に係るウェブ検索エンジン部は、いわゆる既存のウェブ検索エンジンとして機能し、クエリに該当する検索対象を抽出する処理を実行する。すなわち、ウェブ検索エンジン部は、ユーザデータ受付部25が受け付けたユーザデータを処理対象とし、抽出装置100から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジン(処理エンジン部26及び検索エンジン部29の全部又は一部に相当する)を利用することにより、処理データ記憶部23に行動履歴が記憶されているユーザのうち、任意のクエリに対応するユーザの数を抽出する抽出部と、抽出部によって抽出されたユーザの数を任意のクエリの送信元に送信する送信部とを有する。
また、いわゆる既存のウェブ検索エンジンは、クエリに対して優先度が高い順番に検索結果を出力する仕組みを有する。一方、実施形態に係る検索サーバ20が利用するウェブ検索エンジンは、検索対象とする行動履歴を有するユーザを計数することを目的とするため、必ずしも尤度順に結果を出力することを要しない。このように、上記実施形態におけるウェブ検索エンジンとは、既存のウェブ検索エンジンの仕組みや設計に限定されるものではなく、処理対象に応じて機能や検索手法に調整が加えられたウェブ検索エンジンも含むものとする。
〔6−4.クエリ〕
上記実施形態において、抽出装置100は、利用者端末10から任意のクエリを受け付け、受け付けたクエリを解析することにより、検索対象とする内容を導出する例を示した。上述のように、任意のクエリは、例えば、任意のテキストで表示される。抽出装置100は、例えば、受け付けたテキストに対して形態素解析を実行することにより、受け付けたテキストの内容をウェブ検索エンジンが処理可能な形態に分析する。
しかしながら、抽出装置100は、任意のクエリをテキストとして受け付けるのではなく、例えば、所定のユーザインターフェースを提供することにより抽出処理に係るクエリを受け付けてもよい。この場合、ユーザインターフェースには、検索対象とするユーザの属性や、検索対象とする期間や、検索対象とする行動履歴などを入力するためのスペースが予め設けられる。情報利用者P1は、かかるユーザインターフェースに条件を入力することにより、抽出装置100に検索条件を提示する。抽出装置100は、入力された条件に従い、ウェブ検索エンジンが処理可能なように抽出情報を生成する。
このように、抽出装置100は、種々の形態により情報利用者P1からクエリを受け付けてもよい。例えば、抽出装置100は、ユーザインターフェースを提供することにより、任意のテキストを解析する手間を省くので、処理を高速化することができる。
〔6−5.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図2に示した検索ID記憶部120は、抽出装置100が保持せずに、図示しないストレージサーバ等が保持してもよい。この場合、抽出装置100は、ストレージサーバから検索ID等の情報を取得する。
また、例えば、上記実施形態では、抽出装置100が抽出サービスを提供する例を示したが、抽出サービスを提供する主体は異なるサーバ装置であってもよい。また、例えば、上述した抽出装置100は、クエリ受付部131を有する受付装置と、検索アクセス部132を有する抽出装置と、通知部137を有する通知装置とに分散されてもよい。また、例えば、上述した検索サーバ20は、ユーザデータ受付部25と、処理エンジン部26と、抽出結果送信部32とを有する情報処理装置と、検索エンジン部29を有する検索装置とに分散されてもよい。この場合、かかる情報処理装置は、所定のウェブ検索エンジン(例えば、抽出部31を有する検索装置)を制御する情報処理装置であってもよい。すなわち、情報処理装置は、ユーザデータサーバ40からユーザデータを受け付け、受け付けたユーザデータを所定のウェブ検索エンジンが処理を実行可能な形態に変換処理する。また、この場合、情報処理装置は、所定のウェブ検索エンジンに抽出処理を実行させることにより、処理データ記憶部23に行動履歴が記憶されているユーザのうち、任意のクエリに対応するユーザの数を抽出結果として取得する取得部をさらに有してもよい。この場合、情報処理装置に係る抽出結果送信部32は、上記取得部によって取得されたユーザの数を抽出装置100に送信する。
〔7.ハードウェア構成〕
また、上述してきた実施形態に係る抽出装置100は、例えば図11に示すような構成のコンピュータ1000によって実現される。以下、抽出装置100を例に挙げて説明する。図11は、抽出装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(ネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、また、通信網500を介してCPU1100が生成したデータを他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る抽出装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、検索ID記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔8.効果〕
上述してきたように、実施形態に係る抽出装置100は、抽出結果取得部136(取得部の一例)と、通知部137とを備える。抽出結果取得部136は、情報利用者P1から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジンに抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、任意のクエリに対応するユーザの数を抽出結果として取得する。通知部137は、任意のクエリを送信した情報利用者P1に対して、抽出結果取得部136によって取得されたユーザの数を通知する。
このように、実施形態に係る抽出装置100は、処理対象となるユーザデータに対して既存のウェブ検索エンジンを利用することによって、情報利用者P1が要望する条件に沿ったユーザを高速に抽出することができる。これにより、実施形態に係る抽出装置100によれば、情報利用者P1にユーザデータを柔軟に活用させることができる。
また、実施形態に係る抽出装置100は、抽出情報生成部134(生成部の一例)を備える。抽出情報生成部134は、ウェブ検索エンジンに抽出対象を特定させる情報である抽出情報を生成する。そして、抽出結果取得部136は、抽出情報生成部134によって生成された抽出情報を用いて、ウェブ検索エンジンに抽出処理を実行させる。
このように、実施形態に係る抽出装置100は、RDBやKVSなどの方式でデータベース化された情報と比較して、情報利用者P1が自由に設定した条件により生成される抽出情報を用いてユーザを抽出することができる。これにより、実施形態に係る抽出装置100によれば、ユーザデータを柔軟に活用することができる。
また、抽出情報生成部134は、行動履歴に関するメタデータに基づいて、行動履歴のうちウェブ検索エンジンが検索の対象とする行動履歴か否かを判定する基準の日時である基準日時が設定された抽出情報を生成する。抽出結果取得部136は、基準日時が設定された抽出情報を用いて、基準日時以前における行動履歴が記憶されているユーザのうち、任意のクエリに対応するユーザの数をウェブ検索エンジンに抽出させる。
これにより、実施形態に係る抽出装置100は、検索サーバ20が保持するデータの状態に適した抽出処理を実行させることができるので、情報利用者P1の要望に沿うユーザを適切に抽出させることができる。
また、抽出情報生成部134は、行動履歴に関するメタデータに基づいて、ウェブ検索エンジンが検索対象とした内容と同一又は類似の内容を示すクエリから、同一又は類似の検索対象を示す抽出情報を生成する。抽出結果取得部136は、抽出情報生成部134によって生成された抽出情報を用いて、ウェブ検索エンジンに抽出処理を実行させる。
このように、実施形態に係る抽出装置100は、検索サーバ20が検索対象として処理したデータと整合性のある抽出情報を生成するので、ウェブ検索エンジンに適切に抽出処理を実行させることができる。
また、抽出結果取得部136は、ユーザ毎に分散されたユーザの行動履歴に関する情報を処理する複数のウェブ検索エンジンに対して、共通する任意のクエリに基づいて抽出処理を実行させることにより、各ウェブ検索エンジンが抽出したユーザの数を取得する。通知部137は、抽出結果取得部136によって取得されたユーザの数を合算した数を通知する。
このように、実施形態に係る抽出装置100は、複数の検索エンジンに対して抽出処理を実行させることができるので、高速にユーザ数の抽出を実行させることができる。
また、抽出結果取得部136は、ユーザの行動又は属性に関する条件の設定に関するクエリに基づいて、クエリに対応するユーザの数を抽出結果として取得する。
このように、実施形態に係る抽出装置100は、情報利用者P1の具体的な要望に応答してユーザを抽出することができる。
また、抽出結果取得部136は、ウェブ検索エンジンとして、ユーザの行動履歴に関する情報について転置インデックスを生成するとともに、転置インデックスを利用することにより情報利用者P1から受け付けた任意のクエリに対応するユーザを抽出する検索エンジンに抽出処理を実行させる。
これにより、実施形態に係る抽出装置100は、RDBやKVSなどの方式でデータベース化された情報と比較して、高速に、かつ、柔軟な条件設定の下でユーザを抽出することができる。
また、実施形態に係る検索サーバ20は、ウェブ検索エンジン部(処理エンジン部26及び検索エンジン部29を含む)と、抽出結果送信部32(送信部の一例)とを備える。ウェブ検索エンジン部は、任意のクエリとして抽出情報を受け付ける抽出情報受付部30と、抽出情報受付部30によって受け付けられた任意のクエリに基づいて、所定の記憶部に行動履歴が記憶されているユーザのうち、任意のクエリに対応するユーザの数を抽出する抽出部31とを有する。抽出結果送信部32は、抽出部31によって抽出されたユーザの数を任意のクエリの送信元に送信する。
このように、実施形態に係る検索サーバ20は、情報利用者P1の要望に対して柔軟に応答してユーザの数を抽出することができる。
また、実施形態に係る情報処理装置は、所定のウェブ検索エンジン(例えば、抽出部31に相当する)に抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、情報利用者P1から任意のクエリを受け付ける抽出装置100によって送信された任意のクエリに対応するユーザの数を抽出結果として取得する取得部と、取得部によって取得されたユーザの数を抽出装置100に送信する送信部とを備える。
このように、実施形態に係る情報処理装置は、ウェブ検索エンジンを制御することにより、抽出装置100からの要求に従い、任意のクエリに該当するユーザの数を抽出することができる。
また、実施形態に係る抽出システム1は、検索サーバ20に係るウェブ検索エンジン部と抽出装置100とを有する。ウェブ検索エンジン部は、抽出装置100から任意のクエリを受け付ける抽出情報受付部30と、所定の記憶部に行動履歴が記憶されているユーザのうち、抽出情報受付部30によって受け付けられた任意のクエリに対応するユーザの数を抽出する抽出部31と、抽出部31によって抽出されたユーザの数を抽出装置100に送信する抽出結果送信部32とを備える。抽出装置100は、情報利用者P1から受け付けた任意のクエリを検索サーバ20に送信する抽出情報送信部135と、抽出結果送信部32によって抽出結果として送信されたユーザの数を取得する抽出結果取得部136と、任意のクエリを送信した情報利用者P1に対して、抽出結果取得部136によって取得されたユーザの数を通知する通知部137とを備える。
このように、実施形態に係る抽出システム1は、情報利用者P1の自由な要望に応答してユーザ数を返すので、情報利用者P1にユーザデータを柔軟に活用させることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、通知部は、通知手段や通知回路に読み替えることができる。
1 抽出処理システム
10 利用者端末
20 検索サーバ
25 ユーザデータ受付部
26 処理エンジン部
29 検索エンジン部
32 抽出結果送信部
40 ユーザデータサーバ
50 メタデータサーバ
51 メタデータ記憶部
100 抽出装置
110 通信部
120 検索ID記憶部
131 クエリ受付部
132 検索アクセス部
133 クエリ解析部
134 抽出情報生成部
135 抽出情報送信部
136 抽出結果取得部
137 通知部

Claims (12)

  1. 情報利用者から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジンに抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、前記任意のクエリに対応するユーザの数を抽出結果として取得する取得部と、
    前記任意のクエリを送信した情報利用者に対して、前記取得部によって取得されたユーザの数を通知する通知部と、を備え、
    前記取得部は、
    前記情報利用者から前記任意のクエリを受け付けた時間とは異なる時間であって、前記行動履歴のうち前記ウェブ検索エンジンが検索の対象とする行動履歴か否かを判定する基準の日時である基準日時に基づいて、当該所定のウェブ検索エンジンに抽出処理を実行させる、
    ことを特徴とする抽出装置。
  2. 前記ウェブ検索エンジンに抽出対象を特定させる情報である抽出情報を生成する生成部
    をさらに備え、
    前記取得部は、
    前記生成部によって生成された抽出情報を用いて、前記ウェブ検索エンジンに抽出処理を実行させる、
    ことを特徴とした請求項1に記載の抽出装置。
  3. 前記生成部は、
    前記行動履歴に関するメタデータに基づいて、前記基準日時が設定された前記抽出情報を生成し、
    前記取得部は、
    前記抽出情報を用いて、前記基準日時以前における行動履歴が記憶されているユーザのうち、前記任意のクエリに対応するユーザの数を前記ウェブ検索エンジンに抽出させる、
    ことを特徴とした請求項2に記載の抽出装置。
  4. 前記生成部は、
    前記行動履歴に関するメタデータに基づいて、前記ウェブ検索エンジンが検索対象とした内容と同一又は類似の内容を示す前記クエリから、同一又は類似の検索対象を示す前記抽出情報を生成し、
    前記取得部は、
    前記生成部によって生成された抽出情報を用いて、前記ウェブ検索エンジンに抽出処理を実行させる、
    ことを特徴とした請求項2又は3に記載の抽出装置。
  5. 前記取得部は、
    ユーザ毎に分散された前記ユーザの行動履歴に関する情報を処理する複数の前記ウェブ検索エンジンに対して、共通する任意のクエリに基づいて前記抽出処理を実行させることにより、各ウェブ検索エンジンが抽出したユーザの数を取得し、
    前記通知部は、
    前記取得部によって取得されたユーザの数を合算した数を通知する、
    ことを特徴とした請求項1〜4のいずれか一つに記載の抽出装置。
  6. 前記取得部は、
    前記ユーザの行動又は属性に関する条件の設定に関するクエリに基づいて、該クエリに対応するユーザの数を取得する、
    ことを特徴とした請求項1〜5のいずれか一つに記載の抽出装置。
  7. 前記取得部は、前記ウェブ検索エンジンとして、ユーザの行動履歴に関する情報について転置インデックスを生成するとともに、該転置インデックスを利用することにより情報利用者から受け付けた任意のクエリに対応するユーザを抽出する検索エンジンに前記抽出処理を実行させる、
    ことを特徴とした請求項1〜6のいずれか一つに記載の抽出装置。
  8. 任意のクエリを受け付ける受付部と、所定の記憶部に行動履歴が記憶されているユーザのうち、前記受付部によって受け付けられた前記任意のクエリに基づいて、所定の記憶部に行動履歴が記憶されているユーザのうち、前記任意のクエリに対応するユーザの数を抽出する抽出部とを有するウェブ検索エンジン部と、
    前記抽出部によって抽出されたユーザの数を前記任意のクエリの送信元に送信する送信部と、
    を備え、
    前記ウェブ検索エンジン部は、
    前記任意のクエリを受け付けた時間とは異なる時間であって、前記行動履歴のうち検索の対象とする行動履歴か否かを判定する基準の日時である基準日時に基づいて、前記任意のクエリに対応するユーザの数を抽出する、
    ことを特徴とする検索サーバ。
  9. 所定のウェブ検索エンジンに抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、情報利用者から任意のクエリを受け付ける抽出装置によって送信された前記任意のクエリに対応するユーザの数を抽出結果として取得する取得部と、
    前記取得部によって取得されたユーザの数を前記抽出装置に送信する送信部と、
    を備え、
    前記取得部は、
    前記情報利用者から前記任意のクエリを受け付けた時間とは異なる時間であって、前記行動履歴のうち前記ウェブ検索エンジンが検索の対象とする行動履歴か否かを判定する基準の日時である基準日時に基づいて、当該所定のウェブ検索エンジンに抽出処理を実行させる、
    ことを特徴とする情報処理装置。
  10. 検索サーバと抽出装置とを有する抽出システムであって、
    前記検索サーバは、
    前記抽出装置から任意のクエリを受け付ける受付部と、前記受付部によって受け付けられた任意のクエリに基づいて、所定の記憶部に行動履歴が記憶されているユーザのうち、前記任意のクエリに対応するユーザの数を抽出する抽出部とを有するウェブ検索エンジン部と、
    前記抽出部によって抽出されたユーザの数を前記抽出装置に送信する抽出結果送信部と、を備え、
    前記ウェブ検索エンジン部は、
    前記抽出装置から前記任意のクエリを受け付けた時間とは異なる時間であって、前記行動履歴のうち検索の対象とする行動履歴か否かを判定する基準の日時である基準日時に基づいて、前記任意のクエリに対応するユーザの数を抽出し、
    前記抽出装置は、
    情報利用者から受け付けた任意のクエリを前記検索サーバに送信する抽出情報送信部と、
    前記抽出結果送信部によって抽出結果として送信されたユーザの数を取得する抽出結果取得部と、
    前記任意のクエリを送信した情報利用者に対して、前記抽出結果取得部によって取得されたユーザの数を通知する通知部と、
    を備えたことを特徴とする抽出システム。
  11. コンピュータが実行する抽出方法であって、
    情報利用者から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジンに抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、前記任意のクエリに対応するユーザの数を抽出結果として取得する取得工程と、
    前記任意のクエリを送信した情報利用者に対して、前記取得工程によって取得されたユーザの数を通知する通知工程と、
    を含み、
    前記取得工程は、
    前記情報利用者から前記任意のクエリを受け付けた時間とは異なる時間であって、前記行動履歴のうち前記ウェブ検索エンジンが検索の対象とする行動履歴か否かを判定する基準の日時である基準日時に基づいて、当該所定のウェブ検索エンジンに抽出処理を実行させる、
    ことを特徴とする抽出方法。
  12. 情報利用者から受け付けた任意のクエリに基づいて、所定のウェブ検索エンジンに抽出処理を実行させることにより、所定の記憶部に行動履歴が記憶されているユーザのうち、前記任意のクエリに対応するユーザの数を抽出結果として取得する取得手順と、
    前記任意のクエリを送信した情報利用者に対して、前記取得手順によって取得されたユーザの数を通知する通知手順と、
    をコンピュータに実行させ、
    前記取得手順は、
    前記情報利用者から前記任意のクエリを受け付けた時間とは異なる時間であって、前記行動履歴のうち前記ウェブ検索エンジンが検索の対象とする行動履歴か否かを判定する基準の日時である基準日時に基づいて、当該所定のウェブ検索エンジンに抽出処理を実行させる、
    ことを特徴とする抽出プログラム。
JP2014164949A 2014-08-13 2014-08-13 抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラム Active JP6162664B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014164949A JP6162664B2 (ja) 2014-08-13 2014-08-13 抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラム
US14/821,302 US10467305B2 (en) 2014-08-13 2015-08-07 Extraction device, search server, information processing device, extraction system, extraction method, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014164949A JP6162664B2 (ja) 2014-08-13 2014-08-13 抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラム

Publications (2)

Publication Number Publication Date
JP2016042213A JP2016042213A (ja) 2016-03-31
JP6162664B2 true JP6162664B2 (ja) 2017-07-12

Family

ID=55302341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014164949A Active JP6162664B2 (ja) 2014-08-13 2014-08-13 抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラム

Country Status (2)

Country Link
US (1) US10467305B2 (ja)
JP (1) JP6162664B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10970787B2 (en) 2015-10-28 2021-04-06 Qomplx, Inc. Platform for live issuance and management of cyber insurance policies
US11514531B2 (en) 2015-10-28 2022-11-29 Qomplx, Inc. Platform for autonomous risk assessment and quantification for cyber insurance policies
JP6072334B1 (ja) * 2016-06-09 2017-02-01 株式会社Cygames 情報処理システム及び方法、並びにプログラム
US10289528B2 (en) 2017-03-23 2019-05-14 Microsoft Technology Licensing, Llc Targeted user notification of bug fixes
US10635512B2 (en) 2017-03-23 2020-04-28 Microsoft Technology Licensing, Llc In-product notifications targeting specific users selected via data analysis
JP6917348B2 (ja) * 2017-04-24 2021-08-11 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
US20190065520A1 (en) * 2017-08-30 2019-02-28 Ca, Inc. Transactional data source integration
JP6998341B2 (ja) * 2019-05-15 2022-01-18 ヤフー株式会社 管理装置、管理方法、及び管理プログラム
CN110889431A (zh) * 2019-10-28 2020-03-17 杭州电子科技大学 基于K-Means算法改进的高频职业技能生命曲线聚类方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146416B1 (en) * 2000-09-01 2006-12-05 Yahoo! Inc. Web site activity monitoring system with tracking by categories and terms
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
JP2005316590A (ja) * 2004-04-27 2005-11-10 Konica Minolta Holdings Inc 情報検索装置
US7809752B1 (en) * 2005-04-14 2010-10-05 AudienceScience Inc. Representing user behavior information
JP2007193381A (ja) * 2006-01-16 2007-08-02 Sony Computer Entertainment Inc 分散検索システム、分散検索方法、検索装置、検索装置の制御方法及びプログラム
US7672937B2 (en) * 2007-04-11 2010-03-02 Yahoo, Inc. Temporal targeting of advertisements
US8103663B2 (en) * 2008-03-21 2012-01-24 Dentsu Inc. Advertising medium determination device and method therefor
JP4834118B2 (ja) * 2009-01-28 2011-12-14 ヤフー株式会社 ファセットクエリを利用したサービス誘導入札装置及び方法
JP5216042B2 (ja) * 2010-04-20 2013-06-19 ヤフー株式会社 検索スコア算出装置及び方法
WO2011136142A1 (ja) * 2010-04-26 2011-11-03 京セラ株式会社 サーマルヘッド
JP5079845B2 (ja) * 2010-05-28 2012-11-21 富士通株式会社 コンテンツナビゲーションプログラム
JP5296822B2 (ja) 2011-03-17 2013-09-25 ヤフー株式会社 プロフィールマッチング装置及び方法
US9465875B2 (en) * 2012-05-31 2016-10-11 Hewlett Packard Enterprise Development Lp Searching based on an identifier of a searcher

Also Published As

Publication number Publication date
US10467305B2 (en) 2019-11-05
US20160048597A1 (en) 2016-02-18
JP2016042213A (ja) 2016-03-31

Similar Documents

Publication Publication Date Title
JP6162664B2 (ja) 抽出装置、検索サーバ、情報処理装置、抽出システム、抽出方法及び抽出プログラム
US11455660B2 (en) Extraction device, extraction method, and non-transitory computer readable storage medium
US11836778B2 (en) Product and content association
US20140278939A1 (en) Advertisement extraction device and advertisement extraction method
US20160092768A1 (en) Providing application recommendations
US10296535B2 (en) Method and system to randomize image matching to find best images to be matched with content items
US10346763B2 (en) Dynamic query response with metadata
JP2009193465A (ja) 情報処理装置、情報提供システム、情報処理方法、およびプログラム
US10496686B2 (en) Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist
US20140156668A1 (en) Apparatus and method for indexing electronic content
JP2016177536A (ja) 抽出装置、抽出方法及び抽出プログラム
JP6698730B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP2017138880A (ja) 学習装置、学習方法及び学習プログラム
JP2010044585A (ja) 広告配信装置、広告配信方法、及び広告配信制御プログラム
JP6925244B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6373140B2 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6019156B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6311052B1 (ja) 抽出装置、抽出方法及び抽出プログラム
US20160055203A1 (en) Method for record selection to avoid negatively impacting latency
JP6243559B2 (ja) 学習装置、学習方法及び学習プログラム
JP7195293B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6282965B2 (ja) 受付装置、受付方法及び受付プログラム
JP6030081B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP6549675B2 (ja) 学習装置、学習方法及び学習プログラム
US20150248491A1 (en) Data processing device and data processing method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170615

R150 Certificate of patent or registration of utility model

Ref document number: 6162664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250