JP6382139B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP6382139B2
JP6382139B2 JP2015058224A JP2015058224A JP6382139B2 JP 6382139 B2 JP6382139 B2 JP 6382139B2 JP 2015058224 A JP2015058224 A JP 2015058224A JP 2015058224 A JP2015058224 A JP 2015058224A JP 6382139 B2 JP6382139 B2 JP 6382139B2
Authority
JP
Japan
Prior art keywords
score
diffusivity
category
matching
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015058224A
Other languages
English (en)
Other versions
JP2016177626A (ja
Inventor
修司 大矢
修司 大矢
征良 中村
征良 中村
弘樹 下羅
弘樹 下羅
忠士 岸本
忠士 岸本
山下 勝司
勝司 山下
尚樹 平井
尚樹 平井
淳一郎 北川
淳一郎 北川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2015058224A priority Critical patent/JP6382139B2/ja
Publication of JP2016177626A publication Critical patent/JP2016177626A/ja
Application granted granted Critical
Publication of JP6382139B2 publication Critical patent/JP6382139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
キーワード等の所定のデータと、広告、商品、記事等の検索対象に応じたデータとのマッチングを行うことにより、所定のデータに基づいて、検索対象の中から条件に合ったものを検索する技術が知られている。
例えば、検索連動型広告では、検索エンジンでユーザが入力したキーワードに基づいて、検索結果画面に表示する広告を検索する技術が利用されている。
また、近年、オークションサイトやショッピングサイトでは、ユーザが過去に閲覧や購入した商品等に基づいて、当該ユーザに通知する関連商品等のレコメンド検索する技術が使われている。また、ニュースサイトでは、ユーザが過去に閲覧した記事に基づいて、当該ユーザに通知する、関連記事等のレコメンドを検索する技術が使われている。
また、特許文献1には、Webサイトから抽出したキーワードに基づいて、当該Webサイトを閲覧するユーザに通知する広告を検索する技術が開示されている。
特開2007−286833号公報
キーワード等の所定のデータと、検索対象に応じたデータとのマッチングを行う際、当該所定のデータに含まれる単語等の要素が、広範なカテゴリーで普遍的に使われている場合、意図しないカテゴリーに属するものが検索結果として選択される場合がある。
そこで、検索結果に対する、適切でない要素の影響を低減させられるようにすることを目的とする。
情報処理装置において、検索対象に応じた要素の集合と、前記検索対象が属するカテゴリーを取得し、当該カテゴリー及び他のカテゴリーに属する集合において前記要素が出現する程度に基づき、前記要素の拡散度を算出する拡散度算出手段と、前記拡散度に基づいて、前記要素がマッチングに寄与する度合いを示すスコアを算出するスコア算出手段と、を備え、前記拡散度算出手段は、前記マッチングを行う基となる要素と、前記マッチングを行う対象となる要素の両方の前記拡散度を算出する
開示の技術によれば、検索結果に対する、適切でない要素の影響を低減させられるようにすることが可能となる。
第1の実施形態に係るサービス提供システムの全体構成を示す図である。 サービス提供サーバのハードウェア構成を示す図である。 検索先情報管理テーブルの一例を示す図である。 寄与度管理テーブルの一例を示す図である。 除外要素格納テーブルの一例を示す図である。 検索元情報管理テーブルの一例を示す図である。 寄与度算出部の処理のフローチャートである。 サービス提供サーバの処理のフローチャートである。 所定の要素に対するカテゴリー毎の出現回数の例を示す図である。 スコアに対する要素数の例を示す図である。 検索元情報管理テーブルの一例を示す図である。 第3の実施形態に係るサービス提供サーバの処理のフローチャートである。 第6の実施形態に係るサービス提供システムの全体構成を示す図である。 検索先寄与度管理テーブルの一例を示す図である。 検索元寄与度管理テーブルの一例を示す図である。 第6の実施形態に係る検索先情報管理テーブルの例である。 第6の実施形態に係る検索元情報管理テーブルの例である。 第6の実施形態に係る通知情報選択部の処理のフローチャートである。
以下、本発明の各実施形態の詳細について添付の図面を参照しながら説明する。なお、各実施形態に係る明細書及び図面の記載に際して、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省く。
<第1の実施形態>
図1は、第1の実施形態に係るサービス提供システム100の全体構成を示す図である。図1に示すように、サービス提供システム100は、サービス提供サーバ1、複数のユーザ端末2とを有する。サービス提供システム100において、サービス提供サーバ1とユーザ端末2とは、インターネット、LAN、携帯電話網などの通信ネットワーク3を介して通信可能に接続されている。
サービス提供サーバ1は、寄与度算出部11、通知情報選択部12、サービス提供部13、検索先情報管理DB14、検索元情報管理DB15、寄与度管理DB16、除外要素格納DB17を有する。
寄与度算出部11は、検索対象に応じた要素の集合と、前記検索対象が属するカテゴリーを取得し、当該カテゴリー及び他のカテゴリーに属する集合において前記要素が出現する程度に基づき、前記要素の拡散度を算出する。また、拡散度に基づいて、前記要素がマッチングに寄与する度合いを示すスコアを算出する。そして、マッチングから除外する要素を算出し、除外要素格納データベース(以下「DB」と省略する)17に格納する。なお、寄与度算出部11の説明の詳細は後述する。
通知情報選択部12は、検索元情報管理DB15に格納されている要素集合の中から、除外要素格納DB17に格納されている要素を除外した要素集合である検索元要素集合に基づき、検索先情報管理DB14に格納されている検索対象に応じた要素集合である検索先要素集合を検索し、検索した結果に基づいて、ユーザ端末2に対して通知する通知情報IDを選択する。検索は、例えば、検索元要素集合に含まれる要素と、検索先要素集合に含まれる要素とをマッチングすることにより行う。
サービス提供部13は、通知情報選択部12が選択した通知情報IDに対応する通知情報をWebサイトに埋め込む等により、ユーザ端末2に通知する。
検索先情報管理DB14、検索元情報管理DB15、寄与度管理DB16、除外要素格納DB17に格納する情報の詳細は後述する。
ユーザ端末2は、ユーザが使用するスマートフォン、タブレット、ノートパソコン等の情報処理装置であり、Webブラウザ等を用いて、サービス提供サーバ1から情報を取得する。
<ハードウェア構成>
図2は、サービス提供サーバ1のハードウェア構成を示す図である。
図2に示すように、サービス提供サーバ1は、コンピュータであり、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、記憶部104、入力部105、通信部106を備える。なお、各部は、バス107を介して相互に接続されている。
CPU101は、記憶部104に格納された各種プログラムを実行する演算装置である。
ROM102は不揮発性メモリである。ROM102は、CPU101が記憶部104に格納された各種プログラムを実行するために必要な各種プログラム、データ等を格納する。具体的には、BIOS(Basic Input/Output System)等のブートプログラムなどを格納する。
RAM103は、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等の記憶装置である。RAM103は、記憶部104に格納された各種プログラムがCPU101によって実行される際に展開される、作業領域として機能する。
記憶部104は、HDD(Hard Disk Drive)等の記憶装置であり、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、基本ソフトウェアであるOS(Operating System)、及び、OS上において各種機能を提供するアプリケーションプログラムなどがある。記憶部104は、格納しているプログラムやデータを所定のファイルシステム及び/又はDB(Data Base)により管理している。
入力部105は、管理者等が各種指示を入力する際に用いられる。
通信部106は装置をネットワークに接続するインターフェースである。これにより、通信部106を介して、サービス提供サーバ1等とデータ通信を行うことができる。
<各DBに格納する情報説明>
図3は、検索先情報管理DB14が管理する、検索先情報管理テーブルの一例を示す図である。検索先情報管理DB14は、図3に示す検索先情報管理テーブルにて、通知情報ID、アカウント、カテゴリー、通知情報の項目を含む検索先情報を管理する。通知情報IDは、広告、商品、記事等の検索対象に応じた通知情報を識別するための情報である。アカウントは、通知情報の提供者の情報であり、例えば、広告主の企業等である。カテゴリーは、検索対象またはそのアカウントが属する領域の情報であり、検索対象に対応付けて予め登録される。通知情報は、ユーザ端末2に通知する情報であり、例えば、広告やレコメンド等のタイトルと本文の情報であるタイトル/ディスクリプションである。なお、レコメンドとは、ショッピング、オークション、ニュース等のサービスを提供するWebサイトにて表示する、ユーザにお勧めする商品や記事等のことである。
図4は、寄与度管理DB16が管理する、寄与度管理テーブルの一例を示す図である。寄与度管理DB16は、図4に示す寄与度管理テーブルにて、要素に対応付けて、当該要素がマッチングに寄与する度合いを示すスコアを格納する。
図5は、除外要素格納DB17が管理する、除外要素格納テーブルの一例を示す図である。除外要素格納DB17は、図5に示す除外要素格納テーブルにて、マッチングの対象としない要素である除外要素を格納する。
図6は、検索元情報管理DB15が管理する、検索元情報管理テーブルの一例を示す図である。検索元情報管理DB15は、図6に示す検索元情報管理テーブルにて、IDに対応付けて、通知情報を検索するための情報である検索元情報を格納する。IDは、ユーザ端末2を利用するユーザまたはユーザ端末2を識別するための情報であり、例えば、ショッピング、ニュース、オークション等の所定のサービスを利用するためにサービス提供サーバ1にログインする際に使用されたユーザIDや、Webブラウザを利用する際に発行されるクッキー等である。検索元情報は、例えば、ユーザが以前クリックした広告やレコメンドのタイトル/ディスクリプションを形態素解析して抽出した単語や、ユーザが以前の検索に使用したキーワード等であるユーザの行動履歴である。
<寄与度算出部の説明>
図1に示すように、寄与度算出部11は、拡散度算出部112、スコア算出部113、寄与度判断部114を有する。
拡散度算出部112は、検索先情報管理DB14に格納されている情報を取得し、取得した情報の要素毎のカテゴリーに対する拡散度を算出する。要素毎のカテゴリーに対する拡散度を算出する方法の例を以下に説明する。
まず、図3の検索先情報管理テーブルからアカウント、カテゴリー、通知情報の項目を含む検索先情報を取得する。そして、通知情報を形態素解析して、単語の集合を生成する。例えば、通知情報がタイトル/ディスクリプションである場合は、タイトルとディスクリプションのいずれか一方または両方の一部または全部を形態素解析して、単語の集合を生成する。
なお、集合に含まれる単語毎に、通知情報の数で補正を行ってもよい。同一アカウントでは、同じような通知情報が並ぶことが多いため、単語の数をカウントする前に、例えば、アカウント毎の通知情報の数で割り算をして補正する。図3の例では、A社に対して、「東京」、「神奈川」、「千葉」、「埼玉」の数は1/4となり、「家庭教師」の数は1/4×4=1となる。
また、集合に含まれる単語毎に、カテゴリー毎のアカウント数で補正を行ってもよい。例えば、「教育」のカテゴリーの全アカウント数が5社であり、A社以外の通知情報に、「家庭教師」という単語が含まれていない場合、上記の通知情報の数による補正も行った場合は、「東京」、「神奈川」、「千葉」、「埼玉」の数は1/20となり、「家庭教師」の数は1/5となる。
次に、集合に含まれる単語毎に、カテゴリーに対するエントロピー(平均情報量)Hを以下の式により求める。
Figure 0006382139

ここで、Nは全カテゴリーの数であり、pは、i番目のカテゴリーで当該単語が現れた数である出現回数を、全カテゴリーで当該単語が現れた数で割った値、つまりi番目のカテゴリーに当該単語が現れる割合である。例えば、全カテゴリーの数Nが32であり、「教育」のカテゴリーにおける「家庭教師」の数が1/5であり、「健康」のカテゴリーにおける「家庭教師」の数が1/10であり、それ以外のカテゴリーにおける「家庭教師」の数が0であったとすると、全カテゴリーにおける「家庭教師」の数は1/5+1/10=3/10であり、「教育」、「健康」のカテゴリーにおいて「家庭教師」が現れる割合はそれぞれ(1/5)/(3/10)=2/3、(1/10)/(3/10)=1/3であるから、「家庭教師」のエントロピーH(X)は、H(X)=−2/3×log(2/3)−1/3×log(1/3)≒0.39+0.53≒0.92である。
また、例えば、全カテゴリーの数Nが32であり、そのうち15カテゴリーにおいて「無料」の数がそれぞれ5/10、その他の10カテゴリーにおいて「無料」の数がそれぞれ2/10、残りの7カテゴリーにおいて「無料」の数がそれぞれ0であったとすると、全カテゴリーにおける「無料」の数は5/10×15+2/10×10=95/10であり、上記15カテゴリーと上記10カテゴリーにおいて「無料」が現れる割合はそれぞれ(5/10)/(95/10)=5/95、(2/10)/(95/10)=2/95であるから、「無料」のエントロピーH(X)は、H(X)=−5/95×log(5/95)×15−2/95×log(2/95)×10≒3.36+1.17≒4.53である。
エントロピーH(X)の値は、当該単語が各カテゴリーで現れる割合が均等である場合に最大となり、当該単語が各カテゴリーで現れる割合にばらつきがあるほど小さくなる。例えば、全カテゴリーの数Nが32であれば、最大エントロピーmaxH(X)は、maxH(X)=−1/32×log(1/32)×32=5である。
スコア算出部113は、拡散度算出部112が算出した要素毎のカテゴリーに対する拡散度に基づき、要素毎に、マッチングに寄与する度合いを示すスコアを算出し、寄与度管理DB16に格納する。
要素毎のスコアSは、例えば、S=1−H(X)/maxH(X)の式により算出する。それにより、スコアSの値の範囲を0から1までとし、スコアの値が低い程、除外すべき要素であると判断することができる。
上記の例では、「家庭教師」のスコアの値であるS(「家庭教師」)は、S(「家庭教師」)≒1−0.92/5≒0.82である。同様に、S(「無料」)≒1−4.53/5≒0.1である。
寄与度判断部114は、スコア算出部113が寄与度管理DB16に格納した、要素毎のスコアに基づき、当該要素が、マッチングに寄与すべきではない要素であるか否かを判断する。例えば、スコアの値が所定の閾値以下である要素を、マッチングに寄与すべきではない要素である除外要素と判断する。または、所定の機械学習や広告主の要望等により予め要素毎に設定された重みの値にスコアの値を乗算した値が所定の閾値以下である要素を、除外要素であると判断するようにしてもよい。そして、除外要素であると決定した要素を、除外要素格納DB17に格納する。それにより、除外要素格納DB17に、検索に用いない単語の集合であるストップワードのリストが格納される。
<動作>
図7は、寄与度算出部11の処理のフローチャートである。
まず、拡散度算出部112が、検索先情報管理DB14に格納されている情報を取得し、取得した情報の要素毎のカテゴリーに対する拡散度を算出する(ステップS101)。そして、スコア算出部113が、拡散度算出部112が算出した要素毎のカテゴリーに対する拡散度に基づき、当該要素を除外するか否かを判断するための要素毎のスコアを算出する(ステップS102)。そして、寄与度判断部114が、スコアに基づき、当該要素を除外するか否かを判断する(ステップS103)。そして、除外すると判断した要素を、除外要素格納DB17に格納する(ステップS104)。
図8は、サービス提供サーバ1の処理のフローチャートである。
まず、検索先情報管理DB14が管理する図3の検索先情報管理テーブルにて、検索先情報を格納しておく(ステップS201)。
また、検索元情報管理DB15が、図6の検索元情報管理テーブルにて、検索元情報を格納しておく(ステップS202)。
ユーザ端末2から、IDの情報を含むリクエストを受信すると(ステップS203)、通知情報選択部12が、図6の検索元情報管理テーブルから、当該IDに対応付けて記憶されている検索元情報を読み出す(ステップS204)。そして、図5の除外要素格納テーブルから、除外要素を読み出す(ステップS205)。そして、検索元情報に含まれる要素の中から、除外要素を除いた要素集合を生成する(ステップS206)。そして、生成した要素集合に基づき、図3の検索先情報管理テーブルの通知情報を検索し、ユーザ端末2に通知する通知情報を選択する(ステップS207)。
そして、サービス提供部13が、通知情報選択部12が選択した通知情報をユーザ端末2に通知する(ステップS208)。
図9は、所定の要素に対するカテゴリー毎の出現回数の例を示す図である。図9(A)は、上述した「家庭教師」の場合のように、出現回数が特定のカテゴリーに偏っている要素の例である。また、図9(B)は、上述した「無料」の場合のように、出現回数が特定のカテゴリーに偏らず、普遍的に使用されている要素の例である。
図10は、スコアに対する要素数の例を示す図である。なお、要素数はログスケールで示している。スコアが所定の閾値以下である要素が、除外要素であると判断される。
<効果>
第1の実施形態により、単語毎のカテゴリーに対する拡散度に応じて、検索に用いない単語の集合であるストップワードのリストを自動で生成することができる。それにより、例えば、ユーザの行動履歴から付与されている単語集号やユーザに入力された単語集合に基づいて、広告やレコメンド等の情報を検索するとき、例えば「対策」という単語が、老化対策、地震対策、婚活対策など、美容、保険、ウェディングなどのカテゴリーに分布するような単語である場合は、そのような単語をマッチングから除外することができる。
<第2の実施形態>
第1の実施形態では、拡散度算出部112及びスコア算出部113が、通知情報に含まれる要素の拡散度及びスコアを、エントロピーに基づいて算出したが、第2の実施形態では、出現頻度tf(Term Frequency)の変動係数に基づいて算出する。
拡散度算出部112が、要素毎の拡散度を算出する方法の例を以下に説明する。
まず、第1の実施形態と同様に、通知情報であるタイトルとディスクリプションのいずれか一方または両方を形態素解析して、単語の集合を生成する。例えば、オークションに出品された商品のタイトルが、「新品 未使用 N社 "ゲーム機の機種名" ブラック」であった場合、形態素解析により「新品」、「未使用」、「N社」、「"ゲーム機の機種名"」、「ブラック」という単語の集合を生成する。
そして、集合に含まれる単語毎に、単語iのカテゴリjにおける出現頻度tfを以下の式により求める。
Figure 0006382139

ここで、分子のnijは単語iのカテゴリーjにおける出現回数、wはカテゴリーjの総単語数である。例えば、「新品」という単語が、「ゲーム」のカテゴリーで出品されている商品のタイトル等の中で10000回使用されており、「ゲーム」のカテゴリーで出品されている商品等のタイトル中の全単語の全使用回数が100000回である場合、単語「新品」のカテゴリー「ゲーム」における出現頻度tfは、tf=10000/100000=1/10となる。
次に、単語iの全カテゴリーにおける出現頻度tfの平均を以下の式により求める。
Figure 0006382139

ここで、cは全カテゴリーの数であり、上述したNと同じ値である。
次に、単語iの全カテゴリーにおける出現頻度tfの標準偏差SDを以下の式により求める。
Figure 0006382139

次に、単語iの全カテゴリーにおける出現頻度tfの変動係数CVを以下の式により求める。
Figure 0006382139

これにより、例えば、「新品」、「未使用」、「ブラック」等の単語が、「ゲーム」のカテゴリーのみならず、他のカテゴリーにおいても、商品のタイトル等に普遍的に使われている場合は、変動係数CVの値は小さくなる。一方、「N社」、「"ゲーム機の機種名"」等の単語が、「ゲーム」のカテゴリー以外のカテゴリーではあまり使われている場合は、変動係数CVの値は大きくなる。
そして、スコア算出部113が、要素iのスコアSCOREを、例えば、以下の式により算出する。
Figure 0006382139

ここで、MAX(CV(tf))は、CVの最大値である。
それにより、第1の実施形態と同様に、スコアの値の範囲を0から1までとし、スコアの値が低い程、除外すべき要素であると判断することができる。
<効果>
第2の実施形態により、第1の実施形態と同様の効果を得られる。例えば、オークションサイトにて、ユーザが「新品 未使用 N社 "ゲーム機の機種名" ブラック」というタイトルの商品を閲覧した際に、当該ユーザに対するレコメンドを検索するための単語から、「新品」、「未使用」、「ブラック」等の単語をマッチングから除外し、「N社」、「"ゲーム機の機種名"」の単語に基づいてレコメンドを検索することができる。
<第3の実施形態>
第1の実施形態及び第2の実施形態では、通知情報選択部12は、ユーザの行動履歴から付与されている単語集号やユーザに入力された単語集合に基づいて通知情報を検索していたが、第3の実施形態では、Webサイトに含まれる単語集合に基づいて通知情報を検索する。
寄与度算出部11の構成と動作は、第1の実施形態及び第2の実施形態と同様である。
図11は、第3の実施形態における検索元情報管理テーブルの一例を示す図である。第3の実施形態では、検索元情報管理DB15には、図11に示すように、IDとしてWebサイトのURLが格納され、検索元情報として、当該Webサイトのデータを形態素解析した単語集合を格納されている。
図12は、第3の実施形態に係るサービス提供サーバ1の処理のフローチャートである。
ステップS301は、図8のステップS201の処理と同様であるため説明を省略する。
検索元情報管理DB15が、Webサイトをクロールして形態素解析した単語集合を、図11に示すように格納しておく(ステップS302)。
ユーザ端末2から、WebサイトのURLの情報を含むリクエストを受信すると(ステップS303)、通知情報選択部12が、検索元情報管理DB15から、当該URLに対応付けて記憶されている検索元の単語の集合を読み出す(ステップS304)。
ステップS305からステップS308は、図8に示すステップS205からステップS208の処理とそれぞれ同様であるため説明を省略する。
<第4の実施形態>
第1乃至第3の実施形態では、拡散度算出部112は、検索先情報管理DB14に格納されている情報を取得し、取得した情報の要素毎の拡散度を算出していた。
第4の実施形態では、拡散度算出部112は、検索元情報管理DB15に格納されている情報を取得し、取得した情報の要素毎の拡散度を算出する。
検索元情報管理DB15には、図6に示すユーザの行動履歴のデータ、または図11に示すWebサイトのデータなど、ID毎に検索元情報が格納されている。
拡散度算出部112は、拡散度をエントロピーHに基づいて算出する場合は、IDをカテゴリーとし、Nを全カテゴリーすなわち全IDの数、pを、i番目の検索元情報IDに対応する検索情報中に当該単語が現れた数を、全検索元情報で当該単語が現れた数で割った値、つまりi番目の検索元情報に当該単語が現れる割合として算出する。
また、出現頻度tfの変動係数に基づいて算出する場合は、jを、IDをカテゴリーとして算出する。
なお、IDをカテゴリーとして算出する代わりに、ユーザの行動履歴やWebサイトを所定のクラスタリング手法を用いてクラスタリングした際のクラスターや、担当者が手動でユーザやWebサイトをグループ分けした際のグループを、カテゴリーとして算出するようにしてもよい。
<効果>
第4の実施形態により、単語毎の検索元情報のカテゴリーに対する拡散度に応じて、検索に用いない単語の集合であるストップワードのリストを自動で生成することができる。それにより、例えば、多くのユーザの行動履歴やWebサイトで使用されている単語、あるいはユーザやWebサイトがクラスターやグループに分けられている場合に、多くのクラスターやグループで用いられている単語を、例えば広告やレコメンド等の情報を検索する際のマッチングから除外することができる。
<第5の実施形態>
第5の実施形態では、検索先情報管理DB14に格納されている通知情報と、検索元情報管理DB15に格納されている検索元情報の両方に基づいてスコアを算出する。
第5の実施形態に係る拡散度算出部112及びスコア算出部113は、検索先情報管理DB14に格納されている通知情報に含まれる要素毎に、第1の実施形態乃至第2の実施形態で説明したように、検索先情報管理DB14に格納されている情報に基づく検索先の拡散度を算出し、当該拡散度に基づくスコアである検索先スコアを算出する。また、通知情報に含まれる要素毎に、第3の実施形態で説明したように、検索元情報管理DB15に格納されている検索元情報に基づく検索元の拡散度と算出し、当該拡散度に基づくスコアである検索元スコアを算出する。
寄与度判断部114は、通知情報に含まれる要素毎に、検索先スコアと検索元スコアとに基づき、当該要素が、除外要素であるか否かを判断する。例えば、検索先スコアと検索元スコアとを乗算した値が所定の閾値以下である要素を、除外要素であると判断する。
<第6の実施形態>
第6の実施形態では、寄与度判断部114による判断を行わずに、要素と、当該要素のスコアとを対応付けてサービス提供サーバ1に格納する。それにより、サービス提供サーバ1にて、要素毎のスコアを、マッチングに寄与する度合いを示す連続値のスコアとして用いることができる。
図13は、第6の実施形態に係るサービス提供システム100の全体構成を示す図である。
サービス提供サーバ1は、寄与度管理DB16の代わりに、検索先寄与度管理DB18、検索元寄与度管理DB19を備える。
寄与度算出部11は、寄与度判断部114の代わりに、スコア格納部115を有する。
第6の実施形態に係る拡散度算出部112及びスコア算出部113は、第5の実施形態と同様に、検索先スコアと検索元スコアとを算出する。
スコア格納部115は、検索先スコアを検索先寄与度管理DB18に格納する。また、検索元スコアを、検索元寄与度管理DB19に格納する。
図14は、検索先寄与度管理DB18が管理する、検索先寄与度管理テーブルの一例を示す図である。検索先寄与度管理DB18は、図14に示す検索先寄与度管理テーブルにて、要素毎に、検索先スコアを格納する。
図15は、検索元寄与度管理DB19が管理する、検索元寄与度管理テーブルの一例を示す図である。検索元寄与度管理DB19は、図15に示す検索元寄与度管理テーブルにて、要素毎に、検索元スコアを格納する。
図16は、第6の実施形態に係る検索先情報管理DB14が管理する検索先情報管理テーブルの例である。検索先情報管理DB14は、図16の検索先情報管理テーブルにて、通知情報IDに対応付けて、検索先要素毎の重みの情報を格納する。
図17は、第6の実施形態に係る検索元情報管理DB15が管理する検索元情報管理テーブルの例である。検索元情報管理DB15は、図17の検索元情報管理テーブルにて、通知情報IDに対応付けて、検索元要素毎の重みの情報を格納する。
なお、検索先要素毎の重みの情報と、検索元要素毎の重みの情報は、所定の機械学習や広告主の要望等により予め設定される。
図18は、第6の実施形態に係る通知情報選択部12の処理のフローチャートである。
通知情報選択部12は、検索先情報管理DB14に格納されている先頭の通知情報IDを読み出す(ステップS401)。
次に、ユーザ端末2から受信したIDに対応付けて検索元情報管理DB15に格納されている先頭の検索元要素を読み出す(ステップS402)。
そして、読み出した検索元要素と一致する検索先要素が、読み出した通知情報IDに対応付けて格納されているか判断する(ステップS403)。一致しなければ(ステップS403でNO)、ステップS407の処理に進む。一致すれば(ステップS403でYES)、検索元情報管理DB15に格納されている当該検索元要素に対応する重みと、検索元寄与度管理DB19に格納されている当該検索元要素に対応する検索元スコアを取得し、重みと検索元スコアを乗算した値を算出する(ステップS404)。
そして、検索先情報管理DB14に格納されている当該検索先要素に対応する重みと、検索先寄与度管理DB18に格納されている当該検索先要素に対応する検索先スコアを取得し、重みと検索先スコアを乗算した値を算出する(ステップS405)。
そして、ステップS404およびステップS405で算出した2つの値を乗算した値である要素スコアを算出し、通知情報ID毎の通知情報スコアに加算する(ステップS406)。
そして、IDに対応付けられた全ての検索元要素を読み出したか判断し(ステップS407)、読み出していなければ(ステップS407でNO)、次の検索元要素を読み出し
(ステップS408)、ステップS403の処理に戻る。読み出していれば(ステップS407でYES)、全ての通知情報IDを読み出したか判断し(ステップS409)、読み出していなければ(ステップS409でNO)、次の通知情報IDを読み出し(ステップS410)、ステップS402の処理に戻る。読み出していれば(ステップS409でYES)、通知情報スコアが高い順に、ユーザ端末2に通知する所定の数の通知情報IDを選択する(ステップS411)。
図14〜図17の例では、ユーザ端末2から受信したIDが「Y0001」であれば、通知情報ID「0001」に対する通知情報スコアは、「家庭教師」の要素スコアが(1×0.7)×(2×0.8)=1.12、「東京」の要素スコアが(2×0.5)×(2×0.4)=0.8、「無料」の要素スコアが(0.5×0.1)×(1.5×0.1)=0.2であるから、1.12+0.8+0.2=2.12である。
なお、検索先要素毎の重みの情報と、検索元要素毎に重みの情報とを用いないようにしてもよい。また、検索先の拡散度を用いたスコアと、検索元の拡散度を用いたスコアとのいずれか一方のみを用いるようにしてもよい。
<効果>
第6の実施形態により、単語毎のカテゴリー毎の拡散度に応じて、単語毎に、マッチングに寄与する度合いを示すスコアを算出することができる。また、算出したスコアを、所定のシステムや機械学習の新たな重みとして利用することができる。
<変形例>
なお、検索に用いる要素は、単語に限らず、属性情報や音情報等であってもよい。例えば、ユーザの年齢、性別、資格等の属性情報を検索元情報とし、お見合いや企業の求人等で要求されている属性情報を検索先情報としてもよい。
また、スコアの値が所定の閾値以下等である要素をマッチングから除外する要素とする代わりに、スコアの値が所定の閾値以上等である要素をマッチングに用いる要素とするようにしてもよい。
また、要素の拡散度及びスコアの算出は、エントロピーや出現頻度tf(Term Frequency)の変動係数の代わりに、HHI(ハーフィンダール・ハーシュマン・インデックス)等に基づいて算出するようにしてもよい。
また、上述した実施形態に関する手段などの各要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路など他の情報処理機構で実現してもよい。また、各構成図、データを格納するテーブルの図、フローチャートの図などは例示に過ぎず、各要素の有無、その配置順序や各処理の実行順序、具体的内容などは適宜変更可能である。例えば、サービス提供サーバ1は、構成要素となるサーバなどの装置を複数用いて実現してもよく、個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。
1 サービス提供サーバ
11 寄与度算出部
112 拡散度算出部
113 スコア算出部
114 寄与度判断部
115 スコア格納部
12 通知情報選択部
13 サービス提供部
14 検索先情報管理DB
15 検索元情報管理DB
16 寄与度管理DB
17 除外要素格納DB
18 検索先寄与度管理DB
19 検索元寄与度管理DB
2 ユーザ端末
3 通信ネットワーク
100 サービス提供システム

Claims (10)

  1. 検索対象に応じた要素の集合と、前記検索対象が属するカテゴリーを取得し、当該カテゴリー及び他のカテゴリーに属する集合において前記要素が出現する程度に基づき、前記要素の拡散度を算出する拡散度算出手段と、
    前記拡散度に基づいて、前記要素がマッチングに寄与する度合いを示すスコアを算出するスコア算出手段と、
    を備え
    前記拡散度算出手段は、前記マッチングを行う基となる要素と、前記マッチングを行う対象となる要素の両方の前記拡散度を算出する、情報処理装置。
  2. 前記要素に対する前記スコアが所定の閾値を超えたか否かに基づいて、前記要素をマッチングから除外するか否かを判断する判断手段と、
    マッチングから除外すると判断された前記要素を格納する格納手段と、
    を備える請求項1記載の情報処理装置。
  3. スコア算出部は、
    前記拡散度に基づく連続値のスコアを算出し、
    前記スコアに基づいて、前記マッチングの結果を選択する選択手段と、
    を備える請求項1記載の情報処理装置。
  4. 前記選択手段は、
    前記スコアと、前記要素毎の重みとに基づいて、前記マッチングの結果を選択する、
    請求項3記載の情報処理装置。
  5. 前記拡散度は、
    前記カテゴリーに対する前記要素のエントロピーである、
    請求項1乃至4いずれか一項に記載の情報処理装置。
  6. 拡散度算出手段は、前記拡散度を、前記カテゴリーに対する前記要素の出現頻度の変動係数に基づいて算出する、
    請求項1乃至4いずれか一項に記載の情報処理装置。
  7. 前記要素は、前記マッチングを行う対象の情報を形態素解析することにより生成された単語である、
    請求項1乃至6いずれか一項に記載の情報処理装置。
  8. 前記要素は、前記マッチングの結果を通知するユーザに対応付けて記録されている単語、またはユーザがアクセスするコンテンツを形態素解析することにより生成された単語である、
    請求項1乃至6いずれか一項に記載の情報処理装置。
  9. 情報処理装置が実行する情報処理方法であって、
    検索対象に応じた要素の集合と、前記検索対象が属するカテゴリーを取得し、当該カテゴリー及び他のカテゴリーに属する集合において前記要素が出現する程度に基づき、前記要素の拡散度を算出する拡散度算出ステップと、
    前記拡散度に基づいて、前記要素がマッチングに寄与する度合いを示すスコアを算出するスコア算出ステップと、
    を有し、
    前記拡散度算出ステップは、前記マッチングを行う基となる要素と、前記マッチングを行う対象となる要素の両方の前記拡散度を算出する、
    情報処理方法。
  10. コンピュータに、
    検索対象に応じた要素の集合と、前記検索対象が属するカテゴリーを取得し、当該カテゴリー及び他のカテゴリーに属する集合において前記要素が出現する程度に基づき、前記要素の拡散度を算出する拡散度算出ステップと、
    前記拡散度に基づいて、前記要素がマッチングに寄与する度合いを示すスコアを算出するスコア算出ステップと、
    を実行させ
    前記拡散度算出ステップは、前記マッチングを行う基となる要素と、前記マッチングを行う対象となる要素の両方の前記拡散度を算出する、プログラム。
JP2015058224A 2015-03-20 2015-03-20 情報処理装置、情報処理方法、及びプログラム Active JP6382139B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015058224A JP6382139B2 (ja) 2015-03-20 2015-03-20 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015058224A JP6382139B2 (ja) 2015-03-20 2015-03-20 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016177626A JP2016177626A (ja) 2016-10-06
JP6382139B2 true JP6382139B2 (ja) 2018-08-29

Family

ID=57070237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015058224A Active JP6382139B2 (ja) 2015-03-20 2015-03-20 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6382139B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221447A (ja) * 1995-02-10 1996-08-30 Canon Inc 文書自動分類装置
JP3978221B2 (ja) * 2003-12-26 2007-09-19 松下電器産業株式会社 辞書作成装置および辞書作成方法
JP2007164583A (ja) * 2005-12-15 2007-06-28 Oki Electric Ind Co Ltd 判定装置,判定方法および判定プログラム
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
CN102141977A (zh) * 2010-02-01 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及装置
CN102609422A (zh) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置

Also Published As

Publication number Publication date
JP2016177626A (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
JP6388988B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け
JP6377807B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリの書き換え
US10452662B2 (en) Determining search result rankings based on trust level values associated with sellers
US9858308B2 (en) Real-time content recommendation system
US9244917B1 (en) Generating a layout
JP6334696B2 (ja) ハッシュタグおよびコンテンツ提示
US11275748B2 (en) Influence score of a social media domain
US20140032264A1 (en) Data refining engine for high performance analysis system and method
US20140278939A1 (en) Advertisement extraction device and advertisement extraction method
US10592565B2 (en) Method and apparatus for providing recommended information
US10262057B2 (en) Presenting content in accordance with a placement designation
US20130246432A1 (en) Providing content based on online topical trends
US11036817B2 (en) Filtering and scoring of web content
US20120124070A1 (en) Recommending queries according to mapping of query communities
US10169711B1 (en) Generalized engine for predicting actions
CA2874614A1 (en) Product and content association
JP5985543B2 (ja) 情報集計装置、情報集計方法及び情報集計プログラム
US9336330B2 (en) Associating entities based on resource associations
CN108694174B (zh) 内容投放数据的分析方法及装置
KR20210091125A (ko) 사용자 참여를 사용하는 엔티티 기반 검색 시스템
US9400789B2 (en) Associating resources with entities
JP6382139B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20180039643A1 (en) Analysis and management of resources in a network
US20160063109A1 (en) Query-breadth selected search result sorting mechanism
JP2012093863A (ja) 広告選択装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180801

R150 Certificate of patent or registration of utility model

Ref document number: 6382139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250