JP5801242B2 - Estimated interest score database generation apparatus, method, and program - Google Patents
Estimated interest score database generation apparatus, method, and program Download PDFInfo
- Publication number
- JP5801242B2 JP5801242B2 JP2012086893A JP2012086893A JP5801242B2 JP 5801242 B2 JP5801242 B2 JP 5801242B2 JP 2012086893 A JP2012086893 A JP 2012086893A JP 2012086893 A JP2012086893 A JP 2012086893A JP 5801242 B2 JP5801242 B2 JP 5801242B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- interest
- mesh
- distribution
- click frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報検索の分野における推定興味度スコアデータベース生成装置及び方法及びプログラムに係り、特に、検索者が地理的範囲を地図の表示範囲や緯度経度情報を入力して検索を行うことができる文書検索サービスにおいて、その条件下で特徴的なキーワードを検索前に表示させることで検索者の検索を支援する機能を備えた推定興味度スコアデータベース生成装置及び方法及びプログラムに関する。 The present invention relates to an estimated interest score database generation apparatus, method, and program in the field of information search, and in particular, a searcher can search a geographic range by inputting a map display range and latitude / longitude information. In a document search service, the present invention relates to an estimated interest score database generation apparatus, method, and program having a function of supporting a searcher's search by displaying characteristic keywords under the conditions before the search.
従来、文書内のテキストを解析して地名情報を特定する方法がある(例えば、非特許文献1参照)。当該方法の結果を用いることで各文書がどの地域に関係しているかを解析することが可能である。これを用いることで、予め用意しておいたキーワード集合がどの地域に関係付けられた文書で出現しているか解析でき、特定の地域で推薦するキーワードを抽出することが可能と考えられる。具体的な手法としては、地域を東西・南北それぞれ200mや緯度経度で8秒毎などの固定の値で区切り(以下、「メッシュ」と記す)、メッシュ毎に関連する文書集合中の各キーワードの頻度を分析する。複数のメッシュを含むある地域において、あるキーワードの頻度が全体の頻度分布中で特徴的に高い場合、そのキーワードは当該地域での推薦すべきキーワードであると判定できる。特徴的であるかは前記と同様に全メッシュにおける平均出現頻度に対して、当該メッシュでの出現頻度が3σ(σは標準偏差)以上高い場合に特徴的と判断する方法がある。または、ポアソン確率を用いることもできる。 Conventionally, there is a method of identifying place name information by analyzing text in a document (see, for example, Non-Patent Document 1). By using the result of the method, it is possible to analyze which region each document relates to. By using this, it is possible to analyze in which document a keyword set prepared in advance appears in a document related to it, and it is considered possible to extract a recommended keyword in a specific region. The specific method is to divide the region by fixed values such as 200m each in east / west / north / south and every 8 seconds in latitude / longitude (hereinafter referred to as “mesh”). Analyze frequency. In a certain area including a plurality of meshes, if the frequency of a certain keyword is characteristically high in the overall frequency distribution, it can be determined that the keyword is a keyword to be recommended in the area. In the same way as described above, there is a method for determining whether a characteristic is characteristic when the appearance frequency in the mesh is higher than the average appearance frequency in all meshes by 3σ (σ is a standard deviation) or more. Alternatively, Poisson probability can be used.
前述の文書解析に基づく方法では、ユーザがエリアに表示されたキーワードにどの程度興味を持つかという情報を考慮していない。ユーザがある地域において提示されたキーワードを選択したという履歴が利用可能な場合、これを用いてユーザの興味度を反映したキーワード推薦を行うことを考える。例えば、図1に示すように、キーワードに対するクリックログを、当該キーワードの閲覧範囲に対しての興味カウントと見做すことで、大量のキーワード選択ログを二次元座標のヒストグラムとして用いることができる。このヒストグラム情報を用いることで、ユーザの現在の閲覧範囲に対してユーザ履歴を用いて過去のユーザの興味を反映したキーワード推薦を実現することができる。 The method based on the document analysis described above does not consider information on how much the user is interested in the keywords displayed in the area. If a history that a user has selected a keyword presented in a certain area is available, consider using this to perform keyword recommendation reflecting the degree of interest of the user. For example, as shown in FIG. 1, a large number of keyword selection logs can be used as a two-dimensional coordinate histogram by regarding a click log for a keyword as an interest count for the viewing range of the keyword. By using this histogram information, it is possible to realize keyword recommendation reflecting the past user's interest using the user history for the current viewing range of the user.
しかしながら、ユーザは、図2、図3に示すように、システムを利用する際に様々なスケールで閲覧し、キーワードを選択するため、そのままスケールの異なる閲覧範囲を統一的に扱うため、キーワードに対するユーザの興味範囲を履歴から適切に抽出することができない(課題1)。 However, as shown in FIG. 2 and FIG. 3, the user browses at various scales when using the system, and selects keywords, so that the viewing range with different scales is handled as it is. Cannot be appropriately extracted from the history (Problem 1).
また、ある地域において、ユーザのキーワード選択履歴が少ない場合、図4に示すように、ヒストグラム頻度情報が不連続となる部分が発生し、適切にユーザが興味を持つ地域を推定することができない(課題2)。 In addition, when the keyword selection history of the user is small in a certain area, as shown in FIG. 4, a portion where the histogram frequency information becomes discontinuous occurs, and the area in which the user is interested cannot be estimated appropriately ( Problem 2).
これに加えて、当該キーワードに対してユーザが興味を持つ地域は複数存在することが考えられるが、キーワードによってこの数は異なるため、適切な興味分布の数を求めることができない(課題3)。 In addition to this, it is conceivable that there are a plurality of regions in which the user is interested in the keyword. However, since this number varies depending on the keyword, an appropriate number of interest distributions cannot be obtained (Problem 3).
上記の3つの課題により、キーワードに対するユーザの選択履歴を用いる際に、適切にユーザに興味度合いを反映し、キーワード推薦ができないとう課題がある。 Due to the above three problems, there is a problem that when a user's selection history for a keyword is used, the degree of interest is appropriately reflected to the user and keyword recommendation cannot be performed.
本発明は、上記の点に鑑みなされたもので、ユーザの閲覧範囲に応じてクリックログの影響を考慮して、推定興味度スコアデータベースを生成することが可能な推定興味度スコアデータベース生成装置及び方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and an estimated interest score database generating device capable of generating an estimated interest score database in consideration of the influence of a click log according to a user's viewing range, and An object is to provide a method and a program.
上記の課題を解決するために、本発明(請求項1)は、地図の表示範囲や緯度経度情報に基づいて地理的範囲を検索する文書検索サービスにおいて、ユーザの興味度合いを推定する推定興味度スコアデータベース生成装置であって、
キーワード毎に、地図を分割した矩形に対するメッシュIDと、該メッシュIDに対するクリック頻度を格納したクリック頻度ヒストグラム記憶手段と、
前記クリック頻度ヒストグラム記憶手段からキーワードのメッシュIDとクリック頻度を取得して、二次元正規分布の推定を行うことにより、キーワードに対する二次元正規分布パラメータと、該キーワードにおける該二次元正規分布の混合比を推定し、興味分布記憶手段に格納する興味分布計算手段と、
前記興味分布記憶手段から取得した前記二次元正規分布パラメータに基づいて、それぞれのメッシュIDに対応する確率密度の積分値を算出して、興味度スコアデータベースの該メッシュIDに対応するキーワードのレコードに加算することにより、興味分布を求める興味度スコアデータベース生成手段と、を有する。
In order to solve the above problems, the present invention (Claim 1) provides an estimated interest degree for estimating the degree of interest of a user in a document search service for searching a geographical range based on a map display range and latitude / longitude information. A score database generation device,
For each keyword, a mesh ID for a rectangle obtained by dividing the map, and a click frequency histogram storage means for storing a click frequency for the mesh ID;
By obtaining the mesh ID and click frequency of the keyword from the click frequency histogram storage means and estimating the two-dimensional normal distribution, the two-dimensional normal distribution parameter for the keyword and the mixture ratio of the two-dimensional normal distribution in the keyword Interest distribution calculation means for estimating and storing the interest distribution storage means,
Based on the two-dimensional normal distribution parameter acquired from the interest distribution storage means, the integrated value of the probability density corresponding to each mesh ID is calculated, and the keyword record corresponding to the mesh ID in the interest score database is calculated. And an interest score database generating means for obtaining an interest distribution by adding.
また、本発明(請求項2)は、キーワードと該キーワードがクリックされた地理範囲を格納したキーワードクリックログ記憶手段と、
前記キーワードクリックログ記憶手段から前記キーワードと前記地理範囲を取得し、該地理範囲の大きさに応じてスコアを計算し、該地理範囲に該当するメッシュIDの集合を獲得し、該メッシュIDの集合に含まれる各メッシュIDについて、前記クリック頻度ヒストグラム記憶手段においてキーワード及びメッシュIDが一致するレコードのクリック頻度のカラムに該スコアを加えるクリック頻度ヒストグラム生成手段と、
を更に有する。
Further, the present invention (Claim 2) includes a keyword click log storage means for storing a keyword and a geographic range in which the keyword is clicked,
The keyword and the geographic range are acquired from the keyword click log storage means, a score is calculated according to the size of the geographic range, a set of mesh IDs corresponding to the geographic range is obtained , and the set of mesh IDs Click frequency histogram generating means for adding the score to the click frequency column of the record that matches the keyword and mesh ID in the click frequency histogram storage means for each mesh ID included in
It has further.
また、本発明(請求項3)は、前記興味分布計算手段において、前記クリック頻度ヒストグラム記憶手段から読み出した前記メッシュIDを二次元座標上の点情報に変換し、該点情報をデータ点集合に追加し、該データ点集合から構成される二次元座標上の点集合に基づいて、二次元空間における二次元正規分布パラメータを求め、該二次元正規分布の混合数と各分布の混合比を求め、該混合数に応じた二次元正規分布パラメータと該混合比を、前記興味分布記憶手段に格納する手段を含む。 In the present invention (Claim 3), in the interest distribution calculation means, the mesh ID read from the click frequency histogram storage means is converted into point information on two-dimensional coordinates, and the point information is converted into a data point set. Add two-dimensional normal distribution parameters in the two-dimensional space based on the point set on the two-dimensional coordinates composed of the data point set, and obtain the mixture number of the two-dimensional normal distribution and the mixture ratio of each distribution And means for storing the two-dimensional normal distribution parameter corresponding to the number of mixtures and the mixture ratio in the interest distribution storage means.
上記のように、本発明によれば、ユーザの閲覧範囲に応じてクリックログの影響を考慮することが可能となり、広い範囲におけるユーザのクリックの悪影響を逓減することが可能となる。また、データから二次元正規分布の推定を行うことにより、キーワードに対するクリックログが少数の場合において発生する不連続な点を解消することが可能となる。また、キーワードに対してデータからユーザの興味分布の数を適切に推定することが可能となる。これにより、キーワードに対するユーザの選択履歴を用いて高精度にユーザの興味度合いを推定することが可能となる。 As described above, according to the present invention, it is possible to consider the influence of the click log according to the viewing range of the user, and it is possible to reduce the adverse effects of the user's click in a wide range. In addition, by estimating a two-dimensional normal distribution from data, it is possible to eliminate discontinuous points that occur when the number of click logs for a keyword is small. In addition, the number of user interest distributions can be appropriately estimated from the data for the keyword. This makes it possible to estimate the degree of interest of the user with high accuracy using the user's selection history for the keyword.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図5は、本発明の一実施の形態における推定興味度スコアDB生成装置の構成例を示す。 FIG. 5 shows a configuration example of the estimated interest score DB generation apparatus according to the embodiment of the present invention.
同図に示す、推定興味度スコアDB生成装置は、キーワードクリックログDB10、クリック頻度ヒストグラム生成部20、クリック頻度ヒストグラムDB30、興味度スコアD正生成処理部100、興味度スコアDB70から構成される。
The estimated interest score DB generation device shown in FIG. 1 includes a keyword
キーワードクリックログDB10は、図6に示すように、キーワードがどのような地理範囲でクリックされたかという情報を保持しており、キーワードカラムと地理範囲カラムから構成される。ここで、地理範囲は、例えば、ユーザが当該キーワードを閲覧していた画面の矩形範囲などを用いることができ、矩形範囲の場合は左下、右上の2点の座標を表現できる。
As shown in FIG. 6, the keyword
クリック頻度ヒストグラム生成部20は、キーワードクリックログDB10を読み込み、クリック頻度ヒストグラムDB30を出力する。
The click frequency
クリック頻度ヒストグラムDB30は、地理情報をメッシュ単位で扱う。ここでメッシュは、例えば、地図を200m四方の矩形に分割したものとする。与えられた地理範囲情報に対応するメッシュID(の集合)に変換する方法は所与のものとする。クリック頻度ヒストグラムDB30のデータ例を図7に示す。ここで、一つのレコードがあるキーワードが、あるメッシュIDにおいてどの程度のクリック頻度を獲得したかということを表す。具体的には、図8に示すように、あるメッシュ上のキーワードをクリックした場合に、当該メッシュのメッシュID毎にクリック回数がカウントされる。
The click
図9に、本発明の一実施の形態におけるクリック頻度ヒストグラム生成部の処理フローを示す。 FIG. 9 shows a processing flow of the click frequency histogram generation unit in one embodiment of the present invention.
ステップ101) クリック頻度ヒストグラム生成部20は、キーワードクリックログDB10から未処理のレコードを取得し、キーワードをw、地理範囲をbとする。
Step 101) The click frequency
ステップ102) 地理範囲bの大きさに応じて加算スコアsを計算する。sの計算には、例えば、地理範囲bが持つ面積の逆数などを用いる。b=(lon1,lat1,lon2,lat2)という2組の緯度経度座標(単位は秒)から構成されるとき、例えば、東京測地系では、1秒が25mに換算されるため、面積を元にしたスコアは、
Step 102) The addition score s is calculated according to the size of the geographic range b. For example, the reciprocal of the area of the geographic range b is used for the calculation of s. When b = (lon 1, lat 1 ,
ステップ103) 地理範囲bに該当するメッシュIDの集合を獲得し、Mとする。 Step 103) Acquire a set of mesh IDs corresponding to the geographical range b and set it to M.
ステップ104) Mに含まれる各mについて、クリック頻度ヒストグラムDB30のキーワードw、メッシュIDがmに該当するレコードのクリック頻度カラムにステップ102で算出したスコアsを加える。
Step 104) For each m included in M, the score s calculated in
ステップ105) キーワードクリックログDB10に未処理のレコードがある場合は、ステップ101に戻り、ない場合には処理を終了する。
Step 105) If there is an unprocessed record in the keyword
興味度スコアDB生成処理部100は、クリック頻度ヒストグラムDB30を読み込み、興味度スコアDB70に興味度スコアを出力する。興味度スコアDB生成処理部100は、興味分布計算部40、興味分布DB50、興味度スコアDB生成部60から構成される。
The interest score DB
興味分布計算部40は、クリック頻度ヒストグラムDB30を読み込み、興味分布DB50に興味分布を出力する。あるキーワードに足しうる興味分布は、複数の正規分布とその混合比で構成される。興味分布DB50は、各キーワードに対する、分布ID、各分布の情報(パラメータ)と混合比を格納している。分布IDは混合分布の番号を表し、混合比は当該キーワードにおける当該分布の混合比、パラメータは当該正規分布のパラメータ(平均、分散共分散)を表す。
The interest
図10は、本発明の位置実施の形態における興味分布計算部の処理のフローチャートである。 FIG. 10 is a flowchart of processing of the interest distribution calculation unit in the position embodiment of the present invention.
ステップ201) 興味分布計算部40は、クリック頻度ヒストグラムDB30から未処理のレコードを取得し、wとする。
Step 201) The interest
ステップ202) クリック頻度ヒストグラムDB30からキーワードwに該当するレコードのうち、未処理のメッシュIDとクリック頻度を取得し、キーワードwに該当するレコードのうち未処理のメッシュIDとクリック頻度を取得し、それぞれをm,cとする。
Step 202) The unprocessed mesh ID and the click frequency are acquired from the record corresponding to the keyword w from the click
ステップ203) mを2次元座標上の点情報に変換し、座標値を(x1,x2)とする。 Step 203) m is converted into point information on two-dimensional coordinates, and the coordinate values are set to (x 1 , x 2 ).
ステップ204) 算出した座標値(x1,x2)をデータ集合Xに追加する。 Step 204) The calculated coordinate values (x 1 , x 2 ) are added to the data set X.
ステップ205) 未処理のメッシュがある場合には、ステップ202に戻る。そうでない場合はステップ206に進む。 Step 205) If there is an unprocessed mesh, return to Step 202. Otherwise, go to step 206.
ステップ206) データ点集合から構成される2次元座標上の点集合の情報を元に、二次元空間においてデータにあわせた数の二次元正規分布のパラメータとその混合比率の推定を行う。この推定には例えば、文献「C. E. Rasmussen:, "The Infinite Gaussian Mixture Model". In Proceedings of Advances in Neural Information Processing Systems 12 (NIPS 1999), pp. 554-560, 1999.」の方法を用いることができる。この方法を用いれば、データ集合Xにあわせた数の二元正規分布の混合数kと、各分布の混合比πiと、それぞれの二次元正規分布パラメータ(平均μ1,μ2、分散共分散σ11,σ12,σ11)(σ21は正規分布の場合、共分散は対称であるため不要)を推定できる。 Step 206) Based on the information of the point set on the two-dimensional coordinates composed of the data point set, the number of parameters of the two-dimensional normal distribution and the mixing ratio thereof are estimated in accordance with the data in the two-dimensional space. For this estimation, for example, the method of the document “CE Rasmussen :,“ The Infinite Gaussian Mixture Model ”. In Proceedings of Advances in Neural Information Processing Systems 12 (NIPS 1999), pp. 554-560, 1999.” it can. If this method is used, the number k of binary normal distributions corresponding to the data set X, the mixture ratio πi of each distribution, and the respective two-dimensional normal distribution parameters (mean μ 1 , μ 2 , variance covariance) σ 11 , σ 12 , σ 11 ) (when σ 21 is a normal distribution, the covariance is symmetric and is not necessary).
ステップ207) ステップ206で求めた各分布に関する情報を興味分布DB50に出力する。ここで混合数はキーワードによって異なるため、ステップ206で求めた混合数kの数だけ分布情報を興味分布DB50に出力することになる。興味分布DB50への出力の例を図11に示す。
Step 207) Information about each distribution obtained in
ステップ208) クリック頻度ヒストグラム30に未処理のキーワードがある場合にはステップ201に戻る。そうでない場合には処理を終了する。
Step 208) If there is an unprocessed keyword in the
興味度スコアDB生成部60は、興味分布DB50を読み出し、興味度スコアを興味度スコアDB70に出力する。
The interest score
興味度スコアDB70は、図12に示すように、クリック頻度ヒストグラムDB30と同様に、あるキーワードが、あるメッシュにおいてどの程度の興味度スコアを持つかという情報を格納している。
As shown in FIG. 12, the
図13は、本発明の一実施の形態における興味度スコア生成部の処理のフローチャートである。 FIG. 13 is a flowchart of processing of the interest score generation unit according to the embodiment of the present invention.
ステップ301) 興味分布計算部40は、興味分布DB50から未処理のキーワードを取得し、wとする。
Step 301) The interest
ステップ302) キーワードに対応する未処理の分布情報を取得し、混合比π、正規分布のパラメータをμ1,μ2,σ11,σ12,σ12とする。例えば、図11の例では、分布ID1の場合は、パラメータμ1=1112773,μ2=112353,σ11=1233,σ12=12453,σ22=10224を取得する。 Step 302) Unprocessed distribution information corresponding to the keyword is acquired, and the mixture ratio π and the parameters of the normal distribution are set to μ 1 , μ 2 , σ 11 , σ 12 , and σ 12 . For example, in the example of FIG. 11, in the case of distribution ID1, parameters μ 1 = 1112773, μ 2 = 112353, σ 11 = 1233, σ 12 = 12453, and σ 22 = 10224 are acquired.
ステップ303) 当該パラメータで表現される正規分布において、両側qパーセント点の内側に含まれるメッシュID集合を取得し、それぞれのメッシュIDに対応する確率密度の積分値を算出する。ここで、両側qパーセントとは、確率密度の積分値が全体のqパーセントになる点のことを表し、qは予め設定された値とする。 Step 303) In the normal distribution expressed by the parameter, a mesh ID set included inside q percentage points on both sides is acquired, and an integrated value of probability density corresponding to each mesh ID is calculated. Here, both-side q percent represents a point where the integrated value of probability density is q percent of the whole, and q is a preset value.
ステップ304) 取得したメッシュID集合に含まれるそれぞれのメッシュIDに対して、興味度スコアDB70のキーワードがwに該当するレコードに対して、ステップ303で算出した積分値を加算する。
Step 304) For each mesh ID included in the acquired mesh ID set, the integration value calculated in
ステップ305) 興味分布DB50のキーワードがwのレコードにおいて未処理の分布が存在する場合にはステップ302に戻る。そうでない場合はステップ306に移行する。
Step 305) If there is an unprocessed distribution in the record with the keyword w in the
ステップ306) 興味分布DB50に未処理のキーワードがある場合には、ステップ301に戻る。そうでない場合は処理を終了する。
Step 306) If there is an unprocessed keyword in the
上記のように、エリアタグ(キーワード)のクリック情報を閲覧範囲に基づいて2次元ヒストグラムに変換し、二次元座標上の無限混合正規分布推定方法(実際には、無限ではなくデータに見合った適切な数に収束)を用いることで、データの分布に合った興味度の分布推定が可能となり、キーワードに対する興味度スコアDB生成が可能となる。 As described above, click information of area tag (keyword) is converted into 2D histogram based on viewing range, and infinite mixed normal distribution estimation method on 2D coordinates (actually, it is not appropriate but suitable for data instead of infinity) By using (convergence to a large number), it becomes possible to estimate the distribution of the degree of interest that matches the data distribution, and it is possible to generate an interest score DB for the keyword.
なお、上記の図5に示す推定興味度スコアDB生成装置の各構成要素の動作をプログラムとして構築し、推定興味度スコアDB生成装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能となる。 Note that the operation of each component of the estimated interest score DB generation device shown in FIG. 5 is constructed as a program and installed in a computer used as the estimated interest score DB generation device to be executed, or the network is It is possible to circulate through.
本発明は上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
10 キーワードクリックログDB(データベース)
20 クリック頻度ヒストグラム生成部
30 クリック頻度ヒストグラムDB(データベース)
40 興味分布計算部
50 興味分布DB(データベース)
60 興味度スコアDB生成部
70 興味度スコアDB(データベース)
100 興味度スコアDB生成処理部
10 Keyword click log DB (database)
20 Click
40
60 Interest
100 Interest score DB generation processing unit
Claims (7)
キーワード毎に、地図を分割した矩形に対するメッシュIDと、該メッシュIDに対するクリック頻度を格納したクリック頻度ヒストグラム記憶手段と、
前記クリック頻度ヒストグラム記憶手段からキーワードのメッシュIDとクリック頻度を取得して、二次元正規分布の推定を行うことにより、キーワードに対する二次元正規分布パラメータと、該キーワードにおける該二次元正規分布の混合比を推定し、興味分布記憶手段に格納する興味分布計算手段と、
前記興味分布記憶手段から取得した前記二次元正規分布パラメータに基づいて、それぞれのメッシュIDに対応する確率密度の積分値を算出して、興味度スコアデータベースの該メッシュIDに対応するキーワードのレコードに加算することにより、興味分布を求める興味度スコアデータベース生成手段と、
を有することを特徴とする推定興味度スコアデータベース生成装置。 In a document search service for searching a geographical range based on a map display range and latitude / longitude information, an estimated interest score database generation device for estimating the degree of interest of a user,
For each keyword, a mesh ID for a rectangle obtained by dividing the map, and a click frequency histogram storage means for storing a click frequency for the mesh ID;
By obtaining the mesh ID and click frequency of the keyword from the click frequency histogram storage means and estimating the two-dimensional normal distribution, the two-dimensional normal distribution parameter for the keyword and the mixture ratio of the two-dimensional normal distribution in the keyword Interest distribution calculation means for estimating and storing the interest distribution storage means,
Based on the two-dimensional normal distribution parameter acquired from the interest distribution storage means, the integrated value of the probability density corresponding to each mesh ID is calculated, and the keyword record corresponding to the mesh ID in the interest score database is calculated. An interest score database generating means for obtaining an interest distribution by adding,
An estimated interest score database generation device characterized by comprising:
前記キーワードクリックログ記憶手段から前記キーワードと前記地理範囲を取得し、該地理範囲の大きさに応じてスコアを計算し、該地理範囲に該当するメッシュIDの集合を獲得し、該メッシュIDの集合に含まれる各メッシュIDについて、前記クリック頻度ヒストグラム記憶手段においてキーワード及びメッシュIDが一致するレコードのクリック頻度のカラムに該スコアを加えるクリック頻度ヒストグラム生成手段と、
を更に有する
請求項1記載の推定興味度スコアデータベース生成装置。 A keyword click log storage means for storing a keyword and a geographical range where the keyword is clicked;
The keyword and the geographic range are acquired from the keyword click log storage means, a score is calculated according to the size of the geographic range, a set of mesh IDs corresponding to the geographic range is obtained , and the set of mesh IDs Click frequency histogram generating means for adding the score to the click frequency column of the record that matches the keyword and mesh ID in the click frequency histogram storage means for each mesh ID included in
The estimated interest score database generation device according to claim 1, further comprising:
前記クリック頻度ヒストグラム記憶手段から読み出した前記メッシュIDを二次元座標上の点情報に変換し、該点情報をデータ点集合に追加し、該データ点集合から構成される二次元座標上の点集合に基づいて、二次元空間における二次元正規分布パラメータを求め、該二次元正規分布の混合数と各分布の混合比を求め、該混合数に応じた二次元正規分布パラメータと該混合比を、前記興味分布記憶手段に格納する手段を含む
請求項1記載の推定興味度スコアデータベース生成装置。 The interest distribution calculating means includes:
The mesh ID read from the click frequency histogram storage means is converted into point information on two-dimensional coordinates, the point information is added to a data point set, and the point set on the two-dimensional coordinates configured from the data point set On the basis of the two-dimensional normal distribution parameter in the two-dimensional space, the mixture number of the two-dimensional normal distribution and the mixture ratio of each distribution, the two-dimensional normal distribution parameter and the mixture ratio according to the mixture number, The estimated interest score database generation apparatus according to claim 1, further comprising means for storing in the interest distribution storage means.
興味分布計算手段が、キーワード毎に、地図を分割した矩形に対するメッシュIDと、該メッシュIDに対するクリック頻度を格納したクリック頻度ヒストグラム記憶手段からキーワードのメッシュIDとクリック頻度を取得して、二次元正規分布の推定を行うことにより、キーワードに対する二次元正規分布パラメータと、該キーワードにおける該二次元正規分布の混合比を推定し、興味分布記憶手段に格納する興味分布計算ステップと、
興味度スコアデータベース生成手段が、前記興味分布記憶手段から取得した前記二次元正規分布パラメータに基づいて、それぞれのメッシュIDに対応する確率密度の積分値を算出して、興味度スコアデータベースの該メッシュIDに対応するキーワードのレコードに加算することにより、興味分布を求める興味度スコアデータベース生成ステップと、
を行うことを特徴とする推定興味度スコアデータベース生成方法。 In a document search service for searching a geographical range based on a map display range and latitude / longitude information, an estimated interest score database generation method for estimating the degree of interest of a user,
The interest distribution calculation means obtains the mesh ID and click frequency of the keyword from the mesh ID for the rectangle obtained by dividing the map for each keyword and the click frequency histogram storage means for storing the click frequency for the mesh ID. An interest distribution calculating step for estimating a two-dimensional normal distribution parameter for the keyword and a mixture ratio of the two-dimensional normal distribution in the keyword by storing the distribution;
Based on the two-dimensional normal distribution parameter acquired from the interest distribution storage unit, the interest score database generation unit calculates an integrated value of probability density corresponding to each mesh ID, and the mesh of the interest score database An interest score database generation step for obtaining an interest distribution by adding to a record of a keyword corresponding to the ID;
An estimated interest score database generation method characterized by:
キーワードと該キーワードがクリックされた地理範囲を格納したキーワードクリックログ記憶手段から前記キーワードと前記地理範囲を取得し、該地理範囲の大きさに応じてスコアを計算し、該地理範囲に該当するメッシュIDの集合を獲得し、該メッシュIDの集合に含まれる各メッシュIDについて、前記クリック頻度ヒストグラム記憶手段においてキーワード及びメッシュIDが一致するレコードのクリック頻度のカラムに該スコアを加えるクリック頻度ヒストグラム生成ステップを、
を更に行う請求項4記載の推定興味度スコアデータベース生成方法。 Click frequency histogram generation means
The keyword and the geographic range are acquired from the keyword click log storage means storing the keyword and the geographic range where the keyword is clicked, and a score is calculated according to the size of the geographic range, and the mesh corresponding to the geographic range Click frequency histogram generation step of acquiring a set of IDs and adding the score to the click frequency column of a record having the same keyword and mesh ID in the click frequency histogram storage means for each mesh ID included in the set of mesh IDs The
The estimated interest score database generation method according to claim 4, further comprising:
前記クリック頻度ヒストグラム記憶手段から読み出した前記メッシュIDを二次元座標上の点情報に変換し、該点情報をデータ点集合に追加し、該データ点集合から構成される二次元座標上の点集合に基づいて、二次元空間における二次元正規分布パラメータを求め、該二次元正規分布の混合数と各分布の混合比を求め、該混合数に応じた二次元正規分布パラメータと該混合比を、前記興味分布記憶手段に格納する
請求項4記載の推定興味度スコアデータベース生成方法。 In the interest distribution calculation step,
The mesh ID read from the click frequency histogram storage means is converted into point information on two-dimensional coordinates, the point information is added to a data point set, and the point set on the two-dimensional coordinates configured from the data point set On the basis of the two-dimensional normal distribution parameter in the two-dimensional space, the mixture number of the two-dimensional normal distribution and the mixture ratio of each distribution, the two-dimensional normal distribution parameter and the mixture ratio according to the mixture number, The estimated interest score database generation method according to claim 4, which is stored in the interest distribution storage means.
請求項1乃至3のいずれか1項に記載の推定興味度スコアデータベース生成装置の各手段として機能させるための推定興味度スコアデータベース生成プログラム。 Computer
The estimated interest score database production | generation program for functioning as each means of the estimated interest score database production | generation apparatus of any one of Claims 1 thru | or 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012086893A JP5801242B2 (en) | 2012-04-05 | 2012-04-05 | Estimated interest score database generation apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012086893A JP5801242B2 (en) | 2012-04-05 | 2012-04-05 | Estimated interest score database generation apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013218440A JP2013218440A (en) | 2013-10-24 |
JP5801242B2 true JP5801242B2 (en) | 2015-10-28 |
Family
ID=49590482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012086893A Expired - Fee Related JP5801242B2 (en) | 2012-04-05 | 2012-04-05 | Estimated interest score database generation apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5801242B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016224487A (en) * | 2015-05-27 | 2016-12-28 | 株式会社Nttドコモ | Posting information aggregate device |
CN111523057B (en) * | 2020-04-13 | 2024-04-19 | 中煤航测遥感集团有限公司 | Ground map acquisition method, device, equipment and storage medium based on ground map |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029943A (en) * | 2002-06-21 | 2004-01-29 | Recruit Co Ltd | Retrieval support method |
US7933897B2 (en) * | 2005-10-12 | 2011-04-26 | Google Inc. | Entity display priority in a distributed geographic information system |
JP5164968B2 (en) * | 2009-12-25 | 2013-03-21 | ヤフー株式会社 | Apparatus, method and program for creating regional score database |
-
2012
- 2012-04-05 JP JP2012086893A patent/JP5801242B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013218440A (en) | 2013-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106506705B (en) | Crowd classification method and device based on location service | |
US10387457B2 (en) | Grid-based analysis of geospatial trajectories | |
CN107341220B (en) | Multi-source data fusion method and device | |
KR102121361B1 (en) | Method and device for identifying the type of geographic location where the user is located | |
Achilleos | The Inverse Distance Weighted interpolation method and error propagation mechanism–creating a DEM from an analogue topographical map | |
US8484224B1 (en) | System and method for ranking geofeeds and content within geofeeds | |
CN107784010B (en) | Method and equipment for determining popularity information of news theme | |
US20170031951A1 (en) | Searching and determining active area | |
DE202010018500U1 (en) | Refinement of location estimates and reverse geocoding based on a user profile | |
US9159030B1 (en) | Refining location detection from a query stream | |
US20170068902A1 (en) | Modeling of Geospatial Location Over Time | |
CN110888866B (en) | Data expansion method and device, data processing equipment and storage medium | |
CN107430631B (en) | Determining semantic place names from location reports | |
WO2017016122A1 (en) | Information pushing method and apparatus | |
Błaszczak-Bąk et al. | Optimization algorithm and filtration using the adaptive TIN model at the stage of initial processing of the ALS point cloud | |
CN107784046B (en) | POI information processing method and device | |
US10250550B2 (en) | Social message monitoring method and apparatus | |
US9811539B2 (en) | Hierarchical spatial clustering of photographs | |
WO2021164131A1 (en) | Map display method and system, computer device and storage medium | |
Honarparvar et al. | Improvement of a location-aware recommender system using volunteered geographic information | |
JP5801242B2 (en) | Estimated interest score database generation apparatus, method, and program | |
Devkota et al. | An exploratory study on the generation and distribution of geotagged tweets in Nepal | |
Mozas-Calvache et al. | Adapting 2D positional control methodologies based on linear elements to 3D | |
US10922321B2 (en) | Interpreting user queries based on device orientation | |
Li et al. | Uncertainty modeling and analysis of surface area calculation based on a regular grid digital elevation model (DEM) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5801242 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |