JP2011175525A - Retrieval device - Google Patents
Retrieval device Download PDFInfo
- Publication number
- JP2011175525A JP2011175525A JP2010040043A JP2010040043A JP2011175525A JP 2011175525 A JP2011175525 A JP 2011175525A JP 2010040043 A JP2010040043 A JP 2010040043A JP 2010040043 A JP2010040043 A JP 2010040043A JP 2011175525 A JP2011175525 A JP 2011175525A
- Authority
- JP
- Japan
- Prior art keywords
- content
- score
- search
- calculated
- ranking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、検索結果をランキング付けする機能を有する検索装置に関する。 The present invention relates to a search device having a function of ranking search results.
ユーザから入力された検索条件に合致するコンテンツを検索する検索装置において、検索結果の一覧を表示する際のランキング手法が各種提案ないし実用化されている。その内の一つに、多くのユーザに何度も閲覧されているコンテンツは、人気や重要性や信頼性が高いと考えて上位にランキングする手法がある。以下、この手法をクリックフィードバック手法と呼ぶ。 In a search device that searches for content that matches a search condition input by a user, various ranking methods for displaying a list of search results have been proposed or put into practical use. One of them is a method in which content viewed many times by many users is ranked high because it is considered to be popular, important and reliable. Hereinafter, this method is referred to as a click feedback method.
クリックフィードバック手法を用いた検索装置の一例が特許文献1に記載されている。特許文献1に記載された検索装置は、各コンテンツごとの過去の閲覧履歴を記憶する閲覧情報蓄積部を備えている。具体的には、閲覧情報蓄積部には、各コンテンツごとに閲覧回数とバースト度(前日の閲覧数からの増減率)、およびこれらから導出されたトラフィックランクが記憶されている。そして、この検索装置は、ユーザからの検索条件に合致するコンテンツを検索した際、そのコンテンツのトラフィックランクの大小に応じて検索結果をソートして出力する。
An example of a search device using a click feedback technique is described in
他方、特許文献2には、任意のランキングアルゴリズムによる検索結果の仮スコアを、検索者の所属と検索された文書の作成者の所属との間の距離に応じて補正する検索装置が記載されている。具体的には、例えば、文書Aの仮スコアを0.8、文書Bの仮スコアを0.9とし、文書Aの作成者の所属が第一事業本部・第一事業部・第一営業部・第一課であり、文書Bの作成者の所属が第二事業本部・第一事業部・第二営業部・第一課であるとする。このとき、文書Aの作成者の所属が検索者と同じであれば、文書Aの重みは一番高くて例えば1.0とされ、文書Aの最終スコアが0.8×1.0=0.8とされる。また、文書Bの作成者の所属が検索者と違えば、文書Bの重みは例えば0.7と低くなり、0.9×0.7=0.63が文書Bの最終スコアとして計算される。この結果、仮スコアでは文書Bより低いスコアであった文書Aが、最終スコアでは文書Bより上位にランキング付けされる。この特許文献2は、検索者の所属する組織により近い組織に所属する者が作成した文書ほど、検索者にとってより重要であるという考えを前提としている。
On the other hand,
クリックフィードバック手法は、企業内における各サーバに散在している構造データ・非構造データの横断的検索の際のランキングアルゴリズムとして活用されているけれども、登録されて間もないコンテンツへの配慮が不十分である。その理由は、登録されて間もないコンテンツのクリック回数は0か、それに近い値になるが、そうなる理由は、検索結果として重要でなかったことにあるのではなくて、検索結果中に今まで出現していなかったことにあるためである。そのため、クリック回数が0またはそれに近い値のコンテンツの中には、クリック回数が将来的に大幅に増加するコンテンツが存在する。そのような可能性のあるコンテンツの代表例は、既にクリック回数が多いコンテンツを作成したことのある作成者が新たに作成したコンテンツである。 The click feedback method is used as a ranking algorithm for cross-sectional search of structured data and unstructured data scattered across each server in the company, but consideration for content that has just been registered is insufficient. It is. The reason for this is that the number of clicks of content that has just been registered is 0 or close to it, but this is not because it was not important as a search result. This is because it was not appearing until. For this reason, there is content whose number of clicks will increase significantly in the future among the content whose number of clicks is 0 or a value close thereto. A representative example of such content that may be possible is content newly created by a creator who has already created content with a large number of clicks.
しかるに、上述した特許文献1に記載の検索装置では、スコアの計算にコンテンツ作成者を考慮していないために、既にクリック回数が多いコンテンツを作成した作成者と同一作成者によるコンテンツは、登録して間もないためにクリック回数が0またはそれに近い値であればランキング順位が低くなってしまう。また、上述した特許文献2に記載の検索装置では、検索者の所属と各コンテンツ作成者の所属とを比較して仮スコアを補正するため、既にクリック回数が多いコンテンツを作成した作成者と同一作成者によるコンテンツは、そのコンテンツの作成者の所属が検索者の所属と違っていれば、ますますランキング順位が低くなってしまうという課題がある。
However, in the search device described in
本発明の目的は、上述した課題、すなわち、クリック回数が多いコンテンツを作成した作成者と同一作成者によるコンテンツであっても、登録されて間もない場合にはクリック回数が0またはそれに近い値であるためにランキング順位が低くなってしまうという課題を解決する検索装置を提供することにある。 The object of the present invention is the above-described problem, that is, even if the content is created by the same creator as the creator who created the content with a large number of clicks, the number of clicks is 0 or a value close to it if it is just registered. Therefore, an object of the present invention is to provide a search device that solves the problem of lowering the ranking order.
本発明の一形態にかかる検索装置は、各コンテンツのクリック回数の履歴を記憶するクリック履歴記憶手段と、ユーザの検索要求を入力してコンテンツを検索し、この検索したコンテンツごとに、当該コンテンツに関する上記クリック回数を考慮して第1のスコアを算出し、この算出した第1のスコアでランキング付けした一次検索結果を作成する検索手段と、上記一次検索結果中のコンテンツの作成者ごとに、上記一次検索結果中における作成コンテンツのランキングに基づいて信頼度の値を計算する信頼度計算手段と、上記検索されたコンテンツごとに、当該コンテンツに関する上記クリック回数と当該コンテンツの作成者に関する上記信頼度の値とを考慮して第2のスコアを算出し、この算出した第2のスコアでランキング付けした二次検索結果を出力する再ランキング付け手段とを備える。 A search device according to an aspect of the present invention includes a click history storage unit that stores a history of the number of clicks of each content, searches for content by inputting a user search request, and relates to the content for each searched content. A search means for calculating a first score in consideration of the number of clicks and creating a primary search result ranked according to the calculated first score; and for each creator of content in the primary search result, A reliability calculation means for calculating a reliability value based on the ranking of the created content in the primary search result; and for each searched content, the number of clicks related to the content and the reliability related to the creator of the content. The second score is calculated in consideration of the value, and ranking is performed based on the calculated second score. And a re-ranking means for outputting a search result.
本発明は上述したような構成を有するため、登録されて間もないためにクリック回数が0またはそれに近い値になるコンテンツであっても、そのコンテンツと同じ作成者によるコンテンツが今回の検索結果で高順位にランキングされていれば、ランキング順位が低くなってしまうことを防ぐことが可能になる。 Since the present invention has the configuration as described above, even if the content is registered soon and the number of clicks is 0 or a value close to it, the content by the same creator as that content is the current search result. If the ranking is high, it is possible to prevent the ranking from becoming low.
次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1を参照すると、本発明の第1の実施形態にかかる検索装置100は、一般的にはサーバ装置から構成され、ユーザから入力される検索条件に合致するコンテンツを検索し、検索結果をランキング付けしてユーザに返却する機能を有している。この検索装置100は、検索手段101と、信頼度計算手段102と、再ランキング付け手段103と、履歴更新手段104と、クリック履歴記憶手段105とを備えている。
Next, embodiments of the present invention will be described in detail with reference to the drawings.
[First embodiment]
Referring to FIG. 1, a
クリック履歴記憶手段105は、各コンテンツごとのクリック回数の履歴を記憶する機能を有する。クリック回数は、閲覧回数と同じ意味である。
The click
検索手段101は、ユーザの検索要求を入力してコンテンツを検索する機能と、検索したコンテンツごとに、当該コンテンツに関するクリック回数を考慮して第1のスコアを算出する機能と、算出した第1のスコアでランキング付けした一次検索結果を作成する機能とを有する。
The
検索手段101が検索の対象とするコンテンツ或いはそのインデックスは、検索装置100内の記憶装置あるいは検索装置100からアクセス可能な外部の記憶装置に記憶されている。検索装置100が企業内検索(Enterprise Search)を行う装置である場合、検索の対象となるコンテンツは、データベース内のデータ、ファイルサーバ内のデータや、業務アプリケーションなど、様々な形態の構造データ、非構造データが含まれる。また検索装置100がインターネット検索を行う装置である場合、検索の対象となるコンテンツは、ウェブサイトのページなどが含まれる。
The content to be searched by the search means 101 or its index is stored in a storage device in the
信頼度計算手段102は、検索手段101が作成した一次検索結果中のコンテンツの作成者ごとに、一次検索結果中における作成コンテンツのランキングに基づいて信頼度の値を計算する機能を有する。
The
コンテンツの作成者が誰であるかは、検索装置100内の記憶装置あるいは検索装置100からアクセス可能な外部の記憶装置に記憶されたコンテンツ或いはインデックス中に記述されている。また、クリック履歴記憶手段105に、各コンテンツのクリック回数と作成者の情報を記憶するようにしてもよい。
The creator of the content is described in the content or index stored in the storage device in the
信頼度計算手段102は、コンテンツの作成者ごとに、その作成者が作成したコンテンツのうち一次検索結果中で最も高くランキング付けされているコンテンツに付与された第1のスコアに基づいて、上記信頼度を計算してよい。具体的には、一次検索結果中の最高ランキングのコンテンツに付与された第1のスコアに対する、そのコンテンツ作成者が作成したコンテンツのうち一次検索結果中で最も高くランキングされているコンテンツに付与された第1のスコアの比に基づいて、信頼度を計算してよい。 For each content creator, the reliability calculation means 102 determines the trust based on the first score given to the content ranked highest in the primary search result among the content created by the creator. You may calculate the degree. Specifically, for the first score given to the highest ranking content in the primary search result, it was given to the content ranked highest in the primary search result among the content created by the content creator The reliability may be calculated based on the ratio of the first score.
また、信頼度計算手段102は、上記とは異なる方法で、コンテンツ作成者の信頼度を計算してよい。例えば、コンテンツの作成者ごとに、その作成者が作成したコンテンツのうち一次検索結果中に現れるコンテンツに付与された第1のスコアの平均スコアに基づいて、信頼度を計算してよい。 Further, the reliability calculation means 102 may calculate the reliability of the content creator by a method different from the above. For example, for each content creator, the reliability may be calculated based on the average score of the first scores assigned to the content appearing in the primary search result among the content created by the creator.
再ランキング付け手段103は、検索手段101で検索されたコンテンツごとに、当該コンテンツに関するクリック回数と当該コンテンツの作成者に関する信頼度の値とを考慮して第2のスコアを算出する機能と、この算出した第2のスコアでランキング付けした二次検索結果を作成して出力する機能とを有する。
The
再ランキング付け手段103は、検索手段101で検索されたコンテンツごとに、当該コンテンツに関するクリック回数からクリックスコアを計算し、この計算したクリックスコアと当該コンテンツの作成者に関する信頼度の値とから著者信頼補助値を計算し、この計算した著者信頼補助値を考慮して第2のスコアを計算してよい。上記計算する著作信頼補助値は、信頼度の値がより大きいほど大きくなり、クリックスコアがより大きいほど小さくなる値であってよい。また、再ランキング付け手段103は、計算した著者信頼補助値とクリックスコアとから補正クリックスコアを計算し、この計算した補正クリックスコアと検索されたコンテンツごとの仮スコアとから第2のスコアを計算してよい。
The
履歴更新手段104は、ユーザによるコンテンツの閲覧時、クリック履歴記憶手段105に記録された当該コンテンツのクリック回数を更新する機能を有する。例えば、クリック履歴更新手段104は、ユーザが検索結果中の或るコンテンツをクリックして閲覧を要求すると、要求されたコンテンツをユーザに送信するとともに、クリック履歴記憶手段105に記憶された当該コンテンツのクリック回数を1だけ加算するように構成されていてよい。
The
次に本実施形態の動作を説明する。 Next, the operation of this embodiment will be described.
ユーザから図示しないクライアント端末などの端末を通じて、検索キーワードなどの検索条件を指定した検索要求が入力されると、検索装置100の検索手段101は、検索条件に合致するコンテンツを検索する。次に検索手段101は、検索したコンテンツごとに、当該コンテンツに関するクリック回数を考慮して第1のスコアを算出し、この算出した第1のスコアでランキング付けした一次検索結果を作成する。
When a search request specifying a search condition such as a search keyword is input from a user terminal such as a client terminal (not shown), the
次に、信頼度計算手段102は、検索手段101が作成した一次検索結果中のコンテンツの作成者ごとに、一次検索結果中における作成コンテンツのランキングに基づいて信頼度の値を計算する。作成者が過去に作成したコンテンツ全般を対象とするのではなく、今回の検索キーワードで検索されたコンテンツ中のうちの当該作成者によって作成されたコンテンツのランキングに基づいて、その作成者の信頼度を計算するため、計算された信頼度は当該検索キーワードの関連分野における当該作成者の信頼度を示すことになる。
Next, the
次に、再ランキング手段103は、検索手段101で検索されたコンテンツごとに、当該コンテンツに関するクリック回数と当該コンテンツの作成者に関する信頼度の値とを考慮して第2のスコアを算出し、この算出した第2のスコアでランキング付けした二次検索結果を作成して出力する。検索手段101が、信頼度を考慮せずにスコア(第1のスコア)を計算しているのに対して、再ランキング手段103は信頼度を考慮してスコア(第2のスコア)を計算している点が相違する。これにより、検索要求を行ったユーザの端末の画面に、クリック回数と作成者の信頼度を考慮してランキング付けされた検索結果が表示される。
Next, the
その後にユーザが、検索結果中の何れかのコンテンツを閲覧すると、履歴更新手段104は、クリック履歴記憶手段105に記憶された当該コンテンツの属するグループごとのクリック回数を更新する。
Thereafter, when the user browses any content in the search result, the
このように本実施形態によれば、登録されて間もないためにクリック回数が0またはそれに近い値になるコンテンツであっても、そのコンテンツと同じ作成者によるコンテンツが今回の検索結果で高順位にランキングされていれば、ランキング順位が低くなってしまうことを防ぐことが可能になる。その理由は、検索キーワードに合致するコンテンツをそのクリック回数を考慮してランキング付けした一次検索結果において高順位にランキング付けされているコンテンツ作成者ほど、その作成者は検索キーワードの関連分野における信頼性が高いと考えて、より高い信頼度を付与し、クリック回数だけでなく上記付与した信頼度を考慮して、その作成者によって作成されたコンテンツの最終スコアを計算しているためである。 As described above, according to the present embodiment, even if the content has just been registered and the number of clicks is 0 or a value close to it, content by the same creator as that content is ranked high in the current search result. It is possible to prevent the ranking order from being lowered if it is ranked. The reason for this is that the content creators ranked higher in the primary search results that rank the content that matches the search keyword in consideration of the number of clicks. This is because the final score of the content created by the creator is calculated in consideration of not only the number of clicks but also the given reliability.
[第2の実施形態]
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
図2を参照すると、本発明の第2の実施形態は、検索キーワードを含む検索要求を送信するクライアント端末210と、検索要求を受信してコンテンツを検索し、検索結果を作成して出力する検索サーバ200と、実際にコンテンツが格納されている1以上のコンテンツ保存サーバ230と、これらを通信可能に接続するネットワーク220とから構成されている。
Referring to FIG. 2, the second embodiment of the present invention is a
検索サーバ200は、仮ランキングスコア決定部201、クリックスコア計算処理部202、ランキングスコア計算処理部203、著者信頼係数計算処理部204、クライアント要求受付/返却処理部205、およびクリック履歴情報記憶部206を備えている。図1との関係では、クリック履歴情報記憶部206がクリック履歴記憶手段105に相当し、クライアント要求受付/返却処理部205と仮ランキングスコア決定部201とクリックスコア計算処理部202とランキングスコア計算処理部203とが検索手段101に相当し、著者信頼係数計算処理部204が信頼度計算手段102に相当し、ランキングスコア計算処理部203が再ランキング付け手段103に相当する。
The
[概要]
企業内に散在する情報量が増え続けている一方、業務の担当者と製品の開発部門は一定期間内に頻繁に変わることが少ない。その結果、ある業務もしくは製品に対する検索において、当該業務の担当者もしくは担当部門の作成したコンテンツは他者の作成したコンテンツより信頼性と重要性が高いと考えられる。新規作成したコンテンツの信頼性と重要度の評価をコンテンツ著者の信頼性から得るという観点により、本実施形態では、コンテンツの作成者情報を利用した企業内検索におけるクリックフィードバック手法を実現している。
[Overview]
While the amount of information scattered throughout the enterprise continues to increase, the person in charge of business and the product development department rarely change frequently within a certain period. As a result, in the search for a certain business or product, the content created by the person in charge or the department in charge of the business is considered to be more reliable and important than the content created by others. From the viewpoint of obtaining the reliability and importance evaluation of the newly created content from the reliability of the content author, this embodiment implements a click feedback method in an in-company search using content creator information.
具体的には、検索時に、まず既存のスコアリングアルゴリズムと通常のクリックフィードバック手法により検索結果の仮ランキングスコアを決定する(スコアリングアルゴリズムは何でも良い)。この仮ランキングスコアを用いて、次に著者の信頼係数を定義する。この信頼係数は著者が作成したコンテンツの仮ランキングスコアから計算する。検索結果のランキング上位にあるコンテンツはユーザから高く評価された実績があったため、このコンテンツの著者は検索キーワードの関連分野における信頼性が高いと認められ、信頼係数を高くする。同じ著者が一つの検索キーワードにおける複数のコンテンツを持っている場合、仮ランキングスコアが一番高いコンテンツのランキングスコアを使って計算する。そして、同じ著者が作成したコンテンツの仮ランキングスコアにこの信頼係数を加味させてランキングスコアを再計算する。 Specifically, at the time of search, first, a temporary ranking score of a search result is determined by an existing scoring algorithm and a normal click feedback technique (any scoring algorithm is acceptable). Next, the author's confidence coefficient is defined using the provisional ranking score. This confidence coefficient is calculated from the provisional ranking score of the content created by the author. Since the content at the top of the search results has been highly evaluated by users, the author of this content is recognized as having high reliability in the related field of the search keyword, and the reliability coefficient is increased. When the same author has multiple contents for one search keyword, the calculation is performed using the ranking score of the content having the highest provisional ranking score. Then, the ranking score is recalculated by adding the reliability coefficient to the provisional ranking score of the content created by the same author.
このようにしてクリックフィードバック手法を実現することで、新規作成したコンテンツはクリックされた回数が0だとしても、コンテンツの著者の信頼係数でランキングスコア値を補助される。その結果、コンテンツのクリック回数に全面的に依存せずに、コンテンツの信頼性と重要性を正しく評価し、検索結果に適切なランキング順位でユーザに提供できることになる。 By implementing the click feedback method in this way, even if the newly created content is clicked on, the ranking score value is assisted by the confidence coefficient of the author of the content. As a result, the reliability and importance of the content can be correctly evaluated without depending on the total number of clicks of the content, and the user can be provided with a ranking ranking appropriate to the search result.
次に、図2を参照しながら、本実施形態の動作を説明する。前提として、仮ランキングスコア決定部201は汎用的なスコアリングエンジンが利用でき、そのために必要な情報は既に検索サーバ200に格納されているものとする。
Next, the operation of this embodiment will be described with reference to FIG. As a premise, it is assumed that the provisional ranking
クライアント端末210が検索キーワードを含む検索要求をクライアント要求受付/返却処理部205に送信すると、クライアント要求受付/返却処理部205はこの検索要求を受信し、仮ランキングスコア決定部201に情報を伝達する。仮ランキングスコア決定部201は、検索キーワードに合致するコンテンツを検索し、仮ランキングスコアを計算する。続いて、検索したコンテンツをクリックスコア計算処理部202へ渡し、計算した仮ランキングのスコアをランキングスコア計算処理部203へ渡す。
When the
クリックスコア計算処理部202は、クリック履歴情報記憶部206に記憶されたクリック履歴を参照して、検索されたコンテンツのクリックスコアを計算する。そして、計算したクリックスコアをランキングスコア計算処理部203へ渡す。
The click score
ランキングスコア計算処理部203は、計算された仮ランキングスコアとクリックスコアを用いて、ランキングスコアを計算する。この計算は、後述する計算式2を用いて行うが、著者信頼係数の作成前のため、著者信頼係数はデフォルト値0として計算する。
The ranking score
続いて著者信頼係数計算処理部204は、ランキングスコア計算処理部203から、著者の信頼性を考慮していないクリックフィードバック手法で計算したコンテンツのランキングスコアを取得して、このランキングスコアから著者の信頼係数を計算する。同じ著者が複数コンテンツを作成した場合は、この著者の作成したコンテンツの中でランキングスコアが一番高いコンテンツのランキングスコアから計算する。ランキングスコアが高いほど、コンテンツの作成者に高い信頼係数を付ける。著者信頼係数計算処理部204は、計算した著者信頼係数をランキングスコア計算処理部203へ返す。なお、本実施形態では、各コンテンツの著者(作成者)の情報は、クリック履歴情報記憶部206に記憶されている。
Subsequently, the author confidence coefficient
最後に、ランキングスコア計算処理部203は、更新した著者信頼係数でランキングスコアを再計算し、クライアント要求受付/返却処理部205に検索結果を返却する。クライアント要求受付/返却処理部205は、検索結果をランキングスコアの高い順にソートし、クライアント端末210へ返却する。
Finally, the ranking score
検索結果を受け取ったクライアント端末210は、検索結果を画面に表示する。ユーザは、検索結果リストの中から閲覧したいコンテンツを選択することで、コンテンツ保存サーバ230からコンテンツを閲覧することができる。その際、コンテンツ保存サーバ230は、クリック履歴情報記憶部206中の閲覧されたコンテンツのクリック回数を更新する。
The
次に、本実施形態のより具体的な動作を説明する。本実施形態の動作は以下の4つのステップを含む。 Next, a more specific operation of this embodiment will be described. The operation of this embodiment includes the following four steps.
Step1.
クライアント端末210からの検索要求をクライアント要求受付/返却処理部205が受け付け、仮ランキングスコア決定部201が検索結果となる全コンテンツをリストアップし、それぞれの仮ランキングのスコアを計算する。
Step1.
The client request reception /
仮ランキングスコア決定部201は、任意のアルゴリズムを適用可能であるため、その詳細については説明を省略する。クリックスコア計算処理部202は、以下の計算式1により、仮ランキングスコア決定部201がリストアップした検索結果コンテンツのクリック回数を反映するクリックスコアを計算する。クリックスコアの数値範囲は0〜1である。
Since the tentative ranking
クリックスコア≡クリック回数/max(全コンテンツのクリック回数) (1)
ただし、max(全コンテンツのクリック回数)は各コンテンツのクリック回数の中の最大値を意味する。
Click score ≡ Clicks / max (Clicks on all content) (1)
However, max (number of clicks of all contents) means the maximum value among the number of clicks of each content.
Step2.
ランキングスコア計算処理部203は、以下の計算式2により、仮ランキングスコア決定部201が計算した検索結果コンテンツの仮ランキングのスコア「仮スコア」とクリックスコア計算処理部202が計算したクリックフィードバック係数の「クリックスコア」とを用いて、一回目ランキングスコアを計算する。この時、著者信頼係数はまだ計算していないため、デフォルト値を“0”と規定し計算する。つまり、通常のクリックフィードバック手法と同様に計算する(なお本発明を適用しない通常のクリックフィードバック手法を利用する検索の場合は、この順番をそのまま検索結果としてクライアント端末210に返却することになる)。
Step2.
The ranking score
ランキングスコア
≡仮スコア×{クリックスコア+著者信頼係数×(1−クリックスコア)} (2)
Ranking score ≡ provisional score x {click score + author confidence coefficient x (1-click score)} (2)
本明細書では、著者信頼係数×(1−クリックスコア)を、著者信頼補助値と定義する。 In this specification, the author confidence coefficient × (1−click score) is defined as the author confidence auxiliary value.
Step3.
ランキングスコア計算処理部203は、計算結果となる検索結果コンテンツのランキングスコアを著者信頼係数計算処理部204へ渡す。そして、著者信頼係数計算処理部204は以下の計算式3により著者信頼係数を計算する。通常の検索の場合で計算したランキングスコアが大きいコンテンツほど、コンテンツ著者に高い信頼係数を付けるようにする。著者信頼係数の数値範囲は0〜1である。
The ranking score
著者信頼係数
≡ランキングスコア/max(全コンテンツのランキングスコア) (3)
ただし、max(全コンテンツのランキングスコア)は各コンテンツのランキングスコアの最大値を意味する。
Author confidence coefficient ≡ ranking score / max (ranking score of all contents) (3)
However, max (ranking score of all contents) means the maximum ranking score of each content.
Step4.
上記の処理が完了後、著者信頼係数計算処理部204は、著者信頼係数をランキングスコア計算処理部203へ返す。ランキングスコア計算処理部203は、上記計算された著者信頼係数と、仮スコアと、クリックスコアとを用いて、上記計算式2により、コンテンツの著者の信頼性を反映した最終ランキングスコアを計算する。この最終ランキングスコアをクライアント端末210へ返却する。
Step4.
After the above processing is completed, the author confidence coefficient
著者信頼係数を利用してランキングスコアを計算するとき、クリックされた回数の少ないコンテンツに著者の信頼係数でランキングスコアを補助するため、クリック回数が多ければ、即ち、クリックスコアが大きければ、ランキングスコアに対する補助値の影響が小さくなるようにする。このため、計算式2では、{著者信頼係数×(1−クリックスコア)}となっている。
When calculating the ranking score using the author confidence coefficient, the ranking score is assisted by the author's confidence coefficient for content with a small number of clicks. The influence of the auxiliary value on is reduced. For this reason, in the
検索結果を受け取ったクライアント端末210のユーザは、閲覧したいコンテンツを選択(クリック)して、コンテンツ保存サーバ230のコンテンツを参照する。この時、選択したクリック履歴情報(コンテンツ・作者)を検索サーバ200に送信して、クリック履歴情報を更新する。
The user of the
図3は、検索されたコンテンツごとのクリックスコア、仮スコア、著者信頼係数、一回目スコア、一回目ランキング、最終スコア、最終ランキングの計算例を示す。コンテンツ2とコンテンツ5は同じ著者である。また、コンテンツ5は新作成コンテンツで、クリック履歴がない。コンテンツ2は昔作成したコンテンツで、多くの参照履歴を持っている。一回目のランキングスコアを計算した時(著者の信頼性を考慮しない)、コンテンツ5はクリック履歴がないため、ランキングが低かったが、コンテンツ2のランキングが上位となっていた。そして、コンテンツ2から著者の信頼性を高く評価でき、最終のランキングスコアの計算(著者の信頼性を考慮する)で、二つのコンテンツ2、5の仮スコアに大きい差が存在していない場合は、コンテンツ5はコンテンツ2に近いランキング順位に上がっていることが分かる。
FIG. 3 shows a calculation example of a click score, a provisional score, an author confidence coefficient, a first score, a first ranking, a final score, and a final ranking for each searched content.
本実施形態によれば、以下に記載するような効果が得られる。 According to this embodiment, the effects described below can be obtained.
通常のクリックフィードバック手法ではクリック履歴のないコンテンツのランキングスコアを低く計算する傾向があり、特に新規作成したコンテンツのランキング順位を正しく評価できない問題がある。しかし、本実施形態は通常のクリックフィードバック手法を前提に、コンテンツの作成者の信頼性をコンテンツのランキングスコアに反映させ、クリック履歴と合わせてコンテンツのランキング順位を判断する。このため、新規作成したコンテンツであっても、そのコンテンツと同じ作成者によるコンテンツが今回の検索結果で高順位にランキングされていれば、ランキング順位が上がって、検索者の目に触れる機会を多くすることができる。 The normal click feedback method tends to calculate the ranking score of content having no click history, and there is a problem that the ranking ranking of newly created content cannot be evaluated correctly. However, in the present embodiment, on the premise of a normal click feedback method, the reliability of the content creator is reflected in the content ranking score, and the ranking ranking of the content is determined together with the click history. For this reason, even if the content is newly created, if the content by the same creator as that content is ranked high in this search result, the ranking will increase and there will be many opportunities for the searcher to see it. can do.
以上、本発明の実施形態について説明したが、本発明は以上の例に限定されず、その他各種の付加変更が可能である。また、本発明の検索装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における検索装置、検索サーバとして機能させる。 As mentioned above, although embodiment of this invention was described, this invention is not limited to the above example, Various other addition changes are possible. In addition, the search device of the present invention can be realized by a computer and a program as well as the functions of the search device according to hardware. The program is provided by being recorded on a computer-readable recording medium such as a magnetic disk or a semiconductor memory, and is read by the computer at the time of starting up the computer, etc. Function as a search device and a search server.
企業内における各サーバに散在している構造データ・非構造データの横断的検索の際のランキングアルゴリズムの用途などに適用できる。 It can be applied to the use of a ranking algorithm for cross-sectional search of structured data and unstructured data scattered in each server in a company.
100 検索装置
101 検索手段
102 信頼度計算手段
103 再ランキング手段
104 クリック履歴更新手段
104 履歴更新手段
105 クリック履歴記憶手段
120 検索手段
200 検索サーバ
201 仮ランキングスコア決定部
202 クリックスコア計算処理部
203 ランキングスコア計算処理部
204 著者信頼係数計算処理部
205 返却処理部
206 クリック履歴情報記憶部
210 クライアント端末
220 ネットワーク
230 コンテンツ保存サーバ
DESCRIPTION OF
Claims (8)
ユーザの検索要求を入力してコンテンツを検索し、該検索したコンテンツごとに、当該コンテンツに関する前記クリック回数を考慮して第1のスコアを算出し、該算出した第1のスコアでランキング付けした一次検索結果を作成する検索手段と、
前記一次検索結果中のコンテンツの作成者ごとに、前記一次検索結果中における作成コンテンツのランキングに基づいて信頼度の値を計算する信頼度計算手段と、
前記検索されたコンテンツごとに、当該コンテンツに関する前記クリック回数と当該コンテンツの作成者に関する前記信頼度の値とを考慮して第2のスコアを算出し、該算出した第2のスコアでランキング付けした二次検索結果を出力する再ランキング付け手段と
を備えることを特徴とする検索装置。 Click history storage means for storing a history of the number of clicks of each content;
A search is performed by inputting a user's search request, and a first score is calculated for each searched content, taking into account the number of clicks related to the content, and ranking is performed based on the calculated first score. A search means for creating search results;
For each creator of content in the primary search result, reliability calculation means for calculating a reliability value based on the ranking of the created content in the primary search result;
For each searched content, a second score is calculated in consideration of the number of clicks related to the content and the reliability value related to the creator of the content, and ranking is performed based on the calculated second score. A search device comprising re-ranking means for outputting a secondary search result.
ことを特徴とする請求項1に記載の検索装置。 The reliability calculation means, for each content creator, based on the first score given to the content ranked highest among the primary search results among the content created by the content creator The search device according to claim 1, wherein the reliability is calculated.
ことを特徴とする請求項1または2に記載の検索装置。 In the primary search result among the contents created by the content creator for the first score assigned to the highest ranking content in the primary search result for each content creator. The search device according to claim 1, wherein the reliability is calculated based on a ratio of the first score given to the content ranked highest.
ことを特徴とする請求項1乃至3の何れか1項に記載の検索装置。 The re-ranking means calculates a click score from the number of clicks related to the content for each searched content, and supports author trust from the calculated click score and the reliability value related to the creator of the content. 4. The search device according to claim 1, wherein a value is calculated, and the second score is calculated in consideration of the calculated author confidence auxiliary value. 5.
ことを特徴とする請求項1乃至4の何れか1項に記載の検索装置。 The re-ranking unit calculates a click score from the number of clicks related to the content for each searched content, and the reliability is calculated from the calculated click score and the reliability value related to the creator of the content. An author confidence assist value that increases as the degree value increases and decreases as the click score increases, calculates a corrected click score from the calculated author confidence assist value and the click score, and calculates 5. The search device according to claim 1, wherein the second score is calculated in consideration of a corrected click score. 6.
ことを特徴とする請求項1乃至5の何れか1項に記載の検索装置。 The re-ranking unit calculates a click score from the number of clicks related to the content for each searched content, and the reliability is calculated from the calculated click score and the reliability value related to the creator of the content. An author confidence assist value that increases as the degree value increases and decreases as the click score increases, calculates a corrected click score from the calculated author confidence assist value and the click score, and calculates The search device according to claim 1, wherein the second score is calculated from a corrected click score and a provisional score for each searched content.
前記検索手段が、ユーザの検索要求を入力してコンテンツを検索し、該検索したコンテンツごとに、当該コンテンツに関する前記クリック回数を考慮して第1のスコアを算出し、該算出した第1のスコアでランキング付けした一次検索結果を作成し、
前記信頼度計算手段が、前記一次検索結果中のコンテンツの作成者ごとに、前記一次検索結果中における作成コンテンツのランキングに基づいて信頼度の値を計算し、
前記再ランキング付け手段が、前記検索されたコンテンツごとに、当該コンテンツに関する前記クリック回数と当該コンテンツの作成者に関する前記信頼度の値とを考慮して第2のスコアを算出し、該算出した第2のスコアでランキング付けした二次検索結果を出力する
ことを特徴とする検索方法。 A search method that is executed by a search device that includes a click history storage unit that stores a history of the number of clicks of each content, a search unit, a reliability calculation unit, and a reranking unit,
The search means inputs a user search request to search for content, calculates a first score in consideration of the number of clicks related to the content for each searched content, and the calculated first score Create the primary search results ranked in
The reliability calculation means calculates a reliability value for each creator of the content in the primary search result based on the ranking of the created content in the primary search result,
The re-ranking means calculates a second score for each searched content in consideration of the number of clicks related to the content and the reliability value related to the creator of the content. A secondary search result ranked by a score of 2 is output.
ユーザの検索要求を入力してコンテンツを検索し、該検索したコンテンツごとに、当該コンテンツに関する前記クリック回数を考慮して第1のスコアを算出し、該算出した第1のスコアでランキング付けした一次検索結果を作成する検索手段と
前記一次検索結果中のコンテンツの作成者ごとに、前記一次検索結果中における作成コンテンツのランキングに基づいて信頼度の値を計算する信頼度計算手段と、
前記検索されたコンテンツごとに、当該コンテンツに関する前記クリック回数と当該コンテンツの作成者に関する前記信頼度の値とを考慮して第2のスコアを算出し、該算出した第2のスコアでランキング付けした二次検索結果を出力する再ランキング付け手段と
して機能させるためのプログラム。 A computer provided with a click history storage means for storing a history of the number of clicks of each content,
A search is performed by inputting a user's search request, and a first score is calculated for each searched content, taking into account the number of clicks related to the content, and ranking is performed based on the calculated first score. A search means for creating a search result; a reliability calculation means for calculating a reliability value based on a ranking of the created content in the primary search result for each creator of the content in the primary search result;
For each searched content, a second score is calculated in consideration of the number of clicks related to the content and the reliability value related to the creator of the content, and ranking is performed based on the calculated second score. A program for functioning as a re-ranking means for outputting secondary search results.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010040043A JP5418295B2 (en) | 2010-02-25 | 2010-02-25 | Search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010040043A JP5418295B2 (en) | 2010-02-25 | 2010-02-25 | Search device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011175525A true JP2011175525A (en) | 2011-09-08 |
JP5418295B2 JP5418295B2 (en) | 2014-02-19 |
Family
ID=44688315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010040043A Expired - Fee Related JP5418295B2 (en) | 2010-02-25 | 2010-02-25 | Search device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5418295B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101448177B1 (en) * | 2013-04-17 | 2014-10-07 | 주식회사 다음커뮤니케이션 | A method for providing search result and server thereof |
JP2015049894A (en) * | 2013-08-29 | 2015-03-16 | 富士通株式会社 | Method and system for ranking candidate curation item |
JP2017509070A (en) * | 2014-03-28 | 2017-03-30 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Data search process |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234516A (en) * | 2003-01-31 | 2004-08-19 | Mitsubishi Electric Corp | Document retrieval device |
WO2006027973A1 (en) * | 2004-09-07 | 2006-03-16 | Interman Corporation | Information search providing device and information search providing system |
JP2008243050A (en) * | 2007-03-28 | 2008-10-09 | Fujitsu Ltd | Web page retrieval program, method, and program |
JP2008293299A (en) * | 2007-05-24 | 2008-12-04 | Fuji Xerox Co Ltd | Information processor and control program |
JP2009245180A (en) * | 2008-03-31 | 2009-10-22 | Nippon Telegr & Teleph Corp <Ntt> | System, method and program for retrieving information based on behavior of browsing person, and recording medium with the program recorded thereon |
-
2010
- 2010-02-25 JP JP2010040043A patent/JP5418295B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234516A (en) * | 2003-01-31 | 2004-08-19 | Mitsubishi Electric Corp | Document retrieval device |
WO2006027973A1 (en) * | 2004-09-07 | 2006-03-16 | Interman Corporation | Information search providing device and information search providing system |
JP2008243050A (en) * | 2007-03-28 | 2008-10-09 | Fujitsu Ltd | Web page retrieval program, method, and program |
JP2008293299A (en) * | 2007-05-24 | 2008-12-04 | Fuji Xerox Co Ltd | Information processor and control program |
JP2009245180A (en) * | 2008-03-31 | 2009-10-22 | Nippon Telegr & Teleph Corp <Ntt> | System, method and program for retrieving information based on behavior of browsing person, and recording medium with the program recorded thereon |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101448177B1 (en) * | 2013-04-17 | 2014-10-07 | 주식회사 다음커뮤니케이션 | A method for providing search result and server thereof |
JP2015049894A (en) * | 2013-08-29 | 2015-03-16 | 富士通株式会社 | Method and system for ranking candidate curation item |
JP2017509070A (en) * | 2014-03-28 | 2017-03-30 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Data search process |
Also Published As
Publication number | Publication date |
---|---|
JP5418295B2 (en) | 2014-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10528637B2 (en) | Systems and methods for recommended content platform | |
US9507804B2 (en) | Similar search queries and images | |
US11893034B2 (en) | Distance based search ranking demotion | |
JP5848772B2 (en) | Presenting actions and providers related to entities | |
US9317585B2 (en) | Search query suggestions based on personal information | |
JP5436665B2 (en) | Classification of simultaneously selected images | |
US9418128B2 (en) | Linking documents with entities, actions and applications | |
KR101215791B1 (en) | Using reputation measures to improve search relevance | |
US10068022B2 (en) | Identifying topical entities | |
US9183312B2 (en) | Image display within web search results | |
US8417692B2 (en) | Generalized edit distance for queries | |
US20080082486A1 (en) | Platform for user discovery experience | |
US9679018B1 (en) | Document ranking based on entity frequency | |
US20060179039A1 (en) | Method and system for performing secondary search actions based on primary search result attributes | |
US10691679B2 (en) | Providing query completions based on data tuples | |
US9589028B1 (en) | Resource identification from organic and structured content | |
US10282358B2 (en) | Methods of furnishing search results to a plurality of client devices via a search engine system | |
WO2015170151A1 (en) | Methods and systems for personalizing aggregated search results | |
US9251202B1 (en) | Corpus specific queries for corpora from search query | |
US20220171779A1 (en) | Answer facts from structured content | |
JP5418295B2 (en) | Search device | |
JP5488031B2 (en) | Search device | |
US20150088859A1 (en) | Click magnet images | |
US10055463B1 (en) | Feature based ranking adjustment | |
US8868579B2 (en) | Restricted web search based on user-specified source characteristics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD07 | Notification of extinguishment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7427 Effective date: 20120717 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131022 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5418295 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |