JP2012518221A - 寄与スコアに基づいた文書順位決定システムおよび方法 - Google Patents

寄与スコアに基づいた文書順位決定システムおよび方法 Download PDF

Info

Publication number
JP2012518221A
JP2012518221A JP2011550048A JP2011550048A JP2012518221A JP 2012518221 A JP2012518221 A JP 2012518221A JP 2011550048 A JP2011550048 A JP 2011550048A JP 2011550048 A JP2011550048 A JP 2011550048A JP 2012518221 A JP2012518221 A JP 2012518221A
Authority
JP
Japan
Prior art keywords
document
contribution
score
coefficient
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011550048A
Other languages
English (en)
Other versions
JP5406313B2 (ja
Inventor
ドン ジン キム
サン ウク キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2012518221A publication Critical patent/JP2012518221A/ja
Application granted granted Critical
Publication of JP5406313B2 publication Critical patent/JP5406313B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

寄与スコアに基づいた文書順位決定システムおよび方法が開示される。文書順位決定システムは、文書に含まれた少なくとも1つの単語それぞれに関して文書の内容スコアを算出する内容スコア算出部と、共通単語に対して文書の寄与スコアを算出する寄与スコア算出部と、内容スコアおよび寄与スコアを用いて少なくとも1つの単語それぞれに関して文書順位を決定する順位決定部とを備えてもよい。

Description

本発明は文書順位を決定する発明に関し、詳細には、文書自体のスコアと文書にリンクされた文書との間の関係に基づいた文書順位スコアを考慮して文書順位を決定する方法およびシステムに関する。
世界的に文書の数は持続的に増加しつつ、検索エンジンは一般的に50〜80億個のインデックス情報を用いている。ユーザは、所望する情報が検索結果の初ページに出力されることを期待し、一般的に初ページには5〜10個の文書が出力される。したがって、文書の数が増加するほど検索エンジンの正確度が高くならなければ、ユーザの所望する情報を露出することができない。
従来の場合、古典的な情報検索は文書に含まれている情報に基づいて行われる。一方、文書検索は文書間のリンク情報を活用して文書の重要度をさらに考慮することによって検索結果の正確度を高めることができる。
しかし、文書重要度は単語と常に関連性があるものと見ることができず、検索の正確度が高められた最適化した方法が当然のこととされる。また、ユーザが入力した主題と異なる分野で重要なサイトが最終ランキングの上位に位置する主題移動(Topic Drift)の現象が発生して検索の正確度が低下する恐れがある。
一般に、文書は他の文書とリンクによって接続されており、リンクによって互いに接続された文書間には関連性が存在する。ここで、文書のリンク情報を単語に関連して用いることによって検索の正確度を向上させる具体的な方法が求められる。
本発明の一実施形態は、文書の内容に基づいた内容スコアおよび文書のリンク情報に基づいた寄与スコアを組み合わせた文書順位スコアを用いることによって、文書順位の正確度を向上させることのできる文書順位決定システムおよび方法を提供することにある。
本発明の一実施形態は、リンクによって互いに接続された文書の間に寄与する程度を示す寄与係数をリンク構成および内容スコアに応じて決定することによって、文書の寄与度を効果的に考慮することのできる文書順位決定システムおよび方法を提供することにある。
本発明の一実施形態は、第1文書の第2文書に対する寄与スコアのうち第1文書が直接寄与するスコアの比率の蓄積係数を用いることによって、アウトリンクを通した不正行為を防止することのできる文書順位決定システムおよび方法を提供することにある。
本発明の一実施形態は、蓄積係数を寄与スコアに適用する文書アウトリンクによって文書の文書順位スコアが下降することを防止し、アウトリンクの使用抑制によるウェブ検索の困難を解消することのできる文書順位決定システムおよび方法を提供することにある。
本発明の一実施形態に係る文書順位決定システムは、文書に含まれた少なくとも1つの単語それぞれに対して前記文書の内容スコアを算出する内容スコア算出部と、共通単語に対して前記文書の寄与スコアを算出する寄与スコア算出部と、前記の内容スコアおよび前記寄与スコアを用いて前記少なくとも1つの単語それぞれに対して前記文書順位を決定する順位決定部とを備えてもよい。
前記の一実施形態に係る文書順位決定システムは、前記共通単語に対して第1文書の第2文書に対する寄与係数を決定する寄与係数決定部を備えてもよい。
前記の一実施形態に係る文書順位決定システムは、前記共通単語に対して前記第1文書の寄与スコアのうち前記第1文書が直接寄与したスコアの比率である前記第1文書の蓄積係数を算出する蓄積係数算出部をさらに備えてもよい。
本発明の一実施形態に係る文書順位決定方法は、内容スコア算出部が文書に含まれた少なくとも1つの単語それぞれに対して前記文書の内容スコアを算出することと、寄与スコア算出部が共通単語に対して前記文書の寄与スコアを算出することと、順位決定部が前記の内容スコアおよび前記寄与スコアを用いて前記少なくとも1つの単語それぞれに対して前記文書順位を決定すること、とを含んでもよい。
前記の蓄積係数算出部が前記共通単語に対して文書の寄与スコアを算出することは、寄与係数決定部が前記共通単語に対して第1文書の第2文書に対する寄与係数を決定することを含んでもよい。
前記の文書順位決定方法は、蓄積係数算出部が前記共通単語に対して前記第1文書の寄与スコアのうち前記第1文書が直接寄与したスコアの比率である前記第1文書の蓄積係数を算出することをさらに含んでもよい。
本発明の一実施形態によると、文書の内容に基づいた内容スコアおよび文書のリンク情報に基づいた寄与スコアを組み合わせた文書順位スコアを用いることによって、文書順位の正確度を向上させることができる。
本発明の一実施形態によると、第1文書の第2文書に対する寄与スコアのうち第1文書が直接寄与するスコアの比率の蓄積係数を用いることによって、アウトリンクを通した不正行為を防止することができる。
本発明の一実施形態によると、蓄積係数を寄与スコアに適用する文書アウトリンクによって文書の文書順位スコアが下降することを防止し、アウトリンクの使用抑制によるウェブ検索の困難を解消することができる。
本発明の一実施形態によると、リンクによって互いに接続された文書間に寄与する程度を示す寄与係数をリンク構成および内容スコアに応じて決定することによって、文書の寄与度を効果的に考慮することができる。
本発明の一実施形態に係る文書順位を決定する過程を説明するための図である。 本発明の一実施形態に係る文書順位決定システムの全体構成を示すブロックダイアグラムである。 本発明の一実施形態に係る共通単語に対する文書の寄与係数を決定する過程を説明するための図である。 本発明の一実施形態に係る共通単語に対する文書の蓄積係数を算出する過程を説明するための図である。 本発明の一実施形態に係る基本モデルによる文書順位決定方法の全体過程を示すフローチャートである。 本発明の一実施形態に係る総和不変モデルおよびハイブリッドモデルによる文書順位決定方法の全体過程を示すフローチャートである。
以下、添付された図面に記載された内容を参照して本発明に係る実施形態を詳説する。ただし、本発明が実施形態によって制限されたり、或いは限定されることはない。各図面に提示する同一の参照符号は同一或いは類似の部材を示す。本発明の一実施形態に係る文書順位決定方法は文書順位決定システムの各構成によって行われてもよい。
図1は、本発明の一実施形態に係る文書順位を決定する過程を説明するための図である。
図1に示すように、文書<X>100とリンクされた文書<Y>101、文書<Z>102、文書<Y>103、および文書<Z>104が図示されている。ここで、文書<X>100、文書<Y>101、文書<Z>102は単語A105を含み、文書<X>100、文書<Y>103、文書<Z>104は単語B106を含む。
ここで、単語A105は文書<X>100、文書<Y>101、文書<Z>102に共通して含まれた共通単語であり、単語B106は文書<X>100、文書<Y>103、文書<Z>104に共通して含まれた共通単語である。すなわち、共通単語はリンクされた文書に共通して含まれた単語として、文書ごとに1つ以上の共通単語を含んでもよい。
本発明の一実施形態に係る文書順位決定過程は、検索結果の正確度を維持しながら算出時間を最適化するために次のようなウェブ環境を活用してもよい。
1)ウェブ開発者は、情報が足りない文書を補うため、リンクされた他の文書の情報に基づいて、その文書をリンクに接続してもよい。2)文書がリンクされても、その情報を有する文書からの距離が遠いほど情報の活用度は、減少しても良い。3)接続された2つの文書が含んでいる共通単語の数は2つの文書の関連程度に関連があり、関連のない文書であるほど共通単語の数は少ない。4)検索エンジンユーザは検索結果の1位に敏感であり、ランキングが下降するほどランキングに対する敏感度は落ちる。
ここで、単語A105および単語B106はユーザが入力した検索クエリを構成する単語であってもよい。本発明の一実施形態に係る文書順位決定システムは、単語それぞれに対して文書順位を決定してもよい。ここで、文書順位決定システムは、文書内容およびリンク情報を組み合わせて単語に対する文書順位を決定してもよい。具体的に、文書順位決定システムは、文書に含まれた少なくとも1つの単語それぞれに対する文書の内容スコアと、単語を共通にして含んでいる異なる文書の活用度を表す寄与スコアとを組み合わせて文書順位を決定してもよい。
一例として、文書順位を決定する時、次のような基本概念を予め定義してもよい。
(1)重要文書の基準
文書が生成される時、ユーザに提供しようとする主要情報が本文に構成され、本文に対する詳細説明または関連する追加情報は他の文書をリンクを通じた接続により提供されてもよい。ここで、リンクによって接続された文書(図1における文書<Y>101、文書<Y>103)はリンクを含む文書(図1における文書<X>100)と同じ主題において記述している文書であるか、細部事項に対して補完説明をする文書、または、単語(図1における単語A105および単語B106)に対する詳細説明文書であってもよい。あるいは、場合に応じて、リンクによって接続された文書は広告のようにリンクを含む文書とは全く関係のない文書であってもよい。
文書の品質を評価するとき、重要な要素は文書の内容であってもよい。ユーザは、所望する内容を含む品質の優れる文書が検索されることを期待するであろう。また、文書順位決定システムは文書の本文品質に寄与する重要文書をリンクによって接続してもよい。
本発明の一実施形態に係る文書順位決定システムは、次のような条件を満たした文書を重要文書であると規定してもよい。1)与えられた単語に対する内容スコアが高い文書、2)与えられた単語に対する内容スコアが高い文書にリンクされた文書、3)自身より前の文書の情報を多く活用する文書にリンクされた文書。
(2)リンクされた文書の寄与スコア
リンクされた文書(図1における文書<Y>101、文書<Y>103)がリンクを含んでいる文書(図1における文書<X>100)に対する寄与スコアは、与えられた検索クエリに対する文書<Y>101及び文書<Y>103の内容スコアに基づいて決定されてもよい。
2つの文書が与えられた検索クエリに対する関連度が高いほど、リンクされた文書はリンクを含む文書の品質に大きく寄与する。ただし、リンクを含んでいる文書が検索クエリに対して関連度は高いものの、リンクされた文書が検索クエリに対して関連度が低ければ、リンクされた文書はリンクを含む文書の品質に寄与できないことがある。
例えば、自動車関連の文書に本関連の文書がリンクされていると仮定する。2つの文書が自動車に関する単語を多数含んでいると、本関連の文書は自動車関連の本に対する内容を含んでいる可能性があるため、自動車関連の文書の品質に寄与していると判断してもよい。
しかし、本関連の文書が自動車関連の単語を含んでいなければ、その文書は単なる広告文書であるか他意にリンクされた文書である。この場合、そのような本関連の文書は自動車関連の文書の品質に寄与しないものと判断してもよい。
(3)ランキングによるユーザの関心度
検索結果において検索された文書の相対的なランキングが重要であり、ユーザは自身の希望する情報が検索結果の初ページに露出されることを所望する。もし、文書順位決定システムが上位1〜10位に該当する文書を出力する場合、ランキングの高い文書になるほど、例えば、ユーザはランキング1位に位置する文書に敏感であるが、ランキング200〜300の間に位置する文書はいずれの位置にあるかを重要と考えない。
したがって、本発明の一実施形態に係る文書順位決定システムは、予め設定された上位ランキングに該当する文書の相対的なランキングを下位ランキングに該当する文書よりも正確に決定することができる。上位ランキングに該当する文書の相対的なランキングを正確に決定してもユーザは検索結果に満足する。従って、数多くの文書に対して正確なランキングを決定する必要がないため検索結果を導き出すために必要な資源が節約され得る。
基本的な概念に基づいて図1に適用すると、文書順位決定システムは、単語A105に対して文書<X>100、文書<Y>101、および文書<Z>102の内容スコアおよび寄与スコアを算出し、内容スコアおよび寄与スコアを組み合わせて単語A105に対して文書順位を決定するための文書順位スコア(C−Rank)を決定してもよい。
同様に、文書順位決定システムは、単語B106に対して文書<X>100、文書<Y>103、および文書<Z>104の内容スコアおよび寄与スコアを算出し、内容スコアおよび寄与スコアを組み合わせて単語B106に対して文書順位を決定するための文書順位スコア(C−Rank)を決定してもよい。最終的に決定された文書順位は、文書および単語の対に対して決定された文書順位スコアを配列して決定してもよい(図1に示すC(X)など)。
本発明の一実施形態を活用すると、コミュニティを生成してもよい。コミュニティは同じ主題や興味を有する人々によって作られた文書の集まりである。したがって、コミュニティを構成する文書は特定主題に関連する単語を含み、その文書の品質が一定のレベル以上であり、互いにリンクされていると予想してもよい。
コミュニティを主題に関連する単語の文書順位スコア(C−Rank)の和が一定のレベル以上である文書を含む接続サブグラフ(connected sub−graph)であると仮定してもよい。このような仮定は一般的なコミュニティの特性を反映している。したがって、文書順位スコアを活用すると様々なコミュニティを効果的に抽出することができる。
コミュニティを探す方法は次の通りである。第1に、文書の文書順位スコア(C−Rank)を算出する。第2に、主題に関連する単語に対する各文書の文書順位スコアの総和を構成する。第3に、文書順位スコアの総和が最も大きい文書から開始して隣接した文書を検索しながら文書順位スコアの総和が一定のレベル以上である接続サブグラフを決定する。追加する文書がもはや存在しなければ、まだコミュニティに参加していない文書のうち文書順位スコアの総和が最も大きい文書から開始してもう一つのサブグラフを構成する。このような過程を繰り返す。構成されたサブグラフのうち接続された文書の数が一定数以上であるサブグラフをコミュニティであると規定してもよい。また、全ての文書の各単語に対する文書順位スコアの総和が最も大きいコミュニティを最も活性化したコミュニティであると規定してもよい。
図2は、本発明の一実施形態に係る文書順位決定システムの全体構成を示すブロックダイアグラムである。
図2に示すように、文書順位決定システム200は、内容スコア算出部201、寄与スコア算出部202、蓄積係数算出部203、および順位決定部204を備えてもよく、寄与スコア算出部202は寄与係数決定部205を備えてもよい。
文書順位決定システム200は、リンクされた文書から共通単語を抽出してもよい。本発明の一実施形態によると、文書順位決定システム200は、文書の内容スコアおよび寄与スコアを求めた後、これを組み合わせて与えられた単語に対して文書順位を決定してもよい。
内容スコア算出部201は、文書に含まれた少なくとも1つの単語それぞれに対して文書の内容スコアを算出してもよい。一例として、内容スコア算出部201は、文書の内容と少なくとも1つの単語それぞれの関連性を考慮して文書の内容スコアを算出してもよい。文書の内容スコアは、文書が表す本来の価値を意味する。文書が複数である場合、文書それぞれに含まれた少なくとも1つの単語それぞれに対して内容スコアを算出してもよい。
他の一例として、内容スコア算出部201は、単語に対する文書の類似度、文字の大きさ、文書の長さ、イメージ存在の有無などのような文書の内容に基づいて文書の品質を評価して文書の内容スコアを算出してもよい。
寄与スコア算出部202は、共通単語に対して文書の寄与スコアを算出してもよい。ここで、寄与係数決定部205は、共通単語に対して第1文書の第2文書に対する寄与係数を決定してもよい。ここで、寄与係数は第1文書が第2文書の価値に寄与する係数を意味し、共通単語は第1文書および第2文書に共通して含まれた少なくとも1つの単語を意味する。
ここで、第1文書はリンクされた文書を意味し、第2文書はリンクを含む文書を意味する。ここで、第2文書から第1文書に接続されたリンクが存在する場合、第1文書は第2文書のアウトリンクに対応する文書であり、第2文書は第1文書のインリンクに対応する文書を意味する。
一例として、寄与係数決定部205は、第2文書から第1文書に達する複数の段階のリンクを含むリンク経路が存在する場合、リンク経路に対応する文書の寄与係数を用いて第1文書の第2文書に対する寄与係数を決定してもよい。
そして、寄与係数決定部205は、第1文書および第2文書が単一のリンクを通じて接続される場合、第1文書の内容スコア、第2文書の内容スコア、および第2文書のアウトリンクに対応する第3文書の内容スコアを用いて第1文書の第2文書に対する寄与係数を決定してもよい。
ここで、寄与係数決定部205は第1文書の内容スコアに比例し、第2文書の内容スコアおよび第3文書の内容スコアに反比例する第1文書の第2文書に対する寄与係数を決定してもよい。
最終的に、寄与スコア算出部202は、第1文書および第2文書に共通して含まれた共通単語について、第1文書の第2文書に対する寄与係数に第2文書の内容スコアを適用して第1文書の寄与スコアを算出してもよい。寄与係数を決定し、寄与スコアを算出する具体的な内容は図3に基づいて後述する。
本発明の一実施形態に係る基本モデルによって文書順位を決定する過程は、寄与スコアおよび内容スコアを用いて文書順位を決定してもよい。本発明の他の一実施形態に係る総和不変モデルおよびハイブリッドモデルによって文書順位を決定する過程は、蓄積係数を寄与スコアおよび内容スコアに適用して文書順位を決定する過程であってもよい。
蓄積係数算出部203は、共通単語に対して第1文書の寄与スコアのうち第1文書が直接寄与したスコアの比率である第1文書の蓄積係数を算出してもよい。
一例として、蓄積係数算出部203は、第1文書の内容スコアと第1文書のアウトリンクに対応する文書の第4文書の内容スコアとを用いて第1文書の蓄積係数を算出してもよい。ここで、第1文書の蓄積係数と第4文書の寄与係数を適用した総和は予め設定された値と同一であってもよい。一例として、予め設定された値は1であってもよい。蓄積係数を算出する具体的な内容は図4に基づいて後述する。
順位決定部204は、内容スコアおよび寄与スコアを用いて文書に含まれた少なくとも1つの与えられた単語それぞれに対する文書順位を決定してもよい。ここで、順位決定部204は、内容スコアおよび寄与スコアを組み合わせて文書順位スコア(C−Rank)を決定し、文書を文書順位スコアに応じて配列して文書順位を決定してもよい。
本発明の一実施形態に係る基本モデルによって文書順位を決定する場合、順位決定部204は、内容スコアおよび寄与スコアを合算して文書に含まれた単語それぞれに対する文書順位スコア(C−Rank)を決定してもよい。ここで、基本モデルはインリンク数が増加するほど文書順位は増加するが、アウトリンク数の増減には影響されないモデルを意味する。
また、本発明の一実施形態に係る総和不変モデルによって文書順位を決定する場合、順位決定部204は、蓄積係数が適用された内容スコアと蓄積係数が適用された寄与スコアとを合算し、単語それぞれに対する文書順位スコア(C−Rank)を決定してもよい。
基本モデルを行う文書順位システムの場合、悪意的にアウトリンクを追加してサイクルを生成することで故意に文書順位を増加させるという問題が存在する。このような不正行為は文書順位に対する正確度を落とし、不正文書が生成される結果をもたらすことになる。このような不正行為を防止するために、順位決定部204は、他の文書に対する寄与スコアのうち自身が直接寄与したスコア(蓄積係数)のみを文書順位決定時に反映する総和不変モデルによって文書順位を決定してもよい。
総和不変モデルによると、アウトリンクを生成するほど文書順位スコアが減少する。ここで、総和不変モデルによると、アウトリンクの追加による不正行為は防止されるものの、アウトリンク使用を抑制してユーザのウェブサーフィンが困難になるという問題がある。したがって、アウトリンクによって文書順位が下降する現象を防止するために、順位決定部204はハイブリッドモデルによって文書順位を決定してもよい。
そして、本発明の一実施形態に係るハイブリッドモデルによって文書順位を決定する場合、順位決定部204は、蓄積係数が適用されていない内容スコアと蓄積係数が適用された寄与スコアとを合算し、単語に対する文書順位スコア(C−Rank)を決定してもよい。ここで、文書順位スコアは単語と文書の対に決定されてもよい。
図3は、本発明の一実施形態に係る共通単語に対する文書の寄与係数を決定する過程を説明するための図である。
寄与係数決定部205は、共通単語に対して第1文書の第2文書に対する寄与係数を決定してもよい。ここで、寄与係数は第1文書が第2文書の価値に寄与する係数を意味する。
図3には、文書<q>301に複数のd段階のリンク経路を経て文書<p>304に達する文書の集合が図示されている。このようなリンク経路に対応する文書の集合をD(p、d)と仮定する。ここで、文書<p>304が第1文書に対応し、文書<p>304に達する文書の集合が第2文書に対応してもよい。
一例として、順位決定部204は、下記の数1または数2のうちいずれか1つによって文書順位を決定してもよい。ここで、数1または数2は基本モデルによって文書順位を決定することを意味する。

ここで、tは単語305を意味する。そして、数1においてαは0よりも大きいか同じ値であり(α≧0)、数2においてαは0よりも大きくて1よりも小さい値(0≦α≦1)を意味する。

は単語t305に対して第1文書<p>304の文書順位を算出するための文書順位スコア(C−Rank)を意味する。

は文書<p>304の内容を考慮した単語t305に対して文書<p>304の内容スコアを意味し、

は単語t305に対して第1文書<p>304の第2文書<q>301に対する寄与スコアを意味する。
ここで、
は、文書<p>304がリンク経路をd段階だけ逆にしたときに接する文書<q>301に寄与する寄与係数であり、第1文書<p>304の第2文書<q>301に対する寄与係数を意味する。
数1および数2から分かるように、寄与スコア算出部202は、第1文書<p>304の第2文書<q>301に対する寄与係数に第2文書の内容スコアを適用して第1文書の寄与スコアを算出してもよい。
もし、図3に示すように、第2文書<q>301から第1文書<p>304に達する複数の段階のリンクを含むリンク経路が存在する場合、寄与係数決定部205は、リンク経路に対応する文書(文書<r>302〜文書<rd−1>303)の寄与係数を用いて第1文書の第2文書に対する寄与係数を決定してもよい。一例として、寄与係数決定部205は下記の数3によって寄与係数を決定してもよい。
ここで、数3は図3に示すように、複数のd段階のリンク経路を経て文書<q>301から文書<p>304に達するq→r→r→…→rd−1→pリンク経路を考慮したものである。数3に示すように、第1文書の第2文書に対する寄与係数
はリンク経路に対応する文書<r>302〜文書<rd−1>303の寄与係数によって決定されてもよい。ここで、リンク経路に対応する文書の寄与係数は、リンクの経路上に隣接する文書間の寄与係数(例えば、<r>→<r>のリンクから<r>の<r>に対する寄与係数)を用いて決定してもよい。
本発明の一実施形態によると、寄与係数決定部205は、第1文書および第2文書が単一のリンクを通じて接続される場合、第1文書の内容スコア、第2文書の内容スコア、および第2文書のアウトリンクに対応する第3文書の内容スコアを用いて第1文書の第2文書に対する寄与係数を決定してもよい。一例として、第1文書および第2文書が単一のリンクを通じて接続される場合、寄与係数決定部205は、下記の数4のように第1文書の第2文書に対する寄与係数を決定してもよい。数4は一例に過ぎず、システムの構成によって寄与係数を決定する細部方法が数4に基づいて変形されてもよい。
数4に示すように、寄与係数決定部205は第1文書<p>304の内容スコアに比例し、第2文書<q>301の内容スコアおよび第3文書の内容スコアに反比例する第1文書の第2文書に対する寄与係数
を決定してもよい。ここで、第2文書<q>301のアウトリンクに対応する第3文書が多いほど、第1文書の第2文書に対する寄与係数は減少してもよい。
数4に示すように、第1文書<p>304が第2文書<q>301よりも単語t305との関連度が高いほど(すなわち、

よりも大きいほど)、第1文書の第2文書に対する寄与係数
は増加してもよい。そして、第2文書<q>301が第1文書<p>301よりも単語t305との関連度が高いほど(すなわち、

よりも大きいほど)、第1文書の第2文書に対する寄与係数
は減少してもよい。
また、第2文書<q>301に含まれた単語t305に関する情報を補完するために、第2文書<q>301にアウトリンクによって接続された第3文書の数が多いほど(すなわち、
において、文書<r>の数が増加するほど)、第1文書の第2文書に対する寄与係数
は減少してもよい。ここで、第3文書は、図3に示す文書<r>302〜文書<rd−1>303とは別に、第2文書に単語を補完するためにリンクを通じて接続された文書全体を意味する。
例えば、文書<p>、文書<q>、および文書<r>がr→q→pのようにリンクによって接続されていると仮定する。このようなリンクを図3の説明を適用すると次の通りである。
数1および数2に示すように、文書<q>の<r>に対する寄与スコアは
である。そして、数1および数2に示すように、文書<p>の文書<q>および文書<r>に対する寄与スコアは、それぞれ

である。数3に示すように、文書<p>の文書<r>に対する寄与スコア

である。
したがって、文書<p>の文書<q>と文書<r>に対する寄与スコアは
である。したがって、文書<q>の上位文書(文書<r>)に対する寄与係数
と文書<q>の内容スコア
が分かれば、文書<p>の文書<q>と文書<q>の上位文書(文書<r>)に対する寄与スコア
を把握することができる。
図4は、本発明の一実施形態に係る共通単語に対する文書の蓄積係数を算出する過程を説明するための図である。
蓄積係数算出部203は、共通単語に対して第1文書の寄与スコアのうち第1文書が直接寄与したスコアの比率である第1文書の蓄積係数を算出してもよい。蓄積係数は、文書順位を決定する方式のうち総和不変モデルおよびハイブリッドモデルに適用されてもよい。
一例として、順位決定部204は、内容スコアおよび寄与スコアに蓄積係数を適用したり(総和不変モデル)、または寄与スコアに蓄積係数を適用して(ハイブリッドモデル)文書順位を決定してもよい。
一例として、蓄積係数算出部203は、下記の数5によって蓄積係数を算出してもよい。

ここで、
は単語tに対する第1文書<p>の蓄積係数を意味する。蓄積係数算出部203は、第1文書の内容スコア
と第1文書のアウトリンクに対応する文書の第4文書(文書<r>)の内容スコア
を用いて第1文書の蓄積係数を算出してもよい。蓄積係数は、第1文書の第2文書に対する寄与スコアのうち第1文書が直接寄与したスコアの比率を意味する。
例えば、図4に示すように、文書<q>401に寄与する文書が文書<p>402と文書o(図4に図示せず)であると仮定する。文書<q>401に対する寄与スコアは、文書oの文書<q>401に対する寄与スコアと文書<p>402の文書<q>401に対する寄与スコアとを和したものを意味する。ここで、文書<p>402の蓄積係数は文書<q>401に対する寄与スコアのうち、文書<p>402が文書<q>401に直接寄与した寄与スコアの比率を意味する。ここで、寄与スコアおよび蓄積係数は単語t407に対するものである。

ここで、総和不変モデルによると、第1文書<p>402の蓄積係数と第4文書<r>403〜文書<r>406の寄与係数を適用した総和が予め設定された値(数6によると1である)と同一であってもよい。ここで、数6によると、文書<p>の蓄積係数および文書<p>のアウトリンクに対応する文書<r>の寄与係数の総和は1である。
これは共通単語に対して予め決められた文書(図4において文書<p>402)の上位文書<q>401に対する寄与スコアは、前記の予め決められた文書の自身の寄与スコアとアウトリンクによって前記の予め決められた文書にリンクされた下位文書(図4において文書<r>403〜文書<r>406)による寄与スコアの和と同一であることを意味する。
上位文書に対する寄与スコアが固定されている分、予め決められた文書のアウトリンクが増加して下位文書による寄与スコアが増加すると、前記の予め決められた文書の自身の寄与スコアは減少してもよい。結局、全体ウェブグラフにおいて全ての文書の文書順位スコアの総和は、下記の数7のように全ての文書の内容スコアの総和と同一である。

したがって、数7によると、文書<p>402にアウトリンクが追加されるほど文書<p>402の文書順位スコアが減少するため、アウトリンクの乱用を防止することができる。
最終的に、総和不変モデルで文書順位スコアは下記の数8のように決定されてもよい。

すなわち、数8によると、単語tに対する文書<p>の文書順位スコア
は文書<p>の蓄積係数
の適用された内容スコア
と、文書<p>の蓄積係数
の適用された文書<p>の文書<q>に対する寄与スコア
の和に決定されてもよい。
そして、ハイブリッドモデルで文書順位スコアは下記の数9のように決定されてもよい。

すなわち、数9によると、単語tに対する文書<p>の文書順位スコア
は、文書<p>の内容スコア
と文書<p>の蓄積係数
の適用された文書<p>の文書<q>に対する寄与スコア
の和に決定されてもよい。
ハイブリッドモデルにおいて、数7および数9を適用すると、下記の数10が導き出される。

ここで、Tt はハイブリッドモデルで文書順位スコアの総和を意味する。数10によると、ハイブリッドモデルにおいて、全ての文書順位スコアの総和は全ての文書の内容スコアの総和の2倍よりも小さいか同一であることが分かる。
図1〜図4の説明を参考して、与えられた単語に対する全ての文書の文書順位スコアは下記の数11のように決定されてもよい。下記の数11は、ハイブリッドモデルによるもので、以下の説明は基本モデルおよび総和不変モデルに同一に適用されてもよい。

,
,
.

数11において、
は単語tに対する文書<p>の文書順位スコアを意味する。
は単語tに対する文書<p>の内容スコアを意味し、
は単語tに対する文書<p>の蓄積係数、
は単語tに対して段階dを通じて文書<q>にリンクされた文書<p>の文書<q>に対する寄与価値(寄与係数と内容スコアとの積)を意味する。
単語tに対する文書<p>の文書順位スコアは、次のような前処理過程および反復算出過程により算出されてもよい。
S1.
算出
S2.
および
算出
S3.
そして

S4.

S5.

S6.
である
に対してS4、S5を繰り返す。全てのpとtに対して
であれば終了。
ここで、S1、S2は前処理過程であり、S3、S4、S5およびS6は反復算出過程を意味する。前処理ステップのS1によると、文書順位決定システムは全ての文書<p>に対して含んでいる単語tに対する内容スコアを算出する。前処理ステップのS2によると、文書順位決定システムは共通単語に対して寄与係数を算出し、共通単語に対して蓄積係数を算出する。
反復算出ステップのS3によると、文書順位決定システムは内容スコアを文書順位スコア(C−Rank)に合算する。反復算出ステップのS4によると、文書順位決定システムは、各文書に対してアウトリンクされた文書の寄与価値を算出する。反復算出ステップのS5によると、文書順位決定システムは、算出された寄与価値と蓄積係数とを乗算した結果を文書順位スコア(C−Rank)に合算する。反復算出ステップのS6によると、文書順位決定システムは、寄与価値が与えられた閾値ε以上である(文書、単語)対に対してS4およびS5を繰り返す。全ての(文書、単語)対に対して寄与価値がε以下であれば算出を終了する。
ここで、反復作業中に一部の文書の寄与価値が閾値以下である場合が発生すると、その値を未合算寄与価値に累積して保管する。反復算出が行われると、遠い距離にある文書や他の経路にある文書によって未合算寄与価値が閾値以上になってもよい。この状況になると、文書順位決定システムは、蓄積係数を乗算した後、文書順位スコア(C−Rank)に累積してアウトリンクされた文書の寄与価値算出に用いる。
文書順位決定システムは、様々な段階を通じてリンクされた文書の寄与係数に対する関連性によってリンク構造の上位文書に対する寄与係数を把握すると自身の寄与係数を算出できるという特性によって、文書順位スコア(C−Rank)の動的更新が可能になる。
その後、文書内容が変更される場合、文書順位決定システムはこれを反映して文書順位を決定してもよい。文書内容が変更されると、文書の内容スコアが変更され、文書のインリンクに関連する寄与係数と文書のアウトリンクに関連する寄与係数が変更されてもよい。したがって、内容の変更された文書をリンクで指示している文書および内容が変更された文書から開始してリンクに沿って到達できる文書の文書順位スコアが変更されてもよい。
同様に、リンクが追加されたり、或いはリンクが削除される場合、文書の寄与係数が変更されてもよい。リンクが追加される場合、追加されたリンクしてよって寄与係数が発生する場合があり、リンクが削除される場合、削除されたリンクしてよって寄与係数が発生しない場合もある。
また、文書が追加または削除される場合、リンクの追加または削除に準じて文書順位スコアが決定されてもよい。
図5は、本発明の一実施形態に係る基本モデルによる文書順位決定方法の全体過程を示すフローチャートである。
前述したように、基本モデルはインリンク数が増加するほど文書順位は増加するが、アウトリンク数の増減には影響されないモデルを意味する。
図5に示す文書順位決定方法は、図2に示された文書順位決定システム500の各構成要素によって行われてもよい。
ステップS501において、内容スコア算出部201は、文書に含まれた少なくとも1つの単語それぞれに対する文書の内容スコアを算出してもよい。一例として、内容スコア算出部201は、文書の内容と少なくとも1つの単語それぞれの関連性を考慮しての内容スコアを算出してもよい。他の一例として、内容スコア算出部201は、単語に対する文書の類似度、文字の大きさ、文書の長さ、イメージ存在の有無などのような文書の内容から文書の品質を評価した内容スコアを算出してもよい。
ステップS502において、寄与係数決定部205は、共通単語に対して第1文書の第2文書に対する寄与係数を決定してもよい。ここで、寄与係数は第1文書が第2文書の価値に寄与する係数を意味し、第1文書および第2文書はリンクを通じて接続されている。そして、共通単語は、第1文書および第2文書それぞれに含まれた少なくとも1つの単語のうち第1文書および第2文書に共通して含まれた単語を意味する。第1文書は共通単語によって第2文書の価値に寄与してもよい。
ここで、第1文書はリンクされた文書を意味し、第2文書はリンクを含む文書を意味する。ここで、第2文書から第1文書に接続されたリンクが存在する時、第1文書は第2文書のアウトリンクに対応する文書であり、第2文書は第1文書のインリンクに対応する文書を意味する。
一例として、寄与係数決定部205は、第2文書から第1文書に達する複数の段階のリンクを含むリンク経路が存在する場合、リンク経路に対応する文書の寄与係数を用いて第1文書の第2文書に対する寄与係数を決定してもよい。ここで、寄与係数決定部205は、第1文書および第2文書が1つのリンクを通じて接続される場合、第1文書の内容スコア、第2文書の内容スコア、および第2文書のアウトリンクに対応する第3文書の内容スコアを用いて第1文書の第2文書に対する寄与係数を決定してもよい。寄与係数決定部205は、第1文書の内容スコアに比例し、第2文書の内容スコアおよび第3文書の内容スコアに反比例する第1文書の第2文書に対する寄与係数を決定してもよい。
このような共通単語に対する寄与係数は、共通単語を含む全ての文書に対して決定されてもよい。
ステップS503において、寄与スコア算出部202は共通単語に対して文書の寄与スコアを算出してもよい。一例として、寄与スコア算出部202は、第1文書の第2文書に対する寄与係数に第2文書の内容スコアを適用して第1文書の寄与スコアを算出してもよい。
ステップS504において、順位決定部204は、内容スコアおよび寄与スコアを用いて少なくとも1つの与えられた単語それぞれに対して文書順位を決定してもよい。一例として、基本モデルによると、順位決定部204は、内容スコアおよび寄与スコアを合算して文書順位スコア(C−Rank)を決定した後、文書順位スコアに応じて単語に対する文書順位を決定してもよい。
図6は、本発明の一実施形態に係る総和不変モデルおよびハイブリッドモデルによる文書順位決定方法の全体過程を示すフローチャートである。
基本モデル使用システムで発生する不正行為として、不正文書によってアウトリンクを追加することで文書の文書順位を増加させる行為を防止するために、総和不変モデルは他の文書に対する寄与スコアのうち自身が直接寄与したスコア(蓄積係数)を内容スコアおよび寄与スコアに反映してもよい。
そして、ハイブリッドモデルによるとアウトリンクの不正を防止できるが、アウトリンク使用を抑制してユーザのウェブサーフィンが困難であるという問題を解決するために、蓄積係数を寄与スコアに反映してもよい。
ステップS601ないしステップS604は、図5で説明したステップS501ないしステップS504の説明と同一に適用されてもよい。
ステップS605において、蓄積係数算出部203は、共通単語に対して第1文書の寄与スコアのうち、第1文書が直接寄与したスコアの比率である第1文書の蓄積係数を算出してもよい。一例として、蓄積係数算出部203は、第1文書の内容スコアおよび第1文書のアウトリンクに対応する文書の第4文書の内容スコアを用いて第1文書の蓄積係数を算出してもよい。ここで、第1文書の蓄積係数および第4文書の寄与係数を適用した総和が予め設定された値と同一であってもよい(総和不変原則)。
ステップS606において、ハイブリッドモデルによる文書順位決定方法を示し、ステップS607において、総和不変モデルによる文書順位決定方法を示す。
ステップS606において、順位決定部204は、与えられた単語において文書の寄与スコアに文書の蓄積係数を適用してもよい。ステップS608において、順位決定部204は、蓄積係数が適用された文書の寄与スコアと文書の内容スコアとを合算して文書順位スコアを決定してもよい。これによって、順位決定部204は文書順位スコアを用いて文書順位を決定してもよい。
ステップS607において、順位決定部204は、少なくとも1つの与えられた単語それぞれに対して単語において文書の寄与スコアおよび内容スコアにそれぞれ蓄積係数を適用してもよい。その後、ステップS608において、順位決定部204は、文書の蓄積係数の適用された寄与スコアおよび内容スコアを合算して文書順位スコアを決定してもよい。これによって、順位決定部204は、文書順位スコアを用いて文書順位を決定してもよい。
図5および図6で説明していない具体的な一例は図1〜図4の説明を参考にしてもよい。
また、本発明の一実施形態に係る文書順位決定方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組み合わせを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するよう特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
上述したように本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
200 文書順位決定システム
201 内容スコア算出部
202 寄与スコア算出部
203 蓄積係数算出部
204 順位決定部
205 寄与係数決定部

図5に示す文書順位決定方法は、図2に示された文書順位決定システム200の各構成要素によって行われてもよい。
ステップS501において、内容スコア算出部201は、文書に含まれた少なくとも1つの単語それぞれに対する文書の内容スコアを算出してもよい。一例として、内容スコア算出部201は、文書の内容と少なくとも1つの単語それぞれの関連性を考慮しての内容スコアを算出してもよい。他の一例として、内容スコア算出部201は、単語に対する文書の類似度、文字の大きさ、文書の長さ、イメージ存在の有無などのような文書の内容から文書の品質を評価した内容スコアを算出してもよい。
ステップS601ないしステップS603は、図5で説明したステップS501ないしステップS503の説明と同一に適用されてもよい。
ステップS604において、蓄積係数算出部203は、共通単語に対して第1文書の寄与スコアのうち、第1文書が直接寄与したスコアの比率である第1文書の蓄積係数を算出してもよい。一例として、蓄積係数算出部203は、第1文書の内容スコアおよび第1文書のアウトリンクに対応する文書の第4文書の内容スコアを用いて第1文書の蓄積係数を算出してもよい。ここで、第1文書の蓄積係数および第4文書の寄与係数を適用した総和が予め設定された値と同一であってもよい(総和不変原則)。
ステップS605において、ハイブリッドモデルによる文書順位決定方法を示し、ステップS606において、総和不変モデルによる文書順位決定方法を示す。
ステップS606において、順位決定部204は、与えられた単語において文書の寄与スコアに文書の蓄積係数を適用してもよい。ステップS607において、順位決定部204は、蓄積係数が適用された文書の寄与スコアと文書の内容スコアとを合算して文書順位スコアを決定してもよい。これによって、順位決定部204は文書順位スコアを用いて文書順位を決定してもよい。
ステップS606において、順位決定部204は、少なくとも1つの与えられた単語それぞれに対して単語において文書の寄与スコアおよび内容スコアにそれぞれ蓄積係数を適用してもよい。その後、ステップS607において、順位決定部204は、文書の蓄積係数の適用された寄与スコアおよび内容スコアを合算して文書順位スコアを決定してもよい。これによって、順位決定部204は、文書順位スコアを用いて文書順位を決定してもよい。

Claims (23)

  1. 文書に含まれた少なくとも1つの単語それぞれに対して前記文書の内容スコアを算出する内容スコア算出部と、
    共通単語に対して前記文書の寄与スコアを算出する寄与スコア算出部と、
    前記の内容スコアおよび前記寄与スコアを用いて前記少なくとも1つの単語それぞれに対して前記文書順位を決定する順位決定部と、
    を備えることを特徴とする文書順位決定システム。
  2. 前記の内容スコア算出部は、前記文書の内容および前記少なくとも1つの単語それぞれの関連性を考慮して前記の内容スコアを算出することを特徴とする請求項1に記載の文書順位決定システム。
  3. 前記寄与スコア算出部は、前記共通単語に対して第1文書の第2文書に対する寄与係数を決定する寄与係数決定部を備え、
    前記寄与係数は、前記第1文書および第2文書に共通して含まれた前記共通単語に対して、前記第1文書が前記第2文書の価値に寄与する係数であることを特徴とする請求項1に記載の文書順位決定システム。
  4. 前記寄与スコア算出部は、前記第1文書の前記第2文書に対する寄与係数に前記第2文書の内容スコアを適用して前記第1文書の寄与スコアを算出することを特徴とする請求項3に記載の文書順位決定システム。
  5. 前記寄与係数決定部は、前記第2文書から前記第1文書に達する複数の段階のリンクを含むリンク経路が存在する場合、前記リンク経路に対応する文書の寄与係数を用いて前記第1文書の第2文書に対する寄与係数を決定することを特徴とする請求項3に記載の文書順位決定システム。
  6. 前記寄与係数決定部は、前記第1文書および前記第2文書が1つのリンクに接続される場合、前記第1文書の内容スコア、前記第2文書の内容スコア、および前記第2文書のアウトリンクに対応する第3文書の内容スコアを用いて前記第1文書の第2文書に対する寄与係数を決定することを特徴とする請求項5に記載の文書順位決定システム。
  7. 前記寄与係数決定部は、前記第1文書の内容スコアに比例し、前記第2文書の内容スコアおよび前記第3文書の内容スコアに反比例する前記第1文書の第2文書に対する寄与係数を決定することを特徴とする請求項6に記載の文書順位決定システム。
  8. 前記共通単語に対して前記第1文書の寄与スコアのうち前記第1文書が直接寄与したスコアの比率である前記第1文書の蓄積係数を算出する蓄積係数算出部をさらに備えることを特徴とする請求項3に記載の文書順位決定システム。
  9. 前記順位決定部は、前記の内容スコアおよび前記寄与スコアに前記蓄積係数を適用するか、または前記寄与スコアに前記蓄積係数を適用することを特徴とする請求項8に記載の文書順位決定システム。
  10. 前記蓄積係数算出部は、前記第1文書の内容スコアおよび前記第1文書のアウトリンクに対応する文書の第4文書の内容スコアを用いて前記第1文書の蓄積係数を算出することを特徴とする請求項8に記載の文書順位決定システム。
  11. 前記第1文書の蓄積係数および前記第4文書の寄与係数を適用した総和が予め設定された値と同一であることを特徴とする請求項10に記載の文書順位決定システム。
  12. 内容スコア算出部が文書に含まれた少なくとも1つの単語それぞれに対して前記文書の内容スコアを算出することと、
    寄与スコア算出部が共通単語に対して前記文書の寄与スコアを算出することと、
    順位決定部が前記の内容スコアおよび前記寄与スコアを用いて前記少なくとも1つの単語それぞれに対して前記文書順位を決定することと、
    を含むことを特徴とする文書順位決定方法。
  13. 前記の内容スコア算出部が少なくとも1つの単語それぞれに対して文書の内容スコアを算出することは、前記の内容スコア算出部が前記文書の内容と前記少なくとも1つの単語それぞれの関連性を考慮して前記の内容スコアを算出することを特徴とする請求項12に記載の文書順位決定方法。
  14. 前記寄与スコア算出部が前記共通単語に対して文書の寄与スコアを算出することは、寄与係数決定部が前記共通単語に対して第1文書の第2文書に対する寄与係数を決定することを含み、
    前記寄与係数は、前記第1文書および第2文書に共通して含まれた前記共通単語に対して前記第1文書が前記第2文書の価値に寄与する係数であることを特徴とする請求項12に記載の文書順位決定方法。
  15. 前記寄与スコア算出部が前記共通単語に対して文書の寄与スコアを算出することは、前記第1文書の前記第2文書に対する寄与係数に前記第2文書の内容スコアを適用して前記第1文書の寄与スコアを算出することを特徴とする請求項14に記載の文書順位決定方法。
  16. 前記寄与係数決定部が前記共通単語に対して第1文書の第2文書に対する寄与係数を決定することは、前記第2文書から前記第1文書に達する複数の段階のリンクを含むリンク経路が存在する場合、前記リンク経路に対応する文書の寄与係数を用いて前記第1文書の第2文書に対する寄与係数を決定することを特徴とする請求項14に記載の文書順位決定方法。
  17. 前記寄与係数決定部が前記共通単語に対して第1文書の第2文書に対する寄与係数を決定することは、前記第1文書および前記第2文書が1つのリンクに接続される場合、前記第1文書の内容スコア、前記第2文書の内容スコア、および前記第2文書のアウトリンクに対応する第3文書の内容スコアを用いて前記第1文書の第2文書に対する寄与係数を決定することを特徴とする請求項16に記載の文書順位決定方法。
  18. 前記寄与係数決定部が前記共通単語に対して第1文書の第2文書に対する寄与係数を決定することは、前記第1文書の内容スコアに比例し、前記第2文書の内容スコアおよび前記第3文書の内容スコアに反比例する前記第1文書の第2文書に対する寄与係数を決定することを特徴とする請求項17に記載の文書順位決定方法。
  19. 蓄積係数算出部が前記共通単語に対して前記第1文書の寄与スコアのうち前記第1文書が直接寄与したスコアの比率である前記第1文書の蓄積係数を算出することをさらに含むことを特徴とする請求項14に記載の文書順位決定方法。
  20. 前記順位決定部が前記少なくとも1つの単語それぞれに対して前記文書順位を決定することは、前記の内容スコアおよび前記寄与スコアに前記蓄積係数を適用するか、または前記寄与スコアに前記蓄積係数を適用することを特徴とする請求項19に記載の文書順位決定方法。
  21. 前記蓄積係数算出部が前記第1文書の蓄積係数を算出することは、前記第1文書の内容スコアと前記第1文書のアウトリンクに対応する文書の第4文書の内容スコアを用いて前記第1文書の蓄積係数を算出することを特徴とする請求項19に記載の文書順位決定方法。
  22. 前記第1文書の蓄積係数および前記第4文書の寄与係数を適用した総和が予め設定された値と同一であることを特徴とする請求項21に記載の文書順位決定方法。
  23. 請求項12乃至請求項22のいずれか1項の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
JP2011550048A 2009-02-17 2009-12-15 寄与スコアに基づいた文書順位決定システムおよび方法 Active JP5406313B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2009-0012898 2009-02-17
KR1020090012898A KR101065091B1 (ko) 2009-02-17 2009-02-17 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
PCT/KR2009/007481 WO2010095807A2 (ko) 2009-02-17 2009-12-15 기여 점수에 기초한 문서 순위 결정 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2012518221A true JP2012518221A (ja) 2012-08-09
JP5406313B2 JP5406313B2 (ja) 2014-02-05

Family

ID=42634287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011550048A Active JP5406313B2 (ja) 2009-02-17 2009-12-15 寄与スコアに基づいた文書順位決定システムおよび方法

Country Status (4)

Country Link
US (1) US8838611B2 (ja)
JP (1) JP5406313B2 (ja)
KR (1) KR101065091B1 (ja)
WO (1) WO2010095807A2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101659064B1 (ko) * 2009-09-03 2016-09-22 김서준 사용자 피드백을 이용하여 컨텐츠에 대한 평가 점수를 산출하기 위한 방법 및 장치
KR101086566B1 (ko) 2010-09-27 2011-11-23 엔에이치엔(주) 문서 순위 점수의 동적 갱신을 위한 방법 및 장치
KR101122436B1 (ko) * 2010-09-30 2012-03-09 엔에이치엔(주) 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9946800B2 (en) 2015-07-06 2018-04-17 International Business Machines Corporation Ranking related objects using blink model based relation strength determinations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164290A (ja) * 2002-11-13 2004-06-10 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP2007094552A (ja) * 2005-09-27 2007-04-12 Nippon Telegr & Teleph Corp <Ntt> コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607462B2 (ja) 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
KR100378240B1 (ko) * 2000-08-23 2003-03-29 학교법인 통진학원 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7499919B2 (en) * 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
KR100898462B1 (ko) 2007-05-16 2009-05-21 엔에이치엔(주) 문서 순위 결정 방법 및 이를 이용한 문서 순위 결정시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164290A (ja) * 2002-11-13 2004-06-10 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP2007094552A (ja) * 2005-09-27 2007-04-12 Nippon Telegr & Teleph Corp <Ntt> コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNB201000256001; 渡辺 隆広: 検索にガンガンヒットさせるSEOの教科書 初版, 20080616, p.56-61,107-109,114-117, 株式会社翔泳社 *
CSNG200701345004; 大塚 浩司: 'HITSアルゴリズムに基づく階層性を考慮したウェブコミュニティの抽出' 電子情報通信学会論文誌 第J90-D巻 第12号, 20071201, p.3161-3169, 社団法人電子情報通信学会 *
JPN6013029853; 渡辺 隆広: 検索にガンガンヒットさせるSEOの教科書 初版, 20080616, p.56-61,107-109,114-117, 株式会社翔泳社 *
JPN6013029855; 大塚 浩司: 'HITSアルゴリズムに基づく階層性を考慮したウェブコミュニティの抽出' 電子情報通信学会論文誌 第J90-D巻 第12号, 20071201, p.3161-3169, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
US20110302176A1 (en) 2011-12-08
JP5406313B2 (ja) 2014-02-05
US8838611B2 (en) 2014-09-16
WO2010095807A3 (ko) 2010-10-14
KR101065091B1 (ko) 2011-09-16
WO2010095807A2 (ko) 2010-08-26
KR20100093804A (ko) 2010-08-26

Similar Documents

Publication Publication Date Title
US11017047B2 (en) Establishing search results and deeplinks using trails
US8326842B2 (en) Semantic table of contents for search results
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
Bendersky et al. Learning concept importance using a weighted dependence model
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
US7698294B2 (en) Content object indexing using domain knowledge
US20090276414A1 (en) Ranking model adaptation for searching
US10108699B2 (en) Adaptive query suggestion
JP2017041284A (ja) 検索エンジンの結果ページ内に目的別アプリケーションを提供する装置、方法、プログラム、及びシステム
US20110208715A1 (en) Automatically mining intents of a group of queries
JP5989170B2 (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
JP5406313B2 (ja) 寄与スコアに基づいた文書順位決定システムおよび方法
US8204872B2 (en) Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm
US9720914B2 (en) Navigational aid for electronic books and documents
JP5406794B2 (ja) 検索クエリ推薦装置及び検索クエリ推薦プログラム
JP5133294B2 (ja) 時空間検索装置及び方法及びプログラム
KR100867081B1 (ko) 도서 검색에 이용되는 문서 스코어를 생성하는 방법 및상기 방법을 수행하는 시스템
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
KR101371318B1 (ko) 문서 순위 결정 시스템 및 방법
JP5832869B2 (ja) カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
US9864767B1 (en) Storing term substitution information in an index
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
KR100922693B1 (ko) 인물 검색 시스템 및 방법
JP5358481B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131031

R150 Certificate of patent or registration of utility model

Ref document number: 5406313

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250