JP2012074034A - 文書ランキングスコアの動的更新のための方法および装置 - Google Patents

文書ランキングスコアの動的更新のための方法および装置 Download PDF

Info

Publication number
JP2012074034A
JP2012074034A JP2011208611A JP2011208611A JP2012074034A JP 2012074034 A JP2012074034 A JP 2012074034A JP 2011208611 A JP2011208611 A JP 2011208611A JP 2011208611 A JP2011208611 A JP 2011208611A JP 2012074034 A JP2012074034 A JP 2012074034A
Authority
JP
Japan
Prior art keywords
document
score
word relevance
relevance score
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011208611A
Other languages
English (en)
Other versions
JP5764448B2 (ja
Inventor
Dong-Jin Kim
東 ▲慎▼ 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NHN Corp
Original Assignee
NHN Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NHN Corp filed Critical NHN Corp
Publication of JP2012074034A publication Critical patent/JP2012074034A/ja
Application granted granted Critical
Publication of JP5764448B2 publication Critical patent/JP5764448B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

【課題】文書が追加および削除される動的ウェブ環境で文書の文書ランキングスコアを算出する方法および装置が提供される。
【解決手段】第1文書と第2文書との間の共通キーワードに対する前記第1文書の第1単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを算出するステップと、前記第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップと、前記第2単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを更新するステップと、を含み、前記第1文書は前記第2文書へのリンクを含むことを特徴とする文書ランキング決定方法。
【選択図】図7

Description

本発明は文書ランキングスコアを算出するための方法および装置に関する。
本発明において、文書が追加および削除される動的ウェブ環境において文書の文書ランキングスコアを算出する方法および装置が開示される。
ウェブ(web)に存在する文書を対象に検索サービスを提供するシステム(以下、「ウェブ検索システム」と称する)は文書を収集し、文書の内容およびリンク情報などを反映して収集された文書のスコアを算出する。ウェブ検索システムは、ユーザによってクエリが入力されると、クエリと最も関連度の高い文書(または、このような文書のリスト、すなわちリンク)をユーザに提供する。
ウェブには数十億個以上の文書が存在し、このようなウェブ文書のうち一部は内容が変更または削除されてもよく、新しい文書が生成されたり文書そのものが削除されたりする場合もある。すなわち、ウェブ文書の状態は持続的に変化する。
したがって、ユーザに良好なウェブ検索サービスを提供するために、ウェブ検索システムは持続的にウェブの変化を反映してクエリに対する文書のスコアを算出し、算出の結果を短い時間内に検索結果へ反映する必要がある。
一般に、ウェブ検索システムは、一定の時間間隔で収集、索引、リンク情報分析、およびサービス反映などの作業を繰り返す。このような繰り返しの時間間隔は検索サービス業者ごとに異なるが、一般的には少なくとも1週間ないし2週間以内の間隔である。
もし、ウェブ検索システムの変更された文書が発見されるたびに文書の変更状態を検索サービスに反映してクエリとの関連度の高い文書をユーザに提供することができれば、検索サービスに対するユーザの満足度は大きく向上されるであろう。
検索サービスにおいて、文書のスコアは、文書の内容ベースのスコアおよびリンクベースのスコアの組合せに基づいて算出されてもよい。したがって、変更された文書が発見されるたびに短い時間内で検索結果に反映するためには文書の内容ベースのスコアおよびリンクベースのスコアを迅速に更新しなければならない。
文書<p>の単語tに対する内容ベースのスコアは、一般的に単語頻度(Term Frequency;TF)および逆文書頻度(Inverse Document Frequency;IDF)値に基づいて算出される。TFは文書<p>における単語tの発生頻度数である。IDFは文書全体の集合で単語tを含む文書数の逆数である。
TFは、文書内で単語tの使用頻度数を測定することによって算出される。したがって、特定文書のTFについては、文書全体の集合における他の文書に状態変化があっても再び算出される必要がない。
文書全体の集合における文書のうち1つの文書で単語tが追加または削除されるとIDFが変更される。このような場合、単語tを含む全ての文書に対して内容ベースのスコアが再び算出されなければならない。
ウェブ検索システムは、IDFの変更による影響を最小化しながら漸次に文書の内容ベースのスコアを算出する必要がある。
例えば、ウェブ検索システムは与えられた単語tに対して、単語tを含む文書およびその文書数を格納した後、内容の変更された文書について単語tが新しく追加または削除されたかを把握することで単語tのIDF値を再算出してもよい。
単語tに対する従来のIDF値および新規IDF値の差が予め設定された値以下であれば、ウェブ検索システムは従来のIDF値を用いて文書の内容ベースのスコアを算出してもよい。もし、前記値の差が予め設定された値よりも大きければ、ウェブ検索システムは単語tのIDF値を変更して単語tを含む文書の単語tに対する内容ベースのスコアを再算出してもよい。
また、ウェブ検索システムは、単語のIDF値は変化しないという仮定下でリンクベースのスコアを動的更新してもよい。
本発明の目的は、文書の内容が変更されたり文書が追加または削除されたりする場合、変更、追加、または削除された文書に関連する一部文書のみを対象に文書ランキングスコアを再算出する部分更新方法および装置を提供することである。
また、本発明の他の目的は、文書ランキングスコアを算出している間に文書の内容が変更されたり文書が追加または削除されたりする場合、文書の変更、追加、または削除が反映された文書ランキングスコアを算出する動的更新方法および装置を提供することである。
本発明の一実施形態に係る文書ランキング決定方法において、第1文書と第2文書との共通キーワードに対する第1文書の第1単語関連度スコアに基づいて第2文書の文書ランキングスコアを算出するステップと、第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップと、第2単語関連度スコアに基づいて第2文書の文書ランキングスコアを更新するステップとを含み、第1文書は第2文書へのリンクを含むことを特徴とする文書ランキング決定方法が提供される。
第1文書と第2文書との共通キーワードに対する第1単語関連度スコアに基づいて第2文書の文書ランキングスコアを算出するステップは、共通キーワードに対する第1寄与係数および第1単語関連度スコアに基づいて第1寄与スコアを算出するステップと、第1寄与スコアを第2文書の共通キーワードに対する文書ランキングスコアに反映するステップとを含んでもよい。
第2単語関連度スコアに基づいて第2文書の文書ランキングスコアを更新するステップは、共通キーワードに対する第2寄与係数を算出するステップと、第1寄与係数、第1単語関連度スコア、第2寄与係数、および第2単語関連度スコアに基づいて第2寄与スコアを算出するステップと、第2寄与スコアを第2文書の文書ランキングスコアに反映するステップとを含んでもよい。
第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、第1文書の内容が変更されるステップを含んでもよく、第1単語関連度スコアは、第1文書の内容が変更される前の第1文書の内容の共通キーワードに対する単語関連度スコアであり、第2単語関連度スコアは第1文書の内容が変更された後の第1文書の内容の共通キーワードに対する単語関連度スコアであってもよい。
第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、第1文書の内容が生成されるステップを含んでもよく、第2単語関連度スコアは、生成された内容における共通キーワードに対する単語関連度スコアであってもよい。
第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、第1文書の内容が削除されるステップを含んでもよく、第1単語関連度スコアは、第1文書の内容が削除された後の共通キーワードに対する単語関連度スコアであってもよい。
第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、リンクが生成されるステップを含んでもよく、第2単語関連度スコアは、第1文書の内容の共通キーワードに対する単語関連度スコアであり、第1単語関連度スコアが第2単語関連度スコアに変更されるとみなすことによってリンクの生成を反映してもよい。
第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、リンクが削除されるステップを含んでもよく、第1単語関連度スコアは、第1文書の内容の共通キーワードに対する単語関連度スコアであり、第1単語関連度スコアが第2単語関連度スコアに変更されるとみなすことによってリンクの削除を反映してもよい。
第1単語関連度スコアおよび第2単語関連度スコアは、第1文書の内容と共通キーワードとの間の関連性に基づいて算出されてもよい。
第1寄与係数および第2寄与係数は、共通キーワードにおいて第2文書が第1文書の内容に寄与する係数であってもよい。
文書ランキング決定方法は、第1文書が含む各単語について、第1文書の単語に対する単語関連度スコアを算出するステップと、第1文書のキーワードおよび第2文書のキーワードを抽出するステップと、第1文書と第2文書との間の共通キーワードを抽出するステップとをさらに含んでもよい。
文書ランキング決定方法は、第1文書への経路の開始文書である第3文書に対する、経路を通じた第1文書の寄与スコアおよび第1寄与係数に基づいて第3寄与スコアを算出するステップをさらに含んでもよい。
第2文書の文書ランキングスコアは、共通キーワードに対する第2文書の単語関連度スコア、第1寄与スコア、第2寄与スコア、および第3寄与スコアに基づいて決定されてもよい。
文書ランキング決定方法は、文書ランキングスコアに基づいて第2文書の文書ランキングを決定するステップをさらに含んでもよい。
また、本発明の一実施形態に係る文書ランキング決定装置において、第1文書と第2文書との間の共通キーワードに対する第1文書の第1単語関連度スコアおよび共通キーワードに対する第1文書の第2単語関連度スコアを算出する単語関連度スコア算出部と、第1単語関連度スコアを第2単語関連度スコアに変更する単語関連度スコア変更部と、第1単語関連度スコアに基づいて第2文書の文書ランキングスコアを算出し、第2単語関連度スコアに基づいて第2文書の文書ランキングスコアを更新する文書ランキングスコア算出部とを備え、第1文書は第2文書へのリンクを含むことを特徴とする文書ランキング決定装置が提供される。
文書ランキング決定装置は、共通キーワードに対する第1寄与係数および第2寄与係数を算出する寄与係数算出部と、第1寄与係数および第1単語関連度スコアに基づいて第1寄与スコアを算出し、第1寄与係数、第1単語関連度スコア、第2寄与係数、および第2単語関連度スコアに基づいて第2寄与スコアを算出する寄与スコア算出部とをさらに備えてもよく、文書ランキングスコア算出部は、第1寄与スコアを第2文書の共通キーワードに対する文書ランキングスコアに反映することによって第1単語関連度スコアに基づいて第2文書の文書ランキングスコアを算出し、第2寄与スコアを第2文書の文書ランキングスコアに反映することによって第2単語関連度スコアに基づいて第2文書の文書ランキングスコアを更新してもよい。
単語関連度スコア変更部は、第1文書の内容が変更される場合に第1単語関連度スコアを第2単語関連度スコアに変更してもよく、第1単語関連度スコアは、第1文書の内容が変更される前の第1文書の内容の共通キーワードに対する単語関連度スコアであり、第2単語関連度スコアは、第1文書の内容が変更された後の第1文書の内容の共通キーワードに対する単語関連度スコアであってもよい。
単語関連度スコア変更部は、第1文書の内容が生成される場合に第1単語関連度スコアを第2単語関連度スコアに変更してもよく、第2単語関連度スコアは、生成された第1文書の内容の共通キーワードに対する単語関連度スコアであってもよい。
単語関連度スコア変更部は、第1文書の内容が削除される場合に第1単語関連度スコアを第2単語関連度スコアに変更してもよく、第1単語関連度スコアは、第1文書の内容が削除された後の共通キーワードに対する単語関連度スコアであってもよい。
単語関連度スコア変更部は、リンクが生成される場合に第1単語関連度スコアが第2単語関連度スコアに変更されたものとみなすことによってリンクの生成を反映してもよく、第2単語関連度スコアは、第1文書の内容の共通キーワードに対する単語関連度スコアであってもよい。
単語関連度スコア変更部は、リンクが削除される場合に第1単語関連度スコアが第2単語関連度スコアに変更されたものとみなすことによってリンクの削除を反映してもよく、第1単語関連度スコアは、第1文書の内容の共通キーワードに対する単語関連度スコアであってもよい。
文書ランキング決定装置は、第1文書のキーワードおよび第2文書のキーワードを抽出し、第1文書と第2文書との間の共通キーワードを抽出する共通キーワード抽出部をさらに備えてもよく、単語関連度スコア算出部は、第1文書が含む各単語に対して第1文書の単語に対する単語関連度スコアを算出してもよい。
寄与スコア算出部は、第1文書への経路の開始文書である第3文書に対する、経路を通じた第1文書の寄与スコアおよび第1寄与係数に基づいて第3寄与スコアを算出してもよく、文書ランキングスコア算出部は、第3寄与スコアを第2文書の文書ランキングスコアに反映してもよい。
文書ランキングスコア算出部は、共通キーワードに対する第2文書の単語関連度スコア、第1寄与スコア、第2寄与スコア、および第3寄与スコアに基づいて第2文書の文書ランキングスコアを決定してもよい。
文書ランキングスコアに基づいて第2文書の文書ランキングを決定する文書ランキング決定部をさらに備えてもよい。
本発明の一実施形態によれば、文書の内容が変更されたり文書が追加または削除されたりする場合、変更、追加、または削除された文書に関連する一部文書のみを対象に文書ランキングスコアを再算出する部分更新方法および装置を提供することができる。
本発明の一実施形態によると、文書ランキングスコアを算出している間に文書の内容が変更されたり文書が追加または削除されたりする場合、文書の変更、追加、または削除が反映された文書ランキングスコアを算出する動的更新方法および装置を提供することができる。
本発明の一実施形態に係る文書スコア算出方法を説明するための図である。 本発明の一実施形態に係る共通キーワードに対する文書の寄与係数を算出する方法を説明するための図である。 本発明の一実施形態に係る文書ランキング決定方法を示すフローチャートである。 本発明の一実施形態に係る単語関連度スコア変更を説明するための図である。 本発明の一実施形態に係る寄与スコアの分割伝達の特性を説明するための図である。 本発明の一実施形態に係るC−Rankスコア更新の対象となる文書を説明するための図である。 本発明の一実施形態に係る動的文書ランキングの決定方法を示すフローチャートである。 本発明の一実施形態に係る文書ランキング決定装置の構造図である。
以下、本発明の一実施形態を添付する図面を参照しながら詳説する。本発明は実施形態によって制限されたり限定されたりすることはない。各図面に提示された同じ参照符号は同じ部材を示す。本発明の一実施形態に係る文書ランキング決定方法は文書ランキング決定システムの各構成によって行われてもよい。
C−Rankベースの文書ランキング決定方法は、各文書について単語ごとに単語関連度スコアおよび寄与スコアを算出し、算出された単語関連度スコアおよび寄与スコアの組合せに基づいて文書のランキングを決定する方法である。
単語関連度スコアは、単語に対する文書の内容に基づいて決定される情報である。寄与スコアは、単語に対する文書のリンク情報に基づいて決定される情報である。すなわち、上記方法はリンクに接続された文書間の関係を考慮してリンクに基づいた寄与スコアを算出する特徴を有する。
各文書は各単語に対するC−Rankスコアを有する。単語tに対する文書<p>のC−Rankスコアは、文書<p>の単語tに対する単語関連度スコアおよび寄与スコアを組合せることによって算出される。
C−Rankベースの文書ランキング決定方法は、ユーザによってクエリが入力される前に各文書に対して文書に含まれる単語に対するC−Rankスコアを算出する。クエリが1つ以上の単語で構成された場合、本方法においては文書の単語それぞれに対するC−Rankスコアを合算することによってクエリに対する文書のスコアを算出してもよい。
図1は、本発明の一実施形態に係る文書スコア算出方法を説明するための図である。
図1に示すように、文書<X>100とリンクに接続された文書<Y>110、文書<Z>120、文書<Y>130および文書<Z>140が示された。ここで、文書<X>100、文書<Y>110および文書<Z>120は単語A150を含み、文書<X>100、文書<Y>130および文書<Z>140は単語B160を含む。
単語A150は文書<X>100、文書<Y>110および文書<Z>120に共通に含まれた共通キーワードであり、単語B160は文書<X>100、文書<Y>130および文書<Z>140に共通に含まれた共通キーワードである。すなわち、共通キーワードはリンクに接続された文書に共通して含まれたキーワードである。各文書は1つ以上の共通キーワードを含んでもよい。
単語A150および単語B160はユーザが入力したクエリに含まれた単語であってもよい。
本発明の一実施形態に係る文書ランキング決定方法は、単語それぞれに対する文書のランキングを決定してもよい。文書ランキング決定方法は、文書内容およびリンク情報を組合せて単語に対する文書のランキングを決定してもよい。
具体的に、文書ランキング決定方法は、文書に含まれた少なくとも1つの単語それぞれに対する文書の単語関連度スコアと単語を共通に含む他の文書の活用度を示す寄与スコアとを組合せて文書ランキングを決定してもよい。
一実施形態として、文書のランキングを決定する場合に次のような基本概念を予め定義してもよい。
(1)重要文書の基準
文書が生成される場合、ユーザに提供しようとする主要情報で本文を構成してもよい。また、文書の本文に対する詳細説明や本文に関連する追加情報は他の文書をリンクに接続する方式により提供されてもよい。ここで、リンクに接続された文書(例えば、文書<Y>110および文書<Y>130)とはリンクを含む文書(例えば、文書<X>100)のような主要情報について説明している文書であってもよく、または他の文書における主要情報に関する細部事項を補完説明する文書であってもよく、または単語(例えば、単語A150および単語B160)の詳細説明の文書であってもよい。または場合に応じて、リンクに接続された文書はリンクを含む文書と全く関係のない文書(例えば、文書の内容と関係のない広告)であってもよい。
文書の内容は文書の品質を評価するときの重要な要素であってもよい。ユーザは所望する内容を含む高品質の文書が検索結果として示されることを期待してもよい。また、文書ランキング決定方法または装置は文書の本文の品質に寄与する重要文書をリンクとして接続してもよい。
本発明の一実施形態に係る文書ランキング決定システムは、次のような条件を満たす文書を重要文書であると規定してもよい。1)与えられた単語に対する単語関連度スコアが高い文書、2)与えられた単語に対する単語関連度スコアが高い文書とリンクにより接続された文書、3)リンクによって自身の情報を多く活用する文書に接続された文書。
(2)リンクに接続された文書の寄与スコア
リンクに接続された文書(例えば、文書<Y>110、文書<Y>130)がリンクを含む文書(例えば、文書<X>100)に対する寄与スコアは与えられたクエリに対する2つの文書の単語関連度スコアに基づいて決定されてもよい。
与えられたクエリに対する2つの文書の関連度が高いほど、リンクに接続された文書はリンクを含む文書の品質に大きく寄与する。ただし、リンクを含む文書は検索クエリに対して高い関連度を有するもののリンクに接続された文書は検索クエリに対して低い関連度を有する場合、リンクに接続された文書はリンクを含む文書の品質に寄与しない場合がある。
(3)ランキングに応じたユーザの関心度
検索結果においては、文書の相対的なランキングが重要であり、ユーザは自身が所望する情報が検索結果を表示するページの1ページ目に表示されることを所望する。例えば、文書ランキング決定システムが上位10位までに該当する文書を1ページ目に表示する場合、ユーザはそれら表示される文書に対して敏感であるが、ランキングが200位から300位までの間に位置する文書については、それらの文書をいずれも重要ではないものとして、その間のランキングの差に関心を示さないことが考えられる。
したがって、本発明の一実施形態に係る文書ランキング決定システムは、予め設定したランキング上において上位に該当する文書の相対的なランキングをランキング上において下位に該当する文書よりもさらに正確に決定することができる。ランキング上、上位に該当する文書について、相対的なランキングを正確に決定すればユーザは検索結果に満足することができ、それ以上に多くの文書に対して正確なランキングを決定する必要がないため、検索結果を導き出すために要求されるリソースを節約することができる。
このような基本概念に基づいて、本発明の一実施形態に係る文書ランキング決定方法または装置は、単語A150に対して文書<X>100、文書<Y>110および文書<Z>120の単語関連度スコアおよび寄与スコアを算出し、算出された単語関連度スコアおよび寄与スコアを組合せることによって、単語A150に対する文書間の文書ランキングを決定するためのC−Rankスコアを算出してもよい。
また、本発明の一実施形態に係る文書ランキング決定方法またはシステムは、単語B160に対して文書<X>100、文書<Y>130および文書<Z>140の単語関連度スコアおよび寄与スコアを算出し、算出された単語関連度スコアおよび寄与スコアを組合せることによって単語B160に対する文書間の文書ランキングを決定するためのC−Rankスコアを決定してもよい。最終的に、決定された文書ランキングは、文書および単語の対に対して決定された文書ランキングスコアを昇順または降順に配列することによって決定されてもよい。(例えば、C(X)など)

図2は、本発明の一実施形態に係る共通キーワードに対する文書の寄与係数を算出する方法を説明するための図である。
本実施形態において、寄与係数は第2文書が第1文書の内容に寄与する係数を意味する。第1文書および第2文書の共通キーワードに対して第1文書の第2文書に対する寄与係数が決定される。

t250は単語を意味する。
数2から分かるように、第1文書<p>240の第2文書<q>210に対する寄与係数に第2文書<q>210の内容スコアを適用することによって第1文書<p>240の寄与スコアが算出されてもよい。
図2に示すように、第2文書(文書<q>210)から第1文書(文書<p>240)に達する複数のステップのリンクを含むリンク経路が存在する場合、リンク経路に対応する文書(文書<r>220〜文書<rd−1>230)の寄与係数を用いることによって第1文書の第2文書に対する寄与係数を決定してもよい。
寄与係数は下記の数3によって決定されてもよい。
また、リンク経路に対応する文書の寄与係数は、リンク経路上で隣接する文書間の寄与係数(例えば、r→rのリンクでrのrに対する寄与係数)を用いて決定されてもよい。
本発明の一実施形態によると、第1文書および第2文書が1つのリンクに接続される場合、第1文書の内容スコア、第2文書の内容スコア、および第2文書のアウトリンクに対応する第3文書の内容スコアを用いることによって第1文書の第2文書に対する寄与係数を決定してもよい。
第1文書および第2文書が1つのリンクに接続される場合、第1文書の第2文書に対する寄与係数は下記の数4によって決定されてもよい。
例えば、文書<p>、文書<q>および文書<r>がr→q→pのようにリンクに接続された場合、このようなリンクに対して図2の説明を適用すると次の通りである。
図3は、本発明の一実施形態に係る文書ランキング決定方法を示すフローチャートである。
本実施形態の文書ランキング算出方法は、初期化ステップS310ないしステップS330およびスコア伝達ステップS340ないしステップS380に分類されてもよい。
ステップS320において、各文書<p>について、文書<p>のキーワードが抽出される。
ステップS322において、各文書<p>について、文書<p>および文書<p>がリンクに示す各文書<q>間の共通キーワードが抽出される。
ステップS380において、全ての文書に伝達した寄与スコアが0であれば(または伝達された全ての寄与スコアが0であれば)手続きを終了し、そうでなければステップS350が繰り返される。
図4は、本発明の一実施形態に係る単語関連度スコア変更を説明するための図である。
図1から図3を参照して前述した文書ランキング算出方法は静的な算出方法であり、動的な算出方法においては、静的な算出方法で用いられた記号や式に時点Tが追加されてもよい。Tは0以上の整数である。
単語関連度スコアの変更によるC−Rankスコアの更新は2種類に区分されてもよい。
(1)部分更新はC−Rankスコアが完全に算出された後、単語関連度スコアが変更される場合に行われるものである。
文書間のリンク構造は変更されないものと仮定する。
(2)動的更新はC−Rankスコアを算出している際に、単語関連度スコアが変更される場合に行われるものである。
文書間のリンク構造は変更されないものと仮定する。
下記では、時点T、C−Rankスコアおよび寄与スコア間の関係について説明する。
数1によると、単語tに対する文書<p>のC−Rankスコアは、単語tに対する文書<p>の単語関連度スコアおよび文書<p>の他の文書に対する寄与スコアの加重和である。
時点Tである場合、文書<p>の単語関連度スコア、寄与スコア、およびC−Rankスコアが算出されていると仮定する。これによって、時点がT+1である場合に単語tに対する文書<p>のC−Rankスコアは下記の数5のように表してもよい。
前述の部分更新および動的更新は文書の内容が変更されたり文書が削除または追加されたりする場合に変更、削除、または追加された文書によってC−Rankスコアが影響の受けた文書のみを対象にC−Rankスコアの更新を行う。
したがって、部分更新および動的更新により、動的に変化するウェブ環境をC−Rankスコアへと素早く反映することができる。
また、ウェブなど文書ランキング決定を要する環境においては、持続的に文書が追加および削除されるため、部分更新および動的更新方法に基づいて算出されたC−Rankスコアは静的算出方法に基づいて算出されたC−Rankスコアよりも、より実際のウェブ環境をさらに効率よく反映することができる。
図5は、本発明の一実施形態に係る寄与スコアの分割伝達の特性を説明するための図である。
前述したように、各文書は自身の単語関連度スコアにアウトリンクの寄与係数を乗算することによって寄与スコアを生成し、生成された寄与スコアをアウトリンクが示す文書に伝達する。
寄与スコアを伝達された文書は、伝達された寄与スコアにアウトリンクの寄与係数を乗算してアウトリンクが示す文書に伝達される。すなわち、寄与スコアは、経路の寄与係数に寄与スコアを付与する文書の単語関連度スコアを乗算することによって生成される。
このような寄与スコアの生成および伝達過程は、伝達する寄与スコアが一定の値以下になるか、あるいは寄与スコアの伝達回数が一定の回数に達するまで繰り返されてもよい。
まず、文書<p>510は、算出された寄与スコアの半分550を第1反復ステップ(例えば、スコア伝達ステップS340ないしS380の最初の実行ステップ)で文書<q>520に伝達し、残りの半分560を第2反復ステップに追加伝達する場合について説明する。
結果的に、文書<p>510が寄与スコアを分割して伝達しても、反復算出の過程が完了したときの文書<q>520の文書<p>510に対する寄与スコアは一定である。
したがって、静的な算出の過程において文書<p>の寄与スコア(文書<p>の単語関連度スコアによって生成された寄与スコアまたは文書<p>に伝達された寄与スコア)が分割され(分割された寄与スコアの総和は本来の寄与スコアと同一である)、分割された寄与スコアが数回に分割してアウトリンクが示す文書に伝達されても、静的な算出方法が完了したときに文書それぞれに伝達された寄与スコアは変わらない。
次に、文書<p>510は、算出された寄与スコアの2倍の値を示す値570を第1反復ステップにおいて文書<q>520に伝達し、算出された寄与スコアに−1を乗算した値580を第2反復ステップに伝達する場合について説明する。
すなわち、文書<p>510が多すぎる寄与スコアを文書<q>520に伝達した後、これを相殺する程の負の寄与スコアを文書<q>520に伝達しても、反復算出の過程が完了したときに文書<q>520の文書<p>510に対する寄与スコアは一定である。
また、o→p→qのリンク構造において、文書<p>が文書<o>から伝達された寄与スコアを分割して文書<q>に伝達しても、最終的な文書<q>の文書<o>に対する寄与スコアは同じ値を有する。
前述したように、寄与スコアが正の数及び負の数に分割されて伝達されても、分割されて伝達された寄与スコアの総和が本来の分割される前の寄与スコアと同一であれば、本来の寄与スコアが伝達されたものと同じ結果となる。このような寄与スコアの特性を分割伝達の特性と称する。
分割伝達の特性を活用すると、前述した部分更新および動的更新は静的な算出の中間過程であると解釈してもよい。

(1)スコア伝達反復作業を中断する。
(2)各リンクの寄与係数を更新する。
(3)各文書は数6によって算出された追加寄与スコアを伝達する。
(4)スコア伝達反復作業を再開する。
図6は、本発明の一実施形態に係るC−Rankスコア更新の対象となる文書を説明するための図である。
文書<p>610の単語関連度スコアが更新されるときに、寄与係数が変更されるリンクは文書<p>610のアウトリンク650および文書<p>610を示す文書620、630のアウトリンク660、670である。
数6によると、単語関連度スコアが変更されることなくアウトリンクの寄与係数が変わらない文書は、追加伝達する寄与スコアがない。したがって、寄与スコアを追加伝達する文書は、単語関連度スコアが変更された文書および単語関連度スコアが変更された文書をリンクで示す文書に制限される。このような文書を追加寄与スコア伝達文書と称する。
文書の内容が変更されながら時点T+1に新しいリンクp→q680が追加された場合について説明する。
文書の内容が変更されながら時点T+1に既存リンクp→q680が削除された場合について説明する。
したがって、リンクの追加および削除によるC−Rankスコアの部分更新および動的更新は、前述の文書の単語関連度スコア変更による動的更新と同じ方法に基づいて処理されてもよい。
新しい文書が追加されるのは、既に生成されていたが、本文の内容がなかったため全ての単語関連度スコアが0であった文書に本文が追加されることで単語関連度スコアが変更された場合である。
従来の文書が削除されるのは、文書の本文が削除されて全ての単語関連度スコアが0になった場合である。
したがって、文書の追加および削除による動的更新は、文書の単語関連度スコア変更による動的更新と同じ方法に基づいて処理されてもよい。
図7は、本発明の一実施形態に係る動的文書ランキングの決定方法を示すフローチャートである。
本実施形態における動的文書ランキングの決定方法は、前処理ステップS700ないしS744、反復作業ステップS750ないしS792、および文書ランキング算出ステップS794に区分してもよい。
図7に示される本実施形態の動的文書ランキングの決定方法および図3を参照して前述した文書ランキング決定方法との差異について説明すると、本実施形態に係る動的文書ランキングの決定方法は、文書の追加または削除が発生したり、文書の内容が変更されたりすることによる変更された寄与スコアを算出する方法、およびこのような寄与スコアを文書ランキングスコアに反映する方法が追加された点で図3を参照して前述した文書ランキングの決定方法と異なる。
まず、前処理ステップS700ないしステップS744について説明する。
ステップS700において、時点Tが0に初期化される。
ステップS710において、各文書<p>が含んでいる各単語tに対する文書の単語関連度スコアが算出される。以下、本ステップS710で算出された文書の単語関連度スコアを第1単語関連度スコアと称する。例えば、第1文書が第1単語を含むと、第1文書の第1単語に対する第1単語関連度スコアが算出される。
ステップS720において、各文書<p>の各単語tに対する初期C−Rankスコアが指定(すなわち、算出および設定)される。初期C−Rankスコアは、ステップS710で算出された単語関連度スコアに加重値λを乗算した値である。
ステップS730において、各文書<p>からキーワードが抽出される。キーワードは、例えば、第1文書が含む第1単語のように各文書<p>が含む各単語tのうちの一部である。
ステップS732において、各リンクlに対してリンクlに接続された2つの文書間の共通キーワードが抽出される。例えば、第1文書が第1リンクを含み、第1リンクは第1文書から第2文書へのリンクであれば、第1文書および第2文書の共通キーワードが抽出される。
ステップS740において、リンクに接続された2つの文書間の各共通キーワードに対して2つの文書間の寄与係数が算出される。算出された寄与係数は2つの文書を接続するリンクのキーワードに対する寄与係数であってもよい。以下、本ステップS740で算出された寄与係数を第1寄与係数と称する。例えば、リンクに接続された第1文書および第2文書の共通キーワードがあれば、第1文書と第2文書との間の共通キーワードに対する第1寄与係数が算出される。
次に、反復作業ステップS750ないしS792について説明する。反復作業ステップS750ないしS792において、寄与スコアを伝達するためのステップS750ないしS752、および追加伝達寄与スコアを伝達するためのステップS760ないしS768が行われ、これらステップが行われた後に寄与スコアを算出するためのステップS770ないしS792が行われる。
寄与スコアを伝達するためのステップS750ないしS752について説明する。
次に、追加伝達寄与スコアを伝達するためのステップS760ないしS768を説明する。
追加伝達寄与スコアを伝達するためのステップは、1つ以上の文書で追加伝達寄与スコアが発生する場合に実行されるステップである。文書の単語関連度が変更されると、既に伝達された寄与スコアは、変更された単語関連度および変更された寄与係数を正しく反映することができない。したがって、変更に応じて発生した寄与スコアの差を補正するために追加伝達寄与スコアが伝達される。
ステップS760において、単語関連度が変更された文書が存在するか否かが検出される。もし、単語関連度が変更された文書がなければ、ステップS770を実行する。
文書の単語関連度は下記の(1)〜(5)のような場合に変更されてもよい。
(1)文書の内容が変更される場合に、文書の単語関連度が変更されてもよい。ここで、変更前の文書の単語関連度スコアは、ステップS710で算出された第1単語関連度スコアであってもよい。変更された内容に応じて文書の単語関連度スコアが変更される。
(2)文書または文書の内容が生成される場合に、文書の単語関連度が変更されてもよい。ここで、変更前の文書の単語関連度スコアは0であってもよい。生成された文書の内容または生成された内容に応じて文書の単語関連度スコアが変更される。
(3)文書または文書の内容が削除される場合に、文書の単語関連度が変更されてもよい。ここで、変更前の文書の単語関連度スコアは、ステップS710で算出された第1単語関連度スコアであってもよい。文書または文書の内容が削除されることによって文書の単語関連度スコアは0に変更されてもよい。
(4)両文書間のリンクが生成される場合に、文書の単語関連度が変更されたとみなしてもよい。
第1文書から第2文書へのリンクが新しく生成されると、寄与スコアが伝達されていない第2文書へと新たに寄与スコアを伝達しなければならない。第1文書の単語関連度が変更されたものとみなすことによって、単語関連度の変更に応じて生成された追加伝達寄与スコアを第2文書に伝達してもよい(文書の単語関連度は文書に関連するリンクとは関係ない)。ここで、ステップS710で算出された第1単語関連度スコアは0であってもよい。また、変更された単語関連度スコアは第1文書の内容の単語に対する単語関連度スコアであるとみなしてもよい。
(5)両文書間のリンクが削除される場合に、文書の単語関連度が変更されたとみなしてもよい。
第1文書から第2文書へのリンクが削除されると、既に第2文書に伝達された寄与スコアは、消滅することとなる。第1文書の単語関連度が変更されたものとみなすことによって、単語関連度の変更に応じて生成された負の追加伝達寄与スコアを第2文書に伝達してもよい(文書の単語関連度は文書に関連するリンクとは関係ない)。ここで、ステップS710で算出された第1単語関連度スコアは、第1文書の内容の単語に対する単語関連度スコアであるとみなしてもよい。また、変更された単語関連度スコアは0であるとみなしてもよい。
以下、変更された文書の単語関連度スコアを第2単語関連度スコアと称する。
単語関連度が変更された文書<p>に対して下記のステップS762ないしステップS768を実行する。
すなわち、ステップS766およびステップS768において、単語関連度スコアの変更された第1文書の追加寄与スコアが第1文書およびリンクに接続された第2文書に伝達され、伝達された第1文書の追加寄与スコアが第2文書の累積スコアに加えられる。
寄与スコアを算出するためのステップS770ないしステップS792について説明する。
第3寄与スコアは次のように実行される時点Tが1大きい反復作業ステップS750ないしS792で文書<q>に伝達される。
すなわち、第3文書および第1文書が第3文書から第1文書へのリンクに接続されたとき、すなわち、第3文書は第1文書を表す経路の開始文書であるとき、第3文書の寄与スコアは今回の反復作業ステップS750ないしS792で第1文書に伝達され、伝達された第3文書の寄与スコアに基づいて生成された第3寄与スコアが次の反復作業ステップS750ないしS792で第1文書と接続された第2文書に伝達される。したがって、第3文書に対する、前述した経路を介する第1文書の寄与スコアおよび第1寄与係数に基づいて第3寄与スコアが算出される。
ステップS792において、全ての文書が伝達する寄与スコアが0であるか否かが検出される。
伝達される全ての寄与スコアのうち0でないものがあれば、反復作業ステップS750ないしS792を再び繰り返す。すなわち、ステップS750およびステップS760が再び実行される。
伝達される全ての寄与スコアが0であれば、これ以上反復作業ステップS750ないしS792を繰り返す必要がない。したがって、ステップS794が実行される。
図8は、本発明の一実施形態に係る文書ランキング決定装置の構造図である。
文書ランキング決定装置800は、寄与係数算出部810、単語関連度スコア算出部820、寄与スコア算出部830、単語関連度スコア変更部840、および文書ランキングスコア算出部850を備える。文書ランキング決定装置800は、共通キーワード抽出部860、文書ランキング決定部870、および格納部880をさらに備えてもよい。
寄与係数算出部810は前述の寄与係数を算出する。例えば、寄与係数算出部は、ステップS740の第1寄与係数およびステップS762の第2寄与係数を算出してもよい。
単語関連度スコア算出部820は前述の単語関連度を算出する。例えば、単語関連度算出部820は、ステップS710の第1単語関連度スコアおよびステップS760の第2単語関連度スコアを算出してもよい。
寄与スコア算出部830は前述の寄与スコアを算出する。例えば、寄与スコア算出部830は、ステップS744の第1寄与スコア、ステップS762の第2寄与スコア、およびステップS790の第3寄与スコアを算出してもよい。
単語関連度スコア変更部840は、文書の単語に対する単語関連度スコアを変更する。例えば、単語関連度スコア変更部840は、ステップS760で説明された単語関連度の変更原因(1)〜(5)が発生した文書の単語関連度スコアをステップS710の第1単語関連度スコアからステップS760の第2単語関連度スコアに変更してもよい。
単語関連度スコア変更部840は、単語関連度スコアが変更された文書の単語関連度スコアを再算出することを単語関連度スコア算出部820に要求してもよい。
文書ランキングスコア算出部850は前述の文書ランキングスコアを算出する。
文書ランキングスコア算出部850は、第1単語関連度スコアに基づいて第2文書の文書ランキングスコアを算出してもよく、第2単語関連度スコアに基づいて第2文書の文書ランキングスコアを更新してもよい。
文書ランキングスコア算出部850は、ステップS744の第1寄与スコアを第2文書の共通キーワードに対する文書ランキングスコアに反映することによって第1単語関連度スコアに基づいて第2文書の文書ランキングスコアを算出してもよく、ステップS762の第2寄与スコアを第2文書の文書ランキングスコアに反映することによって第2単語関連度スコアに基づいて第2文書の文書ランキングスコアを更新してもよい。
例えば、文書ランキングスコア算出部850は、ステップS744の第1寄与スコア、ステップS762の第2寄与スコア、およびステップS790の第3寄与スコアに基づいてステップS770の文書ランキングスコアを算出してもよい。
文書ランキングスコア算出部850は、文書の単語に対するステップS710の第1文書関連度スコア、ステップS744の第1寄与スコア、ステップS762の第2寄与スコア、およびステップS790の第3寄与スコアに基づいて文書の単語に対する文書ランキングスコアを決定してもよい。
共通キーワード抽出部860は、リンクに接続された2つの文書間の共通キーワードを抽出する。例えば、共通キーワード抽出部はステップS732の共通キーワードを抽出してもよい。
文書ランキング決定部870は、文書ランキングスコア算出部850によって算出された文書の単語に対する文書ランキングスコアに基づいて文書の単語に対する文書ランキングを決定してもよい。
格納部880は、前述した文書ランキング決定装置800の他の構成要素810ないし870の動作に必要なデータを格納および提供する。例えば、格納部880は、文書、リンク、寄与係数、寄与スコア、単語関連度スコア、文書ランキングスコア、および文書ランキングなどを管理するために必要なデータ構造を格納する。
上記の図1ないし図7を参照して説明された本発明の一実施形態に係る技術的内容が本実施形態にもそのまま適用されてもよい。したがって、本詳細な説明は以下では省略することにする。
文書ランキング決定装置800の構成要素810ないし880の機能の一部または全部は単一な制御部(図示せず)で行われてもよい。制御部は単一または複数のプロセッサであってもよく、ネットワークによって接続された分散処理システムであってもよい。構成要素810ないし880は制御部で行われるサービス、プロセス、スレッド、モジュール、ライブラリ、および関数を表してもよい。
本発明の一実施形態に係る方法は多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
800 文書ランキング決定装置
810 寄与係数算出部
820 単語関連度スコア算出部
830 寄与スコア算出部
840 単語関連度スコア変更部
850 文書ランキングスコア算出部

Claims (25)

  1. 第1文書と第2文書との間の共通キーワードに対する前記第1文書の第1単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを算出するステップと、
    前記第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップと、
    前記第2単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを更新するステップと、
    を含み、
    前記第1文書は前記第2文書へのリンクを含むことを特徴とする文書ランキング決定方法。
  2. 第1文書と第2文書との共通キーワードに対する第1単語関連度スコアに基づいて第2文書の文書ランキングスコアを算出するステップは、
    前記共通キーワードに対する第1寄与係数および前記第1単語関連度スコアに基づいて第1寄与スコアを算出するステップと、
    前記第1寄与スコアを第2文書の前記共通キーワードに対する文書ランキングスコアに反映するステップと、
    を含み、
    前記第2単語関連度スコアに基づいて第2文書の文書ランキングスコアを更新するステップは、
    前記共通キーワードに対する第2寄与係数を算出するステップと、
    前記第1寄与係数、前記第1単語関連度スコア、前記第2寄与係数、および前記第2単語関連度スコアに基づいて第2寄与スコアを算出するステップと、
    前記第2寄与スコアを前記第2文書の前記文書ランキングスコアに反映するステップと、
    を含むことを特徴とする請求項1に記載の文書ランキング決定方法。
  3. 前記第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、前記第1文書の内容が変更されるステップを含み、
    前記第1単語関連度スコアは、前記第1文書の内容が変更される前の前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであり、前記第2単語関連度スコアは前記第1文書の内容が変更された後の前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項1または2に記載の文書ランキング決定方法。
  4. 前記第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、前記第1文書の内容が生成されるステップを含み、
    前記第2単語関連度スコアは、前記生成された内容における前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項1から3のいずれかに記載の文書ランキング決定方法。
  5. 前記第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、前記第1文書の内容が削除されるステップを含み、
    前記第1単語関連度スコアは、前記第1文書の内容が削除された後の前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項1から4のいずれかに記載の文書ランキング決定方法。
  6. 前記第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、前記リンクが生成されるステップを含み、
    前記第2単語関連度スコアは、前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであり、前記第1単語関連度スコアが前記第2単語関連度スコアに変更されるとみなすことによって前記リンクの生成を反映することを特徴とする請求項1から5のいずれかに記載の文書ランキング決定方法。
  7. 前記第1単語関連度スコアを第2単語関連度スコアに動的に変更するステップは、前記リンクが削除されるステップを含み、
    前記第1単語関連度スコアは、前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであり、前記第1単語関連度スコアが前記第2単語関連度スコアに変更されるとみなすことによって前記リンクの削除を反映することを特徴とする請求項1から6のいずれかに記載の文書ランキング決定方法。
  8. 前記第1単語関連度スコアおよび前記第2単語関連度スコアは、前記第1文書の内容と前記共通キーワードとの間の関連性に基づいて算出されることを特徴とする請求項1から7のいずれかに記載の文書ランキング決定方法。
  9. 前記第1寄与係数および前記第2寄与係数は、前記共通キーワードにおいて前記第2文書が前記第1文書の内容に寄与する係数であることを特徴とする請求項2から8のいずれかに記載の文書ランキング決定方法。
  10. 前記第1文書が含む各単語について、前記第1文書の前記単語に対する単語関連度スコアを算出するステップと、
    前記第1文書のキーワードおよび前記第2文書のキーワードを抽出するステップと、
    前記第1文書と前記第2文書との間の前記共通キーワードを抽出するステップと
    をさらに含むことを特徴とする請求項1から9のいずれかに記載の文書ランキング決定方法。
  11. 前記第1文書への経路の開始文書である第3文書に対する、前記経路を通じた前記第1文書の寄与スコアおよび前記第1寄与係数に基づいて第3寄与スコアを算出するステップをさらに含むことを特徴とする請求項2から10のいずれかに記載の文書ランキング決定方法。
  12. 前記第2文書の文書ランキングスコアは、前記共通キーワードに対する前記第2文書の単語関連度スコア、前記第1寄与スコア、前記第2寄与スコア、および前記第3寄与スコアに基づいて決定されることを特徴とする請求項11に記載の文書ランキング決定方法。
  13. 前記文書ランキングスコアに基づいて前記第2文書の文書ランキングを決定するステップをさらに含むことを特徴とする請求項1から12のいずれかに記載の文書ランキング決定方法。
  14. 請求項1から13のいずれかに記載の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
  15. 第1文書と第2文書との間の共通キーワードに対する前記第1文書の第1単語関連度スコアおよび前記共通キーワードに対する前記第1文書の第2単語関連度スコアを算出する単語関連度スコア算出部と、
    前記第1単語関連度スコアを前記第2単語関連度スコアに変更する単語関連度スコア変更部と、
    第1単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを算出し、前記第2単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを更新する文書ランキングスコア算出部と
    を備え、
    前記第1文書は前記第2文書へのリンクを含むことを特徴とする文書ランキング決定装置。
  16. 前記共通キーワードに対する第1寄与係数および第2寄与係数を算出する寄与係数算出部と、
    前記第1寄与係数および前記第1単語関連度スコアに基づいて第1寄与スコアを算出し、前記第1寄与係数、前記第1単語関連度スコア、第2寄与係数、および前記第2単語関連度スコアに基づいて第2寄与スコアを算出する寄与スコア算出部と
    をさらに備え、
    前記文書ランキングスコア算出部は、前記第1寄与スコアを前記第2文書の前記共通キーワードに対する文書ランキングスコアに反映することによって前記第1単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを算出し、前記第2寄与スコアを前記第2文書の前記文書ランキングスコアに反映することによって前記第2単語関連度スコアに基づいて前記第2文書の文書ランキングスコアを更新することを特徴とする請求項15に記載の文書ランキング決定装置。
  17. 前記単語関連度スコア変更部は、前記第1文書の内容が変更される場合に前記第1単語関連度スコアを前記第2単語関連度スコアに変更し、
    前記第1単語関連度スコアは、前記第1文書の内容が変更される前の前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであり、前記第2単語関連度スコアは、前記第1文書の内容が変更された後の前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項15または16に記載の文書ランキング決定装置。
  18. 前記単語関連度スコア変更部は、前記第1文書の内容が生成される場合に前記第1単語関連度スコアを前記第2単語関連度スコアに変更し、
    前記第2単語関連度スコアは、前記生成された第1文書の内容の前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項15から17のいずれかに記載の文書ランキング決定装置。
  19. 前記単語関連度スコア変更部は、前記第1文書の内容が削除される場合に前記第1単語関連度スコアを前記第2単語関連度スコアに変更し、
    前記第1単語関連度スコアは、前記第1文書の内容が削除された後の前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項15から18のいずれかに記載の文書ランキング決定装置。
  20. 前記単語関連度スコア変更部は、前記リンクが生成される場合に前記第1単語関連度スコアが前記第2単語関連度スコアに変更されたものとみなすことによって前記リンクの生成を反映し、
    前記第2単語関連度スコアは、前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項15から19のいずれかに記載の文書ランキング決定装置。
  21. 前記単語関連度スコア変更部は、前記リンクが削除される場合に前記第1単語関連度スコアが前記第2単語関連度スコアに変更されたものとみなすことによって前記リンクの削除を反映し、
    前記第1単語関連度スコアは、前記第1文書の内容の前記共通キーワードに対する単語関連度スコアであることを特徴とする請求項15から20のいずれかに記載の文書ランキング決定装置。
  22. 前記第1文書のキーワードおよび前記第2文書のキーワードを抽出し、前記第1文書と前記第2文書との間の前記共通キーワードを抽出する共通キーワード抽出部をさらに備え、
    前記単語関連度スコア算出部は、前記第1文書が含む各単語に対して前記第1文書の前記単語に対する単語関連度スコアを算出することを特徴とする請求項15から21のいずれかに記載の文書ランキング決定装置。
  23. 前記寄与スコア算出部は、前記第1文書への経路の開始文書である第3文書に対する、前記経路を通じた前記第1文書の寄与スコアおよび前記第1寄与係数に基づいて第3寄与スコアを算出し、
    前記文書ランキングスコア算出部は、前記第3寄与スコアを前記第2文書の前記文書ランキングスコアに反映することを特徴とする請求項16から22のいずれかに記載の文書ランキング決定装置。
  24. 前記文書ランキングスコア算出部は、前記共通キーワードに対する前記第2文書の単語関連度スコア、前記第1寄与スコア、前記第2寄与スコア、および前記第3寄与スコアに基づいて前記第2文書の文書ランキングスコアを決定することを特徴とする請求項23に記載の文書ランキング決定装置。
  25. 前記文書ランキングスコアに基づいて前記第2文書の文書ランキングを決定する文書ランキング決定部をさらに備えることを特徴とする請求項15から24のいずれかに記載の文書ランキング決定装置。
JP2011208611A 2010-09-27 2011-09-26 文書ランキングスコアの動的更新のための方法および装置 Expired - Fee Related JP5764448B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100093311A KR101086566B1 (ko) 2010-09-27 2010-09-27 문서 순위 점수의 동적 갱신을 위한 방법 및 장치
KR10-2010-0093311 2010-09-27

Publications (2)

Publication Number Publication Date
JP2012074034A true JP2012074034A (ja) 2012-04-12
JP5764448B2 JP5764448B2 (ja) 2015-08-19

Family

ID=45398152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011208611A Expired - Fee Related JP5764448B2 (ja) 2010-09-27 2011-09-26 文書ランキングスコアの動的更新のための方法および装置

Country Status (3)

Country Link
US (1) US9098567B2 (ja)
JP (1) JP5764448B2 (ja)
KR (1) KR101086566B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251146B2 (en) * 2013-05-10 2016-02-02 International Business Machines Corporation Altering relevancy of a document and/or a search query

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030050909A1 (en) * 2001-08-27 2003-03-13 Mihai Preda Ranking nodes in a graph
KR20100093804A (ko) * 2009-02-17 2010-08-26 엔에이치엔(주) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607462B2 (ja) 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7958136B1 (en) * 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030050909A1 (en) * 2001-08-27 2003-03-13 Mihai Preda Ranking nodes in a graph
KR20100093804A (ko) * 2009-02-17 2010-08-26 엔에이치엔(주) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNB201000256001; 渡辺 隆広: 検索にガンガンヒットさせるSEOの教科書 初版, 20080616, p.56-61,107-109,114-117, 株式会社翔泳社 *
JPN6013029853; 渡辺 隆広: 検索にガンガンヒットさせるSEOの教科書 初版, 20080616, p.56-61,107-109,114-117, 株式会社翔泳社 *

Also Published As

Publication number Publication date
KR101086566B1 (ko) 2011-11-23
US9098567B2 (en) 2015-08-04
JP5764448B2 (ja) 2015-08-19
US20120078920A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
US8417692B2 (en) Generalized edit distance for queries
US20160042298A1 (en) Content discovery and ingestion
JP2009282957A (ja) 文書処理装置および文書処理方法
KR20080066496A (ko) 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템
JP5460426B2 (ja) 生産性評価装置、生産性評価方法およびプログラム
JP5968744B2 (ja) コンセプトキーワード拡張データセットを利用した検索方法、装置、及びコンピュータ読み取り可能な記録媒体
AU2018250372B2 (en) Method to construct content based on a content repository
JP2014089606A (ja) 情報処理装置及びその制御方法、プログラム
KR20080078930A (ko) 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR102368043B1 (ko) 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법
US10146876B2 (en) Predicting real-time change in organic search ranking of a website
US9378248B2 (en) Retrieval apparatus, retrieval method, and computer-readable recording medium
JP5764448B2 (ja) 文書ランキングスコアの動的更新のための方法および装置
JP6540286B2 (ja) 業務分析プログラム、装置および方法
JP3967230B2 (ja) 画像情報表示システム
JP5695586B2 (ja) Xml文書検索装置及びプログラム
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP2013156876A (ja) 推薦クエリ抽出装置及び方法及びプログラム
JP5410359B2 (ja) クエリ選択装置及びプログラム
JP5147651B2 (ja) 文書データ内を検索するシステム、方法、およびプログラム
US11681870B2 (en) Reducing latency and improving accuracy of work estimates utilizing natural language processing
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
JP6100863B2 (ja) 広告特定装置、広告情報のデータ構造、広告特定方法、及びプログラム
JP5832495B2 (ja) 広告特定装置、広告情報のデータ構造、広告特定方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

R150 Certificate of patent or registration of utility model

Ref document number: 5764448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees