JP5450135B2 - 関連度辞書を用いた検索モデリングシステムおよび方法 - Google Patents

関連度辞書を用いた検索モデリングシステムおよび方法 Download PDF

Info

Publication number
JP5450135B2
JP5450135B2 JP2010021533A JP2010021533A JP5450135B2 JP 5450135 B2 JP5450135 B2 JP 5450135B2 JP 2010021533 A JP2010021533 A JP 2010021533A JP 2010021533 A JP2010021533 A JP 2010021533A JP 5450135 B2 JP5450135 B2 JP 5450135B2
Authority
JP
Japan
Prior art keywords
site
query
keyword
search
relevance dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010021533A
Other languages
English (en)
Other versions
JP2010186474A (ja
Inventor
知 ▲勲▼ 崔
光 鉉 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2010186474A publication Critical patent/JP2010186474A/ja
Application granted granted Critical
Publication of JP5450135B2 publication Critical patent/JP5450135B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Description

本発明は、検索モデリングに関し、より詳細には、検索者の意図を反映し、サイトの不正使用を排除する検索モデリングに関する。
従来の検索システムは、ユーザが入力したクエリとサイトのタイトルとが正確に一致するか否かを先に判断し、一致するサイトをユーザに提供していた。しかしながら、ユーザの関心があるキーワードがサイトのタイトルとして活用される場合、実際にユーザが入力したクエリにマッチングするサイトは、検索の意図とは全く関係なく提供されるという問題点があった。
また、特定サイトが多様な製品に関するウェブページを含んでいる場合、ユーザが製品のうちのいずれか1つの製品名称をクエリとして入力すれば、この特定サイトが検索されることがある。しかしながら、サイト検索の場合、サイトの代表性が重要となるため、製品に対する代表的な製造者のサイトのように公式なサイトが検索される必要があるが、実際の検索結果は多様なブランドの製品を販売するショッピングモールが検索され、サイトの誤用(Abusing)が発生するという問題点があった。
さらに、従来の検索システムは、サイトを人気度に応じて整列して露出していた。このとき、人気度は、サイトに対するクリック頻度によって決まる場合が多かった。ここで、クリック頻度によって人気度を決定する場合、該当するサイト管理者が不正クリックによってクリック頻度を向上させることにより、上位ランクに固定するという不正使用の問題が存在していた。
本発明は、クエリによるサイトの検索において、サイトの誤用を防ぐ検索モデリングシステムおよび方法を提供する。
また、本発明は、タイトルによるサイトの検索において、サイトの誤用を防ぐ検索モデリングシステムおよび方法を提供する。
さらに、本発明は、サイト管理者のクリックの不正使用を防ぎ、人気度の客観性を向上させる検索モデリングシステムおよび方法を提供する。
本発明の一実施形態に係る検索モデリングシステムは、サイトに対するサイト資料を分析して、前記サイトの特性を反映するキーワードを決定し、決定された前記キーワードを含むリストを前記サイトに対する関連度辞書として生成する関連度辞書生成部と、サイトに対してクエリとクリック頻度のペアを含むサイトコレクションを収集するデータ収集部と、前記サイトコレクションに関連度辞書を適用して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在するか否かを判断して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在する場合、第1のクエリのグループに分類し、存在しない場合、第2のクエリのグループに分類する構成要素判断部と、前記第1のクエリのグループに分類されたキーワードにはより高い索引語加重値を適用し、前記第2のクエリのグループに分類されたキーワードにはより低い索引語加重値を適用して、前記索引語加重値が適用されたキーワードを前記サイトに索引するサイト索引部とを含み、ユーザが前記第1のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示して、前記ユーザが前記第2のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示しない。
本発明の一実施形態に係る検索モデリングシステムは、前記サイトのディレクトリ構造、サイトキーワード、またはアンカーテキスト構造を用いて前記サイトに対する関連度辞書を生成する関連度辞書生成部をさらに含んでもよい。
本発明の一実施形態に係る検索モデリング方法は、関連度辞書生成部がサイトに対するサイト資料を分析して、前記サイトの特性を反映するキーワードを決定し、決定された前記キーワードを含むリストを前記サイトに対する関連度辞書として生成するステップと、データ収集部がサイトに対してクエリとクリック頻度のペアを含むサイトコレクションを収集するステップと、構成要素判断部が前記サイトコレクションに関連度辞書を適用して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在するか否かを判断して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在する場合、第1のクエリのグループに分類し、存在しない場合、第2のクエリのグループに分類するステップと、サイト索引部が前記第1のクエリのグループに分類されたキーワードにはより高い索引語加重値を適用し、前記第2のクエリのグループに分類されたキーワードにはより低い索引語加重値を適用して、前記索引語加重値が適用されたキーワードを前記サイトに索引するステップとを含み、ユーザが前記第1のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示して、前記ユーザが前記第2のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示しない。
本発明の一実施形態に係る検索モデリング方法は、関連度辞書生成部が前記サイトのディレクトリ構造、サイトキーワード、またはアンカーテキスト構造を用いて前記サイトに対する関連度辞書を生成するステップをさらに含んでもよい。
本発明の一実施形態によると、サイトの特性を示すキーワードで構成された関連度辞書を用いて該当するサイトに対するクエリを生成することにより、クエリによるサイトの不正使用を防ぐ検索モデリングシステムおよび方法が提供される。
また、本発明の一実施形態によると、関連度辞書を用いてサイトのタイトルから意味のあるキーワードを抽出してサイトに対して索引することにより、タイトルによるサイトの不正使用を防ぐ検索モデリングシステムおよび方法が提供される。
さらに、本発明の一実施形態によると、サイトのクリック頻度だけではなく、ページランク、ツールバー訪問頻度、およびサイト滞留時間を考慮してサイトの人気度を判断することにより、サイト管理者のクリックの不正使用を防ぎ、人気度の客観性を向上させる検索モデリングシステムおよび方法が提供される。
本発明の一実施形態に係る検索モデリングシステムを用いたサイト検索過程を説明するための図である。 本発明の一実施形態に係る検索モデリングシステムの全体構成を示すブロック図である。 本発明の一実施形態に係るサイト資料を用いて関連度辞書を生成する基準の一例を示す図である。 本発明の一実施形態に係るサイトに対する関連度辞書を生成する過程の一例を示す図である。 本発明の一実施形態に係る関連度辞書を用いてクエリを変更する過程の一例を示す図である。 本発明の一実施形態に係る関連度辞書を用いてタイトルを変更する過程の一例を示す図である。 本発明の一実施形態係るクエリに対するサイトの人気度を判断する過程の一例を示す図である。 本発明の一実施形態係る関連度辞書を用いてクエリを変更する全体過程を示すフローチャートである。 本発明の一実施形態係る関連度辞書を用いてタイトルを変更する全体過程を示すフローチャートである。
以下、添付の図面に基づき、本発明の好適な実施の形態を詳細に説明するが、本発明がこれらの実施形態によって限定されるものではない。図中、同じ参照符号は同じ構成を示す。
図1は、本発明の一実施形態係る検索モデリングシステムを用いたサイト検索過程を説明するための図である。
図1は、ユーザ101がクエリABを入力する場合を説明する。これにより、検索モデリングシステム102は、クエリABにマッチングするサイトを検索してユーザ101に提供する。このとき、クエリABにマッチングするサイトを、サイトX103−1、サイトY103−2、およびサイトZ103−3と仮定する。
従来の検索モデリングシステムは、クエリABと予め格納されたサイトのタイトルとが正確に一致するか否かを先に判断し、一致するサイトをユーザ101に提供していた。しかしながら、ユーザ101に広く用いられるキーワードがサイトのタイトルとして利用される場合、実際にユーザ101が入力したクエリにマッチングするサイトは、検索の意図とは全く関係なく提供されるという問題点があった。
例えば、サイトX103−1のタイトルが「ブランド」であり、サイトのウェブページに含まれた内容が「おもちゃ」に関するものであると仮定する。もし、ユーザ101がブランドショッピングモールを検索しようとして「ブランド」というクエリを入力しても、既存の検索モデリングシステムでは、単純に「ブランド」というクエリと正確に一致するタイトルを有するサイトを検索することにより、ユーザの情報要求である「ブランド」とは全く関係のないサイトX103−1がユーザ101に提供されるという問題があった。
また、特定サイトが多様な製品に関するウェブページを含んでいる場合、ユーザが製品のうちのいずれか1つの製品名をクエリとして入力すると、この特定サイトが検索されることがある。しかしながら、サイト検索の場合、サイトの代表性が重要となるため、製品に対する代表的な製造者のサイトのように公式なサイトが検索されることが好ましい。
例えば、特定サイトが多様なブランドa、b、cを取り扱っているとき、ユーザ101がクエリaを入力する場合、従来の検索モデリングシステムは、ブランドaを販売する一般ショッピングモールサイトをユーザに提供することにより、ブランドaの代表的な製造者や公式に認定されているサイトが提供されないという問題点があった。
さらに、クエリABにマッチングするサイトが複数存在する場合、従来の検索モデリングシステムは、サイトを人気度に応じて整列して露出していた。このとき、人気度は、サイトに対するクリック頻度によって決まる場合が多かった。ここで、クリック頻度によって人気度を決定する場合、該当するサイト管理者が不正クリックによってクリック頻度を向上させることで上位ランクに固定するという不正使用の問題が存在していた。
このような問題点に対応し、本発明の一実施形態に係る検索モデリングシステム102は、サイトに対するクエリおよびタイトルを変更して、サイトに対する不正使用を解消することができる。一例として、検索モデリングシステム102は、サイトのアンカーテキスト構造とディレクトリ構造に基づいた関連度辞書を用いてクエリまたはサイトのタイトルを変更してもよい。これにより、検索モデリングシステム102は、関連度辞書によって変更されたクエリまたはタイトルに高い索引語の加重値を適用してサイトを索引するようにしてもよい。これにより、実際にユーザ101が入力するクエリに対してユーザの要求を反映し、サイトの不正使用行為を防ぐことができるサイト結果を提供することができる。
また、検索モデリングシステム102は、サイトの人気度をサイトに対するクリック頻度だけではなく、ユーザが実際にサイトに客観的な影響を及ぼす指標によってサイトスコアを付与することにより、クリック頻度によるサイト不正使用行為を防ぐことができる。
検索モデリングシステム102の全体構成については、図2を参照しながら具体的に説明する。
図2は、本発明の一実施形態に係る検索モデリングシステムの全体構成を示すブロック図である。
図2を参照すると、検索モデリングシステム102は、関連度辞書生成部201と、データ収集部202と、構成要素判断部203と、サイト索引部204と、人気度判断部205を含んでもよい。
関連度辞書生成部201は、サイトのディレクトリ構造、サイトキーワード、またはアンカーテキスト構造を用いてサイトに対する関連度辞書を生成してもよい。このとき、関連度辞書は、サイトのディレクトリ構造およびアンカーテキスト構造に基づいて抽出されたキーワードであり、サイトとの関連度が高いキーワードの集合を意味する。
図2を参照すると、関連度辞書生成部201は、サイト資料抽出部206と、キーワード決定部207と、リスト生成部208とを含んでもよい。
サイト資料抽出部206は、サイトに対するディレクトリ構造、サイトキーワード、またはアンカーテキストを含むサイト資料を抽出してもよい。このとき、ディレクトリ構造は、サイトを特定の主題に応じて分類するための基準を意味する。サイトキーワードは、サイトに接続するときにユーザが入力したキーワードを意味する。また、アンカーテキストは、XサイトからYサイトに移動するとき、Yサイトに移動するためにユーザがクリックしたリンク(Xサイトに存在)に含まれたテキストを意味する。同じYサイトに移動したとしても、リンクに含まれたアンカーテキストは異なることもある。
キーワード決定部207は、抽出されたサイト資料を分析してキーワードを決定する。一例として、サイト資料がディレクトリ構造またはサイトキーワードである場合、キーワード決定部207は、ディレクトリ構造またはサイトキーワードに含まれたスペース、読点、句点を考慮してキーワードを決定してもよい。また、サイト資料がアンカーテキストである場合、リンクのハイパーテキストを形態素解析した後、残ったテキストをキーワードとして決定してもよい。
リスト生成部208は、決定したキーワードを用いてリストを生成してもよい。このように生成されたリストを組み合わせることにより、関連度辞書を生成してもよい。
データ収集部202は、サイトに対して少なくとも1つのクエリとクエリそれぞれのクリック頻度を収集してもよい。このとき、クエリは、ユーザがクリックしてサイトに接続する要因になったキーワードを意味するようにしてもよい。
構成要素判断部203は、サイトに対する関連度辞書を用いてクエリまたはサイトのタイトルが関連度辞書に存在するか否かを判断してもよい。
一例として、構成要素判断部203は、クエリをキーワード単位で抽出し、抽出されたキーワードが関連度辞書に存在するか否かによってクエリを索引語加重値を適用するクエリグループに分類してもよい。
このとき、構成要素判断部203は、キーワードが関連度辞書に存在する場合にはクエリを索引語加重値が高く適用される第1クエリグループに分類し、キーワードが関連度辞書に存在しない場合には索引語加重値が低く適用される第2クエリグループに分類してもよい。また、キーワードのうちの一部のみが関連度辞書に存在するクエリは、キーワード全体が関連度辞書に存在するクエリよりも索引語加重値を低く適用するようにしてもよい。
このように、構成要素判断部203は、クエリを構成するキーワードが関連度辞書に存在するか否かを判断し、判断結果によって索引語加重値を調節することによってクエリを変更してもよい。
一例として、構成要素判断部203は、少なくとも1つのクエリに対するクリック閾値を定義し、クリック閾値よりも大きいクリック頻度を示すクエリに対して関連度辞書に存在するか否かを判断してもよい。
例えば、構成要素判断部203は、クエリに対するクリック頻度の2つの大きな値のうち予め設定した比率をクリック閾値として定義してもよい。つまり、構成要素判断部203は、クリック閾値よりも低いクリック頻度を示すクエリをフィルタリングしてサイト索引がなされないようにすることにより、サイト索引の正確性を向上させることができる。
一例として、構成要素判断部203は、サイトのタイトルをキーワード単位で抽出し、抽出されたキーワードが関連度辞書に存在するか否かによってキーワードを索引語加重値が適用されるタイトルグループに分類してもよい。このとき、構成要素判断部203は、キーワードが関連度辞書に存在する場合にはキーワードを索引語加重値が高く適用される第1タイトルグループに分類し、キーワードが関連度辞書に存在しない場合にはキーワードを索引語加重値が低く適用される第2タイトルグループに分類してもよい。
このように、構成要素判断部203は、サイトのタイトルを構成するキーワードが関連度辞書に存在するか否かを判断して適用される索引語加重値を調節することによってタイトルを変更してもよい。すなわち、構成要素判断部203は、関連度辞書によってタイトルを構成するキーワードのうちからサイトに意味のあるキーワードを抽出してもよい。
サイト索引部204は、クエリから抽出されたキーワードまたはタイトルから抽出されたキーワードが関連度辞書に存在するか否かによって、クエリまたはタイトルに適用される索引語加重値を調節してサイトを索引するようにしてもよい。具体的に、サイト索引部204は、関連度辞書に存在するキーワードを含むクエリに対して索引語加重値を高く設定することにより、クエリに対するサイト検索確率を高めることができる。また、サイト索引部204は、関連度辞書に存在するキーワードを含むタイトルに対して索引語加重値を高く設定することにより、タイトルをクエリとして入力した場合に、クエリに対するサイト検索確率を高めることができる。
人気度判断部205は、サイトに対するページランク、クリック頻度、ツールバー訪問頻度、またはサイト滞留時間のうちの少なくとも1つの人気度要素を用いてクエリに索引された1つ以上のサイトの人気度を判断することができる。すなわち、検索モデリングシステム102は、特定クエリが入力されると、判断された人気度に応じて露出順位を整列してユーザに提供することができる。
一例として、ページランク(PageRank)は、WWW(world wide web)のようなハイパーリンク構造を有する文書の相対的な重要度による加重値を意味するようにしてもよい。クリック頻度(Click Count)は、ハイパーリンクを通じてサイトをクリックした回数を意味し、ツールバー訪問頻度(Toolbar VisitCount)は、ツールバーを通じてサイトを訪問した頻度を意味するようにしてもよい。また、サイト滞留時間(Site DwellTime)は、ユーザがサイトを訪問して滞留した平均時間を意味するようにしてもよい。それぞれの人気度判断要素に対する定義は一例に過ぎず、システムの構成により詳細な定義は変更できる。
図3は、本発明の一実施形態に係るサイト資料を用いて関連度辞書を生成する基準の一例を示す図である。
サイト資料抽出部206は、サイトに対するディレクトリ構造、サイトキーワード、またはアンカーテキストを含むサイト資料を抽出してもよい。
図3を参照すると、サイト「ネイバー」に対するディレクトリ構造、サイトキーワード、およびアンカーテキストが示される。
このとき、ディレクトリ構造は、サイトを特定の主題に応じて分類するための基準を意味するようにしてもよい。すなわち、図3を参照すると、サイト「ネイバー」は、インターネットと関連するポータルサイトであることを意味するようにしてもよい。ディレクトリ構造は、サイトの特性と関連したものであり、サイトごとに1つ以上決定することができる。
サイトキーワードは、サイトに接続するとき、ユーザが入力したキーワードを意味するようにしてもよい。図3を参照すると、ユーザが「検索ポータル、ポータル、ポタル、知識人、情報検索、nhn」というキーワードによってサイト「ネイバー」に接続したことが分かる。
アンカーテキストは、XサイトからYサイトに移動するとき、Yサイトに移動するためにユーザがクリックしたリンク(Xサイトに存在)に含まれたテキストを意味するようにしてもよい。図3を参照すると、サイト「ネイバー」に接続するために、Aサイトに含まれたリンクは「知識ポータルネイバー」を含んでおり、Bサイトに含まれたリンクは「情報検索最高のポータルサイト」を含んでいることが分かる。
キーワード決定部207は、抽出されたサイト資料を分析してキーワードを決定することができる。一例として、サイト資料がディレクトリ構造またはサイトキーワードである場合、キーワード決定部207は、ディレクトリ構造またはサイトキーワードに含まれたスペース、読点、句点を考慮してキーワードを決定することができる。また、サイト資料がアンカーテキストである場合、リンクのハイパーテキストを形態素解析した後、残ったテキストをキーワードとして決定することができる。
図3において、「コンピュータ、インターネット>ポータルサイト>ネイバー」というネイバーのディレクトリ構造においてスペース、読点、句点単位で分析すると、「コンピュータ インターネット ポータルサイト ネイバー」というキーワードを決定することができる。同様に、「検索ポータル、ポータル、ポタル、知識人、情報検索、nhn」というサイトキーワードでスペース、読点、句点単位で分析すると、「検索ポータル ポータル ポタル 知識人 情報検索 nhn」というキーワードを決定することができる。
また、「<a href=url>知識ポータルネイバー</a>」というアンカーテキストで形態素を解析した後、残った名詞である「知識 ポータル ネイバー」というキーワードを決定することができる。もし、「<a href=url>No1大韓民国の知識倉庫</a>」というアンカーテキストである場合、形態素解析後に残った名詞である「大韓民国 知識 倉庫」というキーワードを決定することができる。
リスト生成部208は、決定したキーワードを用いてリストを生成してもよい。すなわち、ディレクトリ構造、サイトキーワード、またはアンカーテキストで決定したキーワードを組み合わせてリストを生成することにより、サイトに対する関連度辞書を生成してもよい。
図4は、本発明の一実施形態に係るサイトに対する関連度辞書を生成する過程の一例を示す図である。
具体的に、図4は、サイト402に対するアンカーテキスト構造401およびディレクトリ構造403によって生成された関連度辞書404の具体的な一例を示している。
図4において、「バイクブンブン」というサイト402がオートバイと関連したサイトであると仮定する。これにより、「バイクブンブン」というサイト402は、「中古オートバイ、オートバイ販売、オートバイ用品、オートバイ仲介、バイク用品、スクーター売買、仲介」などのようなアンカーテキストで構成されたアンカーテキスト構造401を有することができる。
また、「バイクブンブン」というサイト402は、「企業>ショッピングモール>オートバイ」のようなディレクトリで構成されたディレクトリ構造403を有することができる。
これにより、関連度辞書生成部201は、サイトのディレクトリ構造、サイトキーワード、またはアンカーテキスト構造を用いてサイトに対する関連度辞書を生成してもよい。一例として、関連度辞書生成部201は、サイトに対するディレクトリ構造、サイトキーワード、またはアンカーテキストを含むサイト資料を抽出し、抽出されたサイト資料を分析してキーワードを決定した後、決定したキーワードを用いてリストを生成してもよい。
関連度辞書生成部201は、アンカーテキストそれぞれを形態素解析単位で構文分析(parsing)したり(例えば、中古オートバイを中古およびオートバイ)、サイトのタイトルを構文分析したり(例えば、バイクブンブンをバイクおよびブンブン)、またはディレクトリキーワードを構文分析して(例えば、企業>売買>オートバイ用品を売買、オートバイ、および用品)関連度辞書404を生成してもよい。このように、関連度辞書404は、サイト402の特性を反映するキーワードを含み、結果的にはサイトとの関連度が高いキーワードで構成されてもよい。
図5は、本発明の一実施形態に係る関連度辞書を用いてクエリを変更する過程の一例を示す図である。
データ収集部202は、サイトに対して少なくとも1つのクエリとクエリそれぞれのクリック頻度を収集してもよい。図5を参照すると、サイト502に対する<クエリ、クリック頻度>のペア503−1〜503−11を含むサイトコレクション501が示されている。すなわち、データ収集部202は、サイトコレクション501を収集してもよい。
ここで、クエリは、サイト502を訪問するときにユーザが入力したキーワードの集合を意味し、クリック頻度は、クエリにマッチングするサイト502をユーザがクリックした回数を意味する。例えば、サイトコレクション501のうち「デーリム(38)」は、ユーザが「デーリム」というクエリを入力して導き出された「バイクブンブン」というサイト502を38回クリックしたことを意味する。
構成要素判断部203は、サイトに対する関連度辞書を用いてクエリが関連度辞書に存在するか否かを判断してもよい。一例として、構成要素判断部203は、サイトコレクション501に関連度辞書を適用してクエリをクエリグループに分類してもよい。
「バイクブンブン」というサイト502が図4のようなアンカーテキスト構造とディレクトリ構造を有する場合、サイトコレクション501のうちデーリム(38)503−1、ホンダ(203)503−3、およびヒョソン(116)503−11は、関連度辞書に含まれないこともある。すなわち、デーリム(38)503−1、ホンダ(203)503−3、およびヒョソン(116)503−11は「バイクブンブン」で販売する製品特性に関するものであり、サイト特性とは関連度が低いと言える。
これにより、構成要素判断部203は、クエリのうちデーリム(38)503−1、ホンダ(203)503−3、およびヒョソン(116)503−11は関連度辞書に含まれないため、索引語加重値が低く設定されたクエリグループ2(505−2)に分類してもよく、残りのクエリは関連度辞書に含まれるため、索引語加重値が高く設定されたクエリグループ1(505−1)に分類してもよい。
その結果、ユーザが「バイクブンブン」というサイト502の特性に適合したクエリグループ1(505−1)のクエリを入力した場合、「バイクブンブン」というサイト502を上位に露出することができる。反対に、ユーザがサイト502の特性ではなく、販売中である製品特性に適合したクエリグループ2(505−2)のクエリを入力した場合、「バイクブンブン」というサイト502が上位に露出されず、サイトに対する不正使用を防ぐことができる。特に、サイトを通じて多様な製品が販売されるサイトにおいて、製品特性と関連したクエリ(例えば、製品名称)が入力される場合に、サイトが上位に露出される不正使用を適切に防ぐことができる。
図6は、本発明の一実施形態に係る関連度辞書を用いてタイトルを変更する過程の一例を示す図である。
データ収集部202は、サイトに対して少なくとも1つのクエリとクエリそれぞれのクリック頻度を収集してもよい。図6を参照すると、サイト602に対する<クエリ、クリック頻度>のペア603−1〜603−4を含むサイトコレクション601が示されている。すなわち、データ収集部202は、サイトコレクション601を収集してもよい。
構成要素判断部203は、サイトに対する関連度辞書を用いてサイトのタイトルが関連度辞書に存在するか否かを判断してもよい。一例として、構成要素判断部203は、サイトコレクション601に関連度辞書を適用してサイトのタイトルを構成するキーワードをクエリグループに分類してもよい。
一例として、構成要素判断部203は、サイトのタイトルをキーワード単位で抽出し、抽出されたキーワードが関連度辞書に存在するか否かによってキーワードを索引語加重値を適用するタイトルグループに分類してもよい。すなわち、構成要素判断部203は、サイトのタイトルである「大韓歯科医師協会」を「大韓」、「歯科」、「医師」、「協会」のキーワード単位で抽出し、それぞれのキーワードが関連度辞書に存在するか否かを判断してもよい。
もし、「歯科、医師」が「大韓歯科医師協会」というサイトの関連度辞書に含まれる場合、構成要素判断部203は、サイトのタイトルを構成するキーワードのうち「歯科」と「医師」を索引語加重値が高く設定されたタイトルグループ1(604−1)に分類してもよい。反対に、「大韓」と「協会」が「大韓歯科医師協会」というサイトの関連度辞書に存在しない場合、構成要素判断部203は、サイトのタイトルを構成するキーワードのうち「大韓」と「協会」を索引語加重値が低く設定されたタイトルグループ2(604−2)に分類してもよい。
その結果、ユーザが「歯科」または「医師」というクエリを入力する場合に、「歯科」と「医師」を含むタイトルを有する「大韓歯科医師協会」を上位に露出することにより、ユーザが入力したクエリに対してユーザに広く認識された公式なサイトがサイト検索に優先的に提供される。
図7は、本発明の一実施形態に係るクエリに対するサイトの人気度を判断する過程の一例を示す図である。
図7を参照すると、クエリQ701に対する検索ページ703に、クエリQ701に索引されたサイトX、サイトY、およびサイトZが提供されると仮定する。一例として、人気度判断部205は、サイトに対するページランク、クリック頻度、ツールバー訪問頻度、またはサイト滞留時間のうちの少なくとも1つの人気度要素702を用いてクエリQ701に索引されたサイトX、サイトY、およびサイトZの人気度を判断することができる。
サイトに対するページランク、ツールバー訪問頻度、またはサイト滞留時間は、ユーザが単純にサイトをクリックすることに留まらず、実際にユーザの行為を考慮した人気度要素702であるため、このような人気度要素によってサイトスコアを設定することにより、不正クリックによるサイトの不正使用行為を防ぐことができる。
その結果、ユーザがクエリQ701を入力する場合、検索結果ページにクエリQ701に索引されたサイトX、サイトY、およびサイトZが人気度に応じて配列されてユーザに提供される。
図8は、本発明の一実施形態に係る関連度辞書を用いてクエリを変更する全体過程を示すフローチャートである。
データ収集部202は、サイトに対する少なくても1つのクエリおよびクエリそれぞれのクリック頻度を収集する(S801)。
構成要素判断部203は、クエリをキーワード単位で抽出する(S802)。これにより、構成要素判断部203は、クエリから抽出されたキーワードが関連度辞書に存在するか否かを判断する(S803)。もし、キーワードが関連度辞書に存在する場合、構成要素判断部203は、該当するクエリをクエリグループ1に分類する(S804)。反対に、キーワードが関連度辞書に存在しない場合、構成要素判断部203は、該当するクエリをクエリグループ2に分類する(S805)。このような過程により、サイトに対するクエリを関連度辞書によって生成してもよい。
サイト索引部204は、クエリグループ1に属するクエリに対して高い索引語加重値を適用し、クエリグループ2に属するクエリに対して低い索引語加重値を適用する(S806)。これにより、サイト索引部204は、索引語加重値が適用されたクエリをマッチングするサイトに索引することにより、サイトを索引する(S807)。
図9は、本発明の一実施形態に係る関連度辞書を用いてタイトルを変更する全体過程を示すフローチャートである。
構成要素判断部203は、サイトのタイトルをキーワード単位で抽出する(S901)。構成要素判断部203は、抽出されたキーワードが関連度辞書に存在するか否かを判断する(S902)。もし、キーワードが関連度辞書に存在する場合、構成要素判断部203は、キーワードをタイトルグループ1に分類する(S903)。反対に、キーワードが関連度辞書に存在しない場合、構成要素判断部203は、キーワードをタイトルグループ2に分類する(S904)。このような過程により、サイトのタイトルの中からサイトに意味のあるキーワードを抽出してタイトルを変更することができる。
これにより、サイト索引部204は、タイトルグループ1に分類されたキーワードは高い索引語加重値を適用し、タイトルグループ2に分類されたキーワードは低い索引語加重値を適用する(S905)。さらに、サイト索引部204は、索引語加重値が適用されたキーワードをサイトに索引する(S906)。
図8および9で説明されていない具体的な部分は、図1〜7の説明を参照することができる。
上述した関連度辞書を用いた検索モデリング方法は、コンピュータにより実現される多様な動作を実行するためのプログラムラム命令を含むコンピュータで読み取り可能な媒体に記録してもよい。当該記録媒体は、プログラム命令、データファイル、データ構造なども単独または組み合わせて含んでもよい。記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知な使用可能なものであってもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行可能な高級言語コードを含む。
上述したように、本発明のいくつかの実施形態を参照して説明したが、本発明はこれに限定されるものではない。該当する技術分野における当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更することができることを理解できる。
101:ユーザ
102:検索モデリングシステム
103−1〜103−3:サイト

Claims (15)

  1. サイトに対するサイト資料を分析して、前記サイトの特性を反映するキーワードを決定し、決定された前記キーワードを含むリストを前記サイトに対する関連度辞書として生成する関連度辞書生成部と、
    サイトに対してクエリとクリック頻度のペアを含むサイトコレクションを収集するデータ収集部と、
    前記サイトコレクションに関連度辞書を適用して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在するか否かを判断して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在する場合、第1のクエリのグループに分類し、存在しない場合、第2のクエリのグループに分類する構成要素判断部と、
    前記第1のクエリのグループに分類されたキーワードにはより高い索引語加重値を適用し、前記第2のクエリのグループに分類されたキーワードにはより低い索引語加重値を適用して、前記索引語加重値が適用されたキーワードを前記サイトに索引するサイト索引部と、を含み、
    ユーザが前記第1のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示して、前記ユーザが前記第2のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示しないことを特徴とする検索モデリングシステム。
  2. 前記関連度辞書は、
    前記サイトのディレクトリ構造およびアンカーテキスト構造に基づいて抽出されたキーワードであり、前記サイトとの関連度が高いことを特徴とする請求項1に記載の検索モデリングシステム。
  3. 前記サイトのディレクトリ構造、サイトキーワード、またはアンカーテキスト構造を用いて前記サイトに対する関連度辞書を生成する関連度辞書生成部、
    をさらに含む請求項1に記載の検索モデリングシステム。
  4. 前記関連度辞書生成部は、
    前記サイトに対するディレクトリ構造、サイトキーワード、またはアンカーテキストを含むサイト資料を抽出するサイト資料抽出部と、
    前記抽出されたサイト資料を分析してキーワードを決定するキーワード決定部と、
    前記決定したキーワードを用いてリストを生成するリスト生成部と、
    を含む請求項3に記載の検索モデリングシステム。
  5. 前記構成要素判断部は、
    前記少なくとも1つのクエリに対するクリック閾値を定義し、前記クリック閾値よりも大きいクリック頻度を示すクエリに対して関連度辞書に存在するか否かを判断することを特徴とする請求項1に記載の検索モデリングシステム。
  6. 前記サイト索引部は、
    前記クエリまたは前記タイトルが関連度辞書に存在する場合、索引語加重値を増加させて前記クエリまたは前記タイトルに適用することを特徴とする請求項1に記載の検索モデリングシステム。
  7. 前記サイトに対するページランク、クリック頻度、ツールバー訪問頻度、またはサイト滞留時間のうちの少なくとも1つの人気度要素を用いて前記クエリに索引された1つ以上のサイトの人気度を判断する人気度判断部、
    をさらに含む請求項1に記載の検索モデリングシステム。
  8. 検索モデリングシステムが実行する検索モデリング方法であって、
    関連度辞書生成部がサイトに対するサイト資料を分析して、前記サイトの特性を反映するキーワードを決定し、決定された前記キーワードを含むリストを前記サイトに対する関連度辞書として生成し、
    データ収集部がサイトに対してクエリとクリック頻度のペアを含むサイトコレクションを収集し、
    構成要素判断部が前記サイトコレクションに関連度辞書を適用して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在するか否かを判断して、前記サイトに対するクエリ及び前記サイトのタイトルを構成するキーワードが前記サイトに対する関連度辞書に存在する場合、第1のクエリのグループに分類し、存在しない場合、第2のクエリのグループに分類し、
    サイト索引部が前記第1のクエリのグループに分類されたキーワードにはより高い索引語加重値を適用し、前記第2のクエリのグループに分類されたキーワードにはより低い索引語加重値を適用して、前記索引語加重値が適用されたキーワードを前記サイトに索引すること、を含み、
    ユーザが前記第1のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示して、前記ユーザが前記第2のクエリのグループのクエリを入力した場合、前記サイトを検索結果の上位に表示しないことを特徴とする検索モデリング方法。
  9. 前記関連度辞書は、
    前記サイトのディレクトリ構造およびアンカーテキスト構造に基づいて抽出されたキーワードであり、前記サイトとの関連度が高いことを特徴とする請求項8に記載の検索モデリング方法。
  10. 関連度辞書生成部が前記サイトのディレクトリ構造、サイトキーワード、またはアンカーテキスト構造を用いて前記サイトに対する関連度辞書を生成すること、
    をさらに含む請求項8に記載の検索モデリング方法。
  11. 前記関連度辞書を生成すること、
    前記サイトに対するディレクトリ構造、サイトキーワード、またはアンカーテキストを含むサイト資料を抽出し、
    前記抽出されたサイト資料を分析してキーワードを決定し、
    前記決定したキーワードを用いてリストを生成すること、
    を含む請求項10に記載の検索モデリング方法。
  12. 前記クエリまたは前記タイトルが前記関連度辞書に存在するか否かを判断することは、
    前記構成要素判断部が前記少なくとも1つのクエリに対するクリック閾値を定義し、前記クリック閾値よりも大きいクリック頻度を示すクエリに対して関連度辞書に存在するか否かを判断することを特徴とする請求項8に記載の検索モデリング方法。
  13. 前記サイトを索引することは、
    前記サイト索引部が前記クエリまたは前記タイトルが関連度辞書に存在する場合、索引語加重値を増加させて前記クエリまたは前記タイトルに適用することを特徴とする請求項8に記載の検索モデリング方法。
  14. 人気度判断部が前記サイトに対するページランク、クリック頻度、ツールバー訪問頻度、またはサイト滞留時間のうちの少なくとも1つの人気度要素を用いて前記クエリに索引された1つ以上のサイトの人気度を判断すること、
    をさらに含む請求項8に記載の検索モデリング方法。
  15. 請求項8乃至14の何れか一に記載の方法を実行させるためのプログラムを記録したことを特徴とするコンピュータで読み取り可能な記録媒体。
JP2010021533A 2009-02-12 2010-02-02 関連度辞書を用いた検索モデリングシステムおよび方法 Active JP5450135B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20090011371A KR100994349B1 (ko) 2009-02-12 2009-02-12 연관도 사전을 이용한 검색 모델링 시스템 및 방법
KR10-2009-0011371 2009-02-12

Publications (2)

Publication Number Publication Date
JP2010186474A JP2010186474A (ja) 2010-08-26
JP5450135B2 true JP5450135B2 (ja) 2014-03-26

Family

ID=42757087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010021533A Active JP5450135B2 (ja) 2009-02-12 2010-02-02 関連度辞書を用いた検索モデリングシステムおよび方法

Country Status (2)

Country Link
JP (1) JP5450135B2 (ja)
KR (1) KR100994349B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484698A (zh) * 2015-08-25 2017-03-08 北京奇虎科技有限公司 一种搜索关键词的推送方法和装置
CN112835923A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 一种相关检索方法、装置和设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090111A (ja) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002236699A (ja) * 2001-02-09 2002-08-23 Asahi Kasei Corp 情報検索システム及び管理用サーバ並びに制御用プログラム
JP4423841B2 (ja) * 2002-08-14 2010-03-03 日本電気株式会社 キーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
JP4909748B2 (ja) * 2007-01-22 2012-04-04 ヤフー株式会社 ページ移動操作の履歴情報に基づいてWebページへの参照元のWebページに関する情報を推薦する方法及びサーバ
JP2008181186A (ja) * 2007-01-23 2008-08-07 Yahoo Japan Corp クエリーログを利用したキーワードとサイトの関連度を求める方法
KR100896614B1 (ko) * 2007-01-29 2009-05-08 엔에이치엔(주) 검색 시스템 및 방법

Also Published As

Publication number Publication date
KR20100092145A (ko) 2010-08-20
JP2010186474A (ja) 2010-08-26
KR100994349B1 (ko) 2010-11-12

Similar Documents

Publication Publication Date Title
JP4936401B2 (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
Chirita et al. P-tag: large scale automatic generation of personalized annotation tags for the web
US8745039B2 (en) Method and system for user guided search navigation
Osiński An algorithm for clustering of web search results
CN100568232C (zh) 通用搜索引擎接口
US8346792B1 (en) Query generation using structural similarity between documents
KR100505848B1 (ko) 검색 시스템
US20090144240A1 (en) Method and systems for using community bookmark data to supplement internet search results
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
US7024405B2 (en) Method and apparatus for improved internet searching
WO2010098178A1 (ja) 情報推薦装置、情報推薦方法および情報推薦プログラム
Ru et al. Indexing the invisible web: a survey
JP2002245061A (ja) キーワード抽出
JP2009122807A (ja) 連想検索システム
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5450135B2 (ja) 関連度辞書を用いた検索モデリングシステムおよび方法
Koolen et al. Wikipedia pages as entry points for book search
Laclavík et al. Search query categorization at scale
JP5191204B2 (ja) 連想検索システム
US20080033953A1 (en) Method to search transactional web pages
Wu et al. A quality analysis of keyword searching in different search engines projects
Bhatia et al. A scalable approach for performing proximal search for verbose patent search queries
TWI423053B (zh) Domain Interpretation Data Retrieval Method and Its System
Navaneethakrishnan et al. An approach to page ranking based on discourse structures
JP2013101415A (ja) 商品ウェブページ分析装置、商品ウェブページ分析方法、および、商品ウェブページ分析装置用のプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131225

R150 Certificate of patent or registration of utility model

Ref document number: 5450135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250