JP2012141985A - ユーザグループごとにキーワードの順位を決定するシステムおよび方法 - Google Patents

ユーザグループごとにキーワードの順位を決定するシステムおよび方法 Download PDF

Info

Publication number
JP2012141985A
JP2012141985A JP2011289464A JP2011289464A JP2012141985A JP 2012141985 A JP2012141985 A JP 2012141985A JP 2011289464 A JP2011289464 A JP 2011289464A JP 2011289464 A JP2011289464 A JP 2011289464A JP 2012141985 A JP2012141985 A JP 2012141985A
Authority
JP
Japan
Prior art keywords
document
keyword
data
subject
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011289464A
Other languages
English (en)
Other versions
JP5865076B2 (ja
Inventor
Jie-Keol Choe
載 傑 崔
Yu-Won Kim
猷 元 金
Yeon-Ha Park
演 夏 朴
Hae-Yeong Kim
惠 營 金
Dong-Hyeon Pan
東 賢 潘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NHN Corp
Original Assignee
NHN Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NHN Corp filed Critical NHN Corp
Publication of JP2012141985A publication Critical patent/JP2012141985A/ja
Application granted granted Critical
Publication of JP5865076B2 publication Critical patent/JP5865076B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザグループごとにキーワードの順位を決定するシステムおよび方法が開示される。
【解決手段】キーワード順位決定システムは、ウェブログのデータを予め選定された主題ごとに分類するデータ分類部と、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じる加重値をデータに付与する加重値付与部と、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成するデータ集合生成部と、データ集合間の順位を主題ごとに決定する順位決定部と、データ集合を代表する代表キーワードを決定する代表キーワード決定部とを備える。
【選択図】図1

Description

本発明は、ユーザグループごとにキーワードの順位を決定するシステムおよび方法に関する。
従来技術による人気検索語の提供方法として、リアルタイムの人気検索語、日毎の急上昇人気検索語、週間の急上昇人気検索語のように、全体的な分野で急上昇した人気の検索語(キーワード)を提供する。しかし、このような従来技術による人気検索語の提供方法は全てのユーザに対して提供されるため、主題、性別、年齢などのように細分化されたグループそれぞれの人気検索語を提供することができない問題がある。
韓国特許第10−0785754号公報
本願では、ユーザグループごとのキーワード順位を効果的に提供することができるシステムおよび方法が提供される。
本発明の目的は、ユーザクラスタリング情報を用いてユーザグループごとに人気検索語を順位ごとに提供して新しい情報を提供し、新しいクエリカウント(query count)を誘発することができるキーワード順位決定システムおよび方法を提供する。
本発明の目的は、同一の検索意図を有するキーワードを1つのデータ集合に集めて表示し、各データ集合の検索占有率を算出して順位を決定し、検索占有率およびデータ集合の代表キーワードを提供することによって新しい情報を提供することで、ユーザの興味を誘発することができるキーワード順位決定システムおよび方法を提供する。
ウェブログのデータを予め選定された主題ごとに分類するデータ分類部と、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じる加重値をデータに付与する加重値付与部と、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、データ集合間の順位を主題ごとに決定する順位決定部と、データ集合を代表する代表キーワードをデータ集合ごとに決定する代表キーワード決定部とを備えるキーワード順位決定システムが提供される。
一実施形態によると、ウェブログのデータは、文書、文書の選択に用いられたキーワード、およびキーワードに応じて文書が選択された選択回数のうち2つ以上に関する情報を含んでもよく、加重値付与部は、文書が分類された主題に該当する文書である確率および文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、文書集中度を加重値として付与して文書に対する選択回数を調整してもよい。
他の一実施形態によると、順位決定部は、文書ごとに調整された選択回数を用いて主題に含まれたデータ集合ごとに占有率を算出し、算出された占有率に応じて主題におけるデータ集合間の順位を決定してもよい。
他の一実施形態によると、占有率は、データ集合における選択回数の和および全体データ集合に対する全体選択回数の和を用いて算出されてもよい。
他の一実施形態によると、順位決定部は、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図に分類してデータ集合を生成してもよい。
他の一実施形態によると、順位決定部は、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成してもよい。
他の一実施形態によると、代表キーワード決定部は、データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いてキーワードの中から代表キーワードを決定してもよい。
他の一実施形態によると、形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されてもよい。
他の一実施形態によると、予め選定された主題は、B−クッキーによってユーザを分類し、決定されたユーザグループに応じて分類されてもよい。
ウェブログのデータを予め選定された主題ごとに分類し、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出して文書集中度に応じる加重値をデータに付与し、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成してデータ集合間の順位を主題ごとに決定し、データ集合を代表する代表キーワードをデータ集合ごとに決定することを含むキーワード順位決定方法が提供される。
本発明によると、ユーザクラスタリング情報を用いてユーザグループごとの人気検索語を順位ごとに提供して新しい情報を提供し、新しいクエリカウントを誘発することができる。
本発明によると、同一の検索意図を有するキーワードを1つのデータ集合に集めて表示し、各データ集合の検索占有率を算出して順位を決定し、検索占有率とデータ集合の代表キーワードを提供することによって新しい情報を提供することでユーザの興味を誘発することができる。
本発明の一実施形態に係るユーザグループごとの人気検索語を提供するための全体的な構造の一例を示す図である。 本発明の一実施形態に係るキーワード順位決定方法を示すフローチャートである。 本発明の一実施形態に係るキーワード順位決定システムの内部構成を説明するためのブロック図である。 本発明の一実施形態に係るキーワード順位を決定する一例を示す図である。
以下、本発明の実施形態を添付する図面を参照しながら詳細に説明する。
図1は、本発明の一実施形態に係るユーザグループごとの人気検索語150を提供するための全体的な構造の一例を示す図である。
ここで、ウェブログ110は、サイトを介してユーザに露出された文書がユーザによって選択される場合、ユーザがどのようなキーワードに応じてアクセスしたかに関する情報、どのようなユーザがアクセスしたかに関する情報、及びどのような文書が選択されたかに関する情報のうち少なくとも1つの情報を含んでもよい。例えば、特定サイトに対する訪問者数、訪問者類型、各ウェブページごとの訪問回数、訪問時間などを表す情報がウェブログ110に記録されてもよい。
ここで、「サイト」は、有無線ネットワークを介してユーザに提供可能な全ての種類のウェブサイトを含んでもよく、ウェブサイトを構成する1つのウェブページを含んでもよい。また、「ユーザ」は、ユーザの識別子、ユーザの端末に対する識別子、および端末のウェブブラウザに対するクッキーに対応する識別子のうち少なくとも1つによって識別されてもよい。
また、文書の「露出」は、サイトを介して該当文書に関連するテキスト、イメージ、動画、ハイパーリンクなどのコンテンツが該当サイトの訪問者に提供されることを含むように解釈されてもよい。また、露出された文書に対する「選択」は、ユーザ(サイト訪問者)が提供されたテキスト、イメージなどのコンテンツに対してマウスクリックなどの反応を見せることを意味する。
分析システム120は、このようなウェブログ110を用いて予め選定された間隔(例えば、1分)ごとにリアルタイムのログをパーシングすることによって、予め選定された間隔ごとに少なくとも1つのデータを生成してもよい。ここで、分析システム120は、本発明の実施形態に係るキーワード順位決定システムに含まれるか、または、キーワード順位決定システムに関連して動作してもよい。
第1点線ボックス130は、分析システム120によって生成された複数のデータを示している。このとき、第2点線ボックス131は、スライディングウィンドウ(sliding window)を意味し、予め選定された最近の期間内に生成されたデータのみを選択するために用いられてもよい。例えば、スライディングウィンドウの大きさを40分に設定することは、最近40分内に生成されたデータのみを選択して用いることを意味する。ここで、ウェブログ110によって生成された「データ」は、特定キーワードに応じて特定文書が選択された少なくとも一回の選択に対してキーワードと文書それぞれの情報とを含んでもよい。
このように、選択されたデータは各主題ごとに分類され、加重値が付与されてもよい。第3点線ボックス140は、前述した主題に対する一例であって、選択されたデータがユーザグループに応じて分類される形状を示している。図3ではユーザグループごとに8個のグループを示しているが、選択されたデータが分類される主題が必ずしも8個のユーザグループに限定されるわけではない。必要に応じて、「大学生」の代わりに「男子大学生」および「女子大学生」のようにグループを代替/追加したり、「男子大学生>スポーツマニア」、「シングル女性>文化生活族」のように階層化してもよい。また、ユーザグループではない異なる基準に応じて主題が分類されてもよい。本明細書では説明の便宜のために、図1に示す一例に提供された8個のユーザグループに応じてキーワード順位決定システムおよびキーワード順位決定方法について説明する。
このとき、ユーザグループごとに分類されたデータは、検索意図ごとに再び分類されてデータ集合を構成してもよく、各データ集合は占有率に応じて順位が決定されてもよい。例えば、ユーザグループの「未婚男性」に対してキーワード「コランド」、「コランド価格」、および「双龍自動車」を含んでいるデータ集合が16.34%の占有率として1位、キーワード「キム・グリム」、「スーパースターk2」、および「スーパースター悪口」を含むデータ集合が11.22%として2位のように表してもよい。
ここで、データのユーザグループごとの分類やデータ集合ごとの占有率の算出、占有率に応じたキーワード順位決定などは前述したキーワード順位決定システムによって行われてもよい。
図2は、本発明の一実施形態に係るキーワード順位決定方法を示すフローチャートである。本実施形態に係るキーワード順位決定方法は、図1を参照して説明したキーワード順位決定システムによって行われてもよい。
ステップS210において、キーワード順位決定システムは、ウェブログのデータを予め選定された主題ごとに分類する。ここで、ウェブログは、図1を参照して説明したウェブログ110に対応してもよい。このようなウェブログのデータは、文書、文書の選択に用いられたキーワード、およびキーワードに応じて文書が選択された選択回数のうち2つ以上に関する情報を含んでもよい。また、予め選定された主題は、一例として、ユーザグループに応じて分類されてもよく、ユーザグループはB−クッキーによってユーザが分類されて決定してもよい。既に説明したように、このような主題はユーザグループに限定されることなく、運用者によって分類された基準に応じて分類されてもよい。
ステップS220において、キーワード順位決定システムは、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じて加重値をデータに付与する。すなわち、グループごとに分類されたデータのキーワードおよび文書は、該当グループだけの特性を表すとは見なし難い。例えば、キーワード「自動車」がユーザグループの「未婚男性」に分類されたデータにも含まれ、ユーザグループの「既婚男性」に分類されたデータにも含まれているため、単にキーワード「自動車」そして該当キーワードに応じて発生した選択回数(例えば、クリック数)のみによってはキーワード「自動車」が特定のユーザグループだけの特性を表すものと決定することは難しい。また、特定文書及び特定文書に発生した選択回数のみによっても特定文書Aが特定のユーザグループだけの特性を表すものと決定することは難しい。したがって、キーワード順位決定方法として、ステップS220のように、文書の主題の集中程度を表す文書集中度を算出し、このような文書集中度に応じて加重値をデータに付与することによって、主題の集中程度の高い文書を含むデータがその後に占有率の算出によって大きな影響を及ぼしてもよい。あるいは、主題の集中程度の低い文書が占有率の算出によって低い影響を及ぼしてもよい。
このために、キーワード順位決定システムは、文書の分類された主題に該当する文書である確率、および文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、文書集中度を加重値として付与して文書の選択回数を調整してもよい。
例えば、文書を「d」、全体の主題の集合を「T」、主題の集合に含まれた主題を「t」(∈T)、そして、文書「d」が主題「t」に該当する文書である確率を「P(t)」にすると、文書「d」の主題「t」における文書集速度「Q(t)」は下記の数式(1)のように算出してもよい。
Figure 2012141985
このとき、主題「t」において、文書「d」に対して発生した選択回数(クリック数)を「Cd、t−naive」にすると、最終的に調整された選択回数「Cd、t−weighted」は下記の数式(2)のように算出してもよい。
Figure 2012141985
ここで、「θ」によってペナルティとして適用される加重値の適用程度が調整されてもよい。
ステップS230において、キーワード順位決定システムは、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、データ集合間の順位を主題ごとに決定する。
基本的に、同一の「検索意図」を有するデータを1つの集合にするために、下記の(1)、(2)のような基本原則を定義してもよい。
(1)同一の文書がクリックされれば、用いられたキーワードが異なっても同一の検索意図である。
(2)異なる文書がクリックされても、検索語が同一であるか類似していれば、同一の検索意図である。
このような基本原則を用いて、キーワード順位決定システムは、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図として分類してデータ集合を生成してもよい。他の実施形態として、キーワード順位決定システムは、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成してもよい。
このように、同一の検索意図を有するデータを集めてデータ集合を生成した後、データ集合に含まれたデータに対して調整された選択回数の和を用いてデータ集合の大きさを求めてもよく、データ集合の大きさ比率を占有率として算出してもよい。すなわち、キーワード順位決定システムは、文書ごとに調整された選択回数を用いて主題に含まれたデータ集合ごとに占有率を算出し、算出された占有率に応じて主題におけるデータ集合間の順位を決定してもよい。このような占有率から、いずれのユーザグループがどのような検索意図をもってどの程度の占有率でクリックが発生しているかを示してもよい。このとき、全体データ集合「C」に対して特定データ集合「c」(∈C)における選択回数の和をN(c)とすれば、データ集合「C」の占有率「P(c)」は下記の数式(3)のように算出してもよい。
Figure 2012141985
ステップS240において、キーワード順位決定システムは、データ集合を代表する代表キーワードをデータ集合ごとに決定する。すなわち、データ集合内には複数のデータが含まれ、したがって、データ集合内には同一の検索意図を有する様々なキーワードを含んでいる。このとき、キーワード順位決定システムは、1つのデータ集合を表すための最も適切なキーワードを検索して代表キーワードとして決定してもよい。
例えば、キーワード順位決定システムは次の(a)、(b)および(c)の条件を用いて代表キーワードを決定してもよい。
(a)形態素分析によって取得された形態素中に含まれた回数が最も多いキーワードを必ず含むキーワード
(b)予め選定された回数以上のクリックの発生に用いられたキーワード
(c)キーワードの長さが長いキーワード
このような条件は、信頼性を有しながらも最も多い情報を含んでいるキーワードを代表キーワードとして決定するためのものである。
次の表1は1つのデータ集合に含まれた文書に関する情報と該当文書が選択されるために用いられたキーワードに関する情報を含んでいる。
Figure 2012141985
次の表2は、表1のキーワードを形態素分析して抽出したそれぞれの形態素が含まれた回数を表している。
Figure 2012141985
この場合、最も多い回数が含まれた形態素「プーチン」を含んでいるキーワードが代表キーワードの候補になり得る。
次の表3は、形態素「プーチン」を含むキーワードの長さと選択に用いられた回数とを示している。
Figure 2012141985
対象になったキーワードについて、まず、選択回数の制限を2以上にすると、キーワード「プーチン娘」と「プーチン娘結婚」が該当データ集合の代表キーワードに対する候補になり得る。このとき、キーワード「プーチン娘」が選択回数4回として、選択回数が3回であるキーワード「プーチン娘結婚」よりも高いが、キーワード「プーチン娘結婚」の長さがキーワード「プーチン娘」よりも長いため、「プーチン娘結婚」が該当データ集合の代表キーワードに選択される。すなわち、「プーチン娘結婚」が代表性を失なわないつつ最も多い説明力を有するものと判断されてもよい。
このような条件は必要に応じて変更されてもよい。基本的に、本実施形態に係るキーワード順位決定システムは、データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数による加重値、およびキーワードの長さに応じる加重値のうち少なくとも1つの加重値を用いてキーワードの中から代表キーワードを決定してもよい。ここで、形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かによって決定されてもよい。
次の表4、表5、および表6はそれぞれのユーザグループ「未婚男性」、「既婚男性」、および「財務テクノロジー族」に対するキーワード順位を示している。表4、5、6では12位まで示しているが、必要に応じて表示される順位は調整されてもよい。
Figure 2012141985
Figure 2012141985
Figure 2012141985
図3は、本発明の一実施形態に係るキーワード順位決定システムの内部構成を説明するためのブロック図である。本実施形態に係るキーワード順位決定システム300は、図3に示すように、データ分類部310、加重値付与部320、順位決定部330、および代表キーワード決定部340を備える。
データ分類部310は、ウェブログのデータを予め選定された主題ごとに分類する。ここで、ウェブログは、図1を参照して説明したウェブログ110に対応してもよい。このようなウェブログのデータは、文書、文書の選択に用いられたキーワード、およびキーワードに応じて文書が選択された選択回数のうち2つ以上の情報を含んでもよい。また、予め選定された主題は、一例として、ユーザグループに応じて分類してもよく、ユーザグループはB−クッキーによってユーザを分類して決定されてもよい。既に説明したように、このような主題はユーザグループに限定されることなく、運用者によって分類された基準に応じて分類される。
加重値付与部320は、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じて加重値をデータに付与する。すなわち、グループごとに分類されたデータのキーワードおよび文書は該当グループだけの特性を表すものと見なしがたい。例えば、キーワード「自動車」がユーザグループ「未婚男性」に分類されたデータにも含まれ、ユーザグループ「既婚男性」に分類されたデータにも含まれるため、単にキーワード「自動車」そして該当キーワードに応じて発生した選択回数(例えば、クリック数)のみによってはキーワード「自動車」が特定のユーザグループだけの特性を表すものと決定することは難しい。また、特定文書と特定文書に発生した選択回数とにのみによっても特定文書Aが特定のユーザグループだけの特性を表すものと決定することは難しい。したがって、キーワード順位決定システム300は、加重値付与部320によって文書の主題の集中程度を表す文書集中度を算出し、このような文書集中度に応じる加重値をデータに付与することによって、主題の集中程度の高い文書を含むデータが以後に占有率の算出によって大きな影響を及ぼすようにしてもよい。あるいは、主題の集中程度の低い文書が占有率の算出によって低い影響を及ぼすようにしてもよい。
このために、加重値付与部320は、文書の分類された主題に該当する文書である確率、及び文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、文書集中度を加重値として付与して文書の選択回数を調整してもよい。
例えば、文書を「d」、全体の主題の集合を「T」、主題の集合に含まれた主題を「t」(∈T)、そして文書「d」が主題「t」に該当する文書である確率を「P(t)」とすれば、文書「d」の主題「t」における文書集速度「Q(t)」は前述した数式(1)のように算出されてもよい。
このとき、主題「t」で文書「d」に対して発生した選択回数(クリック数)を「Cd、t−naive」とすれば、最終的に調整された選択回数「Cd、t−weighted」は前述した数式(2)のように算出されてもよい。
順位決定部330は、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、データ集合間の順位を主題ごとに決定する。
基本的に、同一の「検索意図」を有するデータを1つの集合にするため、下記の(1)、(2)のような基本原則を定義してもよい。
(1)同一の文書がクリックされれば、用いられたキーワードが異なっても同一の検索意図である。
(2)異なる文書がクリックされても、検索語が同一であるか類似していれば、同一の検索意図である。
このような基本原則を用いて、順位決定部330は、同一の文書に関する情報が含まれたデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図として分類してデータ集合を生成してもよい。他の実施形態として、順位決定部330は、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書が含まれたデータを同一のデータ集合として生成してもよい。
このように、同一の検索意図を有するデータを集めてデータ集合を生成した後、データ集合に含まれたデータに対して調整された選択回数の和を用いてデータ集合の大きさを求めてもよく、データ集合の大きさ比率を占有率として算出してもよい。すなわち、順位決定部330は、文書ごとに調整された選択回数を用いて主題に含まれたデータ集合ごとに占有率を算出し、算出された占有率に応じて主題におけるデータ集合間の順位を決定してもよい。このような占有率から、いずれのユーザグループがどのような検索意図をもってどの程度の占有率でクリックを発生させているかを示してもよい。このとき、全体データ集合「C」に対して特定データ集合「c」(∈C)における選択回数の和をN(c)とすれば、データ集合「C」の占有率「P(c)」は前述した数式(3)のように算出してもよい。
代表キーワード決定部340は、データ集合を代表する代表キーワードをデータ集合ごとに決定する。すなわち、データ集合内には複数のデータが含まれ、したがって、データ集合内には同一の検索意図を有する様々なキーワードを含んでいる。このとき、代表キーワード決定部340は、1つのデータ集合を表すための最も適切なキーワードを検索して代表キーワードとして決定してもよい。
例えば、代表キーワード決定部340は、前述した(a)、(b)および(c)の条件を用いて代表キーワードを決定してもよい。このような条件は、信頼性を有しながらも最も多い情報を含んでいるキーワードを代表キーワードとして決定するためのものである。
このような条件は必要に応じて変更されてもよい。基本的に、本実施形態に係るキーワード順位決定システム300の代表キーワード決定部340は、データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いてキーワードの中から代表キーワードを決定してもよい。ここで、形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されてもよい。
図4は、本発明の一実施形態に係る文書に対する選択回数を調整する一例を示す図である。第1点線ボックス410は、第1文書に対して発生した選択回数(クリック数)「40」が第1キーワードで35回、第2キーワードで5回発生したことを示している。このとき、第2点線ボックス420は、前述した数式(1)、(2)によって第1文書に対して発生した選択回数が調整される可能性があることを示している。このとき、第1文書に対して発生した選択回数は「40」から「15」に調整され、この場合、文書に対する選択回数「15」を超過する第1キーワードでの選択回数「35」が「15」に変更されたことを示している。すなわち、文書の選択回数が変更される場合、変更された選択回数よりも大きい選択回数を有するキーワードの選択回数は、変更された選択回数に共に調整されてもよい。占有率の算出には文書の選択回数が用いられてもよく、代表キーワードを選択する場合にはキーワードごとの選択回数が用いられてもよい。
このように、本発明の実施形態に係るシステムおよび方法を用いると、ユーザクラスタリング情報を用いてユーザグループごとに人気検索語を順位ごとに提供して新しい情報を提供することで新しいクエリカウントを誘発することができ、同一の検索意図を有するキーワードを1つのデータ集合に集めて表示し、各データ集合の検索占有率を算出して順位を決定して検索占有率およびデータ集合の代表キーワードを提供することによって新しい情報を提供し、ユーザの興味を誘発することができる。
本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
300 キーワード順位決定システム
310 データ分類部
320 加重値付与部
330 順位決定部
340 代表キーワード決定部

Claims (19)

  1. ウェブログのデータを予め選定された主題ごとに分類するデータ分類部と、
    前記主題ごとに分類されたデータに該当する文書の前記主題の集中程度を表す文書集中度を算出し、前記文書集中度に応じる加重値を前記データに付与する加重値付与部と、
    前記加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、前記データ集合間の順位を前記主題ごとに決定する順位決定部と、
    前記データ集合を代表する代表キーワードを前記データ集合ごとに決定する代表キーワード決定部と、
    を備えることを特徴とするキーワード順位決定システム。
  2. 前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
    前記加重値付与部は、前記文書が分類された主題に該当する文書である確率および前記文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに前記文書集中度を算出し、前記文書集中度を前記加重値として付与して前記文書に対する選択回数を調整することを特徴とする請求項1に記載のキーワード順位決定システム。
  3. 前記順位決定部は、前記文書ごとに調整された選択回数を用いて前記主題に含まれた前記データ集合ごとに占有率を算出し、前記算出された占有率に応じて前記主題におけるデータ集合間の順位を決定することを特徴とする請求項2に記載のキーワード順位決定システム。
  4. 前記占有率は、前記データ集合における前記選択回数の和および全体データ集合に対する全体選択回数の和を用いて算出されることを特徴とする請求項3に記載のキーワード順位決定システム。
  5. 前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
    前記順位決定部は、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図に分類して前記データ集合を生成することを特徴とする請求項1から4のいずれか1項に記載のキーワード順位決定システム。
  6. 前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
    前記順位決定部は、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成することを特徴とする請求項1から5のいずれか1項に記載のキーワード順位決定システム。
  7. 前記代表キーワード決定部は、前記データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いて前記キーワードの中から前記代表キーワードを決定することを特徴とする請求項1から6のいずれか1項に記載のキーワード順位決定システム。
  8. 前記形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されることを特徴とする請求項7に記載のキーワード順位決定システム。
  9. 前記予め選定された主題は、B−クッキーによってユーザを分類し、決定されたユーザグループに応じて分類されることを特徴とする請求項1から8のいずれか1項に記載のキーワード順位決定システム。
  10. ウェブログのデータを予め選定された主題ごとに分類し、
    前記主題ごとに分類されたデータに該当する文書の前記主題の集中程度を表す文書集中度を算出して前記文書集中度に応じる加重値を前記データに付与し、
    前記加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成して前記データ集合間の順位を前記主題ごとに決定し、
    前記データ集合を代表する代表キーワードを前記データ集合ごとに決定すること、
    を含むことを特徴とするキーワード順位決定方法。
  11. 前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
    前記加重値を付与することは、前記文書が分類された主題に該当する文書である確率および前記文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、前記文書集中度を前記加重値として付与して前記文書に対する選択回数を調整することを特徴とする請求項10に記載のキーワード順位決定方法。
  12. 前記データ集合間の順位を前記主題ごとに決定することは、前記文書ごとに調整された選択回数を用いて前記主題に含まれた前記データ集合ごとに占有率を算出し、前記算出された占有率に応じて前記主題におけるデータ集合間の順位を決定することを特徴とする請求項11に記載のキーワード順位決定方法。
  13. 前記占有率は、前記データ集合における前記選択回数の和および全体データ集合に対する全体選択回数の和を用いて算出されることを特徴とする請求項12に記載のキーワード順位決定方法。
  14. 前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
    前記データ集合間の順位を前記主題ごとに決定することは、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図に分類して前記データ集合を生成することを特徴とする請求項10から13のいずれか1項に記載のキーワード順位決定方法。
  15. 前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
    前記データ集合間の順位を前記主題ごとに決定することは、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成することを特徴とする請求項10から14のいずれか1項に記載のキーワード順位決定方法。
  16. 前記データ集合を代表する代表キーワードを前記データ集合ごとに決定することは、前記データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いて前記キーワードの中から前記代表キーワードを決定することを特徴とする請求項10から15のいずれか1項に記載のキーワード順位決定方法。
  17. 前記形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されることを特徴とする請求項16に記載のキーワード順位決定方法。
  18. 前記予め選定された主題は、B−クッキーによってユーザを分類し、決定されたユーザグループに応じて分類されることを特徴とする請求項10から17のいずれか1項に記載のキーワード順位決定方法。
  19. 請求項10から18のいずれか1項の方法を行うプログラムを記録したコンピュータで読み出し可能な記録媒体。
JP2011289464A 2010-12-30 2011-12-28 ユーザグループごとにキーワードの順位を決定するシステムおよび方法 Active JP5865076B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0138879 2010-12-30
KR1020100138879A KR101274419B1 (ko) 2010-12-30 2010-12-30 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2012141985A true JP2012141985A (ja) 2012-07-26
JP5865076B2 JP5865076B2 (ja) 2016-02-17

Family

ID=46381712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011289464A Active JP5865076B2 (ja) 2010-12-30 2011-12-28 ユーザグループごとにキーワードの順位を決定するシステムおよび方法

Country Status (3)

Country Link
US (1) US9262790B2 (ja)
JP (1) JP5865076B2 (ja)
KR (1) KR101274419B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014050981A1 (ja) * 2012-09-27 2016-08-22 日本電気株式会社 テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077407B (zh) * 2014-07-10 2017-06-16 中国工商银行股份有限公司 一种智能数据搜索系统及方法
CN105574015A (zh) * 2014-10-13 2016-05-11 阿里巴巴集团控股有限公司 搜索推荐方法和装置
KR101708444B1 (ko) * 2015-11-16 2017-02-22 주식회사 위버플 키워드 및 자산 가격 관련성 평가 방법 및 그 장치
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
CN109660580B (zh) * 2017-10-11 2021-06-22 苏州跃盟信息科技有限公司 一种信息推送方法及装置
CN108776679B (zh) * 2018-05-30 2021-12-07 百度在线网络技术(北京)有限公司 一种搜索词的分类方法、装置、服务器及存储介质
JP2022096218A (ja) * 2020-12-17 2022-06-29 キヤノン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
CN113449145B (zh) * 2021-06-29 2023-11-10 乐视云网络技术(北京)有限公司 视频搜索结果排序调整方法、装置、电子设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100452086B1 (ko) * 2003-12-22 2004-10-13 엔에이치엔(주) 카테고리 별 키워드의 입력 순위를 제공하기 위한 검색서비스 시스템 및 그 방법
JP2008299839A (ja) * 2007-05-31 2008-12-11 Nhn Corp キーワード推薦方法、コンピュータ読み取り可能な記録媒体、キーワード推薦システム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864848A (en) * 1997-01-31 1999-01-26 Microsoft Corporation Goal-driven information interpretation and extraction system
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
WO2002010945A1 (en) * 2000-08-02 2002-02-07 Biospace.Com, Inc. Apparatus and method for producing contextually marked-up electronic content
MXPA03006566A (es) * 2001-01-23 2004-10-15 Educational Testing Service Metodo para el analisis automatico de examenes.
US7028026B1 (en) * 2002-05-28 2006-04-11 Ask Jeeves, Inc. Relevancy-based database retrieval and display techniques
US8086619B2 (en) * 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US7689585B2 (en) 2004-04-15 2010-03-30 Microsoft Corporation Reinforced clustering of multi-type data objects for search term suggestion
US20060218153A1 (en) * 2005-03-28 2006-09-28 Voon George H H Building social networks using shared content data relating to a common interest
US20060265362A1 (en) * 2005-05-18 2006-11-23 Content Analyst Company, Llc Federated queries and combined text and relational data
US20060282303A1 (en) * 2005-06-08 2006-12-14 Microsoft Corporation Distributed organizational analyzer
US7421429B2 (en) * 2005-08-04 2008-09-02 Microsoft Corporation Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
US7765209B1 (en) * 2005-09-13 2010-07-27 Google Inc. Indexing and retrieval of blogs
US20070271146A1 (en) * 2005-10-20 2007-11-22 Ebags.Com Method and apparatus for matching and/or coordinating shoes handbags and other consumer products
US7685091B2 (en) * 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
KR100785754B1 (ko) 2006-03-22 2007-12-18 엔에이치엔(주) 지역별 실시간 키워드 순위 결정 방법 및 지역별 실시간키워드 순위 결정 시스템
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US20080282186A1 (en) * 2007-05-11 2008-11-13 Clikpal, Inc. Keyword generation system and method for online activity
KR100892263B1 (ko) * 2007-08-01 2009-04-09 주식회사 다음커뮤니케이션 카테고리별 키워드 추천 시스템 및 방법
US20100131455A1 (en) * 2008-11-19 2010-05-27 Logan James D Cross-website management information system
MX2011006340A (es) * 2008-12-12 2011-10-28 Atigeo Llc Suministro de recomendaciones utilizando la informacion determinada para dominios de interés.
US8290926B2 (en) * 2010-01-21 2012-10-16 Microsoft Corporation Scalable topical aggregation of data feeds

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100452086B1 (ko) * 2003-12-22 2004-10-13 엔에이치엔(주) 카테고리 별 키워드의 입력 순위를 제공하기 위한 검색서비스 시스템 및 그 방법
US20070130139A1 (en) * 2003-12-22 2007-06-07 Nhn Corporation Search system for providing information of keyword input freguency by category and method thereof
JP2007528531A (ja) * 2003-12-22 2007-10-11 エヌエイチエヌ コーポレーション カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
JP2008299839A (ja) * 2007-05-31 2008-12-11 Nhn Corp キーワード推薦方法、コンピュータ読み取り可能な記録媒体、キーワード推薦システム
KR20090001997A (ko) * 2007-05-31 2009-01-09 엔에이치엔(주) 키워드 추천 방법 및 그 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014050981A1 (ja) * 2012-09-27 2016-08-22 日本電気株式会社 テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム

Also Published As

Publication number Publication date
KR20120077055A (ko) 2012-07-10
JP5865076B2 (ja) 2016-02-17
KR101274419B1 (ko) 2013-06-17
US20120173542A1 (en) 2012-07-05
US9262790B2 (en) 2016-02-16

Similar Documents

Publication Publication Date Title
JP5865076B2 (ja) ユーザグループごとにキーワードの順位を決定するシステムおよび方法
US9576251B2 (en) Method and system for processing web activity data
US9443008B2 (en) Clustering of search results
US8321278B2 (en) Targeted advertisements based on user profiles and page profile
JP6517818B2 (ja) ウェブサイト・トラフィック最適化の改善
US8990208B2 (en) Information management and networking
RU2382400C2 (ru) Построение и применение веб-каталогов для фокусированного поиска
JP5608286B2 (ja) 無限ブラウズ
TWI471737B (zh) 具搜尋結果之蹤跡識別系統與方法
US8306962B1 (en) Generating targeted paid search campaigns
JP5377829B2 (ja) 関連性のある情報源を決定し、クエリし、複数のコンテンツ情報源からの結果をマージするための方法とシステム
CN107862022B (zh) 文化资源推荐系统
US20110258148A1 (en) Active prediction of diverse search intent based upon user browsing behavior
US20110119209A1 (en) Method and system for developing a classification tool
JP2014504754A (ja) 環境入力に基づいて情報を提供するために、知識表現を使用するシステム及び方法
EP2827294A1 (en) Systems and method for determining influence of entities with respect to contexts
Kirsh et al. Splitting the web analytics atom: from page metrics and KPIs to sub-page metrics and KPIs
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
US11941073B2 (en) Generating and implementing keyword clusters
TWI480749B (zh) 識別有機搜索引擎優化機會之方法
Li Internet tourism resource retrieval using PageRank search ranking algorithm
CN109977292A (zh) 搜索方法、装置、计算设备和计算机可读存储介质
Budhiraja et al. Coverage pattern based framework to improve search engine advertising
US20200311761A1 (en) System and method for analyzing the effectiveness and influence of digital online content
Rong et al. Research on Web log mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151225

R150 Certificate of patent or registration of utility model

Ref document number: 5865076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250