JP5832869B2 - カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 - Google Patents

カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 Download PDF

Info

Publication number
JP5832869B2
JP5832869B2 JP2011254699A JP2011254699A JP5832869B2 JP 5832869 B2 JP5832869 B2 JP 5832869B2 JP 2011254699 A JP2011254699 A JP 2011254699A JP 2011254699 A JP2011254699 A JP 2011254699A JP 5832869 B2 JP5832869 B2 JP 5832869B2
Authority
JP
Japan
Prior art keywords
keyword
document
category
importance
extraction system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011254699A
Other languages
English (en)
Other versions
JP2012113716A (ja
Inventor
昊 錫 李
昊 錫 李
鐘 豪 尹
鐘 豪 尹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2012113716A publication Critical patent/JP2012113716A/ja
Application granted granted Critical
Publication of JP5832869B2 publication Critical patent/JP5832869B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワード抽出システムおよびキーワード抽出方法に関し、より詳しくは、キーワード広告のために文書のカテゴリーにマッチングされたキーワードを抽出するシステムおよびその方法に関する。
キーワード広告はキーワードとマッチングされる広告として、検索広告、文脈広告などに分類されている。従来のキーワード広告は、広告を提供しようとする文書でキーワードごとにスコアを算定し、スコアに応じて広告とマッチングされるキーワードを導き出していた。このとき、スコアは文書内でキーワードが出現する回数(TF:Term Frequency)に応じて決定されていた。
このとき、単にキーワードのスコアから広告とマッチングされるキーワードを導き出す場合、文書と実際に関連度の低い広告も提供される恐れがある。
したがって、キーワード広告の正確度を向上させることのできるキーワードを抽出する方法が要求されている。
本発明の目的は、文書から抽出されたキーワードのカテゴリーに基づいて文書のカテゴリーを選択することによって、文書と実際に関連度の高い広告を提供することのできるキーワード抽出システムおよびキーワード抽出方法を提供する。
本発明の目的は、キーワードのカテゴリーを文書のカテゴリーを選択するのに適用することによって、キーワードとキーワード広告との間の関連性を向上させることのできるキーワード抽出システムおよびキーワード抽出方法を提供する。
本発明の一実施形態に係るキーワード抽出システムは、文書に含まれた少なくとも1つのキーワードに対して文書内におけるキーワードの重要度を算出する重要度算出部と、キーワードのカテゴリーに基づいて文書のカテゴリーを選択するカテゴリー選択部と、文書のカテゴリーおよびキーワードの重要度を考慮して文書に関する少なくとも1つの代表キーワードを決定する代表キーワード決定部と、を備えることを特徴とする。
重要度算出部は、文書でキーワードの形態素タイプまたは文書内の出現情報のうち少なくとも1つを考慮してキーワードの重要度を算出してもよい。
重要度算出部は、キーワードが複合名詞であるか否かに応じてキーワードの重要度を差等(等級)的に算出してもよい。
重要度算出部は、文書で予め設定された頻度以上に出現したキーワードの重要度を算出してもよい。
重要度算出部は、キーワードの文書出現頻度およびキーワードの文書内の出現位置を用いて文書内の出現情報を決定してもよい。
カテゴリー選択部は、文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択してもよい。
カテゴリー選択部は、文書から抽出されたキーワードのカテゴリーごとの出現頻度に文書でキーワードの重要度を繰り返し適用して文書のカテゴリーを選択してもよい。
本発明の一実施形態に係るキーワード抽出システムによって行われるキーワード抽出方法は、キーワード抽出システムの重要度算出部が、文書に含まれた少なくとも1つのキーワードに対して文書内における重要度を算出し、キーワード抽出システムのカテゴリー選択部がキーワードのカテゴリー情報に基づいて文書のカテゴリーを選択し、キーワード抽出システムの代表キーワード決定部が、文書のカテゴリーおよび文書内におけるキーワードの重要度を考慮して文書に関する少なくとも1つの代表キーワードを決定することを特徴とする。
本発明によると、容易に変更されないタイプであるキーワードとカテゴリーとの間のマッチング情報を用いることによって索引の更新周期を増加させることができる。
本発明によると、キーワードのカテゴリーに応じて文書のカテゴリーを決定することによって、キーワード広告の性質を明確に設定することができる。
本発明によると、文書のカテゴリーを選択することによって、より正確なキーワード広告を提供することができる。
本発明の一実施形態に係るキーワード抽出システムを示すブロック図である。 本発明の一実施形態に係る文書からキーワード広告のためのキーワードを抽出する過程を説明する図である。 本発明の一実施形態に係る文書から抽出されたキーワードの重要度を算出する過程を説明する図である。 本発明の一実施形態に係る文書のカテゴリーを選択する過程を説明する図である。 本発明の他の実施形態に係る文書のカテゴリーを選択する過程を説明する図である。 本発明の一実施形態に係る文書からキーワード広告のための代表キーワードを抽出する例を示す図である。 本発明の一実施形態に係るキーワード抽出方法を示すフローチャートである。
以下、本発明の実施形態を添付する図面を参照しながら詳細に説明する。本発明の一実施形態に係るキーワード抽出方法はキーワード抽出システムによって行われてもよい。
図1は、本発明の一実施形態に係るキーワード抽出システムを示すブロック図である。
図1を参照すると、キーワード抽出システム100は、重要度算出部101、カテゴリー選択部102、および代表キーワード決定部103を備えている。
重要度算出部101は、キーワード抽出システム100により抽出された文書に含まれる少なくとも1つのキーワードに対して文書内におけるキーワードの重要度を算出する。このとき、文書は少なくとも1つのキーワードを含む掲示物を意味する。キーワード抽出システム100により抽出された文書は少なくとも1つであってもよく、文書の出処は制限されない。
このとき、重要度算出部101は、文書を対象に形態素分析を行って文書から少なくとも1つのキーワードを抽出する。形態素分析のためにnpgrdy方式を用いてもよい。例えば、入力が「ブラックボックス」である場合、npgrdy方式による出力は「ブラック、ボックス、ブラックボックス」のようなる。この場合、複数の単語から構成された複合語についても処理できる長所がある。
一例として、重要度算出部101は、文書でキーワードの形態素タイプまたは文書内の出現情報のうち、少なくとも1つを考慮してキーワードの重要度を算出している。このとき、重要度算出部101は、文書で予め設定された頻度以上に出現したキーワードを対象にして重要度を算出する。
重要度算出部101は、キーワードが複合名詞であるか否かに応じて、キーワードの重要度を差等的に算出する。具体的に、重要度算出部101は、キーワードが複合名詞である場合は、そうではない場合よりも高い重要度を決定する。なぜなら、キーワードが複合名詞である場合、複合名詞を構成する単語それぞれによって該当キーワードの性格が明確になるため、該当キーワードを含む文書の性格も正確に定義される。
そして、重要度算出部101は、キーワードの文書出現頻度およびキーワードの文書内の出現位置を用いて文書内の出現情報を決定する。キーワードの重要度は文書内の出現情報に基づいて算出してもよい。
本発明の実施形態では、キーワードの重要度は文書に従属するため、同一のキーワードといっても該当キーワードを含む文書に応じて重要度が異なるように決定される。重要度を算出する過程については図3を参照して具体的に説明する。
カテゴリー選択部102は、文書に含まれたキーワードのカテゴリーに基づいて文書のカテゴリーを選択する。
一例として、カテゴリー選択部102は、単純ベイズ分類器(Naive Bayesian Classifier)によって文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する。他の一例として、カテゴリー選択部102は、ページランク(PageRank)(登録商標)に応じて、文書から抽出されたキーワードのカテゴリーごとの出現頻度に文書におけるキーワードの重要度を繰り返し適用して、文書のカテゴリーを選択する。カテゴリーを選択する過程については図4および図5を参照して具体的に説明する。
代表キーワード決定部103は、文書のカテゴリーおよびキーワードの重要度を考慮して文書に関する少なくとも1つの代表キーワードを決定する。例えば、キーワードが同音異義語である場合、代表キーワード決定部103は、該当キーワードが文書のカテゴリーに分類されたキーワードに該当すると、キーワード広告のための代表キーワードとして決定する。すなわち、代表キーワード決定部103は同音異義語に対してもキーワード広告の正確度を保証することができる。
すなわち、文書に含まれたキーワードは、図1に示すキーワード抽出システム100によって文書内で重要度が高いながらも文書のカテゴリーに属する場合にキーワード広告のための代表キーワードから抽出する。抽出された代表キーワードは、キーワード広告とマッチングされて広告データベースに登録される。
図2は、本発明の一実施形態に係る文書からキーワード広告のキーワードを抽出する過程を説明する図である。
図2を参照すると、文書にキーワード広告の根拠になるキーワードA、キーワードB、およびキーワードCを含むと仮定する。これによって、キーワード抽出システム100は、キーワードA、キーワードB、およびキーワードCそれぞれに対して文書内における重要度を算出する。または、性能向上のために、キーワード抽出システム100は名詞または複合名詞ではないか、文書内で予め設定された頻度以上に出現していないキーワードBをフィルタリングした後重要度を算出する。
そして、キーワード抽出システム100は、キーワードA、キーワードB、およびキーワードCそれぞれのカテゴリーを用いて文書のカテゴリーを選択する。このとき、キーワード抽出システム100は、文書から抽出されたキーワードA、キーワードB、およびキーワードCのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する。または、キーワード抽出システム100は、文書から抽出されたキーワードA、キーワードB、およびキーワードCのカテゴリーごとの出現頻度に文書における重要度を繰り返し適用して文書のカテゴリーを選択する。
図2ではキーワードAとキーワードCによって文書がカテゴリー(イ)に属するものと決定された。これによって、文書に含まれたキーワードのうち、文書のカテゴリー(イ)に属するキーワードのキーワードA、キーワードCが最終的に抽出され、抽出されたキーワードAおよびキーワードCはキーワード広告とそれぞれマッチングされる。もし、キーワードBが同音異義語として実質的な意味が文書のカテゴリー(イ)と全く関係のない場合、キーワード抽出システム100はキーワードBを抽出しなくてもよい。
図3は、本発明の一実施形態に係る文書から抽出されたキーワードの重要度を算出する過程を説明する図である。
キーワード抽出システム100は、文書から少なくとも1つのキーワードを抽出し、キーワードそれぞれに対して文書内での重要度を算出する。一例として、図3を参照すると、キーワード抽出システム100は、キーワードの形態素タイプまたは文書内の出現情報のうち少なくとも1つを考慮してキーワードの重要度を算出する。このとき、形態素タイプは、複合名詞と複合名詞以外の形態素に分類される。すなわち、キーワード抽出システム100は、動詞、単一名詞、副詞のような形態素よりも多い情報を有する複合名詞に高い加重値を付与して重要度を算出する。
このとき、キーワードの複合名詞を構成する単語が多いほど重要度は高く算出される。もし、キーワードの形態素が複合名詞ではない場合、キーワードの重要度は1の加重値が適用される一方、キーワードの形態素が複合名詞である場合、キーワードの重要度は1と複合名詞のキーワードを構成する単語の数に応じて「エラー!ブックマークが定義されていません。」の加重値が適用されてもよい。すなわち、「花配達」よりは「会社員信用貸出」のようなキーワードが高い加重値が適用される。
そして、文書内の出現情報は、文書内の出現頻度と文書内の出現位置に分類される。特に、文書内の出現頻度は、キーワードの文書内の出現位置に加重値が付与される。すなわち、キーワードが題名のように文書の性格を直接的に示す位置に出現した場合に重要度は高く付与され、本文のように文書の性格を直接的に示さない位置に出現した場合に重要度は低く付与される。図3を参照すると、題名、タグ、本文にキーワードが位置する場合、出現頻度に対する加重値はそれぞれ5:3:1のように決定される。
図4は、本発明の一実施形態に係る文書のカテゴリーを選択する過程を説明する図である。
特に、図4は、単純ベイズ分類器によって文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する過程を示す。図4を参照すると、キーワード抽出システム100は、キーワードに対して予め設定されているトリー形態の業種カテゴリーの学習データを用いて文書のカテゴリーを選択する。学習データは固定されたものではなく、周期的にアップデートされる。
図4において、文書はまだカテゴリーが決定されていない状態であると仮定する。このとき、文書は下記の数式(1)によってカテゴリーC5、C6、C7、C8それぞれの確率が算出されてもよい。
・・・(1)
すなわち、文書DがカテゴリーCに属する確率は、文書Dに属するキーワードkがカテゴリーCに属する確率に応じて決定される。具体的に、キーワードkがカテゴリーC5に属する確率はキーワードkが全てのカテゴリーC5、C6、C7、C8における出現回数対比によりカテゴリーC5における出現回数に基づいて決定される。これによって、キーワード抽出システム100は、カテゴリーC5、C6、C7、C8それぞれに対して文書が属する確率を求め、最も高い確率を示すカテゴリーを文書のカテゴリーに選択する。すなわち、本発明の一実施形態によると、文書のカテゴリーは文書に属するキーワードそれぞれのカテゴリーに基づいて決定される。
図5は、本発明の他の実施形態に係る文書のカテゴリーを選択する過程を説明する図である。
特に、図5は、ページランク(登録商標)に応じて文書から抽出されたキーワードのカテゴリーごとの出現頻度で文書内におけるキーワードの重要度を繰り返し適用して文書のカテゴリーを選択する過程を示す。
文書からキーワードK1、K2、K3、K4、K5が抽出され、図5のマトリックス501はキーワードそれぞれに対してカテゴリーC5、C6、C7、C8における出現頻度で構成される。すなわち、本発明の一実施形態によると、ウェブページとウェブページとの間のリンクを示すページランク(登録商標)の基本形態を考慮し、キーワードとカテゴリーとの間のリンクに変換した後、ページランク(登録商標)を適用したものである。
これによって、キーワード抽出システム100は、マトリックス501に重要度502を適用して重要度503を導き出すことができる。このとき、重要度502は、キーワードK1、K2、K3、K4、K5の最初重要度を意味し、文書でキーワードの出現頻度、出現位置、形態素などに応じて決定された値である。その後、キーワード抽出システム100は、マトリックス501に最初のステップで導き出された重要度503を適用して重要度504を導き出す。キーワード抽出システム100は、図5の過程をK回繰り返すことによって重要度を特定の値に収束させる。これによって、キーワード抽出システム100は、最終的な重要度で最も高い重要度を示すカテゴリーを文書のカテゴリーに設定する。
図4および図5の文書カテゴリー決定方法は例示的な方法であり、いずれのキーワードが文書内に有する重要度の指標、およびそのキーワードのカテゴリー情報に基づく様々な方法の文書カテゴリー決定方法を用いる。この過程において、キーワードおよびそのキーワードカテゴリーの間の関連度を示す指標が考慮されることはもちろんである。図6は、本発明の一実施形態に係る文書からキーワード広告のための代表キーワードを抽出する例を示す図である。
図6を参照すると、キーワード抽出システム100は、文書601に語彙分析モジュールを適用することによって文書601からキーワード広告のための代表キーワードの候補群のキーワードを抽出する。文書601に属するキーワードは、語彙分析モジュールを介して文書601に含まれる回数やキーワードの属性(品詞など)を決定する。語彙分析モジュール自体の機能は、本発明が属する技術分野において通常の知識を有する者に幅広く知られたレベルであるため、その具体的な説明は省略する。
文書601から抽出されたキーワードは、キーワード広告のための代表キーワードの候補キーワードである。文書601に属する各キーワードで文書601における出現頻度を決定する。図6を参照すると、文書601において「1世帯2住宅」というキーワードは複合名詞として2回度出現したことを意味する。
一例として、キーワード抽出システム100は、文書601から抽出されたキーワードのうち、名詞または複合名詞と共に特定形態素のタイプのみを選択し、残りはフィルタリングする。また、キーワード抽出システム100は、予め設定された出現頻度を示すキーワードのみを選択して残りはフィルタリングしてもよい。図6を参照すると、形態素のタイプや出現頻度によるフィルタリングを適用すると、文書601から抽出されたキーワードのうち、キーワード「1世帯2住宅」、「住宅」、「譲渡税」、および「アパート」が導き出される。
これによって、キーワード抽出システム100は、キーワードのカテゴリーに基づいて文書601のカテゴリーを選択する。上記説明した図4および図5の方法を適用すると、文書601は、カテゴリー「税務>税務会計」、「不動産>分譲」、「住宅/販売/賃貸」に属してもよく、それぞれのカテゴリーに対するスコアを算出する。
その後、キーワード抽出システム100は、文書のカテゴリーおよび文書内におけるキーワードの重要度を考慮して文書に関する少なくとも1つの代表キーワードを決定する。具体的に、キーワード抽出システム100は、代表キーワードを抽出するために関連度の低いカテゴリーを排除した状態で代表キーワードを決定する。例えば、キーワード抽出システム100は、関連度の基準上位N個のカテゴリーとの関連性に基づいて代表キーワードを決定してもよく、関与するカテゴリーの数は可変的に設定してもよい。
その後、キーワード抽出システム100は、文書601のカテゴリーをフィルタリングし、キーワードのスコアを算出してキーワード広告のための最終的な代表キーワードを導き出す。キーワードのスコアは、文書601内の重要度と文書601のカテゴリースコアとを併合して算出する。図6を参照すると、キーワード「譲渡税」に対して文書601でキーワードの重要度は7点であり、文書601のカテゴリーが「税務>税務会計」であるときはカテゴリースコアが6点であり、この場合、キーワードのスコアは42点のように算出される。そして、キーワード「アパート」に対して文書601でキーワードの重要度は8点であり、文書601のカテゴリーが「不動産>分譲」であるときにカテゴリースコアが8点であり、この場合、キーワードのスコアは64点のように算出される。
特に、キーワード「1世帯2住宅」に対して文書601においてキーワードの重要度は9点であり、文書601のカテゴリーが「税務>税務会計」と「不動産>分譲」であるときにカテゴリースコアがそれぞれ6点と8点であり、この場合、キーワードのスコアは126点のように算出される。しかし、キーワード「住宅」に対して文書601でキーワードの重要度は7点やカテゴリースコアに応じるフィルタリング過程によってフィルタリングされたことが分かる。すなわち、文書601は、実際に「税務>税務会計」、「不動産>分譲」というカテゴリーに関連があり、「住宅/販売/賃貸」というカテゴリーとは関連度が低いことが分かる。
これによって、キーワード「1世帯2住宅」は文書601との関係で高いスコアが算出される一方、キーワード「住宅」は文書601との関係で低いスコアが算出される。すなわち、図6に示すように上位3位に属するキーワードのみがキーワード広告の対象になる場合、「1世帯2住宅」、「譲渡税」、「アパート」が最終的に決定されて「住宅」はフィルタリングされる。
したがって、本発明の一実施形態によると、文書に含まれたキーワードであっても文書と関連度の低いキーワードに対してはキーワード広告の対象に決定しないためキーワード広告の正確度は向上する。
以上、図6を参照して説明した代表キーワードを決定する方法として、文書のカテゴリースコアと該当カテゴリーに属するキーワードの文書内の重要度が乗算されて代表キーワードを決定するためのスコアに換算したが、文書のカテゴリーおよび該当カテゴリーと文書内キーワードとの間の関連性に基づいた多様なスコア算出方法が代表キーワードを決定するために活用される。
他の例として、文書の代表キーワードを決定するときに基礎となる文書のカテゴリーが決定される場合、その決定された文書のカテゴリーに関する各キーワードの寄与度(該当カテゴリーが文書のキーワードに決定される過程におけるキーワード寄与度)が代表キーワード選定の基準として活用される。
文書のカテゴリーを分類するスコア算出過程において、各カテゴリーと文書の関連度を算出するため、各文書に属するキーワードのカテゴリー情報、文書内における該当キーワード重要度、および該当カテゴリーとキーワード間の関連性を考慮してもよい。
いずれのカテゴリーが代表キーワードを選定する文書のカテゴリーとして決定される場合、代表キーワード選定方法は、そのカテゴリーが文書のカテゴリーに決定される過程において、より多く寄与したキーワードが代表キーワードになる可能性をさらに高くして動作してもよい。例えば、文書のカテゴリーのカテゴリー1、2および3のスコアがそれぞれ100点、80点、60点であると仮定する。このとき、キーワード抽出システム100は、上位2つのカテゴリーに対して文書に含まれたキーワードが寄与したスコアを合算して代表キーワードを決定する。具体的に、キーワードAがカテゴリー1の100点のうち寄与した部分が15点であり、カテゴリー2の80点のうち寄与した部分が10点であれば、キーワードAの最終スコアは25点になる。このような方式によって、キーワード抽出システム100は、文書に含まれたキーワードの最終スコアを算出して文書に関する少なくとも1つの代表キーワードを決定する。例えば、キーワード抽出システム100は、最終スコアが特定の閾値以上のキーワードを代表キーワードとして決定するか、上位M個のキーワードを代表キーワードとして決定する。
図7は、本発明の一実施形態に係るキーワード抽出方法を示すフローチャートである。
キーワード抽出システム100は、文書に含まれた少なくとも1つのキーワードに対して文書内におけるキーワードの重要度を算出する(S701)。一例として、キーワード抽出システム100は、文書でキーワードの形態素タイプまたは文書内の出現情報のうち少なくとも1つを考慮してキーワードの重要度を算出する。このとき、キーワード抽出システム100は、文書で予め設定された頻度以上に出現したキーワードを対象に重要度を算出する。
このとき、キーワード抽出システム100は、キーワードが複合名詞であるか否かに応じてキーワードの重要度を差等的に算出する。具体的に、キーワードが複合名詞である場合、文書の内容を円満に表現すると仮定し、複合名詞ではないキーワードよりも高く重要度を算出する。
そして、文書内の出現情報は、キーワードの文書出現頻度およびキーワードの文書内の出現位置を含む。キーワードの文書出現頻度が高いほどキーワードの重要度は高く算出され、キーワードの文書内の出現位置が題名、タグ、本文の場合、題名、タグ、本文の順に重要度が算出される。
キーワード抽出システム100は、キーワードのカテゴリーに基づいて文書のカテゴリーを選択する(S702)。一例として、キーワード抽出システム100は、文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する。そして、キーワード抽出システム100は、文書から抽出されたキーワードのカテゴリーごとの出現頻度に文書でキーワードの重要度を繰り返し適用して文書のカテゴリーを選択する。
これによって、キーワード抽出システム100は、文書のカテゴリーおよびキーワードの重要度を考慮して文書に関する少なくとも1つの代表キーワードを決定する(S703)。このような過程によって文書から抽出されたキーワードのうち同音異義語の関係において、文書のカテゴリーに関連度が低いキーワードはキーワード広告のための対象に選択されないため、キーワード広告の正確度は向上することができる。
一例として、キーワード抽出システム100は、文書のカテゴリースコアと文書内におけるキーワードの重要度を組み合わせたスコアを用いて代表キーワードを決定する。他の一例として、キーワード抽出システム100は、文書のカテゴリースコアに対して文書に含まれたキーワードが寄与した寄与度を用いて代表キーワードを決定する。
図7で具体的に説明していない部分は図1〜図6に説明したため重複する説明は省略する。
本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録される。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであればよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成される。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
100 キーワード抽出システム
101 重要度算出部
102 カテゴリー選択部
103 代表キーワード決定部

Claims (15)

  1. 文書に含まれた少なくとも1つのキーワードに対して前記文書内における前記キーワードの重要度を算出する重要度算出部と、
    前記キーワードの前記カテゴリーに基づいて前記文書の前記カテゴリーを選択するカテゴリー選択部と、
    前記文書の前記カテゴリーおよび前記キーワードの重要度を考慮して前記文書に関する少なくとも1つの代表キーワードを決定する代表キーワード決定部と、
    を備え
    前記代表キーワード決定部は、前記文書のカテゴリースコアに対して前記文書に含まれた前記キーワードが寄与した寄与度を用いて前記代表キーワードを決定することを特徴とするキーワード抽出システム。
  2. 前記重要度算出部は、前記文書で前記キーワードの形態素タイプまたは前記文書内の出現情報のうち少なくとも1つを考慮して、前記キーワードの重要度を算出することを特徴とする請求項1に記載のキーワード抽出システム。
  3. 前記重要度算出部は、前記キーワードが複合名詞であるか否かに応じて、前記キーワードの重要度を差等的に算出することを特徴とする請求項2に記載のキーワード抽出システム。
  4. 前記重要度算出部は、前記文書で予め設定された頻度以上に出現した前記キーワードの重要度を算出することを特徴とする請求項2に記載のキーワード抽出システム。
  5. 前記重要度算出部は、前記キーワードの文書出現頻度および前記キーワードの前記文書内の出現位置を用いて前記文書内の出現情報を決定することを特徴とする請求項2に記載のキーワード抽出システム。
  6. 前記カテゴリー選択部は、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度を用いて、前記文書の前記カテゴリーを選択することを特徴とする請求項1に記載のキーワード抽出システム。
  7. 前記カテゴリー選択部は、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度に前記文書で前記キーワードの重要度を繰り返し適用して前記文書の前記カテゴリーを選択することを特徴とする請求項1に記載のキーワード抽出システム。
  8. キーワード抽出システムによって行われるキーワード抽出方法において、
    前記キーワード抽出システムの重要度算出部が、文書に含まれた少なくとも1つのキーワードに対して前記文書内における重要度を算出し、
    前記キーワード抽出システムのカテゴリー選択部が前記キーワードの前記カテゴリー情報に基づいて、前記文書のカテゴリーを選択し、
    前記キーワード抽出システムの代表キーワード決定部が、前記文書の前記カテゴリーおよび前記文書内における前記キーワードの重要度を考慮して前記文書に関する少なくとも1つの代表キーワードを決定することを含み、
    前記代表キーワードを決定することは、前記文書のカテゴリースコアに対して前記文書に含まれたキーワードが寄与した寄与度を用いて代表キーワードを決定することを特徴とするキーワード抽出方法。
  9. 前記文書で前記キーワードの重要度を算出することは、前記文書で前記キーワードの形態素タイプまたは前記文書内の出現情報のうち少なくとも1つを考慮して前記キーワードの重要度を算出することを特徴とする請求項に記載のキーワード抽出方法。
  10. 前記文書でキーワードの重要度を算出することは、前記キーワードが複合名詞であるか否かに応じて、前記キーワードの重要度を差等的に算出することを特徴とする請求項に記載のキーワード抽出方法。
  11. 前記文書でキーワードの重要度を算出することは、前記文書で予め設定された頻度以上に出現した前記キーワードの重要度を算出することを特徴とする請求項に記載のキーワード抽出方法。
  12. 前記文書でキーワードの重要度を算出することは、前記キーワードの文書出現頻度および前記キーワードの前記文書内の出現位置を用いて、前記文書内の出現情報を決定することを特徴とする請求項に記載のキーワード抽出方法。
  13. 前記文書のカテゴリーを選択することは、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度を用いて、前記文書の前記カテゴリーを選択することを特徴とする請求項に記載のキーワード抽出方法。
  14. 前記文書のカテゴリーを選択することは、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度に前記文書で前記キーワードの重要度を繰り返し適用して、前記文書の前記カテゴリーを選択することを特徴とする請求項に記載のキーワード抽出方法。
  15. 請求項14のいずれか1項に記載のキーワード抽出方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
JP2011254699A 2010-11-23 2011-11-22 カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 Active JP5832869B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100116811A KR101614551B1 (ko) 2010-11-23 2010-11-23 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
KR10-2010-0116811 2010-11-23

Publications (2)

Publication Number Publication Date
JP2012113716A JP2012113716A (ja) 2012-06-14
JP5832869B2 true JP5832869B2 (ja) 2015-12-16

Family

ID=46497792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011254699A Active JP5832869B2 (ja) 2010-11-23 2011-11-22 カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法

Country Status (2)

Country Link
JP (1) JP5832869B2 (ja)
KR (1) KR101614551B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142975B1 (ja) 2021-10-13 2022-09-28 ケージーパルテック株式会社 戸袋走行レールセット、戸袋走行レールセット設置方法、および戸袋走行レール調整方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101602855B1 (ko) * 2014-04-04 2016-03-14 김윤환 설명서 검색 키워드를 활용한 애프터서비스 요청 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4008551B2 (ja) * 1997-11-07 2007-11-14 富士通株式会社 キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体
JP2003281159A (ja) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
JP2004185515A (ja) * 2002-12-05 2004-07-02 Ricoh Co Ltd テキストデータ評価装置、その方法、そのプログラム、及びその記録媒体
US8463779B2 (en) * 2007-10-30 2013-06-11 Yahoo! Inc. Representative keyword selection
JP4859893B2 (ja) * 2008-08-12 2012-01-25 ヤフー株式会社 広告配信装置、広告配信方法、及び広告配信制御プログラム
US8224693B2 (en) * 2009-05-14 2012-07-17 Hewlett-Packard Development Company, L.P. Advertisement selection based on key words

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142975B1 (ja) 2021-10-13 2022-09-28 ケージーパルテック株式会社 戸袋走行レールセット、戸袋走行レールセット設置方法、および戸袋走行レール調整方法

Also Published As

Publication number Publication date
KR101614551B1 (ko) 2016-04-22
JP2012113716A (ja) 2012-06-14
KR20120075553A (ko) 2012-07-09

Similar Documents

Publication Publication Date Title
US10642938B2 (en) Artificial intelligence based method and apparatus for constructing comment graph
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
JP6657124B2 (ja) 会話理解システムのためのセッションコンテキストモデリング
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
JP5117379B2 (ja) オンライン会話コンテンツを用いて表示のために広告コンテンツ及び/又は他の関連情報を選択するシステム及び方法
US8311957B2 (en) Method and system for developing a classification tool
US8630972B2 (en) Providing context for web articles
US8782037B1 (en) System and method for mark-up language document rank analysis
US8355997B2 (en) Method and system for developing a classification tool
CN106663117B (zh) 构造支持提供探索性建议的图
US8311997B1 (en) Generating targeted paid search campaigns
Grenager et al. Unsupervised learning of field segmentation models for information extraction
US9519870B2 (en) Weighting dictionary entities for language understanding models
US20120303557A1 (en) Interactive framework for name disambiguation
US20200065770A1 (en) Automatic tagging for online job listings
US20110004573A1 (en) Identifying training documents for a content classifier
CN101241512A (zh) 一种重新定义查询词的搜索方法及装置
US20200210442A1 (en) Identifying and extracting addresses within content
AU2014228754C1 (en) Non-deterministic disambiguation and matching of business locale data
KR20110117440A (ko) 문서 간 유사도 계산 시스템 및 방법
AU2018250372B2 (en) Method to construct content based on a content repository
KR20170120389A (ko) 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
US20230111911A1 (en) Generation and use of content briefs for network content authoring
Arguello et al. Using query performance predictors to reduce spoken queries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140602

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20141010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151028

R150 Certificate of patent or registration of utility model

Ref document number: 5832869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250