JP5832869B2

JP5832869B2 - カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法

Info

Publication number: JP5832869B2
Application number: JP2011254699A
Authority: JP
Inventors: 昊錫李; 鐘豪尹
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2010-11-23
Filing date: 2011-11-22
Publication date: 2015-12-16
Anticipated expiration: 2031-11-22
Also published as: KR101614551B1; JP2012113716A; KR20120075553A

Description

本発明は、キーワード抽出システムおよびキーワード抽出方法に関し、より詳しくは、キーワード広告のために文書のカテゴリーにマッチングされたキーワードを抽出するシステムおよびその方法に関する。

キーワード広告はキーワードとマッチングされる広告として、検索広告、文脈広告などに分類されている。従来のキーワード広告は、広告を提供しようとする文書でキーワードごとにスコアを算定し、スコアに応じて広告とマッチングされるキーワードを導き出していた。このとき、スコアは文書内でキーワードが出現する回数（ＴＦ：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）に応じて決定されていた。

このとき、単にキーワードのスコアから広告とマッチングされるキーワードを導き出す場合、文書と実際に関連度の低い広告も提供される恐れがある。

したがって、キーワード広告の正確度を向上させることのできるキーワードを抽出する方法が要求されている。

本発明の目的は、文書から抽出されたキーワードのカテゴリーに基づいて文書のカテゴリーを選択することによって、文書と実際に関連度の高い広告を提供することのできるキーワード抽出システムおよびキーワード抽出方法を提供する。

本発明の目的は、キーワードのカテゴリーを文書のカテゴリーを選択するのに適用することによって、キーワードとキーワード広告との間の関連性を向上させることのできるキーワード抽出システムおよびキーワード抽出方法を提供する。

本発明の一実施形態に係るキーワード抽出システムは、文書に含まれた少なくとも１つのキーワードに対して文書内におけるキーワードの重要度を算出する重要度算出部と、キーワードのカテゴリーに基づいて文書のカテゴリーを選択するカテゴリー選択部と、文書のカテゴリーおよびキーワードの重要度を考慮して文書に関する少なくとも１つの代表キーワードを決定する代表キーワード決定部と、を備えることを特徴とする。

重要度算出部は、文書でキーワードの形態素タイプまたは文書内の出現情報のうち少なくとも１つを考慮してキーワードの重要度を算出してもよい。

重要度算出部は、キーワードが複合名詞であるか否かに応じてキーワードの重要度を差等（等級）的に算出してもよい。

重要度算出部は、文書で予め設定された頻度以上に出現したキーワードの重要度を算出してもよい。

重要度算出部は、キーワードの文書出現頻度およびキーワードの文書内の出現位置を用いて文書内の出現情報を決定してもよい。

カテゴリー選択部は、文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択してもよい。

カテゴリー選択部は、文書から抽出されたキーワードのカテゴリーごとの出現頻度に文書でキーワードの重要度を繰り返し適用して文書のカテゴリーを選択してもよい。

本発明の一実施形態に係るキーワード抽出システムによって行われるキーワード抽出方法は、キーワード抽出システムの重要度算出部が、文書に含まれた少なくとも１つのキーワードに対して文書内における重要度を算出し、キーワード抽出システムのカテゴリー選択部がキーワードのカテゴリー情報に基づいて文書のカテゴリーを選択し、キーワード抽出システムの代表キーワード決定部が、文書のカテゴリーおよび文書内におけるキーワードの重要度を考慮して文書に関する少なくとも１つの代表キーワードを決定することを特徴とする。

本発明によると、容易に変更されないタイプであるキーワードとカテゴリーとの間のマッチング情報を用いることによって索引の更新周期を増加させることができる。

本発明によると、キーワードのカテゴリーに応じて文書のカテゴリーを決定することによって、キーワード広告の性質を明確に設定することができる。

本発明によると、文書のカテゴリーを選択することによって、より正確なキーワード広告を提供することができる。

本発明の一実施形態に係るキーワード抽出システムを示すブロック図である。本発明の一実施形態に係る文書からキーワード広告のためのキーワードを抽出する過程を説明する図である。本発明の一実施形態に係る文書から抽出されたキーワードの重要度を算出する過程を説明する図である。本発明の一実施形態に係る文書のカテゴリーを選択する過程を説明する図である。本発明の他の実施形態に係る文書のカテゴリーを選択する過程を説明する図である。本発明の一実施形態に係る文書からキーワード広告のための代表キーワードを抽出する例を示す図である。本発明の一実施形態に係るキーワード抽出方法を示すフローチャートである。

以下、本発明の実施形態を添付する図面を参照しながら詳細に説明する。本発明の一実施形態に係るキーワード抽出方法はキーワード抽出システムによって行われてもよい。

図１は、本発明の一実施形態に係るキーワード抽出システムを示すブロック図である。

図１を参照すると、キーワード抽出システム１００は、重要度算出部１０１、カテゴリー選択部１０２、および代表キーワード決定部１０３を備えている。

重要度算出部１０１は、キーワード抽出システム１００により抽出された文書に含まれる少なくとも１つのキーワードに対して文書内におけるキーワードの重要度を算出する。このとき、文書は少なくとも１つのキーワードを含む掲示物を意味する。キーワード抽出システム１００により抽出された文書は少なくとも１つであってもよく、文書の出処は制限されない。

このとき、重要度算出部１０１は、文書を対象に形態素分析を行って文書から少なくとも１つのキーワードを抽出する。形態素分析のためにｎｐｇｒｄｙ方式を用いてもよい。例えば、入力が「ブラックボックス」である場合、ｎｐｇｒｄｙ方式による出力は「ブラック、ボックス、ブラックボックス」のようなる。この場合、複数の単語から構成された複合語についても処理できる長所がある。

一例として、重要度算出部１０１は、文書でキーワードの形態素タイプまたは文書内の出現情報のうち、少なくとも１つを考慮してキーワードの重要度を算出している。このとき、重要度算出部１０１は、文書で予め設定された頻度以上に出現したキーワードを対象にして重要度を算出する。

重要度算出部１０１は、キーワードが複合名詞であるか否かに応じて、キーワードの重要度を差等的に算出する。具体的に、重要度算出部１０１は、キーワードが複合名詞である場合は、そうではない場合よりも高い重要度を決定する。なぜなら、キーワードが複合名詞である場合、複合名詞を構成する単語それぞれによって該当キーワードの性格が明確になるため、該当キーワードを含む文書の性格も正確に定義される。

そして、重要度算出部１０１は、キーワードの文書出現頻度およびキーワードの文書内の出現位置を用いて文書内の出現情報を決定する。キーワードの重要度は文書内の出現情報に基づいて算出してもよい。

本発明の実施形態では、キーワードの重要度は文書に従属するため、同一のキーワードといっても該当キーワードを含む文書に応じて重要度が異なるように決定される。重要度を算出する過程については図３を参照して具体的に説明する。

カテゴリー選択部１０２は、文書に含まれたキーワードのカテゴリーに基づいて文書のカテゴリーを選択する。

一例として、カテゴリー選択部１０２は、単純ベイズ分類器（ＮａｉｖｅＢａｙｅｓｉａｎＣｌａｓｓｉｆｉｅｒ）によって文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する。他の一例として、カテゴリー選択部１０２は、ページランク（ＰａｇｅＲａｎｋ）（登録商標）に応じて、文書から抽出されたキーワードのカテゴリーごとの出現頻度に文書におけるキーワードの重要度を繰り返し適用して、文書のカテゴリーを選択する。カテゴリーを選択する過程については図４および図５を参照して具体的に説明する。

代表キーワード決定部１０３は、文書のカテゴリーおよびキーワードの重要度を考慮して文書に関する少なくとも１つの代表キーワードを決定する。例えば、キーワードが同音異義語である場合、代表キーワード決定部１０３は、該当キーワードが文書のカテゴリーに分類されたキーワードに該当すると、キーワード広告のための代表キーワードとして決定する。すなわち、代表キーワード決定部１０３は同音異義語に対してもキーワード広告の正確度を保証することができる。

すなわち、文書に含まれたキーワードは、図１に示すキーワード抽出システム１００によって文書内で重要度が高いながらも文書のカテゴリーに属する場合にキーワード広告のための代表キーワードから抽出する。抽出された代表キーワードは、キーワード広告とマッチングされて広告データベースに登録される。

図２は、本発明の一実施形態に係る文書からキーワード広告のキーワードを抽出する過程を説明する図である。

図２を参照すると、文書にキーワード広告の根拠になるキーワードＡ、キーワードＢ、およびキーワードＣを含むと仮定する。これによって、キーワード抽出システム１００は、キーワードＡ、キーワードＢ、およびキーワードＣそれぞれに対して文書内における重要度を算出する。または、性能向上のために、キーワード抽出システム１００は名詞または複合名詞ではないか、文書内で予め設定された頻度以上に出現していないキーワードＢをフィルタリングした後重要度を算出する。

そして、キーワード抽出システム１００は、キーワードＡ、キーワードＢ、およびキーワードＣそれぞれのカテゴリーを用いて文書のカテゴリーを選択する。このとき、キーワード抽出システム１００は、文書から抽出されたキーワードＡ、キーワードＢ、およびキーワードＣのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する。または、キーワード抽出システム１００は、文書から抽出されたキーワードＡ、キーワードＢ、およびキーワードＣのカテゴリーごとの出現頻度に文書における重要度を繰り返し適用して文書のカテゴリーを選択する。

図２ではキーワードＡとキーワードＣによって文書がカテゴリー（イ）に属するものと決定された。これによって、文書に含まれたキーワードのうち、文書のカテゴリー（イ）に属するキーワードのキーワードＡ、キーワードＣが最終的に抽出され、抽出されたキーワードＡおよびキーワードＣはキーワード広告とそれぞれマッチングされる。もし、キーワードＢが同音異義語として実質的な意味が文書のカテゴリー（イ）と全く関係のない場合、キーワード抽出システム１００はキーワードＢを抽出しなくてもよい。

図３は、本発明の一実施形態に係る文書から抽出されたキーワードの重要度を算出する過程を説明する図である。

キーワード抽出システム１００は、文書から少なくとも１つのキーワードを抽出し、キーワードそれぞれに対して文書内での重要度を算出する。一例として、図３を参照すると、キーワード抽出システム１００は、キーワードの形態素タイプまたは文書内の出現情報のうち少なくとも１つを考慮してキーワードの重要度を算出する。このとき、形態素タイプは、複合名詞と複合名詞以外の形態素に分類される。すなわち、キーワード抽出システム１００は、動詞、単一名詞、副詞のような形態素よりも多い情報を有する複合名詞に高い加重値を付与して重要度を算出する。

このとき、キーワードの複合名詞を構成する単語が多いほど重要度は高く算出される。もし、キーワードの形態素が複合名詞ではない場合、キーワードの重要度は１の加重値が適用される一方、キーワードの形態素が複合名詞である場合、キーワードの重要度は１と複合名詞のキーワードを構成する単語の数に応じて「エラー！ブックマークが定義されていません。」の加重値が適用されてもよい。すなわち、「花配達」よりは「会社員信用貸出」のようなキーワードが高い加重値が適用される。

そして、文書内の出現情報は、文書内の出現頻度と文書内の出現位置に分類される。特に、文書内の出現頻度は、キーワードの文書内の出現位置に加重値が付与される。すなわち、キーワードが題名のように文書の性格を直接的に示す位置に出現した場合に重要度は高く付与され、本文のように文書の性格を直接的に示さない位置に出現した場合に重要度は低く付与される。図３を参照すると、題名、タグ、本文にキーワードが位置する場合、出現頻度に対する加重値はそれぞれ５：３：１のように決定される。

図４は、本発明の一実施形態に係る文書のカテゴリーを選択する過程を説明する図である。

特に、図４は、単純ベイズ分類器によって文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する過程を示す。図４を参照すると、キーワード抽出システム１００は、キーワードに対して予め設定されているトリー形態の業種カテゴリーの学習データを用いて文書のカテゴリーを選択する。学習データは固定されたものではなく、周期的にアップデートされる。

図４において、文書はまだカテゴリーが決定されていない状態であると仮定する。このとき、文書は下記の数式（１）によってカテゴリーＣ５、Ｃ６、Ｃ７、Ｃ８それぞれの確率が算出されてもよい。

・・・（１）

すなわち、文書ＤがカテゴリーＣに属する確率は、文書Ｄに属するキーワードｋがカテゴリーＣに属する確率に応じて決定される。具体的に、キーワードｋがカテゴリーＣ５に属する確率はキーワードｋが全てのカテゴリーＣ５、Ｃ６、Ｃ７、Ｃ８における出現回数対比によりカテゴリーＣ５における出現回数に基づいて決定される。これによって、キーワード抽出システム１００は、カテゴリーＣ５、Ｃ６、Ｃ７、Ｃ８それぞれに対して文書が属する確率を求め、最も高い確率を示すカテゴリーを文書のカテゴリーに選択する。すなわち、本発明の一実施形態によると、文書のカテゴリーは文書に属するキーワードそれぞれのカテゴリーに基づいて決定される。

図５は、本発明の他の実施形態に係る文書のカテゴリーを選択する過程を説明する図である。

特に、図５は、ページランク（登録商標）に応じて文書から抽出されたキーワードのカテゴリーごとの出現頻度で文書内におけるキーワードの重要度を繰り返し適用して文書のカテゴリーを選択する過程を示す。

文書からキーワードＫ１、Ｋ２、Ｋ３、Ｋ４、Ｋ５が抽出され、図５のマトリックス５０１はキーワードそれぞれに対してカテゴリーＣ５、Ｃ６、Ｃ７、Ｃ８における出現頻度で構成される。すなわち、本発明の一実施形態によると、ウェブページとウェブページとの間のリンクを示すページランク（登録商標）の基本形態を考慮し、キーワードとカテゴリーとの間のリンクに変換した後、ページランク（登録商標）を適用したものである。

これによって、キーワード抽出システム１００は、マトリックス５０１に重要度５０２を適用して重要度５０３を導き出すことができる。このとき、重要度５０２は、キーワードＫ１、Ｋ２、Ｋ３、Ｋ４、Ｋ５の最初重要度を意味し、文書でキーワードの出現頻度、出現位置、形態素などに応じて決定された値である。その後、キーワード抽出システム１００は、マトリックス５０１に最初のステップで導き出された重要度５０３を適用して重要度５０４を導き出す。キーワード抽出システム１００は、図５の過程をＫ回繰り返すことによって重要度を特定の値に収束させる。これによって、キーワード抽出システム１００は、最終的な重要度で最も高い重要度を示すカテゴリーを文書のカテゴリーに設定する。

図４および図５の文書カテゴリー決定方法は例示的な方法であり、いずれのキーワードが文書内に有する重要度の指標、およびそのキーワードのカテゴリー情報に基づく様々な方法の文書カテゴリー決定方法を用いる。この過程において、キーワードおよびそのキーワードカテゴリーの間の関連度を示す指標が考慮されることはもちろんである。図６は、本発明の一実施形態に係る文書からキーワード広告のための代表キーワードを抽出する例を示す図である。

図６を参照すると、キーワード抽出システム１００は、文書６０１に語彙分析モジュールを適用することによって文書６０１からキーワード広告のための代表キーワードの候補群のキーワードを抽出する。文書６０１に属するキーワードは、語彙分析モジュールを介して文書６０１に含まれる回数やキーワードの属性（品詞など）を決定する。語彙分析モジュール自体の機能は、本発明が属する技術分野において通常の知識を有する者に幅広く知られたレベルであるため、その具体的な説明は省略する。

文書６０１から抽出されたキーワードは、キーワード広告のための代表キーワードの候補キーワードである。文書６０１に属する各キーワードで文書６０１における出現頻度を決定する。図６を参照すると、文書６０１において「１世帯２住宅」というキーワードは複合名詞として２回度出現したことを意味する。

一例として、キーワード抽出システム１００は、文書６０１から抽出されたキーワードのうち、名詞または複合名詞と共に特定形態素のタイプのみを選択し、残りはフィルタリングする。また、キーワード抽出システム１００は、予め設定された出現頻度を示すキーワードのみを選択して残りはフィルタリングしてもよい。図６を参照すると、形態素のタイプや出現頻度によるフィルタリングを適用すると、文書６０１から抽出されたキーワードのうち、キーワード「１世帯２住宅」、「住宅」、「譲渡税」、および「アパート」が導き出される。

これによって、キーワード抽出システム１００は、キーワードのカテゴリーに基づいて文書６０１のカテゴリーを選択する。上記説明した図４および図５の方法を適用すると、文書６０１は、カテゴリー「税務＞税務会計」、「不動産＞分譲」、「住宅／販売／賃貸」に属してもよく、それぞれのカテゴリーに対するスコアを算出する。

その後、キーワード抽出システム１００は、文書のカテゴリーおよび文書内におけるキーワードの重要度を考慮して文書に関する少なくとも１つの代表キーワードを決定する。具体的に、キーワード抽出システム１００は、代表キーワードを抽出するために関連度の低いカテゴリーを排除した状態で代表キーワードを決定する。例えば、キーワード抽出システム１００は、関連度の基準上位Ｎ個のカテゴリーとの関連性に基づいて代表キーワードを決定してもよく、関与するカテゴリーの数は可変的に設定してもよい。

その後、キーワード抽出システム１００は、文書６０１のカテゴリーをフィルタリングし、キーワードのスコアを算出してキーワード広告のための最終的な代表キーワードを導き出す。キーワードのスコアは、文書６０１内の重要度と文書６０１のカテゴリースコアとを併合して算出する。図６を参照すると、キーワード「譲渡税」に対して文書６０１でキーワードの重要度は７点であり、文書６０１のカテゴリーが「税務＞税務会計」であるときはカテゴリースコアが６点であり、この場合、キーワードのスコアは４２点のように算出される。そして、キーワード「アパート」に対して文書６０１でキーワードの重要度は８点であり、文書６０１のカテゴリーが「不動産＞分譲」であるときにカテゴリースコアが８点であり、この場合、キーワードのスコアは６４点のように算出される。

特に、キーワード「１世帯２住宅」に対して文書６０１においてキーワードの重要度は９点であり、文書６０１のカテゴリーが「税務＞税務会計」と「不動産＞分譲」であるときにカテゴリースコアがそれぞれ６点と８点であり、この場合、キーワードのスコアは１２６点のように算出される。しかし、キーワード「住宅」に対して文書６０１でキーワードの重要度は７点やカテゴリースコアに応じるフィルタリング過程によってフィルタリングされたことが分かる。すなわち、文書６０１は、実際に「税務＞税務会計」、「不動産＞分譲」というカテゴリーに関連があり、「住宅／販売／賃貸」というカテゴリーとは関連度が低いことが分かる。

これによって、キーワード「１世帯２住宅」は文書６０１との関係で高いスコアが算出される一方、キーワード「住宅」は文書６０１との関係で低いスコアが算出される。すなわち、図６に示すように上位３位に属するキーワードのみがキーワード広告の対象になる場合、「１世帯２住宅」、「譲渡税」、「アパート」が最終的に決定されて「住宅」はフィルタリングされる。

したがって、本発明の一実施形態によると、文書に含まれたキーワードであっても文書と関連度の低いキーワードに対してはキーワード広告の対象に決定しないためキーワード広告の正確度は向上する。

以上、図６を参照して説明した代表キーワードを決定する方法として、文書のカテゴリースコアと該当カテゴリーに属するキーワードの文書内の重要度が乗算されて代表キーワードを決定するためのスコアに換算したが、文書のカテゴリーおよび該当カテゴリーと文書内キーワードとの間の関連性に基づいた多様なスコア算出方法が代表キーワードを決定するために活用される。

他の例として、文書の代表キーワードを決定するときに基礎となる文書のカテゴリーが決定される場合、その決定された文書のカテゴリーに関する各キーワードの寄与度（該当カテゴリーが文書のキーワードに決定される過程におけるキーワード寄与度）が代表キーワード選定の基準として活用される。

文書のカテゴリーを分類するスコア算出過程において、各カテゴリーと文書の関連度を算出するため、各文書に属するキーワードのカテゴリー情報、文書内における該当キーワード重要度、および該当カテゴリーとキーワード間の関連性を考慮してもよい。

いずれのカテゴリーが代表キーワードを選定する文書のカテゴリーとして決定される場合、代表キーワード選定方法は、そのカテゴリーが文書のカテゴリーに決定される過程において、より多く寄与したキーワードが代表キーワードになる可能性をさらに高くして動作してもよい。例えば、文書のカテゴリーのカテゴリー１、２および３のスコアがそれぞれ１００点、８０点、６０点であると仮定する。このとき、キーワード抽出システム１００は、上位２つのカテゴリーに対して文書に含まれたキーワードが寄与したスコアを合算して代表キーワードを決定する。具体的に、キーワードＡがカテゴリー１の１００点のうち寄与した部分が１５点であり、カテゴリー２の８０点のうち寄与した部分が１０点であれば、キーワードＡの最終スコアは２５点になる。このような方式によって、キーワード抽出システム１００は、文書に含まれたキーワードの最終スコアを算出して文書に関する少なくとも１つの代表キーワードを決定する。例えば、キーワード抽出システム１００は、最終スコアが特定の閾値以上のキーワードを代表キーワードとして決定するか、上位Ｍ個のキーワードを代表キーワードとして決定する。

図７は、本発明の一実施形態に係るキーワード抽出方法を示すフローチャートである。

キーワード抽出システム１００は、文書に含まれた少なくとも１つのキーワードに対して文書内におけるキーワードの重要度を算出する（Ｓ７０１）。一例として、キーワード抽出システム１００は、文書でキーワードの形態素タイプまたは文書内の出現情報のうち少なくとも１つを考慮してキーワードの重要度を算出する。このとき、キーワード抽出システム１００は、文書で予め設定された頻度以上に出現したキーワードを対象に重要度を算出する。

このとき、キーワード抽出システム１００は、キーワードが複合名詞であるか否かに応じてキーワードの重要度を差等的に算出する。具体的に、キーワードが複合名詞である場合、文書の内容を円満に表現すると仮定し、複合名詞ではないキーワードよりも高く重要度を算出する。

そして、文書内の出現情報は、キーワードの文書出現頻度およびキーワードの文書内の出現位置を含む。キーワードの文書出現頻度が高いほどキーワードの重要度は高く算出され、キーワードの文書内の出現位置が題名、タグ、本文の場合、題名、タグ、本文の順に重要度が算出される。

キーワード抽出システム１００は、キーワードのカテゴリーに基づいて文書のカテゴリーを選択する（Ｓ７０２）。一例として、キーワード抽出システム１００は、文書から抽出されたキーワードのカテゴリーごとの出現頻度を用いて文書のカテゴリーを選択する。そして、キーワード抽出システム１００は、文書から抽出されたキーワードのカテゴリーごとの出現頻度に文書でキーワードの重要度を繰り返し適用して文書のカテゴリーを選択する。

これによって、キーワード抽出システム１００は、文書のカテゴリーおよびキーワードの重要度を考慮して文書に関する少なくとも１つの代表キーワードを決定する（Ｓ７０３）。このような過程によって文書から抽出されたキーワードのうち同音異義語の関係において、文書のカテゴリーに関連度が低いキーワードはキーワード広告のための対象に選択されないため、キーワード広告の正確度は向上することができる。

一例として、キーワード抽出システム１００は、文書のカテゴリースコアと文書内におけるキーワードの重要度を組み合わせたスコアを用いて代表キーワードを決定する。他の一例として、キーワード抽出システム１００は、文書のカテゴリースコアに対して文書に含まれたキーワードが寄与した寄与度を用いて代表キーワードを決定する。

図７で具体的に説明していない部分は図１〜図６に説明したため重複する説明は省略する。

本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録される。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの１つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであればよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、光ディスクのような光磁気媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コード（ｍａｃｈｉｎｅｃｏｄｅ）だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード（ｈｉｇｈｅｒｌｅｖｅｌｃｏｄｅ）を含む。上述したハードウェア装置は、本発明の動作を行うために１つ以上のソフトウェアのレイヤで動作するように構成される。

上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。

したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。

１００キーワード抽出システム
１０１重要度算出部
１０２カテゴリー選択部
１０３代表キーワード決定部

Claims

文書に含まれた少なくとも１つのキーワードに対して前記文書内における前記キーワードの重要度を算出する重要度算出部と、
前記キーワードの前記カテゴリーに基づいて前記文書の前記カテゴリーを選択するカテゴリー選択部と、
前記文書の前記カテゴリーおよび前記キーワードの重要度を考慮して前記文書に関する少なくとも１つの代表キーワードを決定する代表キーワード決定部と、
を備え、
前記代表キーワード決定部は、前記文書のカテゴリースコアに対して前記文書に含まれた前記キーワードが寄与した寄与度を用いて前記代表キーワードを決定することを特徴とするキーワード抽出システム。
前記重要度算出部は、前記文書で前記キーワードの形態素タイプまたは前記文書内の出現情報のうち少なくとも１つを考慮して、前記キーワードの重要度を算出することを特徴とする請求項１に記載のキーワード抽出システム。
前記重要度算出部は、前記キーワードが複合名詞であるか否かに応じて、前記キーワードの重要度を差等的に算出することを特徴とする請求項２に記載のキーワード抽出システム。
前記重要度算出部は、前記文書で予め設定された頻度以上に出現した前記キーワードの重要度を算出することを特徴とする請求項２に記載のキーワード抽出システム。
前記重要度算出部は、前記キーワードの文書出現頻度および前記キーワードの前記文書内の出現位置を用いて前記文書内の出現情報を決定することを特徴とする請求項２に記載のキーワード抽出システム。
前記カテゴリー選択部は、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度を用いて、前記文書の前記カテゴリーを選択することを特徴とする請求項１に記載のキーワード抽出システム。
前記カテゴリー選択部は、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度に前記文書で前記キーワードの重要度を繰り返し適用して前記文書の前記カテゴリーを選択することを特徴とする請求項１に記載のキーワード抽出システム。
キーワード抽出システムによって行われるキーワード抽出方法において、
前記キーワード抽出システムの重要度算出部が、文書に含まれた少なくとも１つのキーワードに対して前記文書内における重要度を算出し、
前記キーワード抽出システムのカテゴリー選択部が前記キーワードの前記カテゴリー情報に基づいて、前記文書のカテゴリーを選択し、
前記キーワード抽出システムの代表キーワード決定部が、前記文書の前記カテゴリーおよび前記文書内における前記キーワードの重要度を考慮して前記文書に関する少なくとも１つの代表キーワードを決定することを含み、
前記代表キーワードを決定することは、前記文書のカテゴリースコアに対して前記文書に含まれたキーワードが寄与した寄与度を用いて代表キーワードを決定することを特徴とするキーワード抽出方法。
前記文書で前記キーワードの重要度を算出することは、前記文書で前記キーワードの形態素タイプまたは前記文書内の出現情報のうち少なくとも１つを考慮して前記キーワードの重要度を算出することを特徴とする請求項８に記載のキーワード抽出方法。
前記文書でキーワードの重要度を算出することは、前記キーワードが複合名詞であるか否かに応じて、前記キーワードの重要度を差等的に算出することを特徴とする請求項９に記載のキーワード抽出方法。
前記文書でキーワードの重要度を算出することは、前記文書で予め設定された頻度以上に出現した前記キーワードの重要度を算出することを特徴とする請求項９に記載のキーワード抽出方法。
前記文書でキーワードの重要度を算出することは、前記キーワードの文書出現頻度および前記キーワードの前記文書内の出現位置を用いて、前記文書内の出現情報を決定することを特徴とする請求項９に記載のキーワード抽出方法。
前記文書のカテゴリーを選択することは、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度を用いて、前記文書の前記カテゴリーを選択することを特徴とする請求項８に記載のキーワード抽出方法。
前記文書のカテゴリーを選択することは、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度に前記文書で前記キーワードの重要度を繰り返し適用して、前記文書の前記カテゴリーを選択することを特徴とする請求項８に記載のキーワード抽出方法。
請求項８〜１４のいずれか１項に記載のキーワード抽出方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。