JP4245364B2

JP4245364B2 - キーワード抽出装置、プログラム、及び記録媒体

Info

Publication number: JP4245364B2
Application number: JP2003025613A
Authority: JP
Inventors: 雅子望主
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-02-03
Filing date: 2003-02-03
Publication date: 2009-03-25
Anticipated expiration: 2023-02-03
Also published as: JP2004234597A

Description

【０００１】
【発明の属する技術分野】
本発明は、キーワード抽出装置、プログラム、及び記録媒体、より詳細には、文書中の重要な概念を表すキーワードを抽出するためのキーワード抽出装置、プログラム、及び記録媒体に関する。
【０００２】
【従来の技術】
文書から文書の主題を表す情報としてキーワードを自動抽出する技術が古くから研究、開発されてきている。一般的な方法として、文書中で繰り返し出現する語句は文書の内容を表す重要な概念を表現しているという仮定から、文書中に出現した語句の頻度を使う方法がある。（例えば、非特許文献１参照）
しかしながら、この場合、頻度の高くない語はキーワードとして抽出されない問題がある。また頻度の高い語を抽出することにより、一般的な語だけが抽出されてしまうという問題がある。
【０００３】
これに対して、キーワードを抽出する対象文書の頻度以外に、文書が格納されているデータベース中の他の文書における語の頻度を用いる方法が開示されている。（例えば、特許文献１参照）
しかしながら、この方法では他の文書についても処理を行なう必要があり、単一の文書あるいは暫時的に文書が登録される場合などでは他文書の頻度を得るタイミングが難しく、処理コストがかかる。
【０００４】
また、頻度以外に複数の文書を用いて同一文書に出現したキーワードは関連があるとして検索時の関連語提示として用いる方法が開示されている。（例えば、特許文献２参照）
しかしながら、この方法でもデータベース内の他の文書のキーワードの出現情報を得る必要があり、処理のタイミングやコストの面で問題がある。
【０００５】
また、頻度を用いず、文書中の表現を用いる方法として、頻度以外に企業名や団体名でよく使われる文字（例えば、「（株）」など）に着目し、これを含む語句をキーワードとして抽出する方法が開示されている。（例えば、特許文献３参照）
この場合、企業名、団体名などあらかじめ登録された表現にだけ有効であり、また登録の手間が生じる。
【０００６】
【非特許文献１】
言語と計算５「情報検索と言語処理」２６．ｐ−２７，１９９９，徳
永健伸著，東京大学出版会
【特許文献１】
特開２０００−７６２５４号公報
【特許文献２】
特開平５−２８２３６７号公報
【特許文献３】
特開平５−１２０３４５号公報
【０００７】
【発明が解決しようとする課題】
本発明は、上述のごとき実情に鑑みてなされたものであり、文書中の出現頻度情報以外に、文書中の特定の範囲において特定の語に共起するキーワード候補をキーワードとして選択できるようにし、特定単語と関係性の高い単語をキーワードとして抽出できるようにすること、をその目的とする。
また、各キーワード候補に対応づけて点数を付与し、特定の語に共起するキーワード候補に付与した点数が高くなるように加点することにより、特定単語と関係性の高い単語をキーワードとして抽出できるようにすること、をその目的としてなされたものである。
【０００８】
【課題を解決するための手段】
請求項１の発明は、ユーザの興味、嗜好に関するプロファイル情報を格納したプロファイルデータベースにアクセス可能なキーワード抽出装置であって、文書中から単語あるいは単語列を、該文書のキーワード候補として抽出するキーワード候補抽出部と、前記プロファイルデータベースのプロファイル情報中に記憶されている語の中から特定の語を抽出する特定単語抽出部と、前記キーワード候補抽出部により抽出されたキーワード候補に対応付けて点数を付与すると共に、前記文書中の特定の範囲において、前記特定単語抽出部により抽出された特定の語に共起する前記キーワード候補に付与した点数が高くなるように加点するキーワード候補評価部とを有し、前記キーワード候補評価部は、前記加点後の点数に基づいて、前記特定の語に共起する前記キーワード候補をキーワードとして抽出することを特徴としたものである。
【０００９】
請求項２の発明は、請求項１の発明において、前記特定の範囲を、文書の種別に応じて、特定の単語数又はバイト数により設定可能としたことを特徴としたものである。
【００１０】
請求項３の発明は、請求項１又は２の発明におけるキーワード抽出装置としての機能をコンピュータに実行させるためのプログラムである。
【００１１】
請求項４の発明は、請求項３の発明におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【００２３】
【発明の実施の形態】
図１は、本発明の参考例であるキーワード抽出装置の構成例を示す図で、図中、１はキーワード抽出装置で、該キーワード抽出装置１は、キーワード候補抽出部２とキーワード候補評価部６とからなり、キーワード候補抽出部２は、形態素解析部３，単語辞書４，接続表５を有し、キーワード候補評価部６は、特定単語抽出部７を有する。ここで形態素解析部３は必須ではなく、たとえば単語の単位がスペース等によって判別可能な言語においては不要な場合もある。本例では日本語を対象に説明するので、形態素解析部３を有する構成で説明する。形態素解析部３は、表記と品詞を記述した単語辞書４と、品詞間の接続の可否を記述した接続表５とを参照して解析を行なう。形態素解析自体は一般的な構成であり、本発明の主眼ではないためここでの説明は省略する。
【００２４】
キーワード候補抽出部２は、形態素解析部３により形態素解析された文書中の語、品詞の並びから、キーワード候補を抽出する。例えば、単語の品詞が、名詞、サ変名詞、固有名詞、形容動詞、辞書には未登録として未登録語と判断された品詞、の一つ以上の連続をキーワード候補として抽出する。この品詞自体は、品詞体系や対象文書によって異なる。ここでは一般的にキーワードを構成しうる前述の品詞で説明する。
【００２５】
キーワード候補評価部６は、特定単語抽出部７で抽出された特定の単語を用い、対象文書中において特定の範囲に特定の単語が出現するか否かを調べ、特定単語が出現した場合には、特定範囲に出現しているキーワード候補をキーワードとして決定するか、また、キーワード候補に点数を付与した場合、付与した点数に特定の点数分加点することにより、その点数に基づいてキーワードを決定する。
【００２６】
図２は、キーワード候補評価部６と特定単語抽出部７とを有するキーワード抽出装置１における処理の流れについて説明するためのフロー図である。まず、キーワード候補抽出部２で得られたキーワード候補に対して、キーワード候補評価部６では、文書中における出現頻度等を計算し、その出現頻度を点数化してキーワード候補に付与する（ステップＳ１）。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数（初期点数）はすべて０にしておくという方法もある。特定単語抽出部７では、キーワード候補評価部６で点数が付与されたキーワード候補から特定単語を抽出する（ステップＳ２）。例えば、点数の上位から所定数を特定単語として抽出する。この際、対象文書中に含まれるキーワード候補のうち出現頻度の高いキーワード候補を特定単語として抽出するようにしてもよい。
【００２７】
次に、文書先頭から末まで特定範囲ごとに、特定単語抽出部７が抽出した特定単語が当該特定範囲内において出現したかどうかを調べる（ステップＳ３）。特定単語が出現していれば、同一範囲内に存在するキーワード候補を選択し、選択したキーワード候補の点数に特定点数を加点する（ステップＳ４）。このとき、特定単語自体も同様に加点するか、あるいは分けて行なうかは対象文書等による。以降の説明では同様に加点している場合を代表例として説明しているが、分けて行なうことも可能である。また、この特定範囲を一文内としてもよい。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する（ステップＳ５）。ここで、キーワード候補の点数に予め閾値を設定しておいて、閾値以上の点数を有するキーワード候補をキーワードとして抽出するようにしてもよい。尚、上記ステップＳ４において、特定単語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【００２８】
図２に示す処理フローを以下の文書例に基づいて具体的に説明する。
文書例：
「ＡＡ社は、６月１５日に新製品であるノートパソコン「ＰＣ６３０」を発表した。ＡＡ社の新製品は１年ぶりであり、ＡＡ社の状況が改善されたことを示すといえる。ＡＡ社のＰＣ６３０は「ＰＣ５５０」を改良したもの。同スペックながら、画面サイズを拡大し、かつ、軽量にしたモデルである。また、これに対応して、ＢＢ社はノートパソコン向けのデータ蓄積ツールを発表した。ＢＢ社は６月３０日までのキャンペーンを企画している。競合のＤＤ社は、好評のラインナップを増やす方向で、これらに対抗するかまえである。新製品は７月１日の予定。またデータ蓄積ツールについてはＤＤ社独自の規格で開発中である。」
【００２９】
上記文書例について形態素解析し、単語分割と品詞付与を行う。
キーワード候補抽出部２は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出す。キーワード候補評価部６は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。尚、ここでは頻度を点数そのものとして処理する。
ＡＡ社４回
新製品３回
発表２回
ＢＢ社２回
データ蓄積ツール２回
ノートパソコン２回
ＤＤ社２回
ＰＣ６３０２回
ＰＣ５５０１回
画面サイズ１回
スペック１回
モデル１回
ラインナップ１回
キャンペーン１回
製品１回
対抗１回
方向１回
状況１回
改善１回
企画１回
規格１回
開発中１回
軽量１回
対応１回
【００３０】
次に特定単語抽出部７では、キーワード候補評価部６で集計されたキーワード候補と出現頻度（本例では点数そのものとする）からその上位２語のキーワード候補を特定単語として抽出する。その結果、以下が得られる。
特定単語：ＡＡ社、新製品
【００３１】
次に、キーワード候補抽出部２は、特定単語抽出部７で得られた単語を特定単語とし、対象文書の先頭から１文ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、含まれる特定単語の種類数（異なり数）に、例えば、係数５を乗算した値を点数として各キーワード候補に加点する。このときの条件式を下記式（１）に示す。尚、加点方法自体は本例に限らず、文書の長さ等によって変更することも可能である。
各キーワード候補の点数＝出現頻度＋異なり数＊係数・・・式（１）
【００３２】
以下に特定単語が出現した文と、特定単語の異なり数と、文内に出現したキーワード候補の一例を示す。尚、以下の説明において下線が引かれている単語は特定単語を示す。
出現文：特定単語異なり数：文内出現キーワード候補
第１文：２：ＡＡ社、新製品、ノートパソコン、ＰＣ６３０、発表
第２文：２：ＡＡ社、新製品
第３文：１：ＡＡ社、ＰＣ６３０、ＰＣ５５０
第８文：１：新製品
【００３３】
上記式（１）に基づいて、いくつかのキーワード候補について計算した例を下記に示す。尚、キーワード候補：初期点数（出現頻度）＋異なり数＊係数（本例では５）とする。
ＡＡ社：４＋５＊５＝２９
新製品：３＋５＊５＝２８
ノートパソコン：２＋２＊５＝１２
発表：２＋２＊５＝１２
ＰＣ６３０：２＋３＊５＝１７
ＰＣ５５０：１＋１＊５＝６
【００３４】
ここで、上記文書例に含まれる各キーワード候補に対して加点前と加点後の点数比較を行った場合について下記に示す。以下、キーワード候補毎に、加点前の点数（出現頻度のみ）→加点後の点数（上記式（１）による）の順に示す。尚、下線を引いたキーワード候補は加点により点数が高くなったキーワード候補を示す。
ＡＡ社（４→２９）、新製品（３→２８）、発表（２→１２）、ＢＢ社（２→２）、データ蓄積ツール（２→２）、ノートパソコン（２→１２）、ＤＤ社（２→２）、ＰＣ６３０（２→１７）、ＰＣ５５０（１→６）、画面サイズ（１→１）、スペック（１→１）、モデル（１→１）、ラインナップ（１→１）、キャンペーン（１→１）、製品（１→１）、対抗（１→１）、方向（１→１）、状況（１→１）、改善（１→１）、企画（１→１）、規格（１→１）、開発中（１→１）、軽量（１→１）、対応（１→１）
【００３５】
このように各キーワード候補に対して加点を行った結果、上位から順に、ＡＡ社（２９），新製品（２８），ＰＣ６３０（１７），ノートパソコン（１２），発表（１２），ＰＣ５５０（６）をキーワードとして取得することができる。尚、括弧内の数字は加点後の点数とする。
【００３６】
キーワード候補評価部６は、上位のキーワードを抽出し、例えば、上記「ＡＡ社」「新製品」「ノートパソコン」「発表」「ＰＣ６３０」「ＰＣ５５０」をキーワードとして得ることができる。特に「ＰＣ５５０」「ノートパソコン」「ＰＣ６３０」「発表」など出現頻度からは上位に位置しないキーワード候補についても抽出することができる。具体的には、例えば、単に出現頻度２以上のキーワード候補を抽出しようとした場合、「ＰＣ５５０」は出現頻度１で抽出できないが、上記条件式（１）により加点することで点数６が付与され、「ＰＣ５５０」をキーワードとして抽出することが可能となる。
【００３７】
これによると、文書中の特定範囲において特定の語に共起するキーワード候補をキーワードとして抽出することにより、出現頻度が高くなくても特定の語と関連の深い語をキーワードとして抽出することができる。
また、特定の語に共起するキーワード候補に対応付けて点数を付与することにより、出現頻度等の尺度ではキーワードとなりえないが、特定の語と関連の深い語をキーワードとして抽出することができる。
また、特に文書中における出現頻度の高い語を特定単語とすることで、文書主題と関係するが出現頻度の高くない語をキーワードとして抽出することができる。
また、共起する範囲を文の範囲とすることで、特定単語と、同一文で出現（共起）した語とを関連する語とし、キーワードとして抽出することができる。これは文内で共起したということは特定単語と関連する、関係の深い語である可能性が高いためである。
【００３８】
また、図１に示したキーワード抽出装置１の別の例として、特定単語抽出部７により対象文書中から、例えばタイトルや、見出し、小見出し等の情報を特定単語として取得し、これを特定単語としてキーワード候補を抽出するようにしてもよい。この場合、タイトルや小見出し等の抽出は公知の技術によって、また構造化文書の場合はそのタグの情報から抽出することができる。これら抽出方法自体は本発明の主眼ではないため、ここでの説明は省略するものとする。また、文書の構成や区切り等の情報から特定単語と共起するとみなす範囲を決定してもよい。この場合、文書中に区切りをあらわす表現（例えば、記号や文書特有の表現）や、構造化文書の場合にはタグの情報によって表現された構成やパラグラフなどの範囲を取得するようにする。
【００３９】
図３は、本発明の他の参考例であるキーワード抽出装置の構成例を示す図で、図中、１０はキーワード抽出装置で、該キーワード抽出装置１０は、キーワード候補抽出部１１とキーワード候補評価部１５とからなり、キーワード候補抽出部１１は、形態素解析部１２，単語辞書１３，接続表１４を有し、キーワード候補評価部１５は、特定単語抽出部１６，範囲規定データ１７を有する。図１に示したキーワード抽出装置１の構成と異なる点は、範囲規定データ１７を有する点である。この範囲規定データ１７は、特定単語との共起を判定する際、どの範囲を共起対象とするかを規定したものである。この際、文書の構成や構造の区切りを表すタグを範囲規定データ１７に格納することで文書構成にもとづく範囲を特定単語との共起で利用することができる。
【００４０】
図４は、キーワード候補評価部１５と特定単語抽出部１６とを有するキーワード抽出装置１０における処理の流れについて説明するためのフロー図である。図２に示した処理フローと異なるのは、特定単語抽出部１６においてタイトルや、見出し、小見出し等の情報を用いる点と、特定単語との共起の判定の際に、範囲規定データ１７に基づいて判定する点、特定範囲として文書の構成，構造，区切りなどを範囲とする点である。
【００４１】
図４において、まず、キーワード候補抽出部１１で得られたキーワード候補に対して、キーワード候補評価部１５では、文書中における出現頻度等を計算し、その出現頻度を点数としてキーワード候補に付与する（ステップＳ１１）。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数はすべて０にしておくという方法もある。特定単語抽出部１６では、対象文書中からタイトルや、見出し、小見出し等を特定単語として抽出する（ステップＳ１２）。
【００４２】
次に、文書先頭から末まで範囲規定データ１７で定義された範囲ごとに、特定単語抽出部１６が抽出した特定単語が当該範囲内に出現したかどうかを調べる（ステップＳ１３）。特定単語が出現していれば、同一範囲内に存在するキーワード候補を選択し（ステップＳ１４）、選択されたキーワード候補の点数に特定点数を加点する（ステップＳ１５）。このとき、特定範囲を、例えば文書の構成や、構造、区切りなどに基づいて取得してもよい。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する（ステップＳ１６）。尚、上記ステップＳ１４において、特定単語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【００４３】
図５は、範囲規定データ１７の一例を示す図である。本例ではｈｔｍｌ文書の形式を例に、＜Ｐ＞＜ＨＲ＞＜ＤＬ＞＜／ＤＬ＞があった場合にその部分を目印として前後を別の範囲とすることが規定されている。
【００４４】
図４に示した処理フローを以下の文書例に基づいて具体的に説明する。
＜ＨＴＭＬ＞
＜ＨＥＡＤ＞
＜ＴＩＴＬＥ＞ノートパソコン＜／ＴＩＴＬＥ＞
＜／ＨＥＡＤ＞
＜Ｈ２＞ＡＡ社が新製品を発表＜／Ｈ２＞＜ｂｒ＞
＜Ｐ＞
ＡＡ社は、６月１５日に新製品であるノートパソコン「ＰＣ６３０」を発表した。ＡＡ社の新製品は１年ぶりである。ＡＡ社のＰＣ６３０は「ＰＣ５５０」を改良したもの。
＜Ｐ＞
また、これに対応して、ＢＢ社はノートパソコン向けのデータ蓄積ツールを発表した。ＢＢ社は６月３０日までのキャンペーンを企画している。
＜Ｐ＞
競合のＤＤ社は、好評のラインナップを増やす方向で、これらに対抗するかまえである。またデータ蓄積ツールについてはＤＤ社独自の規格で開発中である＜／ＢＯＤＹ＞
＜／ＨＴＭＬ＞
【００４５】
例えば、上記ｈｔｍｌ形式の文書例を形態素解析し、単語分割と品詞付与を行う。キーワード候補抽出部１１は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出す。キーワード候補評価部１５は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。尚、ここでは出現頻度を点数そのものとして処理する。
ＡＡ社４回
新製品２回
発表２回
ＢＢ社２回
データ蓄積ツール２回
ノートパソコン２回
ＤＤ社２回
ＰＣ６３０２回
ＰＣ５５０１回
ラインナップ１回
キャンペーン１回
製品１回
対抗１回
方向１回
企画１回
規格１回
開発中１回
対応１回
【００４６】
次に、特定単語抽出部１６では、形態素解析結果中から特定のタグが前後の位置する単語を抽出する。この場合は、＜ｔｉｔｌｅ＞＜／ｔｉｔｌｅ＞と＜ｈ２＞＜／ｈ２＞で囲まれた部分をタイトルや、小見出しとして抽出し、特定単語とする。本例では「ノートパソコン」「ＡＡ社」「新製品」「発表」が得られる。
【００４７】
次に、キーワード候補抽出部１１は、特定単語抽出部１６で得られた単語を特定単語とし、範囲規定データ１７で規定された表現を区切りとして範囲を規定する。ここで図５に示した範囲規定データの例に基づいて説明する。
対象文書の＜Ｐ＞で区切られた先頭範囲は「ＡＡ社は」から「改良したもの。」までである。この範囲で特定単語を含むかどうかを調べる。特定単語があれば、範囲内のキーワード候補について、前述の式（１）に基づいて、含まれる特定単語の種類数（異なり数）に、例えば３を乗算した値を点数として各キーワードに加点する。加点方法自体は文書の長さ等によって変更することも可能である。
【００４８】
以下に特定単語が出現した文と、特定単語の異なり数と、範囲内に出現したキーワード候補を示す。
第１の範囲：４：ＡＡ社、新製品、ノートパソコン、ＰＣ６３０、発表
第２の範囲：２：ＢＢ社、ノートパソコン、データ蓄積ツール、発表
第３の範囲：０：（該当キーワード候補なし）
【００４９】
各キーワード候補に加点を行い、その結果、上位は以下となる。
ＡＡ社４＋４＊３＝１６
新製品２＋４＊３＝１４
ノートパソコン２＋６＊３＝２０
発表２＋６＊３＝２０
ＰＣ６３０２＋４＊３＝１４
データ蓄積ツール２＋２＊３＝８
ＢＢ社２＋２＊３＝８
【００５０】
キーワード候補評価部１５は、上位のキーワードを抽出し、たとえば、「ＡＡ社」「新製品」「ノートパソコン」「発表」「ＰＣ６３０」「データ蓄積ツール」「ＢＢ社」をキーワードとして得ることができる。本例では特定単語も同様に加点しているので点数は高くなるが、特定単語の点数を別に設定することも可能である。特にタイトルの「ノートパソコン」「ＡＡ社」「新製品」と関連する「ＰＣ６３０」「データ蓄積ツール」「ＢＢ社」など、出現頻度からは上位に位置しないキーワード候補についても抽出することができる。また、文書の構成による範囲で共起するか否かを判定しているので、文書内の話題ごとに共起の判定を行なうことができる。
【００５１】
これによると、文書中に含まれるタイトルや、見出し、小見出し等の情報に共起するキーワード候補をキーワードとすることで、文書の主題と関連する語をキーワードとして抽出することができる。
また、特定の範囲を文書の構成、区切り等によって決定するため、文書の話題の変化を考慮した範囲の設定が行なえ、より関連する語句を精度よく抽出することができる。
また、範囲を決定する表現などを登録可能とすることで、対象文書に応じた範囲を設定できるため、精度よくキーワード抽出を行なうことができる。
【００５２】
図６は、本発明の他の参考例であるキーワード抽出装置の構成例を示す図で、図中、２０はキーワード抽出装置で、該キーワード抽出装置２０は、キーワード候補抽出部２１とキーワード候補評価部２３とからなり、キーワード候補抽出部２１は、形態素解析部２２を有し、キーワード候補評価部２３は、検索語取得部２４を有する。本例におけるキーワード抽出装置２０は、文書検索システム２５にアクセス可能とする。この文書検索システム２５は、文書データベース２５ａ，文書検索部２５ｂ，検索キー入力部２５ｃを有している。本例におけるキーワード抽出装置２０は、図１に示したキーワード抽出装置１における特定単語抽出部７が検索語取得部２４に代わっている点が異なる。すなわち、本例では特定単語としていたものが、文書検索システム２５におけるユーザが入力した検索語となる。
【００５３】
図７は、キーワード候補評価部２３と検索語取得部２４とを有するキーワード抽出装置２０における処理の流れについて説明するためのフロー図である。図２に示した処理フローと異なるのは、検索語取得部２４によって検索語を取得する点である。本例では検索語を特定単語として、特定範囲内に検索語が出現した場合に同一範囲内のキーワード候補を選択し、点数の加点を行なうものである。
【００５４】
図７において、まず、キーワード候補抽出部２１で得られたキーワード候補に対して、キーワード候補評価部２３では、文書中における出現頻度等を計算し、その出現頻度を点数としてキーワード候補に付与する（ステップＳ２１）。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数はすべて０にしておくという方法もある。検索語取得部２４では、ユーザの検索語を文書検索システム２５から取得する（ステップＳ２２）。
【００５５】
次に、文書先頭から末まで特定範囲（文あるいは特定単語数など）ごとに、検索語取得部２４が取得した検索語が当該範囲内に出現したかどうかを調べる（ステップＳ２３）。検索語が出現していれば、同一範囲内に存在するキーワード候補を選択し（ステップＳ２４）、選択したキーワード候補の点数に特定点数を加点する（ステップＳ２５）。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する（ステップＳ２６）。尚、上記ステップＳ２４において、検索語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【００５６】
図７に示す処理フローを以下の文書例に基づいて具体的に説明する。
文書例：
「ＡＡ社は、６月１５日に新製品であるノートパソコン「ＰＣ６３０」を発表した。ＡＡ社の新製品は１年ぶりであり、ＡＡ社の状況が改善されたことを示すといえる。ＡＡ社のＰＣ６３０は「ＰＣ５５０」を改良したもの。同スペックながら、画面サイズを拡大し、かつ、軽量にしたモデルである。
また、これに対応して、ＢＢ社はノートパソコン向けのデータ蓄積ツールを発表した。ＢＢ社は６月３０日までのキャンペーンを企画している。
競合のＤＤ社は、好評のラインナップを増やす方向で、これらに対抗するかまえである。新製品は７月１日の予定。またデータ蓄積ツールについてはＤＤ社独自の規格で開発中である。」
【００５７】
上記文書例を形態素解析し、単語分割と品詞付与を行う。
キーワード候補抽出部２１は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワードの候補として取り出す。キーワード候補評価部２３は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。尚、ここでは出現頻度を点数そのものとして処理する。
ＡＡ社４回
新製品３回
発表２回
ＢＢ社２回
データ蓄積ツール２回
ノートパソコン２回
ＤＤ社２回
ＰＣ６３０２回
ＰＣ５５０１回
画面サイズ１回
スペック１回
モデル１回
ラインナップ１回
キャンペーン１回
製品１回
対抗１回
方向１回
状況１回
改善１回
企画１回
規格１回
開発中１回
軽量１回
対応１回
【００５８】
次に、検索語取得部２４では、文書検索システム２５でユーザが入力した検索語を取得し、その検索語を特定単語として設定する。例えば、以下の語が検索語として入力されたとする。
検索語：ＢＢ社、ノートパソコン
【００５９】
次に、キーワード候補評価部２３は、検索語取得部２４で得られた単語（本例では、ＢＢ社、ノートパソコン）を特定単語とし、対象文書の先頭から１文ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、前述の式（１）に基づいて、含まれる特定単語の種類数（異なり数）に、例えば５を乗算した値を点数として各キーワード候補に加点する。加点方法自体は文書の長さ等によって変更することも可能である。
【００６０】
以下に特定単語が出現した文と、特定単語の異なり数と、文内に出現したキーワード候補を示す。
第１文：１：ＡＡ社、新製品、ノートパソコン、ＰＣ６３０、発表
第５文：２：ＢＢ社、ノートパソコン、データ蓄積ツール、発表
第６文：１：ＢＢ社、キャンペーン
【００６１】
各キーワード候補に加点を行い、その結果、上位は以下となる。
ＢＢ社２＋３＊５＝１７
発表２＋３＊５＝１７
ノートパソコン２＋３＊５＝１７
ＡＡ社４＋１＊５＝９
新製品３＋１＊５＝８
データ蓄積ツール２＋２＊５＝１２
ＰＣ６３０２＋１＊５＝７
【００６２】
キーワード候補評価部２３は、検索語と、特定範囲に出現したキーワード候補とに点数を加点することで、出現頻度が上位のキーワード以外に検索語自体や検索語と関連するキーワードとして、「データ蓄積ツール」「ＢＢ社」などを抽出することができる。
【００６３】
これによると、検索語を特定単語とし、検索語とともに現れる語句についてキーワードとして抽出することで、検索の場面でユーザが着目している語句や関連する語句をキーワードとして抽出することができる。
【００６４】
図８は、本発明の一実施形態であるキーワード抽出装置の構成例を示す図で、図中、３０はキーワード抽出装置で、該キーワード抽出装置３０は、キーワード候補抽出部３１とキーワード候補評価部３３とからなり、キーワード候補抽出部３１は、形態素解析部３２を有し、キーワード候補評価部３３は、特定単語抽出部３４を有する。本例におけるキーワード抽出装置３０は、ユーザプロファイル３５にアクセス可能とする。図１に示したキーワード抽出装置１と異なるのは、特定単語抽出部３４がユーザプロファイル３５から特定単語を抽出する点である。
【００６５】
図９は、ユーザプロファイル３５の一例を示す図である。このユーザプロファイル３５にはユーザ名とユーザの興味や業務等に関連する語句が対応づけられて格納されている。本例ではユーザの姓と語句が対応づけられて格納されているが、ユーザ名ではなくＩＤ等、ユーザがユニークに判別できる情報であればよい。
【００６６】
図１０は、キーワード候補評価部３３と特定単語抽出部３４とを有するキーワード抽出装置３０における処理の流れについて説明するためのフロー図である。図２に示した処理フローと異なるのは、特定単語抽出部３４がユーザプロファイル３５から特定単語を抽出する点である。キーワード抽出を行なうユーザがユーザプロファイル３５上に存在すれば、ユーザ名に対応する語句の並びを抽出し、特定単語として設定する。尚、ユーザを特定する、あるいはキーワード抽出装置３０を使用するユーザにユーザ名の入力を促す等のユーザ名取得に関する処理は本発明の主眼ではないため、ここでの説明は省略するものとする。
【００６７】
図１０において、まず、キーワード候補抽出部３１で得られたキーワード候補に対して、キーワード候補評価部３３では、文書中における出現頻度等を計算し、その出現頻度を点数としてキーワード候補に付与する（ステップＳ３１）。本例では出現頻度を用いて点数を計算しているが他の方法でもよい。また、この時点の点数はすべて０にしておくという方法もある。特定単語抽出部３４では、特定単語をユーザプロファイル３５から取得する（ステップＳ３２）。
【００６８】
次に、文書先頭から末まで特定範囲（文あるいは特定単語数など）ごとに、特定単語抽出部３４が抽出した特定単語が当該範囲内に出現したかどうかを調べる（ステップＳ３３）。特定単語が出現していれば、同一範囲内に存在するキーワード候補を選択し（ステップＳ３４）、選択したキーワード候補の点数に特定点数を加点する（ステップＳ３５）。文書のすべての範囲の処理が終わった後、キーワード候補を点数の高い順に並べ、上位から所定数をキーワードとして抽出あるいは表示する（ステップＳ３６）。尚、上記ステップＳ３４において、特定単語が出現した場合、同一範囲内に存在するキーワード候補を選択し、それらのキーワード候補をキーワードとしてもよい。
【００６９】
図１０に示す処理フローを、図７に示した処理フローの説明に用いた文書と同様の文書例に基づいて具体的に説明する。本例において、キーワード候補の抽出と、キーワード候補の頻度算出までは同じ処理フローとなる。本例では特定単語抽出部３４にて特定単語を抽出する際に、キーワード抽出を行なうユーザ名が「山田」であった場合を代表例として説明する。
まず、ユーザ名が「山田」であるデータから対応する語句をユーザプロファイル３５から抽出すると、例えば「ノートパソコン」「プリンタ」が得られる。このように抽出された単語を特定単語として以下に設定する。
特定単語：ノートパソコン，プリンタ
【００７０】
次に、キーワード候補評価部３３は、特定単語抽出部３４で得られた単語を特定単語とし、対象文書の先頭から１文ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、前述の式（１）に基づいて、含まれる特定単語の種類数（異なり数）に、例えば５を乗算した値を点数として各キーワード候補に加点する。加点方法自体は文書の長さ等によって変更することも可能である。
【００７１】
以下に特定単語が出現した文と、特定単語の異なり数と、文内に出現したキーワード候補を示す。
第１文：１：ＡＡ社、新製品、ノートパソコン、ＰＣ６３０、発表
第５文：１：ＢＢ社、ノートパソコン、データ蓄積ツール、発表
【００７２】
各キーワード候補に加点を行い、上位は以下となる。
ＢＢ社２＋１＊５＝７
発表２＋２＊５＝１２
ノートパソコン２＋２＊５＝１２
ＡＡ社４＋１＊５＝９
新製品３＋１＊５＝８
データ蓄積ツール２＋１＊５＝７
ＰＣ６３０２＋１＊５＝７
【００７３】
キーワード候補評価部３３は、プロファイル情報から得られた特定単語と、特定範囲に出現したキーワード候補とに点数を加点することで、出現頻度が上位のキーワード以外にプロファイル中の語と関連する「データ蓄積ツール」などを抽出することができる。
【００７４】
本発明によると、キーワード抽出を行なうユーザのプロファイル情報に含まれる単語を特定単語とすることにより、ユーザの興味や、嗜好に合致するキーワードを抽出することができる。
【００７５】
ここで、図１に示したキーワード抽出装置１の他の実施形態として、共起を判定する範囲を特定の単語数で規定するようにしてもよい。
【００７６】
本実施形態について以下の文書例に基づいて具体的に説明する。
文書例：
・ＡＡ社ＰＣ６３０
画面サイズは１５インチ。しかも液晶画面。大容量ＨＤＤが５０Ｇを実現。ＣＤ−ＲＷ／ＤＶＤを搭載。ＡＡ社の新製品は１年ぶりであり。キャンページを実施中。今なら割安。
・ＢＢ社ＰＣ８００
ＡＡ社と同スペックながら、軽量を実現。これに対応したノートパソコン向けのデータ蓄積ツールも発表した。ＢＢ社は６月３０日までのキャンペーンを企画中。詳細は以下で。
・ＤＤ社ＳＳＳ５００
長時間バッテリー、最大５.５時間を実現。１.２６ｋｇと軽量。デザインは国内アパレルメーカーのＺＺ社が担当した。女性が持ちたくなるようなデザイン。専用カバー付。
【００７７】
上記文書例を形態素解析し、単語分割と品詞付与を行う。
キーワード候補抽出部２は、品詞が名詞、サ変名詞、未登録語、接頭辞、接尾辞、形容動詞がひとつ以上現れる箇所をキーワード候補として取り出す。但し単独のサ変名詞は抽出しないとする。キーワード候補評価部６は、文書内のキーワード候補の出現頻度を集計する。上記文書例では以下となる。括弧内は出現頻度を表す。尚、ここでは出現頻度を点数そのものとして処理する。
ＡＡ社（３）、ＰＣ６３０（１）、画面サイズ（１）、液晶画面（１）、大容量ＨＤＤ（１）、ＣＤ−ＲＷ／ＤＶＤ（１）、新製品（１）、キャンペーン（２）、割安（１）、ＢＢ社（１）、ＰＣ８０００（１）、軽量（２）、ノートパソコン（１）、データ蓄積ツール（１）、ＤＤ社（１）、ＳＳＳ５００（１）、長時間バッテリー（１）、国内アパレルメーカー（１）、ＺＺ社（１）、女性（１）、デザイン（２）、専用カバー付（１）
【００７８】
本例では検索語あるいはプロファイル情報から特定単語を得たものとして説明する。たとえば「ＤＤ社」を特定単語とする。
キーワード候補抽出部２は、特定単語抽出部７で得られた単語を特定単語とし、さらに特定の単語数あるいはバイト数を範囲として特定単語と共起するか否かを判定する。これは、例えば９０文字ずつを範囲とする。本例では、ＡＡ社、ＢＢ社、ＤＤ社の情報ごとになる。新聞やＷｅｂでの製品紹介などでは限られたスペースに多くの情報をのせるため、１製品ごとに画面上での表示情報を規定してデザインされているケースがあり、これらは一定バイト数ごとのまとまった内容になっていることがある。またプレゼンテーション資料など必ずしも文の終わりを示す句点がない場合があり、こういった場合にも文字数やバイト数による範囲の決定は有効である。
【００７９】
上記例では、対象文書の先頭から９０文字ずつ、特定単語を含むかどうかを調べる。特定単語があれば、文内のキーワード候補について、前述の式（１）に基づいて、例えば、含まれる特定単語の種類数（異なり数）＊５点を元の点数（出現頻度）に乗算する。加点方法自体は文書の長さ等によって変更することも可能である。
【００８０】
以下に特定単語が出現した範囲と、特定単語の異なり数と、範囲内に出現したキーワード候補を示す。
出現した範囲：特定単語異なり数：文内出現キーワード候補
第３範囲：１：ＤＤ社、軽量、デザイン、国内アパレルメーカー、ＺＺ社、女性、専用カバー付
【００８１】
各キーワード候補に加点を行い、その結果、上位は以下となる。
ＤＤ社：１＋１＊５＝６
ＳＳＳ５００：１＋１＊５＝６
長時間バッテリー：１＋１＊５＝６
国内アパレルメーカー：１＋１＊５＝６
ＺＺ社：１＋１＊５＝６
女性：１＋１＊５＝６
デザイン：２＋１＊５＝７
専用カバー付：１＋１＊５＝６
【００８２】
キーワード候補評価部６は、上位のキーワードを抽出し、たとえば、「デザイン」などのキーワードを得ることができる。このように特定単語で指定した「ＤＤ社」と関連するキーワードを抽出することができる。
【００８３】
本発明によると、特定単語との共起を判定する範囲を、一定文字数やバイト数の範囲で区切ることで、文の形態をなしていない対象や一定バイト数ごとの記述をする対象において特定単語と関連するキーワードを精度よく抽出することができる。
【００８４】
以上、本発明のキーワード抽出装置における各機能を中心に各実施形態を説明してきたが、本発明は、キーワード抽出装置における各ステップを実行する方法としても説明したようにキーワード抽出方法としての形態もとることができる。また、この各機能を有するキーワード抽出装置と同様に、コンピュータにキーワード抽出装置として機能させるためのプログラムとしての形態も、また、そのプログラムを記録した記録媒体としての形態も可能である。
【００８５】
本発明によるキーワード抽出の機能を実現するためのプログラムやデータを記憶した記録媒体の実施形態について説明する。記録媒体としては、具体的には、ＣＤ―ＲＯＭ（―Ｒ／―ＲＷ）、光磁気ディスク、ＤＶＤ―ＲＯＭ、ＦＤ、フラッシュメモリ、メモリカードや、メモリスティック及びその他各種ＲＯＭやＲＡＭ等が想定でき、これら記録媒体に上述した本発明の各実施形態のシステムの機能をコンピュータに実行させ、キーワード抽出の機能を実現するためのプログラムを記録して流通させることにより、当該機能の実現を容易にする。そしてコンピュータ等の情報処理装置に上記のごとくの記録媒体を装着して情報処理装置によりプログラムを読み出すか、若しくは情報処理装置が備えている記憶媒体に当該プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に関わるキーワード抽出の機能を実行することができる。
【００８６】
【発明の効果】
本発明によると、文書中の出現頻度情報以外に、文書中の特定の範囲において特定の語に共起するキーワード候補をキーワードとして選択できるようにし、特定単語と関係性の高い単語をキーワードとして抽出することができる。
また、各キーワード候補に対応づけて点数を付与し、特定の語に共起するキーワード候補に付与した点数が高くなるように加点することにより、特定単語と関係性の高い単語をキーワードとして抽出することができる。
【図面の簡単な説明】
【図１】本発明の参考例であるキーワード抽出装置の構成例を示す図である。
【図２】キーワード候補評価部と特定単語抽出部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【図３】本発明の他の参考例であるキーワード抽出装置の構成例を示す図である。
【図４】キーワード候補評価部と特定単語抽出部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【図５】範囲規定データの一例を示す図である。
【図６】本発明の他の参考例であるキーワード抽出装置の構成例を示す図である。
【図７】キーワード候補評価部と検索語取得部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【図８】本発明の一実施形態であるキーワード抽出装置の構成例を示す図である。
【図９】ユーザプロファイルの一例を示す図である。
【図１０】キーワード候補評価部と特定単語抽出部とを有するキーワード抽出装置における処理の流れについて説明するためのフロー図である。
【符号の説明】
１，１０，２０，３０…キーワード抽出装置、２，１１，２１，３１…キーワード候補抽出部、３，１２，２２，３２…形態素解析部、４，１３…単語辞書、５，１４…接続表、６，１５，２３，３３…キーワード候補評価部、７，１６，３４…特定単語抽出部、１７…範囲規定データ、２４…検索語取得部、２５…文書検索システム、２５ａ…文書データベース、２５ｂ…文書検索部、２５ｃ…検索キー入力部、３５…ユーザプロファイル。

Claims

ユーザの興味、嗜好に関するプロファイル情報を格納したプロファイルデータベースにアクセス可能なキーワード抽出装置であって、
文書中から単語あるいは単語列を、該文書のキーワード候補として抽出するキーワード候補抽出部と、
前記プロファイルデータベースのプロファイル情報中に記憶されている語の中から特定の語を抽出する特定単語抽出部と、
前記キーワード候補抽出部により抽出されたキーワード候補に対応付けて点数を付与すると共に、前記文書中の特定の範囲において、前記特定単語抽出部により抽出された特定の語に共起する前記キーワード候補に付与した点数が高くなるように加点するキーワード候補評価部とを有し、
前記キーワード候補評価部は、前記加点後の点数に基づいて、前記特定の語に共起する前記キーワード候補をキーワードとして抽出することを特徴とするキーワード抽出装置。
前記特定の範囲を、文書の種別に応じて、特定の単語数又はバイト数により設定可能としたことを特徴とする請求項１に記載のキーワード抽出装置。
請求項１又は２に記載のキーワード抽出装置としての機能をコンピュータに実行させるためのプログラム。
請求項３に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。