JP3787310B2

JP3787310B2 - キーワード決定方法、装置、プログラム、および記録媒体

Info

Publication number: JP3787310B2
Application number: JP2002063867A
Authority: JP
Inventors: 伸章廣嶋; 隆明長谷川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-03-08
Filing date: 2002-03-08
Publication date: 2006-06-21
Anticipated expiration: 2022-03-08
Also published as: JP2003263441A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストからキーワードを決定する方法および装置に関する。
【０００２】
【従来の技術】
従来、キーワード決定手法として、テキスト中の様々な言語的情報をもとにキーワードを決定する手法が提案されている。その代表として、単語が対象のテキスト中に出現するほど、また、他のテキストに出現しないほど、その単語はキーワードらしいと考え、単語の出現頻度をもとにキーワード決定を行うTF・IDF法が擧げられる。他にも、テキスト中の位置情報を利用したものや、係り受け関係を利用したもの、文脈情報を利用したものなど様々な手法が提案されている。これらの言語的情報同士には相関関係があるため、単一の言語的情報ではキーワードを特定できない。例えば、ＴＦ・ＩＤＦ法によってキーワードらしいと判定された単語であっても、「例えば、」で始まる文の中にその単語が多数含まれていた場合、それほど重要なキーワードではないなどということが考えられる。そのため、複数の言語的情報を用いてキーワード抽出を行う必要がある。
【０００３】
【発明が解決しようとする課題】
しかしながら、複数の言語的情報を考慮したルールを人手で記述するのは困難である。例えば、単語の頻度がある値以上で、テキストの第１文に含まれていて、他の単語から修飾されていて、文の先頭が「例えば、」で始まらない場合にはキーワードとして決定するというようなルールを個々に書いていくのは現実的には不可能である。また、複数の言語的情報を考慮したルールによってキーワード決定ができたとしても、テキストの分野によって重要な言語的情報が異なるため、異なる分野のテキストに同じルールを適用しても正しくキーワードが決定されない。例えば、新聞記事などではテキストの先頭にキーワードが多く存在するため位置情報は有効な言語的情報であるが、Ｗｅｂページなどでは必ずしもそうとはいえない。
【０００４】
本発明の目的は、どのような分野のテキストに対してもロバストにキーワードを決定する方法および装置を提供することにある。
【０００６】
【課題を解決するための手段】
本発明のキーワード決定方法は、単語分割手段と重要度算出手段と重要度付与手段とキーワード出力手段により構成されるキーワード決定装置が実施するキーワード決定方法であって、
単語分割手段が、学習に用いるテキストの主テキストと要約テキストを構成する文それぞれについて形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
重要度算出手段が、分析された特定の品詞の単語のうち、前記主テキストと前記要約テキストの両者に存在する単語を対応付けるステップと、
重要度算出手段が、各単語の言語的情報の要素値からなるベクトルについて、対応付けられた単語と対応付けられなかった単語各々についてベクトル空間での座標を分類する分類面を算出するステップと、
重要度算出手段が、対応付けられた単語について分類面からの距離を単語の重要度として算出し、対応付けられなかった単語について分類面からの距離を負値にしたものを単語の重要度として算出するステップと、
重要度算出手段が、対応付けられた単語と対応付けられなかった単語のすべてについて各言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデルを作成して重要語選択モデルデータベースに格納するステップと、
単語分割手段が、キーワード抽出の対象であるテキスト文書を構成する文について形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
重要度付与手段が、分析された特定の品詞の各単語について各言語的情報の要素値からなるベクトルを算出するステップと、
重要度付与手段が、該ベクトルのパターンと、重要語選択モデルデータベースに格納された、該言語的情報と同一の言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデル中のベクトルのパターンと比較し、前者のパターンと一致する後者のパターンがあれば、該後者のパターンに対応する重要度を当該単語の重要度と決定し、前者のパターンと一致する後者のパターンがなければ、前者のパターンと類似する後者のパターンの類似度に応じて、該後者のパターンに対応する重要度を増減することにより、当該単語の重要度を決定するステップと、
キーワード出力手段が、前記単語のうち、重要度の高い単語から順に予め定められた数をキーワードと決定するステップと
を有する。
【０００８】
まず、テキストを入力として、テキスト中の各文は単語に切り分けられ、それぞれの単語に品詞が付与される。この品詞付き単語に対し、特定の品詞を持つ単語のみが内容語として選択される。一方、要約付きテキストの集合を入力として、まずテキスト中および要約中の各文は品詞付きの単語に分割され、特定の品詞を持つ単語が内容語として選択され、得られたテキストと要約の内容語の間で一致または類似した単語が対応付けされ、テキスト中の内容語のうち要約中の内容語と対応付けられたものはキーワードに必要な内容語として、対応付けられなかったものは不要な内容語として分類される。さらに、２値分類の機械学習手法を用いて、テキスト中の内容語に関する様々な言語的情報から、必要な内容語の場合は正の重要度を、不要な内容語の場合は負の重要度を出力する重要語選択モデルが学習される。得られた内容語に対し、得られた重要語選択モデルを用いて重要度が付与される。この重要度が付与された内容語のうち、重要度の高いものから順に指定された個数の内容語がキーワードとして決定され、出力される。
【０００９】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【００１０】
図１を参照すると、本発明の一実施形態のキーワード抽出装置は単語分割部１と内容語選択部２と重要度算出部３と重要語選択モデルＤＢ４と重要度付与部５とキーワード出力部６で構成されている。
【００１１】
単語分割部１は、入力されたテキストまたは要約を単語に切り分け（形態素解析し）、品詞を付与する。内容語選択部２は、品詞付きの単語のうち、特定の品詞、一例として自立語（名詞、動詞、形容詞、形容動詞）を持つ単語を内容語として選択する。重要度算出部３は、得られたテキストと要約の内容語の間で一致または類似した単語を対応付けし、テキスト中の内容語のうち要約中の内容語と対応付けられたものをキーワードに必要な内容語として、対応付けられなかったものを不要な内容語として分類し、２値分類の機械学習手法を用いて、テキスト中の内容語に関する様々な言語的情報から、必要な内容語の場合は正の重要度を、不要な内容語の場合は負の重要度を出力する重要語選択モデル（言語的情報の要素値からなるベクトルと重要度の組）を学習し、そのモデルを重要度選択モデルＤＢ４に出力する。重要度付与部５は、重要度算出部３により得られた重要語選択モデルを用いて、内容語選択部２で得られた、テキスト中の内容語に対して重要度を付与する。キーワード出力部６は、重要度が付与された内容語のうち、重要度の高いものから順に指定された個数の内容語をキーワードと決定して出力する。
【００１２】
図２は本実施形態のキーワード抽出装置の全体の処理の流れを示すフローチャートである。
【００１３】
まず、重要語選択モデルが既に学習済みであるかをチェックし（ステップ１１）、学習済みでなければ、単語分割部１と内容語選択部２と重要度算出部３で重要語選択モデルの学習を行う（ステップ１２）。次に、単語分割部１でキーワード抽出対象のテキストに対して形態素解析を行い、テキスト中の各文を品詞付きの単語に分割する（ステップ１３）。次に、内容語選択部２で、分割された単語に対し、それが特定の品詞の単語かどうかを判定し（ステップ１４）、特定の品詞を内容語として選択する（ステップ１５）という操作を各単語について繰り返す（ステップ１６）。次に、重要度付与部５で重要語選択モデルＤＢ４中の重要語選択モデルを用いて、ステップ１６で得られた内容語の様々な言語的情報から重要度を算出し、内容語に重要度を付与する（ステップ１７）。最後に、キーワード出力部６で、内容語を付与された重要度の高いものから順にキーワードとして決められた個数または割合で出力する（ステップ１８）。
【００１４】
図３は重要語選択モデル学習の流れを示すフローチャートである。
【００１５】
まず、テキストとその要約の対を複数用意し、単語分割部１でテキストと要約を形態素解析し、品詞付きの単語に分割する（ステップ２１）。内容語選択部２で、分割された単語に対し、それが特定の品詞の単語かどうかを判定し（ステップ２２）、特定の品詞を内容語として選択する（ステップ２３）という操作を各単語について繰り返す（ステップ２４）。重要度算出部３で、得られたテキストと要約の内容語の間で一致または類似した単語を対応付けし（ステップ２５）、テキスト中の内容語のうち要約中の内容語と対応付けられたかどうかの判定を行い（ステップ２６）、対応付けられたものをキーワードに必要な内容語として分類し（ステップ２７）、対応付けられなかったものを不要な内容語として分類する（ステップ２８）ということを各内容語について繰り返す（ステップ２９）。最後に、２値分類の機械学習手法を用いて、テキスト中の内容語に関する様々な言語的情報から、必要な内容語の場合は正の重要度を、不要な内容語の場合は負の重要度を出力する重要語選択モデル（言語的情報の要素値からなるベクトルと重要度の組）を学習し、重要語選択モデルＤＢ４に格納する（ステップ３０）。
【００１６】
次に、本実施形態のキーワード抽出装置の動作を具体例により説明する。
【００１７】
まず、内容語に重要度を付与するために必要な重要語選択モデルの作成方法について説明する。図４は重要語選択モデルの学習に用いるテキストの例であり、図５はそのテキストの要約の例である。
【００１８】
単語分割部１によって、テキストと要約をそれぞれ品詞付きの単語に分割する。
【００１９】
内容語選択部２によって、特定の品詞を持つ単語を内容語として選択する。この例では名詞・動詞・形容詞・形容動詞の４種類の品詞を持つ単語を内容語として選択することにすると、図４のテキストからは、「店内」「青竹」「ふんだん」「あしらう」「明るい」「開放的」「三浦半島」「景色」「抽象的」「描く」「油絵」「心地よい」「空間」「醸し出す」の１４単語が内容語として選ばれ、図５の要約からは、「店内」「明るい」「開放的」「心地よい」「空間」「醸し出す」の６単語が内容語として選ばれる。
【００２０】
重要度算出部３で、得られたテキストと要約の内容語の間で一致または類似した単語（テキストと要約の両者に現れる単語）を対応付けすると、テキスト中の１４単語のうち「店内」「明るい」「開放的」「心地よい」「空間」「醸し出す」の６単語については要約中の内容語と一致するため、これらをキーワードに必要な内容語とする。残りの８単語については対応付けられなかったので、不要な内容語とする。この結果を表１の分類結果の欄に示す。表１中、分類結果の○印は必要な内容語、×印は不要な内容語であることを示す。
【００２１】
【表１】

テキスト中の１４単語に関して様々な言語的情報に関する値を求める。
【００２２】
表２は言語的情報の例を示しており、単語の文書内頻度、単語の文書間頻度の逆数、単語の文中での位置、単語の品詞が名詞かどうか、単語の品詞が固有名詞かどうか、単語の品詞が動詞かどうか、単語の品詞が形容詞かどうか、後続する単語の品詞が助詞かどうか、単語の属する節は被修飾節かどうか、単語の属する文の先頭が「例えば、」で始まるかどうか、を含んでいる。
【００２３】
【表２】

【００２４】
ここでは、簡単のため、表２に示した１０種類を言語的情報の例として話を進めるが、実際には思いつく限りの様々な言語的情報を利用することができる。言語的情報の値には、頻度のようにある値が求まる場合にはそれを０から１までの値に正規化した値を用い、特定の品詞かどうかというようにYes／Noで求まる場合にはＹｅｓを「１」、Ｎｏを「０」とした値を用いる。言語的情報の値を求めた結果を表１の言語的情報の値の欄に示す。初めの単語「店内」において、４番目の言語的情報は単語が名詞かどうかであるが、「店内」は名詞であるのでＹｅｓとなり、その値は１となる。他も同様にして求める。各単語について各言語的情報に対する値を要素とするベクトルを求め、そのベクトル値について対応付けられた単語と対応付けられなかったものとを分類するための分類面を一例としてＳＶＭ法（Support Vector Machine, ２次の凸計画問題として各ベクトル値からユークリッド距離の二乗和を最小とする面を分類面とする方法）で求める。ここで、分類面から各単語に対応するベクトルのユークリッド距離を重要度として求める。
【００２５】
対応付けられた内容語の言語的情報の要素値からなるベクトルと、対応付けられなかった内容語の言語的情報の要素値からなるベクトルとを分類する分類面を、２値分類の機械学習手法の１つであるＳＶＭ法を用いて求め、各ベクトルから分類面までの距離を求める。対応付けられたベクトルについては距離の値そのものを重要度とし、対応つけられなかったベクトルについては距離の値を負値としたものを重要度とする。このようにして求めたベクトルと重要度を重要語選択モデルとして重要語選択モデルＤＢ４に格納する。表１に学習結果の例を示す。必要かどうかの分類結果が「○」になっている内容語の言語的情報の値からは正の重要度が出力され、「×」になっている内容語の言語的情報の値からは負の重要度が出力される重要語選択モデルが学習されている。
【００２６】
次に、学習した重要語選択モデルを用いてキーワードを抽出する方法について説明する。図６はキーワード抽出の対象とするテキストの例である。
【００２７】
単語分割部１によって、テキストを品詞付きの単語に分割する。
【００２８】
内容語選択部２によって、特定の品詞を持つ単語を内容語として選択する。重要語選択モデルの学習時と同様にして名詞・動詞・形容詞・形容動詞の４種類の品詞を持つ単語を内容語して選択することにすると、図６のテキストからは、「逗子湾」「沿う」「ゆるやか」「カーブ」「描く」「広大」「海水浴場」「ビーチ」「海の家」「立ち並ぶ」「毎年」「１００万人」「超える」「海水浴客」「にぎわう」の１５単語が内容語として選ばれる。
【００２９】
重要度付与部５では、テキスト中の１５の内容語に関して、モデル作成時と同様にして表２で示した言語的情報に関する値を求める。各内容語の言語的情報の値から、先ほど作成した重要語選択モデルを用いることで、重要度を求める。すなわち、各内容語の言語的情報に関する値のパターンを重要度選択モデル４中の言語的情報の値のパターンと比べ、値のパターンが同じであれば、重要度選択モデルＤＢ４中の対応する重要度を当該内容語の重要度とし、同一のパターンのものがなければ、類似するパターンとの類似の度合に応じて類似するパターンの重要度を増減することで重要度を求める。内容語に重要度を付与した結果を表３に示す。表３で「逗子湾」に関するベクトルは、表１における「店内」および「三浦半島」のベクトルと類似していることから、２つのベクトルの重要度＋０．４２、−１．００の間をとった値−０．５８が「逗子湾」の重要度となっている。残りについても同様にして重要度を付与する。
【００３０】
【表３】

【００３１】
キーワード出力部６では、重要度が付与された複数の内容語の中から、決められた個数または割合をキーワードとして決定、出力する。例えば上位３個をキーワードと定めた場合には、最も重要度が高い「海水浴場」（重要度＋１.００）、次いで重要度が高い「にぎわう」（重要度＋０．９０）、３番目に重要度が高い「海水浴客」（重要度＋０．８４）の３つの内容語がキーワードとして決定され、出力される。
【００３２】
重要語選択モデルの学習の際、様々な分野の要約付きテキストを用いてモデルを学習させておけば、異なる分野のテキストを対象としてキーワード抽出を行う場合でもモデルを再学習させる必要はなく、先ほど作成した重要語選択モデルを用いて重要度の付与を行えばよい。
【００３３】
なお、図１に示したキーワード抽出装置は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD―ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【００３４】
【発明の効果】
以上説明したように本発明によれば、キーワード抽出に必要な思いつく限りの言語的情報を考慮することができるため、どのような分野のテキストに対してもロバストにキーワード抽出を行うことが可能となり、また、異なる分野のテキストに対しても新たにルールを記述する必要がないため、精度維持にかかる手間やコストを大幅に削減することが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態のキーワード抽出装置のブロック図である。
【図２】図１の実施形態のキーワード抽出装置の全体の処理の流れを示すフローチャートである。
【図３】重要語選択モデル学習の流れを示すフローチャートである。
【図４】学習に用いるテキストの例を示す図である。
【図５】学習に用いる要約の例を示す図である。
【図６】キーワード抽出の対象とするテキストの例を示す図である。
【符号の説明】
１単語分割部
２内容語選択部
３重要度算出部
４重要語選択モデルデータベース
５重要度付与部
６キーワード出力部
１１〜１８、２１〜３０ステップ

Claims

単語分割手段と重要度算出手段と重要度付与手段とキーワード出力手段により構成されるキーワード決定装置が実施するキーワード決定方法であって、
前記単語分割手段が、学習に用いるテキストの主テキストと要約テキストを構成する文それぞれについて形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
前記重要度算出手段が、分析された特定の品詞の単語のうち、前記主テキストと前記要約テキストの両者に存在する単語を対応付けるステップと、
前記重要度算出手段が、各単語の言語的情報の要素値からなるベクトルについて、対応付けられた単語と対応付けられなかった単語各々についてベクトル空間での座標を分類する分類面を算出するステップと、
前記重要度算出手段が、対応付けられた単語について前記分類面からの距離を単語の重要度として算出し、対応付けられなかった単語について前記分類面からの距離を負値にしたものを単語の重要度として算出するステップと、
前記重要度算出手段が、対応付けられた単語と対応付けられなかった単語のすべてについて各言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデルを作成して重要語選択モデルデータベースに格納するステップと、
前記単語分割手段が、キーワード抽出の対象であるテキスト文書を構成する文について形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
前記重要度付与手段が、分析された特定の品詞の各単語について各言語的情報の要素値からなるベクトルを算出するステップと、
前記重要度付与手段が、該ベクトルのパターンと、前記重要語選択モデルデータベースに格納された、該言語的情報と同一の言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデル中のベクトルのパターンと比較し、前者のパターンと一致する後者のパターンがあれば、該後者のパターンに対応する重要度を当該単語の重要度と決定し、前者のパターンと一致する後者のパターンがなければ、前者のパターンと類似する後者のパターンの類似度に応じて、該後者のパターンに対応する重要度を増減することにより、当該単語の重要度を決定するステップと、
前記キーワード出力手段が、前記単語のうち、重要度の高い単語から順に予め定められた数をキーワードと決定するステップと
を有するキーワード決定方法。
学習に用いるテキストの主テキストと要約テキストを構成する文それぞれについて形態素解析して単語とその品詞、係り受けを含む言語的情報を分析する第１の単語分割手段と、
分析された特定の品詞の単語のうち、前記主テキストと前記要約テキストの両者に存在する単語を対応付ける手段と、各単語の言語的情報の要素値からなるベクトルについて、対応付けられた単語と対応付けられなかった単語各々についてベクトル空間での座標を分類する分類面を算出する手段と、対応付けられた単語について前記分類面からの距離を単語の重要度として算出し、対応付けられなかった単語について前記分類面からの距離を負値にしたものを単語の重要度として算出する手段と、対応付けられた単語と対応付けられなかった単語のすべてについて各言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデルを作成して重要語選択モデルデータベースに格納する手段とを含む重要度算出手段と、
キーワード抽出の対象であるテキスト文書を構成する文について形態素解析して単語とその品詞、係り受けを含む言語的情報を分析する第２の単語分割手段と、
分析された特定の品詞の各単語について各言語的情報の要素値からなるベクトルを算出する手段と、該ベクトルのパターンと、前記重要語選択モデルデータベースに格納された、該言語的情報と同一言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデル中のベクトルのパターンとを比較し、前者のパターンと一致する後者のパターンがあれば、該後者のパターンに対応する重要度を当該単語の重要度と決定し、前者のパターンと一致する後者のパターンがなければ、前者のパターンと類似する後者のパターンの類似度に応じて、該後者のパターンに対応する重要度を増減することにより、当該単語の重要度を決定する手段とを含む重要度付与手段と、
前記単語のうち、重要度の高い単語から順に予め定められた数をキーワードと決定するキーワード出力手段と
を有するキーワード決定装置。
請求項２記載のキーワード決定装置の各手段の機能をコンピュータに実行させるためのキーワード決定プログラム。
請求項３に記載のキーワード決定プログラムを記録した、コンピュータ読み取り可能な記録媒体。