JP2000132553A

JP2000132553A - キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2000132553A
Application number: JP10300720A
Authority: JP
Inventors: Hideki Nishimura; 英樹西村
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-10-22
Filing date: 1998-10-22
Publication date: 2000-05-12
Also published as: US6836772B1

Abstract

(57)【要約】（修正有）【課題】キーワードを抽出したいデータの形状に依存
せず、データを所望のパラメータで分割し、キーワード
を抽出する。【解決手段】データからキーワードを抽出する方法で
あって、所望のパラメータを用いて前記データを分割す
るステップと、分割されたグループ毎に単語を統計処理
するステップと、統計処理された結果を比較し、重要度
を算出するステップと、算出された重要度から、比較的
重要度が高いと判断された単語からキーワードを決定す
るステップと、を備えたことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は大量のデータから、
そのデータの特徴を示すキーワードを抽出する方法に関
するもので、大量のデータの部分領域の統計処理を行う
ことによってキーワードを抽出するキーワード抽出方法
およびキーワード検索装置およびキーワード抽出プログ
ラムを記録した記録媒体に関する。

【０００２】

【従来の技術】大量のデータの部分領域の統計処理を行
うことによってキーワードを抽出する方法が特開平８−
２０２７３７号公報に記載されている。ここでは特許の
明細書を例にあげ、まず、あらかじめ準備した、《発明
の名称》、《特許請求の範囲》、等の見出し語に注目し
て全データを個々の段落に分割し、次に、同一文（セン
テンス）内での各単語の他の単語との共起数、同一段落
毎の各単語の他の単語との共起数、全データでの各単語
の出現数を求め、最後にこれらに適当な係数を乗じた代
数和で各単語の重要度を求め、キーワードを決定してい
る。

【０００３】すなわち、単なる各単語の出現頻度でキー
ワードを決定するのでは無く、同一文、同一段落で相互
に共起する単語はより重要度（キーワードとしての妥当
性）が高いと判断している。

【０００４】

【発明が解決しようとする課題】しかしながら、特開平
８−２０２７３７号公報に記載の方法では、対象データ
の特殊性に基づいて予め準備された見出し語（《発明の
名称》等）によって段落分割がなされるため、段落の分
割が固定であった。また、抽出されるキーワードは対象
データ全体に対するキーワードであって、個々の段落の
キーワードは抽出されていなかった。

【０００５】従って、対象データが、特許明細書のよう
に各段落がそれぞれ固定の意味を持ち、明細書１文書で
内容が完結しているような場合には問題が少なかった
が、対象データが各個人が送受信した（電子）メール全
体とか、１日、１月単位のニュース全体とかのように、
送受信相手、発生時刻（日時）、等の種々のパラメータ
で分割可能なデータ集合であり、対象データ全体の内容
が把握しにくい場合には適用できなかった。

【０００６】本発明は、上記課題に基づいて創案された
もので、種々のパラメータで分割可能な大量のデータに
対して各分割毎の統計処理結果の違いを比較することに
より、各分割毎または全データのキーワードを抽出し、
全データの特徴と、全データの中で各分割の特異性、傾
向との両方または一方を把握することを目的とする。

【０００７】

【課題を解決するための手段】この発明（請求項１）に
係るキーワード抽出方法は、データからキーワードを抽
出する方法であって、所望のパラメータを用いて前記デ
ータを分割するステップと、分割されたグループ毎に単
語を統計処理するステップと、統計処理された結果を比
較し、重要度を算出するステップと、算出された重要度
から、比較的重要度が高いと判断された単語からキーワ
ードを決定するステップと、を備えたことにより、上記
の目的を達成する。

【０００８】この発明（請求項２）に係るキーワード抽
出方法は、請求項１において、前記所望のパラメータ
が、前記データにそれぞれ付加される属性から選択され
てなることにより、上記の目的を達成する。

【０００９】この発明（請求項３）に係るキーワード抽
出方法は、請求項１又は２において、前記分割されたグ
ループ毎に単語を統計処理する際、全てのグループに同
一の統計処理を行ってなることにより、上記の目的を達
成する。

【００１０】この発明（請求項４）に係るキーワード抽
出方法は、請求項１〜３のいずれかにおいて、前記キー
ワードが、グループ毎のキーワード、又は全データのキ
ーワードとして決定されることにより、上記の目的を達
成する。

【００１１】この発明（請求項５）に係るキーワード抽
出方法は、請求項４で決定されるキーワードが、パラメ
ータとして選択された属性と関連づけて、これを全デー
タの特性として判断されてなることにより、上記の目的
を達成する。

【００１２】この発明（請求項６）に係るキーワード抽
出装置は、データからキーワードを抽出する装置であっ
て、所望のパラメータを用いて前記データを分割する手
段と、分割されたグループ毎に単語を統計処理する手段
と、統計処理された結果を比較し、重要度を算出する手
段と、算出された重要度から、比較的重要度が高いと判
断された単語からキーワードを決定する手段と、を備え
たことにより、上記の目的を達成する。

【００１３】この発明（請求項７）に係るキーワード抽
出プログラムを記録したコンピュータ読み取り可能な記
録媒体は、コンピュータを、所望のパラメータを用いて
前記データを分割する手段、分割されたグループ毎に単
語を統計処理する手段、統計処理された結果を比較し、
重要度を算出する手段、算出された重要度から、比較的
重要度が高いと判断された単語からキーワードを決定す
る手段、として機能させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体であることによ
り、上記の目的を達成する。

【００１４】即ち、本発明は、大量のデータを所望のパ
ラメータを用いて、いくつかの数に分割するものであ
る。この所望のパラメータは、データを社外向けメール
と社内向けメールに分割する、メールの発生月日または
時刻で分割する、又は、特定の相手とそれ以外に分割す
る等、対象とするデータに付加された属性であれば、何
でも良い。

【００１５】次に、分割されたグループ毎に単語の統計
処理を行う。この統計処理は単なる単語の出現頻度でも
良いし、他の単語との共起数であっても良い。

【００１６】更に、分割されたグループ毎の統計処理結
果の比較を行う。比較を行う場合には、前記分割された
グループ毎の統計処理を、単なる出現頻度であれ、他の
単語との共起数であれ、統一しておくことが好ましい。
また、具体的な比較は統計結果の差分もしくは比率を求
めることによってなされる。

【００１７】つまり、ある分割領域において、出現頻度
又は他の単語との共起数が大きく、他の分割領域におい
て、出現頻度又は他の単語との共起数が小さい単語は、
重要度（キーワードとしての妥当性）が高いと判断す
る。

【００１８】最後に各分割で重要度が高いと判断された
単語からキーワードを決定する。これは分割されたグル
ープ毎のキーワードと判断しても良いし、全データのキ
ーワードと判断しても良い。最も望ましいのは、最初に
分割した時の属性と関連づけて、ある属性分割にはこの
ようなキーワードがあり、別の属性分割には別のキーワ
ードがあるのが、この全データの特性であると判断する
ことである。

【００１９】

【発明の実施の形態】以下、本発明の一実施例を添付図
面に基づいて詳細に説明する。

【００２０】図１は本実施例に係るキーワード抽出装置
の機能ブロック図である。

【００２１】この図において、１は対象データ選択手段
である。対象データ選択手段１は、対象の文書集合に対
して、各文書の単語やその他付加情報を整理する。２は
対象データ分割手段である。対象データ分割手段２は、
各文書の付加情報を利用して、文書集合を所望のＮ個に
分割する。３は部分統計処理手段である。部分統計処理
手段３は、分割されたＮ個の集合それぞれに対して単語
の統計をとる。４は部分統計処理結果比較手段である。
部分統計処理結果比較手段４は、Ｎ個の統計を元に、統
計結果を比較し、違いを検出して、単語の重要度を決定
する。５はキーワード抽出手段である。キーワード抽出
手段５は、単語の重要度を参照し、ソートすることで、
キーワードを抽出する。

【００２２】以後、ある開発資料の文書集合を対象に、
著者を分割基準とした場合の動作を詳細に説明する。こ
こで、文書はコンピュータ上のファイルとなっており、
著者情報を持ち、文書集合をファイル名のリストという
形式で扱えるものとする。図２は、対象データ選択手段
１における動作のフローチャートである。まず、文書集
合から文書を１つ取り出す（Ｓ１０１）。取り出した文
書を解析し、単語の出現頻度を調べる（Ｓ１０２）。こ
の解析方法については、公知の技術を用いることにし、
特に制限しない。

【００２３】次に、不要語辞書を用いて「そして、しか
し、この」などの不要語を除去した後（Ｓ１０３）、著
者名とともに文書テーブルに、文書の要素として追加す
る（Ｓ１０４）。文書集合の全ての文書に対して行うま
で、Ｓ１０１〜Ｓ１０４を繰り返す（Ｓ１０５）。結果
として、文書テーブル６（図３）を得る。

【００２４】ここで、単語の後の（）の数字は、その単
語の出現数を表す。なお、著者名は、ファイルの著者情
報を利用するなどで、特定できるものとする。ここで
は、説明を簡単にするために各文書とも単語数が極端に
少ない例にしているが、実際の文書では当然のことなが
ら単語の種類・出現頻度とも多種・多数になる。

【００２５】図４は、対象データ分割手段２における動
作のフローチャートである。文書テーブル６の全ての要
素に対して、Ｓ２０１〜Ｓ２０３を繰り返す。まず、文
書テーブル６から、文書要素を１つ取り出す（Ｓ２０
１）。例えば、「１著者：幹部Ａ単語：画期的（１
０）、技術革新（５）、デジタル（４）」が取り出され
る。次に、著者名から、著者クラスを決定する（Ｓ２０
２）。著者クラスとは、分割単位グループのことであ
り、クラスはいくつあっても良いが、この例では、「幹
部」「技術」「企画」の３つのクラスがあるとする。従
って、「１著者：幹部Ａ単語：画期的（１０）、技
術革新（５）、デジタル（４）」の場合、クラス「幹
部」と決定する。

【００２６】そして、決定されたクラスに従って、該当
するクラスの単語リストに単語を追加する（Ｓ２０
３）。「１著者：幹部Ａ単語：画期的（１０）、技
術革新（５）、デジタル（４）」の場合、幹部クラスの
単語リスト７に、単語「画期的（１０）、技術革新
（５）、デジタル（４）」を追加する（図５）。文書テ
ーブル６の全ての要素に対して行うまで、Ｓ２０１〜Ｓ
２０３を繰り返す（Ｓ２０４）。

【００２７】結果として、「幹部」「企画」「技術」の
３つのクラスに対応して、単語リスト７（図５）、単語
リスト８（図６）、単語リスト９（図７）を得る。な
お、著者クラスは著者名から直接決定するとしたが、著
者クラステーブル１０（図８）を用いて、クラスを決定
するようにしても良い。

【００２８】図９は、部分統計処理手段３における動作
のフローチャートである。全てのクラスに対して、Ｓ３
０１〜Ｓ３０６を繰り返す。まず、対象データ分割手段
２によって得られた、あるクラスに対する、単語リスト
を選択する（Ｓ３０１）。例えば、幹部クラスの単語リ
スト７（図５）を選択する。選択した単語リストの全て
の単語に対して、Ｓ３０２〜Ｓ３０５を繰り返す。選択
した単語リストから、単語を１つ取り出す（Ｓ３０
２）。

【００２９】例えば、幹部クラスの単語リスト７から、
単語「画期的（１０）」を取り出す。そして、取り出し
た単語に対して、単語カウントテーブルに登録されてい
るかどうかを調べ（Ｓ３０３）、登録されていれば、そ
の単語に対応するカウンタを出現数だけ増加する（Ｓ３
０４）。登録されていなければ、その単語を単語カウン
トテーブルに登録し、カウンタを出現数に設定する（Ｓ
３０５）。

【００３０】例えば、幹部クラスを選択している時、単
語リスト７から取り出された「画期的（１０）」は１回
目は単語カウントテーブル１１に登録されていないの
で、単語カウントテーブル１１に登録し、カウンタをそ
の出現数である１０にする。しかし、２回目に「画期的
（２）」が取り出された時、単語カウントテーブル１１
に登録されているので、対応するカウンタを２増加し、
１２とする。

【００３１】Ｓ３０２〜Ｓ３０５を、選択した単語リス
トの全ての単語に対して行うまで繰り返す（Ｓ３０
６）。Ｓ３０１〜Ｓ３０６を、全てのクラスに対して行
うまで繰り返す（Ｓ３０７）。

【００３２】結果として、各クラスに対応した、単語カ
ウントテーブル１１、１２、１３を得る（図１０、図１
１、図１２）。

【００３３】図１３は、部分統計処理結果比較手段４に
おける動作のフローチャートである。Ｓ４０１〜Ｓ４０
４を、全てのクラスに対して行うまで繰り返す。まず、
対象のクラスを選択する（Ｓ４０１）。例えば、幹部の
観点で単語を抽出したい時、幹部クラスを選択する。Ｓ
４０２〜Ｓ４０３を、該当する単語カウントテーブルの
全単語に対して行うまで、繰り返す。選択したクラスの
単語カウントテーブルから単語を１つ選択する（Ｓ４０
２）。例えば、技術クラスの単語カウントテーブル１１
から、単語「画期的」を選択する。

【００３４】次に、該当する単語カウントテーブルのカ
ウンタ値と、他の単語カウントテーブルのカウンタ値を
参照して、選択した単語の重要度を計算し、対応する単
語重要度テーブルに登録する（Ｓ４０３）。この時、各
クラスの文書数などを考慮に入れてもよい。

【００３５】例えば、単語ｋの重要度Ｉを以下の式によ
って求めることが出来る。

【００３６】

【数１】

【００３７】このように重要度の決定に差分を用いる
と、カウンタ値の絶対値の大きさがＩ（ｋ）の反映され
ることになり、より多く出現したキーワードを抽出した
い場合に適している。Ｓ４０２〜Ｓ４０３を、該当する
単語カウントテーブルの全単語に対して行うまで、繰り
返す（Ｓ４０４）。全てのクラスに対して、Ｓ４０１〜
Ｓ４０４を繰り返す（Ｓ４０５）。

【００３８】結果として、各クラスに対する単語重要度
テーブル１４、１５、１６を得る（図１４、図１５、図
１６）。

【００３９】図１７は、キーワード抽出手段５における
請求項１記載の方法のフローチャートである。Ｓ５０１
〜Ｓ５０３を、全てのキーワード抽出対象のクラスに対
して行うまで繰り返す。まず、キーワード抽出対象のク
ラスを１つ選択する（Ｓ５０１）。そのクラスに対応す
る単語重要度テーブルを重要度でソートし、ソートした
単語重要度テーブルを作成する（Ｓ５０２）。そして、
ソートした単語重要度テーブル上位の単語を抽出キーワ
ードとする（Ｓ５０３）。Ｓ５０１〜Ｓ５０３を、全て
のキーワード抽出対象のクラスに対して行うまで繰り返
す（Ｓ５０４）。

【００４０】結果として、ソートした単語重要度テーブ
ル１７、１８、１９を得る（図１８、図１９、図２
０）。上述した、一連の処理を行うことで、対象の文書
集合から各クラスの観点での特徴キーワードを抽出する
ことが出来る。

【００４１】図２１は、キーワード抽出手段５における
請求項２記載の方法のフローチャートである。全てのク
ラスに対して、Ｓ５１１〜Ｓ５１６を繰り返す。対象の
クラスを１つ選択する（Ｓ５１１）。次に、選択クラス
に対応する単語重要度テーブルの中の全ての単語に対し
て、Ｓ５１２〜Ｓ５１７を繰り返す。対象の単語を１つ
選択する（Ｓ５１２）。選択単語が単語統計テーブル２
０に登録されているかどうかを調べ（Ｓ５１３）、登録
されていれば、単語統計テーブル２０の対応する単語の
統計値に、選択単語の重要度の絶対値を加え、さらに、
選択クラスの単語カウントテーブルを参照し、対応する
単語のカウンタに、選択単語のカウンタ値を加える（Ｓ
５１４）。

【００４２】登録されていなければ、単語統計テーブル
２０に選択単語を登録した後（Ｓ５１５）、単語統計テ
ーブル２０の対応する単語の統計値に、選択単語の重要
度の絶対値を設定し、さらに、選択クラスの単語カウン
トテーブルを参照し、対応する単語のカウンタに、選択
単語のカウンタ値を設定する（Ｓ５１６）。統計値に対
しては、重要度の自乗などを加えるようにしても良い。
Ｓ５１２〜Ｓ５１６を、全ての単語に対して行うまで繰
り返す（Ｓ５１７）。Ｓ５１１〜Ｓ５１７を、全てのク
ラスに対して行うまで繰り返す（Ｓ５１８）。

【００４３】最後に、単語統計テーブル２０を統計値が
小さく、カウンタ値が大きい順にソートし、ソートした
単語統計テーブル２１を作成する（Ｓ５１９）。この
時、具体的には、例えば係数Ｃ × 統計値 − カウンタ値の値を基準にソート、統計値とカウンタ値のどちらかに
閾値を設定することで絞り込み残りの値でソート、統計
値／カウンタ値の値を基準にソート、などとすれば良
い。そして、ソートした単語統計テーブル２１の上位単
語を、抽出キーワードとする（Ｓ５２０）。

【００４４】結果として得られた、ソートした単語統計
テーブル２１を図２２に示す。ここでは、統計値／カウ
ンタ値の値の小さい順にソートした。上述した、一連の
処理を行うことで、対象の文書集合から各クラスによっ
て出現傾向の似ているキーワードを抽出することが出来
る。

【００４５】本実施例では、該当クラスと他のクラスと
の差分に着目したが、比率に着目することも出来る。す
なわち、図１３における、Ｓ４０３の重要度Ｉの計算に
おいて、

【００４６】

【数２】

【００４７】とすればよい。このように重要度の決定に
比率を用いると、文書数の絶対数に関わらず重要度の大
小の幅が大きくなり、文書数によらずに重要度を考慮し
たキーワードを抽出したい場合に適している。

【００４８】この時、統計値の計算をする時に、無限大
なる場合を考慮し、重要度に上限、下限を設定し、さら
に、重要度が１未満ならその逆数を重要度の代わりに使
うようにするか、対数の絶対値を使うなど、重要度の違
いが累積されるようにする。または、重要度が１未満の
時その逆数を重要度の代わりに使う場合には、重要度ま
たはその逆数が１以上になることに注目し、統計値に加
えるのではなく、乗じることも出来る。

【００４９】また、本実施例では、対象の文書集合を開
発資料とし、分割基準を著者としたが、その他分割基準
になりうる所望の基準で良く、例えば、メールを対象と
して、社外用のメールと、社内用のメールに分割した
り、メールの発生月日または時刻で分割したり、特定の
相手とそれ以外に分割するなど、対象データに付加され
ているものであれば何でも良い。

【００５０】様々な検索システムでは、利用者のアクセ
スをログとして記録している場合が多い。この時、アク
セスログにはアクセスした利用者のＩＤや、アクセス日
時や、検索キー（多くの場合キーワード）が記録されて
いる。従って、この一回のアクセスに対するログを１文
書として扱うと、アクセスログ全体で、文書集合を構成
することになり、利用者ＩＤで分割したり、アクセス日
時を用いて昼夜あるいは平日、休日などに分割すること
で、それぞれのアクセス傾向を調べることが出来る。

【００５１】

【発明の効果】本発明のキーワード抽出方法、キーワー
ド抽出装置、又は記録媒体を用いることによれば、種々
のパラメータで分割可能な大量のデータに対して、分割
されたグループ毎の統計処理結果の違いを比較すること
によって、分割されたグループ毎、又は全データのキー
ワードを抽出し、全データの特徴と、全データの中での
分割されたグループの特異性及び／又は傾向を把握する
ことが出来、しかも、データの形式として特定のものは
必要でなく、所望のものを扱える。

【００５２】特に、重要度の決定に、出現頻度の差分を
用いる方法では、より出現頻度の高いキーワードを抽出
することが出来、重要度の決定に、出現頻度の比率を用
いる方法では、文書の絶対数によらずに重要度を考慮し
たキーワードを抽出することが出来る。

【図面の簡単な説明】

【図１】本発明の機能ブロック図である。

【図２】データ対象選択手段における動作のフローチャ
ートである。

【図３】文書テーブルの例を示す説明図である。

【図４】対象データ分割手段における動作のフローチャ
ートである。

【図５】幹部クラスの単語リストの例を示す説明図であ
る。

【図６】企画クラスの単語リストの例を示す説明図であ
る。

【図７】技術クラスの単語リストの例を示す説明図であ
る。

【図８】著者クラステーブルの例を示す説明図である。

【図９】部分統計処理手段における動作のフローチャー
トである。

【図１０】幹部クラスの単語カウントテーブルの例を示
す説明図である。

【図１１】企画クラスの単語カウントテーブルの例を示
す説明図である。

【図１２】技術クラスの単語カウントテーブルの例を示
す説明図である。

【図１３】部分統計処理結果比較手段における動作のフ
ローチャートである。

【図１４】幹部クラスの単語重要度テーブルの例を示す
説明図である。

【図１５】企画クラスの単語重要度テーブルの例を示す
説明図である。

【図１６】技術クラスの単語重要度テーブルの例を示す
説明図である。

【図１７】キーワード抽出手段における請求項１記載の
方法のフローチャートである。

【図１８】幹部クラスのソートした単語重要度テーブル
の例を示す説明図である。

【図１９】企画クラスのソートした単語重要度テーブル
の例を示す説明図である。

【図２０】技術クラスのソートした単語重要度テーブル
の例を示す説明図である。

【図２１】キーワード抽出手段における請求項２記載の
方法のフローチャートである。

【図２２】単語統計テーブルの例を示す説明図である。

【図２３】ソートした単語統計テーブルの例を示す説明
図である。

【符号の説明】

１対象データ選択手段２対象データ分割手段３部分統計処理手段４部分統計処理結果比較手段５キーワード抽出手段６文書テーブル７幹部クラスの単語リスト８企画クラスの単語リスト９技術クラスの単語リスト１０著者クラステーブル１１幹部クラスの単語カウントテーブル１２企画クラスの単語カウントテーブル１３技術クラスの単語カウントテーブル１４幹部クラスの単語重要度テーブル１５企画クラスの単語重要度テーブル１６技術クラスの単語重要度テーブル１７幹部クラスのソートした単語重要度テーブル１８企画クラスのソートした単語重要度テーブル１９技術クラスのソートした単語重要度テーブル２０単語統計テーブル２１ソートした単語統計テーブル

Claims

【特許請求の範囲】

【請求項１】データからキーワードを抽出する方法で
あって、所望のパラメータを用いて前記データを分割するステッ
プと、分割されたグループ毎に単語を統計処理するステップ
と、統計処理された結果を比較し、重要度を算出するステッ
プと、算出された重要度から、比較的重要度が高いと判断され
た単語からキーワードを決定するステップと、を備えた
ことを特徴とするキーワード抽出方法。
【請求項２】前記所望のパラメータは、前記データに
それぞれ付加される属性から選択されてなることを特徴
とする請求項１に記載のキーワード抽出方法。
【請求項３】前記分割されたグループ毎に単語を統計
処理する際、全てのグループに同一の統計処理を行って
なることを特徴とする請求項１又は２に記載のキーワー
ド抽出方法。
【請求項４】前記キーワードは、グループ毎のキーワ
ード、又は全データのキーワードとして決定されること
を特徴とする請求項１〜３のいずれかに記載のキーワー
ド抽出方法。
【請求項５】請求項４で決定されるキーワードは、パ
ラメータとして選択された属性と関連づけて、これを全
データの特性として判断されてなることを特徴とするキ
ーワード抽出方法。
【請求項６】データからキーワードを抽出する装置で
あって、所望のパラメータを用いて前記データを分割する手段
と、分割されたグループ毎に単語を統計処理する手段と、統計処理された結果を比較し、重要度を算出する手段
と、算出された重要度から、比較的重要度が高いと判断され
た単語からキーワードを決定する手段と、を備えたことを特徴とするキーワード抽出装置。
【請求項７】コンピュータを、所望のパラメータを用いて前記データを分割する手段、分割されたグループ毎に単語を統計処理する手段、統計処理された結果を比較し、重要度を算出する手段、算出された重要度から、比較的重要度が高いと判断され
た単語からキーワードを決定する手段、として機能させ
るためのプログラムを記録したコンピュータ読み取り可
能な記録媒体。