JPH08320873A

JPH08320873A - キーワード自動抽出方法および装置

Info

Publication number: JPH08320873A
Application number: JP7126524A
Authority: JP
Inventors: Shiyuuichi Nakawatase; 秀一中渡瀬
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-05-25
Filing date: 1995-05-25
Publication date: 1996-12-03
Anticipated expiration: 2018-06-16
Also published as: JP3416918B2

Abstract

(57)【要約】【目的】辞書などをあらかじめ作成し、その後保守し
ていく労力を大幅に削減し、キーワード候補を自動的に
抽出する。【構成】キーワード候補自動抽出装置は、キーワード
を抽出するためのデータとなる文書が記録されている文
書ファイル１０と、文字列の出現頻度を計算するＮグラ
ム頻度情報計算部１１と、文書ファイル１０の文書に含
まれる文字列の重要度を計算する文字列重要度計算部１
２と、文書ファイル１０から抽出された文字列とその文
字列の重要度が記録される文字列重要度テーブル１３
と、文字列重要度テーブル１３から無意味な文字列を排
除しキーワード候補を抽出する文字列選別部１４と、文
字列選別部１４によって抽出されたキーワード候補が記
録されるキーワード候補テーブル１５で構成されてい
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、キーワード検索できる
テキストデータベースを作成する際に必要となるキーワ
ードを自動的に抽出する方法および装置に関する。

【０００２】

【従来の技術】従来、文章中からキーワード等を自動的
に抽出する方法としてフリーターム方式と統制キーワー
ド方式があった。

【０００３】フリーターム方式では、まず文章の分かち
書きを、字種や区切り記号に着目してキーワード抽出を
行い、さらに分かち書き用の辞書を用いて語を品詞単位
に分割する。次に、接尾語を登録した辞書との照合によ
り、分かち書きされた語から接頭語、接尾語を取り去
り、さらに、複合語の分割を、最小単位の単語を登録し
た語彙辞書を利用して分割する。次に、不要語辞書との
照合により、分かち書きされた語から不要語も取り除い
て残った語の中で名詞をキーワードとする。

【０００４】統制キーワード方式では、上記フリーター
ム方式の処理においてキーワードとされた語について、
キーワードとする語を登録した辞書であるキーワード辞
書と照合を行いキーワードを選択する方式である。

【０００５】

【発明が解決しようとする課題】上記フリーターム方式
と統制キーワード方式では語彙辞書、不要語辞書、また
統制キーワード方式ではさらにキーワード辞書を用いる
が、キーワードおよび不要語は文章の文脈に依存するも
のであり、これを無視した画一的な不要語、キーワード
の辞書では文章によってはキーワードとして必要な語を
削除したり、不必要な語をキーワードにしてしまうこと
があった。また、これら語彙辞書、不要語辞書、キーワ
ード辞書をあらかじめ作成しておかねばならないが、こ
れには膨大な労力が必要であり、新語の発生やその用法
が変化すればその度に辞書を入手によって更新しなけれ
ばならなかった。

【０００６】本発明の目的は、辞書などをあらかじめ作
成し、その後保守していく労力を大幅に削減し、キーワ
ード候補を自動的に抽出するキーワード自動抽出方法お
よび装置を提供することである。

【０００７】

【課題を解決するための手段】請求項１のキーワード自
動抽出方法には、与えられた文章に対してＮグラムを求
める処理と、求められる文字列の重要度を計算する処理
と、求められた文字列から無意味な文字列を排除する処
理とを施すことにより、前記与えられた文章のキーワー
ド候補を抽出するものである。

【０００８】請求項２のキーワード自動抽出方法は、前
記文字列の重要度を計算する処理が、前記Ｎグラムを求
める処理により求められた文字列の出現頻度と、実際に
出現した文字列の種類の総数によって、当該文字列の出
現頻度を正規化することにより、文字列の重要度を算出
するものである。

【０００９】請求項３のキーワード自動抽出方法は、前
記無意味な文字列を排除する処理が、重要度が求められ
た文字列を順次調べ、当該文字列より重要度が小さく、
かつ当該文字列の部分文字列となっている文字列をキー
ワード候補から除外することにより、無意味な文字列を
排除するものである。

【００１０】請求項４のキーワード自動抽出方法は、前
記文字列の出現頻度の正規化が、与えられた文書から長
さがｎ（ｎは所定の自然数）までの文字列を抽出し、重
複を排除して、その出現頻度とともにテーブルに登録す
るステップと、前記テーブルから、文字列の長さ別の種
類を計数するステップと、長さがｎまでの各文字列にお
いて、各当該文字列の長さ以下の長さの文字列の種類の
総数と、文字列の出現頻度を乗じることで、各文字列の
重要度を計算するステップにより実現される。

【００１１】請求項５のキーワード自動抽出方法は、前
記無意味な文字列を排除する処理が、長さが１からｎ
（ｎは所定の自然数）までの各長さの文字列とその重要
度を登録したｎ個のテーブルを結合するステップと、該
テーブルの文字列を重要度の順にソートするステップ
と、ソートしたテーブルから文字列を逐次読み出し、該
文字列が他の文字列の部分としてキーワード候補テーブ
ル上に登録されているか否かを検査するステップと、該
文字列が他の文字列の部分として前記キーワード候補テ
ーブル上に登録されていた場合には、該文字列を前記キ
ーワード候補テーブルに登録しないステップにより実現
される。

【００１２】請求項６から１０のキーワード自動抽出装
置は、それぞれ請求項１から５のキーワード自動抽出方
法を実施するものである。

【００１３】

【作用】まず、与えられた文章全体における任意の文字
列に対する重要度を計算し、文字列重要度テーブルに登
録する。次に、文字列重要度テーブルの文字列の中から
無意味な文字列を削除することによって、重要度で順序
つけられたキーワードの候補リストを生成する。

【００１４】これにより、辞書をあらかじめ作成する労
力が不要になる。

【００１５】

【実施例】次に、本発明の実施例について図面により説
明する。

【００１６】図１は本発明の一実施例のキーワード自動
抽出装置の構成図である。

【００１７】本実施例のキーワード候補自動抽出装置
は、キーワードを抽出するためのデータとなる文書が記
録されている文書ファイル１０と、文書ファイル１０に
記録されている文書を読み込み、その文書に含まれる任
意の文字列を抽出し、該文字列の出現頻度を計数するＮ
グラム頻度情報計数部１１と、文字列の出現頻度と実際
に出現した文字列の種類の総数頻度から文字列の重要度
を計算する文字列重要度計算部１２と、文書ファイル１
０から抽出された文字列と文字列重要度計算部１２によ
って計数されたその文字列の重要度が記録される文字列
重要度テーブル１３と、文字列重要度テーブル１３から
無意味な文字列を排除しキーワード候補を抽出する文字
列選別部１４と、文字列選別部１４によって抽出された
キーワード候補が記録されるキーワード候補テーブル１
５で構成されている。

【００１８】図２はＮグラム頻度情報計数部１１と文字
列重要度計算部１２の処理を示すフローチャートであ
る。まず、文書ファイル１０に記録されている文書を１
文ごとに読み込み（ステップ２１）、その文から部分文
字列を作り、さらにその各部分文字列を先頭の文字から
ｎ（ｎは所定の自然数）以下の部分文字列を作り、文字
列テーブル１６に出力する（ステップ２２，２３）。次
に、各文字列長さの部分文字列の種類と各種類の部分文
字列の文章中の出現頻度を求め、各文字列長さに応じた
テーブル（Ｎグラムテーブル）１７に格納する（ステッ
プ２４）。ここで、テーブル１７に記録される出現頻度
は実際の出現頻度から１を引いたものである。最後に、
各部分文字列Ｘの重要度Ｉ_X を次式により算出し、部分
文字列Ｘのｎグラム重要度テーブル１８に格納する（ス
テップ２６）。

【００１９】Ｉ_X ＝Ｙ×Ｓ・・・・・（１）ここで、ＹはＮグラムテーブル１７に格納されている部
分文字列Ｘの出現頻度、Ｓは部分文字列Ｘの長さＮ以下
の部分文字列の種類の総数である。

【００２０】図３は文字列選別部１４の処理を示すフロ
ーチャートである。まず、全てのＮグラム重要度テーブ
ル１８を合併し、部分文字列を重要度の高い順に並べか
え、文字列重要度テーブル１３に記録する（ステップ３
１）。次に、文字列重要度テーブル１３に記録された部
分文字列を重要度の高いものから順にキーワード候補と
して抽出する（ステップ３２）。そして抽出した部分文
字列がキーワード候補テーブル１５にすでに記録されて
いる文字列の部分文字列になっていなければ、抽出した
文字列をキーワード候補テーブル１５に記録する（ステ
ップ３５）。文字列重要度テーブル１３にある全ての文
字列について以上の操作を繰り返す。

【００２１】こうしてキーワード候補テーブル１５に記
録された文字列がその重要度の高いものから順に選択部
分におけるキーワード候補となっている。

【００２２】次の文章は文書ファイル１０に記録されて
いる文書の第１の例である。「核融合炉の開発は着実に進展しているそれは巨額の開発資金を要するので開発に関する議論が重要である本研究は核融合炉実用化を評価するため実用炉の費用を計算する解析コードを作成した費用の解析にはデータベースを取り入れた本コードの試算によってアスペスト比が３程度の場合経
済的には成立し難いことがわかった」次は文字列テーブル１６の内容である。「核融合炉の開発は着実に進展している融合炉の開発は着実に進展している合炉の開発は着実に進展している炉の開発は着実に進展しているの開発は着実に進展している開発は着実に進展している発は着実に進展しているは着実に進展している着実に進展している実に進展しているに進展している進展している展しているしているているいるるそれは巨額の開発資金を要するのでれは巨額の開発資金を要するので（略）し難いことがわかった難いことがわかったいことがわかったことがわかったとがわかったがわかったわかったかったったた」次はＮグラムテーブル１７（ｎ＝３の場合）の内容の一
部である。「の解析０の開発１の試算０の場合０の費用０アスペ０コード１スを取０開発資０核融合１額の開０本研究０融合炉１用の解０用を計０」表１は文字列長別の文字列の種類の数を示している。

【００２３】

【表１】次はｎグラム重要度テーブル１８の内容の一部（ｎ＝
３）である。

【００２４】「の解析０の開発３２９の試算０の場合０の費用０アスペ０コード３２９スを取０開発資０核融合３２９額の開０本研究０融合炉３２９用の解０用を計０」次はｎグラム重要度テーブル１８を合併し重要度で文字
列をソート（０は除外）した文字列重要度テーブル１３
の内容の一部である。「６０３する４６８の４５３核融合炉４０２開発３９０る３２９融合炉３２９核融合３２９コード３２９の開発３１２を３１２は３１２に２３４用２３４た２３４す２３４ー２０１炉の２０１融合２０１費用２０１実用２０１合炉２０１核融２０１解析２０１コー２０１の開２０１には２０１ード（以下略）」次はキーワード候補テーブル１５の内容の一部である。「する６０３の４６８核融合炉４５３開発４０２コード３２９の開発３２９を３１２は３１２に３１２用２３４た２３４炉の２０１費用２０１実用２０１解析２０１には２０１ス１５６し１５６が１５６要７８本７８成７８算７８れ７８で７８て７８っ７８い７８」次の文章は文書ファイル１０に記録されている文書の第
２の例である。「赤字を出してほめられた「日本の銀行」のウラ事情銀行というのは奇妙な世界に見えるだろう。太郎銀行が
今３月期で８００億円もの不良積権を償却し、経常利益
が２８００億円の赤字になることを発表した。普通なら
赤字決算は評判の悪いものだが、ＡＡ省、ＢＢは高く高
く”評価”したし、株価は１日で２７０円もはね上がっ
た。赤字を出してほめられるのだから、ほめられる方も
こそばゆいだろうが、世間の人が「なぜだ！！」と思う
のもムリはない。

【００２５】さよう、銀行ならではの事情があったので
ある。

【００２６】民間の株式会社は業績が悪くなったり、不
良債権を抱え込めば赤字決算になるのは当り前だが、銀
行はＡＡ省が認めてくれなければ赤字にできないのであ
る。昨年の決算で不良債権を大量に抱えた某銀行の決算
が問題になった。ＢＢの関係者の中には赤字にすべきだ
という意見もあったが、ＡＡ省は「ノー」。ＡＡ省は信
用不安に火がつくことを極度に警戒するし、銀行もイメ
ージを損なうことを嫌うからだ。何のことはない。粉飾
とまではいわないが、合法的な操作で何とか利益を出し
て辻褄を合わせることを指導しているようなものだ。

【００２７】ところが長引く株価低迷でもうこの手が使
えない。不良債権は次々と表面化して増えてくる。太郎
銀行は８０００億を一気に償却したとほめられているが
全部なくなるわけではない。

【００２８】ＡＡ省もかつて収益力ナンバーワンの太郎
銀行が踏み切るならば世間も納得し、信用不安になるま
いという読みがある。後に赤字決算の銀行が続きやす
い。一方、太郎銀行は単純な赤字決算と違う。８０００
億円も一度に償却し、積立金を崩して赤字を埋められる
のは体力のあることを天下にしめすもの。追随できるな
らやってご覧という自負もある。

【００２９】かくてＡＡ省と太郎銀行の思惑は一致した
のである。」表２は上記文書例中の文字列の出現頻度の一部を示して
いる

【００３０】

【表２】表３は上記文書例中の文字列長別の文字列の種類の数の
一部を示している。

【００３１】

【表３】表４は上記文書例中の文字列を重要度の高い順にソート
したときの上位文字列を示している。

【００３２】

【表４】表５は上記文書例からキーワード候補の文字列の一部を
重要度とともに示したものである。

【００３３】

【表５】

【００３４】

【発明の効果】以上説明したように本発明によれば、与
えられた文書とその選択部分を自動的に解析し、キーワ
ード候補の抽出をすることによって、あらかじめ人手に
より辞書を作成する労力を大幅に削減できる。

【００３５】また、本発明は、未知語などの辞書や構文
などのルール等、与えられる文章以外の情報を一切使用
しないため、静的にはプログラムおよびデータサイズが
非常に小さくて済み、動的には情報処理における辞書検
索やルール適用などの複雑かつ重い処理が不要であるの
で、メインフレームはもちろん、パソコンなどプロセッ
サ処理能力に制限がある環境下においても、十分な機能
および処理速度を発揮できる。

【００３６】また、本発明を、例えば実施例に示したよ
うな時事刻々流れるニュース記事などに適用するとき、
事前の辞書登録やルール教示などを一切必要としないた
め、初めて遭遇する未知語が含まれており、かつそれが
内容上重要であるような場合にも、内容の分野の如何に
かかわらず、その未知語をキーワード候補として捕捉で
きるという、応用上の顕著な利点がある。

【００３７】さらに、本発明を、全国紙新聞記事１年分
のように、各分野の内容がまんべんなく出現するよう
な、十分大規模な文章群に対して適用すれば、得られた
キーワード候補は特定の専門分野に偏らない性格を持つ
ため、簡便な「一般語群抽出方法または装置」として利
用でき、得られた一般語群は、例えば専門分野の文献の
キーワードから一般語を除外するために有効に利用でき
ることは明らかである。

【図面の簡単な説明】

【図１】本発明の一実施例のキーワード自動抽出装置の
ブロック図である。

【図２】Ｎグラム頻度情報計算部１１と文字列重要度計
算部１２の処理を示すフローチャートである。

【図３】文字列選別部１４の処理を示すフローチャート
である。

【符号の説明】

１０文書ファイル１１Ｎグラム頻度情報計算部１２文字列重要度計算部１３文字列重要度テーブル１４文字列選別部１５キーワード候補テーブル１６文字列テーブル１７ｎグラムテーブル１８ｎグラム重要度テーブル２１〜２５，３１〜３５ステップ

Claims

【特許請求の範囲】

【請求項１】与えられた文章に対してＮグラムを求め
る処理と、求められる文字列の重要度を計算する処理
と、求められた文字列から無意味な文字列を排除する処
理とを施すことにより、前記与えられた文章のキーワー
ド候補を抽出するキーワード自動抽出方法。
【請求項２】前記文字列の重要度を計算する処理が、
前記Ｎグラムを求める処理により求められた文字列の出
現頻度と、実際に出現した文字列の種類の総数によっ
て、当該文字列の出現頻度を正規化することにより、文
字列の重要度を算出するものである、請求項１記載のキ
ーワード自動抽出方法。
【請求項３】前記無意味な文字列を排除する処理が、
重要度が求められた文字列を順次調べ、当該文字列より
重要度が小さく、かつ当該文字列の部分文字列となって
いる文字列をキーワード候補から除外することにより、
無意味な文字列を排除するものである、請求項１または
２記載のキーワード自動抽出方法。
【請求項４】前記文字列の出現頻度の正規化が、与え
られた文書から長さがｎ（ｎは所定の自然数）までの文
字列を抽出し、重複を排除して、その出現頻度とともに
テーブルに登録するステップと、前記テーブルから、文
字列の長さ別の種類を計数するステップと、長さがｎま
での各文字列において、各当該文字列の長さ以下の長さ
の文字列の種類の総数と、文字列の出現頻度を乗じるこ
とで、各文字列の重要度を計算するステップにより実現
される、請求項２記載のキーワード自動抽出方法。
【請求項５】前記無意味な文字列を排除する処理が、
長さが１からｎ（ｎは所定の自然数）までの各長さの文
字列とその重要度を登録したｎ個のテーブルを結合する
ステップと、該テーブルの文字列を重要度の順にソート
するステップと、ソートしたテーブルから文字列を逐次
読み出し、該文字列が他の文字列の部分としてキーワー
ド候補テーブル上に登録されているか否かを検査するス
テップと、該文字列が他の文字列の部分として前記キー
ワード候補テーブル上に登録されていた場合には、該文
字列を前記キーワード候補テーブルに登録しないステッ
プにより実現される、請求項３記載のキーワード自動抽
出方法。
【請求項６】与えられた文章に対して、Ｎグラムを得
る手段と、求められる文字列の重要度を計算する手段
と、求められた文字列から無意味な文字列を排除する手
段とを有するキーワード自動抽出装置。
【請求項７】前記重要度を計算する手段が、前記Ｎグ
ラムを得る手段により求められた文字列の出現頻度と、
実際に出現した文字列の種類の総数によって、当該文字
列の出現頻度を正規化するものである、請求項６記載の
キーワード自動抽出装置。
【請求項８】前記無意味な文字列を排除する手段が、
重要度が求められた文字列を順次求め、当該文字列より
重要度が小さく、かつ当該文字列の部分文字列となって
いる文字列をキーワード候補から除外するものである、
請求項６または７記載のキーワード自動抽出装置。
【請求項９】前記文字列の出現頻度の正規化が、与え
られた文書から長さがｎ（ｎは所定の自然数）までの文
字列を抽出し、重複を排除して、その出現頻度とともに
テーブルに登録するステップと、前記テーブルから、文
字列の長さ別の種類を計数するステップと、長さがｎま
での各文字列において、各当該文字列の長さ以下の長さ
の文字列の種類の総数と、文字列の出現頻度を乗じるこ
とで、各文字列の重要度を計算するステップにより実現
される、請求項７記載のキーワード自動抽出装置。
【請求項１０】前記無意味な文字列を排除する処理
が、長さが１からｎ（ｎは所定の自然数）までの各長さ
の文字列とその重要度を登録したｎ個のテーブルを結合
するステップと、該テーブルの文字列を重要度の順にソ
ートするステップと、ソートしたテーブルから文字列を
逐次読み出し、該文字列が他の文字列の部分としてキー
ワード候補テーブル上に登録されているか否かを検査す
るステップと、該文字列が他の文字列の部分として前記
キーワード候補テーブル上に登録されていた場合には、
該文字列を前記キーワード候補テーブルに登録しないス
テップにより実現される、請求項８記載のキーワード自
動抽出装置。