JPH06187373A

JPH06187373A - キーワード抽出装置

Info

Publication number: JPH06187373A
Application number: JP4335965A
Authority: JP
Inventors: Takeshi Mogi; 健茂木
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1992-12-16
Filing date: 1992-12-16
Publication date: 1994-07-08

Abstract

(57)【要約】【目的】本発明は、キーワード候補の同義関係、及び
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、その候補の出現頻度の
算出を行うことを目的とする。【構成】本発明は、キーワード抽出の対象となる文書
を構成する各文字毎に対応付けられた文字コードに基づ
いて、文書中の連続して隣接する少なくとも２個以上の
語が漢字、片仮名、アルファベット、長音又は数字の任
意の組み合わせである場合に、それらの連続する語をキ
ーワード候補として抽出し、出現頻度算出部は、部分一
致判定部によって判定された部分一致関係となるキーワ
ード候補を、また同義語判定部によって判定された同義
関係となるキーワード候補を夫々包括的に取り扱って出
現頻度を算出することを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書中に出現するキー
ワード候補の出現頻度を算出し、この出現頻度に基づい
て該文書中のキーワードの特定を行うキーワード抽出装
置に関する。

【０００２】

【従来の技術】従来から学術文献、新聞記事、又は特許
公報等の文書要約、文書データベースの作成等におい
て、該文書中のキーワードを抽出することは非常に重要
である。上述の文書におけるキーワードは、その文書中
に繰り返して出現することが経験的に知られており、従
来のキーワードの抽出に際しては、その出現頻度を手掛
かりとして行う場合が多い。

【０００３】そのキーワードの出現頻度を手掛かりとし
て、キーワードの抽出を行うキーワード抽出装置が、特
開平１−１１２３３１号公報に開示されており、図４は
そのキーワード抽出装置の概略構成図を示したものであ
る。

【０００４】まず、キーワード抽出の対象となる文書を
入力装置１を介して、入力処理部２に入力することによ
って、その文書中の名詞を名詞抽出部３が抽出する。

【０００５】ここで、名詞抽出部３による名詞の抽出方
法は、入力処理部２に入力された対象となる文書に対し
て、「は」、「が」、「を」等の助詞の直前に位置する
漢字、カタカナ列を名詞として抽出している。

【０００６】この名詞抽出部３によって抽出された名詞
は、抽出名詞テーブル４に一旦格納される。

【０００７】一方、不要語辞書６には、キーワードとな
らない接頭語辞書、接尾語辞書等の辞書が格納されてお
り、不要語削除部５はその不要語辞書６の格納内容に基
づいて、抽出名詞テーブル４に格納された名詞に対し
て、接頭語辞書、接尾語辞書等の削除を行い、抽出名詞
テーブル４の格納語の更新を行う。

【０００８】キーワード辞書８には、キーワードとなる
候補が予め登録されており、キーワード辞書照合部７
は、更新された抽出名詞テーブル４中に格納された個々
の語に対して、キーワード辞書８の登録内容に基づいて
照合を行なって、照合のとれた語をキーワード候補とし
てキーワード候補テーブル９に登録する。

【０００９】出現頻度認定部１０は、キーワード候補テ
ーブル９中の語について、入力対象となった文書中で全
部で何回出現しているかをカウントして、その結果を出
力部１１に出力する。

【００１０】

【発明が解決しようとする課題】しかしながら、上述の
装置にあっては、入力処理部２に入力したキーワード抽
出の対象となる文書に対して、まず名詞抽出部３は
「は」、「が」、「を」等の助詞の直前に位置する漢
字、カタカナ列を名詞として抽出している。このとき、
それらの助詞の直前に位置する漢字、カタカナ列には、
同義語関係、又は部分一致関係のものが含まれており、
これらを考慮せずにキーワードを抽出してしまうと、キ
ーワードの出現頻度を別個に算出することになってしま
い、キーワードの抽出を精度よく行えなかった。

【００１１】更に、通常、対象となる文書中のキーワー
ドは、必ずしも「は」、「が」、「を」等の助詞の直前
に位置するとは限らないため、これらの助詞の直前に位
置するものをキーワード候補として抽出しカウントした
だけでは、キーワードを漏れなく抽出することはできな
かった。

【００１２】そこで、本発明は、上述の問題点に鑑みな
されたものであり、対象となる文書を構成する文字の文
字コードに着目し、それらの文字コードに基づいて、助
詞の直前に位置する名詞に限ることなく、文書中に連続
して隣接する少なくとも２個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出すると共に、そのキーワード候補の同義関係、及び
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、出現頻度の算出を行う
ことによってキーワードを抽出するキーワード抽出装置
を提供することを目的とする。

【００１３】

【課題を解決するための手段】本発明は、キーワード抽
出の対象となる文書を読み込み、該文書を構成する各文
字を文字コードに変換する文書読み込み部と、該文書読
み込み部によって変換された各文字の文字コードに基づ
いて、該文字を漢字、片仮名、平仮名、アルファベッ
ト、長音又は数字等の語毎に区分けを行う語切り出し部
と、該語切り出し部によって区分けされた語のうち、連
続して隣接する少なくとも２個以上の語が漢字、片仮
名、アルファベット、長音又は数字の任意の組み合わせ
である場合に、それらの連続する語をキーワード候補と
して抽出するキーワード候補抽出部と、該キーワード候
補抽出部によって抽出されたキーワード候補同士の部分
一致関係を判定する部分一致判定部と、同義語を格納し
ている同義語辞書と、該同義語辞書に格納された同義語
に基づいて、上記キーワード候補抽出部によって抽出さ
れたキーワード候補同士の同義関係を判定する同義語判
定部と、上記キーワード候補の出現頻度を算出する出現
頻度算出部と、該出現頻度算出部によって算出された出
現頻度に基づいて、出現頻度の上位に位置するキーワー
ド候補をキーワードとする高頻度語抽出部と、を具備
し、上記出現頻度算出部は、上記部分一致判定部によっ
て判定された部分一致関係となるキーワード候補と、上
記同義語判定部によって判定された同義関係となるキー
ワード候補とを夫々包括的に取り扱って出現頻度を算出
することを特徴とする。

【００１４】

【作用】キーワード候補抽出部は、キーワード抽出の対
象となる文書を構成する各文字の文字コードに基づい
て、連続して隣接する少なくとも２個以上の語が漢字、
片仮名、アルファベット、長音又は数字の任意の組み合
わせである場合に、それらの連続する語をキーワード候
補として抽出する。

【００１５】この後、出現頻度算出部は、上記キーワー
ド候補のうち部分一致関係、並びに同義関係となるキー
ワード候補を夫々包括的に取り扱ってキーワード候補の
出現頻度を算出し、高頻度語抽出部は、出現頻度の上位
に位置するキーワード候補をキーワードとして抽出す
る。

【００１６】

【実施例】本発明の実施例を図１乃至図３に基づいて説
明する。

【００１７】図１において、２１は学術文献、新聞記
事、又は特許公報等の文書の読み込みを行う文書読み込
み部であり、この文書読み込み部２１によって読み込ま
れた文書を構成する各文字は、ＪＩＳコード、又はアス
キーコード等の文字コードに変換される。その文書読み
込み部２１については、例えばＯＣＲ（Optical Charac
ter Reader）が該当する。

【００１８】２２は文書読み込み部２１によって変換さ
れた文字の文字コードに基づいて、漢字、片仮名、平仮
名、アルファベット、長音又は数字等の語の切り出しを
行う語切り出し部、２３はあらゆる文字の文字コード情
報を格納しており、これらの文字コード情報に基づい
て、漢字、片仮名、アルファベット、長音又は数字の並
びを判定する文字種判定部、２４は文書中に連続して隣
接する少なくとも２個以上の語が漢字、片仮名、アルフ
ァベット、長音又は数字の任意の組み合わせである場合
に、それらの連続する語をキーワード候補として抽出す
るキーワード候補抽出部であり、このキーワード候補抽
出部２４によって同種の語の連続に拘らず、数字／漢
字、漢字／漢字、アルファベット／漢字、片仮名／漢
字、アルファベット／片仮名、片仮名／数字等の任意の
組み合わせをキーワード候補として抽出することができ
る。

【００１９】即ち、キーワード候補抽出部２４は、表１
の如く、左欄に例示する対象文書を右欄に示すキーワー
ド候補として抽出するように構成されている。

【００２０】

【表１】

【００２１】２５はキーワード候補抽出部２４によって
抽出されたキーワードになる可能性のある候補を保存す
るキーワード候補保存部、２６はキーワード候補保存部
２５に保存されたキーワード候補の文書中における出現
頻度を算出する出現頻度算出部、２７はキーワード候補
のうち後方部分一致関係にあるキーワード候補をひとつ
のグループにまとめる部分一致判定部、２８は複数個の
同義語を格納している同義語辞書、２９は同義語である
にも拘らず、表現形式が異なるキーワード候補をひとつ
のグループにまとめる同義語判定部、３０は出現頻度算
出部２６によって算出された頻度に基づいて、高頻度の
キーワード候補をキーワードとして抽出する高頻度語抽
出部である。

【００２２】上述の如き構成において、対象となる文書
を読み込ませて、文字毎に変換された文字コードによっ
てキーワードを抽出する方法を図２のフローチャート、
及び図３に示す文書例に基づいて、図１を参照しながら
説明する。

【００２３】ステップＳ１では、図３(ａ)に示すキーワ
ードを抽出する対象文書を文書読み込み部２１に読み込
ませて、該対象文書を構成する各文字を文字コードに変
換する。ステップＳ２では、語切り出し部２２が対象文
書を構成する各文字の文字コードに基づいて、漢字、片
仮名、平仮名、アルファベット、長音又は数字等の語毎
に切り出しを行う。ステップＳ３では、キーワード候補
抽出部が、ステップＳ２で切り出された語のうち、連続
して隣接する少なくとも２個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出する。ステップＳ４では、キーワード候補保存部２
５がステップＳ３で抽出されたキーワード候補を図３
(ｂ)の如く保存する。

【００２４】ステップＳ５において、部分一致判定部２
６は、キーワード候補保存部２５に保存されたキーワー
ド候補のうち、後方部分一致関係にあるキーワード候補
をひとつのグループにまとめ、これによって、図３(ｃ)
に示すように例えば「日米首脳会談」と「会談」とは同
じ後方部分一致グループと見做される。また、ステップ
Ｓ６では、同義語判定部２８は、表現形式の異なる同義
関係にあるキーワード候補をひとつのグループにまと
め、これによって、図３(ｃ)に示すように例えば「日米
戦略防衛構想」と「ＳＤＩ」とは同じ同義語グループと
見做される。

【００２５】ステップＳ７において、後方部分一致グル
ープ、及び同義語グループに属するキーワード候補は別
々にカウントされないように同一のものとして考慮しな
がら、キーワード候補保存部２５に保存されたキーワー
ド候補の出現頻度を出現頻度算出部２５が算出する。

【００２６】ステップＳ８では、ステップＳ７で算出さ
れた出現頻度の高いキーワード候補を高頻度語抽出部３
０が抽出する。ステップＳ９では、高頻度出現のキーワ
ード候補のうち上位に位置するキーワード候補をキーワ
ードとして抽出する。

【００２７】上述の実施例では、キーワード抽出の対象
となる文書中に句読点、括弧、ハイフン、又は＃、％、
＆等の特殊記号が含まれる場合については述べなかった
が、これらについては平仮名と同様に扱われ、キーワー
ド候補とはならない。

【００２８】また、本実施例において１字の語について
は、キーワード候補となる確率が低いものと考えて、１
字の語をキーワード候補として抽出しないこととしてい
る。

【００２９】

【発明の効果】本発明によれば、キーワード抽出の対象
文書を構成する文字毎に変換された文字コードに基づい
て、助詞の直前に位置する名詞に限ることなく、文書中
の連続して隣接する少なくとも２個以上の語が漢字、片
仮名、アルファベット、長音又は数字の任意の組み合わ
せである場合に、それらの連続する語をキーワード候補
として抽出すると共に、それらのキーワード候補のうち
同義関係、又は部分一致関係のキーワード候補を夫々包
括的に取り扱って出現頻度を算出するので、対象となる
文書からキーワードを漏れなく抽出することができ、更
に精度の高いキーワードを抽出することができる。

【図面の簡単な説明】

【図１】本発明に係るキーワード抽出装置の概略構成図

【図２】本発明に係るキーワード抽出に関するフローチ
ャート

【図３】本発明に係るキーワード抽出の対象となる文書
データ、キーワード候補、及びそのキーワード候補の出
現頻度を示す図

【図４】従来のキーワード抽出装置の概略構成図

【符号の説明】

２１文書読み込み部２２語切り出し部２３文字種判定部２４キーワード候補抽出部２５キーワード候補保存部２６出現頻度算出部２７部分一致判定部２８同義語辞書２９同義語判定部３０高頻度語抽出部

Claims

【特許請求の範囲】

【請求項１】キーワード抽出の対象となる文書を読み
込み、該文書を構成する各文字を文字コードに変換する
文書読み込み部と、該文書読み込み部によって変換され
た各文字の文字コードに基づいて、該文字を漢字、片仮
名、平仮名、アルファベット、長音又は数字等の語毎に
区分けを行う語切り出し部と、該語切り出し部によって
区分けされた語のうち、連続して隣接する少なくとも２
個以上の語が漢字、片仮名、アルファベット、長音又は
数字の任意の組み合わせである場合に、それらの連続す
る語をキーワード候補として抽出するキーワード候補抽
出部と、該キーワード候補抽出部によって抽出されたキ
ーワード候補同士の部分一致関係を判定する部分一致判
定部と、同義語を格納している同義語辞書と、該同義語
辞書に格納された同義語に基づいて、上記キーワード候
補抽出部によって抽出されたキーワード候補同士の同義
関係を判定する同義語判定部と、上記キーワード候補の
出現頻度を算出する出現頻度算出部と、該出現頻度算出
部によって算出された出現頻度に基づいて、出現頻度の
上位に位置するキーワード候補をキーワードとする高頻
度語抽出部と、を具備し、上記出現頻度算出部は、上記部分一致判定部によって判
定された部分一致関係となるキーワード候補と、上記同
義語判定部によって判定された同義関係となるキーワー
ド候補とを夫々包括的に取り扱って出現頻度を算出する
ことを特徴とするキーワード抽出装置。