JPH1153384A

JPH1153384A - キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Info

Publication number: JPH1153384A
Application number: JP9210252A
Authority: JP
Inventors: Yamahiko Ito; 山彦伊藤; 泰博 ▲高▼山; Yasuhiro Takayama; Katsushi Suzuki; 克志鈴木
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-08-05
Filing date: 1997-08-05
Publication date: 1999-02-26
Also published as: US6173251B1

Abstract

(57)【要約】【課題】従来の自動キーワード抽出は、処理対象文中
の文字列をそのままキーワードとして文書に索引づけす
るため、異表記に対処した検索が不可能である。【解決手段】正表記と異表記を共に表記した専門語が
格納された専門語格納手段と一般的で使用頻度の高い基
本語が格納された基本語格納手段を備え、専門語分割点
設定手段で入力文章中の、専門語格納手段にある専門語
の範囲を切り出し、この専門語が、異表記の場合、正表
記置換手段で正表記に置換し、字種分割点設定手段で、
入力文章中の字種の違いを検出し、基本語分割点設定手
段で入力された文章中で基本語格納手段中の基本語の範
囲を切り出し、専門語分割点設定手段と字種分割点設定
手段及び基本語分割点設定手段によって設定された分割
点から部分文字列をキーワードとして切り出す部分文字
列切出手段を備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、自然言語の文書
を検索するシステムにおいて、予め文書から自動的にキ
ーワードを抽出してキーワードによる文書の索引を生成
するとともに、検索時に入力文からキーワードを抽出
し、キーワードの照合を行って文書を検索するためのキ
ーワード抽出装置及びキーワード抽出方法及びキーワー
ド抽出プログラムを格納したコンピュータ読み取り可能
な記録媒体に関するものである。

【０００２】

【従来の技術】従来より電子化された文書を検索する方
法として、文書の索引としてキーワードを予め付与して
おき、検索時に指定したキーワードを文書に付与したキ
ーワードと照合して、文書を検索する方法があった。こ
の方法では、キーワードを人手で付与する手間が大きい
ことと、索引を作成する人が付与するキーワードと検索
する人が指定するキーワードが異なった場合に検索でき
ないことが問題である。

【０００３】キーワードを付与する手間を軽減するた
め、電子化された文書から自動的にキーワードを抽出す
る手法が提案されている。

【０００４】図64は例えば特開平8-30627号公報に示さ
れた従来のキーワード抽出方式を示す構成図である。図
64において、6401は字種判別部であり、入力されたテキ
ストの各文字の字種を判別し、字種記憶手段6402に渡
す。字種記憶手段6402は字種判別部6401が判別したテキ
ストの各文字の位置とその文字の字種との対応を記憶す
る。6403は有効字種文字列切出部であり、字種記憶手段
6402が記憶した情報を元に片仮名、漢字、アルファベッ
ト、数字の４種類の有効な字種が続く限り長い有効字種
文字列を全て切り出す。

【０００５】6406は字種境界判別部であり、字種記憶手
段6402に記憶した情報を元に、全ての有効字種文字列の
字種の全ての変わり目の位置を判別し、字種分割点記憶
手段6407に渡す。字種分割点記憶手段6407は、字種境界
判別部6406で判別した全ての字種の変わり目の位置を記
憶する。

【０００６】6409は接辞格納手段であり、使用頻度の高
い接辞を格納している。6410は接辞判別部であり、文字
列中の全ての接辞を判別し、接辞分割点記憶手段6411に
渡す。接辞分割点記憶手段6411は、接辞判別部6410が判
別した接辞の前後の位置を接辞分割点として記憶する。

【０００７】6413は基本語格納手段であり、使用頻度の
高い名詞を基本語として格納している。6414は基本語判
別部であり、文字列中の全ての基本語を判別し、基本語
分割点記憶手段6415に渡す。基本語分割点記憶手段6415
は、基本語判別部6414が判別した基本語の前後の位置を
基本語分割点として記憶する。

【０００８】6412は部分文字列切出部であり、字種分割
点記憶手段6407が記憶した字種分割点、接辞分割点記憶
手段6411が記憶した接辞分割点、または基本語分割点記
憶手段6415が記憶した基本語分割点によって部分文字列
を切り出す。

【０００９】6404は名詞判別部であり、有効字種文字列
切出部6403が切り出した各有効字種文字列に後接する文
字が平仮名である場合に、名詞後接平仮名格納手段6405
に格納されている平仮名文字列と比較を行い、後接する
平仮名の先頭部分が名詞後接平仮名格納手段6405に格納
されている平仮名文字列のうちの何れとも一致しないと
きに、その有効字種文字列を削除する。

【００１０】6416は基本語削除部であり、基本語格納手
段6413に格納されている基本語の何れかと一致する部分
文字列を削除する。

【００１１】6417は必要キーワード格納手段であり、予
め指定されたキーワード文字列を格納する。6418は必要
キーワード切出部であり、必要キーワード格納手段6417
に格納された文字列と一致する文字列がテキスト中に現
れた場合に、これを全て切り出して、キーワードに加え
る。

【００１２】次に動作について説明する。例として「お
絵書きモード」というテキストが入力された場合につい
て説明する。

【００１３】まず、字種判別部6401が入力テキストの各
文字の字種を判別し、１文字目は平仮名、２文字目は漢
字、３文字目は漢字、４文字目は平仮名というように、
文字位置と字種との対応を字種記憶手段6402が記憶す
る。

【００１４】次に、有効字種文字列切出部6403が「絵
書」と「モード」を切り出す。次に、「絵書」と「モー
ド」は文字列内に字種の違いが存在しないので、字種分
割点記憶手段に字種分割点を記憶しない。次に、「絵
書」と「モード」の部分文字列に接辞が含まれていない
ので、接辞分割点記憶手段6411に接辞分割点を記憶しな
い。次に、「絵書」と「モード」の部分文字列に基本語
が含まれていないので基本語分割点記憶手段6415は基本
語分割点を記憶しない。

【００１５】次に、部分文字列切出部6412において、
「絵書」と「モード」には、字種分割点、接辞分割点、
基本語分割点がないため、結果的に、「絵書」と「モー
ド」２つの部分文字列が切り出される。

【００１６】次に、名詞判別部6404において「絵書」に
後接する平仮名「き」は名詞後接平仮名格納手段6405に
格納されていないため、「絵書」が削除される。さらに
名詞判別部6404において「モード」には後接する平仮名
がないため削除されない。次に、基本語削除部6416にお
いて基本語格納手段6413に格納されている基本語を削除
するが、ここで「モード」が基本語でないとすれば「モ
ード」は削除されない。

【００１７】次に、必要キーワード判別部6418が必要キ
ーワード格納手段6417に格納されている「お絵書き」を
テキスト「お絵書きモード」から切り出し、キーワード
に追加する。最後に、「お絵書き」、「モード」が出力
される。

【００１８】検索時には、「お絵書き」または「モー
ド」を検索キーとして指定すると元の「お絵書きモー
ド」というテキストを含む文書が検索される。

【００１９】特開平8-30627号公報に示されたキーワー
ド抽出方式は以上のように構成されているので、検索時
には、キーワードとして指定した文字列と文書に付与さ
れるキーワードが完全に一致した場合のみ検索が可能で
ある。しかし検索においては、異表記を考慮しなければ
ならない場合が生じる。例えば検索時に「お絵書き」で
はなく「お絵描き」と検索キーを指定するかもしれな
い。特開平8-30627号公報に示されたキーワード抽出方
式では、文字列が正確に一致していないと検索できない
ことが問題点である。

【００２０】異表記の問題に対処する方法として、特開
平8-137892号公報の文書検索方法及び文書検索装置が提
案されている。特開平8-137892では、検索時に指定する
文字列が複合語である場合、複合語を構成する単語に分
割し、同義語辞書を利用して、分割した単語ごとの同義
語を組み合わせて複合語に対する同義語表現を生成す
る。

【００２１】図65は特開平8-137892号公報に示された従
来の文書検索方法及び文書検索装置を示す構成図であ
る。図65において、6501はCPUやメモリから構成される
制御装置、6502はユーザがキーボードやマウス等によっ
て検索キーワードを入力したり検索操作を行うための入
力装置、6503は入力装置6502によって入力された検索キ
ーワード、検索操作、及び検索結果を表示する表示装
置、6504は検索対象のデータを格納する外部記憶装置、
6505は検索キーワードの同義語情報が格納されている同
義語辞書、6506は検索キーワードを格納した分割辞書で
あり、検索に指定した文字列は、分割辞書に登録されて
いる語に従って分割される。

【００２２】次に動作について説明する。図66は、特開
平8-137892号公報の処理の流れを示すフロー図である。
例として「文書検索*ワークステーション」(「*」は論
理積を示す)を検索式として指定する場合について説明
する。分割辞書には「文書」および「検索」が登録され
ているとする。同義語辞書には、「文書」と「テキス
ト」が同義語であり、「検索」と「サーチ」が同義語で
あり、「ワークステーション」と「WS」が同義語である
という情報が格納されているとする。

【００２３】ステップ6612で同義語辞書を使用するか否
かを設定する「同義語辞書使用フラグバッファ」の値を
チェックするが、ここでは「使用する」という設定であ
るとし、Yのパスをたどる。

【００２４】次にステップ6613で、検索式を検索対象文
字列と論理式とに分割する。次にステップ6614で、検索
対象文字列を、分割辞書中の語と比較してキーワード分
割する。次にステップ6615で、分割されたキーワードに
対応している同義語を同義語辞書から抽出する。

【００２５】ステップ6616では全てのキーワードに対す
る処理が終了したかを判定し、終了するまでステップ66
14とステップ6615の処理を繰り返す。

【００２６】次にステップ6617で、分割されたキーワー
ドに対応する同義語を結合して検索キーワードを生成す
る。

【００２７】次にステップ6618で、生成された検索キー
ワードを論理和(「+」)で結合する。この結果、ステッ
プ6619において「文書検索」に対しては、「(文書検索+
テキスト検索+文書サーチ+テキストサーチ)」という検
索式が生成される。

【００２８】次にステップ6620で、論理式格納バッファ
が空であるか否かをチェックし、次の検索対象文字列で
ある「ワークステーション」に対して、ステップ6614に
戻って同様の処理を行う。

【００２９】ステップ6619で「ワークステーション」に
対しては、「(ワークステーション+WS)」という検索式
が生成される。

【００３０】ステップ6620で、論理式格納バッファが空
であるか否かをチェックするが、これ以上処理対象の検
索対象文字列が存在しないので、Yのパスをたどる。こ
の結果、指定された「文書検索*ワークステーション」
という検索式に対しては、「(文書検索+テキスト検索+
文書サーチ+テキストサーチ)*(ワークステーション+W
S)」が、実際に検索を行うときの検索式として生成され
る。

【００３１】特開平8-137892号公報の文書検索方法及び
文書検索装置は、異表記の組み合わせ全ての文字列に対
して検索を行うので、組み合わせの数が多くなると、検
索に多大な時間を要するという問題点がある。

【００３２】異表記表現生成における他の従来技術とし
ては特開平3-15980号公報に示されるような異表記及び
同義語展開方法が提案されている。

【００３３】図67は特開平3-15980号公報に示される文
字列検索のための異表記及び同義語展開方法の構成図で
ある。図67において、6711と6713は、入力文字列中の該
当文字列を他の文字列に置き換えることを指示した変換
ルールを蓄えた変換ルールテーブル、6712は表記が異な
り同じ意味を持つ語を集めた同義語辞書である。6700は
キーボード、6701と6703は、変換ルールテーブル6711と
6713を用いて表記法の異なる文字列に展開する異表記展
開処理、6702は、同義語辞書6712を用いて他の文字列へ
展開する同義語展開処理である。

【００３４】次に、異表記及び同義語展開処理の概略を
図68に示す。ユーザが指定した文字列6801は一旦異表記
展開し、その展開した文字列群6802に対して、次に同義
語辞書6810を用いて同義語展開する。その後、この同義
語展開で得られた文字列6803に対して、さらに異表記展
開し、最終の展開結果として、文字列群6804を得る。図
68の例は、変換ルールテーブルには、「フォー」を
「ホ」に変換するルールと「型」を「形」に変換するル
ールが蓄えられており、同義語辞書には、「インタフォ
ーン」と「通話装置」が同義であるという情報が蓄えら
れているとき、ユーザが「卓上型インタフォーン」とい
う文字列を指定した場合の例である。

【００３５】特開平3-15980号公報では以上のような処
理によって異表記表現や同義語表現を展開して検索漏れ
を防ぐが、このように網羅的に語に異表記表現を生成す
る方法では、１語マッチするか否かを判定するために、
上記の処理によって生成された異表記表現全てに対して
照合を試みる必要がある。

【００３６】

【発明が解決しようとする課題】従来の文書検索を行う
ためのキーワード抽出方法は、以上のように構成されて
いたので、以下の問題点があった。

【００３７】第１に、従来の自動キーワード抽出処理で
は、特開平8-30627号公報のように処理対象文中に現れ
た文字列をそのまま切り出してキーワードとし、文書に
索引づけしていた。そのため、表記の違いに対処した検
索が不可能であった。

【００３８】これに対して表記の違いに対処した検索を
行う技術として特開平8-137892号公報や特開平3-15980
号公報があるが、これによると、検索のために指定した
語を構成する語や文字列の異表記の組み合わせ全てに対
して照合を行うことを必要とし、検索処理に多大な時間
がかかるという問題点があった。

【００３９】例えば、「サーバ」には「サーバー」とい
う異表記が存在し、「切り替え」には「切り換え」「切
替え」「切換え」という異表記が存在する場合、「サー
バ切り替え」というキーワードに対しては、「サーバ切
り替え」「サーバ切り換え」「サーバ切替え」「サーバ
切換え」「サーバー切り替え」「サーバー切り換え」
「サーバー切替え」「サーバー切換え」という８つのキ
ーワードを生成して照合していた。

【００４０】第２に、接頭辞に後接する語に異表記が存
在する場合に、接頭辞のある／なしと、接頭辞に後接す
る語の異表記の組み合わせを生成し、全ての組み合わせ
に対して照合を行う必要があった。

【００４１】例えば、「切り替え」に対して「切り換
え」「切替え」「切換え」という３つの異表記が存在す
る場合、「全切り替え」というキーワードに対しては、
「全切り替え」「全切り換え」「全切替え」「全切換
え」「切り替え」「切り換え」「切替え」「切換え」と
いう８つのキーワードを生成して照合する必要があっ
た。これら生成したキーワード全てに対して照合を行う
ため、検索処理に多大な時間がかかるという問題点があ
った。

【００４２】第３に、接尾辞に前接する語に異表記が存
在する場合に、接尾辞のある／なしと、接尾辞に前接す
る語の異表記の組み合わせを生成し、全ての組み合わせ
に対して照合を行う必要があった。

【００４３】例えば、「切り替え」に対して「切り換
え」「切替え」「切換え」という３つの異表記が存在す
る場合、「切り替え後」というキーワードに対しては、
「切り替え後」「切り換え後」「切替え後」「切換え
後」「切り替え」「切り換え」「切替え」「切換え」と
いう8つのキーワードを生成して照合する必要があっ
た。これら生成したキーワード全てに対して照合を行う
ため、検索処理に多大な時間がかかるという問題点があ
った。

【００４４】第４に、従来の特開平8-30627号公報のよ
うなキーワード抽出処理は、キーワードの長さに制限を
設け、制限に合わないものを削除していた。しかし、特
開平8-30627号公報の方法では、同じ意味を表すキーワ
ードでも、異表記の長さに違いがある場合、あるキーワ
ードは抽出され他のキーワードは削除されるという、不
統一を招くことがある。

【００４５】例えば、「コンピュータ」と「コンピュー
ター」が異表記として登録されており、キーワードの長
さの制限を15文字未満とした場合、「コンピュータアー
キテクチャー」はキーワードとして抽出されるが、「コ
ンピューターアーキテクチャー」は削除される。

【００４６】特開平8-137892号公報と同様に複合語の組
み合わせを生成して、異表記に対処した検索を行った場
合、同じ検索キーを指定しても、「コンピュータアーキ
テクチャー」を含んだ文書は検索されるが、「コンピュ
ーターアーキテクチャー」を含んだ文書は検索されな
い、という不統一を招くという問題点があった。

【００４７】第５に、従来の特開平8-30627号公報のキ
ーワード抽出処理では、処理対象文中に現れた文字列を
そのまま切り出してキーワードとしていたために、異表
記関係にある語が別の語として抽出されていた。そのた
め、異表記関係にある語に対しては、キーワードの重み
づけ処理等のための正確な頻度集計ができないという問
題点があった。

【００４８】第６に、例えば「ユーザ・インタフェー
ス」などの複合語においては、複合語を構成する語であ
る「ユーザ」「インタフェース」それぞれに対する異表
記の他に、「ユーザ・インタフェース」と「ユーザイン
タフェース」のように、複合語を構成する語の間に、
「・」や「／」などの記号文字が入る場合があり、これ
らの複合語の表現形式を統一する必要がある。

【００４９】従来の特開平8-30627号公報のキーワード
抽出処理では、「・」や「／」を削除して、複合語の表
現形式を統一する方法が開示されているが、前述したよ
うに単語ごとの異表記を取り扱うことができない。ま
た、従来の特開平8-137892号公報や特開平3-15980号公
報によると、単語ごとの異表記の組み合わせを生成する
方法が開示されているが、複合語の表現形式を統一する
処理には対処できない。上記技術を組み合わせても、複
合語を構成する語の異表記の組み合わせ全てに対して照
合を行うことを必要とし、検索処理に多大な時間がかか
るという問題点は残る。

【００５０】例えば「ユーザ」に「ユーザー」という異
表記があり、「インタフェース」に「インタフェイス」
という異表記がある場合、上記の技術を組み合わせて
も、「ユーザ・インタフェース」に対して生成される異
表記は、「ユーザインタフェース」「ユーザインタフェ
イス」「ユーザーインタフェース」「ユーザーインタフ
ェイス」の４つとなる。これら全ての異表記に対して照
合を行う必要があるという問題点があった。

【００５１】第７に、特開平3-15980号公報や特開平8-1
37892号公報では、単語や文字列ごとの異表記の組み合
わせによって、検索時に検索キーの異表記を生成してい
た。これが検索キーを大量に生成して、検索時の速度低
下を招く原因となっていた。

【００５２】また、従来の特開平3-15980号公報や特開
平8-137892号公報では、特に短い語を置換する際には、
不適切な検索キーを発生させる可能性がある。例えば、
特開平3-15980号公報では、「インタフォーン」の異表
記を生成するために、「タ」と「ター」が異表記である
というルールを保有しており、「インタフォーン」は
「インターフォーン」と異表記を生成する。しかし
「タ」と「ター」が異表記であるというルールは「イン
タフォーン」には適用できるが、例えば「タクシー」に
は適用できない。このため、異表記の置換を行うための
異表記辞書の情報には、短い語を避け、複合語のような
ある程度長い語を格納したいという要求が生じる。従来
このような要求に対して異表記辞書の構築を支援する技
術がなく、検索キーを大量に発生させてしまうため、高
速な文書検索を実現するためのキーワード抽出方法が実
現できないという問題点があった。

【００５３】この発明は上記のような問題点を解決する
ためになされたものであり、文書に対する索引を付与す
るキーワード抽出処理において、専門語を異表記表現と
共に格納した専門語格納手段を参照し、日本語文書中に
現れる専門語のキーワードは、正表記に変換して文書に
付与する。検索時にも、同じ専門語格納手段を用いて異
表記は正表記に変換して照合することより、従来の異表
記に対応した文書検索方法のように、検索のキーとなる
語の異表記の数が組み合わせ的に増えることなく、高速
な文書検索を行うためのキーワード抽出の実現を目的と
する。

【００５４】また、接頭辞に後接する専門語に異表記が
ある場合には、専門語を正表記に変換して文書に付与す
る。検索時にも、異表記は正表記に変換して照合するこ
とにより、接頭辞のある／なしと、接頭辞に後接する語
の異表記によって、検索のキーとなる語の異表記の数が
組み合わせ的に増えることなく、高速な文書検索を行う
ためのキーワード抽出の実現を目的とする。

【００５５】また、接尾辞に前接する専門語に異表記が
ある場合には、専門語を正表記に変換して文書に付与す
る。検索時にも、異表記は正表記に変換して照合するこ
とにより、接尾辞のある／なしと、接尾辞に前接する語
の異表記によって、検索のキーとなる語の異表記の数が
組み合わせ的に増えることなく、高速な文書検索を行う
ためのキーワード抽出の実現を目的とする。

【００５６】また、抽出するキーワードに長さの制限を
加える際には、異表記は正表記に変換した語を基に文字
数をカウントすることにより、同じ意味を表す語である
にもかかわらず、異表記間の文字数の違いによって、あ
る語は登録され、他の語は削除されるという不統一を防
ぐキーワード抽出の実現を目的とする。

【００５７】また、異表記は正表記に変換されてキーワ
ードとして抽出されるため、異表記の関係にある語同士
が別の語と判定されることなく、正確な頻度付きのキー
ワード抽出の実現を目的とする。

【００５８】また、複合語の異表記処理においては、複
合語を構成する語の間に現れる「・」や「／」を削除
し、さらに複合語を構成する語ごとの異表記に対しても
正表記に変換した語をキーワードとして文書に付与す
る。検索時にも同じ処理を施すので、複合語の表現形式
による異表記と、複合語を構成する単語ごとの異表記を
統一的に扱い、さらに、検索キーが複合語の組み合わせ
によって増大することなく、高速な文書検索を行うため
のキーワード抽出の実現を目的とする。

【００５９】また、この発明によるキーワード抽出方法
で用いる専門語格納手段に登録する語を拡充するため
に、一般的で使用頻度の高い語の異表記表現と、専門語
格納手段に格納されている異表記表現を元に、複合語に
対し複合語を構成する語の異表記表現を組み合わせた語
を作成する。作成された異表記表現の集合中の１つの語
を正表記表現と定め見出しと正表記とを対応付けて、専
門語として必要な語を専門語格納手段に格納する支援を
行うことによって、検索キーを大量に発生させず、高速
な文書検索を可能とするキーワード抽出の実現を目的と
する。

【００６０】

【課題を解決するための手段】この発明に係る請求項１
のキーワード抽出装置は、正表記と異表記とを共に表記
した専門語が格納された専門語格納手段と、一般的で使
用頻度の高い語が基本語として格納された基本語格納手
段と、文章を入力する入力手段と、上記入力手段によっ
て入力された文章中に、上記専門語格納手段に登録され
た専門語が存在する場合、上記文章中でその専門語の範
囲を切り出す専門語分割点設定手段と、上記専門語分割
点設定手段によって切り出された専門語が、異表記であ
る場合、正表記に置換する正表記置換手段と、入力され
た文章中の字種の違いを検出する字種分割点設定手段
と、入力された文章中で基本語格納手段中の基本語の範
囲を切り出す基本語分割点設定手段と、上記専門語分割
点設定手段と字種分割点設定手段及び基本語分割点設定
手段によって設定された分割点から部分文字列を切り出
す部分文字列切出手段と、上記部分文字列切出手段によ
って切り出された文字列をキーワードとして出力する出
力手段とを備えたものである。

【００６１】この発明に係る請求項２のキーワード抽出
方法は、文章を入力する入力ステップと、上記入力ステ
ップによって入力された文章中に、正表記と異表記とが
共に表記された専門語が格納された専門語格納手段中の
専門語が存在する場合、上記文章中でその専門語の範囲
を切り出す専門語分割点設定ステップと、上記専門語分
割点設定ステップによって切り出された専門語が、異表
記である場合、上記文章中の専門語の範囲を正表記に置
換する正表記置換ステップと、入力された文章中の字種
の違いを検出する字種分割点設定ステップと、入力され
た文章中に、一般的で使用頻度の高い語を基本語として
格納した基本語格納手段中の基本語が存在する場合、上
記文章中でその範囲を切り出す基本語分割点設定ステッ
プと、上記専門語分割点設定ステップと字種分割点設定
ステップ及び基本語分割点設定ステップによって設定さ
れた分割点から部分文字列を切り出し、キーワードとす
る部分文字列切出ステップとを備えたものである。

【００６２】この発明に係る請求項３のキーワード抽出
方法は、入力ステップで入力された文章が日本語の場
合、接頭辞を格納した接頭辞格納手段を用いて日本語文
章中の接頭辞の範囲を切り出す接頭辞分割点設定ステッ
プを備え、上記部分文字列切出ステップは、専門語分割
点設定ステップ、字種分割点設定ステップ、基本語分割
点設定ステップ、及び接頭辞分割点設定ステップによっ
て設定された分割点から部分文字列を切り出し、キーワ
ードとするものである。

【００６３】この発明に係る請求項４のキーワード抽出
方法は、入力ステップで入力された文章が日本語の場
合、接尾辞を格納した接尾辞格納手段を用いて入力され
た日本語文章中の接尾辞の範囲を切り出す接尾辞分割点
設定ステップを備え、上記部分文字列切出ステップは、
専門語分割点設定ステップ、字種分割点設定ステップ、
基本語分割点設定ステップ、接頭辞分割点設定ステッ
プ、及び接尾辞分割点設定ステップによって設定された
分割点から部分文字列を網羅的に切り出し、キーワード
とするものである。

【００６４】この発明に係る請求項５のキーワード抽出
方法は、部分文字列切出ステップによって抽出されたキ
ーワードから予め定められた文字列の長さの範囲から外
れる語を削除し改定キーワードとする文字数制限ステッ
プを備えた。

【００６５】この発明に係る請求項６のキーワード抽出
方法は、上記部分文字列切出ステップまたは上記文字数
制限ステップによって抽出されたキーワード又は改定キ
ーワードの出現度数をカウントする頻度集計ステップを
備えた。

【００６６】この発明に係る請求項７のキーワード抽出
方法は、予め定められた記号文字が入力文中に現れた場
合、その記号文字を切り出す記号文字分割点設定ステッ
プと、上記部分文字列切出ステップまたは上記文字数制
限ステップによって抽出されたキーワード又は改定キー
ワードの文字として該記号文字が含まれる場合、上記記
号文字分割点設定ステップによって切り出された記号文
字を取り除く記号文字削除ステップを備えた。

【００６７】この発明に係る請求項８のキーワード抽出
方法は、一般的で使用頻度の高い語の異表記表現を格納
した非専門語異表記格納手段に登録されている異表記表
現と上記専門語格納手段に登録されている異表記表現を
用いて、専門語が複合語である場合には複合語を構成す
る部分文字列に分解する単語分割ステップと、部分文字
列の異表記表現を組み合わせて複合語の異表記を生成す
る異表記展開ステップと、生成された異表記を正表記と
の対応をとって専門語格納手段に登録する格納ステップ
を備えた異表記拡充ステップによって作成された専門語
格納手段を用いるものである。

【００６８】この発明に係る請求項９のキーワード抽出
プログラムを格納したコンピュータ読み取り可能な記録
媒体は、文章を入力する入力手順と、上記入力手順によ
って入力された文章中に、正表記と異表記とが共に表記
された専門語が格納された専門語格納手段中の専門語が
存在する場合、上記文章中でその専門語の範囲を切り出
す専門語分割点設定手順と、上記専門語分割点設定手順
によって切り出された専門語が、異表記である場合、上
記文章中の専門語の範囲を正表記に置換する正表記置換
手順と、入力された文章中の字種の違いを検出する字種
分割点設定手順と、入力された文章中で一般的で使用頻
度の高い語を基本語として格納した基本語格納手段中の
基本語の範囲を切り出す基本語分割点設定手順と、上記
専門語分割点設定手順、字種分割点設定手順、及び基本
語分割点設定手順によって設定された分割点から部分文
字列を網羅的に切り出す部分文字列切出手順とを備えた
ものである。

【００６９】

【発明の実施の形態】

実施の形態１.以下、この発明の実施の形態１について
日本語の文章を例に説明する。図1は、この発明の請求
項１に係る一実施の形態を示す構成図である。図1にお
いて、1は対象分野と関連の深い専門語を格納する専門
語格納手段であり、図2にその一例を示すように、見出
しと見出しに対する正表記の２つのフィールドから構成
される。正表記のフィールドがない語は、見出しそのも
のが正表記であることを表す。ここで見出しそのものが
正表記でない場合、見出しは正表記に対して異表記であ
る。また、同じ正表記を持つ見出し同士は、互いに異表
記の関係にある。例えば、図2では、見出し「切り換
え」は正表記「切り替え」に対する異表記である。ま
た、「切り替え」、「切り換え」、「切替え」、「切換
え」は、互いに異表記の関係にある。2は一般的で使用
頻度の高い基本語を格納する基本語格納手段であり、図
3にその一例を示すように、見出しのみから構成され
る。3は名詞、サ変名詞、形容動詞の語幹など、キーワ
ードになりうる品詞(有効品詞)に後接する平仮名文字列
を格納する有効品詞後接平仮名文字列格納手段であり、
図4に一例を示すように、見出しのみから構成される。

【００７０】104は入力手段であり、キーワード抽出処
理の対象となる日本語の文章を制御部115に入力する。
制御部115は、専門語格納手段管理手段105、専門語分割
点設定手段106、正表記置換手段107、有効文字列切出手
段108、字種分割点設定手段109、基本語格納手段管理手
段110、基本語分割点設定手段111、有効品詞後接平仮名
文字列格納手段管理手段112、有効品詞判定手段113、及
び部分文字列切出手段114を含み、ROMやRAM等に記録さ
れた制御プログラムに従って、後述するデータ処理を行
う。116は、制御部115が抽出したキーワードを、ファイ
ル、ディスプレイ、または他の手段へ出力する出力手段
である。

【００７１】図5は、本発明によるキーワード抽出方法
を、図1の各手段に対応させたステップに従って表し、
入力文章からキーワードが抽出されるまでのデータの流
れを、各ステップに対応付けて表した図である。

【００７２】図5において、4は入力手段104で日本語の
文章を入力する入力ステップ、5は専門語格納手段管理
手段105により専門語格納手段1を検索して専門語を取り
出す専門語格納手段管理ステップ、6は専門語分割点設
定手段106により専門語格納手段管理ステップ5で検索し
た専門語と一致する文字列を入力文章から抽出し、抽出
した文字列の前後に分割点を設定する専門語分割点設定
ステップである。7は正表記置換手段107により専門語格
納手段管理ステップ5で検索した専門語が他の語の異表
記である場合、入力文章中の専門語を、正表記に置換す
る正表記置換ステップである。

【００７３】8は有効文字列切出手段108により漢字、片
仮名、アルファベット、数字など、キーワードとなりう
る字種（有効字種）、および専門語を入力文章中から切
り出す有効文字列切出ステップである。9は字種分割点
設定手段109により有効文字列切出ステップ8で切り出さ
れた文字列のうち専門語でない文字列から、漢字や片仮
名などの字種による違いを基に分割点を設定する字種分
割点設定ステップである。10は基本語格納手段管理手段
110により基本語格納手段2を検索して基本語を取り出す
基本語格納手段管理ステップ、11は基本語分割点設定手
段111により有効文字列切出ステップ8で切り出された文
字列のうち専門語でない文字列から、基本語格納手段管
理ステップ10で検索した基本語と一致する文字列を入力
文章から抽出し、抽出した文字列の前後に分割点を設定
する基本語分割点設定ステップである。

【００７４】12は有効品詞後接平仮名文字列格納手段管
理手段112により有効品詞後接平仮名文字列格納手段3を
検索する有効品詞後接平仮名文字列格納手段管理ステッ
プ、13は有効品詞判定手段113により有効文字列切出ス
テップ8が切り出した各有効文字列に後接する文字列
と、有効品詞後接平仮名格納手段管理ステップ12が検索
した平仮名文字列と比較を行い、後接する平仮名の先頭
部分が有効品詞後接平仮名格納手段5に格納されている
平仮名文字列のうちの何れとも一致せず、かつ、有効文
字列の最後の語が専門語でないとき、その有効文字列の
最後の語がキーワードとなり得ないという情報を設定す
る有効品詞判定ステップである。

【００７５】14は部分文字列切出手段114により専門語
分割点設定ステップ6、有効文字列切出ステップ8、字種
分割点設定ステップ9、および基本語分割点設定ステッ
プ11で設定された分割点を基に、キーワードとなりうる
文字列を切り出す部分文字列切出ステップである。

【００７６】次に、入力文章からキーワードが抽出され
るまでのデータの流れを、各ステップに対応付けて説明
する。

【００７７】専門語格納手段管理ステップ5は、専門語
格納手段1を検索して、専門語分割ステップ6に対して専
門語501を渡し、正表記置換ステップ7に対して専門語と
その正表記502を渡す。基本語格納手段管理ステップ10
は、基本語格納手段2を検索し、基本語分割点設定ステ
ップ11に基本語503を渡す。有効品詞後接平仮名文字列
格納手段管理ステップ12は、有効品詞後接平仮名文字列
格納手段3を検索して、有効品詞に後接する平仮名文字
列504を有効品詞判定ステップ13に渡す。

【００７８】入力ステップ4では入力文章505を専門語分
割点設定ステップ6に受け渡す。専門語分割点設定ステ
ップ6は、入力文章505と専門語501を入力とし、505の文
章に専門語開始分割点及び専門語終了分割点を専門語分
割点として設定した文章506を出力する。正表記置換ス
テップ7は、506の文章と専門語及びその正表記502を入
力とし、506の文章に含まれる専門語が異表記である場
合、正表記に置換した文章507を出力する。

【００７９】有効文字列切出ステップ8では、507の文章
から有効字種と507の文章中に設定されている専門語の
文字列の範囲を、キーワードになりうる文字列(有効文
字列)として、有効文字列開始点及び有効文字列終了点
を設定した文章508を出力する。

【００８０】字種分割点設定ステップ9は、508の文章を
受け取り、有効文字列の専門語を含まない文字列の範囲
を対象に、字種分割点を設定した文章509を出力する。

【００８１】基本語分割点設定ステップ11は、509の文
章と基本語503を入力とし、有効文字列の専門語を含ま
ない文字列の範囲を対象に、509の文章中で基本語503が
現れる位置に基本語開始分割点及び基本語終了分割点を
基本語分割点として設定した文章510を出力する。

【００８２】有効品詞判定ステップ13は、510の文章
と、有効品詞後接平仮名格納手段3に登録されている平
仮名文字列504を入力として受け取り、510の文章中で、
キーワードとなり得ない文字列を判定した文章511を出
力する。

【００８３】部分文字列切出ステップ14は、511の文章
を受け取り、専門語分割点設定ステップ6で設定した専
門語分割点、有効文字列切出ステップ8で設定した有効
文字列、字種分割点設定ステップ9で設定した字種分割
点、基本語分割点設定ステップ11で設定した基本語分割
点、及び有効品詞判定ステップ14で設定したキーワード
になり得ない文字列の判定を基に、入力文章のキーワー
ド512を抽出して出力する。

【００８４】図6は、この発明の請求項1に係る実施の形
態の動作を示すフローチャートである。例として「サー
バー切り替えによる通信テストを行う。」という文に対
する処理を説明する。まず、ステップ601において、キ
ーボードやファイルから日本語の文章を入力する。次に
ステップ602において、入力文章に対し、専門語分割点
を設定する。

【００８５】図7は、ステップ602による専門語分割点を
設定する処理の流れを表すフローチャートである。ステ
ップ701において、入力文章に対して句読点を区切りと
して、最初の区切りまでの文字列を取り出す。例の場合
は、句点「。」を見つけて入力文章全体の「サーバー切
り替えによる通信テストを行う」を取り出す。

【００８６】次にステップ702で、区切りの先頭と区切
りの最後にポインタを付与する。例では、区切りの先頭
の文字へのポインタとしてphに「サ」を、区切りの最後
の文字へのポインタとしてptに「う」を設定する。

【００８７】次にステップ703で、phからptまでの文字
列を検索キーとして、専門語格納手段1を検索する。例
の場合は、「サーバー切り替えによる通信テストを行
う」がそのまま検索キーとなる。次にステップ704でキ
ーと同じ語が専門語格納手段1に存在するか否かを調べ
る。専門語格納手段中に「サーバー切り替えによる通信
テストを行う」という専門語が存在しないものとする
と、Nのパスをたどり、ステップ708でptを1文字分先頭
に移動する。この結果、ptは「行」を指す。次にステッ
プ709でphがptより先頭側にあるか否かを調べる。この
場合、phがptより先頭側にあるので、Yのパスをたど
り、再びステップ703によって、phからptまでの文字列
を検索キーとして、専門語格納手段1の検索を行う。こ
のときの検索キーは「サーバー切り替えによる通信テス
トを行」になる。

【００８８】このような操作を繰り返して図8に示すよ
うに区切りを後ろから1文字ずつ削り、検索キーが「サ
ーバー」となったところで、専門語格納手段1中に検索
キーと同じ語が存在したとする。このとき、ステップ70
4でYのパスをたどり、ステップ705で検索キーが他の語
の異表記であるか否かを調べる。専門語格納手段1に図2
の語が登録されている場合、「サーバー」に対して「サ
ーバ」という正表記があることより、ステップ705では
「Y」のパスをたどり、ステップ707で文章中の専門語の
文字列の部分を正表記に置き換え、置き換えられた正表
記の開始点に専門語開始分割点、終了点に専門語終了分
割点を設定する。入力文字列に対するここまでの処理の
結果を図9に示す。

【００８９】次にステップ711によって、phをptの次の
文字に設定し、ptを句読点による区切りの最後の文字に
設定する。例の場合、phには「切」の位置が設定され、
ptには、「う」の位置が設定される。次にステップ712
によってphが句読点による区切りの範囲内であるか否か
を調べ、この場合区切りの範囲内であるので、Yのパス
をたどり、再びステップ703でphからptの文字列の範囲
をキーとして専門語格納手段1を検索する。

【００９０】最初の入力文字列に対する処理と同様に、
図10に示すように文字列を後ろから1文字ずつ削る。検
索キーが「切り替え」となったところで、専門語格納手
段1中にも「切り替え」が存在したとすると、ステップ7
04でYのパスをたどり、ステップ705で、「切り替え」が
他の語の異表記であるかを調べる。専門語格納手段1に
図2の語が登録されているとすると、「切り替え」自身
が正表記であることより、ステップ705でNのパスをたど
り、ステップ706でphの文字の前に専門語開始分割点、p
tの文字の後に専門語終了分割点を設定する。入力文字
列に対するここまでの処理の結果を図11に示す。

【００９１】以下、同様に「による通信テストを行う」
に対しても、句読点による区切りを後ろから1文字ずつ
削って専門語格納手段1を検索する。ptを先頭まで移動
しても専門語が辞書中に見つからないときはステップ71
0によって、phを1文字後ろに移動し、ptを区切りの最後
に設定して、専門語格納手段1を検索する。

【００９２】同様の処理を繰り返して、残りの文字列中
には専門語格納手段1に登録されている文字列が存在し
なかったとする。phを句読点による区切りの範囲外まで
移動したところでステップ712の判定がNになり、さらに
句読点による区切りが残っていないのでステップ713の
判定がNになり、図7の専門語分割点設定処理を終える。

【００９３】次に、図6のステップ603によって、入力文
章の先頭から順に有効文字列を取り出す。有効文字列を
取り出す処理の流れを、図12に示す。

【００９４】処理対象は図11に示した文字列「サーバ切
替えによる通信テストを行う」である。まず、ステップ
1201によって、文字列から１文字取り出す。ここでは
「サ」を取り出し、ステップ1202によって、「サ」が有
効字種であるかまたは専門語分割点の範囲内であるかを
チェックする。有効字種とは、漢字、片仮名、アルファ
ベット、数字を指すものとする。「サ」は片仮名である
ため有効字種であり、専門語開始分割点と専門語終了分
割点の間の文字列でもあるため、Yのパスをたどり、ス
テップ1203によって有効文字列の開始点を「サ」の前に
設定する。次にステップ1204によって次の1文字「ー」
を取り出す。次にステップ1205によって、「ー」有効字
種であるか、または専門語分割点の範囲内であるかをチ
ェックする。この場合、片仮名に続く長音を片仮名とみ
なし、また、専門語分割点の範囲内であるので、Yのパ
スをたどり、再びステップ1204で次の１文字「バ」を取
り出す。

【００９５】以下、同様の処理を繰り返すと、「サーバ
切り替えに」の「に」において、ステップ1205による判
定でNとなり、ステップ1206によって「え」の後が有効
文字列の終了点と設定される。以上の処理によって、最
初の有効文字列「サーバ切り替え」を取り出す。

【００９６】次に図6のステップ604によって、字種分割
点を設定する。図13は、字種分割点を設定する処理の流
れを表したフロー図である。処理の対象は有効文字列で
あり、この例の場合、「サーバ切り替え」である。ま
ず、ステップ1301によって、p_mojiに有効文字列の先頭
文字である「サ」を、mojiに区切りの2番目の文字であ
る「ー」を代入する。次にステップ1302で、p_mojiとmo
jiが同じ専門語開始分割点と専門語終了分割点の間に存
在するか否かをチェックする。例の場合、p_mojiとmoji
が共に「サーバ」という同じ専門語の範囲に存在するの
で、Yのパスをたどる。

【００９７】次にステップ1305によって、mojiが有効文
字列の最後の文字であるか否かをチェックする。この場
合、Nのパスをたどり、ステップ1306でp_mojiとmojiの
位置を共に1文字後方に移動する。次に、再びステップ1
302によって、p_mojiとmojiが同じ専門語の範囲内にあ
るかをチェックする。

【００９８】同様の処理を繰り返すと、p_mojiが「バ」
を指し、mojiが「切」を指したとき、ステップ1302の条
件がNになり、次のステップ1303で、p_mojiとmojiの字
種が同一であるか否かをチェックする。この場合、
「バ」の字種が片仮名であり、「切」の字種が漢字であ
ることより、Nのパスをたどる。次に1304でp_mojiとmoj
iの間に字種分割点を設定する。

【００９９】同様の処理を繰り返すと、例の「サーバ切
り替え」という区切りにおいては、これ以上字種による
分割点は設定されず、ステップ1305でmojiが最後の文字
となったとき、Yのパスをたどり図13の処理を抜ける。
この結果、図14に示すように、「バ」と「切」の間に字
種分割点が設定される。

【０１００】次に、図6のステップ605によって、基本語
分割点を設定する。図15は、基本語分割点を設定する処
理の流れを表したフロー図である。処理の対象は有効文
字列であり、例の場合、「サーバ切り替え」である。

【０１０１】まず、ステップ1501で有効文字列から、専
門語を含まない範囲の区切りを取り出す。ステップ1501
処理の詳細を図16のフロー図に示す。

【０１０２】図16のステップ1601において、１文字を取
り出す。ここでは、「サ」が取り出される。次にステッ
プ1602によって「サ」が有効文字列の範囲外であるか否
かをチェックし、この場合、有効文字列の範囲内である
ので、Nのパスをたどる。次にステップ1603によって
「サ」が専門語の範囲外であるか否かをチェックし、こ
の場合専門語の範囲内であるので、Nのパスをたどり、
再びステップ1603によって次の文字「ー」を取り出す。

【０１０３】同様の処理を繰り返すと、「サーバ切り替
え」の全ての文字が専門語の範囲内であるので、最終的
にステップ1601で取り出す文字は有効文字列の範囲外に
なり、ステップ1602でYのパスをたどり、専門語を含ま
ない区切りを取り出さずに、図16の処理を終了し、図15
のステップ1502に戻る。

【０１０４】次に、図15のステップ1502によって、専門
語を含まない区切りが存在するか否かをチェックする。
図16の処理によって存在しないと判定されたので、Nの
パスをたどり、基本語分割点を設定せずに図15の処理を
抜ける。

【０１０５】次に、図6のステップ606によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。図17は、有効品詞を判定する処理の流れを示すフ
ロー図である。ステップ1701によって、有効文字列の最
後が専門語であるか否かをチェックする。この場合、
「サーバ切り替え」の「え」の次に専門語終了分割点が
設定されているので、ステップ1701の判定はYとなり、
そのまま図17の処理を抜け、図6のステップ607に戻る。

【０１０６】ここまでの処理で、最初の有効文字列に設
定される分割点は、図18のようになる。

【０１０７】次に、図6のステップ607によって分割点と
有効品詞からキーワード候補を取り出す。図19はキーワ
ード候補を取り出す処理の流れを示すフロー図である。
まず、ステップ1901によって、有効文字列の先頭からキ
ーワード開始可能点を取り出す。

【０１０８】本実施の形態では、キーワード開始可能点
は、専門語開始分割点、有効文字列の開始点、基本語開
始分割点、字種分割点の何れかであるものとする。ま
た、キーワード終了可能点は、専門語終了分割点、有効
文字列の終了点、基本語終了分割点、字種分割点の何れ
かであるものとする。また、有効品詞判定処理でキーワ
ード終了不可能点が設定された位置は、キーワード終了
可能点にはなり得ないものとする。

【０１０９】例では、ステップ1901において、図18の
「サ」の前に設定されている専門語開始分割点かつ有効
文字列の開始点が、キーワードの開始点として取り出さ
れる。次にステップ1902において、「サ」より後のキー
ワード終了可能点を取り出す。「バ」と「切」の間に、
専門語終了分割点かつ字種分割点によるキーワード終了
可能点があるので、ステップ1903によって、キーワード
開始可能点からキーワード終了可能点までである「サー
バ」をキーワード候補としてバッファにコピーする。

【０１１０】次にステップ1904によって、キーワード終
了可能点が後方にまだあるか否かをチェックする。ここ
ではYのパスをたどり、ステップ1902で次のキーワード
終了可能点である「え」の次の専門語終了分割点かつ有
効文字列の終了点を取り出す。ステップ1903によって、
キーワード開始可能点からキーワード終了可能点までの
範囲である「サーバ切り替え」をキーワード候補として
バッファにコピーする。

【０１１１】さらに「え」の後方にはキーワード終了可
能点は存在しないので、ステップ1904の判定はNにな
り、ステップ1905で次のキーワード開始可能点の存在を
チェックする。この場合、Yのパスをたどり、次に
「バ」と「切」の間が専門語開始分割点かつ字種分割点
であるので、ステップ1901によって、その位置をキーワ
ード開始可能点として取り出す。次にステップ1902によ
って、キーワード終了可能点として、「え」の次の専門
語終了分割点を取り出す。次にステップ1903によって、
キーワード開始可能点からキーワード終了可能点までの
範囲である「切り替え」をキーワード候補としてバッフ
ァにコピーする。

【０１１２】さらに「え」後方には、キーワード終了可
能点もキーワード開始可能点も存在しないので、ステッ
プ1904およびステップ1905の判定は共にNとなり、図19
の処理を抜け図6のステップ608に戻る。このルーチンに
よるキーワード候補抽出処理の結果、キーワード候補と
して、「サーバ」「サーバ切り替え」「切り替え」の3
つが取り出される。

【０１１３】次に図6のステップ608によって入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ603によって、次の
有効文字列を取り出す。図12のフローに従って、「に」
から１文字ずつ有効字種または専門語分割点の範囲内に
あるか否かをチェックし、次の有効文字列として、「通
信テスト」を取り出す。

【０１１４】次に図6のステップ604によって、字種分割
点を設定する。図13は、字種分割点を設定する処理の流
れを表したフロー図である。処理の対象は「通信テス
ト」である。まず、ステップ1301によって、p_mojiに
「通信テスト」の先頭文字である「通」を、mojiに「通
信テスト」の2番目の文字である「信」を代入する。次
にステップ1302で、p_mojiと文字が同じ専門語開始分割
点と専門語終了分割点の間に存在するか否かをチェック
する。この場合、有効文字列内に専門語は存在せず、N
のパスをたどる。次にステップ1303で、p_mojiとmojiが
同じ字種であるか否かをチェックする。p_mojiとmojiの
字種は共に漢字であるので、Yのパスをたどる。

【０１１５】次にステップ1305によって、mojiが有効文
字列の最後の文字であるか否かをチェックする。この場
合、Nのパスをたどり、ステップ1306でp_mojiとmojiの
位置を共に１文字後方に移動する。次に、再びステップ
1302によって、p_mojiとmojiが同じ専門語の範囲内にあ
るかをチェックする。この判定はNであり、ステップ130
3に進む。p_mojiは「信」で字種は漢字、mojiは「テ」
で字種は片仮名であるので、ステップ1303の判定がNに
なり、1304でp_mojiとmojiの間に字種分割点を設定す
る。

【０１１６】同様の処理をmojiが有効文字列の最後の文
字を指すまで続けると、「通信テスト」という有効文字
列に対し、図20に示すように、「信」と「テスト」の間
に字種分割点が設定される。

【０１１７】次に図6のステップ605によって、「通信テ
スト」に対して基本語分割点を設定する。図15は、基本
語分割点を設定する処理の流れを表したフロー図であ
る。

【０１１８】まずステップ1501で有効文字列から専門語
を含まない範囲の区切りを取り出す。この処理は、上記
の「サーバ切り替え」部分と同様、図16のフロー図に従
って行う。ステップ1601によって、1文字「通」を取り
出し、「通」が有効文字列の範囲内であるのでステップ
1602でNのパスをたどり、専門語の範囲外であるので、
ステップ1603でYをたどる。ステップ1604で「通」の前
を専門語を含まない範囲の区切りの開始点として設定す
る。次にステップ1605で1文字「信」を取り出し、有効
文字列の範囲内であるのでステップ1606でNのパスをた
どり、専門語の範囲外であるのでステップ1607でYのパ
スをたどり、再びステップ1605で１文字取り出す。

【０１１９】この処理を繰り返すと、「通信テスト」の
「ト」を超えたところで、有効文字列の範囲外となり、
ステップ1606の判定がYとなり、ステップ1608で「ト」
の後ろを専門語を含まない区切りの終了点として設定す
る。

【０１２０】再び図15に戻り、ステップ1502によって、
専門語を含まない範囲の区切りが存在するか否かをチェ
ックする。ここでは「通信テスト」が専門語を含まない
範囲の区切りとして存在するので、Yのパスをたどる。

【０１２１】次にステップ1503でphに専門語を含まない
範囲の区切りの先頭の文字である「通」を代入し、ptに
専門語を含まない範囲の区切りの最後の文字である
「ト」を代入する。次に、ステップ1504でphからptまで
の文字列をキーとして、基本語格納手段2を検索する。
例の場合、検索のキーは「通信テスト」となる。基本語
格納手段2に「通信テスト」という語が存在しないとす
ると、ステップ1505によってNのパスをたどり、ステッ
プ1507でptを１文字分先頭側に移動し、「ス」を代入す
る。ステップ1508によってphがptより先頭側にあるか否
かをチェックし、この場合Yのパスをたどり、再びステ
ップ1504で、「通信テス」をキーにして基本語格納手段
2を検索する。

【０１２２】図21に示すように、１文字ずつ削った文字
列をキーとして基本語格納手段2の検索を繰り返す。基
本語格納手段2に、図3に示すように、「通信」という語
が含まれているとすると、ptが「信」を指したところ
で、ステップ1505でYをたどることにより、ステップ150
6で「通」の前に基本語開始分割点、「信」の後ろに基
本語終了分割点を設定する。

【０１２３】ステップ1507でptを１文字分先頭側に移動
したため、ptが専門語を含まない範囲の区切りより先頭
側を指した場合は、ステップ1508のNのパスをたどり、
ステップ1509でphを１文字分後ろに移動し、ptに専門語
を含まない範囲の区切りの最後の文字を代入する。その
結果、phには「信」が代入され、ptには「ト」が代入さ
れる。図22に示すように、今度は「信テスト」に対し
て、「通信テスト」に対する処理と同様に後ろから１文
字ずつ削って基本語格納手段2の検索を行う。

【０１２４】「通信テスト」の部分文字列で、基本語格
納手段2に格納されている文字列が「通信」だけであっ
たとすると、図23に示すように「通信テスト」に対する
基本語分割点が設定される。phを後ろに1文字ずつ移動
してゆき、phが専門語を含まない範囲の区切りより後方
を指した場合には、ステップ1510の判定がNとなる。ス
テップ1501で「通信テスト」に対する次の専門語を含ま
ない範囲の区切りを取り出す処理を行うが、この場合存
在しないので、ステップ1502の判定はNとなり、図15の
処理を抜ける。

【０１２５】次に、図6のステップ606によって、有効文
字列に後接する平仮名文字列をチェックし、有効品詞で
あるか否かを判定する。図17のステップ1701で有効文字
列の最後が専門語であるか否かをチェックする。この場
合専門語でないのでNのパスをたどり、ステップ1702で
有効文字列に後接する文字列が有効品詞後接平仮名文字
列格納手段3中の文字列と一致するか否かをチェックす
る。「通信テスト」に続く平仮名文字列が「を」であ
り、図4に示すように有効品詞後接平仮名文字列格納手
段3に「を」が含まれている場合、ステップ1702の判定
はYとなり、そのまま図17の処理を抜ける。

【０１２６】次に図6のステップ607で分割点と有効品詞
の判定からキーワードを取り出す。図19のフロー図に従
って「サーバ切り替え」に対する処理と同様の処理を行
うと、このルーチンによって取り出されるキーワード候
補は、「通信」「通信テスト」「テスト」の3つとな
る。

【０１２７】次に図6のステップ608において、まだ入力
文中に有効文字列が残っているか否かをチェックし、こ
の場合残っているのでYのパスをたどり、ステップ603に
よって次の有効文字列を取り出す。図12のフローに従う
と、次に取り出される有効文字列は、「行」となる。次
にステップ604によって字種分割点を設定するが、この
場合、有効文字列中に字種の違いが存在しないため、字
種分割点を設定せずにステップ605に進む。次にステッ
プ605によって基本語分割点を設定するが、基本語格納
手段2に「行」が存在しないとすれば、基本語分割点の
設定を行わずにステップ606に進む。

【０１２８】図17のステップ1701において、有効文字列
の最後が専門語であるか否かをチェックし、この場合専
門語でないので、Nのパスをたどる。次にステップ1702
において、有効文字列に後接する文字列が有効品詞後接
平仮名文字列格納手段3中の文字列と一致するか否かを
チェックする。この場合、「行」に続く平仮名文字列は
「う」であり、有効品詞後接平仮名文字列格納手段中に
「う」が登録されていないとすると、ステップ1703で
「行」の次にキーワード終了不可能点を設定する。

【０１２９】次に図6のステップ607によって、キーワー
ド候補を取り出す。図19のフロー図に従うが、キーワー
ド終了可能点が存在しないため、取り出すことのできる
キーワードは存在しない。

【０１３０】次にステップ608に進むが、入力文章中に
有効文字列は残っていないので、判定はNとなり、処理
を終了する。

【０１３１】以上の結果、抽出されるキーワードは「サ
ーバ」「サーバ切り替え」「切り替え」「通信」「通信
テスト」「テスト」の６つとなる。

【０１３２】図24はこの発明によるデータの流れの例を
請求項２を構成する各ステップに関連付けて示したもの
である。

【０１３３】図24において、入力ステップ4によって、
入力文章である「サーバー切り替えによる通信テストを
行う」2405が入力される。専門語格納手段管理ステップ
5は、「サーバー」および「切り替え」という語2401を
専門語格納手段1から検索し、専門語分割点設定ステッ
プ6によって、入力文章中の「サーバー」および「切り
替え」が現れる位置に、2406のように、専門語開始分割
点と専門語終了分割点を設定する。

【０１３４】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、2
406の「サーバー」という文字列は正表記である「サー
バ」に置換される。

【０１３５】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
2408のように「サーバ切り替え」、「通信テスト」、
「行」が有効文字列として取り出される。

【０１３６】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、2409のように「サーバ」と「切り替え」
の間、及び「通信」と「テスト」の間に字種分割点が設
定される。

【０１３７】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。基本語格納手段管理ステ
ップ10が基本語格納手段2を検索し、「通信」という語2
403が基本語であるという情報を基本語分割点設定ステ
ップ11に渡す。この結果、2410のように「通信」の前に
基本語開始分割点、後に基本語終了分割点を設定する。

【０１３８】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ13によって、各有効文字列に後接する
文字列をチェックする。2404に示すように「に」「を」
が検索され、「う」が検索されなかったとすると、2411
に示すように、「行」の後にキーワード終了不可能点が
設定される。

【０１３９】次に部分文字列切出ステップ14によって、
有効文字列から、専門語開始分割点、有効文字列の開始
点、基本語開始分割点、字種分割点の何れかによって始
まり、かつ専門語終了分割点、有効文字列の終了点、基
本語終了分割点、字種分割点の何れかによって終わり、
かつキーワード終了不可能点で終わらない文字列の範囲
を切り出す。この処理によって、2412に示すように、
「サーバ」「切り替え」「サーバ切り替え」「通信」
「テスト」「通信テスト」が入力文章に対するキーワー
ドとして抽出される。

【０１４０】なお、以上に述べた動作をコンピュータに
実行させるプログラムを、フロッピーディスク等のコン
ピュータ読み取り可能な記録媒体に格納し、その記録媒
体によりコンピュータに実行させてもよい。また、実施
の形態１では、専門語分割点設定ステップ、字種分割点
設定ステップ、基本語分割点設定ステップの順に分割点
の設定処理を行ったが、上記ステップの処理の順番は任
意でよい。以上のように、実施の形態1では、文書に対
する索引を付与するキーワード抽出処理において、専門
語を異表記表現と共に格納した専門語格納手段を参照
し、日本語文書中に現れる専門語のキーワードは、正表
記に変換して文書に付与する。このとき、正表記に変換
した専門語が字種の違いや基本語によって切り出した文
字列と連接する場合は、複合語となるキーワードも抽出
することにより、網羅的なキーワード抽出を行うことが
できる。検索時には、同じ専門語格納手段を用いて異表
記は正表記に変換して検索することより、従来の異表記
に対応した文書検索のように、検索のキーとなる語の異
表記の数が組み合わせ的に増えることなく、高速な文書
検索が可能なキーワード抽出装置を提供することができ
る。

【０１４１】実施の形態２.図25は、この発明によるキ
ーワード抽出方法の実施の形態２を示す構成図である。
図25における1、2、3、4、5、6、7、8、9、10、11、1
2、13、14は、それぞれ図5における1、2、3、4、5、6、
7、8、9、10、11、12、13、14と同様の専門語格納手
段、基本語格納手段、有効品詞後接平仮名文字列格納手
段、入力ステップ、専門語格納手段管理ステップ、専門
語分割点設定ステップ、正表記置換ステップ、有効文字
列切出ステップ、字種分割点設定ステップ、基本語格納
手段管理ステップ、基本語分割点設定ステップ、有効品
詞後接平仮名文字列格納手段管理ステップ、有効品詞判
定ステップ、部分文字列切出ステップである。4101は基
本語削除ステップで、部分文字列切出ステップ14によっ
て抽出されたキーワード候補のうち、基本語格納手段2
中に存在する語を削除する。

【０１４２】図26は、この発明の請求項２に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「サーバー切り替えによる通信テストを行う」とい
う文に対する処理を説明する。

【０１４３】ステップ4201からステップ4208までの動作
は、実施の形態１における処理と全く同様である。まず
ステップ4201において、キーボードやファイルから日本
語の文章を入力する。次にステップ4202において、入力
文章において、専門語による分割点を設定する。

【０１４４】専門語格納手段に、図2に示す語が登録さ
れているとすると、図7のフローに従って、入力文か
ら、「サーバー」及び「切り替え」が専門語として取り
出され、さらに正表記である「サーバ」に置換される。
「サーバ」及び「切り替え」の前後にそれぞれ専門語開
始分割点と専門語終了分割点が設定される。

【０１４５】次にステップ4203によって、入力文章入力
文章の先頭から順に有効文字列を取り出す。図12に示す
流れに従うと、最初の有効文字列として「サーバ切り替
え」が取り出される。

【０１４６】次にステップ4204によって、字種分割点を
設定する。図13に示す流れに従うと、「バ」と「切」の
間に字種分割点が設定される。

【０１４７】次にステップ4205によって、基本語分割点
を設定する。基本語格納手段2には、「サーバ切り替
え」の部分文字列となる語が登録されていないとする。
図15に示す流れに従うと、この有効文字列に対しては、
基本語分割点を設定せずにステップ4206に進む。

【０１４８】次にステップ4206によってキーワード候補
に後接する文字列をチェックし、有効品詞を判定する。
図17の処理の流れに従うと、「切り替え」が専門語であ
るため、何もせずこのルーチンを抜ける。

【０１４９】次にステップ4207によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点の何れかで
あるものとする。また、キーワード終了可能点は、専門
語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点の何れかであるものとする。また、有効
品詞判定処理でキーワード終了不可能点が設定された位
置は、キーワード終了可能点にはなり得ないものとす
る。

【０１５０】図19の処理の流れに従うと、「サーバ切り
替え」から抽出されるキーワードは、「サーバ」「切り
替え」「サーバ切り替え」となる。

【０１５１】次に、ステップ4208によって、入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ4203によって、次
の有効文字列「通信テスト」を取り出す。

【０１５２】次に、ステップ4204によって、字種分割点
を設定する。処理は図13に従い、「信」と「テ」の間に
字種分割点を設定する。

【０１５３】次に、ステップ4205によって、基本語分割
点を設定する。処理は図15に従い、基本語格納手段2中
に「通信」が登録されているとすると、処理対象文字列
中の「通信」の前後に基本語開始分割点と基本語終了分
割点を設定する。

【０１５４】次にステップ4206によって、キーワード候
補に後接する文字列をチェックし、有効品詞を判定す
る。処理は図17のフローに従うが、この場合、「テス
ト」に続く語が有効品詞後接平仮名文字列格納手段中に
登録されている「を」であることより、そのまま次に進
む。

【０１５５】次にステップ4207によって分割点と有効品
詞からキーワード候補を取り出す。図19の処理に従う
と、抽出されるキーワードは「通信」「テスト」「通信
テスト」となる。

【０１５６】さらに次の有効文字列「行」に対して、ス
テップ4203からステップ4207までの処理を行うが、実施
の形態１の「行」に対する処理と同様に、字種による区
切りが存在せず、「行」が基本語格納手段と接頭辞格納
手段に存在せず、後接する文字列である「う」が有効品
詞後接平仮名文字列格納手段に存在しないとすれば、こ
の区切りに対して抽出されるキーワードは存在しない。

【０１５７】ステップ4208で処理対象の有効文字列がな
くなったところで、Nのパスをたどり、ステップ4209に
進む。

【０１５８】ステップ4209では抽出されたキーワード候
補のうち、基本語格納手段中に存在する語を取り除く。
この処理は、図27に示すフローに従う。

【０１５９】キーワード候補である「サーバ」「切り替
え」「サーバ切り替え」「通信」「テスト」「通信テス
ト」はバッファに格納されているものとする。まず、ス
テップ4301でバッファからキーワード候補を１つ取り出
す。取り出したキーワードは、ステップ4303によって、
基本語格納手段2中に同じ語が存在するか否かをチェッ
クし、ステップ4304によって存在すると判定した場合
は、ステップ4305でその語を削除する。この処理をバッ
ファに格納されている全てのキーワード候補に対して行
い、ステップ4302の判定がNになったところで処理を終
える。

【０１６０】この処理を行うと、「通信」が基本語格納
手段中に存在するので、「通信」を削除する。この結
果、最終的に抽出されたキーワードは、「サーバ」「切
り替え」「サーバ切り替え」「テスト」「通信テスト」
となり、処理を終える。

【０１６１】図28はこの発明によるデータの流れの例を
請求項1を構成する各ステップに関連付けて示したもの
である。

【０１６２】図28において、入力ステップ4によって、
入力文章である「サーバー切り替えによる通信テストを
行う」4405が入力される。専門語格納手段管理ステップ
5は、「サーバー」および「切り替え」という語4401が
専門語格納手段1から引き、専門語分割点設定ステップ6
によって、入力文章中の「サーバー」および「切り替
え」が現れる位置に、4406のように、専門語開始分割点
と専門語終了分割点を設定する。

【０１６３】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、4
406の「サーバー」という文字列は正表記である「サー
バ」に置換される。

【０１６４】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
4408のように「サーバ切り替え」、「通信テスト」、
「行」が有効文字列として取り出される。

【０１６５】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、4409のように「サーバ」と「切り替え」
の間、及び「通信」と「テスト」の間に字種分割点が設
定される。

【０１６６】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。基本語格納手段管理ステ
ップ10が基本語格納手段2を検索し、「通信」という語4
403が基本語であるという情報を基本語分割点設定ステ
ップ11に渡す。この結果、4410のように「通信」の前に
基本語開始分割点、後に基本語終了分割点を設定する。

【０１６７】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。4404に示すように「に」「を」
が検索され、「う」が検索されなかったとすると、4411
に示すように、「行」の後にキーワード終了不可能点が
設定される。

【０１６８】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点の何れかによって終
わり、かつキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、4412に示すよう
に、「サーバ」「切り替え」「サーバ切り替え」「通
信」「テスト」「通信テスト」が入力文章に対するキー
ワードとして抽出される。

【０１６９】次に、基本語削除ステップ4101によって、
基本語格納手段2中に登録されている基本語を、キーワ
ード候補から削除する。この処理によって、最終的に入
力文から抽出されるキーワードは、「サーバ」「切り替
え」「サーバ切り替え」「テスト」「通信テスト」とな
る。なお、実施の形態２では、専門語分割点設定ステッ
プ、字種分割点設定ステップ、基本語分割点設定ステッ
プの順に分割点の設定処理を行ったが、上記ステップの
処理の順番は任意でよい。以上のように、実施の形態２
では、専門語格納手段中の専門語に関しては、見出し語
を正表記に置換してキーワード抽出を行い、字種の違い
や基本語によって切り出した文字列と連接する場合は、
複合語となるキーワードも抽出することにより、網羅的
なキーワード抽出を行うことができる。文章の登録時と
検索時に正表記同士で照合を行うため、検索のキーとな
る語の数が組み合わせ的に増えることなく、高速なキー
ワード検索装置を提供することができる。さらに、基本
語削除ステップを設けることにより、文書を識別するた
めのキーワードとして不要な語を削除することができる
ので、検索ゴミの少ない精度の良いキーワード抽出が実
現できる。

【０１７０】実施の形態３.図29は、この発明の請求項
３に係る一実施の形態を示す構成図である。図29におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。2501は接頭辞格納手段
で、図30にその一例を示すように、見出しのみから構成
される。2502は接頭辞格納手段2501を検索して接頭辞を
取り出す接頭辞格納手段管理ステップ、2503は接頭辞格
納手段管理ステップ2502で検索した接頭辞と一致する文
字列の前後に接頭辞分割点を設定する接頭辞分割点設定
ステップである。

【０１７１】図31は、この発明の請求項３に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「各サーバーの再確認を行う」という文に対する処
理を説明する。まずステップ2701において、キーボード
やファイルから日本語の文章を入力する。次にステップ
2702において、入力文章において、専門語による分割点
を設定する。

【０１７２】専門語格納手段1に、図2に示す語が登録さ
れているとすると、実施の形態１における処理と同様
に、図7のフローに従って、入力文から、「サーバー」
が専門語として取り出され、正表記である「サーバ」に
置換され、図32に示すように、専門語開始分割点と専門
語終了分割点を設定する。

【０１７３】次にステップ2703によって、入力文章の先
頭から順に有効文字列を取り出す。実施の形態１で述べ
た処理と同様に図12に示す流れに従うと、最初の有効文
字列として「各サーバ」が取り出される。

【０１７４】次にステップ2704によって、字種分割点を
設定する。実施の形態１で述べた処理と同様に図13に示
す流れに従うと、「各」と「サ」の間に字種分割点が設
定される。

【０１７５】次にステップ2705によって、基本語分割点
を設定する。基本語格納手段2には、「各サーバ」の部
分文字列となる語が登録されていないとする。実施の形
態１で述べた処理と同様に図15に示す流れに従うと、こ
の有効文字列に対しては、基本語分割点を設定せずにス
テップ2706に進む。

【０１７６】次にステップ2706によって、接頭辞分割点
を設定する。接頭辞分割点を設定する処理の流れを図33
に示す。まずステップ2901によって、有効文字列から専
門語を含んでいない範囲の区切りを取り出す。実施の形
態１で述べた処理と同様に図16に示す流れに従うと、
「各」が専門語を含まない有効文字列の区切りとして取
り出される。

【０１７７】処理対象の区切りが存在したので、ステッ
プ2902の判定はYとなり、次にステップ2903で専門語を
含まない有効文字列の区切りの先頭である「各」をphに
代入する。

【０１７８】次にステップ2904で接頭辞格納手段2501に
登録されている接頭辞を1つずつ取り出し、ステップ290
6で取り出した接頭辞の長さを変数lenに代入し、ステッ
プ2907でphで始まる文字列の先頭からlenまでの長さ
が、接頭辞格納手段2501から取り出した接頭辞と一致す
るか否かを調べる。

【０１７９】図30に示すように、接頭辞格納手段2501中
に「各」が登録されているとすると、ステップ2904にお
いて「各」を取り出したところで、ステップ2907の判定
がYとなり、ステップ2908で接頭辞開始分割点と接頭辞
終了分割点を、それぞれ処理対象の文字列の「各」の前
後に設定する。ステップ2904によって接頭辞格納手段25
01に登録されている接頭辞を全て取り出すと、ステップ
2905の判定がNとなり、ステップ2909に進む。

【０１８０】ステップ2909では、phを1文字後ろに移動
してphが区切りの範囲内にある間、接頭辞格納手段2501
から接頭辞を取り出して、同様の処理を行う。

【０１８１】この場合は、「各」の次の文字は、専門語
を含まない有効文字列の範囲外となるため、ステップ29
10ではNのパスをたどり、「各サーバ」に対しては、他
に、専門語を含まない有効文字列の区切りが存在しない
ため、ステップ2902はNのパスをたどって、このルーチ
ンを抜ける。

【０１８２】次に図31のステップ2707によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。実施の形態１における処理と同様に、図17の処理
の流れに従うと、「サーバ」が専門語であるため、何も
せずこのルーチンを抜ける。

【０１８３】ここまでの処理で、最初の有効文字列に設
定される分割点は、図34のようになる。

【０１８４】次にステップ2708によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点、接頭辞開
始分割点、接頭辞終了分割点の何れかであるものとす
る。また、キーワード終了可能点は、専門語終了分割
点、有効文字列の終了点、基本語終了分割点、字種分割
点の何れかであるものとする。また、有効品詞判定処理
でキーワード終了不可能点が設定された位置は、キーワ
ード終了可能点にはなり得ないものとする。また、接頭
辞終了分割点は、キーワード終了不可能点とし、キーワ
ード終了可能点にはなり得ないものとする。

【０１８５】実施の形態１における処理と同様に、図19
の処理の流れに従うと、「各サーバ」から抽出されるキ
ーワードは、「各サーバ」「サーバ」となる。

【０１８６】次に、ステップ2709によって、入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ2703によって、次
の有効文字列「再確認」を取り出す。

【０１８７】次に、ステップ2704によって、字種分割点
を設定する。処理は図13に従うが、「再確認」の文字列
中に字種の違いは存在しないので、そのまま次に進む。

【０１８８】次に、ステップ2705によって、基本語分割
点を設定する。処理は図15に従うが、基本語格納手段中
に「再確認」の部分文字列となる語が登録されていない
とすると、そのまま次に進む。

【０１８９】次にステップ2706によって、接頭辞分割点
を設定する。処理は図33に従う。接頭辞格納手段2501に
「再」が登録されているとすると、「再確認」の「再」
の前に接頭辞開始分割点、「再」の後に接頭辞終了分割
点を設定する。

【０１９０】次にステップ2707によって、キーワード候
補に後接する文字列をチェックし、有効品詞を判定す
る。処理は図17のフローに従うが、この場合、「再確
認」に続く語が有効品詞後接平仮名文字列格納手段3中
に登録されている「を」であることより、そのまま次に
進む。

【０１９１】ここまでの処理で、「再確認」に設定され
る分割点は、図35のようになる。

【０１９２】次にステップ2708によって分割点と有効品
詞からキーワード候補を取り出す。図19の処理に従う
と、抽出されるキーワードは「再確認」「確認」とな
る。

【０１９３】さらに次の有効文字列「行」に対して、ス
テップ2703からステップ2708までの処理を行うが、実施
の形態１の「行」に対する処理と同様に、字種による区
切りが存在せず、「行」が基本語格納手段2と接頭辞格
納手段2501に存在せず、後接する文字列である「う」が
有効品詞後接平仮名文字列格納手段3に存在しないとす
れば、この区切りに対して抽出されるキーワードは存在
しない。

【０１９４】ステップ2709で処理対象の有効文字列がな
くなったところで、Nのパスをたどり、処理を終了す
る。

【０１９５】図36はこの発明によるデータの流れの例を
請求項３を構成する各ステップに関連付けて示したもの
である。

【０１９６】図36において、入力ステップ4によって、
入力文章である「各サーバーの再確認を行う」3205が入
力される。専門語格納手段管理ステップ5は、「サーバ
ー」という語3201を専門語格納手段1から引き、専門語
分割点設定ステップ6によって、入力文章中の「サーバ
ー」が現れる位置に、3206のように、専門語開始分割点
と専門語終了分割点を設定する。

【０１９７】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、3
206の「サーバー」という文字列は正表記である「サー
バ」に置換される。

【０１９８】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
3208のように「各サーバ」、「再確認」、「行」が有効
文字列として取り出される。

【０１９９】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、3209のように「各」と「サ」の間に字種
分割点が設定される。

【０２００】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、3210のよう
に基本語分割点は設定されない。

【０２０１】次に、接頭辞格納手段管理ステップ2502が
接頭辞格納手段2501を検索し、「各」や「再」という語
3203が接頭辞であるという情報を接頭辞分割点設定ステ
ップ2503に渡す。この結果、3211のように「各」と
「再」の前後にそれぞれ接頭辞開始分割点および接頭辞
終了分割点が設定される。

【０２０２】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。3204に示すように「の」「を」
が検索され、「う」が検索されなかったとすると、3212
に示すように、「行」の後にキーワード終了不可能点が
設定される。

【０２０３】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点、接頭辞開始
分割点、接頭辞終了分割点の何れかによって始まり、か
つ専門語終了分割点、有効文字列の終了点、基本語終了
分割点、字種分割点の何れかによって終わり、かつ接頭
辞終了点とキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、3213に示すよう
に、「各サーバ」「サーバ」「再確認」「確認」が入力
文章に対するキーワードとして抽出される。なお、実施
の形態3では、専門語分割点設定ステップ、字種分割点
設定ステップ、基本語分割点設定ステップ、接頭辞分割
点設定ステップの順に分割点の設定処理を行ったが、上
記ステップの処理の順番は任意でよい。また、接頭辞格
納手段に格納する接頭辞には、「約１万円」における
「約」や、「第３０回」における「第」のような、数量
表現に前接する数量接頭辞を格納し、上記説明と同様の
キーワード抽出処理を行ってもよい。以上のように、実
施の形態3においては、接頭辞格納手段に格納されてい
る接頭辞と、後接する専門語を関連付けてキーワードを
抽出するときに、専門語に関しては、見出し語を正表記
に置換し、文書の登録時と検索時に正表記同士で照合を
行うため、接頭辞のある／なしと、接頭辞に後接する専
門語の異表記によって、検索のキーとなる語の異表記の
数が組み合わせ的に増えることなく、高速な文書検索を
行うためのキーワード抽出方法が実現できる。

【０２０４】実施の形態４.図37は、この発明の請求項
４に係る一実施の形態を示す構成図である。図37におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。3301は接尾辞格納手段
で、図38にその一例を示すように、見出しのみから構成
される。3302は接尾辞格納手段3301を検索して接尾辞を
取り出す接尾辞格納手段管理ステップ、3303は接尾辞格
納手段管理ステップで検索した接尾辞と一致する文字列
の前後に接尾辞分割点を設定する接尾辞分割点設定ステ
ップである。

【０２０５】図39は、この発明の請求項４に係る発明の
実施の形態４の動作を示すフローチャートである。例と
して、「サーバー側を確認中とする」という文に対する
処理を説明する。まずステップ3501において、キーボー
ドやファイルから日本語の文章を入力する。次にステッ
プ3502において、入力文章において、専門語による分割
点を設定する。

【０２０６】専門語格納手段1に、図2に示す語が登録さ
れているとすると、実施の形態１における処理と同様
に、図7のフローに従って、入力文から、「サーバー」
が専門語として取り出され、正表記である「サーバ」に
置換され、図40に示すように、専門語開始分割点と専門
語終了分割点が設定される。

【０２０７】次にステップ3503によって、入力文章の先
頭から順に有効文字列を取り出す。実施の形態１で述べ
た処理と同様に図12に示す流れに従うと、最初の有効文
字列として「サーバ側」が取り出される。

【０２０８】次にステップ3504によって、字種分割点を
設定する。実施の形態１で述べた処理と同様に図13に示
す流れに従うと、「バ」と「側」の間に字種分割点が設
定される。

【０２０９】次にステップ3505によって、基本語分割点
を設定する。基本語格納手段2には、「サーバ側」の部
分文字列となる語が登録されていないとする。実施の形
態１で述べた処理と同様に図15に示す流れに従うと、こ
の有効文字列に対しては、基本語分割点を設定せずにス
テップ3506に進む。

【０２１０】次にステップ3506によって、接尾辞分割点
を設定する。接尾辞分割点を設定する処理の流れを図41
に示す。まずステップ3701によって、有効文字列から専
門語を含んでいない範囲の区切りを取り出す。実施の形
態１で述べた処理と同様に図16に示す流れに従うと、
「側」が専門語を含まない有効文字列の区切りとして取
り出される。

【０２１１】処理対象の区切りが存在したので、ステッ
プ3702の判定はYとなり、次にステップ3703で専門語を
含まない有効文字列の区切りの先頭である「側」をphに
代入する。

【０２１２】次にステップ3704で接尾辞格納手段3301に
登録されている接尾辞を１つずつ取り出し、ステップ37
06で取り出した接尾辞の長さを変数lenに代入し、ステ
ップ3707でphで始まる文字列の先頭からlenまでの長さ
が、接尾辞格納手段3301から取り出した接尾辞と一致す
るか否かを調べる。

【０２１３】図38に示すように、接尾辞格納手段3301中
に「側」が登録されているとすると、ステップ3704にお
いて「側」を取り出したところで、ステップ3707の判定
がYとなり、ステップ3708で接尾辞開始分割点と接尾辞
終了分割点を、それぞれ処理対象の文字列の「側」の前
後に設定する。ステップ3704によって接尾辞格納手段33
01に登録されている接尾辞を全て取り出すと、ステップ
3705の判定がNとなり、ステップ3709に進む。

【０２１４】ステップ3709では、phを１文字後ろに移動
してphが区切りの範囲内にある間、接尾辞格納手段から
接尾辞を取り出して、同様の処理を行う。

【０２１５】この場合は、「側」の次の文字は、専門語
を含まない有効文字列の範囲外となるため、ステップ37
01ではNのパスをたどり、「サーバ側」に対しては、他
に、専門語を含まない有効文字列の区切りが存在しない
ため、ステップ3702はNのパスをたどって、このルーチ
ンを抜ける。

【０２１６】次に図39のステップ3507によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。実施の形態１における処理と同様に、図17の処理
の流れに従うと、「側」に続く文字列が有効品詞後接平
仮名文字列格納手段中に登録されている「を」であるた
め、何もせずこのルーチンを抜ける。

【０２１７】ここまでの処理で、最初の有効文字列に設
定される分割点は、図42のようになる。

【０２１８】次にステップ3508によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点の何れかで
あるものとする。また、キーワード終了可能点は、専門
語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点、接尾辞開始分割点、接尾辞終了分割点
の何れかであるものとする。また、有効品詞判定処理で
キーワード終了不可能点が設定された位置は、キーワー
ド終了可能点にはなり得ないものとする。また、接尾辞
開始分割点は、キーワード開始不可能点とし、キーワー
ド開始可能点にはなり得ないものとする。

【０２１９】実施の形態１における処理と同様に、図19
の処理の流れに従うと、「サーバ側」から抽出されるキ
ーワードは、「サーバ側」「サーバ」となる。

【０２２０】次に、ステップ3509によって、入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ3503によって、次
の有効文字列「確認中」を取り出す。

【０２２１】次に、ステップ3504によって、字種分割点
を設定する。処理は図13に従うが、「確認中」の文字列
中に字種の違いは存在しないので、そのまま次に進む。

【０２２２】次に、ステップ3505によって、基本語分割
点を設定する。処理は図15に従うが、基本語格納手段2
中に「確認中」の部分文字列となる語が登録されていな
いとすると、そのまま次に進む。

【０２２３】次にステップ3506によって、接尾辞分割点
を設定する。処理は図41に従う。接尾辞格納手段3301に
「中」が登録されているとすると、「確認中」の「中」
の前に接尾辞開始分割点、「中」の後に接尾辞終了分割
点を設定する。

【０２２４】次にステップ3507によって、キーワード候
補に後接する文字列をチェックし、有効品詞を判定す
る。処理は図17のフローに従うが、この場合、「確認
中」に続く語が有効品詞後接平仮名文字列格納手段12中
に登録されている「と」であることより、そのまま次に
進む。

【０２２５】ここまでの処理で、「確認中」に設定され
る分割点は、図43のようになる。

【０２２６】次にステップ3508によって分割点と有効品
詞からキーワード候補を取り出す。図19の処理に従う
と、抽出されるキーワードは「確認中」「確認」とな
る。

【０２２７】ステップ3509で入力文章中に入港文字列に
よる区切りが残っているか否かをチェックするがこの場
合すでに残っていないので、処理を終える。

【０２２８】図44はこの発明によるデータの流れの例を
請求項４を構成する各ステップに関連付けて示したもの
である。

【０２２９】図44において、入力ステップ4によって、
入力文章である「サーバー側を確認中とする」4005が入
力される。専門語格納手段管理ステップ5は、「サーバ
ー」という語4001を専門語格納手段1から引き、専門語
分割点設定ステップ6によって、入力文章中の「サーバ
ー」が現れる位置に、4006のように、専門語開始分割点
と専門語終了分割点を設定する。

【０２３０】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、4
006の「サーバー」という文字列は正表記である「サー
バ」に置換される。

【０２３１】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
4008のように「サーバ側」、「確認中」が有効文字列と
して取り出される。

【０２３２】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、4009のように「バ」と「側」の間に字種
分割点が設定される。

【０２３３】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、4010のよう
に基本語分割点は設定されない。

【０２３４】次に、接尾辞格納手段管理ステップ3302が
接尾辞格納手段3301を検索し、「側」や「中」という語
4003が接尾辞であるという情報を接尾辞分割点設定ステ
ップ3303に渡す。この結果、4011のように「側」と
「中」の前後にそれぞれ接尾辞開始分割点および接尾辞
終了分割点が設定される。

【０２３５】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ13によって、各有効文字列に後接する
文字列をチェックする。この例では、4004に示すように
「を」「と」が検索されたとするとキーワード終了不可
能点は設定されない。

【０２３６】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点、接尾辞開始分割
点、接尾辞終了分割点の何れかによって終わり、かつ接
尾辞開始分割点で始まらず、キーワード終了不可能点で
終わらない文字列の範囲を切り出す。この処理によっ
て、4013に示すように、「サーバ側」「サーバ」「確認
中」「確認」が入力文章に対するキーワードとして抽出
される。

【０２３７】なお、本実施の形態においては、接尾辞に
ついての処理を示したが、「日本対アメリカ」における
「対」のような接中辞においても、同様の処理により
「対」の前後に分割点を設定することによって、キーワ
ード抽出処理を行なうことができる。また、接尾辞格納
手段に格納する接頭辞には、「約１万円」における
「円」や、「第３０回」における「回」のような、数量
表現に前接する数量接尾辞を格納し、上記説明と同様の
キーワード抽出処理を行ってもよい。また、専門語分割
点設定ステップ、字種分割点設定ステップ、基本語分割
点設定ステップ、接尾辞分割点設定ステップの順に分割
点の設定処理を行ったが、上記ステップの処理の順番は
任意でよい。以上のように、実施の形態４においては、
接尾辞格納手段に格納されている接尾辞と、前接する専
門語を関連付けてキーワードを抽出するときに、専門語
に関しては、見出し語を正表記に置換し、文書の登録時
と検索時に正表記同士で照合を行うため、接尾辞のある
／なしと、接尾辞に前接する専門語の異表記によって、
検索のキーとなる語の異表記の数が組み合わせ的に増え
ることなく、高速な文書検索を行うためのキーワード抽
出方法が実現できる。

【０２３８】実施の形態５.図45は、この発明の請求項
５に係る一実施の形態を示す構成図である。図45におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。4501は文字数制限ステ
ップで、部分文字列切出ステップ14によって抽出された
キーワード候補のうち、文字数が一定値以上の語を削除
する。

【０２３９】図46は、この発明の請求項５に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「ユーザインタフェース切り替えを行う」という文
に対する処理を説明する。まずステップ4601において、
キーボードやファイルから日本語の文章を入力する。次
にステップ4602において、入力文章において、専門語に
よる分割点を設定する。

【０２４０】専門語格納手段に、図2に示す語が登録さ
れているとすると、図7のフローに従って、入力文か
ら、「切り替え」が専門語として取り出され、「切り替
え」の前後に専門語開始分割点と専門語終了分割点が設
定される。

【０２４１】次にステップ4603によって、入力文章入力
文章の先頭から順に有効文字列を取り出す。図12に示す
流れに従うと、最初の有効文字列として「ユーザインタ
フェース切り替え」が取り出される。

【０２４２】次にステップ4604によって、字種分割点を
設定する。図13に示す流れに従うと、「ス」と「切」の
間に字種分割点が設定される。

【０２４３】次にステップ4605によって、基本語分割点
を設定する。基本語格納手段には、「ユーザインタフェ
ース切り替え」の部分文字列となる語が登録されていな
いとする。図15に示す流れに従うと、この有効文字列に
対しては、基本語分割点を設定せずにステップ4606に進
む。

【０２４４】次にステップ4606によってキーワード候補
に後接する文字列をチェックし、有効品詞を判定する。
図17の処理の流れに従うと、「切り替え」が専門語であ
るため、何もせずこのルーチンを抜ける。

【０２４５】次にステップ4607によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点の何れかで
あるものとする。また、キーワード終了可能点は、専門
語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点の何れかであるものとする。また、有効
品詞判定処理でキーワード終了不可能点が設定された位
置は、キーワード終了可能点にはなり得ないものとす
る。

【０２４６】図19の処理の流れに従うと、「ユーザイン
タフェース切り替え」から抽出されるキーワードは、
「ユーザインタフェース」「切り替え」「ユーザインタ
フェース切り替え」となる。

【０２４７】次に、ステップ4608によって、入力文章中
に有効文字列が残っているか否かをチェックする。

【０２４８】さらに次の有効文字列「行」に対して、ス
テップ4603からステップ4607までの処理を行うが、実施
の形態１の「行」に対する処理と同様に、字種による区
切りが存在せず、「行」が基本語格納手段2と接頭辞格
納手段に存在せず、後接する文字列である「う」が有効
品詞後接平仮名文字列格納手段3に存在しないとすれ
ば、この区切りに対して抽出されるキーワードは存在し
ない。

【０２４９】ステップ4608で処理対象の有効文字列がな
くなったところで、Nのパスをたどり、ステップ4609に
進む。

【０２５０】ステップ4609では抽出されたキーワード候
補のうち、文字数が一定値以上の語を取り除く。この処
理は、図47に示すフローに従う。本実施の形態では、文
字数の制限を12文字以内とする。

【０２５１】キーワード候補である「ユーザインタフェ
ース」「切り替え」「ユーザインタフェース切り替え」
はバッファに格納されているものとする。まず、ステッ
プ4701でバッファからキーワード候補を1つ取り出す。
取り出したキーワードは、ステップ4703によって、文字
数が12以下であるか否かをチェックし、文字数が12以上
の場合は、ステップ4704でその語を削除する。この処理
をバッファに格納されている全てのキーワード候補に対
して行い、ステップ4702の判定がNになったところで処
理を終える。

【０２５２】この処理を行うと、「ユーザインタフェー
ス切り替え」は12文字を超えるので削除する。この結
果、最終的に抽出されたキーワードは、「ユーザインタ
ーフェース」「切り替え」となり、処理を終える。

【０２５３】図48はこの発明によるデータの流れの例を
請求項５を構成する各ステップに関連付けて示したもの
である。

【０２５４】図48において、入力ステップ4によって、
入力文章である「ユーザインタフェース切り替えを行
う」4805が入力される。専門語格納手段管理ステップ5
は、「切り替え」という語4801を専門語格納手段1から
引き、専門語分割点設定ステップ6によって、「切り替
え」が現れる位置に、4806のように、専門語開始分割点
と専門語終了分割点を設定する。

【０２５５】次に正表記置換ステップ7によって正表記
への置換を行うが、この場合、異表記の表現がないの
で、そのまま次へ進む。

【０２５６】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
4808のように「ユーザインタフェース切り替え」、
「行」が有効文字列として取り出される。

【０２５７】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、4809のように「ユーザインタフェース」
と「切り替え」の間に字種分割点が設定される。

【０２５８】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この場合、入力文字列中
に基本語が存在しないので、そのまま次へ進む。

【０２５９】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。4802に示すように「を」が検索
され、「う」が検索されなかったとすると、4811に示す
ように、「行」の後にキーワード終了不可能点が設定さ
れる。

【０２６０】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点の何れかによって終
わり、かつキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、4812に示すよう
に、「ユーザインタフェース」「切り替え」「ユーザイ
ンタフェース切り替え」が入力文章に対するキーワード
候補として抽出される。

【０２６１】次に、文字数制限ステップ4501によって、
文字数が12文字を超えるキーワード候補をを削除する。
この処理によって、最終的に入力文から抽出されるキー
ワードは、「ユーザインタフェース」となる。なお、実
施の形態５では、専門語分割点設定ステップ、字種分割
点設定ステップ、基本語分割点設定ステップの順に分割
点の設定処理を行ったが、上記ステップの処理の順番は
任意でよい。以上のように、実施の形態５では、抽出す
るキーワードの文字数を一定範囲に限定する。このと
き、専門語格納手段中の専門語に関しては、見出し語を
正表記に置換してキーワード抽出を行って文字数をカウ
ントすることにより、異表記間の文字数の違いによっ
て、同じ意味を表す語であるにもかかわらず、ある語は
登録され、他の語は削除されるという不統一を防ぐこと
が可能なキーワード抽出方法が実現できる。

【０２６２】実施の形態６.図49は、この発明の請求項
６に係る一実施の形態を示す構成図である。図49におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。4901は頻度集計ステッ
プで、抽出されたキーワードの出現度数を集計する。

【０２６３】図50は、この発明の請求項６に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「端末の切り替えと回線の切り換えを行う」という
文に対する処理を説明する。まずステップ5001におい
て、キーボードやファイルから日本語の文章を入力す
る。次にステップ5002において、入力文章において、専
門語による分割点を設定する。

【０２６４】専門語格納手段に、図2に示す語が登録さ
れているとすると、図7のフローに従って、入力文か
ら、「切り替え」と「切り換え」が専門語として取り出
される。それぞれについて、専門語開始分割点と専門語
終了分割点を設定する。「切り換え」については正表記
である「切り替え」に置き換えられる。

【０２６５】次にステップ5003によって、入力文章の先
頭から順に有効文字列を取り出す。図12に示す流れに従
うと、最初の有効文字列として「端末」が取り出され
る。

【０２６６】次にステップ5004によって、字種分割点を
設定する。実施の形態１で述べた処理と同様に図13に示
す流れに従うが、この場合、字種の違いは存在せず、そ
のまま次へ進む。

【０２６７】次にステップ5005によって、基本語分割点
を設定する。基本語格納手段には、「端末」の部分文字
列となる語が登録されていないとする。実施の形態１で
述べた処理と同様に図15に示す流れに従うと、この有効
文字列に対しては、基本語分割点を設定せずにステップ
5006に進む。

【０２６８】次にステップ5006によってキーワード候補
に後接する文字列をチェックし、有効品詞を判定する。
図17の処理の流れに従うと、「端末」に続く語が有効品
詞後接平仮名文字列格納手段中に登録されている「の」
であることより、そのまま次に進む。

【０２６９】次にステップ5007によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点、の何れか
であるものとする。また、キーワード終了可能点は、専
門語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点の何れかであるものとする。また、有効
品詞判定処理でキーワード終了不可能点が設定された位
置は、キーワード終了可能点にはなり得ないものとす
る。

【０２７０】図19の処理の流れに従うと、「端末」から
抽出されるキーワードは、「端末」となる。

【０２７１】次に、ステップ5008によって、入力文章中
に有効文字列が残っているか否かをチェックする。以
下、有効文字列として取り出される文字列は、「切り替
え」「回線」「切り替え」「行」である。「切り替え」
に対しては、字種分割点と基本語分割点が専門語の範囲
内では設定されないことより、そのままキーワード候補
になる。「回線」の文字列中にも字種の違いが存在せ
ず、また基本語格納手段に「回線」の部分文字列が登録
されていないとすると、「回線」もそのままキーワード
候補になる。「行」からは、実施の形態１と同様、キー
ワードは抽出されない。

【０２７２】この結果、ステップ5008でNと判定された
ときのキーワード候補は、「端末」「切り替え」「回
線」「切り替え」の4つになる。

【０２７３】ステップ5009では抽出されたキーワード候
補の出現度数を集計する。この処理は、図51に示すフロ
ーに従う。

【０２７４】キーワード候補である「端末」「切り替
え」「回線」「切り替え」はバッファAに格納されてい
るものとする。また、バッファBは、空の状態であると
する。まず、ステップ5101でバッファAからキーワード
候補を1つ取り出す。取り出したキーワードは、ステッ
プ5103によって、バッファBに存在するか否かをチェッ
クし、存在する場合は、ステップ5104でバッファB中の
該当するキーワードの度数を1つ上げる。バッファBに存
在しない場合は、ステップ5105によって取り出したキー
ワードを度数1としてバッファBにコピーする。この処理
をバッファAに格納されている全てのキーワード候補に
対して行い、ステップ5102の判定がNになったところで
処理を終える。最終的に抽出されるキーワードは、バッ
ファBに格納される候補となる。

【０２７５】この処理を行うと、「端末」、最初に現れ
る「切り替え」、及び「回線」はステップ5105によっ
て、度数1としてバッファBにコピーされる。2度目に現
れる「切り替え」に対しては、ステップ5104によって、
バッファB中の「切り替え」の度数を1つ上げる処理が行
われる。この結果、最終的に抽出されるキーワードは、
「端末」、「切り替え」、「回線」であり、度数はそれ
ぞれ1、2、1となる。これによって処理を終える。

【０２７６】図52はこの発明によるデータの流れの例を
請求項６を構成する各ステップに関連付けて示したもの
である。

【０２７７】図52において、入力ステップ4によって、
入力文章である「端末の切り替えと回線の切り換えを行
う」5205が入力される。専門語格納手段管理ステップ5
は、「切り替え」及び「切り換え」という語5201を専門
語格納手段1から引き、専門語分割点設定ステップ6によ
って、入力文章中の「切り替え」及び「切り換え」が現
れる位置に、5206のように、専門語開始分割点と専門語
終了分割点を設定する。

【０２７８】次に正表記置換ステップ7によって正表記
への置換を行う。この場合、「切り換え」を「切り替
え」に置換して次へ進む。

【０２７９】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
5208のように「端末」、「切り替え」、「回線」、「切
り替え」、「行」が有効文字列として取り出される。

【０２８０】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。ここでは条件に合う点が存在しないので、そのまま
次へ進む。

【０２８１】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、5210のよう
に基本語分割点は設定されない。

【０２８２】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。5203に示すように「の」「と」
「を」が検索され、「う」が検索されなかったとする
と、5211に示すように、「行」の後にキーワード終了不
可能点が設定される。

【０２８３】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点の何れかによって終
わり、かつキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、5212に示すよう
に、「端末」「切り替え」「回線」「切り替え」がキー
ワード候補として抽出される。

【０２８４】次に、頻度集計ステップ4901によって、抽
出されたキーワード候補の出現度数を集計する。この処
理によって、最終的に抽出されるキーワードは、「端
末」、「切り替え」、「回線」であり、度数はそれぞれ
1、2、1となる。なお、実施の形態６では、専門語分割
点設定ステップ、字種分割点設定ステップ、基本語分割
点設定ステップの順に分割点の設定処理を行ったが、上
記ステップの処理の順番は任意でよい。以上のように、
実施の形態６では、専門語格納手段中の専門語に関して
は、見出し語を正表記に置換してキーワード抽出を行う
ため、異表記の関係にある語同士が別の語と判定される
ことなく、正確な頻度の付与が可能なキーワード抽出方
法が実現できる。

【０２８５】実施の形態７.図53は、この発明の請求項
７に係る一実施の形態を示す構成図である。図53におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。5301は記号文字分割点
設定ステップで、「・」や「／」など、予め定められた
記号文字の前後に記号文字分割点を設定する。5302は記
号文字削除ステップで、抽出したキーワードから、
「・」や「／」など、予め定められた記号文字を取り除
く。

【０２８６】図54は、この発明の請求項8に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「ユーザー・インタフェイスの設定を行う」という
文に対する処理を説明する。まずステップ5401におい
て、キーボードやファイルから日本語の文章を入力す
る。次にステップ5402において、入力文章において、専
門語による分割点を設定する。

【０２８７】専門語による分割点は図7のフローに従っ
て設定する。ここでは、「ユーザー」及び「インタフェ
イス」が専門語であるとし、「ユーザー」に対しては
「ユーザ」が、「インタフェイス」に対しては「インタ
フェース」が正表記であるとする。すると、入力文字列
に対し、「ユーザー」が「ユーザ」に置き換えられ、
「インタフェイス」が「インタフェース」に置き換えら
れ、さらに「ユーザ」と「インタフェース」の前に専門
語開始分割点、後に専門語終了分割点が設定される。

【０２８８】次にステップ5403によって、入力文章入力
文章の先頭から順に有効文字列を取り出す。図12に示す
流れに従うと、最初の有効文字列として「ユーザ・イン
タフェース」が取り出される。

【０２８９】次にステップ5404によって、字種分割点を
設定する。処理は図13に示す流れに従うが、「ユーザ・
インタフェース」という文字列には字種の違いがないの
で、そのまま次の処理に進む。この場合、「・」のよう
な記号文字は、字種分割点設定の対象としないものとす
る。

【０２９０】次にステップ5405によって、基本語分割点
を設定する。処理は図15に示す流れに従うが、「ユーザ
・インタフェース」という文字列の部分文字列に、基本
語格納手段中に登録されている語が含まれていないとす
ると、そのまま次の処理に進む。

【０２９１】次にステップ5406によって、記号文字分割
点を設定する。記号文字分割点を設定する処理の流れを
図55に示す。まずステップ5501によって、有効文字列か
ら専門語を含んでいない範囲の区切りを取り出す。図16
に示す流れに従うと、「・」が専門語を含まない有効文
字列の区切りとして取り出される。

【０２９２】処理対象の区切りが存在したので、ステッ
プ5502の判定はYとなり、次にステップ5503で専門語を
含まない有効文字列の区切りの先頭である「・」をphに
代入する。

【０２９３】次にステップ5504でphが予め定められた記
号文字であるか否かをチェックする。本実施の形態で
は、「・」が予め定められているとする。ここでの判定
はYで、ステップ5505に進む。

【０２９４】ステップ5505によって、処理対象文字列中
の「・」の前後にそれぞれ記号文字開始分割点と記号文
字終了分割点が設定される。

【０２９５】次にステップ5506によってphを1文字分後
ろに移動し、ステップ5507では、専門語を含まない有効
文字列の区切りの範囲を超えたので判定はNとなり、ス
テップ5501では、他に専門語を含まない有効文字列の区
切りが存在しないため、ステップ5502はNのパスをたど
って、このルーチンを抜ける。

【０２９６】次に図27のステップ2707によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。図17の処理の流れに従うと、「ユーザ・インタフ
ェース」に続く平仮名文字列が「の」であり、図4に示
すように有効品詞後接平仮名文字列格納手段に「の」が
含まれている場合、そのまま次へ進む。

【０２９７】ここまでの処理で、最初の有効文字列に設
定される分割点は、図56のようになる。

【０２９８】次にステップ5408によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点、記号文字
終了分割点の何れかであるものとする。また、キーワー
ド終了可能点は、専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点、記号文字開始分割
点の何れかであるものとする。また有効品詞判定処理で
キーワード終了不可能点が設定された位置は、キーワー
ド終了可能点にはなり得ないものとする。

【０２９９】図19の処理の流れに従うと、「ユーザ・イ
ンタフェース」から抽出されるキーワードは、「ユー
ザ」「インタフェース」「ユーザ・インタフェース」と
なる。これらのキーワード候補は、バッファ中に格納さ
れるものとする。

【０３００】次にステップ5409で、キーワード候補中に
現れる記号文字を削除する。この処理は図57に示すフロ
ー図に従う。ステップ5701で、バッファからキーワード
候補を1つ取り出す。ステップ5703で、キーワード候補
の文字列中に、「・」が存在するか否かを調べ、存在す
る場合には、ステップ5704で「・」を削除する。この処
理をバッファ中の全てのキーワード候補に対して行い、
ステップ5702の判定がNになったところで、このルーチ
ンを抜ける。

【０３０１】例では、「ユーザ・インタフェース」とい
う文字列の中に「・」が存在するので、この「・」を削
除し、「ユーザインタフェース」がキーワード候補とな
る。この結果、「ユーザ」「インタフェース」「ユーザ
インタフェース」がキーワード候補となる。

【０３０２】次にステップ5410で入力文章中に有効文字
列が残っているか否かをチェックする。次に取り出され
る区切りは、「設定」であるが、「設定」の文字列中に
も字種の違いが存在せず、また基本語格納手段に「設
定」の部分文字列が登録されていないとすると、「設
定」はそのままキーワード候補になる。また、次に取り
出される有効文字列は「行」であるが、「行」からは実
施の形態１と同様、キーワードは抽出されない。

【０３０３】この結果、最終的に取り出されるキーワー
ドは、「ユーザ」「インタフェース」「ユーザインタフ
ェース」「設定」となる。

【０３０４】図58はこの発明によるデータの流れの例を
請求項8を構成する各ステップに関連付けて示したもの
である。

【０３０５】図58において、入力ステップ4によって、
入力文章である「ユーザー・インタフェイスの設定を行
う」5805が入力される。入力文中の「ユーザー」及び
「インタフェイス」が専門語格納手段に登録されている
とすると、5806のように「ユーザー」と「インタフェイ
ス」の前に専門語開始分割点が、後に専門語終了分割点
が設定される。

【０３０６】次に正表記置換ステップ7によって専門語
の正表記への置換が行われる。「ユーザー」の正表記が
「ユーザ」であり、「インタフェイス」の正表記が「イ
ンタフェース」であるとすると、5807のような置換が行
われる。

【０３０７】次に、有効文字列切出ステップ8によっ
て、有効字種または専門語の文字列の範囲を取り出す。
これによって、5808のように「ユーザ・インタフェー
ス」、「設定」、「行」が有効文字列として取り出され
る。

【０３０８】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。ここでは、有効文字列の範囲内に字種の違いは存在
しないので、5809のように字種分割点は設定されない。

【０３０９】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、5810のよう
に基本語分割点は設定されない。

【０３１０】次に、記号文字分割点設定ステップ5302に
よって、5812のように、処理対象文字列に「・」の前後
にそれぞれ記号文字開始分割点と記号文字終了分割点を
設定する。

【０３１１】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。5803に示すように「の」「を」
が検索され、「う」が検索されなかったとすると、5812
に示すように、「行」の後にキーワード終了不可能点が
設定される。

【０３１２】次に、部分文字列切出ステップ14によっ
て、有効文字列の範囲から、専門語開始分割点、有効文
字列の開始点、基本語開始分割点、字種分割点、記号文
字終了分割点の何れかによって始まり、かつ専門語終了
分割点、有効文字列の終了点、基本語終了分割点、字種
分割点、記号文字開始分割点の何れかによって終わり、
かつキーワード終了不可能点で終わらない文字列の範囲
を切り出す。この処理によって、5813に示すように、
「ユーザ」「インタフェース」「ユーザ・インタフェー
ス」「設定」がキーワード候補として抽出される。

【０３１３】次に、記号文字削除ステップ5302によっ
て、キーワード候補のうち、「・」を含んでいる文字列
の「・」を削除する。この結果、「ユーザ・インタフェ
ース」は「ユーザインタフェース」となり、最終的に抽
出されるキーワードは「ユーザ」「インタフェース」
「ユーザインタフェース」、「設定」となる。なお、実
施の形態７では、専門語分割点設定ステップ、字種分割
点設定ステップ、基本語分割点設定ステップ、記号文字
分割点設定ステップの順に分割点の設定処理を行った
が、上記ステップの処理の順番は任意でよい。以上のよ
うに、実施の形態７では、複合語の異表記処理におい
て、複合語を構成する語の間に現れる「・」や「／」を
削除し、専門語格納手段中に格納されている専門語ごと
の異表記に対しても正表記に変換した語をキーワードと
して文書に付与する。検索時にも同じ処理を施すことに
より、複合語の表現形式による異表記と、複合語を構成
する単語ごとの異表記を統一的に扱うことができる。ま
た、検索キーが複合語の組み合わせによって増大するこ
となく、高速な文書検索を行うためのキーワード抽出方
法が実現できる。

【０３１４】実施の形態８.図59は、この発明の請求項
８に係る一実施の形態を示す構成図である。図59におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。5901は一般的で頻度の
高い語の正表記と異表記表現を関連付けて格納した非専
門語異表記格納手段で、図60にその一例を示すように、
正表記と正表記に対応する異表記の集合から構成され
る。5902は専門語格納手段1と非専門語異表記格納手段5
901を検索して、専門語が複合語である場合、複合語を
構成する単語の異表記の組み合わせて、複合語の異表記
を生成する異表記拡充ステップである。

【０３１５】図61は、異表記拡充ステップのサブステッ
プを表した図である。6101は非専門語異表記格納手段59
01を検索して異表記情報を取り出す非専門語異表記格納
手段管理ステップである。6102は専門語格納手段を検索
して異表記情報を取り出す専門語異表記管理ステップで
ある。6103は、処理対象の語が非専門語異表記格納手段
管理ステップ6101及び専門語異表記管理ステップ6102で
検索された単語からなる複合語である場合、複合語を構
成する語に分割する単語分割ステップである。6104は、
単語分割ステップ6103によって分割された語ごとの異表
記の組み合わせから、複合語の異表記を生成する異表記
展開ステップである。6105は、異表記展開ステップ6104
によって生成された異表記の集合のうち、正表記となる
語を定め、見出しと正表記のぺアを作成して専門語格納
手段に格納する格納ステップである。

【０３１６】図62は、この発明の請求項9に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「切り換えボタン」という語に対する処理を説明す
る。まずステップ6201において、単語「切り換えボタ
ン」を取り出す。次にステップ6202において、phに単語
の先頭である「切」を代入し、ptに単語の最後の一つ前
である「タ」を代入する。

【０３１７】次にステップ6203でphからptまでの文字列
である「切り換えボタ」をキーとして、専門語格納手段
1と非専門語異表記格納手段5901を検索する。「切り換
えボタ」が専門語格納手段1及び非専門語異表記格納手
段5901中にないとすると、ステップ6205によってptを１
文字先頭側に移動する。この時点でphはptより先頭側に
あるので、ステップ6206の判定はYとなり、再びステッ
プ6203で、今度は「切り換えボ」について、専門語格納
手段1と非専門語異表記格納手段5901を検索する。

【０３１８】同様の処理を続け、phからptまでの文字列
が「切り換え」となったところで、専門語格納手段1の
見出しに「切り換え」があったとすると、ステップ6204
の判定がYとなり、ステップ6208へ進む。ステップ6208
では、「切り換えボタン」中の「切り換え」の部分を専
門語格納手段1中に存在する全ての「切り換え」の異表
記に置き換える。今、「切り換え」の異表記が「切り替
え」と「切替え」であるとすると、生成される文字列は
「切り換えボタン」「切り替えボタン」「切替えボタ
ン」となる。

【０３１９】次にステップ6209で、phに「ボ」を代入
し、ptに「ン」を代入する。ステップ6210ではphは単語
の範囲内であるので、Yのパスをたどり、ステップ6203
で今度は「ボタン」に対する辞書引きを行う。非専門語
異表記格納手段5901中に「ボタン」があったとすると、
ステップ6204の判定がYとなり、ステップ6208へ進む。
ステップ6208では、「切り換えボタン」「切り替えボタ
ン」「切替えボタン」中の「ボタン」の部分を非専門語
異表記格納手段5901中に存在する全ての「ボタン」の異
表記に置き換える。「ボタン」の異表記が「釦」である
とすると、生成される文字列は「切り換えボタン」「切
り替えボタン」「切替えボタン」「切り換え釦」「切り
替え釦」「切替え釦」となる。

【０３２０】次にステップ6209でphをptの次に設定する
が、phは単語の範囲を超えてしまうので、ステップ6210
の判定はNとなり、ステップ6211に進む。ステップ6211
では、生成された「切り換えボタン」「切り替えボタ
ン」「切替えボタン」「切り換え釦」「切り替え釦」
「切替え釦」の中から正表記表現を1つ定め、見出しと
正表記のペアを生成する。仮に、「切り換え」「切り替
え」「切替え」のグループの正表記が「切り替え」、
「ボタン」「釦」のグループの正表記が「ボタン」であ
ったとすると、正表記同士の組み合わせである「切替え
ボタン」をこの複合語のグループの正表記とする。

【０３２１】図2に示した専門語格納手段1の形式に合わ
せるため、正表記表現である「切り替えボタン」はその
まま、それ以外の「切り換えボタン」「切替えボタン」
「切り換え釦」「切り替え釦」「切替え釦」は、正表記
である「切り替えボタン」をペアとして付加して専門語
格納手段中に格納して処理を終了する。

【０３２２】図63は請求項8の発明による異表記拡充ス
テップ5902のデータの流れの例を異表記拡充ステップ59
02を構成する各サブステップに関連付けて示したもので
ある。

【０３２３】図63において、処理対象語である「切り換
えボタン」6301を単語分割ステップ6103に渡す。専門語
異表記管理ステップ6102及び非専門語異表記格納手段管
理ステップ6301によって「切り換え」6303と「ボタン」
6304が検索されたとすると、単語分割ステップ6103によ
って、「切り換えボタン」は、6305のように「切り換
え」と「ボタン」に展開される。

【０３２４】次に「切り換え」に対する異表記のグルー
プとして、「切り替え」「切り換え」「切替え」が6306
のように検索され、「ボタン」に対する異表記のグルー
プとして「ボタン」「釦」が6307のように検索されたと
すると、それぞれの異表記を組み合わせて、異表記展開
ステップ6104において、異表記の組み合わせの集合6308
が生成される。6308で下線は、複合語を構成する単語の
正表記であるとする。

【０３２５】次に、格納ステップ6105で、正表記の組み
合わせである「切り替えボタン」を複合語の正表記と
し、図2で示した専門語格納手段の形式と合わせるた
め、生成された各複合語に対する正表記としてペアを作
成する。ただし、「切り替えボタン」は正表記であるの
で、ペアにしない。この結果、6309のような形式にし
て、専門語格納手段1に登録する。

【０３２６】なお、格納ステップ6105で専門語格納手段
にこの処理によって生成した語を格納する際に、格納す
べきか否かを人が判定してもよい。以上のように、実施
の形態８では、複合語を構成する語の異表記表現を組み
合わせた語を作成し、作成された異表記表現の集合中の
１つの語を正表記表現と定め、見出しと正表記とを対応
付けて専門語格納手段に格納することにより、専門語格
納手段に専門語として必要な語を登録する支援を行うこ
とによって、検索キーを大量に発生させず、高速な検索
を可能にするキーワード抽出方法が実現できる。

【０３２７】また、本発明の請求項１から請求項９にお
いて、異表記は同義語であってもよい。

【０３２８】

【発明の効果】以上のように、この発明の請求項１によ
れば、専門語を異表記情報と共に格納した専門語格納手
段と、一般的で使用頻度の高い語を格納した基本語格納
手段と、文章を入力する入力手段と、上記入力手段によ
って入力された文章中に、上記専門語格納手段に登録さ
れている専門語が存在する場合、上記文章中でその専門
語の範囲を切り出す専門語分割点設定手段と、上記専門
語分割点設定手段によって切り出された専門語が、他の
語の異表記である場合、上記文章中の専門語の範囲を正
表記に置換する正表記置換手段と、入力された文章中の
字種の違いを検出する字種分割点設定手段と、入力され
た文章中で基本語格納手段中の基本語の範囲を切り出す
基本語分割点設定手段と、上記専門語分割点設定手段、
字種分割点設定手段、及び基本語分割点設定手段によっ
て設定された分割点から部分文字列を網羅的に切り出す
部分文字列切出手段と、上記部分文字列切出手段によっ
て切り出された文字列をキーワードとして出力する出力
手段とを備えた構造にしたので、文書に対する索引を付
与するキーワード抽出処理において、専門語を異表記表
現と共に格納した専門語格納手段を参照し、文書中に現
れる専門語のキーワードは、正表記に変換して文書に付
与する。このとき、正表記に変換した専門語が字種の違
いや基本語によって切り出した文字列と連接する場合
は、複合語となるキーワードも抽出することにより、網
羅的なキーワード抽出を行うことができる。検索時に
は、同じ専門語格納手段を用いて異表記は正表記に変換
して検索することより、従来の異表記に対応した文書検
索のように、検索のキーとなる語の異表記の数が組み合
わせ的に増えることなく、高速な文書検索が可能なキー
ワード抽出装置を提供することができる。

【０３２９】この発明の請求項２によれば、文章を入力
する入力ステップと、上記入力ステップによって入力さ
れた文章中に、専門語を異表記情報と共に格納した専門
語格納手段に登録されている専門語が存在する場合、上
記文章中でその専門語の範囲を切り出す専門語分割点設
定ステップと、上記専門語分割点設定ステップによって
切り出された専門語が、他の語の異表記である場合、上
記文章中の専門語の範囲を正表記に置換する正表記置換
ステップと、入力された文章中の字種の違いを検出する
字種分割点設定ステップと、入力された文章中で一般的
で使用頻度の高い語を格納した基本語格納手段中の基本
語の範囲を切り出す基本語分割点設定ステップと、上記
専門語分割点設定ステップ、字種分割点設定ステップ、
及び基本語分割点設定ステップによって設定された分割
点から部分文字列を網羅的に切り出す部分文字列切出ス
テップと、を備えた構成にしたので、請求項1の発明に
よるキーワード抽出装置の動作を実現する、高速な文書
検索が可能なキーワード抽出方法を提供することができ
る。また、基本語削除ステップを設けることにより、文
書を識別するためのキーワードとして不要な語を削除す
ることができるので、検索ゴミの少ない精度の良いキー
ワード抽出が実現できる。

【０３３０】この発明の請求項３によれば、請求項２に
記載のキーワード抽出方法を構成するステップに加え
て、接頭辞を格納した接頭辞格納手段を用いて入力され
た日本語文章中の接頭辞の範囲を切り出す接頭辞分割点
設定ステップを備え、部分文字列切出ステップは、専門
語分割点設定ステップ、字種分割点設定ステップ、基本
語分割点設定ステップ、及び接頭辞分割点設定ステップ
によって設定された分割点から部分文字列を網羅的に切
り出すので、接頭辞のある／なしと、接頭辞に後接する
語の異表記によって、検索のキーとなる語の異表記の数
が組み合わせ的に増えることなく、高速な文書検索を行
うためのキーワード抽出方法が実現できる。

【０３３１】この発明の請求項４によれば、請求項２ま
たは請求項３に記載のキーワード抽出方法を構成するス
テップに加えて、接尾辞を格納した接尾辞格納手段を用
いて入力された日本語文章中の接尾辞の範囲を切り出す
接尾辞分割点設定ステップを備え、部分文字列切出ステ
ップは、専門語分割点設定ステップ、字種分割点設定ス
テップ、基本語分割点設定ステップ、接頭辞分割点設定
ステップ、及び接尾辞分割点設定ステップによって設定
された分割点から部分文字列を網羅的に切り出すので、
接尾辞のある／なしと、接尾辞に前接する語の異表記に
よって、検索のキーとなる語の異表記の数が組み合わせ
的に増えることなく、高速な文書検索を行うためのキー
ワード抽出方法が実現できる。

【０３３２】この発明の請求項５によれば、請求項２乃
至請求項４の何れかに記載のキーワード抽出方法を構成
するステップに加えて、予め定められた文字列の長さの
範囲から外れる語はキーワード候補から削除する文字数
制限ステップを備えたので、抽出するキーワードの文字
数を一定範囲に限定することができ、さらに異表記は正
表記に変換した語を基に文字数をカウントすることによ
り、異表記間の文字数の違いによって、同じ意味を表す
語であるにもかかわらず、ある語は登録され、他の語は
削除されるという不統一を防ぐことが可能なキーワード
抽出方法が実現できる。

【０３３３】この発明の請求項６によれば、請求項２乃
至請求項５の何れかに記載のキーワード抽出方法を構成
するステップに加えて、キーワード候補として抽出され
た語の出現度数をカウントする頻度集計ステップを備え
たので、異表記は正表記に変換されてキーワードとして
抽出されるため、異表記の関係にある語同士が別の語と
判定されることなく、正確な頻度付きのキーワード抽出
方法が実現できる。

【０３３４】この発明の請求項７によれば、請求項２乃
至請求項６の何れかに記載のキーワード抽出方法を構成
するステップに加えて、予め定められた記号文字が入力
文中現れた場合、その記号文字の範囲を切り出す記号文
字分割点設定ステップと、上記部分文字列切出ステップ
または上記文字数制限ステップによって抽出されたキー
ワード又は改定キーワードの文字として該記号文字が含
まれる場合、上記記号文字分割点設定ステップによって
切り出された記号文字を取り除く記号文字削除ステップ
を備えたので、複合語の異表記処理において、複合語を
構成する語の間に現れる「・」や「／」を削除し、複合
語を構成する語ごとの異表記に対しても正表記に変換し
た語をキーワードとして文書に付与することができる。
検索時にも同じ処理を施すことにより、複合語の表現形
式による異表記と、複合語を構成する単語ごとの異表記
を統一的に扱うことができる。また、検索キーが複合語
の組み合わせによって増大することなく、高速な文書検
索を行うためのキーワード抽出方法が実現できる。

【０３３５】この発明の請求項８によれば、請求項２乃
至請求項７の何れかに記載のキーワード抽出方法を構成
するステップに加えて、一般的で使用頻度の高い語の異
表記表現を格納した非専門語異表記格納手段に登録され
ている異表記表現と上記専門語格納手段に登録されてい
る異表記表現を用いて、専門語が複合語である場合には
複合語を構成する部分文字列に分解する単語分割ステッ
プと、部分文字列の異表記表現を組み合わせて複合語の
異表記を生成する異表記展開ステップと、生成された異
表記を正表記との対応をとって専門語格納手段に登録す
る格納ステップを備えた異表記拡充ステップを備えたの
で、複合語に対し複合語を構成する語の異表記表現を組
み合わせた語を作成し、作成された異表記表現の集合中
の1つの語を正表記表現と定め、見出しと正表記とを対
応付けて専門語格納手段に格納することにより、専門語
格納手段に専門語として必要な語を登録する支援を行う
ことによって、検索キーを大量に発生させず、高速な検
索を可能にするキーワード抽出方法が実現できる。

【０３３６】この発明の請求項９によれば、日本語文章
を入力する入力手順と、上記入力手順によって入力され
た日本語文章中に、専門語を異表記情報と共に格納した
専門語格納手段に登録されている専門語が存在する場
合、上記日本語文章中でその専門語の範囲を切り出す専
門語分割点設定手順と、上記専門語分割点設定ステップ
によって切り出された専門語が、他の語の異表記である
場合、上記日本語文章中の専門語の範囲を正表記に置換
する正表記置換手順と、入力された日本語文章中の字種
の違いを検出する字種分割点設定手順と、入力された日
本語文章中で一般的で使用頻度の高い語を格納した基本
語格納手段中の基本語の範囲を切り出す基本語分割点設
定手順と、上記専門語分割点設定手順、字種分割点設定
手順、及び基本語分割点設定手順によって設定された分
割点から部分文字列を網羅的に切り出す部分文字列切出
手順と、を備えた構造にしたので、高速な文書検索が可
能なキーワード抽出処理をコンピュータに実行させる請
求項２のキーワード抽出方法のプログラムを記録したコ
ンピュータ読み取り可能な記録媒体を提供することがで
きる。

【図面の簡単な説明】

【図１】この発明の実施の形態１によるキーワード抽
出装置の全体の構成図である。

【図２】この発明で用いられる専門語格納手段の一例
を示す図である。

【図３】この発明で用いられる基本語格納手段の一例
を示す図である。

【図４】この発明で用いられる有効品詞後接平仮名文
字列格納手段の一例を示す図である。

【図５】この発明の実施の形態１によるキーワード抽
出方法のデータの流れを各ステップに対応付けて表した
図である。

【図６】この発明の実施の形態１によるキーワード抽
出方法の動作を示すフローチャート図である。

【図７】この発明による専門語分割点を設定する処理
の動作を示すフローチャート図である。

【図８】この発明の専門語分割点を設定する処理にお
ける、処理対象文字列の例の状態を表した図である。

【図９】この発明の処理対象文字列の例に対する処理
の途中段階の状態を表した図である。

【図１０】この発明の専門語分割点を設定する処理に
おける、処理対象文字列の例の状態を表した図である。

【図１１】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図１２】この発明による有効文字列を取り出す動作
を示すフローチャート図である。

【図１３】この発明による字種分割点を設定する処理
の動作を示すフローチャート図である。

【図１４】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図１５】この発明による基本語分割点を設定する処
理の動作を示すフローチャート図である。

【図１６】この発明による有効文字列から専門語を含
んでいない範囲の区切りを取り出す動作を示すフローチ
ャート図である。

【図１７】この発明による有効品詞の判定をする処理
の動作を示すフローチャート図である。

【図１８】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図１９】この発明によるキーワード候補を取り出す
処理の動作を示すフローチャート図である。

【図２０】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図２１】この発明の基本語分割点を設定する処理に
おける、処理対象文字列の例の状態を表した図である。

【図２２】この発明の基本語分割点を設定する処理に
おける、処理対象文字列の例の状態を表した図である。

【図２３】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図２４】この発明の実施の形態１によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。

【図２５】この発明の実施の形態２によるキーワード
抽出方法の全体の構成図である。

【図２６】この発明の実施の形態２によるキーワード
抽出方法の動作を示すフローチャート図である。

【図２７】この発明による基本語削除処理の動作を示
すフローチャート図である。

【図２８】この発明の実施の形態２によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。

【図２９】この発明の実施の形態３によるキーワード
抽出方法の全体の構成図である。

【図３０】この発明で用いられる接頭辞格納手段の内
容の一例を示す図である。

【図３１】この発明の実施の形態３によるキーワード
抽出方法の動作を示すフローチャート図である。

【図３２】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図３３】この発明による接頭辞分割点を設定する処
理の動作を示すフローチャート図である。

【図３４】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図３５】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図３６】この発明の実施の形態３によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。

【図３７】この発明の実施の形態４によるキーワード
抽出方法の全体の構成図である。

【図３８】この発明で用いられる接尾辞格納手段の内
容の一例を示す図である。

【図３９】この発明の実施の形態４によるキーワード
抽出方法の動作を示すフローチャート図である。

【図４０】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図４１】この発明による接尾辞分割点を設定する処
理の動作を示すフローチャートである。

【図４２】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図４３】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図４４】この発明の実施の形態４によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。

【図４５】この発明の実施の形態５によるキーワード
抽出方法の全体の構成図である。

【図４６】この発明の実施の形態５によるキーワード
抽出方法の動作を示すフローチャート図である。

【図４７】この発明による文字数制限処理の動作を示
すフローチャート図である。

【図４８】この発明の実施の形態５によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。

【図４９】この発明の実施の形態６によるキーワード
抽出方法の全体の構成図である。

【図５０】この発明の実施の形態６によるキーワード
抽出方法の動作を示すフローチャート図である。

【図５１】この発明による頻度集計処理の動作を示す
フローチャート図である。

【図５２】この発明の実施の形態６によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。

【図５３】この発明の実施の形態７によるキーワード
抽出方法の全体の構成図である。

【図５４】この発明の実施の形態７によるキーワード
抽出方法の動作を示すフローチャート図である。

【図５５】この発明による記号文字分割点を設定する
処理の動作を示すフローチャート図である。

【図５６】この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。

【図５７】この発明による記号文字削除処理の動作を
示すフローチャート図である。

【図５８】この発明の実施の形態７によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。

【図５９】この発明の異表記拡充ステップとキーワー
ド抽出方法の関係を表す構成図である。

【図６０】この発明で用いられる非専門語異表記格納
手段の一例を示す図である。

【図６１】この発明の異表記拡充ステップの構成を表
す図である。

【図６２】この発明の異表記拡充ステップの動作を示
すフローチャート図である。

【図６３】この発明の異表記拡充ステップのデータの
流れの例を各サブステップに対応付けて表した図であ
る。

【図６４】従来のキーワード抽出法式の構成図であ
る。

【図６５】従来の文書検索方法の構成図である。

【図６６】従来の文書検索方法における処理の流れの
一部を示すフローチャート図である。

【図６７】従来の文字列検索のための異表記及び同義
語展開方法の構成図である。

【図６８】従来の異表記及び同義語展開処理の概略を
示す図である。

【符号の説明】

1：専門語格納手段、2：基本語格納手段、3：有効品詞
後接平仮名文字列格納手段、4：入力ステップ、5：専門
語格納手段管理ステップ、6：専門語分割点設定ステッ
プ、7：正表記置換ステップ、8：有効文字列切出ステッ
プ、9：字種分割点設定ステップ、10：基本語格納手段
管理ステップ、11：基本語分割点設定ステップ、12：有
効品詞後接平仮名文字列格納手段管理ステップ、13：有
効品詞判定ステップ、14：部分文字列切出ステップ、10
4：入力手段、105：専門語格納手段管理手段、106：専
門語分割点設定手段、107：正表記置換手段、108：有効
文字列切出手段、109：字種分割点設定手段、110：基本
語格納手段管理手段、111：基本語分割点設定手段、11
2：有効品詞後接平仮名文字列格納手段管理手段、113：
有効品詞判定手段、114：部分文列切出手段、115：制御
部、116：出力手段、2501：接頭辞格納手段、2502：接
頭辞格納手段管理ステップ、2503：接頭辞分割点設定ス
テップ、3301：接尾辞格納手段、3302：接尾辞格納手段
管理ステップ、3303：接尾辞分割点設定ステップ、410
1：基本語削除ステップ、4501：文字数制限ステップ、4
901：頻度集計ステップ、5301：記号文字分割点設定ス
テップ、5302：記号文字削除ステップ、5901：非専門語
異表記格納手段、5902：異表記拡充ステップ、6101：非
専門語異表記格納手段管理ステップ、6102：専門語異表
記管理ステップ、6103：単語分割ステップ、6104：異表
記展開ステップ、6105：格納ステップ

Claims

【特許請求の範囲】

【請求項１】正表記と異表記とを共に表記した専門語
が格納された専門語格納手段と、一般的で使用頻度の高い語が基本語として格納された基
本語格納手段と、文章を入力する入力手段と、上記入力手段によって入力された文章中に、上記専門語
格納手段に登録された専門語が存在する場合、上記文章
中でその専門語の範囲を切り出す専門語分割点設定手段
と、上記専門語分割点設定手段によって切り出された専門語
が、異表記である場合、正表記に置換する正表記置換手
段と、入力された文章中の字種の違いを検出する字種分割点設
定手段と、入力された文章中で基本語格納手段中の基本語の範囲を
切り出す基本語分割点設定手段と、上記専門語分割点設定手段と字種分割点設定手段及び基
本語分割点設定手段によって設定された分割点から部分
文字列を切り出す部分文字列切出手段と、上記部分文字列切出手段によって切り出された文字列を
キーワードとして出力する出力手段とを備えたキーワー
ド抽出装置。
【請求項２】文章を入力する入力ステップと、上記入力ステップによって入力された文章中に、正表記
と異表記とが共に表記された専門語が格納された専門語
格納手段中の専門語が存在する場合、上記文章中でその
専門語の範囲を切り出す専門語分割点設定ステップと、上記専門語分割点設定ステップによって切り出された専
門語が、異表記である場合、上記文章中の専門語の範囲
を正表記に置換する正表記置換ステップと、入力された文章中の字種の違いを検出する字種分割点設
定ステップと、入力された文章中に、一般的で使用頻度の高い語を基本
語として格納した基本語格納手段中の基本語が存在する
場合、上記文章中でその範囲を切り出す基本語分割点設
定ステップと、上記専門語分割点設定ステップと字種分割点設定ステッ
プ及び基本語分割点設定ステップによって設定された分
割点から部分文字列を切り出し、キーワードとする部分
文字列切出ステップとを備えたキーワード抽出方法。
【請求項３】上記入力ステップで入力された文章が日
本語の場合、接頭辞を格納した接頭辞格納手段を用いて
日本語文章中の接頭辞の範囲を切り出す接頭辞分割点設
定ステップを備え、上記部分文字列切出ステップは、専門語分割点設定ステ
ップ、字種分割点設定ステップ、基本語分割点設定ステ
ップ、及び接頭辞分割点設定ステップによって設定され
た分割点から部分文字列を切り出し、キーワードとする
請求項２記載のキーワード抽出方法。
【請求項４】上記入力ステップで入力された文章が日
本語の場合、接尾辞を格納した接尾辞格納手段を用いて
入力された日本語文章中の接尾辞の範囲を切り出す接尾
辞分割点設定ステップを備え、上記部分文字列切出ステップは、専門語分割点設定ステ
ップ、字種分割点設定ステップ、基本語分割点設定ステ
ップ、接頭辞分割点設定ステップ、及び接尾辞分割点設
定ステップによって設定された分割点から部分文字列を
網羅的に切り出し、キーワードとする請求項２または請
求項３記載のキーワード抽出方法。
【請求項５】上記部分文字列切出ステップによって抽
出されたキーワードから予め定められた文字列の長さの
範囲から外れる語を削除し改定キーワードとする文字数
制限ステップを備えた請求項２乃至請求項４の何れかに
記載のキーワード抽出方法。
【請求項６】上記部分文字列切出ステップまたは上記
文字数制限ステップによって抽出されたキーワード又は
改定キーワードの出現度数をカウントする頻度集計ステ
ップを備えた請求項２乃至請求項５の何れかに記載のキ
ーワード抽出方法。
【請求項７】予め定められた記号文字が入力文中に現
れた場合、その記号文字を切り出す記号文字分割点設定
ステップと、上記部分文字列切出ステップまたは上記文字数制限ステ
ップによって抽出されたキーワード又は改定キーワード
の文字として該記号文字が含まれる場合、上記記号文字
分割点設定ステップによって切り出された記号文字を取
り除く記号文字削除ステップを備えた請求項２乃至請求
項６の何れかに記載のキーワード抽出方法。
【請求項８】一般的で使用頻度の高い語の異表記表現
を格納した非専門語異表記格納手段に登録されている異
表記表現と上記専門語格納手段に登録されている異表記
表現を用いて、専門語が複合語である場合には複合語を構成する部分文
字列に分解する単語分割ステップと、部分文字列の異表記表現を組み合わせて複合語の異表記
を生成する異表記展開ステップと、生成された異表記を正表記との対応をとって専門語格納
手段に登録する格納ステップを備えた異表記拡充ステッ
プによって作成された専門語格納手段を用いる請求項２
乃至請求項７の何れかに記載のキーワード抽出方法。
【請求項９】文章を入力する入力手順と、上記入力手順によって入力された文章中に、正表記と異
表記とが共に表記された専門語が格納された専門語格納
手段中の専門語が存在する場合、上記文章中でその専門
語の範囲を切り出す専門語分割点設定手順と、上記専門語分割点設定手順によって切り出された専門語
が、異表記である場合、上記文章中の専門語の範囲を正
表記に置換する正表記置換手順と、入力された文章中の字種の違いを検出する字種分割点設
定手順と、入力された文章中で一般的で使用頻度の高い語を基本語
として格納した基本語格納手段中の基本語の範囲を切り
出す基本語分割点設定手順と、上記専門語分割点設定手順、字種分割点設定手順、及び
基本語分割点設定手順によって設定された分割点から部
分文字列を網羅的に切り出す部分文字列切出手順と、を備えたキーワード抽出処理をコンピュータに実行させ
るプログラムを記録したコンピュータ読み取り可能な記
録媒体。