JPH1153384A - キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 - Google Patents

キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH1153384A
JPH1153384A JP9210252A JP21025297A JPH1153384A JP H1153384 A JPH1153384 A JP H1153384A JP 9210252 A JP9210252 A JP 9210252A JP 21025297 A JP21025297 A JP 21025297A JP H1153384 A JPH1153384 A JP H1153384A
Authority
JP
Japan
Prior art keywords
division point
character string
word
keyword
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP9210252A
Other languages
English (en)
Inventor
Yamahiko Ito
山彦 伊藤
泰博 ▲高▼山
Yasuhiro Takayama
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP9210252A priority Critical patent/JPH1153384A/ja
Priority to US09/123,809 priority patent/US6173251B1/en
Publication of JPH1153384A publication Critical patent/JPH1153384A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 従来の自動キーワード抽出は、処理対象文中
の文字列をそのままキーワードとして文書に索引づけす
るため、異表記に対処した検索が不可能である。 【解決手段】 正表記と異表記を共に表記した専門語が
格納された専門語格納手段と一般的で使用頻度の高い基
本語が格納された基本語格納手段を備え、専門語分割点
設定手段で入力文章中の、専門語格納手段にある専門語
の範囲を切り出し、この専門語が、異表記の場合、正表
記置換手段で正表記に置換し、字種分割点設定手段で、
入力文章中の字種の違いを検出し、基本語分割点設定手
段で入力された文章中で基本語格納手段中の基本語の範
囲を切り出し、専門語分割点設定手段と字種分割点設定
手段及び基本語分割点設定手段によって設定された分割
点から部分文字列をキーワードとして切り出す部分文字
列切出手段を備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、自然言語の文書
を検索するシステムにおいて、予め文書から自動的にキ
ーワードを抽出してキーワードによる文書の索引を生成
するとともに、検索時に入力文からキーワードを抽出
し、キーワードの照合を行って文書を検索するためのキ
ーワード抽出装置及びキーワード抽出方法及びキーワー
ド抽出プログラムを格納したコンピュータ読み取り可能
な記録媒体に関するものである。
【0002】
【従来の技術】従来より電子化された文書を検索する方
法として、文書の索引としてキーワードを予め付与して
おき、検索時に指定したキーワードを文書に付与したキ
ーワードと照合して、文書を検索する方法があった。こ
の方法では、キーワードを人手で付与する手間が大きい
ことと、索引を作成する人が付与するキーワードと検索
する人が指定するキーワードが異なった場合に検索でき
ないことが問題である。
【0003】キーワードを付与する手間を軽減するた
め、電子化された文書から自動的にキーワードを抽出す
る手法が提案されている。
【0004】図64は例えば特開平8-30627号公報に示さ
れた従来のキーワード抽出方式を示す構成図である。図
64において、6401は字種判別部であり、入力されたテキ
ストの各文字の字種を判別し、字種記憶手段6402に渡
す。字種記憶手段6402は字種判別部6401が判別したテキ
ストの各文字の位置とその文字の字種との対応を記憶す
る。6403は有効字種文字列切出部であり、字種記憶手段
6402が記憶した情報を元に片仮名、漢字、アルファベッ
ト、数字の4種類の有効な字種が続く限り長い有効字種
文字列を全て切り出す。
【0005】6406は字種境界判別部であり、字種記憶手
段6402に記憶した情報を元に、全ての有効字種文字列の
字種の全ての変わり目の位置を判別し、字種分割点記憶
手段6407に渡す。字種分割点記憶手段6407は、字種境界
判別部6406で判別した全ての字種の変わり目の位置を記
憶する。
【0006】6409は接辞格納手段であり、使用頻度の高
い接辞を格納している。6410は接辞判別部であり、文字
列中の全ての接辞を判別し、接辞分割点記憶手段6411に
渡す。接辞分割点記憶手段6411は、接辞判別部6410が判
別した接辞の前後の位置を接辞分割点として記憶する。
【0007】6413は基本語格納手段であり、使用頻度の
高い名詞を基本語として格納している。6414は基本語判
別部であり、文字列中の全ての基本語を判別し、基本語
分割点記憶手段6415に渡す。基本語分割点記憶手段6415
は、基本語判別部6414が判別した基本語の前後の位置を
基本語分割点として記憶する。
【0008】6412は部分文字列切出部であり、字種分割
点記憶手段6407が記憶した字種分割点、接辞分割点記憶
手段6411が記憶した接辞分割点、または基本語分割点記
憶手段6415が記憶した基本語分割点によって部分文字列
を切り出す。
【0009】6404は名詞判別部であり、有効字種文字列
切出部6403が切り出した各有効字種文字列に後接する文
字が平仮名である場合に、名詞後接平仮名格納手段6405
に格納されている平仮名文字列と比較を行い、後接する
平仮名の先頭部分が名詞後接平仮名格納手段6405に格納
されている平仮名文字列のうちの何れとも一致しないと
きに、その有効字種文字列を削除する。
【0010】6416は基本語削除部であり、基本語格納手
段6413に格納されている基本語の何れかと一致する部分
文字列を削除する。
【0011】6417は必要キーワード格納手段であり、予
め指定されたキーワード文字列を格納する。6418は必要
キーワード切出部であり、必要キーワード格納手段6417
に格納された文字列と一致する文字列がテキスト中に現
れた場合に、これを全て切り出して、キーワードに加え
る。
【0012】次に動作について説明する。例として「お
絵書きモード」というテキストが入力された場合につい
て説明する。
【0013】まず、字種判別部6401が入力テキストの各
文字の字種を判別し、1文字目は平仮名、2文字目は漢
字、3文字目は漢字、4文字目は平仮名というように、
文字位置と字種との対応を字種記憶手段6402が記憶す
る。
【0014】次に、有効字種文字列切出部6403が「絵
書」と「モード」を切り出す。次に、「絵書」と「モー
ド」は文字列内に字種の違いが存在しないので、字種分
割点記憶手段に字種分割点を記憶しない。次に、「絵
書」と「モード」の部分文字列に接辞が含まれていない
ので、接辞分割点記憶手段6411に接辞分割点を記憶しな
い。次に、「絵書」と「モード」の部分文字列に基本語
が含まれていないので基本語分割点記憶手段6415は基本
語分割点を記憶しない。
【0015】次に、部分文字列切出部6412において、
「絵書」と「モード」には、字種分割点、接辞分割点、
基本語分割点がないため、結果的に、「絵書」と「モー
ド」2つの部分文字列が切り出される。
【0016】次に、名詞判別部6404において「絵書」に
後接する平仮名「き」は名詞後接平仮名格納手段6405に
格納されていないため、「絵書」が削除される。さらに
名詞判別部6404において「モード」には後接する平仮名
がないため削除されない。次に、基本語削除部6416にお
いて基本語格納手段6413に格納されている基本語を削除
するが、ここで「モード」が基本語でないとすれば「モ
ード」は削除されない。
【0017】次に、必要キーワード判別部6418が必要キ
ーワード格納手段6417に格納されている「お絵書き」を
テキスト「お絵書きモード」から切り出し、キーワード
に追加する。最後に、「お絵書き」、「モード」が出力
される。
【0018】検索時には、「お絵書き」または「モー
ド」を検索キーとして指定すると元の「お絵書きモー
ド」というテキストを含む文書が検索される。
【0019】特開平8-30627号公報に示されたキーワー
ド抽出方式は以上のように構成されているので、検索時
には、キーワードとして指定した文字列と文書に付与さ
れるキーワードが完全に一致した場合のみ検索が可能で
ある。しかし検索においては、異表記を考慮しなければ
ならない場合が生じる。例えば検索時に「お絵書き」で
はなく「お絵描き」と検索キーを指定するかもしれな
い。特開平8-30627号公報に示されたキーワード抽出方
式では、文字列が正確に一致していないと検索できない
ことが問題点である。
【0020】異表記の問題に対処する方法として、特開
平8-137892号公報の文書検索方法及び文書検索装置が提
案されている。特開平8-137892では、検索時に指定する
文字列が複合語である場合、複合語を構成する単語に分
割し、同義語辞書を利用して、分割した単語ごとの同義
語を組み合わせて複合語に対する同義語表現を生成す
る。
【0021】図65は特開平8-137892号公報に示された従
来の文書検索方法及び文書検索装置を示す構成図であ
る。図65において、6501はCPUやメモリから構成される
制御装置、6502はユーザがキーボードやマウス等によっ
て検索キーワードを入力したり検索操作を行うための入
力装置、6503は入力装置6502によって入力された検索キ
ーワード、検索操作、及び検索結果を表示する表示装
置、6504は検索対象のデータを格納する外部記憶装置、
6505は検索キーワードの同義語情報が格納されている同
義語辞書、6506は検索キーワードを格納した分割辞書で
あり、検索に指定した文字列は、分割辞書に登録されて
いる語に従って分割される。
【0022】次に動作について説明する。図66は、特開
平8-137892号公報の処理の流れを示すフロー図である。
例として「文書検索*ワークステーション」(「*」は論
理積を示す)を検索式として指定する場合について説明
する。分割辞書には「文書」および「検索」が登録され
ているとする。同義語辞書には、「文書」と「テキス
ト」が同義語であり、「検索」と「サーチ」が同義語で
あり、「ワークステーション」と「WS」が同義語である
という情報が格納されているとする。
【0023】ステップ6612で同義語辞書を使用するか否
かを設定する「同義語辞書使用フラグバッファ」の値を
チェックするが、ここでは「使用する」という設定であ
るとし、Yのパスをたどる。
【0024】次にステップ6613で、検索式を検索対象文
字列と論理式とに分割する。次にステップ6614で、検索
対象文字列を、分割辞書中の語と比較してキーワード分
割する。次にステップ6615で、分割されたキーワードに
対応している同義語を同義語辞書から抽出する。
【0025】ステップ6616では全てのキーワードに対す
る処理が終了したかを判定し、終了するまでステップ66
14とステップ6615の処理を繰り返す。
【0026】次にステップ6617で、分割されたキーワー
ドに対応する同義語を結合して検索キーワードを生成す
る。
【0027】次にステップ6618で、生成された検索キー
ワードを論理和(「+」)で結合する。この結果、ステッ
プ6619において「文書検索」に対しては、「(文書検索+
テキスト検索+文書サーチ+テキストサーチ)」という検
索式が生成される。
【0028】次にステップ6620で、論理式格納バッファ
が空であるか否かをチェックし、次の検索対象文字列で
ある「ワークステーション」に対して、ステップ6614に
戻って同様の処理を行う。
【0029】ステップ6619で「ワークステーション」に
対しては、「(ワークステーション+WS)」という検索式
が生成される。
【0030】ステップ6620で、論理式格納バッファが空
であるか否かをチェックするが、これ以上処理対象の検
索対象文字列が存在しないので、Yのパスをたどる。こ
の結果、指定された「文書検索*ワークステーション」
という検索式に対しては、「(文書検索+テキスト検索+
文書サーチ+テキストサーチ)*(ワークステーション+W
S)」が、実際に検索を行うときの検索式として生成され
る。
【0031】特開平8-137892号公報の文書検索方法及び
文書検索装置は、異表記の組み合わせ全ての文字列に対
して検索を行うので、組み合わせの数が多くなると、検
索に多大な時間を要するという問題点がある。
【0032】異表記表現生成における他の従来技術とし
ては特開平3-15980号公報に示されるような異表記及び
同義語展開方法が提案されている。
【0033】図67は特開平3-15980号公報に示される文
字列検索のための異表記及び同義語展開方法の構成図で
ある。図67において、6711と6713は、入力文字列中の該
当文字列を他の文字列に置き換えることを指示した変換
ルールを蓄えた変換ルールテーブル、6712は表記が異な
り同じ意味を持つ語を集めた同義語辞書である。6700は
キーボード、6701と6703は、変換ルールテーブル6711と
6713を用いて表記法の異なる文字列に展開する異表記展
開処理、6702は、同義語辞書6712を用いて他の文字列へ
展開する同義語展開処理である。
【0034】次に、異表記及び同義語展開処理の概略を
図68に示す。ユーザが指定した文字列6801は一旦異表記
展開し、その展開した文字列群6802に対して、次に同義
語辞書6810を用いて同義語展開する。その後、この同義
語展開で得られた文字列6803に対して、さらに異表記展
開し、最終の展開結果として、文字列群6804を得る。図
68の例は、変換ルールテーブルには、「フォー」を
「ホ」に変換するルールと「型」を「形」に変換するル
ールが蓄えられており、同義語辞書には、「インタフォ
ーン」と「通話装置」が同義であるという情報が蓄えら
れているとき、ユーザが「卓上型インタフォーン」とい
う文字列を指定した場合の例である。
【0035】特開平3-15980号公報では以上のような処
理によって異表記表現や同義語表現を展開して検索漏れ
を防ぐが、このように網羅的に語に異表記表現を生成す
る方法では、1語マッチするか否かを判定するために、
上記の処理によって生成された異表記表現全てに対して
照合を試みる必要がある。
【0036】
【発明が解決しようとする課題】従来の文書検索を行う
ためのキーワード抽出方法は、以上のように構成されて
いたので、以下の問題点があった。
【0037】第1に、従来の自動キーワード抽出処理で
は、特開平8-30627号公報のように処理対象文中に現れ
た文字列をそのまま切り出してキーワードとし、文書に
索引づけしていた。そのため、表記の違いに対処した検
索が不可能であった。
【0038】これに対して表記の違いに対処した検索を
行う技術として特開平8-137892号公報や特開平3-15980
号公報があるが、これによると、検索のために指定した
語を構成する語や文字列の異表記の組み合わせ全てに対
して照合を行うことを必要とし、検索処理に多大な時間
がかかるという問題点があった。
【0039】例えば、「サーバ」には「サーバー」とい
う異表記が存在し、「切り替え」には「切り換え」「切
替え」「切換え」という異表記が存在する場合、「サー
バ切り替え」というキーワードに対しては、「サーバ切
り替え」「サーバ切り換え」「サーバ切替え」「サーバ
切換え」「サーバー切り替え」「サーバー切り換え」
「サーバー切替え」「サーバー切換え」という8つのキ
ーワードを生成して照合していた。
【0040】第2に、接頭辞に後接する語に異表記が存
在する場合に、接頭辞のある/なしと、接頭辞に後接す
る語の異表記の組み合わせを生成し、全ての組み合わせ
に対して照合を行う必要があった。
【0041】例えば、「切り替え」に対して「切り換
え」「切替え」「切換え」という3つの異表記が存在す
る場合、「全切り替え」というキーワードに対しては、
「全切り替え」「全切り換え」「全切替え」「全切換
え」「切り替え」「切り換え」「切替え」「切換え」と
いう8つのキーワードを生成して照合する必要があっ
た。これら生成したキーワード全てに対して照合を行う
ため、検索処理に多大な時間がかかるという問題点があ
った。
【0042】第3に、接尾辞に前接する語に異表記が存
在する場合に、接尾辞のある/なしと、接尾辞に前接す
る語の異表記の組み合わせを生成し、全ての組み合わせ
に対して照合を行う必要があった。
【0043】例えば、「切り替え」に対して「切り換
え」「切替え」「切換え」という3つの異表記が存在す
る場合、「切り替え後」というキーワードに対しては、
「切り替え後」「切り換え後」「切替え後」「切換え
後」「切り替え」「切り換え」「切替え」「切換え」と
いう8つのキーワードを生成して照合する必要があっ
た。これら生成したキーワード全てに対して照合を行う
ため、検索処理に多大な時間がかかるという問題点があ
った。
【0044】第4に、従来の特開平8-30627号公報のよ
うなキーワード抽出処理は、キーワードの長さに制限を
設け、制限に合わないものを削除していた。しかし、特
開平8-30627号公報の方法では、同じ意味を表すキーワ
ードでも、異表記の長さに違いがある場合、あるキーワ
ードは抽出され他のキーワードは削除されるという、不
統一を招くことがある。
【0045】例えば、「コンピュータ」と「コンピュー
ター」が異表記として登録されており、キーワードの長
さの制限を15文字未満とした場合、「コンピュータアー
キテクチャー」はキーワードとして抽出されるが、「コ
ンピューターアーキテクチャー」は削除される。
【0046】特開平8-137892号公報と同様に複合語の組
み合わせを生成して、異表記に対処した検索を行った場
合、同じ検索キーを指定しても、「コンピュータアーキ
テクチャー」を含んだ文書は検索されるが、「コンピュ
ーターアーキテクチャー」を含んだ文書は検索されな
い、という不統一を招くという問題点があった。
【0047】第5に、従来の特開平8-30627号公報のキ
ーワード抽出処理では、処理対象文中に現れた文字列を
そのまま切り出してキーワードとしていたために、異表
記関係にある語が別の語として抽出されていた。そのた
め、異表記関係にある語に対しては、キーワードの重み
づけ処理等のための正確な頻度集計ができないという問
題点があった。
【0048】第6に、例えば「ユーザ・インタフェー
ス」などの複合語においては、複合語を構成する語であ
る「ユーザ」「インタフェース」それぞれに対する異表
記の他に、「ユーザ・インタフェース」と「ユーザイン
タフェース」のように、複合語を構成する語の間に、
「・」や「/」などの記号文字が入る場合があり、これ
らの複合語の表現形式を統一する必要がある。
【0049】従来の特開平8-30627号公報のキーワード
抽出処理では、「・」や「/」を削除して、複合語の表
現形式を統一する方法が開示されているが、前述したよ
うに単語ごとの異表記を取り扱うことができない。ま
た、従来の特開平8-137892号公報や特開平3-15980号公
報によると、単語ごとの異表記の組み合わせを生成する
方法が開示されているが、複合語の表現形式を統一する
処理には対処できない。上記技術を組み合わせても、複
合語を構成する語の異表記の組み合わせ全てに対して照
合を行うことを必要とし、検索処理に多大な時間がかか
るという問題点は残る。
【0050】例えば「ユーザ」に「ユーザー」という異
表記があり、「インタフェース」に「インタフェイス」
という異表記がある場合、上記の技術を組み合わせて
も、「ユーザ・インタフェース」に対して生成される異
表記は、「ユーザインタフェース」「ユーザインタフェ
イス」「ユーザーインタフェース」「ユーザーインタフ
ェイス」の4つとなる。これら全ての異表記に対して照
合を行う必要があるという問題点があった。
【0051】第7に、特開平3-15980号公報や特開平8-1
37892号公報では、単語や文字列ごとの異表記の組み合
わせによって、検索時に検索キーの異表記を生成してい
た。これが検索キーを大量に生成して、検索時の速度低
下を招く原因となっていた。
【0052】また、従来の特開平3-15980号公報や特開
平8-137892号公報では、特に短い語を置換する際には、
不適切な検索キーを発生させる可能性がある。例えば、
特開平3-15980号公報では、「インタフォーン」の異表
記を生成するために、「タ」と「ター」が異表記である
というルールを保有しており、「インタフォーン」は
「インターフォーン」と異表記を生成する。しかし
「タ」と「ター」が異表記であるというルールは「イン
タフォーン」には適用できるが、例えば「タクシー」に
は適用できない。このため、異表記の置換を行うための
異表記辞書の情報には、短い語を避け、複合語のような
ある程度長い語を格納したいという要求が生じる。従来
このような要求に対して異表記辞書の構築を支援する技
術がなく、検索キーを大量に発生させてしまうため、高
速な文書検索を実現するためのキーワード抽出方法が実
現できないという問題点があった。
【0053】この発明は上記のような問題点を解決する
ためになされたものであり、文書に対する索引を付与す
るキーワード抽出処理において、専門語を異表記表現と
共に格納した専門語格納手段を参照し、日本語文書中に
現れる専門語のキーワードは、正表記に変換して文書に
付与する。検索時にも、同じ専門語格納手段を用いて異
表記は正表記に変換して照合することより、従来の異表
記に対応した文書検索方法のように、検索のキーとなる
語の異表記の数が組み合わせ的に増えることなく、高速
な文書検索を行うためのキーワード抽出の実現を目的と
する。
【0054】また、接頭辞に後接する専門語に異表記が
ある場合には、専門語を正表記に変換して文書に付与す
る。検索時にも、異表記は正表記に変換して照合するこ
とにより、接頭辞のある/なしと、接頭辞に後接する語
の異表記によって、検索のキーとなる語の異表記の数が
組み合わせ的に増えることなく、高速な文書検索を行う
ためのキーワード抽出の実現を目的とする。
【0055】また、接尾辞に前接する専門語に異表記が
ある場合には、専門語を正表記に変換して文書に付与す
る。検索時にも、異表記は正表記に変換して照合するこ
とにより、接尾辞のある/なしと、接尾辞に前接する語
の異表記によって、検索のキーとなる語の異表記の数が
組み合わせ的に増えることなく、高速な文書検索を行う
ためのキーワード抽出の実現を目的とする。
【0056】また、抽出するキーワードに長さの制限を
加える際には、異表記は正表記に変換した語を基に文字
数をカウントすることにより、同じ意味を表す語である
にもかかわらず、異表記間の文字数の違いによって、あ
る語は登録され、他の語は削除されるという不統一を防
ぐキーワード抽出の実現を目的とする。
【0057】また、異表記は正表記に変換されてキーワ
ードとして抽出されるため、異表記の関係にある語同士
が別の語と判定されることなく、正確な頻度付きのキー
ワード抽出の実現を目的とする。
【0058】また、複合語の異表記処理においては、複
合語を構成する語の間に現れる「・」や「/」を削除
し、さらに複合語を構成する語ごとの異表記に対しても
正表記に変換した語をキーワードとして文書に付与す
る。検索時にも同じ処理を施すので、複合語の表現形式
による異表記と、複合語を構成する単語ごとの異表記を
統一的に扱い、さらに、検索キーが複合語の組み合わせ
によって増大することなく、高速な文書検索を行うため
のキーワード抽出の実現を目的とする。
【0059】また、この発明によるキーワード抽出方法
で用いる専門語格納手段に登録する語を拡充するため
に、一般的で使用頻度の高い語の異表記表現と、専門語
格納手段に格納されている異表記表現を元に、複合語に
対し複合語を構成する語の異表記表現を組み合わせた語
を作成する。作成された異表記表現の集合中の1つの語
を正表記表現と定め見出しと正表記とを対応付けて、専
門語として必要な語を専門語格納手段に格納する支援を
行うことによって、検索キーを大量に発生させず、高速
な文書検索を可能とするキーワード抽出の実現を目的と
する。
【0060】
【課題を解決するための手段】この発明に係る請求項1
のキーワード抽出装置は、正表記と異表記とを共に表記
した専門語が格納された専門語格納手段と、一般的で使
用頻度の高い語が基本語として格納された基本語格納手
段と、文章を入力する入力手段と、上記入力手段によっ
て入力された文章中に、上記専門語格納手段に登録され
た専門語が存在する場合、上記文章中でその専門語の範
囲を切り出す専門語分割点設定手段と、上記専門語分割
点設定手段によって切り出された専門語が、異表記であ
る場合、正表記に置換する正表記置換手段と、入力され
た文章中の字種の違いを検出する字種分割点設定手段
と、入力された文章中で基本語格納手段中の基本語の範
囲を切り出す基本語分割点設定手段と、上記専門語分割
点設定手段と字種分割点設定手段及び基本語分割点設定
手段によって設定された分割点から部分文字列を切り出
す部分文字列切出手段と、上記部分文字列切出手段によ
って切り出された文字列をキーワードとして出力する出
力手段とを備えたものである。
【0061】この発明に係る請求項2のキーワード抽出
方法は、文章を入力する入力ステップと、上記入力ステ
ップによって入力された文章中に、正表記と異表記とが
共に表記された専門語が格納された専門語格納手段中の
専門語が存在する場合、上記文章中でその専門語の範囲
を切り出す専門語分割点設定ステップと、上記専門語分
割点設定ステップによって切り出された専門語が、異表
記である場合、上記文章中の専門語の範囲を正表記に置
換する正表記置換ステップと、入力された文章中の字種
の違いを検出する字種分割点設定ステップと、入力され
た文章中に、一般的で使用頻度の高い語を基本語として
格納した基本語格納手段中の基本語が存在する場合、上
記文章中でその範囲を切り出す基本語分割点設定ステッ
プと、上記専門語分割点設定ステップと字種分割点設定
ステップ及び基本語分割点設定ステップによって設定さ
れた分割点から部分文字列を切り出し、キーワードとす
る部分文字列切出ステップとを備えたものである。
【0062】この発明に係る請求項3のキーワード抽出
方法は、入力ステップで入力された文章が日本語の場
合、接頭辞を格納した接頭辞格納手段を用いて日本語文
章中の接頭辞の範囲を切り出す接頭辞分割点設定ステッ
プを備え、上記部分文字列切出ステップは、専門語分割
点設定ステップ、字種分割点設定ステップ、基本語分割
点設定ステップ、及び接頭辞分割点設定ステップによっ
て設定された分割点から部分文字列を切り出し、キーワ
ードとするものである。
【0063】この発明に係る請求項4のキーワード抽出
方法は、入力ステップで入力された文章が日本語の場
合、接尾辞を格納した接尾辞格納手段を用いて入力され
た日本語文章中の接尾辞の範囲を切り出す接尾辞分割点
設定ステップを備え、上記部分文字列切出ステップは、
専門語分割点設定ステップ、字種分割点設定ステップ、
基本語分割点設定ステップ、接頭辞分割点設定ステッ
プ、及び接尾辞分割点設定ステップによって設定された
分割点から部分文字列を網羅的に切り出し、キーワード
とするものである。
【0064】この発明に係る請求項5のキーワード抽出
方法は、部分文字列切出ステップによって抽出されたキ
ーワードから予め定められた文字列の長さの範囲から外
れる語を削除し改定キーワードとする文字数制限ステッ
プを備えた。
【0065】この発明に係る請求項6のキーワード抽出
方法は、上記部分文字列切出ステップまたは上記文字数
制限ステップによって抽出されたキーワード又は改定キ
ーワードの出現度数をカウントする頻度集計ステップを
備えた。
【0066】この発明に係る請求項7のキーワード抽出
方法は、予め定められた記号文字が入力文中に現れた場
合、その記号文字を切り出す記号文字分割点設定ステッ
プと、上記部分文字列切出ステップまたは上記文字数制
限ステップによって抽出されたキーワード又は改定キー
ワードの文字として該記号文字が含まれる場合、上記記
号文字分割点設定ステップによって切り出された記号文
字を取り除く記号文字削除ステップを備えた。
【0067】この発明に係る請求項8のキーワード抽出
方法は、一般的で使用頻度の高い語の異表記表現を格納
した非専門語異表記格納手段に登録されている異表記表
現と上記専門語格納手段に登録されている異表記表現を
用いて、専門語が複合語である場合には複合語を構成す
る部分文字列に分解する単語分割ステップと、部分文字
列の異表記表現を組み合わせて複合語の異表記を生成す
る異表記展開ステップと、生成された異表記を正表記と
の対応をとって専門語格納手段に登録する格納ステップ
を備えた異表記拡充ステップによって作成された専門語
格納手段を用いるものである。
【0068】この発明に係る請求項9のキーワード抽出
プログラムを格納したコンピュータ読み取り可能な記録
媒体は、文章を入力する入力手順と、上記入力手順によ
って入力された文章中に、正表記と異表記とが共に表記
された専門語が格納された専門語格納手段中の専門語が
存在する場合、上記文章中でその専門語の範囲を切り出
す専門語分割点設定手順と、上記専門語分割点設定手順
によって切り出された専門語が、異表記である場合、上
記文章中の専門語の範囲を正表記に置換する正表記置換
手順と、入力された文章中の字種の違いを検出する字種
分割点設定手順と、入力された文章中で一般的で使用頻
度の高い語を基本語として格納した基本語格納手段中の
基本語の範囲を切り出す基本語分割点設定手順と、上記
専門語分割点設定手順、字種分割点設定手順、及び基本
語分割点設定手順によって設定された分割点から部分文
字列を網羅的に切り出す部分文字列切出手順とを備えた
ものである。
【0069】
【発明の実施の形態】
実施の形態1.以下、この発明の実施の形態1について
日本語の文章を例に説明する。図1は、この発明の請求
項1に係る一実施の形態を示す構成図である。図1にお
いて、1は対象分野と関連の深い専門語を格納する専門
語格納手段であり、図2にその一例を示すように、見出
しと見出しに対する正表記の2つのフィールドから構成
される。正表記のフィールドがない語は、見出しそのも
のが正表記であることを表す。ここで見出しそのものが
正表記でない場合、見出しは正表記に対して異表記であ
る。また、同じ正表記を持つ見出し同士は、互いに異表
記の関係にある。例えば、図2では、見出し「切り換
え」は正表記「切り替え」に対する異表記である。ま
た、「切り替え」、「切り換え」、「切替え」、「切換
え」は、互いに異表記の関係にある。2は一般的で使用
頻度の高い基本語を格納する基本語格納手段であり、図
3にその一例を示すように、見出しのみから構成され
る。3は名詞、サ変名詞、形容動詞の語幹など、キーワ
ードになりうる品詞(有効品詞)に後接する平仮名文字列
を格納する有効品詞後接平仮名文字列格納手段であり、
図4に一例を示すように、見出しのみから構成される。
【0070】104は入力手段であり、キーワード抽出処
理の対象となる日本語の文章を制御部115に入力する。
制御部115は、専門語格納手段管理手段105、専門語分割
点設定手段106、正表記置換手段107、有効文字列切出手
段108、字種分割点設定手段109、基本語格納手段管理手
段110、基本語分割点設定手段111、有効品詞後接平仮名
文字列格納手段管理手段112、有効品詞判定手段113、及
び部分文字列切出手段114を含み、ROMやRAM等に記録さ
れた制御プログラムに従って、後述するデータ処理を行
う。116は、制御部115が抽出したキーワードを、ファイ
ル、ディスプレイ、または他の手段へ出力する出力手段
である。
【0071】図5は、本発明によるキーワード抽出方法
を、図1の各手段に対応させたステップに従って表し、
入力文章からキーワードが抽出されるまでのデータの流
れを、各ステップに対応付けて表した図である。
【0072】図5において、4は入力手段104で日本語の
文章を入力する入力ステップ、5は専門語格納手段管理
手段105により専門語格納手段1を検索して専門語を取り
出す専門語格納手段管理ステップ、6は専門語分割点設
定手段106により専門語格納手段管理ステップ5で検索し
た専門語と一致する文字列を入力文章から抽出し、抽出
した文字列の前後に分割点を設定する専門語分割点設定
ステップである。7は正表記置換手段107により専門語格
納手段管理ステップ5で検索した専門語が他の語の異表
記である場合、入力文章中の専門語を、正表記に置換す
る正表記置換ステップである。
【0073】8は有効文字列切出手段108により漢字、片
仮名、アルファベット、数字など、キーワードとなりう
る字種(有効字種)、および専門語を入力文章中から切
り出す有効文字列切出ステップである。9は字種分割点
設定手段109により有効文字列切出ステップ8で切り出さ
れた文字列のうち専門語でない文字列から、漢字や片仮
名などの字種による違いを基に分割点を設定する字種分
割点設定ステップである。10は基本語格納手段管理手段
110により基本語格納手段2を検索して基本語を取り出す
基本語格納手段管理ステップ、11は基本語分割点設定手
段111により有効文字列切出ステップ8で切り出された文
字列のうち専門語でない文字列から、基本語格納手段管
理ステップ10で検索した基本語と一致する文字列を入力
文章から抽出し、抽出した文字列の前後に分割点を設定
する基本語分割点設定ステップである。
【0074】12は有効品詞後接平仮名文字列格納手段管
理手段112により有効品詞後接平仮名文字列格納手段3を
検索する有効品詞後接平仮名文字列格納手段管理ステッ
プ、13は有効品詞判定手段113により有効文字列切出ス
テップ8が切り出した各有効文字列に後接する文字列
と、有効品詞後接平仮名格納手段管理ステップ12が検索
した平仮名文字列と比較を行い、後接する平仮名の先頭
部分が有効品詞後接平仮名格納手段5に格納されている
平仮名文字列のうちの何れとも一致せず、かつ、有効文
字列の最後の語が専門語でないとき、その有効文字列の
最後の語がキーワードとなり得ないという情報を設定す
る有効品詞判定ステップである。
【0075】14は部分文字列切出手段114により専門語
分割点設定ステップ6、有効文字列切出ステップ8、字種
分割点設定ステップ9、および基本語分割点設定ステッ
プ11で設定された分割点を基に、キーワードとなりうる
文字列を切り出す部分文字列切出ステップである。
【0076】次に、入力文章からキーワードが抽出され
るまでのデータの流れを、各ステップに対応付けて説明
する。
【0077】専門語格納手段管理ステップ5は、専門語
格納手段1を検索して、専門語分割ステップ6に対して専
門語501を渡し、正表記置換ステップ7に対して専門語と
その正表記502を渡す。基本語格納手段管理ステップ10
は、基本語格納手段2を検索し、基本語分割点設定ステ
ップ11に基本語503を渡す。有効品詞後接平仮名文字列
格納手段管理ステップ12は、有効品詞後接平仮名文字列
格納手段3を検索して、有効品詞に後接する平仮名文字
列504を有効品詞判定ステップ13に渡す。
【0078】入力ステップ4では入力文章505を専門語分
割点設定ステップ6に受け渡す。専門語分割点設定ステ
ップ6は、入力文章505と専門語501を入力とし、505の文
章に専門語開始分割点及び専門語終了分割点を専門語分
割点として設定した文章506を出力する。正表記置換ス
テップ7は、506の文章と専門語及びその正表記502を入
力とし、506の文章に含まれる専門語が異表記である場
合、正表記に置換した文章507を出力する。
【0079】有効文字列切出ステップ8では、507の文章
から有効字種と507の文章中に設定されている専門語の
文字列の範囲を、キーワードになりうる文字列(有効文
字列)として、有効文字列開始点及び有効文字列終了点
を設定した文章508を出力する。
【0080】字種分割点設定ステップ9は、508の文章を
受け取り、有効文字列の専門語を含まない文字列の範囲
を対象に、字種分割点を設定した文章509を出力する。
【0081】基本語分割点設定ステップ11は、509の文
章と基本語503を入力とし、有効文字列の専門語を含ま
ない文字列の範囲を対象に、509の文章中で基本語503が
現れる位置に基本語開始分割点及び基本語終了分割点を
基本語分割点として設定した文章510を出力する。
【0082】有効品詞判定ステップ13は、510の文章
と、有効品詞後接平仮名格納手段3に登録されている平
仮名文字列504を入力として受け取り、510の文章中で、
キーワードとなり得ない文字列を判定した文章511を出
力する。
【0083】部分文字列切出ステップ14は、511の文章
を受け取り、専門語分割点設定ステップ6で設定した専
門語分割点、有効文字列切出ステップ8で設定した有効
文字列、字種分割点設定ステップ9で設定した字種分割
点、基本語分割点設定ステップ11で設定した基本語分割
点、及び有効品詞判定ステップ14で設定したキーワード
になり得ない文字列の判定を基に、入力文章のキーワー
ド512を抽出して出力する。
【0084】図6は、この発明の請求項1に係る実施の形
態の動作を示すフローチャートである。例として「サー
バー切り替えによる通信テストを行う。」という文に対
する処理を説明する。まず、ステップ601において、キ
ーボードやファイルから日本語の文章を入力する。次に
ステップ602において、入力文章に対し、専門語分割点
を設定する。
【0085】図7は、ステップ602による専門語分割点を
設定する処理の流れを表すフローチャートである。ステ
ップ701において、入力文章に対して句読点を区切りと
して、最初の区切りまでの文字列を取り出す。例の場合
は、句点「。」を見つけて入力文章全体の「サーバー切
り替えによる通信テストを行う」を取り出す。
【0086】次にステップ702で、区切りの先頭と区切
りの最後にポインタを付与する。例では、区切りの先頭
の文字へのポインタとしてphに「サ」を、区切りの最後
の文字へのポインタとしてptに「う」を設定する。
【0087】次にステップ703で、phからptまでの文字
列を検索キーとして、専門語格納手段1を検索する。例
の場合は、「サーバー切り替えによる通信テストを行
う」がそのまま検索キーとなる。次にステップ704でキ
ーと同じ語が専門語格納手段1に存在するか否かを調べ
る。専門語格納手段中に「サーバー切り替えによる通信
テストを行う」という専門語が存在しないものとする
と、Nのパスをたどり、ステップ708でptを1文字分先頭
に移動する。この結果、ptは「行」を指す。次にステッ
プ709でphがptより先頭側にあるか否かを調べる。この
場合、phがptより先頭側にあるので、Yのパスをたど
り、再びステップ703によって、phからptまでの文字列
を検索キーとして、専門語格納手段1の検索を行う。こ
のときの検索キーは「サーバー切り替えによる通信テス
トを行」になる。
【0088】このような操作を繰り返して図8に示すよ
うに区切りを後ろから1文字ずつ削り、検索キーが「サ
ーバー」となったところで、専門語格納手段1中に検索
キーと同じ語が存在したとする。このとき、ステップ70
4でYのパスをたどり、ステップ705で検索キーが他の語
の異表記であるか否かを調べる。専門語格納手段1に図2
の語が登録されている場合、「サーバー」に対して「サ
ーバ」という正表記があることより、ステップ705では
「Y」のパスをたどり、ステップ707で文章中の専門語の
文字列の部分を正表記に置き換え、置き換えられた正表
記の開始点に専門語開始分割点、終了点に専門語終了分
割点を設定する。入力文字列に対するここまでの処理の
結果を図9に示す。
【0089】次にステップ711によって、phをptの次の
文字に設定し、ptを句読点による区切りの最後の文字に
設定する。例の場合、phには「切」の位置が設定され、
ptには、「う」の位置が設定される。次にステップ712
によってphが句読点による区切りの範囲内であるか否か
を調べ、この場合区切りの範囲内であるので、Yのパス
をたどり、再びステップ703でphからptの文字列の範囲
をキーとして専門語格納手段1を検索する。
【0090】最初の入力文字列に対する処理と同様に、
図10に示すように文字列を後ろから1文字ずつ削る。検
索キーが「切り替え」となったところで、専門語格納手
段1中にも「切り替え」が存在したとすると、ステップ7
04でYのパスをたどり、ステップ705で、「切り替え」が
他の語の異表記であるかを調べる。専門語格納手段1に
図2の語が登録されているとすると、「切り替え」自身
が正表記であることより、ステップ705でNのパスをたど
り、ステップ706でphの文字の前に専門語開始分割点、p
tの文字の後に専門語終了分割点を設定する。入力文字
列に対するここまでの処理の結果を図11に示す。
【0091】以下、同様に「による通信テストを行う」
に対しても、句読点による区切りを後ろから1文字ずつ
削って専門語格納手段1を検索する。ptを先頭まで移動
しても専門語が辞書中に見つからないときはステップ71
0によって、phを1文字後ろに移動し、ptを区切りの最後
に設定して、専門語格納手段1を検索する。
【0092】同様の処理を繰り返して、残りの文字列中
には専門語格納手段1に登録されている文字列が存在し
なかったとする。phを句読点による区切りの範囲外まで
移動したところでステップ712の判定がNになり、さらに
句読点による区切りが残っていないのでステップ713の
判定がNになり、図7の専門語分割点設定処理を終える。
【0093】次に、図6のステップ603によって、入力文
章の先頭から順に有効文字列を取り出す。有効文字列を
取り出す処理の流れを、図12に示す。
【0094】処理対象は図11に示した文字列「サーバ切
替えによる通信テストを行う」である。まず、ステップ
1201によって、文字列から1文字取り出す。ここでは
「サ」を取り出し、ステップ1202によって、「サ」が有
効字種であるかまたは専門語分割点の範囲内であるかを
チェックする。有効字種とは、漢字、片仮名、アルファ
ベット、数字を指すものとする。「サ」は片仮名である
ため有効字種であり、専門語開始分割点と専門語終了分
割点の間の文字列でもあるため、Yのパスをたどり、ス
テップ1203によって有効文字列の開始点を「サ」の前に
設定する。次にステップ1204によって次の1文字「ー」
を取り出す。次にステップ1205によって、「ー」有効字
種であるか、または専門語分割点の範囲内であるかをチ
ェックする。この場合、片仮名に続く長音を片仮名とみ
なし、また、専門語分割点の範囲内であるので、Yのパ
スをたどり、再びステップ1204で次の1文字「バ」を取
り出す。
【0095】以下、同様の処理を繰り返すと、「サーバ
切り替えに」の「に」において、ステップ1205による判
定でNとなり、ステップ1206によって「え」の後が有効
文字列の終了点と設定される。以上の処理によって、最
初の有効文字列「サーバ切り替え」を取り出す。
【0096】次に図6のステップ604によって、字種分割
点を設定する。図13は、字種分割点を設定する処理の流
れを表したフロー図である。処理の対象は有効文字列で
あり、この例の場合、「サーバ切り替え」である。ま
ず、ステップ1301によって、p_mojiに有効文字列の先頭
文字である「サ」を、mojiに区切りの2番目の文字であ
る「ー」を代入する。次にステップ1302で、p_mojiとmo
jiが同じ専門語開始分割点と専門語終了分割点の間に存
在するか否かをチェックする。例の場合、p_mojiとmoji
が共に「サーバ」という同じ専門語の範囲に存在するの
で、Yのパスをたどる。
【0097】次にステップ1305によって、mojiが有効文
字列の最後の文字であるか否かをチェックする。この場
合、Nのパスをたどり、ステップ1306でp_mojiとmojiの
位置を共に1文字後方に移動する。次に、再びステップ1
302によって、p_mojiとmojiが同じ専門語の範囲内にあ
るかをチェックする。
【0098】同様の処理を繰り返すと、p_mojiが「バ」
を指し、mojiが「切」を指したとき、ステップ1302の条
件がNになり、次のステップ1303で、p_mojiとmojiの字
種が同一であるか否かをチェックする。この場合、
「バ」の字種が片仮名であり、「切」の字種が漢字であ
ることより、Nのパスをたどる。次に1304でp_mojiとmoj
iの間に字種分割点を設定する。
【0099】同様の処理を繰り返すと、例の「サーバ切
り替え」という区切りにおいては、これ以上字種による
分割点は設定されず、ステップ1305でmojiが最後の文字
となったとき、Yのパスをたどり図13の処理を抜ける。
この結果、図14に示すように、「バ」と「切」の間に字
種分割点が設定される。
【0100】次に、図6のステップ605によって、基本語
分割点を設定する。図15は、基本語分割点を設定する処
理の流れを表したフロー図である。処理の対象は有効文
字列であり、例の場合、「サーバ切り替え」である。
【0101】まず、ステップ1501で有効文字列から、専
門語を含まない範囲の区切りを取り出す。ステップ1501
処理の詳細を図16のフロー図に示す。
【0102】図16のステップ1601において、1文字を取
り出す。ここでは、「サ」が取り出される。次にステッ
プ1602によって「サ」が有効文字列の範囲外であるか否
かをチェックし、この場合、有効文字列の範囲内である
ので、Nのパスをたどる。次にステップ1603によって
「サ」が専門語の範囲外であるか否かをチェックし、こ
の場合専門語の範囲内であるので、Nのパスをたどり、
再びステップ1603によって次の文字「ー」を取り出す。
【0103】同様の処理を繰り返すと、「サーバ切り替
え」の全ての文字が専門語の範囲内であるので、最終的
にステップ1601で取り出す文字は有効文字列の範囲外に
なり、ステップ1602でYのパスをたどり、専門語を含ま
ない区切りを取り出さずに、図16の処理を終了し、図15
のステップ1502に戻る。
【0104】次に、図15のステップ1502によって、専門
語を含まない区切りが存在するか否かをチェックする。
図16の処理によって存在しないと判定されたので、Nの
パスをたどり、基本語分割点を設定せずに図15の処理を
抜ける。
【0105】次に、図6のステップ606によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。図17は、有効品詞を判定する処理の流れを示すフ
ロー図である。ステップ1701によって、有効文字列の最
後が専門語であるか否かをチェックする。この場合、
「サーバ切り替え」の「え」の次に専門語終了分割点が
設定されているので、ステップ1701の判定はYとなり、
そのまま図17の処理を抜け、図6のステップ607に戻る。
【0106】ここまでの処理で、最初の有効文字列に設
定される分割点は、図18のようになる。
【0107】次に、図6のステップ607によって分割点と
有効品詞からキーワード候補を取り出す。図19はキーワ
ード候補を取り出す処理の流れを示すフロー図である。
まず、ステップ1901によって、有効文字列の先頭からキ
ーワード開始可能点を取り出す。
【0108】本実施の形態では、キーワード開始可能点
は、専門語開始分割点、有効文字列の開始点、基本語開
始分割点、字種分割点の何れかであるものとする。ま
た、キーワード終了可能点は、専門語終了分割点、有効
文字列の終了点、基本語終了分割点、字種分割点の何れ
かであるものとする。また、有効品詞判定処理でキーワ
ード終了不可能点が設定された位置は、キーワード終了
可能点にはなり得ないものとする。
【0109】例では、ステップ1901において、図18の
「サ」の前に設定されている専門語開始分割点かつ有効
文字列の開始点が、キーワードの開始点として取り出さ
れる。次にステップ1902において、「サ」より後のキー
ワード終了可能点を取り出す。「バ」と「切」の間に、
専門語終了分割点かつ字種分割点によるキーワード終了
可能点があるので、ステップ1903によって、キーワード
開始可能点からキーワード終了可能点までである「サー
バ」をキーワード候補としてバッファにコピーする。
【0110】次にステップ1904によって、キーワード終
了可能点が後方にまだあるか否かをチェックする。ここ
ではYのパスをたどり、ステップ1902で次のキーワード
終了可能点である「え」の次の専門語終了分割点かつ有
効文字列の終了点を取り出す。ステップ1903によって、
キーワード開始可能点からキーワード終了可能点までの
範囲である「サーバ切り替え」をキーワード候補として
バッファにコピーする。
【0111】さらに「え」の後方にはキーワード終了可
能点は存在しないので、ステップ1904の判定はNにな
り、ステップ1905で次のキーワード開始可能点の存在を
チェックする。この場合、Yのパスをたどり、次に
「バ」と「切」の間が専門語開始分割点かつ字種分割点
であるので、ステップ1901によって、その位置をキーワ
ード開始可能点として取り出す。次にステップ1902によ
って、キーワード終了可能点として、「え」の次の専門
語終了分割点を取り出す。次にステップ1903によって、
キーワード開始可能点からキーワード終了可能点までの
範囲である「切り替え」をキーワード候補としてバッフ
ァにコピーする。
【0112】さらに「え」後方には、キーワード終了可
能点もキーワード開始可能点も存在しないので、ステッ
プ1904およびステップ1905の判定は共にNとなり、図19
の処理を抜け図6のステップ608に戻る。このルーチンに
よるキーワード候補抽出処理の結果、キーワード候補と
して、「サーバ」「サーバ切り替え」「切り替え」の3
つが取り出される。
【0113】次に図6のステップ608によって入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ603によって、次の
有効文字列を取り出す。図12のフローに従って、「に」
から1文字ずつ有効字種または専門語分割点の範囲内に
あるか否かをチェックし、次の有効文字列として、「通
信テスト」を取り出す。
【0114】次に図6のステップ604によって、字種分割
点を設定する。図13は、字種分割点を設定する処理の流
れを表したフロー図である。処理の対象は「通信テス
ト」である。まず、ステップ1301によって、p_mojiに
「通信テスト」の先頭文字である「通」を、mojiに「通
信テスト」の2番目の文字である「信」を代入する。次
にステップ1302で、p_mojiと文字が同じ専門語開始分割
点と専門語終了分割点の間に存在するか否かをチェック
する。この場合、有効文字列内に専門語は存在せず、N
のパスをたどる。次にステップ1303で、p_mojiとmojiが
同じ字種であるか否かをチェックする。p_mojiとmojiの
字種は共に漢字であるので、Yのパスをたどる。
【0115】次にステップ1305によって、mojiが有効文
字列の最後の文字であるか否かをチェックする。この場
合、Nのパスをたどり、ステップ1306でp_mojiとmojiの
位置を共に1文字後方に移動する。次に、再びステップ
1302によって、p_mojiとmojiが同じ専門語の範囲内にあ
るかをチェックする。この判定はNであり、ステップ130
3に進む。p_mojiは「信」で字種は漢字、mojiは「テ」
で字種は片仮名であるので、ステップ1303の判定がNに
なり、1304でp_mojiとmojiの間に字種分割点を設定す
る。
【0116】同様の処理をmojiが有効文字列の最後の文
字を指すまで続けると、「通信テスト」という有効文字
列に対し、図20に示すように、「信」と「テスト」の間
に字種分割点が設定される。
【0117】次に図6のステップ605によって、「通信テ
スト」に対して基本語分割点を設定する。図15は、基本
語分割点を設定する処理の流れを表したフロー図であ
る。
【0118】まずステップ1501で有効文字列から専門語
を含まない範囲の区切りを取り出す。この処理は、上記
の「サーバ切り替え」部分と同様、図16のフロー図に従
って行う。ステップ1601によって、1文字「通」を取り
出し、「通」が有効文字列の範囲内であるのでステップ
1602でNのパスをたどり、専門語の範囲外であるので、
ステップ1603でYをたどる。ステップ1604で「通」の前
を専門語を含まない範囲の区切りの開始点として設定す
る。次にステップ1605で1文字「信」を取り出し、有効
文字列の範囲内であるのでステップ1606でNのパスをた
どり、専門語の範囲外であるのでステップ1607でYのパ
スをたどり、再びステップ1605で1文字取り出す。
【0119】この処理を繰り返すと、「通信テスト」の
「ト」を超えたところで、有効文字列の範囲外となり、
ステップ1606の判定がYとなり、ステップ1608で「ト」
の後ろを専門語を含まない区切りの終了点として設定す
る。
【0120】再び図15に戻り、ステップ1502によって、
専門語を含まない範囲の区切りが存在するか否かをチェ
ックする。ここでは「通信テスト」が専門語を含まない
範囲の区切りとして存在するので、Yのパスをたどる。
【0121】次にステップ1503でphに専門語を含まない
範囲の区切りの先頭の文字である「通」を代入し、ptに
専門語を含まない範囲の区切りの最後の文字である
「ト」を代入する。次に、ステップ1504でphからptまで
の文字列をキーとして、基本語格納手段2を検索する。
例の場合、検索のキーは「通信テスト」となる。基本語
格納手段2に「通信テスト」という語が存在しないとす
ると、ステップ1505によってNのパスをたどり、ステッ
プ1507でptを1文字分先頭側に移動し、「ス」を代入す
る。ステップ1508によってphがptより先頭側にあるか否
かをチェックし、この場合Yのパスをたどり、再びステ
ップ1504で、「通信テス」をキーにして基本語格納手段
2を検索する。
【0122】図21に示すように、1文字ずつ削った文字
列をキーとして基本語格納手段2の検索を繰り返す。基
本語格納手段2に、図3に示すように、「通信」という語
が含まれているとすると、ptが「信」を指したところ
で、ステップ1505でYをたどることにより、ステップ150
6で「通」の前に基本語開始分割点、「信」の後ろに基
本語終了分割点を設定する。
【0123】ステップ1507でptを1文字分先頭側に移動
したため、ptが専門語を含まない範囲の区切りより先頭
側を指した場合は、ステップ1508のNのパスをたどり、
ステップ1509でphを1文字分後ろに移動し、ptに専門語
を含まない範囲の区切りの最後の文字を代入する。その
結果、phには「信」が代入され、ptには「ト」が代入さ
れる。図22に示すように、今度は「信テスト」に対し
て、「通信テスト」に対する処理と同様に後ろから1文
字ずつ削って基本語格納手段2の検索を行う。
【0124】「通信テスト」の部分文字列で、基本語格
納手段2に格納されている文字列が「通信」だけであっ
たとすると、図23に示すように「通信テスト」に対する
基本語分割点が設定される。phを後ろに1文字ずつ移動
してゆき、phが専門語を含まない範囲の区切りより後方
を指した場合には、ステップ1510の判定がNとなる。ス
テップ1501で「通信テスト」に対する次の専門語を含ま
ない範囲の区切りを取り出す処理を行うが、この場合存
在しないので、ステップ1502の判定はNとなり、図15の
処理を抜ける。
【0125】次に、図6のステップ606によって、有効文
字列に後接する平仮名文字列をチェックし、有効品詞で
あるか否かを判定する。図17のステップ1701で有効文字
列の最後が専門語であるか否かをチェックする。この場
合専門語でないのでNのパスをたどり、ステップ1702で
有効文字列に後接する文字列が有効品詞後接平仮名文字
列格納手段3中の文字列と一致するか否かをチェックす
る。「通信テスト」に続く平仮名文字列が「を」であ
り、図4に示すように有効品詞後接平仮名文字列格納手
段3に「を」が含まれている場合、ステップ1702の判定
はYとなり、そのまま図17の処理を抜ける。
【0126】次に図6のステップ607で分割点と有効品詞
の判定からキーワードを取り出す。図19のフロー図に従
って「サーバ切り替え」に対する処理と同様の処理を行
うと、このルーチンによって取り出されるキーワード候
補は、「通信」「通信テスト」「テスト」の3つとな
る。
【0127】次に図6のステップ608において、まだ入力
文中に有効文字列が残っているか否かをチェックし、こ
の場合残っているのでYのパスをたどり、ステップ603に
よって次の有効文字列を取り出す。図12のフローに従う
と、次に取り出される有効文字列は、「行」となる。次
にステップ604によって字種分割点を設定するが、この
場合、有効文字列中に字種の違いが存在しないため、字
種分割点を設定せずにステップ605に進む。次にステッ
プ605によって基本語分割点を設定するが、基本語格納
手段2に「行」が存在しないとすれば、基本語分割点の
設定を行わずにステップ606に進む。
【0128】図17のステップ1701において、有効文字列
の最後が専門語であるか否かをチェックし、この場合専
門語でないので、Nのパスをたどる。次にステップ1702
において、有効文字列に後接する文字列が有効品詞後接
平仮名文字列格納手段3中の文字列と一致するか否かを
チェックする。この場合、「行」に続く平仮名文字列は
「う」であり、有効品詞後接平仮名文字列格納手段中に
「う」が登録されていないとすると、ステップ1703で
「行」の次にキーワード終了不可能点を設定する。
【0129】次に図6のステップ607によって、キーワー
ド候補を取り出す。図19のフロー図に従うが、キーワー
ド終了可能点が存在しないため、取り出すことのできる
キーワードは存在しない。
【0130】次にステップ608に進むが、入力文章中に
有効文字列は残っていないので、判定はNとなり、処理
を終了する。
【0131】以上の結果、抽出されるキーワードは「サ
ーバ」「サーバ切り替え」「切り替え」「通信」「通信
テスト」「テスト」の6つとなる。
【0132】図24はこの発明によるデータの流れの例を
請求項2を構成する各ステップに関連付けて示したもの
である。
【0133】図24において、入力ステップ4によって、
入力文章である「サーバー切り替えによる通信テストを
行う」2405が入力される。専門語格納手段管理ステップ
5は、「サーバー」および「切り替え」という語2401を
専門語格納手段1から検索し、専門語分割点設定ステッ
プ6によって、入力文章中の「サーバー」および「切り
替え」が現れる位置に、2406のように、専門語開始分割
点と専門語終了分割点を設定する。
【0134】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、2
406の「サーバー」という文字列は正表記である「サー
バ」に置換される。
【0135】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
2408のように「サーバ切り替え」、「通信テスト」、
「行」が有効文字列として取り出される。
【0136】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、2409のように「サーバ」と「切り替え」
の間、及び「通信」と「テスト」の間に字種分割点が設
定される。
【0137】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。基本語格納手段管理ステ
ップ10が基本語格納手段2を検索し、「通信」という語2
403が基本語であるという情報を基本語分割点設定ステ
ップ11に渡す。この結果、2410のように「通信」の前に
基本語開始分割点、後に基本語終了分割点を設定する。
【0138】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ13によって、各有効文字列に後接する
文字列をチェックする。2404に示すように「に」「を」
が検索され、「う」が検索されなかったとすると、2411
に示すように、「行」の後にキーワード終了不可能点が
設定される。
【0139】次に部分文字列切出ステップ14によって、
有効文字列から、専門語開始分割点、有効文字列の開始
点、基本語開始分割点、字種分割点の何れかによって始
まり、かつ専門語終了分割点、有効文字列の終了点、基
本語終了分割点、字種分割点の何れかによって終わり、
かつキーワード終了不可能点で終わらない文字列の範囲
を切り出す。この処理によって、2412に示すように、
「サーバ」「切り替え」「サーバ切り替え」「通信」
「テスト」「通信テスト」が入力文章に対するキーワー
ドとして抽出される。
【0140】なお、以上に述べた動作をコンピュータに
実行させるプログラムを、フロッピーディスク等のコン
ピュータ読み取り可能な記録媒体に格納し、その記録媒
体によりコンピュータに実行させてもよい。また、実施
の形態1では、専門語分割点設定ステップ、字種分割点
設定ステップ、基本語分割点設定ステップの順に分割点
の設定処理を行ったが、上記ステップの処理の順番は任
意でよい。以上のように、実施の形態1では、文書に対
する索引を付与するキーワード抽出処理において、専門
語を異表記表現と共に格納した専門語格納手段を参照
し、日本語文書中に現れる専門語のキーワードは、正表
記に変換して文書に付与する。このとき、正表記に変換
した専門語が字種の違いや基本語によって切り出した文
字列と連接する場合は、複合語となるキーワードも抽出
することにより、網羅的なキーワード抽出を行うことが
できる。検索時には、同じ専門語格納手段を用いて異表
記は正表記に変換して検索することより、従来の異表記
に対応した文書検索のように、検索のキーとなる語の異
表記の数が組み合わせ的に増えることなく、高速な文書
検索が可能なキーワード抽出装置を提供することができ
る。
【0141】実施の形態2.図25は、この発明によるキ
ーワード抽出方法の実施の形態2を示す構成図である。
図25における1、2、3、4、5、6、7、8、9、10、11、1
2、13、14は、それぞれ図5における1、2、3、4、5、6、
7、8、9、10、11、12、13、14と同様の専門語格納手
段、基本語格納手段、有効品詞後接平仮名文字列格納手
段、入力ステップ、専門語格納手段管理ステップ、専門
語分割点設定ステップ、正表記置換ステップ、有効文字
列切出ステップ、字種分割点設定ステップ、基本語格納
手段管理ステップ、基本語分割点設定ステップ、有効品
詞後接平仮名文字列格納手段管理ステップ、有効品詞判
定ステップ、部分文字列切出ステップである。4101は基
本語削除ステップで、部分文字列切出ステップ14によっ
て抽出されたキーワード候補のうち、基本語格納手段2
中に存在する語を削除する。
【0142】図26は、この発明の請求項2に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「サーバー切り替えによる通信テストを行う」とい
う文に対する処理を説明する。
【0143】ステップ4201からステップ4208までの動作
は、実施の形態1における処理と全く同様である。まず
ステップ4201において、キーボードやファイルから日本
語の文章を入力する。次にステップ4202において、入力
文章において、専門語による分割点を設定する。
【0144】専門語格納手段に、図2に示す語が登録さ
れているとすると、図7のフローに従って、入力文か
ら、「サーバー」及び「切り替え」が専門語として取り
出され、さらに正表記である「サーバ」に置換される。
「サーバ」及び「切り替え」の前後にそれぞれ専門語開
始分割点と専門語終了分割点が設定される。
【0145】次にステップ4203によって、入力文章入力
文章の先頭から順に有効文字列を取り出す。図12に示す
流れに従うと、最初の有効文字列として「サーバ切り替
え」が取り出される。
【0146】次にステップ4204によって、字種分割点を
設定する。図13に示す流れに従うと、「バ」と「切」の
間に字種分割点が設定される。
【0147】次にステップ4205によって、基本語分割点
を設定する。基本語格納手段2には、「サーバ切り替
え」の部分文字列となる語が登録されていないとする。
図15に示す流れに従うと、この有効文字列に対しては、
基本語分割点を設定せずにステップ4206に進む。
【0148】次にステップ4206によってキーワード候補
に後接する文字列をチェックし、有効品詞を判定する。
図17の処理の流れに従うと、「切り替え」が専門語であ
るため、何もせずこのルーチンを抜ける。
【0149】次にステップ4207によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点の何れかで
あるものとする。また、キーワード終了可能点は、専門
語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点の何れかであるものとする。また、有効
品詞判定処理でキーワード終了不可能点が設定された位
置は、キーワード終了可能点にはなり得ないものとす
る。
【0150】図19の処理の流れに従うと、「サーバ切り
替え」から抽出されるキーワードは、「サーバ」「切り
替え」「サーバ切り替え」となる。
【0151】次に、ステップ4208によって、入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ4203によって、次
の有効文字列「通信テスト」を取り出す。
【0152】次に、ステップ4204によって、字種分割点
を設定する。処理は図13に従い、「信」と「テ」の間に
字種分割点を設定する。
【0153】次に、ステップ4205によって、基本語分割
点を設定する。処理は図15に従い、基本語格納手段2中
に「通信」が登録されているとすると、処理対象文字列
中の「通信」の前後に基本語開始分割点と基本語終了分
割点を設定する。
【0154】次にステップ4206によって、キーワード候
補に後接する文字列をチェックし、有効品詞を判定す
る。処理は図17のフローに従うが、この場合、「テス
ト」に続く語が有効品詞後接平仮名文字列格納手段中に
登録されている「を」であることより、そのまま次に進
む。
【0155】次にステップ4207によって分割点と有効品
詞からキーワード候補を取り出す。図19の処理に従う
と、抽出されるキーワードは「通信」「テスト」「通信
テスト」となる。
【0156】さらに次の有効文字列「行」に対して、ス
テップ4203からステップ4207までの処理を行うが、実施
の形態1の「行」に対する処理と同様に、字種による区
切りが存在せず、「行」が基本語格納手段と接頭辞格納
手段に存在せず、後接する文字列である「う」が有効品
詞後接平仮名文字列格納手段に存在しないとすれば、こ
の区切りに対して抽出されるキーワードは存在しない。
【0157】ステップ4208で処理対象の有効文字列がな
くなったところで、Nのパスをたどり、ステップ4209に
進む。
【0158】ステップ4209では抽出されたキーワード候
補のうち、基本語格納手段中に存在する語を取り除く。
この処理は、図27に示すフローに従う。
【0159】キーワード候補である「サーバ」「切り替
え」「サーバ切り替え」「通信」「テスト」「通信テス
ト」はバッファに格納されているものとする。まず、ス
テップ4301でバッファからキーワード候補を1つ取り出
す。取り出したキーワードは、ステップ4303によって、
基本語格納手段2中に同じ語が存在するか否かをチェッ
クし、ステップ4304によって存在すると判定した場合
は、ステップ4305でその語を削除する。この処理をバッ
ファに格納されている全てのキーワード候補に対して行
い、ステップ4302の判定がNになったところで処理を終
える。
【0160】この処理を行うと、「通信」が基本語格納
手段中に存在するので、「通信」を削除する。この結
果、最終的に抽出されたキーワードは、「サーバ」「切
り替え」「サーバ切り替え」「テスト」「通信テスト」
となり、処理を終える。
【0161】図28はこの発明によるデータの流れの例を
請求項1を構成する各ステップに関連付けて示したもの
である。
【0162】図28において、入力ステップ4によって、
入力文章である「サーバー切り替えによる通信テストを
行う」4405が入力される。専門語格納手段管理ステップ
5は、「サーバー」および「切り替え」という語4401が
専門語格納手段1から引き、専門語分割点設定ステップ6
によって、入力文章中の「サーバー」および「切り替
え」が現れる位置に、4406のように、専門語開始分割点
と専門語終了分割点を設定する。
【0163】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、4
406の「サーバー」という文字列は正表記である「サー
バ」に置換される。
【0164】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
4408のように「サーバ切り替え」、「通信テスト」、
「行」が有効文字列として取り出される。
【0165】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、4409のように「サーバ」と「切り替え」
の間、及び「通信」と「テスト」の間に字種分割点が設
定される。
【0166】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。基本語格納手段管理ステ
ップ10が基本語格納手段2を検索し、「通信」という語4
403が基本語であるという情報を基本語分割点設定ステ
ップ11に渡す。この結果、4410のように「通信」の前に
基本語開始分割点、後に基本語終了分割点を設定する。
【0167】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。4404に示すように「に」「を」
が検索され、「う」が検索されなかったとすると、4411
に示すように、「行」の後にキーワード終了不可能点が
設定される。
【0168】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点の何れかによって終
わり、かつキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、4412に示すよう
に、「サーバ」「切り替え」「サーバ切り替え」「通
信」「テスト」「通信テスト」が入力文章に対するキー
ワードとして抽出される。
【0169】次に、基本語削除ステップ4101によって、
基本語格納手段2中に登録されている基本語を、キーワ
ード候補から削除する。この処理によって、最終的に入
力文から抽出されるキーワードは、「サーバ」「切り替
え」「サーバ切り替え」「テスト」「通信テスト」とな
る。なお、実施の形態2では、専門語分割点設定ステッ
プ、字種分割点設定ステップ、基本語分割点設定ステッ
プの順に分割点の設定処理を行ったが、上記ステップの
処理の順番は任意でよい。以上のように、実施の形態2
では、専門語格納手段中の専門語に関しては、見出し語
を正表記に置換してキーワード抽出を行い、字種の違い
や基本語によって切り出した文字列と連接する場合は、
複合語となるキーワードも抽出することにより、網羅的
なキーワード抽出を行うことができる。文章の登録時と
検索時に正表記同士で照合を行うため、検索のキーとな
る語の数が組み合わせ的に増えることなく、高速なキー
ワード検索装置を提供することができる。さらに、基本
語削除ステップを設けることにより、文書を識別するた
めのキーワードとして不要な語を削除することができる
ので、検索ゴミの少ない精度の良いキーワード抽出が実
現できる。
【0170】実施の形態3.図29は、この発明の請求項
3に係る一実施の形態を示す構成図である。図29におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。2501は接頭辞格納手段
で、図30にその一例を示すように、見出しのみから構成
される。2502は接頭辞格納手段2501を検索して接頭辞を
取り出す接頭辞格納手段管理ステップ、2503は接頭辞格
納手段管理ステップ2502で検索した接頭辞と一致する文
字列の前後に接頭辞分割点を設定する接頭辞分割点設定
ステップである。
【0171】図31は、この発明の請求項3に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「各サーバーの再確認を行う」という文に対する処
理を説明する。まずステップ2701において、キーボード
やファイルから日本語の文章を入力する。次にステップ
2702において、入力文章において、専門語による分割点
を設定する。
【0172】専門語格納手段1に、図2に示す語が登録さ
れているとすると、実施の形態1における処理と同様
に、図7のフローに従って、入力文から、「サーバー」
が専門語として取り出され、正表記である「サーバ」に
置換され、図32に示すように、専門語開始分割点と専門
語終了分割点を設定する。
【0173】次にステップ2703によって、入力文章の先
頭から順に有効文字列を取り出す。実施の形態1で述べ
た処理と同様に図12に示す流れに従うと、最初の有効文
字列として「各サーバ」が取り出される。
【0174】次にステップ2704によって、字種分割点を
設定する。実施の形態1で述べた処理と同様に図13に示
す流れに従うと、「各」と「サ」の間に字種分割点が設
定される。
【0175】次にステップ2705によって、基本語分割点
を設定する。基本語格納手段2には、「各サーバ」の部
分文字列となる語が登録されていないとする。実施の形
態1で述べた処理と同様に図15に示す流れに従うと、こ
の有効文字列に対しては、基本語分割点を設定せずにス
テップ2706に進む。
【0176】次にステップ2706によって、接頭辞分割点
を設定する。接頭辞分割点を設定する処理の流れを図33
に示す。まずステップ2901によって、有効文字列から専
門語を含んでいない範囲の区切りを取り出す。実施の形
態1で述べた処理と同様に図16に示す流れに従うと、
「各」が専門語を含まない有効文字列の区切りとして取
り出される。
【0177】処理対象の区切りが存在したので、ステッ
プ2902の判定はYとなり、次にステップ2903で専門語を
含まない有効文字列の区切りの先頭である「各」をphに
代入する。
【0178】次にステップ2904で接頭辞格納手段2501に
登録されている接頭辞を1つずつ取り出し、ステップ290
6で取り出した接頭辞の長さを変数lenに代入し、ステッ
プ2907でphで始まる文字列の先頭からlenまでの長さ
が、接頭辞格納手段2501から取り出した接頭辞と一致す
るか否かを調べる。
【0179】図30に示すように、接頭辞格納手段2501中
に「各」が登録されているとすると、ステップ2904にお
いて「各」を取り出したところで、ステップ2907の判定
がYとなり、ステップ2908で接頭辞開始分割点と接頭辞
終了分割点を、それぞれ処理対象の文字列の「各」の前
後に設定する。ステップ2904によって接頭辞格納手段25
01に登録されている接頭辞を全て取り出すと、ステップ
2905の判定がNとなり、ステップ2909に進む。
【0180】ステップ2909では、phを1文字後ろに移動
してphが区切りの範囲内にある間、接頭辞格納手段2501
から接頭辞を取り出して、同様の処理を行う。
【0181】この場合は、「各」の次の文字は、専門語
を含まない有効文字列の範囲外となるため、ステップ29
10ではNのパスをたどり、「各サーバ」に対しては、他
に、専門語を含まない有効文字列の区切りが存在しない
ため、ステップ2902はNのパスをたどって、このルーチ
ンを抜ける。
【0182】次に図31のステップ2707によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。実施の形態1における処理と同様に、図17の処理
の流れに従うと、「サーバ」が専門語であるため、何も
せずこのルーチンを抜ける。
【0183】ここまでの処理で、最初の有効文字列に設
定される分割点は、図34のようになる。
【0184】次にステップ2708によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点、接頭辞開
始分割点、接頭辞終了分割点の何れかであるものとす
る。また、キーワード終了可能点は、専門語終了分割
点、有効文字列の終了点、基本語終了分割点、字種分割
点の何れかであるものとする。また、有効品詞判定処理
でキーワード終了不可能点が設定された位置は、キーワ
ード終了可能点にはなり得ないものとする。また、接頭
辞終了分割点は、キーワード終了不可能点とし、キーワ
ード終了可能点にはなり得ないものとする。
【0185】実施の形態1における処理と同様に、図19
の処理の流れに従うと、「各サーバ」から抽出されるキ
ーワードは、「各サーバ」「サーバ」となる。
【0186】次に、ステップ2709によって、入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ2703によって、次
の有効文字列「再確認」を取り出す。
【0187】次に、ステップ2704によって、字種分割点
を設定する。処理は図13に従うが、「再確認」の文字列
中に字種の違いは存在しないので、そのまま次に進む。
【0188】次に、ステップ2705によって、基本語分割
点を設定する。処理は図15に従うが、基本語格納手段中
に「再確認」の部分文字列となる語が登録されていない
とすると、そのまま次に進む。
【0189】次にステップ2706によって、接頭辞分割点
を設定する。処理は図33に従う。接頭辞格納手段2501に
「再」が登録されているとすると、「再確認」の「再」
の前に接頭辞開始分割点、「再」の後に接頭辞終了分割
点を設定する。
【0190】次にステップ2707によって、キーワード候
補に後接する文字列をチェックし、有効品詞を判定す
る。処理は図17のフローに従うが、この場合、「再確
認」に続く語が有効品詞後接平仮名文字列格納手段3中
に登録されている「を」であることより、そのまま次に
進む。
【0191】ここまでの処理で、「再確認」に設定され
る分割点は、図35のようになる。
【0192】次にステップ2708によって分割点と有効品
詞からキーワード候補を取り出す。図19の処理に従う
と、抽出されるキーワードは「再確認」「確認」とな
る。
【0193】さらに次の有効文字列「行」に対して、ス
テップ2703からステップ2708までの処理を行うが、実施
の形態1の「行」に対する処理と同様に、字種による区
切りが存在せず、「行」が基本語格納手段2と接頭辞格
納手段2501に存在せず、後接する文字列である「う」が
有効品詞後接平仮名文字列格納手段3に存在しないとす
れば、この区切りに対して抽出されるキーワードは存在
しない。
【0194】ステップ2709で処理対象の有効文字列がな
くなったところで、Nのパスをたどり、処理を終了す
る。
【0195】図36はこの発明によるデータの流れの例を
請求項3を構成する各ステップに関連付けて示したもの
である。
【0196】図36において、入力ステップ4によって、
入力文章である「各サーバーの再確認を行う」3205が入
力される。専門語格納手段管理ステップ5は、「サーバ
ー」という語3201を専門語格納手段1から引き、専門語
分割点設定ステップ6によって、入力文章中の「サーバ
ー」が現れる位置に、3206のように、専門語開始分割点
と専門語終了分割点を設定する。
【0197】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、3
206の「サーバー」という文字列は正表記である「サー
バ」に置換される。
【0198】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
3208のように「各サーバ」、「再確認」、「行」が有効
文字列として取り出される。
【0199】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、3209のように「各」と「サ」の間に字種
分割点が設定される。
【0200】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、3210のよう
に基本語分割点は設定されない。
【0201】次に、接頭辞格納手段管理ステップ2502が
接頭辞格納手段2501を検索し、「各」や「再」という語
3203が接頭辞であるという情報を接頭辞分割点設定ステ
ップ2503に渡す。この結果、3211のように「各」と
「再」の前後にそれぞれ接頭辞開始分割点および接頭辞
終了分割点が設定される。
【0202】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。3204に示すように「の」「を」
が検索され、「う」が検索されなかったとすると、3212
に示すように、「行」の後にキーワード終了不可能点が
設定される。
【0203】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点、接頭辞開始
分割点、接頭辞終了分割点の何れかによって始まり、か
つ専門語終了分割点、有効文字列の終了点、基本語終了
分割点、字種分割点の何れかによって終わり、かつ接頭
辞終了点とキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、3213に示すよう
に、「各サーバ」「サーバ」「再確認」「確認」が入力
文章に対するキーワードとして抽出される。なお、実施
の形態3では、専門語分割点設定ステップ、字種分割点
設定ステップ、基本語分割点設定ステップ、接頭辞分割
点設定ステップの順に分割点の設定処理を行ったが、上
記ステップの処理の順番は任意でよい。また、接頭辞格
納手段に格納する接頭辞には、「約1万円」における
「約」や、「第30回」における「第」のような、数量
表現に前接する数量接頭辞を格納し、上記説明と同様の
キーワード抽出処理を行ってもよい。以上のように、実
施の形態3においては、接頭辞格納手段に格納されてい
る接頭辞と、後接する専門語を関連付けてキーワードを
抽出するときに、専門語に関しては、見出し語を正表記
に置換し、文書の登録時と検索時に正表記同士で照合を
行うため、接頭辞のある/なしと、接頭辞に後接する専
門語の異表記によって、検索のキーとなる語の異表記の
数が組み合わせ的に増えることなく、高速な文書検索を
行うためのキーワード抽出方法が実現できる。
【0204】実施の形態4.図37は、この発明の請求項
4に係る一実施の形態を示す構成図である。図37におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。3301は接尾辞格納手段
で、図38にその一例を示すように、見出しのみから構成
される。3302は接尾辞格納手段3301を検索して接尾辞を
取り出す接尾辞格納手段管理ステップ、3303は接尾辞格
納手段管理ステップで検索した接尾辞と一致する文字列
の前後に接尾辞分割点を設定する接尾辞分割点設定ステ
ップである。
【0205】図39は、この発明の請求項4に係る発明の
実施の形態4の動作を示すフローチャートである。例と
して、「サーバー側を確認中とする」という文に対する
処理を説明する。まずステップ3501において、キーボー
ドやファイルから日本語の文章を入力する。次にステッ
プ3502において、入力文章において、専門語による分割
点を設定する。
【0206】専門語格納手段1に、図2に示す語が登録さ
れているとすると、実施の形態1における処理と同様
に、図7のフローに従って、入力文から、「サーバー」
が専門語として取り出され、正表記である「サーバ」に
置換され、図40に示すように、専門語開始分割点と専門
語終了分割点が設定される。
【0207】次にステップ3503によって、入力文章の先
頭から順に有効文字列を取り出す。実施の形態1で述べ
た処理と同様に図12に示す流れに従うと、最初の有効文
字列として「サーバ側」が取り出される。
【0208】次にステップ3504によって、字種分割点を
設定する。実施の形態1で述べた処理と同様に図13に示
す流れに従うと、「バ」と「側」の間に字種分割点が設
定される。
【0209】次にステップ3505によって、基本語分割点
を設定する。基本語格納手段2には、「サーバ側」の部
分文字列となる語が登録されていないとする。実施の形
態1で述べた処理と同様に図15に示す流れに従うと、こ
の有効文字列に対しては、基本語分割点を設定せずにス
テップ3506に進む。
【0210】次にステップ3506によって、接尾辞分割点
を設定する。接尾辞分割点を設定する処理の流れを図41
に示す。まずステップ3701によって、有効文字列から専
門語を含んでいない範囲の区切りを取り出す。実施の形
態1で述べた処理と同様に図16に示す流れに従うと、
「側」が専門語を含まない有効文字列の区切りとして取
り出される。
【0211】処理対象の区切りが存在したので、ステッ
プ3702の判定はYとなり、次にステップ3703で専門語を
含まない有効文字列の区切りの先頭である「側」をphに
代入する。
【0212】次にステップ3704で接尾辞格納手段3301に
登録されている接尾辞を1つずつ取り出し、ステップ37
06で取り出した接尾辞の長さを変数lenに代入し、ステ
ップ3707でphで始まる文字列の先頭からlenまでの長さ
が、接尾辞格納手段3301から取り出した接尾辞と一致す
るか否かを調べる。
【0213】図38に示すように、接尾辞格納手段3301中
に「側」が登録されているとすると、ステップ3704にお
いて「側」を取り出したところで、ステップ3707の判定
がYとなり、ステップ3708で接尾辞開始分割点と接尾辞
終了分割点を、それぞれ処理対象の文字列の「側」の前
後に設定する。ステップ3704によって接尾辞格納手段33
01に登録されている接尾辞を全て取り出すと、ステップ
3705の判定がNとなり、ステップ3709に進む。
【0214】ステップ3709では、phを1文字後ろに移動
してphが区切りの範囲内にある間、接尾辞格納手段から
接尾辞を取り出して、同様の処理を行う。
【0215】この場合は、「側」の次の文字は、専門語
を含まない有効文字列の範囲外となるため、ステップ37
01ではNのパスをたどり、「サーバ側」に対しては、他
に、専門語を含まない有効文字列の区切りが存在しない
ため、ステップ3702はNのパスをたどって、このルーチ
ンを抜ける。
【0216】次に図39のステップ3507によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。実施の形態1における処理と同様に、図17の処理
の流れに従うと、「側」に続く文字列が有効品詞後接平
仮名文字列格納手段中に登録されている「を」であるた
め、何もせずこのルーチンを抜ける。
【0217】ここまでの処理で、最初の有効文字列に設
定される分割点は、図42のようになる。
【0218】次にステップ3508によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点の何れかで
あるものとする。また、キーワード終了可能点は、専門
語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点、接尾辞開始分割点、接尾辞終了分割点
の何れかであるものとする。また、有効品詞判定処理で
キーワード終了不可能点が設定された位置は、キーワー
ド終了可能点にはなり得ないものとする。また、接尾辞
開始分割点は、キーワード開始不可能点とし、キーワー
ド開始可能点にはなり得ないものとする。
【0219】実施の形態1における処理と同様に、図19
の処理の流れに従うと、「サーバ側」から抽出されるキ
ーワードは、「サーバ側」「サーバ」となる。
【0220】次に、ステップ3509によって、入力文章中
に有効文字列が残っているか否かをチェックする。この
場合は、Yのパスをたどり、ステップ3503によって、次
の有効文字列「確認中」を取り出す。
【0221】次に、ステップ3504によって、字種分割点
を設定する。処理は図13に従うが、「確認中」の文字列
中に字種の違いは存在しないので、そのまま次に進む。
【0222】次に、ステップ3505によって、基本語分割
点を設定する。処理は図15に従うが、基本語格納手段2
中に「確認中」の部分文字列となる語が登録されていな
いとすると、そのまま次に進む。
【0223】次にステップ3506によって、接尾辞分割点
を設定する。処理は図41に従う。接尾辞格納手段3301に
「中」が登録されているとすると、「確認中」の「中」
の前に接尾辞開始分割点、「中」の後に接尾辞終了分割
点を設定する。
【0224】次にステップ3507によって、キーワード候
補に後接する文字列をチェックし、有効品詞を判定す
る。処理は図17のフローに従うが、この場合、「確認
中」に続く語が有効品詞後接平仮名文字列格納手段12中
に登録されている「と」であることより、そのまま次に
進む。
【0225】ここまでの処理で、「確認中」に設定され
る分割点は、図43のようになる。
【0226】次にステップ3508によって分割点と有効品
詞からキーワード候補を取り出す。図19の処理に従う
と、抽出されるキーワードは「確認中」「確認」とな
る。
【0227】ステップ3509で入力文章中に入港文字列に
よる区切りが残っているか否かをチェックするがこの場
合すでに残っていないので、処理を終える。
【0228】図44はこの発明によるデータの流れの例を
請求項4を構成する各ステップに関連付けて示したもの
である。
【0229】図44において、入力ステップ4によって、
入力文章である「サーバー側を確認中とする」4005が入
力される。専門語格納手段管理ステップ5は、「サーバ
ー」という語4001を専門語格納手段1から引き、専門語
分割点設定ステップ6によって、入力文章中の「サーバ
ー」が現れる位置に、4006のように、専門語開始分割点
と専門語終了分割点を設定する。
【0230】次に専門語格納手段管理ステップ5から、
「サーバー」という語の正表記が「サーバ」であるとい
う情報が正表記置換ステップ7に渡される。その結果、4
006の「サーバー」という文字列は正表記である「サー
バ」に置換される。
【0231】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
4008のように「サーバ側」、「確認中」が有効文字列と
して取り出される。
【0232】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、4009のように「バ」と「側」の間に字種
分割点が設定される。
【0233】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、4010のよう
に基本語分割点は設定されない。
【0234】次に、接尾辞格納手段管理ステップ3302が
接尾辞格納手段3301を検索し、「側」や「中」という語
4003が接尾辞であるという情報を接尾辞分割点設定ステ
ップ3303に渡す。この結果、4011のように「側」と
「中」の前後にそれぞれ接尾辞開始分割点および接尾辞
終了分割点が設定される。
【0235】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ13によって、各有効文字列に後接する
文字列をチェックする。この例では、4004に示すように
「を」「と」が検索されたとするとキーワード終了不可
能点は設定されない。
【0236】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点、接尾辞開始分割
点、接尾辞終了分割点の何れかによって終わり、かつ接
尾辞開始分割点で始まらず、キーワード終了不可能点で
終わらない文字列の範囲を切り出す。この処理によっ
て、4013に示すように、「サーバ側」「サーバ」「確認
中」「確認」が入力文章に対するキーワードとして抽出
される。
【0237】なお、本実施の形態においては、接尾辞に
ついての処理を示したが、「日本対アメリカ」における
「対」のような接中辞においても、同様の処理により
「対」の前後に分割点を設定することによって、キーワ
ード抽出処理を行なうことができる。また、接尾辞格納
手段に格納する接頭辞には、「約1万円」における
「円」や、「第30回」における「回」のような、数量
表現に前接する数量接尾辞を格納し、上記説明と同様の
キーワード抽出処理を行ってもよい。また、専門語分割
点設定ステップ、字種分割点設定ステップ、基本語分割
点設定ステップ、接尾辞分割点設定ステップの順に分割
点の設定処理を行ったが、上記ステップの処理の順番は
任意でよい。以上のように、実施の形態4においては、
接尾辞格納手段に格納されている接尾辞と、前接する専
門語を関連付けてキーワードを抽出するときに、専門語
に関しては、見出し語を正表記に置換し、文書の登録時
と検索時に正表記同士で照合を行うため、接尾辞のある
/なしと、接尾辞に前接する専門語の異表記によって、
検索のキーとなる語の異表記の数が組み合わせ的に増え
ることなく、高速な文書検索を行うためのキーワード抽
出方法が実現できる。
【0238】実施の形態5.図45は、この発明の請求項
5に係る一実施の形態を示す構成図である。図45におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。4501は文字数制限ステ
ップで、部分文字列切出ステップ14によって抽出された
キーワード候補のうち、文字数が一定値以上の語を削除
する。
【0239】図46は、この発明の請求項5に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「ユーザインタフェース切り替えを行う」という文
に対する処理を説明する。まずステップ4601において、
キーボードやファイルから日本語の文章を入力する。次
にステップ4602において、入力文章において、専門語に
よる分割点を設定する。
【0240】専門語格納手段に、図2に示す語が登録さ
れているとすると、図7のフローに従って、入力文か
ら、「切り替え」が専門語として取り出され、「切り替
え」の前後に専門語開始分割点と専門語終了分割点が設
定される。
【0241】次にステップ4603によって、入力文章入力
文章の先頭から順に有効文字列を取り出す。図12に示す
流れに従うと、最初の有効文字列として「ユーザインタ
フェース切り替え」が取り出される。
【0242】次にステップ4604によって、字種分割点を
設定する。図13に示す流れに従うと、「ス」と「切」の
間に字種分割点が設定される。
【0243】次にステップ4605によって、基本語分割点
を設定する。基本語格納手段には、「ユーザインタフェ
ース切り替え」の部分文字列となる語が登録されていな
いとする。図15に示す流れに従うと、この有効文字列に
対しては、基本語分割点を設定せずにステップ4606に進
む。
【0244】次にステップ4606によってキーワード候補
に後接する文字列をチェックし、有効品詞を判定する。
図17の処理の流れに従うと、「切り替え」が専門語であ
るため、何もせずこのルーチンを抜ける。
【0245】次にステップ4607によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点の何れかで
あるものとする。また、キーワード終了可能点は、専門
語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点の何れかであるものとする。また、有効
品詞判定処理でキーワード終了不可能点が設定された位
置は、キーワード終了可能点にはなり得ないものとす
る。
【0246】図19の処理の流れに従うと、「ユーザイン
タフェース切り替え」から抽出されるキーワードは、
「ユーザインタフェース」「切り替え」「ユーザインタ
フェース切り替え」となる。
【0247】次に、ステップ4608によって、入力文章中
に有効文字列が残っているか否かをチェックする。
【0248】さらに次の有効文字列「行」に対して、ス
テップ4603からステップ4607までの処理を行うが、実施
の形態1の「行」に対する処理と同様に、字種による区
切りが存在せず、「行」が基本語格納手段2と接頭辞格
納手段に存在せず、後接する文字列である「う」が有効
品詞後接平仮名文字列格納手段3に存在しないとすれ
ば、この区切りに対して抽出されるキーワードは存在し
ない。
【0249】ステップ4608で処理対象の有効文字列がな
くなったところで、Nのパスをたどり、ステップ4609に
進む。
【0250】ステップ4609では抽出されたキーワード候
補のうち、文字数が一定値以上の語を取り除く。この処
理は、図47に示すフローに従う。本実施の形態では、文
字数の制限を12文字以内とする。
【0251】キーワード候補である「ユーザインタフェ
ース」「切り替え」「ユーザインタフェース切り替え」
はバッファに格納されているものとする。まず、ステッ
プ4701でバッファからキーワード候補を1つ取り出す。
取り出したキーワードは、ステップ4703によって、文字
数が12以下であるか否かをチェックし、文字数が12以上
の場合は、ステップ4704でその語を削除する。この処理
をバッファに格納されている全てのキーワード候補に対
して行い、ステップ4702の判定がNになったところで処
理を終える。
【0252】この処理を行うと、「ユーザインタフェー
ス切り替え」は12文字を超えるので削除する。この結
果、最終的に抽出されたキーワードは、「ユーザインタ
ーフェース」「切り替え」となり、処理を終える。
【0253】図48はこの発明によるデータの流れの例を
請求項5を構成する各ステップに関連付けて示したもの
である。
【0254】図48において、入力ステップ4によって、
入力文章である「ユーザインタフェース切り替えを行
う」4805が入力される。専門語格納手段管理ステップ5
は、「切り替え」という語4801を専門語格納手段1から
引き、専門語分割点設定ステップ6によって、「切り替
え」が現れる位置に、4806のように、専門語開始分割点
と専門語終了分割点を設定する。
【0255】次に正表記置換ステップ7によって正表記
への置換を行うが、この場合、異表記の表現がないの
で、そのまま次へ進む。
【0256】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
4808のように「ユーザインタフェース切り替え」、
「行」が有効文字列として取り出される。
【0257】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。この結果、4809のように「ユーザインタフェース」
と「切り替え」の間に字種分割点が設定される。
【0258】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この場合、入力文字列中
に基本語が存在しないので、そのまま次へ進む。
【0259】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。4802に示すように「を」が検索
され、「う」が検索されなかったとすると、4811に示す
ように、「行」の後にキーワード終了不可能点が設定さ
れる。
【0260】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点の何れかによって終
わり、かつキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、4812に示すよう
に、「ユーザインタフェース」「切り替え」「ユーザイ
ンタフェース切り替え」が入力文章に対するキーワード
候補として抽出される。
【0261】次に、文字数制限ステップ4501によって、
文字数が12文字を超えるキーワード候補をを削除する。
この処理によって、最終的に入力文から抽出されるキー
ワードは、「ユーザインタフェース」となる。なお、実
施の形態5では、専門語分割点設定ステップ、字種分割
点設定ステップ、基本語分割点設定ステップの順に分割
点の設定処理を行ったが、上記ステップの処理の順番は
任意でよい。以上のように、実施の形態5では、抽出す
るキーワードの文字数を一定範囲に限定する。このと
き、専門語格納手段中の専門語に関しては、見出し語を
正表記に置換してキーワード抽出を行って文字数をカウ
ントすることにより、異表記間の文字数の違いによっ
て、同じ意味を表す語であるにもかかわらず、ある語は
登録され、他の語は削除されるという不統一を防ぐこと
が可能なキーワード抽出方法が実現できる。
【0262】実施の形態6.図49は、この発明の請求項
6に係る一実施の形態を示す構成図である。図49におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。4901は頻度集計ステッ
プで、抽出されたキーワードの出現度数を集計する。
【0263】図50は、この発明の請求項6に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「端末の切り替えと回線の切り換えを行う」という
文に対する処理を説明する。まずステップ5001におい
て、キーボードやファイルから日本語の文章を入力す
る。次にステップ5002において、入力文章において、専
門語による分割点を設定する。
【0264】専門語格納手段に、図2に示す語が登録さ
れているとすると、図7のフローに従って、入力文か
ら、「切り替え」と「切り換え」が専門語として取り出
される。それぞれについて、専門語開始分割点と専門語
終了分割点を設定する。「切り換え」については正表記
である「切り替え」に置き換えられる。
【0265】次にステップ5003によって、入力文章の先
頭から順に有効文字列を取り出す。図12に示す流れに従
うと、最初の有効文字列として「端末」が取り出され
る。
【0266】次にステップ5004によって、字種分割点を
設定する。実施の形態1で述べた処理と同様に図13に示
す流れに従うが、この場合、字種の違いは存在せず、そ
のまま次へ進む。
【0267】次にステップ5005によって、基本語分割点
を設定する。基本語格納手段には、「端末」の部分文字
列となる語が登録されていないとする。実施の形態1で
述べた処理と同様に図15に示す流れに従うと、この有効
文字列に対しては、基本語分割点を設定せずにステップ
5006に進む。
【0268】次にステップ5006によってキーワード候補
に後接する文字列をチェックし、有効品詞を判定する。
図17の処理の流れに従うと、「端末」に続く語が有効品
詞後接平仮名文字列格納手段中に登録されている「の」
であることより、そのまま次に進む。
【0269】次にステップ5007によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点、の何れか
であるものとする。また、キーワード終了可能点は、専
門語終了分割点、有効文字列の終了点、基本語終了分割
点、字種分割点の何れかであるものとする。また、有効
品詞判定処理でキーワード終了不可能点が設定された位
置は、キーワード終了可能点にはなり得ないものとす
る。
【0270】図19の処理の流れに従うと、「端末」から
抽出されるキーワードは、「端末」となる。
【0271】次に、ステップ5008によって、入力文章中
に有効文字列が残っているか否かをチェックする。以
下、有効文字列として取り出される文字列は、「切り替
え」「回線」「切り替え」「行」である。「切り替え」
に対しては、字種分割点と基本語分割点が専門語の範囲
内では設定されないことより、そのままキーワード候補
になる。「回線」の文字列中にも字種の違いが存在せ
ず、また基本語格納手段に「回線」の部分文字列が登録
されていないとすると、「回線」もそのままキーワード
候補になる。「行」からは、実施の形態1と同様、キー
ワードは抽出されない。
【0272】この結果、ステップ5008でNと判定された
ときのキーワード候補は、「端末」「切り替え」「回
線」「切り替え」の4つになる。
【0273】ステップ5009では抽出されたキーワード候
補の出現度数を集計する。この処理は、図51に示すフロ
ーに従う。
【0274】キーワード候補である「端末」「切り替
え」「回線」「切り替え」はバッファAに格納されてい
るものとする。また、バッファBは、空の状態であると
する。まず、ステップ5101でバッファAからキーワード
候補を1つ取り出す。取り出したキーワードは、ステッ
プ5103によって、バッファBに存在するか否かをチェッ
クし、存在する場合は、ステップ5104でバッファB中の
該当するキーワードの度数を1つ上げる。バッファBに存
在しない場合は、ステップ5105によって取り出したキー
ワードを度数1としてバッファBにコピーする。この処理
をバッファAに格納されている全てのキーワード候補に
対して行い、ステップ5102の判定がNになったところで
処理を終える。最終的に抽出されるキーワードは、バッ
ファBに格納される候補となる。
【0275】この処理を行うと、「端末」、最初に現れ
る「切り替え」、及び「回線」はステップ5105によっ
て、度数1としてバッファBにコピーされる。2度目に現
れる「切り替え」に対しては、ステップ5104によって、
バッファB中の「切り替え」の度数を1つ上げる処理が行
われる。この結果、最終的に抽出されるキーワードは、
「端末」、「切り替え」、「回線」であり、度数はそれ
ぞれ1、2、1となる。これによって処理を終える。
【0276】図52はこの発明によるデータの流れの例を
請求項6を構成する各ステップに関連付けて示したもの
である。
【0277】図52において、入力ステップ4によって、
入力文章である「端末の切り替えと回線の切り換えを行
う」5205が入力される。専門語格納手段管理ステップ5
は、「切り替え」及び「切り換え」という語5201を専門
語格納手段1から引き、専門語分割点設定ステップ6によ
って、入力文章中の「切り替え」及び「切り換え」が現
れる位置に、5206のように、専門語開始分割点と専門語
終了分割点を設定する。
【0278】次に正表記置換ステップ7によって正表記
への置換を行う。この場合、「切り換え」を「切り替
え」に置換して次へ進む。
【0279】次に、有効文字列切出ステップ8によっ
て、漢字、片仮名、アルファベット、数字などの字種ま
たは専門語の文字列の範囲を取り出す。これによって、
5208のように「端末」、「切り替え」、「回線」、「切
り替え」、「行」が有効文字列として取り出される。
【0280】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。ここでは条件に合う点が存在しないので、そのまま
次へ進む。
【0281】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、5210のよう
に基本語分割点は設定されない。
【0282】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。5203に示すように「の」「と」
「を」が検索され、「う」が検索されなかったとする
と、5211に示すように、「行」の後にキーワード終了不
可能点が設定される。
【0283】次に部分文字列切出ステップ14によって、
有効文字列の範囲から、専門語開始分割点、有効文字列
の開始点、基本語開始分割点、字種分割点の何れかによ
って始まり、かつ専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点の何れかによって終
わり、かつキーワード終了不可能点で終わらない文字列
の範囲を切り出す。この処理によって、5212に示すよう
に、「端末」「切り替え」「回線」「切り替え」がキー
ワード候補として抽出される。
【0284】次に、頻度集計ステップ4901によって、抽
出されたキーワード候補の出現度数を集計する。この処
理によって、最終的に抽出されるキーワードは、「端
末」、「切り替え」、「回線」であり、度数はそれぞれ
1、2、1となる。なお、実施の形態6では、専門語分割
点設定ステップ、字種分割点設定ステップ、基本語分割
点設定ステップの順に分割点の設定処理を行ったが、上
記ステップの処理の順番は任意でよい。以上のように、
実施の形態6では、専門語格納手段中の専門語に関して
は、見出し語を正表記に置換してキーワード抽出を行う
ため、異表記の関係にある語同士が別の語と判定される
ことなく、正確な頻度の付与が可能なキーワード抽出方
法が実現できる。
【0285】実施の形態7.図53は、この発明の請求項
7に係る一実施の形態を示す構成図である。図53におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。5301は記号文字分割点
設定ステップで、「・」や「/」など、予め定められた
記号文字の前後に記号文字分割点を設定する。5302は記
号文字削除ステップで、抽出したキーワードから、
「・」や「/」など、予め定められた記号文字を取り除
く。
【0286】図54は、この発明の請求項8に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「ユーザー・インタフェイスの設定を行う」という
文に対する処理を説明する。まずステップ5401におい
て、キーボードやファイルから日本語の文章を入力す
る。次にステップ5402において、入力文章において、専
門語による分割点を設定する。
【0287】専門語による分割点は図7のフローに従っ
て設定する。ここでは、「ユーザー」及び「インタフェ
イス」が専門語であるとし、「ユーザー」に対しては
「ユーザ」が、「インタフェイス」に対しては「インタ
フェース」が正表記であるとする。すると、入力文字列
に対し、「ユーザー」が「ユーザ」に置き換えられ、
「インタフェイス」が「インタフェース」に置き換えら
れ、さらに「ユーザ」と「インタフェース」の前に専門
語開始分割点、後に専門語終了分割点が設定される。
【0288】次にステップ5403によって、入力文章入力
文章の先頭から順に有効文字列を取り出す。図12に示す
流れに従うと、最初の有効文字列として「ユーザ・イン
タフェース」が取り出される。
【0289】次にステップ5404によって、字種分割点を
設定する。処理は図13に示す流れに従うが、「ユーザ・
インタフェース」という文字列には字種の違いがないの
で、そのまま次の処理に進む。この場合、「・」のよう
な記号文字は、字種分割点設定の対象としないものとす
る。
【0290】次にステップ5405によって、基本語分割点
を設定する。処理は図15に示す流れに従うが、「ユーザ
・インタフェース」という文字列の部分文字列に、基本
語格納手段中に登録されている語が含まれていないとす
ると、そのまま次の処理に進む。
【0291】次にステップ5406によって、記号文字分割
点を設定する。記号文字分割点を設定する処理の流れを
図55に示す。まずステップ5501によって、有効文字列か
ら専門語を含んでいない範囲の区切りを取り出す。図16
に示す流れに従うと、「・」が専門語を含まない有効文
字列の区切りとして取り出される。
【0292】処理対象の区切りが存在したので、ステッ
プ5502の判定はYとなり、次にステップ5503で専門語を
含まない有効文字列の区切りの先頭である「・」をphに
代入する。
【0293】次にステップ5504でphが予め定められた記
号文字であるか否かをチェックする。本実施の形態で
は、「・」が予め定められているとする。ここでの判定
はYで、ステップ5505に進む。
【0294】ステップ5505によって、処理対象文字列中
の「・」の前後にそれぞれ記号文字開始分割点と記号文
字終了分割点が設定される。
【0295】次にステップ5506によってphを1文字分後
ろに移動し、ステップ5507では、専門語を含まない有効
文字列の区切りの範囲を超えたので判定はNとなり、ス
テップ5501では、他に専門語を含まない有効文字列の区
切りが存在しないため、ステップ5502はNのパスをたど
って、このルーチンを抜ける。
【0296】次に図27のステップ2707によってキーワー
ド候補に後接する文字列をチェックし、有効品詞を判定
する。図17の処理の流れに従うと、「ユーザ・インタフ
ェース」に続く平仮名文字列が「の」であり、図4に示
すように有効品詞後接平仮名文字列格納手段に「の」が
含まれている場合、そのまま次へ進む。
【0297】ここまでの処理で、最初の有効文字列に設
定される分割点は、図56のようになる。
【0298】次にステップ5408によって分割点と有効品
詞からキーワード候補を取り出す。本実施の形態では、
キーワード開始可能点は、専門語開始分割点、有効文字
列の開始点、基本語開始分割点、字種分割点、記号文字
終了分割点の何れかであるものとする。また、キーワー
ド終了可能点は、専門語終了分割点、有効文字列の終了
点、基本語終了分割点、字種分割点、記号文字開始分割
点の何れかであるものとする。また有効品詞判定処理で
キーワード終了不可能点が設定された位置は、キーワー
ド終了可能点にはなり得ないものとする。
【0299】図19の処理の流れに従うと、「ユーザ・イ
ンタフェース」から抽出されるキーワードは、「ユー
ザ」「インタフェース」「ユーザ・インタフェース」と
なる。これらのキーワード候補は、バッファ中に格納さ
れるものとする。
【0300】次にステップ5409で、キーワード候補中に
現れる記号文字を削除する。この処理は図57に示すフロ
ー図に従う。ステップ5701で、バッファからキーワード
候補を1つ取り出す。ステップ5703で、キーワード候補
の文字列中に、「・」が存在するか否かを調べ、存在す
る場合には、ステップ5704で「・」を削除する。この処
理をバッファ中の全てのキーワード候補に対して行い、
ステップ5702の判定がNになったところで、このルーチ
ンを抜ける。
【0301】例では、「ユーザ・インタフェース」とい
う文字列の中に「・」が存在するので、この「・」を削
除し、「ユーザインタフェース」がキーワード候補とな
る。この結果、「ユーザ」「インタフェース」「ユーザ
インタフェース」がキーワード候補となる。
【0302】次にステップ5410で入力文章中に有効文字
列が残っているか否かをチェックする。次に取り出され
る区切りは、「設定」であるが、「設定」の文字列中に
も字種の違いが存在せず、また基本語格納手段に「設
定」の部分文字列が登録されていないとすると、「設
定」はそのままキーワード候補になる。また、次に取り
出される有効文字列は「行」であるが、「行」からは実
施の形態1と同様、キーワードは抽出されない。
【0303】この結果、最終的に取り出されるキーワー
ドは、「ユーザ」「インタフェース」「ユーザインタフ
ェース」「設定」となる。
【0304】図58はこの発明によるデータの流れの例を
請求項8を構成する各ステップに関連付けて示したもの
である。
【0305】図58において、入力ステップ4によって、
入力文章である「ユーザー・インタフェイスの設定を行
う」5805が入力される。入力文中の「ユーザー」及び
「インタフェイス」が専門語格納手段に登録されている
とすると、5806のように「ユーザー」と「インタフェイ
ス」の前に専門語開始分割点が、後に専門語終了分割点
が設定される。
【0306】次に正表記置換ステップ7によって専門語
の正表記への置換が行われる。「ユーザー」の正表記が
「ユーザ」であり、「インタフェイス」の正表記が「イ
ンタフェース」であるとすると、5807のような置換が行
われる。
【0307】次に、有効文字列切出ステップ8によっ
て、有効字種または専門語の文字列の範囲を取り出す。
これによって、5808のように「ユーザ・インタフェー
ス」、「設定」、「行」が有効文字列として取り出され
る。
【0308】次に、字種分割点設定ステップ9によっ
て、有効文字列のうち、専門語でない文字列の範囲か
ら、字種の変わり目となる点を字種分割点として設定す
る。ここでは、有効文字列の範囲内に字種の違いは存在
しないので、5809のように字種分割点は設定されない。
【0309】次に、基本語分割点設定ステップ11によっ
て、基本語分割点を設定する。この例では、5810のよう
に基本語分割点は設定されない。
【0310】次に、記号文字分割点設定ステップ5302に
よって、5812のように、処理対象文字列に「・」の前後
にそれぞれ記号文字開始分割点と記号文字終了分割点を
設定する。
【0311】次に、有効品詞後接平仮名文字列管理ステ
ップ12が有効品詞後接文字列格納手段3を検索し、有効
品詞判定ステップ12によって、各有効文字列に後接する
文字列をチェックする。5803に示すように「の」「を」
が検索され、「う」が検索されなかったとすると、5812
に示すように、「行」の後にキーワード終了不可能点が
設定される。
【0312】次に、部分文字列切出ステップ14によっ
て、有効文字列の範囲から、専門語開始分割点、有効文
字列の開始点、基本語開始分割点、字種分割点、記号文
字終了分割点の何れかによって始まり、かつ専門語終了
分割点、有効文字列の終了点、基本語終了分割点、字種
分割点、記号文字開始分割点の何れかによって終わり、
かつキーワード終了不可能点で終わらない文字列の範囲
を切り出す。この処理によって、5813に示すように、
「ユーザ」「インタフェース」「ユーザ・インタフェー
ス」「設定」がキーワード候補として抽出される。
【0313】次に、記号文字削除ステップ5302によっ
て、キーワード候補のうち、「・」を含んでいる文字列
の「・」を削除する。この結果、「ユーザ・インタフェ
ース」は「ユーザインタフェース」となり、最終的に抽
出されるキーワードは「ユーザ」「インタフェース」
「ユーザインタフェース」、「設定」となる。なお、実
施の形態7では、専門語分割点設定ステップ、字種分割
点設定ステップ、基本語分割点設定ステップ、記号文字
分割点設定ステップの順に分割点の設定処理を行った
が、上記ステップの処理の順番は任意でよい。以上のよ
うに、実施の形態7では、複合語の異表記処理におい
て、複合語を構成する語の間に現れる「・」や「/」を
削除し、専門語格納手段中に格納されている専門語ごと
の異表記に対しても正表記に変換した語をキーワードと
して文書に付与する。検索時にも同じ処理を施すことに
より、複合語の表現形式による異表記と、複合語を構成
する単語ごとの異表記を統一的に扱うことができる。ま
た、検索キーが複合語の組み合わせによって増大するこ
となく、高速な文書検索を行うためのキーワード抽出方
法が実現できる。
【0314】実施の形態8.図59は、この発明の請求項
8に係る一実施の形態を示す構成図である。図59におけ
る1、2、3、4、5、6、7、8、9、10、11、12、13、14
は、それぞれ図5における1、2、3、4、5、6、7、8、9、
10、11、12、13、14と同様の専門語格納手段、基本語格
納手段、有効品詞後接平仮名文字列格納手段、入力ステ
ップ、専門語格納手段管理ステップ、専門語分割点設定
ステップ、正表記置換ステップ、有効文字列切出ステッ
プ、字種分割点設定ステップ、基本語格納手段管理ステ
ップ、基本語分割点設定ステップ、有効品詞後接平仮名
文字列格納手段管理ステップ、有効品詞判定ステップ、
部分文字列切出ステップである。5901は一般的で頻度の
高い語の正表記と異表記表現を関連付けて格納した非専
門語異表記格納手段で、図60にその一例を示すように、
正表記と正表記に対応する異表記の集合から構成され
る。5902は専門語格納手段1と非専門語異表記格納手段5
901を検索して、専門語が複合語である場合、複合語を
構成する単語の異表記の組み合わせて、複合語の異表記
を生成する異表記拡充ステップである。
【0315】図61は、異表記拡充ステップのサブステッ
プを表した図である。6101は非専門語異表記格納手段59
01を検索して異表記情報を取り出す非専門語異表記格納
手段管理ステップである。6102は専門語格納手段を検索
して異表記情報を取り出す専門語異表記管理ステップで
ある。6103は、処理対象の語が非専門語異表記格納手段
管理ステップ6101及び専門語異表記管理ステップ6102で
検索された単語からなる複合語である場合、複合語を構
成する語に分割する単語分割ステップである。6104は、
単語分割ステップ6103によって分割された語ごとの異表
記の組み合わせから、複合語の異表記を生成する異表記
展開ステップである。6105は、異表記展開ステップ6104
によって生成された異表記の集合のうち、正表記となる
語を定め、見出しと正表記のぺアを作成して専門語格納
手段に格納する格納ステップである。
【0316】図62は、この発明の請求項9に係る発明の
実施の形態の動作を示すフローチャートである。例とし
て、「切り換えボタン」という語に対する処理を説明す
る。まずステップ6201において、単語「切り換えボタ
ン」を取り出す。次にステップ6202において、phに単語
の先頭である「切」を代入し、ptに単語の最後の一つ前
である「タ」を代入する。
【0317】次にステップ6203でphからptまでの文字列
である「切り換えボタ」をキーとして、専門語格納手段
1と非専門語異表記格納手段5901を検索する。「切り換
えボタ」が専門語格納手段1及び非専門語異表記格納手
段5901中にないとすると、ステップ6205によってptを1
文字先頭側に移動する。この時点でphはptより先頭側に
あるので、ステップ6206の判定はYとなり、再びステッ
プ6203で、今度は「切り換えボ」について、専門語格納
手段1と非専門語異表記格納手段5901を検索する。
【0318】同様の処理を続け、phからptまでの文字列
が「切り換え」となったところで、専門語格納手段1の
見出しに「切り換え」があったとすると、ステップ6204
の判定がYとなり、ステップ6208へ進む。ステップ6208
では、「切り換えボタン」中の「切り換え」の部分を専
門語格納手段1中に存在する全ての「切り換え」の異表
記に置き換える。今、「切り換え」の異表記が「切り替
え」と「切替え」であるとすると、生成される文字列は
「切り換えボタン」「切り替えボタン」「切替えボタ
ン」となる。
【0319】次にステップ6209で、phに「ボ」を代入
し、ptに「ン」を代入する。ステップ6210ではphは単語
の範囲内であるので、Yのパスをたどり、ステップ6203
で今度は「ボタン」に対する辞書引きを行う。非専門語
異表記格納手段5901中に「ボタン」があったとすると、
ステップ6204の判定がYとなり、ステップ6208へ進む。
ステップ6208では、「切り換えボタン」「切り替えボタ
ン」「切替えボタン」中の「ボタン」の部分を非専門語
異表記格納手段5901中に存在する全ての「ボタン」の異
表記に置き換える。「ボタン」の異表記が「釦」である
とすると、生成される文字列は「切り換えボタン」「切
り替えボタン」「切替えボタン」「切り換え釦」「切り
替え釦」「切替え釦」となる。
【0320】次にステップ6209でphをptの次に設定する
が、phは単語の範囲を超えてしまうので、ステップ6210
の判定はNとなり、ステップ6211に進む。ステップ6211
では、生成された「切り換えボタン」「切り替えボタ
ン」「切替えボタン」「切り換え釦」「切り替え釦」
「切替え釦」の中から正表記表現を1つ定め、見出しと
正表記のペアを生成する。仮に、「切り換え」「切り替
え」「切替え」のグループの正表記が「切り替え」、
「ボタン」「釦」のグループの正表記が「ボタン」であ
ったとすると、正表記同士の組み合わせである「切替え
ボタン」をこの複合語のグループの正表記とする。
【0321】図2に示した専門語格納手段1の形式に合わ
せるため、正表記表現である「切り替えボタン」はその
まま、それ以外の「切り換えボタン」「切替えボタン」
「切り換え釦」「切り替え釦」「切替え釦」は、正表記
である「切り替えボタン」をペアとして付加して専門語
格納手段中に格納して処理を終了する。
【0322】図63は請求項8の発明による異表記拡充ス
テップ5902のデータの流れの例を異表記拡充ステップ59
02を構成する各サブステップに関連付けて示したもので
ある。
【0323】図63において、処理対象語である「切り換
えボタン」6301を単語分割ステップ6103に渡す。専門語
異表記管理ステップ6102及び非専門語異表記格納手段管
理ステップ6301によって「切り換え」6303と「ボタン」
6304が検索されたとすると、単語分割ステップ6103によ
って、「切り換えボタン」は、6305のように「切り換
え」と「ボタン」に展開される。
【0324】次に「切り換え」に対する異表記のグルー
プとして、「切り替え」「切り換え」「切替え」が6306
のように検索され、「ボタン」に対する異表記のグルー
プとして「ボタン」「釦」が6307のように検索されたと
すると、それぞれの異表記を組み合わせて、異表記展開
ステップ6104において、異表記の組み合わせの集合6308
が生成される。6308で下線は、複合語を構成する単語の
正表記であるとする。
【0325】次に、格納ステップ6105で、正表記の組み
合わせである「切り替えボタン」を複合語の正表記と
し、図2で示した専門語格納手段の形式と合わせるた
め、生成された各複合語に対する正表記としてペアを作
成する。ただし、「切り替えボタン」は正表記であるの
で、ペアにしない。この結果、6309のような形式にし
て、専門語格納手段1に登録する。
【0326】なお、格納ステップ6105で専門語格納手段
にこの処理によって生成した語を格納する際に、格納す
べきか否かを人が判定してもよい。以上のように、実施
の形態8では、複合語を構成する語の異表記表現を組み
合わせた語を作成し、作成された異表記表現の集合中の
1つの語を正表記表現と定め、見出しと正表記とを対応
付けて専門語格納手段に格納することにより、専門語格
納手段に専門語として必要な語を登録する支援を行うこ
とによって、検索キーを大量に発生させず、高速な検索
を可能にするキーワード抽出方法が実現できる。
【0327】また、本発明の請求項1から請求項9にお
いて、異表記は同義語であってもよい。
【0328】
【発明の効果】以上のように、この発明の請求項1によ
れば、専門語を異表記情報と共に格納した専門語格納手
段と、一般的で使用頻度の高い語を格納した基本語格納
手段と、文章を入力する入力手段と、上記入力手段によ
って入力された文章中に、上記専門語格納手段に登録さ
れている専門語が存在する場合、上記文章中でその専門
語の範囲を切り出す専門語分割点設定手段と、上記専門
語分割点設定手段によって切り出された専門語が、他の
語の異表記である場合、上記文章中の専門語の範囲を正
表記に置換する正表記置換手段と、入力された文章中の
字種の違いを検出する字種分割点設定手段と、入力され
た文章中で基本語格納手段中の基本語の範囲を切り出す
基本語分割点設定手段と、上記専門語分割点設定手段、
字種分割点設定手段、及び基本語分割点設定手段によっ
て設定された分割点から部分文字列を網羅的に切り出す
部分文字列切出手段と、上記部分文字列切出手段によっ
て切り出された文字列をキーワードとして出力する出力
手段とを備えた構造にしたので、文書に対する索引を付
与するキーワード抽出処理において、専門語を異表記表
現と共に格納した専門語格納手段を参照し、文書中に現
れる専門語のキーワードは、正表記に変換して文書に付
与する。このとき、正表記に変換した専門語が字種の違
いや基本語によって切り出した文字列と連接する場合
は、複合語となるキーワードも抽出することにより、網
羅的なキーワード抽出を行うことができる。検索時に
は、同じ専門語格納手段を用いて異表記は正表記に変換
して検索することより、従来の異表記に対応した文書検
索のように、検索のキーとなる語の異表記の数が組み合
わせ的に増えることなく、高速な文書検索が可能なキー
ワード抽出装置を提供することができる。
【0329】この発明の請求項2によれば、文章を入力
する入力ステップと、上記入力ステップによって入力さ
れた文章中に、専門語を異表記情報と共に格納した専門
語格納手段に登録されている専門語が存在する場合、上
記文章中でその専門語の範囲を切り出す専門語分割点設
定ステップと、上記専門語分割点設定ステップによって
切り出された専門語が、他の語の異表記である場合、上
記文章中の専門語の範囲を正表記に置換する正表記置換
ステップと、入力された文章中の字種の違いを検出する
字種分割点設定ステップと、入力された文章中で一般的
で使用頻度の高い語を格納した基本語格納手段中の基本
語の範囲を切り出す基本語分割点設定ステップと、上記
専門語分割点設定ステップ、字種分割点設定ステップ、
及び基本語分割点設定ステップによって設定された分割
点から部分文字列を網羅的に切り出す部分文字列切出ス
テップと、を備えた構成にしたので、請求項1の発明に
よるキーワード抽出装置の動作を実現する、高速な文書
検索が可能なキーワード抽出方法を提供することができ
る。また、基本語削除ステップを設けることにより、文
書を識別するためのキーワードとして不要な語を削除す
ることができるので、検索ゴミの少ない精度の良いキー
ワード抽出が実現できる。
【0330】この発明の請求項3によれば、請求項2に
記載のキーワード抽出方法を構成するステップに加え
て、接頭辞を格納した接頭辞格納手段を用いて入力され
た日本語文章中の接頭辞の範囲を切り出す接頭辞分割点
設定ステップを備え、部分文字列切出ステップは、専門
語分割点設定ステップ、字種分割点設定ステップ、基本
語分割点設定ステップ、及び接頭辞分割点設定ステップ
によって設定された分割点から部分文字列を網羅的に切
り出すので、接頭辞のある/なしと、接頭辞に後接する
語の異表記によって、検索のキーとなる語の異表記の数
が組み合わせ的に増えることなく、高速な文書検索を行
うためのキーワード抽出方法が実現できる。
【0331】この発明の請求項4によれば、請求項2ま
たは請求項3に記載のキーワード抽出方法を構成するス
テップに加えて、接尾辞を格納した接尾辞格納手段を用
いて入力された日本語文章中の接尾辞の範囲を切り出す
接尾辞分割点設定ステップを備え、部分文字列切出ステ
ップは、専門語分割点設定ステップ、字種分割点設定ス
テップ、基本語分割点設定ステップ、接頭辞分割点設定
ステップ、及び接尾辞分割点設定ステップによって設定
された分割点から部分文字列を網羅的に切り出すので、
接尾辞のある/なしと、接尾辞に前接する語の異表記に
よって、検索のキーとなる語の異表記の数が組み合わせ
的に増えることなく、高速な文書検索を行うためのキー
ワード抽出方法が実現できる。
【0332】この発明の請求項5によれば、請求項2乃
至請求項4の何れかに記載のキーワード抽出方法を構成
するステップに加えて、予め定められた文字列の長さの
範囲から外れる語はキーワード候補から削除する文字数
制限ステップを備えたので、抽出するキーワードの文字
数を一定範囲に限定することができ、さらに異表記は正
表記に変換した語を基に文字数をカウントすることによ
り、異表記間の文字数の違いによって、同じ意味を表す
語であるにもかかわらず、ある語は登録され、他の語は
削除されるという不統一を防ぐことが可能なキーワード
抽出方法が実現できる。
【0333】この発明の請求項6によれば、請求項2乃
至請求項5の何れかに記載のキーワード抽出方法を構成
するステップに加えて、キーワード候補として抽出され
た語の出現度数をカウントする頻度集計ステップを備え
たので、異表記は正表記に変換されてキーワードとして
抽出されるため、異表記の関係にある語同士が別の語と
判定されることなく、正確な頻度付きのキーワード抽出
方法が実現できる。
【0334】この発明の請求項7によれば、請求項2乃
至請求項6の何れかに記載のキーワード抽出方法を構成
するステップに加えて、予め定められた記号文字が入力
文中現れた場合、その記号文字の範囲を切り出す記号文
字分割点設定ステップと、上記部分文字列切出ステップ
または上記文字数制限ステップによって抽出されたキー
ワード又は改定キーワードの文字として該記号文字が含
まれる場合、上記記号文字分割点設定ステップによって
切り出された記号文字を取り除く記号文字削除ステップ
を備えたので、複合語の異表記処理において、複合語を
構成する語の間に現れる「・」や「/」を削除し、複合
語を構成する語ごとの異表記に対しても正表記に変換し
た語をキーワードとして文書に付与することができる。
検索時にも同じ処理を施すことにより、複合語の表現形
式による異表記と、複合語を構成する単語ごとの異表記
を統一的に扱うことができる。また、検索キーが複合語
の組み合わせによって増大することなく、高速な文書検
索を行うためのキーワード抽出方法が実現できる。
【0335】この発明の請求項8によれば、請求項2乃
至請求項7の何れかに記載のキーワード抽出方法を構成
するステップに加えて、一般的で使用頻度の高い語の異
表記表現を格納した非専門語異表記格納手段に登録され
ている異表記表現と上記専門語格納手段に登録されてい
る異表記表現を用いて、専門語が複合語である場合には
複合語を構成する部分文字列に分解する単語分割ステッ
プと、部分文字列の異表記表現を組み合わせて複合語の
異表記を生成する異表記展開ステップと、生成された異
表記を正表記との対応をとって専門語格納手段に登録す
る格納ステップを備えた異表記拡充ステップを備えたの
で、複合語に対し複合語を構成する語の異表記表現を組
み合わせた語を作成し、作成された異表記表現の集合中
の1つの語を正表記表現と定め、見出しと正表記とを対
応付けて専門語格納手段に格納することにより、専門語
格納手段に専門語として必要な語を登録する支援を行う
ことによって、検索キーを大量に発生させず、高速な検
索を可能にするキーワード抽出方法が実現できる。
【0336】この発明の請求項9によれば、日本語文章
を入力する入力手順と、上記入力手順によって入力され
た日本語文章中に、専門語を異表記情報と共に格納した
専門語格納手段に登録されている専門語が存在する場
合、上記日本語文章中でその専門語の範囲を切り出す専
門語分割点設定手順と、上記専門語分割点設定ステップ
によって切り出された専門語が、他の語の異表記である
場合、上記日本語文章中の専門語の範囲を正表記に置換
する正表記置換手順と、入力された日本語文章中の字種
の違いを検出する字種分割点設定手順と、入力された日
本語文章中で一般的で使用頻度の高い語を格納した基本
語格納手段中の基本語の範囲を切り出す基本語分割点設
定手順と、上記専門語分割点設定手順、字種分割点設定
手順、及び基本語分割点設定手順によって設定された分
割点から部分文字列を網羅的に切り出す部分文字列切出
手順と、を備えた構造にしたので、高速な文書検索が可
能なキーワード抽出処理をコンピュータに実行させる請
求項2のキーワード抽出方法のプログラムを記録したコ
ンピュータ読み取り可能な記録媒体を提供することがで
きる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1によるキーワード抽
出装置の全体の構成図である。
【図2】 この発明で用いられる専門語格納手段の一例
を示す図である。
【図3】 この発明で用いられる基本語格納手段の一例
を示す図である。
【図4】 この発明で用いられる有効品詞後接平仮名文
字列格納手段の一例を示す図である。
【図5】 この発明の実施の形態1によるキーワード抽
出方法のデータの流れを各ステップに対応付けて表した
図である。
【図6】 この発明の実施の形態1によるキーワード抽
出方法の動作を示すフローチャート図である。
【図7】 この発明による専門語分割点を設定する処理
の動作を示すフローチャート図である。
【図8】 この発明の専門語分割点を設定する処理にお
ける、処理対象文字列の例の状態を表した図である。
【図9】 この発明の処理対象文字列の例に対する処理
の途中段階の状態を表した図である。
【図10】 この発明の専門語分割点を設定する処理に
おける、処理対象文字列の例の状態を表した図である。
【図11】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図12】 この発明による有効文字列を取り出す動作
を示すフローチャート図である。
【図13】 この発明による字種分割点を設定する処理
の動作を示すフローチャート図である。
【図14】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図15】 この発明による基本語分割点を設定する処
理の動作を示すフローチャート図である。
【図16】 この発明による有効文字列から専門語を含
んでいない範囲の区切りを取り出す動作を示すフローチ
ャート図である。
【図17】 この発明による有効品詞の判定をする処理
の動作を示すフローチャート図である。
【図18】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図19】 この発明によるキーワード候補を取り出す
処理の動作を示すフローチャート図である。
【図20】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図21】 この発明の基本語分割点を設定する処理に
おける、処理対象文字列の例の状態を表した図である。
【図22】 この発明の基本語分割点を設定する処理に
おける、処理対象文字列の例の状態を表した図である。
【図23】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図24】 この発明の実施の形態1によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。
【図25】 この発明の実施の形態2によるキーワード
抽出方法の全体の構成図である。
【図26】 この発明の実施の形態2によるキーワード
抽出方法の動作を示すフローチャート図である。
【図27】 この発明による基本語削除処理の動作を示
すフローチャート図である。
【図28】 この発明の実施の形態2によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。
【図29】 この発明の実施の形態3によるキーワード
抽出方法の全体の構成図である。
【図30】 この発明で用いられる接頭辞格納手段の内
容の一例を示す図である。
【図31】 この発明の実施の形態3によるキーワード
抽出方法の動作を示すフローチャート図である。
【図32】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図33】 この発明による接頭辞分割点を設定する処
理の動作を示すフローチャート図である。
【図34】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図35】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図36】 この発明の実施の形態3によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。
【図37】 この発明の実施の形態4によるキーワード
抽出方法の全体の構成図である。
【図38】 この発明で用いられる接尾辞格納手段の内
容の一例を示す図である。
【図39】 この発明の実施の形態4によるキーワード
抽出方法の動作を示すフローチャート図である。
【図40】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図41】 この発明による接尾辞分割点を設定する処
理の動作を示すフローチャートである。
【図42】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図43】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図44】 この発明の実施の形態4によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。
【図45】 この発明の実施の形態5によるキーワード
抽出方法の全体の構成図である。
【図46】 この発明の実施の形態5によるキーワード
抽出方法の動作を示すフローチャート図である。
【図47】 この発明による文字数制限処理の動作を示
すフローチャート図である。
【図48】 この発明の実施の形態5によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。
【図49】 この発明の実施の形態6によるキーワード
抽出方法の全体の構成図である。
【図50】 この発明の実施の形態6によるキーワード
抽出方法の動作を示すフローチャート図である。
【図51】 この発明による頻度集計処理の動作を示す
フローチャート図である。
【図52】 この発明の実施の形態6によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。
【図53】 この発明の実施の形態7によるキーワード
抽出方法の全体の構成図である。
【図54】 この発明の実施の形態7によるキーワード
抽出方法の動作を示すフローチャート図である。
【図55】 この発明による記号文字分割点を設定する
処理の動作を示すフローチャート図である。
【図56】 この発明の処理対象文字列の例に対する処
理の途中段階の状態を表した図である。
【図57】 この発明による記号文字削除処理の動作を
示すフローチャート図である。
【図58】 この発明の実施の形態7によるキーワード
抽出方法のデータの流れの例を各ステップに対応付けて
表した図である。
【図59】 この発明の異表記拡充ステップとキーワー
ド抽出方法の関係を表す構成図である。
【図60】 この発明で用いられる非専門語異表記格納
手段の一例を示す図である。
【図61】 この発明の異表記拡充ステップの構成を表
す図である。
【図62】 この発明の異表記拡充ステップの動作を示
すフローチャート図である。
【図63】 この発明の異表記拡充ステップのデータの
流れの例を各サブステップに対応付けて表した図であ
る。
【図64】 従来のキーワード抽出法式の構成図であ
る。
【図65】 従来の文書検索方法の構成図である。
【図66】 従来の文書検索方法における処理の流れの
一部を示すフローチャート図である。
【図67】 従来の文字列検索のための異表記及び同義
語展開方法の構成図である。
【図68】 従来の異表記及び同義語展開処理の概略を
示す図である。
【符号の説明】
1:専門語格納手段、2:基本語格納手段、3:有効品詞
後接平仮名文字列格納手段、4:入力ステップ、5:専門
語格納手段管理ステップ、6:専門語分割点設定ステッ
プ、7:正表記置換ステップ、8:有効文字列切出ステッ
プ、9:字種分割点設定ステップ、10:基本語格納手段
管理ステップ、11:基本語分割点設定ステップ、12:有
効品詞後接平仮名文字列格納手段管理ステップ、13:有
効品詞判定ステップ、14:部分文字列切出ステップ、10
4:入力手段、105:専門語格納手段管理手段、106:専
門語分割点設定手段、107:正表記置換手段、108:有効
文字列切出手段、109:字種分割点設定手段、110:基本
語格納手段管理手段、111:基本語分割点設定手段、11
2:有効品詞後接平仮名文字列格納手段管理手段、113:
有効品詞判定手段、114:部分文列切出手段、115:制御
部、116:出力手段、2501:接頭辞格納手段、2502:接
頭辞格納手段管理ステップ、2503:接頭辞分割点設定ス
テップ、3301:接尾辞格納手段、3302:接尾辞格納手段
管理ステップ、3303:接尾辞分割点設定ステップ、410
1:基本語削除ステップ、4501:文字数制限ステップ、4
901:頻度集計ステップ、5301:記号文字分割点設定ス
テップ、5302:記号文字削除ステップ、5901:非専門語
異表記格納手段、5902:異表記拡充ステップ、6101:非
専門語異表記格納手段管理ステップ、6102:専門語異表
記管理ステップ、6103:単語分割ステップ、6104:異表
記展開ステップ、6105:格納ステップ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 正表記と異表記とを共に表記した専門語
    が格納された専門語格納手段と、 一般的で使用頻度の高い語が基本語として格納された基
    本語格納手段と、 文章を入力する入力手段と、 上記入力手段によって入力された文章中に、上記専門語
    格納手段に登録された専門語が存在する場合、上記文章
    中でその専門語の範囲を切り出す専門語分割点設定手段
    と、 上記専門語分割点設定手段によって切り出された専門語
    が、異表記である場合、正表記に置換する正表記置換手
    段と、 入力された文章中の字種の違いを検出する字種分割点設
    定手段と、 入力された文章中で基本語格納手段中の基本語の範囲を
    切り出す基本語分割点設定手段と、 上記専門語分割点設定手段と字種分割点設定手段及び基
    本語分割点設定手段によって設定された分割点から部分
    文字列を切り出す部分文字列切出手段と、 上記部分文字列切出手段によって切り出された文字列を
    キーワードとして出力する出力手段とを備えたキーワー
    ド抽出装置。
  2. 【請求項2】 文章を入力する入力ステップと、 上記入力ステップによって入力された文章中に、正表記
    と異表記とが共に表記された専門語が格納された専門語
    格納手段中の専門語が存在する場合、上記文章中でその
    専門語の範囲を切り出す専門語分割点設定ステップと、 上記専門語分割点設定ステップによって切り出された専
    門語が、異表記である場合、上記文章中の専門語の範囲
    を正表記に置換する正表記置換ステップと、 入力された文章中の字種の違いを検出する字種分割点設
    定ステップと、 入力された文章中に、一般的で使用頻度の高い語を基本
    語として格納した基本語格納手段中の基本語が存在する
    場合、上記文章中でその範囲を切り出す基本語分割点設
    定ステップと、 上記専門語分割点設定ステップと字種分割点設定ステッ
    プ及び基本語分割点設定ステップによって設定された分
    割点から部分文字列を切り出し、キーワードとする部分
    文字列切出ステップとを備えたキーワード抽出方法。
  3. 【請求項3】 上記入力ステップで入力された文章が日
    本語の場合、接頭辞を格納した接頭辞格納手段を用いて
    日本語文章中の接頭辞の範囲を切り出す接頭辞分割点設
    定ステップを備え、 上記部分文字列切出ステップは、専門語分割点設定ステ
    ップ、字種分割点設定ステップ、基本語分割点設定ステ
    ップ、及び接頭辞分割点設定ステップによって設定され
    た分割点から部分文字列を切り出し、キーワードとする
    請求項2記載のキーワード抽出方法。
  4. 【請求項4】 上記入力ステップで入力された文章が日
    本語の場合、接尾辞を格納した接尾辞格納手段を用いて
    入力された日本語文章中の接尾辞の範囲を切り出す接尾
    辞分割点設定ステップを備え、 上記部分文字列切出ステップは、専門語分割点設定ステ
    ップ、字種分割点設定ステップ、基本語分割点設定ステ
    ップ、接頭辞分割点設定ステップ、及び接尾辞分割点設
    定ステップによって設定された分割点から部分文字列を
    網羅的に切り出し、キーワードとする請求項2または請
    求項3記載のキーワード抽出方法。
  5. 【請求項5】 上記部分文字列切出ステップによって抽
    出されたキーワードから予め定められた文字列の長さの
    範囲から外れる語を削除し改定キーワードとする文字数
    制限ステップを備えた請求項2乃至請求項4の何れかに
    記載のキーワード抽出方法。
  6. 【請求項6】 上記部分文字列切出ステップまたは上記
    文字数制限ステップによって抽出されたキーワード又は
    改定キーワードの出現度数をカウントする頻度集計ステ
    ップを備えた請求項2乃至請求項5の何れかに記載のキ
    ーワード抽出方法。
  7. 【請求項7】 予め定められた記号文字が入力文中に現
    れた場合、その記号文字を切り出す記号文字分割点設定
    ステップと、 上記部分文字列切出ステップまたは上記文字数制限ステ
    ップによって抽出されたキーワード又は改定キーワード
    の文字として該記号文字が含まれる場合、上記記号文字
    分割点設定ステップによって切り出された記号文字を取
    り除く記号文字削除ステップを備えた請求項2乃至請求
    項6の何れかに記載のキーワード抽出方法。
  8. 【請求項8】 一般的で使用頻度の高い語の異表記表現
    を格納した非専門語異表記格納手段に登録されている異
    表記表現と上記専門語格納手段に登録されている異表記
    表現を用いて、 専門語が複合語である場合には複合語を構成する部分文
    字列に分解する単語分割ステップと、 部分文字列の異表記表現を組み合わせて複合語の異表記
    を生成する異表記展開ステップと、 生成された異表記を正表記との対応をとって専門語格納
    手段に登録する格納ステップを備えた異表記拡充ステッ
    プによって作成された専門語格納手段を用いる請求項2
    乃至請求項7の何れかに記載のキーワード抽出方法。
  9. 【請求項9】 文章を入力する入力手順と、 上記入力手順によって入力された文章中に、正表記と異
    表記とが共に表記された専門語が格納された専門語格納
    手段中の専門語が存在する場合、上記文章中でその専門
    語の範囲を切り出す専門語分割点設定手順と、 上記専門語分割点設定手順によって切り出された専門語
    が、異表記である場合、上記文章中の専門語の範囲を正
    表記に置換する正表記置換手順と、 入力された文章中の字種の違いを検出する字種分割点設
    定手順と、 入力された文章中で一般的で使用頻度の高い語を基本語
    として格納した基本語格納手段中の基本語の範囲を切り
    出す基本語分割点設定手順と、 上記専門語分割点設定手順、字種分割点設定手順、及び
    基本語分割点設定手順によって設定された分割点から部
    分文字列を網羅的に切り出す部分文字列切出手順と、 を備えたキーワード抽出処理をコンピュータに実行させ
    るプログラムを記録したコンピュータ読み取り可能な記
    録媒体。
JP9210252A 1997-08-05 1997-08-05 キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 Abandoned JPH1153384A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9210252A JPH1153384A (ja) 1997-08-05 1997-08-05 キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US09/123,809 US6173251B1 (en) 1997-08-05 1998-07-28 Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9210252A JPH1153384A (ja) 1997-08-05 1997-08-05 キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JPH1153384A true JPH1153384A (ja) 1999-02-26

Family

ID=16586311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9210252A Abandoned JPH1153384A (ja) 1997-08-05 1997-08-05 キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US6173251B1 (ja)
JP (1) JPH1153384A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308324A (ja) * 2002-04-12 2003-10-31 Yomiuri Shimbun 検索語処理装置及び文書検索装置
JP2006120048A (ja) * 2004-10-25 2006-05-11 Kddi Corp テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム
US7191177B2 (en) 2000-01-05 2007-03-13 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device

Families Citing this family (162)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
JP2001358602A (ja) * 2000-06-14 2001-12-26 Nec Corp 文字情報受信装置
US6461166B1 (en) 2000-10-17 2002-10-08 Dennis Ray Berman Learning system with learner-constructed response based testing methodology
US7475009B2 (en) * 2001-06-11 2009-01-06 Hiroshi Ishikura Text input support system and method
US7010515B2 (en) * 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
US7074128B2 (en) 2001-08-03 2006-07-11 Drb Lit Ltd. Method and system for enhancing memorization by using a mnemonic display
US7257529B2 (en) * 2001-09-10 2007-08-14 Intel Corporation Apparatus and method for an automated grammar file expansion tool
US8078545B1 (en) 2001-09-24 2011-12-13 Aloft Media, Llc System, method and computer program product for collecting strategic patent data associated with an identifier
JP2004005439A (ja) * 2002-03-28 2004-01-08 Matsushita Electric Ind Co Ltd コンテンツ検索装置およびコンテンツ検索方法
US7357640B2 (en) * 2003-07-02 2008-04-15 Drb Lit Ltd. Lock-In Training system
TWM249950U (en) * 2004-01-02 2004-11-11 Cvc Technologies Inc Cap tightening machine capable of controlling tightening torque
US7364432B2 (en) * 2004-03-31 2008-04-29 Drb Lit Ltd. Methods of selecting Lock-In Training courses and sessions
US7275049B2 (en) * 2004-06-16 2007-09-25 The Boeing Company Method for speech-based data retrieval on portable devices
US8112401B2 (en) * 2005-05-25 2012-02-07 Ecteon, Inc. Analyzing externally generated documents in document management system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP4236057B2 (ja) * 2006-03-24 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 新たな複合語を抽出するシステム
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
KR100691400B1 (ko) * 2006-03-31 2007-03-12 엔에이치엔(주) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
US20080235148A1 (en) * 2007-03-20 2008-09-25 Jiezhou Liu Online Dynamic Evaluation and Search for Products and Services
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US7814107B1 (en) * 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
US8046372B1 (en) 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
US7895225B1 (en) 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8606795B2 (en) * 2008-07-01 2013-12-10 Xerox Corporation Frequency based keyword extraction method and system using a statistical measure
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20150006563A1 (en) * 2009-08-14 2015-01-01 Kendra J. Carattini Transitive Synonym Creation
US8392441B1 (en) 2009-08-15 2013-03-05 Google Inc. Synonym generation using online decompounding and transitivity
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8661361B2 (en) 2010-08-26 2014-02-25 Sitting Man, Llc Methods, systems, and computer program products for navigating between visual components
US9715332B1 (en) 2010-08-26 2017-07-25 Cypress Lake Software, Inc. Methods, systems, and computer program products for navigating between visual components
US8780130B2 (en) 2010-11-30 2014-07-15 Sitting Man, Llc Methods, systems, and computer program products for binding attributes between visual components
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US10397639B1 (en) 2010-01-29 2019-08-27 Sitting Man, Llc Hot key systems and methods
US20110202573A1 (en) * 2010-02-12 2011-08-18 Mark Golino Clinical hyper-review and reconciliation system
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US8798366B1 (en) 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9881009B1 (en) 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102698417B1 (ko) 2013-02-07 2024-08-26 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170116180A1 (en) * 2015-10-23 2017-04-27 J. Edward Varallo Document analysis system
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10521509B2 (en) * 2016-08-15 2019-12-31 Ebay Inc. Snippet generation and item description summarizer
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US9965460B1 (en) * 2016-12-29 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Keyword extraction for relationship maps
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11687723B2 (en) 2020-03-23 2023-06-27 International Business Machines Corporation Natural language processing with missing tokens in a corpus
CN111709247B (zh) * 2020-05-20 2023-04-07 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
CN112651860B (zh) * 2020-12-18 2021-11-05 重庆师范大学 讨论式机器人教学系统、方法及装置
US11966709B2 (en) * 2021-04-16 2024-04-23 Bank Of America Corporation Apparatus and methods to contextually decipher and analyze hidden meaning in communications
US12182510B2 (en) 2022-03-08 2024-12-31 International Business Machines Corporation Unidirectional text comparison
CN114997161A (zh) * 2022-05-23 2022-09-02 河北省讯飞人工智能研究院 关键词抽取方法、装置、电子设备与存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03271962A (ja) * 1990-03-20 1991-12-03 Nec Corp 複合語抽出装置
JPH0486948A (ja) * 1990-07-31 1992-03-19 Dainippon Printing Co Ltd 分野別辞書を利用したカナ振りデータベースの作成方法
JPH05274351A (ja) * 1992-03-25 1993-10-22 Ricoh Co Ltd キーワード抽出方式
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法
JPH07230468A (ja) * 1994-02-18 1995-08-29 Fujitsu Ltd キーワード自動抽出装置およびキーワード自動抽出方法
JPH07319890A (ja) * 1994-05-26 1995-12-08 Fuji Xerox Co Ltd 文書登録検索システム
JPH09198395A (ja) * 1996-01-16 1997-07-31 Fuji Xerox Co Ltd 文書検索装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JP3025724B2 (ja) * 1992-11-24 2000-03-27 富士通株式会社 類義語生成処理方法
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03271962A (ja) * 1990-03-20 1991-12-03 Nec Corp 複合語抽出装置
JPH0486948A (ja) * 1990-07-31 1992-03-19 Dainippon Printing Co Ltd 分野別辞書を利用したカナ振りデータベースの作成方法
JPH05274351A (ja) * 1992-03-25 1993-10-22 Ricoh Co Ltd キーワード抽出方式
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法
JPH07230468A (ja) * 1994-02-18 1995-08-29 Fujitsu Ltd キーワード自動抽出装置およびキーワード自動抽出方法
JPH07319890A (ja) * 1994-05-26 1995-12-08 Fuji Xerox Co Ltd 文書登録検索システム
JPH09198395A (ja) * 1996-01-16 1997-07-31 Fuji Xerox Co Ltd 文書検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7191177B2 (en) 2000-01-05 2007-03-13 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
JP2003308324A (ja) * 2002-04-12 2003-10-31 Yomiuri Shimbun 検索語処理装置及び文書検索装置
JP2006120048A (ja) * 2004-10-25 2006-05-11 Kddi Corp テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム

Also Published As

Publication number Publication date
US6173251B1 (en) 2001-01-09

Similar Documents

Publication Publication Date Title
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US5992737A (en) Information search method and apparatus, and medium for storing information searching program
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
US6125377A (en) Method and apparatus for proofreading a document using a computer system which detects inconsistencies in style
US6976214B1 (en) Method, system, and program for enhancing text composition in a text editor program
JPH09198395A (ja) 文書検索装置
JPS63244259A (ja) キ−ワ−ド抽出装置
JP2002251402A (ja) 文書検索方法及び文書検索装置
US20040054677A1 (en) Method for processing text in a computer and a computer
JP4298342B2 (ja) 重要度算出装置
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JPH0877196A (ja) 文書情報抽出装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JP3348872B2 (ja) 日本語形態素解析装置
JPH04330565A (ja) 自然言語処理システム
KR20020003701A (ko) 디지털 문서의 키워드를 자동으로 추출하는 방법
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JP2575947B2 (ja) 文節切出し装置
JPH08263508A (ja) 文書検索方法
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH08190570A (ja) 文書データの比較検証システム
JPH11175525A (ja) 自然言語処理用データベース装置
JPH0981581A (ja) データベースの作成方法

Legal Events

Date Code Title Description
A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20040203