JPH10177575A - 語句抽出装置および方法、情報記憶媒体 - Google Patents

語句抽出装置および方法、情報記憶媒体

Info

Publication number
JPH10177575A
JPH10177575A JP8301477A JP30147796A JPH10177575A JP H10177575 A JPH10177575 A JP H10177575A JP 8301477 A JP8301477 A JP 8301477A JP 30147796 A JP30147796 A JP 30147796A JP H10177575 A JPH10177575 A JP H10177575A
Authority
JP
Japan
Prior art keywords
phrase
importance
provisional
word
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8301477A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Toru Matsuda
透 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8301477A priority Critical patent/JPH10177575A/ja
Publication of JPH10177575A publication Critical patent/JPH10177575A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 人間が判断して用意する情報や人間の判断を
要することなく、テキストデータから語句を抽出して重
要度を算出する。 【解決手段】 テキストデータを言語解析し、この解析
結果に基づいてテキストデータから語句を抽出する。こ
の語句の文字や品詞や文節情報に基づいて複数の仮重要
度を算出し、これを単調な演算によりテキストデータで
の出現位置毎に一つに合成し、このテキストデータの複
数位置で個々に算出された一つの語句の仮重要度を、単
調な演算により一つに合成して本重要度を算出する。語
句の抽出から本重要度の算出まで処理を機械的に実行す
ることができ、この処理に必要な各種データも人間の判
断を要することなく機械的に用意することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータか
ら所定の語句を抽出し、その重要度を算出する語句抽出
装置および方法、コンピュータを語句抽出装置として機
能させるためのプログラムが記録されている情報記憶媒
体に関する。
【0002】
【従来の技術】従来、文書データベースにテキストデー
タを格納するような場合、その検索用のキーワードを所
定の語句として抽出しておくことが行なわれている。こ
のようにテキストデータからキーワードを抽出しておけ
ば、このキーワードに基づいてテキストデータを良好に
検索することができる。
【0003】このキーワードの抽出作業を人間が実行す
る場合、適正なキーワードを的確に抽出することが可能
であるが、その作業は極度に煩雑なので、現在ではテキ
ストデータからキーワードを自動的に抽出することが提
案されている。一般的なキーワードの自動抽出では、キ
ーワードとなる語句を予め設定しておき、この語句を文
字列のパターンマッチングによりテキストデータから抽
出する。
【0004】しかし、これだけでは、テキストデータに
一度だけ出現した語句がキーワードとして抽出されるよ
うな不都合も発生するため、現在では抽出された語句の
テキストデータにおける重要度を算出し、この重要度に
基づいてキーワードに順位を付与したり、キーワードと
なる語句を取捨選択するようなことが行なわれている。
【0005】このようにテキストデータから抽出された
語句の重要度を算出することは、例えば、特開平6-2825
72号公報、特開平7-085101号公報、特開平7-319882号公
報、特開平7-312885号公報、等に記載されている。特開
平6-282572号公報に記載された語句抽出装置は、日本語
の自然言語のテキストデータを文単位に分割してから形
態素解析し、品詞や意味分類等の形態素情報に基づいて
文単位のテキストデータからキーワード候補を抽出す
る。つぎに、このキーワード候補の格タイプや出現頻度
等を取得し、このような各種情報に基づいてキーワード
候補の重要度を算出し、この重要度に基づいてキーワー
ドを候補から取捨選択する。
【0006】特開平7-085101号公報に記載された語句抽
出装置では、テキストデータを構文解析して語句に重要
度の累積値を割り当て、これに語句の意味属性に対応し
た重み値、語句の品詞と格とに対応した重み値、テキス
トデータでの語句の出現状態に対応した重み値を順番に
加算し、この加算結果である重要度が閾値を超過した語
句のみキーワードとして選択する。
【0007】特開平7-319882号公報に記載された語句抽
出方法では、テキストデータの単語を検索キーとした場
合の検索の効率性と、単語の検索キーとしての想起性と
を、予め統計的に求めて数値化しておき、これらの両方
が高い単語を検索キーとして選択する。
【0008】特開平7-312885号公報に記載された語句抽
出装置では、複数の語句からなる表現をテキストデータ
から抽出し、抽出された表現の語句の関係を解析してリ
レーション情報に変換する。語句が同一でリレーション
情報が相反しないリレーション表現を選択し、ここから
リレーション情報の抽象度が低いリレーション表現をキ
ーワード候補として選択する。さらに、全部のリレーシ
ョン表現の出現頻度を計数してキーワード候補の重要度
を評価し、この評価結果に基づいてキーワードを候補か
ら選定する。
【0009】
【発明が解決しようとする課題】上述のような語句抽出
装置は、何れもテキストデータからキーワード候補を抽
出し、この候補から重要度に基づいてキーワードを選択
することができるが、何れも重要度の算出が煩雑である
等の課題を有している。
【0010】つまり、特開平6-282572号公報に記載され
た語句抽出装置の場合、品詞や意味分類等の形態素情報
を予め用意しておく必要があるが、これは人手で行なう
必要があり作業が極度に煩雑である。また、重要度の算
出に利用するキーワード候補の格タイプは四つしかな
く、重要度を算出する要素が格タイプと出現頻度のみな
ので、重要度を微妙に算出することができない。
【0011】また、特開平7-085101号公報に記載された
語句抽出装置の場合、各語句毎に意味属性を用意してお
き、この意味属性や品詞等の各種情報に重み値を設定し
ておく必要があるが、これは人手で行なう必要があり作
業が極度に煩雑である。また、重要度の算出方法として
各種の重み値を順次加算しているが、このように単純な
加算では重要度を適正に算出できない場合がある。
【0012】また、特開平7-319882号公報に記載された
語句抽出方法の場合、重要度の算出に利用する要素が検
索の効率性と検索キーとしての想起性のみなので、重要
度を微妙に算出することができない。しかも、重要度の
算出に利用する要素が統計的な情報のみなので、重要度
を客観的に算出することができず、統計的な情報が不充
分な新規の語句などの精度が低い。
【0013】特開平7-312885号公報に記載された語句抽
出装置の場合、リレーション情報が相反しないことを判
定する処理や、リレーション情報の抽象度を判定する処
理が必要であり、その処理の負担が大きく精度も低い。
このような処理を実現できるプログラムは構造が複雑と
なるが、これは人手で記述する必要があるので、この作
業が極度に煩雑である。
【0014】
【課題を解決するための手段】請求項1記載の発明の語
句抽出装置は、各種データの入力を受け付けるデータ入
力デバイスと、各種データを一時記憶するデータ記憶デ
バイスと、前記データ入力デバイスに入力されるテキス
トデータを受け付けるテキスト入力手段と、入力された
テキストデータを前記データ記憶デバイスに一時記憶さ
せるデータ記憶手段と、一時記憶されたテキストデータ
を言語解析する言語解析手段と、解析結果に基づいてテ
キストデータから所定の語句を抽出する語句抽出手段
と、語句の文字と品詞と文節情報との少なくとも一つに
基づいて仮重要度を算出する仮重要度算出手段と、テキ
ストデータでの語句の出現状態に対応して仮重要度から
本重要度を算出する本重要度算出手段とを有する。従っ
て、ユーザが所望のテキストデータをデータ入力デバイ
スに入力すると、これがテキスト入力手段により受け付
けられてデータ記憶手段によりデータ記憶デバイスに格
納される。このように一時記憶されたテキストデータは
言語解析手段により言語解析され、この解析結果に基づ
いて語句抽出手段によりテキストデータから所定の語句
が抽出される。この語句の文字と品詞と文節情報との少
なくとも一つに基づいて仮重要度算出手段により仮重要
度が算出され、テキストデータでの語句の出現状態に対
応して本重要度算出手段により仮重要度から本重要度が
算出されるので、テキストデータから抽出された語句が
重要度とともにユーザに提供される。このように抽出さ
れた語句はテキストデータの検索キーとして利用するこ
とができ、その検索キーとしての性能は重要度から判定
することができるので、例えば、重要度に基づいて語句
を取捨選択して検索キーを生成するようなことができ
る。なお、本発明で云う語句は、日本語の一連の文字列
からなる表現であり、例えば、単語、熟語、複合語、慣
用句、技術用語、等である。
【0015】請求項2記載の発明は、請求項1記載の語
句抽出装置であって、仮重要度算出手段は、語句の文字
と品詞と文節情報との少なくとも二つに基づいて個々に
算出した複数の仮重要度を単調な演算により一つに合成
する。従って、語句の仮重要度が、語句の複数の要素か
ら算出される。この仮重要度の算出に利用される要素
は、一般的な言語解析により機械的に生成されるので、
この要素を生成するために専用の情報を用意しておく必
要はない。なお、本発明で云う単調な演算とは、以下の
ようなものである。算出する要素が“x1≦x2”ならば
必ず“x1○y≦x2○y”となるような“x”について
単調非減少な演算“○”と、“x1≦x2”ならば必ず
“x1○y≧x2○y”となるような“x”について単調
非増加な演算“○”とをまとめて、“x”について単調
な単調な演算と呼び、同様に、“y”について単調非減
少な演算と“y”について単調非増加な演算とをまとめ
て“y”について単調な単調な演算と呼び、“x”と
“y”の両方について単調な演算を単に単調な演算と呼
んでいる。例えば、加算、乗算、減算、最大値、最小
値、平均値などは単調な演算である。
【0016】請求項3記載の発明は、請求項1または2
記載の語句抽出装置であって、仮重要度算出手段は、一
つの語句の仮重要度をテキストデータでの複数の出現位
置で個々に算出し、本重要度算出手段は、テキストデー
タの複数位置での仮重要度を単調な演算により一つに合
成して本重要度を算出する。従って、一つの語句がテキ
ストデータの複数位置に出現する場合、その各々の位置
で仮重要度が個々に算出され、この複数の仮重要度が一
つに合成されて本重要度が算出される。
【0017】請求項4記載の発明は、請求項1ないし3
の何れか一記載の語句抽出装置であって、テキストデー
タでの語句の出現頻度を算出する頻度算出手段を設け、
出現頻度に基づいた演算により語句の本重要度を補正す
る重要度補正手段を設けた。従って、テキストデータで
の語句の出現頻度が頻度算出手段により算出され、この
出現頻度に基づいた重要度補正手段の演算により語句の
本重要度が補正されるので、語句の本重要度にテキスト
データでの出現頻度も反映される。
【0018】請求項5記載の発明は、請求項1ないし4
の何れか一記載の語句抽出装置であって、語句の長さを
検出する語長検出手段を設け、長さに基づいた演算によ
り語句の本重要度を補正する重要度補正手段を設けた。
従って、語句の長さが語長検出手段により検出され、こ
の長さに基づいた重要度補正手段の演算により語句の本
重要度が補正されるので、語句の本重要度に長さも反映
される。
【0019】請求項6記載の発明は、請求項1ないし5
の何れか一記載の語句抽出装置であって、語句に基づい
てテキストデータを検索した場合の効率を算出する効率
算出手段を設け、検索の効率に基づいた演算により語句
の本重要度を補正する重要度補正手段を設けた。従っ
て、語句に基づいてテキストデータを検索した場合の効
率が効率算出手段により算出され、この検索の効率に基
づいた重要度補正手段の演算により語句の本重要度が補
正されるので、語句の本重要度に検索効率も反映され
る。
【0020】請求項7記載の発明は、請求項1ないし6
の何れか一記載の語句抽出装置であって、演算の実行前
に各種要素を正規化する要素正規化手段を設けた。従っ
て、演算に利用される複数の要素の桁数等が相違する場
合でも、これが正規化されてから演算に利用される。
【0021】請求項8記載の発明は、請求項1ないし7
の何れか一記載の語句抽出装置であって、語句抽出手段
は、語句の先頭と末尾との単語の情報が組み合わされて
設定されており、テキストデータの一つの文節から先頭
と末尾との単語の情報が整合する語句を抽出する。従っ
て、複数の単語からなる語句を語句抽出手段がテキスト
データから抽出する場合、その先頭と末尾との単語がテ
キストデータの一つの文節から検出されると語句が抽出
されるので、複数の単語からなる語句がテキストデータ
から抽出される。なお、本発明で云う単語の情報は、複
数の単語からなる語句の抽出に利用できるような情報で
あり、例えば、品詞である。
【0022】請求項9記載の発明は、請求項1ないし7
の何れか一記載の語句抽出装置であって、数詞および助
数詞が予め設定された数詞辞書を設け、語句抽出手段が
抽出した語句から先頭と末尾との少なくとも一方に数詞
と助数詞との少なくとも一方が存在するものを除外する
語句除外手段を設けた。従って、語句抽出手段が抽出し
た語句の先頭や末尾に数詞や助数詞が存在する場合、そ
の語句は語句除外手段により抽出結果から除外されるの
で、テキストデータの検索キーとして不適な語句が除外
される。
【0023】請求項10記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、所定の接辞
が予め設定された接辞辞書を設け、語句抽出手段が抽出
した語句から先頭と末尾との少なくとも一方に所定の接
辞が存在するものに所定の処理を実行する語句処理手段
を設けた。従って、語句抽出手段が抽出した語句の先頭
や末尾に所定の接辞が存在する場合、その語句は語句処
理手段により所定の処理が実行されるので、例えば、テ
キストデータの検索キーとして不適な語句の除外等が実
行される。
【0024】請求項11記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、語句抽出手
段は、所定の一連の単語のパターン情報が設定されてお
り、このパターン情報に整合した語句をテキストデータ
から抽出する。従って、複数の単語からなる語句を語句
抽出手段がテキストデータから抽出する場合、所定の一
連の単語のパターン情報の照合により抽出が実行される
ので、所望のパターン情報に対応する語句が抽出され
る。なお、一連の単語のパターン情報は、所定の一連の
単語からなる語句の抽出に利用できるような情報であ
り、例えば、品詞の情報を特定の演算子で組み合わたも
のである。
【0025】請求項12記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、各文字毎に所定の数値が設定されており、語
句を形成する複数の文字の数値を単調な演算により一つ
に合成して仮重要度を算出する。従って、仮重要度算出
手段が語句の仮重要度を算出する場合、語句の文字の個
々の数値から仮重要度が算出されるので、語句の仮重要
度に文字の情報が反映される。
【0026】請求項13記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、各品詞毎に所定の数値が設定されており、語
句を形成する複数の品詞の数値を単調な演算により一つ
に合成して仮重要度を算出する。従って、複数の単語か
らなる語句の仮重要度を仮重要度算出手段が算出する場
合、語句を形成する複数の単語の品詞の数値から仮重要
度が算出されるので、語句の仮重要度に複数の単語の品
詞の情報が反映される。
【0027】請求項14記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、語句の仮重要度が文節属性のリスト毎に設定
されており、この文節属性のリストが整合する文節の語
句に仮重要度を付与する。従って、仮重要度算出手段が
語句の仮重要度を算出する場合、文節属性のリストが整
合する文節の語句に予め用意された仮重要度が付与され
るので、語句の仮重要度が文節属性に対応して決定され
る。
【0028】請求項15記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、語句の仮重要度が特定の文節属性に設定され
ており、この文節属性の文節と係り受け関係の文節の語
句に仮重要度を付与する。従って、仮重要度算出手段が
語句の仮重要度を算出する場合、特定の文節属性の文節
と係り受け関係の文節の語句に予め用意された仮重要度
が付与されるので、語句の仮重要度が文節の係り受け関
係に対応して決定される。
【0029】請求項16記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、各文節属性毎に所定の数値が設定されてお
り、語句が出現した文節の複数の文節属性の数値を単調
な演算により一つに合成して仮重要度を算出する。従っ
て、仮重要度算出手段が語句の仮重要度を算出する場
合、文節の複数の文節属性の数値から仮重要度が算出さ
れるので、語句の仮重要度に文節属性が反映される。
【0030】請求項17記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、語句の仮重要度が文節の係り受け関係毎に設
定されており、この係り受け関係の係り側の文節の語句
に仮重要度を付与する。従って、仮重要度算出手段が語
句の仮重要度を算出する場合、特定の係り受け関係の係
り側の文節の語句に仮重要度が付与されるので、語句の
仮重要度が文節の係り受け関係に対応して決定される。
【0031】請求項18記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、語句の仮重要度が文節の係り受け関係で受け
側となる文節情報毎に設定されており、この文節情報が
受け側の文節に整合した係り受け関係の係り側の文節の
語句に仮重要度を付与する。従って、仮重要度算出手段
が語句の仮重要度を算出する場合、係り受け関係の受け
側の特定の文節情報の文節の語句に仮重要度が付与され
るので、語句の仮重要度が文節情報と係り受け関係とに
対応して決定される。
【0032】請求項19記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、文節の係り受け関係毎に所定の数値が設定さ
れており、この係り受け関係がテキストデータの複数位
置から検出された場合に対応する個数の数値を単調な演
算により一つに合成して仮重要度を算出し、この仮重要
度を係り受け関係の受け側の文節の語句に付与する。従
って、仮重要度算出手段が語句の仮重要度を算出する場
合、テキストデータの複数位置から検出される特定の係
り受け関係の数値から仮重要度が算出されるので、語句
の仮重要度に係り受け関係が反映される。
【0033】請求項20記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、文節の係り受け関係で係り側となる文節情報
毎に所定の数値が設定されており、この文節情報が係り
側の文節に整合した係り受け関係がテキストデータの複
数位置から検出された場合に対応する個数の数値を単調
な演算により一つに合成して仮重要度を算出し、この仮
重要度を係り受け関係の受け側の文節の語句に付与す
る。従って、仮重要度算出手段が語句の仮重要度を算出
する場合、テキストデータの複数位置から検出される係
り受け関係の係り側の特定の文節情報の文節の数値から
仮重要度が算出されるので、語句の仮重要度に文節情報
と係り受け関係とが反映される。
【0034】請求項21記載の発明は、請求項1ないし
7の何れか一記載の語句抽出装置であって、仮重要度算
出手段は、請求項14ないし20の少なくとも二つに記
載の仮重要度を単調な演算により一つに合成する。従っ
て、仮重要度算出手段が語句の仮重要度を算出する場
合、上述した請求項14ないし20の少なくとも二つに
記載の仮重要度が単調な演算により一つに合成されるの
で、語句の仮重要度が文節情報や係り受け関係の複数の
要素から算出される。
【0035】請求項22記載の発明の語句抽出方法は、
テキストデータを言語解析し、この解析結果に基づいて
テキストデータから所定の語句を抽出し、その語句の文
字と品詞と文節情報との少なくとも一つに基づいて仮重
要度を算出し、テキストデータでの語句の出現状態に対
応して仮重要度から本重要度を算出するようにした。従
って、ユーザが所望するテキストデータから語句が抽出
されて重要度とともにユーザに提供されるので、このよ
うに抽出された語句はテキストデータの検索キーとして
利用することができる。その検索キーとしての性能は重
要度から判定することができるので、例えば、重要度に
基づいて語句を取捨選択して検索キーを生成するような
ことができる。
【0036】請求項23記載の発明の情報記憶媒体は、
コンピュータに、データ入力デバイスによるテキストデ
ータの入力を受け付けること、入力されたテキストデー
タをデータ記憶デバイスに一時記憶させること、一時記
憶されたテキストデータを言語解析すること、この解析
結果に基づいてテキストデータから所定の語句を抽出す
ること、その語句の文字と品詞と文節情報との少なくと
も一つに基づいて仮重要度を算出すること、テキストデ
ータでの語句の出現状態に対応して仮重要度から本重要
度を算出すること、を実行させるためのプログラムが記
録されている。従って、データ入力デバイスとデータ記
憶デバイスとが接続されたコンピュータに、このプログ
ラムを読み取らせて対応する動作を実行させると、この
コンピュータはテキストデータから語句を抽出して重要
度を算出する語句抽出装置として機能する。つまり、ユ
ーザが所望のテキストデータをデータ入力デバイスに入
力すると、プログラムに対応したコンピュータの処理動
作により、これが受け付けられてデータ記憶デバイスに
より一時記憶される。このように一時記憶されたテキス
トデータは言語解析され、この解析結果に基づいてテキ
ストデータから所定の語句が抽出される。この語句の文
字と品詞と文節情報との少なくとも一つに基づいて仮重
要度が算出され、テキストデータでの語句の出現状態に
対応して仮重要度から本重要度が算出されるので、テキ
ストデータから抽出された語句が重要度とともにユーザ
に提供される。このように抽出された語句はテキストデ
ータの検索キーとして利用することができ、その検索キ
ーとしての性能は重要度から判定することができるの
で、例えば、重要度に基づいて語句を取捨選択して検索
キーを生成するようなことができる。
【0037】
【発明の実施の形態】本発明の実施の一形態を図面に基
づいて以下に説明する。まず、本実施の形態の語句抽出
装置1は、そのハードウェアとしてデータ処理装置であ
るコンピュータシステムを有している。
【0038】このコンピュータシステムは、図3および
図4に示すように、コンピュータの主体としてCPU(C
entral Processing Unit)2を有しており、このCPU
2には、バスライン3により、ROM(Read Only Memor
y)4、RAM(Random AccessMemory)5、HDD(Hard D
isc Drive)6、FD(Floppy Disc)7が装填されるF
DD(FD Drive)8、CD(Compact Disc)−ROM9が装
填されるCD−ROMドライブ10、マウス11が接続
されたキーボード12、ディスプレイ13、通信I/F
(Interface)14、等が接続されている。
【0039】なお、このコンピュータシステムの通信I
/F14には、電子ファイルユニット15が接続されて
おり、この電子ファイルユニット15には、多数のMO
(Magnetic Optical Disc)が収納されている。この多数
のMOには日本語の自然言語による文書のテキストデー
タが電子ファイルとして格納されており、そのテキスト
データの各々には日本語の語句により検索キーが付与さ
れている。
【0040】上述のようなコンピュータシステムは、各
種データの外部入力を受け付けるデータ入力デバイスと
して、前記ドライブ8,10、前記マウス11および前
記キーボード12、前記通信I/F14、等を有してお
り、各種データの外部出力を実行するデータ出力デバイ
スとしては、前記FDD8、前記ディスプレイ13、前
記通信I/F14、等を有している。また、各種データ
を一時記憶するデータ記憶デバイスとして、前記RAM
5、前記HDD6、前記FD7、等を有しており、予め
記録されたソフトウェアを前記CPU2に提供できる情
報記憶媒体としては、前記ROM4、前記RAM5、前
記HDD6、前記FD7、前記CD−ROM9、等を有
している。
【0041】このコンピュータシステムでは、前記CP
U2に各種の処理動作を実行させるための制御プログラ
ムがソフトウェアとして予め設定されており、このよう
な制御プログラムは、例えば、前記CD−ROM9に予
め記録されている。このようなソフトウェアは前記HD
D6(図示せず)に予めインストールされており、前記
コンピュータシステムの起動時に前記RAM5に複写さ
れて動作時に前記CPU2に読み取られる。
【0042】このように前記CPU2が各種のプログラ
ムを読み取って対応するデータ処理を実行することによ
り、各種機能が各種手段として実現されるので、このコ
ンピュータシステムが語句抽出装置1として動作する。
この語句抽出装置1は、上述のような各種手段として、
テキスト入力手段21、データ記憶手段22、言語解析
手段23、語句抽出手段24、仮重要度算出手段25、
本重要度算出手段26、重要度補正手段27、頻度算出
手段28、語長検出手段29、効率算出手段30、結果
出力手段31、等を有している。
【0043】前記テキスト入力手段21は、前記RAM
5のプログラムに対応した前記CPU2の所定のデータ
処理により、例えば、前記FD7に記録された文書のテ
キストデータを前記FDD8から読み込み、テキストデ
ータの入力を受け付ける。以下同様に、前記RAM5の
プログラムに対応した前記CPU2のデータ処理によ
り、前記データ記憶手段22は、入力されたテキストデ
ータを前記RAM5の所定のワークエリアに記録する。
【0044】前記言語解析手段23は、その一部として
形態素解析手段と構文解析手段とを有しており、テキス
トデータの言語解析として形態素解析と構文解析とを実
行し、語句抽出手段24は、その解析結果に基づいてテ
キストデータから所定の語句を抽出する。このように抽
出される語句は、テキストデータの検索キーとなりうる
語句であり、この抽出時点では検索キー候補として認識
されている。
【0045】より詳細には、この語句抽出手段24が抽
出する語句は、ここでは少なくとも一個の単語からなる
表現として設定されており、その抽出用のパターンデー
タは、語句の先頭と末尾との単語の品詞等の情報の組み
合わせとして前記RAM5に記録されている。この語句
抽出手段24は、品詞等の照合によりテキストデータか
ら先頭の単語を検出すると、これと組み合わされた末尾
の単語の品詞を同一の文節の後部から検索し、これが検
出されると先頭から末尾までの文字列を語句として抽出
する。
【0046】前記仮重要度算出手段25は、語句の文字
と品詞と文節情報との各々に基づいて仮重要度を個々に
算出し、これら複数の仮重要度を単調な演算により一つ
に合成する。ただし、同一の語句がテキストデータの複
数位置に出現している場合、その複数位置の各々で語句
の仮重要度は個々に算出される。
【0047】より詳細には、前記仮重要度算出手段25
は、その一部として、文字情報辞書、品詞情報辞書、文
節情報辞書、を有しており、これらの辞書はデータファ
イルとして前記RAM5に記憶されている。前記文字情
報辞書には、日本語の全部の文字が記録されており、各
文字毎に所定の数値が設定されている。前記品詞情報辞
書には、日本語の全部の品詞が記録されており、各品詞
毎に所定の数値が設定されている。前記文節情報辞書に
は、文節情報である文節属性のリストが設定されてお
り、この文節属性のリスト毎に語句の仮重要度が設定さ
れている。この文節属性のリストは、ある文節から文節
情報として検出される一連の文節属性をパターン化した
ものであり、例えば、“体言句 連用 読点連体 並列
連体 時数 読点”等として設定されている。
【0048】前記仮重要度算出手段25は、語句の文字
に基づいて仮重要度を算出する場合には、前記文字情報
辞書から語句を形成する文字の数値を順次読み出し、そ
の数値を単調な演算により一つに合成して仮重要度を算
出する。語句の品詞に基づいて仮重要度を算出する場合
には、前記品詞情報辞書から語句を形成する品詞の数値
を読み出し、その数値が複数の場合は単調な演算により
一つに合成して仮重要度を算出する。語句の文節情報に
基づいて仮重要度を算出する場合には、前記文節情報辞
書に設定されている文節属性のリストを語句が存在する
文節の文節情報と照合し、これが整合した文節の語句に
前記文節情報辞書に設定されている仮重要度を付与す
る。
【0049】なお、この仮重要度算出手段25は、その
一部としてモード切換手段を有しており、このモード切
換手段によるモード切換に対応して、上述のような三種
類の仮重要度の算出の有無が選択的に設定される。つま
り、語句の文字と品詞との情報のみから仮重要度を算出
して合成することや、語句の文節情報のみから算出した
仮重要度を直接に出力することも設定される。
【0050】前記本重要度算出手段26は、上述のよう
に一つの語句の仮重要度がテキストデータの複数位置で
個々に算出された場合、その一つの語句の複数の仮重要
度を単調な演算により一つに合成して本重要度を算出す
る。なお、この本重要度算出手段26にもモード切換手
段が設けられており、算出された本重要度の出力先を前
記重要度補正手段27と前記結果出力手段31とに切換
設定できる。
【0051】前記重要度補正手段27には、前記手段2
8〜30が論理的にリンクされており、これらの手段か
ら入力される各種情報に基づいた演算により語句の本重
要度を補正する。その場合、前記頻度算出手段28は、
テキストデータでの語句の出現頻度を算出し、前記語長
検出手段29は、語句の長さを検出し、前記効率算出手
段30は、語句に基づいてテキストデータを検索した場
合の効率を算出する。なお、この重要度補正手段27に
もモード切換手段が設けられており、前記手段28〜3
0による三つの情報に基づいた演算の有無が切換自在に
設定される。
【0052】前記結果出力手段31は、上述のように算
出された本重要度を所定の閾値と比較し、閾値を本重要
度が超過した語句のみを検索キーとしてテキストデータ
に付与し、この検索キーが付与されたテキストデータを
前記通信I/F14から前記電子ファイルユニット15
に出力する。
【0053】なお、前記仮重要度算出手段25や前記本
重要度算出手段26による単調な演算は、以下のような
ものとして設定されている。算出する要素が“x1
2”ならば必ず“x1○y≦x2○y”となるような
“x”について単調非減少な演算“○”と、“x1
2”ならば必ず“x1○y≧x2○y”となるような
“x”について単調非増加な演算“○”とをまとめて、
“x”について単調な単調な演算と呼び、同様に、
“y”について単調非減少な演算と“y”について単調
非増加な演算とをまとめて“y”について単調な単調な
演算と呼び、“x”と“y”の両方について単調な演算
を単に単調な演算と呼んでいる。また、“x”と“y”
との両方について単調非減少な演算を単に単調非減少な
演算と呼び、同様に、“x”と“y”との両方について
単調非増加な演算を単に単調非増加な演算と呼んでい
る。例えば、算出する要素が“x1≦x2”ならば必ず
“x1○y≦x2○y”となる“x”の単調非減少な演算
“○y”や、“x1≦x2”ならば必ず“x1○y≧x2
y”となる“x”の単調非増加な演算“○y”、等とし
て設定されている。その場合、単調非減少な演算が要素
の大小関係の保存の観点から好ましく、交換律と結合律
とが成立する演算が演算順序の自由度の観点から好まし
い。このように交換律と結合律とが成立する単調非減少
な演算としては、例えば、加算、乗算、最大値、最小
値、確率的論理和(x+y−x・y)等がある。また、
結合律は成立しないが交換律は成立する単調非減少な演
算としては、相加平均や相乗平均等がある。
【0054】上述した語句抽出装置1の各種手段21〜
31は、必要により前記通信I/F14等のハードウェ
アを利用するが、その主体は前記RAM5等に記録され
たソフトウェアに対応して前記CPU2が動作すること
により実現されている。つまり、前記RAM5には、前
記CPU2が読取自在なソフトウェアからなる各種辞書
のデータファイルと、前記CPU2を前記各種手段21
〜31として機能させるためのプログラムとが記録され
ている。
【0055】より詳細には、前記FDD8等のデータ入
力デバイスによるテキストデータの入力を受け付けるこ
と、入力されたテキストデータを前記RAM5等のデー
タ記憶デバイスに一時記憶させること、一時記憶された
テキストデータに言語解析として形態素解析と構文解析
とを実行すること、その解析結果に基づいてテキストデ
ータから所定の語句を抽出すること、その語句の文字と
品詞と文節情報との各々に基づいて仮重要度を個々に算
出すること、この三種類の仮重要度を単調な演算により
一つに合成すること、テキストデータの複数位置に出現
した同一の語句の仮重要度を単調な演算により一つに合
成して本重要度を算出すること、この本重要度をテキス
トデータでの語句の出現頻度と長さと検索効率とに基づ
いて補正すること、この本重要度を所定の閾値と比較し
て取捨選択すること、選択された語句のみを検索キーと
してテキストデータに付与すること、この検索キーが付
与されたテキストデータを前記通信I/F14から前記
電子ファイルユニット15に出力すること、等を前記C
PU2に実行させるためのプログラムが前記RAM5に
記録されている。
【0056】このような構成において、本実施の形態の
語句抽出装置1による語句抽出方法を以下に順次説明す
る。本実施の形態の語句抽出装置1では、例えば、テキ
ストデータが記録されたFD7がFDD8に装填され、
キーボード12により所定の入力操作が実行されると、
テキストデータから語句として検索キーを抽出し、この
検索キーが付与されたテキストデータを電子ファイルユ
ニット15に格納する。このようにテキストデータから
検索キーを抽出する場合、最初は検索キーの候補語句が
抽出され、その重要度が算出されて検索キーが選定され
る。
【0057】より詳細には、上述のように入力されたテ
キストデータは、テキスト入力手段21により受け付け
られ、データ記憶手段22によりRAM5のワークエリ
アに格納される。このように一時記憶されたテキストデ
ータは、言語解析手段23により形態素解析されてから
構文解析されるので、ここでテキストデータから単語等
が判別されて品詞等の形態素情報が検出され、文節や係
り受け関係が認識されて文節属性等の構文的な文節情報
が検出される。
【0058】このような言語解析が完了すると、この解
析結果に基づいて語句抽出手段24によりテキストデー
タから所定の語句が抽出され、この語句の文字と文節情
報とに基づいて仮重要度算出手段25により仮重要度が
算出される。より詳細には、前述のように語句抽出手段
24が抽出する語句は、少なくとも一個の単語からなる
表現として設定されているので、この語句は先頭と末尾
との単語の品詞等の照合によりテキストデータの一つの
文節から抽出される。
【0059】例えば、先頭と末尾との単語が“名詞また
は未知語”として設定されている場合、名詞で始まり名
詞で終わる単語列、名詞で始まり未知語で終わる単語
列、未知語で始まり名詞で終わる単語列、未知語で始ま
り未知語で終わる単語列、がテキストデータの文節から
抽出される。この文節が“核燃料サイクル基地と”なる
場合、これは“核燃料(名詞),サイクル(名詞),基地
(名詞),と(格助詞)”に言語解析され、ここから“核燃
料,核燃料サイクル,核燃料サイクル基地,サイクル,
サイクル基地,基地”なる語句が抽出される。この場
合、一個の名詞である“核燃料”等は、名詞で始まり名
詞で終わる単語列の特殊解として認識されている。
【0060】仮重要度算出手段25は、前述のようにモ
ード設定により三種類の要素に基づいた仮重要度の算出
を選択的に実行し、その仮重要度を一つに合成して出力
する。ここでは三種類の仮重要度の全部を算出する場合
を想定して説明する。まず、仮重要度算出手段25は、
各文字毎に所定の数値が設定されているので、語句を形
成する複数の文字の数値を単調な演算により一つに合成
し、文字に基づいた仮重要度を算出する。同様に、各品
詞毎にも所定の数値が設定されているので、語句を形成
する複数の品詞の数値を単調な演算により一つに合成
し、品詞に基づいた仮重要度を算出する。さらに、特定
の文節属性のリストのパターン情報には仮重要度が設定
されているので、その文節属性のリストが整合する文節
の語句には上述の仮重要度が付与される。
【0061】上述のように三種類の仮重要度が算出され
ると、これらの仮重要度が単調な演算により一つに合成
され、語句の仮重要度が算出される。ただし、この仮重
要度の算出は、テキストデータに出現した語句で個々に
実行されるので、例えば、同一の語句がテキストデータ
の複数位置に出現した場合、その仮重要度は別個に算出
される。
【0062】上述のように語句の仮重要度が算出される
と、本重要度算出手段26は、テキストデータの複数位
置から検出された一つの語句の複数の仮重要度を、単調
な演算により一つに合成して本重要度を算出する。例え
ば、ある語句がテキストデータの二箇所に出現し、その
文字と文節情報とに基づいた仮重要度が下記の表1のよ
うな場合、本重要度は“(0.5+0.6)/2+(0.5+0.2)/
2=0.9 ”等として算出される。
【0063】
【表1】
【0064】上述のように算出された本重要度は、モー
ド設定に対応して結果出力手段31か重要度補正手段2
7かに出力され、この重要度補正手段27に入力された
場合は、そのモード設定により三種類の補正処理が選択
的に実行される。ここでは本重要度が重要度補正手段2
7に入力され、三種類の補正処理の全部が実行される場
合を想定して説明する。
【0065】まず、頻度算出手段28によりテキストデ
ータでの語句の出現頻度が算出され、この出現頻度に基
づいた演算により語句の本重要度が補正される。つま
り、文書に頻繁に出現する語句は重要であることが予想
されるので、ここでは出現頻度である個数を本重要度に
乗算する。例えば、上述のようにテキストデータの二箇
所に出現した語句の本重要度が“ 0.9”の場合、これは
“0.9×2=1.8”として補正される。
【0066】つぎに、語長検出手段29により語句の長
さが単語や文字の個数として計数され、この語長に基づ
いた演算により語句の本重要度が補正される。つまり、
日本語の技術文書などでは専門用語が複合語である場合
が多く、単語が多数の語句ほど重要であることが予想さ
れる。そこで、ここでは語句に使用された単語の個数を
計数して本重要度に乗算することにより、例えば、上述
のように本重要度が“1.8”の語句が六個の単語からな
る場合、その本重要度は“ 1.8×6=10.6”として補正
される。
【0067】さらに、効率算出手段30により語句の検
索効率が計数され、この検索効率に基づいた演算により
語句の本重要度が補正される。つまり、ここでは語句を
テキストデータの検索キーに利用するために抽出してい
るので、この語句を検索キーとした場合の効率が低いと
意味がない。例えば、多数の文書に出現する語句より特
定の少数の文書にしか出現しない語句の方が検索効率は
高く、このような検索効率は統計的な情報に基づいて算
出することができる。ここでは電子ファイルユニット1
5に登録されている全部のテキストデータでの語句の出
現頻度の逆数を算出しておき、これに基づいて設定した
検索効率の数値を本重要度に乗算する。例えば、上述の
ように本重要度が“10.6”の語句が、百語に“ 0.3”の
割合で出現する場合、その本重要度は“10.6×1/0.3
≒35.3 ”として補正される。
【0068】なお、上述のような語句の検索効率の数値
は、電子ファイルユニット15に登録されている全部の
テキストデータの個数と、対象の語句が出現するテキス
トデータの個数とを計数し、この個数を全部の個数で除
算することなどでも算出できる。
【0069】上述のように算出された本重要度は、結果
出力手段31により所定の閾値と比較され、この閾値を
本重要度が超過した語句のみが検索キーとしてテキスト
データに付与される。この検索キーが付与されたテキス
トデータは通信I/F14から電子ファイルユニット1
5に出力されるので、この電子ファイルユニット15で
は、検索キーが付与されたテキストデータを電子ファイ
ルとして保存する。
【0070】本実施の形態の語句抽出装置1は、上述の
ようにテキストデータから自動的に検索キーの語句を抽
出することができ、この作業に人手を要することがな
い。しかも、テキストデータの言語解析の結果の複数の
要因から語句の仮重要度を算出し、その語句の複数の仮
重要度から本重要度を算出し、この本重要度を複数の要
因で補正して語句の選定に利用しているので、検索キー
として適正な語句を的確に抽出することができる。それ
でいて、この語句の抽出は、人間の判断を要することな
く語句抽出装置1のデータ処理により自動的に実行さ
れ、このような自動的な作業を出現するために複雑なデ
ータを人手で用意しておく必要もない。仮重要度の算出
のために、文字毎の所定の数値、品詞毎の所定の数値、
文節属性リスト毎の所定の数値等を予め設定しておく必
要があるが、これらは適正な数の実例から統計的に求め
ておくことができる。例えば、特定の文字“c”が含ま
れる語がキーワードとして実際に選ばれた統計的確率を
“c”に対する文字毎の数値として使用すればよい。実
例を用意するには人間の判断を必要とするが、他には人
間の複雑な判断を要しない。
【0071】つまり、検索キーの候補の語句は、テキス
トデータの言語解析に基づいた一般的なデータ処理で抽
出されるので、ここに人手や特殊なデータは必要ない。
特に、語句の抽出用のパターンデータは、語句の先頭と
末尾との単語の品詞等で設定されており、その照合によ
りテキストデータの一つの文節から語句が抽出されるの
で、検索キーとして適正な語句を単純な処理で的確に抽
出することができる。
【0072】このように抽出された語句の仮重要度は、
言語解析から獲得される文字と品詞と文節情報との各々
に基づいて算出され、この仮重要度の個数から本重要度
が算出されるので、これは人手や特殊なデータの用意を
要しない。仮重要度の算出に利用する文節情報は、文節
属性のリストなので予め用意しておく必要があるが、こ
れは語句抽出に適正な数の文節を言語解析すれば獲得で
き、人間の複雑な判断を要することなく機械的に生成す
ることができる。
【0073】特に、上述のような語句抽出や文書検索を
繰り返せば、実用的な文節情報を経験的に獲得できるの
で、この統計的な情報を蓄積して利用すれば良い。仮重
要度の算出に利用する文字や品詞の数値も予め用意して
おく必要があるが、これも文書検索の結果から統計的に
設定すれば良く、人間の判断を要することなく機械的に
設定することができる。
【0074】しかも、語句の本重要度を各種要因に基づ
いて補正するので、より良好に検索キーを選定すること
ができ、この本重要度の補正にも人手や特殊なデータの
用意は必要ない。特に、本重要度を語句の出現頻度と長
さと検索効率とに基づいて補正するので、これらの要因
を語句の本重要度に反映させることができ、検索キーと
して良好な語句を選定することができる。
【0075】さらに、仮重要度や本重要度の算出や補正
を実行する複数の処理は、モード切換により選択的に実
行されるので、ユーザの要望を良好に反映した検索キー
を抽出することができる。仮重要度や本重要度は単調な
演算により算出され、これが加算などに限定されていな
いので、各種の演算を利用して重要度を的確に算出する
ことができる。
【0076】なお、本発明は上記形態に限定されるもの
ではなく、各種の変形を許容する。例えば、上述した語
句抽出装置1では、複数の演算を単純に順次実行してい
るが、複数の補正の演算を実行するような場合、各々の
数値の桁数等が相違すると桁数が少数の補正は実行する
意味がない。これが問題となる場合には、演算の実行前
に各種要素を正規化する要素正規化手段を設け、演算に
利用される複数の要素を正規化することが好ましい。こ
のような演算要素の正規化は、数値xに対する“ log
x”や“x/(K+x)”のような単調な演算で実行する
ことができる。
【0077】例えば、語句“w”に対し、出現回数を
“n(w)”、出現頻度を“tf(w)(これは単純には出
現回数“n(w)”と同値)”、語長を“len(w)”、テ
キストデータの総数を語句“w”が出現するテキストデ
ータの個数で除算した結果を“idf(w)”、j回目に
出現した語句を“wj ”、この語句“wj ”の文字に基
づいた仮重要度を“kpchr(wj)”、品詞に基づいた仮
重要度を“kppos(wj)”、文節情報に基づいた仮重要
度を“kpsyn(wj)”、非負の定数を“Ktf,Klen,K
idf”とすると、各種演算を正規化した本重要度の算出
は、以下のような数式として表現することができる。
【0078】
【数1】
【0079】また、上述した語句抽出装置1では、語句
抽出手段24がテキストデータから語句を抽出する場
合、その先頭と末尾との単語の品詞等をテキストデータ
の解析結果に照合させることにより、検索キーとして適
正な語句をテキストデータから抽出することを例示し
た。しかし、それでも検索キーとして不適な語句が抽出
されることは予想されるので、これが問題となる場合に
は、語句抽出手段24の抽出結果から検索キーとして不
適な語句を除外することが好ましい。
【0080】例えば、数詞および助数詞が予め設定され
た数詞辞書を設け、先頭と末尾との少なくとも一方に数
詞と助数詞との少なくとも一方が存在する語句を除外す
る語句除外手段を設けることが好ましい。この場合、
“…%”“%…”“…50”“50…”等の語句が除外され
るので、検索キーとして不適な語句が出力されることを
防止できる。しかも、不要な語句に対するデータ処理も
省略されるので、データ処理の負担を軽減して速度を向
上させることもできる。なお、上述のような数詞に漢数
字が含まれないよう設定すれば、上述のような語句は除
外しながら“四谷”等の語句は除外されないようなこと
もできる。
【0081】また、所定の接辞が予め設定された接辞辞
書を設け、先頭と末尾との少なくとも一方に所定の接辞
が存在する語句に所定の処理を実行する語句処理手段を
設けることも可能である。この場合、所定の接頭辞や接
尾辞が存在する語句に対し、接辞の種類に対応して各種
の処理を実行できるので、検索キーとして不適な語句の
除外や修正を実現することができる。このような接辞に
対する処理は各種に設定することが可能であるが、例え
ば、検索キーに対する処理としては以下のような設定が
実用的である。
【0082】・形容詞的機能の接頭辞 語句に何もしない ・副詞的機能の接頭辞 語句の接頭辞以外の部分が二文字以下ならば語句の全体
を除外し、語句の接頭辞以外の部分が三文字以上ならば
接頭辞を削除する ・指示的機能の接頭辞 語句から接頭辞を削除する ・その他の接頭辞 語句に何もしない ・人名を示す接尾辞 語句から接尾辞を削除する ・副詞句を形成する接尾辞 語句の接尾辞以外の部分が二文字以下ならば語句の全体
を除外し、語句の接尾辞以外の部分が三文字以上ならば
接頭辞を削除する ・形容動詞を形成する接尾辞 語句から接頭辞を削除する ・その他の接尾辞 語句に何もしない。
【0083】また、上述した語句抽出装置1では、語句
抽出手段24が語句を先頭と末尾との単語の品詞等の照
合でテキストデータから抽出することを例示したが、例
えば、所定の一連の単語のパターン情報を設定してお
き、このパターン情報に整合した語句をテキストデータ
から抽出するようなことも可能である。このような一連
の単語のパターン情報は、所定の一連の単語からなる語
句を特定できる情報であり、例えば、品詞の情報を特定
の演算子で組み合わたものである。このようなパターン
情報は、例えば、特開平7-73200 号公報に詳述されてい
る。
【0084】さらに、上述した語句抽出装置1では、仮
重要度算出手段25が文節情報に基づいた仮重要度を算
出する手法として、文節情報である文節属性のリスト毎
に仮重要度を設定しておき、この仮重要度を文節属性の
リストが整合した文節の語句に付与することを例示した
が、文節情報に基づいた仮重要度の算出手法も上記方式
に限定されない。
【0085】例えば、文節を言語解析すると複数の文節
属性が検出されるが、そこには“体言句”のように文節
の性格を反映した代表的な文節属性が存在する。そこ
で、このような特定の文節属性に語句の仮重要度を設定
した情報を、仮重要度算出手段25の文節情報辞書に設
定しておき、その文節属性の文節と係り受け関係の文節
の語句に仮重要度を付与することも可能である。この場
合、特定の文節属性の文節と係り受け関係の文節の語句
に予め用意された仮重要度が付与されるので、語句の仮
重要度を文節の係り受け関係に対応して決定することが
できる。このように特定の文節属性に設定しておく仮重
要度も、語句抽出や文書検索の作業から統計的に生成す
ることができる。
【0086】また、各文節属性毎に所定の数値を設定し
ておき、語句が出現した文節の複数の文節属性の数値を
単調な演算により一つに合成して仮重要度を算出するこ
とも可能である。この場合、文節の複数の文節属性の数
値から仮重要度が算出されるので、語句の仮重要度に文
節属性を反映させることができる。
【0087】さらに、文節情報として文節属性だけでな
く、文節の係り受け関係も利用することができる。例え
ば、語句の仮重要度を文節の係り受け関係毎に設定して
おき、この係り受け関係の係り側の文節の語句に仮重要
度を付与することが可能である。この場合、特定の係り
受け関係の係り側の文節の語句に仮重要度を付与するこ
とができるので、語句の仮重要度を文節の係り受け関係
に対応して決定することができる。
【0088】例えば、図5に示すように、特定の係り受
け関係“の連体:体言句”が一対の文節間に成立してい
る場合、この係り受け関係に対応した仮重要度を係り側
の文節の語句“新幹線”に付与することができる。な
お、図5では係り受け関係を“の連体:体言句”のよう
な“係り属性:受け属性”として表現している。
【0089】また、語句の仮重要度を文節の係り受け関
係で受け側となる文節情報毎に設定しておき、この文節
情報が受け側の文節に整合した係り受け関係の係り側の
文節の語句に仮重要度を付与することも可能である。こ
の場合、係り受け関係の受け側の特定の文節情報の文節
の語句に仮重要度を付与できるので、語句の仮重要度を
文節情報と係り受け関係とに対応して決定することがで
きる。例えば、前述の図5の場合であれば、受け側の文
節の文節情報“体言句 に連用”に対応した仮重要度
を、係り側の語句“新幹線”に付与することができる。
【0090】また、文節の係り受け関係毎に所定の数値
を設定しておき、この係り受け関係がテキストデータの
複数位置から検出された場合、対応する個数の数値を単
調な演算により一つに合成して仮重要度を算出し、この
仮重要度を係り受け関係の受け側の文節の語句に付与す
ることも可能である。この場合、テキストデータの複数
位置から検出される特定の係り受け関係の数値から仮重
要度を算出することができるので、語句の仮重要度に係
り受け関係を良好に反映させることができる。
【0091】また、文節の係り受け関係で係り側となる
文節情報毎に所定の数値を設定しておき、この文節情報
が係り側の文節に整合した係り受け関係がテキストデー
タの複数位置から検出された場合、対応する個数の数値
を単調な演算により一つに合成して仮重要度を算出し、
この仮重要度を係り受け関係の受け側の文節の語句に付
与することも可能である。この場合、テキストデータの
複数位置から検出される係り受け関係の係り側の特定の
文節情報の文節の数値から仮重要度を算出することがで
きるので、語句の仮重要度に文節情報と係り受け関係と
を良好に反映させることができる。
【0092】なお、当然ながら、上述のような各種の処
理は相反しない範囲で組み合わせることが好ましい。た
だし、実行する処理の個数が増加するとプログラムや辞
書データの規模も増大し、その作成が困難になるととも
に処理の負担も増加するので、語句抽出装置1の要求精
度やコンピュータシステムの処理性能を考慮して必要な
機能を取捨選択することが好ましい。
【0093】また、本実施の形態では、RAM5等にソ
フトウェアとして記録されているプログラムに従ってC
PU2がデータ処理を実行することにより、語句抽出装
置1の各種手段が実現されることを例示した。しかし、
このような各種手段の各々を固有のハードウェアとして
製作することも可能であり、一部をソフトウェアとして
RAM5等に記録するとともに一部をハードウェアとし
て製作することも可能である。また、所定のソフトウェ
アが記録されたRAM5等や各部のハードウェアを、例
えば、ファームウェアとして製作することも可能であ
る。
【0094】また、本実施の形態では、ソフトウェアが
CD−ROM9からHDD6にインストールされてRA
M5に複写され、このRAM5からCPU2が読み取る
ことを例示したが、このようにソフトウェアをCPU2
に提供する情報記憶媒体は、CPU2がアクセスできる
ものであれば良い。例えば、このようなソフトウェアを
CD−ROM9等からCPU2に利用させることや、予
めROM4に固定的に記録しておくことも可能であり、
複数の情報記憶媒体に分散させておくことも可能であ
る。
【0095】また、このような語句抽出装置1の各種手
段を実現するためのプログラムを、複数のソフトウェア
の組み合わせにより実現することも可能であり、その場
合、単体の製品となる情報記憶媒体には必要最小限のソ
フトウェアのみを記録しておけば良い。例えば、オペレ
ーティングシステムが実装されているコンピュータシス
テムに、CD−ROM9等の情報記憶媒体によりアプリ
ケーションソフトを提供するような場合、語句抽出装置
1の各種手段を実現するためのソフトウェアは、アプリ
ケーションソフトとオペレーティングシステムとの組み
合わせで実現されるので、オペレーティングシステムに
依存する部分のソフトウェアはアプリケーションソフト
の情報記憶媒体から省略することができる。
【0096】さらに、ここでは語句抽出装置1に必要な
全部のソフトウェアがRAM5に記録されているが、例
えば、既存の語句抽出装置(図示せず)のソフトウェア
の一部を本実施の形態の語句抽出装置1のソフトウェア
と置換することにより、その語句抽出装置を本実施の形
態の語句抽出装置1として機能させることも可能であ
る。その場合、CD−ROM9等の情報記憶媒体には、
仮重要度算出手段25や本重要度算出手段26等のプロ
グラムのみ記録しておけば良く、このプログラムを既存
の語句抽出装置のプログラムの対応する部分に置換させ
れば良い。
【0097】また、このように情報記憶媒体に記録した
ソフトウェアをコンピュータに供給する手法は、その情
報記憶媒体をコンピュータに直接に装填することに限定
されない。例えば、上述のようなソフトウェアをホスト
コンピュータの情報記憶媒体に記録し、このホストコン
ピュータを通信ネットワークにより端末コンピュータに
接続し、ホストコンピュータからデータ通信により端末
コンピュータにソフトウェアを供給することも可能であ
る。
【0098】この場合、端末コンピュータが自身の情報
記憶媒体にソフトウェアをダウンロードした状態でスタ
ンドアロンのデータ処理を実行することも可能である
が、ソフトウェアをダウンロードすることなくホストコ
ンピュータとのリアルタイムのデータ通信によりデータ
処理を実行することも可能である。この場合、ホストコ
ンピュータと端末コンピュータとを通信ネットワークに
より接続したシステム全体が、本発明の語句抽出装置1
に相当することになる。
【0099】
【発明の効果】請求項1記載の発明の語句抽出装置は、
各種データの入力を受け付けるデータ入力デバイスと、
各種データを一時記憶するデータ記憶デバイスと、デー
タ入力デバイスに入力されるテキストデータを受け付け
るテキスト入力手段と、入力されたテキストデータをデ
ータ記憶デバイスに一時記憶させるデータ記憶手段と、
一時記憶されたテキストデータを言語解析する言語解析
手段と、解析結果に基づいてテキストデータから所定の
語句を抽出する語句抽出手段と、語句の文字と品詞と文
節情報との少なくとも一つに基づいて仮重要度を算出す
る仮重要度算出手段と、テキストデータでの語句の出現
状態に対応して仮重要度から本重要度を算出する本重要
度算出手段とを有することにより、テキストデータから
語句を抽出して本重要度を算出することができるので、
例えば、この本重要度で語句を取捨選択してテキストデ
ータの検索キーを生成するようなことができ、このよう
に本重要度を算出する作業に人手を要することがなく、
この作業の実行に必要な各種データの生成にも人間の判
断を要しないので、単純な構造で語句の本重要度を的確
に算出することができる。
【0100】請求項2記載の発明の語句抽出装置では、
仮重要度算出手段は、語句の文字と品詞と文節情報との
少なくとも二つに基づいて個々に算出した複数の仮重要
度を単調な演算により一つに合成することにより、語句
の仮重要度を言語解析による複数の要素から算出するこ
とができるので、語句の仮重要度を単純な処理で的確に
算出することができる。
【0101】請求項3記載の発明の語句抽出装置では、
仮重要度算出手段は、一つの語句の仮重要度をテキスト
データでの複数の出現位置で個々に算出し、本重要度算
出手段は、テキストデータの複数位置での仮重要度を単
調な演算により一つに合成して本重要度を算出すること
により、テキストデータでの語句の出現回数を本適合度
に反映させることができるので、語句の本重要度を単純
な処理で的確に算出することができ、テキストデータの
検索キーとして適正な語句の本重要度を増加させるよう
なことができる。
【0102】請求項4記載の発明の語句抽出装置では、
テキストデータでの語句の出現頻度を算出する頻度算出
手段を設け、出現頻度に基づいた演算により語句の本重
要度を補正する重要度補正手段を設けたことにより、テ
キストデータでの語句の出現頻度を本適合度に反映させ
ることができるので、語句の本重要度を単純な処理で的
確に算出することができ、テキストデータの検索キーと
して適正な語句の本重要度を増加させるようなことがで
きる。
【0103】請求項5記載の発明の語句抽出装置では、
語句の長さを検出する語長検出手段を設け、長さに基づ
いた演算により語句の本重要度を補正する重要度補正手
段を設けたことにより、語句の長さを本重要度に反映さ
せることができるので、語句の本重要度を単純な処理で
的確に算出することができ、テキストデータの検索キー
として適正な語句の本重要度を増加させるようなことが
できる。
【0104】請求項6記載の発明の語句抽出装置では、
語句に基づいてテキストデータを検索した場合の効率を
算出する効率算出手段を設け、検索の効率に基づいた演
算により語句の本重要度を補正する重要度補正手段を設
けたことにより、語句の検索効率を本重要度に反映させ
ることができるので、語句の本重要度を単純な処理で的
確に算出することができ、テキストデータの検索キーと
して適正な語句の本重要度を増加させるようなことがで
きる。
【0105】請求項7記載の発明の語句抽出装置では、
演算の実行前に各種要素を正規化する要素正規化手段を
設けたことにより、演算に利用される複数の要素の桁数
等が相違する場合でも、これを正規化してから演算に利
用させることができるので、各種の要素を演算結果に的
確に反映させるようなことができる。
【0106】請求項8記載の発明の語句抽出装置では、
語句抽出手段は、語句の先頭と末尾との単語の情報が組
み合わされて設定されており、テキストデータの一つの
文節から先頭と末尾との単語の情報が整合する語句を抽
出することにより、複数の単語からなる語句を、その先
頭と末尾との単語の情報に基づいてテキストデータから
抽出することができるので、テキストデータの検索キー
として適正な語句を良好に抽出するようなことができ
る。
【0107】請求項9記載の発明の語句抽出装置では、
数詞および助数詞が予め設定された数詞辞書を設け、語
句抽出手段が抽出した語句から先頭と末尾との少なくと
も一方に数詞と助数詞との少なくとも一方が存在するも
のを除外する語句除外手段を設けたことにより、先頭や
末尾に数詞や助数詞が存在する語句を除外することがで
きるので、テキストデータの検索キーとして不適な語句
が出力されることを防止するようなことができる。
【0108】請求項10記載の発明の語句抽出装置で
は、所定の接辞が予め設定された接辞辞書を設け、語句
抽出手段が抽出した語句から先頭と末尾との少なくとも
一方に所定の接辞が存在するものに所定の処理を実行す
る語句処理手段を設けたことにより、特定の接辞が存在
する語句に対して所定の処理を実行することができるの
で、例えば、テキストデータの検索キーとして不適な語
句が出力されることを防止するようなことができる。
【0109】請求項11記載の発明の語句抽出装置で
は、語句抽出手段は、所定の一連の単語のパターン情報
が設定されており、このパターン情報に整合した語句を
テキストデータから抽出することにより、複数の単語か
らなる語句を、そのパターン情報に基づいてテキストデ
ータから抽出することができるので、テキストデータの
検索キーとして適正な語句を良好に抽出するようなこと
ができる。
【0110】請求項12記載の発明の語句抽出装置で
は、仮重要度算出手段は、各文字毎に所定の数値が設定
されており、語句を形成する複数の文字の数値を単調な
演算により一つに合成して仮重要度を算出することによ
り、語句の仮重要度を文字の個々の数値から算出するこ
とができるので、語句の仮重要度に文字の情報を反映さ
せることができ、テキストデータの検索キーとして適正
な語句が良好に抽出されるようにできる。
【0111】請求項13記載の発明の語句抽出装置で
は、仮重要度算出手段は、各品詞毎に所定の数値が設定
されており、語句を形成する複数の品詞の数値を単調な
演算により一つに合成して仮重要度を算出することによ
り、複数の単語からなる語句の仮重要度を単語の各々の
品詞の数値から算出することができるので、語句の仮重
要度に複数の単語の品詞の情報を反映させることがで
き、テキストデータの検索キーとして適正な語句が良好
に抽出されるようにできる。
【0112】請求項14記載の発明の語句抽出装置で
は、仮重要度算出手段は、語句の仮重要度が文節属性の
リスト毎に設定されており、この文節属性のリストが整
合する文節の語句に仮重要度を付与することにより、語
句の仮重要度を文節属性のリストに基づいて決定するこ
とができるので、テキストデータの検索キーとして適正
な語句が良好に抽出されるようにできる。
【0113】請求項15記載の発明の語句抽出装置で
は、仮重要度算出手段は、語句の仮重要度が特定の文節
属性に設定されており、この文節属性の文節と係り受け
関係の文節の語句に仮重要度を付与することにより、語
句の仮重要度を文節の係り受け関係に対応して決定する
ことができるので、テキストデータの検索キーとして適
正な語句が良好に抽出されるようにできる。
【0114】請求項16記載の発明の語句抽出装置で
は、仮重要度算出手段は、各文節属性毎に所定の数値が
設定されており、語句が出現した文節の複数の文節属性
の数値を単調な演算により一つに合成して仮重要度を算
出することにより、語句の仮重要度を文節の複数の文節
属性の数値から算出することができるので、語句の仮重
要度に文節属性を反映させることができ、テキストデー
タの検索キーとして適正な語句が良好に抽出されるよう
にできる。
【0115】請求項17記載の発明の語句抽出装置で
は、仮重要度算出手段は、語句の仮重要度が文節の係り
受け関係毎に設定されており、この係り受け関係の係り
側の文節の語句に仮重要度を付与することにより、語句
の仮重要度を文節の係り受け関係に対応して決定するこ
とができるので、テキストデータの検索キーとして適正
な語句が良好に抽出されるようにできる。
【0116】請求項18記載の発明の語句抽出装置で
は、仮重要度算出手段は、語句の仮重要度が文節の係り
受け関係で受け側となる文節情報毎に設定されており、
この文節情報が受け側の文節に整合した係り受け関係の
係り側の文節の語句に仮重要度を付与することにより、
語句の仮重要度を文節情報と係り受け関係とに対応して
決定することができるので、テキストデータの検索キー
として適正な語句が良好に抽出されるようにできる。
【0117】請求項19記載の発明の語句抽出装置で
は、仮重要度算出手段は、文節の係り受け関係毎に所定
の数値が設定されており、この係り受け関係がテキスト
データの複数位置から検出された場合に対応する個数の
数値を単調な演算により一つに合成して仮重要度を算出
し、この仮重要度を係り受け関係の受け側の文節の語句
に付与することにより、語句の仮重要度をテキストデー
タの複数位置から検出される特定の係り受け関係の数値
から算出することができるので、語句の仮重要度に係り
受け関係を反映させることができ、テキストデータの検
索キーとして適正な語句が良好に抽出されるようにでき
る。
【0118】請求項20記載の発明の語句抽出装置で
は、仮重要度算出手段は、文節の係り受け関係で係り側
となる文節情報毎に所定の数値が設定されており、この
文節情報が係り側の文節に整合した係り受け関係がテキ
ストデータの複数位置から検出された場合に対応する個
数の数値を単調な演算により一つに合成して仮重要度を
算出し、この仮重要度を係り受け関係の受け側の文節の
語句に付与することにより、語句の仮重要度をテキスト
データの複数位置から検出される係り受け関係の係り側
の特定の文節情報の文節の数値から算出することができ
るので、語句の仮重要度に文節情報と係り受け関係とを
反映させることができ、テキストデータの検索キーとし
て適正な語句が良好に抽出されるようにできる。
【0119】請求項21記載の発明の語句抽出装置で
は、仮重要度算出手段は、請求項14ないし20の少な
くとも二つに記載の仮重要度を単調な演算により一つに
合成することにより、語句の仮重要度を文節情報や係り
受け関係の複数の要素から算出することができる。
【0120】請求項22記載の発明の語句抽出方法は、
テキストデータを言語解析し、この解析結果に基づいて
テキストデータから所定の語句を抽出し、その語句の文
字と品詞と文節情報との少なくとも一つに基づいて仮重
要度を算出し、テキストデータでの語句の出現状態に対
応して仮重要度から本重要度を算出するようにしたこと
により、テキストデータから語句を抽出して本重要度を
算出することができるので、例えば、この本重要度で語
句を取捨選択してテキストデータの検索キーを生成する
ようなことができ、このように本重要度を算出する作業
に人手を要することがなく、この作業の実行に必要な各
種データの生成にも人間の判断を要しないので、単純な
処理で語句の本重要度を的確に算出することができる。
【0121】請求項23記載の発明の情報記憶媒体は、
コンピュータに、データ入力デバイスによるテキストデ
ータの入力を受け付けること、入力されたテキストデー
タをデータ記憶デバイスに一時記憶させること、一時記
憶されたテキストデータを言語解析すること、この解析
結果に基づいてテキストデータから所定の語句を抽出す
ること、その語句の文字と品詞と文節情報との少なくと
も一つに基づいて仮重要度を算出すること、テキストデ
ータでの語句の出現状態に対応して仮重要度から本重要
度を算出すること、を実行させるためのプログラムが記
録されていることにより、データ入力デバイスとデータ
記憶デバイスとが接続されたコンピュータに、このプロ
グラムを読み取らせて対応する動作を実行させると、こ
のコンピュータはテキストデータから語句を抽出して本
重要度を算出することができるので、例えば、この本重
要度で語句を取捨選択してテキストデータの検索キーを
生成するようなことができ、このように本重要度を算出
する作業に人手を要することがなく、この作業の実行に
必要な各種データの生成にも人間の判断を要しないの
で、単純なソフトウェアで語句の本重要度を的確に算出
することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の語句抽出装置による語句
抽出方法を示す模式図である。
【図2】語句抽出装置の論理的構造を示す模式図であ
る。
【図3】語句抽出装置の物理的構造を示すブロック図で
ある。
【図4】語句抽出装置の外観を示す斜視図である。
【図5】一対の文節の係り受け関係を示す模式図であ
る。
【符号の説明】
1 語句抽出装置 2 コンピュータ 4〜7,9 情報記憶媒体 5〜7 データ記憶デバイス 8,10〜12,14 データ入力デバイス 21 テキスト入力手段 22 データ記憶手段 23 言語解析手段 24 語句抽出手段 25 仮重要度算出手段 26 本重要度算出手段 27 重要度補正手段 28 頻度算出手段 29 語長検出手段 30 効率算出手段

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 各種データの入力を受け付けるデータ入
    力デバイスと、各種データを一時記憶するデータ記憶デ
    バイスと、前記データ入力デバイスに入力されるテキス
    トデータを受け付けるテキスト入力手段と、入力された
    テキストデータを前記データ記憶デバイスに一時記憶さ
    せるデータ記憶手段と、一時記憶されたテキストデータ
    を言語解析する言語解析手段と、解析結果に基づいてテ
    キストデータから所定の語句を抽出する語句抽出手段
    と、語句の文字と品詞と文法情報との少なくとも一つに
    基づいて仮重要度を算出する仮重要度算出手段と、テキ
    ストデータでの語句の出現状態に対応して仮重要度から
    本重要度を算出する本重要度算出手段と、を有すること
    を特徴とする語句抽出装置。
  2. 【請求項2】 仮重要度算出手段は、語句の文字と品詞
    と文節情報との少なくとも二つに基づいて個々に算出し
    た複数の仮重要度を単調な演算により一つに合成するこ
    とを特徴とする請求項1記載の語句抽出装置。
  3. 【請求項3】 仮重要度算出手段は、一つの語句の仮重
    要度をテキストデータでの複数の出現位置で個々に算出
    し、本重要度算出手段は、テキストデータの複数位置で
    の仮重要度を単調な演算により一つに合成して本重要度
    を算出することを特徴とする請求項1または2記載の語
    句抽出装置。
  4. 【請求項4】 テキストデータでの語句の出現頻度を算
    出する頻度算出手段を設け、出現頻度に基づいた演算に
    より語句の本重要度を補正する重要度補正手段を設けた
    ことを特徴とする請求項1ないし3の何れか一記載の語
    句抽出装置。
  5. 【請求項5】 語句の長さを検出する語長検出手段を設
    け、長さに基づいた演算により語句の本重要度を補正す
    る重要度補正手段を設けたことを特徴とする請求項1な
    いし4の何れか一記載の語句抽出装置。
  6. 【請求項6】 語句に基づいてテキストデータを検索し
    た場合の効率を算出する効率算出手段を設け、検索の効
    率に基づいた演算により語句の本重要度を補正する重要
    度補正手段を設けたことを特徴とする請求項1ないし5
    の何れか一記載の語句抽出装置。
  7. 【請求項7】 演算の実行前に各種要素を正規化する要
    素正規化手段を設けたことを特徴とする請求項1ないし
    6の何れか一記載の語句抽出装置。
  8. 【請求項8】 語句抽出手段は、語句の先頭と末尾との
    単語の情報が組み合わされて設定されており、テキスト
    データの一つの文節から先頭と末尾との単語の情報が整
    合する語句を抽出することを特徴とする請求項1ないし
    7の何れか一記載の語句抽出装置。
  9. 【請求項9】 数詞および助数詞が予め設定された数詞
    辞書を設け、語句抽出手段が抽出した語句から先頭と末
    尾との少なくとも一方に数詞と助数詞との少なくとも一
    方が存在するものを除外する語句除外手段を設けたこと
    を特徴とする請求項1ないし7の何れか一記載の語句抽
    出装置。
  10. 【請求項10】 所定の接辞が予め設定された接辞辞書
    を設け、語句抽出手段が抽出した語句から先頭と末尾と
    の少なくとも一方に所定の接辞が存在するものに所定の
    処理を実行する語句処理手段を設けたことを特徴とする
    請求項1ないし7の何れか一記載の語句抽出装置。
  11. 【請求項11】 語句抽出手段は、所定の一連の単語の
    パターン情報が設定されており、このパターン情報に整
    合した語句をテキストデータから抽出することを特徴と
    する請求項1ないし7の何れか一記載の語句抽出装置。
  12. 【請求項12】 仮重要度算出手段は、各文字毎に所定
    の数値が設定されており、語句を形成する複数の文字の
    数値を単調な演算により一つに合成して仮重要度を算出
    することを特徴とする請求項1ないし7の何れか一記載
    の語句抽出装置。
  13. 【請求項13】 仮重要度算出手段は、各品詞毎に所定
    の数値が設定されており、語句を形成する複数の品詞の
    数値を単調な演算により一つに合成して仮重要度を算出
    することを特徴とする請求項1ないし7の何れか一記載
    の語句抽出装置。
  14. 【請求項14】 仮重要度算出手段は、語句の仮重要度
    が文節属性のリスト毎に設定されており、この文節属性
    のリストが整合する文節の語句に仮重要度を付与するこ
    とを特徴とする請求項1ないし7の何れか一記載の語句
    抽出装置。
  15. 【請求項15】 仮重要度算出手段は、語句の仮重要度
    が特定の文節属性に設定されており、この文節属性の文
    節と係り受け関係の文節の語句に仮重要度を付与するこ
    とを特徴とする請求項1ないし7の何れか一記載の語句
    抽出装置。
  16. 【請求項16】 仮重要度算出手段は、各文節属性毎に
    所定の数値が設定されており、語句が出現した文節の複
    数の文節属性の数値を単調な演算により一つに合成して
    仮重要度を算出することを特徴とする請求項1ないし7
    の何れか一記載の語句抽出装置。
  17. 【請求項17】 仮重要度算出手段は、語句の仮重要度
    が文節の係り受け関係毎に設定されており、この係り受
    け関係の係り側の文節の語句に仮重要度を付与すること
    を特徴とする請求項1ないし7の何れか一記載の語句抽
    出装置。
  18. 【請求項18】 仮重要度算出手段は、語句の仮重要度
    が文節の係り受け関係で受け側となる文節情報毎に設定
    されており、この文節情報が受け側の文節に整合した係
    り受け関係の係り側の文節の語句に仮重要度を付与する
    ことを特徴とする請求項1ないし7の何れか一記載の語
    句抽出装置。
  19. 【請求項19】 仮重要度算出手段は、文節の係り受け
    関係毎に所定の数値が設定されており、この係り受け関
    係がテキストデータの複数位置から検出された場合に対
    応する個数の数値を単調な演算により一つに合成して仮
    重要度を算出し、この仮重要度を係り受け関係の受け側
    の文節の語句に付与することを特徴とする請求項1ない
    し7の何れか一記載の語句抽出装置。
  20. 【請求項20】 仮重要度算出手段は、文節の係り受け
    関係で係り側となる文節情報毎に所定の数値が設定され
    ており、この文節情報が係り側の文節に整合した係り受
    け関係がテキストデータの複数位置から検出された場合
    に対応する個数の数値を単調な演算により一つに合成し
    て仮重要度を算出し、この仮重要度を係り受け関係の受
    け側の文節の語句に付与することを特徴とする請求項1
    ないし7の何れか一記載の語句抽出装置。
  21. 【請求項21】 仮重要度算出手段は、請求項14ない
    し20の少なくとも二つに記載の仮重要度を単調な演算
    により一つに合成することを特徴とする請求項1ないし
    7の何れか一記載の語句抽出装置。
  22. 【請求項22】 テキストデータを言語解析し、この解
    析結果に基づいてテキストデータから所定の語句を抽出
    し、その語句の文字と品詞と文節情報との少なくとも一
    つに基づいて仮重要度を算出し、テキストデータでの語
    句の出現状態に対応して仮重要度から本重要度を算出す
    るようにしたことを特徴とする語句抽出方法。
  23. 【請求項23】 コンピュータに、データ入力デバイス
    によるテキストデータの入力を受け付けること、入力さ
    れたテキストデータをデータ記憶デバイスに一時記憶さ
    せること、一時記憶されたテキストデータを言語解析す
    ること、この解析結果に基づいてテキストデータから所
    定の語句を抽出すること、その語句の文字と品詞と文節
    情報との少なくとも一つに基づいて仮重要度を算出する
    こと、テキストデータでの語句の出現状態に対応して仮
    重要度から本重要度を算出すること、を実行させるため
    のプログラムが記録されていることを特徴とする情報記
    憶媒体。
JP8301477A 1996-10-15 1996-11-13 語句抽出装置および方法、情報記憶媒体 Pending JPH10177575A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8301477A JPH10177575A (ja) 1996-10-15 1996-11-13 語句抽出装置および方法、情報記憶媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP27194396 1996-10-15
JP8-271943 1996-10-15
JP8301477A JPH10177575A (ja) 1996-10-15 1996-11-13 語句抽出装置および方法、情報記憶媒体

Publications (1)

Publication Number Publication Date
JPH10177575A true JPH10177575A (ja) 1998-06-30

Family

ID=26549956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8301477A Pending JPH10177575A (ja) 1996-10-15 1996-11-13 語句抽出装置および方法、情報記憶媒体

Country Status (1)

Country Link
JP (1) JPH10177575A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223463A (ja) * 2008-03-14 2009-10-01 Nippon Telegr & Teleph Corp <Ntt> 同義性判定装置、その方法、プログラム及び記録媒体
WO2010038540A1 (ja) 2008-10-02 2010-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストセグメントを有する文書から用語を抽出するためのシステム
JP2014191648A (ja) * 2013-03-27 2014-10-06 Dainippon Printing Co Ltd 情報処理装置、情報処理方法及び情報処理用プログラム
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
JP2022079442A (ja) * 2020-11-16 2022-05-26 深▲ゼン▼市世強元件網絡有限公司 ユーザの検索シーンを識別する方法及びシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223463A (ja) * 2008-03-14 2009-10-01 Nippon Telegr & Teleph Corp <Ntt> 同義性判定装置、その方法、プログラム及び記録媒体
WO2010038540A1 (ja) 2008-10-02 2010-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストセグメントを有する文書から用語を抽出するためのシステム
US8463794B2 (en) 2008-10-02 2013-06-11 International Business Machines Corporation Computer system, method, and computer program for extracting terms from document data including text segment
US9043339B2 (en) 2008-10-02 2015-05-26 International Business Machines Corporation Extracting terms from document data including text segment
JP2014191648A (ja) * 2013-03-27 2014-10-06 Dainippon Printing Co Ltd 情報処理装置、情報処理方法及び情報処理用プログラム
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
US9558462B2 (en) 2013-08-12 2017-01-31 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
JP2022079442A (ja) * 2020-11-16 2022-05-26 深▲ゼン▼市世強元件網絡有限公司 ユーザの検索シーンを識別する方法及びシステム

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US8321471B2 (en) Error model formation
JP2742115B2 (ja) 類似文書検索装置
US20050203900A1 (en) Associative retrieval system and associative retrieval method
JP2001034623A (ja) 情報検索方法と情報検索装置
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
JPH0424869A (ja) 文書処理システム
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2002510076A (ja) 言語モデルに基づく情報検索および音声認識
KR20060045786A (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
WO2008098507A1 (fr) Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US7752216B2 (en) Retrieval apparatus, retrieval method and retrieval program
JPH09198409A (ja) 酷似文書抽出方法
JP3198932B2 (ja) 文書検索装置
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP4969209B2 (ja) 検索システム
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
Sembok et al. A rule and template based stemming algorithm for Arabic language
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP4298342B2 (ja) 重要度算出装置