JPH0895982A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH0895982A
JPH0895982A JP6234575A JP23457594A JPH0895982A JP H0895982 A JPH0895982 A JP H0895982A JP 6234575 A JP6234575 A JP 6234575A JP 23457594 A JP23457594 A JP 23457594A JP H0895982 A JPH0895982 A JP H0895982A
Authority
JP
Japan
Prior art keywords
keyword
candidate
candidates
degree
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6234575A
Other languages
English (en)
Other versions
JP3464055B2 (ja
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP23457594A priority Critical patent/JP3464055B2/ja
Publication of JPH0895982A publication Critical patent/JPH0895982A/ja
Application granted granted Critical
Publication of JP3464055B2 publication Critical patent/JP3464055B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 辞書にキーワードのための情報をもつのを回
避しつつ、より的確なキーワード性の評価を行うキーワ
ード抽出装置を提供することを目的とする。 【構成】 本キーワード抽出装置は、電子化された文書
に対し、キーワード候補を抽出するキーワード候補抽出
手段と、少なくとも単語の複合度に応じてその抽出され
たキーワード候補を評価するキーワード候補評価手段と
を備え、単語の複合度による専門性・特殊性を加えるこ
とで、辞書にキーワードのための情報をもつのを回避し
つつ、より的確なキーワード性の評価を行うことができ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書からキーワードを
抽出するキーワード抽出装置に関し、文書登録装置、文
書検索装置等に応用できる。
【0002】
【従来の技術】文書中からキーワードを抽出すること
は、文書の検索や分類のために重要な技術である。通
常、文書中からキーワードを抽出するためには、形態素
解析技術により、単語分割し、品詞付けを行い、そのう
ちの特定の品詞(特に名詞)の単語についてそのキーワ
ードとするか否かを評価する。これは、対象分野での専
門用語であることからその単語のキーワード性に着目し
て抽出する方法(特開昭62−287337号)、ある
いは複合語のキーワードを抽出する場合には、その複合
語を構成する単語のキーワード性や複合語構成上の役割
に基づき判定する方法(「短単位キーワードに基づくテ
キストデータベースシステム」;小川 他;情報処理学
会 データベース研究会90-6, 1992.9.11、46〜47ペー
ジ)がある。しかしながら、こうした判定に用いる情報
は、基本的にはそれらの情報を辞書に格納することを前
提とするが、こうした情報を容易に設定・保守すること
はできない。そこで、こうしたキーワードのための情報
を必要とせずに、キーワード候補を文字種により判別す
る方法(特開昭64−28770号)や、単語の長さと
その使用頻度に基づいてキーワード性を計算する抽出装
置(特開昭63−244259号)が提案されている。
【0003】
【発明が解決しようとする課題】キーワードがその文書
の重要な部分を特徴付けるものであると考えると、その
ような特徴を現すものとして専門性・特殊性が高い単語
程その特徴を現し易いといえる。また、複数の単語が複
合した複合語は、こうした専門性・特殊性を現し易いと
いえる。このような観点から、本発明の目的は、従来の
課題を解決するためキーワード候補の単語の複合度を用
いることにより、辞書にキーワードのための情報をもつ
のを回避しつつ、より的確なキーワード性の評価を行う
キーワード抽出装置を提供することを目的とする。さら
にまた、形態素解析系を用いず、簡易にキーワード候補
を抽出する場合、キーワード候補の長さから単語の複合
度を簡易に得て、全体として、キーワードの評価を簡易
に行うキーワード抽出装置を提供することを目的とす
る。さらにまた、従来単語の出現頻度を考慮したキーワ
ード候補の評価には、同一の単語候補については、それ
ぞれ計数されるが、類似の単語が出現する場合は、それ
ぞれ別個に計数されるため、各々の出現頻度は小さくな
ってしまうという欠点があった。このように本発明で
は、キーワード候補間に類似性がある場合に、その類似
度により双方のキーワード候補の頻度を仮に高めること
で、キーワード性の評価を改善するキーワード抽出装置
を提供することを目的とする。さらにまた、キーワード
間の類似性は、通常類義語辞書等が必要になり、その開
発・保守が容易ではないため、キーワード候補間の類似
性を文字列の重複度で代替することで、キーワード間の
類似性を簡易に判断するキーワード抽出装置を提供する
ことを目的とする。さらにまた、本発明で得られたキー
ワード性の評価の高い順にキーワード(候補)を並べて
表示することにより、文書の特徴を的確に表示するキー
ワード抽出装置を提供することを目的とする。
【0004】
【課題を解決するための手段】請求項1の発明では、キ
ーワード候補抽出手段と、抽出されたキーワード候補を
評価するキーワード候補評価手段とを有するキーワード
抽出装置において、このキーワード候補評価手段は少な
くとも単語の複合度に応じてキーワード候補を評価する
ことを特徴とする。
【0005】請求項2の発明では、請求項1のキーワー
ド抽出装置において、キーワード候補抽出手段は電子化
文書の文字種の並びにより抽出し、キーワード候補評価
手段は、前記キーワード候補の単語の複合度をキーワー
ド候補の文字列の種類と長さに応じて評価することを特
徴とする。
【0006】請求項3の発明は、請求項1あるいは請求
項2のキーワード抽出装置において、キーワード候補抽
出手段は、各キーワード候補ごとの出現頻度を計数し、
キーワード候補評価手段は、当該電子化文書中での出現
頻度にも応じてキーワード候補を評価し、キーワード候
補の出現頻度を他のキーワード候補との類似度とその頻
度により調整するようにしたことを特徴とする。
【0007】請求項4の発明は、請求項3のキーワード
抽出装置において、キーワード候補評価手段は、キーワ
ード候補間の類似度の代わりにキーワード候補の文字列
の文字の重複度を用いることを特徴とする。
【0008】請求項5の発明は、請求項1乃至請求項4
のキーワード抽出装置において、抽出されたキーワード
をキーワード候補評価手段による評価が高い順に並べて
表示する手段を付加したことを特徴とする。
【0009】
【作用】本発明は、入力またはすでにファイルとして存
在する電子化された文書に対し、キーワード候補抽出手
段によって、この電子化文書の文字種の並びによりキー
ワード候補を抽出するとともに、各キーワード候補ごと
の出現頻度をも計数する。次に、キーワード候補評価手
段によって、そのキーワード候補の単語の文字列の種類
と長さに応じて複合度を求めるとともに、他のキーワー
ド候補との類似度とその頻度により調整した当該キーワ
ード候補の出現頻度を求めてキーワード候補を評価す
る。または、キーワード候補間の類似度の代わりにキー
ワード候補の文字列の文字の重複度を用いて評価する。
このようにして抽出されたキーワード候補をキーワード
候補評価手段による評価が高い順に並べて表示すること
により、文書内容の特性を容易に認識できる。
【0010】本発明は、単語の複合度による専門性・特
殊性を加えることで、辞書にキーワードのための情報を
もつのを回避しつつ、より的確なキーワード性の評価を
行うことができる。また、形態素解析系を用いないの
で、キーワードの抽出が簡易且つスピードが速く行え
る。また、類似したキーワード候補の出現頻度を共に高
めることによって、単独では出現頻度が小さくとも類似
性のあるキーワード候補のキーワード性を高めることが
でき、その評価を改善することができる。
【0011】
【実施例】本発明の一実施例を図1乃至図8に基づいて
詳細に説明する。図1は本発明のキーワード抽出装置を
説明するための構成図である。図1において、電子化文
書1は、外部から入力されたファイルまたはすでにファ
イルとして存在している電子化された文書である。キー
ワード候補抽出手段2は、この電子化文書の文字種の並
びによりキーワード候補を抽出する。出現頻度計数手段
5は、その抽出された各キーワード候補ごとの出現頻度
を計数する。単語複合度評価手段6は、そのキーワード
候補の単語の文字列の種類と長さに応じて複合度を求め
る。出現頻度評価手段7は、他のキーワード候補との類
似度とその頻度により調整した当該キーワード候補の出
現頻度を求めるか、または、キーワード候補間の類似度
の代わりにキーワード候補の文字列の文字の重複度を用
いて求める場合もある。キーワード候補評価手段3は、
単語複合度評価手段6及び出現頻度評価手段7よって求
められた複合度及び出現頻度に応じてキーワード候補を
評価する。キーワード候補表示手段4は、このようにし
て抽出されたキーワード候補をキーワード候補評価手段
3による評価が高い順に並べて表示する。
【0012】本実施例では、図2で示すような内容を持
った電子化文書を例にとって説明することにする。この
電子化文書をキーワード候補抽出手段2によりキーワー
ド候補を抽出し、出現頻度計数手段5により出現頻度を
カウントし、それらを出現頻度別に示したものを図3に
示す。出現頻度は各リスト頭の'[ ]'内に示してある。
尚、キーワード候補は、漢字やカタカナ、英数字の同一
文字種の文字の並びで検出したり、単語分割及び品詞付
与を行う形態素解析系を使ったり、既存の方法を使って
抽出すれば良い。
【0013】(1)請求項1の発明 一般に、漢字複合語は、複数の単語に分割することがで
きる。例えば、「輸出貿易管理令」なる複合語は、「輸
出」、「貿易」、「管理令」の各単語に分割できる。
尚、単語によっては、接頭辞(語)、接尾辞(語)を分
割することができる。上記の「管理令」は単語基「管
理」と接尾語「令」に分割できる。ここで分割点を表す
記号を次ぎのように定める。 「|」により単語の分割点、 「.」により接頭辞(語)、接尾辞(語)と単語基の分
割点 「輸出貿易管理令」は「輸出|貿易|管理.令」 と表される。こうした分割は、形態素解析系の結果とし
て得られる。キーワード候補抽出を文字種により抽出し
た場合は、各キーワード候補に対して、接頭辞(語)、
接尾辞(語)を含む単語辞書により容易に分割すること
ができる。このように抽出されたキーワード候補に、本
発明では、単語複合度評価手段6により単語の複合度を
キーワード性の評価を加える。即ち、「輸出貿易管理
令」の複合度は3、「輸出規制」の複合度は2とする。
図4に、このように単語の複合度別に抽出された各キー
ワード候補を接頭辞(語)、接尾辞(語)及び単語へ分
割したものを示す。各リスト頭の'[ ]'内の数字は単語
の複合度を表している。
【0014】単語の複合度をキーワード性の評価に加え
る方法はいろいろあるが、ここでは文書での出現頻度と
合わせて評価するとして、例えば、両者の積をもってキ
ーワード性を表わす指標値とし、図5に示す表を得る。
ここで各リスト頭の'[ ]'内の数字はキーワード性の指
標値を表している。'{ }'内の各数字は、出現頻度と単
語の複合度をそれぞれ示している。尚、出現頻度は、キ
ーワード候補の抽出時に行えばよい。例えば、閾値を最
大の指標値の1/2以上とすれば、次の10語がキーワ
ードとして採用される。 [6]:{3,2}:輸出規制 [4]:{2,2}:工業製品 {2,2}:特定地域 {1,4}:対共産圏輸出統制委員会 [3]:{3,1}:イラク {3,1}:輸出 {1,3}:朝鮮民主主義共和国 {1,3}:主要先進七カ国 {1,3}:輸出貿易管理令 {1,3}:通常兵器関連
【0015】(2)請求項2の発明 本請求項2の発明は、単語複合度評価手段6における単
語の複合度を形態素解析系あるいは単語辞書を用いずに
簡易的に求めるようにしたものである。一般の漢字複合
語は、2文字の単語と1文字の接頭辞、接尾辞の組の連
接から構成されることが知られている(「国語漢字の記
憶と日本語文の自動分割」;長尾 他;情報処理 Vol.19
No.6, 1978、518〜520ページ)。そこで、キーワード
候補の漢字文字列の長さと単語の複合度を例えば次のよ
うに近似することができる。 --------------------------------------------------------------- 漢字文字数: 1〜3 4〜5 6〜8 9〜11 12〜14 ・・・ 単語複合度: 1 2 3 4 5 ・・・ --------------------------------------------------------------- カタカナ、英数字の文字列については、「コンピュータ
・グラフィックス」のように単語の切れ目(中点、斜線
や空白等の区切り)が入っているものとして、この切れ
目によって複合度を測るものとする。ただし、このよう
な切れ目を挿入しない場合もあるので、7、8文字を単
位に1単語に対応させるようなことも必要になる場合も
ある。いずれにしても、文字列の文字種に応じて、その
長さに単語の複合度の近似値とを対応させる。尚、近似
値は、上のように整数でなくとも、長さLに対してL/
3にように実数としてもよい。図6に、上に示した基準
による近似複合度別のキーワード候補を示す。図4と比
較してわかるように、「朝鮮民主主義共和国」の複合度
が1つ大きくなった以外に相違はない。従って、出現頻
度と単語の近似複合度との積をキーワード性の評価値と
した場合でも、ほとんど変わらない結果を得ることがで
きる。
【0016】(3)請求項3及び請求項4の発明 これまでの説明の出現頻度計数手段5では、「加工機
械」と「工作機械」や「輸出規制」と「輸出管理令」の
ように類似したキーワード候補であっても、独立に出現
頻度を計数する。しかし、このように類似の用語が出現
するということは、お互いに表現上で強め合っており、
キーワード性も高まっていると考えることができる。そ
こで、出現頻度評価手段7では、2つのキーワード候補
間に類似度を定め、出現したキーワード候補の値に応じ
て、他の類似キーワード候補の出現頻度をも増加させ、
そのキーワード性を高めるようにする。例えば、2つの
キーワード候補A、Bに対し、類似度をα(A,B)と
定めるとする。ここでα(A,B)の値は、0〜1の間
の値をとるものとする。また、キーワード候補A、Bの
出現頻度をそれぞれF(A)、F(B)とする。出現頻
度を増加させる方法は、例えば、相手の出現頻度と類似
度の積をとり、 Aに対しては F(B)×α(A,B) Bに対しては F(A)×α(A,B) を増加させる。この増加は、自身を除く全てのキーワー
ド候補との間で行うので、キーワード候補の集合をKと
すれば、Aの増加分は、 ΣF(X)×α(A,X)(ここで、X∈K、X≠A) となる。これに自身の出現頻度を加えて、変更された出
現頻度(以下、「疑似出現頻度」と呼ぶ)する。α
(A,A)=1であるので、疑似出現頻度は、次のよう
になる。 ΣF(X)×α(A,X) X∈K
【0017】類似度の定め方としては様々あり、例えば
分類語彙表で与えられたコードの差による方法等が考え
られる。ただし、この方法は、分類語彙表コードを単語
辞書に設定すること等が必要になる。本発明ではこのよ
うな特別な情報を持たないで簡易的に類似度を計算する
ために、類似度を単語の文字列間で文字列の重複度で代
えて利用する。重複度としては、例えば、双方のキーワ
ード候補の文字列に共通する部分文字列の割合で代え
る。即ち、2つのキーワード候補A、Bに対し、各々の
文字列長をlen(A)、len(B)とし、共通文字
列長をLen(A,B)とすれば、次のような共通文字
列部分の割合を重複度とすることができる。 2×Len(A,B)/(len(A)+len
(B)) 例えば、「輸出規制」(4文字列)と「輸出貿易管理
令」(7文字列)では、2文字列「輸出」が共通してい
るので、重複度は、2×2/(4+7)となる。出現頻
度の増加分(相手側の出現頻度との積)は、次のように
なる。 「輸出規制」[3]への「輸出貿易管理令」[1]による増加
寄与分:+1×4/11=0.36 「輸出貿易管理令」[1]への「輸出規制」[3]による増加
寄与分:+3×4/11=1.09 「輸出規制」に関する、類似度が0を超える他のキーワ
ード候補としては、「輸出」、「規制対象」、「規制品
目」、「規制品」があり、「輸出貿易管理令」を含めた
各々の出現頻度の増加寄与分は、次のようになる。 「輸出規制」[3]への 「対共産圏輸出統制委員会」[1] による寄与増加分:+1×6/15=0.40 「輸出」[3] による増加寄与分:+3×4/6 =2.00 「輸出貿易管理令」[1] による増加寄与分:+1×4/11=0.36 「規制対象」[1] による増加寄与分:+1×4/8 =0.50 「規制品目」[1] による増加寄与分:+1×4/8 =0.50 「規制品」[1] による増加寄与分:+1×4/7 =0.57 これらの増加寄与分の合計は 4.33 であり、「輸出規
制」のもともとの出現頻度3を加えて、疑似出現頻度は
7.33 になる。対象文書に適用した結果として、各キー
ワード候補の疑似出現頻度を図7に示した。重複して出
現しなかった国名等の候補が相対的に順位を落とし、
「輸出」を含む候補が順位を上げている。尚、ここで
は、「輸出規制」に対して、「禁輸措置」や「経済制
裁」のように1文字だけの重複(「輸」、「制」)につ
いては除外した。これは、2文字以上の重複の場合は、
類似性のある可能性が高いが、1文字の場合は、類似性
が必ずしもあるとは限らないことが多いからである。こ
のようにして求めた指標値をキーワード候補評価手段3
は、この疑似出現頻度と(2)で求めた近似複合度との
積によってキーワード性の指標値を計算(図8のように
なる)し、上記の(1)で説明したような適切な閾値を
設定してキーワード候補の中から選択し、キーワードと
して採用する。
【0018】(4)請求項5の発明 キーワード候補表示手段4は、上述のようにして得たキ
ーワード候補の評価結果をキーワード性指標値の大きい
順に表示する。(例えば、図6、図8のように表示す
る。)このように表示することによって、文書内容の特
性を示し、その特徴を的確に表示することができる。
【0019】
【発明の効果】以上の説明から明らかなように、請求項
1に記載された発明によると、単語の複合度による専門
性・特殊性を加えることで、辞書にキーワードのための
情報をもつのを回避しつつ、より的確なキーワード性の
評価を行うことができる。
【0020】請求項2に記載された発明によると、形態
素解析系を用いずに文字種により単語の抽出を行い、そ
の単語の複合度を単語の文字種と長さにより簡易的に求
めるので、キーワードの抽出が簡易且つスピードが速く
行える。
【0021】請求項3に記載された発明によると、類似
したキーワード候補の出現頻度を共に高めることによっ
て、単独では出現頻度が小さくとも類似性のあるキーワ
ード候補のキーワード性を高めることができ、
【0022】請求項4に記載された発明によると、類義
語辞書等を必要とせず、キーワード候補間の類似性を文
字列の重複によって簡易に求めることができる。
【0023】請求項5に記載された発明によると、キー
ワード性の順にキーワードを表示することにより、文書
内容の特性を容易に認識できる。
【図面の簡単な説明】
【図1】 本発明の1実施例におけるキーワード抽出装
置の構成図である。
【図2】 本発明の実施例を説明するための電子化文書
の内容である。
【図3】 実施例の電子化文書における出現頻度別のキ
ーワード候補を示す図である。
【図4】 実施例の電子化文書における複合度別のキー
ワード候補(分割マーク付き)を示す図である。
【図5】 実施例の電子化文書における出現頻度と単語
複合語の積によるキーワード候補の評価例を示すための
図である。
【図6】 実施例の電子化文書における近似複合度別の
キーワード候補を示すための図である。
【図7】 実施例の電子化文書における文字列重複度に
よる疑似出現頻度を示す図である。
【図8】 実施例の電子化文書における疑似出現頻度と
近似複合語の積によるキーワード候補の評価例を示す図
である。
【符号の説明】
1 …… 電子化文書、 2 …… キーワード候補抽出手段、 3 …… キーワード抽出評価手段、 4 …… キーワード候補表示手段、 5 …… 出現頻度計数手段、 6 …… 単語複合度評価手段、 7 …… 出現頻度評価手段。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文書に対し、キーワード候
    補を抽出するキーワード候補抽出手段と、該抽出された
    キーワード候補を評価するキーワード候補評価手段とを
    有するキーワード抽出装置において、前記キーワード候
    補評価手段は少なくとも単語の複合度に応じてキーワー
    ド候補を評価することを特徴とするキーワード抽出装
    置。
  2. 【請求項2】 前記キーワード候補抽出手段は、当該電
    子化文書の文字種の並びにより抽出し、前記キーワード
    候補評価手段は、前記キーワード候補の単語の複合度を
    キーワード候補の文字列の種類と長さに応じて評価する
    ことを特徴とする請求項1記載のキーワード抽出装置。
  3. 【請求項3】 前記キーワード候補抽出手段は、各キー
    ワード候補ごとの出現頻度を計数し、前記キーワード候
    補評価手段は、当該電子化文書中での出現頻度にも応じ
    てキーワード候補を評価し、キーワード候補の出現頻度
    を他のキーワード候補との類似度とその頻度により調整
    するようにしたことを特徴とする請求項1あるいは請求
    項2記載のキーワード抽出装置。
  4. 【請求項4】 前記キーワード候補評価手段は、キーワ
    ード候補間の類似度の代わりにキーワード候補の文字列
    の文字の重複度を用いることを特徴とする請求項3記載
    のキーワード抽出装置。
  5. 【請求項5】 キーワード抽出装置により抽出されたキ
    ーワードを前記キーワード候補評価手段による評価が高
    い順に並べて表示する手段を付加したことを特徴とする
    請求項1乃至請求項4記載のキーワード抽出装置。
JP23457594A 1994-09-29 1994-09-29 キーワード抽出装置 Expired - Fee Related JP3464055B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23457594A JP3464055B2 (ja) 1994-09-29 1994-09-29 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23457594A JP3464055B2 (ja) 1994-09-29 1994-09-29 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH0895982A true JPH0895982A (ja) 1996-04-12
JP3464055B2 JP3464055B2 (ja) 2003-11-05

Family

ID=16973168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23457594A Expired - Fee Related JP3464055B2 (ja) 1994-09-29 1994-09-29 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JP3464055B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
US6473754B1 (en) 1998-05-29 2002-10-29 Hitachi, Ltd. Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
US20100169930A1 (en) * 2008-12-25 2010-07-01 Samsung Electronics Co., Ltd. Broadcasting receiver and method of searching for keyword of broadcasting receiver

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5930228B2 (ja) 2014-02-25 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6033665A (ja) * 1983-08-03 1985-02-21 Hitachi Ltd キ−ワ−ド自動抽出方式
JPS63201824A (ja) * 1987-02-18 1988-08-19 Hitachi Ltd 検索キ−ワ−ド選択方式
JPS63244259A (ja) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPS63254522A (ja) * 1987-04-10 1988-10-21 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH03116375A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 情報検索装置
JPH03116377A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 情報検索装置
JPH03125264A (ja) * 1989-10-09 1991-05-28 Ricoh Co Ltd キーワード抽出装置
JPH03127176A (ja) * 1989-10-12 1991-05-30 Ricoh Co Ltd キーワード抽出装置
JPH03286372A (ja) * 1990-04-02 1991-12-17 Ricoh Co Ltd キーワード抽出装置
JPH05257982A (ja) * 1992-02-14 1993-10-08 Nippon Telegr & Teleph Corp <Ntt> 文字列認識方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6033665A (ja) * 1983-08-03 1985-02-21 Hitachi Ltd キ−ワ−ド自動抽出方式
JPS63201824A (ja) * 1987-02-18 1988-08-19 Hitachi Ltd 検索キ−ワ−ド選択方式
JPS63244259A (ja) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPS63254522A (ja) * 1987-04-10 1988-10-21 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH03116375A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 情報検索装置
JPH03116377A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 情報検索装置
JPH03125264A (ja) * 1989-10-09 1991-05-28 Ricoh Co Ltd キーワード抽出装置
JPH03127176A (ja) * 1989-10-12 1991-05-30 Ricoh Co Ltd キーワード抽出装置
JPH03286372A (ja) * 1990-04-02 1991-12-17 Ricoh Co Ltd キーワード抽出装置
JPH05257982A (ja) * 1992-02-14 1993-10-08 Nippon Telegr & Teleph Corp <Ntt> 文字列認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
US6473754B1 (en) 1998-05-29 2002-10-29 Hitachi, Ltd. Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
US20100169930A1 (en) * 2008-12-25 2010-07-01 Samsung Electronics Co., Ltd. Broadcasting receiver and method of searching for keyword of broadcasting receiver

Also Published As

Publication number Publication date
JP3464055B2 (ja) 2003-11-05

Similar Documents

Publication Publication Date Title
US7587420B2 (en) System and method for question answering document retrieval
JP3160201B2 (ja) 情報検索方法、情報検索装置
AU2005203239B2 (en) Phrase-based indexing in an information retrieval system
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
US8346548B2 (en) Aural similarity measuring system for text
JP5647916B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2832988B2 (ja) データ検索システム
US8355902B1 (en) Semantic unit recognition
EP0802492A1 (en) Document search system
KR20010015368A (ko) 정보 검색 방법과 정보 검색 장치
JP2010157178A (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JPH096799A (ja) 文書分類装置及び文書検索装置
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
Xu et al. Using SVM to extract acronyms from text
JP3464055B2 (ja) キーワード抽出装置
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
US20180005300A1 (en) Information presentation device, information presentation method, and computer program product
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4281899B2 (ja) 質問文書要約装置、質問応答検索装置、質問文書要約プログラム
JP3573572B2 (ja) キーワード抽出装置及びキーワード表示装置
JPH06208588A (ja) 文書検索方式
JP2732661B2 (ja) テキスト型データベース装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080822

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080822

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100822

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100822

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees