JPH11328182A - 関連語自動抽出装置及び方法並びに情報記憶媒体 - Google Patents

関連語自動抽出装置及び方法並びに情報記憶媒体

Info

Publication number
JPH11328182A
JPH11328182A JP10137832A JP13783298A JPH11328182A JP H11328182 A JPH11328182 A JP H11328182A JP 10137832 A JP10137832 A JP 10137832A JP 13783298 A JP13783298 A JP 13783298A JP H11328182 A JPH11328182 A JP H11328182A
Authority
JP
Japan
Prior art keywords
word
related word
unit
document
longest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10137832A
Other languages
English (en)
Other versions
JP3788864B2 (ja
Inventor
Hiroko Yamagata
寛子 山形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP13783298A priority Critical patent/JP3788864B2/ja
Publication of JPH11328182A publication Critical patent/JPH11328182A/ja
Application granted granted Critical
Publication of JP3788864B2 publication Critical patent/JP3788864B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 不完全な現状レベルで最も高精度さを出せる
単位で単語、特に複合語の抽出・認定を行うことができ
る関連語自動抽出装置等を提供する。 【解決手段】 複合語の認定等は、用いる辞書等の影響
を非常に強く受けるが、文節の認定は機械処理でもその
揺らぎは少ない。よって、現状レベルでは、文節を自立
語と付属語とに分けた場合の自立語部分全体を1単語
(=最長単位)とするのが、最も安定した単位といえ
る。従って、単語認定部3による単語認定を最長単位生
成部4により最長単位で行うことで、現状レベルで、極
めて精度よく安定した単語の抽出が可能となる。もっと
も、最長単位を用いると、頻度の分散を生ずるが、複合
語内頻度/識別情報調整部7による処理で、長い関連語
用単語に含まれる頻度情報等を短い関連語用単語に付加
させることで、実際に最長単位で使用された単語であれ
ば、短い単語でも長い単語でも漏れなく情報が得られ、
頻度情報等の分散を回避できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索支援装置
等に応用可能であり、或る文書群から所定のキーワード
に対する関連語を自動的に抽出する関連語自動抽出装置
及び方法並びに情報記憶媒体に関する。
【0002】
【従来の技術】大規模コーパスから単語の共起関係に基
づいて当該コーパスから関連語をリアルタイムで得るた
めの手法が最近検討されている。日本語に関しては、例
えば、「動的な共起解析を用いた対話的文書検索支援」
(日立 丹羽芳樹 自然言語処理115-14 情報学基礎43
-6 1996.9.13 pp.41〜48)(以下、文献1という)によ
り報告されている。
【0003】この文献1等に示される手法の基本的な考
え方は、各文書からキーワードを抽出して各キーワード
の共起文書頻度などから或るキーワードAとキーワード
Bとの関連度を求めるものである。関連度の求め方とし
ては、統計的な手法を用いるのが一般的であり、具体的
には、様々な手法が考えられる。
【0004】問題は、キーワードの取り出し方である。
キーワードは、一般に、文書内頻度や文書出現頻度など
から決定されるが、以下に説明する本発明では、それ以
前の問題として、単語の認定の仕方に関わる部分を取り
上げるものである。
【0005】まず、日本語文書は分かち書きされない言
語文書であるため、英文等と異なり、単語の認定の仕方
に関しては、古くから諸説あり、現在においても統一見
解はない。この問題が顕著に現われるのは複合語を扱う
場合である。複合語は、例えば図7に例示するように意
味をなす最小単位が複数個結合して構成された語であ
り、その結合は1回とは限らない。このような複合語に
ついての単語認定の仕方には、例えば、複合語を短い単
位で認定するもの(例えば、国立国語研究所の語彙調査
β単位系)や複合語を長い単位のままで認定するもの
(例えば、国立国語研究所の語彙調査α単位系)があ
る。
【0006】図7中にも例示するように、何次結合まで
を単語として認めるかで様々な見解が存在する。国立国
語研究所の語彙調査では時代とともに変遷があったもの
の、近年では、基本語彙の把握や用字用語調査といった
目的には前述したβ単位系を用い、専門語や日本語の語
構成の調査には前述したα単位系を用いる方向で統一さ
れつつある。このように、単語の認定方法は唯一に確立
しておらず、目的にあった方法を採用することになる。
もっとも、β単位系、α単位系の何れにしても、国立国
語研究所の語彙調査では、人手チェックが介在すること
が条件となる。
【0007】ところで、文書中の単語の機械処理による
自動認定に関しては、一般には、形態素解析が用いられ
る。形態素解析には、解析用の辞書を用いる方法と、辞
書を用いない方法とがあるが、何れの方法にしても不十
分である。例えば、辞書を用いる方法の場合、辞書を用
いない方法よりは精度が高いと思われるが、辞書に未登
録の単語を如何に扱うかの問題や、辞書自体の精度によ
って解析精度が大きく左右されるという問題がある。
【0008】
【発明が解決しようとする課題】このような状況下に、
大量の文書データを処理するためには、単語認定は、人
手ではなく、全て機械処理、例えば形態素解析処理を行
うことが前提といえる。従って、単語の意味や単語知識
を必要とする高度な単語認定は不可能であり、人手の介
在が必要となる国立国語研究所の語彙調査方法は不適と
なる。
【0009】加えて、全て機械処理する上でも、極力曖
昧さや矛盾がなく、一義的にその単位の単語を切り出す
ことができること、即ち、抽出される単語の単位が統一
されていることが大切であり、かつ、そのような切り出
しとなったという事柄が誰でも容易に理解できること、
が大切であると考えられる。換言すれば、不完全な現状
レベルで最も高精度さを出せる単語認定を行えることが
望ましい。つまり、単に高度な単語認定を前提とするよ
りも、現状における如何なる形態素解析システムを用い
ても結果にあまり大きな変動(差)がなく、安定した単
位でユーザが容易に納得し得る内容であれば十分効果が
あると考えられる。
【0010】そこで、本発明は、不完全な現状レベルで
最も高精度さを出せる単位で単語、特に複合語の抽出・
認定を極力漏れなく行うことができ、入力されたキーワ
ードに対する適正な関連語の抽出に供することができる
関連語自動抽出装置及び方法並びに情報記憶媒体を提供
することを目的とする。
【0011】加えて、本発明は、“最長単位”という考
えの下に1単語を認定する場合に、非本質的な差異によ
る頻度情報や出現文書識別情報等の情報の分散を避け
て、適正に関連語の抽出に供することができる関連語自
動抽出装置及び方法並びに情報記憶媒体を提供すること
を目的とする。
【0012】
【課題を解決するための手段】請求項1記載の発明の関
連語自動抽出装置は、電子化された文書群を格納する文
書データベースと、文書中に出現する文節を自立語と付
属語とに分けた場合の自立語部分全体を1単語とする最
長単位生成部を有して、前記文書データベースに格納さ
れた文書群中で単語認定を行う単語認定手段と、この単
語認定手段により認定された単語中から所定条件の関連
語用単語を抽出する関連語用単語抽出手段と、この関連
語用単語抽出手段により抽出された或る関連語用単語が
当該関連語用単語よりも長い他の関連語用単語中に含ま
れていた場合に当該他の関連語用単語の出現文書識別情
報、頻度情報等の情報を前記或る関連語用単語に付加す
る複合語内頻度/識別情報調整手段と、各文書毎に抽出
され該当する場合には前記複合語内頻度/識別情報調整
手段により付加された関連語用単語を所定の記憶装置に
格納する関連語用単語格納手段と、入力されたキーワー
ドと前記記憶装置に格納された前記関連語用単語との間
の関連度を計算する関連度計算手段と、この関連度計算
手段による関連度の計算結果を出力する結果出力手段と
を備える。請求項3記載の発明の関連語自動抽出方法
は、文書データベースに電子化されて格納されている文
書群に対して、文書中に出現する文節を自立語と付属語
とに分けた場合の自立語部分全体を1単語とする最長単
位生成工程を含み、前記文書データベースに格納された
文書群中で単語認定を行う単語認定工程と、この単語認
定工程により認定された単語中から所定条件の関連語用
単語を抽出する関連語用単語抽出工程と、この関連語用
単語抽出工程により抽出された或る関連語用単語が当該
関連語用単語よりも長い他の関連語用単語中に含まれて
いた場合に当該他の関連語用単語の出現文書識別情報、
頻度情報等の情報を前記或る関連語用単語に付加する複
合語内頻度/識別情報調整工程と、各文書毎に抽出され
該当する場合には前記複合語内頻度/識別情報調整工程
により付加された関連語用単語を所定の記憶装置に格納
する関連語用単語格納工程と、入力されたキーワードと
前記記憶装置に格納された前記関連語用単語との間の関
連度を計算する関連度計算工程と、この関連度計算工程
による関連度の計算結果を出力装置に出力する結果出力
工程とよりなる。
【0013】一般に、複合語の認定やその内部構成の認
定は、搭載されている辞書や文法の影響を非常に強く受
けて揺らぎが大きいが、文節の認定は機械処理によって
もその揺らぎは少ないといえる。特に、助動詞相当表現
や接続詞的表現についてはまだ揺らぎがあるものの、助
詞についてはほぼ統一見解が得られているといってよ
い。よって、現状レベルでは、文節を自立語と助詞、助
動詞等の付属語とに分けた場合の自立語部分全体を1単
語(=最長単位)とするのが、最も安定した単位として
考えられる。従って、請求項1記載の発明の関連語自動
抽出装置又は請求項3記載の発明の関連語自動抽出方法
によれば、単語認定に関して最長単位生成部又は最長単
位生成工程を有して上記の処理を行うので、現状レベル
で、極めて精度よく安定した単語(関連語用単語)の抽
出が可能となる。この場合、最長単位なる概念を用いて
処理すると、頻度の分散を生ずるが、複合語内頻度/識
別情報調整手段又は複合語内頻度/識別情報調整工程に
よる処理で、長い関連語用単語に含まれる頻度情報等を
短い関連語用単語に付加させることで、実際に最長単位
で使用された単語であれば、短い単語であっても長い単
語であっても漏れなく情報を得ることができ、頻度情報
等の分散を回避し、良好なる関連語抽出処理に供するこ
とができる。
【0014】このような請求項1記載の発明の関連語自
動抽出装置又は請求項3記載の発明の関連語自動抽出方
法は、請求項5記載の発明の情報記憶媒体に記憶された
プログラムをコンピュータに読み取らせることによって
も実行される。即ち、請求項5記載の発明の情報記憶媒
体は、コンピュータに読み取り可能なプログラムを記憶
しており、このプログラムは文書データベースに電子化
されて格納されている文書群中から入力された所定のキ
ーワードに対する関連語を抽出する処理を前記コンピュ
ータに実行させるものであり、前記関連語を抽出する処
理は、文書データベースに電子化されて格納されている
文書群に対して、文書中に出現する文節を自立語と付属
語とに分けた場合の自立語部分全体を1単語とする最長
単位生成処理を含み、前記文書データベースに格納され
た文書群中で単語認定を行う単語認定処理と、この単語
認定処理により認定された単語中から所定条件の関連語
用単語を抽出する関連語用単語抽出処理と、この関連語
用単語抽出処理により抽出された或る関連語用単語が当
該関連語用単語よりも長い他の関連語用単語中に含まれ
ていた場合に当該他の関連語用単語の出現文書識別情
報、頻度情報等の情報を前記或る関連語用単語に付加す
る複合語内頻度/識別情報調整処理と、各文書毎に抽出
され該当する場合には前記複合語内頻度/識別情報調整
処理により付加された関連語用単語を所定の記憶装置に
格納する関連語用単語格納処理と、入力されたキーワー
ドと前記記憶装置に格納された前記関連語用単語との間
の関連度を計算する関連度計算処理と、この関連度計算
処理による関連度の計算結果を出力装置に出力する結果
出力処理とよりなる。
【0015】請求項2記載の発明は、請求項1記載の関
連語自動抽出装置における前記単語認定手段は、前記最
長単位生成部により生成された最長単位の単語に対して
所定条件に基づき縮退処理を行う縮退処理部を有する。
請求項4記載の発明は、請求項3記載の関連語自動抽出
方法における前記単語認定工程は、前記最長単位生成工
程により生成された最長単位の単語に対して所定条件に
基づき縮退処理を行う縮退処理工程を含む。
【0016】前述した請求項1,3又は5記載の発明に
よる場合、文書データベースに格納された文書中に実際
に最長単位として出現した単語は全てフォローされる
が、現実には、期待される文字列がなかなか現われない
場合がある。例えば、人名等に関して、“○○○○○”
という単語が一度でも最長単位で現われればその複合語
“○○○○○大統領”“○○○○○陣営”の情報を“○
○○○○”に付加することができるが、実際には、“○
○○○○が…した”と呼び捨て形で表現されることは少
なく、“○○○○○氏が…”“○○○○○さんが…”と
いうように人名接尾辞がついて表現されることが多い。
このままでは、“○○○○○氏”と“○○○○○大統
領”とは関係付けができないので、“○○○○○”を得
るための処理が必要となる。ここに、請求項2記載の発
明の関連語自動抽出装置又は請求項4記載の発明の関連
語自動抽出方法によれば、縮退処理部又は縮退処理工程
を有して、人名接尾辞などを所定条件の下に削除(縮
退)することで、最長単位相当の単語を生成してやるこ
とにより、非本質的な差異による頻度情報や出現文書識
別情報の分散を避けることができる。
【0017】このような請求項2記載の発明の関連語自
動抽出装置又は請求項4記載の発明の関連語自動抽出方
法は、請求項6記載の発明の情報記憶媒体に記憶された
プログラムをコンピュータに読み取らせることによって
も実行される。即ち、請求項6記載の発明は、請求項5
記載の情報記憶媒体において、前記単語認定処理には、
前記最長単位生成処理により生成された最長単位の単語
に対して所定条件に基づき縮退処理を行う縮退処理を含
む。
【0018】
【発明の実施の形態】本発明の一実施の形態を図1ない
し図6に基づいて説明する。図1は、本実施の形態の関
連語自動抽出装置1の構成を機能ブロックで示すブロッ
ク図である。まず、文書データベース2には電子化され
た文書群が格納されている。単語認定部3は、本発明に
おける単語認定手段、或いは、単語認定工程の処理機能
を有して、文書データベース2中に格納されている文書
群に関して単語認定処理を行う。この単語認定を機械処
理で自動的に行うため、形態素解析法などが用いられる
が、本実施の形態では、文書中の文節を認定できればよ
いので、形態素解析よりも浅い解析法によるものであっ
てもよい。ここに、本実施の形態においては、この単語
認定部3中に最長単位生成部4と縮退処理部5とが含ま
れている。最長単位生成部4は、本発明における最長単
位生成部、或いは、最長単位生成工程の処理機能を有
し、基本的には、文書中に出現する文節を自立語と付属
語とに分けた場合の自立語部分全体を1単語とする処理
を実行する。即ち、接辞や名詞連続を一つの単語として
まとめ上げる等の処理を通じて最長単位を生成するもの
である。縮退処理部5は、本発明における縮退処理部、
或いは、縮退処理工程の処理機能を有し、基本的には、
人名接尾辞など非本質的な差異によって得たい単語が得
られない不具合をなくすために所定条件に適合する接辞
の削除(縮退)処理を実行する。所定条件の具体例とし
ては、例えば、人名部分が2文字以上であれば接尾辞の
“さん”“たち(達)”“ら(等)”などを削除するこ
とが挙げられる。ちなみに、人名部分が1文字だけの場
合には、接尾辞をとると1文字となり単語として不都合
な場合があるため、対象外としている。また、単語によ
っては、“さん”付けで熟しているものもあるので、例
外として縮退処理を実行しないように条件付けられてい
る。
【0019】関連語用単語抽出部6は、本発明における
関連語用単語抽出手段、或いは、関連語用単語抽出工程
の処理機能を有し、単語認定部3により認定された単語
中から所定条件の関連語用単語を抽出する処理を実行す
る。関連語用単語の抽出条件は、各システム毎に任意に
設定される。複合語内頻度/ID調整部7は、本発明に
おける複合語内頻度/識別情報調整手段、或いは、複合
語内頻度/識別情報調整工程の処理機能を有する。この
複合語内頻度/ID調整部7は、関連語用単語抽出部6
により抽出された或る関連語用単語Xが当該関連語用単
語Xよりも長い他の関連語用単語Y中に含まれていた場
合には、当該他の関連語用単語Yの出現文書ID情報、
頻度情報等の情報を関連語用単語Xに付加する処理を実
行する。
【0020】文書別関連語用単語情報格納部8は、本発
明における関連語用単語格納手段、或いは、関連語用単
語格納工程の処理機能を有し、関連語用単語抽出部6及
び複合語内頻度/ID調整部7の処理を経て各文書毎に
抽出された単語(関連語用単語)をインデックスファイ
ル、例えば転置ファイル等の所定の記憶装置に格納する
処理を実行する。
【0021】関連度計算部9は、本発明における関連度
計算手段、或いは、関連度計算工程の処理機能を有し、
キーボード等の入力部10を通じてユーザにより入力さ
れたキーワードと、文書別関連語用単語情報格納部8に
より記憶装置に格納された関連語用単語との間の関連度
を計算する処理を実行する。関連度の計算には、例え
ば、共起頻度などの情報が用いられる。
【0022】関連語表示部11は、本発明における結果
出力手段、或いは、結果出力工程の処理機能を有し、関
連度計算部9による関連度の計算結果をディスプレイ等
の表示装置(出力装置)に表示出力する処理を実行す
る。即ち、文書群中から抽出された関連語用単語群から
ユーザにより入力されたキーワードに関係の深い関連語
用単語を関連語として表示させる。もっとも、結果出力
の形態はディスプレイ表示に限らず、プリンタ等を通じ
た印字出力形態であってもよい。
【0023】ここで、文書別関連語用単語情報格納部8
により単語情報が格納されて関連度計算に使用される記
憶装置なるインデックスファイルとしては、例えば、転
置ファイル12a、ダイレクトファイル12b、或い
は、頻度ファイル12c等を想定できる。転置ファイル
12aとは、図2(a)にそのイメージを示す図示の如
く、単語が第1フィールドに来て、その単語に対応する
出現文書IDが第2フィールドに記されるようなイメー
ジで情報を格納するものである。文書別関連語用単語情
報格納部8において本ファイルは作成されるが、検索シ
ステムなどに応用される場合には検索エンジンの転置フ
ァイルを流用するようにしてもよい。ダイレクトファイ
ル12bとは、図2(b)にそのイメージを示す如く、
文書IDが第1フィールドに来て、各文書毎に抽出した
関連語用単語(保有単語)情報が第2フィールドに格納
されるような形態のものである。文書別関連語用単語情
報格納部8において本ファイルは作成される。頻度ファ
イル12cは、図(c)にそのイメージを示す如く、各
単語(関連語用単語)の出現文書頻度を記したようなも
ので、文書別関連語用単語情報格納部8において本ファ
イルは作成される。
【0024】従って、文書データベース2やファイル1
2a〜12cとツールとの関係で表現すれば、図1に機
能ブロックで図示した本実施の形態の関連語自動抽出装
置1は、実際には、図3(a)又は(b)に示すような
形態として表現することができる。即ち、文書データベ
ース2に格納された文書群について、単語認定部3、関
連語用単語抽出部6、複合語内頻度/ID調整部7によ
る処理をインデックスファイルの作成処理として実行
し、その結果を何れかのファイル12a〜12cにイン
デックスファイルとして保有し、保有した情報を関連度
計算部9による関連度計算に供する形態となる。或い
は、ファイル12a〜12cの何れかにインデックスフ
ァイルとして保有された情報とユーザから指定された単
語情報(キーワード)とを用いて、関連度付きで関連語
を抽出する処理を実行する形態となる。
【0025】次に、関連語自動抽出装置1による関連語
用単語抽出処理の具体例について図4及び図5を参照し
て説明する。図4は文書データベース2に格納された文
書群を〔文書1〕〜〔文書6〕としてその具体例を新聞
からの抜粋例として示すものである(本明細書におい
て、記事内容は意味を有しない)。もっとも、この抜粋
例はポイント個所を示すだけであり、極めて短い文書例
となっているが、現実的には、1文書が新聞における1
記事相当と考えるのが妥当である。このような具体的な
文書群に対して、単語認定部3の最長単位生成部4及び
縮退処理部5の処理を経ることで最長単位での切り出し
を行った結果を示すと、図5(a)のようになる。即
ち、各文書について文節認定の下にその文節中の自立語
部分全体が1単語=最長単位として抽出されている。加
えて、〔文書6〕の例では、縮退処理部5による縮退処
理を経ることにより“クリントンさん”が“クリント
ン”とされて最長単位の単語と認定されている。このよ
うな認定結果に対して、複合語内頻度/ID調整部7に
よる情報の調整処理を経た結果を示すと、図5(b)の
ようになる。即ち、各単語(関連語用単語)は自己より
長い単語(関連語用単語)に含有されていれば、頻度情
報と文書出現ID情報とが付加される。例えば、“クリ
ントン”には“クリントン大統領””米クリントン政
権”等の関連語用単語の頻度情報と文書出現ID情報と
が付加される如く処理される。よって、単語認定部3で
の最長単位による単語認定だけでは頻度の分散を生ずる
が、このように長い関連語用単語に含まれる頻度情報等
を短い関連語用単語に付加させることにより、実際に最
長単位で使用された単語であれば、短い単語であっても
長い単語であっても漏れなく情報を得ることができ、頻
度情報の分散を回避することができる。この結果、適正
な関連語抽出処理を行えるものとなる。
【0026】ところで、本実施の形態の関連語自動抽出
装置1は、そのハードウェア構成としては、1個のコン
ピュータシステムを利用することにより実現される。こ
のコンピュータシステムは、図6に示すように、コンピ
ュータの主体としてCPU(Central Processing Un
it)21を有しており、このCPU21には、バスライ
ン22により、ROM(Read Only Memory)23、
RAM(Random Access Memory)24、HDD(Ha
rd Disc Drive)25、FD(Floppy Disc)26が
装填されるFDD(FD Drive)27、CD‐ROM
28が装填されるCD‐ROMドライブ29、マウス3
0が接続されたキーボード31、ディスプレイ32、通
信I/F(Interface)33等が接続されている。34
はファイル12a〜12c等を含むファイル(メモリ)
である。
【0027】従って、本実施の形態のコンピュータシス
テムでは、予め記憶されたソフトウェアをCPU21に
提供できる情報記憶媒体としては、ROM23、RAM
24、HDD25、FD26、CD‐ROM28等を有
している。具体例としては、COU21に各種の処理動
作を実行させるための制御プログラムがソフトウェアと
して予め設定されており、このような制御プログラム
は、例えば、CD‐ROM28に予め格納されている。
このようなソフトウェアはHDD25に予めインストー
ルされており、コンピュータシステムの起動時にRAM
24に複写されて動作時にCPU21に読み取られる。
このようにCPU21が各種のプログラムを読み取って
対応する処理を実行することにより、各種の手段或いは
工程の処理機能が実現されるので、当該コンピュータシ
ステムが前述したような関連語自動抽出装置1として動
作することになる。
【0028】もっとも、ソフトウェアをCPU21に提
供する情報記憶媒体としては、CPU21がアクセスで
きるものであればよく、例えば、このようなソフトウェ
アをCD‐ROM28からCPU21に利用させる形態
であってもよく、或いは、予めROM23に固定的に格
納しておくようにしてよく、さらには、複数の情報記憶
媒体に分散させておいてもよい。
【0029】
【発明の効果】請求項1,3及び5記載の発明によれ
ば、文書中からの単語認定に機械処理を行っても認定の
揺らぎの少ない最長単位を利用するようにしたので、現
状レベルで、極めて精度よく安定した関連語用単語の抽
出が可能となり、かつ、複合語内頻度/識別情報調整処
理を行うので、実際に最長単位で使用された単語であれ
ば、短い単語であっても長い単語であっても漏れなくそ
の情報を得ることができ、よって、頻度情報等の分散を
回避し、良好なる関連語抽出処理を行わせることができ
る。
【0030】請求項2,4及び6記載の発明によれば、
請求項1,3及び5記載の発明に加えて、縮退処理を通
じて、人名接尾辞などを所定条件の下に削除すること
で、最長単位相当の単語を生成するようにしたので、非
本質的な差異による頻度情報や出現文書識別情報の分散
を避けることができ、良好なる関連語抽出処理を行わせ
ることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態の関連語自動抽出装置の
構成を機能ブロックで示すブロック図である。
【図2】インデックスファイルの構成例をイメージ的に
示す模式図である。
【図3】関連語自動抽出装置の構成をツールとファイル
との関係で表現して示す模式的なブロック図である。
【図4】具体的な文書例を示す説明図である。
【図5】(a)は最長単位生成及び縮退処理後の単語切
り出し例を示す説明図、(b)は複合語内頻度/ID調
整処理後の単語例を示す説明図である。
【図6】コンピュータシステムとしての構成例を示すブ
ロック図である。
【図7】従来の複合語の扱い例を示す説明図である。
【符号の説明】
2 文書データベース 3 単語抽出手段、単語抽出工程 4 最長単位生成部、最長単位生成工程 5 縮退処理部、縮退処理工程 6 関連語用単語抽出手段、関連語用単語抽出工程 7 複合語内頻度/識別情報調整手段、複合語内頻
度/識別情報調整工程 8 関連語用単語格納手段、関連語用単語格納工程 10 関連度計算手段、関連度計算工程 11 結果出力手段、結果出力工程 12a〜12c 記憶装置 21 コンピュータ 23〜26,28 情報記憶媒体

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文書群を格納する文書デー
    タベースと、 文書中に出現する文節を自立語と付属語とに分けた場合
    の自立語部分全体を1単語とする最長単位生成部を有し
    て、前記文書データベースに格納された文書群中で単語
    認定を行う単語認定手段と、 この単語認定手段により認定された単語中から所定条件
    の関連語用単語を抽出する関連語用単語抽出手段と、 この関連語用単語抽出手段により抽出された或る関連語
    用単語が当該関連語用単語よりも長い他の関連語用単語
    中に含まれていた場合に当該他の関連語用単語の出現文
    書識別情報、頻度情報等の情報を前記或る関連語用単語
    に付加する複合語内頻度/識別情報調整手段と、 各文書毎に抽出され該当する場合には前記複合語内頻度
    /識別情報調整手段により付加された関連語用単語を所
    定の記憶装置に格納する関連語用単語格納手段と、 入力されたキーワードと前記記憶装置に格納された前記
    関連語用単語との間の関連度を計算する関連度計算手段
    と、 この関連度計算手段による関連度の計算結果を出力する
    結果出力手段と、を備える関連語自動抽出装置。
  2. 【請求項2】 前記単語認定手段は、前記最長単位生成
    部により生成された最長単位の単語に対して所定条件に
    基づき縮退処理を行う縮退処理部を有する請求項1記載
    の関連語自動抽出装置。
  3. 【請求項3】 文書データベースに電子化されて格納さ
    れている文書群に対して、文書中に出現する文節を自立
    語と付属語とに分けた場合の自立語部分全体を1単語と
    する最長単位生成工程を含み、前記文書データベースに
    格納された文書群中で単語認定を行う単語認定工程と、 この単語認定工程により認定された単語中から所定条件
    の関連語用単語を抽出する関連語用単語抽出工程と、 この関連語用単語抽出工程により抽出された或る関連語
    用単語が当該関連語用単語よりも長い他の関連語用単語
    中に含まれていた場合に当該他の関連語用単語の出現文
    書識別情報、頻度情報等の情報を前記或る関連語用単語
    に付加する複合語内頻度/識別情報調整工程と、 各文書毎に抽出され該当する場合には前記複合語内頻度
    /識別情報調整工程により付加された関連語用単語を所
    定の記憶装置に格納する関連語用単語格納工程と、 入力されたキーワードと前記記憶装置に格納された前記
    関連語用単語との間の関連度を計算する関連度計算工程
    と、 この関連度計算工程による関連度の計算結果を出力装置
    に出力する結果出力工程と、よりなる関連語自動抽出方
    法。
  4. 【請求項4】 前記単語認定工程は、前記最長単位生成
    工程により生成された最長単位の単語に対して所定条件
    に基づき縮退処理を行う縮退処理工程を含む請求項3記
    載の関連語自動抽出方法。
  5. 【請求項5】 コンピュータに読み取り可能なプログラ
    ムを記憶しており、このプログラムは文書データベース
    に電子化されて格納されている文書群中から入力された
    所定のキーワードに対する関連語を抽出する処理を前記
    コンピュータに実行させるものであり、 前記関連語を抽出する処理は、 文書データベースに電子化されて格納されている文書群
    に対して、文書中に出現する文節を自立語と付属語とに
    分けた場合の自立語部分全体を1単語とする最長単位生
    成処理を含み、前記文書データベースに格納された文書
    群中で単語認定を行う単語認定処理と、 この単語認定処理により認定された単語中から所定条件
    の関連語用単語を抽出する関連語用単語抽出処理と、 この関連語用単語抽出処理により抽出された或る関連語
    用単語が当該関連語用単語よりも長い他の関連語用単語
    中に含まれていた場合に当該他の関連語用単語の出現文
    書識別情報、頻度情報等の情報を前記或る関連語用単語
    に付加する複合語内頻度/識別情報調整処理と、 各文書毎に抽出され該当する場合には前記複合語内頻度
    /識別情報調整処理により付加された関連語用単語を所
    定の記憶装置に格納する関連語用単語格納処理と、 入力されたキーワードと前記記憶装置に格納された前記
    関連語用単語との間の関連度を計算する関連度計算処理
    と、 この関連度計算処理による関連度の計算結果を出力装置
    に出力する結果出力処理と、よりなる情報記憶媒体。
  6. 【請求項6】 前記単語認定処理は、前記最長単位生成
    処理により生成された最長単位の単語に対して所定条件
    に基づき縮退処理を行う縮退処理を含む請求項5記載の
    情報記憶媒体。
JP13783298A 1998-05-20 1998-05-20 関連語自動抽出装置及び方法並びに情報記憶媒体 Expired - Fee Related JP3788864B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13783298A JP3788864B2 (ja) 1998-05-20 1998-05-20 関連語自動抽出装置及び方法並びに情報記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13783298A JP3788864B2 (ja) 1998-05-20 1998-05-20 関連語自動抽出装置及び方法並びに情報記憶媒体

Publications (2)

Publication Number Publication Date
JPH11328182A true JPH11328182A (ja) 1999-11-30
JP3788864B2 JP3788864B2 (ja) 2006-06-21

Family

ID=15207888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13783298A Expired - Fee Related JP3788864B2 (ja) 1998-05-20 1998-05-20 関連語自動抽出装置及び方法並びに情報記憶媒体

Country Status (1)

Country Link
JP (1) JP3788864B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003046765A1 (fr) * 2001-11-30 2003-06-05 Mitsubishi Space Software Co., Ltd. Procede d'extraction automatique de mot associe
JP2008518345A (ja) * 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
早川 徹、ほか: "特集:日本語テキストを対象とした自動索引システム 河北新報社におけるJAIRSの使用", 情報の科学と技術, vol. 42巻、11号, CSNG200200699001, 1 November 1992 (1992-11-01), JP, pages 1033 - 1040, ISSN: 0000722826 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003046765A1 (fr) * 2001-11-30 2003-06-05 Mitsubishi Space Software Co., Ltd. Procede d'extraction automatique de mot associe
JP2003167894A (ja) * 2001-11-30 2003-06-13 Mitsubishi Space Software Kk 関連語自動抽出方法、関連語自動抽出装置、複数重要語抽出プログラムおよび重要語上下階層関係抽出プログラム
JP2008518345A (ja) * 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法
KR101303363B1 (ko) * 2004-10-28 2013-09-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 데이터 처리 시스템 및 방법

Also Published As

Publication number Publication date
JP3788864B2 (ja) 2006-06-21

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
Wan et al. Person resolution in person search results: Webhawk
JP3691844B2 (ja) 文書処理方法
TWI443530B (zh) 文件處理系統及方法
US20020078090A1 (en) Ontological concept-based, user-centric text summarization
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2007517338A (ja) サーチ品質の改善システムおよび改善方法
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Attar et al. KEDMA—Linguistic tools for retrieval systems
JP2009086903A (ja) 検索サービス装置
JP3788864B2 (ja) 関連語自動抽出装置及び方法並びに情報記憶媒体
JP2002183175A (ja) テキストマイニング方法
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN113918804A (zh) 商品信息检索系统及方法
JP2002132789A (ja) 文書検索方法
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11195041A (ja) 文書検索装置、方法及び記録媒体
JPH1145266A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4368550B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JPH11126204A (ja) 速読支援方法、文書検索方法およびその装置
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145250A (ja) 情報検索装置,検索結果を利用した検索条件の生成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050606

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050606

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050609

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060324

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110407

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees