JP3788864B2 - 関連語自動抽出装置及び方法並びに情報記憶媒体 - Google Patents
関連語自動抽出装置及び方法並びに情報記憶媒体 Download PDFInfo
- Publication number
- JP3788864B2 JP3788864B2 JP13783298A JP13783298A JP3788864B2 JP 3788864 B2 JP3788864 B2 JP 3788864B2 JP 13783298 A JP13783298 A JP 13783298A JP 13783298 A JP13783298 A JP 13783298A JP 3788864 B2 JP3788864 B2 JP 3788864B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- identification information
- frequency
- related word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書検索支援装置等に応用可能であり、或る文書群から所定のキーワードに対する関連語を自動的に抽出する関連語自動抽出装置及び方法並びに情報記憶媒体に関する。
【0002】
【従来の技術】
大規模コーパスから単語の共起関係に基づいて当該コーパスから関連語をリアルタイムで得るための手法が最近検討されている。日本語に関しては、例えば、「動的な共起解析を用いた対話的文書検索支援」(日立 丹羽芳樹 自然言語処理115-14 情報学基礎43-6 1996.9.13 pp.41〜48)(以下、文献1という)により報告されている。
【0003】
この文献1等に示される手法の基本的な考え方は、各文書からキーワードを抽出して各キーワードの共起文書頻度などから或るキーワードAとキーワードBとの関連度を求めるものである。関連度の求め方としては、統計的な手法を用いるのが一般的であり、具体的には、様々な手法が考えられる。
【0004】
問題は、キーワードの取り出し方である。キーワードは、一般に、文書内頻度や文書出現頻度などから決定されるが、以下に説明する本発明では、それ以前の問題として、単語の認定の仕方に関わる部分を取り上げるものである。
【0005】
まず、日本語文書は分かち書きされない言語文書であるため、英文等と異なり、単語の認定の仕方に関しては、古くから諸説あり、現在においても統一見解はない。この問題が顕著に現われるのは複合語を扱う場合である。複合語は、例えば図7に例示するように意味をなす最小単位が複数個結合して構成された語であり、その結合は1回とは限らない。このような複合語についての単語認定の仕方には、例えば、複合語を短い単位で認定するもの(例えば、国立国語研究所の語彙調査β単位系)や複合語を長い単位のままで認定するもの(例えば、国立国語研究所の語彙調査α単位系)がある。
【0006】
図7中にも例示するように、何次結合までを単語として認めるかで様々な見解が存在する。国立国語研究所の語彙調査では時代とともに変遷があったものの、近年では、基本語彙の把握や用字用語調査といった目的には前述したβ単位系を用い、専門語や日本語の語構成の調査には前述したα単位系を用いる方向で統一されつつある。このように、単語の認定方法は唯一に確立しておらず、目的にあった方法を採用することになる。もっとも、β単位系、α単位系の何れにしても、国立国語研究所の語彙調査では、人手チェックが介在することが条件となる。
【0007】
ところで、文書中の単語の機械処理による自動認定に関しては、一般には、形態素解析が用いられる。形態素解析には、解析用の辞書を用いる方法と、辞書を用いない方法とがあるが、何れの方法にしても不十分である。例えば、辞書を用いる方法の場合、辞書を用いない方法よりは精度が高いと思われるが、辞書に未登録の単語を如何に扱うかの問題や、辞書自体の精度によって解析精度が大きく左右されるという問題がある。
【0008】
【発明が解決しようとする課題】
このような状況下に、大量の文書データを処理するためには、単語認定は、人手ではなく、全て機械処理、例えば形態素解析処理を行うことが前提といえる。従って、単語の意味や単語知識を必要とする高度な単語認定は不可能であり、人手の介在が必要となる国立国語研究所の語彙調査方法は不適となる。
【0009】
加えて、全て機械処理する上でも、極力曖昧さや矛盾がなく、一義的にその単位の単語を切り出すことができること、即ち、抽出される単語の単位が統一されていることが大切であり、かつ、そのような切り出しとなったという事柄が誰でも容易に理解できること、が大切であると考えられる。換言すれば、不完全な現状レベルで最も高精度さを出せる単語認定を行えることが望ましい。つまり、単に高度な単語認定を前提とするよりも、現状における如何なる形態素解析システムを用いても結果にあまり大きな変動(差)がなく、安定した単位でユーザが容易に納得し得る内容であれば十分効果があると考えられる。
【0010】
そこで、本発明は、不完全な現状レベルで最も高精度さを出せる単位で単語、特に複合語の抽出・認定を極力漏れなく行うことができ、入力されたキーワードに対する適正な関連語の抽出に供することができる関連語自動抽出装置及び方法並びに情報記憶媒体を提供することを目的とする。
【0011】
加えて、本発明は、“最長単位”という考えの下に1単語を認定する場合に、非本質的な差異による頻度情報や出現文書識別情報等の情報の分散を避けて、適正に関連語の抽出に供することができる関連語自動抽出装置及び方法並びに情報記憶媒体を提供することを目的とする。
【0012】
【課題を解決するための手段】
請求項1記載の発明の関連語自動抽出装置は、入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置において、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納手段と、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を1単語として切り出して前記関連語用単語を生成する単語認定手段と、この単語認定手段により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度/識別情報調整手段と、を備え、前記関連語用単語格納手段は、前記複合語内頻度/識別情報調整手段で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する。請求項3記載の発明の関連語自動抽出方法は、入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置による関連語自動抽出方法において、前記関連語自動抽出装置が備える関連語用単語格納手段が、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納工程と、前記関連語自動抽出装置が備える単語認定手段が、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を1単語として切り出して前記関連語用単語を生成する単語認定工程と、前記関連語自動抽出装置が備える複合語内頻度/識別情報調整手段が、前記単語認定工程により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度/識別情報調整工程と、よりなり、前記関連語用単語格納工程は、前記複合語内頻度/識別情報調整工程で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する。
【0013】
一般に、複合語の認定やその内部構成の認定は、搭載されている辞書や文法の影響を非常に強く受けて揺らぎが大きいが、文節の認定は機械処理によってもその揺らぎは少ないといえる。特に、助動詞相当表現や接続詞的表現についてはまだ揺らぎがあるものの、助詞についてはほぼ統一見解が得られているといってよい。よって、現状レベルでは、文節を自立語と助詞、助動詞等の付属語とに分けた場合の自立語部分全体を1単語(=最長単位)とするのが、最も安定した単位として考えられる。従って、請求項1記載の発明の関連語自動抽出装置又は請求項3記載の発明の関連語自動抽出方法によれば、単語認定に関して最長単位生成部又は最長単位生成工程を有して上記の処理を行うので、現状レベルで、極めて精度よく安定した単語(関連語用単語)の抽出が可能となる。この場合、最長単位なる概念を用いて処理すると、頻度の分散を生ずるが、複合語内頻度/識別情報調整手段又は複合語内頻度/識別情報調整工程による処理で、長い関連語用単語に含まれる頻度情報等を短い関連語用単語に付加させることで、実際に最長単位で使用された単語であれば、短い単語であっても長い単語であっても漏れなく情報を得ることができ、頻度情報等の分散を回避し、良好なる関連語抽出処理に供することができる。
【0014】
このような請求項1記載の発明の関連語自動抽出装置又は請求項3記載の発明の関連語自動抽出方法は、請求項5記載の発明の情報記憶媒体に記憶されたプログラムをコンピュータに読み取らせることによっても実行される。即ち、請求項5記載の発明の情報記憶媒体は、入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する処理をコンピュータに実行させるプログラムを記憶しているコンピュータに読み取り可能な情報記憶媒体において、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納処理と、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を1単語として切り出して前記関連語用単語を生成する単語認定処理と、この単語認定処理により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度/識別情報調整処理と、を前記コンピュータに実行させるプログラムを記憶していて、前記関連語用単語格納処理は、前記複合語内頻度/識別情報調整処理で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する。
【0015】
請求項2記載の発明は、請求項1記載の関連語自動抽出装置における前記単語認定手段は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理部を有する。請求項4記載の発明は、請求項3記載の関連語自動抽出方法における前記単語認定工程は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理工程を含む。
【0016】
前述した請求項1,3又は5記載の発明による場合、文書データベースに格納された文書中に実際に最長単位として出現した単語は全てフォローされるが、現実には、期待される文字列がなかなか現われない場合がある。例えば、人名等に関して、“○○○○○”という単語が一度でも最長単位で現われればその複合語“○○○○○大統領”“○○○○○陣営”の情報を“○○○○○”に付加することができるが、実際には、“○○○○○が…した”と呼び捨て形で表現されることは少なく、“○○○○○氏が…”“○○○○○さんが…”というように人名接尾辞がついて表現されることが多い。このままでは、“○○○○○氏”と“○○○○○大統領”とは関係付けができないので、“○○○○○”を得るための処理が必要となる。ここに、請求項2記載の発明の関連語自動抽出装置又は請求項4記載の発明の関連語自動抽出方法によれば、縮退処理部又は縮退処理工程を有して、人名接尾辞などを所定条件の下に削除(縮退)することで、最長単位相当の単語を生成してやることにより、非本質的な差異による頻度情報や出現文書識別情報の分散を避けることができる。
【0017】
このような請求項2記載の発明の関連語自動抽出装置又は請求項4記載の発明の関連語自動抽出方法は、請求項6記載の発明の情報記憶媒体に記憶されたプログラムをコンピュータに読み取らせることによっても実行される。即ち、請求項6記載の発明は、請求項5記載の情報記憶媒体において、前記単語認定処理は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理を含む。
【0018】
【発明の実施の形態】
本発明の一実施の形態を図1ないし図6に基づいて説明する。図1は、本実施の形態の関連語自動抽出装置1の構成を機能ブロックで示すブロック図である。まず、文書データベース2には電子化された文書群が格納されている。単語認定部3は、本発明における単語認定手段、或いは、単語認定工程の処理機能を有して、文書データベース2中に格納されている文書群に関して単語認定処理を行う。この単語認定を機械処理で自動的に行うため、形態素解析法などが用いられるが、本実施の形態では、文書中の文節を認定できればよいので、形態素解析よりも浅い解析法によるものであってもよい。ここに、本実施の形態においては、この単語認定部3中に最長単位生成部4と縮退処理部5とが含まれている。最長単位生成部4は、本発明における最長単位生成部、或いは、最長単位生成工程の処理機能を有し、基本的には、文書中に出現する文節を自立語と付属語とに分けた場合の自立語部分全体を1単語とする処理を実行する。即ち、接辞や名詞連続を一つの単語としてまとめ上げる等の処理を通じて最長単位を生成するものである。縮退処理部5は、本発明における縮退処理部、或いは、縮退処理工程の処理機能を有し、基本的には、人名接尾辞など非本質的な差異によって得たい単語が得られない不具合をなくすために所定条件に適合する接辞の削除(縮退)処理を実行する。所定条件の具体例としては、例えば、人名部分が2文字以上であれば接尾辞の“さん”“たち(達)”“ら(等)”などを削除することが挙げられる。ちなみに、人名部分が1文字だけの場合には、接尾辞をとると1文字となり単語として不都合な場合があるため、対象外としている。また、単語によっては、“さん”付けで熟しているものもあるので、例外として縮退処理を実行しないように条件付けられている。
【0019】
関連語用単語抽出部6は、本発明における関連語用単語抽出手段、或いは、関連語用単語抽出工程の処理機能を有し、単語認定部3により認定された単語中から所定条件の関連語用単語を抽出する処理を実行する。関連語用単語の抽出条件は、各システム毎に任意に設定される。複合語内頻度/ID調整部7は、本発明における複合語内頻度/識別情報調整手段、或いは、複合語内頻度/識別情報調整工程の処理機能を有する。この複合語内頻度/ID調整部7は、関連語用単語抽出部6により抽出された或る関連語用単語Xが当該関連語用単語Xよりも長い他の関連語用単語Y中に含まれていた場合には、当該他の関連語用単語Yの出現文書ID情報、頻度情報等の情報を関連語用単語Xに付加する処理を実行する。
【0020】
文書別関連語用単語情報格納部8は、本発明における関連語用単語格納手段、或いは、関連語用単語格納工程の処理機能を有し、関連語用単語抽出部6及び複合語内頻度/ID調整部7の処理を経て各文書毎に抽出された単語(関連語用単語)をインデックスファイル、例えば転置ファイル等の所定の記憶装置に格納する処理を実行する。
【0021】
関連度計算部9は、本発明における関連度計算手段、或いは、関連度計算工程の処理機能を有し、キーボード等の入力部10を通じてユーザにより入力されたキーワードと、文書別関連語用単語情報格納部8により記憶装置に格納された関連語用単語との間の関連度を計算する処理を実行する。関連度の計算には、例えば、共起頻度などの情報が用いられる。
【0022】
関連語表示部11は、本発明における結果出力手段、或いは、結果出力工程の処理機能を有し、関連度計算部9による関連度の計算結果をディスプレイ等の表示装置(出力装置)に表示出力する処理を実行する。即ち、文書群中から抽出された関連語用単語群からユーザにより入力されたキーワードに関係の深い関連語用単語を関連語として表示させる。もっとも、結果出力の形態はディスプレイ表示に限らず、プリンタ等を通じた印字出力形態であってもよい。
【0023】
ここで、文書別関連語用単語情報格納部8により単語情報が格納されて関連度計算に使用される記憶装置なるインデックスファイルとしては、例えば、転置ファイル12a、ダイレクトファイル12b、或いは、頻度ファイル12c等を想定できる。転置ファイル12aとは、図2(a)にそのイメージを示す図示の如く、単語が第1フィールドに来て、その単語に対応する出現文書IDが第2フィールドに記されるようなイメージで情報を格納するものである。文書別関連語用単語情報格納部8において本ファイルは作成されるが、検索システムなどに応用される場合には検索エンジンの転置ファイルを流用するようにしてもよい。ダイレクトファイル12bとは、図2(b)にそのイメージを示す如く、文書IDが第1フィールドに来て、各文書毎に抽出した関連語用単語(保有単語)情報が第2フィールドに格納されるような形態のものである。文書別関連語用単語情報格納部8において本ファイルは作成される。頻度ファイル12cは、図(c)にそのイメージを示す如く、各単語(関連語用単語)の出現文書頻度を記したようなもので、文書別関連語用単語情報格納部8において本ファイルは作成される。
【0024】
従って、文書データベース2やファイル12a〜12cとツールとの関係で表現すれば、図1に機能ブロックで図示した本実施の形態の関連語自動抽出装置1は、実際には、図3(a)又は(b)に示すような形態として表現することができる。即ち、文書データベース2に格納された文書群について、単語認定部3、関連語用単語抽出部6、複合語内頻度/ID調整部7による処理をインデックスファイルの作成処理として実行し、その結果を何れかのファイル12a〜12cにインデックスファイルとして保有し、保有した情報を関連度計算部9による関連度計算に供する形態となる。或いは、ファイル12a〜12cの何れかにインデックスファイルとして保有された情報とユーザから指定された単語情報(キーワード)とを用いて、関連度付きで関連語を抽出する処理を実行する形態となる。
【0025】
次に、関連語自動抽出装置1による関連語用単語抽出処理の具体例について図4及び図5を参照して説明する。図4は文書データベース2に格納された文書群を〔文書1〕〜〔文書6〕としてその具体例を新聞からの抜粋例として示すものである(本明細書において、記事内容は意味を有しない)。もっとも、この抜粋例はポイント個所を示すだけであり、極めて短い文書例となっているが、現実的には、1文書が新聞における1記事相当と考えるのが妥当である。このような具体的な文書群に対して、単語認定部3の最長単位生成部4及び縮退処理部5の処理を経ることで最長単位での切り出しを行った結果を示すと、図5(a)のようになる。即ち、各文書について文節認定の下にその文節中の自立語部分全体が1単語=最長単位として抽出されている。加えて、〔文書6〕の例では、縮退処理部5による縮退処理を経ることにより“クリントンさん”が“クリントン”とされて最長単位の単語と認定されている。このような認定結果に対して、複合語内頻度/ID調整部7による情報の調整処理を経た結果を示すと、図5(b)のようになる。即ち、各単語(関連語用単語)は自己より長い単語(関連語用単語)に含有されていれば、頻度情報と文書出現ID情報とが付加される。例えば、“クリントン”には“クリントン大統領””米クリントン政権”等の関連語用単語の頻度情報と文書出現ID情報とが付加される如く処理される。よって、単語認定部3での最長単位による単語認定だけでは頻度の分散を生ずるが、このように長い関連語用単語に含まれる頻度情報等を短い関連語用単語に付加させることにより、実際に最長単位で使用された単語であれば、短い単語であっても長い単語であっても漏れなく情報を得ることができ、頻度情報の分散を回避することができる。この結果、適正な関連語抽出処理を行えるものとなる。
【0026】
ところで、本実施の形態の関連語自動抽出装置1は、そのハードウェア構成としては、1個のコンピュータシステムを利用することにより実現される。このコンピュータシステムは、図6に示すように、コンピュータの主体としてCPU(Central Processing Unit)21を有しており、このCPU21には、バスライン22により、ROM(Read Only Memory)23、RAM(Random Access Memory)24、HDD(Hard Disc Drive)25、FD(Floppy Disc)26が装填されるFDD(FD Drive)27、CD‐ROM28が装填されるCD‐ROMドライブ29、マウス30が接続されたキーボード31、ディスプレイ32、通信I/F(Interface)33等が接続されている。34はファイル12a〜12c等を含むファイル(メモリ)である。
【0027】
従って、本実施の形態のコンピュータシステムでは、予め記憶されたソフトウェアをCPU21に提供できる情報記憶媒体としては、ROM23、RAM24、HDD25、FD26、CD‐ROM28等を有している。具体例としては、COU21に各種の処理動作を実行させるための制御プログラムがソフトウェアとして予め設定されており、このような制御プログラムは、例えば、CD‐ROM28に予め格納されている。このようなソフトウェアはHDD25に予めインストールされており、コンピュータシステムの起動時にRAM24に複写されて動作時にCPU21に読み取られる。このようにCPU21が各種のプログラムを読み取って対応する処理を実行することにより、各種の手段或いは工程の処理機能が実現されるので、当該コンピュータシステムが前述したような関連語自動抽出装置1として動作することになる。
【0028】
もっとも、ソフトウェアをCPU21に提供する情報記憶媒体としては、CPU21がアクセスできるものであればよく、例えば、このようなソフトウェアをCD‐ROM28からCPU21に利用させる形態であってもよく、或いは、予めROM23に固定的に格納しておくようにしてよく、さらには、複数の情報記憶媒体に分散させておいてもよい。
【0029】
【発明の効果】
請求項1,3及び5記載の発明によれば、文書中からの単語認定に機械処理を行っても認定の揺らぎの少ない最長単位を利用するようにしたので、現状レベルで、極めて精度よく安定した関連語用単語の抽出が可能となり、かつ、複合語内頻度/識別情報調整処理を行うので、実際に最長単位で使用された単語であれば、短い単語であっても長い単語であっても漏れなくその情報を得ることができ、よって、頻度情報等の分散を回避し、良好なる関連語抽出処理を行わせることができる。
【0030】
請求項2,4及び6記載の発明によれば、請求項1,3及び5記載の発明に加えて、縮退処理を通じて、人名接尾辞などを所定条件の下に削除することで、最長単位相当の単語を生成するようにしたので、非本質的な差異による頻度情報や出現文書識別情報の分散を避けることができ、良好なる関連語抽出処理を行わせることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態の関連語自動抽出装置の構成を機能ブロックで示すブロック図である。
【図2】インデックスファイルの構成例をイメージ的に示す模式図である。
【図3】関連語自動抽出装置の構成をツールとファイルとの関係で表現して示す模式的なブロック図である。
【図4】具体的な文書例を示す説明図である。
【図5】(a)は最長単位生成及び縮退処理後の単語切り出し例を示す説明図、(b)は複合語内頻度/ID調整処理後の単語例を示す説明図である。
【図6】コンピュータシステムとしての構成例を示すブロック図である。
【図7】従来の複合語の扱い例を示す説明図である。
【符号の説明】
2 文書データベース
3 単語抽出手段、単語抽出工程
4 最長単位生成部、最長単位生成工程
5 縮退処理部、縮退処理工程
6 関連語用単語抽出手段、関連語用単語抽出工程
7 複合語内頻度/識別情報調整手段、複合語内頻度/識別情報調整工程
8 関連語用単語格納手段、関連語用単語格納工程
10 関連度計算手段、関連度計算工程
11 結果出力手段、結果出力工程
12a〜12c 記憶装置
21 コンピュータ
23〜26,28 情報記憶媒体
Claims (6)
- 入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置において、
文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納手段と、
前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を1単語として切り出して前記関連語用単語を生成する単語認定手段と、
この単語認定手段により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度/識別情報調整手段と、
を備え、
前記関連語用単語格納手段は、前記複合語内頻度/識別情報調整手段で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する、
ことを特徴とする関連語自動抽出装置。 - 前記単語認定手段は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理部を有する請求項1記載の関連語自動抽出装置。
- 入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置による関連語自動抽出方法において、
前記関連語自動抽出装置が備える関連語用単語格納手段が、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納工程と、
前記関連語自動抽出装置が備える単語認定手段が、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を1単語として切り出して前記関連語用単語を生成する単語認定工程と、
前記関連語自動抽出装置が備える複合語内頻度/識別情報調整手段が、前記単語認定工程により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度/識別情報調整工程と、
よりなり、
前記関連語用単語格納工程は、前記複合語内頻度/識別情報調整工程で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する、
ことを特徴とする関連語自動抽出方法。 - 前記単語認定工程は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理工程を含む請求項3記載の関連語自動抽出方法。
- 入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する処理をコンピュータに実行させるプログラムを記憶しているコンピュータに読み取り可能な情報記憶媒体において、
文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納処理と、
前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を1単語として切り出して前記関連語用単語を生成する単語認定処理と、
この単語認定処理により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度/識別情報調整処理と、
を前記コンピュータに実行させるプログラムを記憶していて、
前記関連語用単語格納処理は、前記複合語内頻度/識別情報調整処理で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する、
ことを特徴とする情報記憶媒体。 - 前記単語認定処理は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理を含む請求項5記載の情報記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13783298A JP3788864B2 (ja) | 1998-05-20 | 1998-05-20 | 関連語自動抽出装置及び方法並びに情報記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13783298A JP3788864B2 (ja) | 1998-05-20 | 1998-05-20 | 関連語自動抽出装置及び方法並びに情報記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11328182A JPH11328182A (ja) | 1999-11-30 |
JP3788864B2 true JP3788864B2 (ja) | 2006-06-21 |
Family
ID=15207888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13783298A Expired - Fee Related JP3788864B2 (ja) | 1998-05-20 | 1998-05-20 | 関連語自動抽出装置及び方法並びに情報記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3788864B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3553543B2 (ja) * | 2001-11-30 | 2004-08-11 | 三菱スペース・ソフトウエア株式会社 | 関連語自動抽出装置、複数重要語抽出プログラムおよび重要語の上下階層関係抽出プログラム |
GB0423879D0 (en) * | 2004-10-28 | 2004-12-01 | Koninkl Philips Electronics Nv | Data processing system and method |
-
1998
- 1998-05-20 JP JP13783298A patent/JP3788864B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11328182A (ja) | 1999-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
Wan et al. | Person resolution in person search results: Webhawk | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
US20020078090A1 (en) | Ontological concept-based, user-centric text summarization | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
CN111401045B (zh) | 一种文本生成方法、装置、存储介质和电子设备 | |
CN107615268B (zh) | 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 | |
JPH05158401A (ja) | 文書速読支援表示方式並びに文書処理装置及び文書検索装置 | |
JP3788864B2 (ja) | 関連語自動抽出装置及び方法並びに情報記憶媒体 | |
JP3937741B2 (ja) | 文書の標準化 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2000250907A (ja) | 文書処理装置および記録媒体 | |
JP3851712B2 (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002132789A (ja) | 文書検索方法 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4074687B2 (ja) | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4497337B2 (ja) | 概念検索装置およびコンピュータプログラムを記録した記録媒体 | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
JP2003248689A (ja) | 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4085568B2 (ja) | テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体 | |
JP2000250913A (ja) | 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体 | |
JPH1145254A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2001142897A (ja) | 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050405 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050606 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050606 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050609 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050802 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060324 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110407 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |