JP3544749B2 - キーワード自動抽出装置 - Google Patents

キーワード自動抽出装置 Download PDF

Info

Publication number
JP3544749B2
JP3544749B2 JP14521295A JP14521295A JP3544749B2 JP 3544749 B2 JP3544749 B2 JP 3544749B2 JP 14521295 A JP14521295 A JP 14521295A JP 14521295 A JP14521295 A JP 14521295A JP 3544749 B2 JP3544749 B2 JP 3544749B2
Authority
JP
Japan
Prior art keywords
word
keyword
keyword candidate
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14521295A
Other languages
English (en)
Other versions
JPH08314947A (ja
Inventor
裕文 篠木
忠一 菊池
輝一 桐生
哲也 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP14521295A priority Critical patent/JP3544749B2/ja
Publication of JPH08314947A publication Critical patent/JPH08314947A/ja
Application granted granted Critical
Publication of JP3544749B2 publication Critical patent/JP3544749B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、電子化された文書データから情報検索用の言葉(キーワード)を自動的に抽出するキーワード自動抽出装置に関し、特に、的確なキーワードの抽出を可能にしたものである。
【0002】
【従来の技術】
近年、電子メールや電子出版物など、電子化された文書情報が大量に流通し始めたことに伴って、それらの文書情報から所望の文書だけを検索する情報検索に大きな関心が集まっている。
【0003】
情報検索では、従来から、文書毎に付与されたキーワードを利用して目的の文書を検索するキーワード検索という手法が広く用いられている。この手法では、蓄積文書に対して、その文書の内容を表すキーワードを予め人手によって付与し、各文書とキーワードとの対応関係を転置ファイルに収める。検索時には利用者が所望のキーワードを入力し、このキーワードを含む文書を転置ファイルを利用して検索する。
【0004】
このキーワード検索では、人手によって各文書の内容を表すキーワードを付与しているため、利用者の望む内容の文書を高い精度で検索することができるが、しかし、キーワード付けの作業を人手に頼っていたのでは蓄積文書の増加に間に合わない。そこで、文書からキーワードを自動的に抽出するキーワード自動抽出装置が種々開発されている(例えば、木本晴夫、“キーワード自動抽出装置”、特開昭63−136224など)。
【0005】
日本語文の文書を対象としてキーワードを自動抽出する場合は、日本語文の単語が分かち書きされていないために、まず、日本語文を単語列に分割することが行なわれ、その後、その単語列から、キーワードが抽出される。単語列に分割する方法としては、漢字や平仮名や片仮名のように文字の種類が変わるところで日本語文を切り分ける方法が知られている。この方法で切り出された文字列の中から漢字または片仮名語のみを抽出することにより、キーワード候補語を得ることができる。しかし、この候補語には、キーワードとしては不必要な語(以下「不要語」と略す)や、複数の単語が接続した語(以下「複合語」と略す)が含まれている。そこで、不要語を除き、複合語をさらに分けるために次のような処理が施される。
【0006】
1つは「御〜」のような接頭語や「〜的」のような接尾語を削除する。2つ目は「自動抽出装置」のような複合語の場合に、名詞辞書を用いて「自動」「抽出」「装置」に分割する。3つ目は「以下」「場合」というような一般的な単語を不要語として辞書に登録しておき、この辞書を用いてキーワード候補語の中から不要語を削除する。
【0007】
以上の処理を行なうことにより、文書データからキーワードを自動的に抽出することができる。
【0008】
こうした処理を行なう従来のキーワード自動抽出装置は、図18に示すように、キーワード抽出の対象文書を格納する文書格納部181と、文書から漢字または片仮名語の単語をキーワード候補語として抽出する名詞抽出部182と、接頭語及び接尾語を収録した接頭語・接尾語辞書183と、キーワード候補語から接頭語及び接尾語を削除する接頭語・接尾語削除部184と、名詞を収録した名詞辞書185と、複合語から成るキーワード候補語を複数の単語に分割する複合語分割部186と、不要語を収録した不要語辞書187と、キーワード候補語の中から不要語辞書187に載った不要語を削除する不要語削除部188と、各部で処理されたキーワード候補語を格納するキーワード候補語抽出結果格納部189とを備えている。
【0009】
この装置では、まず、名詞抽出部182が、文書格納部181に格納された文書を読出し、この文書の文字の種類が変わるところで文字列を切り出し、漢字または片仮名語のみから成る文字列をキーワード候補語として抽出してキーワード候補語抽出結果格納部189に格納する。
【0010】
接頭語・接尾語削除部184は、キーワード候補語抽出結果格納部189からキーワード候補語を読出し、このキーワード候補語と接頭語・接尾語辞書183に載る接頭語や接尾語とを照合する。キーワード候補語に接頭語や接尾語が付いているときは、それらの接頭語や接尾語をキーワード候補語から削除する処理を行ない、処理後のキーワード候補語をキーワード候補語抽出結果格納部189に格納する。
【0011】
複合語分割部186は、キーワード候補語抽出結果格納部189から読出したキーワード候補語を名詞辞書185に載る名詞と照合し、キーワード候補語にそれらの名詞が含まれいる場合に、その名詞を切出すことによってキーワード候補語を複数の単語に分割し、分割した単語をキーワード候補語としてキーワード候補語抽出結果格納部189に格納する。
【0012】
不要部削除部188は、キーワード候補語抽出結果格納部189から読出したキーワード候補語を不要語辞書187に載る不要語と照合し、不要語と一致したキーワード候補語を削除する。
【0013】
こうして各部の処理が行なわれたキーワード候補語が、最終的にキーワードとしてキーワード候補語抽出結果格納部189に格納される。
【0014】
【発明が解決しようとする課題】
しかし、従来のキーワード自動抽出装置によるキーワード抽出では、次のような問題を有している。
【0015】
(1)名詞辞書を用いて複合語を分割する場合に、誤った分割が行なわれる虞れがある。例えば「登山口」というキーワード候補語に対して、名詞辞書に「登山」と「山口」とが載っていると、どちらの名詞を優先させて分割すべきか判断できない。
【0016】
(2)文書では、地名等の複合語について、例えば「山口県下関市中之町」という正式な地名を「山口県中之町」というように一部を省略して記載することがある。その場合、「山口県」や「中之町」はキーワードとして登録されるが、省略されている言葉「下関市」はキーワードとして抽出されないため、「下関市」によってこの文書を検索することができない。
【0017】
(3)抽出されたキーワードの同義語や、そのキーワードの内容を包含する上位語が存在する場合に、それらの同義語や上位語はキーワードとして登録されないため、同義語や上位語を用いた検索で検索漏れが発生する。
【0018】
(4)従来の方法では、意味的に複数の語に分割する必要がない単語に対しても、分割してしまう可能性があり、本来の意味とは異なる単語が抽出される虞れがある。例えば「朝鮮民主主義人民共和国」というキーワード候補語に対して、名詞辞書に「民主」「主義」「共和国」の単語があると、「朝鮮」「民主」「主義」「人民」「共和国」に分割され、本来の意味とは異なったものとなる。
【0019】
(5)抽出されたキーワード候補語が省略された語である場合には、正式名称で検索したときに検索できない。
【0020】
本発明は、こうした従来の問題点を解決するものであり、文書の内容を的確に表すキーワードを自動的に抽出することができるキーワード自動抽出装置であって、不要なキーワード候補語の抽出や、キーワード候補語の不要な分割を行なうことがなく、また、省略された語や同義語、上位語などをキーワード候補語として自動的に補充することができるキーワード自動抽出装置を提供することを目的としている。
【0021】
【課題を解決するための手段】
そこで、本発明では、文書の文字列を辞書中の単語と照合し、照合結果に基づいて文書のキーワードを抽出するキーワード自動抽出装置において、複数の辞書と、これらの辞書の接続情報を表した結合式を保持する結合式格納手段と、この結合式に対応づけてキーワード選定の規則を定めた抽出式を保持する抽出式格納手段と、結合式に基づいて複数の辞書を選択する辞書選択手段と、文書を辞書選択手段によって選択された辞書と照合するキーワード候補語照合手段と、照合結果を基に抽出式に従ってキーワード候補語を抽出するキーワード候補語抽出手段とを設けている。
【0022】
また、単語間の上下関係を規定したシソーラスを保持するシソーラス格納手段と、抽出されたキーワード候補語と一致する単語をシソーラスから検索し、その単語の上位語、中間語または下位語をキーワード候補語として追加するキーワード候補語追加手段とを設けている。
【0023】
また、シソーラスを保持するシソーラス格納手段と、抽出されたキーワード候補語と一致する単語をシソーラスから検索し、その単語の上位階層に含まれる全ての語をキーワード候補語として追加する上位階層語抽出手段とを設けている。
【0025】
【作用】
そのため、複数の辞書を備える装置では、辞書選択手段が、結合式によって規定された順序で、照合に使用する複数の辞書を選択し、キーワード候補語照合手段が選択された辞書を用いて文書との照合を行なう。文書の文字列がある辞書の単語に一致したときは、文書の続く文字列が選択された次の辞書の単語と一致するかどうかを見る。こうして文書の文字列が結合式によって規定された一連の辞書の単語と一致したときは、抽出式に従って、各辞書において一致した単語をそれぞれ独立にキーワード候補語として抽出したり、各辞書において一致した単語を結合して得られる文字列をキーワード候補語として抽出する。
【0026】
この場合、結合式によって規定された一連の辞書との照合に成功したときにだけキーワード候補語が抽出されるので、単一辞書の照合でキーワードを抽出する場合に比べて、キーワード抽出の精度が高い。また、抽出式での規定により、各辞書の一致する単語を結合させてキーワード候補語とすることができるために、各辞書への登録語数を抑えることが可能になる。これは、各辞書に登録する単語数が少なくとも、これらの辞書の組合せによって、非常に多くの照合用の文字列を作ることができるからである。
【0027】
また、シソーラスを備えた装置では、抽出されたキーワード候補語の上位語、下位語、中間語(抽出されたキーワード候補語が複数ある場合にその中間の階層にある単語)、または、その候補語より上位階層にある全ての単語をシソーラスから求め、キーワード候補語に追加する。そのため、文書中で省略されている単語であってもキーワードに加えることができ、また、多観点からの文書の検索に応えられるキーワードを補充することができる。
【0030】
【実施例】
(第1実施例)
第1実施例のキーワード自動抽出装置は、基本的には、文書データの文字列と辞書の単語とを照合し、辞書の単語が文書データ中に存在する場合に、その単語をこの文書におけるキーワード候補語として抽出する。但し、この辞書は、単一の辞書では無く、異なる内容の単語を収めた複数の辞書から成り、文書データの文字列がこれらの辞書の単語を組み合わせた文字列と一致する場合に、この文字列の中から一定のルールに従ってキーワード候補語を抽出している。
【0031】
この装置は、図1に示すように、キーワード抽出の対象となる文書データを保存する文書格納部14と、複数の辞書1〜nを始としてそれらの辞書の接続情報やキーワード候補語の抽出における規則を収めた辞書格納部11と、照合に使用する辞書を選択する辞書選択部13と、文書データと選択された辞書とを照合するキーワード候補語照合部15と、照合して一致した文字列の中から規則に従ってキーワードを抽出するキーワード候補語抽出部17と、抽出されたキーワード候補語を格納するキーワード候補語抽出結果格納部18とを備えている。
【0032】
辞書格納部11は、例えば県名あるいは市名というように区分された内容の単語だけをそれぞれ収録する複数の辞書1〜nと、これらの辞書の接続情報(結合式)が複数個記録されている結合式格納部12と、照合で一致した文字列の中からキーワード候補語を抽出する際のルール(抽出式)が記録された抽出式格納部16とを具備している。
【0033】
図3は第1実施例の装置における辞書格納部の具体例を示している。この辞書格納部31に在る複数の辞書A〜Fの内、辞書Aと辞書Bとは人名に関する辞書であり、辞書Aには「山口」「福島」等の姓が登録され、辞書Bには「泰夫」「敏夫」等の名が登録されている。また、辞書C〜Fは地名に関する辞書であり、辞書Cには「山口県」「福島県」等の県名が登録され、辞書Dには「下関市」「岩国市」等の市名が登録され、辞書Eには「双葉郡」「大沼郡」等の郡名が登録され、また、辞書Fには「中之町」「美東町」等の町名が登録されている。
【0034】
結合式格納部に記録される結合式32は、辞書の結合関係を示すもので、例えば「A→B」は辞書Aを最初に照合して成功したときは次に辞書Bを照合することを表している。辞書格納部31の各辞書間の矢印もこの結合式に従って書かれている。また、抽出式格納部に格納される抽出式33は、結合式32で表された照合が最後まで成功した場合にキーワード候補語をどのように作成するかを示すもので、例えば「A+B」はAとBとのキーワードを結合してキーワード候補語とすることを示し、また、「C,D」はCとDとを別々にキーワードとして登録することを示している。結合式とキーワード抽出式とは1対1の対応を取る。
【0035】
実際の照合文字列34が「山口敏夫さんが」の場合では、「辞書A」の「山口」と「辞書B」の「敏夫」との照合に連続して成功し、結合式「A→B」を満足するので、キーワード候補語としては、抽出式「A+B」に従って、「山口敏夫」が抽出される。また「山口県下関市中之町で行なわれた」という文字列に対しては、「辞書C」の「山口県」と「辞書D」の「下関市」と「辞書F」の「中之町」との照合に連続して成功し、結合式「C→D→F」を満足するので、キーワード候補語としては、抽出式「C,D」に従って、「山口県」と「下関市」の2つが抽出される。また「富士山の登山口からは」という文字列に対しては「山口」という単語が「辞書A」と一致するが、次の文字列が「辞書B」とは一致しないので、「山口」という単語はキーワード候補語としては抽出されない。
【0036】
こうした動作を行なうキーワード自動抽出装置の動作手順を、図2のフローチャートを用いて説明する。
【0037】
ステップ21:まず、辞書選択部13は、複数の辞書の結合順序を記述した結合式を結合式格納部12から読み出し、
ステップ22:この結合式が示している、最初に照合を行なう辞書を辞書格納部11から選択する。
【0038】
ステップ23:キーワード候補語照合部15は、文書格納部14に格納された文書の一部を読み出し、
ステップ24:この文書の読み出した部分と辞書選択部13の選択した辞書とを照合する。照合に成功しなかったときは、ステップ23に戻り、文書の次の部分を読み出して、この辞書との照合を繰り返す。
【0039】
ステップ26:ステップ25において照合に成功したとき、つまり、この文書の読み出した文字列が辞書の単語と一致したときは、結合式の示す次の辞書との照合を行なうため、
ステップ27:辞書選択部13は、結合式に指定された次の辞書を辞書格納部11から選択し、
ステップ23:キーワード候補語照合部15は、文書の次の文字列を文書格納部14から読み出し、
ステップ24:この文字列と選択した辞書との照合を行なう。
【0040】
この手順を繰り返して、
ステップ26:結合式の指定する最後の辞書まで照合に成功したときは、
ステップ28:キーワード候補語抽出部17が、抽出式格納部16から、照合に成功した結合式に対応する抽出式を読み出し、この抽出式の指定する規則に従って、照合に成功した文字列を基にキーワード候補語を抽出し、
ステップ29:抽出したキーワード候補語をキーワード候補語抽出結果格納部18に格納する。
【0041】
なお、辞書格納部11に置く複数の辞書は、上位下位の概念辞書であるシソーラスであってもよい。また、結合式によって関係を規定する辞書の数は、2つ以上であれば何個でもよく、上限についての制限は特にない。更に、抽出式としては「A+B,A,B」というように、重複してキーワード候補語を抽出することも可能である。
【0042】
このように、第1実施例のキーワード自動抽出装置では、基本的に、文書データの中から辞書と同じ単語を見出し、その単語をキーワードとして抽出する方式であるため、不要なキーワードを抽出する虞れがない。
【0043】
また、複数の辞書の結合関係を結合式によって規定する構成であるため、辞書に収録する単語の数が少なくても、照合に使用する文字列は多数作り出すことができる。例えば、人の姓名を照合するための辞書を持つ場合に、「姓」と「名」とを結合した複合語を辞書に登録するとなると、登録数が膨大になり、実際上、照合に供しえる辞書を作成することが不可能であり、そのため、「姓」と「名」との結合した複合語をキーワードとして抽出することができない。しかし、第1実施例の装置のように「姓」の辞書と、「名」の辞書とを設け、それらを組合せる構成の場合には、各辞書の登録数をそれ程多くする必要がないので、実現が容易であり、その結果、「姓」と「名」との結合した複合語をキーワードとして抽出することが可能になる。
【0044】
また、この装置では、辞書との照合が成功したとき、照合で一致した文字列の中から、辞書の組合せに応じて定めた抽出式に従ってキーワード候補語を抽出している。この抽出式は、辞書の内容に応じて、相応しい形態のキーワードを取り出し得るように設定することができるため、文書に適したキーワードの抽出が可能となる。
【0045】
(第2実施例)
第2実施例のキーワード自動抽出装置は、文書中に現れていない単語を補ってキーワードとして登録することができる。
【0046】
この装置は、図4に示すように、キーワード候補語間の上位下位の関係が規定されたシソーラスを保持するシソーラス格納部48と、抽出されたキーワード候補語の上位語、下位語または中間語(抽出されたキーワード候補語が複数ある場合にその中間の単語)をシソーラスから求めてキーワード候補語に追加するキーワード候補語追加部49とを備えている。その他の構成は、第1実施例の装置(図1)と変わりがない。
【0047】
シソーラス格納部には、図6の61に例示するように、「山口県」の下位語が「下関市」と「岩国市」であり、「下関市」の下位語が「中之町」と「竹崎町」であり、「岩国市」の下位語が「装束町」と「尾津町」であるというように、各単語間の上下関係を規定するシソーラスが格納されている。
【0048】
対象文字列62が「山口県中之町で行なわれた」であり、この文字列に対するキーワード抽出の結果、キーワード候補語として「山口県」と「中之町」とが抽出されたとする。キーワード候補語追加部49は、この「山口県」と「中之町」とをシソーラス61と照合し、一致する「山口県」と「中之町」との間に、中間語「下関市」があることを見出し、この中間語の「下関市」をキーワード候補語として追加登録する。
【0049】
この装置の動作手順を図5のフローチャートを用いて説明する。
【0050】
ステップ51:まず、キーワード候補語照合部45が、結合式格納部42の結合式に従って、辞書格納部41の辞書と文書格納部44に格納された文書とのキーワード照合を行ない、キーワード候補語抽出部47が、抽出式格納部46の抽出式に従ってキーワード候補語を抽出し、
ステップ52:キーワード候補語抽出結果格納部50に格納する。ここまでの動作は第1実施例の場合と同じである。
【0051】
ステップ53:キーワード候補語追加部49は、キーワード候補語をキーワード候補語抽出結果格納部50から読出し、そのキーワード候補語とシソーラス格納部48に格納されたシソーラスとを照合して、キーワード候補語がシソーラスに含まれているかどうかを調べる。
【0052】
ステップ54:キーワード候補語がシソーラスに含まれているときは、
ステップ55:そのシソーラスに、キーワード候補語の上位語または下位語、さらに複数のキーワード候補語が抽出されたときは、その中間語が規定されているかどうかを判定し、
ステップ56:規定されている場合には、上位語、中間語または下位語をキーワード候補語としてキーワード候補語抽出結果格納部50に格納する。
【0053】
抽出されたキーワード候補語がシソーラスに含まれていないとき(ステップ54でNoのとき)、または抽出されたキーワード候補語の上位語、中間語または下位語がシソーラスに規定されていないとき(ステップ55でNoのとき)は、そのまま終了する。
【0054】
このように第2実施例のキーワード自動抽出装置では、文書中で省略された単語をキーワードとして登録することができる。
【0055】
なお、この実施例では、辞書格納部41とシソーラス格納部48とを別々の辞書を格納する部として示しているが、これらは同じものであってもよい。また、この場合、キーワード候補語照合部45が、キーワード候補語追加部49に代わって、省略されている語の追加を行なうようにしてもよい。
【0056】
(第3実施例)
第3実施例のキーワード自動抽出装置は、例えば「朝鮮民主主義共和国」という文字列から、「民主主義」や「共和国」という単語がキーワード候補語として抽出されることを防ぐ機能を有する。
【0057】
この装置は、図7に示すように、文書データを保存する文書格納部71と、抽出されたキーワード候補語を格納するキーワード候補語抽出結果格納部76と、1次からn次にわたり、各次の辞書を用いてキーワード候補語を抽出する機構とを備えており、各次のキーワード候補語の抽出機構は、次数が低いほど優先的に照合を行なう必要がある単語が収められているi次通過辞書72と、文書データからi次通過辞書72に載った単語を抽出するi次キーワード候補抽出部73と、i+1次のキーワード候補語の抽出機構に供給する文書データを作成するために、文書データ中の抽出されたキーワード候補語の箇所を*マークに変えるi次マーク付加部74と、i次マーク付加部74によって*マークが付加された文書データを格納するi次通過文書格納部75とを備えている。但し、n次の場合は、次のキーワード抽出機構が無いため、マーク付加部及び通過文書格納部を持たない。
【0058】
図9には、1次通過辞書91と、1次マーク付加部74によるマーク付け93の例を示している。1次通過辞書91に「アジア」「東アジア」「朝鮮半島」「韓国」「朝鮮民主主義人民共和国」等の単語が含まれ、一方、対象文字列92が「〜のため、韓国と朝鮮民主主義人民共和国との間で〜」という文字列であるとき、1次通過辞書91の単語と一致する「韓国」と「朝鮮民主主義人民共和国」とが1次のキーワード候補語として抽出され、文字列92のこれらの単語にマーク付けが行なわれ、その結果、「〜のため、**と***********との間で〜」という文字列93に変形される。
【0059】
次の次数のキーワード抽出機構では、この文字列93からキーワード候補語を抽出することになるので、「民主主義」や「共和国」といった単語が辞書に登録されている場合でも、それらの語がキーワード候補語として抽出されることがなくなる。
【0060】
このキーワード自動抽出装置の動作手順について、図8のフローチャートを用いて説明する。
【0061】
ステップ81:まず、1次キーワード候補語抽出部73は、文書格納部71から文書データを読出し、
ステップ82:読出した文書データと1次通過辞書72の各単語との照合を行なう。 ステップ83:照合が成功し、一致する単語を見出したときは、
ステップ84:その単語をキーワード候補語としてキーワード候補語抽出結果格納部76に格納する。
【0062】
ステップ85:1次マーク付加部74は、文書データのこのキーワード候補語に対応する文字列を*に変えることによって、キーワード候補語として抽出された文字列を、それ以降、抽出対象から除外する処理を行ない、このマーク付けした文書データを1次通過文書格納部75に格納する。
【0063】
ステップ86:次のキーワード抽出段階では、その前の段階で通過文書格納部75に格納された文書データを読出して(ステップ81)、ステップ85までの手順を実行し、これをn−1回繰り返す。
【0064】
このように、第3実施例の装置では、優先的にキーワードとして抽出したい単語を番号の小さい辞書に登録しておくことにより、そのキーワードがさらに分割され、不要な文字列が切り出される事態を防止することができる。
【0065】
なお、マーク付けでは、キーワード候補語の一文字ずつを「*」に変換する代わりに、キーワード候補語の文字列を「*」で表してもよく、その場合、図9のマーク付け結果93は「〜のため、*と*との間で〜」となる。また、マーク記号として「*」以外の記号を用いてもよい。また、マーク付けの一環として、キーワード候補語を対象文字列から削除してもよい。この場合、マーク付加部74に代わって、文書データ中のキーワード候補語を削除する削除処理部を設ける。
【0066】
(第4実施例)
第4実施例のキーワード自動抽出装置は、第1実施例の装置と、優先的にキーワード候補語を抽出する機構とを組合せている。
【0067】
この装置は、図10に示すように、優先的にキーワードとして抽出する必要のある単語を収めた優先語辞書101と、文書格納部100より読出した文書データの中から優先語辞書に載る単語をキーワード候補語として抽出する優先キーワード候補語抽出部102と、文書データ中のキーワード候補語をマークに変換し、マーク付けした文書データをキーワード候補語照合部107に出力するマーク付加部103とを備えている。その他の構成は第1実施例の装置と変わりがない。
【0068】
この装置では、優先キーワード候補語抽出部102が、文書格納部100に格納された文書データを読出し、優先語辞書101に格納されている優先語と照合する。この照合で文書データの中に優先語を検出したときは、その優先語をキーワード候補語として抽出し、キーワード候補語抽出結果格納部110に格納する。
【0069】
マーク付加部103は、文書データ中のキーワード候補語として抽出された優先語にマーク付けを行ない、マーク付け後の文書データをキーワード候補語照合部107に送る。
【0070】
それ以降の処理は第1実施例の場合と同じである。ただ、この装置では、文書データ中の優先語がマーク付加部103の処理で事前にマークに変換されているため、優先語をさらに分割して不必要な文字列をキーワード候補語として切出す事態は発生しない。
【0071】
(第5実施例)
第5実施例のキーワード自動抽出装置は、抽出されたキーワード候補語の上位階層に位置する全ての単語をキーワード候補語として設定する。この装置は、図11に示すように、文書データを保存する文書格納部111と、シソーラスを格納するシソーラス格納部112と、文書格納部111から読出した文書データとシソーラス格納部112のシソーラスとを照合し、一致する単語をキーワード候補語として抽出するキーワード候補語照合部113と、抽出されたキーワード候補語の上位階層にある全ての単語をシソーラスから抽出する上位階層語抽出部114と、キーワード候補語照合部113及び上位階層語抽出部114によって抽出された単語を格納するキーワード候補語抽出結果格納部115とを備えている。
【0072】
シソーラスは、図13に例示するように、単語の表す意味の上下関係を規定しており、この例では、分類番号「0015」の下に、最上位語としての「軍縮」があり、その下の階層に位置する語として「核軍縮」と「平和の配当」とがあり、「核軍縮」の下位の階層の語として「共通の安全保証」と「START」とがある。
【0073】
この装置では、対象文字列132とシソーラス131との照合で、例えば「START」がキーワード候補語として抽出されると、その上位階層に位置する「核軍縮」「軍縮」「0015」といった全ての上位階層語がキーワード候補語として抽出される。
【0074】
このキーワード自動抽出装置の動作手順について、図12のフローチャートを用いて説明する。
【0075】
ステップ121:まず、キーワード候補語照合部113は、文書格納部111から文書の文字列を読出し、
ステップ122:この文字列と、シソーラス格納部112から読出したシソーラスの各キーワードとを照合する。
【0076】
ステップ123:照合が成功したときは、
ステップ124:一致したキーワード候補語に上位語があるかどうかをシソーラスで調べ、上位語が存在する場合は、
ステップ125:シソーラスから、上位階層の単語を全て抽出し、
ステップ126:キーワード候補語としてキーワード候補語抽出結果格納部115に格納する。
【0077】
このように、上位階層の語を全てキーワードとして付け加えることによって、大きな概念での文書検索が可能になる。
【0078】
なお、上位階層語抽出部114が抽出した上位階層語は、キーワード候補語照合部113が抽出したキーワード候補語と区別してキーワード候補語抽出結果格納部115に格納するように構成してもよい。また、この実施例の装置における上位階層語抽出部114は、第2実施例の装置(図4)のキーワード候補語追加部49に代えて用いることも可能である。
【0079】
(第6実施例)
第6実施例のキーワード自動抽出装置は、同義語をキーワード候補語とすることができる。この装置は、図14に示すように、キーワードの抽出が行なわれる文書データを保持する文書格納部141と、同義語を収めた同義語辞書142と、文書データに同義語を追加する同義語追加部143と、同義語の追加された文書データを格納する同義語追加文書格納部144と、シソーラスを格納するシソーラス格納部145と、同義語の追加された文書データからキーワード候補語を抽出するキーワード候補語抽出部146と、抽出されたキーワード候補語を格納するキーワード候補語抽出結果格納部147と、文書データに追加された同義語を削除する同義語削除部148と、同義語が削除され、元の状態に戻された文書データを格納する文書格納部149とを備えている。
【0080】
同義語辞書には、図16に例示するように、同一意味を持つ単語の対応関係が記述され、この例(161)では、「コンピューター」の同義語として「電子計算機」「電算機」「コンピュータ」が示され、「START」の同義語として正式名称の「戦略兵器削減交渉」が、また、「SALT」の同義語として正式名称の「戦略兵器制限条約」が示されている。
【0081】
対象文字列162に例えば「START」という単語があると、同義語辞書161に「START」の同義語として挙げられている「戦略兵器削減交渉」が対象文字列に追加される(163)。同様に、対象文字列162に「コンピューター」という単語があると、同義語辞書161に「コンピューター」の同義語として挙げられている「電子計算機」「電算機」「コンピュータ」が対象文字列に追加される。次いで、この同義語が追加された対象文字列163とシソーラスとの照合が行なわれ、一致する単語がキーワード候補語として抽出される。
【0082】
このキーワード自動抽出装置の動作手順を図15のフローチャートを用いて説明する。
【0083】
ステップ151:まず、同義語追加部143は、文書格納部141から文書を読出し、
ステップ152:読出した文書と同義語辞書142の各単語とを照合する。
【0084】
ステップ153:照合が成功し、一致した単語を検出したときは、
ステップ154:一致した単語の同義語を同義語辞書142から求めて、
ステップ155:その同義語を、読出した文書に追加し、その文書を同義語追加文書格納部144に格納する。
【0085】
なお、ステップ153において照合が失敗した場合は、文書格納部141から次の文書を読出して同義語辞書との照合を繰り返す。
【0086】
ステップ156:キーワード候補語抽出部146は、同義語追加文書格納部144に格納された文書を読出し、シソーラス格納部145に格納されたシソーラスの各単語との照合を行ない、照合に成功した単語を抽出して、キーワード候補語抽出結果格納部147に格納する。このとき、照合に成功した単語の同義語が文書に追加されている場合は、その同義語も同様にキーワード候補語としてキーワード候補語抽出結果格納部147に格納する。また、追加された同義語に対して照合が成功した場合は、追加された同義語の他に元の文書中にある同義語の単語をキーワード候補語抽出結果格納部147に格納する。
【0087】
ステップ157:同義語削除部148は、ステップ155において追加された同義語を文書から削除し、この文書を文書格納部149に格納する。
【0088】
このように第6実施例のキーワード自動抽出装置では、文書の内容を変えることなく、同義語をキーワード候補語として付加することができる。
【0089】
なお、図16の例(163)では、複数の同義語を文書の最後に追加する場合に「/」で区切って追加しているが、区切りのために別の文字を用いてもよい。また、同義語を文書の最後に追加する代わりに、「〜によって、START(戦略兵器削減交渉)が基本的合意に達した。」というように、対象文字列の直後に括弧または後で判断可能な表現方式で追加してもよい。
【0090】
また、この装置の同義語辞書142、同義語追加部143及び同義語追加文書格納部144を第1実施例の装置(図1)の文書格納部14とキーワード候補語照合部15との間に配置し、また、同義語削除部148及び文書格納部149をキーワード候補語抽出部17に繋げてもよい。
【0091】
(第7実施例)
第7実施例のキーワード自動抽出装置は、多種類の辞書を順に用いて、キーワード候補語を抽出する。
【0092】
この装置は、図17に示すように、キーワード抽出の対象文書を保持する文書格納部171と、同義語を収めた同義語辞書172と、対象文書と同義語辞書172とを照合し一致する単語とその同義語とをキーワード候補語として抽出する同義キーワード候補語抽出部173と、優先語を収めた優先語辞書174と、対象文書と優先語辞書174とを照合し一致する優先語をキーワード候補語として抽出し、対象文書中の優先語にマーク付けをする優先キーワード候補語抽出部175と、複数の辞書を結合式に従って組合せる第1実施例で示した結合語辞書176と、対象文書とこの結合語辞書176とを照合してキーワード候補語を抽出する結合キーワード候補語抽出部177と、キーワード候補語を収めた一般語辞書178と、対象文書と一般語辞書178とを照合して一致するキーワード候補語を抽出する一般キーワード候補語抽出部179と、各抽出部の抽出したキーワード候補語を格納するキーワード候補語抽出結果格納部180とを備えている。
【0093】
この装置では、まず、同義キーワード候補語抽出部173が文書格納部171から対象文書を読出し、この文書を同義語辞書172に格納されている単語と照合し、照合が成功した場合は、一致した単語とその同義語とをキーワード候補語抽出結果格納部180に格納する。次に、優先キーワード候補語抽出部175は、同義キーワード候補語が抽出された文書を優先語辞書174に格納されている優先語と照合し、照合が成功した場合は、その優先語をキーワード候補語としてキーワード候補語抽出結果格納部180に格納するとともに、第3実施例と同じように、それ以降の処理で優先語が照合の対象とならないように、文書中の優先語にマーク付けを行なう。
【0094】
結合キーワード候補語抽出部177は、マーク付けされた文書を、結合語辞書176に格納されている単語と照合し、照合が成功した場合は第1実施例と同じように結合式と抽出式との関係から抽出するキーワード候補語を決定してキーワード候補語抽出結果格納部180に格納する。最後に、一般キーワード候補語抽出部179は、結合語辞書176によりキーワード候補語が抽出された文書を、一般語辞書178に格納されている単語と照合し、照合が成功した場合はその単語をキーワード候補語としてキーワード候補語抽出結果格納部180に格納する。
【0095】
このように、辞書の内容に応じてキーワード候補語を抽出する順番を最適化することにより、正確にキーワード候補語を抽出することができ、かつ不要なキーワード候補語の抽出を防止することができる。
【0096】
なお、同義語辞書と優先語辞書とによるキーワード抽出の順番は、優先語辞書を先にしてもよい。
【0097】
【発明の効果】
以上の実施例の説明から明らかなように、本発明のキーワード自動抽出装置は、基本的に、辞書に収められている単語と一致する単語を対象文書中に見つけて、それをキーワードとしているため、不要なキーワードの抽出が抑えられる。
【0098】
また、複数の辞書を結合式に基づいて組合せる装置では、辞書に収める単語の数に比べて遥かに多い照合用の文字列を作成することができるため、姓と名とを繋げたキーワードなど、各種の精緻なキーワードの抽出が可能になる。また、辞書との照合が成功した後、抽出式に基づいてキーワードを選定しているため、文書の検索に適した形態でのキーワードの抽出が可能である。
【0099】
また、シソーラスを用いた装置では、対象文書中で省略された単語や、抽出した単語の上位概念を表す全ての単語をキーワードとして追加することができるので、キーワードを用いる文書検索の検索精度が向上し、広い範囲からの文書検索が可能になる。
【図面の簡単な説明】
【図1】本発明の第1実施例におけるキーワード自動抽出装置の構成図、
【図2】第1実施例におけるキーワード自動抽出装置の動作を示すフローチャート、
【図3】第1実施例のキーワード自動抽出装置におけるキーワード候補語抽出を例示する図、
【図4】本発明の第2実施例におけるキーワード自動抽出装置の構成図、
【図5】第2実施例におけるキーワード自動抽出装置の動作を示すフローチャート、
【図6】第2実施例のキーワード自動抽出装置におけるキーワード候補語の追加を例示する図、
【図7】本発明の第3実施例におけるキーワード自動抽出装置の構成図、
【図8】第3実施例におけるキーワード自動抽出装置の動作を示すフローチャート、
【図9】第3実施例のキーワード自動抽出装置における優先語のマーク付けを例示する図、
【図10】本発明の第4実施例におけるキーワード自動抽出装置の構成図、
【図11】本発明の第5実施例におけるキーワード自動抽出装置の構成図、
【図12】第5実施例におけるキーワード自動抽出装置の動作を示すフローチャート、
【図13】第5実施例のキーワード自動抽出装置における上位階層語の登録例を示す図、
【図14】本発明の第6実施例におけるキーワード自動抽出装置の構成図、
【図15】第6実施例におけるキーワード自動抽出装置の動作を示すフローチャート、
【図16】第6実施例のキーワード自動抽出装置における同義語の追加例を示す図、
【図17】本発明の第7実施例におけるキーワード自動抽出装置の構成図、
【図18】従来のキーワード自動抽出装置の構成図である。
【符号の説明】
11、41、104 辞書格納部
12、42、105 結合式格納部
13、43、106 辞書選択部
14、44、71、100、111、141、149、171 文書格納部
15、45、107、113 キーワード候補語照合部
16、46、108 抽出式格納部
17、47、109、146 キーワード候補語抽出部
18、50、76、110、115、147、180、189 キーワード候補語抽出結果格納部
48、112、145 シソーラス格納部
49 キーワード候補語追加部
72 1次通過辞書
73 1次キーワード候補語抽出部
74 1次マーク付加部
75 1次通過文書格納部
101、174 優先語辞書
102、175 優先キーワード候補語抽出部
103 マーク付加部
114 上位階層語抽出部
142、172 同義語辞書
143 同義語追加部
144 同義語追加文書格納部
148 同義語削除部
173 同義キーワード候補語抽出部
175 優先キーワード候補語抽出部
176 結合語辞書
177 結合キーワード候補語抽出部
178 一般語辞書
179 一般キーワード候補語抽出部

Claims (3)

  1. 文書の文字列を辞書中の単語と照合し、照合結果に基づいて前記文書のキーワードを抽出するキーワード自動抽出装置において、
    複数の辞書と、
    前記辞書の接続情報を表した結合式を保持する結合式格納手段と、
    前記結合式に対応づけてキーワード選定の規則を定めた抽出式を保持する抽出式格納手段と、
    前記結合式に基づいて複数の辞書を選択する辞書選択手段と、
    文書を前記辞書選択手段によって選択された辞書と照合するキーワード候補語照合手段と、
    照合結果を基に前記抽出式に従ってキーワード候補語を抽出するキーワード候補語抽出手段と
    を設けたことを特徴とするキーワード自動抽出装置。
  2. 単語間の上下関係を規定したシソーラスを保持するシソーラス格納手段と、抽出された前記キーワード候補語と一致する単語を前記シソーラスから検索し、その単語の上位語、中間語または下位語をキーワード候補語として追加するキーワード候補語追加手段とを設けたことを特徴とする請求項1に記載のキーワード自動抽出装置。
  3. 単語間の上下関係を規定したシソーラスを保持するシソーラス格納手段と、抽出された前記キーワード候補語と一致する単語を前記シソーラスから検索し、その単語の上位階層に含まれる全ての語をキーワード候補語として追加する上位階層語抽出手段とを設けたことを特徴とする請求項1に記載のキーワード自動抽出装置。
JP14521295A 1995-05-22 1995-05-22 キーワード自動抽出装置 Expired - Fee Related JP3544749B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14521295A JP3544749B2 (ja) 1995-05-22 1995-05-22 キーワード自動抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14521295A JP3544749B2 (ja) 1995-05-22 1995-05-22 キーワード自動抽出装置

Publications (2)

Publication Number Publication Date
JPH08314947A JPH08314947A (ja) 1996-11-29
JP3544749B2 true JP3544749B2 (ja) 2004-07-21

Family

ID=15379975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14521295A Expired - Fee Related JP3544749B2 (ja) 1995-05-22 1995-05-22 キーワード自動抽出装置

Country Status (1)

Country Link
JP (1) JP3544749B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11353316A (ja) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd 省略語補完装置
JP3310240B2 (ja) * 1999-07-22 2002-08-05 俊雄 今尾 電子メールシステム
KR20020003701A (ko) * 2000-06-27 2002-01-15 쳉 유엔시엔 디지털 문서의 키워드를 자동으로 추출하는 방법
US7725550B2 (en) 2004-12-17 2010-05-25 Nhn Corporation System and method for filtering message
WO2007057945A1 (ja) * 2005-11-15 2007-05-24 Saga University 文書管理装置、そのプログラム及びそのシステム
JP5721052B2 (ja) * 2011-03-11 2015-05-20 富士ゼロックス株式会社 画像処理装置およびプログラム
CN103853755A (zh) * 2012-11-30 2014-06-11 英业达科技有限公司 提供查找多个辞典的系统及其方法
JP6646184B2 (ja) * 2017-06-01 2020-02-14 株式会社インタラクティブソリューションズ 検索用資料情報記憶装置
CN110502644B (zh) * 2019-08-28 2023-08-04 同方知网数字出版技术股份有限公司 一种领域层级词典挖掘构建的主动学习方法

Also Published As

Publication number Publication date
JPH08314947A (ja) 1996-11-29

Similar Documents

Publication Publication Date Title
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP3544749B2 (ja) キーワード自動抽出装置
US5560037A (en) Compact hyphenation point data
JPH09198409A (ja) 酷似文書抽出方法
Hmeidi et al. A novel approach to the extraction of roots from Arabic words using bigrams
JP2005038395A (ja) データベース検索装置
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
JP4866603B2 (ja) 住所文字列取得方法および住所文字列取得システム
JP3531222B2 (ja) 類似文字列検索装置
JPH05298371A (ja) 検索システム
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP3253657B2 (ja) 文書検索方法
JPH08263521A (ja) 文書登録検索システム
JPS61248160A (ja) 文書情報登録方式
JP3848014B2 (ja) 文書検索方法および文書検索装置
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
Gross Getty synoname: The development of software for personal name pattern matching
JP3508312B2 (ja) キーワード抽出装置
JP2006126883A (ja) 情報検索装置及び情報検索方法
Daðason et al. Kvistur 2.0: a BiLSTM Compound Splitter for Icelandic
Singh Search algorithms
JP2560959B2 (ja) 文字認識後処理方式
JP2001357065A (ja) 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
Rafiq et al. UPD: a plagiarism detection tool for Urdu language documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees