JP3528849B2 - キーワード抽出装置およびキーワード抽出方法 - Google Patents

キーワード抽出装置およびキーワード抽出方法

Info

Publication number
JP3528849B2
JP3528849B2 JP2003180628A JP2003180628A JP3528849B2 JP 3528849 B2 JP3528849 B2 JP 3528849B2 JP 2003180628 A JP2003180628 A JP 2003180628A JP 2003180628 A JP2003180628 A JP 2003180628A JP 3528849 B2 JP3528849 B2 JP 3528849B2
Authority
JP
Japan
Prior art keywords
expression
keyword
relation
stream
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003180628A
Other languages
English (en)
Other versions
JP2004005711A (ja
Inventor
満美子 岡
忠信 宮内
寿平 中垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003180628A priority Critical patent/JP3528849B2/ja
Publication of JP2004005711A publication Critical patent/JP2004005711A/ja
Application granted granted Critical
Publication of JP3528849B2 publication Critical patent/JP3528849B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書データベース等に
おいて、テキスト情報を検索するためのキーワードをテ
キストから自動的に抽出するキーワード抽出装置および
キーワード抽出方法に関するものである。
【0002】
【従来の技術】従来、データベース等に蓄積された大量
の情報の中から、所望の情報を検索する手法として、各
データにあらかじめキーワードを割り当てておき、ユー
ザの入力した検索キーと一致したキーワードを持つ情報
を検索して出力する装置が開発されている。
【0003】テキスト情報のキーワード検索において
は、インデクサと呼ばれる専門家が適切なキーワードを
あらかじめテキスト情報に付与するのが一般的である。
しかし、このキーワードの付与は、膨大な手間がかかる
ことから、キーワードを自動的に抽出する技術の研究が
数多く行なわれている。例えば、特開平1−11233
1号公報に記載されているキーワード重要度自動評価装
置では、文書中から名詞をキーワードとして抽出し、さ
らに統計的、構文的、意味的な重要度の評価を加えてい
る。
【0004】しかし、このような従来のキーワード抽出
方法では、一般に単語単位で抽出を行なうため、どうし
ても検索結果に本来求めるものと無関係なものが多くな
ってしまう。すなわち、適合率が低下するという問題が
あった。これは、ユーザが欲する検索要求に対応する概
念は、必ずしも単語レベルの表現と一致しないため、単
語レベルのキーワードで検索した場合、ユーザが想定し
ていた意味とは別の意味で用いられているテキストも検
索されてしまうためである。また、重要度の評価につい
ても、1つの文書内で、ある単語がいろいろな意味に使
われている場合であっても、そのような意味については
考慮せず、ある単語についての重要度を評価してしまっ
ているため、必ずしも正しく重要度が評価されてはいな
い。
【0005】これに対して、複合語や、動詞句、名詞句
などの単位でキーワードを抽出することが考えられる。
例えば、特公昭58−33993号公報に記載されてい
るキーワード抽出装置においては、複合語を用いる方法
が提案されている。この方法によれば、単語単位で概念
を抽出するという制約はなくなる。また、複合語でなく
ても、複合語と同等の意味を表わす表現、例えば、「絶
縁膜形成方法」に対する「絶縁する膜を形成する方法」
のような表現がテキスト中にあれば、キーワードとして
抽出でき、表層の表現によらず、キーワードを抽出する
ことができる。
【0006】しかしながら、この方法は、あらかじめ抽
出すべき複合語がキーワード表に登録されている必要が
あり、テキスト中から互いに関係を持つ単語群を自由に
抽出するものではない。また、複合語に準ずる表現を抽
出する際に、単語同士が係り受け関係にあれば複合語に
なり得るとされている。このため、例えば、「文書を検
索する」も、「文書から検索する」も、「文書/検索」
として抽出されてしまう。このため、検索結果には依然
として適切でないものが含まれてしまうことが多かっ
た。また、このように単語間の関係は無視されているた
め、それらを重要度の評価に利用することはできなかっ
た。
【0007】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、適合率の高い検索を行なえ
るような適切なキーワードを抽出することのできるキー
ワード抽出装置およびキーワード抽出方法を提供するこ
とを目的とする。
【0008】
【課題を解決するための手段】本発明は、請求項1に記
載の発明においては、テキストから重要度に従ってキー
ワードを抽出するキーワード抽出装置において、キーワ
ード候補を抽出し出現頻度とともに出力するキーワード
候補抽出手段と、前記キーワード候補抽出手段により抽
出されたキーワード候補の重要度を評価する重要度評価
手段を有し、前記重要度評価手段は、ある第1のキーワ
ード候補を部分として持つ第2のキーワード候補がある
とき少なくとも第1のキーワード候補の出現頻度と第2
のキーワード候補の出現頻度とに基づいて前記第1のキ
ーワード候補の重要度を評価することを特徴とするもの
である。
【0009】また、請求項2に記載の発明においては、
テキストから重要度に従ってキーワードを抽出するキー
ワード抽出方法において、キーワード候補抽出手段によ
り前記テキストからキーワード候補を抽出して出現頻度
とともに出力し、前記テキストから抽出したキーワード
候補の重要度を重要度評価手段により評価し、該重要度
に従ってキーワードを抽出するものであって、前記重要
度評価手段による評価は、第1のキーワード候補を部分
として持つ第2のキーワード候補があるとき少なくとも
第1のキーワード候補の出現頻度と第2のキーワード候
補の出現頻度とに基づいて前記第1のキーワード候補の
重要度を評価するものであることを特徴とするものであ
る。
【0010】
【作用】本発明によれば、テキストから重要度に従って
キーワードを抽出する。この重要度の評価として、ある
第1のキーワード候補を部分として持つ第2のキーワー
ド候補があるとき少なくとも第1のキーワード候補の出
現頻度と第2のキーワード候補の出現頻度とに基づいて
第1のキーワード候補の重要度を評価する。これによ
り、あるキーワード候補が、別のキーワード候補に含ま
れている場合でも、実際の出現頻度に見合った重要度を
付加することができる。
【0011】
【実施例】図1は、本発明のキーワード抽出装置の第1
の実施例の全体構成を示すブロック図である。図中、1
はキーワード抽出装置、2はデータ入力部、3は表現抽
出部、4は関係抽出部、5はリレーション表現選択部、
6は記憶部、11は形態素解析部、12は単語群抽出部
である。
【0012】データ入力部2は、磁気ディスク、OC
R、MTなどから、キーワードを抽出する対象となる日
本語テキストを読み込む。もちろん、入力装置を用いて
直接入力される構成であってもよい。表現抽出部3は、
形態素解析部11、単語群抽出部12を含む。表現抽出
部3は、データ入力部2で読み込んだテキストを形態素
解析部11で形態素解析し、その結果から、単語群抽出
部12で表現候補抽出規則にしたがってキーワードの候
補になり得る表現を品詞とともに抽出する。関係抽出部
4は、表現抽出部3で抽出された表現を構成する語句の
間の関係を解析し、関係を表わすリレーション記号に変
換し、複数の語句とリレーション記号の組からなるリレ
ーション表現を生成する。リレーション表現選択部5
は、関係抽出部4で出力されたキーワード候補のうち、
同じ語句によって構成され、リレーション記号が互いに
矛盾しないリレーション表現を抽出し、その中で最も抽
象度の低いリレーション記号を持つリレーション表現の
みをキーワード候補として選択する。選択されたキーワ
ード候補に基づき、抽出したキーワードは、入力された
文書とともに、記憶部6に記録される。
【0013】表現抽出部3には、形態素解析部11に加
えて構文解析部、意味解析部などを設けたり、これらを
統合した解析部を設けるなどして、より深い解析を行な
い、その結果に基づいてより精度の高い抽出を行なって
も良い。
【0014】次に、本発明の第1の実施例における動作
の一例を説明する。まず、データ入力部2より、文書デ
ータを電子的に読み込み、表現抽出部3に送出する。上
述したように、表現抽出部3は、文書データを一文ず
つ、すなわち句点まで読み込み、形態素解析部11で形
態素解析して単語に分割する。形態素解析については、
自然言語処理の基本技術として広く知られており、例え
ば、特開昭60−20234号公報に記載されている日
本語形態素解析方式など、種々の公知の方式を用いるこ
とができる。
【0015】次に、単語群抽出部12で、品詞および表
層表現の組合わせに基づく表現抽出規則にしたがってキ
ーワードの候補となり得る単語群を抽出する。この例で
は、形態素解析結果のみから単語群を抽出するという方
法を用い、助詞などの付属語を介して直結する2つの自
立語群を抽出の単位とする。もちろん、意味解析結果を
用いるなど、他の情報をも参考にして単語群の抽出を行
なってもよい。また、3つ以上の自立語群を抽出単位と
してもよい。以下の説明では、抽出される表現のパター
ンは「前自立語群+付属語群+後自立語群」であるもの
とし、このパターンを抽出するために、それぞれ前自立
語群ストリームJF、付属語群ストリームFZ、後自立
語群ストリームJBを用いる。表現抽出規則には、抽出
すべき表現の前自立語群、付属語群、後自立語群の取り
うる関係が記述されている。
【0016】上述の抽出される表現のパターン中の前自
立語群、付属語群、後自立語群は、以下の説明では直結
している場合について説明しているが、これらは直結し
ている必要はなく、表現抽出規則にマッチする最も近い
語群を抽出するように構成することもできる。また、こ
のパターンに限らず、他のパターンを抽出してもよい。
【0017】図2は、表現抽出部3の動作の一例を示す
フローチャートである。表現抽出部3は、S22で文書
データから一文ずつ取り出し、S23で形態素解析部1
1において形態素解析を行なって、単語に分割する。S
24で前自立語群ストリームJF、付属語群ストリーム
FZ、後自立語群ストリームJBをクリアし、S25で
前自立語群ストリームJFに自立語群、ここでは、サ変
動詞語幹、名詞、形容動詞語幹の並びを読み込む。以下
の説明および図面では、サ変動詞語幹をサ変、形容動詞
語幹を形容動詞と略記することがある。また、S26で
付属語群ストリームFZに、前自立語群に続く付属語群
を読み込む。
【0018】S27において、前自立語群ストリームJ
F、付属語群ストリームFZに読み込まれた前自立語
群、付属語群の組み合わせが表現抽出規則にマッチする
か否かを判定し、マッチしない場合には抽出すべきパタ
ーンではないので、S24へ戻り、抽出した前自立語
群、付属語群を破棄する。表現抽出規則にマッチする場
合には、S28において、付属語群に続く自立語群を後
自立語群ストリームJBに読み込む。そして、S29に
おいて、前自立語群ストリームJF、付属語群ストリー
ムFZ、後自立語群ストリームJBを用いて表現抽出規
則にマッチするか否かを判定する。もし、マッチしてい
れば、S31において、前自立語群ストリームJF、付
属語群ストリームFZ、後自立語群ストリームJBに読
み込まれた内容を出力表現ストリームEXに出力する。
マッチしていない場合には、S30において、前自立語
群ストリームJFに複合語が読み込まれているか否かを
判定し、複合語が読み込まれている場合には、S31で
前自立語群ストリームJFの内容を出力表現ストリーム
EXに出力する。
【0019】S32においては、現在読み込んだ前自立
語群ストリームJF、付属語群ストリームFZ、後自立
語群ストリームJBのうち、後自立語群ストリームJB
に読み込まれた自立語群は、続く単語列の前自立語群と
なり得る。そのため、後自立語群ストリームJBに読み
込まれている自立語群を前自立語群ストリームJFに格
納し、付属語群ストリームFZおよび後自立語群ストリ
ームJBをクリアする。
【0020】S33において、文の最後まで読み込んだ
か否かを判定し、まだ文の途中の場合には、S25へ戻
り、上述のパターンの抽出処理を続行する。文の最後ま
で到達すると、S21へ戻り、文書の最後か否かを判定
し、文がまだ残っている場合には、S22以降の処理を
繰り返し行なう。文書の最後まで処理を行なったら、表
現抽出部3の処理を終了する。このとき、表現出力スト
リームEXに出力された表現が、表現抽出部3で抽出さ
れた表現である。抽出された表現は関係抽出部4に送ら
れる。
【0021】具体例を用いて上述の動作を説明する。図
3は、形態素解析結果の一例の説明図、図4は、抽出さ
れた表現の一例の説明図、図5は、表現抽出規則の一例
の説明図である。例えば、S22において、「我々が実
現したシステムは、本手法適用により文書の高速検索を
実現する。」という文が取り出されたものとする。S2
3において、形態素解析部11で形態素解析を行ない、
図3に示すような解析結果を得る。
【0022】次に、単語群抽出部12において、表現抽
出規則に従って、分割された単語列からキーワードの候
補となり得る単語群を抽出する。表現抽出規則の例を図
5に示す。例えば、規則1では、前自立語群が名詞、サ
変動詞語幹、形容動詞語幹のいずれかまたはそれらの列
により構成され、その後ろに付属語群として「に」があ
り、さらにその後ろに後自立語群としてサ変動詞語幹が
存在する場合に、表現を抽出することを示している。他
の規則についても同様である。
【0023】上述の例文では、図3に示した形態素解析
結果から、まず、S25で「我々」(代名詞)が前自立
語群ストリームJFに、S26で「が」(格助詞)が付
属語群ストリームFZにそれぞれ読み込まれ、S27で
図5に示した表現抽出規則とのマッチングを行なう。図
5に示した表現抽出規則には、代名詞で始まる規則はな
いため、以下の処理は行なわず、S24に戻って各スト
リームはクリアされる。
【0024】続いて、「実現」(サ変)が前自立語群ス
トリームJFに、「した」(サ変動詞終止/連体語尾
(以下、サ変語尾と略すことがある))が付属語群スト
リームFZにそれぞれ読み込まれ、表現抽出規則とのマ
ッチングを行なう。この場合、図5に示した表現抽出規
則の規則7とマッチするので、各ストリームの内容はそ
のまま保持され、S28で、続く自立語「システム」
(名詞)が後自立語群ストリームJBに読み込まれる。
続いて「は」(副助詞)を読み込もうとするが、自立語
ではないため読み込まれず、S29で表現抽出規則との
マッチングを行なう。これは、図5の規則7にマッチす
るため、S31で「実現したシステム」という表現を品
詞情報とともに表現出力ストリームEXに出力する。
【0025】次に、S32で後自立語群ストリームJB
の内容を前自立語群ストリームJFにコピーし、S2
5,26で続く単語を読み込む。すなわち、「システ
ム」を前自立語群ストリームJFにコピーし、「は」
(副助詞)が付属語群ストリームFZに読み込まれる。
この場合、マッチする表現抽出規則がないため、S24
へ戻り、次の単語の読み込みを行なう。ここで、「、」
(記号)、「本」(接頭語)は自立語でないため、無視
される。
【0026】次に、「手法」(名詞)が前自立語群スト
リームJFに読み込まれると、続く「適用」(サ変)も
自立語であるため、複合語として続けて前自立語群スト
リームJFに取り込む。このように自立語群として扱わ
れるのは、活用語尾を伴わない自立語の連続、すなわ
ち、名詞/サ変/形容動詞のいずれかが連続する場合で
あり、自立語群の品詞は名詞として取り扱う。続いて
「により」(格助詞相当語)が付属語群ストリームFZ
に読み込まれる。この場合、図5に示した表現抽出規則
にマッチする規則(規則5)があるため、続く「文書」
(名詞)が後自立語群ストリームJBに読み込まれる。
続いて表現抽出規則とのマッチングを行なうと、マッチ
する規則がない。すなわち、前自立語群、付属語群は、
図5に示した表現抽出規則の規則5にマッチするが、後
自立語群がサ変または形容動詞ではないので、規則5に
マッチしない。そのため、S30で複合語として前自立
語群ストリームJFに読み込まれた「手法適用」をキー
ワード候補になり得る表現として品詞の情報とともに表
現出力ストリームEXに出力する。そして、後自立語群
ストリームJBに読み込まれた「文書」を前自立語群ス
トリームJFにコピーし、以下同様にして表現の抽出を
続行する。
【0027】以上のようにして、上述の例文から抽出さ
れる表現を図4に示す。上述のように、複合語が前自立
語群あるいは後自立語群を構成する場合には、複合語を
1つの名詞として扱うので、複合語を構成する各単語は
‘−’で結んで示している。他の各語は、‘/’で区切
って示している。各表現は品詞情報とともに抽出され
る。
【0028】表現抽出部3は、S33で文末までの表現
抽出が終了したことを検知すると、S22で次の1文を
取り出し、同様に、形態素解析、単語群抽出を行なう。
このようにして、S21で文書の最後までの表現抽出が
終了したことを検知すると、表現出力ストリームEXに
出力された表現について、関係抽出部4で関係抽出動作
を行なう。
【0029】図6は、関係抽出部4の関係抽出動作の一
例を示すフローチャートである。関係抽出部4では、表
現抽出部3で抽出された表現を受け取り、関係推定規則
を用いて各表現を構成する語句の間の関係を解析し、関
係を表わすリレーション記号に変換し、複数の語句とリ
レーション記号の組からなるリレーション表現を生成す
る。
【0030】S41において、表現出力ストリームEX
から表現の1つを取り出す。S42で取り出した表現と
マッチする関係推定規則を検索する。マッチした関係推
定規則に対応するリレーション記号を得て、S43で表
現にリレーション記号を付与する。
【0031】続いて、{リレーション記号 表現1 表
現2}という形式のリレーション表現を生成する。基本
的には、前自立語群が表現1に、後自立語群が表現2に
なるが、語順を入れ替えた言い換え表現ができるような
場合に限って、必要であれば前自立語群と後自立語群を
入れ替える。例えば、「システムの実現」と「実現した
システム」のような場合であり、この場合「実現したシ
ステム」の方の語順を入れ替える。どちらを入れ替える
かについては、一般に、体言−用言の順にすることを基
本とする。S44で語順の入れ替えが必要か否かを判定
し、必要な場合には、S45で表現1と表現2の項目を
入れ替えたリレーション表現を生成する。入れ替えの必
要がない場合には、S46でそのままの順序でリレーシ
ョン表現を生成する。生成したリレーション表現は、S
47でリレーション表現群ストリームRLに出力する。
【0032】S48で表現出力ストリームEX内のすべ
ての表現について処理されたか否かを判定し、未処理の
表現が残っている場合には、S41へ戻り、繰り返しリ
レーション表現の生成を行なう。
【0033】上述の関係抽出部4の動作の一例を、具体
例をもとに説明する。図7は関係推定規則の一例の説明
図、図8は、リレーション表現の一例の説明図である。
ここでは、具体例として、図4に示した表現が表現抽出
部3で抽出され、表現出力ストリームEXに格納されて
関係抽出部4に渡された場合について説明する。
【0034】関係推定規則は、図7に示すように、前自
立語群、後自立語群、付属語群の組と、リレーション記
号との対応表として記述されている。例えば、前自立語
群が名詞またはサ変、付属語群が「の」、後自立語群が
サ変の表現は、リレーション記号[ノ]が対応する。他
の組み合わせについても同様である。
【0035】まず、S41で表現出力ストリームEXか
ら表現を1つ取り出す。表現「実現したシステム」が取
り出されたものとする。関係抽出部4は、「実現」と
「システム」の間の関係を推定する。S42で図7に示
した関係推定規則を探索する。この例では、前自立語群
である「実現」はサ変、後自立語群である「システム」
は名詞、付属語群は「した」であるから、図7に示した
関係推定規則のうち、最下欄に示す関係推定規則がマッ
チする。対応するリレーション記号[スル]を取り出
し、表現に対してこのリレーションを付与する。
【0036】次に、S44で入れ替えが必要か否かを判
定する。この例では、用言−体言の順に単語が並んでお
り、語順を入れ替えた表現も可能であるので、入れ替え
が必要であると判断する。このときの判定は、例えば、
入れ替えが行なえる特殊な場合を表わす語順入れ替え規
則とのマッチングを行ない、該当する規則があった場合
には、語順の入れ替えを行なうように構成することがで
きる。上述の「実現したシステム」の場合、S45で語
順が入れ替えられ、{[スル] システム 実現}とい
う形式のリレーション表現が生成される。生成されたリ
レーション表現は、順次、S47でリレーション表現群
ストリームRLに出力される。
【0037】なお、自立語のみの複合語の場合には、
[直結]というリレーション記号が付与される。ここ
で、2語からなる複合語の場合は2つの語がそれぞれ表
現1,表現2となる。3語以上の複合語の場合には、表
現1,表現2は特定しない。例えば、「高速検索機能」
という複合語の場合、{[直結] 高速−検索−機能}
というリレーション表現を生成する。このとき、高速と
検索−機能、あるいは高速−検索と機能といった分け方
はしない。
【0038】このようにして、最初の表現「実現したシ
ステム」から{[スル] システム実現}というリレー
ション表現が生成された。以下、「手法適用」、「文書
の高速検索機能」、「高速検索機能を実現」について
も、同様の処理により、図8に示すようなリレーション
表現が生成される。関係抽出部4において、表現抽出部
3で抽出された全ての表現がリレーション表現に変換さ
れると、リレーション表現群ストリームRLに出力され
たリレーション表現群は、リレーション表現選択部5に
渡される。
【0039】図9は、リレーション表現選択部5の動作
を示すフローチャートである。リレーション表現選択部
5は、S52でリレーション表現群ストリームRLから
リレーション表現を1つ取り出し、リレーション表現ス
トリームREにコピーする。続いて、S53でリレーシ
ョン表現ストリームREと同じ語から構成される全ての
リレーション表現をリレーション表現群ストリームRL
中から探し、ストリームSIにコピーする。このとき、
リレーション表現ストリームRE自身もストリームSI
にコピーする。
【0040】次に、ストリームSI中のリレーション表
現のリレーション記号を比較する。リレーション記号に
は、あらかじめ抽象度およびそのリレーション記号と矛
盾しないリレーション記号の情報が与えられている。こ
の情報をもとに、S54でストリームSIの中からリレ
ーション表現ストリームREと矛盾するリレーション表
現を削除する。また、S55で矛盾しないリレーション
表現について、重複して選択処理が行なわれないよう
に、ストリームSI内のリレーション表現をリレーショ
ン表現群ストリームRLから削除する。そして、S56
において、ストリームSI内の各リレーション記号の有
する抽象度が最も低いものを選択し、結果出力ストリー
ムSOに出力する。
【0041】S51へ戻り、リレーション表現群ストリ
ームRL内にリレーション表現が存在しなくなるまで、
上述の処理を繰り返し行なう。これにより、結果出力ス
トリームSOには、類似の関係を有する表現が排除され
たキーワード候補が収容されることになる。結果出力ス
トリームSOに書き込まれたキーワードは、記憶部6に
入力文書とともに登録される。
【0042】具体例をもとに、上述のリレーション表現
選択部5の動作の一例を説明する。図10は、同じ語か
ら構成されるリレーション表現の一例の説明図、図11
は、リレーション記号が有する情報の一例の説明図であ
る。
【0043】S52でリレーション表現群ストリームR
Lから、例えば、{[スル] システム 実現}という
表現が取り出されたとすると、この表現がリレーション
表現ストリームREにコピーされる。そして、リレーシ
ョン表現ストリームREの内容、および、この表現と同
じ語、すなわち、「システム」と「実現」を有するリレ
ーション表現が、リレーション表現群ストリームRLか
らストリームSIにコピーされる。ストリームSIにコ
ピーされたリレーション表現を図10に示している。図
10に示すように、同じ語を有するリレーション表現で
あっても、リレーション記号の違うものが存在する。例
えば、「実現したシステム」、「システムを実現」、
「システムの実現」、「システム実現」などの表記が存
在する。これらは、関係抽出部4において、違うリレー
ション記号を付与して区別している。
【0044】次に、SI中のリレーション表現のリレー
ション記号を比較する。上述のように、リレーション記
号には、あらかじめ抽象度およびそのリレーション記号
と矛盾しないリレーション記号の情報が与えられてい
る。この例を図11に示している。図11に示したよう
に、抽象度は、例えば、1から7までの数字で表わして
おり、数字が大きいほど抽象度が大きいことを表してい
る。図11では、例えば、リレーション記号[ヲ]の抽
象度は1であり、リレーション記号[ノ]の抽象度は3
である。これは、例えば、「システムの実現」という表
現は、「システムを実現」という意味を表している場合
もあるが、必ずしもそうであるとは言えないということ
を意味している。このように、表現によって確かさが異
なることを表したものが抽象度である。抽象度は、上述
したリレーション記号の種類に依存し、リレーション記
号の種類が変われば、抽象度の与え方も変わる。
【0045】このような情報を用い、まず、リレーショ
ン記号を比較して、矛盾するリレーション記号を持つキ
ーワード候補をSIから削除する。一般に、抽象度が同
じリレーション記号は互いに矛盾し、抽象度が違うリレ
ーション記号の中には矛盾するものとしないものがあ
る。図11では、自分自身より抽象度が高いリレーショ
ン記号の中で矛盾しないものが、矛盾しないリレーショ
ン記号の情報として与えられている。すなわち、リレー
ション記号[ノ]は、それより抽象度が高いリレーショ
ン記号[名詞接続]、[スル]、[直結]の中で、矛盾
しないリレーション記号[スル]、[直結]が与えられ
ている。
【0046】この矛盾するあるいは矛盾しないとは、例
えば、「システムを実現」は「システムの実現」と言い
換えることができるが、「展示会に出展」は「展示会の
出展」と言い換えることはできない。したがって、リレ
ーション記号[ヲ」と[ノ]は矛盾しないが、リレーシ
ョン記号[ニ]と[ノ]は矛盾する。
【0047】リレーション記号の比較は、リレーション
表現ストリームREおよびストリームSI中のリレーシ
ョン記号の中で、最も抽象度の低いものを選び、その他
のリレーション記号が、選んだリレーション記号の持
つ、矛盾しないリレーション記号の情報に含まれれば、
矛盾しないと判断する。図10に示した例では、最も抽
象度の低いリレーション記号[ヲ]を選択し、これと矛
盾しないリレーション記号[ノ]、[スル]、[直結]
と、他のリレーション表現のリレーション記号を比較す
る。矛盾するリレーション記号を持つリレーション表現
が見つかった場合には、抽象度の低いものを優先するな
どのあらかじめ決められた規則にしたがって矛盾する候
補を除去する。図10に示す例では、全ての候補は矛盾
しないので、除去動作は行なわれない。このようにして
矛盾するリレーション表現の削除されたストリームSI
中のリレーション表現は、それぞれが類似した意味関係
を有している。そのため、これらのリレーション表現の
中から1つをキーワード候補として抽出すればよい。
【0048】ストリームSI中に残されたリレーション
表現は、選択処理によってキーワード候補が抽出される
ので、これらのリレーション表現から重複してキーワー
ドを抽出しないように、ストリームSI中のリレーショ
ン表現をリレーション表現群ストリームRLから消去す
る。
【0049】次に、類似したリレーション表現の中から
キーワード候補を抽出する。ストリームSI中のリレー
ション表現のリレーション記号を比較し、最も抽象度が
低いものを選択し、そのリレーション表現をキーワード
として結果出力ストリームSOに書き込む。抽象度が低
いリレーション記号を選択するのは、抽象度が低い方
が、単語間の関係が確かであり、キーワードとして有効
に機能するためである。ここでは、リレーション記号
[ヲ]が選択され、リレーション表現{[ヲ] システ
ム 実現}がキーワードとして結果出力ストリームSO
に書き込まれる。
【0050】このようにして、一つのリレーション表現
REについての選択動作が終了する。リレーション表現
選択部6は、以下同様の動作を繰り返す。リレーション
表現群ストリームRLのすべてのリレーション表現の選
択が終了すると、リレーション表現選択動作が終了す
る。
【0051】以上のように、第1の実施例によれば、同
じ自立語で構成されるリレーション表現の中から、リレ
ーション記号の抽象度が最も低いものをキーワードとし
て選択することにより、関係が確かなリレーション表現
をキーワードとすることができ、キーワード抽出の精度
を上げることができる。
【0052】図12は、本発明の第2の実施例の全体構
成を示すブロック図である。図中、図1と同様の部分に
は同じ符号を付して説明を省略する。7は頻度計数部、
8はリレーション表現選択/評価部、9はキーワード選
定部である。この第2の実施例では、第1の実施例の構
成に加えて、関係抽出部4の後に頻度計数部7が設けら
れている。また、図1のリレーション表現選択部5に代
わって、リレーション表現選択/評価部8が設けられ、
その後にキーワード選定部9が設けられている。
【0053】データ入力部2、表現抽出部3、関係抽出
部4は第1の実施例と同様である。頻度計数部7は、関
係抽出部4から出力されたリレーション表現から重複を
除いて各表現の出現頻度を計数し、リレーション表現を
出現頻度とともに出力する。リレーション表現選択/評
価部8は、まず、第1の実施例と同様に、関係抽出部4
から出力されたキーワード候補のうち、同じ語句によっ
て構成され、リレーション記号が互いに矛盾しないリレ
ーション表現を抽出し、その中で最も抽象度の低いリレ
ーション記号を持つリレーション表現のみをキーワード
候補として選択する。さらに、この第2の実施例では、
選択されなかったリレーション表現の出現頻度などをも
用いて、選択されたリレーション表現の重要度を評価す
る。キーワード選定部9は、リレーション表現選択/評
価部8の評価結果に基づいてキーワードを選定する。
【0054】次に、本発明のキーワード抽出装置の第2
の実施例における動作の一例を説明する。関係抽出部4
までの動作は、第1の実施例と同じである。関係抽出部
4において、表現抽出部3で抽出されたすべての表現が
リレーション表現に変換されると、頻度計数部7におい
て重複するリレーション表現を除き、出現頻度を付与す
る。これにより、リレーション表現は、例えば、{リレ
ーション記号 表現1表現2 計数値}という形式に変
換する。具体的には、例えば、{[スル]システム 表
現 2}のような形式となる。
【0055】頻度を付与されたリレーション表現群は、
リレーション表現選択/評価部8において選択/評価さ
れる。図13は、リレーション表現選択/評価部8の動
作の一例を示すフローチャートである。同じ自立語から
構成されるリレーション表現の中から、リレーション記
号の抽象度が最も低いものを選択するところまでは、第
1の実施例とまったく同様である。すなわち、図13の
S61ないしS65のステップは、図9のS51ないし
S55のステップと同様の処理が行なわれる。
【0056】S66において、この第2の実施例では、
選択されたリレーション表現をストリームCOに書き込
む。続いて、S67でストリームCOに書き込まれたリ
レーション表現の重要度を計算する。重要度の計算とし
ては、たとえば、ストリームSI中の全リレーション表
現の出現頻度を単純に加算したものを重要度とすること
ができる。このほかにも、各リレーション表現の出現頻
度をリレーション記号の抽象度に応じて重み付けして加
算するなど、種々の方法を用いることができる。
【0057】S68において、ストリームCO内のリレ
ーション表現と、S67で計算された重要度を結果出力
ストリームSOに出力し、リレーション表現ストリーム
REに読み込まれた1つのリレーション表現についての
選択/評価動作が終了する。リレーション表現選択/評
価部8は、以下同様の動作を繰り返す。リレーション表
現群ストリームRLのすべてのリレーション表現の選択
/評価が終了すると、リレーション表現選択/評価部8
の動作が終了する。
【0058】図14は、同じ語から構成されるリレーシ
ョン表現の別の例の説明図である。具体例として、第1
の実施例と同様、S62、S63の処理により、図14
に示すリレーション表現がリレーション表現ストリーム
REおよびストリームSIに読み込まれたものとする。
ここで、リレーション表現ストリームREおよびストリ
ームSIに読み込まれた各リレーション表現は、頻度計
数部7によって出現頻度が計数され、計数値が付与され
ている。S66において、これらのリレーション表現か
ら、抽象度が最も低いリレーション表現{[ヲ] シス
テム 実現 2}が選択され、ストリームCOに書き込
まれる。S67では、このリレーション表現の重要度が
計算される。上述のように、重要度をストリームSI中
の全リレーション表現の出現頻度を単純に加算したもの
とすれば、リレーション表現{[ヲ] システム 実現
2}の重要度は8となる。このようにして、選択され
たリレーション表現とその重要度を、{[ヲ] システ
ム 実現 8}という形で結果出力ストリームSOに出
力する。
【0059】キーワード選定部9は、リレーション表現
選択/評価部8で計算された重要度を用いて、例えば、
あらかじめ与えられた値以上のものをキーワードとして
選定し、記憶部9に入力文書とともに登録する。あらか
じめ与えておく値は、例えば、計算方法を与えておき、
キーワード候補数や重要度の分布によりキーワード選定
時に計算するように構成したり、あるいは、キーワード
抽出動作開始時にユーザがシステムに与えたり、重要度
評価結果をユーザに提示して閾値を入力させるなど、種
々の方法が考えられ、いずれの方法を用いても良い。
【0060】以上のように、第2の実施例によれば、キ
ーワードの候補として選択されなかったリレーション表
現の出現頻度も用いて、選択されたリレーション表現の
重要度を評価することにより、より正確な重要度の評価
ができ、精度良くキーワード抽出ができるキーワード抽
出装置を提供することができる。
【0061】上述の第2の実施例において、頻度計数部
7は、同一のリレーション表現の出現頻度を計数し、キ
ーワード選定部9は、リレーション表現選択/評価部8
におけるキーワードの候補として選択されなかったリレ
ーション表現の出現頻度および選択されたリレーション
表現の出現頻度から重要度を評価している。しかし、上
述の方法では、例えば、「文書処理」と「文書処理シス
テム」とは別のリレーション表現として抽出される。そ
して、単語群が同一でないため、リレーション表現選択
/評価部8において、同じ語を有するリレーション表現
として抽出されないので、別々のキーワード候補として
キーワード選定部9に出力されてしまう。文書中に、例
えば、「文書処理」が2回、「文書処理システム」が3
回出現したとし、キーワード選定部9で3回以上のリレ
ーション表現を選定するすれば、「文書処理システム」
がキーワードとして抽出され、「文書処理」はキーワー
ドとして選定されなくなってしまう。しかしながら、
「文書処理」と「文書処理システム」は全く異なる概念
ではなく、「文書処理」という概念に着目した場合、5
回出現したと考えるのが妥当である。したがって、実際
には「文書処理」の方が重要度が大きい可能性がある。
このように、単に同一の単語群についてのみから評価お
よび選択を行なうと、正確な重要度の評価が行なわれ
ず、検索の際の適合率を低下させる原因にもなる。
【0062】これを解決するため、リレーション表現選
択/評価部8における評価の際、あるいは、キーワード
選定部9における選定の際に、ある第1のキーワード候
補を部分として持つ第2のキーワード候補があるとき、
少なくとも第1のキーワード候補の出現頻度と第2のキ
ーワード候補の出現頻度とに基づいてキーワード候補の
重要度を評価するように構成することができる。これに
より、あるキーワード候補が、別のキーワード候補に含
まれている場合でも、実際の出現頻度に見合った重要度
を付加することができる。例えば、リレーション表現選
択/評価部8で計算された重要度が、「文書処理」が
2、「文書処理システム」が3であるとき、「文書処
理」の重要度を5として評価するように構成することが
できる。
【0063】上述の評価方法は、リレーション表現を用
いたキーワード抽出装置以外でも適用することができ
る。図15は、本発明のキーワード抽出装置の第3の実
施例を示すブロック図である。図中、図1、図12と同
様の部分には同じ符号を付して説明を省略する。10は
重要度評価部、13は単語群抽出部である。データ入力
部2、記憶部6は、第1および第2の実施例と同様であ
る。また、キーワード選定部9についても、第2の実施
例と同様とした。
【0064】表現抽出部3は、形態素解析部11、単語
群抽出部13より構成されている。表現抽出部3は、デ
ータ入力部2で読み込んだテキストを形態素解析部11
で形態素解析し、その結果から単語群抽出部13で表現
抽出規則にしたがってキーワード候補を抽出する。この
第3の実施例では、単語群抽出部13は、複合語を抽出
するものとして、以下、説明する。しかし、これに限ら
ず、上述の第1、第2の実施例と同様のパターン等、種
々のパターンを抽出するように構成することもできる。
【0065】重要度評価部10は、表現抽出部3から出
力され、頻度計数部7で計数された表現の出現頻度に基
づいて重要度を計算する。このとき、あるキーワード候
補が別のキーワード候補に含まれている場合、両者の出
現頻度から、そのキーワード候補の重要度を計算する。
【0066】次に、本発明のキーワード抽出装置の第3
の実施例における動作の一例について、具体例をもとに
説明する。具体例として、上述の第1および第2の実施
例で用いた「我々が実現したシステムは、本手法適用に
より文書の高速検索を実現する。」という例文が入力さ
れた場合を考える。この例文は、表現抽出部3内の形態
素解析部11で形態素解析され、図3に示したような形
態素解析結果が得られる。単語群抽出部13は、形態素
解析部11で分割された単語列から、表現抽出規則に従
ってキーワードの候補となり得る単語群を抽出する。こ
こでは、表現抽出規則として、活用語尾を伴わない自立
語の連続、すなわち、名詞、サ変動詞語幹、形容動詞語
幹のいずれかが連続する場合に抽出するものとする。図
16は、単語群抽出部13により抽出されたキーワード
候補の一例の説明図である。上述の例文では、図16に
示したような2つのキーワード候補が抽出される。
【0067】形態素解析部11および単語群抽出部13
の処理は、1文ずつ行なわれ、以下、文書データの最後
までこれを繰り返す。文書データ全部についての単語群
の抽出が終了すると、頻度計数部7において、抽出され
た単語群の中から重複している単語群を探し、それらの
単語群の出現頻度を計数し、重複を除く。こうして得ら
れた単語群とその出現頻度の組は、重要度評価部10に
渡される。
【0068】図17は、本発明のキーワード抽出装置の
第3の実施例における重要度評価部10の動作の一例を
示すフローチャートである。頻度計数部7から渡される
単語群と出現頻度の組は、キーワード候補群ストリーム
KEに入力されているものとする。
【0069】重要度評価部10は、まず、S71におい
て、キーワード候補群ストリームKEを前方一致順に
(辞書順に)ソートした前方一致順キーワード候補群ス
トリームKFと、キーワード候補群ストリームKEを後
方一致順に(文字列の語尾から辞書順に)ソートした後
方一致順キーワード候補群ストリームKBを用意する。
【0070】続いて、S72において、前方一致順キー
ワード候補群ストリームKFにキーワード候補が存在す
ることを確認し、S73において、前方一致順キーワー
ド候補群ストリームKFからキーワード候補をひとつ取
り出し、変数KYに読み込む。
【0071】次に、S74において、前方一致順キーワ
ード候補群ストリームKFの中で、変数KYと前方一致
するキーワード候補が存在するか否かを判定し、存在す
る場合には、S75において、変数KYと前方一致する
キーワード候補をすべて前方一致候補ストリームFOに
コピーする。さらに、S76において、後方一致順キー
ワード候補群ストリームKBの中で、変数KYと後方一
致するキーワード候補が存在するか否かを判定し、存在
する場合には、S77において、後方一致するキーワー
ド候補をすべて後方一致候補ストリームBAにコピーす
る。ここで、前方一致、後方一致の判断は、文字単位で
はなく、単語単位で行ない、変数KYを構成する単語を
全て含んでいる場合に、前方一致、後方一致したと判断
する。
【0072】図18は、前方一致、後方一致により得ら
れるキーワード候補の一例の説明図である。変数KYに
{高速−検索 3}が読み込まれているものとする。こ
こで、「高速−検索」はキーワード候補であり、「3」
はその出現頻度である。前方一致候補ストリームFOに
は、このキーワード候補と前方一致する、例えば、「高
速−検索−システム」、「高速−検索−機能」などが書
き込まれる。また、後方一致候補ストリームBAには、
例えば、「文書−高速−検索」などが書き込まれる。
【0073】図17に戻り、続いて、S78において、
前方一致候補ストリームFOおよび後方一致候補ストリ
ームBAにある候補の情報を用いて、変数KYの重要度
を計算する。ここでは、重要度の計算は、前方一致候補
ストリームFOおよび後方一致候補ストリームBA中の
すべての候補の出現頻度を、変数KYの出現頻度に加算
することにより行なう。図18に示した例では、キーワ
ード候補「高速−検索」の重要度は15となる。重要度
を付与されたキーワード候補は、S79において、重要
度付き候補群ストリームIMに書き込まれる。重要度評
価部10は、以上の処理を、前方一致順キーワード候補
群ストリームKFにキーワード候補がなくなるまで繰り
返す。
【0074】重要度評価部10における重要度の計算
は、上述のように、出現頻度を単純に加算する方法を用
いる以外にも、例えば、前方一致候補ストリームFOお
よび後方一致候補ストリームBA中の候補とキーワード
候補KYとの重複語数、重複語の割合、前方一致か後方
一致か、などによって頻度を重み付けして加算するな
ど、種々のものが考えられる。頻度情報を用いるもので
あれば、どのような方法を用いてもよい。
【0075】重要度評価部10で重要度が付与されたキ
ーワード候補群は、キーワード選定部9に渡され、重要
度を付与されたキーワード候補の中から、重要度に基づ
いてキーワードが選定される。例えば、あらかじめ決め
られた閾値よりも大きな重要度を持つ候補をキーワード
として選定し、記憶部6に入力文書とともに登録する。
このキーワード選定部9で用いるキーワードを選定する
ためのあらかじめ決められた閾値は、例えば、計算方法
を与えておき、キーワード候補数や重要度の分布により
キーワード選定時に計算したり、キーワード抽出動作開
始時にユーザがシステムに与えたり、あるいは、重要度
評価結果をユーザに提示して閾値を入力させるなど、種
々の方法を用いることができる。
【0076】この第3の実施例では、表現抽出部3で、
キーワード候補として複合語を抽出する場合を示した
が、間に付属語があったり、連続していなくても特定の
品詞パターンを規則に基づき抽出するようにしても良い
し、付属語も抽出してもよい。付属語も抽出する場合、
前方一致、後方一致などの判断は自立語のみでするよう
にすればよい。もちろん、第1、第2の実施例のよう
に、リレーション表現を抽出するように構成することも
できる。
【0077】
【発明の効果】以上の説明から明らかなように、本発明
によれば、テキストから重要度に従ってキーワードを抽
出するが、その際に、あるキーワード候補が別のキーワ
ード候補の部分になっているとき、別のキーワード候補
の候補として出現する頻度も考慮して重要度を評価する
ことができる。したがって、出現頻度を正確に反映した
重要度の評価をすることができ、これにより、精度良く
キーワードを抽出できるキーワード抽出装置を提供する
ことができるという効果がある。
【図面の簡単な説明】
【図1】 本発明のキーワード抽出装置の第1の実施例
の全体構成を示すブロック図である。
【図2】 表現抽出部3の動作の一例を示すフローチャ
ートである。
【図3】 形態素解析結果の一例の説明図である。
【図4】 抽出された表現の一例の説明図である。
【図5】 表現抽出規則の一例の説明図である。
【図6】 関係抽出部4の関係抽出動作の一例を示すフ
ローチャートである。
【図7】 関係推定規則の一例の説明図である。
【図8】 リレーション表現の一例の説明図である。
【図9】 リレーション表現選択部5の動作を示すフロ
ーチャートである。
【図10】 同じ語から構成されるリレーション表現の
一例の説明図である。
【図11】 リレーション記号が有する情報の一例の説
明図である。
【図12】 本発明の第2の実施例の全体構成を示すブ
ロック図である。
【図13】 リレーション表現選択/評価部8の動作の
一例を示すフローチャートである。
【図14】 同じ語から構成されるリレーション表現の
別の例の説明図である。
【図15】 本発明のキーワード抽出装置の第3の実施
例を示すブロック図である。
【図16】 単語群抽出部13により抽出されたキーワ
ード候補の一例の説明図である。
【図17】 本発明のキーワード抽出装置の第3の実施
例における重要度評価部10の動作の一例を示すフロー
チャートである。
【図18】 前方一致、後方一致により得られるキーワ
ード候補の一例の説明図である。
【符号の説明】
1…キーワード抽出装置、2…データ入力部、3…表現
抽出部、4…関係抽出部、5…リレーション表現選択
部、6…記憶部、7…頻度計数部、8…リレーション表
現選択/評価部、9…キーワード選定部、10…重要度
評価部、11…形態素解析部、12…単語群抽出部、1
3…単語群抽出部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中垣 寿平 神奈川県横浜市保土ヶ谷区神戸町134番 地 横浜ビジネスパークイーストタワー 富士ゼロックス株式会社内 (56)参考文献 特開 平4−52765(JP,A) 特開 平1−217623(JP,A) 特開 平3−127176(JP,A) 発明協会公開技報公枝番号94−2432 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 210 - 419 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 テキストから重要度に従ってキーワード
    を抽出するキーワード抽出装置において、キーワード候
    補を抽出し出現頻度とともに出力するキーワード候補抽
    出手段と、前記キーワード候補抽出手段により抽出され
    たキーワード候補の重要度を評価する重要度評価手段を
    有し、前記重要度評価手段は、ある第1のキーワード候
    補を部分として持つ第2のキーワード候補があるとき少
    なくとも第1のキーワード候補の出現頻度と第2のキー
    ワード候補の出現頻度とに基づいて前記第1のキーワー
    ド候補の重要度を評価することを特徴とするキーワード
    抽出装置。
  2. 【請求項2】 テキストから重要度に従ってキーワード
    を抽出するキーワード抽出方法において、キーワード候
    補抽出手段により前記テキストからキーワード候補を抽
    出して出現頻度とともに出力し、前記テキストから抽出
    したキーワード候補の重要度を重要度評価手段により評
    価し、該重要度に従ってキーワードを抽出するものであ
    って、前記重要度評価手段による評価は、第1のキーワ
    ード候補を部分として持つ第2のキーワード候補がある
    とき少なくとも第1のキーワード候補の出現頻度と第2
    のキーワード候補の出現頻度とに基づいて前記第1のキ
    ーワード候補の重要度を評価するものであることを特徴
    とするキーワード抽出方法。
JP2003180628A 2003-06-25 2003-06-25 キーワード抽出装置およびキーワード抽出方法 Expired - Fee Related JP3528849B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003180628A JP3528849B2 (ja) 2003-06-25 2003-06-25 キーワード抽出装置およびキーワード抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003180628A JP3528849B2 (ja) 2003-06-25 2003-06-25 キーワード抽出装置およびキーワード抽出方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11160394A Division JP3500698B2 (ja) 1994-05-25 1994-05-25 キーワード抽出装置及びキーワード抽出方法

Publications (2)

Publication Number Publication Date
JP2004005711A JP2004005711A (ja) 2004-01-08
JP3528849B2 true JP3528849B2 (ja) 2004-05-24

Family

ID=30438373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003180628A Expired - Fee Related JP3528849B2 (ja) 2003-06-25 2003-06-25 キーワード抽出装置およびキーワード抽出方法

Country Status (1)

Country Link
JP (1) JP3528849B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005327033A (ja) 2004-05-13 2005-11-24 Ricoh Co Ltd ネットワーク対応型デジタル複合機およびそのプログラム
CN113282752B (zh) * 2021-06-09 2023-04-25 江苏联著实业股份有限公司 一种基于语义映射的事物分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
発明協会公開技報公枝番号94−2432

Also Published As

Publication number Publication date
JP2004005711A (ja) 2004-01-08

Similar Documents

Publication Publication Date Title
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
US9009590B2 (en) Semantic processor for recognition of cause-effect relations in natural language documents
US20020046018A1 (en) Discourse parsing and summarization
US20120130705A1 (en) Text segmentation with multiple granularity levels
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP2003196280A (ja) テキスト生成方法及びテキスト生成装置
Wang et al. Improving skip-gram embeddings using BERT
JP2002259371A (ja) 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体
Umair et al. N-GPETS: Neural Attention Graph-Based Pretrained Statistical Model for Extractive Text Summarization
JP3787310B2 (ja) キーワード決定方法、装置、プログラム、および記録媒体
JP3500698B2 (ja) キーワード抽出装置及びキーワード抽出方法
JP3528849B2 (ja) キーワード抽出装置およびキーワード抽出方法
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
WO2009136426A1 (ja) 検索クエリ提供装置
JP3082890B2 (ja) 書き言葉テキストに対する話題構造認識方法および装置
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
JP4175093B2 (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP4059501B2 (ja) 自然語辞書更新装置
JP3082889B2 (ja) モノローグ・データに対する話題構造認識方法および装置
Althobaiti Minimally-supervised Methods for Arabic Named Entity Recognition
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP2006053907A (ja) 情報抽出方法、情報抽出装置、情報抽出プログラム及び情報抽出プログラムが記載された記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080305

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110305

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120305

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees