JPH08221448A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH08221448A
JPH08221448A JP7046565A JP4656595A JPH08221448A JP H08221448 A JPH08221448 A JP H08221448A JP 7046565 A JP7046565 A JP 7046565A JP 4656595 A JP4656595 A JP 4656595A JP H08221448 A JPH08221448 A JP H08221448A
Authority
JP
Japan
Prior art keywords
noun
frequency
keyword
compound
nouns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7046565A
Other languages
English (en)
Inventor
Shogo Shibata
昇吾 柴田
Makoto Hirota
誠 廣田
Shiro Ito
史朗 伊藤
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP7046565A priority Critical patent/JPH08221448A/ja
Publication of JPH08221448A publication Critical patent/JPH08221448A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【目的】 キーワード候補とする対象を1つの単語に限
定せずに適切に設定し、かつ簡単な処理で迅速にキーワ
ードを抽出し得るキーワード抽出装置を提供する。 【構成】 入力された文書から単語、長い複合名詞、
「名詞+の+名詞」、「名詞+する+名詞」、「名詞+
な+名詞」等の文の構成要素を切り出し、切り出された
文の構成要素を出現頻度を計数しながらキーワード候補
として順次登録し、登録されたキーワード候補の中から
少なくとも出現頻度を考慮してキーワードを抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、特に文書からキーワー
ドを抽出するキーワード抽出装置に関する。
【0002】
【従来の技術】ワークステーションやパーソナルコンピ
ュータにおいて、文書からキーワードを抽出する方法は
古くから検討されている。キーワードは、検索を目的と
した索引的な役割を担うものとして有用であるが、キー
ワードの抽出は、文章を理解しなくてはできない知的作
業であり、人間にとっても難しい作業である。
【0003】キーワードを計算機で自動的に抽出する方
法としては、まず、文書から名詞を切り出し、それぞれ
の出現頻度を調べ、次に、それらの中から、一般的な文
章にて頻出する汎用的な単語(キーワードとはなり得な
い単語)を排除し、最後に残ったものから、文章中での
出現位置などを考慮してキーワードとして採用するか否
かを決定する方法が知られている。
【0004】また、出現頻度を調べる際に、名詞の上位
・下位概念を考慮して、例えば、「鯨」、「ほ乳類」、
「動物」などを同一のものとしてカウントしたり、「内
閣総理大臣」と「首相」などのパラフレーズ(言い換
え)を考慮したりして、柔軟に出現頻度を調べる手法も
採用されている。
【0005】
【発明が解決しようとする課題】しかし、従来のキーワ
ード抽出方法では、キーワード候補とする対象を単語に
限っており、「名詞+の+名詞」パターン(以下、「N
のN」パターンという)パターンは、抽出対象から除外
されていた。そのため、例えば、「日本の選手」は「日
本選手」と同一のものとみなされず、頻度に考慮されな
かった。また、長い複合名詞も抽出対象から除外されて
いた。
【0006】また、今後、情報スーパーハイウェイ等の
設備により、電子化文書による情報洪水が予想され、い
かにして情報洪水を緩和するかが重要な課題となってく
るが、上位・下位概念などを考慮するために辞書情報を
活用すると、キーワード抽出に時間がかかるようにな
り、情報洪水を緩和することができなくなってしまう。
【0007】本発明は、このような背景の下になされた
もので、その目的は、キーワード候補とする対象を1つ
の単語に限定せずに適切に設定し、かつ簡単な処理で迅
速にキーワードを抽出し得るキーワード抽出装置を提供
することにある。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載のキーワード抽出装置は、入力された
文書から単語、複合名詞、および所定の語を介して連接
する複数の名詞を含む文の構成要素を切り出す要素切出
手段と、該要素切出手段により切り出された文の構成要
素を出現頻度を計数しながらキーワード候補として順次
登録する登録手段と、該登録手段にて登録されたキーワ
ード候補の中から少なくとも出現頻度を考慮してキーワ
ードを抽出する抽出手段とを備えている。
【0009】上記目的を達成するため、請求項2記載の
キーワード抽出装置では、請求項1記載の前記登録手段
は、複合名詞について登録する場合は、複合名詞を構成
する各名詞、各名詞の組合わせ、複合名詞全体について
個別に出現頻度を計数しながら登録するように構成され
ている。
【0010】上記目的を達成するため、請求項3記載の
キーワード抽出装置では、請求項2記載の前記登録手段
は、複合名詞を構成する各名詞、各名詞の組合わせ、複
合名詞全体について個別に出現頻度を計数する際、既に
登録されている構成要素と完全一致する場合のみならず
部分一致する場合も出現頻度を計数するように構成され
ている。
【0011】上記目的を達成するため、請求項4記載の
キーワード抽出装置では、請求項3記載の前記登録手段
は、複合名詞を構成する各名詞、各名詞の組合わせ、複
合名詞全体について個別に出現頻度を計数する際、既に
登録されている構成要素と完全一致する場合のみならず
部分一致する場合も出現頻度を計数するに当たり、完全
一致の場合と部分一致の場合とで出現頻度の度数を同一
にするように構成されている。
【0012】上記目的を達成するため、請求項5記載の
キーワード抽出装置では、請求項3記載の前記登録手段
は、複合名詞を構成する各名詞、各名詞の組合わせ、複
合名詞全体について個別に出現頻度を計数する際、既に
登録されている構成要素と完全一致する場合のみならず
部分一致する場合も出現頻度を計数するに当たり、完全
一致の場合と部分一致の場合とで出現頻度の度数を変更
するように構成されている。
【0013】上記目的を達成するため、請求項6記載の
キーワード抽出装置では、請求項3記載の前記登録手段
は、複合名詞を構成する各名詞、各名詞の組合わせ、複
合名詞全体について個別に出現頻度を計数する際、部分
一致する場合は、既に登録されている複合名詞のどの位
置で部分一致するかによって出現頻度の度数を変更する
ように構成されている。
【0014】上記目的を達成するため、請求項7記載の
キーワード抽出装置では、請求項3記載の前記登録手段
は、複合名詞を構成する各名詞、各名詞の組合わせ、複
合名詞全体について個別に出現頻度を計数する際、部分
一致する場合は、その部分一致に係る各名詞、各名詞の
組合わせ、複合名詞全体が既に登録されている複合名詞
の一部として含まれているのか、或いは既に登録されて
いる複合名詞部が部分一致に係る名詞の組合わせ、複合
名詞全体の一部として含まれているのかによって出現頻
度の度数を変更するように構成されている。
【0015】上記目的を達成するため、請求項8記載の
キーワード抽出装置では、請求項1記載の前記登録手段
は、所定の語を介して連接する複数の名詞について登録
する場合、当該所定の語を除いた複合名詞の形式で出現
頻度を計数して登録するように構成されている。
【0016】
【作用】請求項1記載のキーワード抽出装置では、前記
要素切出手段により、入力された文書から単語、複合名
詞、および所定の語を介して連接する複数の名詞を含む
文の構成要素が切り出されると、前記登録手段は、切り
出された文の構成要素を出現頻度を計数しながらキーワ
ード候補として順次登録し、前記抽出手段は、登録され
たキーワード候補の中から少なくとも出現頻度を考慮し
てキーワードを抽出することにより、キーワード候補と
する対象を1つの単語に限定せずに適切に設定し、かつ
簡単な処理で迅速にキーワードを抽出する。
【0017】請求項2記載のキーワード抽出装置では、
請求項1記載の前記登録手段は、複合名詞について登録
する場合は、複合名詞を構成する各名詞、各名詞の組合
わせ、複合名詞全体について個別に出現頻度を計数しな
がら登録することにより、キーワード候補とする対象を
1つの単語に限定せずに適切に設定し、かつ簡単な処理
で迅速にキーワードを抽出するに当たり、適切に出現頻
度を計数する。
【0018】請求項3記載のキーワード抽出装置では、
請求項2記載の前記登録手段は、複合名詞を構成する各
名詞、各名詞の組合わせ、複合名詞全体について個別に
出現頻度を計数する際、既に登録されている構成要素と
完全一致する場合のみならず部分一致する場合も出現頻
度を計数することにより、キーワード候補とする対象を
1つの単語に限定せずに適切に設定し、かつ簡単な処理
で迅速にキーワードを抽出するに当たり、適切に出現頻
度を計数する。
【0019】請求項4記載のキーワード抽出装置では、
請求項3記載の前記登録手段は、複合名詞を構成する各
名詞、各名詞の組合わせ、複合名詞全体について個別に
出現頻度を計数する際、既に登録されている構成要素と
完全一致する場合のみならず部分一致する場合も出現頻
度を計数するに当たり、完全一致の場合と部分一致の場
合とで出現頻度の度数を同一にすることにより、キーワ
ード候補とする対象を1つの単語に限定せずに適切に設
定し、かつ簡単な処理で迅速にキーワードを抽出するに
当たり、適切に出現頻度を計数する。
【0020】請求項5記載のキーワード抽出装置では、
請求項3記載の前記登録手段は、複合名詞を構成する各
名詞、各名詞の組合わせ、複合名詞全体について個別に
出現頻度を計数する際、既に登録されている構成要素と
完全一致する場合のみならず部分一致する場合も出現頻
度を計数するに当たり、完全一致の場合と部分一致の場
合とで出現頻度の度数を変更することにより、キーワー
ド候補とする対象を1つの単語に限定せずに適切に設定
し、かつ簡単な処理で迅速にキーワードを抽出するに当
たり、適切に出現頻度を計数する。
【0021】請求項6記載のキーワード抽出装置では、
請求項3記載の前記登録手段は、複合名詞を構成する各
名詞、各名詞の組合わせ、複合名詞全体について個別に
出現頻度を計数する際、部分一致する場合は、既に登録
されている複合名詞のどの位置で部分一致するかによっ
て出現頻度の度数を変更することにより、キーワード候
補とする対象を1つの単語に限定せずに適切に設定し、
かつ簡単な処理で迅速にキーワードを抽出するに当た
り、適切に出現頻度を計数する。
【0022】請求項7記載のキーワード抽出装置では、
請求項3記載の前記登録手段は、複合名詞を構成する各
名詞、各名詞の組合わせ、複合名詞全体について個別に
出現頻度を計数する際、部分一致する場合は、その部分
一致に係る各名詞、各名詞の組合わせ、複合名詞全体が
既に登録されている複合名詞の一部として含まれている
のか、或いは既に登録されている複合名詞部が部分一致
に係る名詞の組合わせ、複合名詞全体の一部として含ま
れているのかによって出現頻度の度数を変更することに
より、キーワード候補とする対象を1つの単語に限定せ
ずに適切に設定し、かつ簡単な処理で迅速にキーワード
を抽出するに当たり、適切に出現頻度を計数する。
【0023】請求項8記載のキーワード抽出装置では、
請求項1記載の前記登録手段は、所定の語を介して連接
する複数の名詞について登録する場合、当該所定語を除
いた複合名詞の形式で出現頻度を計数して登録すること
により、キーワード候補とする対象を1つの単語に限定
せずに適切に設定し、かつ簡単な処理で迅速にキーワー
ドを抽出するに当たり、適切に出現頻度を計数する。
【0024】
【実施例】以下、本発明の一実施例を図面を参照しなが
ら説明する。
【0025】図1は、本発明の一実施例によるキーワー
ド抽出装置の概略構成を示すブロック図であり、文切出
部1、要素切出部2、汎用要素除外部3、要素登録部
4、比較部5、キーワード候補登録部6、キーワード抽
出部7、およびキーワード登録部8を有している。
【0026】なお、本キーワード抽出装置は、情報処理
装置により構成されるものであり、上記各部は、実際に
は、CPU、RAM、ROM(プログラム)等により構
成されている。
【0027】文切出部1では、入力された文書から文が
切り出されるが、この文切り出しは、読点「。]に基づ
いて行われる。要素切出部2では、図示省略した単語辞
書を参照して、文切出部1にて切り出された文の中から
単語、長い複合名詞、「名詞+の+名詞」等の文の構成
要素が切り出される。汎用要素除外部3は、要素切出部
2にて切り出された文の構成要素の中から、例えば「こ
と」、「もの」、「人」等の汎用的な要素を除外する。
ただし、汎用要素除外部3は、名詞以外の所定の単語、
例えば「移植する」等は除外せずに残しておく。要素登
録部4には、要素切出部2にて切り出された文の構成要
素のうち、汎用要素除外部3にて除外されずに残ったも
のが登録される。
【0028】比較部5は、要素登録部4に登録された文
の構成要素を、キーワード候補としてキーワード候補登
録部6に登録するに当たり、キーワード候補登録部6に
既に登録されている単語、複合名詞、NのN(「名詞+
の+名詞」)等の文の構成要素と比較して、両者が完全
に一致するか、部分的に一致するか等を判定して出現頻
度を計数するために利用される。
【0029】キーワード候補登録部6には、キーワード
候補として、“貿易”等の単一の単語、“貿易不均衡”
や“貿易不均衡是正懇談会”等の複合名詞、“貿易の不
均衡”等のNのNパターン、“移植する”等が登録され
る。なお、これら単語等は、出現頻度情報が付加されて
登録される。
【0030】キーワード抽出部7は、キーワード候補登
録部6に登録された単語等の中から、出現頻度、文書中
での出現位置等を考慮してキーワードを決定し、キーワ
ード登録部8に登録する。
【0031】次に、本実施例における出現頻度の計数動
作を図2、図3のフローチャートに従って、図4を参照
しながら説明する。
【0032】処理例として、図4の最も上段に示す例を
取りあげる。まず、ステップS21で「貿易の不均衡」
に着目する。これは、「NのN」パターンなので、ステ
ップS22で、構成要素である「貿易」と「不均衡」に
着目し、これらをステップS23でキーワード候補登録
部6に登録する。登録処理については、図3のフローチ
ャートに詳細に示されており、後述する。
【0033】ステップS24,S25は、構成要素が3
つ以上の場合に部分要素を登録する処理である。例え
ば、A、B、C、D、をそれぞれ構成要素とする「AB
CD」という複合名詞については、「AB」、「B
C」、「CD」、「ABC」、「BCD」をここで登録
する。今取り上げている例では、構成要素が2つなの
で、ここでの登録処理はなされない。
【0034】ステップS26で「貿易の不均衡」とう全
体の表現に着目し、ステップS27でキーワード候補登
録部6に登録する。登録の際、「NのN」パターンは、
内部表現では「NN」として登録する。すなわち、ステ
ップS27では、「貿易不均衡」を内部表現として登録
する。これは、キーワード抽出部7において、例えば7
回以上の出現頻度をキーワードとして抽出するようにし
た場合に、「貿易不均衡」の出現頻度が5回、「貿易の
不均衡」の出現頻度が6回であったようなとき、「Nの
N」パターンのまま登録すると、「貿易不均衡」と「貿
易の不均衡」とは実質的に同一であるのに両者ともにキ
ーワードとして抽出されなくなってしまい、適切なキー
ワードの抽出が行えなくなるからである。
【0035】なお、上記の「ABCD」という複合名詞
の場合は、このように全体に着目したときに、ステップ
S27で、全体の「ABCD」が登録される。
【0036】次に、図4の最上段にあるように、文章中
に「貿易不均衡」という語が現れている場合には、ステ
ップS21でこの語に着目し、ステップS22で構成要
素である「貿易」と「不均衡」に着目し、ステップS2
3でキーワード候補登録部6に登録する。この例では、
構成要素が2つなので、ステップS24,S25の処理
を行なわず、ステップS26で全体の表現に着目して、
ステップS27で「貿易不均衡」を登録する。
【0037】次に、図2のステップS23,S25,S
27における登録処理の詳細を図3のフローチャートに
従って説明する。
【0038】ここでは、図4の2段目の出現パターンの
例で説明する。図4の2段目の出現パターンにおいて、
最初に出現した「貿易不均衡」について、図2のステッ
プS23にて「貿易」と「不均衡」を登録する場合は、
キーワード候補登録部6には何も登録されていない状態
なので、図3のフローチャートでは、ステップS31,
S32,S35を経由してステップS37に進むが、こ
の場合には、完全一致フラグは立っていないので、ステ
ップS38に進み、「貿易」と「不均衡」をそれぞれ頻
度カウンタ“1”としてキーワード候補登録部6に登録
する。その結果、「貿易」と「不均衡」の頻度は、共に
{完全(1)+部分(0)}となる。すなわち、最初に
登録するときの頻度は、「完全一致」と仮定している。
【0039】最初に出現した「貿易不均衡」について、
全体の表現に着目して図2のステップS27にて「貿易
不均衡」を登録する場合は、キーワード候補登録部6に
は「貿易不均衡」は登録されていないので、図3のフロ
ーチャートでは、ステップS31,S32,S35を経
由してステップS37に進むが、この場合には、完全一
致フラグは立っていないので、ステップS38に進み、
「貿易不均衡」を頻度カウンタ“1”としてキーワード
候補登録部6に登録する。その結果、「貿易不均衡」の
頻度も{完全(1)+部分(0)}となる。
【0040】そして、次に出現した「貿易の不均衡」に
ついて登録するとき、ステップS31で、既に登録して
あるキーワード候補「貿易」に着目すると、「貿易」が
部分一致するので、ステップS36にて「貿易」の頻度
カウンタに部分一致の加点(1点)をする。その結果、
「貿易」の頻度は、現時点では{完全(1)+部分
(1)}となる。同様に、次に登録してあるキーワード
候補「不均衡」に着目すると、「不均衡」が部分一致す
るので、ステップS36にて「不均衡」の頻度カウンタ
に部分一致の加点(1点)をする。その結果、「不均
衡」の頻度も、現時点では{完全(1)+部分(1)}
となる。
【0041】そして、ステップS31で、既に登録して
あるキーワード候補「貿易不均衡」に着目した場合に
は、ステップS32で、「貿易の不均衡」と「貿易不均
衡」とを比較するが、「の」を取り除いた内部表現で比
較するので、どちらも「貿易不均衡」であり、完全一致
する。完全一致した場合には、ステップS33で頻度カ
ウンタに完全一致の加点(1点)をし、ステップS34
で、既にキーワード候補として登録されていることを表
す完全一致フラグを立てる。この場合、「貿易不均衡」
の頻度は、現時点では{完全(2)+部分(0)}とな
る。
【0042】そして、3番目に出現した「貿易」につい
て登録する場合、既に登録された「貿易」に着目したと
きは、完全一致するので、ステップS36にて「貿易」
の頻度カウンタに部分一致の加点(1点)がなされ、
「貿易」の頻度は{完全(1)+部分(2)}となる。
また、既に登録された「不均衡」に着目したときは、全
く一致しないので、「貿易」、「不均衡」、「貿易不均
衡」のいずれの頻度カウンタも加点されず、現状が維持
される。次に、既に登録された「貿易不均衡」に着目し
たときは、部分一致するので、ステップS36にて「貿
易不均衡」の頻度カウンタに部分一致の加点がなされ、
「貿易不均衡」の頻度は、{完全(2)+部分(1)}
となる。
【0043】このように、本実施例では、「NのN」パ
ターンや長い複合名詞をもキーワードの候補としてキー
ワード抽出処理を行っている。すなわちキーワード候補
とする対象を1つの単語に限定せずに設定してキーワー
ドを適切に抽出している。また、上位概念・下位概念の
関係を記述した辞書を用いることなく、通常の単語辞書
だけを用いることにより、簡単な処理で迅速にキーワー
ドを抽出している。
【0044】
【他の実施例】上述した実施例では、「NのN」パター
ンを対象としていたが、本発明は、これに限定されるこ
となく、最初のNがサ変名詞であれば「Nする(した)
N」、形容動詞の語幹の場合に「NなN」などのパター
ンにも適用することができる。
【0045】また、前記実施例では、構成要素の比較は
単純な文字列比較を用いていたが、この比較部分で意味
情報を考慮して構成要素の一致を判定してもよい。この
場合、意味情報を考慮することによって、処理の効率は
下がるものの、出現頻度、すなわちキーワード抽出の精
度は向上する。
【0046】また、構成要素が部分一致していた場合、
例えば、「貿易不均衡」と「貿易」が一致するか、「不
均衡」が一致するかの違いがある。前記実施例では、ど
ちらも部分一致として同一の出現頻度の度数を付与して
いたが、どちらで部分一致するかで、付与する出現頻度
の度数を変えてもよい。例えば、この例では、右にある
単語「不均衡」の方が重要なので、右にある単語が部分
一致した場合の出現頻度の度数の方を高くする。なお、
構成要素が三つ以上の場合には、さらに、中央の単語が
あるので、出現頻度の度数の変更態様としては、何通り
かのパターンが考えられる。
【0047】さらに、部分一致する場合にも、部分一致
に係る各名詞、各名詞の組合わせ、複合名詞全体が既に
登録されている複合名詞の一部として含まれているの
か、或いは既に登録されている複合名詞部が部分一致に
係る名詞の組合わせ、複合名詞全体の一部として含まれ
ているのかによって出現頻度の度数を変更することも可
能である。
【0048】また、三つ以上の構成要素があった場合、
前記実施例では、連続するすべての部分要素の組み合わ
せを考えたが、連続していない部分要素を考えてもよ
い。例えば、前記実施例では、「ABC」で「AB」
「BC」についてキーワード候補として登録を行なう
が、「AC」についてもキーワード候補として登録する
ようにする。
【0049】また、文切出部1を設けることなく、要素
切出部2が直接、入力文書から文の構成要素を切出すよ
うにしてもよい。さらに、汎用要素除外部3は、要素登
録部4の後段に設けてよい。また、汎用要素除外機能を
キーワード抽出部7に持たせてもよい。
【0050】
【発明の効果】以上詳述したように、本発明によれば、
入力された文書から単語、複合名詞、および所定の語を
介して連接する複数の名詞を含む文の構成要素を切り出
し、切り出された文の構成要素を出現頻度を計数しなが
らキーワード候補として順次登録し、登録されたキーワ
ード候補の中から少なくとも出現頻度を考慮してキーワ
ードを抽出することにより、キーワード候補とする対象
を1つの単語に限定せずに適切に設定し、かつ簡単な処
理で迅速にキーワードを抽出することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例によるキーワード抽出装置の
概略構成を示すブロック図である。
【図2】キーワード候補の出現頻度の計数動作を示すフ
ローチャートである。
【図3】図2における登録処理を示すフローチャートで
ある。
【図4】図2,3のフローチャートの動作を具体例で説
明するための説明図である。
【符号の説明】
1…文切出部 2…要素切出部 3…汎用要素除外部 4…要素登録部 5…比較部 6…キーワード候補登録部 7…キーワード抽出部 8…キーワード登録部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書から単語、複合名詞、お
    よび所定の語を介して連接する複数の名詞を含む文の構
    成要素を切り出す要素切出手段と、 該要素切出手段により切り出された文の構成要素を出現
    頻度を計数しながらキーワード候補として順次登録する
    登録手段と、 該登録手段にて登録されたキーワード候補の中から少な
    くとも出現頻度を考慮してキーワードを抽出する抽出手
    段と、 を備えたことを特徴とするキーワード抽出装置。
  2. 【請求項2】 前記登録手段は、複合名詞について登録
    する場合は、複合名詞を構成する各名詞、各名詞の組合
    わせ、複合名詞全体について個別に出現頻度を計数しな
    がら登録することを特徴とする請求項1記載のキーワー
    ド抽出装置。
  3. 【請求項3】 前記登録手段は、複合名詞を構成する各
    名詞、各名詞の組合わせ、複合名詞全体について個別に
    出現頻度を計数する際、既に登録されている構成要素と
    完全一致する場合のみならず部分一致する場合も出現頻
    度を計数することを特徴とする請求項2記載のキーワー
    ド抽出装置。
  4. 【請求項4】 前記登録手段は、複合名詞を構成する各
    名詞、各名詞の組合わせ、複合名詞全体について個別に
    出現頻度を計数する際、既に登録されている構成要素と
    完全一致する場合のみならず部分一致する場合も出現頻
    度を計数するに当たり、完全一致の場合と部分一致の場
    合とで出現頻度の度数を同一にすることを特徴とする請
    求項3記載のキーワード抽出装置。
  5. 【請求項5】 前記登録手段は、複合名詞を構成する各
    名詞、各名詞の組合わせ、複合名詞全体について個別に
    出現頻度を計数する際、既に登録されている構成要素と
    完全一致する場合のみならず部分一致する場合も出現頻
    度を計数するに当たり、完全一致の場合と部分一致の場
    合とで出現頻度の度数を変更することを特徴とする請求
    項3記載のキーワード抽出装置。
  6. 【請求項6】 前記登録手段は、複合名詞を構成する各
    名詞、各名詞の組合わせ、複合名詞全体について個別に
    出現頻度を計数する際、部分一致する場合は、既に登録
    されている複合名詞のどの位置で部分一致するかによっ
    て出現頻度の度数を変更することを特徴とする請求項3
    記載のキーワード抽出装置。
  7. 【請求項7】 前記登録手段は、複合名詞を構成する各
    名詞、各名詞の組合わせ、複合名詞全体について個別に
    出現頻度を計数する際、部分一致する場合は、その部分
    一致に係る各名詞、各名詞の組合わせ、複合名詞全体が
    既に登録されている複合名詞の一部として含まれている
    のか、或いは既に登録されている複合名詞部が部分一致
    に係る名詞の組合わせ、複合名詞全体の一部として含ま
    れているのかによって出現頻度の度数を変更することを
    特徴とする請求項3記載のキーワード抽出装置。
  8. 【請求項8】 前記登録手段は、所定の語を介して連接
    する複数の名詞について登録する場合、当該所定の語を
    除いた複合名詞の形式で出現頻度を計数して登録するこ
    とを特徴とする請求項1記載のキーワード抽出装置。
JP7046565A 1995-02-10 1995-02-10 キーワード抽出装置 Pending JPH08221448A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7046565A JPH08221448A (ja) 1995-02-10 1995-02-10 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7046565A JPH08221448A (ja) 1995-02-10 1995-02-10 キーワード抽出装置

Publications (1)

Publication Number Publication Date
JPH08221448A true JPH08221448A (ja) 1996-08-30

Family

ID=12750851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7046565A Pending JPH08221448A (ja) 1995-02-10 1995-02-10 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JPH08221448A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2009069937A (ja) * 2007-09-11 2009-04-02 Tokyo Metropolitan Univ タグ付与支援システム及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2009069937A (ja) * 2007-09-11 2009-04-02 Tokyo Metropolitan Univ タグ付与支援システム及びプログラム

Similar Documents

Publication Publication Date Title
Lita et al. Truecasing
Kummerfeld et al. Error-driven analysis of challenges in coreference resolution
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
Piskorski et al. The first cross-lingual challenge on recognition, normalization and matching of named entities in Slavic languages
Chang et al. A comparison of named-entity disambiguation and word sense disambiguation
US20120078950A1 (en) Techniques for Extracting Unstructured Data
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
JP2812509B2 (ja) 専門用語抽出システム
Post et al. An exploration of placeholding in neural machine translation
Klenner et al. An incremental entity-mention model for coreference resolution with restrictive antecedent accessibility
Šojat et al. CroDeriV: a new resource for processing Croatian morphology
Ghosh et al. Stopword removal: Why bother? a case study on verbose queries
Kariyawasam et al. A rule based stemmer for Sinhala language
Sun et al. Syntactic parsing of web queries
JP2883153B2 (ja) キーワード抽出装置
JPH08221448A (ja) キーワード抽出装置
JP2004070636A (ja) 概念検索装置
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
Kongyoung et al. TLex+: a hybrid method using conditional random fields and dictionaries for Thai word segmentation
Lopresti Performance evaluation for text processing of noisy inputs
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP2828692B2 (ja) 情報検索装置
JPH03132872A (ja) 索引情報生成装置