JPH03135669A - キーワード自動抽出システム - Google Patents
キーワード自動抽出システムInfo
- Publication number
- JPH03135669A JPH03135669A JP2149781A JP14978190A JPH03135669A JP H03135669 A JPH03135669 A JP H03135669A JP 2149781 A JP2149781 A JP 2149781A JP 14978190 A JP14978190 A JP 14978190A JP H03135669 A JPH03135669 A JP H03135669A
- Authority
- JP
- Japan
- Prior art keywords
- words
- keywords
- important
- keyword
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 abstract description 20
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 9
- 238000000926 separation method Methods 0.000 description 9
- 239000002245 particle Substances 0.000 description 7
- 238000005520 cutting process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000010626 work up procedure Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
この発明は、キーワード自動抽出システムに関するもの
で、より具体的には文書ファイリング時等に登録する文
書に対して後の検索を効率的に行うために各文書毎に設
定するキーワードを自動的に文書内から抽出するシステ
ムの改良に関する。
で、より具体的には文書ファイリング時等に登録する文
書に対して後の検索を効率的に行うために各文書毎に設
定するキーワードを自動的に文書内から抽出するシステ
ムの改良に関する。
(従来の技術)
近年の情報ネットワークの発達により、各種情報のデー
タベース化が進み、その種類も社内データベースや商用
データベース等多種多用となっている。そして、この各
種文献等のデータベース化の際に、文書自体(文書テキ
スト)の入力に加えて後の検索処理を迅速かつ効率的に
行うために、文書登録時に検索キー情報として「キーワ
ード」を加えることが一般に行われている。
タベース化が進み、その種類も社内データベースや商用
データベース等多種多用となっている。そして、この各
種文献等のデータベース化の際に、文書自体(文書テキ
スト)の入力に加えて後の検索処理を迅速かつ効率的に
行うために、文書登録時に検索キー情報として「キーワ
ード」を加えることが一般に行われている。
そして、データベース化すべき文書テキストの増大に伴
ない、上記キーワードの抽出作業を迅速に行う必要が生
じた。そこで、例えば特開昭63−49928号公報や
、既に市販されているrBride/Happines
s J <@平和情報センター製商品名)のように、コ
ンピュータを用いて文書テキストからキーワードを自動
的に抽出するシステムが開発されている。
ない、上記キーワードの抽出作業を迅速に行う必要が生
じた。そこで、例えば特開昭63−49928号公報や
、既に市販されているrBride/Happines
s J <@平和情報センター製商品名)のように、コ
ンピュータを用いて文書テキストからキーワードを自動
的に抽出するシステムが開発されている。
これらのシステムは、第17図に示すように、文書テキ
スト1に対し、分かち書き辞書に基づいて分かち書き処
理をして上記文書テキスト1を単語単位に分解し、分か
ち書き文を作成する。
スト1に対し、分かち書き辞書に基づいて分かち書き処
理をして上記文書テキスト1を単語単位に分解し、分か
ち書き文を作成する。
次いで、その分かち書き文を構成する各単語のうち予め
登録しておいた不要語辞書と一致するものは削除する(
不要語除去処理)。
登録しておいた不要語辞書と一致するものは削除する(
不要語除去処理)。
そして、残った単語がキーワードとなる。
なお、上記不要語辞書は、接続詞、助詞、助動詞はもち
ろん、「中心」、「開発」並びに「提唱」等のようにほ
とんどの文書テキストに使用され、キーワードとして適
さない語句が登録されている。
ろん、「中心」、「開発」並びに「提唱」等のようにほ
とんどの文書テキストに使用され、キーワードとして適
さない語句が登録されている。
(発明が解決しようとする課題)
しかしながら、上記したキーワードの自動抽出システム
では、以下に示す種々の問題を有している。
では、以下に示す種々の問題を有している。
文書テキストに記載された内容を考慮することなく、単
純に言葉を切り出すだけであるので、その文書テキスト
にとって重要でない単語もキーワードとして抽出されて
しまう。
純に言葉を切り出すだけであるので、その文書テキスト
にとって重要でない単語もキーワードとして抽出されて
しまう。
その結果、例えば検索者が「データベースの方式」につ
いて知りたい場合に、「データベース」をキーワードと
して、検索すると、たまたま文書テキスト中に「データ
ベース」と言う語句が記載されている文献(データベー
スの内容については全く記載されていない)も検索され
てしまい、検索効果が悪くなる。
いて知りたい場合に、「データベース」をキーワードと
して、検索すると、たまたま文書テキスト中に「データ
ベース」と言う語句が記載されている文献(データベー
スの内容については全く記載されていない)も検索され
てしまい、検索効果が悪くなる。
また、上述したごとくキーワードに適さない語句は不要
語として不要語辞書に格納し、実際にデータベース内に
格納するキーワード数を減らしているが、技術詳報デー
タベースのように対象分野を絞ったものでは、不要語の
登録語数が非常に多くなり、その不要語を登録するため
に多大なメモリ(容量)を必要とするとともに不要語除
去処理の処理時間が長くなり、しがも、その辞書のメン
テナンス作業も大変となる。
語として不要語辞書に格納し、実際にデータベース内に
格納するキーワード数を減らしているが、技術詳報デー
タベースのように対象分野を絞ったものでは、不要語の
登録語数が非常に多くなり、その不要語を登録するため
に多大なメモリ(容量)を必要とするとともに不要語除
去処理の処理時間が長くなり、しがも、その辞書のメン
テナンス作業も大変となる。
さらに、文書テキストの内容により不要語になったりキ
ーワードになったりする単語があり、一義的に不要語か
どうかをきめられず、仮に一義的に決定した場合には、
検索結果が不正確となるおそれがある。
ーワードになったりする単語があり、一義的に不要語か
どうかをきめられず、仮に一義的に決定した場合には、
検索結果が不正確となるおそれがある。
一方、従来のように人間が文書テキストを読み、その内
容に適したキーワードを抽出するようにすれば、抽出さ
れるキーワード数も少なくなり、がっ、より正確なもの
を作成することができるが、読み手(作成者)の示威が
入るため、作成者によって抽出されたキーワードにバラ
ツキを生じるおそれがあるとともに、熟練した技術を必
要とし、しかも処理対象となる文献等の数が膨大なもの
となっている現在においては、実際上困難である。
容に適したキーワードを抽出するようにすれば、抽出さ
れるキーワード数も少なくなり、がっ、より正確なもの
を作成することができるが、読み手(作成者)の示威が
入るため、作成者によって抽出されたキーワードにバラ
ツキを生じるおそれがあるとともに、熟練した技術を必
要とし、しかも処理対象となる文献等の数が膨大なもの
となっている現在においては、実際上困難である。
この発明は、上記した背景に鑑みてなされたもので、そ
の目的とするところは、人間の示威をいれることなく、
しかも、文書テキストの要旨に沿うようにして重要なキ
ーワードを自動的に抽出できるキーワード自動抽出シス
テムを提供するにある。
の目的とするところは、人間の示威をいれることなく、
しかも、文書テキストの要旨に沿うようにして重要なキ
ーワードを自動的に抽出できるキーワード自動抽出シス
テムを提供するにある。
(課題を解決するための手段)
上記した目的を達成するため、本発明にかかるキーワー
ド自動抽出システムでは、文書テキスト中の語句から主
語、並びに目的語等の重要語をキーワードとして抽出し
、その抽出したキーワードの出現回数ならびに出現箇所
に応じて各キーワードに重み付けをし、その重み付けの
度合の高いものを重要キーワードとして抽出するように
した。
ド自動抽出システムでは、文書テキスト中の語句から主
語、並びに目的語等の重要語をキーワードとして抽出し
、その抽出したキーワードの出現回数ならびに出現箇所
に応じて各キーワードに重み付けをし、その重み付けの
度合の高いものを重要キーワードとして抽出するように
した。
(作 用)
一般に重要な語句が多く含まれるという主語・目的語等
をキーワードとして抽出し、更にその抽出したキーワー
ドに対して、重要なものほど文書中の出現回数が多くな
るという点に着目し出現回数等を考慮して重要度を付す
。
をキーワードとして抽出し、更にその抽出したキーワー
ドに対して、重要なものほど文書中の出現回数が多くな
るという点に着目し出現回数等を考慮して重要度を付す
。
この結果各キーワードに付された重要度の高いものほど
その文書テキストにとって大事な語句となる。
その文書テキストにとって大事な語句となる。
従って、その重要度の高いものを抽出すれば、キーワー
ドとして文書の内容に適したキーワードを目的語に抽出
することができる。
ドとして文書の内容に適したキーワードを目的語に抽出
することができる。
(実 施 例)
以下、本発明の好適な実施例について添付図面を参照に
して説明する。
して説明する。
まず本発明は、文書テキストの要旨に沿うようなキーワ
ードを抽出するに際し、実際に厳密な意味解析を行うこ
となく文章の表記上の特徴に着目して、重要キーワード
を抽出するものである。具体的には、■一般に文章の内
容を示す重要語が主語と目的語に含まれていることが多
く、■文章の内容を端的に示したのがタイトルであり、
■重要な文言程文書テキスト中に頻繁に記載されている
と言う点に着目し、基本的に上記■〜■を考慮して各単
語毎に重要度のポイント付け(重み付け)をし、重要キ
ーワードであるか否かを判断するようにしている。
ードを抽出するに際し、実際に厳密な意味解析を行うこ
となく文章の表記上の特徴に着目して、重要キーワード
を抽出するものである。具体的には、■一般に文章の内
容を示す重要語が主語と目的語に含まれていることが多
く、■文章の内容を端的に示したのがタイトルであり、
■重要な文言程文書テキスト中に頻繁に記載されている
と言う点に着目し、基本的に上記■〜■を考慮して各単
語毎に重要度のポイント付け(重み付け)をし、重要キ
ーワードであるか否かを判断するようにしている。
以下、本発明の第1実施例の大筋の手順について示す第
1図のフローチャート図を用い、各作業について順に説
明する。
1図のフローチャート図を用い、各作業について順に説
明する。
(1)図示するごとく、まず、第2図に示す文書テキス
トに対して[分かち書き処理]を行う。この分かち書き
処理は、従来のものと路間−の作業を行うもので、文書
テキストに記載された文章をコンピュータ入力し、そこ
において単語単位に分割する。そして、本例では、文書
テキストにタイトルが付いている場合には、そのタイト
ルに対しても分かち書き処理をする(第3図参照)。尚
、図中マは実際の文書テキスト中での空白部分である。
トに対して[分かち書き処理]を行う。この分かち書き
処理は、従来のものと路間−の作業を行うもので、文書
テキストに記載された文章をコンピュータ入力し、そこ
において単語単位に分割する。そして、本例では、文書
テキストにタイトルが付いている場合には、そのタイト
ルに対しても分かち書き処理をする(第3図参照)。尚
、図中マは実際の文書テキスト中での空白部分である。
(2)次に、上記分かち書き処理したものに対し[文節
切り出し]処理を行う。この文節切り出し処理は、分か
ち書きにより単語毎に分割されたものの中から、文節の
区切りとなる言葉を見付け、文節として切断し直すもの
であり、以下のルールに従って処理される。
切り出し]処理を行う。この文節切り出し処理は、分か
ち書きにより単語毎に分割されたものの中から、文節の
区切りとなる言葉を見付け、文節として切断し直すもの
であり、以下のルールに従って処理される。
■句点「。」、読点「、」並びに文書中の空白があると
切り出す(その部位で切断する)。
切り出す(その部位で切断する)。
■文書中にr*J、rOJ、rΔ」、「◇」。
「マ」、「J、「■」、「・・・」等の文書区分記号が
あればそれを抹消し、文章を整える。
あればそれを抹消し、文章を整える。
■文書中に括弧記号(r、J、r、J、[1゜等)があ
ると、その部位で切り出す。
ると、その部位で切り出す。
■文書中に「が」、「は」、「を」があると、そこで切
り出す。これはそれら3つの助詞が通常キーワード抽出
に重要な「主語節」、「目的語節」に続いて使用される
からである。
り出す。これはそれら3つの助詞が通常キーワード抽出
に重要な「主語節」、「目的語節」に続いて使用される
からである。
■文書中に「で」、「でも」、「ら」があるとそこで切
り出す。これによって文節をより詳細に切断することが
できる。
り出す。これによって文節をより詳細に切断することが
できる。
■括弧で囲まれた文節を取り除き、その前後の文節を連
結する。そして、取り除かれた文節は、別途元原文の末
尾に付加する。
結する。そして、取り除かれた文節は、別途元原文の末
尾に付加する。
すなわち、単純に上記■を実行し括弧記号で分割すると
、キーワードそのものも切断されてしまうおそれがある
からである。
、キーワードそのものも切断されてしまうおそれがある
からである。
(例)文書中にTアクセス(応答)時間Jなる語がある
と、■だけでは「アクセス」、「応答」。
と、■だけでは「アクセス」、「応答」。
「時間」の3つの語句がキーワードとして抽出されるこ
とになるが、この■の処理をすることにより望まれる適
切なキーワードである「アクセス時間」と「応答時間」
とが抽出されるようになる。
とになるが、この■の処理をすることにより望まれる適
切なキーワードである「アクセス時間」と「応答時間」
とが抽出されるようになる。
■文書中の「した」の後は無条件で切断する。
■文書中に「という」、「といった」、「や」。
「も」、「によって」並びに「より」があると、その部
位で切断する。これによって詳細に切断し、ノイズの発
生率を抑制する。そして上記■〜■の処理を行なうこと
により第4図に示すように文節(重要文節含む)単位に
切り直される。
位で切断する。これによって詳細に切断し、ノイズの発
生率を抑制する。そして上記■〜■の処理を行なうこと
により第4図に示すように文節(重要文節含む)単位に
切り直される。
(3)[重要文節抽出]
上記のようにして文節を切り出したら、次にその切り出
された文節の中から以下の抽出ルールに従って重要文節
を抽出する。
された文節の中から以下の抽出ルールに従って重要文節
を抽出する。
■主語・目的語を含む節を抽出する。すなわち、文節末
が、「が」、「は」、「を」の文節を抽出する。
が、「が」、「は」、「を」の文節を抽出する。
■文節末の言葉が「ひらがな混在」でないものを取り出
す。キーワードになりにくい動詞等を排除するためであ
る。
す。キーワードになりにくい動詞等を排除するためであ
る。
■文節末の言葉が「で」の文節を抽出する。
すなわち、この「で」と言う助詞は、例えば「東京電力
で」というように開発場所や物、方法等に続いて用いら
れることが多く、開発場所等は重要キーワードの一つと
なり得るからである。そして、上記■〜■の処理をする
ことにより第5図に示すような各種重要文節が抽出され
る。
で」というように開発場所や物、方法等に続いて用いら
れることが多く、開発場所等は重要キーワードの一つと
なり得るからである。そして、上記■〜■の処理をする
ことにより第5図に示すような各種重要文節が抽出され
る。
(4)[キーワード抽出〕
上記の処理により重要文節を抽出したなら、以下のキー
ワード抽出ルールに従ってキーワードを抽出する。
ワード抽出ルールに従ってキーワードを抽出する。
■すなわち、まず、上記抽出された重要文節をキーワー
ドとして取り出す。このキーワードの抽出!は上記重要
文節に対し再び分かち書き処理をし、単語単位に分割す
る。そして、各単語中、キーワードになりにくい、「動
詞」や「助詞」、「助動詞」、さらには「すばらしいj
等の「形容詞」等取り除く。換言すれば名詞を抽出する
のである。
ドとして取り出す。このキーワードの抽出!は上記重要
文節に対し再び分かち書き処理をし、単語単位に分割す
る。そして、各単語中、キーワードになりにくい、「動
詞」や「助詞」、「助動詞」、さらには「すばらしいj
等の「形容詞」等取り除く。換言すれば名詞を抽出する
のである。
ただし、このとき、次処理で各キーワードに対し重要度
(重み付け)を算出する必要から抽出された名詞につづ
く「助詞」等が何かをもあわせて記憶するようにする。
(重み付け)を算出する必要から抽出された名詞につづ
く「助詞」等が何かをもあわせて記憶するようにする。
■また、強調キーワードとして「「」と「」」とで囲ま
れた文節を一語のキーワードとして取り出す。
れた文節を一語のキーワードとして取り出す。
■さらに、原文タイトル(一般にタイトルは文書テキス
トの内容を端的に現している)から同様にしてキーワー
ド(以下「タイトルキーワード」と称す)を取り出す。
トの内容を端的に現している)から同様にしてキーワー
ド(以下「タイトルキーワード」と称す)を取り出す。
これは、タイトルキーワードでありながら、本文中に出
現されなかったり、重要文節からもれるおそれもあるた
め、本文の記載に関係なく無条件に重要キーワードとし
て抽出するようにしたのである。
現されなかったり、重要文節からもれるおそれもあるた
め、本文の記載に関係なく無条件に重要キーワードとし
て抽出するようにしたのである。
なお、抽出するキーワードは最長語キーワードとする。
すなわち、例えば「東京電力」と言うキーワードが抽出
された場合、それを−語としてとらえ、「東京」と「電
力」のように2つのキーワードとしない。このようにし
て抽出されたキーワードを第6図に示す。
された場合、それを−語としてとらえ、「東京」と「電
力」のように2つのキーワードとしない。このようにし
て抽出されたキーワードを第6図に示す。
(5)[キーワードの重み付け]
上記(1)〜(4)の処理によりキーワードが抽出され
るが、このままではワード数が多いとともに、あまり重
要でない言葉もキーワードとして抽出されてしまう。そ
こで、キーワードの発生文節の位置関係、発生頻度、言
葉の属性等から、各キーワードの持つ重みを計算しく重
み付けをし)、重要度の軽重を付ける。これより、重み
付けした値がある一定の数値以上にあるものを実際のキ
ーワードとしてデータベース等に登録したり、或いは、
その重み付けの数値の多いものから順に所定数だけを実
際のキーワードとしてデータベース等に登録したりする
ことにより、ワード数が少なく、文書テキストの内容に
沿ったキーワードを作成者の示威を入れることなく抽出
することができる。
るが、このままではワード数が多いとともに、あまり重
要でない言葉もキーワードとして抽出されてしまう。そ
こで、キーワードの発生文節の位置関係、発生頻度、言
葉の属性等から、各キーワードの持つ重みを計算しく重
み付けをし)、重要度の軽重を付ける。これより、重み
付けした値がある一定の数値以上にあるものを実際のキ
ーワードとしてデータベース等に登録したり、或いは、
その重み付けの数値の多いものから順に所定数だけを実
際のキーワードとしてデータベース等に登録したりする
ことにより、ワード数が少なく、文書テキストの内容に
沿ったキーワードを作成者の示威を入れることなく抽出
することができる。
以下に上記各キーワードの持つ重みの計算(重み付け)
のルールについて詳述する。なお、具体的計算方法につ
いては第7図に示す。
のルールについて詳述する。なお、具体的計算方法につ
いては第7図に示す。
く基本点の付与〉
まず、抽出された各キーワードに対してそれぞれ以下の
基本点を付与する。
基本点を付与する。
すなわち、キーワードの次に来る語で基本点が決定され
、具体的にはキーワードの次が主語節を現す「が」、「
は」の場合にはそのキーワードの基本点は0.8とする
。
、具体的にはキーワードの次が主語節を現す「が」、「
は」の場合にはそのキーワードの基本点は0.8とする
。
また、目的語節を現す「を」、「と」の場合には0.7
を、さらに「で」、「や」、「も」の場合にも0.7を
基本点として付与する。
を、さらに「で」、「や」、「も」の場合にも0.7を
基本点として付与する。
さらにまた、タイトルキーワードに対しては本文中に記
載されるものには0.9を、また、本文中には記載され
ていないものには0.6を基本点とする。
載されるものには0.9を、また、本文中には記載され
ていないものには0.6を基本点とする。
そして、上記に該当しないキーワードの基本点はすべて
0.5とする。
0.5とする。
く加 点〉
重要なキーワードはど多数回に亘って文書テキスト中に
出現する。その点に着目し、複数回出現するものに対し
て以下の計算式に従って加点するようになっている。
出現する。その点に着目し、複数回出現するものに対し
て以下の計算式に従って加点するようになっている。
V−(VO+V1 )−(VOXVI ’) ・ (イ
)但し、VOは1回目に出現されたキーワードの基本点
、Vlは2回目に出現されたキーワードの基本点であり
、求められるVがそのキーワードの重要度である。そし
て、同一のキーワードが3回以上出現される場合には、
上記求められたVを式(イ)のvOとし、新たに出現さ
れたキーワードの基本点をVtとして算出し、以下それ
を所定数だけ繰り返し行えば良い。
)但し、VOは1回目に出現されたキーワードの基本点
、Vlは2回目に出現されたキーワードの基本点であり
、求められるVがそのキーワードの重要度である。そし
て、同一のキーワードが3回以上出現される場合には、
上記求められたVを式(イ)のvOとし、新たに出現さ
れたキーワードの基本点をVtとして算出し、以下それ
を所定数だけ繰り返し行えば良い。
く減 点〉
■接尾文字付きのキーワードは減点する。すなわち、基
本点に一定の数値((1以下の正の数)以下、「減点係
数」と称す)を掛算する。この接尾文字としては例えば
「名、量、風、策1図1表。
本点に一定の数値((1以下の正の数)以下、「減点係
数」と称す)を掛算する。この接尾文字としては例えば
「名、量、風、策1図1表。
化、系、圏、材1者1種、数、製、説、側、属。
値、的0度、費1部、法、用1派、比、率、流。
列1例、論1画1群、型、欄9点、性1日1時。
類」等がある。
しかし、上記のような接尾文字が付いているキーワード
でも例えば「女性」、「温度」等のように重要キーワー
ドとなり得るものもあり、−様に同一減点対象とするの
はまずい。
でも例えば「女性」、「温度」等のように重要キーワー
ドとなり得るものもあり、−様に同一減点対象とするの
はまずい。
そこで、接尾文字を含めて2文字の場合は減点を少なく
し、重要度が高くなるようにした。
し、重要度が高くなるようにした。
具体的ニハ、文字数r2J ;V’ −vo Xo、
7そ の 他 、V’ −VOXo、5とし
た(ただし、voは各単語のもつ基本点である)。
7そ の 他 、V’ −VOXo、5とし
た(ただし、voは各単語のもつ基本点である)。
■ひらがな混在のキーワードは減点する。そして、この
ときの減点係数はrO,5Jとする。
ときの減点係数はrO,5Jとする。
■−一文字漢字減点する。
すなわち、例えば「何 が」のようにキーワードとして
は適さない語句であるにもかかわらず「が」で加点(基
本点が高い)される言葉がある。
は適さない語句であるにもかかわらず「が」で加点(基
本点が高い)される言葉がある。
そしてこの「何」や1次」等の言葉は、出現頻度が高く
、しかも、接続する助詞が「が」 「を」等の場合が多
い。この様に重要キーワードとなり得ない(役に立たな
い)語句の重み付けを低く抑えるために一文字漢字を減
点対象とし、そのときの減点係数をrO,7Jとした。
、しかも、接続する助詞が「が」 「を」等の場合が多
い。この様に重要キーワードとなり得ない(役に立たな
い)語句の重み付けを低く抑えるために一文字漢字を減
点対象とし、そのときの減点係数をrO,7Jとした。
なお、上記■〜■の減点処理によって求められた値V′
を上記した加点の各式中のVoまたはVlに代入して加
点処理作業をする。
を上記した加点の各式中のVoまたはVlに代入して加
点処理作業をする。
そして、このようにして計算された各種重要キーワード
の重要度は第8図に示す通りとなった。
の重要度は第8図に示す通りとなった。
(6)[キーワードの絞り込み]
上記した重み付は処理により求め与えられる各キーワー
ドの重要度を比較し、所定値以上の重要度を持つキーワ
ードを重要キーワードとして選択する。この所定値とし
ては、本例では0.5としている。
ドの重要度を比較し、所定値以上の重要度を持つキーワ
ードを重要キーワードとして選択する。この所定値とし
ては、本例では0.5としている。
*実験結果
次に、同一の文書テキストに対し上記した本実施例の抽
出システムに従って得られる重要キーワードと、専門家
が抽出したキーワードとを比較する。 まず、専門家に
10個のキーワードを抽出してもらい、本システムで得
られる重要キーワード中に上記10個のキーワードが含
まれるか否か(適合率)と、本システムで得られたキー
ワード中に専門家によるキーワード以外の語句がどれく
らいあるか(ノイズ率)の両者を比較した。
出システムに従って得られる重要キーワードと、専門家
が抽出したキーワードとを比較する。 まず、専門家に
10個のキーワードを抽出してもらい、本システムで得
られる重要キーワード中に上記10個のキーワードが含
まれるか否か(適合率)と、本システムで得られたキー
ワード中に専門家によるキーワード以外の語句がどれく
らいあるか(ノイズ率)の両者を比較した。
まず、上記第2図に示す文書テキストに対し上記実験を
行ったところ、第9図に示すような結果が得られた。す
なわち、同図左上欄に示すように専門家は、「おっかけ
チル」、「電話」、「日本電気」・・・・・・等10個
のキーワードを抽出した。
行ったところ、第9図に示すような結果が得られた。す
なわち、同図左上欄に示すように専門家は、「おっかけ
チル」、「電話」、「日本電気」・・・・・・等10個
のキーワードを抽出した。
一方、本システムによって得られるキーワードは、上記
10個と同図下側に示された29個(ノイズ)で有り、
適合率は100%となり、ノイズ率は29/39で74
%となった。
10個と同図下側に示された29個(ノイズ)で有り、
適合率は100%となり、ノイズ率は29/39で74
%となった。
なお、同一文書テキストに対して従来の自動システムを
用いてキーワード抽出を行なったところワード数は49
個となり、本発明のそれ(39個)の方がワード数が2
0%程削減できた。
用いてキーワード抽出を行なったところワード数は49
個となり、本発明のそれ(39個)の方がワード数が2
0%程削減できた。
次に第2実施例について説明する。この実施例では、基
本的なフローは、上記した第1実施例と同様に第1図の
フローチャート図にしたがって処理されており同じであ
るが、上記した第1実施例よりさらにノイズの発生を抑
制しつつ適合率を減少させないようにしたもので、第1
実施例における各種ルールに対して新たなルールの追加
並びに係数の調整を図ったもので、具体的には以下の通
りである。
本的なフローは、上記した第1実施例と同様に第1図の
フローチャート図にしたがって処理されており同じであ
るが、上記した第1実施例よりさらにノイズの発生を抑
制しつつ適合率を減少させないようにしたもので、第1
実施例における各種ルールに対して新たなルールの追加
並びに係数の調整を図ったもので、具体的には以下の通
りである。
(1)’[分かち書き処理]
この処理自体は上記した第1実施例と同様である。
(2)’[文節切り出し]
この処理は、上記した第1実施例における■〜■の処理
は同様に行うが、■の処理については、上記6つの語句
に加え、「から」並びに「だが」があってもその部位で
切断するようにし、より効果的にノイズの発生率を抑制
するようにしている。
は同様に行うが、■の処理については、上記6つの語句
に加え、「から」並びに「だが」があってもその部位で
切断するようにし、より効果的にノイズの発生率を抑制
するようにしている。
さらに本例では、これら■〜■に加えて、以下の処理も
行う。
行う。
■文書中に「等」や「など」があれば、それを抹消する
。それらの語句は重要語たる主語や目的語の後ろに付帯
することが多く、そのままキーワードの重要度を評価し
てしまうと、出現回数が多いことから、「等」が高得点
となり重要キーワードとして抽出される可能性が高いた
め、予め削除しその現象の発生を先に抑制するのである
。
。それらの語句は重要語たる主語や目的語の後ろに付帯
することが多く、そのままキーワードの重要度を評価し
てしまうと、出現回数が多いことから、「等」が高得点
となり重要キーワードとして抽出される可能性が高いた
め、予め削除しその現象の発生を先に抑制するのである
。
[相]鉤括弧(rJ、rJ等)で括られた言葉を強調キ
ーワードとして取り出す。これは、通常文書作成者が強
調したい箇所(言葉)を鉤括弧で括ることが多いからで
あり、取り出された言葉を別に格納すると共に、後工程
の重要度の重み付けで「0゜9」を付与し、重要キーワ
ードとして残りやすくしている。具体的には以下の手段
による。
ーワードとして取り出す。これは、通常文書作成者が強
調したい箇所(言葉)を鉤括弧で括ることが多いからで
あり、取り出された言葉を別に格納すると共に、後工程
の重要度の重み付けで「0゜9」を付与し、重要キーワ
ードとして残りやすくしている。具体的には以下の手段
による。
a、「 」並びに「 」で括られた文節リストを取り出
す。
す。
b、この取り出された文節リストの内、文章。
文節となっているものは排除する。すなわち、話し言葉
なども鉤括弧で括られていることから、上記a、の処理
だけでは、重要キーワードとしてふされしくない語句も
高得点となってしまうため、これを防ぐためであり、具
体的には、取り出された文節リストを構成する語句の中
に「。」、「、」「が」、「は」、「を」、「と」、「
の」。
なども鉤括弧で括られていることから、上記a、の処理
だけでは、重要キーワードとしてふされしくない語句も
高得点となってしまうため、これを防ぐためであり、具
体的には、取り出された文節リストを構成する語句の中
に「。」、「、」「が」、「は」、「を」、「と」、「
の」。
「で」、「に」、「や」、「も」並びに「とは」などの
助詞を含む場合には強調キーワードとして残さない。
助詞を含む場合には強調キーワードとして残さない。
C9このようにして残った語句を連結し、文字列とする
。すなわち、分かち書きでは「 人工知能 」のように
単語毎に分けられているため、これを連結して「人工知
能」のように1つの文字列する。
。すなわち、分かち書きでは「 人工知能 」のように
単語毎に分けられているため、これを連結して「人工知
能」のように1つの文字列する。
d、括弧()で囲まれた文字列を含む場合は、その括弧
を含めてその文字列を削除する。
を含めてその文字列を削除する。
(例)「人工知能(AI)Jとあった場合には「人工知
能」を強調キーワードとする。
能」を強調キーワードとする。
なお、上記したa、dにおける括弧の認識は、1重のみ
であり、仮に多重括弧の場合には最も外側の括弧に対し
てのみ行うようにしている。
であり、仮に多重括弧の場合には最も外側の括弧に対し
てのみ行うようにしている。
0文書中に「するjや「関するjなどのr〜する」とい
う言葉があると、その部位で切断する。これは、文末で
はないす変動詞をそのす変動詞後で切断することにより
、より詳細に切断することが可能となる。
う言葉があると、その部位で切断する。これは、文末で
はないす変動詞をそのす変動詞後で切断することにより
、より詳細に切断することが可能となる。
@括弧内にある略称説明文節を削除する。すなわち、通
常ある略語(略称)の後ろに括弧書きでその略語の説明
が行われるが、重要キーワードとしては略語が残れば良
いためである。具体的には以下の手段による。
常ある略語(略称)の後ろに括弧書きでその略語の説明
が行われるが、重要キーワードとしては略語が残れば良
いためである。具体的には以下の手段による。
a、括弧内の言葉の中に「:」を含む場合には、「:」
以前までの単語を削除対象とし、「=」以降は無条件で
残す。なお、「:」を含まない場合には括弧内のすべて
が削除対象となる。
以前までの単語を削除対象とし、「=」以降は無条件で
残す。なお、「:」を含まない場合には括弧内のすべて
が削除対象となる。
b、削除対象となった単語を構成する語の中に少なくと
も一つの英小文字を含む場合には、その単語を略称説明
文と解釈し、取り除く。
も一つの英小文字を含む場合には、その単語を略称説明
文と解釈し、取り除く。
(例)
(Artl[’1clal Intelligence
: A I )−A Iのみ抽出(Artificia
l Intelllgence)→すべで削除(A I
: Artificial Intelligenc
e )4すべて抽出0文書中にある接続語を削除する。
: A I )−A Iのみ抽出(Artificia
l Intelllgence)→すべで削除(A I
: Artificial Intelligenc
e )4すべて抽出0文書中にある接続語を削除する。
この接続語は前後の文章同士をスムーズにつなげるのに
は重要で、その出現回数も多いが、重要キーワードには
なり得ないものだからである。そこで;81区切られた
文が、少なくとも2つ以上の単語からなり; 59文の先頭の単語の長さが、2文字以下で;C1次(
2番目)の語が「、」 (読点)である;という上記3
つの要件を満たすものは接続語とみなし、排除する。こ
れにより(不要)辞書を作ること無く接続語を抽出でき
る。
は重要で、その出現回数も多いが、重要キーワードには
なり得ないものだからである。そこで;81区切られた
文が、少なくとも2つ以上の単語からなり; 59文の先頭の単語の長さが、2文字以下で;C1次(
2番目)の語が「、」 (読点)である;という上記3
つの要件を満たすものは接続語とみなし、排除する。こ
れにより(不要)辞書を作ること無く接続語を抽出でき
る。
すなわち、分かち書き結果が「〜 以下水 研究 ・
・・。」のような場合は、区切れた単語の長さは「以下
」、「、」、「本」と複数あり、先頭の単語が「以下」
と2文字であり、2番目に「、」があるため「以下、」
が削除対象となる。
・・。」のような場合は、区切れた単語の長さは「以下
」、「、」、「本」と複数あり、先頭の単語が「以下」
と2文字であり、2番目に「、」があるため「以下、」
が削除対象となる。
これにより、論文中に良く使われる「結局、」。
r以下、j、「尚、」、「なお」、「今ロコなどの語句
が削除可能となる。
が削除可能となる。
なお、上記した切断箇所を判別する各語句の後ろに「、
」や「。」等がある場合には、切断の重複を避けるため
に「、」などを優先し、各語句の後ろでの切断処理は行
わないようにしている。
」や「。」等がある場合には、切断の重複を避けるため
に「、」などを優先し、各語句の後ろでの切断処理は行
わないようにしている。
(3)’[重要文節抽出]
この処理は基本的には上記第1時実施例と同様であるが
、本例では以下に示すごと(より細か(おこなっている
。
、本例では以下に示すごと(より細か(おこなっている
。
まず、不要語を削除する。
■すなわち、文節が1単語で構成されるものの中で、下
記の条件を少なくとも1つ満たすものは削除される。
記の条件を少なくとも1つ満たすものは削除される。
a、1単語の長さが1文字
す、ひらがな混在の単語
C6すべて数字からなる単語
上記処理により残った文節の中から上記第1実施例の■
〜■の処理を行うが、■、■については、以下に示すご
とく、判断対象が増えている。
〜■の処理を行うが、■、■については、以下に示すご
とく、判断対象が増えている。
文節末の言葉が「が」 「を」 「は」 「で」 「や
」「も」のいずれか条件を満たす文節を取り出す。
」「も」のいずれか条件を満たす文節を取り出す。
ただし、本例では、上記[文節切り出し]処理の際に、
重複切断を避けるために各語句の後ろに「、」や「。」
などがある場合には「は」や「が」などの後ろで切断し
ないようにしたため、文節末の言葉が、句読点や括弧な
どの場合(「。」 「、」「°」・・・)には、その前
の言葉(文節末から2つ目の単語)が上記「が」などで
ある場合にも取り出す。
重複切断を避けるために各語句の後ろに「、」や「。」
などがある場合には「は」や「が」などの後ろで切断し
ないようにしたため、文節末の言葉が、句読点や括弧な
どの場合(「。」 「、」「°」・・・)には、その前
の言葉(文節末から2つ目の単語)が上記「が」などで
ある場合にも取り出す。
(4)’[キーワード抽出]
この処理については第1実施例と同様のルールにしたが
って処理される。
って処理される。
(5)’[キーワードの重み付け]
基本的な考え方は上記第1実施例と同様であるが、本実
施例では、基本点の付与、加点、減点に際する新たなル
ールの追加並びに付与する点を異ならしている。具体的
には以下のとおりである。
施例では、基本点の付与、加点、減点に際する新たなル
ールの追加並びに付与する点を異ならしている。具体的
には以下のとおりである。
く基本点の付与〉
本例では、上記した第1実施例において基本点0、5を
付与したその他の語に付いてさらに場合分けをしている
。
付与したその他の語に付いてさらに場合分けをしている
。
すなわち、キーワードの次が「な」の場合には、キーワ
ードになりにくい形容詞の可能性があるため、基本点を
0,4にした。
ードになりにくい形容詞の可能性があるため、基本点を
0,4にした。
また、前方の単語が「この」、「その」、「これらの」
、「それらの」の場合には、その後にくるキーワードは
「研究」とか「システム」などといった大きな概念がく
ることが多いため、そのキーワードが持つ初期設定点に
0.3を掛けたものとした。
、「それらの」の場合には、その後にくるキーワードは
「研究」とか「システム」などといった大きな概念がく
ることが多いため、そのキーワードが持つ初期設定点に
0.3を掛けたものとした。
すなわち、例えば「このシステムは」というような文節
があった場合には、初期設定点は「システム は」であ
るため0.8となるが、前方に「この」があるため、結
局「システム」に与えられる基本点は、0,8XO,3
で0.24となる。
があった場合には、初期設定点は「システム は」であ
るため0.8となるが、前方に「この」があるため、結
局「システム」に与えられる基本点は、0,8XO,3
で0.24となる。
さらに、上述した鉤括弧で括られた言葉の強調キーワー
ドは0.9をとした。
ドは0.9をとした。
く加 点〉
出現回数による累積計算については、上記した第1実施
例と同様式(イ)を用いて行われ、またタイトルキーワ
ードへの考慮も同様である。
例と同様式(イ)を用いて行われ、またタイトルキーワ
ードへの考慮も同様である。
これに加えて、本実施例では、キーワードの出現回数に
基づく累積計算に加え、さらに短単位のキーワード(例
えば「東京電力」の場合は「東京」と「電力」がそれぞ
れ短単語のキーワードになる)の出現回数(頻度と称す
る)も考慮し、その短単位のキーワードの頻度に0.1
を掛けた値を頻度点V2とし、上記出現回数の式(イ)
によって得られた数値Vとv2とを再び式(イ)に代入
して計算する。なお、この頻度を数えるに際し、タイト
ル中に出現した言葉は数えないが、必ずしも重要文節に
残ったものに限られず、すべての文章から抽出される。
基づく累積計算に加え、さらに短単位のキーワード(例
えば「東京電力」の場合は「東京」と「電力」がそれぞ
れ短単語のキーワードになる)の出現回数(頻度と称す
る)も考慮し、その短単位のキーワードの頻度に0.1
を掛けた値を頻度点V2とし、上記出現回数の式(イ)
によって得られた数値Vとv2とを再び式(イ)に代入
して計算する。なお、この頻度を数えるに際し、タイト
ル中に出現した言葉は数えないが、必ずしも重要文節に
残ったものに限られず、すべての文章から抽出される。
また、この計算をするのは頻度が2以上の短単位のキー
ワードに対して行う。また、頻度点v2の最高値は1.
0とする。
ワードに対して行う。また、頻度点v2の最高値は1.
0とする。
(例)文書中に「エキスパートシステムと」 (0゜5
)、「エキスパートシステムはJ (0,8)。
)、「エキスパートシステムはJ (0,8)。
「エキスパートシステムをJ (0,7)があり、さ
らに「エキスパートjは7回、システムは5回、記され
ているとすると、まず、エキスパートシステムの出現回
数に基づく累積計算は、 (0,5+ o、8) −(0,5x O,8) −0
,9(0,9+ (C7) −(0,9x O,7)
−0,97より0,97となるが、これに「エキスパー
ト」の頻度を加えると、 (0,97+ 0.7) −(0,97x O,7
) −0,991となり、さらに「システム」の頻度を
加えると、(0,991+0.5) −(0,991X
O,5) −0,9955となり、より重要度が増す
。これにより、−度「エキスパートシステム」と表示さ
れた後はすべて「その(この)システム」のように省略
して記載されている場合でも、重要キーワードとして確
実に抽出できるようになる。
らに「エキスパートjは7回、システムは5回、記され
ているとすると、まず、エキスパートシステムの出現回
数に基づく累積計算は、 (0,5+ o、8) −(0,5x O,8) −0
,9(0,9+ (C7) −(0,9x O,7)
−0,97より0,97となるが、これに「エキスパー
ト」の頻度を加えると、 (0,97+ 0.7) −(0,97x O,7
) −0,991となり、さらに「システム」の頻度を
加えると、(0,991+0.5) −(0,991X
O,5) −0,9955となり、より重要度が増す
。これにより、−度「エキスパートシステム」と表示さ
れた後はすべて「その(この)システム」のように省略
して記載されている場合でも、重要キーワードとして確
実に抽出できるようになる。
さらにまた、本例では、たとえ重要文節に無い語句であ
っても本文中に2回以上記載されている場合には、重要
キーワードとして追加する。そして、そのときの重要度
は、その言葉の頻度に0゜1を掛けた値であり、最大を
1.0とする。
っても本文中に2回以上記載されている場合には、重要
キーワードとして追加する。そして、そのときの重要度
は、その言葉の頻度に0゜1を掛けた値であり、最大を
1.0とする。
く減 点〉
上記した第1実施例では、接尾文字についてのみ考慮し
たが、本実施例では接頭文字も考慮し減点する。そして
、具体的な接尾文字並びに接頭文字に付いてはその一例
を表1に示す。
たが、本実施例では接頭文字も考慮し減点する。そして
、具体的な接尾文字並びに接頭文字に付いてはその一例
を表1に示す。
表 1
尚、上記表にリストアツブされた語句はあくまでも例示
である。
である。
また、−文字漢字の減点係数をro、56Jとする。
さらに、本実施例では、特定語の調整を図るようにした
。
。
すなわち、重要キーワードの最後に「株式会社」もしく
は「株式会社殿」などの文字列(特定語)を含む場合、
これを取り除いたキーワードを別途新たに生成する。
は「株式会社殿」などの文字列(特定語)を含む場合、
これを取り除いたキーワードを別途新たに生成する。
そして、特定語を含む元の重要キーワードの点数は、そ
れが有していた基本得点に0.6を掛けた値となり、新
たに生成された特定語の除かれたキーワードの基本点は
元の重要キーワードの基本得点をそのまま持つようにし
ている。
れが有していた基本得点に0.6を掛けた値となり、新
たに生成された特定語の除かれたキーワードの基本点は
元の重要キーワードの基本得点をそのまま持つようにし
ている。
これにより、社名を重視できるようにしている。
そして、この第2実施例を用いた具体的な重要文節の切
り出しの結果、並びに重要キーワード抽出のための計算
例等の例を第10図〜第15図に示す。
り出しの結果、並びに重要キーワード抽出のための計算
例等の例を第10図〜第15図に示す。
(6)’[キーワードの絞り込み]
第1実施例と同様、に上記した(5)′ までの作業に
て各キーワードに付与された重要度を比較し、所定値以
上を重要キーワードとして選択するが、本実施例では、
第1実施例に比し重要なものはより高得点に、また、不
必要なものはより低得点になるように各種係数やルール
を設定したため、この所定値を第1実施例と同様に0.
5としても第1実施例よりノイズの発生を抑制できるが
、その所定値を0.6としても適合率は低下しない。す
なわち、0.6にすれば、よりノイズの発生を抑制でき
る。
て各キーワードに付与された重要度を比較し、所定値以
上を重要キーワードとして選択するが、本実施例では、
第1実施例に比し重要なものはより高得点に、また、不
必要なものはより低得点になるように各種係数やルール
を設定したため、この所定値を第1実施例と同様に0.
5としても第1実施例よりノイズの発生を抑制できるが
、その所定値を0.6としても適合率は低下しない。す
なわち、0.6にすれば、よりノイズの発生を抑制でき
る。
尚、具体的な図示は省略するが、本実施例では抽出され
るキーワード数が従来のものに比し、50%以上削減さ
れた。
るキーワード数が従来のものに比し、50%以上削減さ
れた。
*実験結果
ここで、同一の文書テキストに対し、第1.第2実施例
を適用し、その結果を第15図に示す。
を適用し、その結果を第15図に示す。
同図から明らかなように、本例では適合率が減少するこ
と無く、ノイズ率がより低下している。
と無く、ノイズ率がより低下している。
しかも、重要なものほど高得点が付き、不要なものは低
得点となっている。
得点となっている。
また、多数の文書テキストに対し同様の実験を行ない、
その結果を下表に示す。
その結果を下表に示す。
すなわち、表2に示すように第2実施例ではデータの種
類によらず、削減率が一律に、より高まった。また、重
要度の分散効果により、各キーワードの重要度が妥当な
値となり、重要キーワードとしてのノイズやモレも減少
し、質的にみても改善された。
類によらず、削減率が一律に、より高まった。また、重
要度の分散効果により、各キーワードの重要度が妥当な
値となり、重要キーワードとしてのノイズやモレも減少
し、質的にみても改善された。
これにより、重要度0.6以上のキーワードを実質的な
重要キーワードとすることが可能となり、サンプルデー
タでは、50%削減に成功した。
重要キーワードとすることが可能となり、サンプルデー
タでは、50%削減に成功した。
表2
また、第1実施例では、データの文体を問わず、重要度
が0.5のものが多かったが、同じ0.5でも、より0
.6に近いものもあれば、0.4に近いものもある。し
かし、第2実施例ではキーワードの重み付はルールを中
心にルールを改良した結果、重要度の分布が、キーワー
ド・文体に応じて分散した(0.4のものが減少した(
表3参照))。
が0.5のものが多かったが、同じ0.5でも、より0
.6に近いものもあれば、0.4に近いものもある。し
かし、第2実施例ではキーワードの重み付はルールを中
心にルールを改良した結果、重要度の分布が、キーワー
ド・文体に応じて分散した(0.4のものが減少した(
表3参照))。
表 3
(注)対象データは、
東1DB−r研究報告DBJ r会議録DBJ[調査
資料DBJの30データ 平和情報DB・・・平和情報社内輪文中、6論文の平均
値 新聞DB・・・新聞記事中、11論文の平均値なお、上
記した実施例では、主語、目的語を抽出するに際し、文
書テキストを一度分かち書きして単語単位に分割した後
に行なったが、文書テキストを文節単位に分け、直接抽
出するようにしてもよい。
資料DBJの30データ 平和情報DB・・・平和情報社内輪文中、6論文の平均
値 新聞DB・・・新聞記事中、11論文の平均値なお、上
記した実施例では、主語、目的語を抽出するに際し、文
書テキストを一度分かち書きして単語単位に分割した後
に行なったが、文書テキストを文節単位に分け、直接抽
出するようにしてもよい。
また、上記した基本点その他各係数はあくまでも一例で
あり、任意の数値を取ることができ、また、重要キーワ
ードの選択も必ずしもro、5JやrO,6Jを境とす
る必要はない。
あり、任意の数値を取ることができ、また、重要キーワ
ードの選択も必ずしもro、5JやrO,6Jを境とす
る必要はない。
(発明の効果)
以上のように本発明に係るシステムでは、キーワードを
作成するに際し、文書テキスト中の主語、目的語等を抽
出し、それに対し、出現回数等を考慮して各キーワード
に重要度を付すようにしたため、文書テキストの要旨に
沿うキーワードを抽出することができる。
作成するに際し、文書テキスト中の主語、目的語等を抽
出し、それに対し、出現回数等を考慮して各キーワード
に重要度を付すようにしたため、文書テキストの要旨に
沿うキーワードを抽出することができる。
しかも、そのキーワード抽出は上記したごとく文章の表
記上の特徴(一般に、主語、目的語に重要な語句が多く
含まれるとともに重要な語句はど顛繁に出現されること
)に着目して実際に文章を読むことなく行われるため、
人間の示威が入らずバラツキのないキーワード抽出が可
能となる。
記上の特徴(一般に、主語、目的語に重要な語句が多く
含まれるとともに重要な語句はど顛繁に出現されること
)に着目して実際に文章を読むことなく行われるため、
人間の示威が入らずバラツキのないキーワード抽出が可
能となる。
その結果、例えばコラムのように人間ではキーワード抽
出がしにくい文章に対しても簡単に行なうことができる
。
出がしにくい文章に対しても簡単に行なうことができる
。
さらにまた、従来のような不要語辞書が不要となるため
、その辞書用の容量が不要となるばがりでなく、その辞
書のメンテナンス作業も不要となり作業性が向上する。
、その辞書用の容量が不要となるばがりでなく、その辞
書のメンテナンス作業も不要となり作業性が向上する。
第1図は本発明に係るシステムの第1実施例を示すフロ
ーチャート図、第2図〜第8図は本システム処理中の具
体例を示す図、第9図は本システムと人間が行なったキ
ーワード抽出を比較するグラフ、第10図〜第15図は
第2実施例の処理の具体例を示す図、第16図は両実施
例を比較した具体例を示す図、第17図は従来例を示す
図である。 第 図 第1図 第 5 図 第 図 昂 7 図 第 図 第 11 図 矛 13 図 第16図 (A) 第16図 (B) 第16図 (C) (圧) OJは専r1草刀唄シまた干−ワート
ーチャート図、第2図〜第8図は本システム処理中の具
体例を示す図、第9図は本システムと人間が行なったキ
ーワード抽出を比較するグラフ、第10図〜第15図は
第2実施例の処理の具体例を示す図、第16図は両実施
例を比較した具体例を示す図、第17図は従来例を示す
図である。 第 図 第1図 第 5 図 第 図 昂 7 図 第 図 第 11 図 矛 13 図 第16図 (A) 第16図 (B) 第16図 (C) (圧) OJは専r1草刀唄シまた干−ワート
Claims (1)
- 文書テキスト中の語句から主語、並びに目的語等の重要
語をキーワードとして抽出し、その抽出したキーワード
の出現回数ならびに出現箇所に応じて各キーワードに重
み付けをし、その重み付けの度合の高いものを重要キー
ワードとして抽出するようにしたことを特徴とするキー
ワード自動抽出システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1-168231 | 1989-06-29 | ||
JP16823189 | 1989-06-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03135669A true JPH03135669A (ja) | 1991-06-10 |
Family
ID=15864208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2149781A Pending JPH03135669A (ja) | 1989-06-29 | 1990-06-11 | キーワード自動抽出システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03135669A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08320873A (ja) * | 1995-05-25 | 1996-12-03 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動抽出方法および装置 |
JP2008250887A (ja) * | 2007-03-30 | 2008-10-16 | Kyushu Institute Of Technology | 情報抽出装置、その方法及びプログラム |
JP2019204445A (ja) * | 2018-05-25 | 2019-11-28 | シャープ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112331A (ja) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワード重要度自動評価装置 |
-
1990
- 1990-06-11 JP JP2149781A patent/JPH03135669A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112331A (ja) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | キーワード重要度自動評価装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08320873A (ja) * | 1995-05-25 | 1996-12-03 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動抽出方法および装置 |
JP2008250887A (ja) * | 2007-03-30 | 2008-10-16 | Kyushu Institute Of Technology | 情報抽出装置、その方法及びプログラム |
JP2019204445A (ja) * | 2018-05-25 | 2019-11-28 | シャープ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alajmi et al. | Toward an ARABIC stop-words list generation | |
CN109710947B (zh) | 电力专业词库生成方法及装置 | |
US20070016863A1 (en) | Method and apparatus for extracting and structuring domain terms | |
CN111309925A (zh) | 一种军事装备的知识图谱构建方法 | |
Gupta et al. | Text summarization of Hindi documents using rule based approach | |
Sanderson et al. | The impact on retrieval effectiveness of skewed frequency distributions | |
Husain | An unsupervised approach to develop stemmer | |
JPH0520362A (ja) | 文書テキスト間の連鎖自動作成システム | |
Awajan | Keyword extraction from Arabic documents using term equivalence classes | |
Zeroual et al. | Arabic information retrieval: Stemming or lemmatization? | |
JP2572314B2 (ja) | キーワード抽出装置 | |
JP3735336B2 (ja) | 文書要約方法及びシステム | |
Alhanjouri | Pre processing techniques for Arabic documents clustering | |
JPH03135669A (ja) | キーワード自動抽出システム | |
Husain et al. | A language Independent Approach to develop Urdu stemmer | |
Awajan | Unsupervised approach for automatic keyword extraction from Arabic documents | |
Croft et al. | Applications of multilingual text retrieval | |
Heidary et al. | Automatic Persian text summarization using linguistic features from text structure analysis | |
Alsaad et al. | Arabic text root extraction via morphological analysis and linguistic constraints | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Kumar et al. | TelStem: An unsupervised telugu stemmer with heuristic improvements and normalized signatures | |
Moghadam et al. | Comparative study of various Persian stemmers in the field of information retrieval | |
Alias et al. | A Malay text summarizer using pattern-growth method with sentence compression rules | |
Kanaan et al. | Improving Arabic information retrieval systems using part of speech tagging | |
JP2009271796A (ja) | 文書データのノイズ除去システム |