JP2572314B2

JP2572314B2 - キーワード抽出装置

Info

Publication number: JP2572314B2
Application number: JP3174292A
Authority: JP
Inventors: 保岩渕; 幹夫荒井; 健司大友
Original assignee: TELEMATIC KOKUSAI KENKYUSHO
Current assignee: TELEMATIC KOKUSAI KENKYUSHO
Priority date: 1991-05-31
Filing date: 1991-05-31
Publication date: 1997-01-16
Anticipated expiration: 2012-01-16
Also published as: JPH05120345A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データベース等で使用
されるキーワードを自動的に抽出する装置に関する。本
発明は、特に雑誌新聞記事データベースで、それぞれの
記事に付与するキーワードを専用の辞書なしで自動的に
抽出できるようにするものである。

【０００２】

【従来の技術】近年、各新聞社によって各種新聞記事デ
ータベースが構築されて利用者に提供されてきている。
この新聞記事データベースの利用は専門家でない一般の
利用者にも開放されており、その利用の裾野は広がりつ
つある。

【０００３】ところで、これらの新聞記事データベース
を構築するにはデータベース化する記事についてそれぞ
れ必要なキーワードの付与を行う必要がある。これらの
キーワードの付与方法として各新聞社で記事作成の電子
化システムが作成されたことに伴いキーワードを自動抽
出することが要請され各種の自動キーワード抽出方法が
研究されている。

【０００４】このキーワード自動抽出方法として、特徴
語の考えかたを利用し、辞書なしでのキーワード抽出を
統計的手法によって行おうとする提案がなされている。
文献「新聞記事データからキーワードを自動抽出する試
み」石井健一ドキュメンテーション研究Ｖｏｌ．３
３Ｎｏ．１１１９８３．１１この提案は、キーワードとなりうる語を、記事文中から
「連続する２文字以上の漢字・片仮名文字列」をキーワ
ード候補として粗く抽出した後、このキーワード候補の
中から各記事にふさわしいキーワードを「特徴語」の考
え方にしたがって選択するものである。しかしながら、
この文献では辞書なしでのキーワード自動抽出はうまく
行かなかったと報告されている。

【０００５】また、各新聞社が提供している新聞記事デ
ータベースではキーワードの自動抽出が採用されている
が、記事の主題分析とは関連性がない切り出し方法であ
るため、厳密な意味でのキーワードの自動抽出とはいえ
ないものである。

【０００６】例えば朝日新聞社で採用しているキーワー
ドの抽出方法を説明する。まず、べた書きの漢字かな混
じり文を解析して（このとき文節切断、分かち書き辞書
を使用）、全文をカタカナ書きに変換する（このときカ
タカナ変換辞書を使用）。名詞をキーワードとして抽出
する（このとき品詞同定辞書として語彙辞書を使用）。
複合語は分割され、隣接の語を組み合わせて複数のカタ
カナキーワードを作成する（このとき語彙辞書を使
用）。抽出語数が多くなるのを防ぐため、抽出範囲を記
事毎に指定する。

【０００７】また辞書にないフリータームの補完方法と
して、分類は人手で付与し、一種のミニシソーラスを形
成することで、処理している。

【０００８】また、日本経済新聞社で採用しているキー
ワード自動抽出方法について説明する。文献「新聞記事
データベースにおけるキーワード自動抽出」神尾達夫
ＪＩＳＣＴ情報管理Ｖｏｌ．３２Ｎｏ．４Ｊ
ｕｌｙ１０８９ここでのキーワード自動抽出は、キーワード候補語の抽
出、キーワードの判定、統制語の追加付与の過程からな
る。

【０００９】キーワード候補語の抽出は次の過程からな
る。見出しおよび全文（２００字から４００字）を対象
とし、単語テーブルなど各種のテーブルを参照して名詞
を抽出する（語彙関連辞書使用）。不要語テーブルに収
容された用語を削除する（不要語辞書使用）。数値は全
て不要語とする。複合語は単語に分割して合成語を作る
（分割用辞書＝語彙辞書使用）。企業名、人名を抽出す
る（キーワード辞書ファイル使用）。

【００１０】またキーワードの判定は一次判定と二次判
定の過程からなる。一次判定は、キーワード辞書ファイ
ルを参照し（キーワード辞書ファイル使用）、ファイル
に登録されている語をパスとし、パスしなかった語は、
インデクサの判定に任せる。二次判定では、抽出位置に
よる判定と記事の主題との一致の判定を行う。抽出位置
による判定は、見出し、記事本文のどの位置（何番目の
センテンスか）から抽出されたかによる判断であり、見
出しからの抽出はキーワードとし、記事の第１センテン
スに出現する固有名詞は重要語として判断する。記事の
主題との一致の判定は、シソーラス上の分類と記事が扱
っている主題分野が一致すればキーワードとする（シソ
ーラス使用）。

【００１１】統制語の追加付与は、キーワードと判断さ
れた語から必要に応じて統制形または統制語を追加付与
する。これは補助キーワード辞書、親子ファイル辞書を
使用して、ある関係にある語を一緒にキーワードとする
ものである。

【００１２】また、日本経済新聞社のキーワードの付与
ではインデクサによる点検を加味しており、見出しの修
正や、キーワードの追加削除を行っている。

【００１３】さらに上記の文献は、ＡＩ技法を用いて記
事中にないキーワードを抽出する方法を提案している。
このＡＩ技法を用いるキーワードの自動抽出技術は、自
然言語処理によってキーワードとなるいくつかの用語か
ら類推できる場合について、ルールを作成して想像キー
ワードを生成する方法である。これは、例えば「雪印乳
業は十九日開いた取締役会で鈴木常正副社長（６７）を
代表取締役とするとともに社長代行に選任した。」との
文章から、解析ステップとしてその動詞「選任」の辞書
の「表層格」を手掛かりにして、次の辞書によって深層
格の格要素の内容を同定し、この同定から、次のルール深層格「行為者格」に対応する格要素が属性値「固
有」、「組織」をもちＡＮＤ深層格「対象格」に対応する格要素が属性値「属性」、
「地位」をもちＡＮＤ深層格「目標値」に対応する格要素が属性値「属性」、
「地位」をもつなら、キーワード「人事」を付与せよを利用してキーワードとして上記記事に出現しなかった
「人事」を想像キーワードとして生成するものである。

【００１４】

【発明が解決しようとする課題】上述の現在使用されて
いるキーワード抽出システムでは、辞書類を多量に使用
する必要がある。例えば、朝日新聞社の例では、文節切
断用辞書、カタカナ変換用辞書、品詞同定用辞書、短単
位単語辞書を使用している。また、日本経済新聞社の例
では、品詞同定用辞書、不要語辞書、短単位単語辞書、
シソーラス辞書等を利用している。

【００１５】しかし、これらのキーワード抽出システム
では、専用辞書を用いてキーワードを抽出しているた
め、この辞書を作成し、更新を行う作業は膨大なものと
なっている。例えば、辞書を作成するには、膨大な経
費、人手を必要としており、また辞書の自動作成技術は
いまだ研究レベルにあって実用化されていない。さら
に、辞書のメンテナンス作業を日々行う必要があり、そ
のための担当者の肉体的、精神的な負担は大変なものが
ある。例えば、辞書を作成あるいは更新する際に抽出し
た単語をどのように分類するかはインデクサが点検し、
その追加、削除作業を人手で行う必要があるため、日々
時間に追われながら更新作業を行っている新聞記事デー
タベースなどではその為の担当者の負担は大変なものが
ある。また単語の分類等の作業はインデクサの知識に委
ねられており、最終的にインデクサ個々人の判断でキー
ワードが付されることになるため、標準化が難しい問題
がある。

【００１６】さらに抽出範囲を見出し文および所定の字
数の文章までとすると、記事の内容、例えば社説のよう
な論説であって記事の後半に結論がくるようなもので
は、記事の主題にかかわるキーワードを落とすことがあ
り得て、記事の主題分析を行わないキーワード抽出で
は、検索精度を高くできない問題がある。

【００１７】本発明は、キーワード抽出用の専用辞書を
使用せずにフリータームの採用の可否のみを人手で判断
するだけで、自動的にキーワードを抽出でき、データベ
ース作成でキーワード抽出作業において必要な人手を大
幅に減らすことが可能で、人的負担および経済的負担を
軽減するキーワード抽出装置を提供することを目的とす
る。

【００１８】

【課題を解決するための手段】本発明は、対象とする文
章全文からあらかじめ定められたキーワード抽出条件に
基づいて単語を切り出すキーワード抽出手段を備えたキ
ーワード抽出装置において、上記キーワード抽出手段
は、対象とする文章の主題を表現する重要語を抽出する
手段を含み、この重要語をキーワードとしてあらかじめ
定めた所定期間内のデータベースを検索して対象とする
文章に関係する書誌データを抽出し、この抽出した書誌
データのキーワード群中でその出現頻度が高く上記キー
ワード抽出手段で重要語として抽出されていないキーワ
ードを対象とする文章にキーワードとして付与する手段
を備えたことを特徴とする。

【００１９】また、本発明は記事データベースに係る技
術であって、対象とする記事の主題を表現する単語を重
要語として抽出する重要語抽出手段と、対象とする記事
の主題を最も表現する文を重要文として抽出する重要文
抽出手段と、上記重要語手段で抽出した重要語をキーワ
ード候補として抽出する重要語キーワード切り出し手段
と、上記重要文抽出手段で抽出した重要文から所定の条
件に合致する単語をキーワード候補として抽出する重要
文キーワード切り出し手段と、記事の見出し行に含まれ
る単語をキーワード候補として抽出する見出しキーワー
ド切り出し手段と、記事本文中から所定の条件に合致す
る単語をキーワード候補として抽出する記事本文キーワ
ード抽出手段と、記事全文中から企業名および団体名を
キーワード候補として抽出する企業名団体名キーワード
切り出し手段と、上記キーワード候補として抽出した単
語のうちデータベースの利用者用に作成された利用者用
キーワード集が格納された辞書手段を参照しこの辞書手
段にはない単語についてキーワードとして採用するか否
かを判断し不要なキーワードを削除して確定キーワード
を定める不要キーワード削除手段と、上記重要語キーワ
ード抽出手段で抽出した重要語からのキーワードを基に
あらかじめ設定された所定期間内のデータベースを検索
して対象とする記事に関連する記事の書誌データを抽出
し、この抽出した書誌データのキーワード群中でその出
現頻度が高く上記重要語抽出手段で重要語として抽出さ
れていないキーワードを対象とする記事のキーワードと
して付与する手段とを備えたことを特徴とする。

【００２０】なお、重要語が複数個存在する場合、この
重要語を各々２個ずつ組み合わせたアンド検索により所
定期間内のデータベースを検索し、抽出したキーワード
群のうち出現頻度が４回以上のキーワードについてキー
ワード付与する手段を含むことができる。

【００２１】また、重要語をキーワードとして検索する
データベースの範囲は過去１年以内であることができ
る。

【００２２】

【作用】本発明のキーワード抽出では、キーワード付与
の対象とする文章の中には出現しない語句について、共
通するキーワードが付与された過去の関連する記事につ
いて付与されたキーワードを参考にして、関連する記事
に付与された率の高いキーワードを、原文章には出現し
ない語句ではあるが全体から考えて記事の主題を表現し
ている想像キーワードとして付与する。

【００２３】すなわち人間の思考過程は時間軸上での連
想過程であることに着目すると、原記事全体から想像す
るキーワードは限りなく現時点に近く、しかも、内容の
類似度の高い記事が無意識に想起されてそれに付与した
キーワードを参照するはずであると考えられる。この考
え方に基づいて想像キーワードを付与する。

【００２４】この想像キーワード付与は、記事から抽出
された重要語をキーワードとして過去の記事データベー
スを検索して、関連記事のデータベースからキーワード
群を取り出し、そのキーワード群で出現頻度の大きいキ
ーワードであって、記事全文中に含まれる単語からキー
ワードを抽出するものでは抽出できなかったキーワード
を想像キーワードとして付与する。

【００２５】この想像キーワードの付与に先立って、記
事主題を表現する重要語、重要文の抽出を行ってキーワ
ード候補を抽出する。また、見出し行、本文からキーワ
ード抽出条件にしたがってキーワード候補を抽出する。
さらに企業名、団体名をキーワード候補として抽出す
る。これら抽出したキーワード候補について利用者向け
キーワード集ファイルに掲載されていない単語で不要と
見られる単語を削除し、新たな単語はインデクサの判断
を経てキーワード（フリータームの）とし、確定キーワ
ードとして採用する。そして、この確定キーワードの重
要語について関連する過去の記事データベースについて
検索を行い出現頻度の高いキーワードを想像キーワード
として付与する。

【００２６】

【実施例】以下図面を参照して本発明の実施例を説明す
る。

【００２７】この実施例のキーワード抽出装置の構成を
図１に示す。このキーワード抽出装置は、雑誌新聞記事
データベースでのキーワード抽出装置に係るものであ
り、キーワードを抽出する雑誌新聞記事を記憶する雑誌
新聞記事全文ファイル１と、本発明の特徴とするキーワ
ード自動抽出を行う自動索引処理装置２と、抽出したキ
ーワードを記憶するキーワードファイル３と、操作者が
扱うキーボード６、ディスプレイ７、プリンタ８および
入出力処理を行う入出力処理装置５とを備えた構成であ
る。

【００２８】次に本発明実施例の自動索引処理装置２で
行うキーワード抽出過程を説明する図２を示して本実施
例を説明する。

【００２９】キーワード抽出を行う記事は雑誌新聞記事
全文ファイル１に格納されている。自動索引処理装置２
は、最初に雑誌新聞記事全文ファイル１に格納されてい
る記事全文を読み出して、記事の主題を最も表現する重
要語と重要文とを抽出する重要語・重要文抽出手段２１
と、この重要語・重要文抽出手段２１で抽出した重要語
および重要文からキーワード候補を抽出する重要語・重
要文キーワード切り出し手段２２と、雑誌新聞記事全文
ファイル１から読み出した見出し行および本文中から見
出し行に含まれる単語はキーワード候補として、本文か
らは所定の条件に合致する単語をキーワード候補として
抽出する見出し行・本文キーワード切り出し手段２３
と、上記二つの重要語・重要文キーワード切り出し手段
２２、見出し行・本文キーワード切り出し手段２３で抽
出されたキーワード候補の単語を基に、このキーワード
候補単語と一定の関係にある本文中の単語をキーワード
候補として抽出する抽出キーワード二次切り出し手段２
４と、雑誌新聞記事全文ファイル１に格納されている記
事全文中から企業名・団体名をキーワード候補として抽
出する企業名・団体名キーワード切り出し手段２５と、
上記手段によってキーワード候補として抽出された単語
について利用者向けキーワード集ファイルに基づいて一
致する単語および新たに出現した単語であってインデク
サの判断によりキーワードとして採用された単語を確定
キーワードとする不要キーワード削除手段２６と、確定
キーワード中の重要語をキーワードとして過去の雑誌新
聞記事データベースを検索し、関連する記事について抽
出した書誌データ中のキーワード群で出現頻度が高く、
上記確定キーワードにない単語を選択して想像キーワー
ドとして確定キーワードを格納するキーワード確定ファ
イル３１に追加する想像キーワード生成手段２７とを備
えたものである。

【００３０】次に自動索引処理装置２で各手段の動作を
説明する。

【００３１】図３は重要語・重要文抽出手段２１の動作
を説明する流れ図である。

【００３２】この重要語・重要文抽出手段２１は出願人
が先に提案した抄録文作成装置（特願平１−２８１２５
号）に開示されている記事の主題を表現する重要語およ
び重要文を抽出する重要語抽出手段および重要文抽出手
段を用いるものである。

【００３３】まず、雑誌新聞記事全文ファイル１から、
切り出しを行おうとする記事の全文を読み込む（Ｓ４
１）。次に、記事全文中から「は」と主題化を示す複合
辞の前の単語を抽出して重要語ファイルへ格納する（Ｓ
４２、Ｓ４３）。この重要語の抽出は、「は」と複合辞
で係助詞の働きをし、しかも主題化を示す以下で述べる
語群の前にある漢字、カタカナ文字、英字で構成される
２文字以上の単語を抽出して重要語ファイルへ格納する
ものである。この複合辞としては、「とは」、「という
のは」、「といえば」、「というと」、「といった
ら」、「とくると」、「ときたら」、「となると」、
「となれば」、「になると」、「となっては」、「に至
ると」、「に至っては」、「かといえば」、「かという
と」、「としては」、「にしてみては」、「にしてみれ
ば」、「としても」、「にしても」、「にしたがっ
て」、「にしろ」、「にしては」、「といっても」、
「といえども」、「には」、「におかれましては」等で
ある。このような複合辞の前にある単語はこの記事内容
の主題を表現するものと考えられる。

【００３４】なお、上記の「漢字、カタカナ文字、英字
で構成される単語」とは３つの文字種類が自由に混在し
ている単語もしくは１つの文字種類の単語をいい、また
「カタカナ文字、英字」には特殊符号の“ー”も含むも
のとする。

【００３５】そして抽出されて重要語ファイルに格納さ
れた重要語の記事全文内での出現頻度を計数し、その出
現頻度をそれぞれの重要語の後ろに書き加え、その出現
頻度のもっとも高い単語を最重要語として確定する（Ｓ
４４）。

【００３６】次に再度雑誌新聞記事全文を読み込み、文
単位で最重要語と重要語の含有をチェックして重要文を
抽出する（Ｓ４５）。すなわち、読み込んだ記事全文の
句点で区切った文内で最重要語が存在し、しかも重要語
が１つ以上存在する文を重要文として抽出する。そして
抽出した重要文を重要文ファイルに格納する（Ｓ４
６）。

【００３７】次に図４および図５に重要語・重要文キー
ワード切り出し手段２２の動作を説明する流れ図を示し
てその動作を説明する。この重要語・重要文キーワード
切り出し手段２２は重要語・重要文抽出手段２１で抽出
して重要語、重要文からキーワードを切り出してキーワ
ード候補ファイルに格納する手段である。

【００３８】まず、図４（Ａ）に重要語からキーワード
を切り出す過程を説明する。重要語ファイルから重要語
を読出し、記事全文が１３００文字以下であるか否かを
判断する（Ｓ５１、５２）。記事全文が１３００文字以
下であるときは重要語ファイルの単語を全てキーワード
候補ファイルに書き出して格納する（Ｓ５３、Ｓ５
５）。また記事全文が１３００文字を超えるときは、出
現頻度が４回以上の単語をキーワード候補ファイルに書
き出して格納する（Ｓ５４、Ｓ５５）。この出現頻度に
よる判断は重要語・重要文抽出手段２１で計数した出現
頻度に基づいて行う。

【００３９】次に図５（Ｂ）の流れ図により重要文から
のキーワード切り出しを説明する。まず、重要文ファイ
ルから重要文を読み出す（Ｓ５６）。重要文の先頭文と
次の文の２文以内で、「が」、「で」、「は」の直前の
漢字、カタカナ文字、英字で構成される２文字以上の単
語をキーワード候補として抽出する。但し、「では」は
キーワード候補として不採用とする（Ｓ５７）。次に、
複合辞で時間的に相関関係を示す「とともに」、「と共
に」や意味が同じ「ともに」、「共に」の直前にある漢
字、カタカナ文字、英字で構成される２文字以上の単語
をキーワード候補として抽出する（Ｓ５８）。次に複合
辞で「仕手」、「仲介」、「根拠」、「原因」を示す語
の直前の漢字、カタカナ文字、英字で構成される２文字
以上の単語をキーワード候補として抽出する（Ｓ５
９）。この複合辞は、「によって」、「により」、「に
よる」、「によると」、「によれば」、「をもって」、
「でもって」、「を通して」、「を通じて」、「にし
て」、「につき」、「という理由で」である。また、こ
の語群の直前に副助詞「など、」「等」が付加されてい
る場合も同等の扱いとする。そして複合辞で判断や評価
を成立させる立場、視点を表す表現で「にとって」、
「にとっての」、「にとりまして」、「にとっては」、
「の身から見て」、「を中心として考えると」の直前に
ある漢字、カタカナ文字、英字を構成される２文字以上
の単語をキーワード候補として抽出する（Ｓ６０）。ま
た、「あらたに」、「新たに」の直後にある漢字、カタ
カナ文字、英字で構成される２文字以上の単語をキーワ
ード候補として抽出する（Ｓ６１）。そして抽出した単
語をキーワード候補ファイルへ格納する（Ｓ６２）。な
お、ここで抽出したキーワード候補でキーワード候補フ
ァイル内で完全一致する単語を削除して一つのキーワー
ドとするユニーク処理を行ってもよい。

【００４０】次に見出し行・本文キーワード切り出し手
段２３の動作を図６にその動作の流れ図を示して説明す
る。この見出し行・本文キーワード切り出し手段２３
は、見出し行と本文中からキーワード候補となりうる単
語を切り出すものである。

【００４１】まず、他の切り出し手段と同様に、雑誌新
聞記事全文を雑誌新聞記事全文ファイル１から読み込む
（Ｓ７１）。まず見出し行であるか本文であるかを判断
する（Ｓ７２）、この判断は、文末に句点のない文を含
む行を見出し行と判断するものである。そして、見出し
行に含まれる全ての漢字、かたかな文字、英字で構成さ
れる２文字以上の単語は無条件でキーワード候補として
抽出する。文字の種類の混在する単語は、混在単語とそ
れぞれの文字種別で切り分けた単語で２文字以上であれ
ば、その単語を採用する（Ｓ７３）。例えば「宇宙テー
マパーク」という単語があったとき、それぞれの「宇
宙」、「テーマパーク」をキーワード候補として抽出す
る。これに対して例えば「ソ連」という単語の場合、そ
れぞれの「ソ」と「連」とは採用しない。

【００４２】次に本文からは、漢字、カタカナ文字、英
字で構成される２文字以上の単語の直後に、“（ ”，
“） ”すなわち括弧記号があるとき、またその括弧内
の単語が漢字、カタカナ文字、英字で構成される２文字
以上の単語であれば、双方の単語をキーワード候補とし
て抽出する。ただし、括弧内に本社、社長等の役職名が
ある場合には、括弧内の単語をキーワード候補としては
不採用とする。また、括弧内に上記以外の文字種類があ
る場合に双方とも不採用とする（Ｓ７４）。

【００４３】次に「に」の直前で漢字、カタカナ文字、
英字で構成される２文字以上の単語で、２回以上出現す
る時もキーワード候補として抽出する（Ｓ７５）。記事
本文中に「聞き手」があるときは、「インタビュー」を
キーワード候補としてキーワード候補ファイルに書き加
える（Ｓ７６）。「では」の直前で漢字、カタカナ文
字、英字で構成される２文字以上の単語で、しかも文頭
にあるとき、この単語をキーワード候補として抽出す
る。（Ｓ７７）。漢字、カタカナ文字、英字で構成され
る２文字以上の単語で、しかもその単語の後ろ２文字が
「業界」であるとき「界」を取ってキーワード候補とす
る。また「政府」が付く時も「政府」を取ってキーワー
ド候補とする（Ｓ７８）。漢字、カタカナ文字、英字で
構成される２文字以上の単語で、単語内に「（財）」、
「財団法人」、「（株）」、「株式会社」、「会社」、
「社」など法人種類名がある場合は、その法人種類名を
削除してキーワード候補とする（Ｓ７９）。「は」と
「が」に挟まれた漢字、カタカナ文字、英字で構成され
る２文字以上の単語をキーワード候補とする（Ｓ８
０）。これは総主文といわれる文に対応するものであ
る。「と」の前と後ろの単語をキーワード候補として抽
出する。ただし、双方とも同一文字種類で構成され３文
字以上の単語であることを条件とする。片方が条件を満
足しないときは双方とも不採用とする（Ｓ８１）。鍵括
弧内で、漢字、カタカナ文字、英字で構成される２文字
以上の単語の場合、無条件でキーワード候補とする。文
字種類の混在する単語は、混在単語とそれぞれ文字種類
で切り分けた単語で２文字以上であればその単語もキー
ワード候補として採用する（Ｓ８２）。さらに、「もあ
る。」の直前にある漢字、カタカナ文字、英字で構成さ
れる２文字以上の単語をキーワード候補として抽出す
る。また、複合辞で伝聞、引用を示す「との」、「とい
う」、「とやら」の直前にある漢字、カタカナ文字、英
字で構成される２文字以上の単語および「に応用すれ
ば」の直前にある漢字、カタカナ文字、英字で構成され
る２文字以上の単語をキーワード候補として抽出する
（Ｓ８３）。

【００４４】上述の見出し行および本文から抽出したキ
ーワード候補について、キーワード候補ファイル内で完
全一致した単語を削除するユニーク処理を行い（Ｓ８
４）、抽出したキーワード候補をキーワード候補ファイ
ルへ格納する（Ｓ８５）。

【００４５】次に抽出キーワード二次切り出し手段２４
の動作を図７の流れ図によって説明する。この抽出キー
ワード二次切り出し手段２４は、主題と直接結びつかな
い固有名詞等をキーワードの周辺から取り出すものであ
る。まず、キーワード候補ファイルと雑誌新聞記事全文
ファイルとを読み込む（Ｓ９１）。そして、キーワード
候補単語で最後尾に「氏」があるときこれをカットして
リライトする（Ｓ９２）。そして、全文中でキーワード
候補単語の直後の「が」に続く漢字、カタカナ文字、英
字で構成される２文字以上の単語をキーワード候補とし
て抽出する（Ｓ９３）。全文中でキーワード候補単語の
直前に「と」、「や」、「，」、「・」、「の」がある
時、その直前にある漢字、カタカナ文字、英字で構成さ
れる２文字以上の単語をキーワード候補として抽出する
（Ｓ９４）。

【００４６】そしてこれらの抽出キーワード二次切り出
しによって抽出したキーワードについてキーワード候補
ファイル内で完全一致するキーワードを削除するユニー
ク処理を行い（Ｓ９５）、キーワード候補ファイルへ格
納する（Ｓ９６）。

【００４７】次に企業名・団体名キーワード切り出し手
段２５の動作を図８の流れ図に基づいて説明する。この
企業名・団体名キーワード切り出しはキーワードとして
通常用いる企業名・団体名キーワードを抽出するもので
ある。まず、あらかじめ企業名・団体名キーワードファ
イルを作成しておく。すなわち利用者向けキーワード集
ファイルを読み込み（Ｓ１０１）、企業名・団体名キー
ワードを抽出し、（Ｓ１０２）、企業名・団体名キーワ
ードファイルを作成する（Ｓ１０３）。なおこの企業名
・団体名キーワードファイルの作成は、企業名・団体名
キーワード辞書がある場合にはこれを用いてもよい。次
に雑誌新聞記事全文を読み込み（Ｓ１０４）、全文中で
企業名・団体名キーワードファイルにある単語と完全一
致したとき、その単語をキーワード候補として抽出する
（Ｓ１０５）。そしてこの抽出したキーワード候補につ
いてキーワード候補内ファイル内で完全一致する単語を
削除するユニーク処理を行い、キーワード候補ファイル
に格納する（Ｓ１０７）。

【００４８】以上の処理により、抽出されたキーワード
候補について不要キーワード削除手段２６によって不要
なキーワードを削除する不要キーワード削除処理を行
う。この動作を図９の流れ図によって説明する。

【００４９】まずキーワード候補ファイルを読み込み、
合わせて利用者向けキーワード集ファイルを読み込む
（Ｓ１１１、Ｓ１１２）。それぞれのファイルの単語が
完全一致するときは、キーワード候補をキーワード確定
ファイルに格納する（Ｓ１１５）。また、キーワード候
補について利用者向けキーワード集ファイルにないとき
はインデクサに対してその単語をキーワードとして採用
するか否かを問い合わせ、ＹＥＳであれば、キーワード
確定ファイルへ格納する（Ｓ１１５）。このインデクサ
の判断を経たキーワードはフリータームすなわち自由語
キーワードとしてキーワード確定ファイルに格納し、二
つのファイルの完全一致の単語は統語キーワードとして
キーワード確定ファイルに格納する。インデクサの判断
がＮＯであればキーワードとして不採用とする（Ｓ１１
７）。

【００５０】次に想像キーワード生成手段２７の動作を
図１０の流れ図に基づいて説明する。この想像キーワー
ド生成手段２７は本実施例の特徴とするところで、雑誌
新聞記事全文中にはなかった単語を過去の関係する雑誌
新聞記事データベースのキーワード群中からキーワード
として抽出するものである。

【００５１】キーワード確定ファイルを読み込み、キー
ワード確定ファイル内で重要語ファイルから切り出しで
抽出されたキーワードがある場合、その語をキーワード
として該当雑誌新聞記事データベースを検索し、１年以
内の書誌データを書誌データファイルへ格納する。この
とき、検索するキーワードが複数個ある場合には、２個
ずつのリーグ戦式のＡＮＤ検索でデータベースを検索す
る（Ｓ１２２）。そして検索した書誌データについて付
与されているキーワード群のみ抽出しその出現頻度をチ
ックし、出現頻度４回以上の想像キーワードとして抽出
する（Ｓ１２３）。抽出した想像キーワードについてキ
ーワード確定ファイル内で完全一致する単語を削除する
ユニーク処理を行い、生成した想像キーワードをキーワ
ード確定ファイルに格納する（Ｓ１２４、Ｓ１２５）。

【００５２】このようにキーワード確定ファイルに格納
されたキーワードを当該記事のキーワードとして採用す
る。

【００５３】次に上記想像キーワード生成について具体
例を挙げて説明する。

【００５４】使用した記事は日本経済新聞１９９０年３
月１２日朝刊２７面に掲載された記事であり、「核心各
論」「世界初の宇宙テーマパーク」「スペースワールド
社長小池孜氏」「地域活性化の先兵役に」の見出しが付
与されている。

【００５５】この記事について、人手で付与されたキー
ワードはこの記事についての（株）エレクトロニックラ
イブラリが提供するＥＬ｜ＮＥＴ新聞記事データベース
によると「リストラクチュアリング」、「社長」、「レ
ジャーランド」、「観光開発」、「インタビュー」、
「地域活性化」、「福岡」、「北九州市」、「新日本製
鉄」、「日本興業銀行」、「福岡銀行」、「東京急行電
鉄」、「ＪＲ九州」、「スペースワールド」、（以上が
利用者向けキーワード集による統語）であり、フリータ
ームとして「テーマパーク」、「核心各論」、「小池
孜」が付与されている。

【００５６】この記事からキーワード抽出手段で抽出
し、不要キーワード削除手段を経て確定した確定キーワ
ードは、「リストラクチュアリング」、「社長」、「観
光開発」、「インタビュー」、「地域活性化」、「北九
州市」、「新日本製鉄」、「日本興業銀行」、「福岡銀
行」、「東京急行電鉄」、「ＪＲ九州」、「スペースワ
ールド」、「新日鉄」、「九州旅客鉄道」、「宇宙施
設」であって、さらにインデクサの判断を経てフリータ
ームとして抽出されたキーワードは「核心各論」、「小
池孜」、「テーマパーク」である。

【００５７】このなかの重要語から付与されたキーワー
ドである「北九州市」、「新日本製鉄」、「スペースワ
ールド」の３つについて「北九州市＊新日本製鉄」、
「北九州市＊スペースワールド」、「新日本製鉄＊スペ
ースワールド」の３組でもってＥＬ｜ＮＥＴ新聞記事デ
ータベースで日本経済新聞社の過去１年間の記事データ
ベースを検索した。この結果、１１件の書誌データを抽
出した。この書誌データのキーワード群を出現頻度の高
いキーワード群から列記すると、９：北九州市９：福岡９：新日本製鉄８：スペースワールド４：レジャー施設（レジャーランド）４：テーマパーク３：日本ケンタッキーフライドチキン３：出店３：完工式３：飲食店３：井筒屋３：伊藤忠商事３：ロイヤル３：フードサービス３：ニラックス３：オーエンオーフーヅ３：オ・アイ３：アールアンドシーアイ２：八幡２：製鉄所２：高炉２：キャラクター商品以下出現頻度１以下のキーワードは省略する。

【００５８】この過去の記事データベースの書誌データ
から抽出したキーワードのうち出現頻度４以上のキーワ
ードについて、すでに確定キーワードとして出現してい
る「北九州市」と「新日本製鉄」と「スペースワール
ド」と「テーマパーク」とがユニーク処理にて削除され
るので、想像キーワードとしては、「福岡」、「テーマ
パーク」、「レジャー施設（レジャーランド）」が付与
される。

【００５９】この結果を、人手でキーワードを付与した
前述の書誌データと比較すると、「レジャーランド」と
「福岡」については人手によって抽出した統語のキーワ
ードと一致し、抽出すべきキーワードについてほぼもれ
がないキーワード付与ができる結果を得た。

【００６０】このように、具体的に行った結果でもキー
ワードの自動抽出が可能であることを確認した。

【００６１】なお、上記実施例は雑誌新聞記事データベ
ースでのキーワード自動抽出のためのキーワード抽出装
置の例で説明したが、学術論文データベース等の他のデ
ータベースでのキーワード抽出に用いることができるの
はもちろんである。

【００６２】

【発明の効果】このように、本発明は、利用者向けキー
ワード集ファイルという一つの辞書のみを用いるだけ
で、専用辞書を使用することなくキーワードの自動抽出
ができる。

【００６３】このため、本発明は記事データベースの作
成において、フリータームの採否のみインデクサの判断
を経ればよいだけなので、人手を必要とするキーワード
抽出を自動化できる。また、キーワード抽出のために使
用する各種の辞書の作成や更新のメンテナンスを必要と
せず、データベースシステムの構築と運営において大幅
に人的負担および経費負担を軽減することが可能であ
る。

【図面の簡単な説明】

【図１】本発明実施例のキーワード抽出装置の構成を示
す図。

【図２】実施例自動索引処理装置の構成を示す図。

【図３】重要語・重要文抽出手段の動作を説明する流れ
図。

【図４】重要語キーワード切り出し手段の動作を説明す
る流れ図。

【図５】重要文キーワード切り出し手段の動作を説明す
る流れ図。

【図６】見出し行・本文キーワード切り出し手段の動作
を説明する流れ図。

【図７】抽出キーワード二次切り出し手段の動作を説明
する流れ図。

【図８】企業名・団体名キーワード切り出し手段の動作
を説明する流れ図。

【図９】不要キーワード削除手段の動作を説明する流れ
図。

【図１０】想像キーワード生成手段の動作を説明する流
れ図。

Claims

(57)【特許請求の範囲】

【請求項１】対象とする文章全文からあらかじめ定め
られたキーワード抽出条件に基づいて単語を切り出すキ
ーワード抽出手段を備えたキーワード抽出装置におい
て、上記キーワード抽出手段は、対象とする文章の主題を表
現する重要語を抽出する手段を含み、この重要語をキーワードとしてデータベースに蓄積され
ている過去のあらかじめ定められた所定期間内のデータ
を検索してキーワード抽出対象の文章に関連する別の文
章に付与されたキーワード群を抽出し、その抽出したキ
ーワード群中でその出現頻度が高く上記キーワード抽出
手段でキーワード抽出対象の文章の重要語として抽出さ
れていないキーワードを対象とする文章にキーワードと
して付与する手段を備えたことを特徴とするキーワード
抽出装置。
【請求項２】対象とする記事の主題を表現する単語を
重要語として抽出する重要語抽出手段と、対象とする記事の主題を最も表現する文を重要文として
抽出する重要文抽出手段と、上記重要語手段で抽出した重要語をキーワード候補とし
て抽出する重要語キーワード切り出し手段と、上記重要文抽出手段で抽出した重要文から所定の条件に
合致する単語をキーワード候補として抽出する重要文キ
ーワード切り出し手段と、記事の見出し行に含まれる単語をキーワード候補として
抽出する見出しキーワード切り出し手段と、記事本文中から所定の条件に合致する単語をキーワード
候補として抽出する本文キーワード切り出し手段と、記事全文中から企業名および団体名をキーワード候補と
して抽出する企業名団体名キーワード切り出し手段と、上記キーワード候補として抽出した単語のうちデータベ
ースの利用者用に作成された利用者用キーワード集が格
納された辞書手段を参照しこの辞書手段にはない単語に
ついてキーワードとして採用するか否かを判断し不要な
キーワードを削除して確定キーワードを定める不要キー
ワード削除手段と、上記重要語キーワード抽出手段で抽出した重要語からの
キーワードを基にデータベースに蓄積されている過去の
あらかじめ定められた所定期間内のデータを検索してキ
ーワード抽出対象の記事に関連する別の記事に付与され
たキーワード群を抽出し、この抽出した書誌データのキ
ーワード群中でその出現頻度が高く上記重要語抽出手段
で重要語として抽出されていないキーワードを対象とす
る記事のキーワードとして付与する手段とを備えたこと
を特徴とするキーワード抽出装置。
【請求項３】重要語が複数個存在する場合、この重要
語を各々２個ずつ組み合わせたアンド検索により所定期
間内のデータベースを検索し、抽出したキーワード群の
うち出現頻度が４回以上のキーワードについてキーワー
ド付与する手段を含む請求項１または２記載のキーワー
ド抽出装置。
【請求項４】重要語をキーワードとして検索するデー
タベースの範囲は過去１年以内である請求項１ないし３
のいずれか記載のキーワード抽出装置。