JPH05120345A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH05120345A
JPH05120345A JP3174292A JP17429291A JPH05120345A JP H05120345 A JPH05120345 A JP H05120345A JP 3174292 A JP3174292 A JP 3174292A JP 17429291 A JP17429291 A JP 17429291A JP H05120345 A JPH05120345 A JP H05120345A
Authority
JP
Japan
Prior art keywords
keyword
extracted
word
article
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3174292A
Other languages
English (en)
Other versions
JP2572314B2 (ja
Inventor
Tamotsu Iwabuchi
保 岩渕
Mikio Arai
幹夫 荒井
Kenji Otomo
健司 大友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TELEMATIC KOKUSAI KENKYUSHO
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Original Assignee
TELEMATIC KOKUSAI KENKYUSHO
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TELEMATIC KOKUSAI KENKYUSHO, TEREMATEIIKU KOKUSAI KENKYUSHO KK filed Critical TELEMATIC KOKUSAI KENKYUSHO
Priority to JP3174292A priority Critical patent/JP2572314B2/ja
Publication of JPH05120345A publication Critical patent/JPH05120345A/ja
Application granted granted Critical
Publication of JP2572314B2 publication Critical patent/JP2572314B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 雑誌新聞記事データベース等で使用するキー
ワードを辞書をほとんど使用せずに自動抽出できるよう
にする。 【構成】 対象とする記事全文の中から、主題に関係す
る重要語、重要文を抽出して、キーワードとしての条件
を満たす単語をキーワードとして抽出する。またキーワ
ードとして適当な、見出し行中の単語、本文中の単語、
企業名・団体名等をキーワードとして抽出する。この抽
出したキーワードから不要なキーワードを削除して確定
したキーワードとする。さらに確定したキーワード中で
記事の主題に関連する重要語である単語をキーワードと
して関連する記事についてあらかじめ決めた範囲の期間
の記事データベースを検索し関連する記事データベース
のキーワード群を取り出す。このキーワード群の中で出
現頻度が高く、上述の確定したキーワードにないものを
想像キーワードとして付加する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベース等で使用
されるキーワードを自動的に抽出する装置に関する。本
発明は、特に雑誌新聞記事データベースで、それぞれの
記事に付与するキーワードを専用の辞書なしで自動的に
抽出できるようにするものである。
【0002】
【従来の技術】近年、各新聞社によって各種新聞記事デ
ータベースが構築されて利用者に提供されてきている。
この新聞記事データベースの利用は専門家でない一般の
利用者にも開放されており、その利用の裾野は広がりつ
つある。
【0003】ところで、これらの新聞記事データベース
を構築するにはデータベース化する記事についてそれぞ
れ必要なキーワードの付与を行う必要がある。これらの
キーワードの付与方法として各新聞社で記事作成の電子
化システムが作成されたことに伴いキーワードを自動抽
出することが要請され各種の自動キーワード抽出方法が
研究されている。
【0004】このキーワード自動抽出方法として、特徴
語の考えかたを利用し、辞書なしでのキーワード抽出を
統計的手法によって行おうとする提案がなされている。
文献「新聞記事データからキーワードを自動抽出する試
み」 石井健一 ドキュメンテーション研究Vol.3
3 No.11 1983.11 この提案は、キーワードとなりうる語を、記事文中から
「連続する2文字以上の漢字・片仮名文字列」をキーワ
ード候補として粗く抽出した後、このキーワード候補の
中から各記事にふさわしいキーワードを「特徴語」の考
え方にしたがって選択するものである。しかしながら、
この文献では辞書なしでのキーワード自動抽出はうまく
行かなかったと報告されている。
【0005】また、各新聞社が提供している新聞記事デ
ータベースではキーワードの自動抽出が採用されている
が、記事の主題分析とは関連性がない切り出し方法であ
るため、厳密な意味でのキーワードの自動抽出とはいえ
ないものである。
【0006】例えば朝日新聞社で採用しているキーワー
ドの抽出方法を説明する。まず、べた書きの漢字かな混
じり文を解析して(このとき文節切断、分かち書き辞書
を使用)、全文をカタカナ書きに変換する(このときカ
タカナ変換辞書を使用)。名詞をキーワードとして抽出
する(このとき品詞同定辞書として語彙辞書を使用)。
複合語は分割され、隣接の語を組み合わせて複数のカタ
カナキーワードを作成する(このとき語彙辞書を使
用)。抽出語数が多くなるのを防ぐため、抽出範囲を記
事毎に指定する。
【0007】また辞書にないフリータームの補完方法と
して、分類は人手で付与し、一種のミニシソーラスを形
成することで、処理している。
【0008】また、日本経済新聞社で採用しているキー
ワード自動抽出方法について説明する。文献「新聞記事
データベースにおけるキーワード自動抽出」 神尾達夫
JISCT 情報管理 Vol.32 No.4 J
uly 1089 ここでのキーワード自動抽出は、キーワード候補語の抽
出、キーワードの判定、統制語の追加付与の過程からな
る。
【0009】キーワード候補語の抽出は次の過程からな
る。見出しおよび全文(200字から400字)を対象
とし、単語テーブルなど各種のテーブルを参照して名詞
を抽出する(語彙関連辞書使用)。不要語テーブルに収
容された用語を削除する(不要語辞書使用)。数値は全
て不要語とする。複合語は単語に分割して合成語を作る
(分割用辞書=語彙辞書使用)。企業名、人名を抽出す
る(キーワード辞書ファイル使用)。
【0010】またキーワードの判定は一次判定と二次判
定の過程からなる。一次判定は、キーワード辞書ファイ
ルを参照し(キーワード辞書ファイル使用)、ファイル
に登録されている語をパスとし、パスしなかった語は、
インデクサの判定に任せる。二次判定では、抽出位置に
よる判定と記事の主題との一致の判定を行う。抽出位置
による判定は、見出し、記事本文のどの位置(何番目の
センテンスか)から抽出されたかによる判断であり、見
出しからの抽出はキーワードとし、記事の第1センテン
スに出現する固有名詞は重要語として判断する。記事の
主題との一致の判定は、シソーラス上の分類と記事が扱
っている主題分野が一致すればキーワードとする(シソ
ーラス使用)。
【0011】統制語の追加付与は、キーワードと判断さ
れた語から必要に応じて統制形または統制語を追加付与
する。これは補助キーワード辞書、親子ファイル辞書を
使用して、ある関係にある語を一緒にキーワードとする
ものである。
【0012】また、日本経済新聞社のキーワードの付与
ではインデクサによる点検を加味しており、見出しの修
正や、キーワードの追加削除を行っている。
【0013】さらに上記の文献は、AI技法を用いて記
事中にないキーワードを抽出する方法を提案している。
このAI技法を用いるキーワードの自動抽出技術は、自
然言語処理によってキーワードとなるいくつかの用語か
ら類推できる場合について、ルールを作成して想像キー
ワードを生成する方法である。これは、例えば「雪印乳
業は十九日開いた取締役会で鈴木常正副社長(67)を
代表取締役とするとともに社長代行に選任した。」との
文章から、解析ステップとしてその動詞「選任」の辞書
の「表層格」を手掛かりにして、次の辞書によって深層
格の格要素の内容を同定し、 この同定から、次のルール 深層格「行為者格」に対応する格要素が属性値「固
有」、「組織」をもち AND 深層格「対象格」に対応する格要素が属性値「属性」、
「地位」をもち AND 深層格「目標値」に対応する格要素が属性値「属性」、
「地位」をもつなら、キーワード「人事」を付与せよ を利用してキーワードとして上記記事に出現しなかった
「人事」を想像キーワードとして生成するものである。
【0014】
【発明が解決しようとする課題】上述の現在使用されて
いるキーワード抽出システムでは、辞書類を多量に使用
する必要がある。例えば、朝日新聞社の例では、文節切
断用辞書、カタカナ変換用辞書、品詞同定用辞書、短単
位単語辞書を使用している。また、日本経済新聞社の例
では、品詞同定用辞書、不要語辞書、短単位単語辞書、
シソーラス辞書等を利用している。
【0015】しかし、これらのキーワード抽出システム
では、専用辞書を用いてキーワードを抽出しているた
め、この辞書を作成し、更新を行う作業は膨大なものと
なっている。例えば、辞書を作成するには、膨大な経
費、人手を必要としており、また辞書の自動作成技術は
いまだ研究レベルにあって実用化されていない。さら
に、辞書のメンテナンス作業を日々行う必要があり、そ
のための担当者の肉体的、精神的な負担は大変なものが
ある。例えば、辞書を作成あるいは更新する際に抽出し
た単語をどのように分類するかはインデクサが点検し、
その追加、削除作業を人手で行う必要があるため、日々
時間に追われながら更新作業を行っている新聞記事デー
タベースなどではその為の担当者の負担は大変なものが
ある。また単語の分類等の作業はインデクサの知識に委
ねられており、最終的にインデクサ個々人の判断でキー
ワードが付されることになるため、標準化が難しい問題
がある。
【0016】さらに抽出範囲を見出し文および所定の字
数の文章までとすると、記事の内容、例えば社説のよう
な論説であって記事の後半に結論がくるようなもので
は、記事の主題にかかわるキーワードを落とすことがあ
り得て、記事の主題分析を行わないキーワード抽出で
は、検索精度を高くできない問題がある。
【0017】本発明は、キーワード抽出用の専用辞書を
使用せずにフリータームの採用の可否のみを人手で判断
するだけで、自動的にキーワードを抽出でき、データベ
ース作成でキーワード抽出作業において必要な人手を大
幅に減らすことが可能で、人的負担および経済的負担を
軽減するキーワード抽出装置を提供することを目的とす
る。
【0018】
【課題を解決するための手段】本発明は、対象とする文
章全文からあらかじめ定められたキーワード抽出条件に
基づいて単語を切り出すキーワード抽出手段を備えたキ
ーワード抽出装置において、上記キーワード抽出手段
は、対象とする文章の主題を表現する重要語を抽出する
手段を含み、この重要語をキーワードとしてあらかじめ
定めた所定期間内のデータベースを検索して対象とする
文章に関係する書誌データを抽出し、この抽出した書誌
データのキーワード群中でその出現頻度が高く上記キー
ワード抽出手段でキーワードとして抽出されていないキ
ーワードを対象とする文章にキーワードとして付与する
手段を備えたことを特徴とする。
【0019】また、本発明は記事データベースに係る技
術であって、対象とする記事の主題を表現する単語を重
要語として抽出する第一手段と、対象とする記事の主題
を最も表現する文を重要文として抽出する第二手段と、
上記第一手段で抽出した重要語をキーワード候補として
抽出する第三手段と、上記第二手段で抽出した重要文か
ら所定の条件に合致する単語をキーワード候補として抽
出する第四手段と、記事の見出し行に含まれる単語をキ
ーワード候補として抽出する第五手段と、記事本文中か
ら所定の条件に合致する単語をキーワード候補として抽
出する第六手段と、記事全文中から企業名および団体名
をキーワード候補として抽出する第七手段と、上記キー
ワード候補として抽出した単語のうちデータベースの利
用者用に作成された利用者用キーワード集に掲載されて
いない単語についてキーワードとして採用するか否かを
判断し不要なキーワードを削除して確定キーワードを定
める第八手段と、この第八手段で確定されたキーワード
中の上記第三手段で抽出した重要語からのキーワードを
基にあらかじめ設定された所定期間内のデータベースを
検索して対象とする記事に関連する記事の書誌データを
抽出し、この抽出した書誌データのキーワード群中でそ
の出現頻度が高く上記第八手段で確定キーワードとして
採用されていない単語を当該記事のキーワードとして付
与する手段とを備えたことを特徴とする。
【0020】なお、重要語が複数個存在する場合、この
重要語を各々2個ずつ組み合わせたアンド検索により所
定期間内のデータベースを検索し、抽出したキーワード
群のうち出現頻度が4回以上のキーワードについてキー
ワード付与する手段を含むことができる。
【0021】また、重要語をキーワードとして検索する
データベースの範囲は過去1年以内であることができ
る。
【0022】
【作用】本発明のキーワード抽出では、従来人手で行っ
ていた想像キーワード(原記事には出現しない語句であ
るが全体から考えて記事の主題を代表するキーワード)
を過去の記事について付与されたキーワードを分析して
自動的に付与する。
【0023】すなわち人間の思考過程は時間軸上での連
想過程であることに着目すると、原記事全体から想像す
るキーワードは限りなく現時点に近く、しかも、内容の
類似度の高い記事が無意識に想起されてそれに付与した
キーワードを参照するはずであると考えられる。この考
え方に基づいて想像キーワードを付与する。
【0024】この想像キーワード付与は、記事から抽出
された重要語をキーワードとして過去の記事データベー
スを検索して、関連記事のデータベースからキーワード
群を取り出し、そのキーワード群で出現頻度の大きいキ
ーワードであって、記事全文中に含まれる単語からキー
ワードを抽出するものでは抽出できなかったキーワード
を想像キーワードとして付与する。
【0025】この想像キーワードの付与に先立って、記
事主題を表現する重要語、重要文の抽出を行ってキーワ
ード候補を抽出する。また、見出し行、本文からキーワ
ード抽出条件にしたがってキーワード候補を抽出する。
さらに企業名、団体名をキーワード候補として抽出す
る。これら抽出したキーワード候補について利用者向け
キーワード集ファイルに掲載されていない単語で不要と
見られる単語を削除し、新たな単語はインデクサの判断
を経てキーワード(フリータームの)とし、確定キーワ
ードとして採用する。そして、この確定キーワードの重
要語について関連する過去の記事データベースについて
検索を行い出現頻度の高いキーワードを想像キーワード
として付与する。
【0026】
【実施例】以下図面を参照して本発明の実施例を説明す
る。
【0027】この実施例のキーワード抽出装置の構成を
図1に示す。このキーワード抽出装置は、雑誌新聞記事
データベースでのキーワード抽出装置に係るものであ
り、キーワードを抽出する雑誌新聞記事を記憶する雑誌
新聞記事全文ファイル1と、本発明の特徴とするキーワ
ード自動抽出を行う自動索引処理装置2と、抽出したキ
ーワードを記憶するキーワードファイル3と、操作者が
扱うキーボード6、ディスプレイ7、プリンタ8および
入出力処理を行う入出力処理装置5とを備えた構成であ
る。
【0028】次に本発明実施例の自動索引処理装置2で
行うキーワード抽出過程を説明する図2を示して本実施
例を説明する。
【0029】キーワード抽出を行う記事は雑誌新聞記事
全文ファイル1に格納されている。自動索引処理装置2
は、最初に雑誌新聞記事全文ファイル1に格納されてい
る記事全文を読み出して、記事の主題を最も表現する重
要語と重要文とを抽出する重要語・重要文抽出手段21
と、この重要語・重要文抽出手段21で抽出した重要語
および重要文からキーワード候補を抽出する重要語・重
要文キーワード切り出し手段22と、雑誌新聞記事全文
ファイル1から読み出した見出し行および本文中から見
出し行に含まれる単語はキーワード候補として、本文か
らは所定の条件に合致する単語をキーワード候補として
抽出する見出し行・本文キーワード切り出し手段23
と、上記二つの重要語・重要文キーワード切り出し手段
22、見出し行・本文キーワード切り出し手段23で抽
出されたキーワード候補の単語を基に、このキーワード
候補単語と一定の関係にある本文中の単語をキーワード
候補として抽出する抽出キーワード二次切り出し手段2
4と、雑誌新聞記事全文ファイル1に格納されている記
事全文中から企業名・団体名をキーワード候補として抽
出する企業名・団体名キーワード切り出し手段25と、
上記手段によってキーワード候補として抽出された単語
について利用者向けキーワード集ファイルに基づいて一
致する単語および新たに出現した単語であってインデク
サの判断によりキーワードとして採用された単語を確定
キーワードとする不要キーワード削除手段26と、確定
キーワード中の重要語をキーワードとして過去の雑誌新
聞記事データベースを検索し、関連する記事について抽
出した書誌データ中のキーワード群で出現頻度が高く、
上記確定キーワードにない単語を選択して想像キーワー
ドとして確定キーワードを格納するキーワード確定ファ
イル31に追加する想像キーワード生成手段27とを備
えたものである。
【0030】次に自動索引処理装置2で各手段の動作を
説明する。
【0031】図3は重要語・重要文抽出手段21の動作
を説明する流れ図である。
【0032】この重要語・重要文抽出手段21は出願人
が先に提案した抄録文作成装置(特願平1−28125
号)に開示されている記事の主題を表現する重要語およ
び重要文を抽出する重要語抽出手段および重要文抽出手
段を用いるものである。
【0033】まず、雑誌新聞記事全文ファイル1から、
切り出しを行おうとする記事の全文を読み込む(S4
1)。次に、記事全文中から「は」と主題化を示す複合
辞の前の単語を抽出して重要語ファイルへ格納する(S
42、S43)。この重要語の抽出は、「は」と複合辞
で係助詞の働きをし、しかも主題化を示す以下で述べる
語群の前にある漢字、カタカナ文字、英字で構成される
2文字以上の単語を抽出して重要語ファイルへ格納する
ものである。この複合辞としては、「とは」、「という
のは」、「といえば」、「というと」、「といった
ら」、「とくると」、「ときたら」、「となると」、
「となれば」、「になると」、「となっては」、「に至
ると」、「に至っては」、「かといえば」、「かという
と」、「としては」、「にしてみては」、「にしてみれ
ば」、「としても」、「にしても」、「にしたがっ
て」、「にしろ」、「にしては」、「といっても」、
「といえども」、「には」、「におかれましては」等で
ある。このような複合辞の前にある単語はこの記事内容
の主題を表現するものと考えられる。
【0034】なお、上記の「漢字、カタカナ文字、英字
で構成される単語」とは3つの文字種類が自由に混在し
ている単語もしくは1つの文字種類の単語をいい、また
「カタカナ文字、英字」には特殊符号の“ー”も含むも
のとする。
【0035】そして抽出されて重要語ファイルに格納さ
れた重要語の記事全文内での出現頻度を計数し、その出
現頻度をそれぞれの重要語の後ろに書き加え、その出現
頻度のもっとも高い単語を最重要語として確定する(S
44)。
【0036】次に再度雑誌新聞記事全文を読み込み、文
単位で最重要語と重要語の含有をチェックして重要文を
抽出する(S45)。すなわち、読み込んだ記事全文の
句点で区切った文内で最重要語が存在し、しかも重要語
が1つ以上存在する文を重要文として抽出する。そして
抽出した重要文を重要文ファイルに格納する(S4
6)。
【0037】次に図4に重要語・重要文キーワード切り
出し手段22の動作を説明する流れ図を示してその動作
を説明する。この重要語・重要文キーワード切り出し手
段22は重要語・重要文抽出手段21で抽出して重要
語、重要文からキーワードを切り出してキーワード候補
ファイルに格納する手段である。
【0038】まず、図4(A)に重要語からキーワード
を切り出す過程を説明する。重要語ファイルから重要語
を読出し、記事全文が1300文字以下であるか否かを
判断する(S51、52)。記事全文が1300文字以
下であるときは重要語ファイルの単語を全てキーワード
候補ファイルに書き出して格納する(S53、S5
5)。また記事全文が1300文字を超えるときは、出
現頻度が4回以上の単語をキーワード候補ファイルに書
き出して格納する(S54、S55)。この出現頻度に
よる判断は重要語・重要文抽出手段21で計数した出現
頻度に基づいて行う。
【0039】次に図4(B)の流れ図により重要文から
のキーワード切り出しを説明する。まず、重要文ファイ
ルから重要文を読み出す(S56)。重要文の先頭文と
次の文の2文以内で、「が」、「で」、「は」の直前の
漢字、カタカナ文字、英字で構成される2文字以上の単
語をキーワード候補として抽出する。但し、「では」は
キーワード候補として不採用とする(S57)。次に、
複合辞で時間的に相関関係を示す「とともに」、「と共
に」や意味が同じ「ともに」、「共に」の直前にある漢
字、カタカナ文字、英字で構成される2文字以上の単語
をキーワード候補として抽出する(S58)。次に複合
辞で「仕手」、「仲介」、「根拠」、「原因」を示す語
の直前の漢字、カタカナ文字、英字で構成される2文字
以上の単語をキーワード候補として抽出する(S5
9)。この複合辞は、「によって」、「により」、「に
よる」、「によると」、「によれば」、「をもって」、
「でもって」、「を通して」、「を通じて」、「にし
て」、「につき」、「という理由で」である。また、こ
の語群の直前に副助詞「など、」「等」が付加されてい
る場合も同等の扱いとする。そして複合辞で判断や評価
を成立させる立場、視点を表す表現で「にとって」、
「にとっての」、「にとりまして」、「にとっては」、
「の身から見て」、「を中心として考えると」の直前に
ある漢字、カタカナ文字、英字を構成される2文字以上
の単語をキーワード候補として抽出する(S60)。ま
た、「あらたに」、「新たに」の直後にある漢字、カタ
カナ文字、英字で構成される2文字以上の単語をキーワ
ード候補として抽出する(S61)。そして抽出した単
語をキーワード候補ファイルへ格納する(S62)。な
お、ここで抽出したキーワード候補でキーワード候補フ
ァイル内で完全一致する単語を削除して一つのキーワー
ドとするユニーク処理を行ってもよい。
【0040】次に見出し行・本文キーワード切り出し手
段23の動作を図5にその動作の流れ図を示して説明す
る。この見出し行・本文キーワード切り出し手段23
は、見出し行と本文中からキーワード候補となりうる単
語を切り出すものである。
【0041】まず、他の切り出し手段と同様に、雑誌新
聞記事全文を雑誌新聞記事全文ファイル1から読み込む
(S71)。まず見出し行であるか本文であるかを判断
する(S72)、この判断は、文末に句点のない文を含
む行を見出し行と判断するものである。そして、見出し
行に含まれる全ての漢字、かたかな文字、英字で構成さ
れる2文字以上の単語は無条件でキーワード候補として
抽出する。文字の種類の混在する単語は、混在単語とそ
れぞれの文字種別で切り分けた単語で2文字以上であれ
ば、その単語を採用する(S73)。例えば「宇宙テー
マパーク」という単語があったとき、それぞれの「宇
宙」、「テーマパーク」をキーワード候補として抽出す
る。これに対して例えば「ソ連」という単語の場合、そ
れぞれの「ソ」と「連」とは採用しない。
【0042】次に本文からは、漢字、カタカナ文字、英
字で構成される2文字以上の単語の直後に、“( ”,
“) ”すなわち括弧記号があるとき、またその括弧内
の単語が漢字、カタカナ文字、英字で構成される2文字
以上の単語であれば、双方の単語をキーワード候補とし
て抽出する。ただし、括弧内に本社、社長等の役職名が
ある場合には、括弧内の単語をキーワード候補としては
不採用とする。また、括弧内に上記以外の文字種類があ
る場合に双方とも不採用とする(S74)。
【0043】次に「に」の直前で漢字、カタカナ文字、
英字で構成される2文字以上の単語で、2回以上出現す
る時もキーワード候補として抽出する(S75)。記事
本文中に「聞き手」があるときは、「インタビュー」を
キーワード候補としてキーワード候補ファイルに書き加
える(S76)。「では」の直前で漢字、カタカナ文
字、英字で構成される2文字以上の単語で、しかも文頭
にあるとき、この単語をキーワード候補として抽出す
る。(S77)。漢字、カタカナ文字、英字で構成され
る2文字以上の単語で、しかもその単語の後ろ2文字が
「業界」であるとき「界」を取ってキーワード候補とす
る。また「政府」が付く時も「政府」を取ってキーワー
ド候補とする(S78)。漢字、カタカナ文字、英字で
構成される2文字以上の単語で、単語内に「(財)」、
「財団法人」、「(株)」、「株式会社」、「会社」、
「社」など法人種類名がある場合は、その法人種類名を
削除してキーワード候補とする(S79)。「は」と
「が」に挟まれた漢字、カタカナ文字、英字で構成され
る2文字以上の単語をキーワード候補とする(S8
0)。これは総主文といわれる文に対応するものであ
る。「と」の前と後ろの単語をキーワード候補として抽
出する。ただし、双方とも同一文字種類で構成され3文
字以上の単語であることを条件とする。片方が条件を満
足しないときは双方とも不採用とする(S81)。鍵括
弧内で、漢字、カタカナ文字、英字で構成される2文字
以上の単語の場合、無条件でキーワード候補とする。文
字種類の混在する単語は、混在単語とそれぞれ文字種類
で切り分けた単語で2文字以上であればその単語もキー
ワード候補として採用する(S82)。さらに、「もあ
る。」の直前にある漢字、カタカナ文字、英字で構成さ
れる2文字以上の単語をキーワード候補として抽出す
る。また、複合辞で伝聞、引用を示す「との」、「とい
う」、「とやら」の直前にある漢字、カタカナ文字、英
字で構成される2文字以上の単語および「に応用すれ
ば」の直前にある漢字、カタカナ文字、英字で構成され
る2文字以上の単語をキーワード候補として抽出する
(S83)。
【0044】上述の見出し行および本文から抽出したキ
ーワード候補について、キーワード候補ファイル内で完
全一致した単語を削除するユニーク処理を行い(S8
4)、抽出したキーワード候補をキーワード候補ファイ
ルへ格納する(S85)。
【0045】次に抽出キーワード二次切り出し手段24
の動作を図6の流れ図によって説明する。この抽出キー
ワード二次切り出し手段24は、主題と直接結びつかな
い固有名詞等をキーワードの周辺から取り出すものであ
る。まず、キーワード候補ファイルと雑誌新聞記事全文
ファイルとを読み込む(S91)。そして、キーワード
候補単語で最後尾に「氏」があるときこれをカットして
リライトする(S92)。そして、全文中でキーワード
候補単語の直後の「が」に続く漢字、カタカナ文字、英
字で構成される2文字以上の単語をキーワード候補とし
て抽出する(S93)。全文中でキーワード候補単語の
直前に「と」、「や」、「,」、「・」、「の」がある
時、その直前にある漢字、カタカナ文字、英字で構成さ
れる2文字以上の単語をキーワード候補として抽出する
(S94)。
【0046】そしてこれらの抽出キーワード二次切り出
しによって抽出したキーワードについてキーワード候補
ファイル内で完全一致するキーワードを削除するユニー
ク処理を行い(S95)、キーワード候補ファイルへ格
納する(S96)。
【0047】次に企業名・団体名キーワード切り出し手
段25の動作を図7の流れ図に基づいて説明する。この
企業名・団体名キーワード切り出しはキーワードとして
通常用いる企業名・団体名キーワードを抽出するもので
ある。まず、あらかじめ企業名・団体名キーワードファ
イルを作成しておく。すなわち利用者向けキーワード集
ファイルを読み込み(S101)、企業名・団体名キー
ワードを抽出し、(S102)、企業名・団体名キーワ
ードファイルを作成する(S103)。なおこの企業名
・団体名キーワードファイルの作成は、企業名・団体名
キーワード辞書がある場合にはこれを用いてもよい。次
に雑誌新聞記事全文を読み込み(S104)、全文中で
企業名・団体名キーワードファイルにある単語と完全一
致したとき、その単語をキーワード候補として抽出する
(S105)。そしてこの抽出したキーワード候補につ
いてキーワード候補内ファイル内で完全一致する単語を
削除するユニーク処理を行い、キーワード候補ファイル
に格納する(S107)。
【0048】以上の処理により、抽出されたキーワード
候補について不要キーワード削除手段26によって不要
なキーワードを削除する不要キーワード削除処理を行
う。この動作を図8の流れ図によって説明する。
【0049】まずキーワード候補ファイルを読み込み、
合わせて利用者向けキーワード集ファイルを読み込む
(S111、S112)。それぞれのファイルの単語が
完全一致するときは、キーワード候補をキーワード確定
ファイルに格納する(S115)。また、キーワード候
補について利用者向けキーワード集ファイルにないとき
はインデクサに対してその単語をキーワードとして採用
するか否かを問い合わせ、YESであれば、キーワード
確定ファイルへ格納する(S115)。このインデクサ
の判断を経たキーワードはフリータームすなわち自由語
キーワードとしてキーワード確定ファイルに格納し、二
つのファイルの完全一致の単語は統語キーワードとして
キーワード確定ファイルに格納する。インデクサの判断
がNOであればキーワードとして不採用とする(S11
7)。
【0050】次に想像キーワード生成手段27の動作を
図9の流れ図に基づいて説明する。この想像キーワード
生成手段27は本実施例の特徴とするところで、雑誌新
聞記事全文中にはなかった単語を過去の関係する雑誌新
聞記事データベースのキーワード群中からキーワードと
して抽出するものである。
【0051】キーワード確定ファイルを読み込み、キー
ワード確定ファイル内で重要語ファイルから切り出しで
抽出されたキーワードがある場合、その語をキーワード
として該当雑誌新聞記事データベースを検索し、1年以
内の書誌データを書誌データファイルへ格納する。この
とき、検索するキーワードが複数個ある場合には、2個
ずつのリーグ戦式のAND検索でデータベースを検索す
る(S122)。そして検索した書誌データについて付
与されているキーワード群のみ抽出しその出現頻度をチ
ックし、出現頻度4回以上の想像キーワードとして抽出
する(S123)。抽出した想像キーワードについてキ
ーワード確定ファイル内で完全一致する単語を削除する
ユニーク処理を行い、生成した想像キーワードをキーワ
ード確定ファイルに格納する(S124、S125)。
【0052】このようにキーワード確定ファイルに格納
されたキーワードを当該記事のキーワードとして採用す
る。
【0053】次に上記想像キーワード生成について具体
例を挙げて説明する。
【0054】使用した記事は日本経済新聞1990年3
月12日朝刊27面に掲載された記事であり、「核心各
論」「世界初の宇宙テーマパーク」「スペースワールド
社長小池孜氏」「地域活性化の先兵役に」の見出しが付
与されている。
【0055】この記事について、人手で付与されたキー
ワードはこの記事についての(株)エレクトロニックラ
イブラリが提供するEL|NET新聞記事データベース
によると「リストラクチュアリング」、「社長」、「レ
ジャーランド」、「観光開発」、「インタビュー」、
「地域活性化」、「福岡」、「北九州市」、「新日本製
鉄」、「日本興業銀行」、「福岡銀行」、「東京急行電
鉄」、「JR九州」、「スペースワールド」、(以上が
利用者向けキーワード集による統語)であり、フリータ
ームとして「テーマパーク」、「核心各論」、「小池
孜」が付与されている。
【0056】この記事からキーワード抽出手段で抽出
し、不要キーワード削除手段を経て確定した確定キーワ
ードは、「リストラクチュアリング」、「社長」、「観
光開発」、「インタビュー」、「地域活性化」、「北九
州市」、「新日本製鉄」、「日本興業銀行」、「福岡銀
行」、「東京急行電鉄」、「JR九州」、「スペースワ
ールド」、「新日鉄」、「九州旅客鉄道」、「宇宙施
設」であって、さらにインデクサの判断を経てフリータ
ームとして抽出されたキーワードは「核心各論」、「小
池孜」、「テーマパーク」である。
【0057】このなかの重要語から付与されたキーワー
ドである「北九州市」、「新日本製鉄」、「スペースワ
ールド」の3つについて「北九州市*新日本製鉄」、
「北九州市*スペースワールド」、「新日本製鉄*スペ
ースワールド」の3組でもってEL|NET新聞記事デ
ータベースで日本経済新聞社の過去1年間の記事データ
ベースを検索した。この結果、11件の書誌データを抽
出した。この書誌データのキーワード群を出現頻度の高
いキーワード群から列記すると、 9:北九州市 9:福岡 9:新日本製鉄 8:スペースワールド 4:レジャー施設(レジャーランド) 4:テーマパーク 3:日本ケンタッキーフライドチキン 3:出店 3:完工式 3:飲食店 3:井筒屋 3:伊藤忠商事 3:ロイヤル 3:フードサービス 3:ニラックス 3:オーエンオーフーヅ 3:オ・アイ 3:アールアンドシーアイ 2:八幡 2:製鉄所 2:高炉 2:キャラクター商品 以下出現頻度1以下のキーワードは省略する。
【0058】この過去の記事データベースの書誌データ
から抽出したキーワードのうち出現頻度4以上のキーワ
ードについて、すでに確定キーワードとして出現してい
る「北九州市」と「新日本製鉄」と「スペースワール
ド」と「テーマパーク」とがユニーク処理にて削除され
るので、想像キーワードとしては、「福岡」、「テーマ
パーク」、「レジャー施設(レジャーランド)」が付与
される。
【0059】この結果を、人手でキーワードを付与した
前述の書誌データと比較すると、「レジャーランド」と
「福岡」については人手によって抽出した統語のキーワ
ードと一致し、抽出すべきキーワードについてほぼもれ
がないキーワード付与ができる結果を得た。
【0060】このように、具体的に行った結果でもキー
ワードの自動抽出が可能であることを確認した。
【0061】なお、上記実施例は雑誌新聞記事データベ
ースでのキーワード自動抽出のためのキーワード抽出装
置の例で説明したが、学術論文データベース等の他のデ
ータベースでのキーワード抽出に用いることができるの
はもちろんである。
【0062】
【発明の効果】このように、本発明は、利用者向けキー
ワード集ファイルという一つの辞書のみを用いるだけ
で、専用辞書を使用することなくキーワードの自動抽出
ができる。
【0063】このため、本発明は記事データベースの作
成において、フリータームの採否のみインデクサの判断
を経ればよいだけなので、人手を必要とするキーワード
抽出を自動化できる。また、キーワード抽出のために使
用する各種の辞書の作成や更新のメンテナンスを必要と
せず、データベースシステムの構築と運営において大幅
に人的負担および経費負担を軽減することが可能であ
る。
【図面の簡単な説明】
【図1】本発明実施例のキーワード抽出装置の構成を示
す図。
【図2】実施例自動索引処理装置の構成を示す図。
【図3】重要語・重要文抽出手段の動作を説明する流れ
図。
【図4】(A)は、重要語キーワード切り出し手段の動
作を説明する流れ図、(B)は重要文キーワード切り出
し手段の動作を説明する流れ図。
【図5】見出し行・本文キーワード切り出し手段の動作
を説明する流れ図。
【図6】抽出キーワード二次切り出し手段の動作を説明
する流れ図。
【図7】企業名・団体名キーワード切り出し手段の動作
を説明する流れ図。
【図8】不要キーワード削除手段の動作を説明する流れ
図。
【図9】想像キーワード生成手段の動作を説明する流れ
図。
【符号の説明】
1 雑誌新聞記事全文ファイル 2 自動索引処理装置 3 キーワードファイル 5 入出力処理装置 6 キーボード 7 ディスプレイ 8 プリンタ
【手続補正書】
【提出日】平成4年10月7日
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】変更
【補正内容】
【図面の簡単な説明】
【図1】本発明実施例のキーワード抽出装置の構成を示
す図。
【図2】実施例自動索引処理装置の構成を示す図。
【図3】重要語・重要文抽出手段の動作を説明する流れ
図。
【図4】重要語キーワード切り出し手段の動作を説明す
る流れ図。
【図5】重要文キーワード切り出し手段の動作を説明す
る流れ図。
【図6】見出し行・本文キーワード切り出し手段の動作
を説明する流れ図。
【図7】抽出キーワード二次切り出し手段の動作を説明
する流れ図。
【図8】企業名・団体名キーワード切り出し手段の動作
を説明する流れ図。
【図9】不要キーワード削除手段の動作を説明する流れ
図。
【図10】想像キーワード生成手段の動作を説明する流
れ図。
【手続補正3】
【補正対象書類名】図面
【補正対象項目名】全図
【補正方法】変更
【補正内容】
【図1】
【図2】
【図3】
【図7】
【図4】
【図8】
【図5】
【図6】
【図9】
【図10】

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 対象とする文章全文からあらかじめ定め
    られたキーワード抽出条件に基づいて単語を切り出すキ
    ーワード抽出手段を備えたキーワード抽出装置におい
    て、 上記キーワード抽出手段は、対象とする文章の主題を表
    現する重要語を抽出する手段を含み、 この重要語をキーワードとしてあらかじめ定めた所定期
    間内のデータベースを検索して対象とする文章に関係す
    る書誌データを抽出し、この抽出した書誌データのキー
    ワード群中でその出現頻度が高く上記キーワード抽出手
    段でキーワードとして抽出されていないキーワードを対
    象とする文章にキーワードとして付与する手段を備えた
    ことを特徴とするキーワード抽出装置。
  2. 【請求項2】 対象とする記事の主題を表現する単語を
    重要語として抽出する第一手段と、 対象とする記事の主題を最も表現する文を重要文として
    抽出する第二手段と、 上記第一手段で抽出した重要語をキーワード候補として
    抽出する第三手段と、 上記第二手段で抽出した重要文から所定の条件に合致す
    る単語をキーワード候補として抽出する第四手段と、 記事の見出し行に含まれる単語をキーワード候補として
    抽出する第五手段と、 記事本文中から所定の条件に合致する単語をキーワード
    候補として抽出する第六手段と、 記事全文中から企業名および団体名をキーワード候補と
    して抽出する第七手段と、 上記キーワード候補として抽出した単語のうちデータベ
    ースの利用者用に作成された利用者用キーワード集に掲
    載されていない単語についてキーワードとして採用する
    か否かを判断し不要なキーワードを削除して確定キーワ
    ードを定める第八手段と、 この第八手段で確定されたキーワード中の上記第三手段
    で抽出した重要語からのキーワードを基にあらかじめ設
    定された所定期間内のデータベースを検索して対象とす
    る記事に関連する記事の書誌データを抽出し、この抽出
    した書誌データのキーワード群中でその出現頻度が高く
    上記第八手段で確定キーワードとして採用されていない
    単語を当該記事のキーワードとして付与する手段とを備
    えたことを特徴とするキーワード抽出装置。
  3. 【請求項3】 重要語が複数個存在する場合、この重要
    語を各々2個ずつ組み合わせたアンド検索により所定期
    間内のデータベースを検索し、抽出したキーワード群の
    うち出現頻度が4回以上のキーワードについてキーワー
    ド付与する手段を含む請求項1または2記載のキーワー
    ド抽出装置。
  4. 【請求項4】 重要語をキーワードとして検索するデー
    タベースの範囲は過去1年以内である請求項1ないし3
    のいずれか記載のキーワード抽出装置。
JP3174292A 1991-05-31 1991-05-31 キーワード抽出装置 Expired - Lifetime JP2572314B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3174292A JP2572314B2 (ja) 1991-05-31 1991-05-31 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3174292A JP2572314B2 (ja) 1991-05-31 1991-05-31 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH05120345A true JPH05120345A (ja) 1993-05-18
JP2572314B2 JP2572314B2 (ja) 1997-01-16

Family

ID=15976124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3174292A Expired - Lifetime JP2572314B2 (ja) 1991-05-31 1991-05-31 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JP2572314B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH09245059A (ja) * 1996-03-12 1997-09-19 Sharp Corp キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置
JPH10134065A (ja) * 1996-10-29 1998-05-22 Nec Corp 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JPH10198685A (ja) * 1997-01-08 1998-07-31 Dainippon Printing Co Ltd データベースシステム
JPH10274999A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JP2000298673A (ja) * 1999-04-14 2000-10-24 Oki Electric Ind Co Ltd 情報抽出装置
JP2005284914A (ja) * 2004-03-30 2005-10-13 Konami Co Ltd 文字列表示システム及び特定文字列抽出システム
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
WO2011148659A1 (ja) * 2010-05-28 2011-12-01 オムロン株式会社 特別日の登録のための情報処理方法
JP2017068359A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話制御方法
JP2017068833A (ja) * 2015-09-29 2017-04-06 株式会社東芝 単一文書からのキーワード抽出装置及び方法
CN113836257A (zh) * 2021-10-13 2021-12-24 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3792411B2 (ja) * 1998-10-12 2006-07-05 株式会社リコー 文書分類装置
JP2001117940A (ja) * 1999-10-20 2001-04-27 Just Syst Corp 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置
JPH02244274A (ja) * 1988-10-11 1990-09-28 Next Inc テキストからのキーワード抽出方法および装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置
JPH02244274A (ja) * 1988-10-11 1990-09-28 Next Inc テキストからのキーワード抽出方法および装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH09245059A (ja) * 1996-03-12 1997-09-19 Sharp Corp キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置
JPH10134065A (ja) * 1996-10-29 1998-05-22 Nec Corp 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JPH10198685A (ja) * 1997-01-08 1998-07-31 Dainippon Printing Co Ltd データベースシステム
JPH10274999A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JP2000298673A (ja) * 1999-04-14 2000-10-24 Oki Electric Ind Co Ltd 情報抽出装置
JP2005284914A (ja) * 2004-03-30 2005-10-13 Konami Co Ltd 文字列表示システム及び特定文字列抽出システム
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
WO2011148659A1 (ja) * 2010-05-28 2011-12-01 オムロン株式会社 特別日の登録のための情報処理方法
JPWO2011148659A1 (ja) * 2010-05-28 2013-07-25 オムロン株式会社 特別日の登録のための情報処理方法
JP5482894B2 (ja) * 2010-05-28 2014-05-07 オムロン株式会社 特別日の登録のための情報処理方法
JP2017068359A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話制御方法
JP2017068833A (ja) * 2015-09-29 2017-04-06 株式会社東芝 単一文書からのキーワード抽出装置及び方法
CN113836257A (zh) * 2021-10-13 2021-12-24 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质
CN113836257B (zh) * 2021-10-13 2024-04-30 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2572314B2 (ja) 1997-01-16

Similar Documents

Publication Publication Date Title
Wu et al. Domain-specific keyphrase extraction
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
Hatzigeorgiu et al. Design and Implementation of the Online ILSP Greek Corpus.
KR970004100B1 (ko) 일문 문서용 키 워드 추출 장치
US5278980A (en) Iterative technique for phrase query formation and an information retrieval system employing same
US7516125B2 (en) Processor for fast contextual searching
CN111309925A (zh) 一种军事装备的知识图谱构建方法
WO2001084376A2 (en) System for answering natural language questions
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
Gupta et al. Text summarization of Hindi documents using rule based approach
JP2572314B2 (ja) キーワード抽出装置
Gupta et al. Features selection and weight learning for Punjabi text summarization
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP3596210B2 (ja) 関連語辞書作成装置
JP3594701B2 (ja) キーセンテンス抽出装置
Seon et al. Named Entity Recognition using Machine Learning Methods and Pattern-Selection Rules.
Atwan et al. Impact of stemmer on arabic text retrieval
Chi et al. Word segmentation and recognition for web document framework
Jones et al. Experiments in Japanese text retrieval and routing using the NEAT system
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Osman et al. Opinion search in web logs
JP2002183195A (ja) 概念検索方式
Mallek et al. Automatic detection of variable data in web document: Graphical representation on demand
Al-Lahham Arabic document indexing for improved text retrieval