JP2572314B2 - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JP2572314B2
JP2572314B2 JP3174292A JP17429291A JP2572314B2 JP 2572314 B2 JP2572314 B2 JP 2572314B2 JP 3174292 A JP3174292 A JP 3174292A JP 17429291 A JP17429291 A JP 17429291A JP 2572314 B2 JP2572314 B2 JP 2572314B2
Authority
JP
Japan
Prior art keywords
keyword
extracting
word
important
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3174292A
Other languages
English (en)
Other versions
JPH05120345A (ja
Inventor
保 岩渕
幹夫 荒井
健司 大友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TELEMATIC KOKUSAI KENKYUSHO
Original Assignee
TELEMATIC KOKUSAI KENKYUSHO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TELEMATIC KOKUSAI KENKYUSHO filed Critical TELEMATIC KOKUSAI KENKYUSHO
Priority to JP3174292A priority Critical patent/JP2572314B2/ja
Publication of JPH05120345A publication Critical patent/JPH05120345A/ja
Application granted granted Critical
Publication of JP2572314B2 publication Critical patent/JP2572314B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベース等で使用
されるキーワードを自動的に抽出する装置に関する。本
発明は、特に雑誌新聞記事データベースで、それぞれの
記事に付与するキーワードを専用の辞書なしで自動的に
抽出できるようにするものである。
【0002】
【従来の技術】近年、各新聞社によって各種新聞記事デ
ータベースが構築されて利用者に提供されてきている。
この新聞記事データベースの利用は専門家でない一般の
利用者にも開放されており、その利用の裾野は広がりつ
つある。
【0003】ところで、これらの新聞記事データベース
を構築するにはデータベース化する記事についてそれぞ
れ必要なキーワードの付与を行う必要がある。これらの
キーワードの付与方法として各新聞社で記事作成の電子
化システムが作成されたことに伴いキーワードを自動抽
出することが要請され各種の自動キーワード抽出方法が
研究されている。
【0004】このキーワード自動抽出方法として、特徴
語の考えかたを利用し、辞書なしでのキーワード抽出を
統計的手法によって行おうとする提案がなされている。
文献「新聞記事データからキーワードを自動抽出する試
み」 石井健一 ドキュメンテーション研究Vol.3
3 No.11 1983.11 この提案は、キーワードとなりうる語を、記事文中から
「連続する2文字以上の漢字・片仮名文字列」をキーワ
ード候補として粗く抽出した後、このキーワード候補の
中から各記事にふさわしいキーワードを「特徴語」の考
え方にしたがって選択するものである。しかしながら、
この文献では辞書なしでのキーワード自動抽出はうまく
行かなかったと報告されている。
【0005】また、各新聞社が提供している新聞記事デ
ータベースではキーワードの自動抽出が採用されている
が、記事の主題分析とは関連性がない切り出し方法であ
るため、厳密な意味でのキーワードの自動抽出とはいえ
ないものである。
【0006】例えば朝日新聞社で採用しているキーワー
ドの抽出方法を説明する。まず、べた書きの漢字かな混
じり文を解析して(このとき文節切断、分かち書き辞書
を使用)、全文をカタカナ書きに変換する(このときカ
タカナ変換辞書を使用)。名詞をキーワードとして抽出
する(このとき品詞同定辞書として語彙辞書を使用)。
複合語は分割され、隣接の語を組み合わせて複数のカタ
カナキーワードを作成する(このとき語彙辞書を使
用)。抽出語数が多くなるのを防ぐため、抽出範囲を記
事毎に指定する。
【0007】また辞書にないフリータームの補完方法と
して、分類は人手で付与し、一種のミニシソーラスを形
成することで、処理している。
【0008】また、日本経済新聞社で採用しているキー
ワード自動抽出方法について説明する。文献「新聞記事
データベースにおけるキーワード自動抽出」 神尾達夫
JISCT 情報管理 Vol.32 No.4 J
uly 1089 ここでのキーワード自動抽出は、キーワード候補語の抽
出、キーワードの判定、統制語の追加付与の過程からな
る。
【0009】キーワード候補語の抽出は次の過程からな
る。見出しおよび全文(200字から400字)を対象
とし、単語テーブルなど各種のテーブルを参照して名詞
を抽出する(語彙関連辞書使用)。不要語テーブルに収
容された用語を削除する(不要語辞書使用)。数値は全
て不要語とする。複合語は単語に分割して合成語を作る
(分割用辞書=語彙辞書使用)。企業名、人名を抽出す
る(キーワード辞書ファイル使用)。
【0010】またキーワードの判定は一次判定と二次判
定の過程からなる。一次判定は、キーワード辞書ファイ
ルを参照し(キーワード辞書ファイル使用)、ファイル
に登録されている語をパスとし、パスしなかった語は、
インデクサの判定に任せる。二次判定では、抽出位置に
よる判定と記事の主題との一致の判定を行う。抽出位置
による判定は、見出し、記事本文のどの位置(何番目の
センテンスか)から抽出されたかによる判断であり、見
出しからの抽出はキーワードとし、記事の第1センテン
スに出現する固有名詞は重要語として判断する。記事の
主題との一致の判定は、シソーラス上の分類と記事が扱
っている主題分野が一致すればキーワードとする(シソ
ーラス使用)。
【0011】統制語の追加付与は、キーワードと判断さ
れた語から必要に応じて統制形または統制語を追加付与
する。これは補助キーワード辞書、親子ファイル辞書を
使用して、ある関係にある語を一緒にキーワードとする
ものである。
【0012】また、日本経済新聞社のキーワードの付与
ではインデクサによる点検を加味しており、見出しの修
正や、キーワードの追加削除を行っている。
【0013】さらに上記の文献は、AI技法を用いて記
事中にないキーワードを抽出する方法を提案している。
このAI技法を用いるキーワードの自動抽出技術は、自
然言語処理によってキーワードとなるいくつかの用語か
ら類推できる場合について、ルールを作成して想像キー
ワードを生成する方法である。これは、例えば「雪印乳
業は十九日開いた取締役会で鈴木常正副社長(67)を
代表取締役とするとともに社長代行に選任した。」との
文章から、解析ステップとしてその動詞「選任」の辞書
の「表層格」を手掛かりにして、次の辞書によって深層
格の格要素の内容を同定し、 この同定から、次のルール 深層格「行為者格」に対応する格要素が属性値「固
有」、「組織」をもち AND 深層格「対象格」に対応する格要素が属性値「属性」、
「地位」をもち AND 深層格「目標値」に対応する格要素が属性値「属性」、
「地位」をもつなら、キーワード「人事」を付与せよ を利用してキーワードとして上記記事に出現しなかった
「人事」を想像キーワードとして生成するものである。
【0014】
【発明が解決しようとする課題】上述の現在使用されて
いるキーワード抽出システムでは、辞書類を多量に使用
する必要がある。例えば、朝日新聞社の例では、文節切
断用辞書、カタカナ変換用辞書、品詞同定用辞書、短単
位単語辞書を使用している。また、日本経済新聞社の例
では、品詞同定用辞書、不要語辞書、短単位単語辞書、
シソーラス辞書等を利用している。
【0015】しかし、これらのキーワード抽出システム
では、専用辞書を用いてキーワードを抽出しているた
め、この辞書を作成し、更新を行う作業は膨大なものと
なっている。例えば、辞書を作成するには、膨大な経
費、人手を必要としており、また辞書の自動作成技術は
いまだ研究レベルにあって実用化されていない。さら
に、辞書のメンテナンス作業を日々行う必要があり、そ
のための担当者の肉体的、精神的な負担は大変なものが
ある。例えば、辞書を作成あるいは更新する際に抽出し
た単語をどのように分類するかはインデクサが点検し、
その追加、削除作業を人手で行う必要があるため、日々
時間に追われながら更新作業を行っている新聞記事デー
タベースなどではその為の担当者の負担は大変なものが
ある。また単語の分類等の作業はインデクサの知識に委
ねられており、最終的にインデクサ個々人の判断でキー
ワードが付されることになるため、標準化が難しい問題
がある。
【0016】さらに抽出範囲を見出し文および所定の字
数の文章までとすると、記事の内容、例えば社説のよう
な論説であって記事の後半に結論がくるようなもので
は、記事の主題にかかわるキーワードを落とすことがあ
り得て、記事の主題分析を行わないキーワード抽出で
は、検索精度を高くできない問題がある。
【0017】本発明は、キーワード抽出用の専用辞書を
使用せずにフリータームの採用の可否のみを人手で判断
するだけで、自動的にキーワードを抽出でき、データベ
ース作成でキーワード抽出作業において必要な人手を大
幅に減らすことが可能で、人的負担および経済的負担を
軽減するキーワード抽出装置を提供することを目的とす
る。
【0018】
【課題を解決するための手段】本発明は、対象とする文
章全文からあらかじめ定められたキーワード抽出条件に
基づいて単語を切り出すキーワード抽出手段を備えたキ
ーワード抽出装置において、上記キーワード抽出手段
は、対象とする文章の主題を表現する重要語を抽出する
手段を含み、この重要語をキーワードとしてあらかじめ
定めた所定期間内のデータベースを検索して対象とする
文章に関係する書誌データを抽出し、この抽出した書誌
データのキーワード群中でその出現頻度が高く上記キー
ワード抽出手段で重要語として抽出されていないキーワ
ードを対象とする文章にキーワードとして付与する手段
を備えたことを特徴とする。
【0019】また、本発明は記事データベースに係る技
術であって、対象とする記事の主題を表現する単語を重
要語として抽出する重要語抽出手段と、対象とする記事
の主題を最も表現する文を重要文として抽出する重要文
抽出手段と、上記重要語手段で抽出した重要語をキーワ
ード候補として抽出する重要語キーワード切り出し手段
と、上記重要文抽出手段で抽出した重要文から所定の条
件に合致する単語をキーワード候補として抽出する重要
文キーワード切り出し手段と、記事の見出し行に含まれ
る単語をキーワード候補として抽出する見出しキーワー
ド切り出し手段と、記事本文中から所定の条件に合致す
る単語をキーワード候補として抽出する記事本文キーワ
ード抽出手段と、記事全文中から企業名および団体名を
キーワード候補として抽出する企業名団体名キーワード
切り出し手段と、上記キーワード候補として抽出した単
語のうちデータベースの利用者用に作成された利用者用
キーワード集が格納された辞書手段を参照しこの辞書手
段にはない単語についてキーワードとして採用するか否
かを判断し不要なキーワードを削除して確定キーワード
を定める不要キーワード削除手段と、上記重要語キーワ
ード抽出手段で抽出した重要語からのキーワードを基に
あらかじめ設定された所定期間内のデータベースを検索
して対象とする記事に関連する記事の書誌データを抽出
し、この抽出した書誌データのキーワード群中でその出
現頻度が高く上記重要語抽出手段で重要語として抽出さ
れていないキーワードを対象とする記事のキーワードと
して付与する手段とを備えたことを特徴とする。
【0020】なお、重要語が複数個存在する場合、この
重要語を各々2個ずつ組み合わせたアンド検索により所
定期間内のデータベースを検索し、抽出したキーワード
群のうち出現頻度が4回以上のキーワードについてキー
ワード付与する手段を含むことができる。
【0021】また、重要語をキーワードとして検索する
データベースの範囲は過去1年以内であることができ
る。
【0022】
【作用】本発明のキーワード抽出では、キーワード付与
の対象とする文章の中には出現しない語句について、共
通するキーワードが付与された過去の関連する記事につ
いて付与されたキーワードを参考にして、関連する記事
に付与された率の高いキーワードを、原文章には出現し
ない語句ではあるが全体から考えて記事の主題を表現し
ている想像キーワードとして付与する。
【0023】すなわち人間の思考過程は時間軸上での連
想過程であることに着目すると、原記事全体から想像す
るキーワードは限りなく現時点に近く、しかも、内容の
類似度の高い記事が無意識に想起されてそれに付与した
キーワードを参照するはずであると考えられる。この考
え方に基づいて想像キーワードを付与する。
【0024】この想像キーワード付与は、記事から抽出
された重要語をキーワードとして過去の記事データベー
スを検索して、関連記事のデータベースからキーワード
群を取り出し、そのキーワード群で出現頻度の大きいキ
ーワードであって、記事全文中に含まれる単語からキー
ワードを抽出するものでは抽出できなかったキーワード
を想像キーワードとして付与する。
【0025】この想像キーワードの付与に先立って、記
事主題を表現する重要語、重要文の抽出を行ってキーワ
ード候補を抽出する。また、見出し行、本文からキーワ
ード抽出条件にしたがってキーワード候補を抽出する。
さらに企業名、団体名をキーワード候補として抽出す
る。これら抽出したキーワード候補について利用者向け
キーワード集ファイルに掲載されていない単語で不要と
見られる単語を削除し、新たな単語はインデクサの判断
を経てキーワード(フリータームの)とし、確定キーワ
ードとして採用する。そして、この確定キーワードの重
要語について関連する過去の記事データベースについて
検索を行い出現頻度の高いキーワードを想像キーワード
として付与する。
【0026】
【実施例】以下図面を参照して本発明の実施例を説明す
る。
【0027】この実施例のキーワード抽出装置の構成を
図1に示す。このキーワード抽出装置は、雑誌新聞記事
データベースでのキーワード抽出装置に係るものであ
り、キーワードを抽出する雑誌新聞記事を記憶する雑誌
新聞記事全文ファイル1と、本発明の特徴とするキーワ
ード自動抽出を行う自動索引処理装置2と、抽出したキ
ーワードを記憶するキーワードファイル3と、操作者が
扱うキーボード6、ディスプレイ7、プリンタ8および
入出力処理を行う入出力処理装置5とを備えた構成であ
る。
【0028】次に本発明実施例の自動索引処理装置2で
行うキーワード抽出過程を説明する図2を示して本実施
例を説明する。
【0029】キーワード抽出を行う記事は雑誌新聞記事
全文ファイル1に格納されている。自動索引処理装置2
は、最初に雑誌新聞記事全文ファイル1に格納されてい
る記事全文を読み出して、記事の主題を最も表現する重
要語と重要文とを抽出する重要語・重要文抽出手段21
と、この重要語・重要文抽出手段21で抽出した重要語
および重要文からキーワード候補を抽出する重要語・重
要文キーワード切り出し手段22と、雑誌新聞記事全文
ファイル1から読み出した見出し行および本文中から見
出し行に含まれる単語はキーワード候補として、本文か
らは所定の条件に合致する単語をキーワード候補として
抽出する見出し行・本文キーワード切り出し手段23
と、上記二つの重要語・重要文キーワード切り出し手段
22、見出し行・本文キーワード切り出し手段23で抽
出されたキーワード候補の単語を基に、このキーワード
候補単語と一定の関係にある本文中の単語をキーワード
候補として抽出する抽出キーワード二次切り出し手段2
4と、雑誌新聞記事全文ファイル1に格納されている記
事全文中から企業名・団体名をキーワード候補として抽
出する企業名・団体名キーワード切り出し手段25と、
上記手段によってキーワード候補として抽出された単語
について利用者向けキーワード集ファイルに基づいて一
致する単語および新たに出現した単語であってインデク
サの判断によりキーワードとして採用された単語を確定
キーワードとする不要キーワード削除手段26と、確定
キーワード中の重要語をキーワードとして過去の雑誌新
聞記事データベースを検索し、関連する記事について抽
出した書誌データ中のキーワード群で出現頻度が高く、
上記確定キーワードにない単語を選択して想像キーワー
ドとして確定キーワードを格納するキーワード確定ファ
イル31に追加する想像キーワード生成手段27とを備
えたものである。
【0030】次に自動索引処理装置2で各手段の動作を
説明する。
【0031】図3は重要語・重要文抽出手段21の動作
を説明する流れ図である。
【0032】この重要語・重要文抽出手段21は出願人
が先に提案した抄録文作成装置(特願平1−28125
号)に開示されている記事の主題を表現する重要語およ
び重要文を抽出する重要語抽出手段および重要文抽出手
段を用いるものである。
【0033】まず、雑誌新聞記事全文ファイル1から、
切り出しを行おうとする記事の全文を読み込む(S4
1)。次に、記事全文中から「は」と主題化を示す複合
辞の前の単語を抽出して重要語ファイルへ格納する(S
42、S43)。この重要語の抽出は、「は」と複合辞
で係助詞の働きをし、しかも主題化を示す以下で述べる
語群の前にある漢字、カタカナ文字、英字で構成される
2文字以上の単語を抽出して重要語ファイルへ格納する
ものである。この複合辞としては、「とは」、「という
のは」、「といえば」、「というと」、「といった
ら」、「とくると」、「ときたら」、「となると」、
「となれば」、「になると」、「となっては」、「に至
ると」、「に至っては」、「かといえば」、「かという
と」、「としては」、「にしてみては」、「にしてみれ
ば」、「としても」、「にしても」、「にしたがっ
て」、「にしろ」、「にしては」、「といっても」、
「といえども」、「には」、「におかれましては」等で
ある。このような複合辞の前にある単語はこの記事内容
の主題を表現するものと考えられる。
【0034】なお、上記の「漢字、カタカナ文字、英字
で構成される単語」とは3つの文字種類が自由に混在し
ている単語もしくは1つの文字種類の単語をいい、また
「カタカナ文字、英字」には特殊符号の“ー”も含むも
のとする。
【0035】そして抽出されて重要語ファイルに格納さ
れた重要語の記事全文内での出現頻度を計数し、その出
現頻度をそれぞれの重要語の後ろに書き加え、その出現
頻度のもっとも高い単語を最重要語として確定する(S
44)。
【0036】次に再度雑誌新聞記事全文を読み込み、文
単位で最重要語と重要語の含有をチェックして重要文を
抽出する(S45)。すなわち、読み込んだ記事全文の
句点で区切った文内で最重要語が存在し、しかも重要語
が1つ以上存在する文を重要文として抽出する。そして
抽出した重要文を重要文ファイルに格納する(S4
6)。
【0037】次に図4および図5に重要語・重要文キー
ワード切り出し手段22の動作を説明する流れ図を示し
てその動作を説明する。この重要語・重要文キーワード
切り出し手段22は重要語・重要文抽出手段21で抽出
して重要語、重要文からキーワードを切り出してキーワ
ード候補ファイルに格納する手段である。
【0038】まず、図4(A)に重要語からキーワード
を切り出す過程を説明する。重要語ファイルから重要語
を読出し、記事全文が1300文字以下であるか否かを
判断する(S51、52)。記事全文が1300文字以
下であるときは重要語ファイルの単語を全てキーワード
候補ファイルに書き出して格納する(S53、S5
5)。また記事全文が1300文字を超えるときは、出
現頻度が4回以上の単語をキーワード候補ファイルに書
き出して格納する(S54、S55)。この出現頻度に
よる判断は重要語・重要文抽出手段21で計数した出現
頻度に基づいて行う。
【0039】次に図(B)の流れ図により重要文から
のキーワード切り出しを説明する。まず、重要文ファイ
ルから重要文を読み出す(S56)。重要文の先頭文と
次の文の2文以内で、「が」、「で」、「は」の直前の
漢字、カタカナ文字、英字で構成される2文字以上の単
語をキーワード候補として抽出する。但し、「では」は
キーワード候補として不採用とする(S57)。次に、
複合辞で時間的に相関関係を示す「とともに」、「と共
に」や意味が同じ「ともに」、「共に」の直前にある漢
字、カタカナ文字、英字で構成される2文字以上の単語
をキーワード候補として抽出する(S58)。次に複合
辞で「仕手」、「仲介」、「根拠」、「原因」を示す語
の直前の漢字、カタカナ文字、英字で構成される2文字
以上の単語をキーワード候補として抽出する(S5
9)。この複合辞は、「によって」、「により」、「に
よる」、「によると」、「によれば」、「をもって」、
「でもって」、「を通して」、「を通じて」、「にし
て」、「につき」、「という理由で」である。また、こ
の語群の直前に副助詞「など、」「等」が付加されてい
る場合も同等の扱いとする。そして複合辞で判断や評価
を成立させる立場、視点を表す表現で「にとって」、
「にとっての」、「にとりまして」、「にとっては」、
「の身から見て」、「を中心として考えると」の直前に
ある漢字、カタカナ文字、英字を構成される2文字以上
の単語をキーワード候補として抽出する(S60)。ま
た、「あらたに」、「新たに」の直後にある漢字、カタ
カナ文字、英字で構成される2文字以上の単語をキーワ
ード候補として抽出する(S61)。そして抽出した単
語をキーワード候補ファイルへ格納する(S62)。な
お、ここで抽出したキーワード候補でキーワード候補フ
ァイル内で完全一致する単語を削除して一つのキーワー
ドとするユニーク処理を行ってもよい。
【0040】次に見出し行・本文キーワード切り出し手
段23の動作を図にその動作の流れ図を示して説明す
る。この見出し行・本文キーワード切り出し手段23
は、見出し行と本文中からキーワード候補となりうる単
語を切り出すものである。
【0041】まず、他の切り出し手段と同様に、雑誌新
聞記事全文を雑誌新聞記事全文ファイル1から読み込む
(S71)。まず見出し行であるか本文であるかを判断
する(S72)、この判断は、文末に句点のない文を含
む行を見出し行と判断するものである。そして、見出し
行に含まれる全ての漢字、かたかな文字、英字で構成さ
れる2文字以上の単語は無条件でキーワード候補として
抽出する。文字の種類の混在する単語は、混在単語とそ
れぞれの文字種別で切り分けた単語で2文字以上であれ
ば、その単語を採用する(S73)。例えば「宇宙テー
マパーク」という単語があったとき、それぞれの「宇
宙」、「テーマパーク」をキーワード候補として抽出す
る。これに対して例えば「ソ連」という単語の場合、そ
れぞれの「ソ」と「連」とは採用しない。
【0042】次に本文からは、漢字、カタカナ文字、英
字で構成される2文字以上の単語の直後に、“( ”,
“) ”すなわち括弧記号があるとき、またその括弧内
の単語が漢字、カタカナ文字、英字で構成される2文字
以上の単語であれば、双方の単語をキーワード候補とし
て抽出する。ただし、括弧内に本社、社長等の役職名が
ある場合には、括弧内の単語をキーワード候補としては
不採用とする。また、括弧内に上記以外の文字種類があ
る場合に双方とも不採用とする(S74)。
【0043】次に「に」の直前で漢字、カタカナ文字、
英字で構成される2文字以上の単語で、2回以上出現す
る時もキーワード候補として抽出する(S75)。記事
本文中に「聞き手」があるときは、「インタビュー」を
キーワード候補としてキーワード候補ファイルに書き加
える(S76)。「では」の直前で漢字、カタカナ文
字、英字で構成される2文字以上の単語で、しかも文頭
にあるとき、この単語をキーワード候補として抽出す
る。(S77)。漢字、カタカナ文字、英字で構成され
る2文字以上の単語で、しかもその単語の後ろ2文字が
「業界」であるとき「界」を取ってキーワード候補とす
る。また「政府」が付く時も「政府」を取ってキーワー
ド候補とする(S78)。漢字、カタカナ文字、英字で
構成される2文字以上の単語で、単語内に「(財)」、
「財団法人」、「(株)」、「株式会社」、「会社」、
「社」など法人種類名がある場合は、その法人種類名を
削除してキーワード候補とする(S79)。「は」と
「が」に挟まれた漢字、カタカナ文字、英字で構成され
る2文字以上の単語をキーワード候補とする(S8
0)。これは総主文といわれる文に対応するものであ
る。「と」の前と後ろの単語をキーワード候補として抽
出する。ただし、双方とも同一文字種類で構成され3文
字以上の単語であることを条件とする。片方が条件を満
足しないときは双方とも不採用とする(S81)。鍵括
弧内で、漢字、カタカナ文字、英字で構成される2文字
以上の単語の場合、無条件でキーワード候補とする。文
字種類の混在する単語は、混在単語とそれぞれ文字種類
で切り分けた単語で2文字以上であればその単語もキー
ワード候補として採用する(S82)。さらに、「もあ
る。」の直前にある漢字、カタカナ文字、英字で構成さ
れる2文字以上の単語をキーワード候補として抽出す
る。また、複合辞で伝聞、引用を示す「との」、「とい
う」、「とやら」の直前にある漢字、カタカナ文字、英
字で構成される2文字以上の単語および「に応用すれ
ば」の直前にある漢字、カタカナ文字、英字で構成され
る2文字以上の単語をキーワード候補として抽出する
(S83)。
【0044】上述の見出し行および本文から抽出したキ
ーワード候補について、キーワード候補ファイル内で完
全一致した単語を削除するユニーク処理を行い(S8
4)、抽出したキーワード候補をキーワード候補ファイ
ルへ格納する(S85)。
【0045】次に抽出キーワード二次切り出し手段24
の動作を図の流れ図によって説明する。この抽出キー
ワード二次切り出し手段24は、主題と直接結びつかな
い固有名詞等をキーワードの周辺から取り出すものであ
る。まず、キーワード候補ファイルと雑誌新聞記事全文
ファイルとを読み込む(S91)。そして、キーワード
候補単語で最後尾に「氏」があるときこれをカットして
リライトする(S92)。そして、全文中でキーワード
候補単語の直後の「が」に続く漢字、カタカナ文字、英
字で構成される2文字以上の単語をキーワード候補とし
て抽出する(S93)。全文中でキーワード候補単語の
直前に「と」、「や」、「,」、「・」、「の」がある
時、その直前にある漢字、カタカナ文字、英字で構成さ
れる2文字以上の単語をキーワード候補として抽出する
(S94)。
【0046】そしてこれらの抽出キーワード二次切り出
しによって抽出したキーワードについてキーワード候補
ファイル内で完全一致するキーワードを削除するユニー
ク処理を行い(S95)、キーワード候補ファイルへ格
納する(S96)。
【0047】次に企業名・団体名キーワード切り出し手
段25の動作を図の流れ図に基づいて説明する。この
企業名・団体名キーワード切り出しはキーワードとして
通常用いる企業名・団体名キーワードを抽出するもので
ある。まず、あらかじめ企業名・団体名キーワードファ
イルを作成しておく。すなわち利用者向けキーワード集
ファイルを読み込み(S101)、企業名・団体名キー
ワードを抽出し、(S102)、企業名・団体名キーワ
ードファイルを作成する(S103)。なおこの企業名
・団体名キーワードファイルの作成は、企業名・団体名
キーワード辞書がある場合にはこれを用いてもよい。次
に雑誌新聞記事全文を読み込み(S104)、全文中で
企業名・団体名キーワードファイルにある単語と完全一
致したとき、その単語をキーワード候補として抽出する
(S105)。そしてこの抽出したキーワード候補につ
いてキーワード候補内ファイル内で完全一致する単語を
削除するユニーク処理を行い、キーワード候補ファイル
に格納する(S107)。
【0048】以上の処理により、抽出されたキーワード
候補について不要キーワード削除手段26によって不要
なキーワードを削除する不要キーワード削除処理を行
う。この動作を図の流れ図によって説明する。
【0049】まずキーワード候補ファイルを読み込み、
合わせて利用者向けキーワード集ファイルを読み込む
(S111、S112)。それぞれのファイルの単語が
完全一致するときは、キーワード候補をキーワード確定
ファイルに格納する(S115)。また、キーワード候
補について利用者向けキーワード集ファイルにないとき
はインデクサに対してその単語をキーワードとして採用
するか否かを問い合わせ、YESであれば、キーワード
確定ファイルへ格納する(S115)。このインデクサ
の判断を経たキーワードはフリータームすなわち自由語
キーワードとしてキーワード確定ファイルに格納し、二
つのファイルの完全一致の単語は統語キーワードとして
キーワード確定ファイルに格納する。インデクサの判断
がNOであればキーワードとして不採用とする(S11
7)。
【0050】次に想像キーワード生成手段27の動作を
10の流れ図に基づいて説明する。この想像キーワー
ド生成手段27は本実施例の特徴とするところで、雑誌
新聞記事全文中にはなかった単語を過去の関係する雑誌
新聞記事データベースのキーワード群中からキーワード
として抽出するものである。
【0051】キーワード確定ファイルを読み込み、キー
ワード確定ファイル内で重要語ファイルから切り出しで
抽出されたキーワードがある場合、その語をキーワード
として該当雑誌新聞記事データベースを検索し、1年以
内の書誌データを書誌データファイルへ格納する。この
とき、検索するキーワードが複数個ある場合には、2個
ずつのリーグ戦式のAND検索でデータベースを検索す
る(S122)。そして検索した書誌データについて付
与されているキーワード群のみ抽出しその出現頻度をチ
ックし、出現頻度4回以上の想像キーワードとして抽出
する(S123)。抽出した想像キーワードについてキ
ーワード確定ファイル内で完全一致する単語を削除する
ユニーク処理を行い、生成した想像キーワードをキーワ
ード確定ファイルに格納する(S124、S125)。
【0052】このようにキーワード確定ファイルに格納
されたキーワードを当該記事のキーワードとして採用す
る。
【0053】次に上記想像キーワード生成について具体
例を挙げて説明する。
【0054】使用した記事は日本経済新聞1990年3
月12日朝刊27面に掲載された記事であり、「核心各
論」「世界初の宇宙テーマパーク」「スペースワールド
社長小池孜氏」「地域活性化の先兵役に」の見出しが付
与されている。
【0055】この記事について、人手で付与されたキー
ワードはこの記事についての(株)エレクトロニックラ
イブラリが提供するEL|NET新聞記事データベース
によると「リストラクチュアリング」、「社長」、「レ
ジャーランド」、「観光開発」、「インタビュー」、
「地域活性化」、「福岡」、「北九州市」、「新日本製
鉄」、「日本興業銀行」、「福岡銀行」、「東京急行電
鉄」、「JR九州」、「スペースワールド」、(以上が
利用者向けキーワード集による統語)であり、フリータ
ームとして「テーマパーク」、「核心各論」、「小池
孜」が付与されている。
【0056】この記事からキーワード抽出手段で抽出
し、不要キーワード削除手段を経て確定した確定キーワ
ードは、「リストラクチュアリング」、「社長」、「観
光開発」、「インタビュー」、「地域活性化」、「北九
州市」、「新日本製鉄」、「日本興業銀行」、「福岡銀
行」、「東京急行電鉄」、「JR九州」、「スペースワ
ールド」、「新日鉄」、「九州旅客鉄道」、「宇宙施
設」であって、さらにインデクサの判断を経てフリータ
ームとして抽出されたキーワードは「核心各論」、「小
池孜」、「テーマパーク」である。
【0057】このなかの重要語から付与されたキーワー
ドである「北九州市」、「新日本製鉄」、「スペースワ
ールド」の3つについて「北九州市*新日本製鉄」、
「北九州市*スペースワールド」、「新日本製鉄*スペ
ースワールド」の3組でもってEL|NET新聞記事デ
ータベースで日本経済新聞社の過去1年間の記事データ
ベースを検索した。この結果、11件の書誌データを抽
出した。この書誌データのキーワード群を出現頻度の高
いキーワード群から列記すると、 9:北九州市 9:福岡 9:新日本製鉄 8:スペースワールド 4:レジャー施設(レジャーランド) 4:テーマパーク 3:日本ケンタッキーフライドチキン 3:出店 3:完工式 3:飲食店 3:井筒屋 3:伊藤忠商事 3:ロイヤル 3:フードサービス 3:ニラックス 3:オーエンオーフーヅ 3:オ・アイ 3:アールアンドシーアイ 2:八幡 2:製鉄所 2:高炉 2:キャラクター商品 以下出現頻度1以下のキーワードは省略する。
【0058】この過去の記事データベースの書誌データ
から抽出したキーワードのうち出現頻度4以上のキーワ
ードについて、すでに確定キーワードとして出現してい
る「北九州市」と「新日本製鉄」と「スペースワール
ド」と「テーマパーク」とがユニーク処理にて削除され
るので、想像キーワードとしては、「福岡」、「テーマ
パーク」、「レジャー施設(レジャーランド)」が付与
される。
【0059】この結果を、人手でキーワードを付与した
前述の書誌データと比較すると、「レジャーランド」と
「福岡」については人手によって抽出した統語のキーワ
ードと一致し、抽出すべきキーワードについてほぼもれ
がないキーワード付与ができる結果を得た。
【0060】このように、具体的に行った結果でもキー
ワードの自動抽出が可能であることを確認した。
【0061】なお、上記実施例は雑誌新聞記事データベ
ースでのキーワード自動抽出のためのキーワード抽出装
置の例で説明したが、学術論文データベース等の他のデ
ータベースでのキーワード抽出に用いることができるの
はもちろんである。
【0062】
【発明の効果】このように、本発明は、利用者向けキー
ワード集ファイルという一つの辞書のみを用いるだけ
で、専用辞書を使用することなくキーワードの自動抽出
ができる。
【0063】このため、本発明は記事データベースの作
成において、フリータームの採否のみインデクサの判断
を経ればよいだけなので、人手を必要とするキーワード
抽出を自動化できる。また、キーワード抽出のために使
用する各種の辞書の作成や更新のメンテナンスを必要と
せず、データベースシステムの構築と運営において大幅
に人的負担および経費負担を軽減することが可能であ
る。
【図面の簡単な説明】
【図1】本発明実施例のキーワード抽出装置の構成を示
す図。
【図2】実施例自動索引処理装置の構成を示す図。
【図3】重要語・重要文抽出手段の動作を説明する流れ
図。
【図4】重要語キーワード切り出し手段の動作を説明す
る流れ図。
【図5】重要文キーワード切り出し手段の動作を説明す
る流れ図。
【図6】見出し行・本文キーワード切り出し手段の動作
を説明する流れ図。
【図7】抽出キーワード二次切り出し手段の動作を説明
する流れ図。
【図8】企業名・団体名キーワード切り出し手段の動作
を説明する流れ図。
【図9】不要キーワード削除手段の動作を説明する流れ
図。
【図10】想像キーワード生成手段の動作を説明する流
れ図。

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 対象とする文章全文からあらかじめ定め
    られたキーワード抽出条件に基づいて単語を切り出すキ
    ーワード抽出手段を備えたキーワード抽出装置におい
    て、 上記キーワード抽出手段は、対象とする文章の主題を表
    現する重要語を抽出する手段を含み、 この重要語をキーワードとしてデータベースに蓄積され
    ている過去のあらかじめ定められた所定期間内のデータ
    を検索してキーワード抽出対象の文章に関連する別の文
    章に付与されたキーワード群を抽出し、その抽出した
    ーワード群中でその出現頻度が高く上記キーワード抽出
    手段でキーワード抽出対象の文章の重要語として抽出さ
    れていないキーワードを対象とする文章にキーワードと
    して付与する手段を備えたことを特徴とするキーワード
    抽出装置。
  2. 【請求項2】 対象とする記事の主題を表現する単語を
    重要語として抽出する重要語抽出手段と、 対象とする記事の主題を最も表現する文を重要文として
    抽出する重要文抽出手段と、 上記重要語手段で抽出した重要語をキーワード候補とし
    て抽出する重要語キーワード切り出し手段と、 上記重要文抽出手段で抽出した重要文から所定の条件に
    合致する単語をキーワード候補として抽出する重要文キ
    ーワード切り出し手段と、 記事の見出し行に含まれる単語をキーワード候補として
    抽出する見出しキーワード切り出し手段と、 記事本文中から所定の条件に合致する単語をキーワード
    候補として抽出する本文キーワード切り出し手段と、 記事全文中から企業名および団体名をキーワード候補と
    して抽出する企業名団体名キーワード切り出し手段と、 上記キーワード候補として抽出した単語のうちデータベ
    ースの利用者用に作成された利用者用キーワード集が格
    納された辞書手段を参照しこの辞書手段にはない単語に
    ついてキーワードとして採用するか否かを判断し不要な
    キーワードを削除して確定キーワードを定める不要キー
    ワード削除手段と、 上記重要語キーワード抽出手段で抽出した重要語からの
    キーワードを基にデータベースに蓄積されている過去の
    あらかじめ定められた所定期間内のデータを検索して
    ーワード抽出対象の記事に関連する別の記事に付与され
    たキーワード群を抽出し、この抽出した書誌データのキ
    ーワード群中でその出現頻度が高く上記重要語抽出手段
    で重要語として抽出されていないキーワードを対象とす
    る記事のキーワードとして付与する手段とを備えたこと
    を特徴とするキーワード抽出装置。
  3. 【請求項3】 重要語が複数個存在する場合、この重要
    語を各々2個ずつ組み合わせたアンド検索により所定期
    間内のデータベースを検索し、抽出したキーワード群の
    うち出現頻度が4回以上のキーワードについてキーワー
    ド付与する手段を含む請求項1または2記載のキーワー
    ド抽出装置。
  4. 【請求項4】 重要語をキーワードとして検索するデー
    タベースの範囲は過去1年以内である請求項1ないし3
    のいずれか記載のキーワード抽出装置。
JP3174292A 1991-05-31 1991-05-31 キーワード抽出装置 Expired - Lifetime JP2572314B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3174292A JP2572314B2 (ja) 1991-05-31 1991-05-31 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3174292A JP2572314B2 (ja) 1991-05-31 1991-05-31 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH05120345A JPH05120345A (ja) 1993-05-18
JP2572314B2 true JP2572314B2 (ja) 1997-01-16

Family

ID=15976124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3174292A Expired - Lifetime JP2572314B2 (ja) 1991-05-31 1991-05-31 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JP2572314B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123020A (ja) * 1998-10-12 2000-04-28 Ricoh Co Ltd 文書分類装置
JP2001117940A (ja) * 1999-10-20 2001-04-27 Just Syst Corp 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3442214B2 (ja) * 1996-03-12 2003-09-02 シャープ株式会社 キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置
JPH10134065A (ja) * 1996-10-29 1998-05-22 Nec Corp 索引情報生成装置、索引情報生成方法および索引情報生 成用 プログラムを記憶した記憶媒体
JPH10198685A (ja) * 1997-01-08 1998-07-31 Dainippon Printing Co Ltd データベースシステム
JPH10274999A (ja) * 1997-03-31 1998-10-13 Sanyo Electric Co Ltd 文書読み上げ装置
JP3707044B2 (ja) * 1999-04-14 2005-10-19 沖電気工業株式会社 情報抽出装置
JP3694517B1 (ja) * 2004-03-30 2005-09-14 コナミ株式会社 文字列表示システム及び特定文字列抽出システム
JP5234992B2 (ja) * 2009-05-19 2013-07-10 日本電信電話株式会社 回答文書分類装置、回答文書分類方法及びプログラム
JP5482894B2 (ja) * 2010-05-28 2014-05-07 オムロン株式会社 特別日の登録のための情報処理方法
JP2017068359A (ja) * 2015-09-28 2017-04-06 株式会社デンソー 対話装置及び対話制御方法
CN106557460A (zh) * 2015-09-29 2017-04-05 株式会社东芝 从单文档中提取关键词的装置及方法
CN113836257B (zh) * 2021-10-13 2024-04-30 科大讯飞股份有限公司 一种热词挖掘方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0740275B2 (ja) * 1987-10-26 1995-05-01 日本電信電話株式会社 キーワード重要度自動評価装置
CA1318403C (en) * 1988-10-11 1993-05-25 Michael J. Hawley Method and apparatus for extracting keywords from text

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123020A (ja) * 1998-10-12 2000-04-28 Ricoh Co Ltd 文書分類装置
JP2001117940A (ja) * 1999-10-20 2001-04-27 Just Syst Corp 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JPH05120345A (ja) 1993-05-18

Similar Documents

Publication Publication Date Title
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
US5278980A (en) Iterative technique for phrase query formation and an information retrieval system employing same
KR970004100B1 (ko) 일문 문서용 키 워드 추출 장치
US7295967B2 (en) System and method of analyzing text using dynamic centering resonance analysis
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
CN111309925A (zh) 一种军事装备的知识图谱构建方法
JP2572314B2 (ja) キーワード抽出装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP3198932B2 (ja) 文書検索装置
JP3596210B2 (ja) 関連語辞書作成装置
JP3594701B2 (ja) キーセンテンス抽出装置
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
Zulkhazhav et al. Kazakh text summarization using fuzzy logic
Baruah et al. A novel approach of text summarization using Assamese WordNet
JPS61248160A (ja) 文書情報登録方式
Demiros et al. Named Entity Recognition in Greek Texts.
Panunzi et al. Keyword extraction in open-domain multilingual textual resources
Smeaton et al. Information retrieval in an office filing facility and future work in Project Minstrel
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
Al-Lahham Arabic document indexing for improved text retrieval
AU6552399A (en) Method for resolution of natural-language queries against full-text databases
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置