JP2883153B2 - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JP2883153B2
JP2883153B2 JP2087833A JP8783390A JP2883153B2 JP 2883153 B2 JP2883153 B2 JP 2883153B2 JP 2087833 A JP2087833 A JP 2087833A JP 8783390 A JP8783390 A JP 8783390A JP 2883153 B2 JP2883153 B2 JP 2883153B2
Authority
JP
Japan
Prior art keywords
word
dictionary
keyword
compound
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2087833A
Other languages
English (en)
Other versions
JPH03286372A (ja
Inventor
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2087833A priority Critical patent/JP2883153B2/ja
Publication of JPH03286372A publication Critical patent/JPH03286372A/ja
Application granted granted Critical
Publication of JP2883153B2 publication Critical patent/JP2883153B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は日本語文書についてのキーワード抽出装置に
関する。
従来の技術 従来、文書から自動的にキーワードを抽出する技術と
して言語現象に着目した手法がある。これは頻度などに
よる統計的手法に比べ、文書の内容を反映させることが
できると考えられている。このような言語現象に着目し
た手法として語特徴評価法(例えば「キーワード自動抽
出と需要度評価」情報処理学会自然言語処理研究会、19
87.11.20)がある。これは、抽出した語に対して必要な
キーワードであるかどうかを評価するものである。この
評価法にシソーラス上の位置、文書中の出現位置、頻
度、並列表現か、連体修飾語か、などの観点から複合語
の評価を行って適切な語をキーワードとするものであ
る。
しかし、文書中のキーワードとなる語は、その分野の
専門用語である場合が多いが、このような専門用語は実
際には新技術や新概念であることが多く、造語力のある
漢字によって作られた複合語であることが多い。つま
り、抽出した複合語から複合語を選出することで、その
文書の分野に適したキーワードが得られることになる。
ここで、このような複合語を検出する装置としては特
開平1−137366号公報に開示されたものが存在する。こ
れは逆語辞書を作成するためのもので、入力された文書
を形態素解析して予め設定された特定語を接尾辞として
含む複合語を選出し、これを辞書に格納すると云うもの
である。
発明が解決しようとする課題 上述の公報に開示された方法では、予め設定された特
定語を接尾辞として含む複合語を検出するので、文書か
ら専門用語を検出することが可能である。
だが、これを実現するためには、キーワード抽出を行
なう文書の内容や分野に対応した特定語を予め所定の辞
書手段に登録しておく必要があり、手作業での用語選定
や入力を要することになって好ましくない。
課題を解決するための手段 入力された日本語文書を単語分割して予め辞書手段に
設定された特定語が語末に含まれる複合語をキーワード
として抽出するキーワード抽出装置において、入力され
た日本語文章を単語分割して接辞と名詞とからなる複合
語を検出する複合語検出手段を設け、この複合語検出手
段が検出した複合語の名詞の日本語文章内における結合
数と頻度とから評価値を算出して所定の閾値と比較する
演算手段を設け、この演算手段が選別した複合語の名詞
を特定語として辞書手段に入力する辞書設定手段を設け
た。
作用 入力された日本語文書を単語分割して接辞と名詞とか
らなる複合語を検出する複合語検出手段を設け、この複
合語検出手段が検出した複合語の名詞の日本語文章内に
おける結合数と頻度とから評価値を算出して所定の閾値
と比較する演算手段を設け、この演算手段が選別した複
合語の名詞を特定語として辞書手段に入力する辞書設定
手段を設けたことにより、技術文書からの専用用語の抽
出などに必要な特定語を格納した辞書手段を自動的に作
成することができる。
実施例 本発明の実施例を第1図ないし第7図に基づいて説明
する。このキーワード抽出装置1は、第1図に例示する
ように、文書情報の入力部2が複合語検出手段である単
語分割部3とキーワード抽出部4とを介してキーワード
情報の出力部5に接続され、前記単語分割部3と前記キ
ーワード抽出部4とに各々単語辞書6と辞書手段である
分野一般語辞書7とが接続された構造となっている。そ
して、第2図に例示するように、前記単語辞書6には各
種単語の表記情報と品詞情報とが格納されており、第3
図に例示するように、前記分野一般語辞書7には複合語
からなる専門用語の一部に利用可能な名詞が特定語とし
て格納されている。なお、このキーワード抽出装置1で
は、所定の演算を行なう演算手段(図示せず)や、この
演算手段の算出結果に基づいて前記分野一般語辞書7内
の内容を設定する辞書設定手段(図示せず)などが設け
られている。
このような構成において、このキーワード抽出装置1
の動作を第4図に例示するフローチャートを参考に説明
する。まず、日本語文章からなる文書情報が入力部2か
ら入力されると、これは単語分割部3で単語辞書6の格
納内容に従って単語分割され、この単語群から名詞と接
辞とが連続したものが複合語として検出される。そし
て、この検出された複合語の語末に位置する名詞と分野
一般語辞書7内に格納された単語とがキーワード抽出部
4で比較され、これが一致した複合語がキーワードとし
て選別される。そこで、上述のような動作処理が必要な
単語が検出される毎に文書情報の文頭から文末まで順次
行なわれることで、このキーワード抽出装置1のキーワ
ードの抽出作業が完了する。
ここで、このキーワード抽出装置1における分野一般
語辞書7への特定語の設定処理を第5図に例示するフロ
ーチャートを参考に説明する。まず、上述のキーワード
抽出と同様に所定の文書情報から複合語が検出され、こ
の複合語の語末の名詞が特定語候補として文書情報内に
おける結合数と頻度とがカウントされる。そして、この
ような処理を文頭から文末まで行なって結合数と頻度と
が求められると、これらの数値から各特定語候補の評価
値を算出して所定の閾値と比較する。そこで、このよう
にして選出された名詞を特定語として分野一般語辞書7
に入力することで、設定内容が特定分野に対応した分野
一般語辞書7が形成される。ここで、第6図に例示する
ように、上述のような作業中で特定語候補として検出さ
れる名詞は、表記、結合語、結合数、頻度等からなる情
報として処理されるようになっている。なお、同図でφ
として示したものは単独での出現を意味している。
そこで、上述のように機能するキーワード抽出装置1
の処理作業の具体例を第7図に基づいて以下に説明す
る。まず、分野一般語辞書7への特定語の特定処理とし
て、例えば、情報処理に関する所定の日本語文章を文書
情報として入力したところ、第6図に例示したような特
定語候補が検出されたとする。そこで、評価値を(結合
数の合計/頻度)として算出すると、各特定語候補の評
価値は「コンピュータ」では1.6、「ファクシミリ」で
は1.2、「プロセッサ」では2.0、「結果」では0.5とな
り、例えば、閾値が1.0なら分野一般語辞書7には「コ
ンピュータ」、「ファクシミリ」、「プロセッサ」の三
つの名詞が特定語として入力されることになる。
つぎに、上述のようにして分野一般語辞書7が設定さ
れたキーワード抽出装置1に、「分散プロセッサで稼働
している応用プログラムを別機に移植した。」と云う日
本語文章を文書情報として入力した場合、第7図に例示
したように、上記文章は単語分割部3で単語分割されて
各々の名詞が判別され、この単語群から名詞と接辞とが
連続したものが複合語として検出される。そこで、この
ような検出を名詞の検知に基づいて行なうとすると、ま
ずは「分散」が名詞として検出されるが特定語でないの
でキャンセルされ、次の名詞である「プロセッサ」が特
定語として選出される。そこで、この処理の先頭である
「分散」から「プロセッサ」までがキーワードとして抽
出され、以下同様な処理作業が文末まで行なわれて上記
文章からは専門用語である「分散プロセッサ」が得られ
ることになる。
つまり、このキーワード抽出装置1では、技術文書な
どから簡易に専門用語を抽出することができ、しかも、
この作業を実現するために必要な特定語を格納した分野
一般語辞書7が、予め適当な文書を機器に入力しておく
だけで自動的に作成され、手作業での用語選定や入力を
行なうことを要しない。なお、分野一般辞書7を選定す
るための文書情報は、予め適当な日本語文章を入力して
おくことの他、例えば、キーワード抽出を行なう日本語
文章が十分に長い場合などは、この文書情報から分野一
般語辞書7を作成してキーワード抽出を行なうようなこ
とも可能である。
発明の効果 本発明は上述したように、入力された日本語文章を単
語分割して予め辞書手段に設定された特定語が語末に含
まれる複合語をキーワードとして抽出するキーワード抽
出装置において、入力された日本語文章を単語分割して
接辞と名詞とからなる複合語を検出する複合語検出手段
を設け、この複合語検出手段が検出した複合語の名詞の
日本語文章内における結合数とから評価値を算出して所
定の閾値と比較する演算手段を設け、この演算手段が選
別した複合語の名詞を特定語として辞書手段に入力する
辞書設定手段を設けたことにより、技術文書からの専門
用語の抽出などに必要な特定語を格納した辞書手段を自
動的に作成することができ、手作業での用語選定や入力
を行なうことが要しないので、操作性が良好で使用者の
負担が軽いキーワード抽出装置を得ることができる等の
効果を有するものである。
【図面の簡単な説明】
第1図は本発明の実施例を示すブロック図、第2図及び
第3図はデータ構造の概念説明図、第4図及び第5図は
フローチャート、第6図及び第7図はデータ構造の概念
説明図である。 1……キーワード抽出装置、3……複合語検出手段、7
……辞書手段

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された日本語文章を単語分割して予め
    辞書手段に設定された特定語が語末に含まれる複合語を
    キーワードとして抽出するキーワード抽出装置におい
    て、入力された日本語文章を単語分割して接辞と名詞と
    からなる複合語を検出する複合語検出手段を設け、この
    複合語検出手段が検出した前記複合語の名詞の日本語文
    章内における結合数と頻度とから評価値を算出して所定
    の閾値と比較する演算手段を設け、この演算手段が選別
    した複合語の名詞を特定語として前記辞書手段に入力す
    る辞書設定手段を設けたことを特徴とするキーワード抽
    出装置。
JP2087833A 1990-04-02 1990-04-02 キーワード抽出装置 Expired - Fee Related JP2883153B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2087833A JP2883153B2 (ja) 1990-04-02 1990-04-02 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2087833A JP2883153B2 (ja) 1990-04-02 1990-04-02 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPH03286372A JPH03286372A (ja) 1991-12-17
JP2883153B2 true JP2883153B2 (ja) 1999-04-19

Family

ID=13925937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2087833A Expired - Fee Related JP2883153B2 (ja) 1990-04-02 1990-04-02 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JP2883153B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP3368301B2 (ja) * 1993-02-27 2003-01-20 オムロン株式会社 文書処理装置および方法
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3361563B2 (ja) * 1993-04-13 2003-01-07 松下電器産業株式会社 形態素解析装置及びキーワード抽出装置
JP3464055B2 (ja) * 1994-09-29 2003-11-05 株式会社リコー キーワード抽出装置
JP3618931B2 (ja) * 1996-11-05 2005-02-09 有限会社特許情報出版 ワード処理システムおよびワード処理方法
JP2005259015A (ja) 2004-03-15 2005-09-22 Ricoh Co Ltd 文書開示装置、文書開示システム、プログラム及び記憶媒体
JP5379138B2 (ja) * 2007-08-23 2013-12-25 グーグル・インコーポレーテッド 領域辞書の作成
JP5863537B2 (ja) 2012-03-30 2016-02-16 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 電子文書に含まれる非自己記述的用語を特定するためのコンピュータ実装方法、プログラムおよびシステム

Also Published As

Publication number Publication date
JPH03286372A (ja) 1991-12-17

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
JPH05242138A (ja) 単語ディスアンビギュエーション装置及び方法
CN108153730A (zh) 一种多义词词向量训练方法及装置
JP2883153B2 (ja) キーワード抽出装置
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP3198932B2 (ja) 文書検索装置
JP2812509B2 (ja) 専門用語抽出システム
JP2004070636A (ja) 概念検索装置
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JPH10254900A (ja) 自動文書要約装置及び方法
JP2828692B2 (ja) 情報検索装置
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2812511B2 (ja) キーワード抽出装置
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JPH0619968A (ja) 専門用語自動抽出装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPH0520354A (ja) 日本語文章解析装置
JP2006092134A (ja) 文書情報解析用コンピュータプログラムならびに文書情報解析装置および方法
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
Almujaiwel Integrating nlp with corpus linguistics and vice versa
JPH0715692B2 (ja) 文脈処理装置
JPH04357566A (ja) 機械翻訳装置
JP4071657B2 (ja) テキスト処理装置
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080205

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090205

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees