JPH11328206A - キーワード抽出装置および方法ならびに記憶媒体 - Google Patents

キーワード抽出装置および方法ならびに記憶媒体

Info

Publication number
JPH11328206A
JPH11328206A JP10134974A JP13497498A JPH11328206A JP H11328206 A JPH11328206 A JP H11328206A JP 10134974 A JP10134974 A JP 10134974A JP 13497498 A JP13497498 A JP 13497498A JP H11328206 A JPH11328206 A JP H11328206A
Authority
JP
Japan
Prior art keywords
keyword
document
word
extracting
word recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10134974A
Other languages
English (en)
Inventor
Hiroko Yamagata
寛子 山形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10134974A priority Critical patent/JPH11328206A/ja
Publication of JPH11328206A publication Critical patent/JPH11328206A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワードの抽出を、一度のスキャンで高速
に行えるキーワード抽出装置を提供する。 【解決手段】 単語認定部3は、形態素解析などを行っ
て、文書データベース2に登録されている文書の単語認
定をおこなう。構文特徴チェック部5は、単語認定され
た文書中の単語が所定の構文的特徴のもとに出現してい
るか否かを判断する。たとえば、“格助詞に導かれてい
る名詞相当の単語”であるか、“係助詞に導かれている
名詞相当の単語”であるかなどをチェックし、所定の構
文的特徴のもとに出現している単語を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書のキーワー
ドを抽出するキーワード抽出装置および方法ならびに文
書のキーワードを抽出するプログラムを格納した記憶媒
体に関する。
【0002】
【従来の技術】文書データからキーワード性の高い単語
を取得する従来の技術は、基本的にはtf*idfモデルを中
心としている。tf*idfモデルは、基本的には下式(1)に
基づく。
【0003】Wij=tfij×logN/dfj … (1) (1)式において、Wijは文書Diにおける語句Tjの重み、t
fijは文書Diに含まれている語句Tjの頻度、dfjはTjが出
現する文書数、Nは全文書数、である。
【0004】このtf*idfモデルは、語句頻度と文書頻度
を併用した手法で、文書中の高頻度語は当該文書で重要
な単語である可能性が高いであろうことと、一部の文書
にしか出現しない単語ほど識別力が高い単語である可能
性が高いであろうことから考案されたものである。
【0005】ただし、複合語などは一度長い正式名称が
現れた後は、略称されてしまうなどして、重要な単語で
あるにも関わらず頻度が低くなっていしまうということ
に鑑み、(言語処理学会第2回年次大会1996年予稿
集)には、単語の部分一致を見て、一致の度合いに応じ
て頻度を調整する技術が開示されている。
【0006】
【発明が解決しようとする課題】しかしながら、複合語
の造語力やtf*idfモデルは、いずれも全文書スキャンし
てからでないと、各単語のキーワード性の判断ができな
いため、キーワード性の判断に入るまでの時間と情報の
保持の負担は、大量の文書を処理する場合には大変大き
いので、何ギガバイトという大量文書を処理するために
は、一度のスキャンでキーワード性の高い単語を速やか
に取得できるようにすることが望まれる。前記の「擬似
キーワード相関法による重要キーワードと重要文の抽
出」に開示の技術では、一度のスキャンでキーワード性
の高い単語を取得できるようにしているが、基本的には
すべての単語について他の単語との部分一致を図りなが
ら、キーワード性を判断するため、処理速度の点で劣る
という不具合がある。
【0007】この発明の目的は、キーワードの抽出を、
一度のスキャンで高速に行えるようにすることにある。
【0008】
【課題を解決するための手段】請求項1に記載のキーワ
ード抽出装置は、文書群を格納する文書データベース
と、この文書データベースに格納されている文書中で単
語認定を行う単語認定手段と、この単語認定後の文書中
で出現の際の構文的特徴からキーワード性を判断して、
当該文書のキーワードを抽出するキーワード抽出手段
と、この抽出したキーワードを文書別に記憶するキーワ
ード記憶手段とを備えている。
【0009】したがって、単語認定をした文書中で出現
の際の構文的特徴からキーワード性を判断することがで
きる。
【0010】請求項2に記載のキーワード抽出装置は、
請求項1に記載のキーワード抽出装置について、キーワ
ード抽出手段は、格助詞または係助詞に立つ名詞相当の
単語をキーワードとして抽出するものである。
【0011】したがって、単語認定をした文書中で格助
詞または係助詞に立つ名詞相当の単語であるか否かとい
う出現の際の構文的特徴からキーワード性を判断するこ
とができる。
【0012】請求項3に記載のキーワード抽出方法は、
文書データベースに格納されている文書中で単語認定を
行う単語認定工程と、この単語認定後の文書中で出現の
際の構文的特徴からキーワード性を判断して、当該文書
のキーワードを抽出するキーワード抽出工程と、この抽
出したキーワードを文書別に所定の記憶装置に記憶する
キーワード記憶工程とを含んでなる。
【0013】したがって、単語認定をした文書中で出現
の際の構文的特徴からキーワード性を判断することがで
きる。
【0014】請求項4に記載のキーワード抽出方法は、
請求項3に記載のキーワード抽出方法について、キーワ
ード抽出工程は、格助詞または係助詞に立つ名詞相当の
単語をキーワードとして抽出するものである。
【0015】したがって、単語認定をした文書中で格助
詞または係助詞に立つ名詞相当の単語であるか否かとい
う出現の際の構文的特徴からキーワード性を判断するこ
とができる。
【0016】請求項5に記載の記憶媒体は、コンピュー
タに読み取り可能なプログラムを記憶していて、このプ
ログラムは文書データベースに格納されている文書ごと
に当該文書のキーワードを抽出する処理を前記コンピュ
ータに実行させるものであり、キーワード抽出処理は、
文書データベースに格納されている文書中で単語認定を
行ない、この単語認定後の文書中で出現の際の構文的特
徴からキーワード性を判断して、当該文書のキーワード
を抽出し、この抽出したキーワードを文書別に所定の記
憶装置に記憶することにより行うものである。
【0017】したがって、単語認定をした文書中で出現
の際の構文的特徴からキーワード性を判断することがで
きる。
【0018】請求項6に記載の記憶媒体は、請求項5に
記載の記憶媒体において、キーワード抽出処理は、格助
詞または係助詞に立つ名詞相当の単語をキーワードとし
て抽出するものである。
【0019】したがって、単語認定をした文書中で格助
詞または係助詞に立つ名詞相当の単語であるか否かとい
う出現の際の構文的特徴からキーワード性を判断するこ
とができる。
【0020】
【発明の実施の形態】この発明の一実施の形態を、図
1、図2を参照して説明する。図1は、この実施の形態
にかかるキーワード抽出装置1の機能ブロック図であ
る。
【0021】図1に示すように、文書データベース2に
は、電子化された文書群が登録されている。単語認定部
3は、この発明の単語認定手段、単語認定工程を実施す
るもので、形態素解析などを行って、文書データベース
2に登録されている文書の単語認定をおこなう。
【0022】キーワード抽出部4は、単語認定部3で単
語の認定がなされた各文書について、キーワードの抽出
を行う。キーワード抽出部4には、構文特徴チェック部
5と、不要語排除部6とからなる。
【0023】構文特徴チェック部5は、この発明のキー
ワード抽出手段、キーワード抽出工程を実施するもの
で、文書中の単語が所定の構文的特徴のもとに出現して
いるか否かを判断する。たとえば、“格助詞に導かれて
いる名詞相当の単語”であるか、“係助詞に導かれてい
る名詞相当の単語”であるかなどをチェックし、所定の
構文的特徴のもとに出現している単語を抽出する。この
ように、格助詞、係助詞に導かれている名詞相当の単語
をキーワードとして抽出することで、叙述性の高い単語
を排し、文書の要となる単語を抽出することができる。
すなわち、頻度が高くても、“…を製造する”という場
合の“製造”は、“製造”自体が取り上げられている話
題であるとはいえないが、“製造が問題だ”という出現
の場合は、“製造”自体が取り上げられている話題であ
るとみなすことができる。
【0024】不要語排除部6は、構文特徴チェック部5
で抽出した語のうち、所定の不要語を排除する。不要語
には、非常に一般性の高い単語や文脈がないと意味をも
たない相対性の高い単語(例えば、同市、前者、彼女)
などが該当する。
【0025】文書別キーワード情報格納部7は、この発
明のキーワード記憶手段、キーワード記憶工程を実施す
るもので、不要語排除部6で不要語を排除した後の語を
キーワードとして文書別に記憶する。
【0026】図2は、キーワード抽出装置1によるキー
ワード抽出処理につき段階を追って説明するものであ
る。まず、図2(a)に示す文例の文書がキーワード抽出
の対象であるとすると、まず、単語認定部3でこの文書
の単語認定を行なう。図2(b)は、図2(a)の文書につ
いて単語認定をした結果を示すものであり、“/”が単
語の切れ目を示している。次に、構文特徴チェック部5
により、図2(b)の結果から、格助詞または係助詞に導
かれる名詞相当の単語を抽出する。なお、この処理は、
品詞情報を得られる形態素解析などを用いる場合は品詞
情報で判断し、また、n-gramなど品詞情報を得られない
単語認定の手法を用いる場合は助詞リストなどを予め保
有しておいて判断する。こうして抽出した単語のうち、
不要語に該当するものは、不要語排除部6で排除して、
図2(c)に示すように、“米クリントン政権”、“高度
情報通信ネットワーク”、“平岩研究会”、…などの単
語がキーワードとして抽出される。
【0027】図3は、キーワード抽出装置1の具体的構
成例を示すものである。すなわち、図3のキーワード抽
出装置1は、CPU11,ROM12,RAM13,磁
気ディスク14,磁気ディスク15,CD−ROMドラ
イブ16などがバス17で接続されている(I/Oなど
は図示を省略する)。
【0028】磁気ディスク14には文書データベース2
が構築されている。磁気ディスク15には所定のプログ
ラムが格納される。このプログラムはこの発明の記憶媒
体を実施するCD−ROM18に記憶されていて、CD
−ROMドライブ16で読み取り、磁気ディスク25に
インストールしたものである。すなわち、このキーワー
ド抽出装置1は、ROM12に格納されているBIOS
などや、磁気ディスク24にインストールされているキ
ーワード抽出処理のための所定プログラムにより動作
し、前記した単語認定部3〜文書別キーワード情報格納
部7の各機能を実現する。文書別キーワード情報格納部
7に格納された文書別のキーワードは、図示しないディ
スプレイ、プリンタなどに出力する。なお、この発明の
記憶媒体として、フロッピーディスク、光磁気ディスク
など、各種の記憶媒体を用いて実施することができるこ
とはいうまでもない。
【0029】以上説明したキーワード抽出装置1によれ
ば、単語認定をした文書中で格助詞または係助詞に立つ
名詞相当の単語であるか否かという出現の際の構文的特
徴からキーワード性を判断して、キーワードの抽出を、
一度のスキャンで高速に行うことができる。
【0030】
【発明の効果】請求項1、3または5に記載の発明は、
文書頻度を用いることなく、単語認定をした文書中で出
現の際の構文的特徴からキーワード性を判断することが
できるので、キーワードの抽出を、一度のスキャンで高
速に行うことができる。
【0031】請求項2、4または6に記載の発明は、請
求項1、3または5に記載の発明について、単語認定を
した文書中で格助詞または係助詞に立つ名詞相当の単語
であるか否かという出現の際の構文的特徴からキーワー
ド性を判断して、キーワードの抽出を、一度のスキャン
で高速に行うことができる。
【図面の簡単な説明】
【図1】この発明の実施の一形態にかかるキーワード抽
出装置の機能ブロック図である。
【図2】前記キーワード抽出装置によるキーワード抽出
処理の例につき段階を追って説明する図である。
【図3】前記キーワード抽出装置の具体的な構成例を示
すブロック図である。
【符号の説明】
1 キーワード抽出装置、キーワード抽出方法 2 文書データベース 3 単語認定手段、単語認定工程 5 キーワード抽出手段、キーワード抽出工程 7 キーワード記憶手段、キーワード記憶工程

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書群を格納する文書データベースと、 この文書データベースに格納されている文書中で単語認
    定を行う単語認定手段と、 この単語認定後の文書中で出現の際の構文的特徴からキ
    ーワード性を判断して、当該文書のキーワードを抽出す
    るキーワード抽出手段と、 この抽出したキーワードを文書別に記憶するキーワード
    記憶手段と、を備えているキーワード抽出装置。
  2. 【請求項2】 キーワード抽出手段は、格助詞または係
    助詞に立つ名詞相当の単語をキーワードとして抽出する
    ものである請求項1に記載のキーワード抽出装置。
  3. 【請求項3】 文書データベースに格納されている文書
    中で単語認定を行う単語認定工程と、 この単語認定後の文書中で出現の際の構文的特徴からキ
    ーワード性を判断して、当該文書のキーワードを抽出す
    るキーワード抽出工程と、 この抽出したキーワードを文書別に所定の記憶装置に記
    憶するキーワード記憶工程と、を含んでなるキーワード
    抽出方法。
  4. 【請求項4】 キーワード抽出工程は、格助詞または係
    助詞に立つ名詞相当の単語をキーワードとして抽出する
    ものである請求項3に記載のキーワード抽出方法。
  5. 【請求項5】 コンピュータに読み取り可能なプログラ
    ムを記憶していて、 このプログラムは文書データベースに格納されている文
    書ごとに当該文書のキーワードを抽出する処理を前記コ
    ンピュータに実行させるものであり、 前記キーワード抽出処理は、 文書データベースに格納されている文書中で単語認定を
    行ない、 この単語認定後の文書中で出現の際の構文的特徴からキ
    ーワード性を判断して、当該文書のキーワードを抽出
    し、 この抽出したキーワードを文書別に所定の記憶装置に記
    憶することにより行うものである記憶媒体。
  6. 【請求項6】 キーワード抽出処理は、格助詞または係
    助詞に立つ名詞相当の単語をキーワードとして抽出する
    ものである請求項5に記載の記憶媒体。
JP10134974A 1998-05-18 1998-05-18 キーワード抽出装置および方法ならびに記憶媒体 Pending JPH11328206A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10134974A JPH11328206A (ja) 1998-05-18 1998-05-18 キーワード抽出装置および方法ならびに記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10134974A JPH11328206A (ja) 1998-05-18 1998-05-18 キーワード抽出装置および方法ならびに記憶媒体

Publications (1)

Publication Number Publication Date
JPH11328206A true JPH11328206A (ja) 1999-11-30

Family

ID=15140969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10134974A Pending JPH11328206A (ja) 1998-05-18 1998-05-18 キーワード抽出装置および方法ならびに記憶媒体

Country Status (1)

Country Link
JP (1) JPH11328206A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085374A (ja) * 2004-09-15 2006-03-30 Keio Gijuku 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体
JP2011065255A (ja) * 2009-09-15 2011-03-31 Sharp Corp データ処理装置、データ名生成方法及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085374A (ja) * 2004-09-15 2006-03-30 Keio Gijuku 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体
JP4639388B2 (ja) * 2004-09-15 2011-02-23 学校法人慶應義塾 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体
JP2011065255A (ja) * 2009-09-15 2011-03-31 Sharp Corp データ処理装置、データ名生成方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
Jing et al. Cut and paste based text summarization
JP5113750B2 (ja) 定義の抽出
Yang et al. VideoQA: question answering on news video
McKeown et al. Towards multidocument summarization by reformulation: Progress and prospects
Hobbs et al. FASTUS: A cascaded finite-state transducer for extracting information from natural-language text
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
Gupta et al. A survey of common stemming techniques and existing stemmers for indian languages
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
Patman et al. Names: A new frontier in text mining
US20120096028A1 (en) Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
Bar-Haim et al. Semantic inference at the lexical-syntactic level for textual entailment recognition
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10207910A (ja) 関連語辞書作成装置
TWI289770B (en) Keyword register system of articles and computer readable recording medium
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
JPH0981568A (ja) 機械翻訳用の中国語生成装置
Broda et al. Recognition of structured collocations in an inflective language
JPH11328206A (ja) キーワード抽出装置および方法ならびに記憶媒体
Zahariev A linguistic approach to extracting acronym expansions from text
Culpepper et al. Language independent ranked retrieval with NeWT
Grishman Information extraction and speech recognition
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2009181183A (ja) 人名表現同定装置、その方法、プログラム及び記録媒体
Fauceglia et al. CMU System for Entity Discovery and Linking at TAC-KBP 2015.
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061003