JPH0773200A - キーワード抽出方法 - Google Patents

キーワード抽出方法

Info

Publication number
JPH0773200A
JPH0773200A JP5222399A JP22239993A JPH0773200A JP H0773200 A JPH0773200 A JP H0773200A JP 5222399 A JP5222399 A JP 5222399A JP 22239993 A JP22239993 A JP 22239993A JP H0773200 A JPH0773200 A JP H0773200A
Authority
JP
Japan
Prior art keywords
word
keyword
speech
words
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5222399A
Other languages
English (en)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5222399A priority Critical patent/JPH0773200A/ja
Publication of JPH0773200A publication Critical patent/JPH0773200A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 キーワード抽出を単語単位ではなく、連続す
る単語のパターンとして処理し、複合語等の処理を正確
に行う。 【構成】 形態素解析(step1)において、入力テキス
トを形態素解析し、単語に分割して単語ごとに品詞を判
定する。パターン照合(step2)において、キーワード
として抽出すべき単語の連続部分を記述した品詞パター
ン(抽出単語パターン)に一致する単語の連続部分を照
合する。このように、日本語文書を形態素解析して得ら
れる単語列から、あらかじめ定義しておいた単語パター
ンに一致する単語の連続部分を日本語文書のキーワード
として抽出する。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、キーワード抽出方法に関し、よ
り詳細には、文書から重要な語句をキーワードとして抽
出するキーワード抽出方法に関する。例えば、文書管理
システムなどに適用されるものである。
【0002】
【従来技術】本発明に係る従来技術を記載した公知文献
として、「日本語キーワード抽出システムの開発および
今後の課題」(会森清外2名;ドクメンテーションシン
ポジウム予稿集,pp,15−19)がある。この文献
のものは、キーワードとなりうる品詞の多くは名詞とサ
変名詞(サ行変格活用動詞の語幹)であると判断し、文
を分かち書きした後にこれらを自動的に抽出する抽出方
法である。分かち書きした後に、不要語辞書を使ってキ
ーワードとなる用語だけを選択する方法では、不要語辞
書の整備が十分でないとキーワードが得られない。
【0003】しかし、品詞に分解していく上で、見出し
語に登録されていない用語が文中に出現する場合があ
る。これらは固有名詞であったり、特定領域の専門用語
であったりすることが多く重要度が高い。それらも未登
録語と称して抽出対象としている。そして、次のように
日本語文書からキーワードを抽出している。 文書を分かち書き(形態素解析)する。 品詞が名詞とサ変名詞である単語を選択する。 不要語辞書によりキーワードとして不適切な単語を除
去する。 連続する単語を組み合わせて複合語を生成する。
【0004】しかし、前述のキーワード抽出方法には次
のような問題点がある。 (1)キーワード抽出が単語単位に行われていないた
め、単独ではキーワードとならないが、複合語の一部と
してはキーワードとなり得る単語も前記により削除さ
れてしまう。 (2)名詞とサ変名詞しかキーワードとして抽出できな
い。
【0005】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、単語単位にキーワード抽出を行うのではなく、
抽出すべき単語の連続部分を単語のパターンとして記述
し、不要語削除も不要語辞書による単純な処理ではな
く、単語のパターンに応じた処理を行い、その際に、品
詞だけではなく、それ以外の単語の構文的・意味的情報
を記述する素性を用いることで、より適切な除去処理を
行うこと。また、抽出する単語の品詞をユーザが自由に
変更できるようにし、品詞だけでなく、素性もユーザが
自由に変更できるようにしたキーワード抽出方法を提供
することを目的としてなされたものである。
【0006】
【構成】本発明は、上記目的を達成するために、(1)
日本語文書を形態素解析して得られる単語列から、あら
かじめ定義しておいた単語パターンに一致する単語の連
続部分を前記日本語文書のキーワードとして抽出するこ
と、更には、(2)前記キーワードとして定義する単語
パターンを品詞名の正規表現で記述すること、更には、
(3)前記形態素解析の結果から得られる品詞をキーワ
ード抽出用品詞にマッピングすること、更には、(4)
前記キーワードとして抽出する単語の連続部分の選択
に、品詞だけでなく、品詞以外の単語の構文的・意味的
情報を記述する素性を用いること、更には、(5)前記
(4)において、前記キーワードを定義する単語パター
ンを品詞名と素性名の正規表現で記述すること、更に
は、(6)前記(4)において、前記品詞名の正規表現
に一致する単語の連続部分を抽出し、次に、素性を用い
て評価することで、キーワードとして不適切な単語を除
去すること、更には、(7)前記(4)において、前記
素性を対象文書に応じたキーワード抽出用素性にマッピ
ングすることを特徴としたものである。以下、本発明の
実施例に基づいて説明する。
【0007】図1は、本発明によるキーワード抽出方法
の一実施例を説明するためのフローチャートである。以
下、各ステップに従って順に説明する。step1 :形態素解析 入力テキストを形態素解析して単語に分割して単語ごと
に品詞を判定する。形態素解析の方法は、例えば、「接
続コスト最小法による日本語形態素解析」(久光徹ほ
か:第42回情報処理学会全国大会予稿集 pp1−
2)を用いる。step2 :パターン照合 キーワードとして抽出すべき単語の連続部分を記述した
品詞パターン(抽出単語パターン)に一致する単語の連
続部分を照合する。
【0008】以下に、パターン照合処理について詳しく
説明する。抽出単語パターンを品詞の正規表現で記述
し、入力テキストの解析結果として得られる単語列から
抽出単語パターンと照合する連続部分を抽出する。ここ
で、品詞を“<品詞名>”のように記述するとして、正
規表現とは、次のように定義される。
【0009】・品詞はそれ自身と一致する正規表現であ
る。 cf.<サ変名詞>は<サ変名詞>と一致するが<数詞
>とは一致しない。 ・品詞のない“<>”は任意の品詞と一致する正規表現
である。 cf.<>は<サ変名詞>とも<数詞>とも一致する。 ・正規表現を連結したものは、各正規表現に一致するパ
ターンを連結したパターンと一致する正規表現である。 cf.<サ変名詞><助詞>は<サ変名詞><助詞>と
一致する。
【0010】・“(”と“)”で囲まれた正規表現は、
その正規表現と一致する正規表現である。 cf.(<サ変名詞>)は<サ変名詞>と一致する。 ・正規表現に続く“*”はその正規表現の0個以上の繰
返しパターンと一致する正規表現である。 cf.<サ変名詞>*は<サ変名詞>,<サ変名詞><
サ変名詞>…と一致する。 ・“|”をはさむ正規表現は、“|”をはさむ正規表現
の一方と一致する正規表現である。 cf.<サ変名詞>|<助詞>は<サ変名詞>または<
助詞>と一致する。
【0011】例えば、抽出単語パターンを “<接頭辞>*(<一般名詞>|<固有名詞>|<サ変
名詞>)(<一般名詞>|<固有名詞>|<サ変名詞
>)*” とする。これは、一般名詞か固有名詞かサ変名詞かの1
個以上の連続部分、あるいはその先頭に接頭辞がついた
ものをキーワードとすることを意味する。ここで、入力
テキストを「リコーは超音波センサを使った形状識別装
置を開発した。」とする。形態素解析結果は次の表1の
ようになる。
【0012】
【表1】
【0013】この例では、「リコー」、「超/音波/セ
ンサ」、「形状/識別/装置」、「開発」がキーワード
となる。
【0014】次に実施例2について説明する。一般に、
形態素解析系で設定される品詞は、解析精度の向上のた
めに単語の構文的な性質を詳細に記述し、学校文法で定
められているものより細かく分類されている。上の例で
も、名詞が「一般名詞」「固有名詞」「サ変名詞」の3
つに細分化されている。しかし、キーワード抽出のため
には、必ずしもこのような詳細な分類が必要ではない。
品詞が必要以上に詳細になっていると、前述の抽出単語
パターンの記述が複雑になり、(1)パターンを作成す
るユーザに負担となる、(2)パターン照合処理が複雑
になる等の問題が発生する。そこで、この実施例では形
態素解析系が用意する品詞をキーワード用品詞にマッピ
ングし、抽出単語パターンを簡潔に記述できるようにす
る。
【0015】図2は、本発明によるキーワード抽出方法
の他の実施例(実施例2)を示すフローチャートであ
る。図1のフローチャートと比較して、step2として品
詞マッピングが入っている点が異なっている。品詞マッ
ピングのために、形態素解析用品詞とキーワード抽出用
品詞の対応を記述する表を作成する。例えば、次の表2
のようになり、抽出単語パターンは “<接頭辞>*<名詞><名詞>*” となる。
【0016】
【表2】
【0017】マッピング後のキーワード抽出用品詞によ
る形態素解析結果は次の表3のようになる。
【0018】
【表3】
【0019】抽出されるキーワードは先ほどと同じく、
「リコー」、「超/音波/センサ」、「形状/識別/装
置」、「開発」である。
【0020】品詞は単語の形態素解析に必要な分類(情
報)を表現したものにすぎない。したがって、ある単語
(単語の連続部分)がキーワードにふさわしいか否かは
品詞だけでは判断できず、品詞のみに基づくキーワード
抽出結果にはキーワードとして不適切なものが含まれて
しまう。そこで、精度良くキーワード抽出を行うために
は、品詞以外の単語の構文的・意味的情報が必要であ
る。われわれは、この情報を表現するものとして『素
性』を導入した。
【0021】次に、実施例3について説明する。ここで
は、抽出単語パターンの記述に品詞だけでなく、素性も
使用する。品詞と素性を組み合わせを“<品詞名:素性
名>”と記述する。“<品詞名:>”のように“素性
名”がないものは、品詞名が同一で、素性が付与されて
いない単語と一致する。“<品詞名>”のように“素性
名”がないものは、素性とは無関係に品詞名が同一の単
語と一致する。前述した実施例2で示した品詞マッピン
グを用いるキーワード抽出法に素性を導入した場合のフ
ローチャートは図2と同じになる。
【0022】素性についてもう少し詳しく説明する。例
えば、名詞の中には、「装置」のように一般的な意味を
持つため、単独で出現したキーワードとしないが、「文
字認識装置」のように、複合語のなかで用いられた場合
には、キーワードの構成単語にふさわしい単語がある。
これは名詞にも構文的・意味的性質の異なるさまざまな
単語があるためで、このような相違の表現のために『素
性』を用いる。今示したような、単独で出現した場合に
はキーワードとしないが、複合語のなかで用いられた場
合にはキーワードの構成単語にふさわしい名詞を識別す
るものとして「複合語語基」という素性をつくり、「装
置」や「開発」といった名詞に付与する(どの単語にど
の素性を付与したかは、図に示していない素性辞書ファ
イルに保存する)。この場合、形態素解析結果は次の表
4のようになる。
【0023】
【表4】
【0024】ここで、さきの表記法に従って抽出単語パ
ターンを “((<接頭辞>*<名詞:><名詞:>*)|(<接
頭辞><名詞:複合語語基><名詞:複合語語基>*)
|(<名詞:複合語語基><名詞:複合語語基><名
詞:複合語語基>*))” とし、<名詞:複合語語基>に一致する単独の単語は抽
出されないようにする。この場合、抽出キーワードは
「リコー」、「超/音波/センサ」、「形状/識別/装
置」の3つになる。
【0025】素性を用いる実施例を次の実施例4に示
す。抽出単語パターンを品詞・素性の組み合わせで記述
すると、正規表現が複雑になってしまう。この問題点を
解決するため、抽出単語パターンは実施例1などと同じ
く品詞のみで記述しておき、抽出された単語の連続部分
を評価して不適切な単語を除去する。図3は、本発明に
よるキーワード抽出方法の更に他の実施例(実施例4)
を示すフローチャートである。図1と比較して、step3
のキーワード評価が入っている点が異なっている。例え
ば、キーワード評価では、単独の「複合語語基」素性が
付与された名詞を除去する。この場合、実施例1、2の
キーワードのうち「開発」は単独の「複合語語基」素性
が付与された名詞であるため除去され、「リコー」、
「超/音波/センサ」、「形状/識別/装置」がキーワ
ード抽出結果となる。
【0026】次に実施例5について説明する。素性は品
詞以外の単語の構文的・意味的情報を記述するものであ
り、例えば、単独で出現した場合にはキーワードとしな
いが、複合語の中で用いられた場合にはキーワードの構
成単語にふさわしい名詞をそれ以外の名詞から識別する
ために使用する。従って、ある素性をどの単語に付与す
るかは、対象文書、検索要求のタイプに依存して調整す
る必要がある。例えば、「複合語語基」を情報処理分野
では{装置、開発、システム…}、政治経済分野では
{政治、経済、総選挙…}に付与する。しかし、分野ご
とに素性付与が異なる場合、素性辞書ファイルを分野ご
とに用意しなければならず大変である。
【0027】そこで、この実施例では、複合語語基を
「情報処理分野複合語語基」「政治経済分野複合語語
基」のように分野ごとに設定し、1つの素性ファイルに
格納する(この素性を『辞書素性』と呼ぶ)。キーワー
ド抽出時に用いる素性は、辞書素性をキーワード抽出用
素性にマッピングしたものを使用する。この素性マッピ
ングのために、辞書素性とキーワード抽出用素性の対応
を記述する表を作成する。例えば、次のような表5にな
る。この表5で、キーワード抽出用素性の欄が“−”で
ある辞書素性は、キーワード抽出要素性に何もマッピン
グしないことを表す。なお、抽出単語パターンの記述に
はキーワード抽出要素性名を使用する。
【0028】
【表5】
【0029】図4は、本発明によるキーワード抽出方法
の更に他の実施例(実施例5)を示すフローチャート
で、抽出単語パターンの記述を品詞名と素性名の正規表
現を用いる方法(実施例3)に、素性マッピングを適応
した場合のフローチャートである。図2と比較すると、
step2が異なっており、図2におけるstep2の品詞マッ
ピングでなく、図4におけるstep2では素性マッピング
も同時に行う点が異なっている。
【0030】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1、2に対応する効果:キーワード抽出を
単語単位ではなく、連続する単語のパターンとして処理
するため、複合語等の処理を正確に行え、キーワード抽
出精度が向上する。 (2)請求項3に対応する効果:形態素解析用品詞をキ
ーワード抽出用品詞にマッピングすることで、キーワー
ド抽出処理を効率化するとともにユーザによるキーワー
ド抽出法の調整が簡単になる。 (3)請求項4、5、6に対応する効果:品詞以外の単
語の構文的・意味的情報を記述する素性を用いること
で、キーワード抽出精度が向上する。 (4)構成7に対応する効果:辞書素性をキーワード抽
出用素性にマッピングすることで、ユーザによるキーワ
ード抽出法の調整が簡単になる。
【図面の簡単な説明】
【図1】 本発明によるキーワード抽出方法の一実施例
を説明するためのフローチャートである。
【図2】 本発明によるキーワード抽出方法の他の実施
例(実施例2,3)を説明するためのフローチャートで
ある。
【図3】 本発明によるキーワード抽出方法の更に他の
実施例(実施例4)を説明するためのフローチャートで
ある。
【図4】 本発明によるキーワード抽出方法の更に他の
実施例(実施例5)を説明するためのフローチャートで
ある。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 8125−5L G06F 15/38 E

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 日本語文書を形態素解析して得られる単
    語列から、あらかじめ定義しておいた単語パターンに一
    致する単語の連続部分を前記日本語文書のキーワードと
    して抽出することを特徴とするキーワード抽出方法。
  2. 【請求項2】 前記キーワードとして定義する単語パタ
    ーンを品詞名の正規表現で記述することを特徴とする請
    求項1記載のキーワード抽出方法。
  3. 【請求項3】 前記形態素解析の結果から得られる品詞
    をキーワード抽出用品詞にマッピングすることを特徴と
    する請求項1記載のキーワード抽出方法。
  4. 【請求項4】 前記キーワードとして抽出する単語の連
    続部分の選択に、品詞だけでなく、品詞以外の単語の構
    文的・意味的情報を記述する素性を用いることを特徴と
    する請求項1記載のキーワード抽出方法。
  5. 【請求項5】 前記キーワードを定義する単語パターン
    を品詞名と素性名の正規表現で記述することを特徴とす
    る請求項4記載のキーワード抽出方法。
  6. 【請求項6】 前記品詞名の正規表現に一致する単語の
    連続部分を抽出し、次に、素性を用いて評価すること
    で、キーワードとして不適切な単語を除去することを特
    徴とする請求項4記載のキーワード抽出方法。
JP5222399A 1993-09-07 1993-09-07 キーワード抽出方法 Pending JPH0773200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5222399A JPH0773200A (ja) 1993-09-07 1993-09-07 キーワード抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5222399A JPH0773200A (ja) 1993-09-07 1993-09-07 キーワード抽出方法

Publications (1)

Publication Number Publication Date
JPH0773200A true JPH0773200A (ja) 1995-03-17

Family

ID=16781770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5222399A Pending JPH0773200A (ja) 1993-09-07 1993-09-07 キーワード抽出方法

Country Status (1)

Country Link
JP (1) JPH0773200A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305730A (ja) * 1995-05-01 1996-11-22 Xerox Corp 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JPH0944522A (ja) * 1995-07-25 1997-02-14 Fuji Xerox Co Ltd キーワード抽出装置
WO2001050343A1 (fr) * 2000-01-05 2001-07-12 Mitsubishi Denki Kabushiki Kaisha Dispositif d'extraction d'un mot-cle
JP2011044031A (ja) * 2009-08-21 2011-03-03 Sharp Corp 電子辞書、辞書検索方法、辞書検索プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305730A (ja) * 1995-05-01 1996-11-22 Xerox Corp 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JPH0944522A (ja) * 1995-07-25 1997-02-14 Fuji Xerox Co Ltd キーワード抽出装置
WO2001050343A1 (fr) * 2000-01-05 2001-07-12 Mitsubishi Denki Kabushiki Kaisha Dispositif d'extraction d'un mot-cle
US7191177B2 (en) 2000-01-05 2007-03-13 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
JP4253152B2 (ja) * 2000-01-05 2009-04-08 三菱電機株式会社 キーワード抽出装置
JP2011044031A (ja) * 2009-08-21 2011-03-03 Sharp Corp 電子辞書、辞書検索方法、辞書検索プログラム

Similar Documents

Publication Publication Date Title
Gaizauskas et al. University of Sheffield: Description of the LaSIE system as used for MUC-6
US5890103A (en) Method and apparatus for improved tokenization of natural language text
Lita et al. Truecasing
Drouin Term extraction using non-technical corpora as a point of leverage
US8374844B2 (en) Hybrid system for named entity resolution
US7567902B2 (en) Generating speech recognition grammars from a large corpus of data
JP4714400B2 (ja) スケーラブル機械翻訳システム
JP5113750B2 (ja) 定義の抽出
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
JP5538820B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0424869A (ja) 文書処理システム
JP2001084250A (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
JPH0773200A (ja) キーワード抽出方法
JP3575242B2 (ja) キーワード抽出装置
KR20030068856A (ko) 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법
JPH0228769A (ja) キーワード自動生成装置
JP2812511B2 (ja) キーワード抽出装置
JP2004280316A (ja) 分野判定装置及び言語処理装置
JP2002366556A (ja) 情報検索方法
JPH07152778A (ja) 文書検索装置
JPS6368972A (ja) 未登録語処理方式
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
JPH05233689A (ja) 文書自動要約方法