JPH06187373A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH06187373A
JPH06187373A JP4335965A JP33596592A JPH06187373A JP H06187373 A JPH06187373 A JP H06187373A JP 4335965 A JP4335965 A JP 4335965A JP 33596592 A JP33596592 A JP 33596592A JP H06187373 A JPH06187373 A JP H06187373A
Authority
JP
Japan
Prior art keywords
keyword
unit
candidates
appearance frequency
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4335965A
Other languages
English (en)
Inventor
Takeshi Mogi
健 茂木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP4335965A priority Critical patent/JPH06187373A/ja
Publication of JPH06187373A publication Critical patent/JPH06187373A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明は、キーワード候補の同義関係、及び
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、その候補の出現頻度の
算出を行うことを目的とする。 【構成】 本発明は、キーワード抽出の対象となる文書
を構成する各文字毎に対応付けられた文字コードに基づ
いて、文書中の連続して隣接する少なくとも2個以上の
語が漢字、片仮名、アルファベット、長音又は数字の任
意の組み合わせである場合に、それらの連続する語をキ
ーワード候補として抽出し、出現頻度算出部は、部分一
致判定部によって判定された部分一致関係となるキーワ
ード候補を、また同義語判定部によって判定された同義
関係となるキーワード候補を夫々包括的に取り扱って出
現頻度を算出することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書中に出現するキー
ワード候補の出現頻度を算出し、この出現頻度に基づい
て該文書中のキーワードの特定を行うキーワード抽出装
置に関する。
【0002】
【従来の技術】従来から学術文献、新聞記事、又は特許
公報等の文書要約、文書データベースの作成等におい
て、該文書中のキーワードを抽出することは非常に重要
である。上述の文書におけるキーワードは、その文書中
に繰り返して出現することが経験的に知られており、従
来のキーワードの抽出に際しては、その出現頻度を手掛
かりとして行う場合が多い。
【0003】そのキーワードの出現頻度を手掛かりとし
て、キーワードの抽出を行うキーワード抽出装置が、特
開平1−112331号公報に開示されており、図4は
そのキーワード抽出装置の概略構成図を示したものであ
る。
【0004】まず、キーワード抽出の対象となる文書を
入力装置1を介して、入力処理部2に入力することによ
って、その文書中の名詞を名詞抽出部3が抽出する。
【0005】ここで、名詞抽出部3による名詞の抽出方
法は、入力処理部2に入力された対象となる文書に対し
て、「は」、「が」、「を」等の助詞の直前に位置する
漢字、カタカナ列を名詞として抽出している。
【0006】この名詞抽出部3によって抽出された名詞
は、抽出名詞テーブル4に一旦格納される。
【0007】一方、不要語辞書6には、キーワードとな
らない接頭語辞書、接尾語辞書等の辞書が格納されてお
り、不要語削除部5はその不要語辞書6の格納内容に基
づいて、抽出名詞テーブル4に格納された名詞に対し
て、接頭語辞書、接尾語辞書等の削除を行い、抽出名詞
テーブル4の格納語の更新を行う。
【0008】キーワード辞書8には、キーワードとなる
候補が予め登録されており、キーワード辞書照合部7
は、更新された抽出名詞テーブル4中に格納された個々
の語に対して、キーワード辞書8の登録内容に基づいて
照合を行なって、照合のとれた語をキーワード候補とし
てキーワード候補テーブル9に登録する。
【0009】出現頻度認定部10は、キーワード候補テ
ーブル9中の語について、入力対象となった文書中で全
部で何回出現しているかをカウントして、その結果を出
力部11に出力する。
【0010】
【発明が解決しようとする課題】しかしながら、上述の
装置にあっては、入力処理部2に入力したキーワード抽
出の対象となる文書に対して、まず名詞抽出部3は
「は」、「が」、「を」等の助詞の直前に位置する漢
字、カタカナ列を名詞として抽出している。このとき、
それらの助詞の直前に位置する漢字、カタカナ列には、
同義語関係、又は部分一致関係のものが含まれており、
これらを考慮せずにキーワードを抽出してしまうと、キ
ーワードの出現頻度を別個に算出することになってしま
い、キーワードの抽出を精度よく行えなかった。
【0011】更に、通常、対象となる文書中のキーワー
ドは、必ずしも「は」、「が」、「を」等の助詞の直前
に位置するとは限らないため、これらの助詞の直前に位
置するものをキーワード候補として抽出しカウントした
だけでは、キーワードを漏れなく抽出することはできな
かった。
【0012】そこで、本発明は、上述の問題点に鑑みな
されたものであり、対象となる文書を構成する文字の文
字コードに着目し、それらの文字コードに基づいて、助
詞の直前に位置する名詞に限ることなく、文書中に連続
して隣接する少なくとも2個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出すると共に、そのキーワード候補の同義関係、及び
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、出現頻度の算出を行う
ことによってキーワードを抽出するキーワード抽出装置
を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明は、キーワード抽
出の対象となる文書を読み込み、該文書を構成する各文
字を文字コードに変換する文書読み込み部と、該文書読
み込み部によって変換された各文字の文字コードに基づ
いて、該文字を漢字、片仮名、平仮名、アルファベッ
ト、長音又は数字等の語毎に区分けを行う語切り出し部
と、該語切り出し部によって区分けされた語のうち、連
続して隣接する少なくとも2個以上の語が漢字、片仮
名、アルファベット、長音又は数字の任意の組み合わせ
である場合に、それらの連続する語をキーワード候補と
して抽出するキーワード候補抽出部と、該キーワード候
補抽出部によって抽出されたキーワード候補同士の部分
一致関係を判定する部分一致判定部と、同義語を格納し
ている同義語辞書と、該同義語辞書に格納された同義語
に基づいて、上記キーワード候補抽出部によって抽出さ
れたキーワード候補同士の同義関係を判定する同義語判
定部と、上記キーワード候補の出現頻度を算出する出現
頻度算出部と、該出現頻度算出部によって算出された出
現頻度に基づいて、出現頻度の上位に位置するキーワー
ド候補をキーワードとする高頻度語抽出部と、を具備
し、上記出現頻度算出部は、上記部分一致判定部によっ
て判定された部分一致関係となるキーワード候補と、上
記同義語判定部によって判定された同義関係となるキー
ワード候補とを夫々包括的に取り扱って出現頻度を算出
することを特徴とする。
【0014】
【作用】キーワード候補抽出部は、キーワード抽出の対
象となる文書を構成する各文字の文字コードに基づい
て、連続して隣接する少なくとも2個以上の語が漢字、
片仮名、アルファベット、長音又は数字の任意の組み合
わせである場合に、それらの連続する語をキーワード候
補として抽出する。
【0015】この後、出現頻度算出部は、上記キーワー
ド候補のうち部分一致関係、並びに同義関係となるキー
ワード候補を夫々包括的に取り扱ってキーワード候補の
出現頻度を算出し、高頻度語抽出部は、出現頻度の上位
に位置するキーワード候補をキーワードとして抽出す
る。
【0016】
【実施例】本発明の実施例を図1乃至図3に基づいて説
明する。
【0017】図1において、21は学術文献、新聞記
事、又は特許公報等の文書の読み込みを行う文書読み込
み部であり、この文書読み込み部21によって読み込ま
れた文書を構成する各文字は、JISコード、又はアス
キーコード等の文字コードに変換される。その文書読み
込み部21については、例えばOCR(Optical Charac
ter Reader)が該当する。
【0018】22は文書読み込み部21によって変換さ
れた文字の文字コードに基づいて、漢字、片仮名、平仮
名、アルファベット、長音又は数字等の語の切り出しを
行う語切り出し部、23はあらゆる文字の文字コード情
報を格納しており、これらの文字コード情報に基づい
て、漢字、片仮名、アルファベット、長音又は数字の並
びを判定する文字種判定部、24は文書中に連続して隣
接する少なくとも2個以上の語が漢字、片仮名、アルフ
ァベット、長音又は数字の任意の組み合わせである場合
に、それらの連続する語をキーワード候補として抽出す
るキーワード候補抽出部であり、このキーワード候補抽
出部24によって同種の語の連続に拘らず、数字/漢
字、漢字/漢字、アルファベット/漢字、片仮名/漢
字、アルファベット/片仮名、片仮名/数字等の任意の
組み合わせをキーワード候補として抽出することができ
る。
【0019】即ち、キーワード候補抽出部24は、表1
の如く、左欄に例示する対象文書を右欄に示すキーワー
ド候補として抽出するように構成されている。
【0020】
【表1】
【0021】25はキーワード候補抽出部24によって
抽出されたキーワードになる可能性のある候補を保存す
るキーワード候補保存部、26はキーワード候補保存部
25に保存されたキーワード候補の文書中における出現
頻度を算出する出現頻度算出部、27はキーワード候補
のうち後方部分一致関係にあるキーワード候補をひとつ
のグループにまとめる部分一致判定部、28は複数個の
同義語を格納している同義語辞書、29は同義語である
にも拘らず、表現形式が異なるキーワード候補をひとつ
のグループにまとめる同義語判定部、30は出現頻度算
出部26によって算出された頻度に基づいて、高頻度の
キーワード候補をキーワードとして抽出する高頻度語抽
出部である。
【0022】上述の如き構成において、対象となる文書
を読み込ませて、文字毎に変換された文字コードによっ
てキーワードを抽出する方法を図2のフローチャート、
及び図3に示す文書例に基づいて、図1を参照しながら
説明する。
【0023】ステップS1では、図3(a)に示すキーワ
ードを抽出する対象文書を文書読み込み部21に読み込
ませて、該対象文書を構成する各文字を文字コードに変
換する。ステップS2では、語切り出し部22が対象文
書を構成する各文字の文字コードに基づいて、漢字、片
仮名、平仮名、アルファベット、長音又は数字等の語毎
に切り出しを行う。ステップS3では、キーワード候補
抽出部が、ステップS2で切り出された語のうち、連続
して隣接する少なくとも2個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出する。ステップS4では、キーワード候補保存部2
5がステップS3で抽出されたキーワード候補を図3
(b)の如く保存する。
【0024】ステップS5において、部分一致判定部2
6は、キーワード候補保存部25に保存されたキーワー
ド候補のうち、後方部分一致関係にあるキーワード候補
をひとつのグループにまとめ、これによって、図3(c)
に示すように例えば「日米首脳会談」と「会談」とは同
じ後方部分一致グループと見做される。また、ステップ
S6では、同義語判定部28は、表現形式の異なる同義
関係にあるキーワード候補をひとつのグループにまと
め、これによって、図3(c)に示すように例えば「日米
戦略防衛構想」と「SDI」とは同じ同義語グループと
見做される。
【0025】ステップS7において、後方部分一致グル
ープ、及び同義語グループに属するキーワード候補は別
々にカウントされないように同一のものとして考慮しな
がら、キーワード候補保存部25に保存されたキーワー
ド候補の出現頻度を出現頻度算出部25が算出する。
【0026】ステップS8では、ステップS7で算出さ
れた出現頻度の高いキーワード候補を高頻度語抽出部3
0が抽出する。ステップS9では、高頻度出現のキーワ
ード候補のうち上位に位置するキーワード候補をキーワ
ードとして抽出する。
【0027】上述の実施例では、キーワード抽出の対象
となる文書中に句読点、括弧、ハイフン、又は#、%、
&等の特殊記号が含まれる場合については述べなかった
が、これらについては平仮名と同様に扱われ、キーワー
ド候補とはならない。
【0028】また、本実施例において1字の語について
は、キーワード候補となる確率が低いものと考えて、1
字の語をキーワード候補として抽出しないこととしてい
る。
【0029】
【発明の効果】本発明によれば、キーワード抽出の対象
文書を構成する文字毎に変換された文字コードに基づい
て、助詞の直前に位置する名詞に限ることなく、文書中
の連続して隣接する少なくとも2個以上の語が漢字、片
仮名、アルファベット、長音又は数字の任意の組み合わ
せである場合に、それらの連続する語をキーワード候補
として抽出すると共に、それらのキーワード候補のうち
同義関係、又は部分一致関係のキーワード候補を夫々包
括的に取り扱って出現頻度を算出するので、対象となる
文書からキーワードを漏れなく抽出することができ、更
に精度の高いキーワードを抽出することができる。
【図面の簡単な説明】
【図1】本発明に係るキーワード抽出装置の概略構成図
【図2】本発明に係るキーワード抽出に関するフローチ
ャート
【図3】本発明に係るキーワード抽出の対象となる文書
データ、キーワード候補、及びそのキーワード候補の出
現頻度を示す図
【図4】従来のキーワード抽出装置の概略構成図
【符号の説明】
21 文書読み込み部 22 語切り出し部 23 文字種判定部 24 キーワード候補抽出部 25 キーワード候補保存部 26 出現頻度算出部 27 部分一致判定部 28 同義語辞書 29 同義語判定部 30 高頻度語抽出部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 キーワード抽出の対象となる文書を読み
    込み、該文書を構成する各文字を文字コードに変換する
    文書読み込み部と、該文書読み込み部によって変換され
    た各文字の文字コードに基づいて、該文字を漢字、片仮
    名、平仮名、アルファベット、長音又は数字等の語毎に
    区分けを行う語切り出し部と、該語切り出し部によって
    区分けされた語のうち、連続して隣接する少なくとも2
    個以上の語が漢字、片仮名、アルファベット、長音又は
    数字の任意の組み合わせである場合に、それらの連続す
    る語をキーワード候補として抽出するキーワード候補抽
    出部と、該キーワード候補抽出部によって抽出されたキ
    ーワード候補同士の部分一致関係を判定する部分一致判
    定部と、同義語を格納している同義語辞書と、該同義語
    辞書に格納された同義語に基づいて、上記キーワード候
    補抽出部によって抽出されたキーワード候補同士の同義
    関係を判定する同義語判定部と、上記キーワード候補の
    出現頻度を算出する出現頻度算出部と、該出現頻度算出
    部によって算出された出現頻度に基づいて、出現頻度の
    上位に位置するキーワード候補をキーワードとする高頻
    度語抽出部と、を具備し、 上記出現頻度算出部は、上記部分一致判定部によって判
    定された部分一致関係となるキーワード候補と、上記同
    義語判定部によって判定された同義関係となるキーワー
    ド候補とを夫々包括的に取り扱って出現頻度を算出する
    ことを特徴とするキーワード抽出装置。
JP4335965A 1992-12-16 1992-12-16 キーワード抽出装置 Pending JPH06187373A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4335965A JPH06187373A (ja) 1992-12-16 1992-12-16 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4335965A JPH06187373A (ja) 1992-12-16 1992-12-16 キーワード抽出装置

Publications (1)

Publication Number Publication Date
JPH06187373A true JPH06187373A (ja) 1994-07-08

Family

ID=18294306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4335965A Pending JPH06187373A (ja) 1992-12-16 1992-12-16 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JPH06187373A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
WO2013147236A1 (ja) * 2012-03-30 2013-10-03 株式会社メディカルリサーチアンドテクノロジー 専門家評価情報管理装置
KR20180019656A (ko) * 2015-06-19 2018-02-26 알리바바 그룹 홀딩 리미티드 키워드 제시 방법 및 장치
CN111199259A (zh) * 2018-11-19 2020-05-26 中国电信股份有限公司 标识转换方法、装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector
JPS6441964A (en) * 1987-08-07 1989-02-14 Nippon Telegraph & Telephone Method for extracting object sentence inherent word of japanese
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH0228769A (ja) * 1988-07-18 1990-01-30 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428770A (en) * 1987-07-24 1989-01-31 Nippon Atomic Ind Group Co Key word selector
JPS6441964A (en) * 1987-08-07 1989-02-14 Nippon Telegraph & Telephone Method for extracting object sentence inherent word of japanese
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH0228769A (ja) * 1988-07-18 1990-01-30 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
WO2013147236A1 (ja) * 2012-03-30 2013-10-03 株式会社メディカルリサーチアンドテクノロジー 専門家評価情報管理装置
JP2013228978A (ja) * 2012-03-30 2013-11-07 Mrt Inc 専門家評価情報管理装置
KR20180019656A (ko) * 2015-06-19 2018-02-26 알리바바 그룹 홀딩 리미티드 키워드 제시 방법 및 장치
US11403357B2 (en) 2015-06-19 2022-08-02 Advanced New Technologies Co., Ltd. Enhancing accuracy of presented search keywords
US11727075B2 (en) 2015-06-19 2023-08-15 Advanced New Technologies Co., Ltd. Enhancing accuracy of presented search keywords
CN111199259A (zh) * 2018-11-19 2020-05-26 中国电信股份有限公司 标识转换方法、装置和计算机可读存储介质
CN111199259B (zh) * 2018-11-19 2023-06-20 中国电信股份有限公司 标识转换方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
US6035268A (en) Method and apparatus for breaking words in a stream of text
Isozaki Japanese named entity recognition based on a simple rule generator and decision tree learning
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH09198409A (ja) 酷似文書抽出方法
JPH06187373A (ja) キーワード抽出装置
JP2001175661A (ja) 全文検索装置及び全文検索方法
JP2536633B2 (ja) 複合語抽出装置
JP2002189734A (ja) 検索語抽出装置および検索語抽出方法
JP3253657B2 (ja) 文書検索方法
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH1173422A (ja) 類似文書検索システムおよびそれに用いる記憶媒体
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JPH08161340A (ja) 連語自動抽出装置
JP2821143B2 (ja) 形態素分解装置
JPH0954781A (ja) 文書検索システム
JPH07160724A (ja) 文書検索装置
JPH01295369A (ja) 漢字仮名混じり文節分割処理方式
JP4183767B2 (ja) 文字列検索装置およびその検索方法
JP2684138B2 (ja) 日本語形態素解析システム及び見出し切り出し方法
JPH03278176A (ja) 日本文固有用語抽出処理装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JP2575947B2 (ja) 文節切出し装置
JPH0241560A (ja) 未登録語処理方式
JP2899184B2 (ja) 日本語形態素解析システム及び見出し切り出し方法
JP2004164133A (ja) 抽出装置、用例検索装置、ならびに、プログラム