JPH06187373A - キーワード抽出装置 - Google Patents
キーワード抽出装置Info
- Publication number
- JPH06187373A JPH06187373A JP4335965A JP33596592A JPH06187373A JP H06187373 A JPH06187373 A JP H06187373A JP 4335965 A JP4335965 A JP 4335965A JP 33596592 A JP33596592 A JP 33596592A JP H06187373 A JPH06187373 A JP H06187373A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- unit
- candidates
- appearance frequency
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 本発明は、キーワード候補の同義関係、及び
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、その候補の出現頻度の
算出を行うことを目的とする。 【構成】 本発明は、キーワード抽出の対象となる文書
を構成する各文字毎に対応付けられた文字コードに基づ
いて、文書中の連続して隣接する少なくとも2個以上の
語が漢字、片仮名、アルファベット、長音又は数字の任
意の組み合わせである場合に、それらの連続する語をキ
ーワード候補として抽出し、出現頻度算出部は、部分一
致判定部によって判定された部分一致関係となるキーワ
ード候補を、また同義語判定部によって判定された同義
関係となるキーワード候補を夫々包括的に取り扱って出
現頻度を算出することを特徴とする。
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、その候補の出現頻度の
算出を行うことを目的とする。 【構成】 本発明は、キーワード抽出の対象となる文書
を構成する各文字毎に対応付けられた文字コードに基づ
いて、文書中の連続して隣接する少なくとも2個以上の
語が漢字、片仮名、アルファベット、長音又は数字の任
意の組み合わせである場合に、それらの連続する語をキ
ーワード候補として抽出し、出現頻度算出部は、部分一
致判定部によって判定された部分一致関係となるキーワ
ード候補を、また同義語判定部によって判定された同義
関係となるキーワード候補を夫々包括的に取り扱って出
現頻度を算出することを特徴とする。
Description
【0001】
【産業上の利用分野】本発明は、文書中に出現するキー
ワード候補の出現頻度を算出し、この出現頻度に基づい
て該文書中のキーワードの特定を行うキーワード抽出装
置に関する。
ワード候補の出現頻度を算出し、この出現頻度に基づい
て該文書中のキーワードの特定を行うキーワード抽出装
置に関する。
【0002】
【従来の技術】従来から学術文献、新聞記事、又は特許
公報等の文書要約、文書データベースの作成等におい
て、該文書中のキーワードを抽出することは非常に重要
である。上述の文書におけるキーワードは、その文書中
に繰り返して出現することが経験的に知られており、従
来のキーワードの抽出に際しては、その出現頻度を手掛
かりとして行う場合が多い。
公報等の文書要約、文書データベースの作成等におい
て、該文書中のキーワードを抽出することは非常に重要
である。上述の文書におけるキーワードは、その文書中
に繰り返して出現することが経験的に知られており、従
来のキーワードの抽出に際しては、その出現頻度を手掛
かりとして行う場合が多い。
【0003】そのキーワードの出現頻度を手掛かりとし
て、キーワードの抽出を行うキーワード抽出装置が、特
開平1−112331号公報に開示されており、図4は
そのキーワード抽出装置の概略構成図を示したものであ
る。
て、キーワードの抽出を行うキーワード抽出装置が、特
開平1−112331号公報に開示されており、図4は
そのキーワード抽出装置の概略構成図を示したものであ
る。
【0004】まず、キーワード抽出の対象となる文書を
入力装置1を介して、入力処理部2に入力することによ
って、その文書中の名詞を名詞抽出部3が抽出する。
入力装置1を介して、入力処理部2に入力することによ
って、その文書中の名詞を名詞抽出部3が抽出する。
【0005】ここで、名詞抽出部3による名詞の抽出方
法は、入力処理部2に入力された対象となる文書に対し
て、「は」、「が」、「を」等の助詞の直前に位置する
漢字、カタカナ列を名詞として抽出している。
法は、入力処理部2に入力された対象となる文書に対し
て、「は」、「が」、「を」等の助詞の直前に位置する
漢字、カタカナ列を名詞として抽出している。
【0006】この名詞抽出部3によって抽出された名詞
は、抽出名詞テーブル4に一旦格納される。
は、抽出名詞テーブル4に一旦格納される。
【0007】一方、不要語辞書6には、キーワードとな
らない接頭語辞書、接尾語辞書等の辞書が格納されてお
り、不要語削除部5はその不要語辞書6の格納内容に基
づいて、抽出名詞テーブル4に格納された名詞に対し
て、接頭語辞書、接尾語辞書等の削除を行い、抽出名詞
テーブル4の格納語の更新を行う。
らない接頭語辞書、接尾語辞書等の辞書が格納されてお
り、不要語削除部5はその不要語辞書6の格納内容に基
づいて、抽出名詞テーブル4に格納された名詞に対し
て、接頭語辞書、接尾語辞書等の削除を行い、抽出名詞
テーブル4の格納語の更新を行う。
【0008】キーワード辞書8には、キーワードとなる
候補が予め登録されており、キーワード辞書照合部7
は、更新された抽出名詞テーブル4中に格納された個々
の語に対して、キーワード辞書8の登録内容に基づいて
照合を行なって、照合のとれた語をキーワード候補とし
てキーワード候補テーブル9に登録する。
候補が予め登録されており、キーワード辞書照合部7
は、更新された抽出名詞テーブル4中に格納された個々
の語に対して、キーワード辞書8の登録内容に基づいて
照合を行なって、照合のとれた語をキーワード候補とし
てキーワード候補テーブル9に登録する。
【0009】出現頻度認定部10は、キーワード候補テ
ーブル9中の語について、入力対象となった文書中で全
部で何回出現しているかをカウントして、その結果を出
力部11に出力する。
ーブル9中の語について、入力対象となった文書中で全
部で何回出現しているかをカウントして、その結果を出
力部11に出力する。
【0010】
【発明が解決しようとする課題】しかしながら、上述の
装置にあっては、入力処理部2に入力したキーワード抽
出の対象となる文書に対して、まず名詞抽出部3は
「は」、「が」、「を」等の助詞の直前に位置する漢
字、カタカナ列を名詞として抽出している。このとき、
それらの助詞の直前に位置する漢字、カタカナ列には、
同義語関係、又は部分一致関係のものが含まれており、
これらを考慮せずにキーワードを抽出してしまうと、キ
ーワードの出現頻度を別個に算出することになってしま
い、キーワードの抽出を精度よく行えなかった。
装置にあっては、入力処理部2に入力したキーワード抽
出の対象となる文書に対して、まず名詞抽出部3は
「は」、「が」、「を」等の助詞の直前に位置する漢
字、カタカナ列を名詞として抽出している。このとき、
それらの助詞の直前に位置する漢字、カタカナ列には、
同義語関係、又は部分一致関係のものが含まれており、
これらを考慮せずにキーワードを抽出してしまうと、キ
ーワードの出現頻度を別個に算出することになってしま
い、キーワードの抽出を精度よく行えなかった。
【0011】更に、通常、対象となる文書中のキーワー
ドは、必ずしも「は」、「が」、「を」等の助詞の直前
に位置するとは限らないため、これらの助詞の直前に位
置するものをキーワード候補として抽出しカウントした
だけでは、キーワードを漏れなく抽出することはできな
かった。
ドは、必ずしも「は」、「が」、「を」等の助詞の直前
に位置するとは限らないため、これらの助詞の直前に位
置するものをキーワード候補として抽出しカウントした
だけでは、キーワードを漏れなく抽出することはできな
かった。
【0012】そこで、本発明は、上述の問題点に鑑みな
されたものであり、対象となる文書を構成する文字の文
字コードに着目し、それらの文字コードに基づいて、助
詞の直前に位置する名詞に限ることなく、文書中に連続
して隣接する少なくとも2個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出すると共に、そのキーワード候補の同義関係、及び
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、出現頻度の算出を行う
ことによってキーワードを抽出するキーワード抽出装置
を提供することを目的とする。
されたものであり、対象となる文書を構成する文字の文
字コードに着目し、それらの文字コードに基づいて、助
詞の直前に位置する名詞に限ることなく、文書中に連続
して隣接する少なくとも2個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出すると共に、そのキーワード候補の同義関係、及び
部分一致関係を考慮して、各々の関係となるキーワード
候補を夫々包括的に取り扱って、出現頻度の算出を行う
ことによってキーワードを抽出するキーワード抽出装置
を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明は、キーワード抽
出の対象となる文書を読み込み、該文書を構成する各文
字を文字コードに変換する文書読み込み部と、該文書読
み込み部によって変換された各文字の文字コードに基づ
いて、該文字を漢字、片仮名、平仮名、アルファベッ
ト、長音又は数字等の語毎に区分けを行う語切り出し部
と、該語切り出し部によって区分けされた語のうち、連
続して隣接する少なくとも2個以上の語が漢字、片仮
名、アルファベット、長音又は数字の任意の組み合わせ
である場合に、それらの連続する語をキーワード候補と
して抽出するキーワード候補抽出部と、該キーワード候
補抽出部によって抽出されたキーワード候補同士の部分
一致関係を判定する部分一致判定部と、同義語を格納し
ている同義語辞書と、該同義語辞書に格納された同義語
に基づいて、上記キーワード候補抽出部によって抽出さ
れたキーワード候補同士の同義関係を判定する同義語判
定部と、上記キーワード候補の出現頻度を算出する出現
頻度算出部と、該出現頻度算出部によって算出された出
現頻度に基づいて、出現頻度の上位に位置するキーワー
ド候補をキーワードとする高頻度語抽出部と、を具備
し、上記出現頻度算出部は、上記部分一致判定部によっ
て判定された部分一致関係となるキーワード候補と、上
記同義語判定部によって判定された同義関係となるキー
ワード候補とを夫々包括的に取り扱って出現頻度を算出
することを特徴とする。
出の対象となる文書を読み込み、該文書を構成する各文
字を文字コードに変換する文書読み込み部と、該文書読
み込み部によって変換された各文字の文字コードに基づ
いて、該文字を漢字、片仮名、平仮名、アルファベッ
ト、長音又は数字等の語毎に区分けを行う語切り出し部
と、該語切り出し部によって区分けされた語のうち、連
続して隣接する少なくとも2個以上の語が漢字、片仮
名、アルファベット、長音又は数字の任意の組み合わせ
である場合に、それらの連続する語をキーワード候補と
して抽出するキーワード候補抽出部と、該キーワード候
補抽出部によって抽出されたキーワード候補同士の部分
一致関係を判定する部分一致判定部と、同義語を格納し
ている同義語辞書と、該同義語辞書に格納された同義語
に基づいて、上記キーワード候補抽出部によって抽出さ
れたキーワード候補同士の同義関係を判定する同義語判
定部と、上記キーワード候補の出現頻度を算出する出現
頻度算出部と、該出現頻度算出部によって算出された出
現頻度に基づいて、出現頻度の上位に位置するキーワー
ド候補をキーワードとする高頻度語抽出部と、を具備
し、上記出現頻度算出部は、上記部分一致判定部によっ
て判定された部分一致関係となるキーワード候補と、上
記同義語判定部によって判定された同義関係となるキー
ワード候補とを夫々包括的に取り扱って出現頻度を算出
することを特徴とする。
【0014】
【作用】キーワード候補抽出部は、キーワード抽出の対
象となる文書を構成する各文字の文字コードに基づい
て、連続して隣接する少なくとも2個以上の語が漢字、
片仮名、アルファベット、長音又は数字の任意の組み合
わせである場合に、それらの連続する語をキーワード候
補として抽出する。
象となる文書を構成する各文字の文字コードに基づい
て、連続して隣接する少なくとも2個以上の語が漢字、
片仮名、アルファベット、長音又は数字の任意の組み合
わせである場合に、それらの連続する語をキーワード候
補として抽出する。
【0015】この後、出現頻度算出部は、上記キーワー
ド候補のうち部分一致関係、並びに同義関係となるキー
ワード候補を夫々包括的に取り扱ってキーワード候補の
出現頻度を算出し、高頻度語抽出部は、出現頻度の上位
に位置するキーワード候補をキーワードとして抽出す
る。
ド候補のうち部分一致関係、並びに同義関係となるキー
ワード候補を夫々包括的に取り扱ってキーワード候補の
出現頻度を算出し、高頻度語抽出部は、出現頻度の上位
に位置するキーワード候補をキーワードとして抽出す
る。
【0016】
【実施例】本発明の実施例を図1乃至図3に基づいて説
明する。
明する。
【0017】図1において、21は学術文献、新聞記
事、又は特許公報等の文書の読み込みを行う文書読み込
み部であり、この文書読み込み部21によって読み込ま
れた文書を構成する各文字は、JISコード、又はアス
キーコード等の文字コードに変換される。その文書読み
込み部21については、例えばOCR(Optical Charac
ter Reader)が該当する。
事、又は特許公報等の文書の読み込みを行う文書読み込
み部であり、この文書読み込み部21によって読み込ま
れた文書を構成する各文字は、JISコード、又はアス
キーコード等の文字コードに変換される。その文書読み
込み部21については、例えばOCR(Optical Charac
ter Reader)が該当する。
【0018】22は文書読み込み部21によって変換さ
れた文字の文字コードに基づいて、漢字、片仮名、平仮
名、アルファベット、長音又は数字等の語の切り出しを
行う語切り出し部、23はあらゆる文字の文字コード情
報を格納しており、これらの文字コード情報に基づい
て、漢字、片仮名、アルファベット、長音又は数字の並
びを判定する文字種判定部、24は文書中に連続して隣
接する少なくとも2個以上の語が漢字、片仮名、アルフ
ァベット、長音又は数字の任意の組み合わせである場合
に、それらの連続する語をキーワード候補として抽出す
るキーワード候補抽出部であり、このキーワード候補抽
出部24によって同種の語の連続に拘らず、数字/漢
字、漢字/漢字、アルファベット/漢字、片仮名/漢
字、アルファベット/片仮名、片仮名/数字等の任意の
組み合わせをキーワード候補として抽出することができ
る。
れた文字の文字コードに基づいて、漢字、片仮名、平仮
名、アルファベット、長音又は数字等の語の切り出しを
行う語切り出し部、23はあらゆる文字の文字コード情
報を格納しており、これらの文字コード情報に基づい
て、漢字、片仮名、アルファベット、長音又は数字の並
びを判定する文字種判定部、24は文書中に連続して隣
接する少なくとも2個以上の語が漢字、片仮名、アルフ
ァベット、長音又は数字の任意の組み合わせである場合
に、それらの連続する語をキーワード候補として抽出す
るキーワード候補抽出部であり、このキーワード候補抽
出部24によって同種の語の連続に拘らず、数字/漢
字、漢字/漢字、アルファベット/漢字、片仮名/漢
字、アルファベット/片仮名、片仮名/数字等の任意の
組み合わせをキーワード候補として抽出することができ
る。
【0019】即ち、キーワード候補抽出部24は、表1
の如く、左欄に例示する対象文書を右欄に示すキーワー
ド候補として抽出するように構成されている。
の如く、左欄に例示する対象文書を右欄に示すキーワー
ド候補として抽出するように構成されている。
【0020】
【表1】
【0021】25はキーワード候補抽出部24によって
抽出されたキーワードになる可能性のある候補を保存す
るキーワード候補保存部、26はキーワード候補保存部
25に保存されたキーワード候補の文書中における出現
頻度を算出する出現頻度算出部、27はキーワード候補
のうち後方部分一致関係にあるキーワード候補をひとつ
のグループにまとめる部分一致判定部、28は複数個の
同義語を格納している同義語辞書、29は同義語である
にも拘らず、表現形式が異なるキーワード候補をひとつ
のグループにまとめる同義語判定部、30は出現頻度算
出部26によって算出された頻度に基づいて、高頻度の
キーワード候補をキーワードとして抽出する高頻度語抽
出部である。
抽出されたキーワードになる可能性のある候補を保存す
るキーワード候補保存部、26はキーワード候補保存部
25に保存されたキーワード候補の文書中における出現
頻度を算出する出現頻度算出部、27はキーワード候補
のうち後方部分一致関係にあるキーワード候補をひとつ
のグループにまとめる部分一致判定部、28は複数個の
同義語を格納している同義語辞書、29は同義語である
にも拘らず、表現形式が異なるキーワード候補をひとつ
のグループにまとめる同義語判定部、30は出現頻度算
出部26によって算出された頻度に基づいて、高頻度の
キーワード候補をキーワードとして抽出する高頻度語抽
出部である。
【0022】上述の如き構成において、対象となる文書
を読み込ませて、文字毎に変換された文字コードによっ
てキーワードを抽出する方法を図2のフローチャート、
及び図3に示す文書例に基づいて、図1を参照しながら
説明する。
を読み込ませて、文字毎に変換された文字コードによっ
てキーワードを抽出する方法を図2のフローチャート、
及び図3に示す文書例に基づいて、図1を参照しながら
説明する。
【0023】ステップS1では、図3(a)に示すキーワ
ードを抽出する対象文書を文書読み込み部21に読み込
ませて、該対象文書を構成する各文字を文字コードに変
換する。ステップS2では、語切り出し部22が対象文
書を構成する各文字の文字コードに基づいて、漢字、片
仮名、平仮名、アルファベット、長音又は数字等の語毎
に切り出しを行う。ステップS3では、キーワード候補
抽出部が、ステップS2で切り出された語のうち、連続
して隣接する少なくとも2個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出する。ステップS4では、キーワード候補保存部2
5がステップS3で抽出されたキーワード候補を図3
(b)の如く保存する。
ードを抽出する対象文書を文書読み込み部21に読み込
ませて、該対象文書を構成する各文字を文字コードに変
換する。ステップS2では、語切り出し部22が対象文
書を構成する各文字の文字コードに基づいて、漢字、片
仮名、平仮名、アルファベット、長音又は数字等の語毎
に切り出しを行う。ステップS3では、キーワード候補
抽出部が、ステップS2で切り出された語のうち、連続
して隣接する少なくとも2個以上の語が漢字、片仮名、
アルファベット、長音又は数字の任意の組み合わせであ
る場合に、それらの連続する語をキーワード候補として
抽出する。ステップS4では、キーワード候補保存部2
5がステップS3で抽出されたキーワード候補を図3
(b)の如く保存する。
【0024】ステップS5において、部分一致判定部2
6は、キーワード候補保存部25に保存されたキーワー
ド候補のうち、後方部分一致関係にあるキーワード候補
をひとつのグループにまとめ、これによって、図3(c)
に示すように例えば「日米首脳会談」と「会談」とは同
じ後方部分一致グループと見做される。また、ステップ
S6では、同義語判定部28は、表現形式の異なる同義
関係にあるキーワード候補をひとつのグループにまと
め、これによって、図3(c)に示すように例えば「日米
戦略防衛構想」と「SDI」とは同じ同義語グループと
見做される。
6は、キーワード候補保存部25に保存されたキーワー
ド候補のうち、後方部分一致関係にあるキーワード候補
をひとつのグループにまとめ、これによって、図3(c)
に示すように例えば「日米首脳会談」と「会談」とは同
じ後方部分一致グループと見做される。また、ステップ
S6では、同義語判定部28は、表現形式の異なる同義
関係にあるキーワード候補をひとつのグループにまと
め、これによって、図3(c)に示すように例えば「日米
戦略防衛構想」と「SDI」とは同じ同義語グループと
見做される。
【0025】ステップS7において、後方部分一致グル
ープ、及び同義語グループに属するキーワード候補は別
々にカウントされないように同一のものとして考慮しな
がら、キーワード候補保存部25に保存されたキーワー
ド候補の出現頻度を出現頻度算出部25が算出する。
ープ、及び同義語グループに属するキーワード候補は別
々にカウントされないように同一のものとして考慮しな
がら、キーワード候補保存部25に保存されたキーワー
ド候補の出現頻度を出現頻度算出部25が算出する。
【0026】ステップS8では、ステップS7で算出さ
れた出現頻度の高いキーワード候補を高頻度語抽出部3
0が抽出する。ステップS9では、高頻度出現のキーワ
ード候補のうち上位に位置するキーワード候補をキーワ
ードとして抽出する。
れた出現頻度の高いキーワード候補を高頻度語抽出部3
0が抽出する。ステップS9では、高頻度出現のキーワ
ード候補のうち上位に位置するキーワード候補をキーワ
ードとして抽出する。
【0027】上述の実施例では、キーワード抽出の対象
となる文書中に句読点、括弧、ハイフン、又は#、%、
&等の特殊記号が含まれる場合については述べなかった
が、これらについては平仮名と同様に扱われ、キーワー
ド候補とはならない。
となる文書中に句読点、括弧、ハイフン、又は#、%、
&等の特殊記号が含まれる場合については述べなかった
が、これらについては平仮名と同様に扱われ、キーワー
ド候補とはならない。
【0028】また、本実施例において1字の語について
は、キーワード候補となる確率が低いものと考えて、1
字の語をキーワード候補として抽出しないこととしてい
る。
は、キーワード候補となる確率が低いものと考えて、1
字の語をキーワード候補として抽出しないこととしてい
る。
【0029】
【発明の効果】本発明によれば、キーワード抽出の対象
文書を構成する文字毎に変換された文字コードに基づい
て、助詞の直前に位置する名詞に限ることなく、文書中
の連続して隣接する少なくとも2個以上の語が漢字、片
仮名、アルファベット、長音又は数字の任意の組み合わ
せである場合に、それらの連続する語をキーワード候補
として抽出すると共に、それらのキーワード候補のうち
同義関係、又は部分一致関係のキーワード候補を夫々包
括的に取り扱って出現頻度を算出するので、対象となる
文書からキーワードを漏れなく抽出することができ、更
に精度の高いキーワードを抽出することができる。
文書を構成する文字毎に変換された文字コードに基づい
て、助詞の直前に位置する名詞に限ることなく、文書中
の連続して隣接する少なくとも2個以上の語が漢字、片
仮名、アルファベット、長音又は数字の任意の組み合わ
せである場合に、それらの連続する語をキーワード候補
として抽出すると共に、それらのキーワード候補のうち
同義関係、又は部分一致関係のキーワード候補を夫々包
括的に取り扱って出現頻度を算出するので、対象となる
文書からキーワードを漏れなく抽出することができ、更
に精度の高いキーワードを抽出することができる。
【図1】本発明に係るキーワード抽出装置の概略構成図
【図2】本発明に係るキーワード抽出に関するフローチ
ャート
ャート
【図3】本発明に係るキーワード抽出の対象となる文書
データ、キーワード候補、及びそのキーワード候補の出
現頻度を示す図
データ、キーワード候補、及びそのキーワード候補の出
現頻度を示す図
【図4】従来のキーワード抽出装置の概略構成図
21 文書読み込み部 22 語切り出し部 23 文字種判定部 24 キーワード候補抽出部 25 キーワード候補保存部 26 出現頻度算出部 27 部分一致判定部 28 同義語辞書 29 同義語判定部 30 高頻度語抽出部
Claims (1)
- 【請求項1】 キーワード抽出の対象となる文書を読み
込み、該文書を構成する各文字を文字コードに変換する
文書読み込み部と、該文書読み込み部によって変換され
た各文字の文字コードに基づいて、該文字を漢字、片仮
名、平仮名、アルファベット、長音又は数字等の語毎に
区分けを行う語切り出し部と、該語切り出し部によって
区分けされた語のうち、連続して隣接する少なくとも2
個以上の語が漢字、片仮名、アルファベット、長音又は
数字の任意の組み合わせである場合に、それらの連続す
る語をキーワード候補として抽出するキーワード候補抽
出部と、該キーワード候補抽出部によって抽出されたキ
ーワード候補同士の部分一致関係を判定する部分一致判
定部と、同義語を格納している同義語辞書と、該同義語
辞書に格納された同義語に基づいて、上記キーワード候
補抽出部によって抽出されたキーワード候補同士の同義
関係を判定する同義語判定部と、上記キーワード候補の
出現頻度を算出する出現頻度算出部と、該出現頻度算出
部によって算出された出現頻度に基づいて、出現頻度の
上位に位置するキーワード候補をキーワードとする高頻
度語抽出部と、を具備し、 上記出現頻度算出部は、上記部分一致判定部によって判
定された部分一致関係となるキーワード候補と、上記同
義語判定部によって判定された同義関係となるキーワー
ド候補とを夫々包括的に取り扱って出現頻度を算出する
ことを特徴とするキーワード抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4335965A JPH06187373A (ja) | 1992-12-16 | 1992-12-16 | キーワード抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4335965A JPH06187373A (ja) | 1992-12-16 | 1992-12-16 | キーワード抽出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06187373A true JPH06187373A (ja) | 1994-07-08 |
Family
ID=18294306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4335965A Pending JPH06187373A (ja) | 1992-12-16 | 1992-12-16 | キーワード抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06187373A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1040267A (ja) * | 1996-07-26 | 1998-02-13 | Nec Corp | 文書要約ビューア |
WO2013147236A1 (ja) * | 2012-03-30 | 2013-10-03 | 株式会社メディカルリサーチアンドテクノロジー | 専門家評価情報管理装置 |
KR20180019656A (ko) * | 2015-06-19 | 2018-02-26 | 알리바바 그룹 홀딩 리미티드 | 키워드 제시 방법 및 장치 |
CN111199259A (zh) * | 2018-11-19 | 2020-05-26 | 中国电信股份有限公司 | 标识转换方法、装置和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6428770A (en) * | 1987-07-24 | 1989-01-31 | Nippon Atomic Ind Group Co | Key word selector |
JPS6441964A (en) * | 1987-08-07 | 1989-02-14 | Nippon Telegraph & Telephone | Method for extracting object sentence inherent word of japanese |
JPH01217623A (ja) * | 1988-02-26 | 1989-08-31 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
JPH0228769A (ja) * | 1988-07-18 | 1990-01-30 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
-
1992
- 1992-12-16 JP JP4335965A patent/JPH06187373A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6428770A (en) * | 1987-07-24 | 1989-01-31 | Nippon Atomic Ind Group Co | Key word selector |
JPS6441964A (en) * | 1987-08-07 | 1989-02-14 | Nippon Telegraph & Telephone | Method for extracting object sentence inherent word of japanese |
JPH01217623A (ja) * | 1988-02-26 | 1989-08-31 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
JPH0228769A (ja) * | 1988-07-18 | 1990-01-30 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1040267A (ja) * | 1996-07-26 | 1998-02-13 | Nec Corp | 文書要約ビューア |
WO2013147236A1 (ja) * | 2012-03-30 | 2013-10-03 | 株式会社メディカルリサーチアンドテクノロジー | 専門家評価情報管理装置 |
JP2013228978A (ja) * | 2012-03-30 | 2013-11-07 | Mrt Inc | 専門家評価情報管理装置 |
KR20180019656A (ko) * | 2015-06-19 | 2018-02-26 | 알리바바 그룹 홀딩 리미티드 | 키워드 제시 방법 및 장치 |
US11403357B2 (en) | 2015-06-19 | 2022-08-02 | Advanced New Technologies Co., Ltd. | Enhancing accuracy of presented search keywords |
US11727075B2 (en) | 2015-06-19 | 2023-08-15 | Advanced New Technologies Co., Ltd. | Enhancing accuracy of presented search keywords |
CN111199259A (zh) * | 2018-11-19 | 2020-05-26 | 中国电信股份有限公司 | 标识转换方法、装置和计算机可读存储介质 |
CN111199259B (zh) * | 2018-11-19 | 2023-06-20 | 中国电信股份有限公司 | 标识转换方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6035268A (en) | Method and apparatus for breaking words in a stream of text | |
Isozaki | Japanese named entity recognition based on a simple rule generator and decision tree learning | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JPH09198409A (ja) | 酷似文書抽出方法 | |
JPH06187373A (ja) | キーワード抽出装置 | |
JP2001175661A (ja) | 全文検索装置及び全文検索方法 | |
JP2536633B2 (ja) | 複合語抽出装置 | |
JP2002189734A (ja) | 検索語抽出装置および検索語抽出方法 | |
JP3253657B2 (ja) | 文書検索方法 | |
JPH07230468A (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
JPH1173422A (ja) | 類似文書検索システムおよびそれに用いる記憶媒体 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JPH08161340A (ja) | 連語自動抽出装置 | |
JP2821143B2 (ja) | 形態素分解装置 | |
JPH0954781A (ja) | 文書検索システム | |
JPH07160724A (ja) | 文書検索装置 | |
JPH01295369A (ja) | 漢字仮名混じり文節分割処理方式 | |
JP4183767B2 (ja) | 文字列検索装置およびその検索方法 | |
JP2684138B2 (ja) | 日本語形態素解析システム及び見出し切り出し方法 | |
JPH03278176A (ja) | 日本文固有用語抽出処理装置 | |
JPH0262659A (ja) | 日本文訂正候補文字抽出装置 | |
JP2575947B2 (ja) | 文節切出し装置 | |
JPH0241560A (ja) | 未登録語処理方式 | |
JP2899184B2 (ja) | 日本語形態素解析システム及び見出し切り出し方法 | |
JP2004164133A (ja) | 抽出装置、用例検索装置、ならびに、プログラム |