JP2000132553A - キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2000132553A
JP2000132553A JP10300720A JP30072098A JP2000132553A JP 2000132553 A JP2000132553 A JP 2000132553A JP 10300720 A JP10300720 A JP 10300720A JP 30072098 A JP30072098 A JP 30072098A JP 2000132553 A JP2000132553 A JP 2000132553A
Authority
JP
Japan
Prior art keywords
keyword
data
word
importance
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10300720A
Other languages
English (en)
Inventor
Hideki Nishimura
英樹 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP10300720A priority Critical patent/JP2000132553A/ja
Priority to US09/420,238 priority patent/US6836772B1/en
Publication of JP2000132553A publication Critical patent/JP2000132553A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

(57)【要約】 (修正有) 【課題】 キーワードを抽出したいデータの形状に依存
せず、データを所望のパラメータで分割し、キーワード
を抽出する。 【解決手段】 データからキーワードを抽出する方法で
あって、所望のパラメータを用いて前記データを分割す
るステップと、分割されたグループ毎に単語を統計処理
するステップと、統計処理された結果を比較し、重要度
を算出するステップと、算出された重要度から、比較的
重要度が高いと判断された単語からキーワードを決定す
るステップと、を備えたことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は大量のデータから、
そのデータの特徴を示すキーワードを抽出する方法に関
するもので、大量のデータの部分領域の統計処理を行う
ことによってキーワードを抽出するキーワード抽出方法
およびキーワード検索装置およびキーワード抽出プログ
ラムを記録した記録媒体に関する。
【0002】
【従来の技術】大量のデータの部分領域の統計処理を行
うことによってキーワードを抽出する方法が特開平8−
202737号公報に記載されている。ここでは特許の
明細書を例にあげ、まず、あらかじめ準備した、《発明
の名称》、《特許請求の範囲》、等の見出し語に注目し
て全データを個々の段落に分割し、次に、同一文(セン
テンス)内での各単語の他の単語との共起数、同一段落
毎の各単語の他の単語との共起数、全データでの各単語
の出現数を求め、最後にこれらに適当な係数を乗じた代
数和で各単語の重要度を求め、キーワードを決定してい
る。
【0003】すなわち、単なる各単語の出現頻度でキー
ワードを決定するのでは無く、同一文、同一段落で相互
に共起する単語はより重要度(キーワードとしての妥当
性)が高いと判断している。
【0004】
【発明が解決しようとする課題】しかしながら、特開平
8−202737号公報に記載の方法では、対象データ
の特殊性に基づいて予め準備された見出し語(《発明の
名称》等)によって段落分割がなされるため、段落の分
割が固定であった。また、抽出されるキーワードは対象
データ全体に対するキーワードであって、個々の段落の
キーワードは抽出されていなかった。
【0005】従って、対象データが、特許明細書のよう
に各段落がそれぞれ固定の意味を持ち、明細書1文書で
内容が完結しているような場合には問題が少なかった
が、対象データが各個人が送受信した(電子)メール全
体とか、1日、1月単位のニュース全体とかのように、
送受信相手、発生時刻(日時)、等の種々のパラメータ
で分割可能なデータ集合であり、対象データ全体の内容
が把握しにくい場合には適用できなかった。
【0006】本発明は、上記課題に基づいて創案された
もので、種々のパラメータで分割可能な大量のデータに
対して各分割毎の統計処理結果の違いを比較することに
より、各分割毎または全データのキーワードを抽出し、
全データの特徴と、全データの中で各分割の特異性、傾
向との両方または一方を把握することを目的とする。
【0007】
【課題を解決するための手段】この発明(請求項1)に
係るキーワード抽出方法は、データからキーワードを抽
出する方法であって、所望のパラメータを用いて前記デ
ータを分割するステップと、分割されたグループ毎に単
語を統計処理するステップと、統計処理された結果を比
較し、重要度を算出するステップと、算出された重要度
から、比較的重要度が高いと判断された単語からキーワ
ードを決定するステップと、を備えたことにより、上記
の目的を達成する。
【0008】この発明(請求項2)に係るキーワード抽
出方法は、請求項1において、前記所望のパラメータ
が、前記データにそれぞれ付加される属性から選択され
てなることにより、上記の目的を達成する。
【0009】この発明(請求項3)に係るキーワード抽
出方法は、請求項1又は2において、前記分割されたグ
ループ毎に単語を統計処理する際、全てのグループに同
一の統計処理を行ってなることにより、上記の目的を達
成する。
【0010】この発明(請求項4)に係るキーワード抽
出方法は、請求項1〜3のいずれかにおいて、前記キー
ワードが、グループ毎のキーワード、又は全データのキ
ーワードとして決定されることにより、上記の目的を達
成する。
【0011】この発明(請求項5)に係るキーワード抽
出方法は、請求項4で決定されるキーワードが、パラメ
ータとして選択された属性と関連づけて、これを全デー
タの特性として判断されてなることにより、上記の目的
を達成する。
【0012】この発明(請求項6)に係るキーワード抽
出装置は、データからキーワードを抽出する装置であっ
て、所望のパラメータを用いて前記データを分割する手
段と、分割されたグループ毎に単語を統計処理する手段
と、統計処理された結果を比較し、重要度を算出する手
段と、算出された重要度から、比較的重要度が高いと判
断された単語からキーワードを決定する手段と、を備え
たことにより、上記の目的を達成する。
【0013】この発明(請求項7)に係るキーワード抽
出プログラムを記録したコンピュータ読み取り可能な記
録媒体は、コンピュータを、所望のパラメータを用いて
前記データを分割する手段、分割されたグループ毎に単
語を統計処理する手段、統計処理された結果を比較し、
重要度を算出する手段、算出された重要度から、比較的
重要度が高いと判断された単語からキーワードを決定す
る手段、として機能させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体であることによ
り、上記の目的を達成する。
【0014】即ち、本発明は、大量のデータを所望のパ
ラメータを用いて、いくつかの数に分割するものであ
る。この所望のパラメータは、データを社外向けメール
と社内向けメールに分割する、メールの発生月日または
時刻で分割する、又は、特定の相手とそれ以外に分割す
る等、対象とするデータに付加された属性であれば、何
でも良い。
【0015】次に、分割されたグループ毎に単語の統計
処理を行う。この統計処理は単なる単語の出現頻度でも
良いし、他の単語との共起数であっても良い。
【0016】更に、分割されたグループ毎の統計処理結
果の比較を行う。比較を行う場合には、前記分割された
グループ毎の統計処理を、単なる出現頻度であれ、他の
単語との共起数であれ、統一しておくことが好ましい。
また、具体的な比較は統計結果の差分もしくは比率を求
めることによってなされる。
【0017】つまり、ある分割領域において、出現頻度
又は他の単語との共起数が大きく、他の分割領域におい
て、出現頻度又は他の単語との共起数が小さい単語は、
重要度(キーワードとしての妥当性)が高いと判断す
る。
【0018】最後に各分割で重要度が高いと判断された
単語からキーワードを決定する。これは分割されたグル
ープ毎のキーワードと判断しても良いし、全データのキ
ーワードと判断しても良い。最も望ましいのは、最初に
分割した時の属性と関連づけて、ある属性分割にはこの
ようなキーワードがあり、別の属性分割には別のキーワ
ードがあるのが、この全データの特性であると判断する
ことである。
【0019】
【発明の実施の形態】以下、本発明の一実施例を添付図
面に基づいて詳細に説明する。
【0020】図1は本実施例に係るキーワード抽出装置
の機能ブロック図である。
【0021】この図において、1は対象データ選択手段
である。対象データ選択手段1は、対象の文書集合に対
して、各文書の単語やその他付加情報を整理する。2は
対象データ分割手段である。対象データ分割手段2は、
各文書の付加情報を利用して、文書集合を所望のN個に
分割する。3は部分統計処理手段である。部分統計処理
手段3は、分割されたN個の集合それぞれに対して単語
の統計をとる。4は部分統計処理結果比較手段である。
部分統計処理結果比較手段4は、N個の統計を元に、統
計結果を比較し、違いを検出して、単語の重要度を決定
する。5はキーワード抽出手段である。キーワード抽出
手段5は、単語の重要度を参照し、ソートすることで、
キーワードを抽出する。
【0022】以後、ある開発資料の文書集合を対象に、
著者を分割基準とした場合の動作を詳細に説明する。こ
こで、文書はコンピュータ上のファイルとなっており、
著者情報を持ち、文書集合をファイル名のリストという
形式で扱えるものとする。図2は、対象データ選択手段
1における動作のフローチャートである。まず、文書集
合から文書を1つ取り出す(S101)。取り出した文
書を解析し、単語の出現頻度を調べる(S102)。こ
の解析方法については、公知の技術を用いることにし、
特に制限しない。
【0023】次に、不要語辞書を用いて「そして、しか
し、この」などの不要語を除去した後(S103)、著
者名とともに文書テーブルに、文書の要素として追加す
る(S104)。文書集合の全ての文書に対して行うま
で、S101〜S104を繰り返す(S105)。結果
として、文書テーブル6(図3)を得る。
【0024】ここで、単語の後の()の数字は、その単
語の出現数を表す。なお、著者名は、ファイルの著者情
報を利用するなどで、特定できるものとする。ここで
は、説明を簡単にするために各文書とも単語数が極端に
少ない例にしているが、実際の文書では当然のことなが
ら単語の種類・出現頻度とも多種・多数になる。
【0025】図4は、対象データ分割手段2における動
作のフローチャートである。文書テーブル6の全ての要
素に対して、S201〜S203を繰り返す。まず、文
書テーブル6から、文書要素を1つ取り出す(S20
1)。例えば、「1 著者:幹部A 単語:画期的(1
0)、技術革新(5)、デジタル(4)」が取り出され
る。次に、著者名から、著者クラスを決定する(S20
2)。著者クラスとは、分割単位グループのことであ
り、クラスはいくつあっても良いが、この例では、「幹
部」「技術」「企画」の3つのクラスがあるとする。従
って、「1 著者:幹部A 単語:画期的(10)、技
術革新(5)、デジタル(4)」の場合、クラス「幹
部」と決定する。
【0026】そして、決定されたクラスに従って、該当
するクラスの単語リストに単語を追加する(S20
3)。「1 著者:幹部A 単語:画期的(10)、技
術革新(5)、デジタル(4)」の場合、幹部クラスの
単語リスト7に、単語「画期的(10)、技術革新
(5)、デジタル(4)」を追加する(図5)。文書テ
ーブル6の全ての要素に対して行うまで、S201〜S
203を繰り返す(S204)。
【0027】結果として、「幹部」「企画」「技術」の
3つのクラスに対応して、単語リスト7(図5)、単語
リスト8(図6)、単語リスト9(図7)を得る。な
お、著者クラスは著者名から直接決定するとしたが、著
者クラステーブル10(図8)を用いて、クラスを決定
するようにしても良い。
【0028】図9は、部分統計処理手段3における動作
のフローチャートである。全てのクラスに対して、S3
01〜S306を繰り返す。まず、対象データ分割手段
2によって得られた、あるクラスに対する、単語リスト
を選択する(S301)。例えば、幹部クラスの単語リ
スト7(図5)を選択する。選択した単語リストの全て
の単語に対して、S302〜S305を繰り返す。選択
した単語リストから、単語を1つ取り出す(S30
2)。
【0029】例えば、幹部クラスの単語リスト7から、
単語「画期的(10)」を取り出す。そして、取り出し
た単語に対して、単語カウントテーブルに登録されてい
るかどうかを調べ(S303)、登録されていれば、そ
の単語に対応するカウンタを出現数だけ増加する(S3
04)。登録されていなければ、その単語を単語カウン
トテーブルに登録し、カウンタを出現数に設定する(S
305)。
【0030】例えば、幹部クラスを選択している時、単
語リスト7から取り出された「画期的(10)」は1回
目は単語カウントテーブル11に登録されていないの
で、単語カウントテーブル11に登録し、カウンタをそ
の出現数である10にする。しかし、2回目に「画期的
(2)」が取り出された時、単語カウントテーブル11
に登録されているので、対応するカウンタを2増加し、
12とする。
【0031】S302〜S305を、選択した単語リス
トの全ての単語に対して行うまで繰り返す(S30
6)。S301〜S306を、全てのクラスに対して行
うまで繰り返す(S307)。
【0032】結果として、各クラスに対応した、単語カ
ウントテーブル11、12、13を得る(図10、図1
1、図12)。
【0033】図13は、部分統計処理結果比較手段4に
おける動作のフローチャートである。S401〜S40
4を、全てのクラスに対して行うまで繰り返す。まず、
対象のクラスを選択する(S401)。例えば、幹部の
観点で単語を抽出したい時、幹部クラスを選択する。S
402〜S403を、該当する単語カウントテーブルの
全単語に対して行うまで、繰り返す。選択したクラスの
単語カウントテーブルから単語を1つ選択する(S40
2)。例えば、技術クラスの単語カウントテーブル11
から、単語「画期的」を選択する。
【0034】次に、該当する単語カウントテーブルのカ
ウンタ値と、他の単語カウントテーブルのカウンタ値を
参照して、選択した単語の重要度を計算し、対応する単
語重要度テーブルに登録する(S403)。この時、各
クラスの文書数などを考慮に入れてもよい。
【0035】例えば、単語kの重要度Iを以下の式によ
って求めることが出来る。
【0036】
【数1】
【0037】このように重要度の決定に差分を用いる
と、カウンタ値の絶対値の大きさがI(k)の反映され
ることになり、より多く出現したキーワードを抽出した
い場合に適している。S402〜S403を、該当する
単語カウントテーブルの全単語に対して行うまで、繰り
返す(S404)。全てのクラスに対して、S401〜
S404を繰り返す(S405)。
【0038】結果として、各クラスに対する単語重要度
テーブル14、15、16を得る(図14、図15、図
16)。
【0039】図17は、キーワード抽出手段5における
請求項1記載の方法のフローチャートである。S501
〜S503を、全てのキーワード抽出対象のクラスに対
して行うまで繰り返す。まず、キーワード抽出対象のク
ラスを1つ選択する(S501)。そのクラスに対応す
る単語重要度テーブルを重要度でソートし、ソートした
単語重要度テーブルを作成する(S502)。そして、
ソートした単語重要度テーブル上位の単語を抽出キーワ
ードとする(S503)。S501〜S503を、全て
のキーワード抽出対象のクラスに対して行うまで繰り返
す(S504)。
【0040】結果として、ソートした単語重要度テーブ
ル17、18、19を得る(図18、図19、図2
0)。上述した、一連の処理を行うことで、対象の文書
集合から各クラスの観点での特徴キーワードを抽出する
ことが出来る。
【0041】図21は、キーワード抽出手段5における
請求項2記載の方法のフローチャートである。全てのク
ラスに対して、S511〜S516を繰り返す。対象の
クラスを1つ選択する(S511)。次に、選択クラス
に対応する単語重要度テーブルの中の全ての単語に対し
て、S512〜S517を繰り返す。対象の単語を1つ
選択する(S512)。選択単語が単語統計テーブル2
0に登録されているかどうかを調べ(S513)、登録
されていれば、単語統計テーブル20の対応する単語の
統計値に、選択単語の重要度の絶対値を加え、さらに、
選択クラスの単語カウントテーブルを参照し、対応する
単語のカウンタに、選択単語のカウンタ値を加える(S
514)。
【0042】登録されていなければ、単語統計テーブル
20に選択単語を登録した後(S515)、単語統計テ
ーブル20の対応する単語の統計値に、選択単語の重要
度の絶対値を設定し、さらに、選択クラスの単語カウン
トテーブルを参照し、対応する単語のカウンタに、選択
単語のカウンタ値を設定する(S516)。統計値に対
しては、重要度の自乗などを加えるようにしても良い。
S512〜S516を、全ての単語に対して行うまで繰
り返す(S517)。S511〜S517を、全てのク
ラスに対して行うまで繰り返す(S518)。
【0043】最後に、単語統計テーブル20を統計値が
小さく、カウンタ値が大きい順にソートし、ソートした
単語統計テーブル21を作成する(S519)。この
時、具体的には、例えば 係数C × 統計値 − カウンタ値 の値を基準にソート、統計値とカウンタ値のどちらかに
閾値を設定することで絞り込み残りの値でソート、統計
値/カウンタ値の値を基準にソート、などとすれば良
い。そして、ソートした単語統計テーブル21の上位単
語を、抽出キーワードとする(S520)。
【0044】結果として得られた、ソートした単語統計
テーブル21を図22に示す。ここでは、統計値/カウ
ンタ値の値の小さい順にソートした。上述した、一連の
処理を行うことで、対象の文書集合から各クラスによっ
て出現傾向の似ているキーワードを抽出することが出来
る。
【0045】本実施例では、該当クラスと他のクラスと
の差分に着目したが、比率に着目することも出来る。す
なわち、図13における、S403の重要度Iの計算に
おいて、
【0046】
【数2】
【0047】とすればよい。このように重要度の決定に
比率を用いると、文書数の絶対数に関わらず重要度の大
小の幅が大きくなり、文書数によらずに重要度を考慮し
たキーワードを抽出したい場合に適している。
【0048】この時、統計値の計算をする時に、無限大
なる場合を考慮し、重要度に上限、下限を設定し、さら
に、重要度が1未満ならその逆数を重要度の代わりに使
うようにするか、対数の絶対値を使うなど、重要度の違
いが累積されるようにする。または、重要度が1未満の
時その逆数を重要度の代わりに使う場合には、重要度ま
たはその逆数が1以上になることに注目し、統計値に加
えるのではなく、乗じることも出来る。
【0049】また、本実施例では、対象の文書集合を開
発資料とし、分割基準を著者としたが、その他分割基準
になりうる所望の基準で良く、例えば、メールを対象と
して、社外用のメールと、社内用のメールに分割した
り、メールの発生月日または時刻で分割したり、特定の
相手とそれ以外に分割するなど、対象データに付加され
ているものであれば何でも良い。
【0050】様々な検索システムでは、利用者のアクセ
スをログとして記録している場合が多い。この時、アク
セスログにはアクセスした利用者のIDや、アクセス日
時や、検索キー(多くの場合キーワード)が記録されて
いる。従って、この一回のアクセスに対するログを1文
書として扱うと、アクセスログ全体で、文書集合を構成
することになり、利用者IDで分割したり、アクセス日
時を用いて昼夜あるいは平日、休日などに分割すること
で、それぞれのアクセス傾向を調べることが出来る。
【0051】
【発明の効果】本発明のキーワード抽出方法、キーワー
ド抽出装置、又は記録媒体を用いることによれば、種々
のパラメータで分割可能な大量のデータに対して、分割
されたグループ毎の統計処理結果の違いを比較すること
によって、分割されたグループ毎、又は全データのキー
ワードを抽出し、全データの特徴と、全データの中での
分割されたグループの特異性及び/又は傾向を把握する
ことが出来、しかも、データの形式として特定のものは
必要でなく、所望のものを扱える。
【0052】特に、重要度の決定に、出現頻度の差分を
用いる方法では、より出現頻度の高いキーワードを抽出
することが出来、重要度の決定に、出現頻度の比率を用
いる方法では、文書の絶対数によらずに重要度を考慮し
たキーワードを抽出することが出来る。
【図面の簡単な説明】
【図1】本発明の機能ブロック図である。
【図2】データ対象選択手段における動作のフローチャ
ートである。
【図3】文書テーブルの例を示す説明図である。
【図4】対象データ分割手段における動作のフローチャ
ートである。
【図5】幹部クラスの単語リストの例を示す説明図であ
る。
【図6】企画クラスの単語リストの例を示す説明図であ
る。
【図7】技術クラスの単語リストの例を示す説明図であ
る。
【図8】著者クラステーブルの例を示す説明図である。
【図9】部分統計処理手段における動作のフローチャー
トである。
【図10】幹部クラスの単語カウントテーブルの例を示
す説明図である。
【図11】企画クラスの単語カウントテーブルの例を示
す説明図である。
【図12】技術クラスの単語カウントテーブルの例を示
す説明図である。
【図13】部分統計処理結果比較手段における動作のフ
ローチャートである。
【図14】幹部クラスの単語重要度テーブルの例を示す
説明図である。
【図15】企画クラスの単語重要度テーブルの例を示す
説明図である。
【図16】技術クラスの単語重要度テーブルの例を示す
説明図である。
【図17】キーワード抽出手段における請求項1記載の
方法のフローチャートである。
【図18】幹部クラスのソートした単語重要度テーブル
の例を示す説明図である。
【図19】企画クラスのソートした単語重要度テーブル
の例を示す説明図である。
【図20】技術クラスのソートした単語重要度テーブル
の例を示す説明図である。
【図21】キーワード抽出手段における請求項2記載の
方法のフローチャートである。
【図22】単語統計テーブルの例を示す説明図である。
【図23】ソートした単語統計テーブルの例を示す説明
図である。
【符号の説明】
1 対象データ選択手段 2 対象データ分割手段 3 部分統計処理手段 4 部分統計処理結果比較手段 5 キーワード抽出手段 6 文書テーブル 7 幹部クラスの単語リスト 8 企画クラスの単語リスト 9 技術クラスの単語リスト 10 著者クラステーブル 11 幹部クラスの単語カウントテーブル 12 企画クラスの単語カウントテーブル 13 技術クラスの単語カウントテーブル 14 幹部クラスの単語重要度テーブル 15 企画クラスの単語重要度テーブル 16 技術クラスの単語重要度テーブル 17 幹部クラスのソートした単語重要度テーブル 18 企画クラスのソートした単語重要度テーブル 19 技術クラスのソートした単語重要度テーブル 20 単語統計テーブル 21 ソートした単語統計テーブル

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 データからキーワードを抽出する方法で
    あって、 所望のパラメータを用いて前記データを分割するステッ
    プと、 分割されたグループ毎に単語を統計処理するステップ
    と、 統計処理された結果を比較し、重要度を算出するステッ
    プと、 算出された重要度から、比較的重要度が高いと判断され
    た単語からキーワードを決定するステップと、を備えた
    ことを特徴とするキーワード抽出方法。
  2. 【請求項2】 前記所望のパラメータは、前記データに
    それぞれ付加される属性から選択されてなることを特徴
    とする請求項1に記載のキーワード抽出方法。
  3. 【請求項3】 前記分割されたグループ毎に単語を統計
    処理する際、全てのグループに同一の統計処理を行って
    なることを特徴とする請求項1又は2に記載のキーワー
    ド抽出方法。
  4. 【請求項4】 前記キーワードは、グループ毎のキーワ
    ード、又は全データのキーワードとして決定されること
    を特徴とする請求項1〜3のいずれかに記載のキーワー
    ド抽出方法。
  5. 【請求項5】 請求項4で決定されるキーワードは、パ
    ラメータとして選択された属性と関連づけて、これを全
    データの特性として判断されてなることを特徴とするキ
    ーワード抽出方法。
  6. 【請求項6】 データからキーワードを抽出する装置で
    あって、 所望のパラメータを用いて前記データを分割する手段
    と、 分割されたグループ毎に単語を統計処理する手段と、 統計処理された結果を比較し、重要度を算出する手段
    と、 算出された重要度から、比較的重要度が高いと判断され
    た単語からキーワードを決定する手段と、 を備えたことを特徴とするキーワード抽出装置。
  7. 【請求項7】 コンピュータを、 所望のパラメータを用いて前記データを分割する手段、 分割されたグループ毎に単語を統計処理する手段、 統計処理された結果を比較し、重要度を算出する手段、 算出された重要度から、比較的重要度が高いと判断され
    た単語からキーワードを決定する手段、として機能させ
    るためのプログラムを記録したコンピュータ読み取り可
    能な記録媒体。
JP10300720A 1998-10-22 1998-10-22 キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2000132553A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10300720A JP2000132553A (ja) 1998-10-22 1998-10-22 キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
US09/420,238 US6836772B1 (en) 1998-10-22 1999-10-19 Key word deriving device, key word deriving method, and storage medium containing key word deriving program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10300720A JP2000132553A (ja) 1998-10-22 1998-10-22 キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2000132553A true JP2000132553A (ja) 2000-05-12

Family

ID=17888299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10300720A Pending JP2000132553A (ja) 1998-10-22 1998-10-22 キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US6836772B1 (ja)
JP (1) JP2000132553A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079899A (ja) * 2005-09-14 2007-03-29 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
KR101105798B1 (ko) 2009-02-05 2012-01-17 한국전자통신연구원 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
US10210248B2 (en) 2015-12-04 2019-02-19 Fujitsu Limited Computer-readable recording medium, display control method, and information processing device
US10409847B2 (en) 2015-12-04 2019-09-10 Fujitsu Limited Computer-readable recording medium, learning method, and mail server

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4234740B2 (ja) * 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法
US20090327272A1 (en) * 2008-06-30 2009-12-31 Rami Koivunen Method and System for Searching Multiple Data Types

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06282587A (ja) * 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JPH09311871A (ja) * 1996-05-23 1997-12-02 Ricoh Co Ltd キーワード抽出装置及びキーワード表示装置
JPH09330335A (ja) * 1996-06-12 1997-12-22 Mitsubishi Electric Corp メッセージ学習分類装置及び学習分類方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69231113T2 (de) * 1991-04-08 2001-03-01 Koninkl Philips Electronics Nv Speicherverfahren für bibliographische Information über Daten aus einer endlichen Textquelle, und insbesondere Dokumentverbuchungen zur Verwendung in einem Suchsystem für Ganztextdokumente
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JPH08202737A (ja) 1995-01-26 1996-08-09 N T T Data Tsushin Kk キーワード自動抽出装置およびキーワード自動抽出方法
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5907840A (en) * 1997-07-25 1999-05-25 Claritech Corporation Overlapping subdocuments in a vector space search process

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06282587A (ja) * 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JPH09311871A (ja) * 1996-05-23 1997-12-02 Ricoh Co Ltd キーワード抽出装置及びキーワード表示装置
JPH09330335A (ja) * 1996-06-12 1997-12-22 Mitsubishi Electric Corp メッセージ学習分類装置及び学習分類方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079899A (ja) * 2005-09-14 2007-03-29 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
JP4647442B2 (ja) * 2005-09-14 2011-03-09 独立行政法人情報通信研究機構 データ表示装置、データ表示方法およびデータ表示プログラム
KR101105798B1 (ko) 2009-02-05 2012-01-17 한국전자통신연구원 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
US10210248B2 (en) 2015-12-04 2019-02-19 Fujitsu Limited Computer-readable recording medium, display control method, and information processing device
US10409847B2 (en) 2015-12-04 2019-09-10 Fujitsu Limited Computer-readable recording medium, learning method, and mail server

Also Published As

Publication number Publication date
US6836772B1 (en) 2004-12-28

Similar Documents

Publication Publication Date Title
US8290975B2 (en) Graph-based keyword expansion
US8719262B1 (en) Identification of semantic units from within a search query
JP4919515B2 (ja) 重複する文書の検出および表示機能
US7502732B2 (en) Compressing messages on a per semantic component basis while maintaining a degree of human readability
US7895205B2 (en) Using core words to extract key phrases from documents
US7707204B2 (en) Factoid-based searching
US7003513B2 (en) Method and system of weighted context feedback for result improvement in information retrieval
JP5346841B2 (ja) 文書分類システムおよび文書分類プログラムならびに文書分類方法
CN100595753C (zh) 一种文本主题推荐方法和装置
US20060190435A1 (en) Document retrieval using behavioral attributes
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
JP6355840B2 (ja) ストップワード識別方法および装置
CN101315624A (zh) 一种文本主题推荐的方法和装置
US20110258227A1 (en) Method and system for searching documents
EP2657852A1 (en) Method and device for filtering harmful information
JP2007524172A (ja) 重要度情報を反映した検索結果リスト提供方法およびそのシステム
CN109062895B (zh) 一种智能语义处理方法
US8090720B2 (en) Method for merging document clusters
US20050283357A1 (en) Text mining method
JP2000132553A (ja) キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101344892B (zh) 信息处理设备及信息处理方法
CN116881406A (zh) 一种多模态智能文件检索方法及系统
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
CN106991181B (zh) 口语化语句提取的方法及装置
KR100525617B1 (ko) 연관 검색 쿼리 추출 방법 및 시스템

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041109