JPH10162012A - 文分類装置 - Google Patents

文分類装置

Info

Publication number
JPH10162012A
JPH10162012A JP8316667A JP31666796A JPH10162012A JP H10162012 A JPH10162012 A JP H10162012A JP 8316667 A JP8316667 A JP 8316667A JP 31666796 A JP31666796 A JP 31666796A JP H10162012 A JPH10162012 A JP H10162012A
Authority
JP
Japan
Prior art keywords
sentence
word
keyword
unit
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8316667A
Other languages
English (en)
Inventor
Katsumi Tokuda
克己 徳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8316667A priority Critical patent/JPH10162012A/ja
Publication of JPH10162012A publication Critical patent/JPH10162012A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 利用者が指定した単語を用いて、キーワード
を選択し、このキーワードを用いて文集合を指定された
単語に関連して分類することのできる文分類装置を提供
する。 【解決手段】 単語分割部102は、文格納部101に
格納されている複数の文を単語分割し、単語格納部10
3に格納する。第1キーワード指定操作部104は、該
単語を表示し、利用者から単語の指定を受ける。第2キ
ーワード選択部105は、指定された単語と同一文中の
他の単語で他の文に存在する単語をキーワードとして選
択する。分類部106は、同一キーワードを含む文を一
のグループに分類し、グループ間に共通する文が所定割
合以上あればグループを統合する。一覧表示制御部10
8は、キーワードを代表語として、グループの内容を表
示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の文をキーワ
ードを用いて分類する文分類装置に関する。
【0002】
【従来の技術】近年、コンピュータネットワークや文字
放送を利用した電子ニュース等の情報自動通信システム
が稼働し始めている。この電子ニュース等を効率的に利
用するため、記事をキーワードを与えて分類する文分類
装置がある。この従来の文分類装置では、利用者が1つ
のキーワードを与えると、このキーワードを含む文を抽
出する。また、複数のキーワードを与えると、それらの
キーワードごとにキーワードを含む文に分類する。
【0003】
【発明が解決しようとする課題】ところで、上記装置で
は、与えられたキーワードを含む文を抽出、分類するだ
けであるので、キーワードに関連する文を広範に分類す
ることが煩雑になる。例えば、新聞記事を参照し、ある
業界で主要な地位を占めるA社の動向に注目して、前記
業界の動向を調べる場合を考える。
【0004】従来の文分類装置においては、キーワード
「A社」を1次検索用のキーワードとして入力する。次
に「A社」の動きを表す「DVD開発」や、「輸出不
振」というフレーズを検索結果から利用者が見い出し
て、再度「DVD」、「輸出」などの2次検索用のキー
ワードとして入力して、「A社」を含む業界の動向を広
範囲に検索する。この場合、1次検索の結果が膨大にな
ることが多く、利用者が検索結果を全て参照して2次検
索用のキーワードを適切に決定することは非常に困難で
ある。
【0005】また、仮に、2次検索用のキーワードを設
定できたとしても、2次検索用のキーワードの組合せに
よって2次検索の結果は大きく変動する。このため、適
切な組合わせを求めるために試行錯誤を繰り返す必要が
ある。本発明は上記欠点に鑑み、利用者が1次検索用の
キーワードを指定するだけで、最適な2次検索用のキー
ワードを自動的に設定し、1次検索用のキーワードを指
定するだけで、最適な2次検索用のキーワードを自動的
に設定し、1次検索用のキーワードに関連する広範な文
の分類ができる文分類装置を提供することを目的とす
る。
【0006】
【課題を解決するための手段】本発明に係る文分類装置
は、複数の文を記憶している文記憶手段と、前記文記憶
手段に記憶されている文を単語に分割する単語分割手段
と、前記単語分割手段で分割された単語を表示して前記
文記憶手段に記憶されている文を分類するための単語の
指定を受け付ける単語指定受付手段と、前記文記憶手段
に記憶されている文の中で前記単語指定受付手段で指定
された単語を含む文中の当該単語以外の所定の単語をキ
ーワードとして選択するキーワード選択手段と、前記キ
ーワード選択手段で選択されたキーワードを代表語とし
て、前記文記憶手段に記憶された文中にキーワードを含
む文を同一グループに分類する分類手段と、前記分類手
段で分類されたグループの内容を表示させる表示制御手
段とを備えることとしている。これによって、一の単語
を指定されると、当該単語を含む文から所定のキーワー
ドを選択して、そのキーワードを含む文を同一グループ
に分類するので、広範な文の分類が可能となる。
【0007】
【発明の実施の形態】以下、本発明に係る文分類装置の
実施の形態を図面を用いて説明する。 (実施の形態1)図1は、本発明に係る文分類装置の実
施の形態1の構成図である。この文分類装置は、文格納
部101と、単語分割部102と、単語格納部103
と、第1キーワード指定操作部104と、第2キーワー
ド選択部105と、分類部106と、分類グループ格納
部107と、一覧表示制御部108とを備えている。
【0008】文格納部101は、磁気ディスク、RO
M、RAM等からなり、複数の文をその格納順を示す文
番号とともに格納している。この文格納部101には、
例えば図2に示すような、文番号201で区分された文
字放送の見出し文の内容202が格納されている。単語
分割部102は、所定の単語辞書を有し、この文分類装
置が起動されると、文格納部101に格納されている文
を読み出し、所定の単語に分割し、その文番号とともに
単語格納部103に格納する。この際、同一文中に出現
する出現回数も記録する。これによって、同一文中の単
語を重複して格納することはない。文格納部101に格
納されている全ての文について単語分割が終了すると、
第1キーワード指定操作部104を起動する。
【0009】ここで、所定の単語辞書とは、助詞等の単
語を除いた名詞を中心とした辞書をいう。単語格納部1
03は、磁気ディスク、RAM等からなり、図3に示す
ように、単語分割部102で単語に分割された単語30
1を文格納部101に格納された順番である文番号30
2とその文中での出現回数303とともに格納してい
る。
【0010】図3は、図2に示した文が文格納部101
に格納されていたとき、単語格納部103に格納される
単語の一例を示している。第1キーワード指定操作部1
04は、CRT、液晶ディスプレイ等の表示部を有し、
単語分割部102に起動されると、単語格納部103に
格納されている単語を読み出し、表示部に表示し、利用
者からの第1キーワードの指定を待つ。利用者は、表示
部に表示された単語から一つの単語を指定する。第1キ
ーワード指定操作部104は、この指定された単語を第
1キーワードとして第2キーワード選択部105に通知
する。
【0011】第2キーワード選択部105は、文番号カ
ウンタiと、単語カウンタjとを有し、第1キーワード
指定操作部104から第1キーワードの通知を受ける
と、単語格納部103に格納されている単語から第2キ
ーワードを選択し、選択した第2キーワードを分類部1
06に通知する。第1キーワードの通知を受けると、文
番号カウンタiに「1」を設定する。また文番号カウン
タiは、単語カウンタjの値が文番号iの文の単語数N
Wを超えたとき、又は文番号iの文が第1キーワードを
含まないとき、「1」を加えられる。
【0012】次に、文番号iの文の全ての単語を単語格
納部103から読み出し、この単語の中に第1キーワー
ド指定操作部104から通知された第1キーワードに一
致する単語があるか否かを判定し、あるときは、この文
番号iの文の単語の総数NWを読み出し、単語カウンタ
jに「1」を設定する。単語カウンタjは、文番号iの
文のj番目の単語Wijが第1キーワードであるとき、
又は単語Wijが単語格納部103の文番号i以外の文
番号の単語に一致するものがないとき、「1」を加えら
れる。
【0013】また、単語格納部103から文番号iのj
番目の単語Wijを読み出し、単語Wijが第1キーワ
ードと一致するか否かを判定し、一致しないときは、単
語格納部103に格納されている文番号i以外の文の単
語に一致するものがあるか否かを判定する。一致するも
のがあるときは、この単語Wijを第2キーワードとし
て選択し、分類部106に通知する。更に、文番号カウ
ンタiの値が単語格納部103に格納されている文の総
数(文番号の最大)NSを超えたか否かを判定し、超え
ているときは、分類部106を起動する。
【0014】図3に示す単語群が単語格納部103に格
納されているとき、第1キーワード指定操作部104で
単語「A社」が第1キーワードとして指定されると、第
2キーワード選択部105は、第1キーワード「A社」
と同一の文番号「1」及び「5」を持つ単語から文番号
「1」又は「5」以外の文番号を持つ単語群に一致する
単語「年度」、「決算」、「発表」、「円」、「新
型」、「発売」を第2キーワードとして選択し、分類部
106に通知する。
【0015】分類部106は、RAM等からなる第2キ
ーワード記憶部(図示せず)と、文番号カウンタiと、
第2キーワードカウンタkと、グループカウンタmと、
統合カウンタneと、グループ比較カウンタnとを有す
る。第2キーワード選択部105から第2キーワードを
通知されると順次第2キーワード記憶部に記憶させ、ま
た起動されると、文格納部101に記憶されている文の
総数NSを読み出し、文番号カウンタiに「1」を設定
する。文番号カウンタiは、第2キーワードカウンタk
の値が第2キーワード記憶部に記憶されている第2キー
ワードの総数NK2の値を超えたとき、「1」を加えら
れる。
【0016】分類部106は、文番号カウンタiに
「1」が設定されたとき、またはインクリメントされた
とき、文格納部101に格納されている文番号iの文S
iを読み込む。続いて、第2キーワード記憶部に記憶さ
れている第2キーワードの総数NK2を読み出し、第2
キーワードカウンタkに「1」を設定する。第2キーワ
ードカウンタkは、文格納部101に格納されている文
Siに第2キーワード記憶部のk番目に記憶されている
第2キーワードが含まれているか否かを判定した後に
「1」を加えられる。
【0017】分類部106は、第2キーワードカウンタ
kに「1」を設定したとき、又は第2キーワードカウン
タkの値が第2キーワードの総数NK2を超えないと判
定したとき、第2キーワード記憶部にk番目に記憶され
た第2キーワードK2kを読み出し、文Siが第2キー
ワードを含んでいるか否かを判定する。文Siに第2キ
ーワードが含まれているときは、第2キーワードK2k
を分類グループ代表語として分類グループGkに文Si
を分類する。分類結果を分類グループ格納部107に分
類グループ代表語と、文番号とを対応して格納するとと
もに、その分類グループに含まれる文の数を格納する。
なお、既に分類グループ代表語が格納されているときに
は、文番号を対応して格納して、文の数を「1」増や
す。 分類部106が第2キーワード選択部105から
第2キーワード「年度」、「決算」、「発表」、
「円」、「新型」、「発売」を通知され、図2に示した
文が文格納部101に格納されているとき、分類グルー
プ格納部107には、図4に示すように、分類グループ
代表語(第2キーワード)ごとに各文が分類される。即
ち、分類グループ代表語401の「年度」を含む文番号
402の文「1」、「2」、「3」が1つの分類グルー
プ403として分類される。この分類グループ403に
は、文の数404が「3」であることが示されている。
また、図4からわかるように、分類部106では、最
初、文格納部101に格納されている各文を第2キーワ
ードの数と同じ分類グループ数として分類する。
【0018】分類部106は、文格納部101に格納さ
れている全ての文について、第2キーワードを分類グル
ープ代表語とする分類を終了すると、分類グループ格納
部107に格納した分類グループ数NK2を読み出し、
変数ngに代入する。また、変数ngが分類グループの
統合前の初期分類グループ数ng0と一致しないとき、
変数ngに変数ngを代入する。ここで、変数ngは、
現時点での分類グループ数を示している。
【0019】次に、初期分類グループ数ng0に変数n
gを代入し、グループカウンタmに「1」を設定する。
ここで、グループカウンタmの値は、分類グループ格納
部107に格納した分類グループの順番を示す。グルー
プカウンタmに「1」を設定したとき、又はグループカ
ウンタmの値が変数ngの値を超えないと判定されたと
き、統合カウンタneに「0」を設定し、グループ比較
カウンタnに「m+1」を設定する。ここで、グループ
比較カウンタnの値は、分類グループ格納部107に格
納した分類グループの順番を示す。
【0020】分類部106は、分類グループ格納部10
7のi番目とj番目とに格納されている分類グループG
iとGjとに分類された文の所定の割合、例えば75%
以上が同一文か否かを判定する。即ち、分類グループ代
表語に対応して記憶されている文番号が75%以上共通
しているか否かを判定する。否と判定したときは、統合
カウンタnに「1」を加え、nの値が変数ngの値を超
えるか否かを判定する。変数ngの値を超えるときは、
変数ngに変数ngの値から統合カウンタneの値を減
算した値を代入する。
【0021】次に、グループカウンタmに「1」を加え
て、mの値が変数ngを超えるか否かを判定し、超える
ときは変数ngが初期分類グループ数ng0に一致する
か否かを判定し、一致するときは、一覧表示制御部10
8を起動する。文の75%以上が同一文であると判定し
たときは、分類グループGmに分類グループGnを統合
する。即ち、分類グループ格納部に格納されている2つ
の分類グループGmとGnとのそれぞれの分類グループ
代表語を連接して1つの分類グループの分類グループ代
表語とし、対応して文番号と文の数とを格納する。次
に、統合カウンタneに「1」を加えて、上述の否と判
定したときと同様の処理をする。
【0022】以上のような処理の結果、分類グループ格
納部107には、図4に示した分類グループ403、4
05が統合され、図5に示すように分類グループ501
となる。即ち、分類グループ403の文番号「1」、
「2」、「3」と分類グループ405の文番号「1」、
「2」、「3」、「4」とが75%以上一致しているか
らである。
【0023】同様に、図4に示す分類グループ406、
407は、文番号が100%一致しているので、図5に
示す分類グループ502に統合される。なお、分類グル
ープ代表語401は、分類グループ501では「年度・
決算」に、分類グループ502では「新型・発売」にそ
れぞれ連接されている。一覧表示制御部108は、液晶
ディスプレイ、CRT等からなる表示部を有し、分類部
106に起動されると、分類グループ格納部107に格
納されている分類グループの内容を読み出し、図6に示
すように表示部に表示させる。
【0024】表示内容は、分類グループ代表語601と
その分類グループに含まれる文の数602との一覧であ
る。ここで、図示しない操作部からカーソルキーにより
カーソル603を移動して、分類グループ代表語「新型
・発売」を項目選択して、リターンキーにより内容表示
に切り換えると、図7に示すように分類グループ502
に分類された3つの文が表示される。
【0025】この際、一覧表示制御部108は、分類グ
ループ格納部107に格納されている文番号を読み出
し、文格納部101に格納されている対応する文を読み
出して表示させる。次に、本実施の形態の動作を図8、
図9、図10のフローチャートを用いて説明する。
【0026】先ず、文分類装置が起動されると、単語分
割部102は、単語辞書を用いて文格納部101に格納
されている全ての文を単語に分割して単語格納部103
に格納する(S802)。第1キーワード指定操作部1
04は、利用者から第1キーワードの指定を受け付ける
(S804)。
【0027】第2キーワード選択部105は、単語格納
部103に格納されている文の数NSを読み出して記憶
するとともに文番号カウンタiに「1」を設定する(S
806)。単語格納部103の文番号iの全ての単語W
を読み込み(S808)、単語Wの中に第1キーワード
に一致する単語が有るか否かを判定する(S810)。
【0028】一致する単語がなければS824に移り、
一致する単語が有れば、文番号iの単語数NWを読み出
して記憶するとともに単語カウンタjに「1」を設定す
る(S812)。文番号iのj番目の単語Wijは第1
キーワードと一致するか否かを判定し(S814)、一
致するときはS820に移り、一致しないときは、単語
Wijと単語格納部103に格納されている文番号i以
外の単語に一致する単語が有るか否かを判定する(S8
16)。
【0029】有るときは、単語Wijを第2キーワード
の1つとして分類部106に通知し(S818)、ない
ときにはS820に移る。S820において、単語カウ
ンタjに「1」を加え、単語カウンタjの値が文番号i
の単語数NWを超えるか否か判定し(S822)、超え
ないときはS814に戻り、超えるときはS824に移
る。
【0030】S824において、文番号カウンタiに
「1」を加え、文番号カウンタiの値が単語格納部10
3に格納されている文の総数NSを超えるか否かを判定
し(S826)、超えなければS808に戻り、超える
ときはS902に移る。分類部106は、S902にお
いて、文格納部101に格納されている文の総数NSを
読み出して記憶し、文番号カウンタiに「1」を設定す
る。次に文格納部101に格納されている文番号iの文
Siを読み込み(S904)、第2キーワードの数NK
2として、第2キーワードカウンタkに「1」を設定す
る(S906)。
【0031】次に、文Siにk番目の第2キーワードK
2kを含むか否かを判定し(S908)、含むときには
文Siを第2キーワードK2kを分類グループ代表語と
する分類グループGkに分類し、分類グループ格納部1
07にその文番号iを格納する(S910)。その後、
又はS908において含まないと判定したとき、第2キ
ーワードカウンタkに「1」を加え(S912)、第2
キーワードカウンタkの値が第2キーワードの数NK2
を超えたか否かを判定し(S914)、超えていないと
きはS908に戻り、超えたときは文番号カウンタiに
「1」を加え(S916)、文番号カウンタiの値が文
の総数NSを超えたか否かを判定する(S918)。超
えていないときはS904に戻り、超えているときは、
第1回目の分類を終了し、現在の分類グループ数ngを
読み出す。ここではng=NK2である(S100
2)。
【0032】次に初期分類グループ数ng0に「ng」
を代入し、グループカウンタmに「1」を設定する(S
1004)。統合カウンタneに「0」を設定し、グル
ープ比較カウンタnに「m+1」を設定する(S100
6)。分類グループ格納部107に格納されている分類
グループGmと分類グループGnとに分類された文の7
5%以上が同一文か否かを判定する(S1008)。肯
定のときは、分類グループGmに分類グループGnを統
合し(S1010)、否であればS1014に移る。分
類グループ数が「1」減ったので統合カウンタneに
「1」を加え(S1012)、グループ比較カウンタn
に「1」を加え(S1014)、グループ比較カウンタ
nの値が分類グループ数ngを超えているか否か判定す
る(S1016)。超えていればS1018に移り、否
のときはS1008に戻る。
【0033】次に、現時点での初期分類グループ数ng
に「ng−ne」の値を代入し(S1018)、グルー
プカウンタmに「1」を加え(S1020)、mの値が
ngを超えるか否かを判定する(S1022)。超えな
ければS1006に戻り、超えていればngとng0と
が一致するか否かを判定し(S1024)、否であれば
S1004に戻り、一致すればS1026に移る。
【0034】S1026において、一覧表示制御部10
8は、分類グループ格納部107に格納されている分類
グループごとに分類グループ代表語と分類グループに属
する文の数とを対応づけて一覧表示し、利用者から指示
があれば、その文の内容を表示して(S1026)、処
理を終了する。なお、上記実施の形態では、分類グルー
プ統合のための文の一致度を75%としたけれども、文
格納部101に格納されている文の種類によって適当な
値に変更することも可能である。また、第2キーワード
を選択する際に、単語格納部103において2回以上出
現したものに限ったけれども、この出現回数を1回を含
む任意の回数に変更することもできる。更に、第2キー
ワードとしてふさわしくない単語を集めた無効キーワー
ド辞書を備えるようにして、第2キーワード選択部10
5が選択した第2キーワードであって無効キーワード辞
書に一致する単語があるときには、除外するようにして
明らかに不要な単語が第2キーワードにならないように
することができる。 (実施の形態2)図11は、本発明に係る文分類装置の
実施の形態2の構成図である。
【0035】この文分類装置は、文格納部101と、代
表単語辞書1101と、単語分割部1102と、単語格
納部103と、第1キーワード指定操作部104と、第
2キーワード選択部1103と、分類部1104と、分
類グループ格納部107と、一覧表示制御部108とを
備えている。なお、上記実施の形態1と同一の構成部分
には同一の符号を付しその説明を省略し、本実施の形態
固有の構成部分について説明する。
【0036】代表単語辞書1101は、図12に示すよ
うに、代表単語1201と、代表単語と関連の深い単
語、同意語、類似語、反意語を組にした単語組1202
とを対応して登録している。即ち、「利益」と「増益」
とは関連の深い単語であり、「増益」と「減益」とは反
意語であり、これらの単語を「利益」を代表単語として
登録している。
【0037】単語分割部1102は、上記実施の形態1
の単語分割部102の機能に加えて、文格納部101に
格納されている文を単語単位に分割するに際して、分割
した単語が代表単語辞書1101の単語組1202にあ
るときには、その代表単語1201を単語格納部103
に格納する。このように、関連する単語を一まとめにし
て、後にする第2キーワードに適切な単語を選択する。
【0038】第2キーワード選択部1103は、上記第
2キーワード選択部105の機能に加えて、第2キーワ
ードとして選択した単語の単語格納部103での出現回
数を計数する計数部を有する。そして、この出現回数の
多いものから順に一定個数の単語を第2キーワードとし
て選択し、分類部1104に通知する。このように出現
回数の多い単語のみを第2キーワードとすることによっ
て、分類グループの数を減少しつつも、関連ある文をで
きるだけ多く分類することができる。
【0039】分類部1104は、上記分類部106の機
能に加えて、文格納部101に格納されている文を読み
出して、その構成単語に第2キーワードを含んでいるか
否かを調べる際に、代表単語辞書1101の単語組を含
んでいるときにも、対応する代表単語の第2キーワード
を含んでいるものとする。このようにすることによっ
て、より広範に文を分類グループに分類することができ
る。
【0040】次に本実施の形態の動作を説明する。上記
実施の形態1の動作と殆ど異なるところがないので、図
8、図9、図10のフローチャートの異なる部分のみ説
明する。S802に替えて、単語分類部1102は、文
格納部101に格納されている全ての文を単語に分割し
て、該単語が代表単語辞書1101の単語組に登録され
ているか否かを調べ、登録されていないときはそのま
ま、登録されているときは対応する代表単語に換えて単
語格納部103に格納する。
【0041】S818において、第2キーワード選択部
1103は、単語Wijを第2キーワードの候補単語と
して記憶しておき、S826とS902との間に、候補
単語として記憶している単語の出現回数を単語格納部1
03に格納されている該単語の出現回数を加算して求
め、出現回数の多いものから、所定数の候補単語を第2
キーワードとして選択して、分類部1104に通知す
る。
【0042】S908において、分類部1104は、文
Siにk番目の第2キーワードK2k又は代表単語辞書
1101の代表単語である第2キーワードK2kの対応
する単語組の単語を含むか否かを判定する。なお、本実
施の形態において、代表単語辞書1101には、予め代
表単語が登録されていたけれども、変形例として、単語
組のみを登録しておいて、単語組の中で文格納部101
に格納された文中の出現回数の多い単語を代表単語とす
るようにしてもよい。
【0043】なお、上記実施の形態1、2では、図1、
図11に示したような構成で本発明に係る文分類装置を
実現したけれども、本発明はプログラムによって実現
し、これをフロッピーディスク等の記録媒体に記録して
移送することにより、他のコンピュータ・システムで容
易に実施することができる。図13は、これをフロッピ
ーディスクで実施する場合の説明図である。
【0044】記録媒体本体であるフロッピーディスク1
301の物理フォーマットは、同心円上に外周から内周
に向かってトラック1、2、…、80を作成し、角度方
向に16のセクタに分割している。このように割り当て
られた領域に従って、プログラムを記録する。このフロ
ッピーディスク1301は、ケース1302に収納さ
れ、これによって、ディスクを埃や外部からの衝撃から
守り、安全に移送することができる。
【0045】図14は、フロッピーディスク1301に
プログラムの記録再生を行うことを説明する図である。
図示のようにコンピュータ・システム1401にフロッ
ピーディスクドライブ1402を接続することにより、
ディスク1301に対してプログラムを記録再生するこ
とが可能となる。ディスク1301はフロッピーディス
クドライブ1402に、挿入口1403を介して組込
み、および取り出しがなされる。記録する場合はコンピ
ュータ・システム1401からプログラムをフロッピー
ディスクドライブ1402によってディスク1301に
記録する。再生する場合は、フロッピーディスクドライ
ブ1402がプログラムをディスク1301から読み出
し、コンピュータ・システム1401に転送する。
【0046】なお、この実施の形態においては、記録媒
体としてフロッピーディスクを用いて説明を行ったが、
光ディスクを用いても同様に行うことができる。また記
録媒体はこれらに限られず、ICカード、ROMカセッ
ト等、プログラムを記録できるものであれば、同様に実
施することができる。
【0047】
【発明の効果】以上説明したように、本発明は、複数の
文を記憶している文記憶手段と、前記文記憶手段に記憶
されている文を単語に分割する単語分割手段と、前記単
語分割手段で分割された単語を表示して前記文記憶手段
に記憶されている文を分類するための単語の指定を受け
付ける単語指定受付手段と、前記文記憶手段に記憶され
ている文の中で前記単語指定受付手段で指定された単語
を含む文中の当該単語以外の所定の単語をキーワードと
して選択するキーワード選択手段と、前記キーワード選
択手段で選択されたキーワードを代表語として、前記文
記憶手段に記憶された文中にキーワードを含む文を同一
グループに分類する分類手段と、前記分類手段で分類さ
れたグループの内容を表示させる表示制御手段とを備え
ることとしているので、利用者は1つの単語を指定する
だけで指定した単語に関連する文記憶手段に記憶されて
いる文を広範に分類した分類結果を見ることができる。
【0048】また、前記分類手段でグループに分類され
たグループ間で分類された文が所定の割合以上一致する
グループ同士を1のグループに統合し、そのグループを
代表する代表語として統合前の2つの代表語を連接する
統合手段を備え、前記表示制御手段は統合手段で統合さ
れたグループの内容を表示させる統合表示制御部を有す
ることとしているので、利用者は、より集約された状態
で分類されたグループの内容を見ることができる。
【0049】また、前記文記憶手段は、複数の文を文番
号とともに記憶し、前記単語分割手段で分割された単語
をその文番号とともに記憶している単語記憶手段を備
え、前記キーワード選択手段は、前記単語記憶手段に記
憶されている指定された単語と同一文番号の異なる単語
が異なる文番号にあるとき、該単語をキーワードとして
選択することとしているので、キーワードの選択を容易
にすることができる。
【0050】また、前記キーワード選択手段は、前記単
語記憶手段に記憶されている該単語の出現回数を計数す
る計数部と、前記計数部が計数した出現回数の多い単語
をキーワードとして選択する出現キーワード選択部とを
有することとしているので、より重要なキーワードを選
択して文を分類することができ、かつ、分類に無駄がな
くなる。
【0051】また、同意語、反意語、類似語の互いに関
連する単語を組にして登録している関連単語辞書を備
え、前記単語分割手段は、分割した単語が前記関連単語
辞書に登録されているとき、その組にされた単語の1つ
の単語を前記単語記憶手段にその文番号とともに記憶さ
せる関連単語分割部を有し、前記分類手段は、前記文記
憶手段に記憶された文中にキーワード又は前記関連単語
辞書にキーワードと組に登録されている単語を含む文を
同一グループに分類することとしているので、キーワー
ドに関連する単語の重複がなくなり、分類効率が向上す
る。
【0052】また、前記分類手段は、代表語と同一グル
ープに分類した文の文番号とを記憶する分類記憶部を有
し、前記統合手段は、グループ間で分類された文が所定
の割合以上一致するか否かを前記分類記憶部に記憶され
た文番号の一致数から判定する判定部と、前記判定部が
所定の割合以上一致すると判定したとき、前記分類記憶
部の2つのグループを、一の連接した代表語と統合した
文の文番号とからなる一のグループに更新する更新部と
を有することとしているので、グループの統合を容易に
することができる。
【0053】また、前記表示制御手段は、前記分類記憶
部に記憶された代表語と文番号との数を一覧表示させる
一覧表示制御部と、利用者からの代表語を指定した内容
表示の指示を受けると、前記分類記憶部に記憶されてい
る文番号に対応する文を前記文記憶手段から読み出して
表示させる内容表示制御部とを有することとしているの
で、利用者は、分類された文の内容を容易に見ることが
でき、文分類の利用効率が向上する。
【0054】更に、コンピュータを文分類装置として機
能させるため、複数の文を記憶している文記憶手段と、
前記文記憶手段に記憶されている文を単語に分割する単
語分割手段と、前記単語分割手段で分割された単語を表
示して前記文記憶手段に記憶されている文を分類するた
めの単語の指定を受け付ける単語指定受付手段と、前記
文記憶手段に記憶されている文の中で前記単語指定受付
手段で指定された単語を含む文中の当該単語以外の所定
の単語をキーワードとして選択するキーワード選択手段
と、前記キーワード選択手段で選択されたキーワードを
代表語として、前記文記憶手段に記憶された文中にキー
ワードを含む文を同一グループに分類する分類手段と、
前記分類手段で分類されたグループの内容を表示させる
表示制御手段として機能させるプログラムを記録した記
録媒体としているので、文分類機能を有しない他のパー
ソナルコンピュータと相俟って上記文分類装置と同様の
効果が得られる。
【図面の簡単な説明】
【図1】本発明に係る文分類装置の実施の形態1の構成
図である。
【図2】上記実施の形態の文格納部に格納されている文
の一例を示す図である。
【図3】上記実施の形態の単語格納部に格納された単語
の一例を示す図である。
【図4】上記実施の形態の分類グループ格納部に格納さ
れた内容の一例を示す図である。
【図5】上記実施の形態の分類グループ格納部に格納さ
れた内容の一例を示す図である。
【図6】上記実施の形態の一覧表示制御部によって表示
された内容を示す図である。
【図7】上記図6の表示内容の変更された様子を示す図
である。
【図8】上記実施の形態の動作を説明するフローチャー
トである。
【図9】上記実施の形態の動作を説明するフローチャー
トである。
【図10】上記実施の形態の動作を説明するフローチャ
ートである。
【図11】本発明に係る文分類装置の実施の形態2の構
成図である。
【図12】上記実施の形態の代表単語辞書の内容を示す
図である。
【図13】上記実施の形態1又は2で説明した文分類装
置の各構成要素の機能を実施するプログラムを記録した
記録媒体の説明図である。
【図14】上記記録媒体のコンピュータシステムへの装
着を説明する図である。
【符号の説明】
101 文格納部 102、1102 単語分割部 103 単語格納部 104 第1キーワード指定操作部 105、1103 第2キーワード選択部 106、1104 分類部 107 分類グループ格納部 108 一覧表示制御部 1101 代表単語辞書 1301 フロッピーディスク 1401 コンピュータ・システム

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の文を記憶している文記憶手段と、 前記文記憶手段に記憶されている文を単語に分割する単
    語分割手段と、 前記単語分割手段で分割された単語を表示して前記文記
    憶手段に記憶されている文を分類するための単語の指定
    を受け付ける単語指定受付手段と、 前記文記憶手段に記憶されている文の中で前記単語指定
    受付手段で指定された単語を含む文中の当該単語以外の
    所定の単語をキーワードとして選択するキーワード選択
    手段と、 前記キーワード選択手段で選択されたキーワードを代表
    語として、前記文記憶手段に記憶された文中にキーワー
    ドを含む文を同一グループに分類する分類手段と、 前記分類手段で分類されたグループの内容を表示させる
    表示制御手段とを備えることを特徴とする文分類装置。
  2. 【請求項2】 前記分類手段でグループに分類されたグ
    ループ間で分類された文が所定の割合以上一致するグル
    ープ同士を1のグループに統合し、そのグループを代表
    する代表語として統合前の2つの代表語を連接する統合
    手段を備え、 前記表示制御手段は統合手段で統合されたグループの内
    容を表示させる統合表示制御部を有することを特徴とす
    る請求項1記載の文分類装置。
  3. 【請求項3】 前記文記憶手段は、複数の文を文番号と
    ともに記憶し、 前記単語分割手段で分割された単語をその文番号ととも
    に記憶している単語記憶手段を備え、 前記キーワード選択手段は、前記単語記憶手段に記憶さ
    れている指定された単語と同一文番号の異なる単語が異
    なる文番号にあるとき、該単語をキーワードとして選択
    することを特徴とする請求項2記載の文分類装置。
  4. 【請求項4】 前記キーワード選択手段は、 前記単語記憶手段に記憶されている該単語の出現回数を
    計数する計数部と、 前記計数部が計数した出現回数の多い単語をキーワード
    として選択する出現キーワード選択部とを有することを
    特徴とする請求項3記載の文分類装置。
  5. 【請求項5】 同意語、反意語、類似語の互いに関連す
    る単語を組にして登録している関連単語辞書を備え、 前記単語分割手段は、分割した単語が前記関連単語辞書
    に登録されているとき、その組にされた単語の1つの単
    語を前記単語記憶手段にその文番号とともに記憶させる
    関連単語分割部を有し、 前記分類手段は、前記文記憶手段に記憶された文中にキ
    ーワード又は前記関連単語辞書にキーワードと組に登録
    されている単語を含む文を同一グループに分類すること
    を特徴とする請求項3又は4記載の文分類装置。
  6. 【請求項6】 前記分類手段は、代表語と同一グループ
    に分類した文の文番号とを記憶する分類記憶部を有し、 前記統合手段は、 グループ間で分類された文が所定の割合以上一致するか
    否かを前記分類記憶部に記憶された文番号の一致数から
    判定する判定部と、 前記判定部が所定の割合以上一致すると判定したとき、
    前記分類記憶部の2つのグループを、一の連接した代表
    語と統合した文の文番号とからなる一のグループに更新
    する更新部とを有することを特徴とする請求項3記載の
    文分類装置。
  7. 【請求項7】 前記表示制御手段は、 前記分類記憶部に記憶された代表語と文番号との数を一
    覧表示させる一覧表示制御部と、 利用者からの代表語を指定した内容表示の指示を受ける
    と、前記分類記憶部に記憶されている文番号に対応する
    文を前記文記憶手段から読み出して表示させる内容表示
    制御部とを有することを特徴とする請求項6記載の文分
    類装置。
  8. 【請求項8】 コンピュータを文分類装置として機能さ
    せるため、 複数の文を記憶している文記憶手段と、 前記文記憶手段に記憶されている文を単語に分割する単
    語分割手段と、 前記単語分割手段で分割された単語を表示して前記文記
    憶手段に記憶されている文を分類するための単語の指定
    を受け付ける単語指定受付手段と、 前記文記憶手段に記憶されている文の中で前記単語指定
    受付手段で指定された単語を含む文中の当該単語以外の
    所定の単語をキーワードとして選択するキーワード選択
    手段と、 前記キーワード選択手段で選択されたキーワードを代表
    語として、前記文記憶手段に記憶された文中にキーワー
    ドを含む文を同一グループに分類する分類手段と、 前記分類手段で分類されたグループの内容を表示させる
    表示制御手段として機能させるプログラムを記録したこ
    とを特徴とする記録媒体。
JP8316667A 1996-11-27 1996-11-27 文分類装置 Pending JPH10162012A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8316667A JPH10162012A (ja) 1996-11-27 1996-11-27 文分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8316667A JPH10162012A (ja) 1996-11-27 1996-11-27 文分類装置

Publications (1)

Publication Number Publication Date
JPH10162012A true JPH10162012A (ja) 1998-06-19

Family

ID=18079574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8316667A Pending JPH10162012A (ja) 1996-11-27 1996-11-27 文分類装置

Country Status (1)

Country Link
JP (1) JPH10162012A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075810A1 (fr) * 1999-06-04 2000-12-14 Seiko Epson Corporation Procede de tri de documents, appareil de tri de documents et support enregistre sur lequel un programme de tri de documents est memorise
JP2003050814A (ja) * 2001-08-08 2003-02-21 Toshiba Corp 辞書管理方法及び辞書管理プログラム並びに辞書管理装置
JP2011215950A (ja) * 2010-03-31 2011-10-27 Toshiba Corp キーワード提示装置、方法及びプログラム
US8108407B2 (en) 2006-11-06 2012-01-31 Panasonic Corporation Informationn retrieval apparatus

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075810A1 (fr) * 1999-06-04 2000-12-14 Seiko Epson Corporation Procede de tri de documents, appareil de tri de documents et support enregistre sur lequel un programme de tri de documents est memorise
US7213205B1 (en) 1999-06-04 2007-05-01 Seiko Epson Corporation Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
JP2003050814A (ja) * 2001-08-08 2003-02-21 Toshiba Corp 辞書管理方法及び辞書管理プログラム並びに辞書管理装置
US8108407B2 (en) 2006-11-06 2012-01-31 Panasonic Corporation Informationn retrieval apparatus
JP2011215950A (ja) * 2010-03-31 2011-10-27 Toshiba Corp キーワード提示装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
CN105786793B (zh) 解析口语文本信息的语义的方法和装置
EP1808788B1 (en) Information type identification method and apparatus, e.g. for music file name content identification
JP4129048B2 (ja) 固有表現抽出装置、方法、及びプログラム
US20050120020A1 (en) System, method and apparatus for prediction using minimal affix patterns
JP2012018412A (ja) 会話の話題を決定して関連するコンテンツを取得して提示する方法及びシステム
CN109698858A (zh) 用于智能设备的资源推送方法、设备和存储介质
US20140337381A1 (en) Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
JP2006004274A (ja) 対話処理装置、対話処理方法及び対話処理プログラム
US20100169095A1 (en) Data processing apparatus, data processing method, and program
KR20130036863A (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN101819600A (zh) 存储设备和记录介质
JP2001216316A (ja) 電子マニュアル検索システム、方法、及び記録媒体
KR20160143411A (ko) 감정 온톨로지에 기반한 동영상 컨텐츠 추천 장치 및 그 방법
TWI480742B (zh) 基於動態語言模型之推薦方法與推薦系統
CN107807939A (zh) 数据对象的整理方法及设备
Pęzik Increasing the accessibility of time-aligned speech corpora with spokes Mix
US6741791B1 (en) Using speech to select a position in a program
JPH10162012A (ja) 文分類装置
CN110263318A (zh) 实体名称的处理方法、装置、计算机可读介质及电子设备
CN110347922A (zh) 基于相似度的推荐方法、装置、设备和存储介质
EP1625518A2 (en) Method of searching for media objects
US11200266B2 (en) Identifying named entities in questions related to structured data
JP3903738B2 (ja) 情報記録・検索装置、方法、プログラム、および記録媒体
US7801943B2 (en) Cataloging audio content
JP4772233B2 (ja) 文書データ分析プログラム及びコンピュータによる文書データ分析方法並びに文書データ分析システム