JPH08221439A - テキストファイルの自動分類方法 - Google Patents

テキストファイルの自動分類方法

Info

Publication number
JPH08221439A
JPH08221439A JP7026880A JP2688095A JPH08221439A JP H08221439 A JPH08221439 A JP H08221439A JP 7026880 A JP7026880 A JP 7026880A JP 2688095 A JP2688095 A JP 2688095A JP H08221439 A JPH08221439 A JP H08221439A
Authority
JP
Japan
Prior art keywords
feature vector
text file
input
output
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7026880A
Other languages
English (en)
Inventor
Hiroshi Sasaki
佐々木  寛
Hiromi Haniyuda
博美 羽生田
Tetsuo Kinoshita
哲男 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Oki Electric Industry Co Ltd
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO, Oki Electric Industry Co Ltd filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Priority to JP7026880A priority Critical patent/JPH08221439A/ja
Publication of JPH08221439A publication Critical patent/JPH08221439A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 テキストファイルの特徴ベクトルを生成しこ
れをニューラルネットワークの入力層に入力して該ネッ
トワークの結合リンクを特徴ベクトルに適合するように
修正する学習をし、その後、分類対象であるテキストフ
ァイルを分類する方法であって従来より処理時間の短い
方法を提供する。 【構成】 予め複数の基本単語を用意する。テキストフ
ァイルから単語を抽出し該抽出される単語群における基
本単語に当たる単語の出現回数を基本単語ごとに計数し
た結果に基づいて、特徴ベクトルを生成する。結合リン
クの修正は、学習前の出力層に用意されている出力ノー
ドのうち前記特徴ベクトルに対する距離が最も近い出力
ノードを決定し、その距離に応じて、その出力ノードの
特徴ベクトルに対する距離が近づくよう結合リンクを修
正する処理または、新たな出力ノードを追加生成する処
理のいずれかを実施することにより行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、テキストファイルデ
ータをデータベースに自動的に分類し登録する方法に関
するものである。
【0002】
【従来の技術】例えば文献I(信学技報DE94-27,pp.59-
66,1994 )には、自己組織化マップと呼ばれる教師なし
競合学習を行うニューラルネットワークを用いたテキス
トファイルの自動分類方法が開示されている。このテキ
ストファイルの自動分類方法では、先ず、テキストファ
イルからその特徴ベクトルを生成し、該特徴ベクトルを
入力層、出力層および結合リンクを具えるニューラルネ
ットワークの当該入力層に入力し、前記結合リンクを前
記特徴ベクトルに適合するように修正する学習がなされ
る。その際特徴ベクトルは、テキストファイルから単語
を切り出し、該切り出した単語の種類ごとの出現回数に
比例したベクトル表現の形で、生成されている(文献I
の第61頁右欄)。また、学習はいわゆるSOM法と称さ
れる方法、すなわち、前記出力層に用意されている出力
ノードのうちの前記特徴ベクトルに対する距離が一番近
い出力ノードを勝者ノードとし、かつ、該勝者ノードお
よびその近傍の出力ノードそれぞれの前記特徴ベクトル
に対する距離が近づくように前記結合リンクを修正する
方法、でなされている(文献Iの第60頁右欄〜第61頁左
欄)。学習が終えた後は、分類対象であるテキストファ
イルからその特徴ベクトルを生成し、該特徴ベクトルを
前記学習後のニューラルネットワークの入力層に入力し
て該学習後のニューラルネットワークの出力層における
出力ノードのうちの前記特徴ベクトルに対する距離が一
番近い出力ノード(勝者ノード)を求め、該勝者ノード
を前記分類対象であるテキストファイルの分類先として
いる。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来のテキストファイルの自動分類方法では、特徴ベ
クトルを生成する際、テキストファイルから抽出される
単語の全ての種類についてその出現回数を計数しこれに
基づいて特徴ベクトルを生成するので、ニューラルネッ
トワークの入力層の入力ノード数はテキストファイルか
ら抽出される単語の種類数と同じ数、必要となる。ここ
で、出力層に用意されている出力ノードのうちの前記特
徴ベクトルに対する距離が一番近い出力ノード(勝者ノ
ード)を決めるためには、下記の(1)式を実行し、か
つ、Distancej が最小値となった出力ノードを選ぶ必要
がある(文献Iの第60頁右欄下部に記載の式(下記の
(1)式と同様な内容の式)参照))。
【0004】 Distancej =Σi=1 m(INPUTi−weightij2 ・・・(1) ただし、(1)式中、Distancej は計算対象としている
出力ノードの特徴ベクトルに対する距離(求めようとし
ている距離)、mは入力ノード数、iは計算対象として
いる入力ノード、jは計算対象としている出力ノード、
INPUTiは計算対象としている入力ノードのデータ(i番
目の単語の出現回数に関連するデータであり特徴ベクト
ルである)、weightijは入力ノードiと出力ノードjと
の間の結合の強さを示す荷重値(結合リンクを構成する
もの)である。なお、Σi=1 mとは、iを1からmまで順
次に変えて計算をする意味である。
【0005】したがって、この従来のテキストファイル
の分類方法では、勝者ノードを決めるための時間は入力
ノード数mに依存するため、勝者ノードを決めるための
時間が長時間になる場合があるという問題点があった。
【0006】また、この従来のテキストファイルの分類
方法では、予めテキストファイルを分類するクラスを考
慮して複数の出力ノードを用意しておき(文献Iの第60
頁第24行)その中から勝者ノードを上記(1)式を用い
る方法で決める構成であったため、勝者ノードを決める
ための時間は出力ノードの数にも依存してしまう。
【0007】また、この従来のテキストファイルの分類
方法では、学習は、勝者ノードおよびその近傍の出力ノ
ードそれぞれの前記特徴ベクトルに対する距離が近づく
ように結合リンクを修正することで、行なわれていた。
従って、図9(A)に示した様にテキストファイルを分
類すべき複数のクラスA〜Eが複雑に入り組んでいる場
合、誤分類を起こし易い出力ノードが出来上がり易いと
いう問題点があった。これについて詳細に説明する。出
力ノードが例えば4×4の場合でこれら出力ノードが、
テキストファイルを分類すべき複数のクラスA〜Eが複
雑に入り組んでいる図9(A)に示したような集合に対
し、クラスBの当たりに位置していたとする(図10
(B)参照)。このとき、クラスAに分類されるべきテ
キストファイルが入力されると、4×4の出力ノードの
うちのクラスAに最も近い出力ノードN44が勝者ノード
となるので、この勝者ノードN44およびその近傍の出力
ノードはクラスAに近づくように修正される。このた
め、特に出力ノードN34やN43は、クラスA側に引っ張
られ結局クラスAとクラスBの間に位置する様になる
(図10(C)参照)。そしてこれら出力ノードN34
43は学習中は出力ノードN44と出力ノードN33に引っ
張られることを繰り返すので結果としてクラスをカバー
することにならない出力ノードとなってしまう危険が高
い。またこのようなクラス間に位置する出力ノードは、
クラスAに分類されるテキストファイルとクラスBに分
類されるテキストファイルとを混ぜてしまう危険すなわ
ち誤分類を招く原因となる。
【0008】
【課題を解決するための手段】そこで、この発明によれ
ば、テキストファイルからその特徴ベクトルを生成し、
該特徴ベクトルを入力層、出力層および結合リンクを具
えるニューラルネットワークの当該入力層に入力し、前
記結合リンクを前記特徴ベクトルに適合するように修正
する学習をし、その後、分類対象であるテキストファイ
ルからその特徴ベクトルを生成し、該特徴ベクトルを前
記学習後のニューラルネットワークの入力層に入力し、
該学習後のニュラルネットワークの出力層における前記
特徴ベクトルに対する距離が近い出力ノードを勝者ノー
ドとして該勝者ノードを前記分類対象であるテキストフ
ァイルの分類先とする、テキストファイルの自動分類方
法において、少なくとも前記学習段階における特徴ベク
トルは、予め複数の基本単語を用意しておき、一方、前
記テキストファイルから単語を抽出し、該抽出される単
語群における前記基本単語に当たる単語の出現回数を基
本単語ごとに計数した結果に基づいて、生成し、結合リ
ンクの前記修正は、学習前の出力層に用意されている出
力ノードのうち前記生成された特徴ベクトルに対する距
離が最も近い出力ノードを決定し、該決定された出力ノ
ードの前記特徴ベクトルに対する距離に応じて、(a)
少なくとも該決定された出力ノードの前記特徴ベクトル
に対する距離が近づくよう前記結合リンクを修正する処
理または、(b)新たな出力ノードを追加生成する処理
のいずれかを実施することにより行なうことを特徴とす
る。
【0009】なお、この発明の実施に当たり、前記分類
対象のテキストファイルからのその特徴ベクトルの生成
も、前記学習段階での特徴ベクトルの生成方法により行
なうのが好適である。こうすると、テキストファイルの
分類作業時に行なう特徴ベクトルの生成時間も従来に比
べ短縮でき、テキストファイルの自動分類の時間短縮が
一層図れるからである。
【0010】また、この発明の実施に当たり、学習前の
出力層に用意されている前記出力ノードを1つとしてお
くのが好適である。こうすると、学習作業が開始された
当初において勝者ノード決定に用いる出力ノード数を少
なく出来るので、その分、勝者ノード決定の時間短縮が
図れるからである。
【0011】
【作用】この発明の構成によれば、テキストファイルか
ら特徴ベクトルを生成するに必要な任意の単語のみを基
本単語として用意できる。このため、ニューラルネット
ワークの入力層における入力ノード数mを必要最低限と
できる。
【0012】また、結合リンクの修正を行なう際に決定
される勝者ノードの特徴ベクトルに対する距離があまり
に離れている場合は、追加の出力ノードを生成するの
で、学習前の出力層に用意される出力ノードを少なくと
も1つとしておき、必要に応じ出力ノードを徐々に追加
出来る。これは、特徴ベクトルに対してより適切な結合
を示す出力ノードを徐々に生成できることを意味する。
【0013】また、結合リンクの前記修正において前記
(a)の処理を行なう場合、決定された前記出力ノード
についてのみ特徴ベクトルに対する距離が近づくよう前
記結合リンクを修正する構成では、勝者ノードの近傍の
出力ノードが勝者ノードに引かれることを防止出来る。
【0014】
【実施例】以下、図面を参照してこの発明の実施例につ
いて説明する。ただし、いずれの図もこれらの発明を理
解出来る程度に概略的に示してある。また、説明に用い
る各図において同様な構成成分については同一の番号を
付して示し、その重複する説明を省略することもある。
【0015】図1〜図8はこの発明のテキストファイル
の自動分類方法(以下、分類方法と略称することもあ
る。)の実施例の説明図である。なお、この実施例では
分類対象とするテキストファイルの集合がコンピュータ
関連のテキストファイルである場合を説明する。図1
は、このようなテキストファイルの集合に含まれる1つ
のテキストファイル10の例を示している。また、図2
および図3はこの発明の自動分類方法をテキストファイ
ル10について実施した際のデータの流れを模式的に示
した図である。ただし、これら図2および図3では、分
類方法の実施に用いたシステムも併せて示してある。さ
らに、データは図面下方から上方に向かって流れていく
よう図示している。また、図4および図5はこの発明の
分類方法における学習作業のための処理手順の説明図、
図6および図7はこの学習作業における結合リンクの修
正の様子の説明図、図8はこの発明の分類方法における
分類作業のための処理手順の説明図である。
【0016】1.システムの説明 先ず、この発明の分類方法の実施に用いたシステムにつ
いて説明する。このシステムは、図2および図3に示し
た様に、テキストデータベース11と、特徴ベクトル生
成部13と、ニューラルネットワーク15と、クラス記
録ファイル17と、過重結合値記録ファイル19とを具
えている。特徴ベクトル生成部13は、この場合は、基
本単語記録ファイル13a、テキストベクトル化部13
bおよび正規化部13cで構成してある。なお、図2、
図3において、11xはテキストデータベースから1つ
のテキストファイル10が取り出される様子、13xは
正規化する前の特徴ベクトル(ここではテキストベクト
ルと称する。)の様子、13yは正規化した後のテキス
トベクトル(この実施例ではこれを特徴ベクトルとす
る。)の様子をそれぞれ模式的に示したものである。
【0017】ここで、テキストデータベース11はテキ
ストファイルを蓄積する機能を有するものであり、テキ
ストデータを加工したり変形したりする能力は持たない
ものである。また、これに限られないが、この実施例で
は蓄積するテキストファイル数が512個とされたテキ
ストデータベースとしている。
【0018】また、基本単語記録ファイル13aは、予
め定めた複数の単語を記録しているファイルであり、テ
キストファイルをテキストベクトル化するためのチェッ
クリストの役割を果たすものである。この基本単語記録
ファイル13aのデータフォーマットは例えば後述の別
表1のA欄に示したものとできる。なお、この実施例の
場合の基本単語記録ファイル13aは、テキストデータ
ベース11に蓄積されている512個のテキストファイ
ル中に出現する単語のうち最高出現(頻出)単語と最低
(頻出)単語とを除いた単語であって2文字以上の10
06個の単語を選択して記録したファイルとしている。
この実施例の場合の基本単語の一部を下記に列挙した。
【0019】ラスターイメージ、ラディウス、ラディウ
スロケット、リスタート、リスト、リセット、リムーバ
ブル、レーザプリンタ、レーザープリンター、レーザー
ライター、レーザライタ、MicroLine、レベ
ル、レポートレンダリング、プリント、マッキントッシ
ュ。
【0020】なお、基本単語の決定において最高出現単
語や最低出現単語が複数あった場合、すなわち出現回数
がN回の単語がp個あったり、出現回数が1回の単語が
q個あった場合これらp+q個の各単語はいずれも基本
単語とされない。また、もちろん、基本単語の選択のし
方は上述の例に限られない。
【0021】また、テキストベクトル化部13bは、テ
キストファイル11xから自動的に単語を切り出してこ
れを上記基本単語記録ファイルに照らし、テキストファ
イル中に出現する基本単語の数を基本単語ごとに計数す
るものである。このテキストベクトル部13bで作成さ
れるテキストベクトルのイメージは、例えば図2の13
xに示した様なものとなる。すなわち、横軸に基本単語
をとり縦軸にこの基本単語のテキストファイル中での出
現回数(頻出度数)をとって表せるものとなる。
【0022】また、正規化部13cはテキストベクトル
化部13bで作成されたテキストベクトルを正規化する
ものである。この正規化されたテキストベクトルをこの
実施例ではテキストファイルの特徴ベクトル(入力パタ
ーンと言うこともある)とする。この正規化部13cで
作成される特徴ベクトルのイメージは、図3の13yに
示した様なものとなる。すなわち、横軸に基本単語をと
り縦軸にこの基本単語のテキストファイル中での出現回
数(頻出度数)を正規化した値をとって表せるものとな
る。なお、正規化の方法は特に限定されず、任意の方法
で行なえる(詳細は後述する)。また、テキストベクト
ル化部13bで作成されたテキストベクトルを、場合に
よってはそのままテキストファイルの特徴ベクトルとし
て用いる得ることもある。
【0023】また、ニューラルネットワーク15は、入
力層15a、出力層15bおよび結合リンク15cで構
成されたものである。ただし、入力層15aを構成する
ノード(入力ノード)15aaの数は固定とされこの場
合は基本単語数と同じ1006個とされ、また、出力層
15bを構成するノード(出力ノード)15baの数は
初期状態において1つとされその後の学習段階において
問題に応じ増えるものとしてある。出力ノード15ba
が、学習の結果、1つのクラスを意味することになる。
【0024】また、クラス記録ファイル17は、この発
明の分類方法によりテキストファイルを自動分類する際
にテキストファイルがどのクラスに属するかを記録する
ためのファイルである。このクラス記録ファイル17の
データフォーマットは例えば後述の別表1のB欄に示し
たものとできる。このクラス記録ファイル17でのデー
タ数はクラスタリングされるテキストファイル数に等し
い。
【0025】また、結合荷重値記録ファイル19は、結
合リンクを構成するため各入力ノードおよび各出力ノー
ド間の結合荷重値を記録するものであり、学習動作にお
いて修正がされるものである。この結合荷重値記録ファ
イル19のデータフォーマットは例えば後述の別表1の
C欄に示したものとできる。
【0026】2.分類方法の説明 2−1.学習動作 この発明の分類方法における学習動作は次の様に行なわ
れる。これを図1〜図7を参照して説明する。
【0027】先ず、ニューラルネットワーク15におけ
る結合リンク15c(図2参照)の荷重値(結合リンク
値ともいう。)を初期化する(図4のステップS1)。
【0028】次に、テキストデータベース11よりテキ
ストファイルを1つ取り出す(図4のステップS2)。
【0029】次に、このテキストファイルの特徴ベクト
ルの生成がなされる(図4のステップS3、S4)。こ
のため、このテキストファイル中の単語を切り出し、そ
してこの単語の出現回数を計数し、そして基本単語名を
次元として出現回数を要素とするベクトルで表現される
テキストベクトルを、先ず生成する(図4のステップS
3)。この生成されるテキストベクトルは、そのイメー
ジが例えば既に説明した図2の13xのようなものとな
る。そして、データとしては、各基本単語に対し出現回
数を示す数字が並ぶ例えば{013000400・・・
100}のようなものとなる。つまり、テキストベクト
ルの第n要素が基本単語記録ファイルの第n要素に対応
している。そして、テキストベクトルの第nの要素がk
個であるとは、基本単語記録ファイルの第n要素の単語
がテキストファイル中にk回出現していることを示して
いる。次に、このテキストベクトルの正規化を行なって
特徴ベクトルINPUTiを生成する(図4のステップS
4)。なおこの実施例の場合のテキストベクトルの正規
化は、各基本単語の出現回数inputiを全ての基本単語の
出現回数の総数Σi=1 minputiでそれぞれ除することでお
こなっている。
【0030】このようにして得た特徴ベクトル((入力
パターン)とも言う。)INPUTiを、次に、ニューラルネ
ットワーク15の入力層15aに入力する(図4のステ
ップS5)。この際、基本単語ごとの入力ノード15a
aに、特徴ベクトルにおける対応するデータが入力され
る様に、特徴ベクトルINPUTiを入力層15aに入力す
る。
【0031】次に、出力層15bに用意されている出力
ノードと、この入力された特徴ベクトルINPUTiとの距離
Distancej を全ての出力ノードについて計算する(図4
のステップS6)。ここでは、従来同様に下記の(1)
式に従いDistancej を求める。
【0032】 Distancej =Σi=1 m(INPUTi−weightij2 ・・・(1) なお、(1)式中、の各記号はすでに説明した通りであ
るが、例えばweightijはより具体的に説明すれば、図3
中の各入力ノード15aaおよび各出力ノード15ba
それぞれを結合する程度を示す荷重値である。
【0033】次に、出力層15bに用意されている出力
ノードのうちの、特徴ベクトルに対する距離が一番近い
出力ノード(勝者ノード)を決める(図5のステップS
7)。ここでは、(1)式により求めたDistancej が最
小値となった出力ノードを勝者ノードwinner's Distanc
e としている。なお、この実施例では初期状態の出力ノ
ード数が1であるので、最初はこの1つの出力ノードが
必ず勝者ノードとなる。しかし、本発明では勝者ノード
について以下の処理がなされるので問題とならない。
【0034】すなわち、勝者ノードの特徴ベクトルに対
する距離winner's Distance が、所定の閾値dに対しど
ういう関係かを判定し(図5のステップS8)、その結
果に応じ次の何れかの処理をする。
【0035】先ず、winner's Distance <dの場合(こ
の場合を活性状態と称する。)は出力ノードを増やすこ
となくこの勝者ノードの特徴ベクトルに対する距離が近
づくように結合リンクを修正する(ステップS9)。具
体的には、特徴ベクトルINPUTi、現在の荷重値weight
(t)iWjおよびゲインR(t) を用いてこの勝者ノードの新
たな荷重値weight(t+1)iWjを求め、これをこの出力ノー
ドの荷重値とすることにより結合リンクを処理する。こ
こで、ゲインR(t) は、0≦R(t) ≦1の範囲で例えば
ユーザが予め決める値である。図6(A)および(B)
はこの活性状態での処理を模式的に示した図である。た
だし、ここでは出力ノードAと出力ノードBの2つの出
力ノードが用意されている場合でかつ特徴ベクトルINPU
Tiに対し出力ノードBが勝者ノードとなっている例を示
している。勝者ノードを決定した時点での出力ノードB
と特徴ベクトルINPUTiとの距離DB がDB <dであった
ので(図6(A))、weight(t+1)iWjを新たに求める処
理を施すことにより、出力ノードBを特徴ベクトルによ
り一層近づけている(図6(B))。なお、この活性状
態の処理においては、勝者ノードおよびその近傍の出力
ノードそれぞれの特徴ベクトルに対する距離を近づける
ようにしても良いが、図9を用いて説明したクラス間の
領域に出力ノードが位置する危険を防止する意味から
は、この実施例の様に、勝者ノードについてのみ特徴ベ
クトルに対する距離を近づける処理を行うのが良い。
【0036】一方、winner's Distance ≧dの場合(こ
の場合を非活性状態と称する。)は新たな出力ノード
(勝者ノードの子ノード)を追加生成する(図5のステ
ップS10におけるsj=sj+1の処理)。またこの
際、追加生成された出力ノードの特徴ベクトルに対する
距離を近づける処理を行なう。具体的には、追加生成さ
れた出力ノードの荷重値weight(t+1)isjを、特徴ベクト
ルINPUTi、勝者ノードの荷重値weight(t)iWjおよびゲイ
ンR(t) を用いて求めることにより、結合リンクを修正
する。図7(A)および(B)はこの非活性状態での処
理を模式的に示した図である。ただし、ここでも図6の
場合と同様、出力ノードAと出力ノードBの2つの出力
ノードが用意されている場合でかつ特徴ベクトルINPUTi
に対し出力ノードBが勝者ノードとなっている例を示し
ている。勝者ノードを決定した時点での出力ノードBと
特徴ベクトルINPUTiとの距離DB がDB ≧tであったの
で(図7(A))、新たな出力ノードとして勝者ノード
(出力ノードB)の子ノードNを追加生成すると共にこ
のノードNの距離を特徴ベクトルINPUTiに近づけてい
る。従来技術では図6を用いて説明した処理しか行なわ
なかったが、この発明では、winner's Distance の所定
値dに対する大小関係により新たな出力ノードを追加生
成する処理もなされるのである。なお、この図6および
図7を用いて説明した一連の処理は例えば文献II(アイイー
イーイー トランサ゛クション オン ニューラル ネットワークス(IEEE Transaction o
n Neural Networks),pp.561-575,Vol.5,No4,1994 )に
開示されている。
【0037】ステップS2からステップS10までの一
連の処理を各学習データ(この場合はテキストデータベ
ースに蓄積してある全テキストファイル)に対し施す
(図5のステップS11)。さらに指定学習回数に達す
るまでステップS2からステップS11までの一連の処
理をゲインR(t) を減少させながら繰り返す。なお、指
定学習回数はユーザにより決められる任意の数である。
ここまでの処理で学習作業が終了する。その後は、テキ
ストファイルの分類作業の処理(図8参照)を行なう。
これについて次に説明する。
【0038】2−2.分類動作 学習動作が終了した後はテキストファイルの分類動作を
行なう。このため先ず、分類対象のテキストデータを用
意する(図8のステップS81)。ここでは、分類対象
の多数のテキストファイルをテキストデータベース11
(図1参照)に蓄積する。
【0039】次に、テキストデータベースより分類対象
のテキストファイルを取り出す(図8のステップS8
2)。
【0040】次に、このテキストファイルの特徴ベクト
ルの生成を行なう(図8のステップS83、S84)。
この実施例では、図4のステップ3およびステップ4を
用いて説明した手順により特徴ベクトルINPUTiを生成す
る。
【0041】このようにして得た特徴ベクトル((入力
パターン)とも言う。)INPUTiを、次に、上記学習後の
ニューラルネットワークの入力層に入力する(図8のス
テップS85)。この場合も、学習作業時と同様、基本
単語ごとの入力ノードに、特徴ベクトルにおける対応す
るデータが入力される様に、特徴ベクトルINPUTiを入力
層に入力する。
【0042】次に、上記学習後のニューラルネットワー
クにおける出力層の各出力ノードと特徴ベクトルINPUTi
との距離Distancej を全ての出力ノードについて計算す
る(図8のステップS86)。ここではこれを学習作業
時において説明した方法で求める。
【0043】次に、学習後のニューラルネットワークに
おける出力層に用意されている出力ノードのうちの、特
徴ベクトルに対する距離が一番近い出力ノード(勝者ノ
ード)を決める(図8のステップS87)。そして、こ
の勝者ノードをこのテキストファイルの分類先のクラス
とすると共に、後述の別表1のB欄に示したクラス記録
ファイルの文献名の項目にこのテキストファイル名を、
また同じくノード番号の項目に勝者ノード番号をそれぞ
れ登録する(図8のステップS88)。
【0044】ステップS82からステップS88までの
各処理を各テキストデータ(テキストファイル)に対し
て施す(図8のステップS89)。これによりテキスト
ファイルの自動分類作業が行なえる。
【0045】この発明の分類方法によれば、従来はテキ
ストファイル分類時に必要とされていたインデックスが
不要となる上に分類が自動で行なえる。そのため、人手
に頼ることのない分類が可能となる。又これまで、大量
のテキストファイルを分類する場合には、複数人のイン
デクサによるインデキシングが必要であったが、これに
はインデクサーに依存したインデックス付けになってし
まうなどの問題もあった。この自動分類方法により、そ
の問題を解決することが可能となる。然も、特徴ベクト
ルの生成に用いる単語をテキストファイル中に出現する
全単語ではなく特徴抽出に必要な基本単語に絞ったの
で、勝者ノードの決定作業時間を短縮できる。さらに、
出力ノードは初期状態において例えば1つとできその後
の問題に応じ追加生成するのでこの点でも勝者ノードの
決定作業時間を短縮出来る。このため、テキストファイ
ルの自動分類作業での学習時間を従来より短縮出来る。
これについて具体的な実験結果を以下に示す。下記の様
な実験条件で実験をした際の学習時間は、実施例が約
2.5日、比較例が約10日であった。このようにこの
例の場合では、実施例の学習時間は比較例のそれの1/
4にできることが分かった。
【0046】 データ数(テキストファイル数): 501文献 基本単語数 :1006 入力ノード数 :1006 特徴ベクトル :基本単語の出現回数を正規化する ニューラルネットワーク構造 :実施例(入力ノードが1006、出力ノ ードが初期状態で1) 比較例(入力ノードが1006、出力ノ ードが初100) 学習回数 :実施例、比較例共に9000回 また、この発明の分類方法では、従来方法に比べテキス
トファイルを的確に分類できるものであることが分かっ
た。その理由はまだ定かではないが、勝者ノードの特徴
ベクトルに対する距離に基づいて新たな出力ノードを追
加生成するのでテキストファイルの分類により一層適し
た出力ノードが用意出来ることと、実施例の様に勝者ノ
ードのみについて距離の修正を行うことの双方または一
方によると考えられる。
【0047】上述においてはこの発明のテキストファイ
ルの自動分類方法の実施例について説明したがこの発明
は上述の実施例に限られない。たとえば、上述の実施例
では特徴ベクトルを生成する際のテキストベクトルの正
規化は、各基本単語の出現回数inputiを全ての基本単語
の出現回数の総数Σi=1 minputiでそれぞれ除することで
おこなっている。しかし、たとえば、各基本単語の出現
回数inputiを全ての基本単語のうちの最大の出現回数で
それぞれ除することでおこなっても良い。
【0048】
【表1】
【0049】
【発明の効果】上述した説明から明らかなように、この
発明のテキストファイルの自動分類方法によれば、テキ
ストファイルの特徴ベクトルを生成し、該特徴ベクトル
を入力層、出力層および結合リンクを具えるニューラル
ネットワークの当該入力層に入力し、前記結合リンクを
前記特徴ベクトルに適合するように修正する学習をし、
その後、分類対象であるテキストファイルを分類するに
当たり、特徴ベクトルは、それに必要な複数の基本単語
を用意しておきテキストファイルから単語を抽出し、該
抽出される単語群における前記基本単語に当たる単語の
出現回数を基本単語ごとに計数した結果に基づいて、生
成する。このため、ニューラルネットワークの入力層に
おける入力ノード数mを必要最小限とできる。従って、
勝者ノードの決定時間の短縮が測れる。また、結合リン
クの修正は、学習前の出力層に用意されている出力ノー
ドのうち前記生成された特徴ベクトルに対する距離が最
も近い出力ノードを決定し、該決定された出力ノードの
前記特徴ベクトルに対する距離に応じて、上記(a)ま
たは(b)のいずれかの処理を実施することにより行な
う。したがって、学習前の出力層に用意される出力ノー
ドを少なくとも1つとしておき、必要に応じ出力ノード
を徐々に追加できるので、この点でも、勝者ノードの決
定時間の短縮が測れる。また、特徴ベクトルに対してよ
り適切な結合を示す出力ノードを徐々に生成できるの
で、テキストファイルの的確な分類が行ない易い。
【0050】また、特に、結合リンクの前記修正におい
て前記(a)の処理を行なう場合、決定された前記出力
ノードについてのみ特徴ベクトルに対する距離が近づく
よう前記結合リンクを修正する構成では、勝者ノードの
近傍の出力ノードが勝者ノードに引かれることを防止出
来るので、クラス間に出力ノードが位置することを防止
出来る。
【図面の簡単な説明】
【図1】実施例の説明図(その1)であり、テキストフ
ァイルの一例を示した図である。
【図2】実施例の説明図(その2)であり、この発明の
自動分類方法をテキストファイル10について実施した
際のデータの流れを模式的に示した図である。
【図3】実施例の説明図(その3)であり、この発明の
自動分類方法をテキストファイル10について実施した
際のデータの流れを模式的に示した図2に続く図であ
る。
【図4】実施例の説明図(その4)であり、学習作業の
ための処理手順の説明図である。
【図5】実施例の説明図(その5)であり、学習作業の
ための処理手順の図4に続く説明図である。
【図6】実施例の説明図(その6)であり、学習作業に
おける結合リンクの修正の様子の説明図である。
【図7】実施例の説明図(その7)であり、学習作業に
おける結合リンクの修正の様子の図6に続く説明図であ
る。
【図8】実施例の説明図(その8)であり、分類作業の
ための処理手順の説明図である。
【図9】従来技術の課題の1つの説明図である。
【符号の説明】
10:テキストファイル 13y:特徴ベクトル 15:ニューラルネットワーク 15a:入力層 15b:出力層 15c:結合リンク 15aa:入力ノード 15ba:出力ノード
───────────────────────────────────────────────────── フロントページの続き (72)発明者 羽生田 博美 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 木下 哲男 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 テキストファイルからその特徴ベクトル
    を生成し、該特徴ベクトルを入力層、出力層および結合
    リンクを具えるニューラルネットワークの当該入力層に
    入力し、前記結合リンクを前記入力された特徴ベクトル
    に適合するように修正する学習をし、その後、分類対象
    であるテキストファイルからその特徴ベクトルを生成
    し、該特徴ベクトルを前記学習後のニューラルネットワ
    ークの入力層に入力し、該学習後のニュラルネットワー
    クの出力層における前記特徴ベクトルに対する距離が近
    い出力ノードを勝者ノードとして該勝者ノードを前記分
    類対象であるテキストファイルの分類先とする、テキス
    トファイルの自動分類方法において、 少なくとも前記学習段階における特徴ベクトルは、予め
    複数の基本単語を用意しておき、一方、前記テキストフ
    ァイルから単語を抽出し、該抽出される単語群における
    前記基本単語に当たる単語の出現回数を基本単語ごとに
    計数した結果に基づいて、生成し、 結合リンクの前記修正は、学習前の出力層に用意されて
    いる出力ノードのうち前記生成された特徴ベクトルに対
    する距離が最も近い出力ノードを決定し、該決定された
    出力ノードの前記特徴ベクトルに対する距離に応じて、
    (a)少なくとも該決定された出力ノードの前記特徴ベ
    クトルに対する距離が近づくよう前記結合リンクを修正
    する処理または、(b)新たな出力ノードを追加生成す
    る処理のいずれかを実施することにより行なうことを特
    徴とするテキストファイルの自動分類方法。
  2. 【請求項2】 請求項1に記載のテキストファイルの自
    動分類方法において、 前記決定された出力ノードの前記特徴ベクトルに対する
    距離が予め定めた値より小さい場合前記(a)の処理を
    実施し、そうでない場合前記(b)の処理を実施するこ
    とを特徴とするテキストファイルの自動分類方法。
  3. 【請求項3】 請求項1に記載のテキストファイルの自
    動分類方法において、 前記分類対象のテキストファイルからのその特徴ベクト
    ルの生成も、請求項1に記載の生成方法で行なうことを
    特徴とするテキストファイルの自動分類方法。
  4. 【請求項4】 請求項1に記載のテキストファイルの自
    動分類方法において、 学習前の出力層に用意されている前記出力ノードを1つ
    としておくことを特徴とするテキストファイルの自動分
    類方法。
  5. 【請求項5】 請求項1に記載のテキストファイルの自
    動分類方法において、 結合リンクの前記修正において前記(a)の処理を行な
    う場合、決定された前記出力ノードについてのみ特徴ベ
    クトルに対する距離が近づくよう前記結合リンクを修正
    することを特徴とするテキストファイルの自動分類方
    法。
JP7026880A 1995-02-15 1995-02-15 テキストファイルの自動分類方法 Pending JPH08221439A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7026880A JPH08221439A (ja) 1995-02-15 1995-02-15 テキストファイルの自動分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7026880A JPH08221439A (ja) 1995-02-15 1995-02-15 テキストファイルの自動分類方法

Publications (1)

Publication Number Publication Date
JPH08221439A true JPH08221439A (ja) 1996-08-30

Family

ID=12205606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7026880A Pending JPH08221439A (ja) 1995-02-15 1995-02-15 テキストファイルの自動分類方法

Country Status (1)

Country Link
JP (1) JPH08221439A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328228A (ja) * 1998-04-22 1999-11-30 Nec Corp 問い合わせ検索結果精緻化方法及び装置
KR20010037153A (ko) * 1999-10-14 2001-05-07 주식회사언어기술 지능형 디렉토리 지식 구조 형성방법과 이를 이용한 개인화된 지식 관리 시스템 및 지식 공유 방법
US6804665B2 (en) 2001-04-18 2004-10-12 International Business Machines Corporation Method and apparatus for discovering knowledge gaps between problems and solutions in text databases
JP2013525868A (ja) * 2009-12-24 2013-06-20 ズオン−バン ミン 文書中に表現されているセンチメントを求めるためのシステム及び方法
KR20160117516A (ko) * 2014-01-31 2016-10-10 구글 인코포레이티드 문서들의 벡터 표현들 생성하기
JP2020047229A (ja) * 2018-09-21 2020-03-26 株式会社 日立産業制御ソリューションズ 記事解析装置、および、記事解析方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328228A (ja) * 1998-04-22 1999-11-30 Nec Corp 問い合わせ検索結果精緻化方法及び装置
US6415282B1 (en) 1998-04-22 2002-07-02 Nec Usa, Inc. Method and apparatus for query refinement
KR20010037153A (ko) * 1999-10-14 2001-05-07 주식회사언어기술 지능형 디렉토리 지식 구조 형성방법과 이를 이용한 개인화된 지식 관리 시스템 및 지식 공유 방법
US6804665B2 (en) 2001-04-18 2004-10-12 International Business Machines Corporation Method and apparatus for discovering knowledge gaps between problems and solutions in text databases
JP2013525868A (ja) * 2009-12-24 2013-06-20 ズオン−バン ミン 文書中に表現されているセンチメントを求めるためのシステム及び方法
KR20160117516A (ko) * 2014-01-31 2016-10-10 구글 인코포레이티드 문서들의 벡터 표현들 생성하기
JP2017509963A (ja) * 2014-01-31 2017-04-06 グーグル インコーポレイテッド 文書のベクトル表現の生成
US10366327B2 (en) 2014-01-31 2019-07-30 Google Llc Generating vector representations of documents
US11853879B2 (en) 2014-01-31 2023-12-26 Google Llc Generating vector representations of documents
JP2020047229A (ja) * 2018-09-21 2020-03-26 株式会社 日立産業制御ソリューションズ 記事解析装置、および、記事解析方法

Similar Documents

Publication Publication Date Title
US9910829B2 (en) Automatic document separation
US8706475B2 (en) Method and apparatus for detecting a table of contents and reference determination
US7171061B2 (en) Systems and methods for triage of passages of text output from an OCR system
US4979227A (en) Method for automatic character recognition employing a lexicon having updated character strings
US20160125275A1 (en) Character recognition device, image display device, image retrieval device, character recognition method, and computer program product
US20220245347A1 (en) Entity recognition method, apparatus, electronic device and computer readable storage medium
DE69730930T2 (de) Verfahren und Gerät zur Zeichenerkennung
US10984785B2 (en) Voice conversation method and system with enhanced word features
CN114743020B (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
DE112010006037T5 (de) Spracherkennungsvorrichtung und Navigationssystem
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN111626291A (zh) 一种图像视觉关系检测方法、系统及终端
JPH08221439A (ja) テキストファイルの自動分類方法
CN118069797A (zh) 一种基于大语言模型的防洪调度规则问答推荐方法及系统
CN107229953A (zh) 一种基于dfs与改进中心聚类法的破碎文档拼接方法
CN112966122B (zh) 语料意图识别方法、装置、存储介质及计算机设备
US7177796B1 (en) Automated set up of web-based natural language interface
JP2680419B2 (ja) 文字認識装置
JPH05314317A (ja) 文字認識装置
CN116010728B (zh) 数控系统的工艺流程呈现形式确定方法及相关设备
CN112560441B (zh) 自下而上规则结合神经网络的成分句法分析树构造方法
US6298325B1 (en) Speech recognition system for sequence data
JP3213151B2 (ja) ニューラルネットワークを用いたパターン認識装置の学習方法および学習装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2895115B2 (ja) 文字切出し方法