JP4729151B2 - Classification apparatus, method, and file search method - Google Patents

Classification apparatus, method, and file search method Download PDF

Info

Publication number
JP4729151B2
JP4729151B2 JP13900198A JP13900198A JP4729151B2 JP 4729151 B2 JP4729151 B2 JP 4729151B2 JP 13900198 A JP13900198 A JP 13900198A JP 13900198 A JP13900198 A JP 13900198A JP 4729151 B2 JP4729151 B2 JP 4729151B2
Authority
JP
Japan
Prior art keywords
file
samples
data
sample
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP13900198A
Other languages
Japanese (ja)
Other versions
JPH11328184A (en
Inventor
嶐一 岡
裕信 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP13900198A priority Critical patent/JP4729151B2/en
Publication of JPH11328184A publication Critical patent/JPH11328184A/en
Application granted granted Critical
Publication of JP4729151B2 publication Critical patent/JP4729151B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ファイル内の複数のデータを関連の深いもの同士にまとめ分類する分類装置、方法およびファイル検索方法に関する。
【0002】
【従来の技術】
データの自己組織化すなわち、関連の深いデータを1つにまとめ、複数のグループに分類することはパターン認識においてモデルの自動生成として位置付けられ、重要なテーマの一つである。データの自己組織化については次の文献が知られている。
【0003】
(1)T. Kohonen : Self-Organization maps : Springer-Verlarg, (1995)
例えば動画画像認識や音声認識に関する自己組織化では、時間的な連続性を相互関係とみて、入力データを自己組織化することが試みられ、次の文献が発表されている。
【0004】
(2)遠藤隆,他:動画像の自己組織化ネットワークモデル−そのトポロジーと動的特徴の解析−:人工知能学会情報統合研究会SIG−CII−9707,(1997.7)
また文書処理等でも同一文書中に依存している共起性によって自己組織化を試みており、単語やドキュメントの空間配置問題として扱い、検索や分類に用いることも行われていて、以下の文献が発表されている。
【0005】
(3)豊浦潤,岡隆一:テキスト検索のためのテキストデータの自己組織化について:人工知能学会情報統合研究会SIG−CII−9603,pp.16−23,(1997.3)
(4)本間直人,石川真澄:数量化III類の逆問題を用いたキーワードと文献の双方向的空間配置:信学会誌D−II,J81−DII,3,pp.564−573,(1998.3)
さらに本発明に関する文献としては、
(5)林知己夫,他:数量化理論とデータ処理:朝倉書店,(1987)
が知られている。ここで述べられ、数量化IV類と呼ばれている分類方法を説明する。
【0006】
数量化IV類は有限個の標本が与えられ標本相互の親和度の強さが定義されている時に、親和度の高いものほど有限次元の空間で近傍に配置するようにしている。これによって相互に親和度の高い標本が空間中に集まり自己組織化することが期待できる。例えば音声や画像の時系列データの解析では、一定時間内での各事象を標本とし、連続性を親和性と見なすことができる。文書の理解では、文字や形態素を標本とみて、同一の文書やコンテキストでの共起を親和度と見ることができる。
【0007】
統計をとる標本をN次元空間に配置する問題を考える。各標本に任意の番号付けをしiとする。その標本の空間中の位置をxi とする。標本iとjの間の親和度が与えられておりMijとする。Mijは正の値をとり、親近度が高いものほど大きな値をとる。
【0008】
各標本間の距離が親近度に対応するように、標本間の距離の2乗にマイナス1をかけたものを距離関係として定義する。
【0009】
【数1】
ij=−(xj −xi2
次のように対応する標本間ごとに親近度と距離関係の積をとり、この総和が最大となるxi を求める。
【0010】
【数2】

Figure 0004729151
【0011】
しかしこの条件式だけでは、すべての標本が同一の点に位置した場合に0となり、最大となって条件が満たされてしまう。このため標本の位置xi 2が一定の分散を持つように次の条件式を加える。
【0012】
【数3】
Figure 0004729151
【0013】
上記条件式の数2式,数3式は行列の固有値問題に帰着する解法が知られていて、解析的に解を求めることができる。
【0014】
【発明が解決しようとする課題】
このような手法をたとえば、文書に適用する場合、上記標本が単語となり、親近度の高い標本xi が文書の特徴を表す単語として抽出される。しかしながら、この手法を実世界のデータに適用すると、親近度にランダムなノイズ(出現頻度が極端に低いデータ)が加わり、関係の深いデータ(この場合、単語)を分離(抽出)することが困難になるという解決すべき課題があった。
【0015】
そこで、本発明の目的は、ノイズの影響の少ない分類装置、方法およびファイル検索方法を提供することにある。
【0016】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、ファイルの中の複数のデータを関連の深いデータ同士にまとめて分類するために、前記データを標本とみなし、2つの標本の間の関連の度合いを示す親近度および2つの標本の間の距離に関する複数の標本全体の分布を統計解析する分類装置において、
前記複数の標本の分布の偏りを原点が分布の中心となるように平行移動させた後、共分散行列を求めて固有地分解を行うことで補正する第1の補正手段と、
前記第1の補正手段により補正された複数の標本の分布の中心から標本までの距離に比例して標本の個数が多くなるようにすべての標本について乱数を用いた配置を繰り返すことで前記複数の標本の距離を補正する第2の補正手段と
を具えたことを特徴とする。
【0017】
請求項2の発明は、請求項1に記載の分類装置において、前記ファイルは複数の単語を含む文書であり、前記標本を前記単語とすることを特徴とする。
【0018】
請求項3の発明は、請求項1に記載の分類装置において、前記ファイルは複数の音声要素からなるファイルであり、前記標本を前記音声要素とすることを特徴とする。
【0019】
請求項4の発明は、請求項1に記載の分類装置において、前記ファイルは複数の静止画を有する動画であり、前記標本を前記静止画とすることを特徴とする。
【0020】
請求項5の発明は、ファイルの中の複数のデータを関連の深いデータ同士にまとめて分類するために、前記データを標本とみなし、2つの標本の間の関連の度合いを示す親近度および2つの標本の間の距離に関する複数の標本全体の分布をコンピュータにより統計解析する分類方法において、前記コンピュータが
前記複数の標本の分布の偏りを原点が分布の中心となるように平行移動させた後、共分散行列を求めて固有地分解を行うことで前記コンピュータにより補正する第1の補正手段と、
前記第1の補正手段により補正された複数の標本の分布の中心から標本までの距離に比例して標本の個数が多くなるようにすべての標本について乱数を用いた配置を繰り返すことで前記複数の標本の距離を前記コンピュータにより補正する第2の補正手段と
として動作することを特徴とする。
【0021】
請求項6の発明は、請求項5に記載の分類方法において、前記ファイルは複数の単語を含む文書であり、前記標本を前記単語とすることを特徴とする。
【0022】
請求項7の発明は、請求項5に記載の分類方法において、前記ファイルは複数の音声要素からなるファイルであり、前記標本を前記音声要素とすることを特徴とする。
【0023】
請求項8の発明は、請求項5に記載の分類方法において、前記ファイルは複数の静止画を有する動画であり、前記標本を前記静止画とすることを特徴とする。
【0024】
請求項9の発明は、データベースに登録されたファイルをコンピュータにより検索するファイル検索方法において、前記コンピュータが、前記データベースに登録されたファイルを構成するデータと種類が同一で、検索目的のデータを入力する手段と、前記データベースに登録されたファイルの中に含まれるデータに対して請求項5に記載の分類方法を適用し、当該分類方法により分類されたデータが、前記入力する手段で入力されたデ−タと合致するか否かの判定を、前記データベースに登録されたファイル全てに対して行う手段ととして動作し、合致するの判定が得られたファイルを検索結果とすることを特徴とする。
【0025】
請求項10の発明は、請求項9に記載のファイル検索方法において、前記コンピュータが、検索策結果として得られるファイルをそのファイル名でリストアップするステップと、当該リストアップされたファイル名を、合致した前記データの有する親近度の順にソーティングする手段ととしてさらに動作することを特徴とする。
【0026】
請求項11の発明は、請求項9に記載のファイル検索方法において、前記コンピュータが、前記ファイルの中に含まれるデータの出現頻度を計数するステップと、検索策結果として得られるファイルをそのファイル名でリストアップする手段と、当該リストアップされたファイル名を、合致した前記データの有する出現頻度の順にソーティングする手段ととしてさらに動作することを特徴とする。
【0027】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0028】
最初に、本発明に関わる分類方法を説明する。上述の数量化IV類による解析では、後のシミュレーションで実験で示すように実世界データにしばしばあるように親近度にランダムなノイズが加わると、関係の深いものだけを分類することが困難になる。他の標本との関係によらず親近度の高い標本は中心付近に集中し、親近度が低い標本が中心から離れることで上記の条件式が満たされるようになる。
【0029】
この問題について検討した結果、距離の定義式の数1式を変更し、一定距離以上に離れた場合のペナルティを緩和することで上記問題2に対処できることを本願発明者は発見した。本発明の方法を用いると、ノイズ(出現頻度が極端に低い標本)などによって弱い関係を持つ標本間を放して配置しても、数2式の変化が非線形化により緩和されるので、分離しクラスタリングすることが可能となる。
【0030】
数1式を非線型関数Fにより変形し次のように定義する。
【0031】
【数4】
Figure 0004729151
【0032】
Fは近傍(<a)については2次関数であり、その外側では1次関数となる次の式で定義する。
【0033】
【数5】
Figure 0004729151
【0034】
この関数によって閾値a以内の近傍では2乗と同じとなり、その外側では対象間の距離が大きくなっても評価値の減少が小さいので目的とする効果が得られる。
【0035】
上記のように最小2乗項を非線形化すると、解析解を得られない。そこで次の節のように繰り返し法による数値解法が必要となる。さらに与えられた親近度の分布やaの値によっては特定の標本の位置だけを無限遠に置くことで最大化式が満たされてしまい数値計算が収束しない。
【0036】
また、数量化IV類に比べて標本の中心付近への集積が緩和されるものの、中心付近で異なるグループに所属する標本間の距離a以下になると、非線形化による効果が失われてしまう。
【0037】
この発散と中心への集中を防ぐために標本の位置を一定の超球内に閉じ込めて、この超球内での標本の分布を一様にとなるように以下の条件を加える。
【0038】
1.標本の分布の中心は原点である。
【0039】
2.標本の分布について主成分分析をしても分布にかたよりが見られない。
【0040】
3.一定半径の球殻内にすべての標本が存在し、中心から半径方向への分布が空間内での球体積に比例した分布となっている。
【0041】
最大化(最適化)と超球内一様化の条件を単一の式として解くことも可能であるが、データ規模によっては大規模行列計算となってしまう。そのため以下のように最適化と各制約を順次満たすような、繰り返し法で解を求める。
【0042】
数6式に数4式を代入すると次の式が得られる。
【0043】
【数6】
Figure 0004729151
【0044】
特定の標本(xi )について偏微分すると次の式が得られ、Jが最大値を取るとき恒等的に0となる。
【0045】
【数7】
Figure 0004729151
【0046】
【数8】
Figure 0004729151
【0047】
F′は数5式の微分なので次のように与えられる。
【0048】
【数9】
Figure 0004729151
【0049】
F′の展開のためにDを次のように定める。
【0050】
【数10】
Figure 0004729151
【0051】
【数11】
Figure 0004729151
【0052】
これを数8式に代入しxi について解き、それを逐次近似法の漸化式として利用する。
【0053】
【数12】
Figure 0004729151
【0054】
これだけでは収束性については保証されないので次の超球内一様化を行う。
【0055】
原点への移動と特定方向へのかたよりの解消を次に説明する。
【0056】
まず原点が分布の中心となるように平行移動する。
【0057】
【数13】
Figure 0004729151
【0058】
次に統計における主成分分析と同様に、共分散行列を求めて固有値分解によりどの方向に対する分散も同じ値となるようにする。
【0059】
【外1】
Figure 0004729151
【0060】
【数14】
Figure 0004729151
【0061】
これを固有値分解する。
【0062】
【数15】
A=Ut BU
得られた固有値σ1 ,σ2 ,…,σN に対して次のような逆変換行列を作る。
【0063】
【数16】
Figure 0004729151
【0064】
以下の変換を行う。
【0065】
【数17】
Figure 0004729151
【0066】
次に球の半径方向の標本の分布について統計をとる。図1に示したように超球の一定半径r内に存在する標本の数を、標本の総数で割って規格化した値を求める。これをrに対する関数と見てU(r)とする。なお数値処理のためにあらかいめ標本の分布している半径の範囲を定めて100段階に分割し、折線近似関数で代用している。
【0067】
理想的に標本が一様に分布していれば、半径方向に対して体積に比例することが期待されるので、閉じ込める超球の半径を1とし、空間の次元がNなのでU(r)はrN に一致する。そこで
【0068】
【外2】
Figure 0004729151
【0069】
次の変換を行う。
【0070】
【数18】
Figure 0004729151
【0071】
次の手順ですべての標本について繰り返し方によって位置を求める。
【0072】
1.初期値として標本iを一定半径の球内に一様分布となるように乱数を用いて配置する。
【0073】
【外3】
Figure 0004729151
【0074】
2.tを繰り返し回数とし、すべての標本iについて数12式を計算し
【0075】
【外4】
Figure 0004729151
【0076】
3.求められた
【0077】
【外5】
Figure 0004729151
【0078】
球内一様化の処理を行う。
【0079】
4.tに1を加えて1に戻る。
【0080】
シミュレーションによって数量化IV類と本実施形態の方法の能力を比較する。ここでは標本数を1000とした。これらを100のクラスに分割し、各クラスは10ずつの標本を含む。同じクラスに所属する標本間の親近度は区間[0,1)の一様乱数で与えた。一方クラスの異なる標本間の親近度をノイズとして区間[0,α)の一様乱数で与える。αが1に近づくほど大きなノイズとなる。理想的なクラスタリングでは同一クラスに所属する10の標本ごとに空間中で集まることになる。
【0081】
ここではαが0.01と0.1の場合について示す。この場合の親近度を図2と図3に示した。1000の標本のうち3つのクラスに属する30の標本の相互関係を示している。縦横の軸は各標本であり、各交点上で親近度を四角形の大きさで示している。
【0082】
この標本に対して数量化IV類と本実施形態による分類を行い比較する。それぞれの手法を用いて10次元空間中に配置する。なお本実施形態では超球の半径を1とし、aを0.1とした。その結果50回の繰り返しによりほぼ収束した。各1000の標本は10次元空間中に位置しているので、可視化のためにすべての点を2次元平面上に正照影した結果を図4から図7に示している。
【0083】
数量化IV類によってもαが0.01の場合(図4)には、クラスごとに分離できている。しかし原点付近に位置したクラスでは近傍に集まってしまっている。同じデータで本実施形態によった場合は(図6)クラスごとに明確に分離していることがわかる。
【0084】
αが0.1になると、図5のように数量化IV類では大半の標本が超空間中の細い棒状の空間に集中してしまいクラスタに分離することができなくなる。これに対して本実施形態では(図7)個々のクラスの分散が大きくなるが明確に分離できている。
【0085】
認識や検索への利用を考えた場合には、例えばあるquery に対してその再近傍にある標本によってクラスを判別することをする。そこでアルゴリズムの能力を調べるために、1000個の各標本について、それぞれのもっとも近傍にある標本が本来想定した同じクラスにあるかどうかを調べた。表1にあるように、αが0.01以下ではどちらも正しく判別できている。しかしαがその値を超えると数量化IV類では判別が困難になってしまい、明らかに能力が劣っていることがわかる。
【0086】
【表1】
Figure 0004729151
【0087】
なお、このシミュレーションに要したCPU時間は50回の繰り返しで215秒であった(Gray CS6400, SUN SPARC 85MHz)。
【0088】
本実施形態を適用したネットニュースの記事検索システムを説明する。
【0089】
インターネット上でのニュースシステムは日本では1985年からfjカテゴリーの運用が開始されている。発足以来現在までの約235万件の記事を収集しており、これに対する検索を提供することを目的としている。
【0090】
前処理としてすべての記事の本文について、Chasenを用いて形態素解析をし、単語に分類する。この単語すべてを統計処理すべき標本とみなして本実施形態の方法により超空間に配置する。
【0091】
各単語間の神話度については、まず収集された記事本文の中で、前後5単語以内に共起した単語の組についてすべてカウントしNijとする。次に助詞「は」や接尾辞のように出現頻度の高いものに標本が集中することを避けるため、各単語の出現数をNi として規格化し親和度Mijとしている。
【0092】
【数19】
Figure 0004729151
【0093】
本実施形態の分類方法によって、標本iが座標xi に配置されるので、次に標本(単語)ごとに、空間内で近くに配置されている単語をあらかじめ検索してある。近傍にある単語は単一の文書中で共起性が高いので、関連の深いものと考えられ、これによって単語や文章の曖昧検索を可能としている。
【0094】
ユーザは、一般の日本文を与えることで検索できる。与えられた文章はChasenによって単語(形態素)に分割され、その単語とその近傍の単語を含む記事を検索する。
【0095】
検索された記事は、共有する単語数や単語ごとの出現頻度およびGalaxy空間中での距離から点数が付けられ、関連が深いと考えられるものから順に表示される。
【0096】
上述のネットニュースの検索を行うための分類装置内蔵のファイル検索システムの構成を図8に示す。ファイル検索システムとしは汎用のコンピュータ、たとえば、パーソナルコンピュータやワークステーションを使用可能であるが、本発明に関わるので、簡単にハード構成を説明しておく。図8において、1はCPUであり、システムメモリ2およびハードディスク記憶装置(HDD)4に記憶されたシステムプログラムにしたがって、構成各部のシステム制御を行う。さらにHDD4に記憶された図9の検索プログラムにしたがって、ネットニュースの検索を行う。この検索プログラムの中の後述の分類処理を実行する時のCPUが分類装置として機能する。
【0097】
システムメモリ2は上述のシステムプログラムおよびCPU1の演算に使用する各種のデータを記憶する。入力装置3は、データベースに登録するニュース(文書ファイル)を入力する。本例では、入力装置としてキーボードを使用するが、文書ファイルを入力できるものとしては、インターネットと接続する通信装置、フロッピーディスク等の記録媒体から文書ファイルを読み取る記録媒体読み取り装置を入力装置としても使用することができる。なお、入力装置3からは検索する内容(日本語文)をも入力する。
【0098】
HDD4は上述のシステムプログラムの一部および図9の検索プログラムを保存するとともに、さらには検索の対象となるネットニュースを蓄積しておくデータベースを保存する。さらに、HDD4にはデータの分類(関連のあるものを1つのグループにまとめること)処理で使用する単語間の親近度およびそれらの単語がテーブル形態で記憶されている。また、日本語の形態素解析を行うための単語辞書もHDD4に記憶されている。表示装置5には検索結果として得られるファイル名を表示する。
【0099】
このようなシステム構成において実行される検索処理を図9のフローチャートを参照して説明する。説明の便宜上、図9のフローチャートは機能表現で記載しているが、実際には、CPU1が読み取り実行可能なプログラム言語で記載され、HDD4に記憶されている。入力装置3からの起動の指示に応じて、図9のプログラムがHDD4からシステムメモリ2に読み出され、CPU1により実行される。
【0100】
図9において、ユーザは、たとえば、「自己組織化を行う装置」という日本語文を入力装置3から入力する。入力された日本語文からはCPU1の周知の形態素分析により、「自己」「組織化」「装置」の単語が抽出され、システムメモリ2に一時記憶される(ステップS10)。
【0101】
CPU1はHDD4に格納されたデータベースの中から第1番目のニュース、すなわち、文書ファィルをシステムメモリ2に読み出す。読み出された文書についても形態素解析が行われ、単語が抽出される(ステップS20)。ここで、上述した分類方法に従った分類処理が開始される。より具体的には、単語を標本として、CPU1は数2から数4式を満足する標本の分布をシステムメモリ2上に作成する。なお、この標本分布の作成と同時に、数4式の条件が組み込まれる。なお、数4式では、閾値aより距離が大きい標本と上記距離が小さい標本とでは、異なる距離の算出式を使用するので、2つの標本の距離が離れている場合、分布の中心から距離の離れた標本については評価値を大きくする補正が数5式により行われる。次に、CPU1は数6式から数18式を実行して、標本の分布の偏りを補正する。乱数を使用した標本の再配置の繰り返しにより標本が分布の中心からの距離に比例してそれらの個数が多くなるように標本の距離が補正される(ステップS30)。
【0102】
このように補正された標本の分布を使用して、従来と同様に主成分分析を行うと、関連のある標本(この場合)がシステムメモリ2上で1つのグループ(いわゆるクラス)に分類される(ステップS40)。以上の分類処理に平行して、各標本の文書ファイル中の出現頻度もCPU1により計数され、その計数結果と、上述の分類処理で得られる単語の親近度がこのシステムメモリ2に格納される。
【0103】
次にCPU1はステップS10で抽出された検索目的の単語(いわゆるキーワード)、すなわち、「自己」「組織化」「装置」とステップS40で分類された単語とを比較し、すべて合致する場合には、上記分類の対象となった文書ファイルのファイル名、合致した単語の出現頻度をシステムメモリ2上にリストアップする(ステップ50→S60)。この後、手順はステップS70を経由してステップS20に戻り、ステップS20〜S40でデータベースに保存された次の文書ファイルのデータ分類処理が行われる。
【0104】
一方、ステップS50の単語の合致判定処理で不一致の判定が得られた場合には手順をステップS20に戻し、データベースに保存された次のファイルについての分類処理が行われる。
【0105】
このようにして、データベース上のすべての文書ファイルについて、上述の分類処理および単語の合致判定処理、ファイル名リストアップ処理を行うと(ステップS70のYES判定)、CPU1はシステムメモリ2上にリストアップされたファイル名をソータティング(並べ替え)する。並べ替えの判断基準は、親近度および出現頻度の高いファイル名が上位に位置する。ソーティングの処理自体は周知であり、詳細な説明を要しないであろう。このようにして、得られたファイル名のリストが表示装置5に可視表示される(ステップS80)。
【0106】
上述の実施形態の他に次の形態を実施できる。
【0107】
1)上述の実施形態はデータファイルが文書ファイル、すなわち、複数の単語を有する文書(テキストとも称する)であったが、データファイルとしては、音声(人間の声)データ、動画データ、音響データさらには楽譜データ等のファイルについても本発明を適用できる。この場合には、音声データを複数の音声単位、たとえば、音素、音韻、単語等所定の音声長さ単位で区切った音声データを標本と使用すればよい。動画は複数の静止画で構成されているので、静止画を標本として使用する。音楽のような音響データ、楽譜データはたとえば、1小節のような長さの音楽データを標本として使用するとよい。このような、音声データ、動画、音響データファイルを対象とする検索システムでは、検索目的のデータをデータベースに登録されたデータと同一の種類の音声データ、動画データ、音響データで与えることができる。このようなファイル検索の用途としてはたとえば、小説、音楽、楽譜をデータベースに登録しておき、著作権の侵害の有無の判定のために対象のデータを検索にかけるといった用途も考えられる。
【0108】
2)上述の実施形態では、検索により取得したファイル名のソーティングについては出現頻度および親近度の双方を並び替えの判断基準として使用したが、いずれか一方のみを使用してもよいこと勿論である。
【0109】
3)図9に示すプログラムをフロッピーディスクやCDROM等の各種の記録媒体に記録して、図8のHDD4にインストールしてもよいこと勿論である。
【0110】
【発明の効果】
以上、説明したように、請求項1、5の発明では、親近度が高く、意味内容の異なる標本の分布上の集中が緩和され、逆に分布上で集中がない標本については、個数が増やされる。これにより、ノイズの影響をなくし、さらには分布上で集中した標本を別のグループに分類することができ、従来よりも分類精度を向上させることができる。
【0111】
請求項2、6の発明では、コンピュータが処理する各種の文書ファイルに含まれるデータを精度よく自己組織化することができる。
【0112】
請求項3、7の発明では、コンピュータが処理する各種の音声データファイルに含まれるデータを精度よく自己組織化することができる。
【0113】
請求項4、8の発明では、コンピュータが処理する各種の動画データファイルに含まれるデータを精度よく自己組織化することができる。
【0114】
請求項9〜11の発明では、検索目的のデータ(文字の場合、キーワード)が複数有る場合には、個々のデータに合致するだけでなく、データの間の最も関連の深い(親近度の高い)ファイルやデータの出現頻度の高いファイルが検索結果の上位として得られる。
【図面の簡単な説明】
【図1】本発明実施形態の標本分布と標本位置の補正を説明するための説明図である。
【図2】本発明実施形態のシミュレーション結果を示す説明図である。
【図3】本発明実施形態のシミュレーション結果を示す説明図である。
【図4】従来の標本分布を示す説明図である。
【図5】従来の標本分布を示す説明図である。
【図6】本発明実施形態の標本分布を示す説明図である。
【図7】本発明実施形態の標本分布を示す説明図である。
【図8】本発明実施形態のシステム構成を示すブロック図である。
【図9】本発明実施形態の処理手順を示すフローチャートである。
【符号の説明】
1 CPU
2 システムメモリ
3 入力装置
4 HDD
5 表示装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a classification apparatus, a method, and a file search method that collectively classify a plurality of data in a file into closely related ones.
[0002]
[Prior art]
Data self-organization, that is, gathering closely related data into one group and classifying them into a plurality of groups is positioned as automatic model generation in pattern recognition, and is one of the important themes. The following documents are known for data self-organization.
[0003]
(1) T. Kohonen: Self-Organization maps: Springer-Verlarg, (1995)
For example, in the self-organization related to moving image recognition and voice recognition, it is attempted to self-organize input data by considering temporal continuity as a mutual relationship, and the following documents have been published.
[0004]
(2) Takashi Endo, et al .: Self-organizing network model of moving image-Analysis of its topology and dynamic features-: SIG-CII-9707, Information Integration Society of Japanese Society for Artificial Intelligence (1997. 7)
In document processing, etc., self-organization is attempted by co-occurrence depending on the same document, it is treated as a problem of spatial arrangement of words and documents, and it is also used for search and classification. Has been announced.
[0005]
(3) Jun Toyoura, Ryuichi Oka: On the self-organization of text data for text retrieval: SIG-CII-9603, IPSJ Information Integration Study Group. 16-23, (1997.3)
(4) Naoto Honma, Masumi Ishikawa: Bidirectional spatial layout of keywords and documents using the inverse problem of quantification type III: Journal of IEICE, D-II, J81-DII, 3, pp. 564-573, (1998.3)
Furthermore, as a document related to the present invention,
(5) Tomio Hayashi, et al .: Quantification theory and data processing: Asakura Shoten, (1987)
It has been known. The classification method described here and called quantification type IV will be described.
[0006]
In the quantification type IV, when a finite number of samples are given and the strength of the affinity between the samples is defined, the higher the affinity, the closer to the finite dimensional space. As a result, it can be expected that samples having high affinity with each other gather in the space and self-organize. For example, in the analysis of time series data of audio and images, each event within a certain time can be used as a sample, and continuity can be regarded as affinity. In understanding a document, characters and morphemes can be regarded as samples, and co-occurrence in the same document or context can be viewed as affinity.
[0007]
Consider the problem of placing samples for statistics in an N-dimensional space. Assign an arbitrary number to each specimen and let it be i. Let x i be the position of the sample in space. The affinity between samples i and j is given and is denoted as M ij . M ij takes a positive value and takes a larger value as the degree of closeness increases.
[0008]
The distance relationship is defined by multiplying the square of the distance between the samples by minus 1 so that the distance between the samples corresponds to the closeness.
[0009]
[Expression 1]
d ij = − (x j −x i ) 2
Taking the product of the affinity score and distance relationships between every sample corresponding as follows to determine the x i where the sum is maximized.
[0010]
[Expression 2]
Figure 0004729151
[0011]
However, with this conditional expression alone, when all the samples are located at the same point, the condition becomes 0 and the condition is satisfied. Therefore, the following conditional expression is added so that the sample position x i 2 has a certain variance.
[0012]
[Equation 3]
Figure 0004729151
[0013]
Equations (2) and (3) are known to solve the eigenvalue problem of the matrix, and the solution can be obtained analytically.
[0014]
[Problems to be solved by the invention]
For example, when such a technique is applied to a document, the sample becomes a word, and a sample x i having a high degree of closeness is extracted as a word representing the feature of the document. However, when this method is applied to real-world data, it is difficult to separate (extract) closely related data (in this case, words) by adding random noise (data with extremely low frequency of appearance) to familiarity There was a problem to be solved.
[0015]
Accordingly, an object of the present invention is to provide a classification apparatus, method, and file search method that are less affected by noise.
[0016]
[Means for Solving the Problems]
In order to achieve such an object, the invention of claim 1 regards the data as a sample in order to classify a plurality of data in a file together into closely related data, and between the two samples. In a classification device that statistically analyzes the distribution of a plurality of samples related to the degree of closeness indicating the degree of association between the two samples and the distance between the two samples,
A first correction unit that corrects the bias of the distribution of the plurality of samples by translating so that an origin is the center of the distribution, and then calculating a covariance matrix and performing eigendecomposition;
By repeating the arrangement using random numbers for all the samples so that the number of samples increases in proportion to the distance from the center of the distribution of the plurality of samples corrected by the first correction means to the plurality of samples, And a second correcting means for correcting the distance of the sample.
[0017]
According to a second aspect of the present invention, in the classification apparatus according to the first aspect, the file is a document including a plurality of words, and the sample is the word.
[0018]
According to a third aspect of the present invention, in the classification apparatus according to the first aspect, the file is a file including a plurality of sound elements, and the sample is the sound element.
[0019]
According to a fourth aspect of the present invention, in the classification device according to the first aspect, the file is a moving image having a plurality of still images, and the specimen is the still image.
[0020]
According to the invention of claim 5, in order to collectively classify a plurality of data in a file into closely related data, the data is regarded as a sample, and the degree of closeness indicating the degree of association between two samples and 2 In a classification method in which the distribution of the entire plurality of samples related to the distance between two samples is statistically analyzed by a computer, the computer translates the distribution bias of the plurality of samples so that the origin is the center of the distribution, A first correction means for correcting by the computer by obtaining a covariance matrix and performing eigenground decomposition;
By repeating the arrangement using random numbers for all the samples so that the number of samples increases in proportion to the distance from the center of the distribution of the plurality of samples corrected by the first correction means to the plurality of samples, It operates as a second correction means for correcting the distance of the sample by the computer.
[0021]
According to a sixth aspect of the present invention, in the classification method according to the fifth aspect, the file is a document including a plurality of words, and the sample is the word.
[0022]
The invention according to claim 7 is the classification method according to claim 5, wherein the file is a file including a plurality of sound elements, and the sample is the sound element.
[0023]
According to an eighth aspect of the present invention, in the classification method according to the fifth aspect, the file is a moving image having a plurality of still images, and the specimen is the still image.
[0024]
The invention according to claim 9 is a file search method for searching a file registered in a database by a computer , wherein the computer is the same type as the data constituting the file registered in the database and inputs data for search purposes. means for, applying a classification method according to claim 5 for the data contained in the files registered in the database, data classified by the classification method, input in said means for inputting It operates as a means for determining whether or not it matches the data for all the files registered in the database, and the search result is a file that is determined to match .
[0025]
A tenth aspect of the present invention is the file search method according to the ninth aspect, wherein the computer lists a file obtained as a search strategy result by its file name and the listed file name. It further operates as a means for sorting in the order of closeness of the data.
[0026]
The invention of claim 11 is the file search method according to claim 9, wherein the computer counts the frequency of appearance of the data contained in the file, and the file obtained as a search strategy result has its file name. It means for listing in a file name that is the list, further characterized in that operate as means for sorting in order of appearance frequency included in the circuit data matching.
[0027]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0028]
First, a classification method according to the present invention will be described. In the analysis based on the above-mentioned quantification type IV, if random noise is added to the closeness as often shown in the real-world data as shown by experiments in later simulations, it becomes difficult to classify only closely related ones. . Regardless of the relationship with other samples, samples with a high degree of familiarity are concentrated near the center, and a sample with a low degree of familiarity leaves the center to satisfy the above conditional expression.
[0029]
As a result of studying this problem, the inventor of the present application has found that the above problem 2 can be addressed by changing Formula 1 of the distance definition formula and relaxing the penalty when the distance is more than a certain distance. When the method of the present invention is used, even if samples that are weakly related to each other due to noise (samples with extremely low frequency of appearance) are placed apart, the change in equation (2) is alleviated by non-linearization. Clustering is possible.
[0030]
Equation 1 is modified by the nonlinear function F and defined as follows.
[0031]
[Expression 4]
Figure 0004729151
[0032]
F is a quadratic function in the vicinity (<a), and is defined by the following equation that is a linear function outside the F.
[0033]
[Equation 5]
Figure 0004729151
[0034]
By this function, in the vicinity within the threshold value a, it becomes the same as the square, and outside it, even if the distance between the objects becomes large, the decrease in the evaluation value is small, so the intended effect is obtained.
[0035]
If the least square term is made nonlinear as described above, an analytical solution cannot be obtained. Therefore, it is necessary to use a numerical solution by the iterative method as described in the next section. Further, depending on the distribution of closeness and the value of a given, only the position of a specific sample is placed at infinity, so that the maximization formula is satisfied and the numerical calculation does not converge.
[0036]
In addition, although the accumulation near the center of the sample is eased compared to the quantified IV class, the effect of non-linearization is lost when the distance between samples belonging to different groups near the center is less than a.
[0037]
In order to prevent this divergence and concentration at the center, the sample position is confined in a certain hypersphere, and the following conditions are added so that the distribution of the sample in the hypersphere is uniform.
[0038]
1. The center of the sample distribution is the origin.
[0039]
2. Even if the principal component analysis is performed on the distribution of the sample, no difference is seen in the distribution.
[0040]
3. All specimens exist in a spherical shell with a constant radius, and the distribution from the center to the radial direction is proportional to the volume of the sphere in the space.
[0041]
It is possible to solve the conditions for maximization (optimization) and uniformization within the hypersphere as a single expression, but depending on the data scale, it becomes a large-scale matrix calculation. Therefore, the solution is obtained by an iterative method that sequentially satisfies the optimization and each constraint as follows.
[0042]
Substituting Equation 4 into Equation 6 yields the following equation.
[0043]
[Formula 6]
Figure 0004729151
[0044]
When a partial differentiation is performed on a specific sample (x i ), the following expression is obtained, and when J takes the maximum value, it is uniformly 0.
[0045]
[Expression 7]
Figure 0004729151
[0046]
[Equation 8]
Figure 0004729151
[0047]
Since F ′ is a derivative of Formula 5, it is given as follows.
[0048]
[Equation 9]
Figure 0004729151
[0049]
For the development of F ′, D is determined as follows.
[0050]
[Expression 10]
Figure 0004729151
[0051]
[Expression 11]
Figure 0004729151
[0052]
This is substituted into equation (8) to solve for x i and used as a recurrence formula for the successive approximation method.
[0053]
[Expression 12]
Figure 0004729151
[0054]
This alone does not guarantee the convergence, so the next hypersphere uniformization is performed.
[0055]
Next, the movement to the origin and the cancellation from the specific direction will be described.
[0056]
First, translation is performed so that the origin is the center of the distribution.
[0057]
[Formula 13]
Figure 0004729151
[0058]
Next, as in the case of principal component analysis in statistics, a covariance matrix is obtained so that the variance in any direction becomes the same value by eigenvalue decomposition.
[0059]
[Outside 1]
Figure 0004729151
[0060]
[Expression 14]
Figure 0004729151
[0061]
This is eigenvalue decomposed.
[0062]
[Expression 15]
A = U t BU
The following inverse transformation matrix is created for the obtained eigenvalues σ 1 , σ 2 ,..., Σ N.
[0063]
[Expression 16]
Figure 0004729151
[0064]
Perform the following conversions:
[0065]
[Expression 17]
Figure 0004729151
[0066]
Next, statistics are taken on the distribution of the samples in the radial direction of the sphere. As shown in FIG. 1, a normalized value is obtained by dividing the number of samples existing within a certain radius r of the hypersphere by the total number of samples. Considering this as a function for r, let U (r). For numerical processing, the radius range in which the sample is distributed is determined and divided into 100 stages, and a polygonal line approximation function is used instead.
[0067]
If the samples are ideally distributed uniformly, it is expected to be proportional to the volume in the radial direction, so the radius of the supersphere to be confined is 1 and the dimension of the space is N, so U (r) is matches r N. Therefore [0068]
[Outside 2]
Figure 0004729151
[0069]
Perform the following conversion:
[0070]
[Expression 18]
Figure 0004729151
[0071]
The position is obtained by the following procedure for all specimens.
[0072]
1. As an initial value, the sample i is arranged using random numbers so as to have a uniform distribution in a sphere having a constant radius.
[0073]
[Outside 3]
Figure 0004729151
[0074]
2. Let t be the number of iterations and calculate Equation 12 for all samples i.
[Outside 4]
Figure 0004729151
[0076]
3. Requested [0077]
[Outside 5]
Figure 0004729151
[0078]
Perform processing for uniformizing the sphere.
[0079]
4). Add 1 to t and return to 1.
[0080]
The capability of the method of the present embodiment is compared with the quantification type IV by simulation. Here, the sample number was 1000. These are divided into 100 classes, each class containing 10 samples. The degree of closeness between samples belonging to the same class was given by a uniform random number in the interval [0, 1). On the other hand, the degree of closeness between samples of different classes is given as noise with a uniform random number in the interval [0, α). As α approaches 1, the noise becomes larger. In ideal clustering, 10 samples belonging to the same class are gathered in the space.
[0081]
Here, the case where α is 0.01 and 0.1 is shown. The closeness in this case is shown in FIGS. The correlation among 30 samples belonging to three classes out of 1000 samples is shown. The vertical and horizontal axes are each sample, and the degree of familiarity is indicated by a square size on each intersection.
[0082]
The specimen is classified and compared with the quantified IV class according to the present embodiment. Each method is used to place in a 10-dimensional space. In this embodiment, the radius of the hypersphere is set to 1 and a is set to 0.1. As a result, it was almost converged by 50 repetitions. Since 1000 specimens are located in the 10-dimensional space, the results of normal projection of all points on the 2-dimensional plane for visualization are shown in FIGS.
[0083]
When α is 0.01 by the quantification type IV (FIG. 4), it can be separated for each class. However, in the class located near the origin, it gathers in the vicinity. In the case of this embodiment with the same data (FIG. 6), it can be seen that the classes are clearly separated for each class.
[0084]
When α is 0.1, in the case of quantification type IV as shown in FIG. 5, most specimens are concentrated in a thin bar-like space in the superspace and cannot be separated into clusters. On the other hand, in this embodiment (FIG. 7), although the variance of each class becomes large, it can be clearly separated.
[0085]
When considering use for recognition and search, for example, a class is discriminated by a sample near its query. Therefore, in order to examine the capability of the algorithm, it was examined whether or not each of the 1000 samples is in the same class as originally assumed. As shown in Table 1, both are correctly determined when α is 0.01 or less. However, if α exceeds that value, it becomes difficult to discriminate with the quantified type IV, and it is clear that the ability is clearly inferior.
[0086]
[Table 1]
Figure 0004729151
[0087]
The CPU time required for this simulation was 215 seconds after 50 iterations (Gray CS6400, SUN SPARC 85 MHz).
[0088]
An article search system for net news to which this embodiment is applied will be described.
[0089]
In Japan, the news system on the Internet has been operating in the fj category since 1985. Since its inception, it has collected about 2.35 million articles to date and aims to provide a search for this.
[0090]
As pre-processing, the body of all articles is analyzed by morpheme using Chasen and classified into words. All of these words are regarded as samples to be statistically processed and arranged in the superspace by the method of the present embodiment.
[0091]
As for the degree of myth between each word, first, all the pairs of words that co-occur within 5 words before and after in the collected article body are counted and set as N ij . Next, in order to avoid particle "wa" and the specimen in a high frequency of occurrence as suffix is concentrated, and the normalized affinity M ij the number of occurrences of each word as N i.
[0092]
[Equation 19]
Figure 0004729151
[0093]
Since the sample i is arranged at the coordinate x i by the classification method of the present embodiment, next, for each sample (word), a word arranged nearby in the space is searched in advance. Words in the vicinity have high co-occurrence in a single document and are therefore considered to be closely related, thereby enabling an ambiguous search of words and sentences.
[0094]
The user can search by giving a general Japanese sentence. A given sentence is divided into words (morphemes) by Chasen, and an article including the word and its neighboring words is searched.
[0095]
Searched articles are scored based on the number of words to be shared, the frequency of occurrence for each word, and the distance in the Galaxy space, and are displayed in order from the most likely to be related.
[0096]
FIG. 8 shows the configuration of a file search system with a built-in classification device for searching the above-mentioned net news. A general-purpose computer such as a personal computer or a workstation can be used as the file search system, but since it relates to the present invention, the hardware configuration will be briefly described. In FIG. 8, reference numeral 1 denotes a CPU, which controls the system of each component according to system programs stored in a system memory 2 and a hard disk storage device (HDD) 4. Further, the Internet news is searched according to the search program of FIG. 9 stored in the HDD 4. A CPU for executing a classification process described later in the search program functions as a classification device.
[0097]
The system memory 2 stores the above-described system program and various data used for the operation of the CPU 1. The input device 3 inputs news (document file) to be registered in the database. In this example, a keyboard is used as an input device. However, as a device capable of inputting a document file, a communication device connected to the Internet and a recording medium reading device that reads a document file from a recording medium such as a floppy disk are also used as an input device. can do. The input device 3 also inputs the content to be searched (Japanese sentence).
[0098]
The HDD 4 stores a part of the above-described system program and the search program of FIG. 9, and further stores a database for accumulating net news to be searched. Further, the HDD 4 stores the degree of closeness between words used in the data classification process (collecting related items into one group) and those words in a table format. A word dictionary for performing Japanese morphological analysis is also stored in the HDD 4. The display device 5 displays the file name obtained as a search result.
[0099]
A search process executed in such a system configuration will be described with reference to the flowchart of FIG. For convenience of explanation, the flowchart of FIG. 9 is described in functional expression, but actually, it is described in a program language that can be read and executed by the CPU 1 and stored in the HDD 4. In response to an activation instruction from the input device 3, the program in FIG. 9 is read from the HDD 4 to the system memory 2 and executed by the CPU 1.
[0100]
In FIG. 9, the user inputs, for example, a Japanese sentence “device for self-organization” from the input device 3. From the input Japanese sentence, the words “self”, “organization”, and “device” are extracted by well-known morphological analysis of the CPU 1 and temporarily stored in the system memory 2 (step S10).
[0101]
The CPU 1 reads the first news from the database stored in the HDD 4, that is, the document file, into the system memory 2. Morphological analysis is also performed on the read document, and words are extracted (step S20). Here, the classification process according to the classification method described above is started. More specifically, using the word as a sample, the CPU 1 creates a distribution of samples satisfying the equations 2 to 4 on the system memory 2. At the same time as the preparation of the sample distribution, the condition of Equation 4 is incorporated. Note that, in Equation 4, since a calculation formula for different distances is used for a sample whose distance is larger than the threshold a and a sample whose distance is small, when the distance between the two samples is long, the distance from the center of the distribution is calculated. For a distant sample, correction for increasing the evaluation value is performed according to equation (5). Next, the CPU 1 executes Expressions 6 to 18 to correct the deviation of the sample distribution. By repeating the rearrangement of samples using random numbers, the sample distance is corrected so that the number of samples increases in proportion to the distance from the center of the distribution (step S30).
[0102]
When the principal component analysis is performed in the same manner as in the past using the sample distribution corrected in this way, related samples (in this case) are classified into one group (so-called class) on the system memory 2. (Step S40). In parallel with the above classification process, the appearance frequency of each sample in the document file is also counted by the CPU 1, and the count result and the word familiarity obtained by the above classification process are stored in the system memory 2.
[0103]
Next, the CPU 1 compares the word for search (so-called keyword) extracted in step S10, that is, "self", "organization", and "device" with the words classified in step S40. The file name of the document file to be classified and the appearance frequency of the matched word are listed on the system memory 2 (step 50 → S60). Thereafter, the procedure returns to step S20 via step S70, and the data classification process for the next document file stored in the database is performed in steps S20 to S40.
[0104]
On the other hand, if a mismatch determination is obtained in the word match determination process in step S50, the procedure returns to step S20, and the classification process for the next file stored in the database is performed.
[0105]
In this way, when the above-described classification process, word match determination process, and file name list-up process are performed for all document files on the database (YES determination in step S70), the CPU 1 lists them in the system memory 2. Sort the sorted file names. As a criterion for sorting, a file name having a high degree of closeness and appearance frequency is positioned higher. The sorting process itself is well known and will not require detailed description. In this way, the list of file names obtained is visually displayed on the display device 5 (step S80).
[0106]
In addition to the above embodiment, the following embodiment can be implemented.
[0107]
1) In the above-described embodiment, the data file is a document file, that is, a document (also referred to as text) having a plurality of words. As the data file, voice (human voice) data, moving image data, acoustic data, The present invention can also be applied to files such as musical score data. In this case, sound data obtained by dividing sound data into a plurality of sound units, for example, a predetermined sound length unit such as phonemes, phonemes, and words may be used as a sample. Since a moving image is composed of a plurality of still images, the still image is used as a sample. For acoustic data such as music and musical score data, for example, music data having a length of one measure may be used as a sample. In such a search system for audio data, moving image, and acoustic data files, the search target data can be given as the same type of audio data, moving image data, and acoustic data as the data registered in the database. For example, such a file search may be performed by registering novels, music, and musical scores in a database and searching the target data to determine whether there is a copyright infringement.
[0108]
2) In the above-described embodiment, both the appearance frequency and the closeness are used as sorting criteria for sorting the file names acquired by the search. However, it is a matter of course that only one of them may be used. .
[0109]
3) Of course, the program shown in FIG. 9 may be recorded on various recording media such as a floppy disk and a CDROM and installed in the HDD 4 of FIG.
[0110]
【The invention's effect】
As described above, in the inventions of claims 1 and 5, the concentration on the distribution of samples having a high degree of closeness and different semantic contents is alleviated, and conversely, the number of samples having no concentration on the distribution is increased. It is. As a result, the influence of noise can be eliminated, and the samples concentrated on the distribution can be classified into another group, and the classification accuracy can be improved as compared with the prior art.
[0111]
In the inventions of claims 2 and 6, data contained in various document files processed by the computer can be self-organized with high accuracy.
[0112]
According to the third and seventh aspects of the present invention, data included in various audio data files processed by the computer can be self-organized with high accuracy.
[0113]
According to the fourth and eighth aspects of the present invention, data included in various moving image data files processed by the computer can be self-organized with high accuracy.
[0114]
In the inventions of claims 9 to 11, when there are a plurality of data for search purposes (in the case of characters, keywords), they not only match the individual data but also have the most relevant (highest degree of closeness) between the data ) Files with high frequency of appearance of files and data are obtained as higher rank search results.
[Brief description of the drawings]
FIG. 1 is an explanatory diagram for explaining correction of a sample distribution and a sample position according to an embodiment of the present invention.
FIG. 2 is an explanatory diagram showing a simulation result of an embodiment of the present invention.
FIG. 3 is an explanatory diagram showing a simulation result of an embodiment of the present invention.
FIG. 4 is an explanatory diagram showing a conventional sample distribution.
FIG. 5 is an explanatory diagram showing a conventional sample distribution.
FIG. 6 is an explanatory diagram showing a sample distribution according to the embodiment of the present invention.
FIG. 7 is an explanatory diagram showing a sample distribution according to the embodiment of the present invention.
FIG. 8 is a block diagram showing a system configuration of an embodiment of the present invention.
FIG. 9 is a flowchart showing a processing procedure according to the embodiment of the present invention.
[Explanation of symbols]
1 CPU
2 System memory 3 Input device 4 HDD
5 display devices

Claims (11)

ファイルの中の複数のデータを関連の深いデータ同士にまとめて分類するために、前記データを標本とみなし、2つの標本の間の関連の度合いを示す親近度および2つの標本の間の距離に関する複数の標本全体の分布を統計解析する分類装置におい
て、
前記複数の標本の分布の偏りを原点が分布の中心となるように平行移動させた後、共分散行列を求めて固有地分解を行うことで補正する第1の補正手段と、
前記第1の補正手段により補正された複数の標本の分布の中心から標本までの距離に比例して標本の個数が多くなるようにすべての標本について乱数を用いた配置を繰り返すことで前記複数の標本の距離を補正する第2の補正手段と
を具えたことを特徴とする分類装置。
In order to collectively classify a plurality of data in a file into closely related data, the data is regarded as a sample, and the degree of closeness indicating the degree of association between two samples and the distance between the two samples are related. In a classification device that statistically analyzes the distribution of multiple samples,
A first correction unit that corrects the bias of the distribution of the plurality of samples by translating so that an origin is the center of the distribution, and then calculating a covariance matrix and performing eigendecomposition;
By repeating the arrangement using random numbers for all the samples so that the number of samples increases in proportion to the distance from the center of the distribution of the plurality of samples corrected by the first correction means to the plurality of samples, A classification apparatus comprising: a second correction unit that corrects the distance of the sample.
請求項1に記載の分類装置において、前記ファイルは複数の単語を含む文書であり、前記標本を前記単語とすることを特徴とする分類装置。  The classification device according to claim 1, wherein the file is a document including a plurality of words, and the sample is the word. 請求項1に記載の分類装置において、前記ファイルは複数の音声要素からなるファイルであり、前記標本を前記音声要素とすることを特徴とする分類装置。  2. The classification apparatus according to claim 1, wherein the file is a file composed of a plurality of sound elements, and the sample is the sound element. 請求項1に記載の分類装置において、前記ファイルは複数の静止画を有する動画であり、前記標本を前記静止画とすることを特徴とする分類装置。  2. The classification apparatus according to claim 1, wherein the file is a moving image having a plurality of still images, and the sample is the still image. ファイルの中の複数のデータを関連の深いデータ同士にまとめて分類するために、前記データを標本とみなし、2つの標本の間の関連の度合いを示す親近度および2つの標本の間の距離に関する複数の標本全体の分布をコンピュータにより統計解析する分類方法において、前記コンピュータが
前記複数の標本の分布の偏りを原点が分布の中心となるように平行移動させた後、共分散行列を求めて固有地分解を行うことで前記コンピュータにより補正する第1の補正手段と、
前記第1の補正手段により補正された複数の標本の分布の中心から標本までの距離に比例して標本の個数が多くなるようにすべての標本について乱数を用いた配置を繰り返すことで前記複数の標本の距離を前記コンピュータにより補正する第2の補正手段と
として動作することを特徴とする分類方法。
In order to collectively classify a plurality of data in a file into closely related data, the data is regarded as a sample, and the degree of closeness indicating the degree of association between two samples and the distance between the two samples are related. In a classification method in which the distribution of a plurality of samples is statistically analyzed by a computer, the computer translates the distribution bias of the plurality of samples so that the origin is the center of the distribution, and then obtains a covariance matrix to determine First correction means for correcting by the computer by performing ground decomposition;
By repeating the arrangement using random numbers for all the samples so that the number of samples increases in proportion to the distance from the center of the distribution of the plurality of samples corrected by the first correction means to the plurality of samples, A classification method, characterized by operating as second correction means for correcting the distance of a sample by the computer.
請求項5に記載の分類方法において、前記ファイルは複数の単語を含む文書であり、前記標本を前記単語とすることを特徴とする分類方法。  6. The classification method according to claim 5, wherein the file is a document including a plurality of words, and the sample is the word. 請求項5に記載の分類方法において、前記ファイルは複数の音声要素からなるファイルであり、前記標本を前記音声要素とすることを特徴とする分類方法。  6. The classification method according to claim 5, wherein the file is a file composed of a plurality of sound elements, and the sample is the sound element. 請求項5に記載の分類方法において、前記ファイルは複数の静止画を有する動画であり、前記標本を前記静止画とすることを特徴とする分類方法。  6. The classification method according to claim 5, wherein the file is a moving image having a plurality of still images, and the specimen is the still image. データベースに登録されたファイルをコンピュータにより検索するファイル検索方法において、前記コンピュータが、
前記データベースに登録されたファイルを構成するデータと種類が同一で、検索目的のデータを入力する手段と、
前記データベースに登録されたファイルの中に含まれるデータに対して請求項5に記載の分類方法を適用し、当該分類方法により分類されたデータが、前記入力する手段で入力されたデ−タと合致するか否かの判定を、前記データベースに登録されたファイル全てに対して行う手段と
として動作し、合致する判定が得られたファイルを検索結果とすることを特徴とするファイル検索方法。
In a file search method for searching a file registered in a database by a computer, the computer includes:
Means for inputting data for search purposes that is the same type as the data constituting the file registered in the database;
The classification method according to claim 5 is applied to data included in a file registered in the database, and the data classified by the classification method includes data inputted by the inputting means and A file search method characterized in that it operates as a means for determining whether or not they match with respect to all the files registered in the database, and the search result is a file that has been determined to match.
請求項9に記載のファイル検索方法において、前記コンピュータが、検索策結果として得られるファイルをそのファイル名でリストアップするステップと、当該リストアップされたファイル名を、合致した前記データの有する親近度の順にソーティングする手段としてさらに動作することを特徴とするファイル検索方法。  10. The file search method according to claim 9, wherein the computer lists a file obtained as a search strategy result by its file name, and the degree of familiarity of the data that matches the listed file name. The file search method further operates as means for sorting in the following order. 請求項9に記載のファイル検索方法において、前記コンピュータが、前記ファイルの中に含まれるデータの出現頻度を計数するステップと、検索策結果として得られるファイルをそのファイル名でリストアップする手段と、当該リストアップされたファイル名を、合致した前記データの有する出現頻度の順にソーティングする手段としてさらに動作することを特徴とするファイル検索方法。  The file search method according to claim 9, wherein the computer counts the frequency of appearance of data contained in the file, and means for listing files obtained as search strategy results by the file name; The file search method further operates as means for sorting the listed file names in the order of appearance frequencies of the matched data.
JP13900198A 1998-05-20 1998-05-20 Classification apparatus, method, and file search method Expired - Fee Related JP4729151B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13900198A JP4729151B2 (en) 1998-05-20 1998-05-20 Classification apparatus, method, and file search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13900198A JP4729151B2 (en) 1998-05-20 1998-05-20 Classification apparatus, method, and file search method

Publications (2)

Publication Number Publication Date
JPH11328184A JPH11328184A (en) 1999-11-30
JP4729151B2 true JP4729151B2 (en) 2011-07-20

Family

ID=15235165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13900198A Expired - Fee Related JP4729151B2 (en) 1998-05-20 1998-05-20 Classification apparatus, method, and file search method

Country Status (1)

Country Link
JP (1) JP4729151B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672369B2 (en) 2002-02-13 2010-03-02 Reify Corporation Method and apparatus for acquisition, compression, and characterization of spatiotemporal signals
JP6070951B2 (en) * 2013-12-17 2017-02-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Apparatus and method for supporting analysis of evaluation
CN109919186A (en) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Abnormal point ratio optimization method, apparatus, computer equipment and storage medium

Also Published As

Publication number Publication date
JPH11328184A (en) 1999-11-30

Similar Documents

Publication Publication Date Title
Jung et al. Automated classification of building information modeling (BIM) case studies by BIM use based on natural language processing (NLP) and unsupervised learning
JP5284990B2 (en) Processing method for time series analysis of keywords, processing system and computer program
JP5448105B2 (en) Method for retrieving document data from search keywords, computer system and computer program
JP4485524B2 (en) Methods and systems for information retrieval and text mining using distributed latent semantic indexing
JP5531395B2 (en) Identification of word clusters by word affinity
KR101757499B1 (en) Relational information expansion device, relational information expansion method and program
KR100756921B1 (en) Method of classifying documents, computer readable record medium on which program for executing the method is recorded
US20060036640A1 (en) Information processing apparatus, information processing method, and program
JP2004005668A (en) System and method which grade, estimate and sort reliability about document in huge heterogeneous document set
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP2004005667A (en) System and method which grade, estimate and sort reliability about document in huge heterogeneous document set
CN111753048B (en) Document retrieval method, device, equipment and storage medium
CN107506472B (en) Method for classifying browsed webpages of students
JP2011227688A (en) Method and device for extracting relation between two entities in text corpus
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
Wang et al. Automatic keyphrases extraction from document using neural network
KR20160149050A (en) Apparatus and method for selecting a pure play company by using text mining
Pargent et al. Predictive modeling with psychological panel data
JP3847273B2 (en) Word classification device, word classification method, and word classification program
Naserasadi et al. Extractive multi-document summarization based on textual entailment and sentence compression via knapsack problem
AlMahmoud et al. A modified bond energy algorithm with fuzzy merging and its application to Arabic text document clustering
JP7110554B2 (en) Ontology generation device, ontology generation program and ontology generation method
JP4729151B2 (en) Classification apparatus, method, and file search method
JP4539616B2 (en) Opinion collection and analysis apparatus, opinion collection and analysis method used therefor, and program thereof
CN112215006B (en) Organization named entity normalization method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080129

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080222

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080326

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7431

Effective date: 20100603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110418

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees