JP2001265788A - 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体 - Google Patents
文書分類方法及び装置及び文書分類プログラムを格納した記録媒体Info
- Publication number
- JP2001265788A JP2001265788A JP2000082089A JP2000082089A JP2001265788A JP 2001265788 A JP2001265788 A JP 2001265788A JP 2000082089 A JP2000082089 A JP 2000082089A JP 2000082089 A JP2000082089 A JP 2000082089A JP 2001265788 A JP2001265788 A JP 2001265788A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- words
- distance
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
語集合の中の不要語を特定した上、文書間の的確な類似
度を算出することを目的としている。 【解決手段】 文書に含まれる単語の頻度情報からデー
タベースを作成し、文書集合と単語集合との間の相関係
数が最大となるように文書集合と単語集合とを配置し、
次いでシソーラスの情報にもとづいて類似性の大きい単
語をまとめる単語間の距離変更を行った上で、再び文書
集合と単語集合との配置を決定して、クラスタリングを
行う。
Description
内容の観点から自動的にクラスタリングし、情報検索等
に役立てるための文書分類方法及び装置及び文書分類プ
ログラムを格納した記録媒体に関するものである。
文書間の類似度を定義する必要がある。文書間の類似度
としては、文書をベクトルで表し、そのベクトル間の内
積で定義するベクトル空間法がある。
集合を決めておき、各索引語をベクトルと見なして、文
書のベクトルを索引語ベクトルの線形結合として表す。
線形結合式における各索引語ベクトルの係数には、その
文書における索引語の頻度情報等が用いられる。
特異値分解(SVD)により、文書・対・索引語の行列
を縮退させ、文書を、直交している座標空間上のベクト
ルとして表現する手法もある。
索引語を選定する際、その選択された索引語のベクトル
同士が直交しているような索引語を選定することは一般
に困難であり、直交していない索引語ベクトル間の類似
性がどれだけなのかを定量的に算出するのも困難であ
る。
(SVD)の手法で直交している座標軸を取得する方法
をとっても、最初の索引語の選定で、文書分類に無関係
な不要語が含まれていた場合、結果として得られる文書
ベクトルは、文書間の的確な類似性を表現しているとは
必ずしもいえなくなる。
間の類似度は、理論的に曖昧性をはらんでいることにな
る。
単語集合の中の不要語を特定した上で、文書間の的確な
類似度を算出するようにすることを目的としている。
め、本発明は、文書の集合を入力とし、文書集合に含ま
れる単語の集合をとり、文書に含まれる単語の頻度情報
から、各文書と各単語との間の関連度を表すデータベー
スを作成する文書・単語間データベース作成過程と、文
書集合及び単語集合をそれぞれ確率変数と見なし、文書
・単語間の関連度を文書集合と単語集合との同時確率分
布と見なし、文書集合と単語集合との間の相関係数が最
大になるように、文書及び単語に数値(または多次元数
値)を割り当てることによって、文書集合と単語集合と
のそれぞれの最適な配置を決定する文書・単語最適配置
過程と、文書・単語最適配置過程で決定された単語集合
の配置から、任意の単語間の距離を計算し、シソーラス
の情報をもとに、類似性の大きい単語間ほど距離が短く
なるように単語間の距離を変更する単語間距離変更過程
と、単語間距離変更過程で決定された単語間の距離値か
ら算出される類似度をもとに、類似度の大きい単語間ほ
ど距離が短く、類似度の小さい単語間ほど距離が長くな
るように、各単語に数値(または多次元数値)を割り当
てることによって単集合の最適な配置を決定する単語最
適配置過程と、文書集合及び単語集合をそれぞれ確率変
数と見なし、文書・単語間の関連度を文書集合と単語集
合との同時確率分布と見なし、単語最適配置過程で決定
された単語集合の配置を固定した上で、文書集合と単語
集合との間の相関係数が最大になるように、文書に数値
(または多次元数値)を割り当てることによって、文書
集合の最適な配置を決定する文書最適配置過程と、文書
最適配置過程で決定された文書集合の配置から、任意の
文書間の距離を計算し、この距離値にもとづいて文書集
合のクラスタリングを行い、文書クラスター集合を出力
する文書クラスタリング過程とからなる。
単語集合との間の相関係数が最大になるように、文書及
び単語に数値(または多次元数値)を割り当てるので、
単語集合は、出現する文書の分布が似ている単語間ほど
近くなるように配置される。
報をもとに、類似性の大きい単語間ほど距離が短くなる
ように単語間の距離を変更するので、出現文書の分布の
類似性に、単語間の意味的類似性を加味した、単語間の
距離が算出できる。
程で決定された単語間の距離値から算出される類似度を
もとに、類似度の大きい単語間ほど距離が短く、類似度
の小さい単語間ほど距離が長くなるように、各単語に数
値(または多次元数値)を割り当てることによって単語
集合の最適な配置を決定する。
置は、単語間の的確な類似性を表現したものと考えられ
る。文書最適配置過程では、この単語集合の配置を固定
した上で、文書集合と単語集合間の相関係数が最大にな
るように、文書に数値(または多次元数値)を割り当て
るので、文書集合は、単語の出現分布が似ている文書間
ほど近くなるように配置される。こうして得られた文書
集合の配置は、文書間の的確な類似性を表現していると
考えられる。
に、文書クラスタリング過程で文書のクラスタリングを
行うことにより、的確な文書クラスター集合を得ること
ができる。
文書の分類に無関係な不要語を特定する。特定の文書ク
ラスターに出現する傾向のある単語群は、出現文書の分
布が似ているので、クラスターを形成する傾向にあると
考えられる。これに対し、一般に不要語は特定の文書ク
ラスターだけに出現するわけでなく、あらゆる文書クラ
スターに均一に出現する傾向があると考えられるので、
特定の単語クラスターに含まれることがあまりない。そ
こで、不要語は他の単語との距離値の分布の標準偏差
が、非不要語に比べて、小さいと考えられる。従って、
各単語毎に、他の単語との距離値の分布の標準偏差を計
算し、その標準偏差値がある一定以下ならば、その単語
を不要語と判定することができる。
要語特定処理過程で特定した不要語を除去することによ
って、文書・単語間データベースを再構成し、新しい文
書・単語間データベースから、文書・単語最適配置過
程、単語間距離変更過程を再び行うことによって、より
精錬化された単語間の距離値を導出することができる。
を説明する。
て、「数学ライブラリー46 多変量解析入門II」(発行
所:森北出版、著者:河口至商)がある。
のフローを説明するための図である。図中の符号11は
文書・単語間データベース、12はシソーラス・データ
ベースを表している。
ベース作成過程では、文書集合に含まれる単語の集合を
とり、文書に含まれる単語の頻度情報から、各文書と各
単語との間の関連度を表すデータベースを作成する。即
ち、例えば文書を形態素解析し、その中の自立語のみを
取り出し、同義語は同一視した上で、各自立語の頻度数
を計算した上で、文書・単語間データベース11を作成
する。
スの例である。単語は同義語は同一視しており、単語集
合は1,2,…,Kである。
ーンが同一である文書をまとめ、全体としてM種の異な
る文書パターンがある。各文書パターンの個数はそれぞ
れn 1 , n2 , …,nM で、
…,K)は、文書パターンwと単語iとの関連度であ
る。関連度としては、最も単純なものは、その単語がそ
の文書に出現するとき「1」、しないとき「0」をとる
ものである。他にも、単語が文書に出現する頻度数をと
ってもよい。さらに、種々の精練化を施したものを使用
してもよい。
書の中に出現する単語の関連度の総和であり、nw は文
書パターンwに含まれる文書の数であり、nw mw は文
書パターンwに含まれる一文書の中に出現する単語の関
連度の総和を文書パターンwに含まれる文書数分足し合
わせたものである。そしてTは各文書パターンwに対応
する値nw mw の総和で、(nw mw )/Tが文書パタ
ーンwを確率変数と見なしたときのwの確率密度であ
る。また文書パターンw、単語iを確率変数と見なした
とき、(w,i)の同時確率密度は、(nw xwi)/T
となる。
和Tで割ることによって、文書・単語間の関連度を、文
書・単語間の同時確率密度とみなすことができる。その
理由は、関連度をTで除した値の総和は「1」になるか
らである。
語との間の関連度の総和をTで除した値は、その文書の
確率密度とみなすことができる。その理由は、一文書と
各単語との間の関連度の総和をTで除した値を、全文書
にわたって足し合わせると「1」になるからである。
文書との間の関連度の総和をTで除した値は、その単語
の確率密度とみなすことができる。その理由は、一単語
と各文書との間の関連度の総和をTで除した値を、全単
語にわたって足し合わせると「1」になるからである。
変数とみなすことができるわけであり、さらに、各文
書、各単語に何らかの実数を割り当てることによって、
期待値、分散、共分散、相関係数といった統計値を定義
することができるわけである。
過程では、文書集合及び単語集合をそれぞれ確率変数と
見なし、文書・単語間の関連度を文書集合と単語集合の
同時確率分布と見なし、文書集合と単語集合間の相関係
数が最大になるように、文書及び単語に数値または多次
元数値を割り当てることによって、文書集合と単語集合
それぞれの最適な配置を決定する。
てる方法について説明する。文書パターンw、単語iを
確率変数と見なしたとき、(w,i)の同時確率密度が
(nw xwi)/Tである同時確率分布が得られる。さら
に、単語iになんらかの実数ui ,文書パターンwにな
んらかの実数vw を割り当てることによって、以下の統
計学上の値が得られる。
vw の値を決めるわけである。「最適」とは相関係数が
最大となるという意味であり、相関係数を最大とするu
i やvw の値が、単語や文書パターンの最適な配置とな
る。
の関連度の分布が似ている単語同士ほど近くに、各単語
との関連度の分布が似ている文書パターン同士ほど近く
に配置される。
方法で取得する。{ui }(i=1,2,…,K),
{vw }(w=1,2,…,M)の原点は任意性がある
ので、計算を容易にするために、
にするui ,vw を求めるためには、以下のような連立
方程式
示す。
の固有値に対応する固有ベクトルを zi (i=1,2,…,K) とする。これより、ui が
値の割り当てについても、一次元の議論を拡張して行う
ことができる。
では、文書・単語最適配置過程(1.2) で決定された単語
集合の配置から、任意の単語間の距離を計算し、シソー
ラス・データベース12を索引してシソーラスの情報を
もとに、類似性の大きい単語間ほど距離が短くなるよう
に単語間の距離を変更する。
れており、単語間の距離は、座標空間上の2点間の直線
距離として計算する。文書・単語最適配置過程(1.2) で
得られた単語配置は、出現する文書の分布が似ている単
語間ほど近くなるように配置されている。しかしなが
ら、元々意味的に類似している(シソーラス上で同一の
親ノードをもつなど)のに、出現する文書の分布が似て
いないため、互いに遠くに配置される2単語もありう
る。そこで、出現文書の分布の類似性に、単語間の意味
的類似性を加味しているように、単語間の距離を変更す
る。
語をとってきたとき、シソーラス上の距離をdとする。
ここでdとは、シソーラス上の対応するノード間のリン
クの数の最小値である。2単語間の配置上の距離をDと
したとき、変更後の距離D′を、
2 になり、dが増えるに従って、D′の値はDに近づい
ていく。
判断過程では、(1.5) の不要語特定処理過程がまだ実行
されていなければ該不要語特定処理過程(1.5) に進み、
すでに実行されていれば(1.7) の単語最適配置過程に進
む。
では、各単語毎に、他の単語との距離値の分布の標準偏
差を計算し、その標準偏差値がある一定基準以下なら
ば、その単語を不要語と判定する。
に対応する標準偏差値の平均の一定パーセント以下の標
準偏差値をもつ単語を不要語と判定する方法がある。
≦j≦p)としたとき、i,j間の距離をfijとする。 距離値の分布fij(1≦j≦p)の期待値
1))とし、定数a(0<a<1)をとったとき、
象からはずす。
ベース更新過程では、不要語特定処理過程(1.5) で特定
された不要語を除去した上で、各文書と各単語との間の
関連度を表すデータベースを再構成し、前記文書・単語
最適配置過程(1.2) に進む。
は、単語間距離変更過程(1.3) で決定された単語間の距
離値から算出される類似度をもとに、類似度の大きい単
語間ほど距離が短く、類似度の小さい単語間ほど距離が
長くなるように、各単語に数値または多次元数値を割り
当てることによって単語集合の最適な配置を決定する。
間の距離の逆数を類似度とする方法がある。単語数をK
とし、i番目の単語とj番目の単語との間の類似度をe
ij(i,j=1,2,…,K)とする。
いて説明する。各単語に与える未知の数値をxi (i=
1,2,…,K)とし、
うに数値xi を与えることが望ましい。
れば、Qの大小の比較をすることは意味をもたない。ま
た、xi の原点は任意性があるので、
を求めればよい。Qを最大にするxi は以下に述べる計
算方法で取得する。Qを最大にするxi を求めるために
は、
=1,2,…,K)
…,K)なる行列の最大の固有値に対する固有ベクトル xi (i=1,2,…,K) を求めるべき解とする。
も、一次元の議論を拡張して行うことができる。
は、文書集合及び単語集合をそれぞれ確率変数と見な
し、文書・単語間の関連度を文書集合と単語集合との同
時確率分布と見なし、単語最適配置過程(1.7) で決定さ
れた単語集合の配置を固定した上で、文書集合と単語集
合との間の相関係数が最大になるように、文書に数値ま
たは多次元数値を割り当てることによって、文書集合の
最適な配置を決定する。相関係数を最大にするui ,v
w を求める計算で、計算を容易にするために、
条件下でui が求まったとき、vw が
単語最適配置過程(1.7) で決定されたui に対しても、
で、vw を上記式で求める。
た単語集合の一次元配置を、 ui (i=1,2,…,K) としたとき、
とき、文書集合と単語集合間の相関係数が最大となる、
文書集合の一次元配置 vw (w=1,2,…,M) は、
元数値だった場合の、文書への多次元数値の割り当てに
ついても、一次元の議論を拡張して行うことができる。
過程では、文書最適配置過程(1.8)で決定された文書集
合の配置から、任意の文書間の距離を計算する。ここで
文書間の距離とは、座標空間上の2点間の直線距離であ
る。この距離値情報から文書集合化のためのクラスタリ
ングを行い、文書クラスター集合(文書集合の集合)を
出力する。
装置について説明したが、当該文書分類方法はプログラ
ムの形で記述して記録媒体に格納しておくことができ
る。したがって、本発明は当該格納の行われた記録媒体
をも発明の対象とするものである。
り、本発明では文書間の的確な距離値を算出することが
可能となるため、その距離値にもとづく文書のクラスタ
リング結果も的確なものとなる。
る。
る。
Claims (3)
- 【請求項1】 文書の集合を入力とし、文書をその内容
により分類する文書分類方法において、 前記文書集合に含まれる単語の集合をとり、文書に含ま
れる単語の頻度情報から、各文書と各単語との間の関連
度を表すデータベースを作成する文書・単語間データベ
ース作成過程と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、文書集合と単語集合との間の相関係数が
最大になるように、文書及び単語に数値を割り当てるこ
とによって、文書集合と単語集合とのそれぞれの最適な
配置を決定する文書・単語最適配置過程と、 前記文書・単語最適配置過程で決定された単語集合の配
置から、任意の単語間の距離を計算し、シソーラスの情
報をもとに、類似性の大きい単語間ほど距離が短くなる
ように単語間の距離を変更する単語間距離変更過程と、 前記単語間距離変更過程で決定された単語間の距離値か
ら算出される類似度をもとに、類似度の大きい単語間ほ
ど距離が短く、類似度の小さい単語間ほど距離が長くな
るように、各単語に数値を割り当てることによって単語
集合の最適な配置を決定する単語最適配置過程と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、前記単語最適配置過程で決定された単語
集合の配置を固定した上で、文書集合と単語集合との間
の相関係数が最大になるように、文書に数値を割り当て
ることによって、文書集合の最適な配置を決定する文書
最適配置過程と、 前記文書最適配置過程で決定された文書集合の配置か
ら、任意の文書間の距離を計算し、この距離値にもとづ
いて文書集合のクラスタリングを行い、文書クラスター
集合を出力する文書クラスタリング過程とからなること
を特徴とする文書分類方法。 - 【請求項2】 文書の集合を入力とし、文書をその内容
により分類する文書分類装置であって、 前記文書集合に含まれる単語の集合をとり、文書に含ま
れる単語の頻度情報から、各文書と各単語との間の関連
度を表すデータベースを作成する文書・単語間データベ
ース作成手段と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、文書集合と単語集合との間の相関係数が
最大になるように、文書及び単語に数値を割り当てるこ
とによって、文書集合と単語集合とのそれぞれの最適な
配置を決定する文書・単語最適配置手段と、 前記文書・単語最適配置手段の処理で決定された単語集
合の配置から、任意の単語間の距離を計算し、シソーラ
スの情報をもとに、類似性の大きい単語間ほど短くなる
ように単語間の距離を変更する単語間距離変更手段と、 前記単語間距離変更手段の処理で決定された単語間の距
離値から算出される類似度をもとに、類似度の大きい単
語間ほど距離が短く、類似度の小さい単語間ほど距離が
長くなるように、各単語に数値を割り当てることによっ
て単語集合の最適な配置を決定する単語最適配置手段
と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、前記単語最適配置手段の処理で決定され
た単語集合の配置を固定した上で、文書集合と単語集合
との間の相関係数が最大になるように、文書に数値を割
り当てることによって、文書集合の最適な配置を決定す
る文書最適配置手段と、 前記文書最適配置手段の処理で決定された文書集合の配
置から、任意の文書間の距離を計算し、この距離値にも
とづいて文書集合のクラスタリングを行い、文書クラス
ター集合を出力する文書クラスタリング手段を有するこ
とを特徴とする文書分類装置。 - 【請求項3】 文書の集合を入力とし、文書をその内容
により分類する文書分類プログラムを格納した記録媒体
であって、 前記文書集合に含まれる単語の集合をとり、文書に含ま
れる単語の頻度情報から、各文書と各単語との間の関連
度を表すデータベースを作成する文書・単語間データベ
ース作成プロセスと、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、文書集合と単語集合との間の相関係数が
最大になるように、文書及び単語に数値を割り当てるこ
とによって、文書集合と単語集合とのそれぞれの最適な
配置を決定する文書・単語最適配置プロセスと、 前記文書・単語最適配置プロセスで決定された単語集合
の配置から、任意の単語間の距離を計算し、シソーラス
の情報をもとに、類似性の大きい単語間ほど距離が短く
なるように単語間の距離を変更する単語間距離変更プロ
セスと、 前記単語間距離変更プロセスで決定された単語間の距離
値から算出される類似度をもとに、類似度の大きい単語
間ほど距離が短く、類似度の小さい単語間ほど距離が長
くなるように、各単語に数値を割り当てることによって
単語集合の最適な配置を決定する単語最適配置プロセス
と、 文書集合及び単語集合をそれぞれ確率変数と見なし、文
書・単語間の関連度を文書集合と単語集合との同時確率
分布と見なし、前記単語最適配置プロセスで決定された
単語集合の配置を固定した上で、文書集合と単語集合と
の間の相関係数が最大になるように、文書に数値を割り
当てることによって、文書集合の最適な配置を決定する
文書最適配置プロセスと、 前記文書最適配置プロセスで決定された文書集合の配置
から、任意の文書間の距離を計算し、この距離値にもと
づいて文書集合のクラスタリングを行い、文書クラスタ
ー集合を出力する文書クラスタリングプロセスとからな
ることを特徴とする文書分類方法を実行するプログラム
を記憶した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000082089A JP3643516B2 (ja) | 2000-03-23 | 2000-03-23 | 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000082089A JP3643516B2 (ja) | 2000-03-23 | 2000-03-23 | 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001265788A true JP2001265788A (ja) | 2001-09-28 |
JP3643516B2 JP3643516B2 (ja) | 2005-04-27 |
Family
ID=18598937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000082089A Expired - Fee Related JP3643516B2 (ja) | 2000-03-23 | 2000-03-23 | 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3643516B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006127523A (ja) * | 2005-10-27 | 2006-05-18 | Hitachi Ltd | 文書情報表示システム |
KR100659370B1 (ko) | 2006-02-15 | 2006-12-19 | 한국과학기술정보연구원 | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 |
JP2012506596A (ja) * | 2008-10-21 | 2012-03-15 | マイクロソフト コーポレーション | コンパラブルコーパスを使用する固有表現の翻字 |
CN102544606A (zh) * | 2012-01-18 | 2012-07-04 | 杭州高特电子设备有限公司 | 基于聚类分析的锂电池单元配组方法 |
JP2018169940A (ja) * | 2017-03-30 | 2018-11-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10105572A (ja) * | 1996-10-02 | 1998-04-24 | Nec Corp | 文書グループ化装置および文書グループ化方法 |
JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
-
2000
- 2000-03-23 JP JP2000082089A patent/JP3643516B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10105572A (ja) * | 1996-10-02 | 1998-04-24 | Nec Corp | 文書グループ化装置および文書グループ化方法 |
JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006127523A (ja) * | 2005-10-27 | 2006-05-18 | Hitachi Ltd | 文書情報表示システム |
KR100659370B1 (ko) | 2006-02-15 | 2006-12-19 | 한국과학기술정보연구원 | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 |
JP2012506596A (ja) * | 2008-10-21 | 2012-03-15 | マイクロソフト コーポレーション | コンパラブルコーパスを使用する固有表現の翻字 |
CN102544606A (zh) * | 2012-01-18 | 2012-07-04 | 杭州高特电子设备有限公司 | 基于聚类分析的锂电池单元配组方法 |
JP2018169940A (ja) * | 2017-03-30 | 2018-11-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3643516B2 (ja) | 2005-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
Hasan et al. | Normalized approach to find optimal number of topics in Latent Dirichlet Allocation (LDA) | |
CN112464638B (zh) | 一种基于改进谱聚类算法的文本聚类方法 | |
US20060004753A1 (en) | System and method for document analysis, processing and information extraction | |
WO2018087190A1 (en) | Apparatus and method for semantic search | |
Huang et al. | Exploration of dimensionality reduction for text visualization | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Thushara et al. | A model for auto-tagging of research papers based on keyphrase extraction methods | |
Mendoza et al. | A new memetic algorithm for multi-document summarization based on CHC algorithm and greedy search | |
CN110019563B (zh) | 一种基于多维数据的肖像建模方法和装置 | |
CN114547307A (zh) | 文本向量模型训练方法、文本匹配方法、装置及设备 | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
Priandini et al. | Categorizing document by fuzzy C-Means and K-nearest neighbors approach | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
JP2001265788A (ja) | 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体 | |
CN111723179A (zh) | 基于概念图谱的反馈模型信息检索方法、系统及介质 | |
US20230259761A1 (en) | Transfer learning system and method for deep neural network | |
CN116610810A (zh) | 基于调控云知识图谱血缘关系的智能搜索方法及系统 | |
Gupta et al. | Feature selection: an overview | |
Śmieja et al. | Spherical wards clustering and generalized voronoi diagrams | |
JP2011191834A (ja) | 文書分類方法、文書分類装置、およびプログラム | |
CN114021541A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
JP2006285419A (ja) | 情報処理装置および方法、並びにプログラム | |
CN114625952A (zh) | 一种基于VSM和AMMK-means的信息推荐方法及系统 | |
Saklecha et al. | Enhanced K-means clustering algorithm using collaborative filtering approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050125 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050128 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080204 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090204 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090204 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100204 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110204 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |