JPH11110409A - 情報分類方法及び装置 - Google Patents

情報分類方法及び装置

Info

Publication number
JPH11110409A
JPH11110409A JP9274528A JP27452897A JPH11110409A JP H11110409 A JPH11110409 A JP H11110409A JP 9274528 A JP9274528 A JP 9274528A JP 27452897 A JP27452897 A JP 27452897A JP H11110409 A JPH11110409 A JP H11110409A
Authority
JP
Japan
Prior art keywords
feature vector
learning
category
classification
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9274528A
Other languages
English (en)
Inventor
Masami Hara
正巳 原
Tsuyoshi Kitani
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP9274528A priority Critical patent/JPH11110409A/ja
Publication of JPH11110409A publication Critical patent/JPH11110409A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 テキストの高精度な分類が可能となる情報分
類装置を提供する。 【解決手段】 テキスト入力部11、単語処理部12、
特徴ベクトル処理部13、類似度処理部14、カテゴリ
決定部15を備え、外部または内部に、文書データベー
ス16及び学習特徴ベクトル集合ファイル17を具備し
て情報分類装置1を構成する。特徴ベクトル処理部13
は、新規テキストにおける各項目毎の部分特徴ベクトル
及び各カテゴリ毎の特徴ベクトル集合を生成する。類似
度処理部14は、既存の分類体系に基づく学習テキスト
と新規テキストとの類似度を算出する。カテゴリ決定部
15では、類似度がより高いカテゴリから所定数個のも
のを新規テキストのカテゴリとして決定し、新規テキス
トの分類を行う。分類後の新規テキストは、文書データ
ベース16に追加登録される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト(電子文
書データ、以下同じ)の効率的な情報分類方法に関す
る。
【0002】
【従来の技術】テキストの分類手法として、学習用に用
意されたテキスト(以下、学習テキスト)特徴ベクトル
の類似度を比較してカテゴリを決定する手法がある。こ
の従来の手法は、下記の手順で行われる。
【0003】まず、カテゴリの特徴を抽出するために利
用する学習テキスト群を用意する。この学習カテゴリ群
には、予め、L種類のカテゴリC1,C2,…、CLが
各々付与されているものとする。次に、カテゴリCi
(1≦i≦L)の特徴を表す特徴ベクトルpiを作成す
るために学習テキスト群から単語を抽出し、各単語の重
みを表す重要度を決定する。そして、決定された重要度
を要素としてカテゴリCiの特徴ベクトルpiを作成す
る。単語の重要度の付与方法については、「TF・ID
F法」に代表される種々の手法が数多く提案されて利用
されている。例えば、「徳永他:「重み付きIDFを用
いた文書の自動分類について」、情処学会自然語処理研
究会1997」、「長尾:「日本語文献における重要語の自
動抽出」、情処学会情報処理Vol.17 No.2、1976」等
に、単語の重要度の付与方法が詳しく紹介されている。
【0004】次に、新規テキストTについて、同様に特
徴ベクトルqを作成する。新規テキストのカテゴリ決定
には、ベクトルpiとq間の距離d(pi,q)が利用
される。この距離計算では、以下の式(1)に示すよう
な両ベクトルの内積を利用する方法が最も一般的であ
る。
【0005】
【数1】
【0006】ベクトルpiとq間の距離d(pi,q)
は、両ベクトルのなす角の余弦を表し、その範囲は「‐
1≦d(pi,q)≦1」となっており、距離d(pi,
q)が大きいほど両ベクトルの指す方向が近い。すなわ
ち、新規テキストTが、カテゴリCiに属する可能性が
高いことを意味している。このように、学習テキスト
群、及び新規テキストから各特徴ベクトルを作成する場
合には、カテゴリ毎にテキスト全文における単語の出現
頻度や出現件数等を利用して決定した重要度を用いるの
が一般的である。
【0007】
【発明が解決しようとする課題】ところで、単語には、
カテゴリ毎に出現しやすい項目が異なる傾向を持つ単語
や、項目に依存することなく均一に出現する単語とが存
在する。従来は、このような単語の特徴を考慮せず、全
項目をまとめて処理していたため、カテゴリを表現する
特徴ベクトルにおいて、カテゴリの特徴が明確に表現で
きず、分類精度を高めることができないという問題があ
った。
【0008】そこで本発明の課題は、既定の定型フォー
マットを持つテキストを、既存の分類体系に則して自動
的に分類し、利用者が必要な情報を正しく検索して活用
することができる、改良された情報分類方法を提供する
ことにある。本発明の他の課題は、上記情報分類方法の
実施に好適な情報分類装置を提供することにある。
【0009】
【課題を解決するための手段】上記課題を解決する本発
明の情報分類方法は、予め項目分けされ、カテゴリが付
与されている複数の学習テキストの各々から項目毎の特
徴を表す学習特徴ベクトルと項目数に応じた数の学習特
徴ベクトルの組から成る学習特徴ベクトル集合とを生成
しておく。カテゴリが不明な新規テキストが入力された
ときは、当該新規テキストに対して前記学習特徴ベクト
ル及び学習特徴ベクトル集合と同一形式の分類対象特徴
ベクトル及び分類対象特徴ベクトル集合を生成するとと
もに、個々の分類対象特徴ベクトルと前記学習特徴ベク
トルとの特徴差に基づいて前記分類対象特徴ベクトル集
合に対する各カテゴリの学習特徴ベクトル集合の類似度
を判定し、判定結果に基づいて前記新規テキストのカテ
ゴリを特定することを特徴とする。
【0010】上記他の課題を解決する本発明の情報分類
装置は、予め項目分けされ、カテゴリが付与されている
学習テキストの分類体系に即してカテゴリが不明な新規
テキストに付与すべきカテゴリを決定する装置であっ
て、以下の要素を備えて構成される。 (1)前記複数の学習テキストの各々に含まれる項目毎
の特徴を表す学習特徴ベクトルと項目数に応じた数の学
習特徴ベクトルの組から成る学習特徴ベクトル集合とを
生成するとともに、前記新規テキストに対して前記生成
した学習特徴ベクトル及び学習特徴ベクトル集合と同一
形式の分類対象特徴ベクトル及び分類対象特徴ベクトル
集合を生成する特徴ベクトル処理手段、(2)個々の分
類対象特徴ベクトルと前記学習特徴ベクトルとの特徴差
に基づいて前記分類対象特徴ベクトル集合に対する各カ
テゴリの学習特徴ベクトル集合の類似度を判定する類似
度処理手段、(3)前記類似度処理手段による判定結果
に基づいて前記新規テキストに付与すべきカテゴリを決
定するカテゴリ決定手段。
【0011】前記複数の学習テキスト及び前記新規テキ
ストがそれぞれ略定型フォーマットを有し、且つ当該フ
ォーマットに含まれる項目名を対比できるように構成す
ることで、カテゴリ決定がより容易になる。
【0012】前記特徴ベクトル処理手段は、例えば、各
学習テキストからそれぞれ項目毎の文章を抜粋して複数
の学習単語を抽出し、抽出した個々の学習単語の出現頻
度及び出現件数を要素として当該項目の重要度を決定
し、決定した項目の重要度に応じて前記学習特徴ベクト
ルを生成するとともに、すべての項目についての学習特
徴ベクトルを項目順に集合させて前記学習特徴ベクトル
集合を生成する。分類対象特徴ベクトル及びその集合も
同様にして生成することができる。
【0013】前記類似度処理手段は、例えば、個々の学
習特徴ベクトルと同一順の項目に対応する分類対象特徴
ベクトルとの間の距離を同一カテゴリ内に存する項目に
ついて合算し、この合算値を降順に並び替えるように構
成される。これにより、複数個のカテゴリ候補を順次探
索することができるようになる。
【0014】前記カテゴリ決定手段は、前記並び替えら
れた合算値に対応する複数個のカテゴリ候補を視覚化し
て提示し、該提示に基づいて特定されたカテゴリ候補の
一つを前記新規テキストに付与すべきカテゴリとして決
定するように構成される。
【0015】
【発明の実施の形態】以下、図面を参照して本発明にお
ける実施の形態を詳細に説明する。 (第1実施形態)図1は、本実施形態による情報分類装
置の一実施形態を示す機能ブロック図である。この情報
分類装置1は、コンピュータ装置によって実現可能なも
ので、その内部記憶装置あるいは外部記憶装置に構築さ
れる文書データベース16及び学習ベクトル集合ファイ
ル17と、オペレーティングシステム(OS)を内蔵し
た上記コンピュータ装置が所定のプログラムを読み込ん
で実行することにより形成される、テキスト入力部1
1、単語処理部12、特徴ベクトル処理部13、類似度
処理部14、カテゴリ決定部15、の機能ブロックを備
えて構成される。
【0016】上記プログラムは、通常、コンピュータ装
置の内部記憶装置あるいは外部記憶装置に格納されて随
時読み取られて実行されるようになっているが、コンピ
ュータ装置と分離可能な記録媒体、例えばCD−ROM
やFD等のような可搬性媒体、あるいは構内ネットワー
クに接続されたプログラムサーバ等の固定媒体に格納さ
れ、使用時に上記内部または外部記憶装置にインストー
ルされて随時実行に供されるものであっても良い。
【0017】文書データベース16には、分類済みの文
書データが登録されるようになっている。また、新規に
分類対象となる文書データ(以下、新規テキスト)の特
徴を識別する際に、登録済みの文書データの特徴を表す
情報(以下、学習テキスト)を特徴ベクトル処理部13
に出力するようになっている。なお、学習テキストに
は、予めL種類の分類のカテゴリC1、C2、…、CL
が付与されているものとする。また、学習テキスト(登
録済みの他の文書データも同様)と新規テキストは、そ
れぞれ略同一の項分けされた定型フォーマットに基づい
たテキストであり、項目名が対比できるものとする。具
体的には、それぞれ“項目1”、“項目2”、…“項目
N”のように、複数項目から構成されるテキストである
ものとする。学習ベクトル集合ファイル17には、新規
テキストを分類する前にその特徴を学習するための学習
ベクトルの集合(学習ベクトル集合)が格納され、類似
度処理部14において随時参照されるようになってい
る。この学習ベクトル集合は、適当な期間を経た後に更
新される。
【0018】テキスト入力部11は、新規テキストの入
力を受け付けて単語処理部12に入力するものであり、
単語処理部12は、入力された新規テキストに対して所
定の形態素解析を施し、名詞句に相当する単語の抽出を
行うとともに、抽出された複数の単語に対して重要度を
付与するものである。重要度の付与に際しては、前述の
TF・IDF法等の重要度付与手法を用いることができ
る。重要度が付与された各単語は、それぞれ特徴ベクト
ル処理部13に入力される。
【0019】特徴ベクトル処理部13は、単語処理部1
2で付与された重要度を要素として、各項目の特徴を表
す特徴ベクトルを抽出する。この特徴ベクトルは、文書
データベースから送られた学習テキストの特徴を表す学
習特徴ベクトルと、新規テキストの特徴を表す分類対象
特徴ベクトルである。特徴ベクトル処理部13では、こ
れらの特徴ベクトルをそれぞれ項目順に並べて特徴ベク
トル集合(学習特徴ベクトル集合/分類対象特徴ベクト
ル集合)を生成する。
【0020】具体的には、各学習テキストからそれぞれ
項目毎の文章を抜粋して複数の学習単語を抽出し、抽出
した個々の学習単語の出現頻度及び出現件数を要素とし
て当該項目の重要度を決定し、決定した項目の重要度に
応じて前記学習特徴ベクトルを生成するとともに、すべ
ての項目についての学習特徴ベクトルを項目順に集合さ
せて学習特徴ベクトル集合を生成する。こうして生成さ
れた学習特徴ベクトル集合が前述の学習ベクトル集合フ
ァイル17に格納されることになる。また、新規テキス
トから項目毎の文章を抜粋して複数の新規単語を抽出
し、抽出した個々の新規単語の出現頻度及び出現件数を
要素として当該項目の重要度を決定し、決定した項目の
重要度に応じて分類対象特徴ベクトルを生成するととも
に、すべての項目についての分類対象特徴ベクトルを項
目順に集合させて分類対象特徴ベクトル集合を生成す
る。生成された特徴ベクトル集合は、それぞれ類似度処
理部14に入力される。
【0021】類似度処理部14は、入力された各特徴ベ
クトル集合の特徴を検出して学習テキスト集合に対する
新規テキストの類似度を算出し、算出結果をカテゴリ決
定部15に入力するものである。具体的には、個々の学
習特徴ベクトルと同一順の項目に対応する分類対象特徴
ベクトルとの間の距離を同一カテゴリ内に存する項目に
ついて合算し、この合算値を降順に並び替える。
【0022】カテゴリ決定部15は、並び替えられた合
算値に対応する複数個のカテゴリ候補からその一つを新
規テキストに付与すべきカテゴリとして決定する。この
決定されたカテゴリを新規テキストに付与して分類し、
文書データベース16中に追加登録する。
【0023】次に、上記情報分類装置1の全体の動作を
より詳細に説明する。まず、図2及び図3を参照して、
学習テキスト及び新規テキストから特徴ベクトル集合を
作成する手順について説明する。
【0024】図2は、学習特徴ベクトル集合を作成する
場合の概念説明図である。図2に示されるように、ま
ず、単語処理部12において、カテゴリCi(1≦i≦
L)が付与されているすべての学習テキストから、“項
目1”に属する全文章を抜粋し、抜粋した文章から単語
(学習単語)群を抽出してそれぞれに重要度を付与す
る。特徴ベクトル処理部13では、“項目1”における
すべての学習単語の重要度から学習特徴ベクトルを作成
する。カテゴリCiの“項目1”における学習特徴ベク
トルをp(i,1)とすれば、学習特徴ベクトルは、当該カ
テゴリの項目毎に各々対応して1つ作成される。同様に
して、“項目1”〜“項目N”までのすべての項目につ
いて、学習特徴ベクトルp(i,2)、p(i,3)、…、p
(i,N)(1≦i≦N)を作成する。これら全ての学習
特徴ベクトルpから成る集合が学習特徴ベクトル集合と
なる。この学習特徴ベクトル集合Viは、以下のように
定義することができる。
【0025】
【数2】 Vi=(p(i,1),p(i,2),…,p(i,N))
【0026】図3は、分類対象特徴ベクトル集合を作成
する場合の概念説明図である。ここでは、上述した学習
特徴ベクトル集合の作成と同様に、新規テキストに基づ
いて生成した分類対象特徴ベクトル集合Wを以下のよう
に定義する。
【0027】
【数3】W=(q(*,1),q(*,2),…,q(*,N))
【0028】ここで、q(*,j)は、「不明」のカテゴ
リにおける“項目j”から作成した分類対象特徴ベクト
ルを表す。これらの式に示すように、学習特徴ベクトル
集合Viと分類対象ベクトル集合Wとは同一形式のもの
となる。
【0029】次に、あるカテゴリCiに対する分類対象
特徴ベクトル集合Wに対する各学習特徴ベクトル集合の
類似度判定方法、及びカテゴリの決定について説明す
る。図4は、分類対象ベクトル集合に付与すべきカテゴ
リの決定過程を示す概念説明図である。ここでの処理
は、類似度処理部14及びキーワード決定部15におい
て行う。すなわち、カテゴリCiの学習特徴ベクトル集
合Viにおいて、“項目1”を表す学習特徴ベクトルp
(i,1)と、分類対象特徴ベクトル集合Wにおける“項目
1”を表す分類対象特徴ベクトルq(*,1)に各々着目
し、両ベクトル間の距離d(p(i,1),q(*,1))を算出
する。
【0030】この距離dの算出は、“項目1”〜“項目
N”のすべてに対して実施し、これらの総和をとること
で各集合間の距離、つまり、カテゴリに対する新規テキ
ストの類似度が求まる。本実施形態では、カテゴリCi
への新規テキストの類似度Diを、以下に示す式(2)
のように定義する(ステップS1)。
【0031】
【数4】
【0032】距離を算出する式として前述の式(1)を
用いれば、その算出値は、「−N≦Di≦N」の範囲内
となる。類似度処理部14では、この類似度Diの算出
を全てのカテゴリCi(1≦i≦L)について行う。算
出結果は、カテゴリ決定部15に渡される。
【0033】カテゴリ決定部15では、これらの類似度
Diの算出値からカテゴリの決定を行う(ステップS
2)。カテゴリの決定は、例えば、類似度Di及びそれ
に対応した学習特徴ベクトル集合、ないし学習テキスト
を各々降順に並べて類似度が最大となるものから順次図
示しないディスプレイ装置に提示する。そしてこの提示
に基づいて特定されたカテゴリを新規テキストに付与す
べきカテゴリとして決定する。このようにすれば、利用
者が必要とする情報に対して漠然としたイメージしか有
していない場合であっても、類似度が高い方から低い方
へ順に探索することで、必要な情報を容易に取得するこ
とができるようになる。このとき、類似度Diに対して
ある閾値を設定しておいて決定すべきカテゴリを絞り込
むようにしてもよい。カテゴリ決定後は、新規テキスト
に対してそのカテゴリを付与し、文書データベース16
へ反映させる。
【0034】このように、本実施形態の情報分類装置1
では、項目分けされたテキストに対して、項目毎の単語
の重要度を加味することでテキスト内の単語の重要度を
決定していることから、特定項目に出現しやすい傾向が
ある単語の識別が可能になる。また、特定の単語が項目
のどの部分に出現し易いかをカテゴリ毎に調査して単語
の重要度に反映させることによってカテゴリ特徴を表す
特徴ベクトルを明確に表現できることから、新規テキス
トにおける特徴ベクトルの品質が向上し、分類精度を向
上させることが可能となる。
【0035】(第2実施形態)本発明は、公衆通信網を
通じて流通する大量のテキスト情報に対して自動的な分
類処理を行うシステム、例えば、情報分類装置であると
ころの情報分類サーバ、情報取得装置であるところのク
ライアント、を配備した情報分類システムの形態で実施
することも可能である。
【0036】この場合の情報分類サーバは、例えば、イ
ンターネット環境上における複数の大規模なデータベー
スに対するサーチエンジンとして位置付けられる。その
構成例としては、コンピュータ装置の内部あるいは外部
記憶装置に、上記文書データベース16と同一のデータ
ベースを構築し、公衆通信網を介してクライアントと通
信を行う通信制御部を具備する。さらに、上記情報分類
装置1と同様の機能ブロック、すなわち、テキスト入力
部11、単語処理部12、特徴ベクトル処理部13、類
似度処理部14、カテゴリ決定部15、を具備して構成
する。
【0037】この情報分類サーバが上記情報分類装置1
と相違する点は、通信制御を行う公知の通信制御部を具
備する点であり、この通信制御部を介して公衆通信網上
を流通する新規テキストをテキスト入力部11に入力す
るとともに、クライアントからの分類要求を受け付ける
ように構成する。この分類要求には、例えば、分類対象
となる新規テキストを識別するための情報を用いればよ
い。一方、分類結果も同様に、通信制御部を介してクラ
イアントに対して送信を行うように構成する。この分類
結果としては、例えば、新規テキストが属するカテゴ
リ、あるいは分類結果に係るすべての情報等を用いる。
【0038】なお、以上の説明は、新規テキストを文書
データベース16と独立に入力して分類対象特徴ベクト
ル集合を生成し、文書データベース16内の学習テキス
トに基づく学習特徴ベクトル集合と項目毎に対比する場
合の例であるが、文書データベース16に登録済みの文
書データと同様に新規テキストを蓄積しておき、適宜、
分類対象とすべき新規テキストのみを抽出してテキスト
入力部11に渡すように構成することも可能である。ま
た、学習特徴ベクトル集合は、類似度処理部14で参照
できるようにすればよいので、文書データベース16
内、あるいは図示しない他の記憶手段に格納するように
してもよい。
【0039】
【発明の効果】以上の説明から明らかなように、本発明
によれば、既定の定型フォーマットで構成されるテキス
トの分類を、既存の分類体系に則して自動的に行うこと
ができるので、利用者は、この分類結果を利用すること
で必要な情報を容易に検索できるようになる。また、こ
の分類は、テキストにおける項目及びカテゴリに係る重
要度に基づいて行われることから、高精度の分類結果が
得られるようになる。本発明を検索システム等に適用さ
せた場合には、検索効率及びその実用性が格段に向上す
るシステムの提供が可能となる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報分類装置におけ
る機能ブロック図。
【図2】学習テキスト群からの特徴ベクトル集合の作成
過程を示す概念説明図。
【図3】新規テキストからの特徴ベクトル集合の作成過
程を示す概念説明図。
【図4】分類対象ベクトル集合のカテゴリ決定過程を示
す概念説明図。
【図5】従来の特徴ベクトル作成の概念説明図。
【符号の説明】
1 情報分類装置 11 テキスト入力部 12 単語処理部 13 特徴ベクトル処理部 14 類似度処理部 15 カテゴリ決定部 16 文書データベース 17 学習特徴ベクトル集合ファイル
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成10年2月2日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】変更
【補正内容】
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報分類装置におけ
る機能ブロック図。
【図2】学習テキスト群からの特徴ベクトル集合の作成
過程を示す概念説明図。
【図3】新規テキストからの特徴ベクトル集合の作成過
程を示す概念説明図。
【図4】分類対象ベクトル集合のカテゴリ決定過程を示
す概念説明図。
【符号の説明】 1 情報分類装置 11 テキスト入力部 12 単語処理部 13 特徴ベクトル処理部 14 類似度処理部 15 カテゴリ決定部 16 文書データベース 17 学習特徴ベクトル集合ファイル

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 予め項目分けされ、カテゴリが付与され
    ている複数の学習テキストの各々から項目毎の特徴を表
    す学習特徴ベクトルと項目数に応じた数の学習特徴ベク
    トルの組から成る学習特徴ベクトル集合とを生成してお
    き、 カテゴリが不明な新規テキストが入力されたときに、当
    該新規テキストに対して前記学習特徴ベクトル及び学習
    特徴ベクトル集合と同一形式の分類対象特徴ベクトル及
    び分類対象特徴ベクトル集合を生成するとともに、個々
    の分類対象特徴ベクトルと前記学習特徴ベクトルとの特
    徴差に基づいて前記分類対象特徴ベクトル集合に対する
    各カテゴリの学習特徴ベクトル集合の類似度を判定し、
    判定結果に基づいて前記新規テキストのカテゴリを特定
    することを特徴とする情報分類方法。
  2. 【請求項2】 前記類似度の判定は、同一順の項目に対
    する各カテゴリの前記学習特徴ベクトルと前記分類対象
    特徴ベクトルとの間の距離を当該カテゴリ内のすべての
    項目について合算し、この合算値を比較することにより
    行うことを特徴とする請求項1記載の情報分類方法。
  3. 【請求項3】 前記合算値を降順に並び替えて複数の分
    類カテゴリ候補を順次探索し得るようにしたことを特徴
    とする請求項1または2記載の情報分類方法。
  4. 【請求項4】 予め項目分けされ、カテゴリが付与され
    ている学習テキストの分類体系に即してカテゴリが不明
    な新規テキストに付与すべきカテゴリを決定する装置で
    あって、 前記複数の学習テキストの各々に含まれる項目毎の特徴
    を表す学習特徴ベクトルと項目数に応じた数の学習特徴
    ベクトルの組から成る学習特徴ベクトル集合とを生成す
    るとともに、前記新規テキストに対して前記生成した学
    習特徴ベクトル及び学習特徴ベクトル集合と同一形式の
    分類対象特徴ベクトル及び分類対象特徴ベクトル集合を
    生成する特徴ベクトル処理手段と、 個々の分類対象特徴ベクトルと前記学習特徴ベクトルと
    の特徴差に基づいて前記分類対象特徴ベクトル集合に対
    する各カテゴリの学習特徴ベクトル集合の類似度を判定
    する類似度処理手段と、 前記類似度処理手段による判定結果に基づいて前記新規
    テキストに付与すべきカテゴリを決定するカテゴリ決定
    手段と、 を備えたことを特徴とする情報分類装置。
  5. 【請求項5】 前記複数の学習テキスト及び前記新規テ
    キストがそれぞれ略同一の定型フォーマットを有し、当
    該定型フォーマットに含まれる項目名を対比できるよう
    に構成されていることを特徴とする請求項4記載の情報
    分類装置。
  6. 【請求項6】 前記特徴ベクトル処理手段は、各学習テ
    キストからそれぞれ項目毎の文章を抜粋して複数の学習
    単語を抽出し、抽出した個々の学習単語の出現頻度及び
    出現件数を要素として当該項目の重要度を決定し、決定
    した項目の重要度に応じて前記学習特徴ベクトルを生成
    するとともに、すべての項目についての学習特徴ベクト
    ルを項目順に集合させて前記学習特徴ベクトル集合を生
    成することを特徴とする請求項4記載の情報分類装置。
  7. 【請求項7】 前記特徴ベクトル処理手段は、前記新規
    テキストから項目毎の文章を抜粋して複数の新規単語を
    抽出し、抽出した個々の新規単語の出現頻度及び出現件
    数を要素として当該項目の重要度を決定し、決定した項
    目の重要度に応じて前記分類対象特徴ベクトルを生成す
    るとともに、すべての項目についての分類対象特徴ベク
    トルを項目順に集合させて前記分類対象特徴ベクトル集
    合を生成することを特徴とする請求項4記載の情報分類
    装置。
  8. 【請求項8】 前記類似度処理手段は、個々の学習特徴
    ベクトルと同一順の項目に対応する分類対象特徴ベクト
    ルとの間の距離を同一カテゴリ内に存する項目について
    合算し、この合算値を降順に並び替えるように構成され
    ていることを特徴とする請求項4記載の情報分類装置。
  9. 【請求項9】 前記カテゴリ決定手段は、前記並び替え
    られた合算値に対応する複数個のカテゴリ候補を視覚化
    して提示し、該提示に基づいて特定されたカテゴリ候補
    の一つを前記新規テキストに付与すべきカテゴリとして
    決定するように構成されることを特徴とする請求項5記
    載の情報分類装置。
  10. 【請求項10】 請求項4ないし9のいずれかの項に記
    載された情報分類装置を公衆通信網と通信可能に接続
    し、前記公衆通信網を通じて流通する前記新規テキスト
    が前記情報分類装置に取り込まれるように構成された情
    報分類システム。
JP9274528A 1997-10-07 1997-10-07 情報分類方法及び装置 Pending JPH11110409A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9274528A JPH11110409A (ja) 1997-10-07 1997-10-07 情報分類方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9274528A JPH11110409A (ja) 1997-10-07 1997-10-07 情報分類方法及び装置

Publications (1)

Publication Number Publication Date
JPH11110409A true JPH11110409A (ja) 1999-04-23

Family

ID=17542974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9274528A Pending JPH11110409A (ja) 1997-10-07 1997-10-07 情報分類方法及び装置

Country Status (1)

Country Link
JP (1) JPH11110409A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US6804665B2 (en) 2001-04-18 2004-10-12 International Business Machines Corporation Method and apparatus for discovering knowledge gaps between problems and solutions in text databases
JP2005235065A (ja) * 2004-02-23 2005-09-02 Ntt Data Corp 情報検索装置
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
KR100952077B1 (ko) 2009-09-30 2010-04-14 동국대학교 산학협력단 키워드를 이용한 표제어 선정 장치 및 방법
WO2010120101A3 (ko) * 2009-04-13 2011-01-20 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
US9792274B2 (en) 2014-02-12 2017-10-17 International Business Machines Corporation Categorizing keywords
JP2018045626A (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 分類器学習装置、表種類分類装置、方法、及びプログラム
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
KR20210120236A (ko) * 2020-03-26 2021-10-07 삼성생명보험주식회사 데이터 관리 방법

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002543528A (ja) * 1999-05-05 2002-12-17 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US6804665B2 (en) 2001-04-18 2004-10-12 International Business Machines Corporation Method and apparatus for discovering knowledge gaps between problems and solutions in text databases
JP4510483B2 (ja) * 2004-02-23 2010-07-21 株式会社エヌ・ティ・ティ・データ 情報検索装置
JP2005235065A (ja) * 2004-02-23 2005-09-02 Ntt Data Corp 情報検索装置
JP2006113677A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献分類認識装置、その方法、文献分類装置、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
WO2010120101A3 (ko) * 2009-04-13 2011-01-20 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
KR100952077B1 (ko) 2009-09-30 2010-04-14 동국대학교 산학협력단 키워드를 이용한 표제어 선정 장치 및 방법
US9792274B2 (en) 2014-02-12 2017-10-17 International Business Machines Corporation Categorizing keywords
US10606944B2 (en) 2014-02-12 2020-03-31 International Business Machines Corporation Categorizing keywords
JP2018045626A (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 分類器学習装置、表種類分類装置、方法、及びプログラム
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
KR20210120236A (ko) * 2020-03-26 2021-10-07 삼성생명보험주식회사 데이터 관리 방법

Similar Documents

Publication Publication Date Title
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
US20040049499A1 (en) Document retrieval system and question answering system
CN110232112B (zh) 文章中关键词提取方法及装置
US20030004942A1 (en) Method and apparatus of metadata generation
RU2547213C2 (ru) Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JPH11167581A (ja) 情報分類方法、装置及びシステム
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
JPH11110409A (ja) 情報分類方法及び装置
JP3198932B2 (ja) 文書検索装置
JP2006227823A (ja) 情報処理装置及びその制御方法
JPH11120183A (ja) キーワード抽出方法及び装置
JP2019128925A (ja) 事象提示システムおよび事象提示装置
JP2003016106A (ja) 関連度値算出装置
CN114661892A (zh) 稿件摘要生成方法和装置、设备及存储介质
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
CN112183069A (zh) 一种基于历史关键词投放数据的关键词构建方法及系统
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP3943005B2 (ja) 情報検索プログラム
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体