JPH1185796A - 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体 - Google Patents

文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Info

Publication number
JPH1185796A
JPH1185796A JP9250125A JP25012597A JPH1185796A JP H1185796 A JPH1185796 A JP H1185796A JP 9250125 A JP9250125 A JP 9250125A JP 25012597 A JP25012597 A JP 25012597A JP H1185796 A JPH1185796 A JP H1185796A
Authority
JP
Japan
Prior art keywords
document
vector
paragraph
learning
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9250125A
Other languages
English (en)
Inventor
Noriko Otani
紀子 大谷
Shiro Ito
史朗 伊藤
Shogo Shibata
昇吾 柴田
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9250125A priority Critical patent/JPH1185796A/ja
Publication of JPH1185796A publication Critical patent/JPH1185796A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 主題と異なる他話題が出現する文書に対して
その分類を適正に行うことができる文書自動分類装置を
提供する。 【解決手段】 文書自動分類装置は、学習用文書と分類
対象文書とのそれぞれについて、有効語辞書を参照して
段落ベクトルを求め(段落ベクトル計算部105)、そ
の段落ベクトルの分布から他話題段落を決定し(他話題
段落決定部107)、その他話題段落を参照してその段
落ベクトルの中から有効な段落ベクトルを取り出し、こ
の段落ベクトルから文書ベクトルを求める(文書ベクト
ル計算部109)。学習フェーズでは、学習用文書の文
書ベクトルを用いて各カテゴリのフォルダベクトルを求
め(フォルダベクトル計算部111)、分類フェーズで
は、分類対象文書の文書ベクトルと各カテゴリのフォル
ダベクトルとの比較結果に応じて分類対象文書が属する
カテゴリを決定する(分類決定部113)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類装置、それに
用いられる学習装置および分類装置と、文書自動分類方
法、それに用いられる学習方法および分類方法と、文書
自動分類装置を構築するための記憶媒体とに関する。
【0002】
【従来の技術】分類対象文書をユーザの意図に沿って分
類する方法の一つとして、ベクトル空間モデルを利用し
た方法がある。このベクトル空間モデルでは、分類に有
用な語や文書、カテゴリをベクトルで表現し、ベクトル
の方向から文書が属するカテゴリを決定する。このベク
トル空間モデルを利用した文書自動分類処理は、学習フ
ェーズと分類フェーズとに分けられる。学習フェーズで
は、予め正しく分類された学習用文書から分類に有用な
語(以下、有効語という)を選出し、各有効語をベクト
ル表現して有効語辞書を作成する。また、学習用文書を
ベクトル表現して、各カテゴリの特徴を表すフォルダベ
クトルを算出する。分類フェーズでは、学習フェーズで
得られた有効語辞書を用いて分類対象文書をベクトルで
表現し(以下、文書ベクトルという)、この文書ベクト
ルとフォルダベクトルとを比較し、該比較結果に応じて
分類対象文書が属するカテゴリを決定する。
【0003】この方法を採用した文書自動分類装置の構
成について図8ないし図11を参照しながら説明する。
図8は従来の文書自動分類装置の構成を示すブロック
図、図9は図8の文書自動分類装置における学習フェー
ズの処理手順を示すフローチャート、図10は図8の文
書自動分類装置における分類フェーズの処理手順を示す
フローチャート、図11は図8の文書自動分類装置にお
ける分類フェーズで求められた文書ベクトルの例を示す
図である。
【0004】文書自動分類装置は、図8に示すように、
学習用文書を保持する学習用文書保持部501と、分類
対象文書を保持する分類対象文書保持部502と、学習
用文書から有効語を選出し、この有効語を集めて有効語
辞書を作成する有効語辞書作成部503と、有効語辞書
を保持する有効語辞書保持部504と、学習用文書と分
類対象文書とのそれぞれについて、有効語辞書を参照し
て文書ベクトルを求める文書ベクトル計算部505と、
学習用文書と分類対象文書とのそれぞれについて求めら
れた文書ベクトルを保持する文書ベクトル保持部506
とを備える。
【0005】文書ベクトル保持部506に保持された学
習用文書の文書ベクトルはフォルダベクトル計算部50
7に与えられ、フォルダベクトル計算部507は学習用
文書の文書ベクトルを用いて各カテゴリのフォルダベク
トルを求める。求められた各カテゴリのフォルダベクト
ルは、フォルダベクトル保持部508に保持される。
【0006】フォルダベクトル保持部508に保持され
た各カテゴリのフォルダベクトルは、文書ベクトル保持
部506に保持された分類対象文書の文書ベクトルとと
もに分類決定部509に与えられ、分類決定部509は
分類対象文書の文書ベクトルと各カテゴリのフォルダベ
クトルとを比較し、該比較結果に応じて分類対象文書が
属するカテゴリを決定する。この決定された分類対象文
書のカテゴリは分類結果保持部510に保持される。
【0007】次に、文書自動分類装置における学習フェ
ーズの処理手順について図9を参照しながら説明する。
【0008】まず、ステップS601において学習要文
書に含まれる語の中から、分類に有用な語を有効語とし
て選定し、続くステップS602で、選定した有効語を
出現頻度や他の有効語との共起状況などによりベクトル
表現し、有効語辞書として保持する。
【0009】次いで、ステップS603に進み、学習用
文書から有効語を抽出し、続くステップS604で、有
効語辞書を参照して取り出した有効語のベクトルの平均
を取り、このベクトルの平均から学習用文書の文書ベク
トルを求める。そして、ステップS605で、学習用文
書における各カテゴリに属する文書の文書ベクトルの平
均を取り、該文書のベクトルの平均からフォルダベクト
ルを求め、本処理を終了する。
【0010】この学習フェーズが終了すると、分類フェ
ーズが開始される。この分類フェーズの処理手順につい
て図10を参照しながら説明する。
【0011】分類フェーズでは、まずステップS701
において分類対象文書から有効語を取り出し、続くステ
ップS702で有効語辞書を参照して取り出した有効語
のベクトルの平均を取り、このベクトルの平均から分類
対象文書の文書ベクトルを求める。
【0012】次いで、ステップS703に進み、分類対
象文書の文書ベクトルと学習フェーズで求められたフォ
ルダベクトルとを比較し、該比較結果に応じて分類対象
文書が属するカテゴリを決定し、本処理を終了する。
【0013】
【発明が解決しようとする課題】しかし、上述した従来
の文書自動分類装置では、学習用文書または分類対象文
書から有効語を取り出す際に、それぞれの文書中に出現
する全ての有効語を取り出し、それぞれの文書について
その全ての有効語を用いて文書ベクトルを求めるから、
文書中に主題と異なる他話題が挿入されている場合に
は、文書ベクトルが主題からそれた方向を示すことがあ
る。例えば、図11に示すように、有効語のベクトルa
〜fを有する文書においては、文書ベクトルが他の話題
に出現する有効語のベクトルe,fに引っ張られ、主題
に出現する有効語のベクトルa〜dの方向(主題の方
向)から文書ベクトルがそれてしまい、適正に文書の分
類を行なうことができない。
【0014】本発明の目的は、主題と異なる他話題が出
現する文書に対してその分類を適正に行うことができる
文書自動分類装置、文書自動分類方法および記憶媒体を
提供することにある。
【0015】本発明の他の目的は、主題と異なる他話題
が出現する文書に対してその分類を適正に行うことが可
能な文書自動分類システムを実現することができる学習
装置、分類装置、学習方法、分類方法および記憶媒体を
提供することにある。
【0016】
【課題を解決するための手段】請求項1記載の発明は、
学習用文書と該学習用文書から選出された有効語を集め
て作成した有効語辞書とを用いて、分類対象文書をユー
ザの意図に沿って分類する文書自動分類装置において、
前記学習用文書と前記分類対象文書とのそれぞれについ
て、前記有効語辞書を参照して段落ベクトルを求める段
落ベクトル計算手段と、前記学習用文書と前記分類対象
文書とのそれぞれについて、その段落ベクトルの分布か
ら主題とは異なる話題を表す他話題段落を決定する他話
題段落決定手段と、前記学習用文書と前記分類対象文書
とのそれぞれについて、その他話題段落を参照してその
段落ベクトルの中から有効な段落ベクトルを取り出し、
該取り出した段落ベクトルを用いて文書ベクトルを求め
る文書ベクトル計算手段と、前記学習用文書について求
められた文書ベクトルを用いて各カテゴリのフォルダベ
クトルを求めるフォルダベクトル計算手段と、前記分類
対象文書について求められた文書ベクトルと前記各カテ
ゴリのフォルダベクトルとを比較し、該比較結果に応じ
て前記分類対象文書が属するカテゴリを決定する分類決
定手段とを備えることを特徴とする。
【0017】請求項2記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに用
いられる、前記分類対象文書が属するカテゴリを決定す
るための基準を求めるための学習装置において、学習用
文書を保持する学習用文書保持手段と、前記学習用文書
から有効語を選出し、該選出された有効語を集めて有効
語辞書を作成する有効語辞書作成手段と、前記学習用文
書について前記有効語辞書を参照して段落ベクトルを求
める段落ベクトル計算手段と、前記学習用文書の段落ベ
クトルの分布から主題とは異なる話題を表す他話題段落
を決定する他話題段落決定手段と、前記学習用文書の他
話題段落を参照してその段落ベクトルの中から有効な段
落ベクトルを取り出し、該取り出した段落ベクトルを用
いて文書ベクトルを求める文書ベクトル計算手段と、前
記学習用文書の文書ベクトルを用いて前記分類対象文書
が属するカテゴリを決定するための基準となる各カテゴ
リのフォルダベクトルを求めるフォルダベクトル計算手
段とを備えることを特徴とする。
【0018】請求項3記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに請
求項2記載の学習装置とともに用いられる、前記分類対
象文書が属するカテゴリを決定するための分類装置にお
いて、前記分類対象文書を保持する分類対象文書保持手
段と、前記分類対象文書について前記有効語辞書を参照
して段落ベクトルを求める段落ベクトル計算手段と、前
記分類対象文書の段落ベクトルの分布から主題とは異な
る話題を表す他話題段落を決定する他話題段落決定手段
と、前記分類対象文書の他話題段落を参照してその段落
ベクトルの中から有効な段落ベクトルを取り出し、該取
り出した段落ベクトルを用いて文書ベクトルを求める文
書ベクトル計算手段と、前記分類対象文書の文書ベクト
ルと前記各カテゴリのフォルダベクトルとを比較し、該
比較結果に応じて前記分類対象文書が属するカテゴリを
決定する分類決定手段とを備えることを特徴とする。
【0019】請求項4記載の発明は、学習用文書と該学
習用文書から選出された有効語を集めて作成した有効語
辞書とを用いて、分類対象文書をユーザの意図に沿って
分類する文書自動分類方法において、前記分類対象文書
が属するカテゴリを決定するための基準を求めるための
学習工程と、前記基準を用いて前記分類対象文書が属す
るカテゴリを決定するための分類工程とを有し、前記学
習工程は、前記学習用文書について前記有効語辞書を参
照して段落ベクトルを求める工程と、前記学習用文書の
段落ベクトルの分布から主題とは異なる話題を表す他話
題段落を決定する工程と、前記学習用文書の他話題段落
を参照してその段落ベクトルの中から有効な段落ベクト
ルを取り出し、該取り出した段落ベクトルを用いて文書
ベクトルを求める工程と、前記学習用文書の文書ベクト
ルを用いて前記分類対象文書が属するカテゴリを決定す
るための基準となる各カテゴリのフォルダベクトルを求
める工程とを含み、前記分類工程は、前記分類対象文書
について前記有効語辞書を参照して段落ベクトルを求め
る工程と、前記分類対象文書の段落ベクトルの分布から
主題とは異なる話題を表す他話題段落を決定する工程
と、前記分類対象文書の他話題段落を参照してその段落
ベクトルの中から有効な段落ベクトルを取り出し、該取
り出した段落ベクトルを用いて文書ベクトルを求める工
程と、前記分類対象文書の文書ベクトルと前記各カテゴ
リのフォルダベクトルとを比較し、該比較結果に応じて
前記分類対象文書が属するカテゴリを決定する工程とを
含むことを特徴とする。
【0020】請求項5記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに用
いられる、前記分類対象文書が属するカテゴリを決定す
るための基準を求めるための学習方法において、学習用
文書を保持する工程と、前記学習用文書から有効語を選
出し、該選出された有効語を集めて有効語辞書を作成す
る工程と、前記学習用文書について前記有効語辞書を参
照して段落ベクトルを求める工程と、前記学習用文書の
段落ベクトルの分布から主題とは異なる話題を表す他話
題段落を決定する工程と、前記学習用文書の他話題段落
を参照してその段落ベクトルの中から有効な段落ベクト
ルを取り出し、該取り出した段落ベクトルを用いて文書
ベクトルを求める工程と、前記学習用文書の文書ベクト
ルを用いて前記分類対象文書が属するカテゴリを決定す
るための基準となる各カテゴリのフォルダベクトルを求
める工程とを含むことを特徴とする。
【0021】請求項6記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに請
求項5記載の学習方法とともに用いられる、前記分類対
象文書が属するカテゴリを決定するための分類方法にお
いて、前記分類対象文書を保持する工程と、前記分類対
象文書について前記有効語辞書を参照して段落ベクトル
を求める工程と、前記分類対象文書の段落ベクトルの分
布から主題とは異なる話題を表す他話題段落を決定する
工程と、前記分類対象文書の他話題段落を参照してその
段落ベクトルの中から有効な段落ベクトルを取り出し、
該取り出した段落ベクトルを用いて文書ベクトルを求め
る工程と、前記分類対象文書の文書ベクトルと前記各カ
テゴリのフォルダベクトルとを比較し、該比較結果に応
じて前記分類対象文書が属するカテゴリを決定する工程
とを含むことを特徴とする。
【0022】請求項7記載の発明は、学習用文書と該学
習用文書から選出された有効語を集めて作成した有効語
辞書とを用いて、分類対象文書をユーザの意図に沿って
分類する文書自動分類システムを構築するためのプログ
ラムを格納した記憶媒体において、前記プログラムは、
前記分類対象文書が属するカテゴリを決定するための基
準を求めるための学習プログラムと、前記基準を用いて
前記分類対象文書が属するカテゴリを決定するための分
類プログラムとを有し、前記学習プログラムは、前記学
習用文書について前記有効語辞書を参照して段落ベクト
ルを求めるモジュールと、前記学習用文書の段落ベクト
ルの分布から主題とは異なる話題を表す他話題段落を決
定するモジュールと、前記学習用文書の他話題段落を参
照してその段落ベクトルの中から有効な段落ベクトルを
取り出し、該取り出した段落ベクトルを用いて文書ベク
トルを求めるモジュールと、前記学習用文書の文書ベク
トルを用いて前記分類対象文書が属するカテゴリを決定
するための基準となる各カテゴリのフォルダベクトルを
求めるモジュールとを含み、前記分類プログラムは、前
記分類対象文書について前記有効語辞書を参照して段落
ベクトルを求めるモジュールと、前記分類対象文書の段
落ベクトルの分布から主題とは異なる話題を表す他話題
段落を決定するモジュールと、前記分類対象文書の他話
題段落を参照してその段落ベクトルの中から有効な段落
ベクトルを取り出し、該取り出した段落ベクトルを用い
て文書ベクトルを求めるモジュールと、前記分類対象文
書の文書ベクトルと前記各カテゴリのフォルダベクトル
とを比較し、該比較結果に応じて前記分類対象文書が属
するカテゴリを決定するモジュールとを含むことを特徴
とする。
【0023】請求項8記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに用
いられ、前記分類対象文書が属するカテゴリを決定する
ための基準を求める学習装置を構築するための学習プロ
グラムを格納した記憶媒体において、前記学習プログラ
ムは、学習用文書を学習用文書保持手段に保持するモジ
ュールと、前記学習用文書から有効語を選出し、該選出
された有効語を集めて有効語辞書を作成するモジュール
と、前記学習用文書について前記有効語辞書を参照して
段落ベクトルを求めるモジュールと、前記学習用文書の
段落ベクトルの分布から主題とは異なる話題を表す他話
題段落を決定するモジュールと、前記学習用文書の他話
題段落を参照してその段落ベクトルの中から有効な段落
ベクトルを取り出し、該取り出した段落ベクトルを用い
て文書ベクトルを求めるモジュールと、前記学習用文書
の文書ベクトルを用いて前記分類対象文書が属するカテ
ゴリを決定するための基準となる各カテゴリのフォルダ
ベクトルを求めるモジュールとを含むことを特徴とす
る。
【0024】請求項9記載の発明は、分類対象文書をユ
ーザの意図に沿って分類する文書自動分類システムに請
求項8記載の記憶媒体とともに用いられる、前記分類対
象文書が属するカテゴリを決定する分類装置を構築する
ための分類プログラムを格納した記憶媒体において、前
記分類プログラムは、前記分類対象文書を保持するモジ
ュールと、前記分類対象文書について前記有効語辞書を
参照して段落ベクトルを求めるモジュールと、前記分類
対象文書の段落ベクトルの分布から主題とは異なる話題
を表す他話題段落を決定するモジュールと、前記分類対
象文書の他話題段落を参照してその段落ベクトルの中か
ら有効な段落ベクトルを取り出し、該取り出した段落ベ
クトルを用いて文書ベクトルを求めるモジュールと、前
記分類対象文書の文書ベクトルと前記各カテゴリのフォ
ルダベクトルとを比較し、該比較結果に応じて前記分類
対象文書が属するカテゴリを決定するモジュールとを含
むことを特徴とする。
【0025】
【発明の実施の形態】以下に本発明の実施の形態につい
て図を参照しながら説明する。
【0026】図1は本発明の文書自動分類装置の実施の
一形態の機能構成を示すブロック図、図2は図1の文書
自動分類装置のハードウェア構成を示すブロック図であ
る。
【0027】文書自動分類装置は、図1に示すように、
学習用文書を保持する学習用文書保持部101と、分類
対象文書を保持する分類対象文書保持部102と、学習
用文書から選出された有効語を集めて有効語辞書を作成
する有効語辞書作成部103と、有効語辞書を保持する
有効語辞書保持部104と、学習用文書と分類対象文書
とのそれぞれについて、有効語辞書を参照して段落ベク
トルを求める段落ベクトル計算部105と、学習用文書
と分類対象文書とのそれぞれについて求められた段落ベ
クトルを保持する段落ベクトル保持部106とを備え
る。
【0028】段落ベクトル保持部106に保持された学
習用文書と分類対象文書とのそれぞれの段落ベクトルは
他話題段落決定部107に与えられ、他話題段落決定部
107は、学習用文書と分類対象文書とのそれぞれにつ
いて、その段落ベクトルの分布から主題とは異なる話題
を表す他話題段落を決定する。この学習用文書と分類対
象文書とのそれぞれについて決定された他話題段落は、
他話題段落保持部108に保持される。
【0029】他話題段落保持部108に保持された学習
用文書と分類対象文書とのそれぞれの他話題段落は、段
落ベクトル保持部106に保持された学習用文書と分類
対象文書とのそれぞれの段落ベクトルとともに文書ベク
トル計算部109に与えられる。文書ベクトル計算部1
09は、学習用文書と分類対象文書とのそれぞれについ
て、その他話題段落を参照してその段落ベクトルの中か
ら有効な段落ベクトルを取り出し、該取り出した段落ベ
クトルを用いて文書ベクトルを求める。学習用文書と分
類対象文書とのそれぞれについて求められた文書ベクト
ルは文書ベクトル保持部110に保持される。
【0030】文書ベクトル保持部110に保持された学
習用文書の文書ベクトルはフォルダベクトル計算部11
1に与えられる。フォルダベクトル計算部111は学習
用文書の文書ベクトルを用いて各カテゴリのフォルダベ
クトルを求め、求められた各カテゴリのフォルダベクト
ルはフォルダベクトル保持部112に保持される。
【0031】フォルダベクトル保持部112に保持され
た各カテゴリのフォルダベクトルは、文書ベクトル保持
部110に保持された分類対象文書の文書ベクトルとと
もに分類決定部113に与えられる。分類決定部113
は、分類対象文書の文書ベクトルと各カテゴリのフォル
ダベクトルとを比較し、該比較結果に応じて分類対象文
書が属するカテゴリを決定し、この決定された分類対象
文書のカテゴリは分類結果保持部114に保持される。
【0032】文書自動分類装置のハードウェア構成にお
いては、図2に示すように、ROM201に格納されて
いる制御プログラムを実行して後述する制御(図3およ
び図4に示す制御)を行う中央処理装置203が設けら
れている。中央処理装置203の演算処理の作業領域と
してはRAM202が用いられ、また、RAM202
は、段落ベクトル保持部106、他話題段落保持部10
8、文書ベクトル保持部110、分類結果保持部114
のための記憶領域を提供する。
【0033】中央処理装置203には、ROM201お
よびRAM202とともに、ハードディスク装置204
がバス205を介して接続され、ハードディスク装置2
04は、学習用文書保持部101、分類対象文書保持部
102、有効語辞書保持部104およびフォルダベクト
ル保持部112を構成する。なお、ハードディスク装置
204に代えて、他の記憶媒体を用いて、学習用文書保
持部101、分類対象文書保持部102、有効語辞書保
持部104およびフォルダベクトル保持部112を構成
することも可能である。
【0034】次に、本文書自動分類装置が実行する処理
について図3および図4を参照しながら説明する。図3
は図1の文書自動分類装置における学習フェーズの処理
手順を示すフローチャート、図4は図1の文書自動分類
装置における分類フェーズの処理手順を示すフローチャ
ート、図5は図1の文書自動分類装置における文書ベク
トルの例を示す図である。
【0035】本文書自動分類装置における処理は学習フ
ェーズと分類フェーズとに分けられ、最初に、学習フェ
ーズの処理手順について図3を参照しながら説明する。
【0036】学習フェーズでは、図3に示すように、ま
ずステップS301において学習用文書に含まれる語の
中から、分類に有用な有効語として選定し、続くステッ
プS302で、選定した有効語を出現頻度や他の有効語
との共起状況などによりベクトル表現し、有効語辞書と
して保持する。
【0037】次いで、ステップS303に進み、学習用
文書から有効語を抽出し、続くステップS304で、有
効語辞書を参照して取り出した有効語のベクトルの平均
を段落毎に算出し、各段落の段落ベクトルとする。
【0038】次いで、ステップS305に進み、各文書
毎に段落ベクトルの分布を調べ、他の段落ベクトルと極
端に違う方向の段落ベクトルがあれば、その段落ベクト
ルの段落を主題とは異なる話題を表す他話題段落として
決定する。また、各段落ベクトルにおいてそれぞれの向
きが近接しているときには、全ての段落ベクトルが主題
を表していると判断する。すなわち全ての段落を他話題
段落ではないとする。例えば、各段落ベクトル毎に他の
段落ベクトルとの余弦値の総和を求め、この総和が他よ
り極端に小さい段落ベクトルがあれば、該段落ベクトル
の段落を他話題段落として決定する。ここで、他の段落
ベクトルとの余弦値の総和が正規分布に従うとすれば、
該分布の数%以下を示す段落ベクトルの段落を他話題段
落として定義することが可能である。
【0039】他話題段落を決定すると、ステップS30
6に進み、他話題段落の段落ベクトルを段落ベクトル群
から除去し、残りの段落ベクトルの平均を取って文書ベ
クトルとする。続くステップS307では、学習用文書
における各カテゴリに属する文書の文書ベクトルの平均
を取り、該文書ベクトルの平均からフォルダベクトルを
求め、本処理を終了する。
【0040】この学習フェーズが終了すると、分類フェ
ーズが開始される。この分類フェーズの処理手順につい
て図4を参照しながら説明する。
【0041】分類フェーズでは、図4に示すように、ま
ずステップS401において分類対象文書から有効語を
取り出し、続くステップS402で有効語辞書を参照し
て取り出した有効語のベクトルの平均を段落毎に取り、
各段落のベクトルの平均から分類対象文書の文書ベクト
ルを求める。
【0042】次いで、ステップS403に進み、各文書
毎に段落ベクトルの分布を調べて分類対象文書の他話題
段落を決定する。この他話題段落の決定処理は上述の学
習フェーズにおけるステップS305の処理内容と同じ
であり、その説明は省略する。分類対象文書の文書ベク
トルと学習フェーズで求められたフォルダベクトルとを
比較し、該比較結果に応じて分類対象文書が属するカテ
ゴリを決定し、本処理を終了する。
【0043】例えば、図11に示すように、主題と異な
る他話題が出現する文書において、有効語のベクトル
a,bが段落Aに、有効語のベクトルc,dが段落B
に、有効語のベクトルe,fが段落Cにそれぞれ出現し
たとすると、各段落A,B,Cの段落ベクトルの内の段
落Cが、図5に示すように、主題と異なる他話題を表す
他話題段落として決定され、この段落Cの段落ベクトル
を除去して各段落A,Bの段落ベクトルから文書ベクト
ルが求められる。よって、求められた文書ベクトルが主
題の方向にほぼ一致することになり、適正に文書の分類
を行うことができる。
【0044】以上より、本実施の形態では、各段落の段
落ベクトルを求めてその分布からはずれている段落を他
話題段落として除去し、残りの段落から文書ベクトルを
求めることにより、主題の方向をほぼ示すような文書ベ
クトルが得られ、主題と異なる他話題が出現する文書に
対してその分類を適正に行うことができる。
【0045】なお、本実施の形態では、他話題段落を段
落ベクトル間の余弦値の総和に基づき決定する例を示し
たが、これに限定されるものではなく、他の値を用いて
他話題段落を決定することも可能である。また、段落ベ
クトルの分布において、該分布からはずれているか否か
の決定に正規分布に従う値を基準値として決定する方法
を示したが、これに限定されるものではない。
【0046】また、本実施の形態では、学習フェーズに
おいて、段落ベクトルの計算、他話題段落の決定、文書
ベクトルの計算の各処理を学習用文書に含まれる全ての
文書に対して実行し、その後に次の処理を実行するよう
に設定しているが、これに限定されるものではなく、1
文書づつ各処理を実行するように設定することも可能で
ある。
【0047】さらに、本実施の形態では、段落単位で話
題を取り扱っているが、これに限定されるものではな
く、文や節など、他の文章単位で扱うことも可能であ
る。
【0048】さらに、本実施の形態では、文書ベクトル
を平均してフォルダベクトルを求めるように説明してい
るが、各カテゴリの段落ベクトルの平均をフォルダベク
トルとしてもよい。この場合、学習フェーズにおいて、
文書ベクトルを求める必要はない。
【0049】さらに、本実施の形態では、上述の処理
(各ブロックの機能)を実行するためのプログラムをR
OMに格納した例を示したが、他の記憶媒体を用いて上
記プログラムを供給するように構成することも可能であ
る。また、各ブロックの機能をそれぞれ有する回路構成
により本装置を構成することも可能である。
【0050】さらに、本装置をコンピュータなどの情報
処理装置上に構築することも可能である。この場合、上
述の処理(各ブロックの機能)を実行するためのプログ
ラムを格納した記憶媒体を準備し、CPUなどが該記憶
媒体から上記プログラムを読み出して実行することによ
り、文書自動分類装置が構成される。上記プログラムを
供給するための記憶媒体としては、フロッピーディス
ク、ハードディスク、光ディスク、光磁気ディスク、C
DROM、CD−R、磁気テープ、不揮発性メモリカー
ド、ROMなどを用いることができる。なお、上記プロ
グラムの実行により文書自動分類装置を構成する場合に
は、コンピュータ上で稼働しているOSが上記プログラ
ムに含まれる処理の一部または全てを実行するように構
成されている場合も含まれる。また、記憶媒体から供給
されたプログラムがコンピュータに搭載された拡張機能
ボードまたは接続された周辺拡張ユニットに書き込まれ
た後に、拡張機能ボードまたは周辺拡張ユニットに設け
られたCPUが書き込まれたプログラムを実行する場合
も含まれる。
【0051】さらに、本発明の原理は、複数の機器から
なるシステム、ひとつの機器からなる装置のいずれにも
適用することが可能である。
【0052】さらに、本実施の形態では、学習フェーズ
と分類フェーズとを一つの装置上で行う例を説明した
が、これに限定されるものではなく、例えば、学習フェ
ーズを行う装置と、分類フェーズを行う装置とを準備
し、それぞれの装置を用いて文書の分類を行うように構
成することもできる。この場合、学習フェーズを行う装
置により、有効語辞書を作成しまたフォルダベクトルを
求め、この有効語辞書およびフォルダベクトルを可搬記
憶媒体または通信により、分類フェーズを行う装置に供
給して分類を行う方法が用いられる。
【0053】この学習フェーズを行う装置および分類フ
ェーズを行う装置について図6および図7を参照しなが
ら説明する。図6は本発明の学習装置の実施の一形態の
構成を示すブロック図、図7は本発明の分類装置の実施
の一形態の構成を示すブロック図である。
【0054】学習フェーズを行う装置は、図6に示すよ
うに、学習用文書を保持する学習用文書保持部1001
と、学習用文書から選出された有効語を集めて有効語辞
書を作成する有効語辞書作成部1002と、有効語辞書
を保持する有効語辞書保持部1003と、学習用文書に
ついて、有効語辞書を参照して段落ベクトルを求める段
落ベクトル計算部1004と、学習用文書について求め
られた段落ベクトルを保持する段落ベクトル保持部10
05とを備える。
【0055】段落ベクトル保持部1005に保持された
学習用文書の段落ベクトルは他話題段落決定部1006
に与えられ、他話題段落決定部1006は、学習用文書
について、その段落ベクトルの分布から主題とは異なる
話題を表す他話題段落を決定する。この学習用文書と分
類対象文書とのそれぞれについて決定された他話題段落
は、他話題段落保持部1007に保持される。
【0056】他話題段落保持部1007に保持された学
習用文書の他話題段落は、段落ベクトル保持部1005
に保持された学習用文書の段落ベクトルとともに文書ベ
クトル計算部1008に与えられる。文書ベクトル計算
部1008は、学習用文書について、その他話題段落を
参照してその段落ベクトルの中から有効な段落ベクトル
を取り出し、該取り出した段落ベクトルを用いて文書ベ
クトルを求める。学習用文書について求められた文書ベ
クトルは文書ベクトル保持部1009に保持される。
【0057】文書ベクトル保持部1009に保持された
学習用文書の文書ベクトルはフォルダベクトル計算部1
010に与えられる。フォルダベクトル計算部1010
は学習用文書の文書ベクトルを用いて各カテゴリのフォ
ルダベクトルを求め、求められた各カテゴリのフォルダ
ベクトルはフォルダベクトル保持部1011に保持され
る。
【0058】フォルダベクトル保持部1011に保持さ
れ各カテゴリのフォルダベクトル、および有効語辞書保
持部1003に保持された有効語辞書は、可搬記憶媒体
に記憶されて分類フェーズを行う装置に供給され、また
は通信により分類フェーズを行う装置に供給される。
【0059】分類フェーズを行う装置は、図7に示すよ
うに、分類対象文書を保持する分類対象文書保持部11
01と、学習フェーズを行う装置から可搬記憶媒体また
は通信を介して供給された有効語辞書を保持する有効語
辞書保持部1102と、学習フェーズを行う装置から可
搬記憶媒体または通信を介して供給されたフォルダベク
トルを保持するフォルダベクトル保持部1109と、分
類対象文書について、有効語辞書を参照して段落ベクト
ルを求める段落ベクトル計算部1103と、分類対象文
書について求められた段落ベクトルを保持する段落ベク
トル保持部1104とを備える。
【0060】段落ベクトル保持部1104に保持された
分類対象文書の段落ベクトルは他話題段落決定部110
5に与えられ、他話題段落決定部1105は、分類対象
文書について、その段落ベクトルの分布から主題とは異
なる話題を表す他話題段落を決定する。この分類対象文
書について決定された他話題段落は、他話題段落保持部
1106に保持される。
【0061】他話題段落保持部1106に保持された分
類対象文書の他話題段落は、段落ベクトル保持部110
4に保持された分類対象文書の段落ベクトルとともに文
書ベクトル計算部1107に与えられる。文書ベクトル
計算部1107は、分類対象文書について、その他話題
段落を参照してその段落ベクトルの中から有効な段落ベ
クトルを取り出し、該取り出した段落ベクトルを用いて
文書ベクトルを求める。分類対象文書について求められ
た文書ベクトルは文書ベクトル保持部1108に保持さ
れる。
【0062】文書ベクトル保持部1108に保持された
分類対象文書の文書ベクトルは、フォルダベクトル保持
部1109に保持された各カテゴリのフォルダベクトル
とともに分類決定部1110に与えられる。分類決定部
1110は、分類対象文書の文書ベクトルと各カテゴリ
のフォルダベクトルとを比較し、該比較結果に応じて分
類対象文書が属するカテゴリを決定し、この決定された
分類対象文書のカテゴリは分類結果保持部1111に保
持される。
【0063】
【発明の効果】以上に説明したように、請求項1記載の
文書自動分類装置によれば、学習用文書と分類対象文書
とのそれぞれについて、有効語辞書を参照して段落ベク
トルを求める段落ベクトル計算手段と、学習用文書と分
類対象文書とのそれぞれについて、その段落ベクトルの
分布から主題とは異なる話題を表す他話題段落を決定す
る他話題段落決定手段と、学習用文書と分類対象文書と
のそれぞれについて、その他話題段落を参照してその段
落ベクトルの中から有効な段落ベクトルを取り出し、該
取り出した段落ベクトルを用いて文書ベクトルを求める
文書ベクトル計算手段と、学習用文書について求められ
た文書ベクトルを用いて各カテゴリのフォルダベクトル
を求めるフォルダベクトル計算手段と、分類対象文書に
ついて求められた文書ベクトルと各カテゴリのフォルダ
ベクトルとを比較し、該比較結果に応じて分類対象文書
が属するカテゴリを決定する分類決定手段とを備えるか
ら、主題の方向をほぼ示すような分類対象文書の文書ベ
クトルと、主題の方向を適正に示す各カテゴリのフォル
ダベクトルとが得られ、この文書ベクトルと各カテゴリ
のフォルダベクトルとの比較により、主題と異なる他話
題が出現する文書に対してその分類を適正に行うことが
できる。
【0064】請求項2記載の学習装置によれば、学習用
文書を保持する学習用文書保持手段と、学習用文書から
有効語を選出し、該選出された有効語を集めて有効語辞
書を作成する有効語辞書作成手段と、学習用文書につい
て有効語辞書を参照して段落ベクトルを求める段落ベク
トル計算手段と、学習用文書の段落ベクトルの分布から
主題とは異なる話題を表す他話題段落を決定する他話題
段落決定手段と、学習用文書の他話題段落を参照してそ
の段落ベクトルの中から有効な段落ベクトルを取り出
し、該取り出した段落ベクトルを用いて文書ベクトルを
求める文書ベクトル計算手段と、学習用文書の文書ベク
トルを用いて分類対象文書が属するカテゴリを決定する
ための基準となる各カテゴリのフォルダベクトルを求め
るフォルダベクトル計算手段とを備えるから、主題の方
向を適正に示す各カテゴリのフォルダベクトルが得ら
れ、主題と異なる他話題が出現する文書に対してその分
類を適正に行うことが可能な文書自動分類システムを実
現することができる。
【0065】請求項3記載の分類装置によれば、分類対
象文書を保持する分類対象文書保持手段と、分類対象文
書について有効語辞書を参照して段落ベクトルを求める
段落ベクトル計算手段と、分類対象文書の段落ベクトル
の分布から主題とは異なる話題を表す他話題段落を決定
する他話題段落決定手段と、分類対象文書の他話題段落
を参照してその段落ベクトルの中から有効な段落ベクト
ルを取り出し、該取り出した段落ベクトルを用いて文書
ベクトルを求める文書ベクトル計算手段と、分類対象文
書の文書ベクトルと各カテゴリのフォルダベクトルとを
比較し、該比較結果に応じて分類対象文書が属するカテ
ゴリを決定する分類決定手段とを備えるから、主題の方
向をほぼ示すよう分類対象文書の文書ベクトルが得ら
れ、この文書ベクトルと主題の方向を適正に示す各カテ
ゴリのフォルダベクトルとの比較により、主題と異なる
他話題が出現する文書に対してその分類を適正に行うこ
とが可能な文書自動分類システムを実現することができ
る。
【0066】請求項4記載の文書自動分類方法によれ
ば、分類対象文書が属するカテゴリを決定するための基
準を求めるための学習工程と、基準を用いて分類対象文
書が属するカテゴリを決定するための分類工程とを有
し、学習工程が、学習用文書について有効語辞書を参照
して段落ベクトルを求める工程と、学習用文書の段落ベ
クトルの分布から主題とは異なる話題を表す他話題段落
を決定する工程と、学習用文書の他話題段落を参照して
その段落ベクトルの中から有効な段落ベクトルを取り出
し、該取り出した段落ベクトルを用いて文書ベクトルを
求める工程と、学習用文書の文書ベクトルを用いて分類
対象文書が属するカテゴリを決定するための基準となる
各カテゴリのフォルダベクトルを求める工程とを含み、
分類工程が、分類対象文書について有効語辞書を参照し
て段落ベクトルを求める工程と、分類対象文書の段落ベ
クトルの分布から主題とは異なる話題を表す他話題段落
を決定する工程と、分類対象文書の他話題段落を参照し
てその段落ベクトルの中から有効な段落ベクトルを取り
出し、該取り出した段落ベクトルを用いて文書ベクトル
を求める工程と、分類対象文書の文書ベクトルと各カテ
ゴリのフォルダベクトルとを比較し、該比較結果に応じ
て分類対象文書が属するカテゴリを決定する工程とを含
むから、主題の方向をほぼ示すような分類対象文書の文
書ベクトルと、主題の方向を適正に示す各カテゴリのフ
ォルダベクトルとが得られ、この文書ベクトルと各カテ
ゴリのフォルダベクトルとの比較により、主題と異なる
他話題が出現する文書に対してその分類を適正に行うこ
とができる。
【0067】請求項5記載の学習方法によれば、学習用
文書を学習用文書保持手段に保持する工程と、学習用文
書から有効語を選出し、該選出された有効語を集めて有
効語辞書を作成する工程と、学習用文書について有効語
辞書を参照して段落ベクトルを求める工程と、学習用文
書の段落ベクトルの分布から主題とは異なる話題を表す
他話題段落を決定する工程と、学習用文書の他話題段落
を参照してその段落ベクトルの中から有効な段落ベクト
ルを取り出し、該取り出した段落ベクトルを用いて文書
ベクトルを求める工程と、学習用文書の文書ベクトルを
用いて分類対象文書が属するカテゴリを決定するための
基準となる各カテゴリのフォルダベクトルを求める工程
とを含むから、主題の方向を適正に示す各カテゴリのフ
ォルダベクトルが得られ、主題と異なる他話題が出現す
る文書に対してその分類を適正に行うことが可能な文書
自動分類システムを実現することができる。
【0068】請求項6記載の分類方法によれば、分類対
象文書を保持する工程と、分類対象文書について有効語
辞書を参照して段落ベクトルを求める工程と、分類対象
文書の段落ベクトルの分布から主題とは異なる話題を表
す他話題段落を決定する工程と、分類対象文書の他話題
段落を参照してその段落ベクトルの中から有効な段落ベ
クトルを取り出し、該取り出した段落ベクトルを用いて
文書ベクトルを求める工程と、分類対象文書の文書ベク
トルと各カテゴリのフォルダベクトルとを比較し、該比
較結果に応じて分類対象文書が属するカテゴリを決定す
る工程とを含むから、主題の方向をほぼ示すよう分類対
象文書の文書ベクトルが得られ、この文書ベクトルと主
題の方向を適正に示す各カテゴリのフォルダベクトルと
の比較により、主題と異なる他話題が出現する文書に対
してその分類を適正に行うことが可能な文書自動分類シ
ステムを実現することができる。
【0069】請求項7記載の記憶媒体によれば、前記プ
ログラムが、分類対象文書が属するカテゴリを決定する
ための基準を求めるための学習プログラムと、基準を用
いて分類対象文書が属するカテゴリを決定するための分
類プログラムとを有し、学習プログラムが、学習用文書
について有効語辞書を参照して段落ベクトルを求めるモ
ジュールと、学習用文書の段落ベクトルの分布から主題
とは異なる話題を表す他話題段落を決定するモジュール
と、学習用文書の他話題段落を参照してその段落ベクト
ルの中から有効な段落ベクトルを取り出し、該取り出し
た段落ベクトルを用いて文書ベクトルを求めるモジュー
ルと、学習用文書の文書ベクトルを用いて分類対象文書
が属するカテゴリを決定するための基準となる各カテゴ
リのフォルダベクトルを求めるモジュールとを含み、分
類プログラムが、分類対象文書について有効語辞書を参
照して段落ベクトルを求めるモジュールと、分類対象文
書の段落ベクトルの分布から主題とは異なる話題を表す
他話題段落を決定するモジュールと、分類対象文書の他
話題段落を参照してその段落ベクトルの中から有効な段
落ベクトルを取り出し、該取り出した段落ベクトルを用
いて文書ベクトルを求めるモジュールと、分類対象文書
の文書ベクトルと各カテゴリのフォルダベクトルとを比
較し、該比較結果に応じて前記分類対象文書が属するカ
テゴリを決定するモジュールとを含むから、主題の方向
をほぼ示すような分類対象文書の文書ベクトルと、主題
の方向を適正に示す各カテゴリのフォルダベクトルとが
得られ、この文書ベクトルと各カテゴリのフォルダベク
トルとの比較により、主題と異なる他話題が出現する文
書に対してその分類を適正に行うことができる。
【0070】請求項8記載の記憶媒体によれば、学習プ
ログラムが、学習用文書を保持するモジュールと、学習
用文書から有効語を選出し、該選出された有効語を集め
て有効語辞書を作成するモジュールと、学習用文書につ
いて有効語辞書を参照して段落ベクトルを求めるモジュ
ールと、学習用文書の段落ベクトルの分布から主題とは
異なる話題を表す他話題段落を決定するモジュールと、
学習用文書の他話題段落を参照してその段落ベクトルの
中から有効な段落ベクトルを取り出し、該取り出した段
落ベクトルを用いて文書ベクトルを求めるモジュール
と、学習用文書の文書ベクトルを用いて分類対象文書が
属するカテゴリを決定するための基準となる各カテゴリ
のフォルダベクトルを求めるモジュールとを含むから、
主題の方向を適正に示す各カテゴリのフォルダベクトル
が得られ、主題と異なる他話題が出現する文書に対して
その分類を適正に行うことが可能な文書自動分類システ
ムを実現することができる。
【0071】請求項9記載の記憶媒体によれば、分類プ
ログラムが、分類対象文書を保持するモジュールと、分
類対象文書について有効語辞書を参照して段落ベクトル
を求めるモジュールと、分類対象文書の段落ベクトルの
分布から主題とは異なる話題を表す他話題段落を決定す
るモジュールと、分類対象文書の他話題段落を参照して
その段落ベクトルの中から有効な段落ベクトルを取り出
し、該取り出した段落ベクトルを用いて文書ベクトルを
求めるモジュールと、分類対象文書の文書ベクトルと前
記各カテゴリのフォルダベクトルとを比較し、該比較結
果に応じて前記分類対象文書が属するカテゴリを決定す
るモジュールとを含むから、主題の方向をほぼ示すよう
分類対象文書の文書ベクトルが得られ、この文書ベクト
ルと主題の方向を適正に示す各カテゴリのフォルダベク
トルとの比較により、主題と異なる他話題が出現する文
書に対してその分類を適正に行うことが可能な文書自動
分類システムを実現することができる。
【図面の簡単な説明】
【図1】本発明の文書自動分類装置の実施の一形態の機
能構成を示すブロック図である。
【図2】図1の文書自動分類装置のハードウェア構成を
示すブロック図である。
【図3】図1の文書自動分類装置における学習フェーズ
の処理手順を示すフローチャートである。
【図4】図1の文書自動分類装置における分類フェーズ
の処理手順を示すフローチャートである。
【図5】図1の文書自動分類装置における文書ベクトル
の例を示す図である。
【図6】本発明の学習装置の実施の一形態の構成を示す
ブロック図である。
【図7】本発明の分類装置の実施の一形態の構成を示す
ブロック図である。
【図8】従来の文書自動分類装置の構成を示すブロック
図である。
【図9】図8の文書自動分類装置における学習フェーズ
の処理手順を示すフローチャートである。
【図10】図8の文書自動分類装置における分類フェー
ズの処理手順を示すフローチャートである。
【図11】図8の文書自動分類装置における分類フェー
ズで求められた文書ベクトルの例を示す図である。
【符号の説明】
101,1001 学習用文書保持部 102,1101 分類対象文書保持部 103,1002 有効語辞書作成部 104,1003,1102 有効語辞書保持部 105,1004,1103 段落ベクトル計算部 106,1005,1104 段落ベクトル保持部 107,1006,1105 他話題段落決定部 108,1007,1106 他話題段落保持部 109,1008,1107 文書ベクトル計算部 110,1009,1108 文書ベクトル保持部 111,1010, フォルダベクトル計算部 112,1011,1109 フォルダベクトル保持部 113、1110 分類決定部 114、1111 分類結果保持部 201 ROM 202 RAM 203 中央処理装置 204 ハードディスク装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 学習用文書と該学習用文書から選出され
    た有効語を集めて作成した有効語辞書とを用いて、分類
    対象文書をユーザの意図に沿って分類する文書自動分類
    装置において、前記学習用文書と前記分類対象文書との
    それぞれについて、前記有効語辞書を参照して段落ベク
    トルを求める段落ベクトル計算手段と、前記学習用文書
    と前記分類対象文書とのそれぞれについて、その段落ベ
    クトルの分布から主題とは異なる話題を表す他話題段落
    を決定する他話題段落決定手段と、前記学習用文書と前
    記分類対象文書とのそれぞれについて、その他話題段落
    を参照してその段落ベクトルの中から有効な段落ベクト
    ルを取り出し、該取り出した段落ベクトルを用いて文書
    ベクトルを求める文書ベクトル計算手段と、前記学習用
    文書について求められた文書ベクトルを用いて各カテゴ
    リのフォルダベクトルを求めるフォルダベクトル計算手
    段と、前記分類対象文書について求められた文書ベクト
    ルと前記各カテゴリのフォルダベクトルとを比較し、該
    比較結果に応じて前記分類対象文書が属するカテゴリを
    決定する分類決定手段とを備えることを特徴とする文書
    自動分類装置。
  2. 【請求項2】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに用いられる、前記分類対
    象文書が属するカテゴリを決定するための基準を求める
    ための学習装置において、学習用文書を保持する学習用
    文書保持手段と、前記学習用文書から有効語を選出し、
    該選出された有効語を集めて有効語辞書を作成する有効
    語辞書作成手段と、前記学習用文書について前記有効語
    辞書を参照して段落ベクトルを求める段落ベクトル計算
    手段と、前記学習用文書の段落ベクトルの分布から主題
    とは異なる話題を表す他話題段落を決定する他話題段落
    決定手段と、前記学習用文書の他話題段落を参照してそ
    の段落ベクトルの中から有効な段落ベクトルを取り出
    し、該取り出した段落ベクトルを用いて文書ベクトルを
    求める文書ベクトル計算手段と、前記学習用文書の文書
    ベクトルを用いて前記分類対象文書が属するカテゴリを
    決定するための基準となる各カテゴリのフォルダベクト
    ルを求めるフォルダベクトル計算手段とを備えることを
    特徴とする学習装置。
  3. 【請求項3】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに請求項2記載の学習装置
    とともに用いられる、前記分類対象文書が属するカテゴ
    リを決定するための分類装置において、前記分類対象文
    書を保持する分類対象文書保持手段と、前記分類対象文
    書について前記有効語辞書を参照して段落ベクトルを求
    める段落ベクトル計算手段と、前記分類対象文書の段落
    ベクトルの分布から主題とは異なる話題を表す他話題段
    落を決定する他話題段落決定手段と、前記分類対象文書
    の他話題段落を参照してその段落ベクトルの中から有効
    な段落ベクトルを取り出し、該取り出した段落ベクトル
    を用いて文書ベクトルを求める文書ベクトル計算手段
    と、前記分類対象文書の文書ベクトルと前記各カテゴリ
    のフォルダベクトルとを比較し、該比較結果に応じて前
    記分類対象文書が属するカテゴリを決定する分類決定手
    段とを備えることを特徴とする分類装置。
  4. 【請求項4】 学習用文書と該学習用文書から選出され
    た有効語を集めて作成した有効語辞書とを用いて、分類
    対象文書をユーザの意図に沿って分類する文書自動分類
    方法において、前記分類対象文書が属するカテゴリを決
    定するための基準を求めるための学習工程と、前記基準
    を用いて前記分類対象文書が属するカテゴリを決定する
    ための分類工程とを有し、前記学習工程は、前記学習用
    文書について前記有効語辞書を参照して段落ベクトルを
    求める工程と、前記学習用文書の段落ベクトルの分布か
    ら主題とは異なる話題を表す他話題段落を決定する工程
    と、前記学習用文書の他話題段落を参照してその段落ベ
    クトルの中から有効な段落ベクトルを取り出し、該取り
    出した段落ベクトルを用いて文書ベクトルを求める工程
    と、前記学習用文書の文書ベクトルを用いて前記分類対
    象文書が属するカテゴリを決定するための基準となる各
    カテゴリのフォルダベクトルを求める工程とを含み、前
    記分類工程は、前記分類対象文書について前記有効語辞
    書を参照して段落ベクトルを求める工程と、前記分類対
    象文書の段落ベクトルの分布から主題とは異なる話題を
    表す他話題段落を決定する工程と、前記分類対象文書の
    他話題段落を参照してその段落ベクトルの中から有効な
    段落ベクトルを取り出し、該取り出した段落ベクトルを
    用いて文書ベクトルを求める工程と、前記分類対象文書
    の文書ベクトルと前記各カテゴリのフォルダベクトルと
    を比較し、該比較結果に応じて前記分類対象文書が属す
    るカテゴリを決定する工程とを含むことを特徴とする文
    書自動分類方法。
  5. 【請求項5】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに用いられる、前記分類対
    象文書が属するカテゴリを決定するための基準を求める
    ための学習方法において、学習用文書を保持する工程
    と、前記学習用文書から有効語を選出し、該選出された
    有効語を集めて有効語辞書を作成する工程と、前記学習
    用文書について前記有効語辞書を参照して段落ベクトル
    を求める工程と、前記学習用文書の段落ベクトルの分布
    から主題とは異なる話題を表す他話題段落を決定する工
    程と、前記学習用文書の他話題段落を参照してその段落
    ベクトルの中から有効な段落ベクトルを取り出し、該取
    り出した段落ベクトルを用いて文書ベクトルを求める工
    程と、前記学習用文書の文書ベクトルを用いて前記分類
    対象文書が属するカテゴリを決定するための基準となる
    各カテゴリのフォルダベクトルを求める工程とを含むこ
    とを特徴とする学習方法。
  6. 【請求項6】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに請求項5記載の学習方法
    とともに用いられる、前記分類対象文書が属するカテゴ
    リを決定するための分類方法において、前記分類対象文
    書を保持する工程と、前記分類対象文書について前記有
    効語辞書を参照して段落ベクトルを求める工程と、前記
    分類対象文書の段落ベクトルの分布から主題とは異なる
    話題を表す他話題段落を決定する工程と、前記分類対象
    文書の他話題段落を参照してその段落ベクトルの中から
    有効な段落ベクトルを取り出し、該取り出した段落ベク
    トルを用いて文書ベクトルを求める工程と、前記分類対
    象文書の文書ベクトルと前記各カテゴリのフォルダベク
    トルとを比較し、該比較結果に応じて前記分類対象文書
    が属するカテゴリを決定する工程とを含むことを特徴と
    する分類方法。
  7. 【請求項7】 学習用文書と該学習用文書から選出され
    た有効語を集めて作成した有効語辞書とを用いて、分類
    対象文書をユーザの意図に沿って分類する文書自動分類
    システムを構築するためのプログラムを格納した記憶媒
    体において、前記プログラムは、前記分類対象文書が属
    するカテゴリを決定するための基準を求めるための学習
    プログラムと、前記基準を用いて前記分類対象文書が属
    するカテゴリを決定するための分類プログラムとを有
    し、前記学習プログラムは、前記学習用文書について前
    記有効語辞書を参照して段落ベクトルを求めるモジュー
    ルと、前記学習用文書の段落ベクトルの分布から主題と
    は異なる話題を表す他話題段落を決定するモジュール
    と、前記学習用文書の他話題段落を参照してその段落ベ
    クトルの中から有効な段落ベクトルを取り出し、該取り
    出した段落ベクトルを用いて文書ベクトルを求めるモジ
    ュールと、前記学習用文書の文書ベクトルを用いて前記
    分類対象文書が属するカテゴリを決定するための基準と
    なる各カテゴリのフォルダベクトルを求めるモジュール
    とを含み、前記分類プログラムは、前記分類対象文書に
    ついて前記有効語辞書を参照して段落ベクトルを求める
    モジュールと、前記分類対象文書の段落ベクトルの分布
    から主題とは異なる話題を表す他話題段落を決定するモ
    ジュールと、前記分類対象文書の他話題段落を参照して
    その段落ベクトルの中から有効な段落ベクトルを取り出
    し、該取り出した段落ベクトルを用いて文書ベクトルを
    求めるモジュールと、前記分類対象文書の文書ベクトル
    と前記各カテゴリのフォルダベクトルとを比較し、該比
    較結果に応じて前記分類対象文書が属するカテゴリを決
    定するモジュールとを含むことを特徴とする記憶媒体。
  8. 【請求項8】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに用いられ、前記分類対象
    文書が属するカテゴリを決定するための基準を求める学
    習装置を構築するための学習プログラムを格納した記憶
    媒体において、前記学習プログラムは、学習用文書を保
    持するモジュールと、前記学習用文書から有効語を選出
    し、該選出された有効語を集めて有効語辞書を作成する
    モジュールと、前記学習用文書について前記有効語辞書
    を参照して段落ベクトルを求めるモジュールと、前記学
    習用文書の段落ベクトルの分布から主題とは異なる話題
    を表す他話題段落を決定するモジュールと、前記学習用
    文書の他話題段落を参照してその段落ベクトルの中から
    有効な段落ベクトルを取り出し、該取り出した段落ベク
    トルを用いて文書ベクトルを求めるモジュールと、前記
    学習用文書の文書ベクトルを用いて前記分類対象文書が
    属するカテゴリを決定するための基準となる各カテゴリ
    のフォルダベクトルを求めるモジュールとを含むことを
    特徴とする記憶媒体。
  9. 【請求項9】 分類対象文書をユーザの意図に沿って分
    類する文書自動分類システムに請求項8記載の記憶媒体
    とともに用いられる、前記分類対象文書が属するカテゴ
    リを決定する分類装置を構築するための分類プログラム
    を格納した記憶媒体において、前記分類プログラムは、
    前記分類対象文書を保持するモジュールと、前記分類対
    象文書について前記有効語辞書を参照して段落ベクトル
    を求めるモジュールと、前記分類対象文書の段落ベクト
    ルの分布から主題とは異なる話題を表す他話題段落を決
    定するモジュールと、前記分類対象文書の他話題段落を
    参照してその段落ベクトルの中から有効な段落ベクトル
    を取り出し、該取り出した段落ベクトルを用いて文書ベ
    クトルを求めるモジュールと、前記分類対象文書の文書
    ベクトルと前記各カテゴリのフォルダベクトルとを比較
    し、該比較結果に応じて前記分類対象文書が属するカテ
    ゴリを決定するモジュールとを含むことを特徴とする記
    憶媒体。
JP9250125A 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体 Pending JPH1185796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9250125A JPH1185796A (ja) 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9250125A JPH1185796A (ja) 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Publications (1)

Publication Number Publication Date
JPH1185796A true JPH1185796A (ja) 1999-03-30

Family

ID=17203204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9250125A Pending JPH1185796A (ja) 1997-09-01 1997-09-01 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Country Status (1)

Country Link
JP (1) JPH1185796A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001014992A1 (en) * 1999-08-25 2001-03-01 Kent Ridge Digital Labs Document classification apparatus
KR20010088653A (ko) * 2001-08-17 2001-09-28 우연근 온오프라인 자료의 분류 표기방법
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
JP2012164015A (ja) * 2011-02-03 2012-08-30 Nec Corp 文書関連度算出装置
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001014992A1 (en) * 1999-08-25 2001-03-01 Kent Ridge Digital Labs Document classification apparatus
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
KR20010088653A (ko) * 2001-08-17 2001-09-28 우연근 온오프라인 자료의 분류 표기방법
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
JP2012164015A (ja) * 2011-02-03 2012-08-30 Nec Corp 文書関連度算出装置
CN103020712A (zh) * 2012-12-28 2013-04-03 东北大学 一种海量微博数据的分布式分类装置及方法
CN103020712B (zh) * 2012-12-28 2015-10-28 东北大学 一种海量微博数据的分布式分类装置及方法

Similar Documents

Publication Publication Date Title
Yang et al. An NP-cluster based approach to coreference resolution
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
CN109522950B (zh) 图像评分模型训练方法及装置和图像评分方法及装置
JP6756079B2 (ja) 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム
JP2007272896A (ja) 適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置
CN110458078A (zh) 一种人脸图像数据聚类方法、系统及设备
CN102201062A (zh) 信息处理设备、方法和程序
JP3634574B2 (ja) 情報処理方法及び装置
JPH1185796A (ja) 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
US11144724B2 (en) Clustering of words with multiple meanings based on generating vectors for each meaning
CN107229953A (zh) 一种基于dfs与改进中心聚类法的破碎文档拼接方法
JP3787310B2 (ja) キーワード決定方法、装置、プログラム、および記録媒体
CN105844207B (zh) 文本行提取方法和文本行提取设备
JP2000222431A (ja) 文書分類装置
US20050060308A1 (en) System, method, and recording medium for coarse-to-fine descriptor propagation, mapping and/or classification
Hulth Reducing false positives by expert combination in automatic keyword indexing.
JPH1139313A (ja) 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体
CN116450781A (zh) 问答的处理方法及装置
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
JPH1185797A (ja) 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
CN111859635A (zh) 一种基于多粒度建模技术的仿真系统及构建方法
CN113221549A (zh) 词语类型标注方法、装置以及存储介质
JP2006350749A (ja) 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
Reddy et al. Learning not to Discriminate: Task Agnostic Learning for Improving Monolingual and Code-switched Speech Recognition