JP4332161B2

JP4332161B2 - 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置

Info

Publication number: JP4332161B2
Application number: JP2006085915A
Authority: JP
Inventors: 浩司塚本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-03-27
Filing date: 2006-03-27
Publication date: 2009-09-16
Anticipated expiration: 2025-04-20
Also published as: JP2006302269A

Description

この発明は、第１のドメインの文書を分類するカテゴリに従って第２のドメインの文書を分類する文書分類プログラム、文書分類方法および文書分類装置にそれぞれ応用される語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置関し、特に、低コストで高精度の分類を行うことができる文書分類プログラム、文書分類方法および文書分類装置にそれぞれ応用される語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置に関するものである。なお、ここでは、第１のドメインの文書として特許文書を、第２のドメインの文書として論文を例として説明を行う。すなわち、論文を特許分類（ＩＰＣ）に従って分類する場合について説明する。

文書を分類する文書分類手法には様々なものがあるが、分類済みの正解データから分類ルールを学習し、それを使って分類する手法が効率の面から広く用いられている（例えば、特許文献１参照。）。そこで、かかる手法を用いて、論文を特許分類（ＩＰＣ）に従って分類しようとすると、その手順は、以下の二つの手順のうちのいずれかになる。

１．特許文書を正解データとする場合
（１）学習器を用いて正解データ（特許文書）から分類ルールを作成する
（２）分類ルールを用いて論文を分類する
２．ＩＰＣを論文に付与したものを正解データとする場合
（１）論文をＩＰＣに従い、人手で分類する
（２）学習器を用いて正解データ（論文）から分類ルールを作成する
（３）分類ルールを用いて論文を分類する

特開２００２−２２２０８３号公報

しかしながら、特許文書を正解データとする場合には、ＩＰＣに従って分類された特許は大量に存在するが、特許と論文では語彙が違う（言葉の使われ方が違う）ため、特許から学習しても論文はうまく分類できないことがあるという問題がある。また、ＩＰＣを論文に付与したものを正解データとする場合には、ＩＰＣに従って分類された論文の正解を予め作るコストが高く、大量の分類済特許を有効利用できないという問題がある。

一般的に言うと、ドメインＡのカテゴリにドメインＢの事例を分類する場合に、ドメインＡのカテゴリに分類されたドメインＡの事例が大量にあっても、ＡとＢのドメインが異なるため、ドメインＡにあらかじめ分類されている文書が有効利用できず、改めてドメインＢの文書を用いて正解事例を作らなければならないという問題がある。

この発明は、上述した従来技術による問題点を解消するためになされたものであり、低コストで高精度の分類を行うことができる文書分類プログラム、文書分類方法および文書分類装置にそれぞれ応用される語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１の発明に係る語彙ねじれ解消プログラムは、複数のカテゴリに分類される第１のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出手順と、前記語彙抽出手順により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算手順と、前記代表語彙ベクトル計算手順により第１のドメインおよび第２のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算手順と、前記変換規則計算手順により格納された変換規則を記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換手順と、をコンピュータに実行させることを特徴とする。

この請求項１の発明によれば、第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納し、各カテゴリに対応させて格納した複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納し、第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納し、格納した変換規則を記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換するよう構成したので、代表語彙ベクトルを正確に変換することができる。

また、請求項２の発明に係る語彙ねじれ解消方法は、複数のカテゴリに分類される第１のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消装置による語彙ねじれ解消方法であって、前記語彙ねじれ解消装置が、前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出工程と、前記語彙抽出工程により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算工程と、前記代表語彙ベクトル計算工程により第１のドメインおよび第２のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算工程と、前記変換規則計算工程により格納された変換規則を記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換工程と、を実行することを特徴とする。

この請求項２の発明によれば、第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納し、各カテゴリに対応させて格納した複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納し、第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納し、格納した変換規則を記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換するよう構成したので、代表語彙ベクトルを正確に変換することができる。

また、請求項３の発明に係る語彙ねじれ解消装置は、複数のカテゴリに分類される第１のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表語彙ベクトル計算手段と、前記代表語彙ベクトル計算手段により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、前記変換規則計算手段により計算された変換規則を用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換手段と、を備えことを特徴とする。

この請求項３の発明によれば、第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、各カテゴリについて抽出した複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを第１のドメインおよび第２のドメインにおいて計算し、カテゴリごとに計算した代表語彙ベクトルを用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算し、計算した変換規則を用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換するよう構成したので、代表語彙ベクトルを正確に変換することができる。

請求項１、２および３の発明によれば、代表語彙ベクトルを正確に変換するので、他の語彙ベクトルも高精度で変換することができるという効果を奏する。

以下に添付図面を参照して、この発明に係る語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置の好適な実施例を詳細に説明する。

まず、本実施例に係る文書分類装置による文書分類の概要について説明する。本実施例に係る文書分類装置は、ドメインＡ（特許）のカテゴリ（ＩＰＣ）にドメインＢの文書（論文）を分類する。このために、本実施例に係る文書分類装置は、ドメインＡに属する文書を、ドメインＢで用いられている語彙で表現される様に一旦変換し、擬似の正解データ（ドメインＢの語彙でありながらドメインＡのカテゴリを有するもの）として、これを学習／分類に用いる。これにより、大量に存在するドメインＡの文書をドメインＢの正解として利用することができ、人手で作るドメインＢの正解の必要量を減らすことができる。

具体的には、本実施例に係る文書分類装置は、以下の手順で文書の分類を行う。
（１）ドメインＢのうちの少数の文書をドメインＡのカテゴリに従って人手で分類する。
（２）（１）で分類したドメインＢの文書およびドメインＡのカテゴリで分類したドメインＡの文書を用いて、ドメインＡで用いられている語彙をドメインＢで用いられている語彙に変換する語彙変換ルール（座標変換ルール）Ｍを計算する。
（３）Ｍを用いてドメインＡの文書を、ドメインＢの文書に変換する。この変換で得られた文書は、分類体系はドメインＡのもの、語彙はドメインＢのもの、になっている。
（４）（３）で変換された文書を正解として学習させることで、ドメインＢの文書をドメインＡの分類体系へ分類する分類ルールを得る。
（５）（４）で得た分類ルールを用いてドメインＢの文書をドメインＡのカテゴリに分類する。

このように、本実施例に係る文書分類装置は、ドメインＢの語彙でありながらドメインＡのカテゴリを有するものを正解データとして分類ルールを生成することによって、分類精度を向上することができる。

次に、本実施例に係る文書分類装置の構成について説明する。図１は、本実施例に係る文書分類装置の構成を示す機能ブロック図である。同図に示すように、この文書分類装置１００は、特徴抽出部１１１と、特徴ベクトル記憶部１１２と、カテゴリ代表点計算部１１３と、カテゴリ代表点記憶部１１４と、座標変換ルール計算部１１５と、座標変換ルール記憶部１１６と、座標変換部１１７と、分類ルール生成部１１８と、分類ルール記憶部１１９と、カテゴリ判定部１２０とを有する。

特徴抽出部１１１は、文書を入力してその特徴を抽出し、特徴ベクトルを生成して特徴ベクトル記憶部１１２に格納する処理部である。図２は、特徴抽出部１１１による特徴抽出処理を説明するための説明図である。

同図に示すように、この特徴抽出部１１１は、入力した文書の形態素解析を行って文書を単語に分割し、文書中に現れた単語の数を数える。そして、単語ｗｉ（１≦ｉ≦ｍ：ｍは語彙数）の頻度ｆｉを要素とする特徴ベクトルを出力する。すなわち、この特徴抽出部１１１は、全ての語彙の出現頻度を座標軸とする特徴空間における特徴ベクトルを生成する。

なお、本実施例では、この特徴抽出部１１１は、特許文書、論文および分類対象論文を入力し、それぞれに対する特徴ベクトルを出力する。ここで、特許文書および論文は、分類ルールを生成するための学習に使われる特徴ベクトルの生成に用いる学習用文書であり、文書とともに文書のカテゴリが正解として与えられる。例えば、図２では、カテゴリＸが正解として与えられた学習用の文書から「事例」、「特徴」などの単語の出現数が数えられて特徴ベクトルが生成される。また、分類対象論文は、文書分類装置１００によりＩＰＣの分類が判定される対象の論文である。

また、ここでは、文書の形態素解析を行って単語の出現数を数える場合について説明したが、文書からキーワードを抽出するなど他の手法を用いて特徴ベクトルを生成することもできる。

特徴ベクトル記憶部１１２は、特徴抽出部１１１によって生成された特徴ベクトルを記憶する記憶部である。すなわち、この特徴ベクトル記憶部１１２は、特許文書から生成された特許文書の特徴ベクトル、論文から生成された論文の特徴ベクトル、および分類対象論文から生成された分類対象論文の特徴ベクトルを記憶する。また、この特徴ベクトル記憶部１１２は、座標変換部１１７によって特許文書の特徴ベクトルが特許ドメインから論文ドメインに座標変換が行われた特徴ベクトルである座標変換済特徴ベクトルを記憶する。なお、この特徴ベクトル記憶部１１２は、特徴ベクトルが生成された文書にカテゴリが付与されている場合には、そのカテゴリとともに特徴ベクトルを記憶する。

カテゴリ代表点計算部１１３は、各ドメインの各カテゴリについて、複数の文書それぞれから生成された複数の特徴ベクトルを用いて各ドメインの各カテゴリを代表する代表特徴ベクトルを計算し、カテゴリ代表点記憶部１１４に格納する処理部である。ここで、各カテゴリの代表特徴ベクトルは、特徴空間において各カテゴリの代表点に対応する。

図３は、カテゴリ代表点計算部１１３による代表点計算処理を説明するための説明図である。同図に示すように、このカテゴリ代表点計算部１１３は、ｎ個の特徴ベクトルのｉ番目の要素ｆ１_ｉ、ｆ２_ｉ、．．．、ｆｎ_ｉの平均値ｆｃ_ｉを要素とする代表特徴ベクトルを生成する。なお、ここでは、特徴ベクトル間の単純平均によって代表特徴ベクトルを計算することとしたが、加重平均など他の手法を用いて代表特徴ベクトルを計算することもできる。

カテゴリ代表点記憶部１１４は、カテゴリ代表点計算部１１３によって特許ドメインおよび論文ドメインの全てのカテゴリについて計算された代表特徴ベクトルを記憶する記憶部である。

座標変換ルール計算部１１５は、特許ドメインの代表特徴ベクトルと論文ドメインの代表特徴ベクトルを用いて、特許文書の特徴ベクトルを特許ドメインから論文ドメインに変換するルールを計算し、座標変換ルール記憶部１１６に格納する処理部である。

図４は、座標変換ルール計算部１１５の動作概念を説明するための動作概念図である。同図に示すように、座標変換ルール計算部１１５は、ドメインＡの特徴空間の特徴ベクトルをドメインＢの特徴空間の特徴ベクトルに変換する座標変換ルールＭを計算する。

図５は、座標変換ルール計算部１１５により計算される座標変換ルールＭの具体例を示す図である。同図に示すように、特許ドメインの各カテゴリの代表特徴ベクトルｐｊ（１≦ｊ≦ｌ：ｌはカテゴリ数）を縦ベクトルとして並べた行列をＰ＝（ｐ１，ｐ２，．．．，ｐｌ）とし、論文ドメインの代表特徴ベクトルｑｊ（１≦ｊ≦ｌ：ｌはカテゴリ数）を縦ベクトルとして並べた行列をＱ＝（ｑ１，ｑ２，．．．，ｑｌ）とすると、
Ｑ＝ＭＰ
となるＭがその座標変換ルールになる。

すなわち、Ｍは、特許ドメインの特徴空間で各カテゴリの代表特徴ベクトルに対応する代表点を論文ドメインの特徴空間の各カテゴリの代表点に移動する。例えば、カテゴリ「表示装置」の特許ドメインの特徴空間における代表点（０．８，３．２，１．４，．．．）は、Ｍによって論文ドメインの特徴空間における代表点（２．８，０．２，５．２，．．．）に移動される。

ここで、特許ドメインの特徴空間の代表点が論文ドメインの特徴空間の代表点に厳密に移動される必要はなく、何らかの近似計算により、特許ドメインの特徴空間の代表点が論文ドメインの特徴空間の代表点に大体写像されるという方法でも良い。

また、Ｍは以下のようにして求めることができる。
Ｍ＝ＱＰ^-1＝Ｑ（Ｐ^TＰ）^-1Ｐ^T
ここで、Ｔは転置(Transpose)を表し、行列Ｐの転置行列Ｐ^Tでは、各要素ｐ_ijがＰのｐ_jiに一致する。例えば、

とした場合、

となる。

なお、図４において、各カテゴリの特許文書群の特徴ベクトルは代表点の周辺の点に対応し、それらの点は、Ｍによって代表点と同様に特許ドメインの特徴空間から論文ドメインの特徴空間へ移動される。

座標変換ルール記憶部１１６は、特許文書の特徴ベクトルを特許ドメインから論文ドメインに変換するルールを記憶する記憶部であり、具体的には、座標変換ルール計算部１１５によって代表特徴ベクトルから計算された座標変換ルールＭを記憶する。

座標変換部１１７は、座標変換ルール計算部１１５によって計算された座標変換ルールを用いて、特許文書から生成された特徴ベクトルを論文ドメインの特徴ベクトルに変換し、座標変換済特徴ベクトルとして特徴ベクトル記憶部１１２に格納する処理部である。すなわち、この座標変換部１１７は、特許ドメインの文書の語彙を論文ドメインの語彙に変換した特徴ベクトルを生成する。

図６は、座標変換部１１７の動作概念を説明するための動作概念図である。同図に示すように、この座標変換部１１７は、特許ドメインの特徴空間において特徴ベクトルに対応する点を論文ドメインの特徴空間の点に移動する。

なお、移動された点に対応する特徴ベクトルは、分類ルールを作成する場合の正解データとして分類ルール生成部１１８によって使用される。ただし、このようにして作成された正解データは、人手によって作成される正解データと完全には一致しない疑似正解データである。

図７は、座標変換部１１７による座標変換を説明するための説明図である。同図に示すように、この座標変換部１１７は、特許ドメインの特徴空間における文書の座標、すなわち特徴ベクトルａと行列Ｍの掛け算を行って論文ドメインにおける特徴ベクトルｂを出力する。

図８は、座標変換部１１７による座標変換の具体例を示す図である。同図に示すように、この座標変換部１１７は、特許文書の特徴ベクトルａ＝（０，５，１，．．．）に行列Ｍを掛けることによって、論文の特徴空間に変換された特許文書の特徴ベクトルｂ＝（４．８，１．１，５．２，．．．）を生成する。

分類ルール生成部１１８は、座標変換部１１７により論文ドメインの特徴ベクトルに変換された特許ドメインの特徴ベクトルと特徴ベクトルに対応する特許文書のカテゴリを正解データとして用いて、論文をＩＰＣのカテゴリに分類する分類ルールを生成し、分類ルール記憶部１１９に格納する処理部である。

この分類ルール生成部１１８が、特許ドメインの特徴ベクトルの代わりに、論文ドメインの特徴ベクトルに変換された特許ドメインの特徴ベクトルを正解データとして用いて、論文をＩＰＣのカテゴリに分類する分類ルールを生成することによって、論文を高精度でＩＰＣのカテゴリに分類することができる。

分類ルール記憶部１１９は、分類ルール生成部１１８により生成された分類ルールを記憶する記憶部である。この分類ルール記憶部１１９に記憶された分類ルールは、カテゴリ判定部１２０により使用される。

カテゴリ判定部１２０は、分類ルール生成部１２８が生成した分類ルールを用いて、判定対象論文の特徴ベクトルから判定対象論文のカテゴリを判定し、判定結果を出力する処理部である。

なお、分類ルール生成部１１８とカテゴリ判定部１２０のペアの具体的な実現手法については、Bayesアルゴリズム、決定木アルゴリズム、ＳＶＭ、boosting、Nearest Neighbor法（ＮＮ法）、判別分析など多数の手法が開発されているが、ここでは、ＮＮ法を例として説明する。

図９は、ＮＮ法を説明するための説明図である。同図に示すように、分類ルール生成部１１８は、正解として４つの特徴ベクトルｓｉ（１≦ｉ≦４）ならびに対応するカテゴリ「Int」および「Hard」を入力し、それらを分類ルールとして保存する。ここで、「Int」はInterfaceを示し、「Hard」はHardwareを示している。すなわち、この例では、文書のカテゴリがInterfaceであるかHardwareであるかを分類する。

そして、特徴抽出部１１１がカテゴリを判定したい文書から「コンピュータ」、「ディスプレー」などのキーワードの頻度を数えて特徴ベクトルを抽出し、抽出した特徴ベクトルと記憶した特徴ベクトルｓｉとの距離を計算する。そして、距離が一番近い特徴ベクトルに対応するカテゴリを判定結果として出力する。この例では、距離が「２．６」で一番近い特徴ベクトル「ｓ１」に対応するカテゴリ「Int」が判定結果として出力される。

次に、本実施例に係る文書分類装置１００による文書分類処理の処理手順について説明する。図１０は、本実施例に係る文書分類装置１００による文書分類処理の処理手順を示す処理フロー図である。

同図に示すように、この文書分類装置１００は、特徴抽出部１１１が、大量のカテゴリ（ＩＰＣ）つき特許文書を読み込んで特徴ベクトルを生成する一方で、少量のカテゴリつき論文を読み込んで特徴ベクトルを生成する（ステップＳ１０１）。ここで、少量とは、例えば３００件を示す。

そして、カテゴリ代表点計算部１１３が、特許ドメインおよび論文ドメインにおいて、特徴ベクトルから各カテゴリの代表点を計算し（ステップＳ１０２）、座標変換ルール計算部１１５が、特許ドメインおよび論文ドメインの代表点を用いて特許ドメインの特徴空間から論文ドメインの特徴空間への座標変換ルールＭを計算する（ステップＳ１０３）。

そして、座標変換部１１７が、座標変換ルールＭを用いて、特許ドメインの特徴ベクトルを論文ドメインの特徴ベクトルに座標変換し（ステップＳ１０４）、分類ルール生成部１１８が、論文ドメインに変換された特許ドメインの特徴ベクトルと特徴ベクトルに対応する特許文献のカテゴリとを正解として用いて分類ルールを生成する（ステップＳ１０５）。

一方、特徴抽出部１１１は、カテゴリを判定したい論文から特徴ベクトルを生成する（ステップＳ１０６）。そして、カテゴリ判定部１２０が、分類ルールを用いて、カテゴリを判定したい論文の特徴ベクトルからその論文のカテゴリを判定する（ステップＳ１０７）。

このように、座標変換部１１７が特許ドメインの特徴ベクトルを論文ドメインの特徴ベクトルに座標変換し、分類ルール生成部１１８が論文ドメインに座標変換された特許ドメインの特徴ベクトルを用いて分類ルールを生成することによって、論文のカテゴリを精度良く判定することを可能とする分類ルールを生成することができる。

次に、本実施例に係る文書分類装置１００と従来の文書分類装置との間の文書分類処理の差異について図１１および図１２を用いて説明する。図１１および図１２は、本実施例に係る文書分類装置１００と従来の文書分類装置との間の文書分類処理の差異を示す図（１）および（２）である。

図１１において、網掛け部分は、本実施例に係る文書分類装置１００の文書分類処理に含まれ、従来の文書分類装置の文書分類処理には含まれない処理を示す。すなわち、従来の文書分類装置は、特許ドメインの特徴ベクトルを論文ドメインに変換することなく、そのまま使って分類ルールを生成する。その結果、特許と論文では語彙が違うため、論文を精度良く分類することができない。

また、図１２に示す従来の文書分類装置は、論文ドメインの特徴ベクトルを用いて分類ルールを作成する。このとき、論文にはＩＰＣがつけられていないため手作業で論文にＩＰＣをつけて正解データを作成する必要があり、大量の正解データを作成するためのコストが高くなる。したがって、少量の正解データから分類ルールを作成することとなり、分類精度を良くすることができない。

このように、本実施例に係る文書分類装置１００は、ＩＰＣがつけられた特許文書は大量にあることを利用して正解データの作成コストを低く抑えるとともに、論文ドメインの語彙に変換された特許文書を用いて分類ルールを作成することによって分類精度を向上することができる。

上述してきたように、本実施例では、特徴抽出部１１１が特許ドメインおよび論文ドメインにおいて特徴ベクトルを生成し、カテゴリ代表点計算部１１３が特許ドメインおよび論文ドメインにおいて各カテゴリの代表特徴ベクトルを計算し、座標変換ルール計算部１１５が特許ドメインの特徴ベクトルを論文ドメインの特徴ベクトルに変換する座標変換ルールを代表特徴ベクトルを用いて生成し、座標変換部１１７が座標変換ルールを用いて特許ドメインの特徴ベクトルを論文ドメインに変換し、分類ルール生成部１１８が論文ドメインに変換された特許ドメインの特徴ベクトルを用いて分類ルールを作成し、カテゴリ判定部１２０が論文ドメインに変換された特許ドメインの特徴ベクトルを用いて作成された分類ルールに基づいて判定対象論文のカテゴリを判定することとしたので、精度良くカテゴリを判定することができる。

また、論文ドメインの特徴ベクトルは、代表特徴ベクトルを計算するためだけに用いるので数が少なくてすみ、正解データ用に大量のＩＰＣつき論文を用意する必要がなくなるため、低コストで正解データを作成することができる。

なお、本実施例では、論文をＩＰＣで分類する場合について説明したが、本発明はこれに限定されるものではなく、例えば、Ｗｅｂページを図書分類（ＵＤＣ）に分類する場合、ニュースのスクリプトを新聞記事のカテゴリに分類する場合、日本語の新聞を英語の新聞向けに開発されたカテゴリに分類する場合、Ｂ社のオークションに出品されている商品をＡ社の商品オークションのカテゴリに分類する場合などにも同様に適用することができる。

ところで、上記実施例では、文書のカテゴリを判定する文書分類装置１００について説明したが、文書分類装置１００の機能の一部を用いて、ある座標空間のベクトルを別の座標空間のベクトルに変換するベクトル変換装置を得ることができる。

図１３は、かかるベクトル変換装置を説明するための説明図である。同図に示すように、文書分類装置１００の機能のうち、カテゴリ代表点計算部１１３によるカテゴリ代表点計算機能と、座標変換ルール計算部１１５による座標変換ルール計算機能と、座標変換部１１７による座標変換機能を利用することによって、同一のカテゴリ体系に分類される異なるドメイン間でベクトルを変換するベクトル変換装置を得ることができる。

同様に、文書分類装置１００の機能の一部を用いて、語彙のねじれを解消する語彙ねじれ解消装置を得ることもできる。図１４は、かかる語彙ねじれ解消装置を説明するための説明図である。

同図に示すように、文書分類装置１００の機能のうち、特徴抽出部１１１による文書からの特徴ベクトル抽出機能と、カテゴリ代表点計算部１１３によるカテゴリ代表点計算機能と、座標変換ルール計算部１１５による座標変換ルール計算機能と、座標変換部１１７による座標変換機能を利用することによって、同一のカテゴリ体系に分類される異なるドメイン間で文書の語彙のねじれを解消する語彙ねじれ解消装置を得ることができる。

また、本実施例では、文書分類装置について説明したが、文書分類装置が有する構成をソフトウェアによって実現することで、同様の機能を有する文書分類プログラムを得ることができる。そこで、この文書分類プログラムを実行するコンピュータについて説明する。

図１５は、本実施例に係る文書分類プログラムを実行するコンピュータの構成を示す機能ブロック図である。同図に示すように、このコンピュータ２００は、ＲＡＭ２１０と、ＣＰＵ２２０と、ＨＤＤ２３０と、ＬＡＮインタフェース２４０と、入出力インタフェース２５０と、ＤＶＤドライブ２６０とを有する。

ＲＡＭ２１０は、プログラムやプログラムの実行途中結果などを記憶するメモリであり、ＣＰＵ２２０は、ＲＡＭ２１０からプログラムを読み出して実行する中央処理装置である。

ＨＤＤ２３０は、プログラムやデータを格納するディスク装置であり、ＬＡＮインタフェース２４０は、コンピュータ２００をＬＡＮ経由で他のコンピュータに接続するためのインタフェースである。

入出力インタフェース２５０は、マウスやキーボードなどの入力装置および表示装置を接続するためのインタフェースであり、ＤＶＤドライブ２６０は、ＤＶＤの読み書きを行う装置である。

そして、このコンピュータ２００において実行される文書分類プログラム２１１は、ＤＶＤに記憶され、ＤＶＤドライブ２６０によってＤＶＤから読み出されてコンピュータ２００にインストールされる。

あるいは、この文書分類プログラム２１１は、ＬＡＮインタフェース２４０を介して接続された他のコンピュータシステムのデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータ２００にインストールされる。

そして、インストールされた文書分類プログラム２１１は、ＨＤＤ２３０に記憶され、ＲＡＭ２１０に読み出されてＣＰＵ２２０によって文書分類プロセス２２１として実行される。

（付記１）第１のドメインの文書を分類するカテゴリに従って第２のドメインの文書を分類する文書分類プログラムであって、
複数の第１のドメインの文書からそれぞれ抽出されて第２のドメインに変換された複数の特徴ベクトルを用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類規則を生成する分類規則生成手順と、
前記分類規則生成手順により生成された分類規則を用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類手順と、
をコンピュータに実行させることを特徴とする文書分類プログラム。

（付記２）第１のドメインの特徴ベクトルを第２のドメインの特徴ベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて前記複数の第１のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第２のドメインの複数の特徴ベクトルに変換する変換手順とをさらにコンピュータに実行させ、
前記分類規則生成手順は、前記変換手順により第２のドメインに変換された複数の特徴ベクトルを用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記１に記載の文書分類プログラム。

（付記３）前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の特徴ベクトルを抽出する特徴抽出手順と、
前記特徴抽出手順により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表特徴ベクトル計算手順とをさらにコンピュータに実行させ、
前記変換規則計算手順は、前記代表特徴ベクトル計算手順により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第１のドメインの特徴ベクトルを第２のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記２に記載の文書分類プログラム。

（付記４）前記変換規則計算手順は、前記代表特徴ベクトル計算手順により第１のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列を、前記代表特徴ベクトル計算手順により第２のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列に変換する変換行列を前記変換規則として計算することを特徴とする付記３に記載の文書分類プログラム。

（付記５）前記特徴抽出手順は、文書中に現れる単語の出現数を特徴ベクトルとして抽出することを特徴とする付記３または４に記載の文書分類プログラム。

（付記６）前記特徴抽出手順は、第２のドメインと比較して多くの第１のドメインの文書を用いて多くの特徴ベクトルを抽出し、
前記分類規則生成手順は、前記変換手順により第２のドメインに変換された複数の特徴ベクトルを用いることによって、第２のドメインから直接抽出された特徴ベクトルより多くの数の特徴ベクトルを用いて、第２のドメインの文書を第１のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記３、４または５に記載の文書分類プログラム。

（付記７）複数のカテゴリに分類される第１のドメインのベクトルを該複数のカテゴリに分類される第２のドメインのベクトルに変換するベクトル変換プログラムであって、
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表ベクトル計算手順と、
前記代表ベクトル計算手順により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第１のドメインのベクトルを第２のドメインのベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第１のドメインのベクトルを第２のドメインのベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とするベクトル変換プログラム。

（付記８）複数のカテゴリに分類される第１のドメインの語彙ベクトルを該複数のカテゴリに分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、
前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手順と、
前記語彙抽出手順により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表語彙ベクトル計算手順と、
前記代表語彙ベクトル計算手順により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手順と、
前記変換規則計算手順により計算された変換規則を用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。

（付記９）第１のドメインの文書を分類するカテゴリに従って第２のドメインの文書を分類する文書分類方法であって、
複数の第１のドメインの文書からそれぞれ抽出されて第２のドメインに変換された複数の特徴ベクトルを用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類規則を生成する分類規則生成工程と、
前記分類規則生成工程により生成された分類規則を用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類工程と、
を含んだことを特徴とする文書分類方法。

（付記１０）第１のドメインの特徴ベクトルを第２のドメインの特徴ベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて前記複数の第１のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第２のドメインの複数の特徴ベクトルに変換する変換工程とをさらに含み、
前記分類規則生成工程は、前記変換工程により第２のドメインに変換された複数の特徴ベクトルを用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記９に記載の文書分類方法。

（付記１１）前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の特徴ベクトルを抽出する特徴抽出工程と、
前記特徴抽出工程により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表特徴ベクトル計算工程とをさらに含み、
前記変換規則計算工程は、前記代表特徴ベクトル計算工程により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第１のドメインの特徴ベクトルを第２のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記１０に記載の文書分類方法。

（付記１２）前記変換規則計算工程は、前記代表特徴ベクトル計算工程により第１のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列を、前記代表特徴ベクトル計算工程により第２のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列に変換する変換行列を前記変換規則として計算することを特徴とする付記１１に記載の文書分類方法。

（付記１３）複数のカテゴリに分類される第１のドメインのベクトルを該複数のカテゴリに分類される第２のドメインのベクトルに変換するベクトル変換方法であって、
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表ベクトル計算工程と、
前記代表ベクトル計算工程により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第１のドメインのベクトルを第２のドメインのベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第１のドメインのベクトルを第２のドメインのベクトルに変換する変換工程と、
を含んだことを特徴とするベクトル変換方法。

（付記１４）複数のカテゴリに分類される第１のドメインの語彙ベクトルを該複数のカテゴリに分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消方法であって、
前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出工程と、
前記語彙抽出工程により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表語彙ベクトル計算工程と、
前記代表語彙ベクトル計算工程により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算工程と、
前記変換規則計算工程により計算された変換規則を用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換工程と、
を含んだことを特徴とする語彙ねじれ解消方法。

（付記１５）第１のドメインの文書を分類するカテゴリに従って第２のドメインの文書を分類する文書分類装置であって、
複数の第１のドメインの文書からそれぞれ抽出されて第２のドメインに変換された複数の特徴ベクトルを用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類規則を生成する分類規則生成手段と、
前記分類規則生成手段により生成された分類規則を用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類手段と、
を備えたことを特徴とする文書分類装置。

（付記１６）第１のドメインの特徴ベクトルを第２のドメインの特徴ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて前記複数の第１のドメインの文書からそれぞれ抽出された複数の特徴ベクトルを第２のドメインの複数の特徴ベクトルに変換する変換手段とをさらに備え、
前記分類規則生成手段は、前記変換手段により第２のドメインに変換された複数の特徴ベクトルを用いて第２のドメインの文書を第１のドメインのカテゴリに分類する分類規則を生成することを特徴とする付記１５に記載の文書分類装置。

（付記１７）前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の特徴ベクトルを抽出する特徴抽出手段と、
前記特徴抽出手段により各カテゴリにおいて抽出された複数の特徴ベクトルから各カテゴリを代表する代表特徴ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表特徴ベクトル計算手段とをさらに備え、
前記変換規則計算手段は、前記代表特徴ベクトル計算手段により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを用いて第１のドメインの特徴ベクトルを第２のドメインの特徴ベクトルに変換する変換規則を計算することを特徴とする付記１６に記載の文書分類装置。

（付記１８）前記変換規則計算手段は、前記代表特徴ベクトル計算手段により第１のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列を、前記代表特徴ベクトル計算手段により第２のドメインにおいてカテゴリごとに計算された代表特徴ベクトルを縦ベクトルとする行列に変換する変換行列を前記変換規則として計算することを特徴とする付記１７に記載の文書分類装置。

（付記１９）複数のカテゴリに分類される第１のドメインのベクトルを該複数のカテゴリに分類される第２のドメインのベクトルに変換するベクトル変換装置であって、
同一カテゴリに分類された複数のベクトルから該カテゴリを代表する代表ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表ベクトル計算手段と、
前記代表ベクトル計算手段により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表ベクトルを用いて第１のドメインのベクトルを第２のドメインのベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第１のドメインのベクトルを第２のドメインのベクトルに変換する変換手段と、
を備えことを特徴とするベクトル変換装置。

（付記２０）複数のカテゴリに分類される第１のドメインの語彙ベクトルを該複数のカテゴリに分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、
前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表語彙ベクトル計算手段と、
前記代表語彙ベクトル計算手段により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換手段と、
を備えたことを特徴とする語彙ねじれ解消装置。

以上のように、本発明に係る語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置は、文書の分類などに有用であり、特に、使用される語彙が異なる分野のカテゴリで文書を分類する場合に適している。

本実施例に係る文書分類装置の構成を示す機能ブロック図である。特徴抽出部による特徴抽出処理を説明するための説明図である。カテゴリ代表点計算部による代表点計算処理を説明するための説明図である。座標変換ルール計算部の動作概念を説明するための動作概念図である。座標変換ルール計算部により計算される座標変換ルールの具体例を示す図である。座標変換部の動作概念を説明するための動作概念図である。座標変換部による座標変換を説明するための説明図である。座標変換部による座標変換の具体例を示す図である。ＮＮ法を説明するための説明図である。本実施例に係る文書分類装置による文書分類処理の処理手順を示す処理フロー図である。本実施例に係る文書分類装置と従来の文書分類装置との間の文書分類処理の差異を示す図（１）である。本実施例に係る文書分類装置と従来の文書分類装置との間の文書分類処理の差異を示す図（２）である。ベクトル変換装置を説明するための説明図である。語彙ねじれ解消装置を説明するための説明図である。本実施例に係る文書分類プログラムを実行するコンピュータの構成を示す機能ブロック図である。

符号の説明

１００文書分類装置
１１１特徴抽出部
１１２特徴ベクトル記憶部
１１３カテゴリ代表点計算部
１１４カテゴリ代表点記憶部
１１５座標変換ルール計算部
１１６座標変換ルール記憶部
１１７座標変換部
１１８分類ルール生成部
１１９分類ルール記憶部
１２０カテゴリ判定部
２００コンピュータ
２１０ＲＡＭ
２１１文書分類プログラム
２２０ＣＰＵ
２２１文書分類プロセス
２３０ＨＤＤ
２４０ＬＡＮインタフェース
２５０入出力インタフェース
２６０ＤＶＤドライブ

Claims

複数のカテゴリに分類される第１のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消プログラムであって、
前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出手順と、
前記語彙抽出手順により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算手順と、
前記代表語彙ベクトル計算手順により第１のドメインおよび第２のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算手順と、
前記変換規則計算手順により格納された変換規則を記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換手順と、
をコンピュータに実行させることを特徴とする語彙ねじれ解消プログラム。
複数のカテゴリに分類される第１のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消装置による語彙ねじれ解消方法であって、
前記語彙ねじれ解消装置が、
前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出し、カテゴリと対応させて記憶装置に格納する語彙抽出工程と、
前記語彙抽出工程により各カテゴリに対応させて格納された複数の語彙ベクトルを記憶装置から読み出して各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算し、カテゴリと対応させて記憶装置に格納する代表語彙ベクトル計算工程と、
前記代表語彙ベクトル計算工程により第１のドメインおよび第２のドメインにおいて計算され、カテゴリと対応させて格納された代表語彙ベクトルを記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算し、記憶装置に格納する変換規則計算工程と、
前記変換規則計算工程により格納された変換規則を記憶装置から読み出して第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換工程と、
を実行することを特徴とする語彙ねじれ解消方法。
複数のカテゴリに分類される第１のドメインの語彙ベクトルを同一のカテゴリ体系に分類される第２のドメインの語彙ベクトルに変換する語彙ねじれ解消装置であって、
前記第１のドメインおよび第２のドメインにおいて各カテゴリに属する複数の文書から各カテゴリについて複数の語彙ベクトルを抽出する語彙抽出手段と、
前記語彙抽出手段により各カテゴリにおいて抽出された複数の語彙ベクトルから各カテゴリを代表する代表語彙ベクトルを前記第１のドメインおよび第２のドメインにおいて計算する代表語彙ベクトル計算手段と、
前記代表語彙ベクトル計算手段により第１のドメインおよび第２のドメインにおいてカテゴリごとに計算された代表語彙ベクトルを用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換規則を計算する変換規則計算手段と、
前記変換規則計算手段により計算された変換規則を用いて第１のドメインの語彙ベクトルを第２のドメインの語彙ベクトルに変換する変換手段と、
を備えたことを特徴とする語彙ねじれ解消装置。