JP5526199B2

JP5526199B2 - 文書分類装置および文書分類処理プログラム

Info

Publication number: JP5526199B2
Application number: JP2012183534A
Authority: JP
Inventors: 和之後藤; 国威祖; 泰成宮部; 秀樹岩崎
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-08-22
Filing date: 2012-08-22
Publication date: 2014-06-18
Anticipated expiration: 2032-08-22
Also published as: WO2014030721A1; US20150161144A1; JP2014041481A; CN104584005A; CN104584005B

Description

本発明の実施形態は、電子化された大量の文書を、その内容に応じて分類するための文書分類装置および文書分類処理プログラムに関する。

近年、計算機の高性能化や記憶媒体の大容量化、計算機ネットワークの普及などに伴い、電子化された文書の情報を、計算機システムを用いて大量に収集、記憶し、利用することが可能となった。このような大量の文書を利用しやすい形に整理するための技術として、文書の自動分類やクラスタリングなどの技術が期待されている。

とくに昨今は、企業等の活動の急速な国際化が進む中、１つの言語だけでなく、日本語、英語、中国語といった複数の自然言語で記述された文書を、効率よく分類することが求められている。

例えば、複数の国で出願された特許文書を、言語の違いに依らず、内容の類似性に基づいて分類して、出願傾向を分析したいというニーズがある。また例えば、複数の国で販売している製品に対する、顧客からの質問や苦情などの情報を、各国のコンタクトセンターで受け付け、これを分類・分析したいというニーズもある。また、例えば、インターネットで公開されている、様々な言語で書かれたニュース記事や、製品・サービス等についての評判・意見などの情報を、収集して分析したいというニーズもある。

複数の異なる言語で記述された文書集合を、内容の類似性に基づき、言語横断的に分類する方法の１つに、機械翻訳技術を用いる方法がある。これは、母国語以外の言語（例えば日本語を母国語とした場合は英語や中国語）で記述された文書を翻訳し、全ての文書を１つの言語（すなわち母国語）の文書として処理できるようにした上で、自動分類やクラスタリングなどを行う方法である。

しかしながら、この方法では、機械翻訳の精度によって、自動分類などの処理の精度が左右されてしまい、翻訳誤りなどが原因で、文書が適切に分類できないといった、精度面の問題がある。また、一般に、機械翻訳の処理は計算コストが大きいため、大量の文書を対象にする場合は、性能面の問題がある。さらに、複数のユーザが文書を分類して利用する場合、その母国語も様々であると考えられるが、これを予め想定して大量の文書を複数の言語に翻訳しておくことは難しいという問題もある。

複数の言語で記述された文書集合を言語横断的に分類するもう１つの方法に、対訳辞書を用いる方法がある。ここでの対訳辞書とは、ある言語で記述された単語や語句などの表現と、別の言語の同じ意味の表現とを、互いに対応付けた辞書やシソーラスのことである（以下では簡単のため、複合語やフレーズなども含め、単に単語と記す）。

対訳辞書を用いて言語横断分類を実現する方法の例としては、まず、複数の言語で記述された文書集合のうち、ある言語１で記述された文書の部分集合を分類してカテゴリを作成するとともに、その各カテゴリの特徴を表す言語ａの単語を、例えば単語ベクトルの形で求める。一方、別の言語ｂの文書については、その特徴を表す言語ｂの単語ベクトルを求める。

ここで、言語ａの各カテゴリの単語ベクトルの各次元（つまり言語ａの単語）と、言語ｂの文書の単語ベクトルの各次元（つまり言語ｂの単語）を、対訳辞書を用いて対応付けることができれば、言語ａの単語ベクトルと言語ｂの単語ベクトルの類似度を計算することができ、この類似度に基づいて、言語ｂの文書を、言語ａのカテゴリのうち、適切なカテゴリに分類することが可能となる。

このような、対訳辞書を用いる方法では、対訳辞書の質と量が重要であるが、これを全て人手で作成するには労力がかかる。そこで、対訳辞書を半自動的に作成する方法として、ある言語で記述されたある単語に対し、その対訳として適切な、別の言語で記述された単語を、各言語のコーパス（corpus：文例を集めたデータベース）での単語の共起頻度と、汎用的な対訳辞書に基づいて求める方法がある。

この方法では、まず、対訳辞書を作成する対象の単語として、例えば、一方の言語での表現が既知であり、これに対応する他方の言語での表現が未知であるような、専門用語などを指定する必要がある。しかしながら、内容が未知の文書を分類する場合には、どのような単語について対訳辞書を作成すべきかを予め想定することはできない。

よって、クラスタリングなどの発見的な分類手法によって未知の内容の文書を分類するという目的には、この方法は適していない。また、上述した方法では、半自動的に作成する対訳辞書とは別に、汎用的な対訳辞書を必要とするが、対象とする言語によっては、この汎用的な対訳辞書を予め十分に用意できない場合もある。

また、例えば、英語の単語「ｃｈａｒａｃｔｅｒ」に対する日本の単語には、「性格」「特性」「人物」「文字」などがあり、とくに汎用的な対訳辞書を用いる場合には、分類の対象とする文書集合に応じて適切な対訳語を選択する必要があるという問題もある。

また、上述の方法によって作成した対訳のシソーラスを用いて、文書を自動分類する方法がある。この方法では、文書が適切なカテゴリに分類されない場合に、カテゴリに対応するシソーラスの語義をユーザが修正することで、分類の誤りなどに対処できるとしているが、この作業は、対象とする言語に不慣れなユーザにとっては特に、労力を要する。

特開２００１−３３１４８４号公報特開２０１０−５５２９８号公報特開２００５−１０７７０５号公報

本発明が解決しようとする課題は、複数の異なる自然言語で記述された大量の文書を、内容の類似性に基づいて、言語横断的に分類するための分類構造を効率よく作成することが可能になる文書分類装置および文書分類処理プログラムを提供することにある。

実施形態によれば、文書分類装置は、複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段と、前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段とをもつ。

実施形態に係る多言語文書分類装置の構成例を表すブロック図。実施形態に係る多言語文書分類装置の構成例を表すブロック図。実施形態に係る多言語文書分類装置の構成例を表すブロック図。実施形態に係る多言語文書分類装置の構成例を表すブロック図。実施形態に係る多言語文書分類装置の構成例を表すブロック図。文書記憶部に記憶される文書の一例を表形式で示す図。カテゴリ記憶部に記憶されるカテゴリの一例を表形式で示す図。文書間対応関係記憶部に記憶される文書間の関係の一例を表形式で示す図。辞書記憶部に記憶される辞書語の一例を表形式で示す図。単語抽出部の処理手順の一例を示すフローチャート。単語間対応関係抽出部の処理手順の一例を表すフローチャート。単語間対応関係抽出部によって抽出される単語間の関係の例を示す図。カテゴリ生成部の処理手順の一例を示すフローチャート。カテゴリの複数の単語ベクトルを生成するための処理手順の一例を示すフローチャート。カテゴリ間対応関係抽出部の処理手順の一例を示すフローチャート。カテゴリ間対応関係抽出部によって抽出されるカテゴリ間の関係の一例を表形式で示す図。事例ベース文書分類部の処理手順の一例を示すフローチャート。カテゴリ特徴語抽出部の処理手順の一例を示すフローチャート。カテゴリ特徴語変換部の処理手順の一例を示すフローチャート。カテゴリ特徴語抽出部によって抽出されてカテゴリ特徴語変換部によって変換される特徴語の一例を表形式で示す図。分類ルール変換部の処理手順の一例を示すフローチャート。分類ルール変換部によって変換されるカテゴリの分類ルールの一例を表形式で示す図。辞書変換部の処理手順の一例を示すフローチャート。辞書変換部によって変換される辞書語の一例を表形式で示す図。

以下、実施の形態について、図面を参照して説明する。
図１〜図５は、各実施形態に係る多言語文書分類装置の構成例を表すブロック図である。図１〜図５に示した各構成では、実現する機能によって部分的に異なる手段を設けているが、基本的な手段である文書記憶部１、単語抽出部２、カテゴリ記憶部３、カテゴリ操作部４、文書間対応関係記憶部５、単語間対応関係抽出部６は、各構成に共通した手段である。以下は、代表的な構成である図１を主に用いて説明する。
図１中、文書記憶部１は、文書分類装置が分類の対象とする複数の文書のデータを記憶する手段であり、例えば不揮発性メモリといった記憶装置により実現される。この文書記憶部１には、複数の異なる言語で記述した文書のデータを各々記憶して管理するようにしている。図１にはこれを、第１言語文書記憶部、第２言語文書記憶部、…、第ｎ言語文書記憶部といった形で示しているが、具体的には、例えば、日本語、英語、中国語といった言語で記述された文書が、各言語用の文書記憶部に記憶される。

次に、単語抽出部２は、文書のデータから単語を抽出するための手段であり、具体的には後述するように、形態素解析などによって、文書の分類などの処理に必要なデータである単語を抽出し、各単語の各文書での出現頻度などを求める処理を行う。

この単語抽出部２は、複数の異なる言語で記述された文書に対応するために、図１に示すように、第１言語単語抽出部、第２言語単語抽出部、…、第ｎ言語単語抽出部といった、各言語用の手段で構成している。具体的には、日本語、英語、中国語といった言語を対象に、形態素解析などの処理を行う手段を各々設ける。

次に、カテゴリ記憶部３は、文書を分類するカテゴリのデータを記憶して管理する手段であり、例えば不揮発性メモリといった記憶装置により実現される。一般的には、カテゴリ記憶部３では、階層構造を成す複数のカテゴリによって、文書を内容に応じて分類するようにしており、このカテゴリ記憶部３には、各カテゴリに分類する文書のデータや、カテゴリの階層構造におけるカテゴリ間の親子関係などのデータが記憶される。

次に、カテゴリ操作部４は、カテゴリ記憶部３に記憶されたカテゴリのデータに対するユーザによる閲覧や編集などの操作を受け付ける。
このカテゴリ操作部４は、一般的には、グラフィカル・ユーザ・インタフェース（ＧＵＩ）を用いて実現される。このカテゴリ操作部４によって、ユーザは、カテゴリの作成、削除、移動（階層構造で親子関係の付け替える）、コピー、統合（複数のカテゴリを１つにまとめる）といった、カテゴリを対象とした操作や、カテゴリに文書を分類させたり、カテゴリに分類されている文書を別のカテゴリに移動したりといった、文書を対象とした操作を行なうことができる。

次に、文書間対応関係記憶部５は、文書記憶部１に記憶された文書間の対応関係を記憶する手段であり、例えば不揮発性メモリといった記憶装置により実現される。一般的には、文書間対応関係記憶部５では、異なる言語で記述された文書間の対応関係を表すデータが記憶されて管理される。文書間の対応関係の具体例としては、特許文書を分類対象とした場合、例えば、日本国特許と米国特許との、優先権や国際特許出願による対応関係などが挙げられる。

次に、単語間対応関係抽出部６は、単語抽出部２によって各言語で記述された文書から抽出した単語と、文書間対応関係記憶部５に記憶した文書間の対応関係とに基づいて、異なる言語で記述された単語間の対応関係を自動的に抽出する手段である。

単語間対応関係抽出部６により抽出される、異なる言語で記述された単語間の対応関係の具体例としては、例えば、日本語の単語「文字」と、英語の単語「ｃｈａｒａｃｔｅｒ」と、中国語の単語「字符」といった、対訳に近い対応関係である。

図１に示したカテゴリ生成部７と、カテゴリ間対応関係抽出部８は、図１の構成に固有な機能を実現するための手段である。
カテゴリ生成部７は、同一の言語で記述された複数の文書を対象にして、単語抽出部２によって各文書から抽出された単語の出現頻度の類似性に基づき、文書をクラスタリングすることで、カテゴリを自動的に生成する手段である。

カテゴリ間対応関係抽出部８は、一般的には、カテゴリ生成部７によって生成された、複数の異なる言語で記述された文書群を分類する複数のカテゴリの間の対応関係を自動的に抽出する手段である。これらの手段によって生成されたカテゴリや、カテゴリ間の対応関係は、カテゴリ記憶部３によって記憶される。

図１に示した実施形態によれば、複数の異なる自然言語で記述された複数の文書を対象にして、各言語で記述された文書を分類する分類構造が言語毎に自動的に生成されるとともに、異なる言語で記述された文書を分類するカテゴリ間の対応関係が自動的に抽出されるので、対応関係が得られたカテゴリ同士を統合することで、言語によらず、内容が類似した文書を分類するカテゴリを、容易に作成することができる。

次に、図２に示した実施形態の構成では、図１に示した文書記憶部１、単語抽出部２、カテゴリ記憶部３、カテゴリ操作部４、文書間対応関係記憶部５、単語間対応関係抽出部６を有するほか、図２の構成に固有な機能を実現するための手段である事例ベース文書分類部９をさらに有する。
この事例ベース文書分類部９は、カテゴリ記憶部３に記憶した１つまたは複数のカテゴリを対象に、各カテゴリにすでに分類されている１つまたは複数の既分類文書に基づき、当該カテゴリに未だ分類されていない未分類文書を、当該カテゴリに分類すべきかどうかを、自動的に決定する手段である。

この自動分類の処理は、後述するように、単語抽出部２によって各文書から抽出した単語と、単語間対応関係抽出部６によって抽出した単語間の対応関係とに基づき、カテゴリの既分類文書と同じ言語で記述された未分類文書のみならず、別の言語で記述された未分類文書も対象にして、これを当該カテゴリに分類するかどうかを決定できることが特徴である。

図２に示した実施形態によれば、あるカテゴリにすでに分類されている、ある言語で記述された文書に基づいて、これと内容が類似した、別の言語で記述された文書を当該カテゴリに自動的に分類することができるので、全ての言語で記述された文書をカテゴリに教師文書として分類する必要がなく、ユーザにとって内容が理解しやすい言語で記述された文書のみを教師文書として分類すればよいので、文書を容易に分類することができる。

次に、図３に示した実施形態の構成では、図１に示した文書記憶部１、単語抽出部２、カテゴリ記憶部３、カテゴリ操作部４、文書間対応関係記憶部５、単語間対応関係抽出部６を有するほか、図３の構成に固有な機能を実現するための手段であるカテゴリ特徴語抽出部１０と、カテゴリ特徴語変換部１１とを有する。

カテゴリ特徴語抽出部１０は、カテゴリ記憶部３に記憶した１つまたは複数のカテゴリを対象に、各カテゴリに分類された文書の内容を表す特徴的な単語を抽出する手段である。以下、必要に応じて、特徴的な単語を特徴語と称する。

この特徴語は、後述するように、カテゴリに分類された文書から、単語抽出部２によって抽出した単語のうち、カテゴリの特徴をよく表す適切な単語が選別されることによって抽出される語である。

カテゴリ特徴語変換部１１は、カテゴリから抽出した、ある言語で記述された特徴語を、単語間対応関係抽出部６によって抽出した異なる言語で記述された単語間の対応関係に基づき、別の言語で記述された特徴語に変換する手段である。

図３に示した実施形態によれば、カテゴリの特徴語を自動的に抽出し、さらにこれを、ユーザが理解しやすい言語に変換して提示することができるので、ユーザは、カテゴリに分類されている文書の内容を、容易に理解することができる。

次に、図４に示した実施形態の構成では、図１に示した文書記憶部１、単語抽出部２、カテゴリ記憶部３、カテゴリ操作部４、文書間対応関係記憶部５、単語間対応関係抽出部６を有するほか、図４の構成に固有な機能を実現するための手段であるルールベース文書分類部１２と、分類ルール変換部１３とを有する。
ルールベース文書分類部１２は、カテゴリ記憶部３に記憶したカテゴリに設定された分類ルールによって、当該カテゴリに分類する文書を決定する手段である。一般的に、各カテゴリの分類ルールは、単語抽出部２によって文書から抽出した単語のうち、１つまたは複数の単語が出現する文書を、当該カテゴリに分類するよう規定されている。

分類ルール変換部１３は、この分類ルールを、単語間対応関係抽出部６によって抽出した異なる言語で記述された単語間の対応関係に基づき、ある言語で記述された文書を分類するための分類ルールを、別の言語で記述された文書を分類するための分類ルールへと変換するための手段である。

図４に示した実施形態によれば、カテゴリに分類する文書を規定する分類ルールについて、ある言語で記述された文書を分類するための分類ルールを、別の言語で記述された文書を分類する分類ルールに、自動的に変換することができるので、分類ルールの作成や保守の作業が軽減される。

次に、図５に示した実施形態の構成では、図１に示した文書記憶部１、単語抽出部２、カテゴリ記憶部３、カテゴリ操作部４、文書間対応関係記憶部５、単語間対応関係抽出部６、カテゴリ生成部７、カテゴリ間対応関係抽出部８を有するほか、図５の構成に固有な機能を実現するための手段である辞書記憶部１４と、辞書設定部１５と、辞書変換部１６とをさらに有する。図５では、これら１４〜１６の手段を図１に示した構成に追加した例を示している。ただし、これら１４〜１６の手段は、図２〜図４に示した構成に追加して具備させることも可能である。

すなわち、辞書記憶部１４は、図１のカテゴリ生成部７、または、図２の事例ベース文書分類部９、または、図３のカテゴリ特徴語抽出部１０の処理での、単語の使用方法を規定する辞書を記憶する手段であり、例えば不揮発性メモリなどの記憶装置により実現される。

図５に示した実施形態によれば、カテゴリの自動生成や文書の自動分類の処理で使用する、重要語、不要語、同義語を定める辞書について、ある言語で記述された辞書語を、別の言語で記述された辞書語に自動的に変換することができるので、辞書の作成や保守の作業が軽減される。

後述するように、辞書記憶部１４に記憶される辞書には、文書の分類やカテゴリの特徴語の抽出などの処理において、重視すべき単語である重要語、無視すべき単語である不要語、同一視すべき単語の組である同義語の、いずれかまたは複数を辞書語として設定できるようにしている。辞書設定部１５は、これらの辞書語を辞書に設定する手段である。

辞書変換部１６は、辞書に設定された、ある言語で記述された辞書語を、単語間対応関係抽出部６によって抽出した異なる言語で記述された単語間の対応関係に基づき、別の言語で記述された辞書語に変換する手段である。

図６は、文書記憶部１に記憶されている文書のデータの一例を表形式で示す図である。図６（ａ），（ｂ），（ｃ）で示した合計３つの文書のデータの例では、図６（ａ）で示した行６０１でユニークな文書番号「ｄｊ０１」が付与され、図６（ｂ）で示した行６０５でユニークな文書番号「ｄｊ０２」が付与され、図６（ｃ）で示した行６０６でユニークな文書番号「ｄｅ０３」が付与されている。

また、文書を記述する言語として、図６（ａ）で示した行６０２に「日本語」、図６（ｃ）で示した行６０７に「英語」が記されている。この例では特許の抄録のデータの一部を表しており、各文書は、図６（ａ）の行６０３における名称「デジタルカメラ」や行６０４における要約「撮像素子によって入力した…」といったテキストのデータを有する。一般的には、これらのテキストの内容に応じて、文書の分類が行なわれるが、図６に示したように、各文書のテキストは異なる言語で記述されている。

図７は、図１〜図５のカテゴリ記憶部に記憶されているカテゴリのデータの例を表す図である。
図７（ａ），（ｂ），（ｃ），（ｄ）で示したように、各カテゴリには、例えば、図７（ａ）の行７０１のカテゴリ番号「ｃ０１」、図７（ｂ）の行７０６のカテゴリ番号「ｃ０２」などのように、ユニークなカテゴリ番号が付与されている。各カテゴリのデータには、当該カテゴリと親カテゴリとの関係が記されており、これにより、複数のカテゴリが成す階層構造が表現される。

例えば図７（ａ）に示したカテゴリの親カテゴリは行７０２に示される「（なし）」であるので、このカテゴリは階層構造の最上位、つまりルートのカテゴリである。また、図７（ｂ）のカテゴリの親カテゴリは行７０７に示される「ｃ０１」であるので、図７（ａ）で示したカテゴリ番号「ｃ０１」に対応するカテゴリが、この図７（ｂ）で示したカテゴリの親カテゴリである。

各カテゴリには、図７（ａ）の行７０３の「デジタルカメラ」や、図７（ｂ）の行７０８の「顔−検出」のように名称が記されている。これらの名称は、文書分類装置が自動的にカテゴリに付与する場合もあるし、ユーザが明示的に付与する場合もある。

各カテゴリのデータには、当該カテゴリに分類する文書を、分類ルールまたは文書集合の形で記しており、例えば図７（ａ）に示したカテゴリでは、行７０４に示すように分類ルールは「（なし）」であり、行７０５に示すように文書集合は「（全て）」であるため、このカテゴリには、文書記憶部１に記憶された全ての文書が分類されている。

図７（ｂ）に示したカテゴリでは、行７０９に示すように分類ルールは「（なし）」で、行７１０に示すように文書集合には「ｄｊ０２」や「ｄｊ１７」などの文書番号が記されているため、このカテゴリには、これらの文書番号に対応する文書が分類されている。

図７（ｃ）のカテゴリには、行７１２に示すように分類ルール「ｃｏｎｔａｉｎｓ（要約、”露光”）」が設定されており、この分類ルールによって、文書の「要約」のテキストに「露光」という単語を含む文書が、このカテゴリに分類される。なお、図７（ｃ）に示したカテゴリでは、行７１３に示すように、文書集合には、図７（ｂ）中の行７１０に示した例とは異なり、文書番号は明示的には記されておらず、「（分類ルールによる）」とされており、この分類ルールによる文書集合が、このカテゴリに分類されることになる。

分類ルールによって文書を分類する処理は、図４に示したルールベース文書分類部１２によって実行されるが、この処理は、一般的には、データベース等の記憶手段から分類ルールを満足する文書を検索することで実行される。例えば、図７（ｃ）に示した行７１２における分類ルール「ｃｏｎｔａｉｎｓ（要約、”露光”）」の場合、「要約」のテキストに「露光」という単語を含む文書を全文検索することで、当該カテゴリに分類する文書を求めることができる。このような処理は従来技術によって実現可能であるので、詳細な説明は省略する。

図８は、図１〜図５の文書間対応関係記憶部５に記憶されている文書間の対応関係のデータの例を表す図である。
図８に示した行８０１や行８０２の各行によって、文書間の対応関係が１つずつ表されており、例えば行８０１では、文書番号が「ｄｊ０２」である文書と、文書番号が「ｄｅ０３」である文書とに対応関係があることを示している。すなわちこれは、図６（ｂ）で示した日本語の文書と、図６（ｃ）で示した英語の文書との対応関係を表す。

同様に、図８に示した行８０２によれば、文書番号が「ｄｊ０２」である日本語の文書と文書番号が「ｄｃ０８」である中国語の文書とに対応関係がある。また、行８０３によれば、文書番号が「ｄｅ０３」である英語の文書と文書番号が「ｄｃ０８」である中国語の文書とに対応関係がある。結果として、文書番号が「ｄｊ０２」である文書と文書番号が「ｄｅ０３」である文書と文書番号が「ｄｃ０８」である文書でなる３つ文書が全て互いに関係していることが分かる。

また、図８に示した行８０４と行８０５によれば、文書番号が「ｄｊ２６」である日本語の文書は、文書番号が「ｄｅ３３」である英語の文書と、文書番号が「ｄｅ５１」である英語の文書との両方に対応関係があることが示されているが、このように、１つの文書と、同じ言語（この場合は英語）の複数の文書とに対応関係があってもよいこととする。

図９は、図５に示した辞書記憶部１４に記憶された辞書のデータの例を表す図である。辞書記憶部１４に記憶された辞書では、図９に示した行９０１や行９０２といった各行によって、辞書の辞書語が１つずつ表されており、例えば行９０１は「日本語」の「重要語」で表記が「フラッシュ」である辞書語を表し、行９０３は「日本語」の「不要語」で表記が「発明」である辞書語を表し、行９０５は「日本語」の「同義語」で表記が「フラッシュ」と「ストロボ」である辞書語を表す。

ここで、重要語とは、後述する文書の分類などの処理で重視する単語のことであり、例えば本実施形態のように、単語ベクトルを用いた方法で文書の分類などの処理を行う場合は、単語ベクトルでの重要語の重みを、例えば２倍重くするという処理が行なわれる。また、不要語とは、文書の分類などの処理で無視する単語であり、例えば単語ベクトルから不要語を除いて、単語ベクトルの次元にはしないようにするといった処理が行なわれる。

例えば、特許文書を分類対象とする場合、「発明」や「装置」といった単語は、特許の内容をほとんど表さないため、図９に示したように、このような単語を不要語とする。また、同義語とは、文書の分類などの処理で同一視する単語であり、例えば単語ベクトルでは異なる表記であっても、同じ単語、すなわち同じ次元として処理される。

図１０は、図１〜図５の単語抽出部２の処理の流れの一例を表すフローチャートである。
まず、単語抽出部２は、単語を抽出する対象の文書からテキストを取得する（Ｓ１００１）。図６に示した例では、図６（ａ）中の行６０３で示される、文書の「名称」である「デジタルカメラ」や、行６０４で示される「要約」である「撮像領域によって入力した…」とのテキストが取得される。単語抽出部２は、この取得したテキストを形態素解析する（Ｓ１００２）。この処理の内容は言語によって異なるが、例えば日本語や中国語の場合には、テキストを形態素に分解すなわち分かち書きし、各形態素に対して名詞や動詞などの品詞を付与する。英語の場合には、分かち書きの処理は主に空白文字に基づいて行うが、品詞の付与は日本語や中国と同様に行う。

次に、単語抽出部２は、所定の品詞が付与された形態素を選別して、必要な形態素のみを残し、不要な形態素を除く（Ｓ１００３）。一般的には、単語抽出部２は、自立語や内容語は、分類などの処理に使用する形態素として残し、付属語や機能語は除くという処理を行うが、この処理は言語に依存する。単語抽出部２は、例えば動詞については、英語と中国語の場合は必要な形態素として残し、日本語の場合は不要な形態素として除くようにしてもよいし、英語の動詞であっても「ｈａｖｅ」や「ｍａｋｅ」はいわゆるストップワードとして除くようにしてもよい。

次に、単語抽出部２は、形態素の表記を正規化する（Ｓ１００４）。この処理も言語に依存する処理である。単語抽出部２は、例えば抽出したテキストが日本語である場合には、「組み合わせ」と「組合せ」などの表記揺れを吸収して、同一の形態素として扱うようにしてもよいし、抽出したテキストが英語である場合には、いわゆるステミング（stemming）と呼ばれる処理を行い、語幹が同じ形態素を同一の形態素として扱うようにしてもよい。

次に、単語抽出部２は、Ｓ１００４で正規化した形態素毎に、文書中での出現頻度（ここではＴＦ（Term Frequency）すなわち単語頻度）を求め（Ｓ１００５）、最後に、Ｓ１００４で正規化した形態素と、その出現頻度との組を出力する（Ｓ１００６）。

図１１は、図１〜図５で示した単語間対応関係抽出部６の処理の流れの一例を表すフローチャートである。
まず、単語間対応関係抽出部６は、文書間対応関係記憶部５に記憶されているデータを用いて、言語ｋの文書集合Ｄｋに属する文書ｄｋと、言語ｌの文書集合Ｄｌに属する文書ｄｌとの、文書間の対応関係の集合を、Ｄｋｌ＝｛（ｄｋ，ｄｌ）：ｄｋ∈Ｄｋ，ｄｌ∈Ｄｌ，ｄｋ⇔ｄｌ｝とする（Ｓ１１０１）。

次に単語間対応関係抽出部６は、Ｄｋｌ中の言語ｋの文書ｄｋの各々から、単語抽出部２によって抽出した単語を、Ｄｋｌ中の全ての文書ｄｋについて和集合をとることで、言語ｋの単語集合Ｔｋを求める（Ｓ１１０２）。その結果、Ｄｋｌ中の文書に含まれる言語ｋの単語と、その出現頻度（ここではＤＦ（Document Frequency）つまり文書頻度）が得られる。

単語間対応関係抽出部６は、言語ｌについても同様に、Ｄｋｌ中の言語ｌの文書ｄｌの各々から単語抽出部２によって抽出した単語をＤｋｌ中の全ての文書ｄｌについて和集合をとることで、言語ｌの単語集合Ｔｌを求める（Ｓ１１０３）。次に、単語間対応関係抽出部６は、単語集合Ｔｋ中の各単語ｔｋについて繰り返して（Ｓ１１０４）、以下のＳ１１０５からＳ１１１２までの処理を行う。

まず、単語間対応関係抽出部６は、単語ｔｋのＤｋｌでの文書頻度ｄｆ（ｔｋ，Ｄｋｌ）を求め（Ｓ１１０５）、この文書頻度が所定の閾値以上であれば（Ｓ１１０６のＹＥＳ）、単語集合Ｔｌ中の各単語ｔｌについて繰り返して（Ｓ１１０７）、以下のＳ１１０８からＳ１１１２までの処理を行う。

まず、単語間対応関係抽出部６は、単語ｔｌの文書頻度ｄｆ（ｔｌ，Ｄｋｌ）を求め（Ｓ１１０８）、この文書頻度が所定の閾値以上であれば（Ｓ１１０９）、以下のＳ１１１０以降の処理を行う。

ここで、単語間対応関係抽出部６は、単語ｔｋの文書頻度ｄｆ（ｔｋ，Ｄｋｌ）、すなわち当該単語が出現する文書数が、所定の閾値未満（例えば５件未満）であれば（Ｓ１１０６のＮＯ）、当該単語について別の言語で記述された単語との対応関係を精度よく求めるためのデータがＤｋｌ中で不足しているとみなして、Ｓ１１０４に戻る。

また、単語間対応関係抽出部６は、単語ｔｌの文書頻度ｄｆ（ｔｌ，Ｄｋｌ）、すなわち当該単語が出現する文書数が、所定の閾値未満（例えば５件未満）であれば（Ｓ１１０９のＮＯ）、当該単語について別の言語で記述された単語との対応関係を精度よく求めるためのデータがＤｋｌ中で不足しているとみなして、Ｓ１１０７に戻る。

単語間対応関係抽出部６は、文書頻度ｄｆ（ｔｌ，Ｄｋｌ）が所定の閾値以上であれば（Ｓ１１０９のＹＥＳ）、単語ｔｋと単語ｔｌのＤｋｌでの共起頻度ｄｆ（ｔｋ，ｔｌ，Ｄｋｌ）を求める。この共起頻度とは、単語ｔｋを含む文書と、単語ｔｌを含む文書との、文書間の対応関係の個数である。また、単語間対応関係抽出部６は、この共起頻度を用いて、単語ｔｋと単語ｋｌとの、Ｄｋｌでの共起の大きさを表すダイス（Ｄｉｃｅ）係数を以下の式（１）に基づいて求め、Ｄｋｌでの共起の大きさを同じく表すシンプソン（Ｓｉｍｐｓｏｎ）係数を以下の式（２）によって求める（Ｓ１１１０）。

dice(tk,tl,Dkl)＝df(tk,tl,Dkl)/(df(tk,Dkl)+df(tl,Dkl)) …式（１）
simp(tk,tl,Dkl)＝df(tk,tl,Dkl)/min(df(tk,Dkl),df(tl,Dkl)) …式（２）
次に、単語間対応関係抽出部６は、共起頻度ｄｆ（ｔｋ，ｔｌ，Ｄｋｌ）と、ダイス係数ｄｉｃｅ（ｔｋ，ｔｌ，Ｄｋｌ）と、シンプソン係数ｓｉｍｐ（ｔｋ，ｔｌ，Ｄｋｌ）が、それぞれ所定の閾値以上であれば（Ｓ１１１１のＹＥＳ）、単語ｔｋと単語ｔｌの関係を単語間の対応関係の候補とし、そのスコアを、α＊ｄｉｃｅ（ｔｋ，ｔｌ，Ｄｋｌ）＋β＊ｓｉｍｐ（ｔｋ，ｔｌ，Ｄｋｌ）とする（αとβは定数）（Ｓ１１１２）。最後に、単語間対応関係抽出部６は、このようにして求めた単語間の対応関係の複数個の候補を、スコアの大きい順に出力する（Ｓ１１１３）。

本実施形態では、このように、異なる言語で記述された単語ｔｋと単語ｔｌとの関係が、対訳語や関連語として適切かどうかを、文書頻度（ＤＦ）に基づいたＤｉｃｅ係数とＳｉｍｐｓｏｎ係数を用いて判定している。この方法によれば、文書単位の対応関係、すなわち文章単位の対訳関係でない大まかな対応関係のみを用いて、単語間の対応関係を精度よく抽出することができる。ただし、本実施形態では、上述の方法や数式には限定されず、例えば相互情報量など別の数式を用いてもよいし、あるいは、単語頻度（ＴＦ）を考慮した方法を用いてもよい。

図１２は、図１１で説明した、単語間対応関係抽出部６の処理の結果として抽出された、日本語と英語の単語間の対応関係の例を表す図である。
図１２に示すように、例えば行１２０１では、日本語の単語「露光」に対する英語の単語「ｅｘｐｏｓｕｒｅ」が抽出され、スコアとともに出力される。行１２０１と行１２０２の例のように、英語の１つの単語「ｅｘｐｏｓｕｒｅ」と、日本語の複数の単語「露光」と「露出」との対応関係を得ることができるし、逆に、行１２０６と行１２０７の例のように、日本語の１つの単語「検索」に対し、英語の複数の単語「ｓｅａｒｃｈ」と「ｒｅｔｒｉｅｖｅ」を得ることもできる。また、単語間の対応関係に付与されたスコアによって、対応関係の適切さの度合いが定量的に示されるので、用途によっては、例えば、スコアが高い対応関係、すなわち正しい対訳語である可能性の高い対応関係のみを選んで使用することも可能である。

図１３は、図１または図５のカテゴリ生成部７の処理の流れの一例を表すフローチャートである。
この処理は、ある１つの言語で記述された文書集合を対象にクラスタリングを行うことで、内容が類似した文書をまとめたカテゴリ（クラスタ）を自動生成する処理である。

まず、カテゴリ生成部７は、カテゴリ生成の対象とする言語ｌの文書集合をＤｌとし、カテゴリ生成の結果であるカテゴリ集合Ｃｌの初期値を空集合とする（Ｓ１３０１）。カテゴリ生成部７は、この文書集合Ｄｌ中の各文書ｄｌについて繰り返して（Ｓ１３０２）、以下のＳ１３０３からＳ１３１４までの処理を実行する。

カテゴリ生成部７は、単語抽出部２を用いて文書ｄｌから抽出した単語によって、ｄｌの単語ベクトルｖｄｌを求める（Ｓ１３０３）。単語ベクトルとは、文書中に出現する各単語をベクトルの次元とし、各単語の重みをベクトルの当該次元の値としたベクトルであり、従来技術を用いて求めることができる。単語ベクトルの各単語の重みは、例えば以下の式（３）で示したように、一般的にＴＦＩＤＦと呼ばれる方法で計算できる。

tfidf(tl,dl,Dl)＝tf(tl,dl)*log(|Dl|/df(tl,Dl)) …式（３）
式（３）中の、ｔｆ（ｔｌ，ｄｌ）は、単語ｔｌについての文書ｄｌでの単語頻度（ＴＦ）であり、ｄｆ（ｔｌ，Ｄｌ）は、単語ｔｌについての文書集合Ｄｌでの文書頻度（ＤＦ）である。なお、ｔｆ（ｔｌ，ｄｌ）は、単純に、文書ｄｌでの単語ｔｌの出現回数としてもよいが、例えば、文書ｄｌに出現する全ての単語の出現回数の総和によって、各単語の出現回数を割って正規化した値でもよい。

また、カテゴリ生成部７は、ある文書の部分集合Ｄｃｌ（Ｄｃｌ⊆Ｄｌ）について単語ベクトルを求める場合は、単語ベクトルの単語ｔｌの重みは、以下の式（４）に示すように、Ｄｃｌ中の各文書ｄｌの単語ベクトルの単語ｔｌの重みの総和として計算することができる。

tfidf(tl,Dcl,Dl)＝(Σ_dl∈Dcl(tf(tl,dl)))*log(|Dl|/df(tl,Dl)) …式（４）
なお、図５にて説明した、辞書を使用するように構成した実施形態では、カテゴリ生成部７は、単語ベクトルの中の重要語の重みを重くしたり、不要語を削除したり、同義語である複数の単語を１つの次元にまとめたりといった処理を、このＳ１３０３のステップで行ってもよい。

また、カテゴリ生成部７における計算については、式（３）や式（４）には限られず、単語ベクトルの各単語の重みを求められる計算ができるものであれば良いし、同様の処理がなされれば、必ずしもカテゴリ生成部７で行なわれなくても差し支えない。

次に、カテゴリ生成部７は、文書ｄｌの分類先カテゴリｃｍａｘの初期値を「なし」とし、ｄｌとｃｍａｘとの類似度の最大値ｓｍａｘの初期値を０とする（Ｓ１３０４）。そして、カテゴリ生成部７は、カテゴリ集合Ｃｌ中の各カテゴリｃｌについて繰り返して（Ｓ１３０５）、以下のＳ１３０６からＳ１３０８までの処理を実行する。

カテゴリ生成部７は、カテゴリｃｌと文書ｄｌとの類似度ｓを、カテゴリｃｌの単語ベクトルｖｃｌと、文書ｄｌの単語ベクトルｖｄｌとの余弦値ｃｏｓ（ｖｃｌ，ｖｄｌ）によって求める（Ｓ１３０６）。

次に、カテゴリ生成部７は、類似度ｓが所定の閾値以上で、かつ、ｓｍａｘより大きければ（Ｓ１３０７のＹＥＳ）、ｃｍａｘ＝ｃｌ、ｓｍａｘ＝ｓとする（Ｓ１３０８）。カテゴリ生成部７は、この繰り返し処理（Ｓ１３０５）の結果、カテゴリｃｍａｘが存在すれば（Ｓ１３０９のＹＥＳ）、このカテゴリｃｍａｘに文書ｄｌを分類し（Ｓ１３１０）、カテゴリｃｍａｘの単語ベクトルｖｃｍａｘに文書ｄｌの単語ベクトルｖｄｌを加える（Ｓ１３１１）。その結果、単語ベクトルｖｃｍａｘの各単語の重みは、式（４）で示したように、文書ｄｌの単語頻度による重みが加わった値となる。

一方、カテゴリ生成部７は、カテゴリｃｍａｘが存在しなければ（Ｓ１３０９のＮＯ）、カテゴリｃｎｅｗを新規に作成して、これをカテゴリ集合Ｃｌに追加し（Ｓ１３１２）、文書ｄｌをカテゴリｃｎｅｗに分類し（Ｓ１３１３）、カテゴリｃｎｅｗの単語ベクトルｖｃｎｅｗを、文書ｄｌの単語ベクトルｖｄｌとする（Ｓ１３１４）。

以上の繰り返し処理（Ｓ１３０２）の結果として、文書集合をクラスタリングした結果のカテゴリがカテゴリ集合Ｃｌに生成されるが、カテゴリ生成部７は、このうち文書数が所定の閾値未満のカテゴリは削除する（Ｓ１３１５）。すなわち、カテゴリ生成部７は、例えば文書数が１件のみのカテゴリは意味がないので、このようなカテゴリを結果から除く。

また、カテゴリ生成部７は、生成された各カテゴリｃｌについて、その単語ベクトルｖｃｌを用いて、当該カテゴリの名称を設定する（Ｓ１３１６）。カテゴリ生成部７は、例えば、カテゴリの単語ベクトルのうち、最も重みが大きい単語を１つまたは複数個選んで名称とすればよく、例えば図７（ｂ）に示した例では、行７０８で示される２つの単語「顔」と「検出」を用いて、カテゴリの名称「顔−検出」を設定する。このようにして生成されたカテゴリは、単語ベクトルの類似度が大きい文書同士をまとめたカテゴリとなる。図１３で説明した処理は、一般的にはｌｅａｄｅｒ−ｆｏｌｌｏｗｅｒ法と呼ばれるクラスタリング手法であるが、本実施形態はこの方法に限定せず、例えば階層型クラスタリングの手法や、ｋ−ｍｅａｎｓ法などの手法を用いてもよい。

図１４は、カテゴリの複数の言語の単語ベクトルを生成する処理の流れの一例を表すフローチャートである。
この処理は、後述する図１５と図１７に示す処理で用いる単語ベクトルを求めるために図１５のＳ１５０４（カテゴリ間対応関係抽出部８）と図１７のＳ１７０４（事例ベース文書分類部９）において、それぞれ行なわれる処理として実行される。カテゴリに分類されている文書の言語は、カテゴリによって異なり、例えばあるカテゴリには、日本語の文書のみが分類されており、別のカテゴリには、多数の英語の文書と少数の中国語の文書とが分類されている、といった場合がある。このような様々なカテゴリの間で、内容の類似性を判定するために、例えば日本語の文書のみが分類されているカテゴリに基づいて、英語や中国語の単語ベクトルを生成することが、図１４の処理の目的である。

なお、図１に対応する第１の実施形態においてはカテゴリ間対応関係抽出部８で以下の処理は実施され、図２に対応する第２の実施形態においては事例ベース文書分類部９で以下の処理は実施されるため、以下の「単語ベクトル生成処理」は、カテゴリ間対応関係抽出部８または事例ベース文書分類部９で実施される処理であることを予め明示しておく。

まず、単語ベクトル生成処理では、複数の言語のうちの各言語ｌについて繰り返して（Ｓ１４０１）、以下のＳ１４０２からＳ１４０６までの処理を実行する。単語ベクトル生成処理では、カテゴリｃに分類されている言語ｌの文書集合をＤｃｌとする（Ｓ１４０２）。単語ベクトル生成処理では、カテゴリｃと言語ｌの種別によっては、文書集合Ｄｃｌは空集合である場合もある。次に単語ベクトル生成処理では、カテゴリｃの言語ｌの単語ベクトルの初期値ｖｃｌを空ベクトル（全ての次元の重みが０）とする（Ｓ１４０３）。

次に、単語ベクトル生成処理では、文書集合Ｄｃｌ中の各文書ｄｌについて繰り返し（Ｓ１４０４）、文書ｄｌの単語ベクトルｖｄｌを求め（Ｓ１４０５）、カテゴリｃの言語ｌの単語ベクトルｖｃｌに、文書ｄｌの単語ベクトルｖｄｌを加える（式（４）参照）（Ｓ１４０６）。このようにして、まず、カテゴリｃに実際に分類されている言語ｌの文書集合Ｄｃｌ自体をもとに、各言語ｌの単語ベクトルが生成される。ただし、前述のように、文書集合Ｄｃｌが空集合であれば、単語ベクトルｖｃｌも空ベクトルとなる。

次に、単語ベクトル生成処理では、再度、複数の言語のうちの各言語ｌについて繰り返して（Ｓ１４０７）、以下のＳ１４０８からＳ１４１３までの処理を実行する。単語ベクトル生成処理では、カテゴリｃの言語ｌの単語ベクトルｖｃｌ’を空ベクトルとする（Ｓ１４０８）。この単語ベクトルｖｃｌ’は、Ｓ１４０５で求めた単語ベクトルｖｃｌとは別のベクトルであるが、単語ベクトル生成処理では、まず、単語ベクトルｖｃｌ’に単語ベクトルｖｃｌを加える（Ｓ１４０９）。

次に、単語ベクトル生成処理では、言語ｌ以外の各言語ｋについて繰り返して（Ｓ１４１０）、以下のＳ１４１１からＳ１４１３までの処理を実行する。単語ベクトル生成処理では、図１〜図５で示した単語間対応関係抽出部６を用い、図１１に示した処理によって、言語ｋと言語ｌの単語間の対応関係を取得する（Ｓ１４１１）。

次に単語ベクトル生成処理では、カテゴリｃの言語ｋの単語ベクトルｖｃｋを、言語ｌの単語ベクトルｖｃｋｌに変換する（Ｓ１４１２）。Ｓ１４１１で取得した単語間の対応関係では、図１２で説明したように、言語ｋの単語ｔｋと、言語ｌの単語ｔｌと、その対応関係のスコアとが得られている。そこで、単語ベクトル生成処理では、以下の式（５）によって、言語ｋの単語ベクトルｖｃｋの単語ｔｋの重みｗｅｉｇｈｔ（ｖｃｋ，ｔｋ）と、単語ｔｋと単語ｔｌとの対応関係のスコアｓｃｏｒｅ（ｔｋ，ｔｌ）とを用いて、言語ｌの単語ベクトルｖｃｋｌの、単語ｔｌの重みを求める。

weight(vckl,tl)＝Σ_tk(weight(vck,tk)*score(tk,tl)) …式（５）
ここで、単語ベクトルｖｃｋの単語ｋの重みｗｅｉｇｈｔ（ｖｃｋ，ｔｋ）は、式（４）で説明したＴＦＩＤＦとしてよい。また、単語ｋと単語ｌとの対応関係のスコアｓｃｏｒｅ（ｔｋ，ｔｌ）は、図１１で説明したα＊ｄｉｃｅ（ｔｋ，ｔｌ，Ｄｋｌ）＋β＊ｓｉｍｐ（ｔｋ，ｔｌ，Ｄｋｌ）としてよい。なお、単語ｔｌと対応関係にある言語ｋの単語ｔｋが存在しなければ、単語ベクトルｖｃｋｌでの単語ｔｌの重みは０となるが、単語ベクトルとしては、全ての次元の重みが０より大きい値である必要はない。

単語ベクトル生成処理では、このようにして言語ｋの単語ベクトルを言語ｌに変換した単語ベクトルｖｃｋｌを単語ベクトルｖｃｌ’に加える（Ｓ１４１３）。
Ｓ１４１０の繰り返し処理によって、カテゴリｃの言語ｌの単語ベクトルｖｃｌ’が生成され、Ｓ１４０７の繰り返し処理によって、カテゴリｃの全ての言語の単語ベクトルが生成される。

以上の説明から明らかなように、例えば日本語の文書しか分類されていないカテゴリについても、日本語と英語の単語間の対応関係や、日本語と中国語の単語間の対応関係を用いることで、英語の単語ベクトルや、中国語の単語ベクトルを生成することができる。

また、図１４のＳ１４０８からＳ１４１３までの処理は、各言語ｌの単語ベクトルｖｃｌをもとに単語ベクトルｖｃｌ’を生成する処理であるので、図１４の処理を変形して、Ｓ１４０８からＳ１４１３までの処理を再帰的に実行することで、各言語の単語ベクトルｖｃｌ’をもとに、その次元をさらに増やして重みを洗練させた単語ベクトルｖｃｌ’’を生成することもできる。すなわち単語ベクトルｖｃｌと単語ベクトルｖｃｋから単語ベクトルｖｃｌ’を生成するのと同様に、単語ベクトルｖｃｌ’と単語ベクトルｖｃｋ’から単語ベクトルｖｃｌ’’を生成することもできる。

図１５は、図１または図５に示したカテゴリ間対応関係抽出部８の処理の流れの一例を表すフローチャートである。
この処理は、あるカテゴリ集合Ｃｌの各カテゴリｃｌと、別のカテゴリ集合Ｃｋの各カテゴリｃｋとの間の対応関係を抽出する処理であり、特に、異なる言語で記述された文書が分類されたカテゴリ間で、内容の類似性に基づいた対応関係を抽出することを目的とする処理である。カテゴリ集合Ｃｋとカテゴリ集合Ｃｌの各カテゴリに分類された文書の言語は、この図１５の処理では特に制限を設けないが、一般的には、図１または図５に示したカテゴリ生成部７による図１３に示した処理によって生成された、単一の言語（カテゴリ集合Ｃｋについては言語ｋ、カテゴリ集合Ｃｌについては言語ｌ）の文書を分類するカテゴリの集合を主な処理対象とする。

カテゴリ間対応関係抽出部８は、カテゴリ集合Ｃｋとの対応関係を求める対応先のカテゴリ集合をＣｌとし（Ｓ１５０１）、カテゴリ集合Ｃｋの各カテゴリｃｋについて繰り返し（Ｓ１５０２）、以下のＳ１５０３からＳ１５０９までの処理を実行する。
カテゴリ間対応関係抽出部８は、まず、カテゴリｃｋの対応先のカテゴリｃｍａｘの初期値を「なし」とし、カテゴリｃｋとカテゴリｃｍａｘとの類似度の最大値ｓｍａｘを０とする（Ｓ１５０３）。

次に、カテゴリ間対応関係抽出部８は、カテゴリｃｋの言語ｋの単語ベクトルｖｃｋｋ’と、言語ｌの単語ベクトルｖｃｋｌ’とを求める（Ｓ１５０４）。このＳ１５０４の処理は、図１４で説明した処理によって行う。次に、カテゴリ間対応関係抽出部８は、カテゴリ集合Ｃｌの各カテゴリｃｌについて繰り返して（Ｓ１５０５）、以下のＳ１５０６からＳ１５０９までの処理を実行する。

まず、カテゴリ間対応関係抽出部８は、カテゴリｃｌの言語ｋの単語ベクトルｖｃｌｋ’と、言語ｌの単語ベクトルｖｃｌｌ’とを求める（Ｓ１５０６）。このＳ１５０６の処理はＳ１５０４の処理と同様に、図１４で説明した処理によって行う。

次に、カテゴリ間対応関係抽出部８は、カテゴリｃｋとカテゴリｃｌとの類似度を、Ｓ１５０４とＳ１５０６で求めた単語ベクトルを用いて、類似度をｓ＝ｃｏｓ（ｖｃｋｋ’，ｖｃｌｋ’）＋ｃｏｓ（ｖｃｋｌ’，ｖｃｌｌ’）として求める（Ｓ１５０７）。すなわち、カテゴリ間対応関係抽出部８は、言語ｋの単語ベクトル同士の余弦値と、言語ｌの単語ベクトル同士の余弦値との和によって、カテゴリ間の類似度を求める。

カテゴリ間対応関係抽出部８は、この類似度ｓが所定の閾値以上で、かつ、ｓｍａｘより大きければ（Ｓ１５０８のＹＥＳ）、カテゴリｃｍａｘ＝ｃｌとし、ｓｍａｘ＝ｓとする（Ｓ１５０９）。カテゴリ間対応関係抽出部８は、Ｓ１５０５の繰り返し処理の後、カテゴリｃｍａｘが存在すれば、このカテゴリｃｍａｘをカテゴリｃｋの対応先のカテゴリとする（Ｓ１５１０）。すなわち、カテゴリ集合Ｃｌのうち、カテゴリｃｋと内容が最も類似していると考えられるカテゴリとしてｃｍａｘが得られる。また、この場合の対応関係の類似度（スコア）は、ｓｍａｘとなる。

なお、Ｓ１５０７で、カテゴリｃｋとｃｌの対応関係のスコアを、言語ｋと言語ｌの単語ベクトルの余弦値の和としていたが、本実施形態はこの方法に限定しない。例えば、言語ｋの単語ベクトル同士の余弦値と、言語ｌの単語ベクトル同士の余弦値との最大値、すなわち、ｓ＝ｍａｘ（ｃｏｓ（ｖｃｋｋ’，ｖｃｌｋ’），ｃｏｓ（ｖｃｋｌ’，ｖｃｌｌ’））としてスコアを計算してもよい。

図１６（ａ）は、図１５の処理によって抽出されたカテゴリ間の関係の例を表す図である。
図１６（ａ）の行１６０１や行１６０２などの各行では、対応関係が得られたカテゴリの名称（この例では日本語のカテゴリと英語のカテゴリ）と、その対応関係のスコア、つまり図１５のＳ１５０７で求めた類似度を示している。

図１３の処理によって自動生成されたカテゴリには、図１３のＳ１３１６で説明したように、カテゴリに分類された文書に多く出現する単語を用いて、カテゴリの名称が設定されている。よって、ユーザは、図１６（ａ）に示した行１６０１に示される結果である、カテゴリの名称（「顔−検出」と「ｆａｃｅ−ｄｅｔｅｃｔ」）、図１６（ａ）に示した行１６０２に示される結果である、カテゴリの名称（「画像−検索」と「ｉｍａｇｅ−ｓｅａｒｃｈ」）や、対応関係のスコアを用いて、自動的に抽出されたカテゴリ間の対応関係が適切かどうかを簡単に確認することができる。

適切な対応関係が得られたカテゴリ同士は、図１〜図５に示したカテゴリ操作部４を用いて統合することも可能である。図１６（ｂ）には一例として、図１６（ａ）の行１６０１の２つのカテゴリ、つまり図７の（ｂ）に示されるカテゴリと図７（ｄ）に示されるカテゴリを統合した結果を示す。

この例では、図１６（ｂ）の行１６０３に示すように、カテゴリの名称が「顔−検出−ｆａｃｅ−ｄｅｔｅｃｔ」という形で連結され、また、図１６（ｂ）の行１６０４に示すように、カテゴリに分類されている文書集合が、図７（ｂ）の行７１０で示される文書集合と図７（ｄ）の行７１０で示した文書集合との和集合となり、日本語と英語の文書が分類されるようになる。

このような構成によれば、例えば、日本語の文書と、英語の文書と、中国語の文書とが混在した文書集合を分類対象とする場合、これらの文書を内容の類似性に基づいて、言語横断的に分類するための分類構造を効率よく作成することができる。すなわち、まず、日本語、英語、中国語の文書集合を、各言語毎に別々にクラスタリングして、各言語において内容が類似した文書を分類するカテゴリを自動生成する。次に、異なる言語で記述された文書間の対応関係に基づいて、異なる言語で記述された単語間の対応関係を抽出する。ここで、異なる言語で記述された文書間の対応関係とは、一般的には対訳または対訳に近い関係で、その具体例としては、特許文書を分類対象とした場合、例えば、日本国特許と米国特許との、優先権や国際特許出願による対応関係などが挙げられる。抽出される単語間の対応関係としては、例えば、日本語の単語「文字」と、英語の単語「ｃｈａｒａｃｔｅｒ」と、中国語の単語「字符」といった、対訳に近い対応関係が自動的に得られる。次に、このような単語間の対応関係に基づき、異なる言語で記述されたカテゴリ間の対応関係を自動的に抽出する。そして、対応関係が得られたカテゴリ同士を、言語横断的に統合することで、日本語、英語、中国語といった言語によらず、内容が類似した文書を分類するカテゴリを作成することができる。

次に、図２に示した実施形態における処理について説明する。図１７は、図２に示した事例ベース文書分類部９の処理の流れの一例を表すフローチャートである。
従来技術として、カテゴリに既に分類されている文書を分類事例（教師文書）とし、これに基づいて、未分類の文書を当該カテゴリに分類すべきかどうかを決定する、事例ベース分類（教師あり自動分類）の技術が実現されているが、図２に示した実施形態における図１７の処理によれば、カテゴリに既に分類されている文書と、当該カテゴリに分類すべきがどうかを決定する未分類の文書とが異なる言語で記述されていてもよい。

図１７に示した処理の流れにおいて、まず、事例ベース文書分類部９は、文書の分類先の候補のカテゴリ集合をＣとし、分類対象の文書集合をＤとする（Ｓ１７０１）。事例ベース文書分類部９は、カテゴリ集合Ｃの各カテゴリｃについて繰り返し（Ｓ１７０２）、各言語の単語ベクトルを求める。すなわち、事例ベース文書分類部９は、各言語ｌについて繰り返し（Ｓ１７０３）、カテゴリｃの言語ｌの単語ベクトルｖｃｌ’を求める（Ｓ１７０４）。この処理は、図１４で説明した処理によって行う。

次に、事例ベース文書分類部９は、文書集合Ｄの各文書ｄｌ（言語ｌで記述されている文書）について繰り返し（Ｓ１７０５）、以下のＳ１７０６からＳ１７１１までの処理を実行する。

まず、事例ベース文書分類部９は、文書ｄｌの言語ｌの単語ベクトルｖｄｌを求める（Ｓ１７０６）。この処理は、式（３）を用いて言語ｌの各単語の重みを求めることで行う単純な処理である。

次に、事例ベース文書分類部９は、カテゴリ集合Ｃの各カテゴリｃについて繰り返し（Ｓ１７０７）、以下のＳ１７０８からＳ１７１１までの処理を実行する。
まず、事例ベース文書分類部９は、文書ｄｌがカテゴリｃに既に分類されていなければ（Ｓ１７０８のＮＯ）、カテゴリｃと文書ｄｌとの類似度ｓを、単語ベクトルの余弦値により、ｓ＝ｃｏｓ（ｖｃｌ’，ｖｄｌ）として求める（Ｓ１７０９）。ここで、文書ｄｌの単語ベクトルｖｄｌは言語ｌの単語ベクトルであるため、これとの類似度を求めるカテゴリの単語ベクトルとしては、同じ言語ｌの単語ベクトルｖｃｌ’を用いる。これはＳ１７０４にて、各言語について求めた単語ベクトルのうち、言語ｌについて求めた単語ベクトルである。

事例ベース文書分類部９は、類似度ｓが所定の閾値以上であれば（Ｓ１７１０のＹＥＳ）、カテゴリｃに文書ｄｌを分類する（Ｓ１７１１）。このＳ１７１０とＳ１７１１の処理は変形させることも可能で、例えば、類似度が最大である１つのカテゴリを選んで文書を分類させるようにしたり、あるいは、類似度が大きい順から最大３個まで選んだカテゴリに文書を分類させるようにしたりするといった変形を容易に行うことができる。

この図１７の処理では、特にＳ１７０３とＳ１７０４によって、カテゴリに既に分類されている文書の言語によらず、複数の言語の単語ベクトルが得られるため、これを用いて、どのような言語で記述された文書についても分類先のカテゴリを選ぶことができる。

このような構成によれば、例えば、あるカテゴリに、まずユーザが理解しやすい母国語の文書、例えば日本語の文書のみを、いくつか手作業で分類した後、この日本語の文書の分類事例すなわち教師文書に基づいて、これと内容が類似した英語や中国語の文書を、当該カテゴリに自動的に分類することができる。

次に、図３に示した実施形態における処理について説明する。図１８は、図３に示したカテゴリ特徴語抽出部１０の処理の流れの一例を表すフローチャートである。
カテゴリの特徴語とは、カテゴリに分類された文書の内容を表す特徴的な単語であり、例えば、カテゴリにどのような文書が分類されているかを、ユーザが簡単に理解できるようにすることを目的として、各カテゴリから自動抽出される。

図１８に示した処理において、まず、カテゴリ特徴語抽出部１０は、特徴語を抽出する対象のカテゴリをｃとし、抽出する特徴語の言語をｌとした場合、カテゴリｃに分類されている言語ｌの文書集合をＤｃｌとし、このＤｃｌの文書に出現する単語の単語集合をＴｃｌとする（Ｓ１８０１）。この単語集合Ｔｃｌは、図１〜図５に示した単語抽出部２を用いて、図１０に示した処理により、文書集合Ｄｃｌ中の各文書から抽出した単語の和集合をとり、各単語の文書頻度（ＤＦ）を集計することで得られる。これは、例えば図１１のＳ１１０２やＳ１１０３で行う処理と同じ処理である。

次に、カテゴリ特徴語抽出部１０は、単語集合Ｔｃｌの各単語ｔｃｌについて繰り返して（Ｓ１８０２）、ｔｃｌのスコアを以下の式（６）によって求める（Ｓ１８０３）。

mi(t,Dcl,Dl)=df(t,Dcl)/|Dl|*log(df(t,Dcl)*|Dl|/df(t,Dl)/|Dcl|)
+(df(t,Dl)-df(t,Dcl))/|Dl|*log((df(t,Dl)-df(t,Dcl))*|Dl|/df(t,Dl)/(|Dl|-|Dcl|))
+(|Dcl|-df(t,Dcl))/|Dl|*log((|Dcl|-df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/|Dcl|)
+(|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))/|Dl|*log((|Dl|-df(t,Dl)-|Dcl|+df(t,Dcl))*|Dl|/(|Dl|-df(t,Dl))/(|Dl|-|Dcl|)) …式（６）
ただし、df(t,Dcl)/df(t,Dl)≦|Dcl|/|Dl|ならmi(t,Dcl,Dl)=0
ここでは、カテゴリ特徴語抽出部１０は、相互情報量を用い、文書がカテゴリに分類されているかどうか、つまり文書が文書集合Ｄｃｌに含まれているかどうかという事象と、文書に単語ｔｃｌが出現するかどうかという事象の間の、相関の強さによって、特徴語のスコアを求める。ただし、式（６）中のＤｌは、言語ｌで記述された文書の全体集合（一般的にはＤｌ⊇Ｄｃｌ、多くの場合はＤｌ⊃Ｄｃｌ）である。また、カテゴリ特徴語抽出部１０は、単語とカテゴリとの間には負の相関がある場合もあるので、これを除外するため、ｄｆ（ｔｃｌ，Ｄｃｌ）／ｄｆ（ｔｃｌ，Ｄｌ）≦｜Ｄｃ｜／｜Ｄｌ｜の場合は、式（６）のただし書きに示したように、スコアを０とする。
最後に、カテゴリ特徴語抽出部１０は、単語ｔｃｌをスコアが大きい順に所定の個数（例えば１０個）だけ選んだ結果を、カテゴリｃの言語ｌの特徴語とする（Ｓ１８０４）。

図１９は、図３に示したカテゴリ特徴語変換部１１の処理の流れの一例を表すフローチャートである。
図１８で説明した処理によれば、例えば中国語の文書のみが分類されているカテゴリからは、中国語の特徴語しか得られないため、例えば日本語を母国語とするユーザにとっては理解することが難しい。そこで、図１９に示した処理によって、ある言語で記述された特徴語を別の言語で記述された特徴語に変換する。

図１９に示した処理において、まず、カテゴリ特徴語変換部１１は、カテゴリｃの言語ｋの特徴語集合Ｔｃｋを、図１８に示した処理結果を用いて求める（Ｓ１９０１）。この特徴語集合Ｔｃｋに対応する別の言語ｌの単語を得ることが、このカテゴリ特徴語変換部１１による処理の目的である。

カテゴリ特徴語変換部１１は、カテゴリｃの言語ｌの特徴語集合Ｔｃｌを、Ｓ１９０１と同様に、図１８に示した処理結果を用いて求める（Ｓ１９０２）。このＳ１９０２の処理は必須ではなく、そもそも、カテゴリｃに言語ｌの文書が分類されていない場合には、言語ｌの特徴語を得ることはできず、特徴語集合Ｔｃｌは空集合になる。これらの特徴語集合Ｔｃｋと特徴語集合Ｔｃｌの各特徴語には、図１８におけるＳ１８０３で説明したように、スコアが付与されている。

次にカテゴリ特徴語変換部１１と、図１〜図５に示した単語間対応関係抽出部６（図１１の処理）によって、言語ｋと言語ｌの単語の対応関係を取得する（Ｓ１９０３）。カテゴリ特徴語変換部１１は、この図１９に示した処理結果である、カテゴリｃの言語ｋの特徴語と言語ｌの特徴語との組の集合をＰｃｋｌとし、その初期値を空集合とする（Ｓ１９０４）。

そして、カテゴリ特徴語変換部１１は、特徴語集合Ｔｃｋの各特徴語ｔｃｋについて繰り返して（Ｓ１９０５）、以下のＳ１９０６からＳ１９１０までの処理を実行する。
まず、カテゴリ特徴語変換部１１は、特徴語ｔｃｋに対応する言語ｌの単語ｔｃｌを、Ｓ１９０３で取得した単語間の対応関係を用いて求める。一般には、ｔｃｌは０個以上あり得るので、０個つまり存在しない場合も含め、特徴語ｔｃｋと特徴語ｔｃｌの組をｐｃｋｌとする（Ｓ１９０６）。

カテゴリ特徴語変換部１１は、ｐｃｋｌのスコアを求める。ｔｃｋの特徴語としてのスコアはＳ１９０１の処理で求められている。一方、ｔｃｌの特徴語としてのスコアは、Ｓ１９０２で得た特徴語集合Ｔｃｌに特徴語ｔｃｌが含まれる場合は求められているが、特徴語集合Ｔｃｌに含まれていない特徴語ｔｃｌのスコアは０である。以上の場合を考慮して、ｐｃｋｌのスコアは、特徴語ｔｃｋのスコアと特徴語ｔｃｌのスコアとの最大値とする（Ｓ１９０７）。

次に、カテゴリ特徴語変換部１１は、特徴語の組の集合Ｐｃｋｌの中の、既に作成したいずれかの組ｑｃｋｌと、今回作成した組ｐｃｋｌとで、言語ｋまたは言語ｌの単語に重複があるかどうかを調べる（Ｓ１９０８）。

カテゴリ特徴語変換部１１は、重複があるようなｑｃｋｌが存在する場合には（Ｓ１９０８のＹＥＳ）、ｑｃｋｌにｐｃｋｌを統合する。例えばｐｃｋｌ＝（｛ｔｃｋ１｝，｛ｔｃｌ１，ｔｃｌ２｝）であり、ｑｃｋｌ＝（｛ｔｃｋ２｝，｛ｔｃｌ２，ｔｃｌ３｝）であれば、ｐｃｋｌとｑｃｋｌとは、言語ｌの特徴語ｔｃｌ２が重複しているため、これらを統合してｑｃｋｌ＝（｛ｔｃｋ１，ｔｃｋ２｝，｛ｔｃｌ１，ｔｃｌ２，ｔｃｌ３｝）とする。この統合後のｑｃｋｌのスコアは、統合前のｑｃｋｌとｐｃｋｌの最大値（すなわち特徴語ｔｃｋ１、ｔｃｋ２、ｔｃｌ１、ｔｃｌ２、ｔｃｌ３のスコアの最大値）となる（Ｓ１９０９）。

一方、カテゴリ特徴語変換部１１は、ｐｃｋｌと単語が重複するｑｃｋｌが存在しなければ（Ｓ１９０８のＮＯ）、Ｐｃｋｌにｐｃｋｌを追加する（Ｓ１９１０）。そして、カテゴリ特徴語変換部１１は、Ｓ１９０５の繰り返し処理の後、Ｐｃｋｌ中の特徴語の組をスコアが大きい順に出力する（Ｓ１９１１）。

図２０は、図３に示したカテゴリ特徴語抽出部１０（図１８の処理に対応）によって抽出され、カテゴリ特徴語変換部１１（図１９の処理に対応）によって変換された特徴語の例を表形式で表す図である。
図２０に示すように、例えば行２００１に示すように英語の特徴語「ｆａｃｅ」が日本語の特徴語「顔」に変換され、同様に行２００２に示すように英語の特徴語「ｄｅｔｅｃｔ」が日本語の特徴語「検出」に変換される。また、例えば行２００３に示すように、英語の「ａｒｅａ」と「ｒｅｇｉｏｎ」という２つの特徴語は、日本語の「領域」という１つの特徴語に対応付けられる。逆に、行２００４に示すように英語の「ｅｘｐｏｓｕｒｅ」という１つの特徴語は、日本語の「露光」と「露出」という２つの特徴語に対応付けられる。このようにして変換した特徴語を用いることで、ユーザは、カテゴリに分類されている文書の内容を、様々な言語で容易に理解することができる。例えば、ユーザに対して、図２０に示したような、英語と日本語の特徴語の対応関係を提示することで、ユーザは、不慣れな言語で記述された単語の意味を簡単に知ることができるようになる。

このような構成によれば、例えば、中国語の文書が多く分類されたカテゴリから、まず、当該カテゴリの特徴語として、中国語の特徴語が自動的に抽出され、次に、この特徴語が、日本語や英語の特徴語に、自動的に変換される。ユーザは、自分にとって理解しやすい言語で記述された特徴語を用いることで、カテゴリの内容を容易に把握することができる。

次に、図４に示した実施形態における処理について説明する。図２１は、図４に示した分類ルール変換部１３の処理の流れの一例を表すフローチャートである。
図７の（ｃ）で説明したように、分類ルールを用いることで、例えば文書の「要約」に「露光」という単語を含むといった明示的な条件によって、文書を分類することができる。しかし、例えばこの「露光」という単語は、日本語の文書を分類する目的にしか適用できず、英語や中国語の文書を分類する目的には適用できない。そこで図２１に示した処理により、ある言語で記述された分類ルールを別の言語で記述された分類ルールに変換する。

まず、分類ルール変換部１３は、言語ｋと言語ｌの単語間の対応関係を取得する（Ｓ２１０１）。この処理は、図１〜図６に示した単語間対応関係抽出部６（図１１の処理に対応）によって行われる。

次に、分類ルール変換部１３は、変換の対象とする分類ルールの、言語ｋの要素（図７（ｃ）の例では日本語の要素「ｃｏｎｔａｉｎｓ（要約、”露光”）」）について繰り返して（Ｓ２１０２）、以下のＳ２１０３からＳ２１０６までの処理を実行する。
まず、分類ルール変換部１３は、分類ルールの要素ｒｋの中の単語ｔｋに対応する言語ｌの単語ｔｌが存在するかどうかを、Ｓ２１０１で取得した単語間の対応関係を用いて判断し（Ｓ２１０３）、単語ｔｌが存在すれば（Ｓ２１０３のＹＥＳ）、ｒｋの単語ｔｋを単語ｔｌに置き換えた要素ｒｌを作成する（Ｓ２１０４）。図７（ｃ）の例では、単語ｔｋは「露光」、単語ｔｌは「ｅｘｐｏｓｕｒｅ」、分類ルールの置き換え前の要素ｒｋは「ｃｏｎｔａｉｎｓ（要約、”露光”）」、置き換え後の要素ｒｌは「ｃｏｎｔａｉｎｓ（要約、”ｅｘｐｏｓｕｒｅ”）」となる。そして、分類ルールの要素ｒｋの部分を、（ｒｋＯＲｒｌ）という論理和に置き換える。

図２２は、このようにして変換されたカテゴリの分類ルールの例を表す図であるが、Ｓ２１０４の処理の結果、図７（ｃ）の行７１２で示した分類ルールが、図２２（ａ）の行２２０１に示した分類ルールに変換される。

分類ルール変換部１３は、図２１のＳ２１０５以降の処理では、さらに、分類ルールの言語ｋの要素を拡張する（この処理は必須ではない）。分類ルール変換部１３は、言語ｌの単語ｔｌに対応する言語ｋの単語ｔｋ’（ｔｋとは異なる単語）が存在するかどうかを、Ｓ２１０１で取得した単語間の対応関係を用いて判断し（Ｓ２１０５）、単語ｔｋ’が存在すれば（Ｓ２１０５のＹＥＳ）、Ｓ２１０４で作成した要素ｒｌの単語ｔｌを単語ｔｋ’に置き換えた要素ｒｋ’を作成する（Ｓ２１０６）。図７（ｃ）の行７１２に示した例では、単語ｔｌは「ｅｘｐｏｓｕｒｅ」であり、単語ｔｋ’は「露出」であり、分類ルールの要素ｒｋ’は「ｃｏｎｔａｉｎｓ（要約、”露出”）」である。そして、分類ルールのｒｌの部分を、（ｒｌＯＲｒｋ’）に置き換える。この場合、もとの分類ルールの要素ｒｋは、結局、（ｒｋＯＲｒｌＯＲｒｋ’）に置き換わることになる。

図２２（ｂ）の行２２０２に示した分類ルールでは、最終的に得られた分類ルールを示す。このような分類ルールにより、日本語の文書だけでなく、英語の文書も分類できるようになり、さらに、日本語の文書についても、もとの分類ルールと比べて、文書を漏れなく分類できるようになる。

このような構成によれば、例えばあるカテゴリに、まず、日本語の「暗号」という単語を含む文書を分類するように、分類ルールを作成した後、次にこの分類ルールを英語や中国語に変換することで、例えば、英語の「encrypt」や中国語の「加密」など、日本語の「暗号」の対訳語や関連語を含む文書を、当該カテゴリに分類することができる。

次に、図５に示した実施形態における処理について説明する。図２３は、図５に示した辞書変換部１６の処理の流れの一例を表すフローチャートである。
図９と図１３のＳ１３０３などで説明したように、重要語、不要語、同義語などの辞書語を用いることで、文書を内容に応じて適切に分類できるようになるが、複数の異なる言語で記述された文書を分類する場合、辞書を作成する作業に労力がかかるという問題がある。そこで図２３の処理により、ある言語で記述された辞書語を、別の言語で記述された辞書語に自動的に変換することで、様々な言語で記述された辞書を簡単に作成できるようにする。

図２３に示した処理において、まず、辞書変換部１６は、言語ｋと言語ｌの単語間の対応関係を取得する（Ｓ２３０１）。この処理は、図１〜図５に示した単語間対応関係抽出部６（図１１の処理に対応）によって行われる。

次に、辞書変換部１６は、変換の対象とする言語ｋの辞書語ｔｋについて繰り返して（Ｓ２３０２）、以下のＳ２３０３からＳ２３０６までの処理を実行する。
まず、辞書変換部１６は、辞書語ｔｋに対応する言語ｌの単語ｔｌが存在するかどうかを、Ｓ２３０１で取得した単語間の対応関係を用いて判断し（Ｓ２３０３）、単語ｔｌが存在すれば（Ｓ２３０３のＹＥＳ）、この単語ｔｌを辞書語とし、その種類（重要語、不要語、同義語など）を、辞書語ｔｋと同じ種類にし、さらに、１つの辞書語ｔｋに対応する単語ｔｌが複数個存在すれば、これらを同義語にする（Ｓ２３０４）。

図２４（ａ）には、図９で示した日本語の辞書を英語の辞書に変換した結果の例を示す。
図２４（ａ）の行２４０１では、図９の行９０１の日本語の重要語「フラッシュ」が、英語の重要語「ｆｌａｓｈ」に変換されたことが示される。
図２４（ａ）の行２４０２では、図９の行９０２の日本語の重要語「露光」が英語の重要語「ｅｘｐｏｓｕｒｅ」に変換されたことが示される。
図２４（ａ）の行２４０３では、図９の行９０４の日本語の不要語「装置」が、英語の２つの単語「ａｐｐａｒａｔｕｓ」と「ｄｅｖｉｃｅ」に変換されることが示され、これらの辞書語は図２４（ａ）の行２４０３に示すように、不要語かつ同義語となる。

図２４（ａ）の行２４０４に示すように、図９の行９０５の日本語の同義語「フラッシュ」と「ストロボ」は、各々の単語（表記）が英語の「ｆｌａｓｈ」と「ｓｔｒｏｂｅ」に変換されるため、これらは英語においても図２４（ａ）の行２４０４に示した同義語となる。

なお、同義語を変換した結果、１つ以下の単語しか得られなかった場合（変換先の言語で対応する単語が存在しない場合、あるいは、同一の単語に変換される場合）には、同義語としての意味がなくなるため、変換先の辞書ではこの同義語を削除してもよい。

次に、辞書変換部１６は、変換元である言語ｋの辞書の同義語を拡張する処理を行なう（この処理は必須ではない）。辞書変換部１６は、言語ｌの単語ｔｌに対応する言語ｋの単語ｔｋ’（ｔｋとは異なる単語）が存在するかどうかを、Ｓ２３０１で取得した単語間の対応関係を用いて判断し（Ｓ２３０５）、単語ｔｋ’が存在すれば（Ｓ２３０５のＹＥＳ）、言語ｋのもとの単語ｔｋと単語ｔｋ’とを同義語にする（Ｓ２３０６）。

例えば図９の行９０２の重要語「露光」に対しては、図２４（ａ）の行２４０２の英語の重要語「ｅｘｐｏｓｕｒｅ」が対応するが、この「ｅｘｐｏｓｕｒｅ」は、図１２の行１２０２に示すように日本語の単語「露出」にも対応するため、結果として、日本語の辞書では、図２４（ｂ）の行２４０５に示すように、「露光」と「露出」は重要語かつ同義語となる。このようにして、例えば日本語の辞書を変換して英語の辞書を自動的に作成できるだけでなく、日本語の辞書についても、同義語を追加することができる。

このような構成によれば、例えば、まず、日本語の文書を適切に分類する目的で作成した辞書から、英語や中国語の文書を分類するのに適した辞書を、効率よく作成することができる。

これらの各実施形態では、分類対象の文書集合自体に含まれる、異なる言語で記述された文書間の対応関係のみを用いて、以上のような機能が実現できるので、予め対訳辞書などを用意する必要がない。さらに、既存の汎用的な対訳辞書を用いた場合には、分類対象の文書に応じて適切な対訳語を選択する必要があるが、本実施形態では、分類対象の文書自体から抽出した単語の対応関係を用いるので、対訳語を選択する必要はなく、また、不適切な対訳語を用いてしまうこともない。その結果、カテゴリ間の言語横断的な対応関係を自動的に抽出する処理や、文書を言語横断的に自動分類する処理が、高精度で実現できる。また、前述の分類ルールや辞書語を、汎用的な対訳辞書を用いて従来の方法で変換した場合には、不適切な分類ルールや辞書語が作られてしまうことが少なくないが、本実施形態ではこのような問題はなく、分類対象の文書を適切に分類するための分類ルールや辞書語を得ることができる。

また、これらの各実施形態によれば、複数の異なる自然言語で記述された大量の文書を、内容の類似性に基づいて、言語横断的に分類するための分類構造を効率よく作成することが可能になる文書分類装置および文書分類処理プログラムを提供することができる。
発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…文書記憶部、２…単語抽出部、３…カテゴリ記憶部、４…カテゴリ操作部、５…文書間対応関係記憶部、６…単語間対応関係抽出部、７…カテゴリ生成部、８…カテゴリ間対応関係抽出部、９…事例ベース文書分類部、１０…カテゴリ特徴語抽出部、１１…カテゴリ特徴語変換部、１２…ルールベース文書分類部、１３…分類ルール変換部、１４…辞書記憶部、１５…辞書設定部、１６…辞書変換部。

Claims

複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、
前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、
前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、
前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、
前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段と、
前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段と
を具備することを特徴とする文書分類装置。
複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、
前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、
前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、
前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、
前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段と、
前記カテゴリ記憶手段に記憶した１つまたは複数のカテゴリを対象に、各カテゴリにすでに分類されている１つまたは複数の既分類文書に基づき、当該カテゴリに未だ分類されていない未分類文書を当該カテゴリに分類すべきかどうかを決定する事例ベース文書分類手段とを具備し、
前記事例ベース文書分類手段は、
各カテゴリの既分類文書と未分類文書の各々に、前記単語抽出手段によって抽出した単語が出現する頻度と、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリの既分類文書に出現する頻度が多い単語と、ある未分類文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が所定条件を満たして多く存在する場合に、前記カテゴリの既分類文書を記述した言語とは別の言語で記述された未分類文書を、当該カテゴリに分類するかどうかを決定する
ことを特徴とする文書分類装置。
前記カテゴリ記憶手段に記憶した１つまたは複数のカテゴリを対象に、各カテゴリに分類された、１つまたは複数の言語で記述された１つまたは複数の文書に、前記単語抽出手段によって抽出した単語が出現する頻度に基づき当該カテゴリの特徴語を抽出するカテゴリ特徴語抽出手段と、
前記カテゴリ特徴語抽出手段によって抽出した、第１の言語で記述された特徴語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づき、第２の言語で記述された特徴語に変換するカテゴリ特徴語変換手段とをさらに具備する
ことを特徴とする、請求項１に記載の文書分類装置。
前記カテゴリ記憶手段に記憶した１つまたは複数のカテゴリを対象に、前記単語抽出手段によって抽出した単語のうち、１つまたは複数の単語が出現する文書を当該カテゴリに分類するよう規定する分類ルールに基づいて、前記文書記憶手段に記憶した文書を分類するためのカテゴリを決定するルールベース文書分類手段と、
前記ルールベース文書分類手段が用いる各カテゴリの分類ルールにおける第１の言語で記述された単語を、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係に基づき第２の言語で記述された単語に変換することで前記分類ルールを変換する分類ルール変換手段とをさらに具備する
ことを特徴とする、請求項１に記載の文書分類装置。
前記カテゴリ生成手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
前記辞書に対し、重視する重要語、または、無視する不要語、または、同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
前記辞書に設定されたある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
ことを特徴とする請求項１に記載の文書分類装置。
前記事例ベース文書分類手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
前記辞書に対し、前記文書の分類にて重視する重要語、または、前記文書の分類にて無視する不要語、または、前記文書の分類にて同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
前記辞書に設定されたある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
ことを特徴とする請求項２に記載の文書分類装置。
前記カテゴリ特徴語抽出手段での単語の使用方法を規定するための辞書を記憶する辞書記憶手段と、
前記辞書に対し、前記文書の分類にて重視する重要語、または、前記文書の分類にて無視する不要語、または、前記文書の分類にて同一視する同義語のいずれかまたは複数を辞書語として設定する辞書設定手段と、
前記辞書に設定された、ある言語で記述された辞書語を、前記単語間対応関係抽出手段によって抽出した前記異なる言語で記述された単語間の対応関係に基づいて別の言語で記述された辞書語に変換する辞書変換手段を具備する
ことを特徴とする請求項３に記載の文書分類装置。
複数の異なる言語で記述された複数の文書を記憶する文書記憶手段、前記文書記憶手段に記憶した複数の文書を対象に、異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段、および前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段を有するコンピュータを、
前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段、
前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係の大きさを抽出する単語間対応関係抽出手段、
前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段、および
前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係の大きさに基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係の大きさが大きい関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段
として機能させるための文書分類処理プログラム。