JP2009146158A

JP2009146158A - 文書分類装置の余分構造減退方法

Info

Publication number: JP2009146158A
Application number: JP2007322635A
Authority: JP
Inventors: Kiyoshi Nitta; 清新田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-12-13
Filing date: 2007-12-13
Publication date: 2009-07-02
Anticipated expiration: 2027-12-13
Also published as: JP4895988B2

Abstract

【課題】論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、文書分類に階層構造を用いる際、事例集合の割り当てにより、同一階層の複数のノードに同じ事例集合が割り当てられることがたびたび起こる。従来手法では、前記同じ事例集合は削除せざるを得なかった。しかし、前記削除により、文書分類装置の性能の低下などの問題がおきていた。
【解決手段】本発明は、前記余分構造を減退させる方法において、文書分類に用いる階層構造中から複数の類似階層構造を検出し、その中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定し、削除決定された部分階層構造から取得した事例集合を、削除しない部分階層構造の対応するノードに含まれる事例集合に追加し、削除決定された部分階層構造を削除することを特徴とする文書分類装置の余分構造減退方法である。

【選択図】図１０

Description

本発明は、階層構造を持つ文書分類装置において、より精度よく文書分類を行うための方法に関するものである。

インターネットの検索技術においては、古くからＷｅｂページのＵＲＬをカテゴリ毎に分類した階層構造を用いて検索が行われてきた。このカテゴリに登録された文書やネット上の文書を自動的に分類する手法が検討されている。例えば、ｋＮＮやＳＶＭ等のマルチクラス分類による方法、ｋＮＮを組み合わせたＳＶＭパチンコ分類等の機械学習方法を用いた分類手法が主流となっている。

まず、階層構造は、複数のノードと枝からなる。各ノードには任意の概念が付与されている。任意のノードは、自身が持つ概念に対する下位概念を持つノードを、自身の下位のノードとし、自らを上位ノードとする。そして、枝が、上位ノードと下位ノードの関係にあるノード同士を結び付けることで、階層構造が構成される。一例として、『金融と投資』という概念（カテゴリ）が付与されたノードと、『株式』という概念（カテゴリ）が付与されたノードと、がある。前記例においては、『金融と投資』という概念は『株式』という概念の上位概念にあたる。したがって、『金融と投資』という概念が付与されたノードと『株式』という概念が付与されたノードとの間には、『金融と投資』という概念が付与されたノードを上位ノードとし、『株式』という概念が付与されたノードを下位ノードとする階層構造が成立する。

前記階層構造を用いた典型的なものの一例として、インターネット上のディレクトリ型検索エンジンがあげられる。図２４は、インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノード（２４０１）を上位ノードとした階層構造の例である。『金融と投資』という概念が付与されたノード（２４０１）は、『株式』という概念が付与されたノード（２４０４）や『家計』という概念が付与されたノード（２４０５）などに対する上位ノードである。逆に、『株式』という概念が付与されたノード（２４０４）や『家計』という概念が付与されたノード（２４０５）は『金融と投資』という概念が付与されたノード（２４０１）に対する下位ノードである。前記上位ノードと下位ノードは枝（２４０２）により結びつけられている。同様に、『株式』という概念が付与されたノード（２４０４）と、『市況』という概念が付与されたノード（２４０６）との間には、上位ノードと下位ノードの関係が成立する。このように、階層構造においては、下位階層にいくにつれてノードに付与される概念が狭くなっていく。

実際に、インターネット上のディレクトリ型検索エンジンにおいては、各ノードには、各ノードに付与された概念により構成されたホームページやウェブ文書が、人手によりリンク付けされている。たとえば、『Ａ証券』という概念を持つノード（２４０７）には、Ａ証券に関する内容を含むホームページ（２４０８）がリンク付けされている。そして、前記検索エンジンのユーザが『Ａ証券』に関して検索したい場合、ユーザはまず複数の上位ノードの中から、『Ａ証券』という概念の上位概念に相当する『金融と投資』という概念が付与されたノード（２４０１）を選択する。次に前記ユーザは、『金融と投資』という概念に対する下位概念である『株式』や『家計』などの概念を持つノードの中から、『Ａ証券』という概念の上位概念に相当する『株式』という概念が付与されたノード（２４０４）を選択する。このようにして前記ユーザは、階層構造の下位階層へと進むにつれて、より狭い範疇からなる概念が付与されたノードを選択していくことで、最終的には、『Ａ証券』という概念を含むノード（２４０７）にたどり着く。ユーザは『Ａ証券』という概念を含むノード（２４０７）にたどり着くことで、『Ａ証券』に関するホームページやウェブ文書（２４０８）を閲覧することができる。

文書分類に階層構造が用いられる場合においては、しばしば既存の階層構造が用いられることがある。既存の階層構造とは、インターネット上のディレクトリ型検索エンジンに用いられている階層構造などのことである。

図２４に例示した、インターネット上のディレクトリ型検索エンジンに用いられている階層構造を、文書分類に用いた例を以下に記す。前記例において、分類対象となる文書は、各ノードに既に貼り付けられている事例集合をもとに分類される。ここで、事例集合とは、各ノードにリンク付けされているホームページやウェブ文書のことである。たとえば、『Ａ証券』という概念を含むノード（２４０７）においては、『Ａ証券』に関するホームページやウェブ文書（２４０８）が事例集合に相当する。

この事例集合は、文書分類が行われる前に、前記事例集合が貼り付けられているノードの一階層上位のノード（２４１２）に割り当てられる（２４０９）（２４１０）（２４１１）。割り当てる、とは、コピーして貼り付けるようなことである。したがって、割り当て作業が行われることにより、元のノードから事例集合が切り取られるというわけではない。そして、前記一階層上位のノード（２４１２）（２４２５）に割り当てられた事例集合（２４１３）（２４１６）、および、前記一階層上位のノード（２４１２）（２４２５）にすでに貼り付けられている事例集合（２４１４）（２４１７）は、さらに一階層上位のノード（２４０６）に割り当てられる（２４１５）（２４１８）。このような割り当て作業を繰り返すことで、上位ノードである、『金融と投資』という概念が付与されたノード（２４０１）には、下位ノードに貼り付けられていた全ての事例集合（２４１９）（２４２６）が割り当てられる。

次に、割り当て作業の終了した階層構造において、前記階層構造の各ノードに割り当てられた事例集合は形態素解析にかけられる。そして、各事例集合からは、前記各事例集合に含まれるキーワード（２４２０）（２４２７〜２４３０）が抽出される。

そして、分類対象である文書は前記キーワードを元に、機械学習による分類器により分類される。即ち、各ノードには、そのノードの概念（カテゴリ）に所属するか否かを判定する機械学習による分類器が設定され、この分類器により例えば、前記キーワードを手がかりとした分類が行われる。図２４（ａ）において、『金融と投資』という概念が付与されたノード（２４０１）の事例集合には『Ａ証券』『幹事引受業務』というキーワードが含まれ、『Ａ証券における幹事引受業務の評価』という文章を含んでいる文書X（２４２１）が分類対象である場合、ノードのキーワードに基づいて前記文書Xが分類器により分類されて、最終的に『A証券』という概念が付与されたノード（２４０７）に分類される（２４２４）。
特許３８８０５０４号特開２００５−２６６８６６号

既存の階層構造内の、各ノード間のリンク関係、および、ノードにどのような事例集合を貼り付けるかについては、人手によりメンテナンスされている。図２５は、ディレクトリ型検索エンジンに用いられている階層構造の概念を例示する図である。この図においては、最下位層のノードｋ（２５０１）には事例集合Ａが、ノードｍ（２５０２）には事例集合Ｂが、ノードｎ（２５０３）には事例集合Ｃが、ノードｉ（２５０４）およびｑ（２５０５）には事例集合Ｄが、ノードｊ（２５０６）およびｒ（２５０７）には事例集合Ｅが、貼り付けられている。そして、事例集合の割り当て作業により、前記最下位層に対する上位層であるノードｓ（２５０８）には事例集合Ａ、Ｂ、Ｃが、ノードｈ（２５０９）には事例集合Ｄ、Ｅが、ノードｐ（２５１０）には事例集合Ｄ、Ｅが、ノードｇ（２５１１）には事例集合Ａ、Ｂ、Ｃ、Ｄ、Ｅがそれぞれ割り当てられる。ここで、図２５に係る階層構造においては、ノードｓ（２５０８）からは、ノードｇ（２５１１）だけでなくノードｏ（２５１２）へとリンクが張られている（２５１３）。このように、ディレクトリ型検索エンジンに用いられている階層構造においては、前記検索エンジンの利便性を高めるため、任意のノードから複数の上位ノードに対しリンクを張っていることがある。したがって、図２５においては、ノードｏ（２５１２）には事例集合Ａ、Ｂ、Ｃが割り当てられてしまう。また、ノードｐ（２５１０）には、事例集合Ｄ、Ｅが割り当てられているため、ノードｏ（２５１２）にはさらに事例集合Ｄ、Ｅが割り当てられてしまう。これは、ノードｈ、ｉ、ｊからなる階層構造の一部分Ｘ（２５１６）と、ノードｐ、ｑ、ｒからなる階層構造の一部分Ｙ（２５１７）とにおいて、それぞれ対応するノードに同じ事例集合が割り当てられているからである。このように、既存の階層構造においては、前記階層構造中の一部分の各ノードに対する事例集合の配置と、同じ事例集合の配置をしている部分が複数ある、という状況がたびたび起こる。結果、ノードｇ（２５１１）とノードｏ（２５１２）には、同じ事例集合Ａ、Ｂ、Ｃ、Ｄ、Ｅが割り当てられてしまう。この階層構造を文書分類器に用いる場合において、たとえば事例集合ＡおよびＤに類似する内容を持つ文書Ａ'（２５１４）、およびＤ'（２５１５）をこの文書分類器にかけると、前記文書はノードｇ（２５１１）とノードｏ（２５１２）のいずれにも分類されてしまうという状況が招来する。つまり、既存の階層構造を文書分類に用いる場合、割り当て作業を行った際に、同一階層中の複数のノードに共通の事例集合が割り当てられる状態が招来することで、文書によっては、前記同一階層中の複数のノードのいずれにも分類されてしまうという、文書分類器として矛盾した状態が招来する。すなわち、既存の階層構造は、機械学習手法を用いて文書分類を行う文書分類装置にはあまり適さない構造である。従来までは、この問題を解決するために、同一階層中の複数のノードに割り当てられた事例集合を、階層構造中から全て削除していた。しかし、前記事例集合の削除により、機械学習による文書分類器の分類精度の低下が起きたり、分類クラスの削除を余儀なくされるなどの問題がおきる。

そこで、本件発明に係る文書分類装置の余分構造減退方法を提案する。具体的には、第一の発明は、論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、文書分類の論理的分類構造である階層構造を取得し、取得した階層構造を構成する複数の部分階層構造の中から互いに類似構造をなす複数の類似階層構造を検出し、検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定し、決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得し、取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加し、削除対象として決定された部分階層構造を文書分類のための階層構造から削除することを特徴とする文書分類装置の余分構造減退方法である。

第二の発明は、第一の発明において、類似階層構造検出方法が、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの類似の判断については、各ノードの分類ラベルの比較を分類ラベル文字列が完全一致するかにより判断する手法と、分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する手法と、分類ラベルの意味が一致するかにより判断する手法と、のいずれかの手法にて実行する文書分類装置の余分構造減退方法である。

第三の発明は、第二の発明において、類似階層構造検出を、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行うことを特徴とする文書分類装置の余分構造減退方法である。

第四の発明は、第一の発明にかかる文書分類装置である。第五の発明は、第二の発明にかかる文書分類装置である。第六の発明は、第三の発明にかかる文書分類装置である。

本件発明により、事例集合の総数を極端に減少させることなく、階層構造を用いた文書分類を行うことができる。すなわち、本件発明により、機械学習手法による文書分類において、分類精度の低下しない階層構造を形成することができる。

以下に、本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。なお、以下の実施形態と請求項の関係は次の通りである。
実施形態１は、主に請求項１、および、４などについて説明する。
実施形態２は、主に請求項２、および、５などについて説明する。
実施形態３は、主に請求項３、および、６などについて説明する。
＜＜実施形態１＞＞

まず最初に実施形態１について説明する。
＜実施形態１の概要＞

実施形態１は、論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、文書分類の大規模階層構造の中から、部分階層構造であって、類似しているものを抽出し、類似しているものの一方を削除し、他方を残すという、余分構造減退方法に関するものである。
＜発明の構成＞

実施形態１は、図６に示すように、階層構造取得ステップ（Ｓ０６０２）と、類似階層構造検出ステップ（Ｓ０６０３）と、決定ステップ（Ｓ０６０４）と、事例集合取得ステップ（Ｓ０６０５）と、追加ステップ（Ｓ０６０６）と、削除ステップ（Ｓ０６０７）と、からなる。

以下、これらの各ステップについて、説明していく。

まず最初に、本実施形態の余分構造減退方法の機能であるが、図１に示す通りとなる。図１は、文書分類をこの構造を利用する場合の概要を示すものである。図中、Ａ（０１０１）、Ｂ（０１０２）、Ｃ（０１０３）と書かれているものは本論理的分類構造の階層構造を形成するノードに該当し、各ノードにはラベルという名前がつけられている。また、ノードＢとノードＣにはそれぞれ事例集合１（０１０４）、事例集合２（０１０５）が貼り付けられており、例えばノードＢには「国民年金の不払いにより・・・」という事例集合が貼り付けられている。また、ノードＣには「投資信託のパフォーマンス・・・」という事例集合が貼り付けられている。例えばノードＡに対して図１に示すように「サブプライム問題による投資信託はそのパフォーマンスが・・・」という文章（０１０６）を分類するために投入したとする。そうすると、この文書に含まれているキーワードと事例集合１（０１０４）または事例集合２（０１０５）に含まれているキーワードとの類似性、一致性を判断し、この文章はノードＢまたはノードＣに対して分類されるように計算機によって処理される。

例えば本例の場合には、分類されるべき文書（０１０６）に投資信託という言葉とパフォーマンスという言葉が入っており、事例集合１（０１０４）にはそのような言葉が入っていないのに対して、事例集合２（０１０５）には同じ言葉が含まれているため、分類されるべき文章はノードＡからノードＣに対して分配される（０１０７）ことになる。このように、本件実施形態でいうところの論理的分類構造とはノードを定め、そのノードをいわゆる樹状構造などに配置し、上位から下位に向かって概念をより狭くしていくように事例集合を各ノードに対して配置したものである。

ここでノードは例えば図２に示すように構成されている。図２は本実施形態の論理的分類構造の各ノードを示しているものである。本図に示すように頂上にあるノード（０２０１）は１、その配下にあるノード（０２０２）（０２０３）は例えばＮ（１,１）、Ｎ（１,２）というように上位ノードの識別数字を左詰めで記載していくような法則を採用している。

例えば、第３層の一番左側（０２０４）は上位ノードがＮ（１,１）であるのでＮ（１,１,1）などと記載されるようになる。本明細書全体を通じてノードを特に識別して表示する場合にはこのようなルールに従って表示する。また文書分類のための論理的分類構造の特徴は、下位ノードが決まればその上位ノードが決まるという論理構造になっている点にもある。

ただし場合によっては下位ノードが二つの上位ノードに対して分岐している場合もあり、本明細書における論理的分類構造である階層構造にはそのような場合も含むものとする。

前述したように分類されるべき文書は上位階層の情報にあるノードから下方にあるノードに向かって各ノードに対して貼り付けられている事例集合を利用して分類されていく。図３は事例集合が各ノードに対してどのように割り当てられているかを例示するものである。ここでは１階層分（２層のノードからなっている）の階層構造として上位が「金融」であり下位に「年金」および「投資信託」というラベルを貼り付けられたノード（０３０１〜０３０３）が存在するものとして説明する。

年金というラベルが貼り付けられたノード（０３０２）に対しては、そのラベルにふさわしい事例集合１（０３０４）が貼り付けられており、また投資信託というラベルが貼り付けられたノード（０３０３）には、その投資信託というラベルにふさわしい事例集合２（０３０５）が貼り付けられている。これらの事例集合の貼り付け、すなわち割り当てて関連付ける処理は人間の手作業によって行われる。

ここで、金融というラベルは年金および投資信託という言葉の上位概念に該当する言葉である。そして、ラベル「年金」のノード（０３０２）に貼り付けられている事例集合１（０３０４）およびラベル「投資信託」のノード（０３０３）に貼り付けられている事例集合２（０３０５）はその上位ノードである「金融」というラベルが貼り付けられているノード（０３０１）に対してさらに割り当てられるようになる。なぜならば、金融というノード（０３０１）にさらに上位ノードから分配されてきた分類されるべき文書が、下位ノードに最適に分類されるためには、まず年金もしくは投資信託に該当する分類されるべき文書が「金融」というノード（０３０１）に分配されなければならず、「金融」というノード（０３０１）にそのような文書が配分されるようにするために、下位ノードの「年金」および「投資信託」というノード（０３０２）（０３０３）に貼り付けられている事例集合（０３０４）（０３０５）が上位ノードに貼り付けられるのである。この下位ノードの事例集合の上位ノードへの貼り付けは文書分類装置にて自動的に行われる。つまり、文書分類のための事例集合の貼り付けは下位ノードに対しては手作業で行われるのに対し、上位ノードへは自動的に行われる。また、「金融」という上位概念が、「年金」および「投資信託」という下位概念を意味的に包含するため、下位ノードの事例が上位ノードの事例に含まれていることがある。このような場合は、事例集合の割り当ての際、下位ノードに張り付けられている事例集合が、上位ノードにすでに貼り付けられている事例集合を上書きする形で、割り当てが行われる。

次に類似構造の定義について説明する。本実施形態については類似構造を厳密には定義しないが、例えば一例としてラベルが同一であるという場合である。図４に示すように「年金」というノード（０４０１）の下位にある「政府見解」、「金融庁見解」、「内閣見解」というラベルを張り付けられたノード（０４０２〜０４０４）の階層構造と、「投資信託」というノード（０４０５）の下にある「政府見解」、「金融庁見解」、「内閣見解」というラベルを張り付けられたノード（０４０６〜０４０８）は同一の関係にある。従って、図４に示す階層構造中、類似する階層構造としては「年金」というノード（０４０１）の下の「政府見解」、「金融庁見解」、「内閣見解」のラベルがはりつけられたノード（０４０２〜０４０４）からなる部分階層構造と、「投資信託」というノード（０４０５）の下にある「政府見解」、「金融庁見解」、「内閣見解」のラベルがはりつけられたノード（０４０６〜０４０８）からなる部分階層構造が該当する。

さて、以上によって本件発明が対象とする論理的分類構造のおおまかな特徴を説明したので、以下に各ステップについて詳細に説明していくこととする。

まず最初のステップは階層構造取得ステップである。

「階層構造取得ステップ」とは、図５にあるような階層構造データを取得することによって行われる。このような階層構造データは本件発明外である文書分類装置の文書分類のためのデータとして格納されているものを取得してくることにある。この図に示すように、階層構造データとは例えばノードのデータ（０５０１）と事例集合のデータ（０５０２）などからなっている。ノードのデータ（０５０１）はここにあるようにＮ（１）というノードを識別するデータ（０５０３）とそれにセミコロンで続く「金融」というラベル（０５０４）とさらにそれにセミコロンで続く事例集合識別のためのＩＤを一行に記載したもの（０５０５）（０５０６）を各ノードについて複数行記載することで構成される。

また事例集合データ（０５０２）は事例集合を識別するためのデータ（０５０７）をまず記載し、それにセミコロンで続けてそれぞれの事例集合の内容を示す文書を識別するＩＤ（０５０８）を記載していく。例えば事例集合１という事例集合ＩＤ（０５０８）についてはＪ０１１．ｄｏｃ、Ｊ０１２．ｄｏｃ、さらにＪ０１３．ｄｏｃという文書が関連付けられている。これら「ｄｏｃ」という拡張子で示されるファイル名は文書ファイルの識別情報を示しており、これらの文書ファイルが事例集合に該当するものである。このような形で論理的分類構造全体の階層構造データが全ノードについて取得されることで本件発明の階層構造取得ステップが終了する。

次に取得した階層構造から類似階層構造を検出するステップが必要となる。

「類似階層構造検出ステップ」は具体的には図７に示すようなアルゴリズムによって処理される。図７について説明すると、まず最初にＬに１を代入し、何階層分からなる部分階層構造を取得するか決定する（Ｓ０７０１）。次にＬ＋１階層から構成される部分階層構造のうちの全てのノードを抽出する（Ｓ０７０２）。さらに抽出されたノードで構成される階層構造同士の対応ノードを取得する（Ｓ０７０３）。さらに取得された対応ノード同士の類似性を判断する（Ｓ０７０４）。対応ノードは、部分階層構造として取得するノード群のうち最上位のノードと、そのノードの配下につらなる下位の階層のノードとをそれぞれ比較する。下位の階層のノードは１層だけとは限らず、２層、３層、それ以上があり得る。各対応するノードどうしの類似性判断は、例えば分類ラベルが同一であるか共通であるかなどで判断される。しかし、本実施形態ではこれに限られず、事例集合の類似性でノードの類似性を判断してもよい。事例集合の類似性は、事例集合に含まれる単語を抽出して、抽出された単語の類似性を判断したり、抽出される単語同士のつながりの類似性を判断してもよい。この技術に関しては従来技術を利用することができる。

一のノードについて類似性がある、すなわち類似であると判断された場合には次に対応するノードについても判断を行い、結局全てのノードが類似しているか判断し（Ｓ０７０５）、対応している全てが類似であると判断された場合にはこれら対応しているノードを有する二つの部分階層構造は類似階層構造として記録される（Ｓ０７０６）。大きな部分階層構造は小さな部分階層構造を包含するのでたとえば三階層のノードから構成される比較的大きな部分階層構造が類似であると判断される場合には、当然にそれに含まれている二階層の部分階層構造も類似であると判断されるが、この場合には結果として最も大きい部分階層構造を類似関係にある部分階層構造であるとの結果を得るように構成すればよい。また、処理を終了するか否かの判断については、処理対象である階層構造が、Ｌ＋２の部分階層構造を持つ場合処理を続行し、持たない場合は処理を終了する、などとすればよい。

このような形で類似階層構造検出ステップが行われるが、対応するノードはノードデータによって識別され、各対応するノードに貼り付けられているラベルはノードデータ中に記載されているラベルによって識別される。図８はその抽出結果として類似している３点からなる部分階層構造を示すもの（０８０１）である。図８に示す抽出結果データによればＮ（１，１）とＮ（１，２）は対応しており（０８０２）、Ｎ（１，１，１）とＮ（１，２，１）は対応しており（０８０３）、Ｎ（１，１，３）とＮ（１，２，２）は対応している（０８０４）ということを示している。ここでいう対応とは同一または類似していることを指し、結果としてＮ（１，１）―Ｎ（１，１，１）―Ｎ（１，１，３）からなる部分階層構造（三点からなる三角形のもの）と、Ｎ（１，２）―Ｎ（１，２，１）―Ｎ（１，２，２）からなる部分階層構造（同じく三点からなる三角形のもの）とは類似関係にあるということが判明する。以上説明したものが類似階層構造検出ステップである。

次に決定ステップの説明をする。

「決定ステップ」とは、検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造を決定するステップである。この決定方法は設計事項ということができるが、例えば削除する方と削除しない方とを決定するために、各ノードに貼り付けられている事例集合の数を比較することが考えられる。その結果事例集合の数が多い部分階層構造の方を残す方、少ない部分階層構造の方を削除する方とすることが出来る。

または、サンプルとなる所定数（たとえば１００文書）の分類すべき文章を投入し、その結果いずれの部分階層構造に対してより多くの文書が分類されるかを検出することによって削除する方と削除されない方を決定することが出来る。この場合には削除されない方に多くの文章が分類されるとするのが好ましい。なお、このように部分階層構造が類似でもそのパフォーマンスに差が出るのは実際には貼り付けられている事例集合に差があるからである。もちろん事例集合も含めてまったく同一である場合には両部分階層構造のパフォーマンス自体は全く同じであるが、より上位階層のノードに貼り付けられている事例集合の差によってやはり文書の分類結果には差が出ることとなる。

次に、事例集合取得ステップを説明する。

「事例集合取得ステップ」とは決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得するステップである。例えば図９に示すように削除されるべき階層構造がＮ（１，２）、Ｎ（１，２，１）、Ｎ（１，２，２）からなる部分階層構造であるとすれば、これら３つのノードに貼り付けられている事例集合を取得することになる。

次に追加ステップについて説明する。

「追加ステップ」とは取得した事例集合を削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加するステップである。本追加ステップを説明する図を図１０に示す。

図１０では先ほど説明した例に従って「金融庁見解」ラベルのノード（１００１）、「内閣見解」ラベルのノード（１００２）に対してそれぞれ事例集合（１００３〜１００５）が割り当てられている。実線で示している事例集合の貼り付け状態が削除前の状態であり、点線（１００６）で示している事例集合の貼り付け状態、すなわち事例集合Ｃ_２の移動が削除後、論理和処理が行われた状態である。「年金」ラベルがはりつけられているノード（１００７）の下位ノードにある部分階層構造に関しては「金融庁見解」ラベルのノード（１００１）に対して事例集合Ａ_１（１００３）、Ａ_２（１００５）が貼り付けられており、「内閣見解」ラベルのノード（１００２）についてはＢ_１（１００４）が貼り付けられている。

一方で「投資信託」ラベルがはりつけられているノード（１００８）の下位ノードの「金融庁見解」ラベルのノード（１００９）には事例集合Ｃ_１（１０１０）、Ｃ_２（１０１１）が貼り付けられており、「内閣見解」ラベルのノード（１０１２）には事例集合Ｄ_１（１０１３）が貼り付けられている。

これら事例集合を観察すれば事例集合Ａ_１（１００３）は、「国民の資産をいかに効率的に・・・」という事例集合であり、事例集合Ｃ_１（１０１０）は「国民の資産をいかに効率的に・・・」という事例集合であり、事例集合Ａ_１（１００３）と事例集合Ｃ_１（１０１０）は等しい。また同様に判断すれば事例集合Ｂ_１（１００４）と事例集合Ｄ_１（１０１３）が等しいということも判明する。一方、「投資信託」のラベルがはりつけられたノード（１００８）の下位ノードである「金融庁見解」ラベルのノード（１００９）にある事例集合Ｃ_２（１０１１）は、「いわゆるサブプライム問題で脆弱となったリスクヘッジシステムの・・・」という事例集合であり、これと同じ事例集合は「年金」ラベルのノード（１００７）の下位ノードである「金融庁見解」ラベルのノード（１００１）には貼り付けられていない。したがって、削除される側の部分階層構造が「投資信託」ラベルノード（１００８）の下位の「政府見解」、「金融庁見解」、「内閣見解」ラベルの下位ノードからなる部分階層構造であるとすれば、それらに貼り付けられている事例集合Ｃ_１（１０１０）とＤ_１（１０１３）は削除され、Ｃ_２（１０１１）については「年金」ラベルノード（１００７）の下位ノードにある「金融庁見解」ラベルのノード（１００１）の事例集合として移動（コピー）される（１０１４）ことになる。このようにして事例集合を一つも失うことなく冗長なノードを階層構造から削除することができ、階層構造を効率的に減退することが可能となる。

最後に削除ステップである。

「削除ステップ」は前記説明したように、削除決定された部分階層構造を、文書分類のための階層構造から削除するステップである。計算機の内部構造的には、階層構造から削除する処理は、文書分類のための事例集合を削除することによって行えるし、あるいはデータの中からそれらのノードを定義するデータを削除することによっても行える。これは設計者が適切な手法を選択すればよい。

次に本実施形態１を計算機として構成する場合の例を図１１に示す。

図１１は本件発明における余分構造減退装置についての機能ブロック図である。図１１にあるように余分構造減退装置（１１０１）は「階層構造取得部」（１１０２）、「類似階層構造検出部」（１１０３）、「決定部」（１１０４）、「事例集合取得部」（１１０５）、「追加部」（１１０６）、「削除部」（１１０７）からなっている。

余分構造減退装置（１１０１）外部に蓄えられている階層構造データ（１１０８）が階層構造取得部（１１０２）に対して入力され、階層構造取得部は階層構造データを取得する。

次に階層構造取得部（１１０２）が取得した階層構造データ（１１０９）の中から、類似階層構造検出部（１１０３）が類似階層構造を抽出する。抽出結果（１１１０）は決定部に利用される。

決定部（１１０４）では抽出された結果、類似関係にある部分階層構造があればそのうちのいずれかを先に説明したようなロジックに従って削除する決定を行う。その決定結果（１１１１）は事例集合取得部に渡される。事例集合取得部（１１０５）では決定結果（１１１１）に従って削除される部分階層構造に貼り付けられている事例集合を取得する。

論理和の作業は追加部（１１０６）によって行われ、新たな事例集合が各ノードについて生成される。また、削除部（１１０７）によって削除すると決定されたノードに貼り付けられている事例集合は削除され、またはノードのデータ自体が削除される。追加部によって新たに形成された論理的分類構造のデータは新階層構造データ（１１１２）として外部に取得されるように出力される。

なお、図１１で示す余分構造減退装置のハードウェアを示すのが図１２である。

図１２はＣＰＵ（１２０１）とハードディスクドライブ（１２０２）、メインメモリ（１２０３）、Ｉ／Ｏ（１２０４）などからなる計算機に、どのように発明を実現するためのデータが格納されているかを示すものである。この図にあるように、メインメモリには階層構造取得プログラム（１２０５）、類似階層構造検出プログラム（１２０６）、決定プログラム（１２０７）、事例集合取得プログラム（１２０８）、追加プログラム（１２０９）、削除プログラム（１２１０）が展開される。

階層構造取得プログラム（１２０５）はＩ／Ｏ（１２０４）を介して外部から階層構造データ（１２１１）を取得し、取得した階層構造データはメインメモリのデータ領域に格納される。次に格納された階層構造データ（１２１２）を用いて、メインメモリに展開されている類似階層構造検出プログラム（１２０６）が演算を行いその結果抽出結果データ（１２１３）をメインメモリのデータ領域に格納する。抽出結果データ（１２１３）に従って決定プログラム（１２０７）が演算を行い、いずれの部分階層構造を削除対象とするか決定する。その結果、決定結果データ（１２１４）がデータ領域に格納される。データ領域に格納された決定結果データ（１２１４）にしたがって事例集合取得プログラム（１２０８）が取得した事例集合データ（前）（１２１５）を追加プログラム（１２０９）および削除プログラム（１２１０）によって演算して変更する。その結果生まれるのが事例集合データ（後）（１２１６）と記載されているものである。なお、追加プログラム（１２０９）、削除プログラム（１２１０）が機能するにあたって事例集合データ（前）（１２１５）の部分から追加事例集合データ（１２１７）および削除事例集合データ（１２１８）が演算の結果出力され、データ領域に格納され事例集合データ（後）（１２１６）を生成するために用いられる。以上のようにして事例集合データ（後）（１２１６）が生成されると、このデータと最初に取得した階層構造データ（１２１２）とに基づいて新たな階層構造データ（１２１９）が作成されＩ／Ｏ（１２０４）から外部に対して出力されるようになる。本件発明の余分構造減退装置はこのようにして機能するものである。
＜実施形態１：効果＞

本件発明によって、従来は余分な論理的分類構造中の階層構造を削除するために共通する事例集合を削除するなどして事例集合を無駄に使用していたが、このような無駄な削除をすることなく、事例集合を有効に活用して、機械学習の精度の低下を招くことなく効率のよい階層構造の減退を行うことが出来るようになった。
＜＜実施形態２＞＞
＜実施形態２の概要＞

次に、実施形態２について説明する。

＜実施形態２の概要＞

本実施形態にかかる文書分類装置の余分構造減退方法は、実施形態１中の類似階層構造検出ステップが複数のサブステップのうちのいずれか一つを使うことによって類似階層構造の検出を行うというものである。具体的に複数のサブステップとは完全一致判断ステップ、または分離判断ステップ、または意味判断ステップである。
＜実施形態２：構成＞

実施形態２の構成は基本的に実施形態１の構成と同一であり、実施形態１の構成中、類似階層構造検出ステップが分類ラベルの比較において完全一致判断ステップ、または分離判断ステップ、または意味判断ステップを有する余分構造減退方法である。

以下各サブステップについて図１３を参照しながら説明する。図１３はこの分類ラベルの意味の一致判断について説明をしたものである。
＜実施形態２：サブステップの説明＞

図１３の例１は例えば金融庁見解というラベルが１のノードに貼り付けられており、他のノードにも金融庁見解とラベルが貼り付けられている。この場合にはラベル同士を比較した結果、これを完全一致として判断するものである。この判断は文字列を単純に比較することでおこなわれる。このように文字列が完全に一致しているか判断することで、類似階層構造の検出を行うものを完全一致判断ステップという。

例２に示すのは一のノードに貼り付けられているラベルが「金融庁見解」であり、他のノードに貼り付けられているラベルは「金融庁の見解」である。前者と後者の違いは金融庁という３文字の後に「の」が入っていないか、入っているかの違いである。この場合「金融庁見解」というのは「金融庁の見解」を短縮したものであり、両者は形態素解析などによりその文言を分離して判断することで同一または類似であるということが明らかになる。このように分類ラベルを句読点その他で分離して、文字列を比較することでそれらの分離したものが部分的に一致するか、あるいは一致しないかで判断するものを分離判断ステップという。類似階層構造検出ステップにおいては、このような分離判断ステップをサブステップとして有している。

例３に示すのは意味判断ステップを示すものであり、ある一のノードには「金融庁の見解」、他の一のノードには「金融企画庁所見」がラベルとして貼り付けられている。この場合、両者の意味を比較することによって意味が一致すると判断して、類似階層構造を検出するものである。この２つのラベルの場合には「金融」の部分は共通であるが、その後の「庁見解」と「企画庁所見」という部分において相違する。しかしながら類義語辞典などを用いて「見解」と「所見」ないしは「金融庁」と「金融企画庁」が同義語であるということが判断されれば、これらは意味が一致するというふうに判断することができる。

このように分類ラベルの意味を一致するかどうか判断することにより類似階層構造検出ステップを意味判断サブステップとして有しているものが三つ目の技術である。このように実施形態２の場合には類似階層構造検出ステップとして上記に説明した、いずれか3つのステップのうち１つを採用することで類似階層構造検出ステップでの類似を判断することとする。

図１４で示すのは本実施形態の余分構造減退装置における機能ブロック図である。実施形態１における機能ブロック図との相違は類似階層構造検出部（１４０１）において「完全一致判断手段」（１４０２）、「分離判断手段」（１４０３）、「意味判断手段」（１４０４）の３つの判断手段が備えられていることである。つまり余分構造減退装置の実施形態２のものでは、これら３つの手段のうちいずれか１つを使うことができるようになっている。また本実施形態にはこれらの３つを常に含むものだけが含まれるのではなく、いずれか一つが含まれるものであってもよいということは言うまでもない。尚その他の構造に関しては実施形態１と同一であるので説明は省略する。

また図１５に示すのは本実施形態の余分構造減退方法を実現するための計算機のハードウェア構成である。原則として実施形態１のものと同様であるが、相違点は類似階層構造検出プログラム（１５０１）がさらに完全一致判断サブプログラム（１５０２）、分離判断サブプログラム（１５０３）、意味判断サブプログラム（１５０４）を持っている点である。その他の構成については同一であるので説明は省略する。

図１６は本実施形態の処理フローを示すものである。基本的には実施形態１の処理フローと同一であるが、類似階層構造検出ステップ（Ｓ１６０１）において３つのサブステップのうちいずれか一つを使うように処理される点において実施形態１と異なる。その他については実施形態１と同一になるので説明を省略する。

また図１７はさらに類似階層構造を検出するための詳細なステップについて示すものである。基本的にはこれについても実施形態１と共通であり、相違する点は類似性を判断するステップ（Ｓ１７０１）において前記３つのサブステップのいずれかが利用されるようになっている点である。

以上が実施形態２の構成である。
＜実施形態２の効果＞

論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、実施形態２を採用することにより、分類ラベルが一致する場合のみでなく、分離して判断することで一致するとされる場合、あるいは意味が一致すると判断される場合にも類似階層構造の検出が行われる。従って、前記階層構造中の余分な構造を減退する際に、広い範囲で余分な構造を減退するができ、形式的に同一であるもののみならず、実質的に同一の部分階層構造まで減退することができて、効果的である。以上が実施形態２の説明である。
＜＜実施形態３＞＞
＜実施形態３の概要＞

実施形態３は、前記類似階層構造検出ステップが、分類ラベルであって類似すると判断されるものは反復して出現するかを各規模の部分階層構造ごとにソートして判断する点に特徴を有するものである。本実施形態は実施形態２を基本としている。
＜実施形態３の構成＞

実施形態３は実施形態２を基本とし、さらに、類似階層構造検出ステップが部分階層構造ソートステップを有する点に特徴がある。以下、この点について詳細に説明する。

図１８は、本実施形態における部分階層構造ソートステップを具体的に示すものである。図１８に示すように、先ずＬ階層の階層構造を取得する（Ｓ１８０１）。ここでいうＬ階層とは、１階層からその分類階層構造が有する最大のＬ−１階層までのいずれか一の値であるＬ階層の階層構造を取得する。この取得についてはすでに実施形態１で述べたと同様の階層構造データを取得する。次に、取得した階層構造のノードを所定のルール、たとえば上位から昇順で並べる（Ｓ１８０２）。次に、並べた順に分類ラベルＩＤを並べる（Ｓ１８０３）。次に、複数の分類階層構造間で、分類ラベルＩＤの並べ順が一致するかどうか判断する（Ｓ１８０４）。なお、ここでいう分類ラベルＩＤとは、分類ラベルの文字列そのものであってもかまわない。並び順が一致する場合には、一致する階層構造同士は類似するものとして記録される（Ｓ１８０５）。そして、想定される組み合わせを全て試したか否かに応じて図１８の処理フローを終了する。

図１９は、並び順が同一であるか、ということを判断する際の処理を説明するための図である。ここでは、各ノードの丸の中に書かれているＬ_１、Ｌ_２等が分類ラベルＩＤである。ノードＮ（１）（１９０１）は分類ラベルＬ_１、ノードＮ（１，１）（１９０２）には分類ラベルＬ_２、ノードＮ（１，１，１）（１９０３）には分類ラベルＬ_４、ノードＮ（１，１，１，１）（１９０４）には分類ラベルＬ_５、ノードＮ（１，１，１，２）（１９０５）には分類ラベルＬ_６、ノードＮ（１，１，１，３）（１９０６）には分類ラベルＬ_７が貼り付けられている。また、ノードＮ（１，２）（１９０７）には分類ラベルＬ_３、ノードＮ（１，２，１）（１９０８）には分類ラベルＬ_４、ノードＮ（１，２，１，１）（１９０９）には分類ラベルＬ_５、ノードＮ（１，２，１，２）（１９１０）には分類ラベルＬ_７が貼り付けられている。この図を見てわかるように、分類ラベルＬ_４がノードＮ（１，１，１）（１９０３）とノードＮ（１，２，１）（１９０８）で共通であり、さらにそれぞれの下位のノードの階にある分類ラベルＬ_５と分類ラベルＬ_７が、ノードＮ（１，１，１，１）（１９０４）とノードＮ（１，２，１，１）（１９０９）、さらにノードＮ（１，１，１，３）（１９０６）とＮ（１，２，１，２）（１９１０）において共通である。つまり、この類似階層構造は、ノードＮ（１，１，１）（１９０３）、ノードＮ（１，１，１，１）（１９０４）、ノードＮ（１，１，１，３）（１９０６）からなる部分階層構造と、ノードＮ（１，２，１）（１９０８）、ノードＮ（１，２，１，１）（１９０９）、ノードＮ（１，２，１，２）（１９１０）からなる部分階層構造が、同一であることを示している。

以上のようなことを判断するために、具体的にどのような処理を行うかを、図２０を用いて説明する。まず、ノードの組み合わせ順列（２００１）をすべて求める。１層（ノード２層からなっているもの）からなるものに関しては、Ｎ（１，１，１）−Ｎ（１，１，１，１）−Ｎ（１，１，１，２）を結んでできる三角形のもの、Ｎ（１，１，１）−Ｎ（１，１，１，１）−Ｎ（１，１，１，３）を結んでできる三角形のもの、その他順次図面中に記すようなものがあげられる。またこの図面中では、１階層分のもの、すなわち、上位層と下位層からなっているものについてのみ示したが、実際には２階層以上のものについても同じような処理を行う。１階層のもの、２階層のもの、３階層のもの、というように、部分階層構造を求め、それぞれをＮ階層ごとに分類することを、本実施形態においては『ソートする』という風に表現する。たとえば１階層のもの、すなわち、２階層のノードからなっている部分階層構造についてソートをした場合には、図２０に示すようなものが、図１９の階層構造の中から選べる。そして、ソートされた各ノードに張り付けられているラベルを順に並べたものが、図２０の『Ｌ_４−Ｌ_５−Ｌ_６』などである。図２０のラベル順列（２００２）の列には、Ｌ_４−Ｌ_５−Ｌ_６、Ｌ_４−Ｌ_５−Ｌ_７、Ｌ_４−Ｌ_６−Ｌ_７、などと、左側の列のノード組合せ順列に対応したラベルの順列が記載されている。次に、このラベルの順列のうち、同一のものを見つける作業をコンピュータの演算により行う。図２０の例ではラベルの組み合わせとして「Ｌ_４−Ｌ_５−Ｌ_７」が、ノード組み合わせ順列の上から３つ目（２００３）と５つ目（２００４）に表れている。つまりこの２つのノードの組み合わせからなる部分階層構造においては、ラベルの順列が同じ順番で出てくる。つまり、この２つのノードは類似階層構造、さらにいえば一致する階層構造であるといえる。このように、ラベルの順列を見ることによって、類似階層構造であるかどうかを判断していくのが本実施形態の特徴である。なおここではラベルの順列で説明したが、上位と下位を区別すればラベルの組み合わせで同一であるかどうかを判断することとしても同じである。

本実施形態の処理の流れを別の観点から示すのが図２１である。図２１に示す処理のフローは、実施形態１、２と基本的には共通するが、類似階層構造検出ステップ（Ｓ２１０１）がラベルの反復出現をソートして判断する。すなわち、部分階層構造の規模に応じてノードをソートし、その選択されたノード順にラベルを並べることによって、類似しているノードをラベルの反復検出という手段によって行う。その他の点については実施形態１、２と共通である。

また図２２に示すのは、本実施形態の余分構造減退装置の機能ブロック図である。基本的には実施形態１、２と共通であるが、本実施形態の特徴点は、類似階層構造検出部（２２０１）において部分階層構造ソート手段（２２０２）を有する点にある。部分階層構造ソート手段の機能は、前記したように、部分階層構造の規模ごとにノード集合を集め、そのノード集合の順にラベルを配置して、同じ反復順位でラベルが出てくる部分を見つける点にある。

図２３は、図２２の機能ブロック図の、さらに具体的なハードウェア図である。基本的には実施形態１、２と共通であるが、相違点は、類似階層構造検出プログラム（２３０１）において、部分階層構造ソートサブプログラム（２３０２）を有する点にある。
＜実施形態３の効果＞

以上のように、論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、実施形態３を採用することにより、簡単に部分階層構造同士の類似性を判断することができる。また、このようなアルゴリズムは計算機にとって非常に向いているものであり、短時間かつ高い精度で間違いなく類似階層構造を見つけることに寄与する。

文書分類に階層構造を利用する場合の概要を示す図実施形態１における論理的分類構造の各ノードを示す図事例集合が各ノードに対してどのように割り当てられているか示す図類似構造の一例を示す図階層構造データの概念図実施形態１の処理の流れを説明する図実施形態１において、類似階層構造検出ステップにおける処理の流れを構成するアルゴリズムの一例を示す図抽出結果データの概念図決定結果データの概念図追加ステップを説明する図実施形態１における余分構造減退装置の機能ブロック図実施形態１に係る余分構造減退装置を実現するための計算機のハードウェア構成図実施形態２の各サブステップにおける、分類ラベルの類似性判断の方法例を示す図実施形態２における余分構造減退装置の機能ブロック図実施形態２に係る余分構造減退方法を実現するための計算機のハードウェア構成図実施形態２の処理の流れを説明する図実施形態２における類似階層構造を検出するための詳細なステップ図実施形態３における部分階層構造ソートステップを具体的に示す図実施形態３における、並び順が同一であるか、ということを判断する際の処理を説明するための図分類ラベルの並び順が同一であるか否かを判断するために、具体的にどのような処理を行うかを説明する図実施形態３の処理の流れを説明する図実施形態３における余分構造減退装置の機能ブロック図実施形態３に係る余分構造減退方法を実現するための計算機のハードウェア構成図インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノードを上位ノードとした階層構造の例を示す図（ａ）インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノードを上位ノードとした階層構造の例を示す図（ｂ）インターネット上のディレクトリ型検索エンジンにおいて、『金融と投資』という概念が付与されたノードを上位ノードとした階層構造の例を示す図（ｃ）ディレクトリ型検索エンジンに用いられている階層構造の概念を例示する図

符号の説明

１００１『金融庁見解』という分類ラベルのノード
１００２『内閣見解』という分類ラベルのノード
１００３事例集合Ａ_１
１００４事例集合Ｂ_１
１００５事例集合Ａ_２
１００６事例集合Ｃ_２の論理和処理が行われた状態
１００７『年金』という分類ラベルのノード
１００８『投資信託』という分類ラベルのノード
１００９『金融庁見解』という分類ラベルのノード
１０１０事例集合Ｃ_１
１０１１事例集合Ｃ_２
１０１２『内閣見解』という分類ラベルのノード
１０１３事例集合Ｄ_１
１０１４事例集合のコピー

Claims

論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる方法において、
文書分類の論理的分類構造である階層構造を取得する階層構造取得ステップと、
取得した階層構造を構成する複数の部分階層構造の中から互いに類似構造をなす複数の類似階層構造を検出する類似階層構造検出ステップと、
検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定する決定ステップと、
決定ステップにて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得する事例集合取得ステップと、
取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加ステップと、
削除対象として決定された部分階層構造を文書分類のための階層構造から削除する削除ステップと、
を有する文書分類装置の余分構造減退方法。
類似階層構造検出ステップは、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
分類ラベル文字列が完全一致するかにより判断する完全一致判断ステップ、
分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する分離判断ステップと、
分類ラベルの意味が一致するかにより判断する意味判断ステップ
のいずれかのサブステップにて実行する請求項１に記載の文書分類装置の余分構造減退方法。
類似階層構造検出ステップは、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行う部分階層構造ソートステップをさらに有する請求項２に記載の文書分類装置の余分構造減退方法。
論理的分類構造である階層構造に機械学習手法を用いて文書分類を行う文書分類装置の前記階層構造内の余分構造を減退させる装置において、
文書分類装置の論理的分類構造である階層構造を取得する階層構造取得部と、
取得した階層構造の中から類似構造をなす複数の部分階層構造を検出する類似階層構造検出部と、
検出された複数の類似階層構造の中から一の部分階層構造と、削除対象とする他の部分階層構造とを決定する決定部と、
決定部にて削除対象として決定された部分階層構造の各ノードに含まれる分類のための情報である事例集合を取得する事例集合取得部と、
取得した事例集合を、削除対象としない一方の部分階層構造の対応するノードに含まれる事例集合に追加する追加部と、
削除対象として決定された部分階層構造を文書分類装置の文書分類のための階層構造から削除する削除部と、
を有する文書分類装置の余分構造減退装置。
類似階層構造検出部は、各ノードの分類ラベルの類似を判断して部分階層構造の類似を判断するものであり、各ノードの分類ラベルの比較を
分類ラベル文字列が完全一致するかにより判断する完全一致判断手段、
分類ラベルを句読点等で分離した文字列が完全一致するかにより判断する分離判断手段、
分類ラベルの意味が一致するかにより判断する意味判断手段、
のいずれか一を有する請求項４に記載の文書分類装置の余分構造減退装置。
類似階層構造検出部は、前記分類ラベルの比較によって類似すると判断されるノードが反復出現するかを各規模の部分階層構造ごとにソートすることで行う部分階層構造ソート手段をさらに有する請求項５に記載の文書分類装置の余分構造減退装置。